卡方分布

機率分布

卡方分布(英语:chi-square distribution[2], χ²-distribution,或写作χ²分布)是概率论统计学中常用的一种概率分布。k个独立的标准常态分布变量的平方和服从自由度为k的卡方分布。卡方分布是一种特殊的伽玛分布,是统计推断中应用最为广泛的概率分布之一,例如假设检验置信区间的计算。

卡方分布
概率密度函数
累积分布函数
参数 自由度
值域
概率密度函数
累积分布函数
期望
中位数
众数 max{ k − 2, 0 }
方差
偏度
峰度
矩生成函数
特征函数 [1]

由卡方分布延伸出来皮尔逊卡方检验常用于:

  1. 样本某性质的比例分布与总体理论分布的拟合优度(例如某行政机关男女比是否符合该机关所在城镇的男女比);
  2. 同一总体的两个随机变量是否独立(例如人的身高与交通违规的关联性);
  3. 二或多个总体同一属性的同素性检验(意大利面店和寿司店的营业额有没有差距)。(详见皮尔逊卡方检验

数学定义

k个随机变量 、……、 是相互独立且符合标准常态分布随机变量数学期望为0、方差为1),则随机变量Z的平方和

 

被称为服从自由度k卡方分布,记作

 
 

性质

可以在文章右上角的表中看到更多卡方分布的性质。

概率密度函数

卡方分布的概率密度函数为:

 

其中 ,当  。这里Γ代表Gamma函数

累积分布函数

卡方分布的累积分布函数为:

 

其中γ(k,z)为不完全Γ函数

在大多数涉及卡方分布的书中都会提供它的累积分布函数的对照表。此外许多表格计算软件如OpenOffice.org Calc和Microsoft Excel中都包括卡方分布函数。

自由度为k的卡方变量的平均值k方差2k。 卡方分布是伽玛分布的一个特例,它的为:

 

其中 双伽玛函数

卡方变数与Gamma变数的关系

当Gamma变数 频率(λ)为1/2时,α的2倍为卡方变数之自由度。 即:

 
 
 

卡方变数之期望=自由度 卡方变数之方差=两倍自由度

可加性

由定义可得,独立卡方变量之和同样服从卡方分布。特别地,若 分别独立服从自由度为 的卡方分布,那么它们的和 服从自由度为 的卡方分布。

偏差的平方和

k个随机变量 、……、 是相互独立,符合标准常态分布随机变量,则它们与均值之间偏差的平方和

 

其中均值

 

它的平方正比于自由度为1的卡方分布,即

 

卡方分布表

p-value = 1- p_CDF.

χ2越大,p-value越小,则可信度越高。通常用p=0.05作为阈值,即95%的可信度。

常用的χ2与p-value表如下:

自由度k \ P value (概率) 0.95 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.01 0.001
1
0.004 0.02 0.06 0.15 0.46 1.07 1.64 2.71 3.84 6.64 10.83
2
0.10 0.21 0.45 0.71 1.39 2.41 3.22 4.60 5.99 9.21 13.82
3
0.35 0.58 1.01 1.42 2.37 3.66 4.64 6.25 7.82 11.34 16.27
4
0.71 1.06 1.65 2.20 3.36 4.88 5.99 7.78 9.49 13.28 18.47
5
1.14 1.61 2.34 3.00 4.35 6.06 7.29 9.24 11.07 15.09 20.52
6
1.63 2.20 3.07 3.83 5.35 7.23 8.56 10.64 12.59 16.81 22.46
7
2.17 2.83 3.82 4.67 6.35 8.38 9.80 12.02 14.07 18.48 24.32
8
2.73 3.49 4.59 5.53 7.34 9.52 11.03 13.36 15.51 20.09 26.12
9
3.32 4.17 5.38 6.39 8.34 10.66 12.24 14.68 16.92 21.67 27.88
10
3.94 4.86 6.18 7.27 9.34 11.78 13.44 15.99 18.31 23.21 29.59

参考文献

  1. ^ M.A. Sanders. Characteristic function of the central chi-squared distribution (PDF). [2009-03-06]. (原始内容 (PDF)存档于2011-07-15). 
  2. ^ chi 的读音是 /kaɪ/ ,与“开”字的普通话发音相同。

外部链接