费雪法 (统计学)

费雪法(英语:Fisher's method),或称费雪合并机率检验(英语:Fisher's combined probability test)是统计学中用于合并多个p值的方法,[1][2]罗纳德·爱尔默·费雪所创,常应用于元分析。其基本形式是结合源于同一个虚无假设H0)之下多个独立性检验的结果。

以费雪法合并两个p值P1P2)。例如,当P1P2皆为0.1时,合并之p值约为0.05。颜色最深的区域表示整体p值小于0.05。

应用

费雪法用于结合各个检验的极端值机率(即p值)成一个卡方统计量

 

其中pi为第i个检验之p值。当pi较小则卡方统计量X2较大而拒绝整体虚无假说。

若所有的虚无假说皆为真,且pi(或各统计检验量)皆相互独立,则X2服从自由度为2k卡方分布,其中k表示所有参与的假说检定个数。按此可以取得联合检验之p值,即对多个p值进行合并。

此卡方统计量的分布服从卡方分布的原因是:对于每一个统计检验i,其p值(pi)服从界于0至1的均匀分布。均匀分布取自然对数的相反数又服从指数分布。指数分布乘2又服从自由度为2的卡方分布。最终,k项独立的卡方统计量(每项自由度为2)之总和服从自由度为2k的卡方分布。

独立性前提的限制

当各检验不独立时,X2偏大、整体p值偏小使推论过份偏好对立假说。因此,在不独立的统计检验量间使用费雪法时,若整体p值较大较无所谓;但若整体p值很小则可能发生型一错误

独立性前提的扩展

在统计检验不相互独立时,X2虚无分布英语Null distribution并不单纯。常见的策略是采用缩放过的卡方随机变数近似虚无分布。若已知p值间的共变异数,亦存在其它近似方法。

布朗法英语Extensions of Fisher's method为例,[3]该方法可用于结合二个相依p值,当其统计检定量为共变异数矩阵已知的多元常态分布。此外,科斯特法英语Extensions of Fisher's method扩大了布朗法的条件:共变异数矩阵由已知扩展至未知但具纯量乘法常数即可。[4]

在相依结构未知时,调和平均p值英语Harmonic mean p-value可以代替费雪法,但仍不可假设检验相互独立。[5][6]

结果解读

费雪法通常用于一系列相互独立的统计检验,例如是具有相同虚无假说的各别研究。这与元分析的虚无假说经常是各别的虚无假说皆为真的情况相符。因此,费雪法结果若支持对立假说,则可解读为至少存在一个对立假说为真。

在某些情况下,考虑各研究的“异质性”是有意义的,特别是某些研究支持虚无假说但某些支持对立假说,或是不同研究具有不同的对立假说。不同的对立假说形成的异质性可能是源于效果量在不同研究间不均。例如,考虑一系列针对葡萄糖摄取量对罹患第2型糖尿病的风险之研究,由于各研究间的对象存在遗传或环境上的差异,特定葡萄糖摄取量所对应的罹患风险在各研究间亦可能不同。

在各别对立假说是全真或全伪的情况下,例如检验某种物理定律,单独研究或实验的结果若不一致则是偶然造成的,例如存在检定力差异。

在元分析中若采用双尾检验英语One- and two-tailed tests,即使部分各别研究指出存在强烈但方向不等的效果,仍可能拒绝整体虚无假设。在这种情况下,虽然可以解读为至少存在一个研究中的虚无假说为伪,但这并不意味著应支持所有研究的对立假说。因此,双尾元分析对对立假说中的异质性特别敏感。采用单尾检验英语One- and two-tailed tests的元分析可以检测效果量的异质性,但侧重于单一且预先指定的影响方向。

与斯托夫Z值法的关系

 
斯托夫Z值法与费雪法的关系以z与−log(p)的关系表示。

斯托夫Z值法(由社会学家山缪·安德鲁·斯托福英语Samuel A. Stouffer所创)与费雪法的作用相似,但前者可纳入不同研究间具有不同的权重。[7][8][9]

Zi  =  Φ − 1(1−pi),其中Φ为标准常态分布累积分布函数,则

 

称为元分析的整体Z值,其中w为各研究的权重。

由于费雪法基于“平均p值”而斯托夫Z值法基于“平均z值”,二者的关系遵循z与−log(p) = −log(1−Φ(z))的关系。在常态分布之下,二者并非线性关系,但z值经常存在的范围(1至5)之内的关系较线性。因此,二种方法的检定力通常很接近。

参考资料

  1. ^ Fisher, R.A. Statistical Methods for Research Workers . Oliver and Boyd (Edinburgh). 1925. ISBN 0-05-002170-2. 
  2. ^ Fisher, R.A.; Fisher, R. A. Questions and answers #14. The American Statistician. 1948, 2 (5): 30–31. JSTOR 2681650. doi:10.2307/2681650. 
  3. ^ Brown, M. A method for combining non-independent, one-sided tests of significance. Biometrics. 1975, 31 (4): 987–992. JSTOR 2529826. doi:10.2307/2529826. 
  4. ^ Kost, J.; McDermott, M. Combining dependent P-values. Statistics & Probability Letters. 2002, 60 (2): 183–190. doi:10.1016/S0167-7152(02)00310-3. 
  5. ^ Good, I J. Significance tests in parallel and in series. Journal of the American Statistical Association. 1958, 53 (284): 799–813. JSTOR 2281953. doi:10.1080/01621459.1958.10501480. 
  6. ^ Wilson, D J. The harmonic mean p-value for combining dependent tests. Proceedings of the National Academy of Sciences USA. 2019, 116 (4): 1195–1200. Bibcode:2019PNAS..116.1195W. PMC 6347718 . PMID 30610179. doi:10.1073/pnas.1814092116 . 
  7. ^ Stouffer, S.A.; Suchman, E.A.; DeVinney, L.C.; Star, S.A.; Williams, R.M. Jr. The American Soldier, Vol.1: Adjustment during Army Life. Princeton University Press, Princeton. 1949. 
  8. ^ Mosteller, F.; Bush, R.R. Selected quantitative techniques. Lindzey, G. (编). Handbook of Social Psychology,Vol1. Addison_Wesley, Cambridge, Mass. 1954: 289–334. 
  9. ^ Liptak, T. On the combination of independent tests. Magyar Tud. Akad. Mat. Kutato Int. Kozl. 1958, 3: 171–197. 

相关条目

外部链接