Phi相關係數
在統計學裡,「Phi相關係數」(英語:Phi coefficient)(符號表示為: 或 )是測量兩個二元變數(英語:binary variables or dichotomous variables)之間相關性的工具,由卡爾·皮爾森所發明 [1]。他也發明了與Phi相關係數有密切關聯的皮爾森卡方檢定(英語:Pearson's chi-squared test。一般所稱的卡方檢定,若未明指種類,即指此),以及發明了測量兩個連續變數之間相關程度的皮爾森積差相關係數(英語:Pearson's r。一般所稱的相關係數,若未明指種類,即指此)。
Phi 相關係數在機器學習的領域又稱為Matthews相關係數。
定義
首先將兩個變數排成2×2列聯表,注意 1 和 0 的位置必須如同下表,若只變動 X 或只變動 Y 的 0/1 位置,計算出來的Phi相關係數會正負號相反。Phi相關係數的基本概念是:兩個二元變數的觀察值若大多落在2×2列聯表的「主對角線」(英語:diagonal:左上-右下線)欄位,亦即若觀察值大多為 這兩種組合,則這兩個變數呈正相關。反之,若兩個二元變數的觀察值大多落在「非對角線」(英語:off-diagonal:主對角線以外的位置)欄位,對應於2×2列聯表,亦即若觀察值大多為 這兩種組合,則這兩個變數呈負相關。例如我們從兩個隨機二元變數(X, Y)抽樣得出這樣的2×2列聯表:
y = 1 | y = 0 | 總計 | |
---|---|---|---|
x = 1 | |||
x = 0 | |||
總計 |
其中 n11, n10, n01, n00都是非負數的欄位計次值,它們加總為 ,亦即觀察值的個數。由上面的表格可以得出 X 和 Y 的 Phi相關係數如下:
實例
研究者欲觀察性別與慣用手的相關性。虛無假設是:性別與慣用手無相關性。觀察對象是隨機抽樣出來的個人,身上有兩個二元變數(性別 X ,慣用手 Y),X 有兩種結果值(男=1/女=0),Y也有兩種結果值(右撇子=1/左撇子=0)。
觀察兩個二元變數的相關性可以使用Phi相關係數。假設簡單隨機抽樣100人,得出如下的2×2列聯表:
男=1 | 女=0 | 總計 | |
---|---|---|---|
右=1 | 43 | 44 | 87 |
左=0 | 9 | 4 | 13 |
總計 | 52 | 48 | 100 |
本例的Phi相關係數:
本處暫不介紹Phi相關係數的顯著性檢定,僅簡介其詮釋:假設−0.133的相關係數檢定為顯著,在本例對變數 1/0 的指定下,代表身為男性與身為右撇子有輕微的負相關,也就是男性右撇子的比例略低於女性右撇子的比例;或者反過來說,男性左撇子的比例略高於女性左撇子的比例。
與Pearson相關係數的異同
「Phi相關係數」與「Pearson相關係數」在詮釋上非常類似;事實上,使用Pearson相關係數來計算兩個二元變數(各輸入成1/0)之間的相關性時,就會得出Phi相關係數[2] 。
儘管Phi相關係數只是把Pearson相關係數簡化為兩個二元變數的情況,但詮釋這兩種相關係數時仍必須注意其差別。Pearson相關係數的值從−1 到 +1,±1 是其兩個端點,指出完全正相關與完全負相關,0則是無相關。Phi相關係數的極值則受到兩個變數各別的二元結果比例所影響,當兩個變數的二元結果都是50:50時,Phi值才會從−1 到 +1。[3]
與Pearson卡方統計值的關係
一個2×2列聯表的卡方統計值( ),與Phi相關係數呈下述關係[4]:
- 其中 是觀察值的個數。
亦參見
- Phi相關係數的網頁版計算器(頁面存檔備份,存於網際網路檔案館)(還有許多的基礎統計教材和計算器)。
- 列聯表
- Matthews相關係數
- Cramér's V:類別變數間相關性的另一個測量法。
- Polychoric相關:當兩個連續變項被人為地改成二分變項時,求其相關性。其中一種是「四分相關」。
註腳
- ^ Cramer, H. 1946. Mathematical Methods of Statistics. Princeton: Princeton University Press, p282 (second paragraph). ISBN 0-691-08004-6
- ^ Guilford, J. (1936). Psychometric Methods. New York: McGraw–Hill Book Company, Inc.
- ^ 詳見:Davenport, E., & El-Sanhury, N. (1991). Phi/Phimax: Review and Synthesis. Educational and Psychological Measurement, 51, 821–828.
- ^ Everitt B.S. (2002) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X