偽關係

(重定向自假相關

偽關係,又稱為虛假關係(英語:Spurious relationship),指在兩個沒有因果關係的事件,可能基於其他未見的干擾因素(英語:confounding factor;或稱潛在變數,英語:lurking variable),顯示出統計學上的相關,让人很容易猜想「兩個事件有所聯繫」,然而這種聯繫並不能通過更加精細的檢驗。

另外,伪相关现象出现的另一种情形是在变數個數很多但抽样样本量不大时,即使这些变量互相独立,也有很大可能得出變數之間高相關性的偽關係。

另一個造成偽關係的原因是對對撞因子進行控制,這包括選擇偏誤、倖存者偏差、使用了不當的迴歸模型等情況。

相關係數與偽關係

兩個變量可能會受第三者影響,從而在其間得出誤導性的相關係數。當變量 X 和 Y 有相關時,有幾種常見的可能原因:

  1. X → Y
  2. X ← Y
  3. X ← C → Y(C 是干擾變量
  4. C → X → Y(C是工具變量
  5. X → C → Y(C 是中介變量
  6. X → C ← Y(C 是對撞變量

前兩種情況是實際的關係,但必須透過控制實驗縱向研究才能確認孰因孰果。第三種情況是偽關係,如果能控制住C變數,X和Y就不再相關。然而在第四種及第五種情況中,在控制住 C 之後,也可能造成 X 和 Y 的關係消失,而誤以為是偽關係。而第六種情況中,控制了C反而會產生原本不存在的關係。

示例

例一
  • 統計研究發現,冰淇淋銷量最高的時候,就是公共泳池的溺水事故發生得最多的時候。

然而,有可能熱浪造成冰淇淋銷量和公共泳池的溺水事故增多。若視冰淇淋的銷量或遇溺事故為對方的成因,可能就被偽關係誤導了。

例二
  • 荷蘭的統計數字顯示,在一連串的春季中,鸛鳥巢的數目與人類嬰兒出生數目之間呈現正相關。

兩者之間未必有因果關係。事實上,它們都和數据觀測之前9個月的天氣相關[1]

例三
  • 高度民主、注重法治的國家大多富裕繁榮,可見制度對經濟有決定性的影響。

然而,有可能是其他的因素,像是社會對工作倫理的信念等,同時導致了民主、法治和富裕。

例四

然而,有可能朝代滅亡和寵幸美女是因為別的因素,如君王本身的性格等所造成的。若將美女的出現與朝代的滅亡視為對方的成因,可能就被偽關係誤導了。

例五
  • 所有喝過水的人都會死。所以喝水會致死。

喝過水的人確實死了,但沒有反向證明不喝水不會死,所以兩者是種偽關係。

例六
  • 日本人長壽,是因為他們常吃魚所致。

然而傳統上日本人也少吃肉,而比起吃魚有益健康,有更多研究指出少吃肉或不吃肉有益健康,因此這說法忽略了日本人的長壽可能其實是因為少吃肉、飲食習慣更偏向素食所致。

實驗

偽關係一詞常用於統計學上,特別是在實驗的測定結果上。實驗一般用以檢測如「X → Y」的因果關係。然而兩者的共同因素(W → X & Y)可造成非因果關係的相關。另外,如「X → W → Y」形的中介變數若沒有察覺出來的話,兩者非直接的關係便會看似是直接的。因此,除非能排除偽關係的可能性,否則實驗得出的相關並不代表因果關係。

實際上,下列三個條件都要成立,才可以得出X導致Y的結論:

  • X發生在Y之前
  • 若X不發生則Y也不發生
  • 若X發生則Y一定發生

如果上面三項中任何一項不符合,就可以確認出偽關係。

参考文献

  1. ^ Roger Sapsford, Victor Jupp (编). Data Collection and Analysis. Sage. 2006. ISBN 0-7619-4362-5. 

參見

外部連結