缺失數據

缺失數據(英語:missing data)指在統計調查的過程中,由於受訪者對問題的遺漏、拒絕,或是調查員與調查問卷本身的一些疏忽,使得經常會出現缺失數據問題,但是幾乎所有標準統計方法都假設每單個案有可用於分析的所有變數資訊,因此缺失數據就成為統計研究或問卷調查的工作人員必須解決的問題。

Paul D. Allison英語Paul D. Allison在其2011年出版的Missing Data一書中提到許多解決缺失數據問題的方案,而它們各有利弊。

相關概念[1]

介紹缺失數據的解決方案前須明白幾個相關的統計概念:

完全隨機缺失(missing completely at random, MCAR)

假設一個特殊變量Y有缺失數據。如果Y缺失數據的機率與Y本身的值或在該數據組中任何其他變量的值都無關的話,那麼Y的數據就是完全隨機缺失的(MCAR)。

隨機缺失(missing at random, MAR)

如果在分析中控制了其他變量後,Y缺失數據的機率與Y值無關,則稱Y的數據為隨機缺失(MAR)的,即:

Pr(Y missing|Y,X)=Pr(Y missing|X)。

不隨機缺失(missing not at random, MNAR)

缺失資料發生的原因與缺失資料本身的有相關。是不可忽略的缺失。

可忽略的

如果數據為MAR且管制缺失數據過程的參數與要估計的參數無關,則缺失數據的機制是可忽略的。在某些情況下,MAR和可忽略性可以視為相等的條件。

不可忽略的

如果數據不是MCAR或MAR,則說缺失數據機制是不可忽略的。

缺失數據解決方案

解決缺失數據問題的方法主要有成列刪除、成對刪除、虛擬變量調整、插補、多重插補和最大概似

成列刪除

成列刪除的思想是:在分析中當某個案的任何變量有缺失數據時,便簡單地將該個案從分析中排除。也稱為個案刪除。

成列刪除方法的優點有:

  1. 可用於任何類型的統計分析。
  2. 不需特別的運算方法。
  3. 如果數據是MCAR,則減少的樣本將會是原樣本的一個隨機次樣本
  4. 如果任何應變數缺失數據的機率不取決於自變數的值,則使用成列刪除的迴歸估計值將會是不偏誤的。

成列刪除方法的缺點有:

  1. 標準誤通常較大。
  2. 如果數據不是MCAR而只是MAR,那麼成列刪除可能會產生偏誤誤的估計值。

成對刪除

成對刪除的原理是:通過所有可得的個案來計算這些敘述統計的每一個。成對刪除又稱可得個案分析。

成對刪除方法的優點是:如果數據為MCAR,成對刪除就產生一致的參數估計值(在大樣本中接近不偏誤),且有比成列刪除更少的抽樣變異(較小的真實標準誤),而當變量間相關性普遍較低時,成對刪除會產生更有效的估計值。

成對刪除方法的缺點有:

  1. 如果數據是MAR但不是隨機被觀察到的,估計值可能會嚴重偏誤。
  2. 由統計軟體所產生的標準誤和檢定統計量估計時偏誤的。
  3. 在小樣本中,建構的共變異數或相關矩陣可能不是「正定的」。

虛擬變量調整

虛擬變量調整或缺失指標方法:假設某變量X有一些缺失數據,X為迴歸分析中數個自變數的其中一個,那麼可以建立一個虛擬變量D,如果X存在數據缺失則D=1,否則D=0。同時建立一個變量X',使得當不存在數據缺失時X'=X,否則X'等於一個任意常數c。迴歸應變數Y於X'、D及其他在預設模型中的所有變量。

虛擬變量調整方法的優點是:它使用了所有可用的關於缺失數據的資訊。

虛擬變量調整方法的缺點是:它通常會產生偏誤誤的係數估計值。

插補

插補方法的基本原理是:以某些合理的猜測插補或替代缺失值,然後再接著按沒有缺失數據的情況分析。但是,按照完整數據的情況分析插補數據會低估標準誤、高估檢定統計量。

多重插補

多重插補法(MI)具有與最大概似法相同的最適特性,但卻排除了某些局限性。特別是當數據為MAR時,正確使用多重插補會產生一致的、漸近有效且漸近常態的估計值。多重插補的另一個優勢是,它幾乎可以被任何一種數據或模型所使用,且分析可用未修改的、傳統的軟體執行。不過,多重插補也有缺點,執行可能很麻煩也很易出錯,最嚴重的是每次使用多重插補時,都會產生不同的估計值。

最大概似

最大概似是一個有效且實用的處理隨機缺失數據的方法,且對於大樣本來說是最合適的,但它有一個限制條件:它需要包含所有缺失變量的聯合機率的模型。因此比較適合於線性模型和對數線性模型。

  1. 當缺失數據是MAR時,可以簡單地通過加總所有缺失數據可能值的一般概似來獲得概似,原來的問題就變成了尋找儘可能使這個概似值最大化的參數值。
  2. 當缺失數據服從某一單調形態時,可以將概似因子化運用到用傳統軟體估計的條件式及邊際分布中,但是這一方法不容易得到好的標準誤及檢定統計量的估計值。
  3. 一般缺失數據模式可用「期望值最大化(EM)」的算法來處理,其優點有:容易使用且在很多商業的或免費的軟體中都可以執行,缺點為:由線性模型化所報告的軟體標準誤和檢定統計量並不正確,且對於過度識別模型,估計值不是全然有效的。

不可忽略的缺失數據

任何有關不可忽略的缺失數據的方法都應伴隨一個敏感度分析,因為根據假設的模型,結果可能變化很大,故試驗一貌似有理範圍的模型並看它們是否產生相同的結果是很重要的。

參考文獻

  1. ^ 缺失資料在因素分析上的處理方法之研究 (PDF). 缺失資料在因素分析上的處理方法之研究. [2022-09-26]. (原始內容存檔 (PDF)於2022-09-26).