傾向評分匹配

傾向評分匹配（Propensity Score Matching，簡稱PSM）是一種統計學方法，用於處理觀察研究（Observational Study）的數據。在觀察研究中，由於種種原因，數據偏差（bias）和混雜變量（confounding variable）較多，傾向評分匹配的方法正是為了減少這些偏差和混雜變量的影響，以便對實驗組和對照組進行更合理的比較。這種方法最早由Paul Rosenbaum和Donald Rubin在1983年提出^[1]，一般常用於醫學、公共衛生、經濟學等領域。以公共衛生學為例，假設研究問題是吸煙對於大眾健康的影響，研究人員常常得到的數據是觀察研究數據，而不是隨機對照實驗數據（Randomized Controlled Trial data），因為吸煙者的行為和結果，以及不吸煙者的行為和結果，是很容易觀察到的。但如果要進行隨機對照實驗，招收大量被試，然後隨機分配到吸煙組和不吸煙組，這種實驗設計不太容易實現，也並不符合科研倫理。這種情況下觀察研究是最合適的研究方法。但是面對最容易獲得的觀察研究數據，如果不加調整，很容易獲得錯誤的結論，比如拿吸煙組健康狀況最好的一些人和不吸煙組健康狀況最不好的一些人作對比，得出吸煙對於健康並無負面影響的結論。從統計學角度分析原因，這是因為觀察研究並未採用隨機分組的方法，無法基於大數定理的作用，在實驗組和對照組之間削弱混雜變量的影響，很容易產生系統性的偏差。傾向評分匹配就是用來解決這個問題，消除組別之間的干擾因素。

適用情形

傾向評分匹配法適用於兩類情形。第一，在觀察研究中，對照組與實驗組中可直接比較的個體數量很少。在這種情形下，實驗組和對照組的交集很小，比如治療組健康狀況最好的10%人群與非治療組健康狀況最差的10%人群是相似的，如果將這兩個重合的子集進行比較，就會得出非常偏倚的結論。第二，由于衡量個體特徵的參數很多，所以想從對照組中選出一個跟實驗組在各項參數上都相同或相近的子集作對比變得非常困難。在一般的匹配方法中，我們只需要控制一兩個變量（如年齡、性別等）即可，就可以很容易從對照組中選出一個擁有相同特徵的子集，以便與實驗組進行對比。但是在某型情形下，衡量個體特徵的變量會非常多，這時想選出一個理想的子集變得非常困難。經常出現的情形是，控制了某些變量，但是在其他變量上差異很大，以至於無法將實驗組和對照組進行比較。

傾向評分匹配通過使用邏輯斯諦迴歸模型來決定評分。

參考文獻

^ Rosenbaum, Paul R.; Rubin, Donald B. The Central Role of the Propensity Score in Observational Studies for Causal Effects. Biometrika. 1983, 70 (1): 41–55. doi:10.1093/biomet/70.1.41.

外部連結

Introduction to Propensity Score Matching: A New Device for Program Evaluation^{[永久失效連結]}. Lecture notes 2004
Implementing Propensity Score Matching Estimators with STATA （頁面存檔備份，存於網際網路檔案館）. Lecture notes 2001

[1] Rosenbaum, Paul R.; Rubin, Donald B. The Central Role of the Propensity Score in Observational Studies for Causal Effects. Biometrika. 1983, 70 (1): 41–55. doi:10.1093/biomet/70.1.41.

[1]