虛擬變量

虛擬變量(英語:dummy variable),又稱啞變量,指在統計學計量經濟學,尤其是迴歸分析中僅取0或1的值,以此表示某些可能改變結果的定性效應之有無的變量。[1][2]可以認為,虛擬變量是回歸模型中用數字來替代並表示定性事實,從而將數據分為互斥的類別(如吸煙者及非吸煙者)。[3]

虛擬自變量(又稱虛擬解釋變量)取值為0時,該變量的係數因變量沒有影響,而當虛擬變量取值為1時,其係數會改變截距。例如,假定某人是否為某組的成員是與回歸相關的定性變量之一,如果屬於該組成員以1代表,則其他所有人獲得0值,此時截距對非成員是常數項,對成員則是常數項加上「成員」虛擬變量的係數。[4]

虛擬變量常用於時間序列分析,包括狀態轉換、季節性分析和定性數據應用。

引入虛擬自變量

 
圖1:wage = α0 + δ0female + α1education + U的圖像,其中δ0 < 0

回歸模型中,引入虛擬變量的方式與引入定量變量(作為解釋變量)的方式相同。例如,假設一個工資(wage)的明瑟回歸模型,其中工資受性別(以female表示的虛擬變量,定性)和教育年限(education,定量)的影響,則:

 

其中 誤差項。在模型中,當一個人是女性時,female = 1,當是男性時,female = 0。 δ0可以理解為教育條件一樣時,女性和男性之間的工資差異。因此,δ0有助於確定男女之間的工資是否存在差異。例如,如果δ0 > 0(正係數),則女性的工資高於男性(其他因素不變)。附加在虛擬變量前的係數稱為差別截距係數(differential intercept coefficient)。在模型的圖像上,它可視為女性及男性之間截距的差異。圖中顯示的為δ0 < 0(男性的工資高於女性)的情形。[5]

虛擬變量可擴展到更為複雜的情況,例如通過替每個季節設置虛擬變量來捕捉季節效應:夏季時 ,其他季節取0;秋季時 ;冬季時 ;春季時 。在面板數據中,可為橫截面數據(如公司或國家)中的每個單位或匯總時間序列中的時期設置固定效應估計虛擬變量。在此種迴歸中,必須刪除常數項或刪除其中一個虛擬變量,將其作為評估其他類別的基本類別,以避免落入虛擬變量陷阱(dummy variable trap):

所有回歸方程中的常數項是一個係數乘以一個等於1的回歸量。當回歸表示為矩陣方程時,回歸量矩陣由一列1(常數項)、0和1向量(虛擬變量)以及其他回歸量(若有)組成。例如,如果一個模型同時包含男性和女性虛擬變量,則這些向量的總和是全一向量,因為每個觀察都要麼歸為男性,要麼歸為女性。因此,這個總和等於常數項的回歸量,即第一個向量。結果,即使使用典型的偽逆法,回歸方程也無法求解。換句話說:如果全一向量(常數項)回歸量和一組窮舉的虛擬變量同時存在,則會出現完全多重共線性[6],回歸形成的方程組沒有唯一解。此即虛擬變量陷阱。可通過刪除常數項或其中一個有問題的虛擬變量以避免陷阱,而被刪除的虛擬變量即作為與其他類別進行比較的基本類別。

方差分析模型

若一個回歸模型中,因變量本質上是定量的,但所有解釋變量都是虛擬變量(本質上是定性的),這種回歸模型稱為方差分析(ANOVA)模型。[3]

有一個定性變量的方差分析模型

假定我們要進行回歸以了解公立學校教師的平均年薪在A國51個州的三個地理區域之間是否存在差異,其中這三個區域分別為:(1)北部(21 個州),(2)南部(17 個州),(3)西部(13 個州)。假設簡單算術平均工資如下:$24,424.14(北)、$22,894(南)、$26,158.62(西)。其算術平均值不同,但它們在統計上是否有意義?為了比較平均值,可以使用方差分析技術。回歸模型可以定義為:

 

其中

  i州公立學校教師的平均年薪
若i州在北部地區,則 
否則 (除北部以外的任何地區)
若i州在南部地區, 
否則 

該模型中只有定性回歸量,如果觀測屬於特定類別,則取值為1,如果屬於任何其他類別,則取值為0。因此,它是一個方差分析模型。

 
圖 2:方差分析模型示例回歸結果的圖像:A國3個地區公立學校教師的平均年薪。

現在,考慮雙方的期望值,可得到以下信息:

北部地區公立學校教師平均工資:

E(Yi|D2i = 1, D3i = 0) = α1 + α2

南部地區公立學校教師平均工資:

E(Yi|D2i = 0, D3i = 1) = α1 + α3

西部地區公立學校教師平均工資:

E(Yi|D2i = 0, D3i = 0) = α1

(期望值中不含誤差項,因為我們假設它滿足通常的普通最小二乘法條件,即E(ui) = 0。)

期望值可以解釋如下:西部公立學校教師的平均工資等於多元回歸方程中的截距項α1,加上差別截距係數α2α3,後者解釋為南部、北部地區的教師工資均值與西部地區相差多少。因此,北部和南部教師的平均工資與西部教師的平均工資進行比較。西部地區因此成為基準組,即與之進行比較的組。省略的組別(即沒有分配虛擬變量的組別)作為基準組別。

使用這些數據進行回歸的結果為:

Ŷi = 26,158.62 − 1734.473D2i − 3264.615D3i
se = (1128.523) (1435.953) (1499.615)
t = (23.1759) (−1.2078) (−2.1776)
p = (0.0000) (0.2330) (0.0349)
R2 = 0.0901

其中,se = 標準誤差t = t統計量英語t-statisticp = p值

回歸結果可以解釋為:西部教師(基準組)的平均工資約為$26,158;與之相比,北部教師的工資低約$1734($26,158.62 - $1734.473 = $24,424.14,即平均工資北部教師的工資),南部教師的工資低約$3265($26,158.62 - $3264.615 = $22,894,即南部教師的平均工資)。

要確定南、北部教師的平均工資與西部教師的平均工資(比較組別)在統計學上是否有差異,我們必須找出回歸結果的斜率係數是否具有統計學意義。為此,我們需要考慮p值。北部的估計斜率係數在統計上並不顯着,因為它的p值為23%;然而,南部的p值僅在3.5%左右,在5%的水平上具有統計顯著性。因此,總體結果是:西部和北部教師的平均工資在統計上沒有顯著差異,但南部教師的平均工資在統計上比西部低$3265左右。模型如圖2所示。該模型是一個方差分析模型,其中,一個定性變量具有3個類別。[3]

有兩個定性變量的方差分析模型

考慮具有兩個定性變量的方差分析模型,每個變量都有兩個類別:因變量「時薪」使用定性變量「婚姻狀況」(已婚/未婚)和「地理區域」(北部/非北部)來解釋。其中,婚姻狀況和地理區域是兩個解釋性虛擬變量。[3]

假設基於某些給定數據的回歸輸出如下所示:

Ŷi = 8.8148 + 1.0997D2 − 1.6729D3

其中,

Y為時薪(單位:$)
D2為婚姻狀況,1 = 已婚,0 = 未婚
D3為地理區域,1 = 北部,0 = 非北部

該模型為每個定性變量分配了一個虛擬變量,比每個變量中包含的類別數少一個。

這裡,基準組是省略的組別:未婚、非北方地區的人。所有比較都與該基準組或省略的組別相關。基準組的平均時薪約為$8.81(截距項)。相比之下,已婚人士的平均時薪高出約$1.10,約為$9.91($8.81 + $1.10)。相比之下,居住在北方的人的平均時薪低約$1.67,約為$7.14($8.81 - $1.67)。

一般來說,如果回歸中包含一個以上的定性變量,則應選擇一個省略的組別作為基準組。所有比較都與該組相關。截距項將顯示基準組的期望值,斜率係數顯示其他組別與基準(省略)組別的差異程度。[3]

協方差分析模型

包含定量和定性變量的混合回歸模型稱為協方差分析英語Analysis of covariance(ANCOVA)模型。 協方差分析模型是方差分析模型的擴展。它們統計控制定量解釋變量(也稱為協變量或控制變量)的影響。[3]

為了說明如何包含定性和定量回歸變量來形成協方差分析模型,假設我們考慮在方差分析模型中使用的相同示例,其中有一個定性變量:A國三個地理區域的公立學校教師的平均年薪。如果我們包括一個定量的變量:州政府對每名公立學校學生的財政支出,則這一回歸中,可得到以下模型:

 
圖3:協方差分析模型示例的回歸結果:公立學校教師的年薪(Y)與公立學校每名學生的州財政支出之間的關係。
Yi = α1 + α2D2i + α3D3i + α4Xi + Ui

其中,

Yi = i州公立學校教師的平均年薪
Xi = 公立學校每名學生的州財政支出
D2i = 1,若i州在北部地區
否則D2i = 0
D3i = 1,若i州在南部地區
否則D3i = 0

假設這個模型的回歸輸出是

Ŷi = 13,269.11 − 1673.514D2i − 1144.157D3i + 3.2889Xi

結果表明,公立學校每名學生的州財政支出每增加$1,公立學校教師的平均工資就會增加約$3.29。此外,對於北部地區的一個州,教師的平均工資比西部地區低約$1673,對於南部地區的一個州,教師的平均工資比西部地區低約$1144。圖3描繪了該模型。假設支出係數不因州而異,則平均工資線彼此平行。圖中分別顯示了每個類別中,兩個定量變量之間的關係,即公立學校教師的工資(Y)與公立學校每名學生的州財政支出(X)之間的關係。[3]

虛擬變量間的交互作用

回歸模型中的定量回歸變量通常存在交互作用。同樣,定性的回歸變量,即虛擬變量之間也可能有交互作用,這些交互作用可在回歸模型中描述。例如,在涉及工資確定的回歸中,如果考慮兩個定性變量:性別和婚姻狀況,則婚姻狀況和性別之間可能存在交互作用。[5]這些交互作用可以在回歸方程中顯示,如下例所示。

由於兩定性變量是性別和婚姻狀況,定量的解釋變量是受教育年限,解釋變量純線性的回歸將是

Yi = β1 + β2D2,i + β3D3,i + αXi + Ui

其中

i表示某個特定個人
Y = 時薪(單位:$)
X = 受教育年限
D2 = 1若為女性,否則為0
D3 = 1若已婚,否則為0

這一模型無法表達兩個定性變量D2D3之間發生交互作用的可能性。例如,已婚女性的工資與未婚男性的工資差異,其數額與單獨為女性和單獨為已婚的差值之和不同。為了考慮這種可能性,工資的確定可以指定為:

Yi = β1 + β2D2,i + β3D3,i + β4(D2,iD3,i) + αXi + Ui

其中,

β2 = 作為女性的差別效應
β3 = 已婚的差別效應
β4 = 女性且已婚的進一步差別效應

根據該等式,在沒有非零誤差的情況下,未婚男性的工資為β1 + αXi,未婚女性的工資為β1 + β2 + αXi,已婚男性的工資為β1 + β3 + αXi,而已婚女性的比例是β1 + β2 + β3 + β4 + αXi(其中任何虛擬變量係數的估計值都可能是為正、零,或負)。

由此,交互虛擬變量(兩個虛擬變量的乘積)會改變因變量,使之與單獨考慮兩個虛擬變量時得到的值有所不同。[3]

或者,可以通過使用不同的數據分類方案來避免使用虛擬變量的乘積來表達交互作用,即使用根據特徵組合指定組別的方案。如果令

D4 = 1若為未婚女性,否則為0
D5 = 1若為已婚男性,否則為0
D6 = 1若為已婚女性,否則為0

那麼僅需指定如下回歸:

Yi = δ1 + δ4D4,i + δ5D5,i + δ6D6,i + αXi + Ui

那麼在零誤差項下,因變量的值是對於基準組未婚男性為δ1 + αXi,對於未婚女性為δ1 + δ4 + αXi,對於已婚男性為δ1 + δ5 + αXi,對於已婚女性為δ1 + δ6 + αXi。該方法在等號右側使用的變量數與先前具有交互項的方法相同,並且使用本方法還是指定交互項目的方法,對於Xi下任意定性特徵組合下的因變量預測值,給出的回歸結果是相同的。

虛擬因變量

因變量是虛擬變量的情景

具有虛擬因變量(也稱為定性因變量)的模型中,因變量受解釋變量的影響是定性的。例如,一些關於執行「多少」行為的決定涉及事先決定是否執行該行為;「事前決策」的回歸在回歸模型中有一個因虛擬變量。[7]

例如,潛在工人成為勞動力一部分的決策是一個虛擬因變量。該決策是二分的,即有兩種可能的結果:是和否。因此,虛擬因變量Participation在「參與」時取值為1,「不參與」則取值為0。[3]下面給出其他一些二元的虛擬因變量的例子:

  • 決策:職業選擇。虛擬因變量:若選擇成為高管,則 高管=1,否則為0。
  • 決策:隸屬於某政黨。虛擬因變量:若隸屬於某政黨,則 隸屬=1,不加入則為0。
  • 決策:退休。虛擬因變量:若已退休,則 退休=1,0表示未退休。

當虛擬因變量具有兩個以上的值時(例如隸屬於多個政黨),它就變成了多響應(或多項式、多叉分枝)模型。[7]

虛擬因變量模型

虛擬因變量模型的分析有不同的方法。其中一種是通常的普通最小二乘法,在該情景下稱為線性概率模型英語linear probability model。另一種方法是假設存在一個不可觀察的連續潛變量Y*,如果Y* > 0,則觀察到的二分變量Y = 1,否則為0。這是邏輯斯諦概率單位模型英語Probit model的基本理念。這些模型將在下面簡要討論。[8]

線性概率模型

普通最小二乘法模型中,若因變量Y是二分的虛擬變量,取值0或1,則稱該模型為線性概率模型英語linear probability model(LPM)。[8]假設考慮以下回歸:

 

其中 

  = 家庭收入
 若住房為家庭自有,0若住房非家庭自有

該模型稱為線性概率模型,是因為回歸是線性的。給定Xi條件下的Yi條件均值記作 ,可解釋為在相應Xi值下,事件發生的條件概率,即Pr(Yi = 1 | Xi) 。在這個例子中, 表示的是當家庭收入為Xi時,一個家庭自有住房的概率。

此時,使用普通最小二乘法的假設 ,可得到

 

LPM模型中存在一些固有問題:

  1. 回歸線無法做到擬合良好,因此諸如R2之類的顯著性度量將不可靠。
  2. 使用LPM方法分析的模型有異方差干擾。
  3. 誤差項有非正態分布。
  4. LPM可能會給出大於1或小於0的因變量的預測值。這將很難作出解釋,因為預測值是概率,必須介於0和1之間。
  5. LPM模型的變量之間可能存在非線性關係,在這種情況下,線性回歸將無法準確擬合數據。[3][9]

線性概率模型的替代品

 
圖 4:累積分布函數

為了避免LPM的局限性,我們需要一個模型,其中隨着解釋變量Xi的增加,Pi = E(Yi = 1 | Xi)應恆在0到1之間。因此,自變量和因變量之間的關係必然是非線性的。

為此,可以使用累積分布函數(CDF) 來估計虛擬因變量回歸。圖4顯示了一條S形曲線,它類似於隨機變量的累積分布函數。該模型中,概率在0和1之間,並且已經捕獲了非線性關係。此時的問題就是如何選用累積分布函數。

可以使用兩種替代性的CDF:邏輯斯諦英語Logistic distributionCDF和正態CDF。邏輯斯諦CDF產生邏輯斯諦模型,正態CDF產生概率單位模型英語Probit model[3]

邏輯斯諦模型

LPM的缺點促使人們開發了一種改良的模型,稱為logit模型。該模型中,回歸方程中誤差項的累積分布是邏輯斯諦分布英語Logistic distribution[8]因為它是非線性的,其回歸更接近現實。

使用最大似然法估計logit模型。該模型中,  ,即在給定自變量的情況下,因變量取值為1的概率為:

 

然後模型以讓步比英語odds ratio的形式表示:邏輯斯諦回歸(對數幾率回歸)中建模的是幾率的自然對數,幾率定義為  。取幾率的自然對數,logit(Li)表示為

 

這種關係表明,LiXi呈線性關係,但概率與Xi呈非線性關係。[9]

概率單位模型

概率單位(probit)模型是為彌補LPM的缺點而提出的另一個模型。Probit模型使用與logit模型相同的非線性方法。但是,它使用正態CDF而不是邏輯CDF。[8]

參見

參考文獻

  1. ^ Draper, N. R.; Smith, H. ‘Dummy’ Variables. Wiley. 1998: 299–326. ISBN 0-471-17082-8. 
  2. ^ Interpreting the Coefficients on Dummy Variables (PDF). (原始內容 (PDF)存檔於August 18, 2003). 
  3. ^ 3.00 3.01 3.02 3.03 3.04 3.05 3.06 3.07 3.08 3.09 3.10 Gujarati, Damodar N. Basic Econometrics. McGraw Hill. 2003. ISBN 0-07-233542-4. 
  4. ^ Kennedy, Peter. A Guide to Econometrics Fifth. Cambridge: The MIT Press. 2003: 249–250. ISBN 0-262-61183-X. 
  5. ^ 5.0 5.1 Wooldridge, Jeffrey M. Introductory econometrics: a modern approach. Cengage Learning. 2009: 865 [2022-07-22]. ISBN 978-0-324-58162-1. (原始內容存檔於2022-07-22). 
  6. ^ Suits, Daniel B. Use of Dummy Variables in Regression Equations. Journal of the American Statistical Association. 1957, 52 (280): 548–551. JSTOR 2281705. doi:10.1080/01621459.1957.10501412. 
  7. ^ 7.0 7.1 Barreto, Humberto; Howland, Frank. Chapter 22: Dummy Dependent Variable Models. Cambridge University Press. 2005 [2022-07-22]. ISBN 0-521-84319-7. (原始內容存檔於2021-10-17). 
  8. ^ 8.0 8.1 8.2 8.3 Maddala, G S. Introduction to econometrics. Macmillan Pub. Co. 1992: 631 [2022-07-22]. ISBN 0-02-374545-2. (原始內容存檔於2022-07-22). 
  9. ^ 9.0 9.1 Adnan Kasman, Dummy Dependent Variable Models. [2022-07-22]. (原始內容存檔於2021-04-30). 

延伸閱讀

外部連結