設計矩陣

設計矩陣(英語:design matrix、model matrix、regressor matrix)在統計學機器學習中,是一組觀測結果中的所有解釋變量的值構成的矩陣,常用X表示。設計矩陣常用於一些統計模型,如一般線性模型方差分析中。

定義

通常情況下,設計矩陣的第i行代表第i次觀測的結果,第j列代表第j種解釋變量。如此一來,線性回歸模型就可以用矩陣乘法表達為

 

其中 是設計矩陣, 是對應每一種解釋變量的係數組成的係數向量, 是每一個觀測對應的預測值構成的向量。[1]

例子

算數平均

算數平均的設計矩陣是一個全為1的列向量。

簡單線性回歸

本節給出了一個簡單線性回歸的例子,其中有一個解釋變量和有七個觀測值。這七個數據點是 。該簡單線性回歸模型可以表示為:

 

其中 為y軸的截距, 是回歸線的斜率。該模型可以表示為矩陣形式:

 

其中設計矩陣中的第一列用以估計y軸的截距,而第二列包含與相應y值相關的x值。

多元回歸

本節給出了一個有兩個協變量(解釋變量)的多元回歸例子:  。假設數據由七個觀測值組成,對於每個待預測的觀測值 ,兩個協變量的值  也被觀察到。該模型可以表示為:

 

該模型可以表示為矩陣形式:

 

右側的 矩陣即為設計矩陣。

單方向方差分析

在單方向方差分析中,此時的模型為

 

限制: 為0

 

參考文獻

  1. ^ Everitt, B. S. Cambridge Dictionary of Statistics 2nd. Cambridge, UK: Cambridge University Press. 2002. ISBN 0-521-81099-X. 

延伸閲讀

  • Verbeek, Albert. The Geometry of Model Selection in Regression. Dijkstra, Theo K. (編). Misspecification Analysis. New York: Springer. 1984: 20–36. ISBN 0-387-13893-5.