設計矩陣

設計矩陣（英語：design matrix、model matrix、regressor matrix）在統計學和機器學習中，是一組觀測結果中的所有解釋變量的值構成的矩陣，常用X表示。設計矩陣常用於一些統計模型，如一般線性模型，方差分析中。

定義

通常情況下，設計矩陣的第i行代表第i次觀測的結果，第j列代表第j種解釋變量。如此一來，線性回歸模型就可以用矩陣乘法表達為

y=X\beta

其中 $X$ 是設計矩陣， $\beta$ 是對應每一種解釋變量的係數組成的係數向量， $y$ 是每一個觀測對應的預測值構成的向量。^[1]

算數平均的設計矩陣是一個全為1的列向量。

本節給出了一個簡單線性回歸的例子，其中有一個解釋變量和有七個觀測值。這七個數據點是 $\left\{y_{i},x_{i}\right\},i=1,2,\cdots ,7$ 。該簡單線性回歸模型可以表示為：

y_{i}=\beta _{0}+\beta _{1}x_{i}+\varepsilon _{i},\,

其中 $\beta _{0}$ 為y軸的截距， $\beta _{1}$ 是回歸線的斜率。該模型可以表示為矩陣形式：

{\begin{bmatrix}y_{1}\\y_{2}\\y_{3}\\y_{4}\\y_{5}\\y_{6}\\y_{7}\end{bmatrix}}={\begin{bmatrix}1&x_{1}\\1&x_{2}\\1&x_{3}\\1&x_{4}\\1&x_{5}\\1&x_{6}\\1&x_{7}\end{bmatrix}}{\begin{bmatrix}\beta _{0}\\\beta _{1}\end{bmatrix}}+{\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\varepsilon _{3}\\\varepsilon _{4}\\\varepsilon _{5}\\\varepsilon _{6}\\\varepsilon _{7}\end{bmatrix}}

其中設計矩陣中的第一列用以估計y軸的截距，而第二列包含與相應y值相關的x值。

本節給出了一個有兩個協變量（解釋變量）的多元回歸例子： $w$ 和 $x$ 。假設數據由七個觀測值組成，對於每個待預測的觀測值 $y_{i}$ ，兩個協變量的值 $w_{i}$ 和 $x_{i}$ 也被觀察到。該模型可以表示為：

y_{i}=\beta _{0}+\beta _{1}w_{i}+\beta _{2}x_{i}+\varepsilon _{i}

該模型可以表示為矩陣形式：

{\begin{bmatrix}y_{1}\\y_{2}\\y_{3}\\y_{4}\\y_{5}\\y_{6}\\y_{7}\end{bmatrix}}={\begin{bmatrix}1&w_{1}&x_{1}\\1&w_{2}&x_{2}\\1&w_{3}&x_{3}\\1&w_{4}&x_{4}\\1&w_{5}&x_{5}\\1&w_{6}&x_{6}\\1&w_{7}&x_{7}\end{bmatrix}}{\begin{bmatrix}\beta _{0}\\\beta _{1}\\\beta _{2}\end{bmatrix}}+{\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\varepsilon _{3}\\\varepsilon _{4}\\\varepsilon _{5}\\\varepsilon _{6}\\\varepsilon _{7}\end{bmatrix}}

右側的 $7\times 3$ 矩陣即為設計矩陣。

在單方向方差分析中，此時的模型為

y_{ij}=\mu +\tau _{i}+\varepsilon _{ij}

限制： $\tau _{1}$ 為0

{\begin{bmatrix}y_{1}\\y_{2}\\y_{3}\\y_{4}\\y_{5}\\y_{6}\\y_{7}\end{bmatrix}}={\begin{bmatrix}1&0&0\\1&0&0\\1&0&0\\1&1&0\\1&1&0\\1&0&1\\1&0&1\end{bmatrix}}{\begin{bmatrix}\mu \\\tau _{2}\\\tau _{3}\end{bmatrix}}+{\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\varepsilon _{3}\\\varepsilon _{4}\\\varepsilon _{5}\\\varepsilon _{6}\\\varepsilon _{7}\end{bmatrix}}

^ Everitt, B. S. Cambridge Dictionary of Statistics 2nd. Cambridge, UK: Cambridge University Press. 2002. ISBN 0-521-81099-X.

Verbeek, Albert. The Geometry of Model Selection in Regression. Dijkstra, Theo K. (編). Misspecification Analysis. New York: Springer. 1984: 20–36. ISBN 0-387-13893-5.