设计矩阵

设计矩阵(英语:design matrix、model matrix、regressor matrix)在统计学机器学习中,是一组观测结果中的所有解释变量的值构成的矩阵,常用X表示。设计矩阵常用于一些统计模型,如一般线性模型方差分析中。

定义

通常情况下,设计矩阵的第i行代表第i次观测的结果,第j列代表第j种解释变量。如此一来,线性回归模型就可以用矩阵乘法表达为

 

其中 是设计矩阵, 是对应每一种解释变量的系数组成的系数向量, 是每一个观测对应的预测值构成的向量。[1]

例子

算数平均

算数平均的设计矩阵是一个全为1的列向量。

简单线性回归

本节给出了一个简单线性回归的例子,其中有一个解释变量和有七个观测值。这七个数据点是 。该简单线性回归模型可以表示为:

 

其中 为y轴的截距, 是回归线的斜率。该模型可以表示为矩阵形式:

 

其中设计矩阵中的第一列用以估计y轴的截距,而第二列包含与相应y值相关的x值。

多元回归

本节给出了一个有两个协变量(解释变量)的多元回归例子:  。假设数据由七个观测值组成,对于每个待预测的观测值 ,两个协变量的值  也被观察到。该模型可以表示为:

 

该模型可以表示为矩阵形式:

 

右侧的 矩阵即为设计矩阵。

单方向方差分析

在单方向方差分析中,此时的模型为

 

限制: 为0

 

参考文献

  1. ^ Everitt, B. S. Cambridge Dictionary of Statistics 2nd. Cambridge, UK: Cambridge University Press. 2002. ISBN 0-521-81099-X. 

延伸阅读

  • Verbeek, Albert. The Geometry of Model Selection in Regression. Dijkstra, Theo K. (编). Misspecification Analysis. New York: Springer. 1984: 20–36. ISBN 0-387-13893-5.