多重共线性

多重共线性(Multicollinearity)是指多变量线性回归中,变量之间由于存在高度相关关系而使回归估计不准确。在该情况下,多元回归的系数可能会因为模型或数据的微小变化发生剧烈改变。在样本数据集中,多重共线性不会影响模型整体的预测能力或信度,它只会影响单个预测子(predictor)的参数。简而言之,一个包含有共线预测值的多元回归模型可以指示出模型整体的预测可靠程度,但可能无法对单个预测值给出有效结果,也可能无法判断哪些预测值是冗余的。

需要注意的是,在对回归分析的叙述中,“没有多重共线性”多用于指代没有“完全的多重共线性”,意为预测值之间存在完全线性相关关系。在这种情况下,模型矩阵Χ不是满秩,因此其矩量矩阵不可逆。在该情况下,对一个普通线性模型来说,普通最小二乘估计值不存在。

示例场景

比如我们要通过房屋面积,房间数,房屋年龄,附近学校的评分这四个变量来预测房价,其中的房屋面积和房间数这两个变量就可能高度相关。

示例

虚拟变量陷阱(英语:Dummy variable trap)有可能触发多重共线性问题。