第六章多重共线性问题

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Yi 0 1 X1i 2 X 2i i ,
i 1, 2,L n.
由第三章中的结论可知回归系数的普通最小二乘估计量及其方差分别为： 2
ˆ 1
yi x1i x2i yi x2i x1i x2i
x x x x
【情景写实】

经济学家在研究人们的消费水平时，发现除了收入因素外，人们的财富也是决定消费的一项重要的因素。但从收入与财富的实际数据分析，可得出两者具有很强的相关性：富有的人一般收入也较高。从理论上看收入与财富可以成为解释消费水平的两个变量，但实际却很难将收入与财富对消费水平的影响分离开来。因此，在建立线性回归模型时，自变量之间的相关性是确定模型自变量的一个重要因素。
一、多重共线性的检验方法

多重共线性本质上是一种样本特征，而不是总体特征。它是基于我们对解释变量的非实验数据的研究所得出的结果，更确切地说样本决定了模型中多重共线性的程度。因此，目前检验多重共线性的多种方法，其实是基于样本数据研究的一些经验规则，并没有一种被普遍接受。下面我们主要介绍以下几种常见方法。
任务6.1 多重共线性问题概述

多元线性回归模型中假定任意自变量之间没有明确的线性关系。如果回归模型中自变量之间存在线性相关性，则称模型存在多重共线性的问题。多重共线性违背了多元回归模型的基本假定，将影响模型回归系数的普通最小二乘估计。
一、多重共线性的含义

X , X ,L , X 为模型的个自变量，如果其中的对于一个回归模型，某两个或多个自变量之间存在完全或准确的线性相关性，则称该模型存在多重共线性。多重共线性分为完全多重共线性与不完全多重共线性两种类型。当自变量之间存在完全的线性相关性时，称为完全多重共线性。用数学方法解释为，存在不全为零的数 , ,L ，使得下 1 X1i 2 X 2i L k X ki 0, i 1, 2,L n. 式成立：表明模型中至少有一个自变量可以用其他自变量的线性组合表示。当自变量之间存在近似的线性相关性时，称为不完全多重共线性。用数学方法解释为，存在不全为零的数 1, 2 ,L k ，使得下式成立： 1 X1i 2 X 2i L k X ki i 0, i 1, 2,L n. 其中 i 为随机误差项。表明模型中至少存在一个自变量可由其它自变量的线性组合与随机误差项 i 共同表示。
三、多重共线性的后果

在多元回归模型中，不管存在完全多重共线性，还是不完全多重共线性，都会对模型回归系数的普通最小二乘估计产生严重的影响。下面以二元线性回归模型为例进行说明。

（一）完全多重共线性的情况下，模型回归系数的普通最小二乘参数估计值无法确定，并且估计量的方差为无穷大。二元线性回归模型的基本形式如下：
项目6 多重共线性问题
【学习目标】

1．知识目标：多重共线性的含义、原因及其后果；多重共线性的检验方法包括相关矩阵法、辅助回归模型检验、方差膨胀因子法等；多重共线性的修正包括改变模型形式、删除自变量、减少参数估计量的方差等几类方法。 2．能力目标：理解多重共线性的含义；理解多重公共线产生的原因与后果；掌握多重共线性的检验方法与应用；掌握多重共线性的修正方法与应用。

同时引入到同一个回归模型中作为自变量，会导致非常严重的多重共线性问题。
（2）数据采集的范围有限，或采集的样本量小于模型的自变量个数。如在罕见疾病的研究过程中，由于病情罕见、病因又相当复杂，而只能在少数的患者身上采集大量的变量信息。

（3）模型中的一些变量是另外一些变量的滞后变量。例如杜森贝利相对收入假设消费函数， C Y C , t 1, 2,L n. 其简化形式为： Ct -1 分别为第 t 期、第 t 1 期的消费支 Ct 、其中， Y 为第 t 期的收入， t 为随机误差项。杜森出，贝利相对收入理论假设与期的消费支出具有较强的相关性。显然，第 t 期的收入Yt 与t 1 期的消费支出 Ct -1 具有较强的相关性。
1. R 2 值大而显著的 t 值比率少

考察多元线性回归模型的回归结果，如果模型的 2 拟合优度 R 值很大（超过0.8），但是模型的多个或全部解释变量的 t 检验结果不显著，说明模型可能存在多重共线性问题。这是线性回归模型存在多重共线性问题的一个“经典”标志。如相关链接6.2中，我国居民家庭电力需求模型存在多重共线性，模型的拟合优度 R 2 0.9910 0.8 ，而两个 X1 的解释变量中居民人均居住面积 t 检验结果却不显著。

模型的拟合优度R 2 0.9910 ，总体的 F 检验显著。自变量的 t 检验结果只有自变量 X 2 是显著的，而自变量 X1 的显著性检验 t 值为1.74882 （不显著），这意味着只有收入 X 2 对居民的电力需求量 Y 有显著影响，而人均居住面积 X1对电力需求量 Y 没有显著的影响。
1
1
1
1
【相关链接】

多重共线性的后果
引用相关链接6.1中我国居民家庭电力需求模型的数据，以居民人均居住面积和人均可支配收入指数为解释变量，电力需求量为因变量建立二元回归模型， Eviews6.0运行结果如下表：

由回归结果得到二元回归方程为：
ˆ 125.3530 2.8086 X 0.4409 X Y t 1t 2t
任务6.2 多重共线性的检验

在意识到多重共线性可能产生的后果之后，该如何解决多重共线性问题呢？这之前我们首先需要明确模型中是否存在多重共线性问题，也就是找到检验多重共线性是否确切存在的方法。在6.1节中我们以简单的二元回归模型为例，对多重共线性问题作出说明，可以发现检验二元线性回归模型的多重共线性方法比较简单，只需计算两个解释变量的相关系数，判断是否达到高度相关的程度。那么，如何检验多元线性回归模型中是否存在多重共线性，即检验是否存在两个或多个自变量存在完全或高度线性相关？这将涉及到更复杂的多个自变量之间的相关性问题。
2 1i 2 2i 1i 2i
2
ˆ var 1
x 1 r
2 1i 2 12
wenku.baidu.com
2

若模型存在完全多重共线性，则模型自变量 X1 与的 X2 相关系数 r12 ，并且存在不为零的常数，使 1 得 X X ，代入上述估计量及其方差中得：
2i 1i
ˆ 1
y x x y x x 0 0 x x x
x 1 r
1i 12

引入方差膨胀因子（variance-inflating 1 factor,VIF），定义为： VIF ; 2
1 r12

推广 k 到元回归模型中，模型回归系数估计量 ˆ j 的 ˆ var 方差为： VIF x 1 R x
2
2
j
2 j
2 j
2 j
j

1 其中方差膨胀因子为： VIFj 1 R2 j X j 对其余自变量做回归模型的拟其中R2 代表自变量变量 j 合优度。
ˆ ˆ 的方差可表示为： var 则 1
1

x
2
2 1i
VIF .

根据方差膨胀因子 VIF 的表达式，可以看出VIF ˆ 的方差成正比，能够反映估计量 ˆ 的方差与 1 1 的增长速度。若二元回归模型存在不完全多重共线性，则自变量 X1与 X 2 的相关系数0.8 r12 1 。当线性相关的程度越大，即相关系数r12 越接近 1时，方差膨胀因子VIF 越大并趋于无穷。此 ˆ 的方差也迅速增大，时普通最小二乘估计量 1 同时趋于无穷。
2 1 2
1t
2t
二、多重共线性的原因
在现实情况中，除了人为构造的数据以外，完全多重共线性是几乎不存在的。较常见的是不完全多重共线性的问题，也就是模型自变量之间存在近似或高度的相关性。这种多重共线性问题产生的原因可能有以下几点。

（1）模型中所包含的一些自变量同时随时间呈现增减变化，具有相同的时间趋势。如在经济繁荣时期，社会的收入、消费、投资、通货膨胀率、就业率等经济因素都呈上升趋势；经济萧条时，这些因素又都呈下降趋势。说明这些基本经济因素之间存在较强的共线性，若将它们
i 1i 2 2 1i i 1i 2 1i 2 1i 2 2 1i 2 2 1i
ˆ var 1
x
2
2
2 1i
1 1
.

ˆ 也无法确定， ˆ 无法确定，且 var ˆ 。同理可见 1 2 1 ˆ var 且
（二）不完全多重共线性情况下，对模型的可能产生的后果主要有以下几点：
（1）不完全多重共线性问题存在的情况下，模型回归系数的普通最小二乘估计量存在，并且仍然是最优线性无偏估计量。也就是说在回归系数的所有线性无偏估计量中，普通最小二乘估计量的方差是最小的。但是方差在不完全多重共线性的影响下变大，使得估计量的可靠度降低。

以上述的二元线性回归模型为例，回归 1 系数的普通最 2 ˆ var . 小二乘估计量的方差为： 1 2 2
1 2 k

1
2
k

【相关链接】

我国居民家庭对电力的需求模型建立一个我国居民家庭电力需求量模型，以居民人均居住面积和人均可支配收入指数为解释变量。下表是一组相关数据：

观察表中的数据发现居民年人均可支配收入指数 X 越高相应的人均居住面积 X1 越大，说明两者可能存在较强的相关性。根据数据我们对 X 和X 进行相关性分析，得出它们的相关系数为 r12 =0.9631 0.8。 X 4.1127 0.0368 X ， R 2 0.9276 将对进行回归，得到：分析结果表明居民收入与居住面积之间有高度的线性相关性。说明以居民收入和居住面积为解释变量的居民电力需求模型存在不完全多重共线性。

（2）回归系数的普通最小二乘估计量的经 ˆ 济含义不合理。如普通最小二乘估计量 1 的意义是：在自变量 X 2 维持不变的情况下， X1 Y 自变量每变化一个单位时因变量的均值的变化率。然而，模型在存在不完全多重 X2 共线性的问题时，自变量和 X1 是高度线性相关的。因此无法做到保持变量不变的 X2 X1 情况下，只变化变量的值。也就是说此时 X2 Y 反映的是自变量和 X1对因变量的共同影 Y 响，而不是对 X1 的独立影响，并且没有方 ˆ 法能够度量中自变量、X 对因变量的 1 X2 1 ˆ 各自影响的大小。因此，失去了原本的经 Y 1 济含义。
t 0 1 t 2 t 1 t
t

（4）实际中模型的一些自变量之间存在密切的关系。例如建立一个服装需求模型，模型以消费者收入与服装价格为解释变量。在现实生活中，收入较高的消费者购买的服装价格也相对较高；反之亦然。说明消费者收入与服装价格之间存在较强的线性相关性，模型存在多重共线性问题。

（3）回归模型的拟合优度 R 2 较大，但是变量的显著性检验 t 值变小，不显著的可能性变大。如对变量X 进行显著性检验，原假设为 0 ，检验统计量 t 值为ˆ / s ˆ 。如前所述，当自变 X 2 存在高度线性相关，并且相关程度越量 X1 、来越高时，1 的方差和标准差迅速增大，从而使得 t 值变小，接受原假设的可能性增大，即变量无法通过显著性检验的概率增大。
2.相关矩阵法

检验多重共线性的另一种较普遍的方法是利用模型自变量的相关矩阵。对于多元线性回归模型： Yi 0 1 X1i 2 X 2i L k X ki i , i 1, 2,L n. 则模型自变量X1, X 2 ,L , X k 的相关系数矩阵为：

第六章 多重共线性问题

第六章多重共线性问题