第六章 多重共线性问题
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Yi 0 1 X1i 2 X 2i i ,
i 1, 2,L n.
由第三章中的结论可知回归系数的普通最小二乘估计量及其方差 分别为: 2
ˆ 1
yi x1i x2i yi x2i x1i x2i
x x x x
【情景写实】
经济学家在研究人们的消费水平时,发现除了 收入因素外,人们的财富也是决定消费的一项 重要的因素。但从收入与财富的实际数据分析, 可得出两者具有很强的相关性:富有的人一般 收入也较高。从理论上看收入与财富可以成为 解释消费水平的两个变量,但实际却很难将收 入与财富对消费水平的影响分离开来。 因此,在建立线性回归模型时,自变量之间的 相关性是确定模型自变量的一个重要因素。
一、多重共线性的检验方法
多重共线性本质上是一种样本特征,而不是总 体特征。它是基于我们对解释变量的非实验数 据的研究所得出的结果,更确切地说样本决定 了模型中多重共线性的程度。因此,目前检验 多重共线性的多种方法,其实是基于样本数据 研究的一些经验规则,并没有一种被普遍接受。 下面我们主要介绍以下几种常见方法。
任务6.1 多重共线性问题概述
多元线性回归模型中假定任意自变量之间没有 明确的线性关系。如果回归模型中自变量之间 存在线性相关性,则称模型存在多重共线性的 问题。多重共线性违背了多元回归模型的基本 假定,将影响模型回归系数的普通最小二乘估 计。
一、多重共线性的含义
X , X ,L , X 为模型的个自变量,如果其中的 对于一个回归模型, 某两个或多个自变量之间存在完全或准确的线性相关性,则 称该模型存在多重共线性。多重共线性分为完全多重共线性 与不完全多重共线性两种类型。 当自变量之间存在完全的线性相关性时,称为完全多重共线 性。用数学方法解释为,存在不全为零的数 , ,L ,使得下 1 X1i 2 X 2i L k X ki 0, i 1, 2,L n. 式成立: 表明模型中至少有一个自变量可以用其他自变量的线性组合 表示。 当自变量之间存在近似的线性相关性时,称为不完全多重共 线性。用数学方法解释为,存在不全为零的数 1, 2 ,L k ,使 得下式成立: 1 X1i 2 X 2i L k X ki i 0, i 1, 2,L n. 其中 i 为随机误差项。表明模型中至少存在一个自变量可由 其它自变量的线性组合与随机误差项 i 共同表示。
三、多重共线性的后果
在多元回归模型中,不管存在完全多重共线性, 还是不完全多重共线性,都会对模型回归系数 的普通最小二乘估计产生严重的影响。下面以 二元线性回归模型为例进行说明。
(一)完全多重共线性的情况下,模型回归系数的普通最小二乘 参数估计值无法确定,并且估计量的方差为无穷大。 二元线性回归模型的基本形式如下:
项目6 多重共线性问题
【学习目标】
1.知识目标:多重共线性的含义、原因及其 后果;多重共线性的检验方法包括相关矩阵法、 辅助回归模型检验、方差膨胀因子法等;多重 共线性的修正包括改变模型形式、删除自变量、 减少参数估计量的方差等几类方法。 2.能力目标:理解多重共线性的含义;理解 多重公共线产生的原因与后果;掌握多重共线 性的检验方法与应用;掌握多重共线性的修正 方法与应用。
同时引入到同一个回 归模型中作为自变量, 会导致非常严重的多 重共线性问题。
(2)数据采集的范围有 限,或采集的样本量小于 模型的自变量个数。如在 罕见疾病的研究过程中, 由于病情罕见、病因又相 当复杂,而只能在少数的 患者身上采集大量的变量 信息。
(3)模型中的一些变量是另外一些变量的滞 后变量。例如杜森贝利相对收入假设消费函数, C Y C , t 1, 2,L n. 其简化形式为: Ct -1 分别为第 t 期、第 t 1 期的消费支 Ct 、 其中, Y 为第 t 期的收入, t 为随机误差项。杜森 出, 贝利相对收入理论假设 与期的消费支出具有 较强的相关性。显然,第 t 期的收入Yt 与t 1 期的消费支出 Ct -1 具有较强的相关性。
1. R 2 值大而显著的 t 值比率少
考察多元线性回归模型的回归结果,如果模型的 2 拟合优度 R 值很大(超过0.8),但是模型的多个 或全部解释变量的 t 检验结果不显著,说明模型 可能存在多重共线性问题。这是线性回归模型存 在多重共线性问题的一个“经典”标志。如相关 链接6.2中,我国居民家庭电力需求模型存在多重 共线性,模型的拟合优度 R 2 0.9910 0.8 ,而两个 X1 的 解释变量中居民人均居住面积 t 检验结果却 不显著。
模型的拟合优度R 2 0.9910 ,总体的 F 检验显 著。自变量的 t 检验结果只有自变量 X 2 是显著 的,而自变量 X1 的显著性检验 t 值为1.74882 (不 显著),这意味着只有收入 X 2 对居民的电力需 求量 Y 有显著影响,而人均居住面积 X1对电力 需求量 Y 没有显著的影响。
1
1
1
1
【相关链接】
多重共线性的后果
引用相关链接6.1中我国居民家庭电力需求模型的数 据,以居民人均居住面积和人均可支配收入指数为解释 变量,电力需求量为因变量建立二元回归模型, Eviews6.0运行结果如下表:
由回归结果得到二元回归方程为:
ˆ 125.3530 2.8086 X 0.4409 X Y t 1t 2t
任务6.2 多重共线性的检验
在意识到多重共线性可能产生的后果之后,该如 何解决多重共线性问题呢?这之前我们首先需要 明确模型中是否存在多重共线性问题,也就是找 到检验多重共线性是否确切存在的方法。在6.1节 中我们以简单的二元回归模型为例,对多重共线 性问题作出说明,可以发现检验二元线性回归模 型的多重共线性方法比较简单,只需计算两个解 释变量的相关系数,判断是否达到高度相关的程 度。那么,如何检验多元线性回归模型中是否存 在多重共线性,即检验是否存在两个或多个自变 量存在完全或高度线性相关?这将涉及到更复杂 的多个自变量之间的相关性问题。
2 1i 2 2i 1i 2i
2
ˆ var 1
x 1 r
2 1i 2 12
wenku.baidu.com
2
若模型存在完全多重共线性,则模型自变量 X1 与的 X2 相关系数 r12 ,并且存在不为零的常数,使 1 得 X X ,代入上述估计量及其方差中得:
2i 1i
ˆ 1
y x x y x x 0 0 x x x
x 1 r
1i 12
引入方差膨胀因子(variance-inflating 1 factor,VIF),定义为: VIF ; 2
1 r12
推广 k 到元回归模型中,模型回归系数估计量 ˆ j 的 ˆ var 方差为: VIF x 1 R x
2
2
j
2 j
2 j
2 j
j
1 其中方差膨胀因子为: VIFj 1 R2 j X j 对其余自变量做回归模型的拟 其中R2 代表自变量变量 j 合优度。
ˆ ˆ 的方差可表示为: var 则 1
1
x
2
2 1i
VIF .
根据方差膨胀因子 VIF 的表达式,可以看出VIF ˆ 的方差成正比,能够反映估计量 ˆ 的方差 与 1 1 的增长速度。若二元回归模型存在不完全多重 共线性,则自变量 X1与 X 2 的相关系数0.8 r12 1 。 当线性相关的程度越大,即相关系数r12 越接近 1时,方差膨胀因子VIF 越大并趋于无穷。此 ˆ 的方差也迅速增大, 时普通最小二乘估计量 1 同时趋于无穷。
2 1 2
1t
2t
二、多重共线性的原因
在现实情况中,除了人为构造的数据以外,完全 多重共线性是几乎不存在的。较常见的是不完全 多重共线性的问题,也就是模型自变量之间存在 近似或高度的相关性。这种多重共线性问题产生 的原因可能有以下几点。
(1)模型中所包含的一 些自变量同时随时间呈 现增减变化,具有相同的 时间趋势。如在经济繁 荣时期,社会的收入、 消费、投资、通货膨胀 率、就业率等经济因素 都呈上升趋势;经济萧 条时,这些因素又都呈 下降趋势。说明这些基 本经济因素之间存在较 强的共线性,若将它们
i 1i 2 2 1i i 1i 2 1i 2 1i 2 2 1i 2 2 1i
ˆ var 1
x
2
2
2 1i
1 1
.
ˆ 也无法确定, ˆ 无法确定,且 var ˆ 。同理 可见 1 2 1 ˆ var 且
(二)不完全多重共线性情况下,对模型 的可能产生的后果主要有以下几点:
(1)不完全多重共线性问题存在的情况下,模型回 归系数的普通最小二乘估计量存在,并且仍然是 最优线性无偏估计量。也就是说在回归系数的所 有线性无偏估计量中,普通最小二乘估计量的方 差是最小的。但是方差在不完全多重共线性的影 响下变大,使得估计量的可靠度降低。
以上述的二元线性回归模型为例,回归 1 系数的普通最 2 ˆ var . 小二乘估计量的方差为: 1 2 2
1 2 k
1
2
k
【相关链接】
我国居民家庭对电力的需求模型 建立一个我国居民家庭电力需求量模型,以居民人均居 住面积和人均可支配收入指数为解释变量。下表是一组 相关数据:
观察表中的数据发现居民年人均可支配收入指 数 X 越高相应的人均居住面积 X1 越大,说明两 者可能存在较强的相关性。根据数据我们对 X 和X 进行相关性分析,得出它们的相关系数 为 r12 =0.9631 0.8。 X 4.1127 0.0368 X , R 2 0.9276 将对进行回归,得到: 分析结果表明居民收入与居住面积之间有高度 的线性相关性。说明以居民收入和居住面积为 解释变量的居民电力需求模型存在不完全多重 共线性。
(2)回归系数的普通最小二乘估计量的经 ˆ 济含义不合理。如普通最小二乘估计量 1 的意义是:在自变量 X 2 维持不变的情况下, X1 Y 自变量 每变化一个单位时因变量 的均 值的变化率。然而,模型在存在不完全多重 X2 共线性的问题时,自变量 和 X1 是高度线 性相关的。因此无法做到保持变量 不变的 X2 X1 情况下,只变化变量 的值。也就是说此时 X2 Y 反映的是自变量 和 X1对因变量 的共同影 Y 响,而不是 对 X1 的独立影响,并且没有方 ˆ 法能够度量 中自变量 、X 对因变量的 1 X2 1 ˆ 各自影响的大小。因此, 失去了原本的经 Y 1 济含义。
t 0 1 t 2 t 1 t
t
(4)实际中模型的一些自变量之间存在密切的关 系。例如建立一个服装需求模型,模型以消费者 收入与服装价格为解释变量。在现实生活中,收 入较高的消费者购买的服装价格也相对较高;反 之亦然。说明消费者收入与服装价格之间存在较 强的线性相关性,模型存在多重共线性问题。
(3)回归模型的拟合优度 R 2 较大,但是变量 的显著性检验 t 值变小,不显著的可能性变大。 如对变量X 进行显著性检验,原假设为 0 , 检验统计量 t 值为ˆ / s ˆ 。如前所述,当自变 X 2 存在高度线性相关,并且相关程度越 量 X1 、 来越高时,1 的方差和标准差迅速增大,从而 使得 t 值变小,接受原假设的可能性增大,即 变量无法通过显著性检验的概率增大。
2.相关矩阵法
检验多重共线性的另一种较普遍的方法是利用 模型自变量的相关矩阵。对于多元线性回归模 型: Yi 0 1 X1i 2 X 2i L k X ki i , i 1, 2,L n. 则模型自变量X1, X 2 ,L , X k 的相关系数矩阵为: