第8章 多重共线性:解释变量相关会有什么后果

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 2
VIF被称为方差膨胀因子。随着R2的增大, var ˆ 也增大,或者说膨胀了。
j
1 VIFj (1 R 2 j)
注意:诊断多重共线性的方法很多,但是没 有哪一种能够彻底诊断多重共线性问题。多 重共线性是一个程度问题,是一种样本现象。
补充:偏回归系数
• 已知,样本相关系数
r=
8.5 多重共线性的诊断
一、多重共线性是一个样本特性,是一个样本现象。 多重共线性是一个程度问题而不是存在与否问题。 多重共线性针对的是解释变量,因此是样本特征,不是 总体特征。
二、侦察多重共线性的规则【线索】
(一)R2值高而显著的t比率少 (二)解释变量之间有高度的两两相关 可以计算两两变量之间的相关系数,如果有些相关系数 很高(超过0.8) ,则可能存在较为严重的共线性。但是 这一标准并不十分可靠。 (三)检查偏相关系数 假设3个解释变量X2,X3,X4,X2与X3的相关系数为r23,X2与X4 的相关系数为r24,X3与X3的相关系数为r34。假如r23=0.9,说 明X2与X3之间高度相关,但是若考察偏相关系数r23,4,即变量 X4保持不变的条件下X2与X3之间的相关系数却仅为0.43。那么 根据偏相关系数不能说明X2与X3之间的共线性程度很高。 但是偏相关系数不能保证对多重共线性提供一个准确的指南。
为什么讨论多重共线性?
1.在近似共线性的情形下,OLS估计量仍然是 无偏的。 2.近似共线性并未破坏OLS估计量的最小方差 性。 X 之间不是线 3.即使在总体回归方程中变量 X 变量之间可 性相关的,但在某个样本中, 能线性相关。 【 多重共线性问题是一个样本问题 】
8.4 多重共线性的实际后果
如何解释这些结果,做价格X2对工资X4的关系图, 如下
图8-2 工资X 4和价格 关系 X2
• 回归结果为
X 4 i 299.92 2.0055X 2 i ei se (0.6748)(0.1088) t (444.44)(-18.44) (9.6417) r 2 0.977
• 这一方法的缺陷在于先验信息并不总是可获得的。 更致命的是,即使能够获得这一信息,但是假设 先验信息在当前样本仍是有效的,这样的要求显 得“很高”。
• 当然如果各个样本间的收入效应预期变化不大, 并且得知有关收入系数的先验信息,那么这一补 救措施则是行之有效的。
(5)变量变换
• 通过对模型中的变量进行变换也能够降低共线 性程度。
X3i 3000 2 X 2i
Yi A1 A2 X 2 i A3 (300 2 X 2 i ) ui
A1 300 A3 A2 2 A3 X 2 i ui

C1 A1 300 A3 C 2 A2 2 A3
(6)其他补救措施 因子分析、岭回归、主成分分析等方法
补充:逐步回归法
(1)用被解释变量对每一个所考虑的解释变量做简
单回归。
(2)以对被解释变量贡献最大的解释变量所对应的
回归方程为基础,按对被解释变量贡献大小的顺
序逐个引入其余的解释变量。
若新变量的引入改进了 R 2 和 F 检验,且回归参
数的t 检验在统计上也是显著的,则在模型中保
ˆ ˆ X ˆ X ˆ 3t X 3.12 31.2 1t 32.1 2t
• 利用以上偏回归系数,3个变量之间的偏相关系数 可定义如下:
ˆ ˆ r12.3 12.3 21.3
ˆ ˆ r13.2 13.2 31.2
ˆ ˆ r23.1 23.1 32.1
8.7鸡肉需求函数[方程(8.15)]的共线性诊断 1.相关矩阵
鸡肉需求函数[方程(8.15)]的共线性诊断 2.辅助回归
8.8 如何解决多重共线性:补救措施
• • • • • • 从模型中删掉一个变量 获取额外的数据或新的样本 重新考虑模型 参数的先验信息 变量变换 其他补救措施
(1)从模型中删掉一个变量
(8 8)
t (1.2107)(-3.4444) ( 0.7971) r 2 0.9778
• 回归结果显示: • (1)模型(8-2)是可估计的。 • (2)两次估计的价格系数都是负的,并且差别不大, 这和预期的价格系数方向一样。相对而言,(8-7)中 价格的t统计量和标准误都略高于(8-8)。 • (3)R2略有增加,0.0021。 • (4)工资的系数是统计不显著的,符号也有错误。 • (5)尽管收入变量不显著,但若假设B2=B3=0,但是 根据(4-49)的F检验很容易拒绝原假设。
在LIV(变量线性)模型中,收入系数是统计不显 著的,但猪肉价格系数却是显著的。 产生这一变化的原因是收入与价格之间存在高度 共线性。
(4)参数的先验信息
• 根据先验研究了解有关参数的某些信息,而这些 信息适用于当前样本。 • 例如饰品需求函数中,收入系数为0.9,并且统 计显著。 • 如果认为收入系数(0.9)[0.87164]没有变化,则 可以重新估计方程。 • 需求量=B1+B2价格+B3工资+u • =B1+B2价格+0.9工资+u • 需求量- 0.9工资= B1+B2价格+u • 这样自变量只有一个,不存在多重共线性问题。
• 但是这一补救措施比多重共线性本身还糟糕。因 为在构建经济模型时,是以一定的经济理论为基 础的,因此删除这些变量又会导致模型设定错误。 • 如果仅仅为了消除多重共线性而从模型中删除一 个变量,可能得到参数的有偏估计。
• 多重共线性是一个样本特征,因此如果同样一组 变量换一组样本可能多重共线性就不那么高(当 然也可能更高)。 • 但是收集数据的成本或许很高。
r= ±
ˆ ˆ 2 2
• 设有3个变量X1、X2和X3。3个变量各自以另两个 变量为自变量拟合的样本回归方程如下:
ˆ ˆ X ˆ X ˆ 1t X 1.23 12.3 2t 13.2 3t
ˆ ˆ X ˆ X ˆ 2t X 2.13 21.3 1t 23.1 3t
回归结果显示,价格与工资高度相关,相关系数为0.9984,即存在近似完全线性关系。 顺便指出:在只有两个解释变量的情况下,相关系数 用于共线性程度的度量,多于两个不可以。
多重共线性的来源
(一)数据采集方法问题 (二)模型或从中取样的总体受到约束 (三)模型设定问题 (四)一个过度决定的模型
8.3 多重共线性的理论后果
第8章 多重共线性:解释变量 相关会有什么后果?
8.1 多重共线性的性质:完全多重共线性的情形
Y饰品需求,X2价格,X3消费者收入,X4工资。考 察如下的需求函数模型:
Yi A1 A2 X 2i A3 X3i ui (8 1)
Yi B1 B2 X 2i B3 X 4i ui (8 2)
• • • • • (1)OLS估计量的方差和标准误较大。 (2)置信区间变宽。 (3)t值不显著 。 (4)R2 值较高,但t值并不都是统计显著的。 (5)OLS估计量及其标准误对数据的微小变化非 常敏感,即它们很不稳定。 • (6)回归系数符号有误。 • (7)难以评估各个解释变量对回归平方和(ESS) 或者R2的贡献。
Yi C1 C2 X 2i ui (8 4)
对(8-4)进行回归得:
ˆ 49.667 2.1576X Y i 2i se (0.746)(0.1203)
(8 7)
t (66.538)(-17.935) (9.6417) r 2 0.9757
结论:解释变量之间存在完全相关或者完全多重 共线性时,不可能获得所有参数的唯一估计值。
• 如果研究的目的不仅仅是预测,而且还要 可靠地估计出模型的参数,则严重的共线 性就是一件“坏事”,因为它导致了估计 量的标准误增大。
8.7
1960-1982年期间美国的鸡肉需求
1960-1982年美国的人均鸡肉需求量Y,人均 实际可支配收入X2,鸡肉的实际零价格X3,猪 肉的实际零售价格X4,牛肉的实际零售价格X5。 估计的需求函数为:
8.2 近似或者不完全多重共线性的情形
进行经济数据的分析时,变量间常常表现出不完全 线性相关,但共线性程度很高的情形,这就是近似、 不完全或者高度多重共线性的情形。 用表8-1中的数据估计(8-2)得到如下结果:
ˆ 145.37 2.797X 0.3191X Y i 2i 4i se (120.06)(0.8122)(0.4003)
留该变量。
若新变量的引入未能改进 R 2 和 F 检验,且对其他回 归参数估计值的t 检验也未带来什么影响,则认为该 变量是多余变量。 若新变量的引入未能改进 R 2 和 F 检验,且显著地影 响了其他回归参数估计值的数值或符号,同时本身的 回归参数也通不过t 检验,说明出现了严重的多重共 线性。
用表8-1中的数据拟合模型,计算机拒绝估计 回归。做价格(X2)对收入(X3)的回归, 得如下关系图。
这说明收入与价格完全线性相关,即完全共线性。所有 不能对方程(8-1)进行回归。
将收入与价格之间的关系带入(8-1)得
源自文库
Yi A1 A2 X 2i A3 X3i ui (8 1)
( X X )(Y Y ) ( X X ) (Y Y )
t t t 2 t
2
• 样本相关系数的定义还可以从另一个角度给出。在进行相关分析时, 对于所涉及的两个变量X和Y是同等看待的。若设
ˆ ˆ X ˆt Y 1 2 t
ˆt ˆ1 ˆ 2Yt X
• 则样本单相关系数也可定义为两个样本回归系数的乘积的开方,即:
• 偏回归系数表示:当其他自变量保持不变时,某一自变量变化一个单 位而使因变量平均变化的数值。例如,表示X3保持不变时,X2变化一 单位而引起的X1平均变化的数值;表示X1保持不变时,X2变化一单位 而引起的X3平均变化的数值。
8.6 多重共线性必定不好吗?
取决于研究的目的。
• 如果是为了利用模型预测应变量的未来均 值,则多重共线性未必是一件坏事。
(四)辅助回归 做每个解释变量对其他剩余变量 的回归并计算相应的R2值。其中的每 一个回归都被称为是从属或者辅助回 归。
例子
(五)方差膨胀因子
Yi 1 2 X 2i 3 X 3i k X ki ui
ˆ var j

VIFj 2 2 2 x j 1 R j x j
案例分析 一、研究的目的要求
提出研究的问题——为了规划中国未来国内旅游产业 的发展,需要定量地分析影响中国国内旅游市场发展 的主要因素。
二、模型设定及其估计
影响因素分析与确定——影响因素主要有国内旅游 人数 X 2,城镇居民人均旅游支出 X 3,农村居民人均
旅游支出 X 4 ,并以公路里程次 X 5 和铁路里程
(2)获取额外的数据或新的样本
• 增加样本容量也可以消减多重共线性。但是和换 一组样本一样,收集数据的成本或许很高。
(3)重新考虑模型
• 在LIV(变量线性)模型中,共线性可能不像双对 数模型那样高。 • 以表7-8中的数据来拟合LIV模型,得如下结果:
37.232-0.00501X -0.6122X +0.1984X +0.0695X Y 2 3 4 5 t (10.015)(1.0241) (-3.753)(3.1137)(1.3631) r 2 0.9426 r 2 =0.9298
-108.20+0.0045X +0.931X Y t 2 3 t N.A. (1.232) ( 1.844) r 2 0.9894 Y—进口,X 2 —国民生产总值,X3 —消费者价格指数
Yt X -1.39+0.202 2 X3 X3 t N.A. (12.22) r 2 0.9894 Y—进口,X 2 —国民生产总值,X3 —消费者价格指数
相关文档
最新文档