第4章多重共线性
第四章 多重共线性
二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形: 1.经济变量之间具有相同的变化趋势。 2.模型中包含滞后变量。 3.利用截面数据建立模型也可能出现多重共线性。 4.样本数据的原因。
6
第二节 多重共线性的后果
一、完全多重共线性产生的后果
1.参数的估计值不确定 2.参数估计值的方差无限大
Cov( ˆ2 ,
ˆ3 )
(1
r223 )
r23 2
x22i
x32i
随着共线性增加,r23趋于1,方差将增大。同样 协方差的绝对值也增大,它们增大的速度决定于
方差扩大(膨胀)因子(variance inflation factor, VIF)
VIF
1
1 r223
这时
Var(ˆ2 )
4.多重共线性严重时,甚至可能使估计的回归系数 符号相反,得出完全错误的结论。(如引例)
18
第三节 多重共线性的检验
本节基本内容: 简单相关系数检验法 方差扩大因子法 直观判断法 病态指数检验法 逐步回归法
19
一、简单相关系数检验法 简单相关系数检验法是利用解释变量之间的线性 相关程度去判断是否存在严重多重共线性的一种 简便方法。适用于只有两个变量的情形。
2
x32i 0
同理
ˆ3
这说明完全多重共线性时,参数估计量的方差将 变成无穷大。
9
关于方差的推导
Var(ˆ2 )
x32i (x22i ) (x32i )
(x2i x3i )2
2
1 X21 X 1 X22
1 X2n
多重共线性
解决方法
解决方法
(1)排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除出去,以逐步回归法得到最广泛的应用。 (2)差分法 时间序列数据、线性模型:将原模型变换为差分模型。 (3)减小参数估计量的方差:岭回归法(Ridge Regression)。 (4)简单相关系数检验法
谢谢观看
简介
简介
对线性回归模型 基本假设之一是自变量,之间不存在严格的线性关系。如不然,则会对回归参数估计带来严重影响。为了说 明这一点,首先来计算线性回归模型参数的 LS估计的均方误差。为此。重写线性回归模型的矩阵形式为 其中服从多元正态分布,设计矩阵 X是的,且秩为 p。这时,参数的 LS估计为,而回归系数的 LS估计为。 注意到由此获得的 LS估计是无偏的,于是估计的均方误差为 其中是的特征根。显然,如果至少有一个特征根非常接近于零,则就很大,也就不再是的一个好的估计。由 线性代数的理论知道,若矩阵的某个特质根接近零,就意味着矩阵 X的列向量之间存在近似线性关系。 如果存在一组不全为零的数,使得 则称线性回归模型存在完全共线性;如果还存在随机误差 v,满足,使得 则称线性回归模型存在非完全共线性。 如果线性回归模型存在完全共线性,则回归系数的 LS估计不存在,因此,在线性回归分析中所谈的共线性 主要是非完全共线性,也称为复共线性。判断复共线性及其严重程度的方法主要有特征分析法(analysis of eigenvalue),条件数法 (conditional numbers)和方差扩大因子法(variance inflation factor)。
产生原因
产生原因
主要有3个方面: (1)经济变量相关的共同趋势 (2)滞后变量的引入 (3)样本资料的限制
影响
影响
第四章多重共线性
第四章 多重共线性一、单项选择题1、完全的多重共线性是指解释变量的数据矩阵的秩( )(A )大于k (B )小于k(C )等于k (D )等于k+12、当模型存在严重的多重共线性时,OLS 估计量将不具备( )(A )线性 (B )无偏性(C )有效性 (D )一致性3、如果每两个解释变量的简单相关系数比较高,大于( )时则可认为存在着较严重的多重共线性。
(A )0.5 (B )0.6(C )0.7 (D )0.84、方差扩大因子VIF j 可用来度量多重共线性的严重程度,经验表明,VIF j ( )时,说明解释变量与其余解释变量间有严重的多重共线性。
(A )小于5 (B )大于1(C )小于1 (D )大于105、对于模型01122i i i i Y X X u βββ=+++,与r 23等于0相比,当r 23等于0.5时,3ˆβ的方差将是原来的( )(A )2倍 (B )1.5倍(C )1.33倍 (D )1.25倍6、无多重共线性是指数据矩阵的秩( )(A )小于k (B )等于k(C )大于k (D )等于k+17、无多重共线性假定是假定各解释变量之间不存在( )(A )线性关系 (B )非线性关系(C )自相关 (D )异方差8、经济变量之间具有共同变化的趋势时,由其构建的计量经济模型易产生( )(A )异方差 (B )自相关(C )多重共线性 (D )序列相关9、完全多重共线性产生的后果包括参数估计量的方差( )(A )增大 (B )减小(C )无穷大 (D )无穷小10、不完全多重共线性产生的后果包括参数估计量的方差( )(A )增大 (B )减小(C )无穷大 (D )无穷小11、不完全多重共线性下,对参数区间估计时,置信区间趋于( )(A )变大 (B )变小(C )不变 (D )难以估计12、较高的简单相关系数是多重共线性存在的( )(A )必要条件 (B )充分条件(C )充要条件 (D )并非条件13、方差扩大因子VIF j是由辅助回归的可决系数R j2计算而得,R j2越大,方差扩大因子VIF j就()(A)越大(B)越小(C)不变(D)无关14、解释变量间的多重共线性越弱,方差扩大因子VIF j就越接近于()(A)1 (B)2(C)0 (D)1015、多重共线性是一个()(A)样本特性(B)总体特性(C)模型特性(D)以上皆不对二、多项选择题1、多重共线性包括()(A)完全的多重共线性(B)不完全的多重共线性(C)解释变量间精确的线性关系(D)解释变量间近似的线性关系(E)非线性关系2、多重共线性产生的经济背景主要由()(A)经济变量之间具有共同变化趋势(B)模型中包含滞后变量(C)采用截面数据(D)样本数据自身的原因3、多重共线性检验的方法包括()(A)简单相关系数检验法(B)方差扩大因子法(C)直观判断法(D)逐步回归法(E)DW检验法4、修正多重共线性的经验方法包括()(A)剔除变量法(B)增大样本容量(C)变换模型形式(D)截面数据与时间序列数据并用(E)变量变换5、严重的多重共线性常常会出现下列情形()(A)适用OLS得到的回归参数估计值不稳定(B)回归系数的方差增大(C)回归方程高度显著的情况下,有些回归系数通不过显著性检验(D)回归系数的正负号得不到合理的经济解释三、名词解释1、多重共线性2、完全的多重共线性3、辅助回归4、方差扩大因子VIF j5、逐步回归法6、不完全的多重共线性四、简答题1、多重共线性的实质是什么?2、为什么会出现多重共线性?3、多重共线性对回归参数的估计有何影响?4、判断是否存在多重共线性的方法有那些?5、针对多重共线性采取的补救措施有那些?6、具有严重多重共线性的回归方程能否用来进行预测?五、辨析题1、在高度多重共线性的情形中,要评价一个或多个偏回归系数的单个显著性是不可能的。
第四章多重共线性
2
x2j VIFj
注意:R2j 是多个解释变量辅助回归的多重可决系数,
而相关系数 r223只是说明两个变量的线性关系 。
(一元回归中可决系数的数值等于相关系数的平方)
17
方差扩大因子的作用
由
R2j 越大
VIFJ 1 (1 R2j ) 多重共线性越严重
VIFj越大
VIFj的大小可以反映解释变量之间存在多重共线性的严重
1 x22i (1
r223 )
2
x22i
1 (1 r223)
2
x22i
VIF2
当 r23 增大时,VIF2 增大, Var(ˆ2 ) 也会增大 ,
思考: 当 r23 0 时 Var(ˆ2) 2
x22i
(与一元回归比较)
当 r23 1 时 Var(ˆ2 )
(见前页结论) 8
三、当多重共线性严重时,甚至可能使估计
在总体中部分或全部解释变量可能没有线性关系,但是 在具体获得的样本中仍可能有共线性关系,因此多重共线 性问题本质上是一种样本现象。
正因为如此,我们无法对多重共线性问题进行统计假设 检验,只能设法评价解释变量之间多重共线性的严重程度。
5
第二节 多重共线性产生的后果
从参数估计看,在完全无多重共线性时,各解释变量都独
Kt
Kt
ln Qt ln A ln Lt ln Kt ln u
(ln Lt 与 ln Kt 有多重共线性) ln Qt ln A ln Lt ln u
Kt
Kt 22
三、截面数据与时间序列数据的结合
有时在时间序列数据中多重共线性严重的变量,在截 面数据中不一定有严重的共线性
假定前提:截面数据估计出的参数在时间序列中变化不大
庞皓《计量经济学》(第4版)章节题库-第4章 多重共线性【圣才出品】
第4章 多重共线性一、选择题1.下列哪项回归分析中很可能出现多重共线性问题?( )A.“资本投入”“劳动投入”两个变量同时作为生产函数的解释变量B.“消费”作为被解释变量,“收入”作解释变量的消费函数C.“本期收入”和“前期收入”同时作为“消费”的解释变量的消费函数D.“每亩施肥量”“每亩施肥量的平方”同时作为“小麦亩产”的解释变量的模型【答案】C【解析】产生多重共线性的主要原因有:①经济变量相关的共同趋势;②模型设定不谨慎;③样本资料的限制。
C项中“本期收入”和“前期收入”两个解释变量之间很可能存在线性相关性,导致模型中很可能会出现多重共线性问题。
2.在线性回归模型Y i=β0+β1X i1+β2X i2+β3X i3+u i中,如果X3i=2X1i+3X2i,则表明模型中存在( )。
A.异方差B.多重共线性C.序列相关D.设定误差【答案】B【解析】当存在不全为0的c i使c i X i1+c2X i2+…+c k X ik=0(i=1,2,…,n),即某一个解释变量可以用其他解释变量的线性组合表示,则称为解释变量间存在完全共线性,模型的回归系数估计值不存在。
本题中,存在c i 不等于0,使得X 3i -2X 1i -3X 2i =0,因此模型存在完全多重共线性。
3.对于模型Y i =β0+β1X 1i +β2X 2i +μi ,与r 12=0相比,当r 12=0.5时,估计量Error!1的方差Var (1)将是原来的( )倍。
A .1.00B .1.33C .1.45D .2.00【答案】B【解析】在二元线性回归模型中,()221211ˆ1i Var r X σβ=⋅-∑多重共线性使参数估计量的方差增大,方差膨胀因子为VIF (1)=1/(1-r 2),所以当r 12=0.5时,方差将是原来的1/(1-r 122)=1/(1-0.52)=1.33倍。
4.下列各项中,不属于解决多重共线性的方法的是( )。
计量经济学(第四章多重共线性)
06
总结与展望
研究结论总结
多重共线性现象普遍存在于经济数据中,对计量 经济学模型的估计和解释产生了重要影响。
通过使用多种诊断方法,如相关系数矩阵、方差膨 胀因子(VIF)和条件指数(CI),可以有效地识别 多重共线性问题。
在存在多重共线性的情况下,普通最小二乘法 (OLS)估计量虽然仍然是无偏的,但其方差可能 变得很大,导致估计结果不稳定。
主成分分析法的优点
可以消除多重共线性的影响,同 时降低自变量的维度,简化模型。
岭回归法
岭回归法的基本思想
通过在损失函数中加入L2正则化项(即所有自变量的平方和),使得回归系数的估计更加稳定, 从而消除多重共线性的影响。
岭回归法的步骤
首先确定正则化参数λ的值,然后求解包含L2正则化项的损失函数最小化问题,得到岭回归系数的估 计值。
逐步回归法的优点
可以自动选择重要的自变量,同时消除多重共线性的影响。
主成分分析法
主成分分析法的基本思想
通过正交变换将原始自变量转换 为互不相关的主成分,然后选择 少数几个主成分进行回归分析。
主成分分析法的步骤
首先对原始自变量进行标准化处理, 然后计算相关系数矩阵并进行特征值 分解,得到主成分及其对应的特征向 量。最后,选择少数几个主成分作为 新的自变量进行回归分析。
岭回归法的优点
可以有效地处理多重共线性问题,同时避免过拟合现象的发生。此外,岭回归法还可以提供对所 有自变量的系数进行压缩估计的功能,使得模型更加简洁易懂。
05
实证研究与结果分
析
数据来源及预处理
数据来源
本研究采用的数据集来自于公开的统 计数据库,涵盖了多个经济指标和影 响因素的观测值。
数据预处理
第四章多重共线性实例
表 4.3.3 中国粮食生产与相关投入资料
农业化肥施 粮食播种面 受灾面积 农业机械总
用量 X 1
(万公斤)
积X 2
(千公顷)
X3
(公顷)
动力X 4
(万千瓦)
1659.8
114047 16209.3
18022
1739.8
112884 15264.0
19497
1775.8
108845 22705.3
20913
Yˆ 28259.19 2.240X5
(-1.04) (2.66) R2=0.3064 F=7.07 DW=0.36
• 可见,应选第1个式子为初始的回归模型。
4、逐步回归
将其他解释变量分别导入上述初始回归模型,寻 找最佳回归方程。
C
X1 X2 X3
X4
X5
R2
DW
Y=f(X1)
30868 4.23
0.8852 1.56
t值
25.58 11.49
Y=f(X1,X2)
-43871 4.65 0.67
0.9558 2.01
t值
-3.02 18.47 5.16
Y=f(X1,X2,X3)
-11978 5.26 0.41 -0.19
0.9752 1.53
t值
0.85
19.6 3.35 -3.57
Y=f(X1,X2,X3,X4) -13056 6.17 0.42 -0.17 -0.09
1930.6
110933 23656.0
22950
1999.3
111268 20392.7
24836
2141.5
110123 23944.7
第四章第四节 多重共线性的补救措施
其中, Yt 为商品的消费量, X 2t 为商品的价格,X3t 为消费者收入,若通过抽样调查得到截面数据从而
求得消费者收入的边际消费倾向估计量 ˆ3 ,则上式
变为:
Yt ˆ3 X3t 1 2 X2t ut
令 Yt* Yt ˆ3X3t ,则 Yt* 1 2 X 2t ut
如果原模型(4.4.13)式存在严重的多重共 线性,那么一般情况下,经过差分变换后 会对减轻或消除多重共线性。但是在对一 阶差分式的估计中极有可能会出现 ut 序 列相关的问题,将不满足高斯-马尔可夫 定理(古典假设)。所以,一般情况下, 差分形式应慎用。
五、逐步回归法
基本做法:1.将被解释变量Y对每一个解 释变量 Xi (i 1,2,, k) 分别进行回归,对每一个 回归方程根据经济理论和统计检验进行综合分 析判断,从中挑选出一个最优的基本回归方程。 2.在此基础上,再逐一引入其他解释变量,重 新作回归,逐步扩大模型的规模,直至从综合 情况看出现最好的模型估计形式。
但是劳动力的增长同资本的增长随时间的变换呈高
度相关。如果已知规模报酬不变,即 1 ,则 生产函数变为:
Qt
ALt
K
1 t
从而有:
ห้องสมุดไป่ตู้
Qt Kt
A( Lt ) Kt
Qt
Lt
其中 Kt 为资本产出率, Kt 为劳动对资本的
投入率。将上式两边去对数得:
ln( Qt ) ln A ln( Lt )
1
* 2
X 3t X 2t
ut
可回避原模型的多重共线性。
《计量经济学》第四章精选题及答案
第四章:多重共线性二、简答题1、导致多重共线性的原因有哪些?2、多重共线性为什么会使得模型的预测功能失效?3、如何利用辅回归模型来检验多重共线性?4、判断以下说法正确、错误,还是不确定?并简要陈述你的理由。
(1)尽管存在完全的多重共线性,OLS 估计量还是最优线性无偏估计量(BLUE )。
(2)在高度多重共线性的情况下,要评价一个或者多个偏回归系数的个别显著性是不可能的。
(3)如果某一辅回归显示出较高的2i R 值,则必然会存在高度的多重共线性。
(4)变量之间的相关系数较高是存在多重共线性的充分必要条件。
(5)如果回归的目的仅仅是为了预测,则变量之间存在多重共线性是无害的。
5、考虑下面的一组数据:12233i i i Y X X βββ=++来对以上数据进行拟合回归。
(1) 我们能得到这3个估计量吗?并说明理由。
(2) 如果不能,那么我们能否估计得到这些参数的线性组合?可以的话,写出必要的计算过程。
6、考虑以下模型:231234i i i i i Y X X X ββββμ=++++由于2X 和3X 是X 的函数,那么它们之间存在多重共线性。
这种说法对吗?为什么? 7、在涉及时间序列数据的回归分析中,如果回归模型不仅含有解释变量的当前值,同时还含有它们的滞后值,我们把这类模型称为分布滞后模型(distributed-lag model )。
我们考虑以下模型:12313233i t t t t t Y X X X X βββββμ---=+++++其中Y ——消费,X ——收入,t ——时间。
该模型表示当期的消费是其现期的收入及其滞后三期的收入的线性函数。
(1) 在这一类模型中是否会存在多重共线性?为什么? (2) 如果存在多重共线性的话,应该如何解决这个问题? 8、设想在模型12233i i i iY X X βββμ=+++中,2X 和3X 之间的相关系数23r 为零。
如果我们做如下的回归:1221i i i Y X ααμ=++ 1332i i i Y X γγμ=++(1)会不会存在22ˆˆαβ=且33ˆˆγβ=?为什么? (2)1ˆβ会等于1ˆα或1ˆγ或两者的某个线性组合吗? (3)会不会有22ˆˆvar()var()βα=且33ˆˆvar()var()γβ=? 9、通过一些简单的计量软件(比如EViews 、SPSS ),我们可以得到各变量之间的相关矩阵:2323232311 1k k k k r r r r R r r ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭。
最新计量经济学第四章-3-多重共线性ppt课件
一、多重共线性的概念
对于模型:
Yi=0+1X1i+2X2i++kXki+i i=1,2,…,n
其基本假设之一是解释变量之间是互不相关的。 如果某两个或多个解释变量之间出现了相关性,则称为存 在多重共线性(Multicollinearity)。
Copyright©princebf,2008-2009,YNUFE
( x1i x 2i ) 2
x12i
x
2 2i
恰为X1与X2的线性相关系数的平方r2
var(ˆ1)
2
1
x12i •1r2
由于 0 r2 1,故 1/(1- r2 )1
Copyright©princebf,2008-2009,YNUFE
当完全不共线时, r2 =0
vaˆ1r) (2/ x1 2 i
Copyright©princebf,2008-2009,YNUFE
7、引入检验法
以Y为被解释变量,逐个引入解释变量,构成回归模型,进 行模型估计,根据拟合优度的变化决定新引入的变量是否独 立。 如果拟合优度变化显著,则说明新引入的变量是一个独立 解释变量; 如果拟合优度变化很不显著,则说明新引入的变量与其它 变量之间存在共线性关系。
>0.9,非常严重
Copyright©princebf,2008-2009,YNUFE
2、经验判断法
• 若在OLS法下,出现以下现象,则可能意味着共线性的存 在:
a、系数估计值的符号不合常理; b、R2与F值较大,方程具有显著性,但各参数估计值的t检 验值均较小,多个解释变量并不显著
说明各解释变量对Y的联合线性作用显著,但各解释变 量间存在共线性而使得它们对Y的独立作用不能分辨,故t检 验不显著。
第四章 多重共线性 《计量经济学》PPT课件
SE
(
ˆ
j
)
ˆ
x
2 ji
VIFj
参数估计区间的增大,也会造成预测区间增大,使 得预测不稳定。
3.参数估计量的方差和估计区间增大,使检验容 易出现错误判断。
在不完全多重共线性情况下,参数估计区间增大, 会使得假设检验中参数估计值落入接受区域的概 率增大,也就是说,本来应该拒绝原假设反而不 拒绝。
在对模型参数的 t-检验中,由于参数估计量的标准
| XX | 0
• (XX)1对角线上的元素为无限大,从而 ˆ j 的方差
和标准差也为无限大
• 二元线性回归模型
X 3i X 2i
Var(ˆ3 )
x22i
x22i x32i (
x2i x3i )2
2
x22i
x22i
2 x22i (
x2i x2i )2
2
x22i 0
2
Var(ˆ2 )
差增大而使得值变小,结果造成本应该拒绝原假
设反而不拒绝,即t -检验不能通过。
可决系数 R2会很高,F-检验也显著,但是,对参数
的 t-检验可能不显著,甚至出现偏回归系数的符
号与实际经济现象恰好相反,从而得出错误结论。
§4.3 多重共线性的检验
1.相关系数检验法
两个解释变量的简单相关系数大于0.8的情况下,便认为 存在较严重的多重共线性。当解释变量的个数大于2的时 候,不仅要计算俩俩解释变量的简单相关系数,还要检测 偏相关系数。
x22i
x32i x32i (
x2i x3i )2
2
x22i
2 x22i 2 x22i (
x2i x2i )2
2
2
0
《计量经济学》第四章 多重共线性
σ2
R j 2 = X j 对其余 k − 2 个解释变量进行回归的 R 2 σ2 ˆ 还可写成 var( β j ) = VIF j 2
∑x
j
VIF的倒数被称为容许度(TOL j) 的倒数被称为容许度( 的倒数被称为容许度
TOL j = 1 = 1− Rj2 VIFj
采用普通最小二乘法得到以下估计结果
3
财政收入模型的EViews估计结果 财政收入模型的EViews估计结果 EViews
Variable 农业增加值NZ 农业增加值 工业增加值GZ 工业增加值 建筑业增加值JZZ 建筑业增加值 总人口TPOP 总人口 最终消费CUM 最终消费 受灾面积SZM 受灾面积 截距项 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Coefficient -1.535090 0.898788 -1.527089 0.151160 0.101514 -0.036836 -11793.34 0.995015 0.993441 481.5380 4405699. -193.4165 1.873809 Std. Error 0.129778 0.245466 1.206242 0.033759 0.105329 0.018460 3191.096 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) t-Statistic -11.82861 3.661558 -1.265989 4.477646 0.963783 -1.995382 -3.695704 Prob. 0.0000 0.0017 0.2208 0.0003 0.3473 0.0605 0.0015 5897.824 5945.854 15.41665 15.75537 632.0999 0.000000 4
第四章 多重共线性 答案(1)
第四章 多重共线性一、判断题1、多重共线性是一种随机误差现象。
(F )2、多重共线性是总体的特征。
(F )3、在存在不完全多重共线性的情况下,回归系数的标准差会趋于变小,相应的t 值会趋于变大。
(F )4、尽管有不完全的多重共线性,OLS 估计量仍然是最优线性无偏估计量。
(T )5、在高度多重共线的情形中,要评价一个或多个偏回归系数的个别显著性是不可能的。
(T )6、变量的两两高度相关并不表示高度多重共线性。
(F )7、如果分析的目的仅仅是预测,则多重共线性一定是无害的。
(T )8、在多元回归中,根据通常的t 检验,每个参数都是统计上不显著的,你就不会得到一个高的2R 值。
(F )9、如果简单相关系数检测法证明多元回归模型的解释变量两两不相关,则可以判断解释变量间不存在多重共线性。
( F )10、多重共线性问题的实质是样本问题,因此可以通过增加样本信息得到改善。
(T ) 11、虽然多重共线性下,很难精确区分各个解释变量的单独影响,但可据此模型进行预测。
(T )12、如果回归模型存在严重的多重共线性,可不加分析地去掉某个解释变量从而消除多重共线性。
(F )13、多重共线性的存在会降低OLS 估计的方差。
(F )14、随着多重共线性程度的增强,方差膨胀因子以及系数估计误差都在增大。
(T ) 15、解释变量和随机误差项相关,是产生多重共线性的原因。
(F ) 16、对于模型i ni n i 110i u X X Y ++++=βββ ,n 1i ,, =;如果132X X X -=,模型必然存在解释变量的多重共线性问题。
(T )17、多重共线性问题是随机扰动项违背古典假定引起的。
(F ) 18、存在多重共线性时,模型参数无法估计。
(F )二、单项选择题1、在线性回归模型中,若解释变量1X 和2X 的观测值成比例,既有12i i X kX =,其中k 为 非零常数,则表明模型中存在 ( B ) A 、异方差 B 、多重共线性 C 、序列相关 D 、随机解释变量2、 在多元线性回归模型中,若某个解释变量对其余解释变量的可决系数接近1,则表明模型中存在 ( C ) A 、异方差性 B 、序列相关C 、多重共线性D 、拟合优度低3、对于模型i i 22i 110i u X X Y +++=βββ,与0r 12=相比,当50r 12.=时,估计量1βˆ的方差()1βˆvar 将是原来的 ( B ) A 、 1 倍 B 、 1.33 倍 C 、1.96 倍 D 、 2 倍 4、如果方差膨胀因子VIF =10,则认为什么问题是严重的( C )A 、异方差问题B 、序列相关问题C 、多重共线性问题D 、 解释变量与随机项的相关性 5、经验认为某个解释与其他解释变量间多重共线性严重的情况是这个解释变量的VIF ( C )。
04 多重共线性学习辅导
第四章多重共线性学习辅导一、本章的基本内容(一)基本内容图4.1 第四章基本内容(二)本章的教学目标多元线性回归模型的古典假定中强调包含在回归模型中的各个解释变量之间不存在线性关系,或者说各个解释变量的观测值之间线性无关,即无多重共线性。
但在实际的经济分析中,此假定经常会违背,也就是说,各个解释变量之间将会出现多重共线性问题。
经济时间序列数据常常不是通过实验设计得到,而一般都是对实际社会经济活动观测的结果,一些经济变量难免会出现同增同减的趋势。
当两个及两个以上的解释变量发生这种现象时,就导致了多重共线性。
本章的教学目标是:理解多重共线性的性质;理解并掌握如果解释变量间存在多重共线性将会产生什么实质后果;掌握如何诊断多重共线性;掌握如何缓解多重共线性的影响。
二、重点与难点分析1.如何认识多重共线性多重共线性(multicollinearity )最早由Frisch (1934)用来表示多元回归模型中的部分或全部解释变量之间存在一种“完全”或准确的线性关系。
然而,现在用多重共线性一词,有更广的含义,还包含不完全多重共线性1。
也就是说,在多元回归模型中,部分或全部解释变量之间存在一种近似的线性关系,即对于解释变量k X X X ,,,21 (为了把截距项考虑进来,在一切观测中取11 X ),如果存在不全为0的数k ,,,21 ,使得02211 v X X X k k , 其中v 为随机变量,就称k X X X ,,,21 存在多重共线性。
多重共线性仅是对解释变量之间的线性关系而言。
如果解释变量之间存在非线性关系,并不违反多重共线性假定。
在实际经济问题中,解释变量发生“完全”或准确的线性关系可能性并不大,但是,解释变量之间完全没有线性关系的可能性也不大。
通常情况是解释变量之间或多或少都存在一定程度的线性关系。
因此需要明确,在多元线性回归模型中多重共线性问题不是一个有无的问题,而是多重共线性程度是否严重的问题。
4 多重共线性
2 λ (∑ yx2 )(∑ x2 ) − λ (∑ yx2 )(∑ x2 x2 ) 0 = = 2 2 0 λ (∑ x2 )(∑ x2 2 ) − λ 2 (∑ x2 2 ) 2
2 (∑ yλ x2 )(∑ x2 ) − (∑ yx2 )(∑ x2 λ x2 ) ˆ β3 = 2 (∑ x2 )(∑ (λ x2 ) 2 ) − (∑ x2 λ x2 ) 2
第二节 多重共线性产生的后果
▲完全多重共线性下的后果 ▲不完全多重共线性下的后果 一、完全多重共线性下的后果 1、参数估计值不确定 在完全多重共线性下,解释变量 X i 满足:
λ2 X 2 + λ3 X 3 + " + λk X k = 0
其中 λi 不全为零。则对应解释变量的矩阵 X ,有 X ' X = 0 ,或者
∑ (λ x )
2
2
σ
2
∑x =
0
2 2
σ2 = ∞
表明在解释变量之间存在完全共线性时, 参数估计值的方差会无限变
完全
二、多重共线性的定义
不完全
1、完全的多重共线性(线性相关的方法描述) : 对于变量 X 2 , X 3 ," , X k ,如果存在不全为零的数 λ2 , λ3 ," , λk ,使得 下式成立:
2
λ2 X 2 + λ3 X 3 + " + λk X k = 0
(4.1)
则称变量
X 2 , X 3 ," , X k 之间存在一种完全的多重共线性。
第四章 多重共线性
在现实经济问题中,古典假定不一定能满足,这就是所谓的古典 假定的违反。 古典假定: 1.零均值,即 E (ui ) = 0 ; 2.同方差,即 Var (ui ) = σ 2 ; 3.无自相关,即 Cov(ui , u j ) = 0, i ≠ j ; 4.解释变量非随机性,即 Cov(ui , X i ) = 0 ; 5. 无 多 重 共 线 性 , 即 不 存 在 一 组 不 全 为 零 的 数 λ2、λ3 " λk , 使
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计量经济学课程教案第四章 多重共线性§ 什么是多重共线性 一、多重共线性的概念 对于模型Y i =1+2X 2i +3X 3i++k X ki+ii=1,2,…,n其基本假设之一是解释变量是互相独立的。
如果存在c 1X 1i +c 2X 2i +…+c k X ki =0 i=1,2,…,n其中: c i 不全为0,则称为解释变量间存在完全共线性(perfectmulticollinearity )。
在矩阵表示的线性回归模型 Y=X+中,完全共线性指:秩(X)<k+1,即⎪⎪⎪⎪⎪⎭⎫⎝⎛=kn nn k k X X XX X X X X X X 212221212111111二、实际经济问题中的多重共线性一般地,产生多重共线性的主要原因有以下三个方面: (1)经济变量相关的共同趋势时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。
横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。
(2)滞后变量的引入在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。
例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。
(3)样本资料的限制由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。
一般经验:时间序列数据样本:简单线性模型,往往存在多重共线性。
截面数据样本:问题不那么严重,但多重共线性仍然是存在的。
§ 多重共线性产生的后果一、完全共线性下参数估计量不存在μX βY +=的OLS 估计量为:Y X X X β''=-1)(ˆ如果存在完全共线性,则(X’X)-1不存在,无法得到参数的估计量。
二、近似共线性下OLS 估计量非有效 近似共线性下,可以得到OLS 参数估计量, 但参数估计量方差的表达式为12)()ˆ(-'=X X βσCov由于|X’X|0,引起(X’X)-1主对角线元素较大,使参数估计值的方差增大,OLS参数估计量非有效。
多重共线性使参数估计值的方差增大,1/(1-r 2)为方差膨胀因子(Variance Inflation Factor, VIF)表 4.3.1 方差膨胀因子表相关系数平方00.50.80.90.950.960.970.980.990.999方差膨胀因子12510202533501001000三、参数估计量经济含义不合理如果模型中两个解释变量具有线性相关性,例如 X 2= X 1 ,这时,X 1和X 2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。
1、2已经失去了应有的经济含义,于是经常表现出似乎反常的现象:例如1本来应该是正的,结果恰是负的。
四、变量的显著性检验失去意义仍以二元线性模型 y=1x 1+2x 2+ 为例:∑∑∑∑∑∑∑∑-=-='=-2221221212221222122211121)(1/)()()ˆvar(ii i i iii i i ix x x x x x x x x x X X σσσβ221211r x i -⋅=∑σ∑∑∑2221221)(ii i i x x x x 恰为X 1与X 2的线性相关系数的平方r 2 由于 r 21,故 1/(1- r 2 )1当完全不共线时, r 2 =0 当近似共线时, 0< r 2 <1∑∑>-⋅=2122212111)ˆvar(ii x r x σσβ当完全共线时, r 2=1,∞=)ˆvar(1β∑=2121/)ˆvar(i x σβ五、模型的预测功能失效变大的方差容易使区间预测的“区间”变大,使预测失去意义。
§ 多重共线性的检验多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是统计方法:如判定系数检验法、逐步回归检验法等。
多重共线性检验的任务是: (1)检验多重共线性是否存在;(2)估计多重共线性的范围,即判断哪些变量之间存在共线性。
一、检验多重共线性是否存在(1)对两个解释变量的模型,采用简单相关系数法求出X 1与X 2的简单相关系数r ,若|r|接近1,则说明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用综合统计检验法若在OLS 法下:R 2与F 值较大,但t 检验值较小,说明各解释变量对Y 的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y 的独立作用不能分辨,故t 检验不显著。
二、判明存在多重共线性的范围如果存在多重共线性,需进一步确定究竟由哪些变量引起。
(1) 判定系数检验法存在多重共线性时参数估计值的方差与标准差变大容易使通过样本计算的t 值小于临界值,可能将重要的解释变量排除在模型之外使模型中每一个解释变量分别以其余解释变量为解释变量进行回归,并计算相应的拟合优度。
如果某一种回归: X ji =1X 1i+2X 2i +LX Li的判定系数较大,说明X j 与其他X 间存在共线性。
具体可进一步对上述回归方程作F 检验。
构造如下F 统计量)1,2(~)1/()1()2/(2.2.+--+---=k n k F k n R k R F j j j式中:R j •2为第j 个解释变量对其他解释变量的回归方程的决定系数,若存在较强的共线性,则R j •2较大且接近于1,这时(1- R j •2 )较小,从而F j 的值较大。
因此,给定显著性水平,计算F 值,并与相应的临界值比较,来判定是否存在相关性。
另一等价的检验是:在模型中排除某一个解释变量X j ,估计模型;如果拟合优度与包含X j 时十分接近,则说明X j 与其它解释变量之间存在共线性。
(2)逐步回归法以Y 为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。
根据拟合优度的变化决定新引入的变量是否独立。
如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;如果拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。
§ 多重共线性的补救措施如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。
一、第一类方法:排除引起共线性的变量找出引起多重共线性的解释变量,将它排除出去。
以逐步回归法得到最广泛的应用。
注意:这时,剩余解释变量参数的经济含义和数值都发生了变化。
二、第二类方法:差分法时间序列数据、线性模型:将原模型变换为差分模型: Y i =1X 1i +2X 2i ++kX ki +i可以有效地消除原模型中的多重共线性。
一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。
三、第三类方法:减小参数估计量的方差多重共线性的主要后果是参数估计量具有较大的方差,所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。
例如:①增加样本容量,可使参数估计量的方差减小。
*②岭回归法(Ridge Regression )70年代发展的岭回归法,以引入偏误为代价减小参数估计量的方差,受到人们的重视。
具体方法是:引入矩阵D ,使参数估计量为Y X D X X β'+'=-1)(ˆ其中矩阵D 一般选择为主对角阵,即 D=aIa 为大于0的常数。
显然,与未含D 的参数B 的估计量相比,(*)式的估计量有较小的方差。
§ 案例——中国粮食生产函数根据理论和经验分析,影响粮食生产(Y )的主要因素有:农业化肥施用量(X 1);粮食播种面积(X 2)成灾面积(X 3); 农业机械总动力(X 4); 农业劳动力(X 5)已知中国粮食生产的相关数据,建立中国粮食生产函数: Y=+1X 1 +2X 2 +3X 3 +4X 4 +4X 5 +一、用OLS 法估计上述模型:54321028.0098.0166.0421.0213.644.12816ˆX X X X X Y ---++-=R 2接近于1;给定=5%,得F 临界值 (5,12)= F= > ,故认上述粮食生产的总体线性关系显著成立。
但X 4 、X 5 的参数未通过t 检验,且符号不正确,故解释变量间可能存在多重共线性。
二、检验简单相关系数X1X2X3X4X5X1 1.000.010.640.960.55X20.01 1.00-0.45-0.040.18X30.64-0.45 1.000.690.36X40.96-0.040.69 1.000.45X50.550.180.360.45 1.00发现: X 1与X 4间存在高度相关性。
三、找出最简单的回归形式可见,应选第1个式子为初始的回归模型。
四、逐步回归将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。
五、结论回归方程以Y=f(X 1,X 2,X 3)为最优:32119.041.026.511978X X X Y -++-=思考题1、多重共线性的实质是什么为什么会出现多重共线性2、多重共线性对回归参数的估计有何影响3、多重共线性的典型表现是什么判断多重共线性的方法有哪些4、针对多重共线性的不同情形,能采取的补救措施有哪些5、具有多重共线性的回归方程能否用来进行预测1576.464.30867ˆX Y += R 2=0.8919 F= DW= 2699.018.33821ˆX Y +-=R 2=0.075 F= DW=4380.00.31919ˆX Y += R 2=0.7527 F= DW=5240.219.28259ˆX Y +-= R 2=0.3064 F= DW=。