第四章 多重共线性
第四章 多重共线性
二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形: 1.经济变量之间具有相同的变化趋势。 2.模型中包含滞后变量。 3.利用截面数据建立模型也可能出现多重共线性。 4.样本数据的原因。
6
第二节 多重共线性的后果
一、完全多重共线性产生的后果
1.参数的估计值不确定 2.参数估计值的方差无限大
Cov( ˆ2 ,
ˆ3 )
(1
r223 )
r23 2
x22i
x32i
随着共线性增加,r23趋于1,方差将增大。同样 协方差的绝对值也增大,它们增大的速度决定于
方差扩大(膨胀)因子(variance inflation factor, VIF)
VIF
1
1 r223
这时
Var(ˆ2 )
4.多重共线性严重时,甚至可能使估计的回归系数 符号相反,得出完全错误的结论。(如引例)
18
第三节 多重共线性的检验
本节基本内容: 简单相关系数检验法 方差扩大因子法 直观判断法 病态指数检验法 逐步回归法
19
一、简单相关系数检验法 简单相关系数检验法是利用解释变量之间的线性 相关程度去判断是否存在严重多重共线性的一种 简便方法。适用于只有两个变量的情形。
2
x32i 0
同理
ˆ3
这说明完全多重共线性时,参数估计量的方差将 变成无穷大。
9
关于方差的推导
Var(ˆ2 )
x32i (x22i ) (x32i )
(x2i x3i )2
2
1 X21 X 1 X22
1 X2n
4.1 多重共线性(计量经济学)
放宽基本假定的模型
说明
• 经典多元线性模型在满足若干基本假定的条件下, 应用普通最小二乘法得到了无偏、有效且一致的 参数估计量。
• 在实际的计量经济学问题中,完全满足这些基本 假定的情况并不多见。不满足基本假定的情况, 称为基本假定违背。
• 对截面数据模型来说,违背基本假定的情形主要 包括:
•逐步回归法(Stepwise forward Regression)
– 以Y为被解释变量,逐个引入解释变量,构成回归 模型,进行模型估计。
– 根据拟合优度的变化决定新引入的变量是否独立。 • 如果拟合优度变化显著,则说明新引入的变量是 一个独立解释变量;
• 如果拟合优度变化很不显著,则说明新引入的变 量与其它变量之间存在共线性关系。
§4.1 多重共线性 Multicollinearity
一、多重共线性 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验 五、克服多重共线性的方法 六、案例
一、多重共线性的概念
1、多重共线性
Yi 0 1Xi1 2 Xi2 k Xik i i 1, 2, , n
实际上:正态性假设的违背
• 李子奈(2011):计量经济学模型方法论 – 当存在模型关系误差时,如果解释变量是随机的,随 机误差项的正态性将得不到保证。 – 当模型遗漏了显著的变量,如果遗漏的变量是非正态 的随机变量,随机误差项将不具有正态性。 – 如果待估计的模型是原模型经过函数变换得到的,随 机误差项将不再服从正态分布。 – 当模型存在被解释变量的观测误差,如果观测误差相 对于随机误差项的标准差特别大、样本长度又特别小, 随机误差项的正态性假设会导致显著性水平产生一定 程度的扭曲。 – 当模型存在解释变量观测误差时,一般情况下,随机 误差项的正态性假设都是不能成立的;只有在回归函 数是线性的,且观测误差分布是正态的特殊情形下, 随机误差项的正态性才成立。
第四章多重共线性
第四章 多重共线性一、单项选择题1、完全的多重共线性是指解释变量的数据矩阵的秩( )(A )大于k (B )小于k(C )等于k (D )等于k+12、当模型存在严重的多重共线性时,OLS 估计量将不具备( )(A )线性 (B )无偏性(C )有效性 (D )一致性3、如果每两个解释变量的简单相关系数比较高,大于( )时则可认为存在着较严重的多重共线性。
(A )0.5 (B )0.6(C )0.7 (D )0.84、方差扩大因子VIF j 可用来度量多重共线性的严重程度,经验表明,VIF j ( )时,说明解释变量与其余解释变量间有严重的多重共线性。
(A )小于5 (B )大于1(C )小于1 (D )大于105、对于模型01122i i i i Y X X u βββ=+++,与r 23等于0相比,当r 23等于0.5时,3ˆβ的方差将是原来的( )(A )2倍 (B )1.5倍(C )1.33倍 (D )1.25倍6、无多重共线性是指数据矩阵的秩( )(A )小于k (B )等于k(C )大于k (D )等于k+17、无多重共线性假定是假定各解释变量之间不存在( )(A )线性关系 (B )非线性关系(C )自相关 (D )异方差8、经济变量之间具有共同变化的趋势时,由其构建的计量经济模型易产生( )(A )异方差 (B )自相关(C )多重共线性 (D )序列相关9、完全多重共线性产生的后果包括参数估计量的方差( )(A )增大 (B )减小(C )无穷大 (D )无穷小10、不完全多重共线性产生的后果包括参数估计量的方差( )(A )增大 (B )减小(C )无穷大 (D )无穷小11、不完全多重共线性下,对参数区间估计时,置信区间趋于( )(A )变大 (B )变小(C )不变 (D )难以估计12、较高的简单相关系数是多重共线性存在的( )(A )必要条件 (B )充分条件(C )充要条件 (D )并非条件13、方差扩大因子VIF j是由辅助回归的可决系数R j2计算而得,R j2越大,方差扩大因子VIF j就()(A)越大(B)越小(C)不变(D)无关14、解释变量间的多重共线性越弱,方差扩大因子VIF j就越接近于()(A)1 (B)2(C)0 (D)1015、多重共线性是一个()(A)样本特性(B)总体特性(C)模型特性(D)以上皆不对二、多项选择题1、多重共线性包括()(A)完全的多重共线性(B)不完全的多重共线性(C)解释变量间精确的线性关系(D)解释变量间近似的线性关系(E)非线性关系2、多重共线性产生的经济背景主要由()(A)经济变量之间具有共同变化趋势(B)模型中包含滞后变量(C)采用截面数据(D)样本数据自身的原因3、多重共线性检验的方法包括()(A)简单相关系数检验法(B)方差扩大因子法(C)直观判断法(D)逐步回归法(E)DW检验法4、修正多重共线性的经验方法包括()(A)剔除变量法(B)增大样本容量(C)变换模型形式(D)截面数据与时间序列数据并用(E)变量变换5、严重的多重共线性常常会出现下列情形()(A)适用OLS得到的回归参数估计值不稳定(B)回归系数的方差增大(C)回归方程高度显著的情况下,有些回归系数通不过显著性检验(D)回归系数的正负号得不到合理的经济解释三、名词解释1、多重共线性2、完全的多重共线性3、辅助回归4、方差扩大因子VIF j5、逐步回归法6、不完全的多重共线性四、简答题1、多重共线性的实质是什么?2、为什么会出现多重共线性?3、多重共线性对回归参数的估计有何影响?4、判断是否存在多重共线性的方法有那些?5、针对多重共线性采取的补救措施有那些?6、具有严重多重共线性的回归方程能否用来进行预测?五、辨析题1、在高度多重共线性的情形中,要评价一个或多个偏回归系数的单个显著性是不可能的。
第四章多重共线性
2
x2j VIFj
注意:R2j 是多个解释变量辅助回归的多重可决系数,
而相关系数 r223只是说明两个变量的线性关系 。
(一元回归中可决系数的数值等于相关系数的平方)
17
方差扩大因子的作用
由
R2j 越大
VIFJ 1 (1 R2j ) 多重共线性越严重
VIFj越大
VIFj的大小可以反映解释变量之间存在多重共线性的严重
1 x22i (1
r223 )
2
x22i
1 (1 r223)
2
x22i
VIF2
当 r23 增大时,VIF2 增大, Var(ˆ2 ) 也会增大 ,
思考: 当 r23 0 时 Var(ˆ2) 2
x22i
(与一元回归比较)
当 r23 1 时 Var(ˆ2 )
(见前页结论) 8
三、当多重共线性严重时,甚至可能使估计
在总体中部分或全部解释变量可能没有线性关系,但是 在具体获得的样本中仍可能有共线性关系,因此多重共线 性问题本质上是一种样本现象。
正因为如此,我们无法对多重共线性问题进行统计假设 检验,只能设法评价解释变量之间多重共线性的严重程度。
5
第二节 多重共线性产生的后果
从参数估计看,在完全无多重共线性时,各解释变量都独
Kt
Kt
ln Qt ln A ln Lt ln Kt ln u
(ln Lt 与 ln Kt 有多重共线性) ln Qt ln A ln Lt ln u
Kt
Kt 22
三、截面数据与时间序列数据的结合
有时在时间序列数据中多重共线性严重的变量,在截 面数据中不一定有严重的共线性
假定前提:截面数据估计出的参数在时间序列中变化不大
多重共线性
第四章 多重共线性第一节 什么是多重共线性一、多重共线性的含义所谓多重共线性,不仅包括解释变量之间完全(精确)的线性关系,还包括解释变量之间近似的线性关系。
对于解释变量23,,,k X X X ,如果存在不全为零的数123,,,,k λλλλ ,能使得12233i i k ki X X X λλλλ++++ =0 ,(i =1,2,,n )——即解释变量的数据矩阵的列向量组线性相关。
则称解释变量23,,,k X X X 之间存在着完全的线性关系。
用数据表示,解释变量的数据矩阵为X =213112232223111k k nnkn X X X XX X X X X ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦当()r X <k 时,也说明解释变量23,,,k X X X 之间存在着完全的线性关系。
当存在完全共线性时,至少有一个变量(列向量)可以用其余的变量(列向量)线性表出。
在实际问题中,完全的共线性并不多见。
常见的情形是解释变量23,,,k X X X 之间存在不完全的共线性,这是指存在不全为零是数123,,,,k λλλλ ,使得12233λλλλ+++++ i i k ki i X X X v =0(i =1,2,,n )其中i v 是随机变量。
这表明此时解释变量之间只是一种近似的线性关系。
二、产生多重共线性的背景1.经济变量之间具有共同的变化趋势2.模型中包含滞后变量3.利用截面数据建立模型也可能出现共线性4. 样本数据自身的原因第二节 多重共线性产生的后果完全共线性时,矩阵X X '不可逆,参数估计式ˆβ=1()X X X Y -''不存在,OLS 无法应用。
不完全的共线性时,1()X X -'也存在,可以得到参数的估计值,但是对计量经济分析可能会产生一系列影响。
一、参数估计量的无偏性依然成立不完全共线性时ˆ()E β=1()E X X X Y -''⎡⎤⎣⎦=1()()E X X X X U β-''⎡⎤+⎣⎦=β+()1()X X X E U -''=β二、参数OLS 估计值方差扩大 如二元回归模型i Y =12233i i i X X u βββ+++中的2X 与3X 为不完全的共线性时,2X 与3X 之间的相关系数23r 可由下式给出223r=2232223()x x x x∑∑∑容易证明2ˆ()Var β=222223(1)i x r σ-∑3ˆ()Var β=222323(1)ixr σ-∑随着共线性的程度增加,23r 的绝对值趋于1,两个参数估计量的方差也增大。
第四章第二节 多重共线性产生的后果
Y E(Y ) 1 2 X2 3 X3
二元线性回归模型 Y 1 2 X 2 3 X3 u
其离差形式为: y 2 x2 3x3 u
y 2 x2 3 x3 e
2和 3 的估计式
ˆ2 (
yx2 )( x32 ) ( yx3 )( x2 x3 ) ( x22 )( x32 ) ( x2 x3 )2
x31x32 x3n xk1xk 2xkn (k1)n
y x e, xy xx xe xx ,即为正规方程组
x21x22 x2n y1 x31x32 x3n y2 xk1xk2 xkn yn
r24 0.9632 r35 0.8435 r46 0.9248
r25 0.4569 r36 0.5494 r56 0.5438
r26 0.8569
表明一些解释变量之间确实存在共线性。
***离差形式的最小二乘估计量
多元线性总体回归模型有:
Yi 1 2 X 2i 3 X 3i k X ki ui Y 1 2 X2 3 X3 k Xk Yi Y 2 ( X 2i X 2 ) 3 ( X 3i X 3 ) k ( X ki X k ) ui yi 2 x2i 3 x3i k xki ui
x22 )2
x22 )
(
yx2
) 2 ( y)( ( x22 )( 2 )
x22 )
通过上式可以看出,随着 X2、X3 共线性程度的越
高,即 愈向零靠近,从而 ˆ2 就会愈趋向于不确定
计量经济学(第四章多重共线性)
06
总结与展望
研究结论总结
多重共线性现象普遍存在于经济数据中,对计量 经济学模型的估计和解释产生了重要影响。
通过使用多种诊断方法,如相关系数矩阵、方差膨 胀因子(VIF)和条件指数(CI),可以有效地识别 多重共线性问题。
在存在多重共线性的情况下,普通最小二乘法 (OLS)估计量虽然仍然是无偏的,但其方差可能 变得很大,导致估计结果不稳定。
主成分分析法的优点
可以消除多重共线性的影响,同 时降低自变量的维度,简化模型。
岭回归法
岭回归法的基本思想
通过在损失函数中加入L2正则化项(即所有自变量的平方和),使得回归系数的估计更加稳定, 从而消除多重共线性的影响。
岭回归法的步骤
首先确定正则化参数λ的值,然后求解包含L2正则化项的损失函数最小化问题,得到岭回归系数的估 计值。
逐步回归法的优点
可以自动选择重要的自变量,同时消除多重共线性的影响。
主成分分析法
主成分分析法的基本思想
通过正交变换将原始自变量转换 为互不相关的主成分,然后选择 少数几个主成分进行回归分析。
主成分分析法的步骤
首先对原始自变量进行标准化处理, 然后计算相关系数矩阵并进行特征值 分解,得到主成分及其对应的特征向 量。最后,选择少数几个主成分作为 新的自变量进行回归分析。
岭回归法的优点
可以有效地处理多重共线性问题,同时避免过拟合现象的发生。此外,岭回归法还可以提供对所 有自变量的系数进行压缩估计的功能,使得模型更加简洁易懂。
05
实证研究与结果分
析
数据来源及预处理
数据来源
本研究采用的数据集来自于公开的统 计数据库,涵盖了多个经济指标和影 响因素的观测值。
数据预处理
第四章多重共线性实例
表 4.3.3 中国粮食生产与相关投入资料
农业化肥施 粮食播种面 受灾面积 农业机械总
用量 X 1
(万公斤)
积X 2
(千公顷)
X3
(公顷)
动力X 4
(万千瓦)
1659.8
114047 16209.3
18022
1739.8
112884 15264.0
19497
1775.8
108845 22705.3
20913
Yˆ 28259.19 2.240X5
(-1.04) (2.66) R2=0.3064 F=7.07 DW=0.36
• 可见,应选第1个式子为初始的回归模型。
4、逐步回归
将其他解释变量分别导入上述初始回归模型,寻 找最佳回归方程。
C
X1 X2 X3
X4
X5
R2
DW
Y=f(X1)
30868 4.23
0.8852 1.56
t值
25.58 11.49
Y=f(X1,X2)
-43871 4.65 0.67
0.9558 2.01
t值
-3.02 18.47 5.16
Y=f(X1,X2,X3)
-11978 5.26 0.41 -0.19
0.9752 1.53
t值
0.85
19.6 3.35 -3.57
Y=f(X1,X2,X3,X4) -13056 6.17 0.42 -0.17 -0.09
1930.6
110933 23656.0
22950
1999.3
111268 20392.7
24836
2141.5
110123 23944.7
第四章 多重共线性 思考题
第四章 多重共线性 思考题4.1 多重共线性的实质是什么 ? 为什么会出现多重共线性 ? 4.2 多重共线性对回归参数的估计有何影响 ?4.3 多重共线性的典型表现是什么 ? 判断是否存在多重共线性的方法有哪些 ? 4.4 针对出现多重共线性的不同情形 , 能采取的补救措施有哪些 ?4.5 在涉及相关的宏观经济总量指标如 GDP 、货币供应量、物价总水平、国民总收入、就业人数等时间序列的数据中一般都会怀疑有多重共线性 , 为什么 ?4.6 多重共线性的产生与样本容量的个数n 、解释变量的个数k 是有无关系 ? 4.7 具有严重多重共线性的回归方程能否用来进行预测 ? 4.8 岭回归法的基本思想是什么 , 它对降低共线性有何作用 ? 4.9 以下陈述是否正确 ? 请判断并说明理由。
1) 在高度多重共线性的情形中 , 要评价一个或多个偏回归系数的单个显著性是不可能的。
2) 尽管有完全的多重共线性 ,OLS 估计量仍然是BLUE 。
3) 如果有某一辅助回归显示出高的2j R 值,则高度共线性的存在是肯定无疑的。
4) 变量的两两高度相关并不表示高度多重共线性。
5) 如果其他条件不变 ,VIF 越高 ,OLS 估计量的方差越大。
6) 如果在多元回归中,根据通常的t 检验,全部偏回归系数分别都是统计上不显著的 ,你就不会得到一个高的2R 值。
7) 在 Y 对2X 和3X 的回归中 , 假如3X 的值很少变化 ,这就会使Var(3ˆβ)增大 , 在极端的情形下 , 如果全部3X 值都相同 ,Var(3ˆβ)将是无穷大。
8) 如果分析的目的仅仅是预测 , 则多重共线性是无害的。
练习题 4.1 假设在模型12233ii i i Y X X u βββ=+++中 ,2X 与3X 之间的相关系数为零 , 于是有人建议你进行以下回归。
1221i i i Y X u αα=++ 1332i i i Y X u γγ=++是否存在2ˆα=2ˆβ且3ˆγ=3ˆβ?为什么 ? 2) 1ˆβ会等于1ˆα或1ˆγ或两者的某个线性组合吗 ? 3) 是否有Var(2ˆβ)且Var(2ˆα)且Var (3ˆβ)=Var(3ˆγ)? 4.2 在决定一个回归模型的 " 最优 " 解释变量集时人们常用逐步回归的方法,在逐步回归中既可采取每次引进一个解释变量的程序 ( 逐步向前回归 ), 也可以先把所有可能的解释变 量都放在一个多元回归中 , 然后逐一地将它们剔除 ( 逐步向后回归 ) 。
计量经济学第四章 多重共线性
x2i
3 2
x3i
x3i
参数的估计值为:
ˆ2
x32i x2i yi x2i x3i x3i yi
(
x22i )(
x32i ) (
x2i
x 3i
)2
x32i
2
x3i yi x32i 2 2
x32i x32i
x2i x3i x22i
x2i x3i
ˆ1 Y ˆ2 X 2 ˆ3 X 3
ˆ2
x32i x2i yi x2i x3i x3i yi ( x22i )( x32i ) ( x2i x3i )2
ˆ3
x22i x3i yi x2i x3i x2i yi •
(
x22i )(
x32i ) (
x2i
x 3i
)
2
x2i yi x3i yi
x2i x3i x32i
4.2多重共线性的后果
如果X1和X2完全线性相关,则存在非0的λ使得:
1 2 X 2i 3 X 3i 0
则有:
1 2 X 2 3 X 3 0
2 X 2i X 2 3 X3i X3 0
X 2i X3i X 2iYi
X
2 3i
X
3iYi
VAR
COV
(βˆ )
2
(XX)1
2
N X 2i
X 3i
X2i
X
2 2i
X 2i X 3i
第四章第四节 多重共线性的补救措施
其中, Yt 为商品的消费量, X 2t 为商品的价格,X3t 为消费者收入,若通过抽样调查得到截面数据从而
求得消费者收入的边际消费倾向估计量 ˆ3 ,则上式
变为:
Yt ˆ3 X3t 1 2 X2t ut
令 Yt* Yt ˆ3X3t ,则 Yt* 1 2 X 2t ut
如果原模型(4.4.13)式存在严重的多重共 线性,那么一般情况下,经过差分变换后 会对减轻或消除多重共线性。但是在对一 阶差分式的估计中极有可能会出现 ut 序 列相关的问题,将不满足高斯-马尔可夫 定理(古典假设)。所以,一般情况下, 差分形式应慎用。
五、逐步回归法
基本做法:1.将被解释变量Y对每一个解 释变量 Xi (i 1,2,, k) 分别进行回归,对每一个 回归方程根据经济理论和统计检验进行综合分 析判断,从中挑选出一个最优的基本回归方程。 2.在此基础上,再逐一引入其他解释变量,重 新作回归,逐步扩大模型的规模,直至从综合 情况看出现最好的模型估计形式。
但是劳动力的增长同资本的增长随时间的变换呈高
度相关。如果已知规模报酬不变,即 1 ,则 生产函数变为:
Qt
ALt
K
1 t
从而有:
ห้องสมุดไป่ตู้
Qt Kt
A( Lt ) Kt
Qt
Lt
其中 Kt 为资本产出率, Kt 为劳动对资本的
投入率。将上式两边去对数得:
ln( Qt ) ln A ln( Lt )
1
* 2
X 3t X 2t
ut
可回避原模型的多重共线性。
第四章多重共线性和虚拟变量的应用
9
检验多重共线性问题是否严重
若回归模型的 R 2 值高(如 R 2 >0.8),或F检验值 显著,但单个解释变量系数估计值却不显著;或 从金融理论知某个解释变量对因变量有重要影响, 但其估计值却不显著,则可以认为存在严重的多 重共线性问题。 若两个解释变量之间的相关系数高,比如说大于 0.8,则可以认为存在严重的多重共线性。
422此时对全部数据进行回归得到的模型是一个受约束的模型假定模型在整段数据中不发生结构性变化即假定系数估计值在整个样本期间是稳定的而对两分段数据的回归则是不受约束的模型利用两个分样本分别得到的系数估计值可以是不同的因此对整段数据回归得到的残差平方和大于对两分样本进行回归得到的残差平方和之和可建立如下的f检验
17
多重共线性的修正
四、利用先验信息法。 这里的先验信息,包括从金融理论以及实际统计 资料所获得的解释变量或所估计参数之间的关系。 若发生多重共线性的那些解释变量之间的关系可 由先验信息得到,则在所研究的模型中利用这种 关系,便可以减轻多重共线性的程度。
18
金融数据的多重共线性处理 :示例
理论上,股票代表着对公司未来现金流的所有权, 因此,公司未来的收益以及利息是股票价格的决 定因素。而宏观经济形势能够影响到公司未来的 收益,进而对股票价格产生影响。同时宏观经济 形势也能够通过其它的一些渠道直接对股票价格 产生影响。我们将以整个股票市场为研究对象, 来考虑影响股票价格指数的宏观经济因素以及它 们的影响程度。我们将采取从一般到特别的建模 方式,即首先将模型中包含尽可能多的变量,然 后通过各种检验逐步剔出对因变量没有解释能力 的变量。
4
多重共线性产生的原因
多重共线性问题在金融数据中是普遍存在的,不仅存在于 时间序列数据中,也存在于横截面数据中。具体而言,多 重共线性产生的原因主要有以下几点: (1)数据收集及计算方法。 (2)模型或从中取样的总体受到限制。 (3)模型设定偏误。 此外,在观测值个数较少,以至于小于解释变量个数时, 也会产生多重共线性;时间序列数据中,若同时使用解释 变量的当期值和滞后值,由于当期值和滞后值之间往往高 度相关,也容易产生多重共线性。
《计量经济学》第四章 多重共线性
σ2
R j 2 = X j 对其余 k − 2 个解释变量进行回归的 R 2 σ2 ˆ 还可写成 var( β j ) = VIF j 2
∑x
j
VIF的倒数被称为容许度(TOL j) 的倒数被称为容许度( 的倒数被称为容许度
TOL j = 1 = 1− Rj2 VIFj
采用普通最小二乘法得到以下估计结果
3
财政收入模型的EViews估计结果 财政收入模型的EViews估计结果 EViews
Variable 农业增加值NZ 农业增加值 工业增加值GZ 工业增加值 建筑业增加值JZZ 建筑业增加值 总人口TPOP 总人口 最终消费CUM 最终消费 受灾面积SZM 受灾面积 截距项 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Coefficient -1.535090 0.898788 -1.527089 0.151160 0.101514 -0.036836 -11793.34 0.995015 0.993441 481.5380 4405699. -193.4165 1.873809 Std. Error 0.129778 0.245466 1.206242 0.033759 0.105329 0.018460 3191.096 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) t-Statistic -11.82861 3.661558 -1.265989 4.477646 0.963783 -1.995382 -3.695704 Prob. 0.0000 0.0017 0.2208 0.0003 0.3473 0.0605 0.0015 5897.824 5945.854 15.41665 15.75537 632.0999 0.000000 4
第四章 多重共线性
多重共线性的定义 产生多重共线性的背景 多重共线性产生的后果 多重共线性的检验 多重共线性的补救措施
第四章 多重共线性
一、多重共线性的定义:案例1 能源消费 多重共线性的定义:案例1
1、完全多重共线性: 、完全多重共线性: 对于 变 量 X 2 , X 3 ,L, X k ,如 果 存在 不全 为零 的数 λ2,λ3, ,λk , 使 L
年份 财政收 农业增 工业增 建筑业 总人口/ 最终消 入CS 加值NZ 加值GZ 增加值 万人 费CUM
1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1132.3 1146.4 1159.9 1175.8 1212.3 1367 1642.9 2004.8 2122 2199.4 2357.2 2664.9 2937.1 3149.48 3483.37 1018.4 1258.9 1359.4 1545.6 1761.6 1960.8 2295.5 2541.6 2763.9 3204.3 3831 4228 5017 5288.6 5800 1607 1769.7 1996.5 2048.4 2162.3 2375.6 2789 3448.7 3967 4585.8 5777.2 6484 6858 8087.1 10284 138.2 143.8 195.5 207.1 220.7 270.6 316.7 417.9 525.7 665.8 810 794 859.4 1015.1 1415 96259 97542 98705 100072 101654 103008 104357 105851 107507 109300 111026 112704 114333 115823 117171 2239.1 2619.4 2976.1 3309.1 3637.9 4020.5 4694.5 5773 6542 7451.2 9360.1 10556.5 11365.2 13145.9 15952.1
第四章-多重共线性-答案
第四章 多重共线性一、判断题1、多重共线性是一种随机误差现象。
(F )2、多重共线性是总体的特征。
(F )3、在存在不完全多重共线性的情况下,回归系数的标准差会趋于变小,相应的t 值会趋于变大。
(F )4、尽管有不完全的多重共线性,OLS 估计量仍然是最优线性无偏估计量。
(T )5、在高度多重共线的情形中,要评价一个或多个偏回归系数的个别显著性是不可能的。
(T )6、变量的两两高度相关并不表示高度多重共线性。
(F )7、如果分析的目的仅仅是预测,则多重共线性一定是无害的。
(T )8、在多元回归中,根据通常的t 检验,每个参数都是统计上不显著的,你就不会得到一个高的2R 值。
(F ) 。
9、如果简单相关系数检测法证明多元回归模型的解释变量两两不相关,则可以判断解释变量间不存在多重共线性。
( F )10、多重共线性问题的实质是样本问题,因此可以通过增加样本信息得到改善。
(T ) 11、虽然多重共线性下,很难精确区分各个解释变量的单独影响,但可据此模型进行预测。
(T )12、如果回归模型存在严重的多重共线性,可不加分析地去掉某个解释变量从而消除多重共线性。
(F )13、多重共线性的存在会降低OLS 估计的方差。
(F )14、随着多重共线性程度的增强,方差膨胀因子以及系数估计误差都在增大。
(T ) 15、解释变量和随机误差项相关,是产生多重共线性的原因。
(F ) 16、对于模型i ni n i 110i u X X Y ++++=βββ ,n 1i ,, =;如果132X X X -=,模型必然存在解释变量的多重共线性问题。
(T )17、多重共线性问题是随机扰动项违背古典假定引起的。
(F ) 18、存在多重共线性时,模型参数无法估计。
(F ).二、单项选择题1、在线性回归模型中,若解释变量1X 和2X 的观测值成比例,既有12i i X kX =,其中k 为 非零常数,则表明模型中存在 ( B ) A 、异方差 B 、多重共线性 C 、序列相关 D 、随机解释变量2、 在多元线性回归模型中,若某个解释变量对其余解释变量的可决系数接近1,则表明模型中存在 ( C ) A 、异方差性 B 、序列相关 C 、多重共线性 D 、拟合优度低3、对于模型i i 22i 110i u X X Y +++=βββ,与0r 12=相比,当50r 12.=时,估计量1βˆ的方差()1βˆvar 将是原来的 ( B ) A 、 1 倍 B 、 倍 C 、 倍 D 、 2 倍>4、如果方差膨胀因子VIF =10,则认为什么问题是严重的( C )A 、异方差问题B 、序列相关问题C 、多重共线性问题D 、 解释变量与随机项的相关性 5、经验认为某个解释与其他解释变量间多重共线性严重的情况是这个解释变量的VIF ( C )。
第四章 多重共线性
三、产生的后果
• 概括地讲,其后果是参数估计量失去应有含义;方差增大, t检验失效;预测结论不准确。 具体地讲, • 由于参数估计量的方差增大,使得估计量的精度大大降低, 因而不能正确地判断各解释变量对被解释变量影响大小,即 参数估计量经济含义不合理(参数不反映各自与被解释变量
之间的结构关系,而是反映对被解释变量的共同影响)
(二)多重共线性的类型
如果多元线性回归模型中,存在两个或多个解释变量之 间存在严格的线性关系,则称为完全(exact)多重共 线性,如前例。 有时解释变量之间存在近似的、而不是严格的线性关系, 则称为近似(near)多重共线性。前者是由于模型引进 变量不当引起,后果是回归分析完全失效;而后者既与 变量选择有关,也与数据存在共同趋势有关,但更多的 是与数据有关。其后果是参数无法唯一确定(即参数估
计不稳定);错误的结论(即数据较小变化引起参数估 计量较大变化);参数估计量方差增大;参数估计量符 号与实际结果相反。
二、多重共线性产生的原因
• 1.截面数据(或面板数据)建立的回归模型,选择的 经济变量往往从经济上存在密切关联。 • 如:以截面数据建立的生产函数,从投入要素看 (劳动力、资金),都与企业生产规模密切相关。 则各要素间存在较强的相关性;又如,农业生产过 程中,土地面积与施肥量存在密切联系,即面积越 大,施肥量越多。 • 2.许多经济变量在随时间变化过程中,往往存在共同 的变化趋势,则经济变量间易产生多重共线性。 如:经济增长 、收入增长、商品销售增长、物价提 高、货币发行增多、储蓄增加
1、相关系数检验
• 确定相关系数的方法:(比较简单) COR 解释变量名称 如:COR x1 x2 x3 • 以相关系数的大小确定解释变量之间是否相关
4 多重共线性
2 λ (∑ yx2 )(∑ x2 ) − λ (∑ yx2 )(∑ x2 x2 ) 0 = = 2 2 0 λ (∑ x2 )(∑ x2 2 ) − λ 2 (∑ x2 2 ) 2
2 (∑ yλ x2 )(∑ x2 ) − (∑ yx2 )(∑ x2 λ x2 ) ˆ β3 = 2 (∑ x2 )(∑ (λ x2 ) 2 ) − (∑ x2 λ x2 ) 2
第二节 多重共线性产生的后果
▲完全多重共线性下的后果 ▲不完全多重共线性下的后果 一、完全多重共线性下的后果 1、参数估计值不确定 在完全多重共线性下,解释变量 X i 满足:
λ2 X 2 + λ3 X 3 + " + λk X k = 0
其中 λi 不全为零。则对应解释变量的矩阵 X ,有 X ' X = 0 ,或者
∑ (λ x )
2
2
σ
2
∑x =
0
2 2
σ2 = ∞
表明在解释变量之间存在完全共线性时, 参数估计值的方差会无限变
完全
二、多重共线性的定义
不完全
1、完全的多重共线性(线性相关的方法描述) : 对于变量 X 2 , X 3 ," , X k ,如果存在不全为零的数 λ2 , λ3 ," , λk ,使得 下式成立:
2
λ2 X 2 + λ3 X 3 + " + λk X k = 0
(4.1)
则称变量
X 2 , X 3 ," , X k 之间存在一种完全的多重共线性。
第四章 多重共线性
在现实经济问题中,古典假定不一定能满足,这就是所谓的古典 假定的违反。 古典假定: 1.零均值,即 E (ui ) = 0 ; 2.同方差,即 Var (ui ) = σ 2 ; 3.无自相关,即 Cov(ui , u j ) = 0, i ≠ j ; 4.解释变量非随机性,即 Cov(ui , X i ) = 0 ; 5. 无 多 重 共 线 性 , 即 不 存 在 一 组 不 全 为 零 的 数 λ2、λ3 " λk , 使
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
时序数据估计出另外的部分参数,最后得到整
个方程参数的估计。
注意:这里包含着假设,即参数的横截面估计和 从纯粹时间序列分析中得到的估计是一样的。
6. 变量变换
变量变换的主要方法:
(1)计算相对指标
(2)将名义数据转换为实际数据
(3)将小类指标合并成大类指标
变量数据的变换有时可得到较好的结果,但无 法保证一定可以得到很好的结果。
方程可能存在严重的多重共线性。
2. 从定性分析认为,一些重要的解释变量的回归
系数的标准误差较大,在回归方程中没有通过显
著性检验时,可初步判断可能存在严重的多重共
线性。
3. 有些解释变量的回归系数所带正负号与定性分
析结果违背时,很可能存在多重共线性。 4. 解释变量的相关矩阵中,自变量之间的相关系 数较大时,可能会存在多重共线性问题。
模型估计与检验结果分析
●可决系数为0.9897 ,校正的可决系数为0.9870,模 型拟合很好。模型对财政收入的解释程度高达98.9%。
●F统计量为366.68,说明0.05水平下回归方程整体 上显著。
● t 检验结果表明,除了农业增加值、建筑业增加 值以外,其他因素对财政收入的影响均不显著。 ●农业增加值的回归系数是负数。 农业的发展反而会使财政收入减少吗?! 这样的异常结果显然与理论分析和实践经验不相符。 若模型设定和数据真实性没问题,问题出在哪里呢?
t-Statistic
-5.576888 1.074892 8.433867 1.047591 0.072609 -0.564916 -0.631118
Prob.
0.0000 0.2936 0.0000 0.3057 0.9427 0.5776 0.5342
0.045947 6.458374 0.096022 0.003108 -0.027627 -5432.507
经验规则
●方差膨胀因子越大,表明解释变量之间的多重共 性越严重。反过来,方差膨胀因子越接近于1,
多重共线性越弱。
●经验表明,方差膨胀因子≥10时,说明解释变量
与其余解释变量之间有严重的多重共线性,且这
种多重共线性可能会过度地影响最小二乘估计。
三、直观判断法
1. 当增加或剔除一个解释变量,或者改变一个观 测值时,回归参数的估计值发生较大变化,回归
二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形:
1.经济变量之间具有共同变化趋势。
2.模型中包含滞后变量。
3.利用截面数据建立模型也可能出现多重共线性。
4.样本数据自身的原因。
第二节 多重共线性产生的后果
本节基本内容: ●完全多重共线性产生的后果 ●不完全多重共线性产生的后果
一、完全多重共线性产生的后果
对于解释变量 1, X 2 , X 3 , X k ,存在不全为0的数 1 , 2 , k ,使得
1 2 X 2i 3 X 3i ... k X ki ui 0
i 1, 2,..., n
其中, u i 为随机变量。这表明解释变量 1, X 2 , X 3 , X k 只是一种近似的线性关系。
X 6 作为相关基础设施的代表
理论模型的设定
Yt 1 2 X 2t 3 X 3t 4 X 4t 5 X 5t 6 X 6t ut
其中 : Yt ——第 t 年全国国内旅游收入
数据的收集与处理
1994年—2007年中国旅游收入及相关数据
年份 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 国内旅游收 国内旅游人 入Y(亿元) 数X2(万人 次) 1023.5 1375.7 1638.4 2112.7 2391.2 2831.9 3175.5 3522.4 3878.4 3442.3 4710.7 5285.9 6229.74 7770.62 52400 62900 63900 64400 69450 71900 74400 78400 87800 87000 110200 121200 139400 161000 城镇居民人 均旅游花费 X3(元) 414.7 464.0 534.1 599.8 607.0 614.8 678.6 708.3 739.7 684.9 731.8 737.1 766.4 906.9 农村居民人均 旅游花费X4 (元) 54.9 61.5 70.5 145.7 197.0 249.5 226.6 212.7 209.1 200.0 210.2 227.6 221.9 222.5 公路里程 铁路里程 X5(万km) X6(万km) 111.78 115.70 118.58 122.64 127.85 135.17 140.27 169.80 176.52 180.98 187.07 193.05 345.70 358.37 5.90 5.97 6.49 6.60 6.64 6.74 6.87 7.01 7.19 7.30 7.44 7.54 7.71 7.80
二、逐步回归法
(1)用被解释变量对每一个所考虑的解释变量做简
单回归。
(2)以对被解释变量贡献最大的解释变量所对应的
回归方程为基础,按对被解释变量贡献大小的顺
序逐个引入其余的解释变量。
若新变量的引入改进了 R 2 和 F 检验,且回归参
数的t 检验在统计上也是显著的,则在模型中保
留该变量。
若新变量的引入未能改进 R 2 和 F 检验,且对其他回 归参数估计值的t 检验也未带来什么影响,则认为该 变量是多余变量。 若新变量的引入未能改进 R 2 和 F 检验,且显著地影 响了其他回归参数估计值的数值或符号,同时本身的 回归参数也通不过t 检验,说明出现了严重的多重共 线性。
第五节 案例分析
一、研究的目的要求
提出研究的问题——为了规划中国未来国内旅游产业 的发展,需要定量地分析影响中国国内旅游市场发展 的主要因素。
二、模型设定及其估计
影响因素分析与确定——影响因素主要有国内旅游 人数 X 2,城镇居民人均旅游支出 X 3,农村居民人均
旅游支出 X 4 ,并以公路里程次 X 5 和铁路里程
1.参数的估计值不确定
当解释变量完全线性相关时 ——OLS 估计式不确定
▲ 从偏回归系数意义看:在 X 2和 X 3 完全共线性时,无法保
持 X 3不变,去单独考虑 X 2 对Y 的影响( X 2 和 X 3 的影响 不可区分)
ˆ =0 ▲ 从OLS估计式看:可以证明此时 β2 0 2.参数估计值的方差无限大
四、逐步回归检测法
逐步回归的基本思想
将变量逐个的引入模型,每引入一个解释变量后, 都要进行F检验,并对已经选入的解释变量逐个进行 t 检验,当原来引入的解释变量由于后面解释变量的 引入而变得不再显著时,则将其剔除。以确保每次引
入新的变量之前回归方程中只包含显著的变量。
在逐步回归中,高度相关的解释变量,在引入时会 被剔除。因而也是一种检测多重共线性的有效方法。
当
σ2 1 2 2 x2 i (1- r23 )
r23
增大时 Var( 2 ) 也增大
^
2.对参数区间估计时,置信区间趋于变大
3.假设检验容易作出错误的判断 4.可能造成可决系数较高,但对各个参数单独的 t 检验却可能不显著,甚至可能使估计的回归系 数符号相反,得出完全错误的结论。
第三节 多重共线性的检验
回归模型中解释变量的关系
可能表现为三种情形: (1) rx x 0 ,解释变量间毫无线性关系,变量间相
i j
互正交。这时已不需要作多元回归,每个参数j都可 以通过Y 对 Xj 的一元回归来估计。
(2) rxi x j 1 ,解释变量间完全共线性。此时模型参 数将无法确定。
1 (3) 0<rxi x j < ,解释变量间存在一定程度的线性关 系。实际中常遇到的情形。
注意:
较高的简单相关系数只是多重共线性存在的充分 条件,而不是必要条件。特别是在多于两个解释 变量的回归模型中,有时较低的简单相关系数也 可能存在多重共线性。因此并不能简单地依据相
关系数进行多重共线性的准确判断。
二、方差扩大(膨胀)因子法
ˆ 统计上可以证明,解释变量 X j 的参数估计式 β j 的方差可表示为
问题:差分会丢失一些信息,差分模型的误差
项可能存在序列相关,可能会违背经典线性回 归模型的相关假设,在具体运用时要慎重。
4. 利用非样本先验信息
通过经济理论分析能够得到某些参数之间的关 系,可以将这种关系作为约束条件,将此约束 条件和样本信息结合起来进行约束最小二乘估 计。
5. 横截面数据与时序数据并用
采用普通最小二乘法得到以下估计结果
财政收入模型的EViews估计结果
Variable
农业增加值 工业增加值建 筑业增加值 总人口 最终消费 受灾面积 截距
Coefficient
-1.907548
Std. Error
0.342045 0.042746 0.765767 0.091660 0.042807 0.048904 8607.753
第四章 多重共线性
本章讨论四个问题:
●什么是多重共线性
●多重共线性产生的后果
●多重共线性的检验 ●多重共线性的补救措施
第一节 什么是多重共线性
本节基本内容:
●多重共线性的含义 ●产生多重共线性的背景
一、多重共线性的含义
在计量经济学中所谓的多重共线性(Multi-Collinearity), 不仅包括完全的多重共线性,还包括不完全的多重共线性。 在有截距项的模型中,截距项可以视为其对应的解释变量总 是为1。对于解释变量 1, X 2 , X 3 ,, X k ,如果存在不全为0的 λ 数λ 1 , 2 ,...λ k ,使得 1 2 X 2i 3 X 3i k X ki 0 (i 1, 2,,n)