第四章 多重共线性
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于模型
i=1,2,…,n 其基本假设之一是解释变量是互相独立的。 如果某两个或多个解释变量之间出现了相关 性,则称为多重共线性
7
不完全的多重共线性: 在计量经济学中所谓的多重共线性(MultiCollinearity),不仅包括完全的多重共线性,还 包括不完全的多重共线性。 对于解释变量 X , X ,, X ,如果存在不全为0的 2 3 k 数 λ , ,...λ ,使得 λ
σ2 1 σ2 ˆ Var( β j ) = = VIFj 2 2 2 x j 1- Rj x j
其中的 VIFj 是变量 X j 的方差扩大因子 1 (Variance Inflation Factor),即 VIFj = 1- R2 j 其中 R 2 是多个解释变量辅助回归的可决系数 j
ˆ Var ( i )
xi2
2
1 . 1 Ri2
1 VIFi 1 Ri2 称为方差膨胀因子.
其中:
当
Ri2 X i2 对其他解释变量做辅助回归模型的决定系数 为
X i2 与其他解释变量存在严重的多重共线性时: ˆ Ri2 1 VIF ,Var(i ) , i
1 2 k
1 2 X 2i 3 X 3i ... k X ki 0
i 1, 2,..., n
则称解释变量 X , X , X 之间存在着完全的多重 2 3 k 共线性。
8
当 Rank ( X ) k 时,表明在数据矩阵 X 中, 至少有一个列向量可以用其余的列向量线 性表示,则说明存在完全的多重共线性。 矩阵表示为
1.其中的Ri2 接近 ,Fi 显著的大于临界值 1 则X i 与其余解释变量存在多 重共线性
2 2 2 2.Ri2 Ma x( R1 , R2 , , Rk ), Ri2 越接近R 2,
Fi 显著的大于临界值,则 i 与其余解释 X 变量存在多重共线性。
25
三、方差扩大(膨胀)因子法
ˆ 统计上可以证明,解释变量 X j 的参数估计式 β j 的方差可表示为
▲ 从偏回归系数意义看:在 X 2 和 X 3完全共线性时,无法保
持 X 3 不变,去单独考虑 X 2 对Y 的影响( X 2 和 X 3 的影响 不可区分)
0 ˆ β2 = ▲ 从OLS估计式看:可以证明此时 0
2.参数估计值的方差无限大
OLS估计式的方差成为无穷大: Var( ) ˆ 2
截距项
R-squared Adjusted R-squared S.E. of regression Sum squared resid
-11793.34
0.995015 0.993441 481.5380 4405699.
3191.096
Mean dependent var S.D. dependent var
注意:
1.较高的简单相关系数只是多重共线性存在的充分条件,
而不是必要条件。 2.只适用于两个解释变量之间存在线性相关检验,对于三个 或更多的解释变量之间存在的线性相关关系不适用 3.相关系数很大则必存在多重共线性,而相关系数很小却未
必没有多重共线性.特别是在多于两个解释变量的回归模型
中,有时较低的简单相关系数也可能存在多重共线性。因 此并不能简单地依据相关系数进行多重共线性的准确判断。
16
二、不完全多重共线性产生的后果
ˆ ( X X 0则 X X)1 X Y
ˆ 仍满足线性,无偏性和 最小方差性。
ˆ 2 而 X X 0,Var Cov() (X X)1
中对角线元素值将很大 。 共线变量的参数, OLS估计值方差将很大。
17
如果模型中存在不完全的多重共线性,可以得到参数的估计 值,但是对计量经济分析可能会产生一系列的影响。 1.参数估计值的方差增大
24
二、辅助回归检验法
将每个解释变量 i 对其他的解释变量 X 进行回归。得 个回归方程 K
2 X 1 f ( X 2 , X 3 , , X k ) R1 和F 1 2 X 2 f ( X 1 , X 3 , , X k ) R2 和F2 2 X k f ( X 1 , X 2 , , X k 1 ) Rk 和Fk
1.从定性分析认为,一些重要的解释变量的回归系数
的标准误差较大,在回归方程中没有通过显著性检 验时,可初步判断可能存在严重的多重共线性。
如果R 2 (或R 2 )很大,一般 2 0.8 R
F检验大于给定显著性水平下的临界值.但模型中的全
部或部分参数估计值却不显著,或系数估计值的符号
X 0即 X 不存在 X X
1
9
不完全的多重共线性 实际中,常见的情形是解释变量之间存在不完 全的多重共线性。 对于解释变量 X 2 , X 3 , X k,存在不全为0的数 1 , 2 ,k,使得
1 2 X 2i 3 X 3i ... k X ki ui 0
注意:K 个解释变量不存在多重共线性 (线性相关)并不能说明它们之间无关,不 存在非线性关系.
11
回归模型中解释变量的关系
可能表现为三种情形: (1) rxi x j 0 ,解释变量间毫无线性关系,变量间相
互正交。这时已不需要作多元回归,每个参数j都可 以通过Y 对 Xj 的一元回归来估计。
20
第三节 多重共线性的检验
本节基本内容:
● 简单相关系数检验法
● 方差扩大(膨胀)因子法 ● 直观判断法 ● 逐步回归法
21
一、简单相关系数检验法
含义:简单相关系数检验法是利用解释变量之间
的线性相关程度去判断是否存在严重多重共线性 的一种简便方法。 判断规则:一般而言,如果每两个解释变量的简 单相关系数(零阶相关系数)比较高,例如大于0.8, 则可认为存在着较严重的多重共线性。
13
第二节 多重共线性产生的后果
本节基本内容: ●完全多重共线性产生的后果 ●不完全多重共线性产生的后果
14
一、完全多重共线性产生的后果
X X 0即 X X 不存在
1 1 ˆ X X) X Y 而 ( ˆ无法估计 导致
15
1.参数的估计值不确定
当解释变量完全线性相关时 ——OLS 估计式不确定
采用普通最小二乘法得到以下估计结果
2
财政收入模型的EViews估计结果
Variable 农业增加值NZ 工业增加值GZ Coefficient -1.535090 0.898788 Std. Error 0.129778 0.245466 t-Statistic -11.82861 3.661558 Prob. 0.0000 0.0017
18
2.对参数区间估计时,
ˆ Var Cov( ) 2 ( X )1 变大。 X
置信区间趋于变大区间估计失去可靠性;预测区间变
大,降低预测精度. 3.假设检验容易作出错误的判断,检验的可靠性降低,
可能导致在假设检验中舍去重要的解释变量.
ˆ i t ~ t (n k ) ˆ ˆ ( ) SE i ˆ ˆ ˆ Va r ( i )增 大 ,SE ( i )增 大 ,t变 小 而 t t
26
经验规则
●方差膨胀因子越大,表明解释变量之间的多重共 性越严重。反过来,方差膨胀因子越接近于1,
多重共线性越弱。
●经验表明,方差膨胀因子≥10时,说明解释变量
与其余解释变量之间有严重的多重共线性,且这
种多重共线性可能会过度地影响最小二乘估计。
Baidu Nhomakorabea
27
四、直观判断法
根据回归结果判断也叫不显著系数检验法
计量经济学
第四章 多重共线性
1
引子: 发展农业和建筑业会减少财政收入吗?
为了分析各主要因素对财政收入的影响,建立财政收 入模型: CSi 0 1 NZ i 2GZi 3 JZZi
4TPOP 5CUM i 6 SZMi ui i
其中: CS财政收入(亿元) ; NZ农业增加值(亿元); GZ工业增加值(亿元); JZZ建筑业增加值(亿元); TPOP总人口(万人); CUM最终消费(亿元); SZM受灾面积(万公顷) 数据样本时期1978年-2003年(资料来源:《中国统计年鉴 2004》,中国统计出版社2004年版)
建筑业增加值JZZ
总人口TPOP 最终消费CUM 受灾面积SZM
-1.527089
0.151160 0.101514 -0.036836
1.206242
0.033759 0.105329 0.018460
-1.265989
4.477646 0.963783 -1.995382
0.2208
0.0003 0.3473 0.0605
4
第四章 多重共线性
本章讨论四个问题:
●什么是多重共线性
●多重共线性产生的后果
●多重共线性的检验 ●多重共线性的补救措施
5
第一节 什么是多重共线性
本节基本内容:
●多重共线性的含义 ●产生多重共线性的背景
6
一、多重共线性的含义
Yi 1 2 X 2i 3 X 3i ... k X ki ui
22
X i 与X j 之间的相关系数 rij
( X X )( X X ) (X X ) (X X
i i j j 2 i i j
j)
2
相关系数矩阵ij rji为对称矩阵 r
Klein判别公式:
若r R , 则两变量
2 ij 2
X i与X j 之间的共线性较为严重
23
/2
因为:回归参数显著性检验
发生弃真错误。
19
4.可能造成可决系数较高,但对各个参数单独的 t 检验 却可能不显著,甚至可能使估计的回归系数符号相反, 得出完全错误的结论。无法正确反映每个解释变
量对被解释变量的单独影响。
5.回归模型缺乏稳定性. 当样本观测数据发生微小变化时,模型参数的估计值会 有很大的变化.(CHOW氏检验)
(2) rxi x j 1 ,解释变量间完全共线性。此时模型参 数将无法确定。
1 (3) 0<rxi x j < ,解释变量间存在一定程度的线性关 系。实际中常遇到的情形。
12
二、产生多重共线性的原因
多重共线性产生的经济背景主要有几种情形: 1.经济变量之间往往存在同方向的变化趋势。当他们被引入同一个模型成为 解释变量时,会出现多重共线性. 2.模型中包含滞后变量,变量各期值之间有可能高度相关。 3.利用截面数据建立模型也可能出现多重共线性。
4.经济变量之间往往存在着密切的内在关联度,要素之间互相制约,互相依 存。
5.样本数据自身的原因,数据收集的范围过窄,造成某些解释变量之间似乎 有相同或相反变化趋势的假象。 6.在建模过程中由于解释变量选择不当,引起变量之间的多重共线性 注:解释变量之间的多重共线性不可避免,只可能使多重共线性的程度尽可 能地减弱.
i 1, 2,..., n
其中, u i 为随机变量。这表明解释变量 X 2 , X 3 , X k 只是一种近似的线性关系。
10
无多重共线性
如果解释变量之间不存在上述关系,则称解 释变量之间无多重共线性.此时:
Rank ( X ) k
Rank ( X X ) K
1
X X 0即 X X 存在
632.0999
0.000000 3
模型估计与检验结果分析
●可决系数为0.995,校正的可决系数为0.993,模型 拟合很好。模型对财政收入的解释程度高达99.5%。 ●F统计量为632.10,说明0.05水平下回归方程整体 上显著。 ● t 检验结果表明,除了工业增加值和总人口以外, 其他因素对财政收入的影响均不显著。 ●农业增加值和建筑业增加值的回归系数是负数。 农业和建筑业的发展反而会使财政收入减少吗?! 这样的异常结果显然与理论分析和实践经验不相符。 若模型设定和数据真实性没问题,问题出在哪里呢?
-3.695704
0.0015
5897.824 5945.854 15.41665 15.75537
Akaike info criterion Schwarz criterion
Log likelihood
Durbin-Watson stat
-193.4165
1.873809
F-statistic
Prob(F-statistic)