8第八章:多重共线性及其改进方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
量,即使多元回归方程的一个或多个偏回归系数是统计不显著的。
1.在近似共线性的情形下,OLS估计仍是无偏的; 2.近似共线性并未破坏OLS估计量的最小方差性;
3.即使在总体回归方程中变量X之间不是线性相关的,但在
某个样本中,X变量之间可能线性相关。
多重共线性本质上是一个样本(回归)现象。
1. 完全花线性下参数估计量不存在
分布滞后模型:仅有解释变量的当期值及其若干期的滞后值。
Yt i X t i t
i 0 s
自回归模型:解释变量仅包含X的当期值与被解释Y的滞后值。
Yt 0 1 X t iYt i t
i 1
q
一般而言,增量之间的线性关系远比总量之间的 线性关系弱一些。
多重共线性是一个样本特征,其重要“灾 害”表现在估计量的方差增大,进而引发多种 问题。 降低多重共线性程度,最主要的努力方向
是降低估计量的方差。
降低多重共线性方法:
1. 实践归纳的方法
(1)从模型中删除一个变量; (2)获取额外的数据或新的样本; (3)设计新的模型;
事实上,并没有度量多重共线性的单一方法,这是因为对 于非实验数据,无法确定共线性的性质和程度。
判断存在多重共线性的经验法则:
典型特征
1.R2较高但解释变量t值统计显著的不多;
2.解释变量两两高度相关;
3.检查偏相关系数; 4.方差膨胀因子; 5.条件指数; 6.从属回归或辅助回归。
超过0.8
多解释变量
2.获取额外的数据或新的样本
既然多重共线性是一个样本特征,那么在包括同样 变量的另一个样本中,共线性也许并不太高。
) var( k
x (1 R )
2 k 2
2
方差膨胀:减小参数估计量的方差
关键问题是能否得到另一个样本,毕竟收入数据的成 本或许很高。
3.重新考虑模型
有些时候,用于实证分析的模型考虑得并不充
如果某两个或多个解释变量之间出现相关性,
则称为存在多重共线性(Multicollinearity)。
一、多重共线性的程度
完全共线性
c1 X i1 c2 X i 2 ck X ik 0
变量之间完全线性相关,即完全共线性或多重共线性。
当解释变量之间完全线性相关或完全多重共线性时,不 可能获得所有参数的唯一估计值,因而也就不能根据样本进 行任何统计推断(即假设检验)。 近似共线性
(4)参数的先验信息;
(5)变量变换; (6)差分法等。
2. 主成分分析法 3. 岭回归
主成分分析法
主成分分析的目的就是通过线性变换,将原来的多 个指标组合成相互独立的少数几个能充分反映总体信息 的指标。
其用途就是利用主成分分析提取出主要信息,然
后使用提取出的主成分代替原变量进行分析,就可以避
免原变量的共线性问题。
( X ' X kI ) X ' Y
1
^
Y 0 1 X1 2 X 2 3 X 3 4 X 4 5 X 5 6 X 6
共线性
Ridge Regression Syntax
岭回归程序路径
INCLUDE 'C:\Users\Administrator\Desktop\Ridge regression.sps'. ridgereg enter=x1 x2 x3 x4 x5 解释变量 被解释变量 /dep=y /inc=0.01.
辅助回归(判定系数检验法)
基本原理: 使模型中每个解释变量分别以其余解释变量为解
释变量进行回归计算,并计算相应的拟合优度。如果
在某一形式中判定系数较大,则说明在该形式中作为 被解释变量的 Xj 可以用其他解释变量的线性组合代 替,即 Xj 与其他解释变量之间存在共线性。
Fj
R /k (1 R 2 j ) / ( n k 1)
通常把这种过去时期的具有滞后作用的变量叫做滞后
变量(Lagged Variable)。
Ct 0 1Yt 2Yt 1 3Ct 1 t
2. 滞后变量模型 (1)滞后效应 一般说来,被解释变量与解释变量的因果关系不一 定就在瞬时发生,可能存在时间的滞后,或者说解释变
量的变化可能需要经过一段时间才能完全对被解释变量
都趋于增长或下降。 (2)截面数据 以企业生产函数为例: Y 2. 滞后变量的引入
AK L e
以相对收入假设为例:Ct
3. 样本资料的限制
0 1Yt 2Ct 1 t
在现有数据条件下,特定样本可能存在某种程度的多重共线性。
三、多重共线性的后果
理论后果
只要共线性是不完全的,OLS估计量仍是最优线性无偏估计
多重共线性及其改进方法
主讲:梁海兵
主要讲解内容
• 多重共线性产生的原因;
• 多重共线性产生的后果;
• 多重共线性的诊断方法; • 多重共线性的补救措施。
多元线性回归模型的基本假定
假设2:解释变量 X1,X2,……,Xk 是非随机的或 固定的,且各 Xj 之间不存在严格线性相关性。
Yi 0 1 X i1 2 X i 2 k X ik i
2 j
Y 0 1 X1 2 X 2 3 X 3 4 X 4 5 X 5 6 X 6
变量
X1
R2
0.90
F值
79.20
F 显著性
是***
X2
X3
0.18
0.36
1.93
4.95
否
是***
X4
X5 X6
0.86
0.09 0.24
54.06
0.87 2.78
学习能力
物理水平
语文水平
Y 0 1 X1 2 X 2 3 X 3 4 X 4 5 X 5 6 X 6
数学水平 化学水平 历史水平
政治水平
Z1 a1 X1 a2 X 2 a3 X 3 Z2 b1 X 4 b2 X 5 b3 X 6
估计即可; 3.在众多降低多重共线性的方法中,提倡岭回归或增加样本量或
选取新的样本的方法,不提倡使用主成分分析(逐步回归)等统计方
法,因为这些方法违背了计量经济学模型总体回归模型设定原则。
滞后变量及其模型
1. 滞后变量 某些经济变量不仅受到同期各种因素的影响,而且也 受到过去某些时期的各种因素,甚至自身的过去值影响。
是***
否 是**
Hale Waihona Puke Baidu 多重共线性必定不好吗?
1.如果样本中两变量存在共线性,那么对于预测来 说是一件好事! 2.如果研究的目的不仅仅是预测,而且还要可靠地 估计出模型的参数,则严重的共线性是一件“坏事”!
五、多重共线性的补救措施
1.从模型中删掉一个变量
如果多重共线性问题很严重,最简单的解决办法就 是删掉一个或多个共线性变量。 模型设定错误:或许比“疾病”本身更糟糕! 建议不要仅仅因为共线性很严重就从一个经济意义 上可行的模型中删除变量!
c1 X i1 c2 X i 2 ck X ik vi 0
两个或多个解释变量之间近似线性相关,但不是完全共
线性,这就是近似、或这完全、或高度多重共线性。
二、多重共线性产生的原因
1. 经济变量相关的共同趋势 (1)时间序列数据
经济繁荣期或衰退期,各基本经济变量,如收入、消费、投资等,
实际后果
2.置信区间变宽;
2. 近似花线性下参数估计量方差增大
1.OLS估计量的方差和标准误较大;
3.t 值不显著;
3. 参数估计量经济含义不合理
4.R2值较高,但 t 值并不都是统计显著的; 5.OLS估计量及其标准误对数据的微小变化非常敏感,即它们很 不稳定; 6.回归系数符号有误;
4. 变量显著性和模型的预测失去意义
分——或许是省略了一些重要变量,或许没有选择正
确的函数形式。
4.参数的先验信息
有些时候,对某一个特定现象需要反复调查,根据先
验研究可以了解有关参数的某些信息,而这些信息适用于 当前样本。
C 0 1 X 2Y 0 1 X 0.75Y C 0.75Y 0 1 X
产生影响。同样地,被解释变量当前的变化也可能受其 自身过去水平的影响,这种被解释变量受到自身或另一 种解释变量的前几期值影响的现象称为滞后效应。
(2)滞后变量模型 以滞后变量作为解释变量的模型即为滞后变量模型。
Yt 0 1Yt 1 2Yt 2 qYt q 0 X t 1 X t 1 s X t s t
直觉上这的确是一个好方法,其缺陷在于外生的或先
验的信息并不总是可获得的。
5.变量变换
有些时候,通过对模型中的变量进行变换也能够降低 共线性程度。
名义进口 名义收入
Y 0 1GNP 2 P Y GNP 0 1 P P
实际进口 实际收入
6.差分法
Yi 1X i1 2 X i 2 k X ik i i1
统计方法
Y 0 1Z1 2 Z2
因子分析
岭回归
岭回归是一种专门用于共线性数据分析的有偏估计 回归方法,它实际上是一种改良的最小二乘法,以放
弃最小二乘的无偏性,损失部分信息,放弃部分精确
度为代价来寻求效果稍差但更符合实际的回归方程。
^
( X ' X ) X 'Y
1
K的步长
降低多重共线性的总结
1.多重共线性是一个样本问题,任何一个样本都有多重共线性问 题,只是程度不同而已,所有降低多重共线性的方法都只是在减少这 一问题的程度; 2.多重共线性主要的灾害是增加了估计量的方差,进而带来无法 估计、解释失真、预测无效等一系列问题。所有降低多重共线性的方
法的处置原则是保证样本的多重共线性问题不至于影响到模型的计量
7.难以评估各个解释变量对回归平方和或者R2的贡献。
四、多重共线性的诊断
如何诊断多重共线性及其严重程度?
1.多重共线性是一个程度问题而不是存在与否问题;
2.多重共线性针对的是确定性解释变量,因而它是
一个样本特征,而不是总体特征。 鉴于此,我们不是要做“多重共线性的检验”, 而是要度量样本多重共线性的程度。