8多重共线性

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一个样本中可能存在。
12
什么情况下可以无视共线性
1.利用模型对未来的均值进行预测的情形 需要共线性能够持续的保持
2.为了估计出一组系数的关系 3.并不影响单个系数显著性的情形
13
8.5 多重共线的诊断
1、多重共线性是一个程度问题,而不是存在与否的问 题
2、由于多重共线性针对的是非随机解释变量,因而它 是一个样本特征,而不是总体特征
0.18
1.93

X3对剩余变量 的回归
0.36
4.95

X4对剩余变量 的回归
0.86 54.06

X5对剩余变量 的回归
0.09
0.87

X6对剩余变量 的回归
0.24
2.87

19
8.8 多重共线性的补救
12.8.1 从模型中删除引起共线性的变量 12.8.2 获取额外的数据或新的样本 12.8.3 重新考虑模型 12.8.4 先验信息 12.8.5 变量变换
1986
23.2
13.02
254.28
1987
26.4
13.49
265.39
1988
31.2
13.94
277.61
1989
35.3
14.42
273.49
1990
42.4
14.87
281.33
(数据来源:中国
1991
46.9
15.44
289.71
统计年鉴1999。其
1992
54.6
15.64
307.66
se (15.88) (1.023)
t (-10.16) (13.61)
R2=0.944, D.W = 1.03, F = 185.29
3)作二元回归方程: POWER=-125.35 + 0.441 INC + 2.809 SQLIV
se (-8.362) (0.061) (1.606)
t (-14.99) (7.19) (1.75)
28
1)作用电量与家庭收入的回归,结果如下: POWER = -113.8 + 0.544 INC
se (5.588) (0.018)
t (-20.36) (30.27)
R2=0.988, D.W = 1.07, F = 916.34
2)作用电量与住房面积的回归,结果如下:
POWER = -161.29 + 13.93 SQLIV
与被解释变量之间的结构关系,而是反映它们对 被解释变量的共同影响。
1、2已经失去了应有的经济含义,于是经 常表现出似乎反常的现象:例如1本来应该是正
的,结果恰是负的。
多重共线性是样本回归现象
1.近似共线性下OLS仍是BLUE,但估计值并不是,可 能会与真实值有较大的偏差。
2.近似共线性下样本的方差变大。 3.即使在总体回归模型或函数中不存在共线性,但在某
1762
1909
1.083428
1854
1196
0.645092
2960
806
0.272297
4584
1784
0.389180
8637
2806
0.324881
12610
4230
0.335448
12294
7034
0.572149
9093
7313
0.80424525
例1 我国居民家庭电力消耗量与可支配收入及居
17
例:考虑Y对X1、X2、X3、X4、X5和X6 6个解 释变量的回归。
找出变量线性组合具体方法: 作6个辅助回归 根据方程的F值判断哪些解释变量是共线性的?
18
对每个解释变量作剩余变量的回归分析
方程
R2值
F值
F值是否显 著?
X1对剩余变量 的回归
0.90 79.20

X2对剩余变量 的回归
34529 0.504088
D(GDP) D(XFZE(-1)) BILI2
NA
NA
NA
NA
588
333
0.566327
587
329
0.560477
1088
383
0.352022
1628
673
0.413391
1341
1079
0.804623
1651
769
0.465778
2920
909
0.311301
一般经验: 时间序列数据样本:简单线性模型,往往存在多重 共线性。 截面数据样本:问题不那么严重,但多重共线性仍 然是存在的。
8
8.3 多重共线性的后果
1、完全共线性: 参数估计量不存在 参数估计的方差无穷大
Vaˆr(ˆ2 )
x22
s2 (1
r232
)
Vaˆr (ˆ3 )
x32
s2 (1
r232
5
产生多重共线的原因
一、时间序列解释变量受同一因素影响:
(1) 经济发展 (2) 政治事件 (3) 偶然事件 (4) 时间趋势
经济变量的共同趋势 例:做电力消费对收入和住房面积的回归 收入较高家庭的住房面积一般地说比收入较低的家庭
住房面积大。
6
产生多重共线的原因
二、模型设立
解释变量中含有当期和滞后变量
例:投资模型
It=β1+β2rt&利率,Yt=当期GDP,Yt-1=上期GDP
例:消费不仅受当期可支配收入的影响,而且也受前 期可支配收入的影响。
7
产生多重共线的原因
三、样本资料的限制
由于完全符合理论模型所要求的样本数据较难收集,特 定样本可能存在某种程度的多重共线性。
设X2可以写成其他某些解释变量的线性组合, 即: X2=a3X3+ a4 X 4 …+akXk
至少有一个ai≠0,(i= 2,3,…k) 称存在完全多重共线性
3
高度多重共线性
X 2与其他解释变量高度共线性 即可以近似写成其他解释变量的线性组合
X2=a3X3+ a4 X 4 …+akXk +i
GDP NA 4901 5489 6076 7164 8792 10133 11784 14704 16466 18320 21280 25864 34501 47111 59405 68498
XFZE(-1) BILI1
NA
NA
2976 0.607223
3309 0.602842
3638 0.598749
R2=0.991, D.W = 1.34, F = 545.44
多重共线性问题
可忽略,不处理
根据t检验,估计的大多数单个回归系数都是统
计显著时,不违反经济意义时。 用模型来预测因变量的未来值时。 ➢ 方程的R2值还是高于略去变量的方程中的R2值。 ➢ 通常根据解释能力来选择预测模型
30
第8章 多重共线性 multicollinearity
两个或多个解释变量之间存在线性相 关,称为多重共线性。
1
多元回归方程古典假设之一: 自变量之间不存在精确的线性关系 即:任何一个解释变量不能写成其他解释
变量的线性组合。
2
完全多重共线性
回归模型的某个解释变量可以写成其他解释变 量的线性组合。
20
8.8.1 去除引起共线性的变量
找出引起多重共线性的解释变量,将它排 除出去
最为简单的克服多重共线性问题的方法。
以逐步回归法得到最广泛的应用。
21
排除引起多重共线性的变量
• 逐步回归法——逐步引入 如果拟合优度变化显著 —— 新引入的变量是一个独 立解释变量;
• 选择解释变量的原则: (1)调整的R2增加,每个∣t∣增加,则保留引入变量; (2)调整的R2下降,每个∣t∣变化不大,则删除引入变量;
至少有一个ai≠0,(i= 2, 3,…k), vi是随机误差项。
x1
x2
x3
X1与X 2之间 有完全共线性,
10
50
52
相关系数为1。
15
75
75
X1与X3之间
18
90
97
有高度共线性, 相关系数为
24
120
129
0.9959。
30
150
152
4
多重共线性仅针对解释变量之间的线性关系 解释变量之间可能存在非线性关系。 如:Yi=β1+β2Xi+β3Xi2+β4Xi3+ui 变量X、X2与X3都有函数关系 模型不违反无多重共线性假设。
• 逐步回归法——逐步剔除
22
排除引起多重共线性的变量 排除变量时应该注意: 1.由实际经济分析确定变量的相对重
要性,删除不太重要的变量; 2.如果删除变量不当,会导致模型设
定误差。
23
变量变换:差分法
Y X X X
i
1
2 2i
3 3i
k ki
i
将原模型变换为差分模型
Y i 2 X 2i 3X 3i k X ki i
)
9
多重共线的后果
2、近似或高度多重共线性: OLS估计量仍是BLUE 估计量的方差和标准差较大 多个回归系数统计不显著 估计量及标准误对数据的微小变化非常敏感
10
3、参数估计量经济含义不合理
如果模型中两个解释变量具有线性相关性, 例如 X2= X1 ,
这时,X1和X2前的参数1、2并不反映各自
变量相关系数比如超过0.8,则可能存在较为严重的 共线性。
这一标准并不总是可靠,相关系数较低时,也有可 能存在共线性
3、偏相关系数 4、判定系数法(辅助回归)
16
判定系数方法
某个解释变量对其余的解释变量进行回归
如果判定系数很大,F检验显著 即Xi与其他解释变量存在多重共线
克莱因的经验法则:当某个辅助回归的R2大 于总回归模型中的R2时,多重共线性才算严 重。
住面积的关系
26
年 人 均家
年 人 均可
表 10.2 1985~1997 年我国年人均家庭
年度
庭电力消 人均居住 支配收入
耗 量( 千 瓦 面 积(平 方 指数(1978
小时)
米) 年
年=100)
电力消耗量、年人
power
sqliv
inc
均可支配收入及人 1985
21.2
12.45
243.17
均居住面积
4021 0.561279
4694 0.533894
5773 0.569723
6542 0.555160
7451 0.506733
9360 0.568444
10556 0.576201
11362 0.533929
13146 0.508274
15952 0.462363
20182 0.428393
27216 0.458143
对于非实验数据,无法确定多重共线性的性质和程度, 只能利用一些经验法则。
14
多重共线的诊断
1、观察回归结果
R2较高,F很大,但t值显著的不多。
多重共线性的经典特征。 R2较高,F检验拒绝零假设 但各变量的t检验表明,没有(或少有)变量系数
是统计显著的
15
多重共线的诊断
2、简单相关系数法
解释变量两两高度相关。
中人均居住面积和
1993
61.2
16.99
321.07
人均可支配收入数
1994
72.7
16.65
339.33
据是根据统计年鉴
1995
83.5
17.25
356.58
中城乡数据和城乡
1996
93.1
17.82
383.95
人口平均得到的。) 1997
101.8
18.33
399.85
27
正相关关系,相关系数是r = 0.972。 判定:住房面积与收入高度共线的。
可有效消除存在于原模型中的多重共线性
一般,增量之间的线性关系远比总量之间的 线性关系弱得多。
24
差分消除多重共线的机理
——差分减弱了比例关系
obs 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996
相关文档
最新文档