计量经济学第四讲---多重共线性
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
36
五、多重共线性的修正
1、先验信息法 2、改变变量的定义形式 3、主成分法 4、岭回归 5、逐步回归 6、其他
37
理论方法
38
39
40
41
例如:在中国消费模型中的2个变量:
收入(Y: GDP)与消费 C 的总量与增量数据
1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 Y 4901 5489 6076 7164 8792 10133 11784 14704 16466 18320 21280 25864 34501 47111 59405 68498 C(-1) 2976 3309 3638 4021 4694 5773 6542 7451 9360 10556 11362 13146 15952 20182 27216 34529 C(-1)/Y 0.6072 0.6028 0.5996 0.5613 0.5339 0.5697 0.5552 0.5067 0.5684 0.5762 0.5339 0.5083 0.4624 0.4284 0.4581 0.5041
x1
51
旋转变换的目的是为了使得n个样本点在y1 轴方向上的离散程度最大,即y1的方差最大, 变量y1代表了原始数据的绝大部分信息,在 研究某经济问题时,即使不考虑变量y2也损 失不多的信息。 Y1与y2除起了浓缩作用外,还具有不相关 性。 Y1称为第一主成分,y2称为第二主成分。
52
Y与C(-1)之间的判定系数为0.9845, △Y与△C(-1)之间的判定系数为0.7456。 一般认为:两个变量之间的判定系数大于0.8 时,二者之间存在线性关系。 所以,原模型经检验地被认为具有多重共线性, 而差分模型则可认为不具有多重共线性。
43
44
简介主成分
假设我们所讨论的实际问题中,有p个指 标,我们把这p个指标看作p个随机变量,记为 X1,X2,…,Xp,主成分分析就是要把这p个指 标 的问题,转变为讨论p个指标的线性组合的问 题,而这些新的指标F1,F2,…,Fk(k≤p),按 照保留主要信息量的原则充分反映原指标的信 息,并且相互独立
因为前面所述,共线性是样本特征不是总体 特征,因此共线性问题不是有没有共线性问 题而是样本共线的程度问题 因此,考量共线性必须立足以下两点: 1、共线性不是存在问题,而是程度问题 2、依赖样本存在,是样本特征不是总体特 征,
26
诊断方法:理论上方法
ห้องสมุดไป่ตู้
27
28
29
关于相关系数检验法的提示: 1、在只有两个解释变量的条件下,简单相 关系数检验通常是可行的。 2、在很多解释变量的情况下,我们愿意计 算偏相关系数。通常可以作为考量依据的 3、相关系数检验是近似共线的充分条件, 却不是必要条件,有时候较低的相关系数也 有近似共线性。
481.5380
4405699. -193.4165 1.873809
Akaike info criterion
Schwarz criterion F-statistic Prob(F-statistic)
15.41665
15.75537 632.0999 2 0.000000
模型中解释变量之间的关系有下面三种:
10
11
结论:1、完全共线系数不确定的
12
结论2、不完全共线,估计是可能的
13
14
15
三、近似共线性的后果—理论后果
1、近似共线的情况下,OLS可以得到无偏估计:因为无偏性是指 重复抽样的条件下,重复抽取X固定值,这些值收敛于总体期望的 性质,这些性质不会因为共线收到影响, 2、近似共线也没有破坏OLS的最小方差性。在所有的估计方法中, OLS依旧是具有最小方差性。最小方差性和最小方差是两个不同 概念,最小方差性不意味着求的估计量的方差会小。 3、近似共线本质上是样本现象。我们在假定总体方程时,通常假 定X对Y都有独立的影响。但是我们的样本数据通常来自统计数据, 很多原因使得样本数据中X之间出现共线。使得我们获得的样本数 据并不能真正完成对总体的估计。 总之:近似共线通常是个样本现象,理论上看,OLS估计量的 BLUE性质是不变的。
46
A、每一个主成分都是各原始变量的线性组合 B、理论上主成分的个数与原始变量的主成分的个 数相同,但是由于主成分研究的目的的需求,通常 主成分的个数少于原始变量的个数。 C、理论上,主成分保留原始变量的所有信息。但 是实践上可以保留绝大多数信息 D、各个主成分之间不相关
47
48
发展农业和建筑业会减少财政收入吗?
为了分析各主要因素对财政收入的影响,建立财政收 入模型:
CSi 0 1 NZ i 2GZi 3 JZZi 4TPOP i 5CUM i 6 SZMi ui
其中: CS财政收入(亿元) ; NZ农业增加值(亿元); GZ工业增加值(亿元); JZZ建筑业增加值(亿元); TPOP总人口(万人); CUM最终消费(亿元); SZM受灾面积(万公顷) 数据样本时期1978年-2003年(资料来源:《中国统计年鉴2004》,中国 统计出版社2004年版) 采用普通最小二乘法得到以下估计结果
30
4、辅助回归
31
5、方差膨胀因子:
32
诊断方法-操作经验上看:
33
诊断总结:
34
读书:P193
8.7: 美国鸡肉需求一例的诊断。 回答问题: 你如何看待模型结果
35
共线性存在有时候是有帮助的。当我们利用 时间序列预测的时候,只要共线性长期存在 ,那么存在较高的判定系数下,对Y的预测 是不受影响的。 当我们要解析各个X对Y的影响时,共线性 会比较重要。
(三)主成分研究的几何意义 为了方便,我们在二维空间中
讨论主成分的几何意义。 设有n个样品,每个样品有两 个观测变量xl和x2,在由变量xl 和x2所确定的二维平面中,n 个样本点所散布的情况如椭圆 状。由图可以看出这n个样本 点无论是沿着xl轴方向或x2轴 方向都具有较大的离散性,其 离散的程度可以分别用观测变 量xl的方差和x2的方差定量地 表示。显然,如果只考虑xl和 x2中的任何一个,那么包含在 原始数据中的经济信息将会有 较大的损失如果我们将xl 轴 和x2轴先平移,再同时按逆时 针方向旋转θ角度,得到新坐 标轴Fl和F2。Fl和F2是两个新 变量
F2
•
• •• • • • • •••• • • • • •• • • • •• • • • •• x • • 1 • •• •• • ••
50
x2
F1
•
主 成 分 分 析 的 几 何 解 释
F2
• • • • • • • • • • • • •• • • • • •
• • • • • • • • • • • •• • •
16
多重共线性的后果—实际后果
17
18
19
20
21
一个例子
22
23
24
后果总结:
存在多重共线性时 参数估计值的方差与标准差变大 使t统计量的拒绝域变小(临界值增大) 容易使通过样本计算的t值小于临界值, 误导作出参数为0的推断 可能将重要的解释变量排除在模型之外
25
四、共线性诊断
y1 x1 cos x2 sin y2 x1 sin x2 cos y1 cos y sin 2 sin x1 cos x2
49
旋转变换的目的是 为了使得n个样品 点在Fl轴方向上的 离散程度最大,即 Fl的方差最大。 变量Fl代表了原始 数据的绝大部分信 息,在研究某经济 问题时,即使不考 虑变量F2也无损大 局。经过上述旋转 变换原始数据的大 部分信息集中到Fl 轴上,对数据中包 含的信息起到了浓 缩作用
例
:X1:思想品德素质理论模块得分(邓小平理论、形势与政策1、形势 与政策2、当代世界政治与经济); X2:专业素质理论模块得分(宏观经济学、统计学、计量经济学、国 际经济学、货币银行学、财政学); X3:人文素质理论模块得分(大学英语3、大学英语4、概率与数理统 计、线性代数、计算机技术基础、计算机应用基础); X4:身心素质理论模块得分(体育); X5:思想品德素质实践模块得分; X6:专业素质实践模块得分; X7:人文素质实践模块得分; X8:身心素质实践模块得分
45
将原来众多具有一定相关性的指标重新组合 成一组新的相互无关的综合指标来代替原来 指标。
z1 u11 x1 u21 x2 ... u p1 x p z2 u12 x1 u22 x2 ... u p 2 x p ...... z p u1 p x1 u2 p x2 ... u pp x p
0.245466
1.206242 0.033759 0.105329
3.661558
-1.265989 4.477646 0.963783
0.0017
0.2208 0.0003 0.3473
受灾面积SZM
截距项 R-squared Adjusted R-squared
-0.036836
-11793.34 0.995015 0.993441
0.018460
3191.096 Mean dependent var S.D. dependent var
-1.995382
-3.695704
0.0605
0.0015 5897.824 5945.854
S.E. of regression
Sum squared resid Log likelihood Durbin-Watson stat
0.5663 0.5605 0.3520 0.4134 0.7488 0.4658 0.3113 1.083 0.6451 0.2723 0.3892 0.3249 0.3354 0.5721 0.8042
42
• 由表中的比值可以直观地看到,两变量增量的线性关系弱于总
量之间的线性关系。
进一步分析:
4
Y-需求量,X1-价格,X2-收入,X3工资
5
方程一、价格与收入完全线性: 解释变量与被解释变量完全线性
6
方程二:收入、价格与需求量: 解释变量之间完全线性
7
方程三:工资、价格与需求量 解释变量之间高度共线
8
方程四:价格与工资不完全线性 解释变量与被解释变量高度线性
9
1、共线性,是指变量之间单一的共线关系,多重共线 性是指不止一种这样的关系。目前多重共线性术语,涵 盖了两种情况。 2、多重共线性严格上是指,即任一变量都可以由其它 变量的线性组合推出,则这组变量满足完全多重共线性。 变量不仅取决于其它变量的线性组合,也取决于随机误 差项,此时变量组之间存在非严格但近似的线性关系, 解释变量之间高度相关,也即变量组存在近似多重共线 性关系。
3
一、多重共线性的认识
多重共线性(multicollinearity)一词最早由挪威 经济学家弗瑞希(R.Frisch)于1934年提出。 其原义是指回归模型中的一些或全部解释变量中存 在的一种完全(perfect)或准确(exact)的线性关系。 而现在所说的多重共线性,除指上述提到的完全多 重共线性(perfect multicollinearity ),也包括近似 多重共线性(near multicollinearity)。
△Y
588 587 1088 1628 1441 1651 2920 1762 1854 2960 4584 8637 12610 12294 9093
△C(-1)
333 329 383 673 1079 769 909 1909 1196 806 1784 2806 4230 7034 7313
△C(-1)/△Y
1
财政收入模型的EViews估计结果
Variable 农业增加值NZ
Coefficient -1.535090
Std. Error 0.129778
t-Statistic -11.82861
Prob. 0.0000
工业增加值GZ
建筑业增加值JZZ 总人口TPOP 最终消费CUM
0.898788
-1.527089 0.151160 0.101514