多重共线性的含义多重共线性产生的原因多重共...

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

四、多重共线性的检验
多重共线性表现为解释变量之间具有相关关系，
所以用于多重共线性的检验方法主要是统计方法：
如判定系数检验法、逐步回归检验法等。多重共线性检验的任务是：（1）检验多重共线性是否存在；（2）估计多重共线性的范围，即判断哪些变量之间存在共线性。
1、检验多重共线性是否存在
不显著系数法
（4）样本资料的限制，数据收集范围过窄，有时会造成变量间存在多重共线性问题
由于完全符合理论模型所要求的样本数据较难收集，特定样本可能存在某种程度的多重共线性。一般经验：
时间序列数据样本：简单线性模型，往往存在多重共线性。
截面数据样本：问题不那么严重，但多重共线性仍然是存在的。
三、多重共线性产生的后果
X2 积（千公顷） 114047 112884 108845 110933 111268 110123 112205 113466 112314 110560 110509 109544 110060 112548 112912 113787 113161 108463
X3
（公顷） 16209.3 15264.0 22705.3 23656.0 20392.7 23944.7 24448.7 17819.3 27814.0 25894.7 23133.0 31383.0 22267.0 21233.0 30309.0 25181.0 26731.0 34374.0
变大的方差容易使区间预测的“区间”变大，使预测失去意义。
注意：
除非是完全共线性，多重共线性并不意味着任何基本假设的违背；因此，即使出现较高程度的多重共线性， OLS估计量仍具有线性性等良好的统计性质。问题在于，即使OLS法仍是最好的估计方法，它却不是“完美的”，尤其是在统计推断上无法给出真正有用的信息。
y ( 1 2 ) x1
这时，只能确定综合参数1+2的估计值：
2、不完全多重共线性下估计量非有效
近似共线性下，可以得到OLS参数估计量
但是参数估计值的方差增大，参数估计值不稳定，对样本变化敏感；OLS参数估计量非有效。
3、参数估计量经济含义不合理
如果模型中两个解释变量具有线性相关性，例如 X2= X1 ，这时，X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系，而是反映它们对被解释变量的共同影响。
1、2已经失去了应有的经济含义，于是经常表现出似乎反常的现象：例如1本来应该是正的，
结果恰是负的。
4、变量的显著性检验失去意义
存在多重共线性时参数估计值的方差与标准差变大
容易使通过样本计算的t值小于临界值，误导作出参数为0的推断
可能将重要的解释变量排除在模型之外
5、模型的预测功能失效
可决系数方差扩大因子
0
1
0.5
2源自文库
0.8
5
0.9
10
0.95 0.96 0.97 0.98 0.99 0.999
20 25 33 50 100 1000
ˆ1 ) 当完全共线时， r 2 =1， var(
五、多重共线性的处理
如果模型被检验证明存在多重共线性，则需要发展新的方法估计模型，最常用的方法有。 1、先验信息法： 2、改变变量定义形式（1）用相对数变量代替绝对数变量（2）删去模型中次要的或可替代的解释变量（3）差分法 3、主成分法
第七章多重共线性
• • • • • •
一、多重共线性的含义二、多重共线性产生的原因三、多重共线性产生的后果四、多重共线性的检验五、多重共线性的处理六、案例
一、多重共线性的含义
对于模型 Yi=0+1X1i+2X2i++kXki+i i=1,2,…,n 其基本假设之一是解释变量是互相独立的。
1、完全多重共线性下参数估计量不存
在
Y Xβ μ
的OLS估计量为：
ˆ ( XX) 1 XY β
如果存在完全共线性，则(X’X)-1不存在，无法得到参数的估计量。
例：对离差形式的二元回归模型
y 1 x1 2 x 2
如果两个解释变量完全相关，如x2= x1，则
• 如果原始变量之间具有较高的相关性，则前面少数几个主成分的累计贡献率通常就能达到一个较高水平，也就是说，此时的累计贡献率通常较易得到满足。 • 主成分分析的困难之处主要在于要能够给出主成分的较好解释，所提取的主成分中如有一个主成分解释不了，整个主成分分析也就失败了。 • 主成分分析是变量降维及改善多重共线性的一种重要、常用的方法，简单的说，该方法要应用得成功，一是靠原始变量的合理选取，二是靠“运气”。
（2）经济变量间存在较密切的关系
• 由于组成经济系统的各要素之间是相互影响相互制约的，因而在数量关系上也会存在一定联系。 • 如耕地面积与施肥量都会对粮食总产量有一定影响，同时，二者本身存在密切关系。
（3）采用滞后变量作为解释变量较易产生多重共线性在经济计量模型中，往往需要引入滞后经济变量来反映真实的经济关系。例如，消费=f(当期收入, 前期收入）显然，两期收入间有较强的线性相关性。
六、案例一——中国粮食生产函数
根据理论和经验分析，影响粮食生产（Y）的主要因素有：农业化肥施用量（X1）；粮食播种面积(X2) 成灾面积(X3); 农业机械总动力(X4); 农业劳动力(X5) 已知中国粮食生产的相关数据，建立中国粮食生产函数： Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 +
X4 动力（万千瓦） 18022 19497 20913 22950 24836 26575 28067 28708 29389 30308 31817 33802 36118 38547 42016 45208 48996 52574
农业劳动力X5 （万人） 31645.1 31685.0 30351.5 30467.0 30870.0 31455.7 32440.5 33330.4 34186.3 34037.0 33258.2 32690.3 32334.5 32260.4 32434.9 32626.4 32911.8 32797.5
Xji=1X1i+2X2i+LXLi
的判定系数较大，说明Xj与其他X间存在共线性。
(2)Frisch综合分析法（逐步回归法）
以Y为被解释变量，逐个引入解释变量，构成回归模型，进行模型估计。根据拟合优度的变化决定新引入的变量是否独立。
如果拟合优度变化显著，则说明新引入的变量是一个独立解释变量；
若在OLS法下：R2与F值较大，但t检验值较小，说明各解释变量对Y的联合线性作用显著，但各解释变量间存在共线性而使得它们对Y的独立作用不
能分辨，故t检验不显著。
2、判明存在多重共线性的范围
如果存在多重共线性，需进一步确定究竟由哪些变量引起。 (1) 拟合优度 Rj•2 检验使模型中每一个解释变量分别以其余解释变量为解释变量进行回归，并计算相应的拟合优度。如果某一种回归
如果某两个或多个解释变量之间出现了相关性，则称为多重共线性(Multicollinearity)。
如果存在 c1X1i+c2X2i+…+ckXki=0
性（perfect multicollinearity）。
i=1,2,…,n
其中: ci不全为0，则称为解释变量间存在完全共线
如果存在
c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n 其中ci不全为0，vi为随机误差项，则称为近似共线性（approximate multicollinearity）。
ˆ ) 2 / x2 当完全不共线时，r =0， var( 1i 1
2
当不完全共线（近似共线）时，0 r
2 1 ˆ ) var( 1 2 2 2 x 1 r x 1i 1i
2
1
，
2
即：多重共线性使参数估计值的方差增大，方差扩大因子(Variance Inflation Factor)为1/(1-r2)，其增大趋势见下表：
Y
1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 (万吨) 38728 40731 37911 39151 40208 39408 40755 44624 43529 44264 45649 44510 46662 50454 49417 51230 50839 46218
年份
粮食产量
表 4.3.3 中国粮食生产与相关投入资料受灾面积农业化肥施粮食播种面农业机械总用量 X 1 （万公斤） 1659.8 1739.8 1775.8 1930.6 1999.3 2141.5 2357.1 2590.3 2806.1 2930.2 3151.9 3317.9 3593.7 3827.9 3980.7 4083.7 4124.3 4146.4
3、主成分法
• 主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。 • 这些主成分能够反映原始变量的绝大部分信息，它们通常表示为原始变量的某种线性组合。 • 基本原理：将解释变量转换成若干个主成分，这些主成分从不同侧面反映解释变量的综合影响，并且互不相关。 • 主成分分析的要点是： (1)变量的降维；(2)主成分的解释。
注意：完全共线性的情况并不多见，一般出现的是在一定程度上的共线性，即近似共线性。
二、多重共线性产生的原因
一般地，产生多重共线性的主要原因有以下四个方面：
（1）经济变量相关的共同趋势
时间序列样本：经济繁荣时期，各基本经济变量（收入、消费、投资、价格）都趋于增长；衰退时期，又同时趋于下降。横截面数据：生产函数中，资本投入与劳动力投入往往出现高度相关情况，大企业二者都大，小企业都小。
• 在主成分分析中，我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平（即变量降维后的信息量须保持在一个较高水平上），其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释（否则主成分将空有信息量而无实际含义）。 • 主成分的解释其含义一般多少带有点模糊性，不像原始变量的含义那么清楚、确切，这是变量降维过程中不得不付出的代价。因此，提取的主成分个数m通常应明显小于原始变量个数p （除非p本身较小），否则维数降低的“利” 可能抵不过主成分含义不如原始变量清楚的 “弊”。
1、用OLS法估计上述模型：
ˆ 12816 Y .44 6.213X1 0.421X 2 0.166X 3 0.098X 4 0.028X 5
(-0.91)
(8.39)
(3.32)
(-2.81)
(-1.45)
如果拟合优度变化很不显著，则说明新引入的变量与其它变量之间存在共线性关系。
3．方差膨胀(扩大)因子法
对于多元线性回归模型来说，如果分别以每个解释变量为被解释变量，做对其他解释变量的回归，这称为辅助回归。
以Xj为被解释变量做对其他解释变量辅助线性回归的可决系数，用Rj 表示，则可以证明(证明过程从略)，解释变量Xj参数估计量表示为
• 作OLS回归后得判定系数Ri2,定义方差膨胀因子为下式，因子越大，多重共线性越明显： 1
VIFi 1 Ri2

方差膨胀因子检验
• 判定系数Ri2=0.9, VIF=10 • 判定系数Ri2=0.8, VIF=5 • 几种观点,认为VIF>8或10时,多重共线性显著,且Xi为多余变量. • 如果多个变量的方差膨胀因子都比较大, 选最大的方差膨胀因子的变量为多余的.
2 1 ˆ )= VIFj Var( 2 2 2 j x ji 1 R j x ji
ˆJ
的方差可
2
其中，定义VIFj是变量Xj的方差膨胀因子，即
VIFj
1 1 R2 j
• 设计辅助函数
xi 0 1 x1 i 1 xi 1 i 1 xi 1 k xk i