第6章 多重共线性的情形及其处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n
n
则 x1 与 x2 之间的相关系数为
L12 r12 L11 L22
§6.2 多重共线性对回归模型的影响
ˆ ˆ ˆ (1 , 2 ) 的协方差阵为
ˆ cov(β)=σ (X′X)
2 -1
L11 XX L 12 1 (XX ) XX
1
L12 L22 - L12 L11
§6.3 多重共线性的诊断
经验表明,当VIFj≥10时,就说明自变量xj与其余自变量 之间有严重的多重共线性,且这种多重共线性可能会过度 地影响最小二乘估计值。
还可用p个自变量所对应的方差扩大因子的平均数来 度量多重共线性。当
1 p VIF VIFj p j 1
远远大于1时就表示存在严重的多重共线性问题。
§6.1多重共线性产生的经济背景和原因
许多利用截面数据建立回归方程的问题常常也存在自 变量高度相关的情形。 例如,我们以企业的截面数据为样本估计生产函数,由于 投入要素资本K,劳动力投入L,科技投入S,能源供应E等都与 企业的生产规模有关,所以它们之间存在较强的相关性。
Fra Baidu bibliotek6.2 多重共线性对回归模型的影响
(Cons tant) X1 X2 X3 X4 X5
Uns tandardized Coefficients Std. B Error 450.909 178.078 .354 .085 -.561 .125 -7.E-03 .002 21.578 4.030 .435 .052
Collinearity Statis tic s Tolera nce VIF .001 .001 .315 .018 .040 1963 1741 3.171 55.5 25.2
此时设计矩阵 X 的秩 rank(X)=p+1 虽然成立,但是此时|x′x|≈0, ˆ ˆ (x′x)-1 的对角线元素很大,β的方差阵 D(β)=σ 2(X′X)-1 的
ˆ ˆ ˆ ˆ 对角线元素很大,而 D(β)的对角线元素即为 var(0 ) , var(1 ),, var(p )
因而β 0,β 1,…,β p 的估计精度很低。这样,虽然用 OLSE还能得到β 的无偏 ˆ 估计,但估计量β的变差很大,不能正确判断解释变量对被解释变量的影响程 度,甚至出现估计量的经济意义无法解释。
Model Summary Model 1 R .9997452991a R Square .999 Adjusted R Square .999 Std. Error of the Estimate 175.08601
a. Predictors: (Constant), x5, x3, x4, x2
§6.3 多重共线性的诊断
记X =(X0 ,X1,…,Xp),其中
Xi为X 的列向量, X0 =(1,1,…,1)′是元素全为1的n维列向量。 λ 是矩阵X′X的一个近似为零的特征根,λ≈0 c=(c0,c1, …,cp)′是对应于特征根λ 的单位特征向量,则
X′X c=λ c≈0
§6.3 多重共线性的诊断
设回归模型 y=β0+β1x1+β2x2+…+βpxp+ε 存在完全的多重共线性,即对设计矩阵X的列向量存在不全 为零的一组数c0,c1,c2,…,cp ,使得
c0+c1xi1+c2xi2+…+cpxip=0 , i=1,2,…,n
设计矩阵X的秩rank(X)< p+1,此时|x′x|=0,正规方程 组的解不唯一,(x′x)-1不存在,回归参数的最小二乘估计 ˆ 表达式 不成立。 β (X X)-1 X y
L22 -L 12
- L12 L22 1 L L L2 - L L11 12 11 22 12 - L12 L11
L22 1 2 L11 L22 (1 r12 ) - L12
§6.2 多重共线性对回归模型的影响
a. Dependent Variable: Y
§6.3 多重共线性的诊断
Variables Entered/Removedb Model 1 Variables Entered x5, x3, x4, x2 a Variables Removed . Method Enter
a. All req uested variables entered. b. Dependent Variable: x 1
a. Dependent Variable: Y
§6.3 多重共线性的诊断
二、特征根判定法
(一)特征根分析
根据矩阵行列式的性质,矩阵的行列式等于其 特征根的连乘积。因而,当行列式|X′X|≈0时, 矩 阵X′X至少有一个特征根近似为零。反之可以证明, 当矩阵X′X至少有一个特征根近似为零时,X 的列 向量间必存在复共线性,证明如下:
§6.3 多重共线性的诊断
以下用SPSS软件诊断例3.2中国民航客运量一例中的多重共线性问题。
Coefficients a Standar dized Coeffici ents Beta 2.447 -2.485 -.083 .531 .564 t 2.532 4.152 -4.478 -3.510 5.354 8.440 Sig. .030 .002 .001 .006 .000 .000
ˆ var(1 )
1.0 1.04 1.33 1.96 2.78 5.26 10.26 50.25 ∞
§6.2 多重共线性对回归模型的影响
在例3.3中,我们建立的中国民航客运量回归方程为:
ˆ y =450.9+0.354x1-0.561x2-0.0073x3+21.578x4+0.435x5
其中:y—民航客运量(万人), x1—国民收入(亿元), x2—消费额(亿元), x3—铁路客运量(万人), x4—民航航线里程(万公里), x5—来华旅游入境人数(万人)。 5个自变量都通过了t检验,但是x2的回归系数是负值,x2 是消费额,从经济学的定性分析看,消费额与民航客运量应 该是正相关,负的回归系数无法解释。问题出在哪里?这正 是由于自变量之间的复共线性造成的。
§6.2 多重共线性对回归模型的影响
我们做y对两个自变量x1,x2的线性回归,假定y与x1,x2都 已经中心化,此时回归常数项为零,回归方程为
ˆ ˆ ˆ y 1x1 2 x2
记 L11
x
i 1
n
2 i1
, L12 xi1 xi 2 , L 22 x ,
i 1 i 1 2 i2
上式两边左乘c′,得 c′X′X c≈0
从而有
即 写成分量形式即为
X c≈0
c0X0 +c1X1+…+cp Xp≈0
c0+c1xi1+c2xi2+…+cpxip≈0 , i=1,2,…,n 这正是(6.2)式定义的多重共线性关系。
§6.3 多重共线性的诊断
(二)条件数 特征根分析表明,当矩阵X′X有一个特征根近似为零时, 设计矩阵X 的列向量间必存在复共线性。那么特征根近似 为零的标准如何确定哪?这可以用下面介绍的条件数确定。 记X′X的最大特征根为λm,称
ˆ var( j ) c jj 2 / L jj ,
j 1,, p
其中Ljj是xj的离差平方和,由(6.6)式可知用cjj做为衡量 自变量xj的方差扩大程度的因子是恰如其分的。
§6.3 多重共线性的诊断
记 R 2 为自变量 xj 对其余 p-1 个自变量的复判定系数, j 可以证明
1 c jj 1 R2 j
由此可得
ˆ var(1 )
2
(1 r ) L11
2 12
(6.3)
ˆ var( 2 )
2
(1 r ) L22
2 12
(6.4)
ˆ ˆ 可知,随着自变量 x1 与 x2 的相关性增强, 1 和 2 的方差将逐渐增大。
当 x1 与 x2 完全相关时,r=1,方差将变为无穷大。
第六章 多重共线性的情形及其处理
6 .1 6 .2 6 .3 6 .4 6 .5 6 .6 多重共线性产生的背景和原因 多重共线性对回归模型的影响 多重共线性的诊断 消除多重共线性的方法 主成分回归 本章小结与评注
第六章 多重共线性的情形及其处理
如果存在不全为0的p+1个数c0,c1,c2,…,cp ,使得
§6.3 多重共线性的诊断
一、方差扩大因子法 记 对自变量做中心标准化,则X*′X*=(rij)为自变量的相关阵。 C=(cij)=(X*′X*)-1 (6.5)
称其主对角线元素VIFj=cjj为自变量xj的方差扩大因子(Variance Inflation Factor,简记为VIF)。根据(3.31)式可知,
§6.2 多重共线性对回归模型的影响
当给不同的r12值时,由表6.1可看出方差增大的速度。 为了方便,我们假设σ2/L11=1,相关系数从0.5变为0.9时, 回归系数的方差增加了295%,相关系数从0.5变为0.95时,回归 系数的方差增加了670%。
表 6.1 r12 0.0 0.2 0.50 0.70 0.80 0.90 0.95 0.99 1.00
c0+c1xi1+c2xi2+…+cpxip=0 , i=1,2,…,n (6.1) 则称自变量x1,x2,…,xp之间存在着完全多重共线性。
在实际经济问题中完全的多重共线性并不多见,常见的是 (6.1)式近似成立的情况,即存在不全为0的p+1个数 c0,c1,c2,…,cp ,使得 c0+c1xi1+c2xi2+…+cpxip≈0 , i=1,2,…,n(6.2)
§6.3 多重共线性的诊断
当某自变量 xj 对其余 p-1 个自变量的复判定系 数 R 2j 超过一定界限时, SPSS 软件将拒绝这个自变量 xj 进入回归模型。 R 2 为自变量 xj 的容忍度(Tolerance) 称 Tolj=1- j , SPSS 软件的默认容忍度为 0.0001。 也就是说, R 2 当 j >0.9999 时,自变量 xj 将被自动拒绝在回归方程之 外,除非我们修改容忍度的默认值。
(Cons tant) X1 X2 X3 X4 X5
Uns tandardized Coefficients Std. B Error 450.909 178.078 .354 .085 -.561 .125 -7.E-03 .002 21.578 4.030 .435 .052
Collinearity Statis tic s Tolera nce VIF .001 .001 .315 .018 .040 1963 1741 3.171 55.5 25.2
(6.7)
(6.7)式同样也可以作为为方差扩大因子 VIFj 的定义, 由此可知 VIFj≥1。
§6.3 多重共线性的诊断
Coefficients a Standar dized Coeffici ents Beta 2.447 -2.485 -.083 .531 .564 t 2.532 4.152 -4.478 -3.510 5.354 8.440 Sig. .030 .002 .001 .006 .000 .000
§6.2 多重共线性对回归模型的影响
对非完全共线性, 存在不全为零的一组数c,c2,…,cp ,使得 对非完全共线性,即存在不全为零的一组数 c0,c1 0,c1,c2,…,cp ,使得 c00+c11xi1+ci2xi2+…+cpxip, i=1,2,…,n c +c xi1+c2 x2+…+cpxip≈0 ≈0 , i=1,2,…,n
称自变量x1,x2,…,xp之间存在着多重共线性 (Multi-collinearity),也称为复共线性。
§6.1多重共线性产生的经济背景和原因
当我们所研究的经济问题涉及到时间序列资料时,由于 经济变量随时间往往存在共同的变化趋势,使得它们之间就 容易出现共线性。 例如, 我们要研究我国居民消费状况,影响居民消费的 因素很多,一般有职工平均工资、农民平均收入、银行利率、 全国零售物价指数、国债利率、货币发行量、储蓄额、前 期消费额等,这些因素显然既对居民消费产生重要影响,它 们之间又有着很强的相关性。