多重共线性的情形及其处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多重共线性的情形及其处理

一、多重共线性对回归模型的影响

设回归模型εββββ++++=p p x x x y 22110存在完全的多重共线性,即对设计矩阵X 的列向量存在不全为零的一组数p c c c c ,,,,210 ,使得:

22110=++++ip p i i x c x c x c c (n i ,,2,1 =),此时设计矩阵X 的秩Rank(X)

在实际问题研究当中,022110≈++++ip p i i x c x c x c c ,虽然Rank(X)=p+1

成立,但是|X X '|≈0,1)(-'X X 的对角线元素很大,β

ˆ的方差阵12)()ˆ(-'=X X D σβ的对角线元素很大,而)ˆ(βD 的对角线元素即为)ˆvar(0β,)ˆvar(1β,…, )ˆvar(p β,因而p βββ,,,10 的估计精度很低,这样,虽然OLSE 能得到β的无偏估计,但估

计量βˆ的方差很大,不能正确判断解释变量对被解释变量的影响程度。

例如在二元回归中,假定y 与1x ,2x 都已经中心化,此时回归常数项为零,

回归方程为2211ˆˆˆx x y ββ+=,由此可以得到 11

2

122

1)1()ˆvar(L r -=σβ,

22

2

122

2

)1()ˆvar(L r -=σβ,其中∑==n i i x L 1

2

111,∑==n

i i i x x L 1

2112,∑==n

i i x L 1

2222则1x ,2x 之

间的相关系数22

111212L L L r =

。随着自变量1x 与2x 的相关性增强,1ˆβ和2

ˆβ的方差将逐渐增大。当1x 与2x 完全相关时,r=1,方差将变为无穷大。

当给定不同的12r 值时,从下表可以看出方差增大的速度。

表6.1

为了方便,假设

111

2

=L σ,相关系数从0.5变为0.9时,回归系数的方差增加了

295%,相关系数从0.5变为0.95时,回归系数的方差增加了670%、当回归自变量1x 与2x 相关程度越高,多重共线性越严重,那么回归系数的估计值方差就越大,回归系数的置信区间就变得很宽,估计的精确性就大幅度降低,使估计值稳定性变得很差,进一步致使在回归方程整体高度显著时,一些回归系数则通不过显著性检验,回归系数的正负号也可能出现倒置,使得无法对回归方程得到合理的经济解释,直接影响到最小二乘法的应用效果,降低回归方程的价值。 如果利用模型去作经济结构分析,要尽可能避免多重共线性;如果是利用模型去作经济预测,只要保证自变量的相关类型在未来时期中保持不变,即未来时期自变量间仍具有当初建模时数据的联系特征,即使回归模型中包含有严重多重共线性的变量也可以得到较好的预测结果;如果不能保证自变量的相关类型在未来时期中保持继续不变,那么多重共线性就会对回归预测产生严重的影响。 二、多重共线性的诊断 1、方差扩大因子法

对自变量作中心标准化,则)(ij r X X ='

**为自变量的相关阵,记

1)()(-**'

==X X c C ij 称其主对角线元素jj j c VIF =为自变量j x 的方差扩大因子。

jj

jj j L C 2)ˆvar(σβ=(p j ,,2,1 =),其中jj L 为j x 的离差平方和。记2J R 为自变量j x 对其余p-1个自变量的复决定系数,则有2

11

j

jj R c -=,该式子同样也可以作为方差扩大因子j VIF 的定义。

由于2

J R 度量了自变量j x 与其余p-1个自变量的线性相关程度,这种相关程度越强,说明自变量之间的多重共线性越严重, 2J R 也就越接近于1,j VIF 也就

越大。由此可见j VIF 的大小反映了自变量之间是否存在多重共线性,因此可以由它来度量多重共线性的严重程度。经验表明,当j VIF ≥10时,就说明自变量j x 与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。

也可以用p 个自变量所对应的方差扩大因子的平均数来度量多重共线性,当

∑==p

j j VIF p VIF 1

1远远大于1时就表示存在严重的多重共线性问题。

对于只含两个解释变量1x 和2x 的回归方程,判断它们是否存在多重共线性,

实际上就是计算1x 和2x 的样本决定系数212R ,如果2

12R 很大,则认为1x 和2x 可能

存在严重的多重共线性。为什么说可能存在多重共线性?因为2R 和样本容量n 有关,当样本容量较小时,2R 容易接近与1,就像当n=2时,两点总能连成一条直线,2R =1。所以我们认为当样本容量还不算小,而2R 接近于1时,可以肯定存在多重共线性。

当某自变量j x 对其余p-1个自变量的复决定系数2j R 超过一定界限时,SPSS 软件将拒绝这个自变量j x 进入回归模型。称21j j R Tol -=为自变量j x 的容忍度。

从上面共线性诊断的分析结果可以看到1x ,2x 的方差扩大因子很大,分别为

1VIF =1963, 1VIF =1741,远远超过10,说明民航客运量回归方程也存在这严重的多重共线性。1x 和2x 的简单相关系数为0.9989,高度相关。

一般情况下,当一个回归方程存在严重的多重共线性时,有若干个自变量所对应的方差扩大因子大于10,这个回归方程多重共线性的存在就是方差扩大因子超过10的这几个变量引起的,说明这几个自变量间有一定的多重共线性关系存在。

2、特征根判定法

当矩阵X X '有一个特征根近似为零时,设计矩阵X 的列向量间必存在多重共线性,并且X X '有多少个特征根接近于零,X 就有多少个多重共线性关系。记X X '的最大特征根为m λ,称i

m

i k λλ=

,(p i ,,2,1,0 =)为特征根i λ的条件数。在一些书籍中,条件数定位为i m i k λλ=,没有开平方根,SPSS 软件是采用开平方根的,使用软件时要注意这一点。

相关文档
最新文档