第5章、违背基本假设的问题:多重共线性、异方差和自相关共36页文档

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第5章、违背基本假设的问题:

多重共线性、异方差和自相关回顾并再次记住最小二乘法(LS)的三个基本假设:

1.y=Xβ+ε

2.Rank(X)=K

3.ε|X~N(0,σ2I)

第 1 页

§1、多重共线性(multicollinearity)

1、含义及后果

1)完全的多重共线性

如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的a i,使得

a1x1+…+a K x K=0

即X的列向量之间存在线性相关。因此,有Rank(X)

例子:

C=β1+β2nonlabor income + β3salary +β4income + ε

第 2 页

2)近似共线性

常见为近似共线性,即

a1x1+…+a K x K≈0

则有|X’X|≈0,那么(X’X)-1对角线元素较大。由于所以b k的方差将较大。

例子:Longley是著名例子。

第 3 页

第 4 页

2、检验方法

1)VIF 法(方差膨胀因子法,variance inflation factor )

第j 个解释变量的VIF 定义为

此处2j R 是第j 个解释变量对其他解释变量进行回归的确定系数。若2j R 接近于1,那么VIF 数值将较大,说明第j 个解释变量与其他解释变量之间存在线性关系。从而,可以用VIF 来度量多重共线性的严重程度。当

2j R 大于0.9,也就是VIF 大于10时,认为自变量之间存在比较严重的多重共线性。

K 个解释变量,就有K 个VIF 。可以计算K 个VIF 的平均值。若大于10,认为存在比较严重的多重共线性。

VIF方法直观,但是Eviews不能直接计算VIF的数值。需要逐个进行回归,较为麻烦。

2)相关系数矩阵

例子:对于longley数据。

在Eviews中,quick/group statistics/correlations,输入te year gnpd gnp arm,得到

TE YEAR GNPD GNP ARM TE 1.000000 0.971329 0.970899 0.983552 0.457307 YEAR 0.971329 1.000000 0.991149 0.995273 0.417245 GNPD 0.970899 0.991149 1.000000 0.991589 0.464744 GNP 0.983552 0.995273 0.991589 1.000000 0.446437 ARM 0.457307 0.417245 0.464744 0.446437 1.000000 相关系数矩阵的第一列给出了被解释变量与每一个解释变量之间的相

第 5 页

关系数;度量了每一个解释变量对被解释变量的个别影响。除ARM之外,解释变量与被解释变量之间的相关系数都很大。

但是,从剩下的相关系数矩阵可以看到,变量之间的相关系数也很大。表明变量之间存在严重的多重共线性。

3)条件数(condition number)

首先计算X’X的最大和最小特征根,然后计算如下条件数

若大于20,则认为存在多重共线性。

第 6 页

3、处理方法

1)剔除法(推荐此方法)

方法:设法找出引起多重共线性的解释变量,并将之剔除在回归方程之外。

准则1:逐个引入解释变量,根据R2的变化决定是否引入新的解释变量。如果R2变化显著,那么应该引入,反之不引入。

准则2:剔除VIF最大的解释变量和不显著的解释变量。请试着计算每个解释变量的VIF值。

第 7 页

2)岭回归(ridge regression estimator)

回忆对于多元线性回归方程y Xβε

=+,系数β的LS估计是岭回归估计就是计算

此处D是一个对角矩阵,定义为

b,一具体操作:一般选取r从0.01开始,逐步增加,每次都计算

r

直到

b稳定不变为止。

r

此方法的优点:在matlab环境下,使用矩阵运算非常容易计算。

缺点:一方面,Eviews不带此功能;另外一方面,缺乏对估计结果

b是什么东西?)。

的解释的直观含义(

r

第 8 页

第 9 页

3)主成分方法(principal components )

首先,计算对称矩阵X’X 的特征根和特征向量, 此处

12[,,...,]K C c c c =是特征向量矩阵

1000000K λλ⎛⎫

Λ= ⎪ ⎪⎝⎭

O

是特征根矩阵, 其中特征根从大到小排列。我们关心最大的前面L 个。

其次,计算Z XC =,即

是新的数据列向量,作为新的解释变量。

最后,将y对Z进行回归,得到

此方法并不难计算,但是问题仍然是很难解释估计结果。

第 10 页

§2、异方差(heteroscedasticity)1、含义及影响

y=Xβ+ε var(εi)≠var(εj), i≠j,E(ε)=0 或者记为

即违背假设3。

用LS估计,所得b是无偏的,但不是有效的。

由于E(ε)=0 ≅∑E(b)=β σ〈≥◊O∍

但是,b的方差为

第 11 页

相关文档
最新文档