多重共线性、联立方程模型
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1994
5.9230
0.9589
11.9850
0.2862
1995
8.7551
1.1334
12.1121
0.2904
1996
12.0875
1.3329
12.2389
0.2937
1997
12.6895
1.4434
12.3626
0.2992
1998
22.6494
1.6628
12.4810
0.3040
1999
Ln y = - 0.49 + 0.56 x4
(- 2.5) (13.8)
R2 = 0.9644, F = 189.7, T = 9
Ln y = - 0.42 + 1.16 x5
(- 2.1) (14.3)
R2 = 0.9633, F = 183.5, T = 9
之所以取半对数模型,是因为y与x1, x3, x4, x5分别呈指数关系。
X1
1.0000 0.9895 0.9700 0.9628 0.9703
X2
1.0000 0.9882 0.9872 0.9888
X3
1.0000 0.9986
X5 1.0000
用逐步回归法筛选解释变量。(1)用每个解释变量分别对被解释变量做简单回归,以可 决系数为标准确定解释变量的重要程度,为解释变量排序。
Ln ( Yt Ct
)
=
Ln
Kt
+
Ln
(
Lt Ct
) + ut
(7.26)
变成了Ln (Yt /Ct) 对Ln (Lt /Ct) 的一元线性回归模型,自然消除了多重共线性。估计出后,
再利用关系式 + = 1,估计。
5.3 增加样本容量或重新抽取样本
这种方法主要适用于那些由测量误差而引起的多重共线性。当重新抽取样本时,克服了
(0.7) (1.6) (-0.8) (1.0) (1.5) (-1.2)
R2 = 0.99, F = 106.3, DW = 3.4, T = 9, (1991-1999), t0.05(3) = 3.18, R2 = 0.99,而每个回归参数的t检验在统计上都不显著,这说明模型中存在严重的多重共 线性。
序列样本估计回归系数。下面通过一个例子具体介绍合并数据法。
设有某种商品的销售量模型如下,
Ln Yt = 0+ 1 Ln Pt + 2 Ln It + ut
(7.29)
2
其中Yt 表示销售量,Pt表示平均价格,It表示消费者收入,下标t表示时间。 在时间序列数据中,价格Pt与收入It一般高度相关,所以当用普通最小二乘法估计模型
31.3238
1.9844
12.5909
0.3089
资料来源:《中国统计年鉴》2000
人均 GDP x4
1.879 2.287 2.939 3.923 4.854 5.576 6.053 6.307 6.534
人均消费水平 x5
0.896 1.070 1.331 1.746 2.236 2.641 2.834 2.972 3.143
(7.23)
模型(7.23)是一元线性回归模型,所以不再有多重共线性问题。用普通最小二乘法估
计模型(7.23),得到 ˆ1 ,然后再利用(7.21)式求出 ˆ2 。 下面以道格拉斯(Douglass)生产函数为例,做进一步说明。
Yt
=
K
Lt
C
t
eut
(7.24)
其中Yt表示产出量,Lt表示劳动力投入量,Ct表示资本投入量。两侧取自然对数后,
数1与2的某种关系,例如
2 = 1
(7.21)
其中 为常数。把上式代入模型(7.20),得
yt = 0+ 1 xt1 + 1 xt2 + ut = 0 + 1 (xt1 + xt2) + ut 令
(7.22)
xt = xt1 + xt2 得
yt = 0+ 1 xt + ut
LnYt = LnKt + LnLt + LnCt + ut
(7.25)
因为劳动力(Lt)与资本(Ct)常常是高度相关的,所以LnLt与LnCt也高度相关,致使
无法求出,的精确估计值。假如已知所研究的对象属于规模报酬不变型,即得到一个条
件
+=1 利用这一关系把模型(7.25)变为
LnYt = LnKt + LnLt + (1- ) LnCt + ut 整理后,
计式,
LnYt = ˆ0 + ˆ1 Ln Pt + ˆ2 Ln It
其中 ˆ2 是用截面数据估计的, ˆ0 , ˆ1 是由时间序列数据估计的。 由于把估计过程分作两步,从而避免了多重共线性问题。显然这种估计方法默认了一种
假设,即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求
2.多重共线性的经济解释 (1)经济变量在时间上有共同变化的趋势。如在经济上升时期,收入、消费、就业率等 都增长,当经济收缩期,收入、消费、就业率等又都下降。当这些变量同时进入模型后就会 带来多重共线性问题。 (2)解释变量与其滞后变量同作解释变量。 3.多重共线性的后果 (1)当 rxi xj = 1,X为降秩矩阵,则 (X 'X) -1不存在, ˆ = (X 'X)-1 X 'Y 不可计算。 (2)若 rxi xj 1,即使 rxi xj 1, ˆ 仍具有无偏性。
4.多重共线性的检验 (1)初步观察。当模型的拟合优度(R 2)很高,F值很高,而每个回归参数估计值的方 差Var(j) 又非常大(即t值很低)时,说明解释变量间可能存在多重共线性。 (2)Klein判别法。计算多重可决系数R2及解释变量间的简单相关系数rxi xj。若有某个 rxi xj > R2,则xi,xj间的多重共线性是有害的。 (3)此外还有其他一些检验方法,如主成分分析法等,很复杂。
3
表1
变量 y,x1,x2,x3,x4,x5的数据
年 电信业务总量 邮政业务总量 中国人口数 市镇人口比重
1991
y 1.5163
x1 0.5275
x2 11.5823
x3 0.2637
1992
2.2657
0.6367
11.7171
0.2763
1993
3.8245
0.8026
11.8517
0.2814
案例 1:关于中国电信业务总量的计量经济模型(file:coline2) 经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、 市镇人口占总人口的比重、人均 GDP、全国居民人均消费水平。用 1991-1999 年数据建立 中国电信业务总量计量经济模型如下,
Ln y = 24.94 + 2.16 x1 – 3.03 x2 + 33.7 x3 + 1.29 x4 - 2.03 x5
下面用Klein判别法进行分析。首先给出解释变量间的简单相关系数矩阵。因为其中有 一个简单相关系数大于R 2 = 0.9944,所以根据Klein判别法,模型中存在严重的多重共线性。
Ln(y) x1 x2 x3 x4 x5
Ln(y) 1.0000 0.9833 0.9938 0.9875 0.9820 0.9815
5.多重共线性的克服方法 5.1 直接合并解释变量 当模型中存在多重共线性时,在不失去实际意义的前提下,可以把有关的解释变量直接 合并,从而降低或消除多重共线性。
1
如果研究的目的是预测全国货运量,那么可以把重工业总产值和轻工业总产值合并为工
业总产值,从而使模型中的解释变量个数减少到两个以消除多重共线性。甚至还可以与农业
移项整理
LnYt - ˆ2 Ln It = 0+ 1 LnPt + ut 变换后的因变量(LnYt - ˆ2 Ln It)用Zt表示,则
Zt = 0+ 1 LnPt + ut
(7.30)
这时已排除收入变量的影响。模型已变换为一元线性回归模型。利用时间序列数据对模型
(7.30)作普通最小二乘(OLS)估计,求出 ˆ0 , ˆ1 。这样便求到相对于模型(7.29)的估
测量误差,自然也消除了多重共线性。另外,增加样本容量也可以减弱多重共线性的程度。
5.4 合并截面数据与时间序列数据
这种方法属于约束最小二乘法(RLS)。其基本思想是,先由截面数据求出一个或多个
回归系数的估计值,再把它们代入原模型中,通过用因变量与上述估计值所对应的解释变量
相减从而得到新的因变量,然后建立新因变量对那些保留解释变量的回归模型,并利用时间
E( ˆ ) = E[(X 'X)-1 X 'Y ] = E[(X 'X) -1X '(X + u)] = + (X 'X)-1X ' E(u) = .
(3)当 rxi xj 1 时,X 'X接近降秩矩阵,即 X 'X 0,Var( ˆ ) = 2 (X 'X)-1变得很大。 所以 ˆ 丧失有效性。以二解释变量线性模型为例,当rxi xj = 0.8 时,Var( ˆ )为rxi xj = 0 时的 2.78 倍。当rxi xj = 0.95 时,Var( ˆ )为rxi xj = 0 时的 10.26 倍。
到的 ˆ2 相同。当这种假设不成立时,这种估计方法会带来估计误差。
5.5 逐步回归法 (1)用被解释变量对每一个所考虑的解释变量做简单回归。并给解释变量的重要性按可 决系数大小排序。 (2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按解释变量重要性 大小为顺序逐个引入其余的解释变量。这个过程会出现 3 种情形。①若新变量的引入改进了 R2,且回归参数的t检验在统计上也是显著的,则该变量在模型中予以保留。②若新变量的 引入未能改进R2,且对其他回归参数估计值的t检验也未带来什么影响,则认为该变量是多 余的,应该舍弃。③若新变量的引入未能改进R2,且显著地影响了其他回归参数估计值的符 号与数值,同时本身的回归参数也通不过t检验,这说明出现了严重的多重共线性。舍弃该 变量。
(7.29)的回归系数时,会遇到多重共线性问题。 首先利用截面数据估计收入弹性系数2。因为在截面数据中,平均价格是一个常量,所
以不存在对1的估计问题。 把用截面数据得到的收入弹性系数估计值 ˆ2 代入原模型(7.29)。得
LnYt = 0+ 1 Ln Pt + ˆ2 Ln It + ut
多重共线性
“多重共线性”一词由 R. Frisch 1934 年提出,它原指模型的解释变量间存在线性关系。 1.非多重共线性假定
rk (X 'X ) = rk (X ) = k 解释变量不是完全线性相关的或接近完全线性相关的。
rxi xj 1, rxi xj 不近似等于 1。 就模型中解释变量的关系而言,有三种可能。 (1)rxi xj = 0,解释变量间毫无线性关系,变量间相互正交。这时已不需要多重回归,每 个参数j都可以通过y对xj的一元回归来估计。 (2) rxi xj = 1,解释变量间完全共线性。此时模型参数将无法确定。直观地看,当两变 量按同一方式变化时,要区别每个解释变量对被解释变量的影响程度就非常困难。 (3)0 < rxi xj < 1,解释变量间存在一定程度的线性关系。实际中常遇到的是这种情形。 随着共线性程度的加强,对参数估计值的准确性、稳定性带来影响。因此我们关心的不是有 无多重共线性,而是多重共线性的程度。
40 Y
4 LOG(Y)
30
3
20
2
10
0
0.5
1.0
40 Y
30
1
X1 0
1.5
2.0
0.5
1.0
4 LOG(Y)
3
X1
1.5
2.0
20
2
10
总产值合并,变为工农业总产值。解释变量变成了一个,自然消除了多重共线性。
5.2 利用已知信息合并解释变量 通过经济理论及对实际问题的深刻理解,对发生多重共线性的解释变量引入附加条件从
而减弱或消除多重共线性。比如有二元回归模型
yt = 0+ 1 xt1 + 2 xt2 + ut
(7.20)
x1与x2间存在多重共线性。如果依据经济理论或对实际问题的深入调查研究,能给出回归系
Ln y = - 0.34 + 206 x1
(- 2.1) (14.3)
R2 = 0.9668, F = 204, T = 9
4
Ln y = - 33.26 - 291 x2
(- 22.2) (23.6)
R2 = 0.9875, F = 555, T = 9
Ln y = - 18.46 + 7075 x3 (- 14.9) (16.6) R2 = 0.9752, F = 275.5, T = 9