第五章 多重共线性(计量经济学,南开大学)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Yi 1 2 X 2 3 X 3 ui
如果采用OLS估计,则有:
ˆ Y ˆ X ˆ X 1 2 2 3 3 min
2 ˆ ˆ X ˆ X )2 ˆ u ( Y i i 1 2 2 3 3
ˆ x ˆ x )2 ( yi 2 2 3 3
2 2 ( x 2 )( x ) ( x x ) 2 i 3 i 2i 3i
如果X2与X3存在完全共线性,即
x2 则: x3
ˆ 2
2 ( yi x2i )( x 3 ) ( yi x3i )( x2i x3i ) i 2 2 ( x 2 )( x ) ( x x ) 3 i 2 i 3i 2i
例如,为了估计汽车需求的价格弹性和收入弹性,得到销售量、平均价格、消 费者收入的时间序列数据。设定回归式:
ln(Yt ) 1 2 ln P t 3 ln I t ut
由于在时间序列数据中价格Pt、收入It 一般都具有高度共线的趋势。因此,直接 估计上面的回归式将存在问题。由于在同一式点上,价格与收入的相关程度不高, 可以先利用截面数据估计出收入弹性 ,再利用这一估计结果修改原回归式,变 ˆ 为: 3
3、变换模型的形式 如果作为解释变量的某些经济变量间出现高度相关,而进行回归分析的目的是 为了预测,不是研究单个经济变量对因变量的影响时,可以根据实际问题,改变模 型模型的形式。 4、增加样本容量 如果多重共线性是由样本引起,增加样本容量可以减少多重共线性的程度。以 二元回归方程为例,根据第二节的结果,参数估计值的方差为:
ˆ ) Var ( 2
当样本容量增大时,
x x
2 2i
x
2 3i
( x 2i x3i)
2
2 2i

2 2 x ( 1 r ) 3i 23

x 增大,方差将减小,可以提高参数估计的精度。
2 2i
5、横截面数据与时间序列数据并用 如果时间序列数据中,解释变量间存在高度相关,可以先使用横截面数据估计 出存在高度相关解释变量中的一个或多个,然后再在时间序列数据中剔除这些变量, 在消除多重共线性影响下估计因变量与剩余变量间的回归式。
3 k vi 2 X 1i X 2i X 3i X ki 1 1 1 1
其中vi 为随机项。我们把这种解释变量间存在的完全或不完全的线性关系称为多重 共线性。由于经济变量自身的性质,它们之间这种多重共线性或强或弱,普遍存在 的。
第三节 多重共线性的影响
一、完全多重共线性 以两个解释变量的回归模型为例,假定回归模型为:

( x2 i x3i)
2
2 2i


x

2 3i
{1 r23 )
ˆ ) Var ( 2
x

2 3i 2 (1 r23 )
显然,当解释变量X2、X3 之间的相关系数 r23 的绝对值越大,共线性程度就越高, 参数估计值的方差就越大,越不准确,且随着相关系数的增大,方差以更大的幅度 增加。 三、多重共线性的影响 (1)参数估计值的方差增大,估计量的精度大大降低。影响预测结果(准确度和 置信区间)。 (2)参数估计值的标准差增大,使的 t 检验值变小,增大了接受H0,舍弃对因变量 有显著影响的变量。 (3)尽管t 检验不显著,但是R2仍可能非常高。 (4)OLS估计量对观测值的轻微变化相当敏感。
R 2 /(k 1) F ~ F (k 1, n k ) 2 (1 R ) /(n k )
可以采用类似的方法检验:
F
R2 ) j /( k 1 (1 R j ) /(n k 1)
2
~ F (k 1, n k )
选择显著水平α ,计算F 统计量的值,与F分布表中的临界值进行比较,若F检验值 小于临界值,则多重共线性不显著,反之,则多重共线性显著。
2 3 2
例如:C-D生产函数 Y 生产汉数的双对数模型可变为:
K与 , AL K L高度相关。已知规模收益不变,则α+β=1。
ln Y ln(A) ln L (1 ) ln K u Y L 整理,可得: ln ln(A) ln u K K
可以对这一新回归方程进行估计。
2、利用先验信息
假定对回归模型:
Yi 1 2 X 2i 3 X 3i ui
已Fra Baidu bibliotekX2 和X3 之间高度共线。根据先验信息,确定β3=2β2,带入模型后可得:
Yi 1 2 X 2i 2 2 X 3i ui 1 2 ( X 2 i 2 X 3i ) ui 设变量Z i ( X 2i 2 X 3i ), 估计方程 Yi 1 2 Z i ui ˆ 和 ˆ 2 ˆ。 可得到
二、不完全多重共线性 假定X2,X3 间存在不完全多重共线性, 以离差形式表示为: 其中vi 为随机项。则
x2。 x3 vi
ˆ 2
2 [ yi ( x3i vi )]( x 3 ) ( yi x3i )[ ( x3i vi ) x3i ] i 2 2 [ ( x3i vi ) 2 ]( x 3 ) [ ( x v ) x ] 3i i 3i i
第五章 多重共线性
第一节 违背古典假定的估计问题
我们关于经典线性回归模型(CLRM)有如下假定: 假定1:回归模型对参数是线性的 假定2:在重复抽样中X的值是固定的(非随机) 假定3:干扰项的均值为零。即,E(ui|Xi)=0 假定4:同方差性或ui的方差相等。即 Var(ui|Xi)=E[ui-E(ui)|Xi]2 = E(ui2|Xi]2 = 2 假定5:各个干扰项无自相关。即 Cov(ui,uj|Xi,Xj)=E[ui-E(ui|Xi) ][uj-E(uj|Xj)] = E(ui|Xi)(uj|Xj) = 0 假定6:ui和Xi的协方差为零。即 Cov(ui,Xi) = E[ui – E(ui)][ Xi – E(Xi)] = E[ui (Xi – E(Xi))] =E(ui Xi) – E(ui)E(Xi) = E(ui Xi) = 0 假定7:观测次数必须大于待估计的参数个数。 假定8:解释变量X的只要有变异性。即一个样本中,Xi不能完全相同。 假定9:模型没有设定误差。 假定10:没有完全的多重共线性,即解释变量之间没有完全的线性关系。 在现实中,以上假定不一定得到满足。本章讨论某些假定不成立时的估计问题。
2 X 2i 3 X 3i k X ki 1 1 1
这种关系为完全多重共线性,变量间的相关系数为1。实际上更多的情况是, 解释变量间有不完全的线性关系:存在不全为零的数:
1 , 2 ,k,使
假定λ1<>0,
1 X1i 2 X 2i k X ki vi 0
如果通过前的F检验得到某解释变量Xj 与其它解释变量存在多重共线性,则可以 通过t 检验寻找Xj 与哪些变量引起多重共线性。 首先计算Xj 与其它每个解释变量的偏相关系数:
rji.2( j 1)( j 1)( i 1)( i 1)k , i j , i 2,3,k 定义统计量: rji.2( j 1)( j 1)( i 1)( i 1)k t 2 (1 r ji ) /(n k 1) .2( j 1 )( j 1)( i 1 )( i 1 )k
Yt* 1 2 ln Pt ut
ˆ ln I , 其中Yt* ln Yt 3 t
新的回归式中消除了多重共线性的影响。 6、利用时间序列数据的差分或离差进行估计 如果时间序列数据中,解释变量间存在高度相关,那么这些变量的差分之间不 一定相关。因此利用差分进行回归能降低多重共线性的程度。
根据最小平方和原则,并求解正规方程组,可得到:
ˆ 2
2 ( yi x2i )( x 3 ) ( yi x3i )( x2 i x3i ) i 2 2 ( x 2 )( x ) ( x x ) 3i 2 i 3i 2i
ˆ 3
( yi x2 i )( x 2 ) ( yi x2 i )( x2 i x3i ) 2i
2 2 式中分母可化简为 ( x 3 )( v i ) 0。 i ˆ 是可估计的的。同样 ˆ 也是可估计的。而方 此时, 2 3
ˆ ) Var ( 2
x x
2 2i
x
2 3i
2 2 2 x ( x x ) / x 3 i 2 i 3i 2 i 2 2 2 2 x [ 1 ( x x ) /( x x 3i 2 i 3i 2i 2i )]

2 2 ( yi x3i )( x 3 ) ( y x )( x i 3i 3 i ) i 2 2 2 2 (2 x 3 )( x ) ( x 3i 3i ) i
ˆ 是不确定的。同样 ˆ 也是不确定的。而方差 此时, 2 3 ˆ ) Var ( 2
第二节 多重共线性(multi-collinearity)
如果假定10不成立,即在解释变量X1,X2,…,Xk中,存在线性关系。 解释变量间的确定线系关系存在时,存在不全为零的常数
1 , 2 ,k,使
1 X1i 2 X 2i k X ki 0
设1 0, 则 X 1i
第三节 多重共线性的探查和解决
一、多重共线性的探查 由于多重共线性使一种普遍现象,而多重共线性的程度影响了参数估计结果, 因此我们关心的是共线性的程度,而不是共线性是否存在。
在双边量回归模型中,可以直接对解释变量的相关系数进行显著性检验,以确 定线性相关的程度(此时相关系数的平方等于样本决定系数)。而对于多于两个结 束变量的回归模型,则不能利用俩俩相关系数来检验。 对于有多个变量的回归模型,可以采用辅助回归的方法,分别以k-1个解释变量 中的第i个对其他变量进行回归,可得到k-2个回归方程的判定系数: R22,R32,…,Rk2。假定这些判定系数中Rj2最大且接近1,则变量Xj 与其他解释变量 中的一个或多个有较高相关程度,因此回归方程出现高度多重共线性。 可以进行F 检验确定其显著性: 根据第三章的结果,检验R2显著性的F检验值为:
服从t (n-k+1)。给定显著水平α,若统计量大于临界值tα/2,则说明Xj 与Xi引起回归方 程的多重共线性。 二、解决多重共线性的方法 如果发现监视变量之间存在高度得多重共线性,就必须消除这种多重共线性的 影响,保证模型的正确性和估计的有效性。有以下几种解决方法。 1、除去不重要的变量 把回归模型中引起多重共线性,而对因变量的影响不大的变量。但是变量的剔 除可能导致模型的设定偏误。
0 0
2 2 x 3 i ˆ ) 在 x2 x3时,Var ( 2 2 2 2 2 2 2 ( x3i) ( x )
3i
x x
2 2i
2 x 2i 2 3i
( x2i x3i)
2

因此,存在完全共线性时,不能利用OLS估计参数,参数的方差变为无限大。
相关文档
最新文档