计量经济学讲义第六讲(共十讲)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计量经济学讲义第六讲(共⼗讲)
第六讲多重共线
⼀、 FWL 定理及其应⽤
考虑模型:
112233i i i i i y a b x b x b x ε=++++ (1)
假如我们只关注
1
b
,则通过如下步骤可以获得之。

第1步:把
1x 对其他解释变量进⾏回归(请注意,截距所对应的解释变量为1)
,即有: 101223i i i i
x x x v βββ=+++ (2)
第2步:把
y 也对(2)中的解释变量进⾏回归,即有:
01223i i i i y x x w ???=+++ (3)
第3步:把
w 对?v 进⾏回归(不含截距,当然你可以包含截距,但你会发现,截距
的估计结果是零,这是因为?w 与?v 其均值都为零)
,即有模型:
i i i v
e w η=+ (4)则有:2i i i
w v v η=∑∑,可以验证,1??b η=,且残差?i e 等于初始的残差?i ε。

此即著名的FWL 定理(Frisch-Waugh-Lovell theorem )。

关于FWL 定理的⼀个简单证明见附录1。

思考题:
利⽤关于“偏导数”的直觉,你能够理解
1
b η=吗?考察2i i i
w v v η=∑∑,把01223i i i i y x x w ?
=---代⼊,现在分⼦是:
2012230123()?i i i i i i i i
i i i v x i i y x x y v x v v v w
v ------∑∑∑==∑∑∑
应该注意到,在进⾏第⼀步回归时,OLS 法保证了
203i i i i i v x x v
v ===∑∑∑ 因此,22i i i i i i
w v y v v v η==
∑∑∑∑ 显然,如果把
y 对?v 直接进⾏⽆截距回归:
*?i
i
i
y v η?
=+ (5)
我们也可以得到:
*122i i i i i i y v w v b v v
η
η====∑∑∑∑。

因此,如果只关注如何获得1
b ,我们可以把FWL 定理中第⼆步与第三步合并为把y 对
v 直接进⾏⽆截距回归。

思考题:
i
与?i e 相等吗?提⽰:
i i i e v i i i
w y v η
η--== 注意到,
2?i
v ∑是(2)中的残差平⽅和,对(2),有: 22211
11
()()??i
i
i
x x x x v TSS ESS RSS
-=-+↓↓↓∑∑∑
22211
11
2211
11211
2211
(2)
()()??()?[()](1)()[()](1)
i i
i
i
i
i
i
v x x x x x x x x x x x x R =----=--
-=--∑∑∑
∑∑∑

其中
2
(2)
R 是根据(2)计算的决定系数。

因此,1
2211
(2)
[()](1)i i i y v
b x x R η==--
∑∑。

练习:对
1122i i i i y a b x b x ε=+++进⾏OLS 估计,利⽤前述知识证明:
12
21
1?x x b =
在这⾥,
12
x x r
、2
yx r 分别是x2与x1、y 的样本相关系数。

笔记:
在上述练习题中,当12
0x x r =时,则11
1
(,)
()
Cov y x b Var x =。

现在考虑另外⼀个
回归模型:
011i i i
y x e ββ=++,在OLS 法下,有:11
1?(,)()
Cov y x Var x β=。

总结:尽管1122i i i i
y a b x b x ε=+++与1
01i i i y x e ββ=++是不同的
模型,但当x 2与x 1样本不相关时,在OLS 法下,1
1
b
β=。

1
b 的⽅差是多少呢? 1
2?112233*********
()()()?()?b
i i i i i i i i i i i i i i i i i i i y v a b x b x b x v Var Var v v
av b x v b x v b x v v Var v
δεε=++++=++++=∑∑∑∑∑∑∑∑∑∑
OLS 法保证了
320i i i x i i x v v
v ===∑∑∑,因此 1
2
112()b
i i i i i b x v v Var v
δε=+∑∑∑
由于我们假定1i x 是⾮随机的,进⽽?i v 也是⾮随机的,因此在i ε是同⽅差且序列⽆关的假定下,有:
2
2211(2)
2
1
2?[()](1)2?i b
x x R i
v δδδ=
--=∑∑
其中
22i
εδδ=。

在上式中,
2
(2)
11R -通常被称为⽅差膨胀因⼦(VIF ),⽽
2
(2)
1R -被称为容忍
度(Tolerence )。

另外,由于
2111()i N
x x -∑为1
x 的样本⽅差1
()V ar x ,因此,
1
22(2)
1
/2?)((1)N b V a r x R δδ-=
(6)就上述例⼦,根据(6)式,初步的总结是,1
b 的⽅差(或者标准差1
()sd b ):(1)随着样本容量的增加⽽减少;(2)随着1
x
样本⽅差的增加⽽减少;
(3)随着
2
(2)
R 增加⽽增加;(4)随着误差项⽅差的增加⽽增加;
样本容量越⼤则信息越多,1
x 样本⽅差越⼤意味着样本覆盖⾯⼴,故信息越
多。

信息越多将提⾼估计精度。

2(2)
R 越⼤表⽰解释变量所蕴含信息的重叠度⾼,
因此有效信息较少,故降低估计精度。

误差项⽅差⼤意味着估计时所⾯临的不确定性程度⾼,因此估计精度下降。

2δ⼀般是未知的,需要估计。

1
b 的标准误为:
1
)(b
se =其中22244
i
i e N N δ
ε==--∑∑。

因此,
1
)(b se =
考虑初始模型(1),显然有:
2222[)](1)()(1)?(i i
y R NVar y R y ε=--=-∑∑
因此,有:
1
)(b
se = (7)
特别要注意,
1
)(b
se 是随机的(在(7)式中,2R 是随机的,其随机性来源于y 的随机性)。

既然
1
se 是随机的,那么我们再也不能像对(6)式那样总结了!然⽽在⼤样
本下,由于标准误在概率上收敛于标准差,故此时有关标准差的⼀些结论可以应⽤于标准误。

根据特定的样本,我们可以计算出⼀个具体的标准误的值,公式仍然是(7)式,但此
时它是⾮随机的。

考虑此种情况。

如果在模型(1)上再增添⼀个解释变量4
x ,显然2
(2)
R ⼀般是增加的,因此将增加1?b 的标准差,但⼀定会增加1
b 的标准误吗?⼆、
完全共线与多重共线
针对上述例⼦,如果
2(2)
1R =,即1x 被2
3
1,,x x 完全拟合,换句话说,存在:
112324310x x x λλλλ+?++=
其中1λ不为零。

那么根据公式:
1
2211(2)
[()](1)i i i y v
b x x R =--∑∑
22211(2)
1
2?[()](1)i b x x R δδ=
--∑ 有:
1
21?
0?;0b b
δ==∞。

思考题:
为什么
0?i i y v
=∑?
现在我们把情况推⼴:
112324310x x x λλλλ?+++=
其中,1,2,3,4j
=不全为零,此时,我们称四变量完全共线。

根据前⾯的分析,我
们知道,⾄少有⼀个系数的估计量是⽆法确定的,其⽅差⽆穷⼤。

把初始模型写成矩阵模式:Y XB ε=+,其中
112131
1231231(1)1N
N
N x x x X x x x x x x ?? ? ? ?

≡。

在OLS 法下,
1?()B
X X X Y -=''。

为了保证估计量的存在,我们必须假定1
()X X -'存
在。





X








112324310x x x λλλλ+?++=,其中,1,2,3,4
j j λ=不全为零,那么1()X X -'是不存在的。

把情况进⼀步推⼴:
112324310
i x x x λλλλµ+?+++=,其中
,1,2,3,j j λ=不全为零,i µ为随机误差,那么我们称四变量多重共线。

多重共线并没有违背⾼斯-马尔科夫假定,因此,⾼斯-马尔科夫定理仍然成⽴!
三、多重共线的后果
基于特定的样本,我们根据公式:
1
)(b
se =计算出⼀个具体的标准误的值。

显然,如果2
(2)
R
较⼤,即多重共线性越强,那么我们得到的标准误的值可能很⼤。

如果情况确实如此,那么这⼜有什么后果呢?
(1)
回忆1
1
1
()()b b t se b
-=,b 1
是假设的真实系数。

如果
1
()se b
很⼤,那么上式的分母很⼤,从⽽t 趋于零,因此,也许你⽆论假设b 1
为多少,
你都会不拒绝原假设!因此,t 检验的可靠性降低,犯第⼆类错误(取误)的概率较⼤。

(2)
构建⼀个1a -置信⽔平的置信区间:1
1
/2
()a se b b t ±,
显然,
1
()se b
很⼤将导致置信区间更宽,因此,我们不能很好地猜测b 1
的取值。

四、如何判断多重共线的严重程度?(⼀)基于严重多重共线性情况下模型的⼀些典型症状来判断多重共线性的严重程度。

这些典型症状是:
1、模型整体拟合较好但很多解释变量不显著。

考虑在初始模型增添⼀个解释变量,显然其判定系数⼀般是增加的(相应的是,新模型F 值可能较⼤),然⽽,增加解释变量很可能导致严重的多重共线性,从⽽很多解释变量不显著。

2、系数估计的符号不符合理论预期,但往往不显著。

思考题:为什么?
3、增加样本容量导致估计结果发⽣了很⼤的变化。

删除⼀些变量也导致估计结果发⽣了很⼤的变化。

思考题:为什么?
(⼆)考察解释变量两两相关系数。

如果存在取值较⼤的相关系数,那么这意味着多重共线性程度严重,然⽽也应该注意到,即使两两相关系数都很⼩,多重共性性仍可能是严重的。

思考题:
为什么即使两两相关系数都很⼩,多重共线性仍可能是严重的?(三)考察VIF 或者
2i R 。

如果VIF ⼤于10,⼀般认为存在较严重的多重共线性(当然也可考察容忍度)。

按照VIF 的定义,显然,当VIF ⼤于10时,必有⼀个解释变量对其他解释变量回归所得到的2
i R 超过90%,⽽这是⼀个很⾼的判定系数。

事实上,按照Klien ’s rule of thumb ,当2i R ⼤于初
始模型的
2R 时,多重共线问题就值得关注了。

(四)特征根检验。

当完全共线时,
1()X X -'不存在,0X X
=',当存在严重的多重共线时,
0X X
≈'。

假设
X X
'的特征根是
1
2
1
,,...,
k λλλ+,根据矩阵代数知识:
11
k i i X X
λ+==
'∏,因此,如果X X
'的特征根中⾄少有⼀个近似为0,则
0X X
因此可以根据X X
'的特征根来判断多重共线的严重程度。

笔记:
在实践中,通常基于标准化变量回归模型(每⼀个解释变量的每⼀次观察值都减去样本均值,然后再除以样本标准差,此即变量的标准化处理。

标准化变量回归模型再也不含截距。

)利⽤特征根⽅法。

记标准化变量回归模型的解释变量矩阵为*
X ,则
*
*
11
N X X '-即为解释变量的相关系数矩阵(你能够验证吗?)。

接下来我们可以根据这个相关系数矩阵的特征根(特征根个数为k )来判断原模型的多重共线性的严重性。

定义病态数CN (Condition Number )=最⼤特征根/最⼩特征根、病态指数CI (Condition Index
)=,当CI ⼤于30或者CN
⼤于1000时,⼀般认为多重共线程度严重。

五、
多重共线⼀定会产⽣令我们忧虑的后果吗?
考虑模型
112233i i i i i y a b x b x b x ε=++++,现在,2
x

3
x
的相关性
很⼤,因此,在OLS 法下,
2?b 与3
b 的⽅差或许很⼤。

但2
x 与
3
x
的相关性很⼤并不⼀
定意味着
2
x

x
及其常变量1能够很好地拟合1x ,因此,1
b
的⽅差并不⼀定⼤。

总体来看,尽管由于
2
x

3
x
的相关性很⼤导致模型出现严重的多重共线性,然⽽我们关注
的是对b 1的估计,⽽1
b 的⽅差并不⼀定⼤,故就我们的关注点来说,多重性共线或许并未产⽣严重的后果。

另外从公式1
)(b
se =影响
1
)(b
se 的因素很多,因此,即使2(2)
R
很⼤也并不⼀定使得1
)(b
se 就很⼤。

当利⽤估计模型以作预测之⽤时,我们经常对整个模型的拟合度较为关注,⽽并不关注个别系数是否显著。

此时,多重共线也并不值得我们忧虑。

六、
多重共线的处理⽅法
多重共线如果产⽣了令我们忧虑的后果,我们该怎么办?(⼀)⽆为⽽治
⼀般认为,多重共线是⼀个样本问题,你⼿中样本恰好有这样的表现!如果多重共线导致了估计精度问题,那说明你掌握的数据所包含的信息含量很低,因此,“遇到多重共线我该怎么办?”这个问题⽆异于“如果我没有很多的观测值该怎么
办?”(Goldberger,1991)。

如果你不能增加样本容量,那么采取⼀些治疗多重共线的⽅法(如逐步回归等),反⽽可能带来灾难性的后果(Leamer,1961)(例如,如果采⽤逐步回归,也许这将导致遗漏⼀些重要的变量,结果使得OLS 估计量不满⾜⼀致性)。

因此,当⽆法增加样本容量的情况下,⽆为⽽治可能是最恰当的⽅式!
(⼆)重新建模例⼀:
初始模型是⼀个包含⼈⼝变量的多元回归模型,如果初始模型表现出的多重共线性令你
不安,那么你可以重新建⽴⼀个涉及到⼈均变量的模型,在该模型中,⼈⼝变量并不作为⼀个单独的解释变量⽽出现。


时间序列变量通常具有相似的时间趋势从⽽共线性程度可能较⾼,你或许可以对这些变量取差分,利⽤差分变量进⾏建模。

例三:
对⼀些变量取对数有时也是⼀种好办法。

例四:
有时在重新建模时会使⽤相关变量的线性组合作为解释变量,⽽不是把每个变量单独作为解释变量。

问题是如何确定线性组合的权重。

主成分分析法是解决这个问题的好办法,见附录3。

(三)使⽤先验信息考虑模型
112233i i i i i y a b x b x b x ε=++++,假如3x 与其他解释变量相
关性很⾼,从⽽模型多重共线性严重。

如果某个理论或者先前的研究表明,3
b β
≈,β
是⼀已知常数。

那么我们可以试着重新估计⼀模型:
31122i i i i i y x a b x b x v β-=+++)(
显然,先验信息的可靠性是⼗分重要的。

(四)其他⽅法,参见相关教科书,要注意相关⽅法的缺陷(例如逐步回归法的缺陷)。

附录1:FWL 定理的⼀个简单证明及其推⼴
由下述三式:
112233i i i i i
y a b x b x b x ε=++++ 01223i i i i y x x w ???=+++
101223i i i i
x x x v βββ=+++ 有:
012230122312233i i i i i i i i i
x x v x x w a b b x b x βββε++++++=
++++()
即:
0122310112
1231i i i
i i
x x v w a b b b b b b βββε=+-+-++-+++)))(((
把上式理解为⼀个拟合结果,则因为:(1)
23x x 、分别与??w
v 、样本不相关,故 12112123
0b b b b ββ??==-+-+))(((2)
w 与?v 其均值都为零,故
10a b β?+-)(=0 于是:
i i v w b ε=+ 推⼴:对
5451122334i i i i i i
i y a b x b x b x b x b x ε=++++++ 必有:
112233i i i i i
w b v b v b v ε=+++ 其中123w v v v 、、、分别是1
2
3
y x x x
、、、各⾃对
54x x 、进⾏带截距回归所
得到的残差。

附录2:简单相关、偏相关与复相关;有何种联系?
x 1与x 2具有简单相关系数r 12,然⽽这种相关性可能是由于x 1与x 2分别与x 3相关造成的。

在控制了x 3(保持x 3不变)之后,x 1与x 2的相关性被称为偏相关。

另外,x 1与(x 2,x 3)的相关关系被称为复相关。

样本复相关系数的平⽅就是回归模型11223i i i i x a b x b x ε=+++的判定系数R 2。

这些基于样本的相关系数具有何种联系呢?
⼀、样本偏相关系数r sample 12.3的计算步骤:
第1步:把
1x 对3x 进⾏回归有:
1023i i i
x x v ββ=++ (1)记x 1的拟合值为1
x。

第2步:把2
x 也对3
x 进⾏回归,即有:
2023i i i x x w ??=++ (2)
记x 2的拟合值为2
x 。

第3步:计算
v 与?w
的简单相关系数。

则有:
12.3
()()w v sam ple
sam ple
v r
r --=
=
=
可以证明,
12.3
sam ple
sam ple
sam ple
sam ple
r r r r
-=
,见第三讲附录3。

⼆、R 2与简单相关系数与偏相关系数的联系把v 对?w
进⾏回归,有: ??i i i w
e v η=+ ⽽对于回归模型11223i i i i
x
a b x b x ε=+++,其判定系数是: 2
1112
2
12.3112
1
1
12.3
1
1
12
()()()
()
,??()()()
()
(
)()[(
)()]
()
(111((
111((??))
))
)
FW L sam ple sam ple V ar V ar V ar V ar e V ar x V ar x V ar x C ov V ar V ar V ar v
r V ar v
V ar x V ar x V ar V ar r
V ar V ar V ar x v v v w w w x x x x R
εη=
=-==---===-
-
-
-
-
-
--定理
2
112.31
1
1222
1312.313()[(
)()]
()
(1)
sam ple sam ple sam ple sam ple V ar r V ar V ar V ar x r r r x x x +-= +-①
按照判定系数的定义,1
)/()1?Var Var x x 与2
2
()/(
)?Var Var x
x
分别是回归(1)与回

根据第⼀讲⽆截距回归的代数知识,我们知道,
2
2
2
v ()i
i
i
w e η=+∑∑

,⼜因为,,v w e 皆为0,因此2
()(())Var e Var Var v w η=-。

另外,(
2
,)??()?C ov i i i
w v w
v Var w
w η=
=∑∑
归(2)的判定系数。

⽽在简单线性回归中,判定系数等于被解释变量与解释变量(样本)简单相关系数的平⽅。

从上⾯的结果可知,2
2
13
sample r R
≥,这再次表明,当增加解释变量时,判定系数不会减少!
附录3:主成分分析法
1、基本思想
主成分分析是对数据降维的⼀种⽅法。

其基本思想是设法将原来众多的具有⼀定相关性的指标(⽐如k 个指标)进⾏线性组合,重新形成⼀组新的互不相关的综合指标,以代替原来k 个指标。

问题是,如果不加限制,则可以有很多线性组合。

应该如何限制呢? 2、数学模型
在原有k 个变量(指标)上构建k 个新的综合指标(主成分):
1112121212122221122............
...k k k k k
k k kk k
F a X a X a X F a X a X a X F a X a X a X =+++??=+++=+++?
矩阵表⽰为:
1
1121112
12222
2
12...............
k k k k
k
kk k i i F a a a X F a a a X F F a a a X F a X
? ??
==
'= 在这⾥1122
......i i i
ki k a X a X a X a X ???? ? ? ?
==。

限制条件:
(1)222
121i i ki a a a +++= ,1i i a a '=
(2)F i 与F j (i ≠j )互不相关,即:
() ()0i j i j i j C ov F F C ov a X a X a a '''==∑=,,
在这⾥∑是X 的协⽅差阵。

(3)F 1,F 2,… F k ⽅差依次递减。

每⼀个主成分的⽅差代表信息,故该约束意味着,k 个主成分从原始指标所提供的信息总量中所提取的信息量依次递减。

假设X 的协⽅差阵∑的特征根为λ1≥λ2≥…λk >0,相应的正交化单位特征向量为:
11121212221212,,...,k k
k
k k kk b b b b b b b b b b b b ?????? ? ? ? ? ? ?=== ? ? ? ? ? ???????
可以证明,如果
1122 (i)
i
i i
ki
ki a b a b a b a b ???? ? ?
===
则所构建的k 个主成分满⾜上述约束,并且λ1,λ2,…,λk 分别为各⾃主成分的⽅差。

4、估计X 的协⽅差阵∑
X 的协⽅差阵∑是未知的。

利⽤公式:
1
1()()1
i j N
X X im
i jm j m s x x x x N
==
---∑
在这⾥im x 是对变量i X 的第m 次观测,我们可以得到样本协⽅差阵,进⽽得到该矩阵的特征根与正交化单位特征向量。

5、选择主成分
我们往往并不需要全部的主成分。

如果最终选择的是前p 个主成分,那么⼀般要求这p
个主成分的累计⽅差贡献率(1
1
/p
k
i i i i λλ==∑∑)在85%以上已确定的全部。

在确定了主成分之
后,不难得到各主成分的观测值。

笔记:
在实践中,通常是基于标准化变量进⾏主成分分析。

标准化变量的协⽅差矩阵即为相关系数矩阵。

假定标准化变量的数据集如下:
1112121222121
2
......(,,...,)...
k k
K
N N N k x x x x x x X X X X x x x ==

11
N X X -'即为样本协⽅差矩阵。

现在我们假定y 的标准化变量对z y 对前p(m k <)个主成分进⾏了回归,其结果是:1122
...,y p p Z F F F γγγε=++++
由于
11112121212122221122............
...k k k k p p p kp k
F a X a X a X F a X a X a X F a X a X a X =+++??=+++=+++?
在这⾥,12...i i i ki
a a a a ?? ?
=
是已知的。

因此有: 11221
1
1
()()...,()p
p
p
y i i i i i ki k i i i Z a X a X a X γγγε====++++∑∑∑
定义:112
21
1
1
...p
p
p
i
i
i
i
k
i
ki
i i i a
a
a βγβγβγ====
==∑∑∑,则
1122...,y k k
Z X X X βββε=++++ 回忆第⼀讲有关标准化系数的笔记,我们不难得到⾮标准变量回归的系数估计。

应该注意,如果利⽤全部的主成分(共k 个)进⾏回归并反推出⾮标准变量回归的系数估计,则最终结果与直接对⾮标准变量进⾏回归没有任何差别(当然前者没有截距估计⽽直接对⾮标准变量进⾏回归可以得到截距估计)!故从终点⼜回到了起点,参见Kennedy(5e,p.215)。

在进⾏主成分回归时抛弃k-p 个主成分本质上就是在回归分析时施加了约束,这⽆疑会增加估计的精度。

然⽽这是有代价的,⼀般来说,利⽤p 个主成分进⾏回归并反推出⾮标准变量回归的系数估计并不是⼀致估计。

除了主成分分析法外,还有岭回归法、因⼦分析法等⽅法可以被⽤来处理多重共线性。

但值得指出的是,基于这些⽅法最终所获得的系数估计⼀般都是⾮⼀致估计。

相关文档
最新文档