第七章 多重共线性
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章 多重共线性
若线性模型不满足假定6,就称模型有多重共线性。
§7.1 多重共线性的概念
一. 基本概念:
假定6 ()1k r X k n =+<,是指模型中所有自变量12,,,,k x x x ⋅⋅⋅⋅⋅⋅1线性
无关,也可理解为矩阵X 的列向量线性无关。若不满足该假定,即 ()1k r X k <+, 则称12,,,,k x x x ⋅⋅⋅⋅⋅⋅1存在完全多重共线性,12,,,,k x x x ⋅⋅⋅⋅⋅⋅1存在严格的线性关系,这
是一种极端情况;若12,,,,k x x x ⋅⋅⋅⋅⋅⋅1之间的线性关系不是严格的,而是一种近似的线性关系,则称高度相关或存在不完全多重共线性。如,01122i i i i y x x u βββ=+++ 若12,λλ∃不全为零, 使11220i i x x λλ+=, 完全多重共线性
11220i i i x x v λλ++= 不完全多重共线性
完全多重共线性和不完全多重共线性统称为多重共线性。
解释变量(自变量)之间的线性关系可用拟合优度2i R 描述,2i R 表示i x 对其它解
释变量的拟合优度,21i R = 完全 21i R ≈ 高度 20i R = 无 二. 产生的原因:
在实际经济问题中主要是不完全多重共线性。其产生的主要原因是:
1. 两个解释变量具有相同或相反的变化趋势;(家庭能耗与住房面积、人口) 生产、需求.......
2. 数据收集的范围过窄,造成解释变量之间有相同或相反变化的假象;
3. 某些解释变量之间存在某种近似的线性关系;(各解释变量有相同的时间趋势)
4. 一个变量是另一个变量的滞后值;供给
5. 解释变量的选择不当也可能引起变量间的多重共线性。
6. 过度决定模型。(观测值个数少于参数个数)
对于正确设置的模型,多重共线性基本上是一种样本现象。 §7.2 多重共线性的后果
一. 完全多重共线性
当模型具有完全多重共线性时,无法进行参数的OLS 估计; 设模型 Y XB U =+,若有完全多重共线性,即()1k r X k <+,则
()1T r X X k <+ 1
()T X X -⇒不存在1()T T
B X X X Y ∧
-⇒=不存在,同样 2
1
()()T
j u jj V X X βσ∧
-=也不存在,显著性检验和预测都无法进行。
二. 不完全多重共线性
设模型为 01122i i i i y x x u βββ=+++ 有不完全多重共线性,即 102i i i x x v λλ=++, 其中0λ≠,i v 可视为残差。 为叙述方便,可用中心化形式12i i i x x v λ∙
∙
=+(
0i
v =∑,20i
i x
v ∙=∑),
1121122212n
n x x x x X x x ∙∙
∙∙∙
∙∙⎛⎫ ⎪ ⎪ ⎪= ⎪
⋅⋅⋅⋅⋅⋅ ⎪ ⎪⎝⎭
,21121
1212211n n
i i i i i T n n i i i i i x x x X X x x x ∙∙
∙
∙∙
==∙∙∙==⎛⎫ ⎪ ⎪= ⎪ ⎪⎝⎭∑∑∑∑22
222211
1
222211
n n
n
i i i
i i i n
n
i i
i i x v x x x
λλλ∙∙
===∙∙==⎛⎫+ ⎪
⎪= ⎪ ⎪⎝⎭
∑∑∑∑∑
则有 2221
1
n
n T
i i
i i X X x v
∙∙∙
===
∑∑
这样 222211
122222222211111()1()n
n
i i
T i i T n n
n n n T i i i i i i i i i i x x
X X X X x v X X x x v λλλ∙∙
∙∙*∙∙==-∙∙∙∙∙
=====⎛⎫
- ⎪
⎪== ⎪-+ ⎪⎝⎭∑∑∑∑∑∑∑
2212212111n
i n i n i i i i v v x λ
λλ=∙==-⎛⎫ ⎪
⎪=
⎪-+ ⎪
⎪ ⎪⎝⎭
∑∑∑
2121
22
1211
1()n
T T T i n i n i i i i v X X X Y X Y v x λβλλ∙∙∙∧∙∙∙-=∙==-⎛⎫
⎪
⎪== ⎪-+ ⎪ ⎪
⎪⎝
⎭
∑∑∑
2
1
0n
i
i v
=≠∑是显然的,所以可确定β∧
。但i v 是残差,依赖于样本,因此21
n
i i v =∑很
不稳定,且0T
X X ∙
∙≈,使()V β∧
2
1
()T
u
jj X X σ∙
∙
-=很大,其后果
⑴使β∧
很不稳定,对样本非常敏感; ⑵()V β∧
很大,β∧
的估计精度很难控制;
⑶统计量T β∧
=
增大接受“0:0j H β=”的可能性(即j β不显著),
但2
R 仍可能是显著的,
⑷使预测的精度大大降低。
例7.2.1 书179页
§7.3 多重共线性的检验
由于在经济问题研究中,多重共线性是普遍存在的,当多重共线性程度较高时,
会带来严重后果,因此检验多重共线性时希望达到如下目的: ⑴是否存在多重共线性; ⑵多重共线性的程度;
⑶多重共线性的形式或性质。 一. 不显著系数法:
利用参数的显著性判断是否有多重共线性,有以下情况时可判断有多重共线性:
⑴若2R 显著(2
R 0.8>),但全部参数或部分参数不显著(不能通过显著性检
验); 1
2
()()()
T
T
T
T
T
T
T T RSS B X Y X Y X X X Y R TSS
Y Y Y Y
∧∙
∙
∙
∙
∙
∙
∙
∙
-∙∙∙∙
=
=== 由于有多重共线性,所以行列式会T
X X ∙∙
很小,1
()T
X X ∙∙
-就会较大。 ⑵若按相关经济理论知解释变量i x 对y 有重要影响,但i β却不显著;
⑶如果添加新自变量x '后,原有参数的估计值的方差明显增大,则自变量(含x ')
之间可能有多重共线性。
二.利用解释变量之间所构成的回归方程的拟合优度2j R 检验:
设有k 个自变量 12,,,k x x x ⋅⋅⋅⋅⋅⋅,则可构成k 个辅助线性回归方程 102233,,k k x x x x αααα=+++⋅⋅⋅⋅⋅⋅+ 其拟合优度为21R ,