第5章 放宽条件的回归模型(1)多重共线性
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ 2 ˆ 3
2 ( yi x3i )( x 2 i ) ( yi x 2 i )( x 2 i x3i ) 2 2 ( x 2 i )( x3i ) ( x 2 i x3i ) 2
我们令X3i=λX2i,这里λ的一个不为零的常数。
ˆ 2
2 2 ( y i x 2 i )( 2 x 2 i ) ( yi x 2 i )( x 2 i ) 2 2 2 ( x 2 i )( 2 x 2 i ) 2 ( x 2 i ) 2
多重共线性的巴伦坦图
产生多重共线性的原因: 1. 数据采集所用的方法。 2. 模型或从取样的总体中受到的约束。例如做电力消费对收入和住 房面积的回归的时候,总体中有这样一种约束:一般而言,收入较 高的家庭住房面积也更大。 3. 模型的设定。尤其是当X变量的变化范围较小时。 4. 一个过度决定的模型。模型的回归元个数大于观测次数。如在医 药研究中,在少数病人身上收集大量变元信息。 多重共线性对经典线性回归模型的影响 如果多重共线性是完全的,这样各个X变量的回归系数将是不确定的, 并且它们的标准误为无穷大。 如果多重共线性是不(欠)完全的,那么回归系数可以确定,却有 着较大的标准误,或者说,系数不能以很高的准确度加以估计。
我们用它来进行估计和假设检验和预测问题。但是,这个模 型是建立在一些简化了的假定基础之上的。这些假定包括:
1. 回归模型对于参数而言是线性的。
2. 各回归元X的值在重复抽样中是固定的。
3. 给定的X,干扰ui的均值为零。 4. 对于给定的X,ui的方差不变或称之为同方差性。 5. 对于给定的X,干扰无自相关。 6. 如果X是随机的,则干扰项与各个X是独立的至少是不相关的。 7. 观测的次数大于回归元的个数。 8. 回归元的取值必须有足够的变异性。
取显著性水平为0.05,查表自由度为8的t值是1.860,显然 2 和 3 的t
统计量的值(1.1442和-0.5261)均小于临界值,这样,我们不能够在 统计上拒绝其为0的假设。 ˆ 同时, 3 的符号也是错误的,从现实的经验来看,财富和消费量之间 不会存在负相关的关系。
但是,根据方差分析(ANOVA),我们可以计算出F值,
x x
2 2i
2 3i
随着相关系数r23趋向1(共线性增加),两个估计量的方差在增加。
当r23=1时,方差趋向于无穷大。同理,协方差也随r23增加而变大。
方差和协方差的增大速度,可由方差-膨胀因子看出。方差-膨胀因子
定义为:
VIF 1
2 1 r23
VIF表明,估计量的方差由于多重共线性的出现而膨胀起来。还容易
(2)更宽的置信区间
由于大的标准误,有关总体参数的置信区间随之变大。下表表明, 当r23=0.95时, 2 的置信区间要比r23=0时大约3倍。
(3)“不显著”的t比率 在检验虚拟假设 2 0 时,我们构造t统计量,通过计算t值(估计值/ 标准误)同在t表中查出的临界值相比。 我们发现,在高度共线性的情形中,由于标准误增加的速度很快, 从而使t值迅速变小,这样,我们会越来越多地接受有关总体值为0的 虚拟假设。
经典线性回归模型假定:
假定10:包含在模型中的回归元不存在多重共线性;
假定7:观测的次数必须大于回归元的个数;
假定8:回归元的取值必须有足够的变异。
上述假定7和8都是对无多重共线性的补充。我们把它们合并在一起
探讨。
1 多重共线性的性质
多重共线性是指在一个回归模型中,一些或全部解释变量之间存在
经济类核心课程· 计量经济学
第五章 放宽条件的回归模型(1)
多重共线性
教师:卢时光
PowerPoint Presentation by Lu Shiguang 2012 All Right Reserved,
Hunan Institute of Engineering
在前面的学习中,我们详尽的考察了经典正态线性回归模型,
运用 OLS 估计得到: ˆ ˆ (ˆ 2 3)
x y x
2i 2 2i
i
ˆ 虽然 可以估计出来,但是 2和 3却无法估计。 ˆ 例如,给定 0.8 和 2,这样 ˆ ˆ ˆ ˆ 0.8 2 2 3 或 β 2 0 .8 2 β3 方程是无解的。
(4282.7770/46.3494)为92.4019,显然这个F值是高度显著的。我们 可以拒绝 2和 3 联合为0的假设。
这个结果的几何意义是有趣的。
根据回归结果我们构造 2 和 3 的95%置信区间,这些区间表明,个
别地看,每个区间都包含着0值,因此,个别地看我们可以接受两个 偏斜率系数为零的假设。但我们建立联合置信区间时,这个椭圆形 的联合置信区域不包含原点,因此我们不能接受 2和 3 为0的假设。
把 X 3i X 2 i 带入到三变量回归模型 : ˆ ˆ ˆ y i β 2 x 2 i β 3 ( λx 2 i ) u i ˆ ˆ ˆ ( β 2 λβ3 ) x2 i u i ˆ ˆ ˆ 令 α ( β 2 λβ3 ) ˆ ˆ yi αx2 i u i
4. 多重共线性的实际后果 (1)OLS估计量的方差-协方差 从方差-协方差的公式
ˆ var( 2 ) ˆ var( 3 )
2
x x
ቤተ መጻሕፍቲ ባይዱ
2 2i
2 (1 r23 )
2
2 3i 2 (1 r23 )
ˆ ˆ cov( 2 , 3 )
r23 2
2 (1 r23 )
ˆ 2
2 2 ( yi x 2 i )( 2 x 2 i vi2 ) ( y i x 2 i yi vi )( x 2 i ) 2 2 2 ( x 2 i )( 2 x 2 i vi2 ) 2 ( x 2 i ) 2
ˆ 其中利用了 x 2 i vi 0 的性质。对于 3 也可以推出类似的表达式。
发现,如果X2和X3无共线性,VIF=1。 利用VIF定义,方差的表达式可写为:
ˆ var( 2 ) ˆ var( 3 )
2
x
2
2 2i
VIF VIF
x
2 3i
利用下表中的数据,我们来说明方差-协方差随相关系数r23增加而增
加的速度。
ˆ r23=0.5时, 2 的方差是r23为0 时的1.33倍;而r23从0.95增加 到0.995时,估计的方差是无 共线性时的100倍。 类似的情况也发生于协方差。 右图表明了方差随相关系数 增加而增加的趋势。
只有多重共线性不是完全的,回归系数的估计就是可能的。然而,
估计值及其标准误对数据中哪怕是微小的变化,也会是非常敏感的。
5. 一个例子 为了说明,我们利用最初的消费支出与收入的例子,我们复制了以 前的数据,并在加入了消费者的财富数据,显然消费者的收入与其 财富有线性关系。
根据上面的数据,我们得到如下回归结果:
1. 要偏离一个具体的假定多远才会产生不可忽视的差别?如ui不是正
态分布,那么我们能够容忍多大程度上的正态性偏离? 2. 在一个具体问题中,我们怎样发现某一个假定被破坏?比方说我 们介绍过利用雅克-贝拉检验来检验ui的正态性。 3. 如果一个或者多个假定被破坏,我们能够采用什么样的补救措施?
0 0
ˆ 上式是一个不定式。大家很容易证明 3 也是不确定的。 ˆ 我们为什么会得到这样的结果呢?回想一下 的意义:它是在保持
2
X3不变的情况下,当X2每改变一个单位时,Y的平均值的变换率。如 果X2和X3是完全共线性的,就没有任何方法能够保持X3不变,因为 随着X2的改变,X3也按照一个倍数因子λ改变。这意味着没有任何方 法能够从给定的样本中把X2和X3各自的影响分解开来。 从另外一个角度来看:
2 出现多重共线性时的估计问题
前面说过,如果出现完全多重共线性,回归系数是不确定的,并且
其标准误是无穷大。 以三变量回归模型为例来说明:
写成离差的形式
ˆ ˆ ˆ y i 2 x 2 i 3 x3 i u i
根据前面的分析,得到回归系数的表达公式
2 ( yi x 2 i )( x3i ) ( yi x3i )( x 2 i x3i ) 2 2 ( x 2 i )( x3i ) ( x 2 i x3i ) 2
在剩下的问题中,假定7、8和10是紧密相关的,我们在多重
共线性问题中探讨;假定4在异方差问题中探讨;假定5在自 相关问题中探讨。 我们在探讨这些问题的时候,遵循下列范式:
1. 明确问题的性质;
2. 分析它的影响; 3. 提出侦测它的方法; 4. 考虑补救的措施。
1 多重共线性
一种完全或准确的线性关系。对于涉及解释变量X1、X2、…、Xk的k 变量回归而言,我们说,存在一种准确的线性关系,如果下列条件 得到满足: 1 X 1 2 X 2 k X k 0
其中 1, 2, , k 为常数,但不同时为零
以上我们称解释变量X1、X2、…、Xk之间存在完全多重共线性。
9. 回归模型被正确的设定。
10. 回归元之间无多重共线性。 11. 随机干扰项ui是正态分布的。
遗憾的是,我们尚无法对所有的问题都给出令人满意的答案。
接下来的工作中,我们对某些假定给予更多的注意,当然有 些假定我们并不过分的深究,特别是假定1、2、3、6和11中 的问题。 威瑟里尔(Wetherill)指出,实际上在应用经典线性回归模 型时,有两类问题需要注意:(1)关于模型设定及对干扰 项ui的假定问题,诸如假定1、2、3、4、5、9和11;(2)关 于对数据的假定问题,诸如6、7、8和10。 关于对来自干扰和模型设定的假定问题主要有三:
这表明X2不是其他X的一个准确的线性组合,因为它还取决于随机误
差项vi。我们称上述情形为不(欠)完全的多重共线性。 例如右表中的数据: 很明显,X3i=5X2i。因此X2和X3 X2 X3 X3* 之间存在完全的多重共线性并且 10 50 52 X2和X3相关系数为1。而X3*不过 15 75 75 是X3加上了随机数2、0、7、9、 18 90 97 2上产生的。 X2和X3*之间不再有 24 120 129 完全共线性,但是它们之间的相 关系数是0.9959,所以是高度相关 30 150 152 的。
除了完全多重共线性的情形之外,我们还发现各个X变量之间可能存
在有相互关系,但又非完全相关的关系。如:
1 X 1 2 X 2 k X k vi 0
其中 vi 是随机误差项,如果 2 0,则 X 2i
1 1 X 1i 3 X 3i k X ki vi 2 2 2 2
3. 出现“高度”或“不完全”多重共线性时的估计问题 完全共线性只不过是一种极端的情况,通常X变量之间并无准确的线 性关系,通常存在的是“高度”或“不完全”多重共线性情况。
x3 i x 2 i v i
其中,λ≠0且vi是具有
x
2i i
v 0 性质的随机误差项。
此时,回归系数的估计是可能的:
(4)R2值高而显著的t比率值少 在高度共线性情形中,有可能发现一个或多个偏斜率系数,在t检验 下,个别地在统计意义上是不显著的,然而这时的R2却很高。从而 根据F检验,可令人信服地拒绝 2 3 k 0的假设。 (5)OLS估计量及其标准误对数据的微小变化敏感