第五章异方差性
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
去估计,因此事实上 Var ( ˆ 2* ) 已难以确定, S E ( ˆ 2* ) 也将难 以确定。 (2)仍用OLS法会低估参数估计式的方差 (3)t检验和F检验将失效
12
3、预测精度降低,区间预测面临困难
尽管参数的OLS估计量仍然无偏,并且基于此的预 测也是无偏的,但是
●由于
2 i
难以确定,Y的方差也难以确定,Y置信
Xi
而变化,则表明存在异方差。
15
e
2
e
2
(a )
X (d )
(b )
X
e
2
e
2
(c )
X
(d )
X
16
(2)相关图分析
Y与X之间图形举例:
分析Y与X的相关图形,也可以初略地看到Y的离散程度与X之间 是否有相关关系。 用1998年四川省各市州农村居民家庭消费支出与家庭纯收入的 数据,绘制出消费支出对纯收入的散点图,其中用 Y1 表示农 村家庭消费支出,X 1 表示家庭纯收入。
这样模型中的随机项 v i 及方差可能会随 X 3 i 的变动而变化。
● 模型设定不恰当产生的异方差。 如果一些重要变量被忽略,随机项 随重要变量的变动而变动;或把
Y
非线性模型设定为线性,可能导
致异方差
9
X
● 统计测量误差导致的异方差 因为测量误差有可能随解释变量X的增大而增大
●
截面数据中总体各单位的差异
1、OLS估计式不再具有最小方差特性
OLS估计式的方差不一定是最小的,即OLS估计 式虽然无偏,但不一定是最佳的。
●最小方差性的证明条件之一——同方差性已不成立
(见P69证明第5行用到 V a r ( u i ) V a r (Yi ) 2 的条件)
●存在异方差时,可证明能够再找到比OLS 的方
对
f (X i)
f (X i)
的函数形式可作出各种假定, 例如:
var( u i )
k Xi
k Xi
2
函数形式
f (X i) X i
vi
ui Xi
var( i )
k k k
2
2
f (X i) X i
2
2
2
ui
2
X
2
i
f ( X i ) ( 1 2 X i )
k ( a 0 a1 X i )
Y
E (Yi )
收入X
8
2、产生异方差性的原因
● 从模型中略去的变量可能随列入模型的解释变量 X i 的变 化,也呈现某种规律性的变化,导致 u 随 X i 而变化。 i
例如模型本来应该为 Yi 1 2 X 2 i 3 X 3 i 4 X 4 i u i 却设定为
V ar ( u i ) i
对比同方差时为 V ar ( u i ) 2 异方差可看成是由某个解释变量的变化而引起方差的变化, 则
V a r (u i ) i
2 2
f (Xi)
7
异方差性的图示(简单线性回归时)
概 率 分 布 密 度
(三) 异方差性的检验
1、图形分析法
基本思想:
异方差性的表现是 u i 的方差随某个解释变量的变化而
变化,或Y的分散程度随X的变化而变化。 因此可利用 u i 的代表 e i 与某解释变量的散布图,观察 是否存在异方差及其异方差的形式,或从Y的分散程度与 X的关系观测是否存在异方差。
具体方法:
假定不存在异方差,进行回归,并计算剩余平方 e, i
基本假定中同方差的含义: 同方差性:指对所有的观测值 Yi (i 1, 2,..., n) 有:
V ar( u i ) = σ
V ar( u i )
2
度量的是被解释变量的观测值 Y i 围绕回归线
E (Yi X 2 , X 3 X k ) 1 2 X 2 i 3 X 3 i ... k X ki
剑桥大学——爱情小道
第五章
异方差性
1
引子:更为接近真实的结论是什么?
根据四川省2000年21个地市州医疗机构数与人口数资 料,分析医疗机构与人口数量的关系,建立卫生医疗机 构数与人口数的回归模型。对模型估计的结果如下:
ˆ Yi 5 6 3 .0 5 4 8 5 .3 7 3 5 X i
真的每2000人就需要一个医疗机构吗 ?
结果表明: ●人口数量对应参数的标准误差较小 ● t 统计量远大于临界值
F检验结果明显显著 ●可决系数和修正的可决系数结果比较好 表明该模型的估计效果不错,即可以认为人口数量每增 加1万人,平均说来医疗机构将增加5.3735个。 问题: 然而,这里得出的结论是否可靠呢? 每增加1万人口 平均说来真的需要增加这样多的医疗机构吗? 有什么充分的理由说明这一回归结果不可靠呢? 为什么会得出这种不切实际的结论呢?
并计算辅助回归的可决系数 R 2
20
(3)提出假设
H 0 : 1 2 = ...= 6 = 0, H 1 : ( j =1,2, , 3, ..., 6) 不 全 为 零 j
(4)计算统计量
n
nR
2
为样本容量, R 2 为辅助Байду номын сангаас归可决系数
在大样本情况下可以证明,在零均值假设成立下,
一般说异方差性在截面数据中可能比在时间序
列数据中更常出现(原因:同一时点不同对象的
差异一般会大于同一对象不同时间的差异)
注意:人们的打字技术随时间推移而出现的差
异,时间序列也常出现异方差
10
(二) 异方差性的后果
存在异方差时,OLS估计仍然是无偏估计(见P154附录 5.1的证明,只用到零均值假定),但是
2
u i ( a 0 a1 X i )
2
f (X i)
的函数形式可参考图形分析法去确定
25
2、加权最小二乘法(WLS)
基本思想: ●回顾用OLS法估计参数是使
2
m in : e i
2
2 ˆ ˆ (Yi 1 2 X i )
这里不论 e i 的大小对各观测值同等对待(因是同方差)。
●在异方差且方差 i2 已知的情况下,各观测值对决定回归 线的作用应该有所差异。方差越小,其样本值偏离均值 的程度越小,其观测值 Y 越应受到重视。即方差越小, 在确定回归线时的作用应当越 大,反之方差越大,其观测值 所起的作用应当越小。
nR 服从自由度为5的
2
2
分布,即
nR
2
~
2 (5)
21
(5)检验
2 ,查 χ 分布表得临界值 给定显著性水平
χ (5 )
2
,
如果
n R χ (5 )
2 2
, H 0 不合理,则拒绝原假设 H 0 , 则不拒绝 ,即认为模型中随机
即认为模型中随机误差存在异方差 。
若
nR
2
(5)
●
更为接近真实的结论应该是什么呢?
3
异方差性
将讨论四个问题: ●异方差的实质和产生的原因 ●异方差产生的后果 ●异方差的检测方法 ●异方差的补救
4
(一) 异方差性的概念
1、异方差的实质
回顾:总体回归线是Y的条件期望 E (Yi X i )的轨迹
Yi E (Yi X i ) u i
其中 u i 是 Y i 对回归线的偏离
(291.5778) (0.644284) t =(-1.931062) (8.340265)
R 0 .7 8 5 4 5 6
2
R
2
0 .7 7 4 1 4 6
F 69.56003
式中: Y表示卫生医疗机构数(个)X表示人口数量(万 人)。 表明该模型的估计效果不错,即可以认为人口数量每增加1 2 万人,平均说来医疗机构将增加5.3735个。
的分散程度,因此同方差性指的是所有 Y i 观测值对回归线 的分散程度相同。
5
同方差性的图示(简单线性回归时)
概 率 分 布 密 度
Y
E (Yi )
收入X
6
异方差性的含义:
随机扰动项的方差也随 X 的变化而变化,这种情况称 i 2 为存在异方差性,表现为 ( i 1, 2 , n )
2
ui f (X i) vi
ui f (X i)
f (Xi)
变换后的模型的扰动项
V a r (vi ) V a r ( ui f (Xi)
是同方差的,因为
)
V a r (u i ) f (Xi)
i
2
k f (X i) f (X i)
2
k
2
f (Xi)
24
具体作法:关键是找到适合的函数形式
用OLS法估计原模型,计算残差 et Yt - Yˆt ,并求残差 的平方 et2 。 (2)求辅助函数
用残差平方
2
et
2
作为异方差
σt
2
的估计,建立 et2 与
X 2 t , X 3t , X 2 t , X 3t , X 2 t X 3t
2
2
的辅助回归,即
2 2
et = α1 + α 2 X 2 t + α 3 X 3 t + α 4 X 2 t + α 5 X 3 t + α 6 X 2 t X 3 t v t
Yi β1 β 2 X i u i
●通过模型变换,使随机扰动项具有同方差性 ●异方差性与 X i 的变化有关,可假定 i2 K 2 f ( X i ) 其中的 2 K 为常数 ●如果
f (X i)
已知,以
f (X i)
除原模型两边,将模型变换为
X
i
Yi f (Xi)
1
f (Xi)
Yi 1 2 X 2 i 3 X 3 i v i
X 4 i 1 2 X 3i wi v i 4 X 4 i u i 4 1 4 2 X 3 i 4 w i u i
若 X 4 i与 X 3 i有关,如
事实上此时
2
H0
误差是同方差。
22
White检验的特点
● 不需要异方差的先验信息,但要求为大样本。 ● 不仅能够检验异方差的存在性,同时在多变量 的情况下,还能判断出是哪一个变量引起的异方 差,对于后面的修正模型具有重要意义。 ●但解释变量过多是一个缺陷。
23
(四) 异方差的修正
1、对原模型加以变换
基本思想: 例如原模型:
2
其中 v t 为随机误差项。
但一般 t2 未知,可用原模型回归剩余的平方 e 2 作为 t2 的
t
估计值,进行以上辅助回归。在大样本情况下寻求能确定 分布的统计量,判断 t 的变化是否与解释变量有关。
2
(当有K个解释变量时,可作类似的含两两交互的辅助回归)
19
检验的基本步骤:
(1)求回归估计式并计算 et2
17
2、White检验
基本思想:
如果存在异方差,其方差 t2 与某解释变量有关系。
在不知道关于异方差的任何先验信息时,在大样本的
情况下,将OLS估计后的残差平方对解释变量的各种
形式(如常数、解释变量、解释变量的平方及其交叉
乘积等)构成一个辅助回归,利用辅助回归建立相应
的检验统计量来判断异方差性。
(本质:用解释变量的各种可能形式去试探)
18
例如两个解释变量的模型中
Yt = β1 + β 2 X 2 t + β 3 X 3 t + u t
2 2
设 t2 与 X 2 和 X 3 的关系为如下辅助回归:
t 1 2 X 2 t 3 X 3t 4 X 2 t 5 X 3t 6 X 2 t X 3t vt
2
描绘 与 i2 的散点图或Y与X的散点图,作出近似判断。14 e Xi
(1)残差图形分析
设一元线性回归模型为:
Yi β1 β 2 X i u i
运用OLS法估计,得样本回归模型为:
ˆ ˆ ˆ Yi = β1 + β 2 X
i
由上两式得残差:
ˆ e i Yi - Yi
绘制出 e 2 对 X i 的散点图 i ◆如果 e i2不随 X i 而变化,则表明不存在异方差; ◆如果 e i2 随
区间的确定会出现困难 ● 由于异方差的存在, ˆ k 的方差增大,Y预测值的 精确度将会下降
●在 ˆ 2 e i2 n k 是 2 无偏估计的证明 (P70附录 2.2)中也用到了 u i 的同方差性假定,由于存在异方差
性,使得 ˆ 2
ei
2
nk
的估计不再是无偏估计,
在此基础上的区间估计和假设检验都将变得不可靠。 13
差更小的估计方法
(证明见教材P155附录5.1)
11
C o v ( X i , u i ) E ( xi u i ) 0
2、解释变量的显著性检验失效
(1) 参数估计式方差的确定会面临困难
例如一元回归中,可证明异方差时
ˆ* Var ( 2 )
x ( x )
2 i 2 i
2 2
i
2 i 未知,且不再是常数,也不能再用 ( e i2 ) ( n 2 ) ˆ 2