第五章异方差性

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

去估计，因此事实上 Var ( ˆ 2* ) 已难以确定， S E ( ˆ 2* ) 也将难以确定。（2）仍用OLS法会低估参数估计式的方差（3）t检验和F检验将失效
12
3、预测精度降低,区间预测面临困难
尽管参数的OLS估计量仍然无偏，并且基于此的预测也是无偏的，但是
●由于
2 i
难以确定，Y的方差也难以确定，Y置信
Xi
而变化，则表明存在异方差。
15
e
2
e

2

(a )
X (d )
(b )
X

e
2

e
2

(c )
X
(d )
X
16
（2）相关图分析
Y与X之间图形举例:
分析Y与X的相关图形，也可以初略地看到Y的离散程度与X之间是否有相关关系。用1998年四川省各市州农村居民家庭消费支出与家庭纯收入的数据，绘制出消费支出对纯收入的散点图，其中用 Y1 表示农村家庭消费支出，X 1 表示家庭纯收入。
这样模型中的随机项 v i 及方差可能会随 X 3 i 的变动而变化。
● 模型设定不恰当产生的异方差。如果一些重要变量被忽略，随机项随重要变量的变动而变动；或把
Y
非线性模型设定为线性，可能导
致异方差
9
X
● 统计测量误差导致的异方差因为测量误差有可能随解释变量X的增大而增大
●
截面数据中总体各单位的差异
1、OLS估计式不再具有最小方差特性
OLS估计式的方差不一定是最小的，即OLS估计式虽然无偏，但不一定是最佳的。
●最小方差性的证明条件之一——同方差性已不成立
（见P69证明第5行用到 V a r ( u i ) V a r (Yi ) 2 的条件）
●存在异方差时，可证明能够再找到比OLS 的方
对
f (X i)
f (X i)
的函数形式可作出各种假定，例如：
var( u i )
k Xi
k Xi
2
函数形式
f (X i) X i
vi
ui Xi
var( i )
k k k
2
2
f (X i) X i
2
2
2
ui
2
X
2
i
f ( X i ) ( 1 2 X i )
k ( a 0 a1 X i )
Y

E (Yi )
收入X
8
2、产生异方差性的原因
● 从模型中略去的变量可能随列入模型的解释变量 X i 的变化，也呈现某种规律性的变化，导致 u 随 X i 而变化。 i
例如模型本来应该为 Yi 1 2 X 2 i 3 X 3 i 4 X 4 i u i 却设定为
V ar ( u i ) i
对比同方差时为 V ar ( u i ) 2 异方差可看成是由某个解释变量的变化而引起方差的变化，则
V a r (u i ) i
2 2
f (Xi)
7
异方差性的图示（简单线性回归时）
概率分布密度

（三）异方差性的检验
1、图形分析法
基本思想：
异方差性的表现是 u i 的方差随某个解释变量的变化而
变化，或Y的分散程度随X的变化而变化。因此可利用 u i 的代表 e i 与某解释变量的散布图，观察是否存在异方差及其异方差的形式，或从Y的分散程度与 X的关系观测是否存在异方差。
具体方法：
假定不存在异方差，进行回归，并计算剩余平方 e, i
基本假定中同方差的含义: 同方差性：指对所有的观测值 Yi (i 1, 2,..., n) 有：
V ar( u i ) = σ
V ar( u i )
2
度量的是被解释变量的观测值 Y i 围绕回归线
E (Yi X 2 , X 3 X k ) 1 2 X 2 i 3 X 3 i ... k X ki
剑桥大学——爱情小道
第五章
异方差性
1
引子：更为接近真实的结论是什么？
根据四川省2000年21个地市州医疗机构数与人口数资料，分析医疗机构与人口数量的关系，建立卫生医疗机构数与人口数的回归模型。对模型估计的结果如下：
ˆ Yi 5 6 3 .0 5 4 8 5 .3 7 3 5 X i
真的每2000人就需要一个医疗机构吗 ?
结果表明: ●人口数量对应参数的标准误差较小 ● t 统计量远大于临界值
F检验结果明显显著 ●可决系数和修正的可决系数结果比较好表明该模型的估计效果不错，即可以认为人口数量每增加1万人，平均说来医疗机构将增加5.3735个。问题: 然而，这里得出的结论是否可靠呢? 每增加1万人口平均说来真的需要增加这样多的医疗机构吗? 有什么充分的理由说明这一回归结果不可靠呢？为什么会得出这种不切实际的结论呢?
并计算辅助回归的可决系数 R 2
20
（3）提出假设
H 0 : 1 2 = ...= 6 = 0, H 1 : （ j =1,2, , 3, ..., 6）不全为零 j
（4）计算统计量
n
nR
2
为样本容量， R 2 为辅助Байду номын сангаас归可决系数

在大样本情况下可以证明，在零均值假设成立下，
一般说异方差性在截面数据中可能比在时间序
列数据中更常出现（原因：同一时点不同对象的
差异一般会大于同一对象不同时间的差异）
注意：人们的打字技术随时间推移而出现的差
异，时间序列也常出现异方差
10
（二）异方差性的后果
存在异方差时，OLS估计仍然是无偏估计（见P154附录 5.1的证明，只用到零均值假定），但是
2
u i ( a 0 a1 X i )
2
f (X i)
的函数形式可参考图形分析法去确定
25
2、加权最小二乘法(WLS)
基本思想： ●回顾用OLS法估计参数是使
2
m in : e i
2

2 ˆ ˆ (Yi 1 2 X i )
这里不论 e i 的大小对各观测值同等对待（因是同方差）。
●在异方差且方差 i2 已知的情况下，各观测值对决定回归线的作用应该有所差异。方差越小，其样本值偏离均值的程度越小，其观测值 Y 越应受到重视。即方差越小，在确定回归线时的作用应当越大，反之方差越大，其观测值所起的作用应当越小。
nR 服从自由度为5的
2
2
分布，即
nR
2
~
2 (5)
21
（5）检验
2 ，查 χ 分布表得临界值给定显著性水平
χ (5 )
2
，
如果
n R χ (5 )
2 2
， H 0 不合理，则拒绝原假设 H 0 ，则不拒绝，即认为模型中随机
即认为模型中随机误差存在异方差。
若
nR
2
（5）
●
更为接近真实的结论应该是什么呢？
3
异方差性
将讨论四个问题： ●异方差的实质和产生的原因 ●异方差产生的后果 ●异方差的检测方法 ●异方差的补救
4
（一）异方差性的概念
1、异方差的实质
回顾：总体回归线是Y的条件期望 E (Yi X i )的轨迹
Yi E (Yi X i ) u i
其中 u i 是 Y i 对回归线的偏离
（291.5778） (0.644284) t =(-1.931062) (8.340265)
R 0 .7 8 5 4 5 6
2
R
2
0 .7 7 4 1 4 6
F 69.56003
式中: Y表示卫生医疗机构数（个）X表示人口数量（万人）。表明该模型的估计效果不错，即可以认为人口数量每增加1 2 万人，平均说来医疗机构将增加5.3735个。
的分散程度，因此同方差性指的是所有 Y i 观测值对回归线的分散程度相同。
5
同方差性的图示（简单线性回归时）
概率分布密度

Y

E (Yi )
收入X
6
异方差性的含义：
随机扰动项的方差也随 X 的变化而变化，这种情况称 i 2 为存在异方差性，表现为 ( i 1, 2 , n )
2
ui f (X i) vi

ui f (X i)
f (Xi)
变换后的模型的扰动项
V a r (vi ) V a r ( ui f (Xi)
是同方差的，因为

)
V a r (u i ) f (Xi)
i
2

k f (X i) f (X i)
2
k
2
f (Xi)
24
具体作法：关键是找到适合的函数形式
用OLS法估计原模型，计算残差 et Yt - Yˆt ，并求残差的平方 et2 。（2）求辅助函数
用残差平方
2
et
2
作为异方差
σt
2
的估计，建立 et2 与
X 2 t , X 3t , X 2 t , X 3t , X 2 t X 3t
2
2
的辅助回归，即
2 2
et = α1 + α 2 X 2 t + α 3 X 3 t + α 4 X 2 t + α 5 X 3 t + α 6 X 2 t X 3 t v t
Yi β1 β 2 X i u i
●通过模型变换，使随机扰动项具有同方差性 ●异方差性与 X i 的变化有关，可假定 i2 K 2 f ( X i ) 其中的 2 K 为常数 ●如果
f (X i)
已知，以

f (X i)
除原模型两边，将模型变换为
X
i
Yi f (Xi)
1
f (Xi)
Yi 1 2 X 2 i 3 X 3 i v i
X 4 i 1 2 X 3i wi v i 4 X 4 i u i 4 1 4 2 X 3 i 4 w i u i
若 X 4 i与 X 3 i有关，如
事实上此时
2
H0
误差是同方差。
22
White检验的特点
● 不需要异方差的先验信息，但要求为大样本。 ● 不仅能够检验异方差的存在性，同时在多变量的情况下，还能判断出是哪一个变量引起的异方差，对于后面的修正模型具有重要意义。 ●但解释变量过多是一个缺陷。
23
（四）异方差的修正
1、对原模型加以变换
基本思想：例如原模型:
2
其中 v t 为随机误差项。
但一般 t2 未知，可用原模型回归剩余的平方 e 2 作为 t2 的
t
估计值，进行以上辅助回归。在大样本情况下寻求能确定分布的统计量，判断 t 的变化是否与解释变量有关。
2
(当有K个解释变量时，可作类似的含两两交互的辅助回归)
19
检验的基本步骤：
（1）求回归估计式并计算 et2
17
2、White检验
基本思想：
如果存在异方差，其方差 t2 与某解释变量有关系。
在不知道关于异方差的任何先验信息时，在大样本的
情况下，将OLS估计后的残差平方对解释变量的各种
形式(如常数、解释变量、解释变量的平方及其交叉
乘积等)构成一个辅助回归，利用辅助回归建立相应
的检验统计量来判断异方差性。
（本质：用解释变量的各种可能形式去试探）
18
例如两个解释变量的模型中
Yt = β1 + β 2 X 2 t + β 3 X 3 t + u t
2 2
设 t2 与 X 2 和 X 3 的关系为如下辅助回归:
t 1 2 X 2 t 3 X 3t 4 X 2 t 5 X 3t 6 X 2 t X 3t vt
2
描绘与 i2 的散点图或Y与X的散点图，作出近似判断。14 e Xi
（1）残差图形分析
设一元线性回归模型为：
Yi β1 β 2 X i u i
运用OLS法估计,得样本回归模型为：
ˆ ˆ ˆ Yi = β1 + β 2 X
i
由上两式得残差：
ˆ e i Yi - Yi
绘制出 e 2 对 X i 的散点图 i ◆如果 e i2不随 X i 而变化，则表明不存在异方差； ◆如果 e i2 随
区间的确定会出现困难 ● 由于异方差的存在， ˆ k 的方差增大，Y预测值的精确度将会下降
●在 ˆ 2 e i2 n k 是 2 无偏估计的证明 (P70附录 2.2)中也用到了 u i 的同方差性假定，由于存在异方差
性，使得 ˆ 2

ei
2
nk
的估计不再是无偏估计，
在此基础上的区间估计和假设检验都将变得不可靠。 13
差更小的估计方法
(证明见教材P155附录5.1)
11
C o v ( X i , u i ) E ( xi u i ) 0
2、解释变量的显著性检验失效
（1）参数估计式方差的确定会面临困难
例如一元回归中，可证明异方差时
ˆ* Var ( 2 )
x ( x )
2 i 2 i
2 2
i
2 i 未知，且不再是常数，也不能再用 ( e i2 ) ( n 2 ) ˆ 2