第六章 异方差的性质
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四、异方差的克服和处理
如线性回归模型为 Yi 0 1 X 1i K X Ki i 经检验,误差项有如下异方差性
i2 f X ji 2
可以用 f X ji 除模型各项,得到
f X ji Yi 0 f X ji 1 1 f X ji X 1i K
n
12 13 14 15 16 17 18 19 20 21 22
ຫໍສະໝຸດ Baidu储蓄
950 779 819 1222 1702 1578 1651 1400 1829 2200 2017
收入
17663 18575 19635 21163 22880 24127 25604 26500 27670 28300 27430
异方差产生的原因
3.随着数据采集技术的改进, i2可能减小。例如,有 精巧数据处理设备的银行,在他们对账户的每月或 每季收支说明书中,比之于没有这种设备的银行, 会出现更少的差错。 4.异方差还会异常值的出现而产生。 5.异方差还会因为模型的设定错误而产生。
案例分析
例:截面资料下研究居民家庭的储蓄行为 Yi=0+1Xi+i Yi:第i个家庭的储蓄额 Xi:第i个家庭的可支 配收入 高收入家庭:储蓄的差异较大 低收入家庭:储蓄则更有规律性,差异较 小 i的方差呈现单调递增型变化
在研究某地区居民的储蓄倾向时,得到了如表6-1所示的数据 资料。判断用线性回归模型研究居民储蓄倾向时,误差项是否 存在异方差,并给出处理的方法。 储蓄S
264 105 90 131 122 107 406 503 431 588 898
n
1 2 3 4 5 6 7 8 9 10 11
收入i
8777 9210 9954 10508 10979 11912 12747 13499 14269 15522 16730
戈里瑟检验
ei ii i
常数项不显著,去掉再回归
戈里瑟检验
ei I i i
戈里瑟检验
ei 1 i Ii
戈里瑟检验
ei I i2 i
由于根据残差序列图可看出回归残差的绝对值有随X 线性增长的趋势,因此考虑直接对模型做变换为
Si 0 i 1 Ii Ii Ii
S/I的残差序列图
Si i 1 2 Ii Ii Ii Ii
S/i^0.5的残差序列图
Si 0 Ii i 1 ei ei ei ei
S/E的残差序列图
e
e
Xj
0
a
0
b
Xj
e
0
c
Xj
(三)戈里瑟检验
通常拟合 e 和 X j 之间的回归模型:
e X
l j
根据图形中的分布选择
1 l 1,2,1或 2
Xj
j
还可以拟合 e 2 和
之间的回归模型
e 2 2 f X
e
(四)怀特检验
怀特检验是通过建立辅助回归模型的方式来判断异方差的。 不妨设回归模型为三变量线性回归模型:
Yi 0 1 X 1i 2 X 2i i
怀特检验的具体步骤为: (1)估计回归模型,得到每一个残差的平方ei
2
(2)估计辅助回归模型: 2 ei2 0 1 X 1i 2 X 2i 3 X 12i 4 X 2i 5 X 1i X 2i i 即将残差平方关于所有解释变量的一次项、二次项和交 叉乘积项进行回归。若继续引入高次项会使自由度下降, 故一般只引入二次项。
A X i 0 0 1 X i2 1 X i
Var i E i 2 E i 0 0 1 X i2 1 X i
2
异方差的危害
1、参数估计量非有效 OLS估计量仍然具有无偏性,但不具有 有效性 因为在有效性证明中利用了 E(’)=2I 而且,在大样本情况下,尽管参数估 计量具有一致性,但仍然不具有渐近有效 性。
(四)怀特检验
(3)得到辅助回归模型中的可决系数R的平方。可以证明, 在同方差的假定下,即在原假设为:
H 0 : 1 2 3 4 5 0
渐进的有: nR 2 ~ 2 (q)
自由度q为辅助回归模型中解释变量的个数。
nR2 2 (q) (4)对于给定的显著性水平,若
e
i
X k
(b)
e
i
X k
(c)
e
i
X k
(d)
e
i
X k
(e)
e
i
X k
(f)
e
i
X k
(二)戈德菲尔德-夸特检验
戈德菲尔德-夸特检验是最常用的异方差专门检 验方法之一。这种方法适合于检验样本容量较大 的线性回归模型的递增或递减型异方差性。 对于存在递增异方差模型,步骤:首先将样本按 X值的大小顺序将观测值排列,然后略去居中的C 个观测值,并将其余的(n-C)个观测值分成两组, 每组(n-C)/2个,分别对两个子样本进行回归, 并分别获得残差平方和,自由度都为(n-C)/2K-1。
检验思路: 由于异方差性就是相对于不同的解释变 量观测值,随机误差项具有不同的方差。 那么: 检验异方差性,也就是检验随机误差项 的方差与解释变量观测值之间的相关性及 其相关的“形式”。
(一)残差序列分析 (二)戈德菲尔德-夸特检验 (三)戈里瑟检验 (四)怀特检验
(一)残差序列分析
(a)
2、变量的显著性检验失去意义
变量的显著性检验中,构造了t统计量
其他检验也是如此。
3、模型的预测失效
一方面,由于上述后果,使得模型不具有良好的 统计性质;
所以,当模型出现异方差性时,参数 OLS估计值的变异程度增大,从而造成对Y 的预测误差变大,降低预测精度,预测功能 失效。
三、异方差的发现和判断
第六章 异方差
异方差
一、异方差及其影响 二、假性异方差 三、异方差的发现和判断 四、异方差的克服和处理
引子:更为接近真实的结论是什么?
根据四川省2000年21个地市州医疗机构数与人口数资料,分 析医疗机构与人口数量的关系,建立卫生医疗机构数与人 口数的回归模型。对模型估计的结果如下:
ˆ Yi -563.0548 5.3735 X i
2
对新模型进行最小二乘估计的残差平方和
1 Yi b0 b1 X 1i bK X Ki V i f X ji
2
加权最小二乘法
加权最小二乘法 在上述公式中的 Wi =
1 f X ji
理解成权重,则构成了“加权最小二乘法”
例6--1
i f X ji f X ji
X Ki
四、异方差的克服和处理
新模型的误差项方差为
1 1 i Var i Var i2 f X ji f X ji f X ji 1 f X ji 2 2 f X ji
n
23 24 25 26 27 28 29 30 31
储蓄
2105 1600 2250 2420 2570 1720 1900 2100 2300
收入
29560 28150 32100 32500 35250 33500 36000 36200 38200
I与S的散点图
对样本进行线性回归的结果
怀特检验结果
R2 0.785456 R 2 0.774146
t (-1.931062) (8.340265)
(291.5778) (0.644284)
F 69.56003
式中 Y表示卫生医疗机构数(个), (万人)。
X 表示人口数量
模型显示的结果和问题
●人口数量对应参数的标准误差较小; ● t统计量远大于临界值,可决系数和修正的可决系 数结果较好,F检验结果明显显著; 表明该模型的估计效果不错,可以认为人口数量 每增加1万人,平均说来医疗机构将增加5.3735人。 然而,这里得出的结论可能是不可靠的,平均说来每增加1 万人口可能并不需要增加这样多的医疗机构,所得结论并 不符合真实情况。 有什么充分的理由说明这一回归结果不可靠呢?更为接近 真实的结论又是什么呢?
异方差产生的原因
普遍性:两类数据都有,横截面数据更多。 原因:
1.按照边错边改学习模型,人们在学习过程中,其行为误 2 差随时间而减少。在这种情形下,方差 i 会逐渐变小。 例如,随着打字练习小时数的增加,不仅平时打错的个 数而且打错的方差都有所下降。 2.随着收入的增长,人们有更多的备用收入,从而如何支 配他们的收入有更大的选择范围。因此,在作出储蓄对 收入的回归时,很可能发现,由于人们对其储蓄行为有 更多的选择, i2 与收入俱增。因此,以增长为导向的公 司比之于已发展定型的公司在红利支付方面也可能表现 更多的变异。
(二)戈德菲尔德-夸特检验
对于递减异方差性模型,检验的方法相似, 只要把前面构造的F统计量的分子分母互 换,就可以用同样的程序检验模型是否存 在递减型的异方差问题。 但该方法的有效性还依赖于C的选择,还 有,当模型出现多于一个X变量时,就可 以按任意一个X变量的大小顺序将观测值 排列。
(三)戈里瑟检验
,则拒 绝原假设,模型存在异方差性,反之,则认为不存在 异方差性。
(四)怀特检验
在Eviews中首先对原模型进行回归,然后 在窗口中点击View\Residual Test\White Heteroskedasticity. 此时可选择是否包含交叉乘积项,若是原模 型只包含一个解释变量,辅助回归模型中 就没有交叉乘积项,若是含有两个及两个 以上解释变量,就应选择含有交叉乘积项。
一、异方差及其影响
异方差可以表示为
Var i i2
12 或 2 2 Ω Varε Eεε n2 即对于不同的样本点,随机误差项的方差不再是常
数,而互不相同,则认为出现了异方差性。
残差序列图
戈德菲尔德-夸特检验
对第一个样本进行回归结果
戈德菲尔德-夸特检验
对第二个样本进行回归结果
F=749990.8/150867.9=4.97
这两个统计量的自由度都为11-1-1=9,查表 得显著性水平为0.05的临界值为F(9,9)= 3.18,而4.97>3.18,意味着两个残差平方和有 显著差异,也就是原模型误差项有明显的异方差 性。
二、假性异方差
有些定式误差也会表现出异方差的特征 Y 0 1 X 2 例:真实关系为 ,其中 满足线性回归模型所有假设,包括 E i 0 Var i 2 。 和 如果误以为模型为 Y 0 1X ,那么
若记 2 Var i E i A X i 2 A 2 X i 则
(二)戈德菲尔德-夸特检验
计算统计量:
F
e
i2 i1
2 i2
e
2 i1
nc K 1 2 nc K 1 2
ei22 ei2 1
i1 i2
如果 F F ,误差项存在明显的递增异方差 性; 如果1 F F ,误差项没有明显的异方差性。