复旦大学 经济学院 谢识予 计量经济学 第六章 异方差
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
可以发现该残差平方和相当于原模型最 小二乘估计残差平方和,每一项都乘一 个权重的加权平方和,其中权重即 1 Wi =
f ( X ji )
35
因此通过上述模型变换得到的参数估计 量也称为“加权最小二乘估计”。 加权最小二乘估计正是克服线性回归模 型异方差性的针对性方法,这种方法的 实质可以理解为对方差较小部分的样本 数据的信息更加重视。
σ
2 i
= f (X
ji
)σ
2
εi
33
新模型误差项的方差为:
Var εi = f (X ji ) 1 1 Var [ε i ] = f (X f (X ji ) 1 = • f (X ji )σ 2 = σ 2 f (X ji )
2
ji
)
4
图6-1 两变量线性回归模型的异方差
Y
0
Xi
Xj
X
5
图6.1中对应线性回归模型误差项的方差 随着 X i 或i 的增大而增大,这种异方差称 为“递增异方差”,是异方差最常见的 类型。 但也有方差变化趋势与上述相反的“递 减异方差”,或者先增后减或先减后增 的其他复杂类型的异方差。
6
异方差的本质特征是误差项波动幅度的变化。 一般来说,随着经济变量数值的增大,波动幅 度往往也会相应的增大。 这一方面是因为随机因素的作用有随着经济变 量数值的增大而增大的可能,另一方面也可能 是随机性因素本身的变化规律作用的结果,此 外也可能是观测和统计误差随着经济变量数值 的增大而放大的结果。这些因素最终都可能导 致线性回归模型误差项异方差问题。
8
例如两个变量有真实关系 Y = β 0 + β1 X 2 + ε 其中误差项满足线性回归模型的所有假 设。 但如果误以为Y 和X 之间的关系是: 并认为 E (ε i′) = 0 ,那么
2
′ Y = β 0 + β1′X + ε ′
′ Var (ε i′) = E (ε i′ ) = E ε i + (β 0 − β 0 ) + β1 X − β1′X i
第六章
异方差
1
本章结构
第一节 异方差及其影响
第二节 异方差的发现和判断
第三节 异方差的克服和处理
2
第一节 异方差及其影响
一、异方差及其分类
二、异方差的危害
3
一、异方差及其分类
两变量和多元线性回归模型第三条假设 都要求误差项是同方差的,就是误差项 的方差是常数,即Var (ε ) = σ 2 不随i 变化。 i 如果这条假设不满足,这时候称线性回 归模型存在“异方差”或“异方差性” 。 异方差可以用图6.1中对应解释变量不同 观测值 X i 和 X j 的误差项,分布密度函数 形状不同加以反映。
36
[例6-1] 例
在研究某地区居民的储蓄倾向时,得到 了如表6.1的数据资料。判断用线性回归 模型研究居民储蓄倾向时,误差项是否 存在异方差,以及处理的方法。 具体处理请参考eviews软件。
37
表6.1 个人收入和储蓄数据
n
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 储蓄 264 105 90 131 122 107 406 503 431 588 898 950 779 819 1222 1702 收入 8777 9210 9954 10508 10979 11912 12747 13499 14269 15522 16730 17663 18575 19635 21163 22880
e
e
0
X
j
(a )
0
(b )
X
j
e
0
(c)
Xj
28
可以通过回归方法拟合 e 与 X j 之间的关 系。如果经过检验确定两者之间确实存 在显著的函数关系,那么表明异方差确 实存在。 通常拟合的回归模型是 e = α + βX lj + ε , 其中l 根据图6.3中的分布形态,可以在 1 l = 1,2,−1或 中选择。
26
戈里瑟检验的思路是:模型误差项的异 方差性会在回归残差序列的分布中反映 出来,通常表现为随解释变量(或某个 解释变量)变化的某种规律性。 因为方差与误差项的符号无关,因此考 察 ei 的分布情况。那么在存在明显异方 差性时,ei 会有明显的随解释变量变化的 趋势。
27
图6.3 异方差的戈里瑟检验
2
29
当 l ≠ 1时,先作一个简单变换,然后用 最小二乘法估计 α 和 β 的估计值,对β 的 显著性检验等价于对模型误差项是否存 在异方差性的检验。 如果 β 确实存在显著性,说明模型确实 存在异方差性。 异方差的具体模式也可以根据上述回归 方程判断。
30
与戈里瑟检验相似的另一种检验方法, 是根据对残差序列和残差平方序列的直 观分析,采用适当的 f (X j )函数形式,对 e2 = σ 2 f (X j )eε 进行回归拟合 e 2与 X j 模型 的关系,并通过检验它们之间是否存在 显著关系判断原模型误差项是否有异方 差问题。 f (X j )的函数形式反映原模型异方差的模 式。 31
32
如线性回归模型 Yi = β 0 + β 1 X 1i + L + β K X Ki + ε i 经检验,知误差项有如下形式的异方差性: 可以用 f (X ji )除模型的各项,得到
f (X ji ) Yi = β0 f (X ji ) 1 + β1 f (X ji ) X 1i +L+ βK f (X ji ) X Ki + f (X ji )
11
最小二乘估计量方差确定的困难,则会 对以参数估计量的统计性质和分布特征 为基础的统计推断等分析,以及区间估 计和区间预测等造成严重影响,使这些 统计推断失去基础。
12
第二节 异方差的发现和判断
一、 残差序列图分析
二、 戈德菲尔德-百度文库特检验
三、 戈里瑟检验
13
一、残差序列分析
利用模型回归残差序列的分布形态进行分析, 是发现和判断异方差问题的基本方法。 以i 或 X k 为横轴,残差e为纵轴,作残差序列的 分布图形,那么模型不存在异方差问题时,回 归残差应该均匀地分布在横轴上下的一定范围 内,如图6.2(a)。 如果残差序列的分布形态如图6.2(b),ei的 分布有随着 X k 的增大而越分散的趋势,那么应 该怀疑存在异方差性,而且是递增异方差。
10
二、异方差的危害
异方差对以最小二乘估计为核心的线性 回归分析的作用和价值有严重影响。 异方差虽然不会影响最小二乘估计的无 偏性,但最小二乘估计量方差的估计和 最小方差性,都是以模型误差项同方差 假设为基础的。 当线性回归模型的误差项存在异方差问 题时,普通最小二乘估计不再是方差最 小的估计,某种形式的加权最小二乘估 计才是最小方差的有效估计。
(c)
e
i
(X k )
(d)
e
i
(X k )
17
图6.2 异方差的发现和识别
(e)
e
i
(X k )
(f)
e
i
(X k )
18
残差序列图分析虽然直观简便,但有时 无法作出明确的判断,特别是残差分布 形态不很典型时很难得出结论。 为此提出了一些更严密的判断方法,戈 德菲尔德-夸特(Goldfeld-Quandt)检验 和戈里瑟(Glejser)检验是其中比较常 见的两种。
第三节 异方差的克服和处理
处理异方差,首先可以利用增长率具有 消除随着数据数值增大而波动幅度增大 问题的作用,通过改用增长模型来消除 或避免异方差问题。 但这些方法比较盲目,效果如何需要事 后的检验评价判断。 处理异方差更主要的方法,是根据异方 差的具体形式,通过对模型的相应变换 等,针对性地克服异方差问题。
19
二、戈德菲尔德-夸特检验
这种方法适合检验样本容量较大的线性 回归模型的递增或递减型异方差性。 我们以递增异方差为例说明戈-夸检验的 思路和方法。 模型存在递增异方差时会在回归残差序 列的分布中反映出来,表现为其发散程 度随某个解释变量的增大而不断增大。
20
如果将样本按 X i 排序,那么对应较小 X i 的回归残差,平均将明显小于对应较大 的 X i 的回归残差。 把按 X i 排序的观测样本分成数目相同的 两部分,并为了加强显著性起见,去掉 中间占样本总数大约1/4到1/3的部分样 本,同时注意使剩余样本数为偶数。
14
图6.2 异方差的发现和识别
(a) e
i
(X k )
(b) e
i
(X k )
15
如果残差序列分布形态如图6.2(c)或 (d),应该考虑递减异方差或复杂异方 差的可能性。 如果残差序列分布形态如图6.2(e)或 (f),应该考虑假性异方差,也就是参 数变化或函数设定偏差的可能性等。
16
图6.2 异方差的发现和识别
• σ i2
显然已经不存在异方差问题。用这个新模型进 行线性回归分析,可以克服原模型的异方差问 题,同样可以得到原模型所有参数的估计。
34
考察上述新模型最小二乘估计的回归残 差平方和:
1 (Yi − b0 − b1 X 1i − L − bK X Ki ) V = ∑ i f ( X ji )
21
对两个子样本分别进行回归,并计算这 两组样本各自的回归残差平方和,若这 两个残差平方和有明显差异或者它们之 比明显异于1,就表明存在递增异方差问 题。 可以利用F 检验确定上述残差平方和之 比是否异于1。
22
最小二乘估计的回归残差平方和服从卡 方分布,因此用上述两个残差平方和可 以构造统计量 n − c
2 i
[
(
)]
2
9
′ ) + β1 X i2 − β1′X i ,则 若记 A( X i ) = (β 0 − β 0
′) = E[ε i + A( X i )]2 = σ 2 + A2 ( X i ) Var (ε i
(
)
因此Var (ε i′) 是 X i的函数,即模型表现出 异方差性。 这种异方差本质上与误差项波动变化的 异方差是不同的,是模型误差项均值非 零的系统偏差导致的,我们称这种异方 差为“假性的”。
的F分布。 若给定显著性水平λ ,则可以从F 分布表 中查出对应上述自由度的临界值 Fλ 。 如果计算到的F 统计量值 F > Fλ,则可认 为两个残差平方和之比明显大于1,误差 项存在明显的递增异方差性。
24
n−c 这个F 统计量服从两自由度为 2 − K − 1
如果 1 ≤ F ≤ Fλ ,则认为误差项没有明显 的异方差性。事实上F 越大,则表明异 方差性越严重。 检验递减异方差性的方法是相似的。只 要把前面构造的F统计量的分子分母互换, 就完全可以用同样的程序检验模型是否 存在递减型异方差问题。 对于复杂形态的异方差性,戈-夸检验无 法应用。
25
三、戈里瑟检验
戈-夸检验有一个缺点,就是无法确定异方差的 具体模式,即方差是如何随解释变量或样本序 数而变化的。 由于异方差的具体模式对于克服异方差有重要 作用,因此戈-夸检验这方面的弱点对它的价值 有很大影响。 “戈里瑟(Gleiser)检验”或与它相似的其他 检验方法,在识别、确定异方差类型方面比戈夸检验更有效,但在判断异方差的存在性方面 也许略微不如戈-夸检验。
ei22 − K − 1 ∑ ei22 ∑ 2 = i2 F = i2 n−c ∑ ei2 1 ei2 − K − 1 ∑ 1 2 i1 i1 ei2 表示对应较小 X 样本的残差平 其中 ∑ 1
i1
i
方和。 ei22 ∑ 则表示对应较大 X i 样本的残差平方 i2 23 和,c是去掉的中间部分样本数目。
7
由于数据和随机误差项性质的差异,一 般来说异方差问题在截面数据的线性回 归分析中更加常见,在时间序列数据中 则相对要少一些。 值得注意的是,当线性回归模型存在解 释变量缺落、函数形式不准和参数改变 等模型定式误差问题时也会表现出与异 方差相似的特征,容易与由误差项变动 幅度变化引起的真正异方差混淆。
38
数据在坐标平面上的散点分布
n
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
储蓄 1578 1654 1400 1829 2200 2017 2105 1600 2250 2420 2570 1720 1900 2100 2300
收入 24127 25604 26500 27670 28300 27430 29560 28150 32100 32500 35250 33500 36000 36200 38200
可以发现该残差平方和相当于原模型最 小二乘估计残差平方和,每一项都乘一 个权重的加权平方和,其中权重即 1 Wi =
f ( X ji )
35
因此通过上述模型变换得到的参数估计 量也称为“加权最小二乘估计”。 加权最小二乘估计正是克服线性回归模 型异方差性的针对性方法,这种方法的 实质可以理解为对方差较小部分的样本 数据的信息更加重视。
σ
2 i
= f (X
ji
)σ
2
εi
33
新模型误差项的方差为:
Var εi = f (X ji ) 1 1 Var [ε i ] = f (X f (X ji ) 1 = • f (X ji )σ 2 = σ 2 f (X ji )
2
ji
)
4
图6-1 两变量线性回归模型的异方差
Y
0
Xi
Xj
X
5
图6.1中对应线性回归模型误差项的方差 随着 X i 或i 的增大而增大,这种异方差称 为“递增异方差”,是异方差最常见的 类型。 但也有方差变化趋势与上述相反的“递 减异方差”,或者先增后减或先减后增 的其他复杂类型的异方差。
6
异方差的本质特征是误差项波动幅度的变化。 一般来说,随着经济变量数值的增大,波动幅 度往往也会相应的增大。 这一方面是因为随机因素的作用有随着经济变 量数值的增大而增大的可能,另一方面也可能 是随机性因素本身的变化规律作用的结果,此 外也可能是观测和统计误差随着经济变量数值 的增大而放大的结果。这些因素最终都可能导 致线性回归模型误差项异方差问题。
8
例如两个变量有真实关系 Y = β 0 + β1 X 2 + ε 其中误差项满足线性回归模型的所有假 设。 但如果误以为Y 和X 之间的关系是: 并认为 E (ε i′) = 0 ,那么
2
′ Y = β 0 + β1′X + ε ′
′ Var (ε i′) = E (ε i′ ) = E ε i + (β 0 − β 0 ) + β1 X − β1′X i
第六章
异方差
1
本章结构
第一节 异方差及其影响
第二节 异方差的发现和判断
第三节 异方差的克服和处理
2
第一节 异方差及其影响
一、异方差及其分类
二、异方差的危害
3
一、异方差及其分类
两变量和多元线性回归模型第三条假设 都要求误差项是同方差的,就是误差项 的方差是常数,即Var (ε ) = σ 2 不随i 变化。 i 如果这条假设不满足,这时候称线性回 归模型存在“异方差”或“异方差性” 。 异方差可以用图6.1中对应解释变量不同 观测值 X i 和 X j 的误差项,分布密度函数 形状不同加以反映。
36
[例6-1] 例
在研究某地区居民的储蓄倾向时,得到 了如表6.1的数据资料。判断用线性回归 模型研究居民储蓄倾向时,误差项是否 存在异方差,以及处理的方法。 具体处理请参考eviews软件。
37
表6.1 个人收入和储蓄数据
n
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 储蓄 264 105 90 131 122 107 406 503 431 588 898 950 779 819 1222 1702 收入 8777 9210 9954 10508 10979 11912 12747 13499 14269 15522 16730 17663 18575 19635 21163 22880
e
e
0
X
j
(a )
0
(b )
X
j
e
0
(c)
Xj
28
可以通过回归方法拟合 e 与 X j 之间的关 系。如果经过检验确定两者之间确实存 在显著的函数关系,那么表明异方差确 实存在。 通常拟合的回归模型是 e = α + βX lj + ε , 其中l 根据图6.3中的分布形态,可以在 1 l = 1,2,−1或 中选择。
26
戈里瑟检验的思路是:模型误差项的异 方差性会在回归残差序列的分布中反映 出来,通常表现为随解释变量(或某个 解释变量)变化的某种规律性。 因为方差与误差项的符号无关,因此考 察 ei 的分布情况。那么在存在明显异方 差性时,ei 会有明显的随解释变量变化的 趋势。
27
图6.3 异方差的戈里瑟检验
2
29
当 l ≠ 1时,先作一个简单变换,然后用 最小二乘法估计 α 和 β 的估计值,对β 的 显著性检验等价于对模型误差项是否存 在异方差性的检验。 如果 β 确实存在显著性,说明模型确实 存在异方差性。 异方差的具体模式也可以根据上述回归 方程判断。
30
与戈里瑟检验相似的另一种检验方法, 是根据对残差序列和残差平方序列的直 观分析,采用适当的 f (X j )函数形式,对 e2 = σ 2 f (X j )eε 进行回归拟合 e 2与 X j 模型 的关系,并通过检验它们之间是否存在 显著关系判断原模型误差项是否有异方 差问题。 f (X j )的函数形式反映原模型异方差的模 式。 31
32
如线性回归模型 Yi = β 0 + β 1 X 1i + L + β K X Ki + ε i 经检验,知误差项有如下形式的异方差性: 可以用 f (X ji )除模型的各项,得到
f (X ji ) Yi = β0 f (X ji ) 1 + β1 f (X ji ) X 1i +L+ βK f (X ji ) X Ki + f (X ji )
11
最小二乘估计量方差确定的困难,则会 对以参数估计量的统计性质和分布特征 为基础的统计推断等分析,以及区间估 计和区间预测等造成严重影响,使这些 统计推断失去基础。
12
第二节 异方差的发现和判断
一、 残差序列图分析
二、 戈德菲尔德-百度文库特检验
三、 戈里瑟检验
13
一、残差序列分析
利用模型回归残差序列的分布形态进行分析, 是发现和判断异方差问题的基本方法。 以i 或 X k 为横轴,残差e为纵轴,作残差序列的 分布图形,那么模型不存在异方差问题时,回 归残差应该均匀地分布在横轴上下的一定范围 内,如图6.2(a)。 如果残差序列的分布形态如图6.2(b),ei的 分布有随着 X k 的增大而越分散的趋势,那么应 该怀疑存在异方差性,而且是递增异方差。
10
二、异方差的危害
异方差对以最小二乘估计为核心的线性 回归分析的作用和价值有严重影响。 异方差虽然不会影响最小二乘估计的无 偏性,但最小二乘估计量方差的估计和 最小方差性,都是以模型误差项同方差 假设为基础的。 当线性回归模型的误差项存在异方差问 题时,普通最小二乘估计不再是方差最 小的估计,某种形式的加权最小二乘估 计才是最小方差的有效估计。
(c)
e
i
(X k )
(d)
e
i
(X k )
17
图6.2 异方差的发现和识别
(e)
e
i
(X k )
(f)
e
i
(X k )
18
残差序列图分析虽然直观简便,但有时 无法作出明确的判断,特别是残差分布 形态不很典型时很难得出结论。 为此提出了一些更严密的判断方法,戈 德菲尔德-夸特(Goldfeld-Quandt)检验 和戈里瑟(Glejser)检验是其中比较常 见的两种。
第三节 异方差的克服和处理
处理异方差,首先可以利用增长率具有 消除随着数据数值增大而波动幅度增大 问题的作用,通过改用增长模型来消除 或避免异方差问题。 但这些方法比较盲目,效果如何需要事 后的检验评价判断。 处理异方差更主要的方法,是根据异方 差的具体形式,通过对模型的相应变换 等,针对性地克服异方差问题。
19
二、戈德菲尔德-夸特检验
这种方法适合检验样本容量较大的线性 回归模型的递增或递减型异方差性。 我们以递增异方差为例说明戈-夸检验的 思路和方法。 模型存在递增异方差时会在回归残差序 列的分布中反映出来,表现为其发散程 度随某个解释变量的增大而不断增大。
20
如果将样本按 X i 排序,那么对应较小 X i 的回归残差,平均将明显小于对应较大 的 X i 的回归残差。 把按 X i 排序的观测样本分成数目相同的 两部分,并为了加强显著性起见,去掉 中间占样本总数大约1/4到1/3的部分样 本,同时注意使剩余样本数为偶数。
14
图6.2 异方差的发现和识别
(a) e
i
(X k )
(b) e
i
(X k )
15
如果残差序列分布形态如图6.2(c)或 (d),应该考虑递减异方差或复杂异方 差的可能性。 如果残差序列分布形态如图6.2(e)或 (f),应该考虑假性异方差,也就是参 数变化或函数设定偏差的可能性等。
16
图6.2 异方差的发现和识别
• σ i2
显然已经不存在异方差问题。用这个新模型进 行线性回归分析,可以克服原模型的异方差问 题,同样可以得到原模型所有参数的估计。
34
考察上述新模型最小二乘估计的回归残 差平方和:
1 (Yi − b0 − b1 X 1i − L − bK X Ki ) V = ∑ i f ( X ji )
21
对两个子样本分别进行回归,并计算这 两组样本各自的回归残差平方和,若这 两个残差平方和有明显差异或者它们之 比明显异于1,就表明存在递增异方差问 题。 可以利用F 检验确定上述残差平方和之 比是否异于1。
22
最小二乘估计的回归残差平方和服从卡 方分布,因此用上述两个残差平方和可 以构造统计量 n − c
2 i
[
(
)]
2
9
′ ) + β1 X i2 − β1′X i ,则 若记 A( X i ) = (β 0 − β 0
′) = E[ε i + A( X i )]2 = σ 2 + A2 ( X i ) Var (ε i
(
)
因此Var (ε i′) 是 X i的函数,即模型表现出 异方差性。 这种异方差本质上与误差项波动变化的 异方差是不同的,是模型误差项均值非 零的系统偏差导致的,我们称这种异方 差为“假性的”。
的F分布。 若给定显著性水平λ ,则可以从F 分布表 中查出对应上述自由度的临界值 Fλ 。 如果计算到的F 统计量值 F > Fλ,则可认 为两个残差平方和之比明显大于1,误差 项存在明显的递增异方差性。
24
n−c 这个F 统计量服从两自由度为 2 − K − 1
如果 1 ≤ F ≤ Fλ ,则认为误差项没有明显 的异方差性。事实上F 越大,则表明异 方差性越严重。 检验递减异方差性的方法是相似的。只 要把前面构造的F统计量的分子分母互换, 就完全可以用同样的程序检验模型是否 存在递减型异方差问题。 对于复杂形态的异方差性,戈-夸检验无 法应用。
25
三、戈里瑟检验
戈-夸检验有一个缺点,就是无法确定异方差的 具体模式,即方差是如何随解释变量或样本序 数而变化的。 由于异方差的具体模式对于克服异方差有重要 作用,因此戈-夸检验这方面的弱点对它的价值 有很大影响。 “戈里瑟(Gleiser)检验”或与它相似的其他 检验方法,在识别、确定异方差类型方面比戈夸检验更有效,但在判断异方差的存在性方面 也许略微不如戈-夸检验。
ei22 − K − 1 ∑ ei22 ∑ 2 = i2 F = i2 n−c ∑ ei2 1 ei2 − K − 1 ∑ 1 2 i1 i1 ei2 表示对应较小 X 样本的残差平 其中 ∑ 1
i1
i
方和。 ei22 ∑ 则表示对应较大 X i 样本的残差平方 i2 23 和,c是去掉的中间部分样本数目。
7
由于数据和随机误差项性质的差异,一 般来说异方差问题在截面数据的线性回 归分析中更加常见,在时间序列数据中 则相对要少一些。 值得注意的是,当线性回归模型存在解 释变量缺落、函数形式不准和参数改变 等模型定式误差问题时也会表现出与异 方差相似的特征,容易与由误差项变动 幅度变化引起的真正异方差混淆。
38
数据在坐标平面上的散点分布
n
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
储蓄 1578 1654 1400 1829 2200 2017 2105 1600 2250 2420 2570 1720 1900 2100 2300
收入 24127 25604 26500 27670 28300 27430 29560 28150 32100 32500 35250 33500 36000 36200 38200