第九章 设定误差与测量误差
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
18 16 14 12 10 8 6 4 2 0 50-60 70-80
35% 30% 25% 20%
`
15% 10% 5% 0% 90-100
计量经济学
第 九 章
设定误差与测量误差
引子: 简单一定胜于复杂吗? 简单一定胜于复杂吗?
西方国家盛行“Occam`s razor”原则,意思是 “简单优于复杂”的节约性原则。经济模型永远无法 完全把握现实,在建立模型中一定的抽象和简化是 不可避免的。 在研究进口与国内生产总值的关系时,考虑到时 间趋势,建立并估计了以下模型 IM=-172.42+0.271GDP-949.12T+160.73T2-10.18T3 t=(-0.177)(5.67) (-2.22) (2.20) (-2.74) (1) R2=0.991 F=272.95 DW=1.97
因此,有可能: 因此,有可能:
)2
)2
RSSv (n − 2) > RSSu (n − 3);
15
不相关, (2)若 X 3与 X 2 不相关,有 r = 0 和 ∑ x2i x3i ) ) ˆ E (α 2 ) = β 2 ;Var ( β 2 ) = Var (α 2 ); 似乎分别有: 似乎分别有:
(1) 若 X 3与 X 2 相关, r ≠ 0,显然,Var (α2 ) ≠ Var β2
2 23
)
( )
)
似乎有:Var (α2 ) < Var β2 ; 但实际情形并不完全如此。 但实际情形并不完全如此。
的计算: 可以注意到残差平方和 RSS 的计算:
)
( )
)
ον = RSS v ( n − 2) ≠ RSS u ( n − 3) = ο u ;
2 x2i ∑
σ
2
ˆ Var(β2 ) =
∑ x2i x3i ) 2 ∑ x2i (1− x2 x2 ∑ 2i ∑ 3i
σ2
=
2 2 x2i (1− r23 ) ∑
σ2
如果X3与X2相关,显然有 如果X3与X2不相关,也有
ˆ ˆ Var(α2 ) ≠ Var(β2 )
ˆ ˆ Var (α2 ) ≠ Var (β2 )
yi = β2 x2i + β2 x3i + (ui − u )
Yi = α1 + α 2 X 2i +ν i 进行回归,得
取期望
∑ x x + ∑ x (u − u ) ˆ α =β +β ∑x ∑x ) ∑ x2i x3i + ∑ x2i (ui − u ) E (α2 ) = E β2 + β3 2 2 ∑ x2i ∑ x2i
n →∞ n →∞
即OLS估计量在小样本下有偏,在大样本下非一致。 (2) 如果X3与X2不相关,则α2的估计满足无偏性与 一致性;但这时α1的估计却是有偏的。
12
ˆ ˆ (3) α2 的方差是 β 2 方差的有偏估计:
由 Y=α1+α2X2+v 得
ˆ Var (α 2 ) =
由 Y=β1+β2X2+β3X3+u 得
2 23
2 x2i = 0; ∑
若这两个等式成立, 若这两个等式成立,意味着尽管变量 X 3 ,在理论上分析是有 关的变量,但从所选模型中略去似乎也不会导致什么危害。 关的变量,但从所选模型中略去似乎也不会导致什么危害。 这种认识实际也不正确。 这种认识实际也不正确。 因为
σu RSSu n − 3 ) ˆ σv RSSv n − 2 ) ) Var (α2 ) = = 是 Var (β2 ) = x2 = 2 2 2 x2i ∑ 2i ∑ ∑ x2i ∑ x2i ) ) ) ) 的有偏估计, 不相关, 的有偏估计,即使 X 3 与 X 2 不相关,也有 Var ( β 2 ) ≠ Var (α 2 ),
13
(4) 遗漏变量 X 3 式中的随机扰动项 v i 的方差估计量 )2 )2 E ο v ≠ ο u2 ο v = RSS v ( n − 2) 将是有偏的,即:
( )
(5)与方差相关的检验,包括假设检验、区间估计 等,在关于参数的统计显著性方面,都容易导出错误 的结论。
14
特别注意的两点:
2
有人根据“简单优于复杂”原则,得到以下方程: IM=-217.186+0.173GDP t= (-0.5) (16.94) (2) R2=0.960 F=286.95 DW=0.735 进行比较: 两个方程的检验结果都较理想; 方程(2)GDP的t检验值似乎优于方程(1); 方程(2)函数形式也更为简单;
2 2 3 2 i 3i 2 2i 2i i 2 2i
11
遗漏变量设定误差的后果
两边取概率极限,有:
^
Cov ( X 2i , X 3i ) Cov ( X 2i , ui ) p lim α 2 = β2 + β3 + Var ( X 2i ) Var ( X 2i ) n →∞
由此可以看出,X3的遗漏将产生如下后果: (1) 如果漏掉的X3与X2相关,则分别在小样本下求期 望、在大样本下求概率极限,有: ) ) ) ) E (α1 ) ≠ β1 , E (α 2 ) ≠ β2且 p lim(α1 ) ≠ β1; p lim(α 2 ) ≠ β 2
9
二、变量设定误差的后果
当模型设定出现误差时,模型估计结果也会与 “实际”有偏误; 偏误的性质与程度与模型设定误差的类型密切 相关; 从实质上看,变量设定误差的主要后果,是一 个或多个解释变量与随机扰动项之间存在着 相关性,进而影响参数估计的统计特性。
10
1、遗漏相关变量(欠拟合)偏误
采用遗漏了重要解释变量的模型进行估计而带来的 偏误,称为遗漏相关变量偏误。 设正确的模型为: Yi = β1 + β 2 X 2i + β 3i X 3i + ui 正确模型离差形式为 却对:
7
2、无关变量的误选
(Including Irrevelant Variables)
例如,Leabharlann Baidu果“真实模型”为:
Yi = β 1 + β 2 X 2 i + β 3 X 3 i + µ i
但我们却将模型设定为
Yi = α 1 + α 2 X 2 i + α 3 X 3 i + α 4 X 4 i + ν i
20
21
第二节 设定误差的检验
对变量设定误差进行检验必须在经济理论指导 下进行,不可抛弃经济理论而进行假设检验。 对于是否误选无关变量的检验,只要针对无关 变量系数的期望值为零的假设,用t检验或F检 验,对无关变量系数作显著性检验即可。 对于遗漏变量设定误差的检验有多种方法,例 如DW检验、拉格朗日乘数检验、豪斯曼检验 、RESET 一般性检验等。 这里只讨论设定误差的一些最常用的检验方法。
22
一、 DW检验 检验
ˆ α2 = β2 +
2 (∑x3i )(∑x2i (ui −u)) −(∑x2i x3i )(∑x3i (ui −u)) 2 2 x2i ∑x3i −(∑x2i ∑x3i )2 ∑
ˆ 求期望: E (α 2 ) = β 2
方差: Var (α ) = ˆ2
∑
σ v2
2 2 x 2 i (1 − r23 )
所有这些,计量经济学中被统称为设定误差。
5
设定误差的类型
从误差来源看,设定误差主要包括: (1)变量的设定误差,包括相关变量的遗漏(欠拟 合)、无关变量的误选(过拟合); (2)变量数据的测量误差; (3)模型函数形式的设定误差; (4)随机扰动项设定误差。 本章主要讨论的两类变量设定误差: (1)相关变量的遗漏(欠拟合); (2)无关变量的误选(过拟合)。
18
无关变量的设定误差的后果
1. 可以证明,(2)式参数的OLS估计量是无偏,且 ) 为一致性的。即: E (α 2 ) = β 2 , p lim α 2 = β 2 ˆ n→ ∞ 同理,可证明: ) ) ) ) E(α1 ) = β1 , E(α3 ) = β3 = 0, p limα1 = β1和 p limα3 = β3 = 0
即设定模型时,多选了一个无关解释变量。这 类错误称为无关变量的误选(“过拟合”)。 无关变量的误选( 过拟合” 无关变量的误选
8
设定误差的原因
●数据来源渠道可能不畅。例如,数据很难取得被 迫将具有重要的经济意义变量排斥在模型之外。 ●不知道变量应当以什么确切的函数形式出现在回 归模型中。 ●事先并不知道所研究的实证数据中所隐含的真实 模型究竟是什么。 设定误差在建模中较容易出现。设定误差的存在可能 会对模型形成不良的后果。
6
1、相关变量的遗漏(Omitting Relevant Variables)
例如,如果“正确”的模型为
Yi = β1 + β 2 X 2 i + β 3 X 3i + µi
而我们将模型设定为
Yi = α 1 + α 2 X 2 i + ν i
即设定模型时漏掉了一个相关的解释变量。 这类错误称为遗漏相关变量(“欠拟合”)。 遗漏相关变量( 欠拟合” 遗漏相关变量
)2
致使假设检验程序很有可能是可疑的。 致使假设检验程序很有可能是可疑的。 必须清楚,一旦根据相关理论把模型建立起来, 必须清楚,一旦根据相关理论把模型建立起来,再从中遗漏变量 需要充分地谨慎。 需要充分地谨慎。
16
)2
2、包含无关变量偏误
定义:模型中包括了不重要的解释变量,即采用误选了 无关解释变量的模型进行估计而带来的偏误,称为包 含无关变量偏误。 设正确模型: 但却估计了: Y= β1 + β2X2 + µ Y= α1 +α2X2 + α 3X3+ v (1) (2)
n→∞ n→∞
ˆ 2. α 2
ˆ V ar (α 2 ) 1 不是有效估计量: = 2 ˆ ) (1 − r23 ) Var ( β 2
ˆ 此结论对 α1 也成立; )2 2 E (οv ) = οu ,随机误差项的方差的估计仍为无偏估计。 3. ˆ 4. 通常的区间估计和假设检验程序依然有效,但 α 2 的方差增大,接受错误假设的概率会较高。
19
遗漏相关变量和误选无关变量的比较
遗漏相关变量——将导致参数估计量和假设检验有偏 将导致参数估计量和假设检验有偏 遗漏相关变量 且不一致; 且不一致; 误选无关变量——虽参数估计量具无偏性、一致性, 虽参数估计量具无偏性、一致性, 误选无关变量 虽参数估计量具无偏性 又会损失有效性。 又会损失有效性。 注重检验的无偏性、一致性 注重检验的无偏性、 ——宁愿误选无关变量也不愿遗漏相关变量; 宁愿误选无关变量也不愿遗漏相关变量; 宁愿误选无关变量也不愿遗漏相关变量 注重估计量的有效性——宁愿删除相关变量。 宁愿删除相关变量。 注重估计量的有效性 宁愿删除相关变量 通常误选无关变量不如遗漏相关变量的后果严重。 通常误选无关变量不如遗漏相关变量的后果严重。 因此,模型的设定实际是对偏误与有效进行权衡, 因此,模型的设定实际是对偏误与有效进行权衡,偏 爱哪一方取决于模型的研究目的。 爱哪一方取决于模型的研究目的。
如果α 3=0,则(2)与(1)相同,因此,可将(1)式 视为以α 3=0为约束的(2)式的特殊形式。 采用OLS法对(2)进行估计,有:
17
ˆ α2 =
2 x2 i yi ∑ x3i − ∑ x3i yi ∑ x2 i x3i ∑
∑x ∑x
2 2i
2 3i
− (∑ x2 i ∑ x3i )
2
将(1)式的离差形式 yi = β2 x2i + (ui − u ) 代入,整理得:
然而,能否根据“Occam’s razor”原则, 判断方程(2)比方程(1)好?
3
对模型的设定是计量经济研究的重要环节。 前面各章除了对随机扰动项 ui 分布的基本假定以外, 还强调: 假定设定的模型对变量和函数形式的设定是正 确地描述被解释变量与解释变量之间的真实关系, 假定模型中的变量没有测量误差。 但是在实际的建模实践中,对模型的设定不一定能 够完全满足这样的要求,从而会使模型出现设定误 差。
4
第一节
设定误差
一、设定误差及类型
计量经济模型是对变量间经济关系因果性的设想, 若所设定的回归模型是“正确”的,主要任务是所 选模型参数的估计和假设检验。但是如果对计量模 型的各种诊断或检验总不能令人满意,这时应把注 意力集中到模型的设定方面: 考虑所建模型是否遗漏了重要的变量? 是否包含了多余的变量? 所选模型的函数形式是否正确? 随机扰动项的设定是否合理? 被解释变量和解释变量的数据收集是否有误差?
35% 30% 25% 20%
`
15% 10% 5% 0% 90-100
计量经济学
第 九 章
设定误差与测量误差
引子: 简单一定胜于复杂吗? 简单一定胜于复杂吗?
西方国家盛行“Occam`s razor”原则,意思是 “简单优于复杂”的节约性原则。经济模型永远无法 完全把握现实,在建立模型中一定的抽象和简化是 不可避免的。 在研究进口与国内生产总值的关系时,考虑到时 间趋势,建立并估计了以下模型 IM=-172.42+0.271GDP-949.12T+160.73T2-10.18T3 t=(-0.177)(5.67) (-2.22) (2.20) (-2.74) (1) R2=0.991 F=272.95 DW=1.97
因此,有可能: 因此,有可能:
)2
)2
RSSv (n − 2) > RSSu (n − 3);
15
不相关, (2)若 X 3与 X 2 不相关,有 r = 0 和 ∑ x2i x3i ) ) ˆ E (α 2 ) = β 2 ;Var ( β 2 ) = Var (α 2 ); 似乎分别有: 似乎分别有:
(1) 若 X 3与 X 2 相关, r ≠ 0,显然,Var (α2 ) ≠ Var β2
2 23
)
( )
)
似乎有:Var (α2 ) < Var β2 ; 但实际情形并不完全如此。 但实际情形并不完全如此。
的计算: 可以注意到残差平方和 RSS 的计算:
)
( )
)
ον = RSS v ( n − 2) ≠ RSS u ( n − 3) = ο u ;
2 x2i ∑
σ
2
ˆ Var(β2 ) =
∑ x2i x3i ) 2 ∑ x2i (1− x2 x2 ∑ 2i ∑ 3i
σ2
=
2 2 x2i (1− r23 ) ∑
σ2
如果X3与X2相关,显然有 如果X3与X2不相关,也有
ˆ ˆ Var(α2 ) ≠ Var(β2 )
ˆ ˆ Var (α2 ) ≠ Var (β2 )
yi = β2 x2i + β2 x3i + (ui − u )
Yi = α1 + α 2 X 2i +ν i 进行回归,得
取期望
∑ x x + ∑ x (u − u ) ˆ α =β +β ∑x ∑x ) ∑ x2i x3i + ∑ x2i (ui − u ) E (α2 ) = E β2 + β3 2 2 ∑ x2i ∑ x2i
n →∞ n →∞
即OLS估计量在小样本下有偏,在大样本下非一致。 (2) 如果X3与X2不相关,则α2的估计满足无偏性与 一致性;但这时α1的估计却是有偏的。
12
ˆ ˆ (3) α2 的方差是 β 2 方差的有偏估计:
由 Y=α1+α2X2+v 得
ˆ Var (α 2 ) =
由 Y=β1+β2X2+β3X3+u 得
2 23
2 x2i = 0; ∑
若这两个等式成立, 若这两个等式成立,意味着尽管变量 X 3 ,在理论上分析是有 关的变量,但从所选模型中略去似乎也不会导致什么危害。 关的变量,但从所选模型中略去似乎也不会导致什么危害。 这种认识实际也不正确。 这种认识实际也不正确。 因为
σu RSSu n − 3 ) ˆ σv RSSv n − 2 ) ) Var (α2 ) = = 是 Var (β2 ) = x2 = 2 2 2 x2i ∑ 2i ∑ ∑ x2i ∑ x2i ) ) ) ) 的有偏估计, 不相关, 的有偏估计,即使 X 3 与 X 2 不相关,也有 Var ( β 2 ) ≠ Var (α 2 ),
13
(4) 遗漏变量 X 3 式中的随机扰动项 v i 的方差估计量 )2 )2 E ο v ≠ ο u2 ο v = RSS v ( n − 2) 将是有偏的,即:
( )
(5)与方差相关的检验,包括假设检验、区间估计 等,在关于参数的统计显著性方面,都容易导出错误 的结论。
14
特别注意的两点:
2
有人根据“简单优于复杂”原则,得到以下方程: IM=-217.186+0.173GDP t= (-0.5) (16.94) (2) R2=0.960 F=286.95 DW=0.735 进行比较: 两个方程的检验结果都较理想; 方程(2)GDP的t检验值似乎优于方程(1); 方程(2)函数形式也更为简单;
2 2 3 2 i 3i 2 2i 2i i 2 2i
11
遗漏变量设定误差的后果
两边取概率极限,有:
^
Cov ( X 2i , X 3i ) Cov ( X 2i , ui ) p lim α 2 = β2 + β3 + Var ( X 2i ) Var ( X 2i ) n →∞
由此可以看出,X3的遗漏将产生如下后果: (1) 如果漏掉的X3与X2相关,则分别在小样本下求期 望、在大样本下求概率极限,有: ) ) ) ) E (α1 ) ≠ β1 , E (α 2 ) ≠ β2且 p lim(α1 ) ≠ β1; p lim(α 2 ) ≠ β 2
9
二、变量设定误差的后果
当模型设定出现误差时,模型估计结果也会与 “实际”有偏误; 偏误的性质与程度与模型设定误差的类型密切 相关; 从实质上看,变量设定误差的主要后果,是一 个或多个解释变量与随机扰动项之间存在着 相关性,进而影响参数估计的统计特性。
10
1、遗漏相关变量(欠拟合)偏误
采用遗漏了重要解释变量的模型进行估计而带来的 偏误,称为遗漏相关变量偏误。 设正确的模型为: Yi = β1 + β 2 X 2i + β 3i X 3i + ui 正确模型离差形式为 却对:
7
2、无关变量的误选
(Including Irrevelant Variables)
例如,Leabharlann Baidu果“真实模型”为:
Yi = β 1 + β 2 X 2 i + β 3 X 3 i + µ i
但我们却将模型设定为
Yi = α 1 + α 2 X 2 i + α 3 X 3 i + α 4 X 4 i + ν i
20
21
第二节 设定误差的检验
对变量设定误差进行检验必须在经济理论指导 下进行,不可抛弃经济理论而进行假设检验。 对于是否误选无关变量的检验,只要针对无关 变量系数的期望值为零的假设,用t检验或F检 验,对无关变量系数作显著性检验即可。 对于遗漏变量设定误差的检验有多种方法,例 如DW检验、拉格朗日乘数检验、豪斯曼检验 、RESET 一般性检验等。 这里只讨论设定误差的一些最常用的检验方法。
22
一、 DW检验 检验
ˆ α2 = β2 +
2 (∑x3i )(∑x2i (ui −u)) −(∑x2i x3i )(∑x3i (ui −u)) 2 2 x2i ∑x3i −(∑x2i ∑x3i )2 ∑
ˆ 求期望: E (α 2 ) = β 2
方差: Var (α ) = ˆ2
∑
σ v2
2 2 x 2 i (1 − r23 )
所有这些,计量经济学中被统称为设定误差。
5
设定误差的类型
从误差来源看,设定误差主要包括: (1)变量的设定误差,包括相关变量的遗漏(欠拟 合)、无关变量的误选(过拟合); (2)变量数据的测量误差; (3)模型函数形式的设定误差; (4)随机扰动项设定误差。 本章主要讨论的两类变量设定误差: (1)相关变量的遗漏(欠拟合); (2)无关变量的误选(过拟合)。
18
无关变量的设定误差的后果
1. 可以证明,(2)式参数的OLS估计量是无偏,且 ) 为一致性的。即: E (α 2 ) = β 2 , p lim α 2 = β 2 ˆ n→ ∞ 同理,可证明: ) ) ) ) E(α1 ) = β1 , E(α3 ) = β3 = 0, p limα1 = β1和 p limα3 = β3 = 0
即设定模型时,多选了一个无关解释变量。这 类错误称为无关变量的误选(“过拟合”)。 无关变量的误选( 过拟合” 无关变量的误选
8
设定误差的原因
●数据来源渠道可能不畅。例如,数据很难取得被 迫将具有重要的经济意义变量排斥在模型之外。 ●不知道变量应当以什么确切的函数形式出现在回 归模型中。 ●事先并不知道所研究的实证数据中所隐含的真实 模型究竟是什么。 设定误差在建模中较容易出现。设定误差的存在可能 会对模型形成不良的后果。
6
1、相关变量的遗漏(Omitting Relevant Variables)
例如,如果“正确”的模型为
Yi = β1 + β 2 X 2 i + β 3 X 3i + µi
而我们将模型设定为
Yi = α 1 + α 2 X 2 i + ν i
即设定模型时漏掉了一个相关的解释变量。 这类错误称为遗漏相关变量(“欠拟合”)。 遗漏相关变量( 欠拟合” 遗漏相关变量
)2
致使假设检验程序很有可能是可疑的。 致使假设检验程序很有可能是可疑的。 必须清楚,一旦根据相关理论把模型建立起来, 必须清楚,一旦根据相关理论把模型建立起来,再从中遗漏变量 需要充分地谨慎。 需要充分地谨慎。
16
)2
2、包含无关变量偏误
定义:模型中包括了不重要的解释变量,即采用误选了 无关解释变量的模型进行估计而带来的偏误,称为包 含无关变量偏误。 设正确模型: 但却估计了: Y= β1 + β2X2 + µ Y= α1 +α2X2 + α 3X3+ v (1) (2)
n→∞ n→∞
ˆ 2. α 2
ˆ V ar (α 2 ) 1 不是有效估计量: = 2 ˆ ) (1 − r23 ) Var ( β 2
ˆ 此结论对 α1 也成立; )2 2 E (οv ) = οu ,随机误差项的方差的估计仍为无偏估计。 3. ˆ 4. 通常的区间估计和假设检验程序依然有效,但 α 2 的方差增大,接受错误假设的概率会较高。
19
遗漏相关变量和误选无关变量的比较
遗漏相关变量——将导致参数估计量和假设检验有偏 将导致参数估计量和假设检验有偏 遗漏相关变量 且不一致; 且不一致; 误选无关变量——虽参数估计量具无偏性、一致性, 虽参数估计量具无偏性、一致性, 误选无关变量 虽参数估计量具无偏性 又会损失有效性。 又会损失有效性。 注重检验的无偏性、一致性 注重检验的无偏性、 ——宁愿误选无关变量也不愿遗漏相关变量; 宁愿误选无关变量也不愿遗漏相关变量; 宁愿误选无关变量也不愿遗漏相关变量 注重估计量的有效性——宁愿删除相关变量。 宁愿删除相关变量。 注重估计量的有效性 宁愿删除相关变量 通常误选无关变量不如遗漏相关变量的后果严重。 通常误选无关变量不如遗漏相关变量的后果严重。 因此,模型的设定实际是对偏误与有效进行权衡, 因此,模型的设定实际是对偏误与有效进行权衡,偏 爱哪一方取决于模型的研究目的。 爱哪一方取决于模型的研究目的。
如果α 3=0,则(2)与(1)相同,因此,可将(1)式 视为以α 3=0为约束的(2)式的特殊形式。 采用OLS法对(2)进行估计,有:
17
ˆ α2 =
2 x2 i yi ∑ x3i − ∑ x3i yi ∑ x2 i x3i ∑
∑x ∑x
2 2i
2 3i
− (∑ x2 i ∑ x3i )
2
将(1)式的离差形式 yi = β2 x2i + (ui − u ) 代入,整理得:
然而,能否根据“Occam’s razor”原则, 判断方程(2)比方程(1)好?
3
对模型的设定是计量经济研究的重要环节。 前面各章除了对随机扰动项 ui 分布的基本假定以外, 还强调: 假定设定的模型对变量和函数形式的设定是正 确地描述被解释变量与解释变量之间的真实关系, 假定模型中的变量没有测量误差。 但是在实际的建模实践中,对模型的设定不一定能 够完全满足这样的要求,从而会使模型出现设定误 差。
4
第一节
设定误差
一、设定误差及类型
计量经济模型是对变量间经济关系因果性的设想, 若所设定的回归模型是“正确”的,主要任务是所 选模型参数的估计和假设检验。但是如果对计量模 型的各种诊断或检验总不能令人满意,这时应把注 意力集中到模型的设定方面: 考虑所建模型是否遗漏了重要的变量? 是否包含了多余的变量? 所选模型的函数形式是否正确? 随机扰动项的设定是否合理? 被解释变量和解释变量的数据收集是否有误差?