计量经济学-第13章 模型设定和诊断检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(13.2.7)所表明的是,研究者没有使用真正的Yi和Xi,却用
了含有测量误差的替代变量Yi*和Xi*。
11
5、对随机误差项ui不正确的设定 (Specification errors to the stochastic error )
如果真实的、正确的模型是:
Yi Xiui
并且lnui满足CLRM的假定
就很困难。
表现出数据的协调性;即从模型中估计的残差必须完全随机
(从技术上而言必须是白噪音)。
模型有一定的包容性;即模型应该包容或包括所有与之竞争
的模型。
6
§13.2 设定误差的类型
1、漏掉一个有关变量(1.Omitting A Relevant Variable)
为了简明起见,令这个模型为:
因此,(13.2.2)中的误差项u2i事实上是:
u2i
u1i
4
X
3 i
8
2、包含了一个无需或无关的变量 (Including an unnecessary or irrelevant variable)
假定另一个研究者使用了以下模型:
Yi
1
2 X i
3
X
2 i
4
X
3 i
或近似地为 例如,若 c = 15,k = 5,α = 5%, 由(13.4.3),真实的显著性水平为 (15/5)(5%) = 15%
(13.4.2) (13.4.3)
28
在实践中,多数研究者都仅报告其“最终”回归结 果,而不透露此前是如何通过大量数据开采或预检验而 得到这些结果的详情。
——这与个人升迁有关!
( E(ˆ3) 2
x2x3)( x22 ) ( x22 x32 (
x2 x3 )( x2 x3 )2
x22 ) 0
6
20
x3在真实模型中不存在,它的系数为0。 因此,这一设定误差(拟合过度)将导致如下后果: (1)所有参数的OLS估计量都是无偏且一致的,即,
但是,在应用计量经济学家看来,纯粹主义者(即 非数据开采者)的建模方法也存在问题。
29
查曼(Zaman,1995)的观点: 如果我们从一个更开阔的视角来看待数据开采, 把它看成一种寻求经验规律的过程,并能从这些经验 规律中判断现有理论模型中是否存在错误或纰漏,那 么它将起到一个非常大的作用。 肯尼迪(Kennedy,1992)认为,“应用计量经济 学家的艺术在于,容许数据驱动理论进展而又不致陷 入太大的数据开采的危险。”
(13.3.6) (13.3.7)
18
我们知道:
ˆ2
yi x2i x22i
1
( ˆ2
yx2 )( x32 ) ( yx3)( x2 x3)
x22
x32 (
x2
x 3
)2
2
真实模型的离差形式为:
19
将(3)代入(2):
( E(ˆ2 ) 2
Yi
1
2 Xi
3
X
2 i
4
X
3 i
u1i
其中,Yi = 生产的总成本,Xi = 产量。
等式(13.2.1)是立方总成本函数。
(13.2.1)
7
但是,假设出于某种原因,研究者决定使用以下模型:
Yi
1
2 Xi
3
X
2 i
u2i
(13.2.2)
由于(13.2.1)被认为是真实的,采用(13.2.2)就构成了一种设定误 差,即漏掉了一个有关变量(Xi3)的误差。
bˆ 1和
bˆ12是有偏误
E(bˆ1 ) 1
E(bˆ12 ) 2
2、如果X3与X2不相关,r23 = 0,那么bˆ 32 0,尽管bˆ 1现在无
偏,但bˆ12 是无偏的。
3、干扰的方差σ2将被不正确地估计。
4、bˆ12 的方差
(
2
X
2 2i
)是真实估计量的方差的一个有偏误
的估计值。
26
本专业的纯化论者很看不起数据开采的实践。谴责 “数据开采”的原因之一如下:
在数据开采情况下的名义的与真实的显著性水平是不 同的。一种数据开采的危险是,诸如1%、5%、10%的常 用的显著性水平α并非是真实的显著性水平。
27
洛弗尔(Lovell,1983)曾指出,如果有c个备用的回 归元,根据数据开采的情况,从中最后选出k个(k ≤ c), 则真实的显著性水平(α*)和名义上的显著性水平(α)有 如下关系:
一般而言,最好的方法是,根据理论,仅仅包含那些 直接影响因变量,而又不能由已被引进的其他变量来代替 的解释变量。
23
§13.4 设定误差的检验
一、对过度拟合的侦察
假设,为了解释某一现象,我们提出一个k变量模型:
Yi 1 2 X 2i 3 X3i ...... k X ki ui (13.4.1)
3
寻找正确的模型就像寻找圣杯一样。具体而言,我 们需要考虑如下问题:
我们如何去寻找一个“正确”的模型?换言之,在经验分析中 选择一个模型的准则有哪些?
在实践中,容易遇到哪些类型的模型设定误差? 设定误差的后果有哪些? 如何侦查设定误差?换言之,我们可以使用哪些诊断工具? 一旦侦查出设定误差,我们能采取哪些补救措施? 如何评价几个表现不相上下的备选模型?
14
于是,等式(4)变换为:
bˆ12 2 3bˆ 32
X 2i (ui u )
X
2 2i
(5)
分别取等式两边的期望值
E(bˆ12) 2 3bˆ32
(6)
(其中,β2和β3都是常数,ui与X2i和X3i不相关)
15
于是,漏掉变量X3的后果如下: 1、如果X3与X2相关,r23 ≠ 0,那么 且非一致的。也就是说,
x22 )( x22
x32 ) ( x32 (
x2 x3 )2
x2
x 3
)2
2
4
因此,ˆ2 仍是无偏的。
我们发现:
( ˆ3
yx3 )(
x22 ) (
yx2 )(
x2
x 3
)
x22 x32 ( x2 x3 )2
(5)
将 (3) 代入 (5):
第十三章
计量经济建模: 模型设定和诊断检验
1
经济学家多年来对“真理”的寻求曾给人一种观感: 经济学家们就好像在一间黑房子里搜寻一直原本并不存在 的黑猫;而计量经济学家还经常声称找到了一只。
2
经典线性回归模型的假定之一(假定9)是,分析中 所使用的模型被“正确地”设定;如果模型并未被明确 设定,我们就遇到了这样的问题:模型设定误差(model specification error)或者模型设定偏误(model specification bias)。
4
§13.1 模型选择准则
根据亨得利和理查德的观点,一个被选用于经验分析的 模型应满足如下准则:
数据容纳性;即从模型做出的预测必须有逻辑上的可能性。 与理论一致;即必须有好的经济含义。 回归元的弱外生性;即解释变量或回归元必须与误差项不相
关。
5
表现出参数的不变性;即参数的值必须稳定,否则预测
后果将会如何?
13
三变量回归模型的离差形式:
Yi 2 X 2i 3 X3i ui u
有: Yi X2i 2
X
2 2i
3
X2i X3i
X2i (ui u )
Yi X3i 3
X
2 3i
2
X2i X3i
X3i (ui u )
两边分别除以∑X2i2:
Yi X2i
X
2 2i
2
3
X 2i X3i
X
2 2i
X 2i (ui u )
X
2 2i
回到前面,有
bˆ12
X 2i Yi
X
2 2i
bˆ 32
X 2i X 3i
X
2 2i
(X3对X2回归)
(1) (2) (3) (4)
2
x22i ,
而 var(ˆ2 )
2
x22i (1 r223)
0 r223 1,
0 1 r223 1
var(ˆ2 ) var(ˆ2 )
一个无益的结论似乎是:与其忽略有关变量,不如含有无 关变量。
22
但是,这种理论是不值得维护的,因为增加不必要的 变量将导致: 1、估计量的效率损失 2、多重共线性问题 3、自由度的损失
34
为了用德宾-沃森检验来侦察模型设定误差,我们以 如下方式进行:
(1)从假定的模型求得OLS残差。 (2)如果认为假定的模型因排除了一个有关的解释 变量,比如说Z而是误设的,则将第1步中所得的残差按 Z值的递增次序排列。 注意:Z变量可以是假定模型所含的X变量之一,或
该变量的某一函数,如 X2 或 X 3
(13.2.6)
10
4、测量偏误的误差(Errors of measurement bias)
考虑有研究者使用如下模型:
Yi*
1*
2*X*i
X * *2
3i
X * *3
4i
u*i
(13.2.7)
其中,Yi* Yi i ,X*i Xi i ,εi和ωi均为测量误差。
5、通常的置信区间和假设检验程序容易给出错误的结论。
6、所作出的预测不可靠。 16
结论:一旦根据相关理论把模型建立起来,切忌从 中再忽略掉一个变量。
17
2、包含一个无关变量(模型拟合过度) 现在让我们假定
Yi 1 2 X 2i ui
是真实模型,而我们拟合了一下模型:
Yi 1 2 X 2i 3 X 3i vi
拉姆齐(Ramsey)曾指出一种称为RESET(regression specification error test)的一般性设定误差检验。
E(1) 1 E(ˆ2 ) 2 E(ˆ3) 3 0
(2)误差方差σ2的估计是正确的。 (3)通常的置信区间和假设检验仍然有效。
21
(4)但是,一般而言,诸 α 系数的估计值将不是 有效的,也就是说,它们的方差一般都大于真实模型中
的方差。例如:
var(ˆ2)
35
(3)由这样排列的残差计算d统计量。
d
n t2
(uˆ
t
uˆ t1)2
n t 1
uˆ
t
2
注意:t 在这里是观测次数,并不一定指时间序列数据。 (4)根据德宾-沃森表,如果估计的 d 值是显著的,就可 接受模型误设的假设。
问:如何补救?
36
答:增加解释变量。 3. 拉姆齐的RESET检验
若要判断变量Xk是否真的属于这个模型,一个简单的方法
是用 t 检验:
t
ˆk se(ˆk )
24
我们可以用F检验来判断X3和X4是否真的属于这个
模型。
H0 : 3 4 0
问题:
1、能否反复使用 t 检验,首先是 ˆ 的显著性,然后是 ˆ
3
4
等等的显著性,最后是ˆ 的显著性? k
5
X
4 i
u3i
新的误差项是:
(13.2.4)
u3i
u1i
5
X
4 i
u1i
(13.2.5)
因为真模型中λ5 = 0
9
3、错误的函数形式(Wrong functional form)
再假定又一研究者拟定以下模型:
lnYi
1
2Xi
3Xi2
4
X
3 i
u 4i
30
二、对遗漏变量和不正确函数形式的检验 1. 残差分析 P518-519 和 figure 13.1 结论: 如果有设定误差,残差图必定展现出明显的样式。
31
2. 再次使用德宾-沃森 d 统计量 德宾-沃森 d 统计量的定义:
由于 uˆt2 和 uˆt21 只在一次观察中有区别,因而它们
25
这种建模策略被称为自下而上的方法(bottom-up approach)(从一个较小的模型开始,然后逐渐扩大模 型)
或者多少带有轻薄口吻地称之为: 数据开采(date mining)方法 回归捕捉(regression fishing)方法 数据窥探(data snooping)方法 数字斟酌(number crunching)方法。
误设为:
Yi Xi ui
(13.2.8) (13.2.9)
12
§13.3 模型设定误差的后果
1、模型拟合不足(漏掉一个相关变量)
真实的模型:
Yi 1 2 X2i 3 X3i ui
(13.3.1)
但出于某种原因,我们拟合了如下模型:
Yi b1 b12X 2i i (13.3.2)
近似相等。因此:
32
由于 若 = 1,d = 0,表明残差存在完全的正相关关系; 若 = -1,d = 4,残差存在完全负相关关系; 若 = 0,d = 2,残差不存在一阶的自相关。
33
如果真实的模型是:
而拟合的模型是:
或者 则 d 值表明存在正向的自回归。 参见P519 Table13.1的d 值