设定误差与测量误差
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
设定误差与测量误差
对模型的设定是计量经济研究的重要环节。
所设定的模型要求正确地描述被解释变量与
u 解释变量之间的真实关系,在第二章提出线性回归模型的基本假定时,除了对随机扰动项
i 分布的假定以外,也强调了假定模型对变量和函数形式的设定是正确的,假定模型中的变量没有测量误差。
但是在实际的建模实践中,对模型的设定不一定能够完全满足这样的要求,从而会使模型出现设定误差。
本章以OLS估计为基础,分别讨论模型设定误差的后果以及1见古扎拉蒂《计量经济学》下册第447页,中国人民大学出版社,2000
检验方法。
第一节设定误差
一、设定误差的类型
计量经济模型是对变量间经济关系因果性的设想,若所设定的回归模型是“正确”的,主要任务是所选模型参数的估计和假设检验。
若检验统计量2,,
R t F和DW等在统计意义上是显著的,则模型的建模过程结束。
反之,若这些统计量中的一个或多个不显著,我们就会去寻找其他的估计方法进行参数估计和检验,例如,在加权和广义差分的基础上用最小二乘法解决异方差性或自相关性问题。
但是如果对计量模型的各种诊断或检验仍不能令人满意,这时就应把注意力集中到模型的设定方面,考虑所建模型是否遗漏了重要的变量?是否包含了多余的变量?所选模型的函数形式是否正确?随机扰动项的设定是否合理?关于被解释变量和解释变量的数据收集是否有误差?等等。
所有这些,在计量经济学中被统称为设定误差。
从误差来源看,设定误差主要包括:(1)变量的设定误差,包括相关变量的遗漏(欠拟合)、无关变量的误选(过拟合);(2)变量数据的测量误差;(3)模型函数形式的设定误差;(4)随机扰动项设定误差。
本章主要讨论前两类设定误差。
出现设定误差的原因是多方面的。
首先,数据来源渠道可能不畅。
在建模过程中,尽管某个变量有着重要的经济意义和计量经济学解释作用,但这个变量的数据很难取得,而被迫将该变量排斥在模型之外,例如消费行为分析中消费者财富的变量就是例证。
其次,虽然知道模型中应当包含哪些变量,但却不知道这些变量应当以什么确切的函数形式出现在回归模型中。
也就是说,经济管理的基本理论并没有提示模型中变量的准确函数形式。
例如,经济学理论不会肯定消费水平与有关变量的关系是线性的还是对数线性的,或者是两者的某种混合形式的。
最后,更为重要的是,事实上我们事先并不知道所研究的实证数据中所隐含的真实模型究竟是什么。
正是上述这些原因,设定误差在建模中是较容易出现的。
设定误差的存在可能会对模型形成不良的后果。
二、变量设定误差的后果
变量设定误差主要有两类:一类是相关变量的遗漏,也称为模型“欠拟合”;另一类是无关变量的误选,也称为模型“过拟合”。
从实质上看,变量设定误差的主要后果,是一个或多个解释变量与随机扰动项之间存在着相关性,而影响参数估计的统计特性。
1、遗漏相关变量(欠拟合)的偏误
采用遗漏了重要解释变量的模型进行估计而带来的偏误,称为遗漏相关变量偏误。
如果正确的模型应当为:
12233i i i i Y X X u βββ=+++
(9.1)
其离差形式为 2223()i i i i y x x u u ββ=++- (9.2) 但是由于某种原因,设定模型时将变量i X 3遗漏了,实际采用的回归模型为:
122i i i Y X v αα=++
(9.3)
假定其他有关线性模型的古典假设都成立,则(9.3)式中2α的OLS 估计式为:
2222ˆi i i
x y
a
x =∑∑ (9.4)
将正确模型的离差形式(9.2)式代入(9.4)式,得:
22233222[()]
ˆi
i i i i
x
x x u u a
x ββ++-=∑∑
∑∑∑∑-++=
2
223232
22)
(i
i i i i i
x
u u x x x x ββ
∑
∑∑∑-++=22222323
2)(i
i i
i
i i x u u x x
x x ββ (9.5)
对(9.5)式两边取期望,有:
()2322232222()i i i i i i x x x u u E E x x αββ⎛⎫-=++ ⎪ ⎪⎝
⎭∑∑∑∑ (9.6) 当样本容量无限增大时,观察2α的概率极限性质,对(9.5)式两边取概率极限:(证明见附录9.1)
()()()
()
^
232223
22,,lim i i i i n i i Cov X X Cov X u p Var X Var X αββ→∞
=++
(9.7) 由此可以看出,3X 的遗漏将产生如下后果:
(1) 如果漏掉的3X 与2X 相关,则参数1α和2α将是有偏且不一致性的,即11()E αβ≠,
22()E αβ≠,且11lim()n p αβ→∞
≠,22lim()n p αβ→∞
≠。
这是由于(9.3)式中33i i i v X u β=+,所以
()()()()23323322,,,,i i i i i i i i i Cov v X Cov X u X Cov X X Cov u X ββ=+=+ (9.8)
(9.8)式中,虽然()2,0i i Cov u X =,但()()332332,,0i i i i Cov X X Cov X X ββ=≠。
在小样本下,(9.6)式中的第二项求期望不会为零,表明OLS 估计量在小样本下有偏。
在大样本下,(9.7) 第二项中的
231
i i x x n
∑也不会随着样本的增大而趋于零,表明OLS 估计量在大样本下非一致,即有22lim n p αβ→∞
≠。
因此,如果漏掉的3X 与2X 相关,OLS 估计量在大样本下是也非
一致的。
(2)若3X 与2X 不相关,即
∑i
i x x
32=0, 2ˆα
满足无偏性和一致性,但可以证明这时截距项的估计1ˆα却是有偏的(证明从略)。
(3)2ˆα的方差是2
ˆβ方差的有偏估计: 对于(9.3)式,已知
∑=222
2)ˆ(i
x V a r σα
(见2.40)
而对于(9.1)式,有(见4.14)
2
2
2
22232
223
222
23ˆ()(1)(1)i i i i i i
Var x x x r x x x σσβ==
--∑∑∑∑∑ (9.9)
如第三章所讨论的,)ˆ(2βVar 是2
β方差的无偏估计,而如果漏掉的3X 与2X 相关,0223≠r ,)ˆ(2αVar ≠)ˆ(2
βVar ,故)ˆ(2αVar 是有偏的。
(4)漏掉3X 的(9.3)式中的随机扰动项i v 的方差估计量2
v ο)2-=n RSS v 将是有偏
的,即()
22
v u E οο≠;
(5)与方差相关的检验,包括假设检验、区间估计等,在关于参数的统计显著性方面,都容易导出错误的结论。
对从模型中遗漏变量时参数估计性质的认识,还有两点要特别注意:
(1) 若3X 与2X 相关,2
230r ≠,显然()()
22Var Var αβ≠,由(4.14)式可看出似乎有
()()
22Var Var αβ<。
但实际情形并不完全如此。
可以注意到,(9.1)和(9.3)的剩余平
方和R S S 是不一样的,其自由度也是不等的。
在样本容量相同的条件下
(2)(3)v u RSS n RSS n -≠-,或22v u οο≠。
因此,有可能从(9.3)式回归得到的(2)v RSS n - 大于从(9.1)式回归得到的(3)u RSS n -。
(2) 若3X 与2X 不相关,有2
230r =和
02232=∑∑i
i
i x
x
x
,由(9.6)和(4.14)
,似乎分别有()22E αβ=,22ˆ()()Var Var βα=。
若这两个等式成立,意味着尽管变量3
X 在理论上分析是有关的变量,但从所选模型中略去似乎也不会导致什么危害。
这种认识实际也不
正确。
因为2
22
2()v i
Var x σα==∑222v i RSS n x -∑,为2
222223ˆ()u u i i RSS n Var x x σβ-==∑的有偏估计,即使3X 与2X 不相关,也有22()()Var Var βα≠,致使假设检验程序很有可能是可疑的。
况且,在大多数的实证经济研究中,3X 与2X 通常都是相关的,更可能会产生上述后果。
因此必须清楚,一旦根据相关理论把模型建立起来,再从中遗漏变量需要充分地谨慎。
2、包含无关变量(过拟合)的偏误
模型中包括了不重要的解释变量,即采用误选了无关解释变量的模型进行估计而带来的偏误,称为包含无关变量偏误。
为讨论方程中包含了无关变量的情形,假设正确的模型是:
i i i u X Y ++=221ββ
(9.10)
而回归模型加入了无关变量X 3,被设定为:
i i i i v X X Y +++=33221ααα
(9.11)
可将(9.10)式视为以30α=为约束的(9.11)式的特殊形式。
采用OLS 法对式(9.11)进行参数估计,由 (3.27)式有:
∑∑∑∑∑∑∑∑--=
2
3223223232322)
(ˆi
i
i
i
i i i i
i i i
x x x x x x y x x y x α
(9.12)
将(9.10)式的离差形式)(22u u x y i i i -+=β代入(9.12)式,并整理,得:
2
32233222
22
2323()(())()(())
ˆ()
i i i i i i i i
i
i i x x u u x x x u u x x
x x α
β---=+-∑∑∑∑∑∑∑∑ (9.13)
当X 2与X 3为非随机时,对上式求数学期望,得
22)ˆ(βα
=E 其方差为
2
222
223
ˆ()(1)
v i
Var x
r σα
=-∑ (9.14)
由以上可知,无关变量的设定误差的后果为:
(1)可以证明,(9.11)式参数的OLS 估计量是无偏的,且为一致性估计量。
即:
22)ˆ(βα
=E ,22lim n p αβ→∞
=。
同理,可证明11)ˆ(βα=E ,0)ˆ(33==βαE ;11lim n p αβ→∞
= 和33lim 0n p αβ→∞
==。
其中,参数2α一致性的证明见本章附录9.2。
(2)2ˆα
不是有效估计量。
因为2β的方差为
∑2
22
i
x
σ,那么:
22232ˆ()1ˆ(1)
()Var r Var αβ=- (9.15)
虽然变量X 3对被解释变量Y 是无关的,但解释变量X 3与X 2之间很可能一定程度相关,
即22301r ≤≤,则)ˆ()ˆ(2
2βαVar Var ≥。
这表明,无关变量X 3的误选,会使得2ˆα的方差增大,导致2ˆα
的估计精度下降,且偏离程度随着解释变量间相关程度的增加而增大。
此结论对1ˆα
也成立; (3)()
22
v u E οο=,即随机误差项的方差的估计仍为无偏估计;
(4)通常的区间估计和假设检验程序依然有效,但2ˆα
的方差增大,接受错误假设的概率会较高。
比较遗漏相关变量和误选无关变量两类设定误差可以看出,如果遗漏了相关变量,将导致参数估计量和假设检验是有偏的,且为不一致的;如果误选了无关变量,虽然参数估计量具有无偏性、一致性,又会损失参数估计量的有效性。
由于事先并不可能清楚地知道隐含在数据中的真实数量关系,建模过程中将面临如何选择更为恰当变量的两难境地。
若是主要注。