第9讲模型设定和数据问题
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实际估计时漏掉了 exper2 ,所以实际估计的方程为:
log(wage) 0 1educ 2 exper u
这种遗漏所造成的函数形式误设通常会导致OLS估计量有偏, 即使educ的参数估计量无偏,也会错误地估计工作经历对工资的 影响,因为工作经历的实际回报率为 但在误设的模型中,只计算了
在例9.1中添加了显著的二次项,检验出函数形式误设定;
如果原模型中有许多解释变量,使用掉大量自由度缺失; 添加二次项也不能得到被忽视的某种特定非线性关系;
例2.遗漏了解释变量的交互项
工资方程中,正确的方程为:
log(wage) 0 1educ 2 exper 3 exper 2 4 female 5 female educ u
第九讲
一、函数形式误设 二、代理变量 三、测量误差
模型设定和数据问题
四、数据缺失、非随机样本和异常观测
第一节
函数形式误设
如果多元回归模型没有正确地刻画因变量与所观测
的解释变量之间的关系,那它就存在函数形式误设问题
一、函数形式误设的情形
1.遗漏变量
并非所有的遗漏变量都属于函数形式误设的情形,只有当被 遗漏的变量是某一解释变量的函数时,我们才称这种对变量的遗 漏为函数形式误设。
为正,但不含平方项的回归结果表明这一系数为负。
同样,一般情况下,若某样本观测点在1986年的服刑时间
(ptime86)越高,他在1986年被捕的次数也就会越多,按照这一
假设和推理, 1986年的服刑时间(ptime86)的系数也应该为正, 但不含平方项的回归结果表明这一系数为负。 而这些不合常理的系数却都高度显著,因此,我们对这些解 释变量对被解释变量的影响方式必须要进一步核准,从而确定他 们对被解释变量有意义的解释。
2 23 exper
。
,
2
例9.1 犯罪的经济模型(P294)
被解释变量:Narr86(1986年被捕次数)
解释变量:
– pcnv 以前被定罪比例
– avgsen
– tottime – ptime86 – qemp86 – inc86
平均判刑期限,
单位:月
18岁以来的服刑时间, 单位:月 1986年的服刑时间, 1986年被雇佣季度数 1986年合法收入, 单位:百美元 单位:月
F( 2,
82) =
4来自百度文库67
0.0120
Prob > F =
检验结果表明:用水平值回归的模型存在函数形式误设定的问题
用相关变量的对数值时进行估计检验的结果:
. reg lprice llotsize lsqrft bdrms
. predict yy, xb
. gen yy2 = yy ^2 . gen yy3 = yy * yy2
相关变量用对数形式时的待估方程为:
lprice 0 1llotsize 2lsqrft 3bdrms u
price
lotsize
(房价,
单位:千美元)
(土地的面积,单位:平方英尺)
sqrft
bdrms
(房屋的面积,单位:平方英尺)
(卧室数)
用相关变量的水平值时进行估计检验的结果:
回归的结果表明,除平均判刑期限(avgsen)和18岁以来的 服刑时间(tottime)之外,其他解释变量均在1%的水平上显著, 但一些变量的系数符号似乎有些不合常理。如pcnv,ptime86。
从常理理解,以前被定罪比例(pcnv)越高,说明这一样本 观测点犯罪倾向也就越高,那么其在1986年被捕的次数也就会越 多,按照这一假设和推理,以前被定罪比例(pcnv)的系数应该
. reg price lotsize sqrft bdrms . predict y, xb . gen y2 = y ^ 2 . gen y3 = y * y2 . reg price lotsize sqrft bdrms y2 y3
. test y2 y3
( 1) y2 = 0 ( 2) y3 = 0
3.对非嵌套模型的检验
当要检验两个非嵌套模型:
y 0 1 log(x1 ) 2 log(x2 ) u y 0 1 x1 2 x2 u
到底哪一个才是正确的时候,有一下两种方法:
1)构造一个综合模型:
2.变量形式误设
当模型中一些变量原本应该采用对数形式,而在实际回归过
程中却错误地采用了水平形式时,也会导致模型误设,从而造成
OLS估计值产生偏误。
二、函数形式误设的一般检验(RESET)
1.基本思想
如果原模型满足MLR.4,那么在回归方程中添加解释变量的 非线性关系应该不显著。当解释变量较多时,这么做会产生更多 的解释变量,从而损失很大一部分自由度,因此可以考虑在模型 中添加被解释变量拟合值的平方项或立方项。 估计: 检验: y = 0 + 1x1 + … + kxk + 1ŷ2 + 2ŷ3 +u H0:1=0, 2 =0
~ ~ ~ y 0 1 x1 u
~
1
为变量x2对变量x1回归时的斜率估计值,在x2
与x1之间存在函数关系时, 的变量,
2 0
1 0
~
,而作为原模型中应该有
,因此,在这种情况下, OLS估计量一定
是有偏的。
例1.遗漏了解释变量的平方项
工资方程中,正确的方程为:
log(wage) 0 1educ 2 exper 3 exper 2 u
Std. Err. .0403502 .0122401 .0094352 .008812 .0144397 .0003406 .0454156 .0397113 .0360461
[95% Conf. Interval] -.2123546 -.0353185 -.0064785 -.0581206 -.0788538 -.0021566 .2374508 .1160469 .4980048 -.0541141 .0126831 .0305233 -.0235627 -.0222258 -.0008207 .4155561 .2717818 .6393661
尽管如此,如果被遗漏变量的期望是自变量的非线性形式时,
一个显著的RESET可以指出遗漏变量问题; 也要注意到,RESET检验的一个缺陷是,当零假设被拒绝后, 它并不能建议我们下一步怎么做。
例9.2:住房价格方程(P296)
相关变量为水平值时的待估方程:
price 0 1lotsize 2 sqrft 3bdrms u
如果模型中遗漏的变量与已有的解释变量之间存在函数关系, 那么误差项一定不满足MLR.4(零条件均值的假定)。因此,在 这种情况下,OLS估计量一定是有偏的。 假定真实模型为: 但我们估计的是:
y 0 1x1 2 x2 u
则有:
其中,
E 1 1 21 ~
~
加入重要变量的平方项之后,回归结果如下:
Total narr86 pcnv pcnvsq avgsen tottime ptime86 pt86sq qemp86 inc86 inc86sq black hispan _cons 2010.34716 Coef. .5525236 -.7302119 -.0170216 .011954 .2874334 -.0296076 -.0140941 -.0034152 7.19e-06 .292296 .1636175 .5046065 2724 .738012906 t 3.58 -4.68 -1.41 1.29 6.49 -7.66 -0.81 -4.25 2.81 6.52 4.15 13.70 P>|t| 0.000 0.000 0.158 0.198 0.000 0.000 0.417 0.000 0.005 0.000 0.000 0.000 Std. Err. .1542372 .1561177 .0120539 .0092825 .0442582 .0038634 .0173612 .0008037 2.56e-06 .04483 .0394507 .0368353
– black
– hispan
如果是黑人,black=1
如果是西班牙裔,hispan=1
首先我们将被解释变量向解释变量回归,不包含任何平方项。 回归的结果如下:
Source Model Residual Total narr86 pcnv avgsen tottime ptime86 qemp86 inc86 black hispan _cons SS 145.390104 1864.95705 2010.34716 Coef. -.1332344 -.0113177 .0120224 -.0408417 -.0505398 -.0014887 .3265035 .1939144 .5686855 df 8 2716 2724 MS 18.173763 .686655763 .738012906 t -3.30 -0.92 1.27 -4.63 -3.50 -4.37 7.19 4.88 15.78 P>|t| 0.001 0.355 0.203 0.000 0.000 0.000 0.000 0.000 0.000 Number of obs = F( 8, 2716) Prob > F R-squared Adj R-squared Root MSE = = = = = 2725 26.47 0.0000 0.0723 0.0696 .82865
实际估计时漏掉了 female•educ,所以实际估计的方程为:
log(wage) 0 1educ 2 exper 3 exper 2 4 female u
在原始模型中,教育的回报率会因性别的不同而有所不同, 但这一性质在遗漏了交互项的模型中无法得到体现,从而造成 OLS估计值产生偏误。
Model Residual
207.979008 1802.36815
11 2713
18.9071826 .66434506
F( 11, 2713) = Prob > F = R-squared = Adj R-squared = Root MSE =
28.46 0.0000 0.1035 0.0998 .81507
[95% Conf. Interval] .2500892 -1.036334 -.0406574 -.0062474 .2006501 -.037183 -.0481366 -.0049912 2.17e-06 .2043916 .0862609 .4323784 .854958 -.4240903 .0066142 .0301554 .3742166 -.0220321 .0199485 -.0018392 .0000122 .3802004 .240974 .5768347
. reg lprice llotsize lsqrft bdrms yy2 yy3
. test yy2 yy3 ( 1) yy2 = 0 ( 2) yy3 = 0 F( 2, 82) = 2.57 0.0831 Prob > F =
结果表明:在5%的水平上无法拒绝原假设,即采用对数形式的回
归可能不存在函数形式误设的问题。
用F统计量或LM统计量进行检验,一个显著的F统计量或者LM 统计量说明函数形式可能存在问题
2.使用RESET对模型误设检验时应该注意的问题:
RESET在探测非线性形式的函数误设时很好用,而不是一般的 遗漏变量; Wooldridge在1995年证明:当被遗漏变量的期望值是所包含自 变量的线性函数时,RESET无法探测出遗漏变量问题; 如果正确设定了模型形式, RESET对检验异方差无能为力;
加入平方项之后,除1986年被雇佣季度数( qemp86 )之外,
各变量的显著性并没有太大的影响,而且所有的平方项都是显著 的,这就意味着不加平方项的模型的确存在误设的可能,而且加 入平方项之后,相关变量的系数也更有意义了。见教材P295
注意:
如果原模型满足假定MLR.4,那么在方程中添加自变量的非线 性关系应该是不显著的;
log(wage) 0 1educ 2 exper u
这种遗漏所造成的函数形式误设通常会导致OLS估计量有偏, 即使educ的参数估计量无偏,也会错误地估计工作经历对工资的 影响,因为工作经历的实际回报率为 但在误设的模型中,只计算了
在例9.1中添加了显著的二次项,检验出函数形式误设定;
如果原模型中有许多解释变量,使用掉大量自由度缺失; 添加二次项也不能得到被忽视的某种特定非线性关系;
例2.遗漏了解释变量的交互项
工资方程中,正确的方程为:
log(wage) 0 1educ 2 exper 3 exper 2 4 female 5 female educ u
第九讲
一、函数形式误设 二、代理变量 三、测量误差
模型设定和数据问题
四、数据缺失、非随机样本和异常观测
第一节
函数形式误设
如果多元回归模型没有正确地刻画因变量与所观测
的解释变量之间的关系,那它就存在函数形式误设问题
一、函数形式误设的情形
1.遗漏变量
并非所有的遗漏变量都属于函数形式误设的情形,只有当被 遗漏的变量是某一解释变量的函数时,我们才称这种对变量的遗 漏为函数形式误设。
为正,但不含平方项的回归结果表明这一系数为负。
同样,一般情况下,若某样本观测点在1986年的服刑时间
(ptime86)越高,他在1986年被捕的次数也就会越多,按照这一
假设和推理, 1986年的服刑时间(ptime86)的系数也应该为正, 但不含平方项的回归结果表明这一系数为负。 而这些不合常理的系数却都高度显著,因此,我们对这些解 释变量对被解释变量的影响方式必须要进一步核准,从而确定他 们对被解释变量有意义的解释。
2 23 exper
。
,
2
例9.1 犯罪的经济模型(P294)
被解释变量:Narr86(1986年被捕次数)
解释变量:
– pcnv 以前被定罪比例
– avgsen
– tottime – ptime86 – qemp86 – inc86
平均判刑期限,
单位:月
18岁以来的服刑时间, 单位:月 1986年的服刑时间, 1986年被雇佣季度数 1986年合法收入, 单位:百美元 单位:月
F( 2,
82) =
4来自百度文库67
0.0120
Prob > F =
检验结果表明:用水平值回归的模型存在函数形式误设定的问题
用相关变量的对数值时进行估计检验的结果:
. reg lprice llotsize lsqrft bdrms
. predict yy, xb
. gen yy2 = yy ^2 . gen yy3 = yy * yy2
相关变量用对数形式时的待估方程为:
lprice 0 1llotsize 2lsqrft 3bdrms u
price
lotsize
(房价,
单位:千美元)
(土地的面积,单位:平方英尺)
sqrft
bdrms
(房屋的面积,单位:平方英尺)
(卧室数)
用相关变量的水平值时进行估计检验的结果:
回归的结果表明,除平均判刑期限(avgsen)和18岁以来的 服刑时间(tottime)之外,其他解释变量均在1%的水平上显著, 但一些变量的系数符号似乎有些不合常理。如pcnv,ptime86。
从常理理解,以前被定罪比例(pcnv)越高,说明这一样本 观测点犯罪倾向也就越高,那么其在1986年被捕的次数也就会越 多,按照这一假设和推理,以前被定罪比例(pcnv)的系数应该
. reg price lotsize sqrft bdrms . predict y, xb . gen y2 = y ^ 2 . gen y3 = y * y2 . reg price lotsize sqrft bdrms y2 y3
. test y2 y3
( 1) y2 = 0 ( 2) y3 = 0
3.对非嵌套模型的检验
当要检验两个非嵌套模型:
y 0 1 log(x1 ) 2 log(x2 ) u y 0 1 x1 2 x2 u
到底哪一个才是正确的时候,有一下两种方法:
1)构造一个综合模型:
2.变量形式误设
当模型中一些变量原本应该采用对数形式,而在实际回归过
程中却错误地采用了水平形式时,也会导致模型误设,从而造成
OLS估计值产生偏误。
二、函数形式误设的一般检验(RESET)
1.基本思想
如果原模型满足MLR.4,那么在回归方程中添加解释变量的 非线性关系应该不显著。当解释变量较多时,这么做会产生更多 的解释变量,从而损失很大一部分自由度,因此可以考虑在模型 中添加被解释变量拟合值的平方项或立方项。 估计: 检验: y = 0 + 1x1 + … + kxk + 1ŷ2 + 2ŷ3 +u H0:1=0, 2 =0
~ ~ ~ y 0 1 x1 u
~
1
为变量x2对变量x1回归时的斜率估计值,在x2
与x1之间存在函数关系时, 的变量,
2 0
1 0
~
,而作为原模型中应该有
,因此,在这种情况下, OLS估计量一定
是有偏的。
例1.遗漏了解释变量的平方项
工资方程中,正确的方程为:
log(wage) 0 1educ 2 exper 3 exper 2 u
Std. Err. .0403502 .0122401 .0094352 .008812 .0144397 .0003406 .0454156 .0397113 .0360461
[95% Conf. Interval] -.2123546 -.0353185 -.0064785 -.0581206 -.0788538 -.0021566 .2374508 .1160469 .4980048 -.0541141 .0126831 .0305233 -.0235627 -.0222258 -.0008207 .4155561 .2717818 .6393661
尽管如此,如果被遗漏变量的期望是自变量的非线性形式时,
一个显著的RESET可以指出遗漏变量问题; 也要注意到,RESET检验的一个缺陷是,当零假设被拒绝后, 它并不能建议我们下一步怎么做。
例9.2:住房价格方程(P296)
相关变量为水平值时的待估方程:
price 0 1lotsize 2 sqrft 3bdrms u
如果模型中遗漏的变量与已有的解释变量之间存在函数关系, 那么误差项一定不满足MLR.4(零条件均值的假定)。因此,在 这种情况下,OLS估计量一定是有偏的。 假定真实模型为: 但我们估计的是:
y 0 1x1 2 x2 u
则有:
其中,
E 1 1 21 ~
~
加入重要变量的平方项之后,回归结果如下:
Total narr86 pcnv pcnvsq avgsen tottime ptime86 pt86sq qemp86 inc86 inc86sq black hispan _cons 2010.34716 Coef. .5525236 -.7302119 -.0170216 .011954 .2874334 -.0296076 -.0140941 -.0034152 7.19e-06 .292296 .1636175 .5046065 2724 .738012906 t 3.58 -4.68 -1.41 1.29 6.49 -7.66 -0.81 -4.25 2.81 6.52 4.15 13.70 P>|t| 0.000 0.000 0.158 0.198 0.000 0.000 0.417 0.000 0.005 0.000 0.000 0.000 Std. Err. .1542372 .1561177 .0120539 .0092825 .0442582 .0038634 .0173612 .0008037 2.56e-06 .04483 .0394507 .0368353
– black
– hispan
如果是黑人,black=1
如果是西班牙裔,hispan=1
首先我们将被解释变量向解释变量回归,不包含任何平方项。 回归的结果如下:
Source Model Residual Total narr86 pcnv avgsen tottime ptime86 qemp86 inc86 black hispan _cons SS 145.390104 1864.95705 2010.34716 Coef. -.1332344 -.0113177 .0120224 -.0408417 -.0505398 -.0014887 .3265035 .1939144 .5686855 df 8 2716 2724 MS 18.173763 .686655763 .738012906 t -3.30 -0.92 1.27 -4.63 -3.50 -4.37 7.19 4.88 15.78 P>|t| 0.001 0.355 0.203 0.000 0.000 0.000 0.000 0.000 0.000 Number of obs = F( 8, 2716) Prob > F R-squared Adj R-squared Root MSE = = = = = 2725 26.47 0.0000 0.0723 0.0696 .82865
实际估计时漏掉了 female•educ,所以实际估计的方程为:
log(wage) 0 1educ 2 exper 3 exper 2 4 female u
在原始模型中,教育的回报率会因性别的不同而有所不同, 但这一性质在遗漏了交互项的模型中无法得到体现,从而造成 OLS估计值产生偏误。
Model Residual
207.979008 1802.36815
11 2713
18.9071826 .66434506
F( 11, 2713) = Prob > F = R-squared = Adj R-squared = Root MSE =
28.46 0.0000 0.1035 0.0998 .81507
[95% Conf. Interval] .2500892 -1.036334 -.0406574 -.0062474 .2006501 -.037183 -.0481366 -.0049912 2.17e-06 .2043916 .0862609 .4323784 .854958 -.4240903 .0066142 .0301554 .3742166 -.0220321 .0199485 -.0018392 .0000122 .3802004 .240974 .5768347
. reg lprice llotsize lsqrft bdrms yy2 yy3
. test yy2 yy3 ( 1) yy2 = 0 ( 2) yy3 = 0 F( 2, 82) = 2.57 0.0831 Prob > F =
结果表明:在5%的水平上无法拒绝原假设,即采用对数形式的回
归可能不存在函数形式误设的问题。
用F统计量或LM统计量进行检验,一个显著的F统计量或者LM 统计量说明函数形式可能存在问题
2.使用RESET对模型误设检验时应该注意的问题:
RESET在探测非线性形式的函数误设时很好用,而不是一般的 遗漏变量; Wooldridge在1995年证明:当被遗漏变量的期望值是所包含自 变量的线性函数时,RESET无法探测出遗漏变量问题; 如果正确设定了模型形式, RESET对检验异方差无能为力;
加入平方项之后,除1986年被雇佣季度数( qemp86 )之外,
各变量的显著性并没有太大的影响,而且所有的平方项都是显著 的,这就意味着不加平方项的模型的确存在误设的可能,而且加 入平方项之后,相关变量的系数也更有意义了。见教材P295
注意:
如果原模型满足假定MLR.4,那么在方程中添加自变量的非线 性关系应该是不显著的;