第9章 模型设定和数据问题的
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9.4 数据缺失、非随机样本和异常观测值
本节讨论数据问题,测量误差问题可看成一个数 据问题,而解释变量之间的多重共线性也是数据 问题。我们集中于违反MLR.2假定的数据问题。 数据缺失(missing data):如果一个观测缺失其 因变量或一个自变量的数据,此观测不能用于回 归分析,软件包会简单忽略此观测,由此减少了 可用的样本容量,数据缺失还有其他什么影响? 取决于数据缺失的原因,如果是随机缺失,不会 违反假定MLR.2,对估计不会有实质影响。
对上方程进行OLS估计得到的估计量,称为遗漏变量问 题的植入解。什么情况下此解是一致的? * (1)误差u与 x1 , x2 , x3 , x3 不相关,这不是很有争议 (2)误差v3与 x1 , x2 , x3 不相关,这意味着:
E v3 x1 , x2 , x3 E x3* 0 3 x3 x1 , x2 , x3 E x3* x1 , x2 , x3 0 3 x3 0 E x3* x1 , x2 , x3 0 3 x3 E x3* x3
9.2对观测不到的解释变量使用代理变量
* x , x 此等式要求,一旦控制了 3 3 的期望值与 x1 , x2无关,这
是一个“好的”代理变量的要求,在工资方程中,这要求 能力的平均水平只随IQ变化,而不随educ和exper变化, 这合理吗?或者IQ是能力的一个好的代理变量吗?例9.3 如果代理变量不符合上述要求,使用代理变量仍将导致偏误, 我们有理由希望,此偏误比完全忽略遗漏变量时要小 用滞后因变量作为代理变量:如何得到遗漏变量的代理变 量在许多情形下是困难的,我们可以将滞后的因变量包括 进来加以控制。这种做法的认识是,不同时期的因变量受 到相同遗漏变量的影响,滞后因变量在一定程度上可作为 代理变量,同时惯性影响也是引入滞后因变量的原因之一。 这种思想也是利用panel data解决遗漏变量问题的基础。 例9.4
9.1 函数形式误设
以上非嵌套模型的检验的缺陷为,一是两个模型可 能同时被拒绝,也可能同时被接受。二是拒绝一 个模型,也并不意味着另一个模型是正确的模型, 因为可能是多种误设的函数形式被拒绝。 更困难的是,不同因变量的模型比较,如常用的水 平因变量y模型与对数因变量logy模型的选择。
9.2对观测不到的解释变量使用代理变量
9.3 有测量误差的OLS估计
因变量中的测量误差:当在一个回归模型中使用经济变 量不精确的度量时,模型中就包含了测量误差。只有当 计量经济学家所能收集数据的变量,与影响个人、家庭、 企业等决策的变量不同时,测量误差才成为问题。首先 讨论因变量存在测量误差的情形。设回归模型形式为: y* 0 1 x1 k xk u 模型满足高斯-马尔科夫假定,但因变量的观测值与实际 值存在测量误差:e0 y y* 原方程可以变换成:y 0 1 x1 k xk u e0 要使得OLS估计是一致的,要求测量误差与每个解释变量 是不相关的。如果因变量的测量误差与一个或多个解释 变量相关,则会导致OLS的偏误。通常的假定是测量误 差独立于每个解释变量,所以OLS估计量是无偏和一致 的,但测量误差会增大估计量的方差。例9.5,9.6
9.1 函数形式误设
模型是否需要非线性的形式,通常可在模型中添加 任何一个显著变量的平方项,利用联合排除性约 束的F检验进行联合显著性检验。如果所增加的平 方项是显著的,就可以将其加入模型中。但需注 意的是,显著的平方项可能是函数有其他形式的 征兆,如应使用对数形式却使用了水平形式等。 幸运的是,在许多情形下,使用某些变量的对数 形式和添加二次项足以发现经济学中许多非线性 关系,例9.1。
* y 0 1 x1 2 x2 3 x3 u
9.2对观测不到的解释变量使用代理变量
第三个变量观测不到,但我们有其一个代理变量,它们 之间的关系为: x* x v 3 0 3 3 3 将此方程代入原方程可得:
y 0 30 1x1 2 x2 33 x3 u 3v3
9.4 数据缺失、非随机样本和异常观测值
非随机样本:当数据缺失导致样本变成总体的一 个非随机样本,可能存在问题。 基于自变量的样本选择是指,样本在自变量的基础 上加以选择,这是外生样本选择的情形,不会导 致任何统计问题。 基于因变量的样本选择是指,样本在因变量的基础 上加以选择,这是内生样本选择的情况,OLS估 计会产生偏差。 对于样本是基于个体的决策而选择,这是自选择问 题,情况可能更复杂。 异常观测:例9.8, 9.9 ,9.10
第9章 模型设定和数据问题的深入探讨
MLR.3假定要求: E u x1, x2 , , xk 0 是OLS估计的基础,如果违反此假定,即误差项与某个 解释变量是相关的,常称此解释变量是内生的。内生性 会导致OLS估计量有偏且不一致,是计量经济学中最难 处理的问题,本章讨论导致内生性的三个主要情形:函 数形式的误设、遗漏变量和测量误差。 9.1 函数形式的误设 9.2 对观测不到的解释变量使用代理变量 9.3 有测量误差的OLS性质 9.4 数据缺失、非随机样本和异常观测
y 0 1x1 2 x2 3 log x1 4 log x2 v
另一种方法由Davidson和Mackinnon(1981)提出,在每 个模型中加入另一模型的拟合值,检验其显著性:
ˆ1 w y 0 1 log( x1 ) 2 log( x2 ) 2 y ˆ2 v y 0 1x1 2 x2 1 y
9.3 有测量误差的OLS估计
解释变量的测量误差:解释变量的测量误差可能是 一个较严重的问题。以简单回归模型说明: * * y 0 1 x1 u, e1 x1 x1 假定原模型满足高-马假定,变换后的模型为:
y 0 1x1 u 1e1
OLS估计量的性质取决于测量误差与x1的关系的假定, 一种是经典的含误差变量(CEV)假定:
9.1 函形式误设
回归设定误差检验(RESET):对函数形式是否误 设,Ramsey(1969)提出了RESET检验。其基本 思想为,如果如下模型满足MLR.3,则添加自变量的 非线性关系应该是不显著的。y 0 1x1 k xk u 直接加入二次项,检验其显著性,会消耗掉大量的自由 度。RESET则在方程中加入OLS估计的拟合值的多 项式,以侦查函数形式的误设是否存在:
9.1 函数形式误设
函数形式误设是指,没有正确地设定因变量和所观测到的 解释变量之间函数关系。例如工资方程的真实形式为: log wage 0 1educ 2 exp er 3 exp er 2 u 但实际设定时遗漏了平方项,这导致函数形式误设,在此情 形下,OLS不能得到任何一个参数的无偏和一致估计。 遗漏自变量的函数并不是模型出现函数形式误设的唯一方式, 设定时使用水平项wage,而不是对数形式,这也导致函数 形式的误设。 模型的函数形式误设会导致严重的问题,但如果我们已经有 了所有必要的变量数据,可以采用一些方法来侦测合适的 函数形式,如果不能收集到关键变量的数据,问题可能更 严重,下一节讨论此问题。
y 0 1 x1
ˆ 2 2 y ˆ3 u k xk 1 y
RESET就是检验模型中二次和三次拟合值的系数的联 合显著性。该检验的一个缺陷是,当线性模型被拒绝 后,它不能为我们如何做提供一个现实的方向。例 9.2
9.1 函数形式误设
非嵌套模型的检验:函数形式的设定会涉及到非嵌套模 型的检验,这时标准的F检验不能采用,如下二模型的选 择:y 0 1 log x1 2 log x2 u; y 0 1x1 2 x2 u 两种常用的方法,一种是Mizon和Richard(1986)提出, 构造一个能包含两个模型的综合模型,检验每个模型的 相应的约束:
内生性问题的更困难的情形是,关键变量因数据缺乏而 被模型排除或遗漏。如: log wage 0 1educ 2 exp er 3abil u 如果educ与abil相关,将abil放入误差项会导致所有参数 的OLS估计有偏和不一致。 一种可能的方法是找到遗漏变量的代理变量(proxy variable),即与我们试图控制但又观测不到的变量相 关的变量。在工资方程中,一种可能性是采用智商IQ作 为能力的代理变量,这并不要求IQ等同于能力,只需要 IQ与能力相关。什么情况下,使用代理变量可以得到参 数的无偏和一致估计呢?用三变量模型来说明,其中有 两个变量是可以观测的:
* cov x1 , e1 0, * 2 cov x1 , e1 cov x1 e1 , e1 e
在CEV下,y对x1的OLS回归会得到有偏且不一致估计, 1 0,这被称为CEV导 p lim ˆ1 而且 总比 更接近 致OLS估计的衰减偏差。
9.3 有测量误差的OLS估计
cov x1 , e1 0 ,即测量误差与观测到的测量值 另一假定为: 不相关,这意味着测量误差不影响OLS估计具有良好的 性质。 CEV假定主要基于标准的测量误差模型,但在有些情况下 可能不成立,实际的情况可能介于两种假定之间,即测 量误差与实际值和测量值同时相关,OLS不一致的。 当引入更多的解释变量时,情况可能更复杂,在CEV下, 所有的OLS估计量都是有偏和不一致的。例9.7