伍德里奇《计量经济学导论》(第6版)复习笔记和课后习题详解-模型设定和数据问题的深入探讨【圣才出品】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第9章模型设定和数据问题的深入探讨
9.1复习笔记
考点一:函数形式设误检验(见表9-1)★★★★
表9-1函数形式设误检验
考点二:对无法观测解释变量使用代理变量★★★
1.代理变量
代理变量就是某种与分析中试图控制而又无法观测的变量相关的变量。
(1)遗漏变量问题的植入解
假设在有3个自变量的模型中,其中有两个自变量是可以观测的,解释变量x3*观测不到:y=β0+β1x1+β2x2+β3x3*+u。
但有x3*的一个代理变量,即x3,有x3*=δ0+δ3x3+v3。
其中,x3*和x3正相关,所以δ3>0;截距δ0容许x3*和x3以不同的尺度来度量。
假设x3就是x3*,做y对x1,x2,x3的回归,从而利用x3得到β1和β2的无偏(或至少是一致)估计量。
在做OLS之前,只是用x3取代了x3*,所以称之为遗漏变量问题的植入解。
代理变量也可以以二值信息的形式出现。
(2)植入解能得到一致估计量所需的假定(见表9-2)
表9-2植入解能得到一致估计量所需的假定
2.用滞后因变量作为代理变量
对于想要控制无法观测的因素,可以选择滞后因变量作为代理变量,这种方法适用于政策分析。
但是现期的差异很难用其他方法解释。
使用滞后被解释变量不是控制遗漏变量的唯一方法,但是这种方法适用于估计政策变量。
考点三:随机斜率模型★★★
1.随机斜率模型的定义
如果一个变量的偏效应取决于那些随着总体单位的不同而不同的无法观测因素,且只有一个解释变量x,就可以把这个一般模型写成:y i=a i+b i x i。
上式中的模型有时被称为随机系数模型或随机斜率模型。
对于上式模型,记a i=a+c i和b i=β+d i,则有E(c i)=0和E(d i)=0,代入模型得y i=a+βx i+u i,其中,u i=c i+d i x i。
2.保证OLS无偏(一致性)的条件
(1)简单回归
当u i=c i+d i x i时,无偏的充分条件就是E(c i|x i)=E(c i)=0和E(d i|x i)=E(d i)=0。
可以把这些条件写成:E(a i|x i)=E(a i)和E(b i|x i)=E(b i),即a i和b i都均值独立于x i。
但误差项u i肯定包含了异方差。
Var(u i|x i)=σc2+σd2x i2。
因此,除非σd2=0,否则一定存在异方差。
(2)多元回归
多元回归模型为:y=a i+b i1x i1+b i2x i2+…+b ik x ik,记a i=α+c i和b ij=βj+d ij,有y i =α+β1x i1+β2x i2+…+βk x ik+u i,其中u i=c i+d i1x i1+d i2x i2+…+d ik x ik。
如果保持均值独立假定E(a i|x i)=E(a i)和E(b ij|x i)=E(b ij)(j=1,…,k),于是有:E(y i|x i)=α+β1x i1+…+βk x ik。
使用一个随机样本,普通最小二乘法就能得到α和βj的无偏估计量。
如果斜率独立于或至少均值独立于解释变量,就能把斜率模型化为解释变量的函数,这样得到的模型就包含解释变量的平方或乘积项。
考点四:有测量误差时OLS的性质★★★★★
1.代理变量与测量误差的差别(见表9-3)
表9-3代理变量与测量误差的差别
2.测量误差导致的后果
(1)被解释变量中测量误差导致的后果
一般情况下,被解释变量的测量误差在统计上独立于每个解释变量,从而OLS估计量
仍具有无偏性和一致性;但被解释变量的测量误差会增加误差项的方差,使得OLS 估计量的方差更大。
(2)解释变量中测量误差导致的后果
当解释变量存在测量误差时,误差项与解释变量测量误差相关,进而违背了经典假定,从而OLS 估计量都是有偏且非一致的,误差项方差的估计也是有偏的。
3.衰减偏误
(1)概念
在CEV 情形下,y 对x 1的OLS 回归将给出一个有偏而又不一致的估计量。
利用渐近结论,可以决定OLS 中不一致的数量。
∧
β1的概率极限为:()()()1
11
1111112111111122122
1122
22
Cov ˆplim 1e e x e x e e x x x u e Var x βσββββσσσσββσσσσ****-=+=-+⎛⎫⎛⎫ ⎪ ⎪=-= ⎪ ⎪++⎝⎭⎝⎭
,其中,Var(x 1)=Var(x 1*)+Var(e 1)。
因为:
11122201x e x σσσ**<
<+所以,plim(∧β1)总比β1更接近于0。
这种情况被称为OLS 因经典变量误差而导致的
衰减偏误:平均而言(或存大样本中),所估计的OLS 影响将会变小。
若β1为正,则∧
β1倾向于低估β1。
如果x 1*的方差相对于测量误差的方差很大,那么OLS 中的不一致性将会很小。
(2)引入更多解释变量的模型
形式为:y=β0+β1x 1*+β2x 2+β3x 3+u。
几乎在所有情况下,都假定e 1与不存在测量误差的解释变量x 2和x 3无关。
因此若e 1与x 1无关,则y 对x 1,x 2和x 3的OLS 回归将得到一致估计量。
在CEV 假定式之下,因为在方程y=β0+β1x 1+β2x 2+β3x 3+u 中e 1和x 1相关,所以OLS 将是有偏和不一致的。
一般而言,所有的OLS 估计量都是有偏的。
结果在估计β1时仍存在衰减偏误。
可以证明:
()11121122
ˆplim r e r σββσσ**⎛⎫ ⎪= ⎪+⎝⎭
其中,r 1*表示方程x 1*=α0+α1x 2+α2x 3+r 1*中的总体偏误。
在x 1*与x 2和x 3都不相关的特殊情形中,∧β2和∧
β3都是一致的。
一般来说,单个变量的测量误差会导致所有估计量都不一致。
考点五:数据缺失、非随机样本和异常观测★★
1.数据缺失
(1)随机样本
来自总体的可用随机样本容量的减小会导致数据的随机缺失,但此类型的数据缺失不会改变样本的随机性,也不会引入任何偏误,估计量仍具有无偏性和一致性。
(2)非随机样本
非随机样本是指,数据缺失为非随机性的,即改变了样本的随机性。
①外生样本选择
在没有MLR.2假定的高斯-马尔科夫假定下,样本可在解释变量的基础上加以选择。
基于解释变量的样本选择被称为外生样本选择,该特定类型的非随机样本不会导致OLS估计的偏误和不一致,OLS估计量仍具有无偏性和一致性。
②内生样本选择
基于被解释变量的样本选择被称为内生样本选择,如果基于被解释变量值不同于某给定值来选择样本,OLS估计会产生偏误。
2.异常观测
(1)异常值导致后果
OLS的基本原理在于其最小化残差平方和,即残差越大所赋权重越大,因而异常值的存在会使得OLS估计值产生较大的实际变化。
(2)异常值产生原因
①输入错误
对于数据输入错误,可通过计算变量的主要统计量来检测。
②抽样偏误
样本容量较小,总体中与其他元素差别较大的元素在小样本抽样时,被视为异常数据。
(3)异常值的检测
①提高解释变量的方差
异常值的观测可通过提高解释变量的方差,减小标准误来提供重要信息。
②学生化残差
学生化残差是通过将原普通最小二乘残差除以其标准差估计值(以样本中的解释变量为条件)而得到的。
a.学生化残差的计算方法
定义一个虚拟变量,使其对该观测(比方说观测h)取值为1,而对其他观测都取值为0,并把它与其他解释变量一起包含在回归中。
这个虚拟变量的系数正好等于观测h的学生化残差。
在经典线性模型假定下,该t统计量服从t n-k-1分布。
因此,一个较大的t统计量值(绝对值)意味着相对其估计标准差而言,其残差较大。
b.使用学生化残差的一般性问题
为了计算一个特定观测的残差,事实上所有其他观测都被用于估计回归线。
(4)异常值的处理
①最小绝对离差估计
广泛使用的方法是最小绝对离差(LAD)。
在一个线性模型中,最小绝对离差估计量最小化了残差绝对值之和,未赋予较大残差更大的权重,因而不同于OLS对异常值的敏感。
②LAD的缺点
a.计算起来比OLS更加困难;
b.所有关于LAD估计量的统计推断只有在样本容量逐渐增大的情况下才是合理的;
c.LAD并非总能一致地估计条件均值函数E(y|x1,…,x k)中出现的参数;
d.最小绝对离差是稳健回归的一种特殊情形。
一个稳健的回归估计量对极端值相对缺乏敏感性。
事实上,具有较大残差的观测被赋予的权数比最小二乘法中的权数要小。
9.2课后习题详解
一、习题
1.在第4章习题11中,利用CEOSAL2中的数据估计模型。