第15章工具变量与两阶段最小二乘.doc

合集下载

第15章-工具变量

第15章-工具变量

Cov( z, y) 1Cov( z, x) Cov( z, u)
现在,在式 (15.4) 中 Cov(z,u)=0 与式(15.5) 中 Cov(z,x)≠0 的假定下 ,我们可以解出 1 为:
Cov( z, y ) 1 Cov( z, x)
(15.9)
[注意到,若 z 与 x 不相关,即 Cov(z,x)=0,这 个简单的代数关系便不成立。]方程 (15.9)表 明, 1 是 z 和 y 之间的总体协方差除以 z 和 x 之间的总体协方差,这说明 1 被识别了。 给定一个随机样本,我们用对应样本量来估 计总体量。
score 0 1skipped u
(15.8)
其中,score 是期末考试成绩, skipped 是该 学期逃课的总次数。
当然,我们可能担心 skipped 与 u 中其他因素 相关:越有能力而又积极的学生可能逃课也越 少。因而 score 对 skipped 的简单回归,可能 不会给出逃课之因果效应的可靠估计。
这样一来 , 我们便把 abil 放人误差项中,而 只留下简单回归模型: Log(wage) =β 0+β 1educ+u (15.1 ) 其中,u 包含 abil。当然,如果用 OLS 估计 方程 (15.1) ,若 educ 与 abil 相关,则得到 的结果将是 1 的有偏而又不一致估计量。
即使能获得,如果我们的兴趣在于变量的影响, 而该变量又不随时间而变化,它对于我们也几 无用处:一阶差分或固定效应估计排除了不随 时间而变化的变量。 此外,迄今为止我们所研 究的面板数据方法,还不能解决与解释变量相 关的时变(即随着时间而不断变化的)遗漏变 量问题。
在本章,我们对内生性问题采用了一种不同的 方法。你将看到如何用工具变量法 (IV)来解决 一个或多个解释变量的内生性问题。就应用计 量经济学中线性方程的估计而言,两阶段最小 二乘法 (2SLS 或 TSLS)的受欢迎程度仅次于普 通最小二乘。

工具变量估计与两阶段最小二乘法

工具变量估计与两阶段最小二乘法
检验的策略: y 0 1 z 2 X ei H 0 : 1 0 x 0 1z v H0 : 1 0 参数的识别: Cov z , y 1Cov z , x Cov z , u Cov z , y 1 ; Cov z , x ˆ z z y y i 1 i
2 0.014 n 428, R 0.118
edu 10.24 0.269 fatheduc n 428, R 2 0.173 n 428, R 2 0.093 log wage 0.441 0.059educ
0.446 0.035
ˆ u2 SSTx Rx2, z
ˆ 的方差越小; n,或 ,或 越大, 1
2 x 2 x,z
在高斯-马尔科夫假定下,OLS估计量的方差:
ˆ Var 1 SSTx

2
例1 估计已婚女性的教育回报
log wage 0.185 0.109educ
0.185 0.28 0.029
IV 0.132 (0.055) 0.108 (0.024) -0.0023 (0.0003)
Black
Smsa South 观测数 R2
-0.199 (0.018)
0.136 (0.02) -0.148 (0.026) 3010 0.300
-0.147 (0.054)
ˆ ˆ y ˆ z 0 1 i 2 2 i1 0
i1

z y
i 1 i2
ˆ ˆ y ˆ z 0 1 i 2 2 i1 0 ˆ ˆ y ˆ z 0 1 i 2 2 i1 0

z y

题目什么是工具变量请简要解释两阶段最小二乘法的原理

题目什么是工具变量请简要解释两阶段最小二乘法的原理

题目什么是工具变量请简要解释两阶段最小二乘法的原理工具变量是经济学研究中常用的一种样本选择技术,在解决内生性问题时发挥重要的作用。

而两阶段最小二乘法(Two-stage Least Squares, 2SLS)则是一种通过工具变量解决内生性问题的统计方法。

本文将简要解释什么是工具变量,并介绍两阶段最小二乘法的原理。

一、什么是工具变量?工具变量是一种被用来估计因果效应的技术。

在经济学研究中,我们通常希望通过观察变量之间的关系来推断因果关系。

然而,当我们的解释变量与误差项存在内生性的时候,观察到的关系可能是虚假的。

内生性指的是解释变量与误差项之间存在相关性,从而导致回归结果的偏误。

例如,假设我们想要研究教育对收入的影响,但教育水平与个体的天赋能力存在相关性,那么在简单的回归模型中,教育水平的系数可能是被天赋能力所驱动的,而隐藏了教育对收入的真实影响。

为了解决内生性问题,我们需要引入工具变量。

工具变量是与解释变量相关但与误差项无关的变量。

通过利用工具变量的性质,我们可以有效地分离出解释变量与误差项之间的关系。

二、两阶段最小二乘法的原理两阶段最小二乘法是一种使用工具变量估计内生变量系数的方法。

它将估计过程分为两个阶段,通过两个回归模型来实现。

第一阶段:通过工具变量来解决内生性问题。

首先,选择一个与内生变量相关的工具变量。

然后,利用工具变量进行回归,得到内生变量的预测值。

这个预测值具有以下性质:它与误差项无关,并且与内生变量存在相关性。

第二阶段:根据第一阶段得到的内生变量的预测值,再次进行回归。

这一次回归的目的是估计解释变量对因变量的影响,并控制了内生性的影响。

通过这两个阶段的回归,我们可以得到内生变量系数的一致估计。

两阶段最小二乘法的核心思想是利用工具变量来消除内生性问题,进而获得内生变量系数的一致估计。

通过第一阶段的回归得到的预测值,我们可以将内生变量视为无误差的外生变量,并在第二阶段的回归中进行计算。

北大计量经济学讲义-工具变量与两阶段最小二乘法

北大计量经济学讲义-工具变量与两阶段最小二乘法

nehS naY ,scirtemonocE etaidemretnI
计估SLO的1b到得们我�时x=z当 . 1b
计估�时在存VI当 noitamitsE :elbaliavA si VI na nehW
91
nehS naY ,scirtemonocE etaidemretnI
计估�时在存VI当 noitamitsE :elbaliavA si VI na nehW
�量变具工用使何为 ?selbairaV latnemurtsnI esU yhW
7
nehS naY ,scirtemonocE etaidemretnI
题问差误量测的典经决解来用可VI�且而 melborp selbairav-ni-srorre cissalc eht evlos ot desu eb nac VI ,yllanoitiddA � 差偏量变漏遗决解来用以可VI�以所 saib elbairav dettimo fo melborp eht sserdda ot desu eb nac VI ,suhT �

定决资工�子例 noitanimreted egaw :elpmaxE
41
nehS naY ,scirtemonocE etaidemretnI
。关相项差误和育教与时同它。不 .mret rorre eht dna noitacude htob htiw setalerroc tI .oN � �吗量变具工的好是QI ?tnemurtsni doog a QI sI �
。计估致一的1b是计估VI明证律定数 大用应以可�时立成 )5.51(和 )4.51(定假当 .srebmun egral fo wal eht gniylppa retfa ,1b rof tnetsisnoc si rotamitse VI eht taht wohs nac eno ,dloh )5.51( dna )4.51( snoitpmussa nehW �

第十五章工具变量估计与TSLS-2

第十五章工具变量估计与TSLS-2


第二阶段,用ŷ2代替内生变量y2
y1对 ŷ2 和z1回归

TS】核心用户 By微0渺 上传
临近大学作为教育的IV【爱】核心用户 By微0渺 上传两阶段最小二乘(TSLS)

结构方程:

y1=b0+b1y2+b2z1+u y2的工具变量z2
ˆ ˆ ˆ ˆ y2 0 1z1 2 z2 e y2 e

第一阶段:简化模型的OLS回归

通常不能保证Corr(z,u)=0,只能保证: |Corr(z,u)|<|Corr(x,u)| 若Corr(z,x)很低,IV估计量的偏差可能更大【爱】核心用户 By微0渺 上传
抽烟对婴儿体重的影响
log(bwght)=b0+b1packs+u


生活环境越糟糕,可能越容易抽烟:孕妇抽烟 量与婴儿体重的其他影响因素相关 工具变量:香烟价格cigprice
工具变量合适吗?【爱】核心用户 By微0渺 上传
IV估计中的R2



R2=1-SSR/SST 对于OLS估计: SST=SSE+SSR R2[0, 1] 对于IV估计: SSR可能大于SST, R2可能为负 IV估回归模型的IV估计


三个方程,三个未知的b参数 若y2外生,z2=y2,IV估计等同于 OLS估计 工具变量的相关性检验: y2=0+1z1+2z2+v2 H0: 2=0【爱】核心用户 By微0渺 上传
简单的扩展:


多个内生解释变量和外生解释变量 y1=b0+b1y2+b2y3+b3z1+b4z2+u 假设存在两个外生变量z3和z4【爱】核心用户 By微0渺 上传

两阶段最小二乘法步骤

两阶段最小二乘法步骤

两阶段最小二乘法步骤
两阶段最小二乘法是一种分离策略,将内生变量分离为可以被工具变量线性表出的部分,以及随机干扰部分。

其具体步骤如下:
1. 第一阶段:让工具变量z对内生x进行回归,得到估计值$x^$。

2. 第二阶段:利用$x^$对y做回归,得到系数估计值。

这种方法通过将估计分成两个步骤(阶段)回归,因此得名“两阶段最小二乘法”。

对于联立方程组,可以采用三阶段最小二乘法。

如果存在弱工具变量问题,可以采取对信息不太敏感的有限信息极大似然估计法。

c15 工具变量估计与两阶段最小二乘法

c15 工具变量估计与两阶段最小二乘法

第15章工具变量估计与两阶段最小二乘法摘要: 本章继续讨论如何解决模型中的内生解释变量(endogenous explanatory variables )问题。

遗漏变量(omitted variables )是导致内生性问题的一个原因。

本章采用工具变量法(method of instrumental variables,IV )来解决模型中的一个或多个解释变量的内生性问题。

所采用的估计方法被称为两阶段最小二乘估计(method of two stage least squares ,2SLS or TSLS),其受欢迎程度仅次于OLS. IV 也能在某些特定的情形下解决变量带误差(errorsin-variables )的问题.15.1 动机: 简单回归中的遗漏变量如何处理可能发生的变量遗漏带来的偏误,已有三种选择: 1)直接忽略,讨论偏误的方向;2)寻找一个合适的代理变量;3)如果该遗漏变量不随时间变化时,采用FE 或FD 方法。

工具变量法的思路:不是考虑如何处理遗漏变量(此时遗漏变量在误差项中),而是寻找被遗漏的解释变量的替代变量,使得替代变量和误差项不再存在相关性。

y =β0+β1x +u ,此时该模型不满足MLR.4,从而不能保证Cov (x,u )=0,特别地,假定Cov (x,u )≠0. 如果x 的替代变量z 同时满足下面两个条件:1) 工具外生性(instrument exogeneity )条件:Cov (z,u )=0,2) 工具相关性(instrument relevance )条件:Cov (z,x )≠0,则称z 为x 的工具变量(instrumental variable ),或简称工具(instrumental ). 几点说明:1) 工具变量的外生性意味着z 对y 没有偏效应(当x 和u 中遗漏变量被控制时),同时也和其它被遗漏变量不相关;2) 工具外生性检验在多数情况下只能通过经济行为或反思来判断;3) 工具相关性检验借助t 和F 检验就行;外生性和相关性假设足以帮助我们识别(Identification )出β1=COv(z,y)Cov(z,x),那么β1的工具变量估计(instrumental variables (IV) estimator )为:β̂1=∑(z i −z ̅)(y i −y ̅)n i=1∑(z i −z ̅)(x i −x ̅)n i=1, 其是β1的一致但有偏的估计;4)β̂1显然当z=x,该估计就是OLS 估计,但这要以x 和u 无关为条件,也即工具变量法适于u 和x 无关的情形。

工具变量

工具变量
2
在教育回报率的例子中,假定真实模型将对数工资对教育和能力回 归:现在能力不可观测,而且没有代理变量 没有代理变量IQ 没有代理变量 事实上使用的回归:将对数工资对教育回归,但由于误差项包含能 力,并且教育水平与能力相关,此时会出现教育的内生性问题 内生性问题。 内生性问题 一个好的IV应当与教育水平高度相关,并且与误差项不相关。 ——问:IQ是好的工具变量吗? ——答:不。它同时与教育和误差项相关。 文献中使用的IV:(1) 父母亲的教育水平;(2) 兄弟姐妹数目,依赖 的假说是:兄弟姐妹越多,平均受教育水平越低 注意:无论我们使用其中的哪一个作为IV,我们都需要肯定它们与 能力不相关。 满足零条件均值条件:OLS x u 内生性:OLS估计将有偏 x y u y 工具变量的解决思路 z x u y=β0+ β1x+u(x)→→dy/dx=β1+du/dx
6
例 15.1 已婚妇女的教育回报率的估计 . reg lwage educ if inlf==1
Source Model Residual Total lwage educ _cons SS 26.3264193 197.001022 223.327441 Coef. .1086487 -.1851968 df 1 426 427 MS 26.32641 93 .4624437 13 .5230150 84 t 7 .55 -1 .00 P>|t| 0.000 0.318 Number of obs F( 1, 426) Prob > F R-squared Adj R-squared Root MSE = = = = = = 428 56.93 0.0000 0.1179 0.1158 .68003
σ2 ˆ ˆ β1的渐近方差是 Var β1 = 2 2 nσ x ρ x , z

工具变量两阶段最小二乘

工具变量两阶段最小二乘
估计结果与前面相差很大,检验工具变量与内生 变量的相关性,发现用三个工具变量时相关性大 大提升,故应采用mothedu,fathedu,husedu一起 做工具变量。 • 工具变量的好坏直接影响估计结果,实际应用中, 寻找合适的工具变量是解决问题的关键,也是困 难所在。
两阶段最小二乘法:TSLS
点击选择按钮(Op>ons)对参数估计协方差矩 阵的估计方法进行选择,本例采用的是横截面数据, 因此采用怀特异方差一致的协方差矩阵估计。
6.2 工具变量估计方法
6.2.2 两阶段最小二乘法:TSLS
两阶段最小二乘法:TSLS
一个内生自变量
Y = β0 + β1X1 + β2 X 2 + β3 X3 + u X1 为内生变量, X2 和X 3 为外生变量,Z1 、Z2 X为1 的工具变量。 两阶段最小二乘步骤:
原假设: H0 : α1 = α2 = 0
• 用第五章构造的Tr 统计量进行F检验,若 Tr值够大, 通常大于10则认为相关性足够,可做工具变量。
• 若接受原假设,则表明工具变量与内生变量相关 性太弱,其不适宜做工具
两阶段最小二乘法:TSLS
一个内生自变量
EViews实现两阶段最小二乘: 例子6.2 已婚女性小时工资(续)
• 不相干变量引入不会影响参数估计的无偏性和一 致性,但是会影响参数估计的有效性。
6.2 工具变量估计方法
6.2.1 工具变量估计法 6.2.2 两阶段最小二乘法:TSLS
6.2 工具变量估计方法
6.2.1 工具变量估计法
工具变量估计法
一元线性回归模型
Y = β0 + β1X + u
Ø 定义1:如果存在变量Z

两阶段最小二乘工具变量估计法

两阶段最小二乘工具变量估计法

两阶段最小二乘工具变量估计法【知识专栏】探究两阶段最小二乘工具变量估计法在经济学和社会科学领域,研究者常常面临着解决内生性问题的挑战。

内生性问题的存在会导致统计结果的偏误,从而影响对因果关系的准确性。

为了解决内生性问题,学者们提出了一种被广泛应用的估计方法,即两阶段最小二乘工具变量估计法(Two-Stage Least Squares,2SLS)。

一、深入解读内生性问题内生性是什么?从宏观角度看,内生性指的是解释变量与误差项之间存在相关关系,从而引发了对因果关系的混淆。

举个例子来说,假设我们想研究教育对收入的影响。

然而,由于教育受到家庭背景的影响,可能存在潜在的内生性问题。

也就是说,收入水平的高低可能既受到教育程度的影响,又受到家庭背景的影响,使得教育对收入的影响难以单独量化。

二、引入工具变量的作用为了解决内生性问题,我们需要引入工具变量。

什么是工具变量?简单来说,工具变量应该满足两个条件:与内生性解释变量相关,但与误差项不相关。

直观上理解,工具变量可以被看作是用来"替代"内生性解释变量的。

在前面教育与收入的例子中,一个可能的工具变量是父母的受教育水平。

虽然父母的教育水平与学生的收入相关,但从概念上来说,父母的教育水平与学生的收入并没有直接的关系。

父母的教育水平既可以用来代替学生的教育水平,也可以帮助我们解决内生性问题。

三、两阶段最小二乘法在引入工具变量后,我们需要进行两个阶段的回归分析。

在第一阶段,我们使用工具变量来回归解释变量,得到预测值。

我们再在第二阶段,使用这些预测值来估计因果效应。

在这两个阶段中,我们使用最小二乘法进行回归分析。

四、两阶段最小二乘法的具体步骤1. 选择合适的工具变量。

2. 在第一阶段,使用工具变量回归解释变量,得到预测值。

3. 确认预测值的有效性和合理性,进行合理性检验。

4. 在第二阶段,使用预测值和其他解释变量,进行回归分析并估计因果效应。

5. 进行统计显著性检验,判断估计结果的可靠性。

工具变量法与最小二乘法的联系

工具变量法与最小二乘法的联系

工具变量法与最小二乘法的联系引言在经济学研究中,经常会遇到因果关系的分析问题。

然而,由于一些内生性问题,经济变量之间的因果关系不容易准确确定。

在这种情况下,研究者常常会使用工具变量法来解决内生性问题。

而在回归分析中,最小二乘法是最常用的估计方法之一。

本文将讨论工具变量法与最小二乘法的联系,并探讨它们在经济研究中的应用。

第一节:最小二乘法的基本原理最小二乘法是回归分析中最常用的估计方法之一。

其基本思想是通过最小化实际观测值与拟合值之间的残差平方和,来估计模型参数。

最小二乘法在非内生性问题下具有较好的性质和可解释性,因此被广泛应用于经济学研究。

第二节:工具变量法的基本原理工具变量法是一种解决内生性问题的方法。

当存在内生性问题时,直接使用最小二乘法估计结果可能是无偏且一致的,但标准误差可能会被低估,导致统计显著性的判断错误。

工具变量法通过引入一个或多个与内生变量相关但与误差项不相关的工具变量,将内生变量的影响通过工具变量间接传递给被解释变量,从而实现对内生性问题的处理。

第三节:虽然最小二乘法和工具变量法在解决经济研究中的问题时采用不同的方法,但它们之间存在联系。

首先,最小二乘法可以视为工具变量法的一种特殊情况,在非内生时可以直接使用。

其次,最小二乘法可以通过工具变量法来解决内生性问题,从而得到更准确的估计结果。

工具变量法通过引入工具变量来处理内生性问题,而这些工具变量的选择和使用通常需要基于最小二乘法的思想。

例如,研究者可以利用工具变量与内生变量相关的结构特点,通过最小二乘法来选择合适的工具变量。

这种联系使得最小二乘法和工具变量法之间相辅相成,共同构建了解决内生性问题的分析框架。

第四节:工具变量法与最小二乘法的应用工具变量法和最小二乘法在实际应用中都非常重要。

最小二乘法常被用于线性回归分析,估计参数的一致性和渐进正态性。

而工具变量法则广泛应用于处理内生性问题,如评估教育对收入的影响、估计负债对企业投资决策的影响等。

两阶段最小二乘法定义

两阶段最小二乘法定义

两阶段最小二乘法定义“同学们,今天咱们来聊聊两阶段最小二乘法。

”我站在讲台上,看着下面一双双充满求知欲的眼睛说道。

那什么是两阶段最小二乘法呢?简单来说,它是一种用于解决内生性问题的计量经济学方法。

比如说,我们想研究教育程度对收入的影响,但可能存在一些其他因素,既影响教育程度又影响收入,这就是内生性问题。

举个例子吧,假设我们要研究一个地区的经济发展水平和环境污染之间的关系。

经济发展水平可能是内生变量,因为可能有一些其他未被观察到的因素,既影响经济发展又影响环境污染。

如果我们直接用普通最小二乘法去估计,可能会得到有偏差的结果。

两阶段最小二乘法就分两个阶段来处理这个问题。

在第一阶段,我们找到一个工具变量,这个工具变量要和内生变量相关,但又不能直接影响因变量。

然后用这个工具变量去预测内生变量。

在第二阶段,我们把第一阶段预测得到的内生变量的值代入到模型中,用普通最小二乘法进行估计。

比如说,在刚才那个例子中,我们可以找一个和经济发展水平相关的工具变量,比如这个地区的基础设施建设情况。

基础设施建设好可能会促进经济发展,但它对环境污染的直接影响相对较小。

在第一阶段,我们用基础设施建设情况去预测经济发展水平,得到预测值。

在第二阶段,我们把这个预测值代入到模型中,来估计经济发展水平对环境污染的影响。

两阶段最小二乘法的优点就在于它能有效地处理内生性问题,让我们得到更可靠的估计结果。

但是它也不是完美的,它对工具变量的要求比较高,如果工具变量选择不当,可能会导致估计结果更糟糕。

再给大家说个实际的例子,有研究想知道广告投入对产品销量的影响。

但可能存在一些其他因素,比如市场趋势、季节变化等,既影响广告投入又影响销量。

这时候就可以用两阶段最小二乘法。

找到一个合适的工具变量,比如同行业其他公司的广告投入情况,来解决内生性问题。

同学们,希望通过今天的讲解,大家对两阶段最小二乘法有了更清楚的认识和理解。

以后在遇到类似问题的时候,能想到用这种方法来解决。

第15章 工具变量估计与两阶段最小二乘法

第15章 工具变量估计与两阶段最小二乘法
具体的IV估计量可从k+1个矩条件对应的样本 方程求出:
Eu 0, Ez1u 0,L , E zk1u 0, E zku 0
15.3 两阶段最小二乘法
如果一个内生解释变量有多个工具变量,如 何有效运用多个工具变量?以下面结构模 型为例: y1 0 1y2 2z1 u1
如果内生解释变量 y2有两个被排斥的外生变 量 z2 , z3,且都与 y2相关,则不仅其中任何 一个可作为IV,而且它们的任何线性组合也 是有效的IV。为了找到最好的IV,需选择与 y2
最高度相关的线性组合,这要求估计约简型 方程: y2 0 1z1 2 z2 3z3 v2
第十五章 工具变量估计与两阶段 最小二乘法
本章研究多元回归模型中的内生解释变 量问题。解释变量的内生性常来自遗漏 变量问题,这使OLS估计不一致。尽管 代理变量法和面板数据的固定效应法可 在某些情况下解决内生性问题,但远未 完善。本章讨论另一解决解释变量内生 性问题的方法:工具变量法(IV)。其 受欢迎程度仅次于OLS。
大样本下IV估计量近似服从正态分布,常用的推断 方法均适用,但IV估计的方差总是大于OLS方差, 特别当z与x的线性相关度很弱时,IV方差会比 OLS方差大很多。由此当x外生时,OLS估计比IV 估计有效得多。
IV估计的关键是找到好的工具变量,工具变量的两 个要求具有很大差别,要求(1)涉及无法观测的 误差项,通常无法对其进行检验,在绝大多数情 况下,我们必须借助于经济行为或反思来维持此 假定。
15.3 两阶段最小二乘法
在对 2 , 3 的联合显著性检验之后,使用估计值作
为 y2的IV: yˆ2 ˆ0 ˆ1z1 ˆ2 z2 ˆ3 z3
在多个工具条件下IV估计量称为两阶段最小二乘估 计量(2SLS)。原因是当用以上估计值作为IV时, 参数的IV估计值等同于 y1 yˆ2 , z1回归的OLS估 计值。但标准误和检验统计量不相同。

工具变量两阶段最小二乘法stata

工具变量两阶段最小二乘法stata

工具变量两阶段最小二乘法stata工具变量(Instrumental Variables)是一种经济学研究中常用的一种分析工具,它可以解决内生性问题,有效提升研究结果的准确性和可靠性。

然而在实践中,由于实际数据的复杂性和噪声干扰的影响,如何正确地应用工具变量的方法成为了关键问题。

本文将介绍工具变量两阶段最小二乘法,并结合stata软件进行具体操作。

1. 工具变量的原理概述工具变量是一种利用外生性变量替代内生性变量的方法。

在回归分析中,如果变量间存在内生性,即自变量与误差项存在相关性,那么使用传统的最小二乘法得到的估计结果将是偏误的。

这时,可以引入一个外生性变量作为工具变量,通过工具变量的作用将内生性变量与误差项的相关性消除,从而得到准确的估计结果。

2. 工具变量两阶段最小二乘法步骤(1)首先,需要选择一个或多个外生性变量作为工具变量。

这些变量需要满足两个条件:一是与内生变量相关,二是与因变量不相关。

(2)将工具变量与内生变量拟合一个回归方程并得到拟合值(第一阶段回归),将拟合值代入原方程得到新的估计方程。

(3)在新的估计方程中,工具变量被作为自变量进行回归分析,得到最小二乘估计量。

(4)通过判断估计值的显著水平以及其他统计性质,可以检验结果的准确性。

3. STATA软件操作步骤以研究收入对教育的影响为例,演示工具变量两阶段最小二乘法在STATA软件中的操作步骤。

(1)读入数据将所需数据导入STATA软件,例如使用以下命令:use education, clear(2)第一阶段回归运行以下命令进行第一阶段回归,得到工具变量的拟合值。

ivreg income (years = exog)其中“exog”是外生性变量,”income”是因变量,“years”是内生变量。

拟合值可以通过以下命令得到:predict yfit其中“yfit”是自定义的新变量名。

(3)第二阶段回归运行以下命令进行第二阶段回归,得到准确的估计值。

第15章 工具变量估计与两阶段最小二乘法

第15章 工具变量估计与两阶段最小二乘法
对此也没有合理的解释。
15.2 多元回归模型中的IV估计
简单回归模型IV估计很容易延伸到多元回归
y1 0 1 y2 2 z1 L k zk1 u1
借用联立方程模型的形式和术语,此方程称 为结构方程(structural equation)。 z1, z2 ,L , zk1是外生变量,y2 被怀疑是内生的, 即可能与u相关。需要找到其工具变量
具体的IV估计量可从k+1个矩条件对应的样本 方程求出:
Eu 0, Ez1u 0,L , E zk1u 0, E zku 0
15.3 两阶段最小二乘法
如果一个内生解释变量有多个工具变量,如 何有效运用多个工具变量?以下面结构模 型为例: y1 0 1y2 2z1 u1
如果内生解释变量 y2有两个被排斥的外生变 量 z2 , z3,且都与 y2相关,则不仅其中任何 一个可作为IV,而且它们的任何线性组合也 是有效的IV。为了找到最好的IV,需选择与 y2
最高度相关的线性组合,这要求估计约简型 方程: y2 0 1z1 2 z2 3z3 v2
有效的工具变量 zk 需满足:(1)是未包含的 外生变量,即它不在结构方程中且与u不相 关。
15.2 多元回归模型中的IV估计
(2)zk 与 y2 存在某种偏相关,即约简型方程
y2 0 1z1 L k1zk1 k zk v
的系数满足: k 0
同样要求(1)不能检验,只能寄希望于经济 逻辑和反思。要求(2)可对约简型方程估 计后直接检验。
15.1 动机:简单回归模型中的遗漏变量
要求(2)容易检验,只需x对z简单回归,检 验斜率系数的显著性。
内生解释变量和工具变量也可以是二值变量

工具变量与两阶段最小二乘法

工具变量与两阶段最小二乘法
? IV solutions to es problem 用工具变量解决测量误差问题
? Testing for endogeneity… 检验内生性
Intermediate Econometrics,
Yan Shen
2
Lecture Outline 本课提要
? Motivation: Why using IV? 出发点:为何用工具变量?
Intermediate Econometrics,
Yan Shen
5
Why Use Instrumental Variables? 为何使用工具变量?
? Instrumental Variables (IV) estimation is used when your model has endogenous x's 当模型解释变量具有内生性时,使用工具 变量估计
? In this context, identification means that we can
write b1 in terms of population moments that can
be estimated in samples.
这里,识别 是指我们可以将 b1表示为总体矩的函
数,并且这些矩可以通过样本估计。
consistent for b1, after applying the law of
large numbers. 当假定(15.4) 和(15.5) 成立时,可以应用大
? When z=x we obtain the OLS estimator of
b1 . 当z=x时,我们得到b1的OLS估计
? This means when x is exogenous, it can be used as its own IV, and the IV estimator is identical to OLS in this case.
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第15章 工具变量估计与两阶段最小二乘法在本章中,我们进一步研究多元回归模型中的内生解释变量(endogenous explanatory variable )问题。

在第3章中,我们推导出,遗漏一个重要变量时OLS 估计量的偏误;在第5章中,我们说明了在遗漏变量(omitted variable )的情况下,OLS 通常是非一致性的。

第9章则证明了,对未观测到的解释变量给出适宜的代理变量,能消除(或至少减轻)遗漏变量偏误。

不幸的是,我们不是总能得到适宜的代理变量。

在前两章中,我们解释了存在不随时间变化的遗漏变量的情况下,对综列数据如何用固定效应估计或一阶差分来估计随时间变化的自变量的影响。

尽管这些方法非常有用,可我们不是总能获得综列数据的。

即使能获得,如果我们的兴趣在于变量的影响,而该变量不随时间变化,它对于我们也几无用处:一阶差分或固定效应估计排除了不随时间变化的变量。

此外,迄今为止我们已研究出的综列数据法还不能解决与解释变量相关的随时间而变化的遗漏变量的问题。

在本章中,我们对内生性问题采用了一个不同的方法。

你将看到如何用工具变量法(IV )来解决一个或多个解释变量的内生性问题。

就应用计量经济学中线性方程的估计而言,两阶段最小二乘法(2SLS 或TSLS )是第二受人欢迎的,仅次于普通最小二乘。

我们一开始先说明,在存在遗漏变量的情况下,如何用IV 法来获得一致性估计量。

此外,IV 能用于解决含误差变量(errors-in-variable )的问题,至少是在某些假定下。

下一章将证明运用IV 法如何估计联立方程模型。

我们对工具变量估计的论述严格遵照我们在第1篇中对普通最小二乘的推导,其中假定我们有一个来自基本总体的随机样本。

这个起点很合人意,因为除了简化符号之外,它还强调了应根据基本总体来表述对IV 估计所做的重要的假定(正如用OLS 时一样)。

如我们在第2篇中所示,OLS 可以应用于时间序列数据,而工具变量法也一样可以。

第15.7节讨论IV 法应用于时间序列数据时出现的一些特殊问题。

在第15.8节中,我们将论述在混合横截面和综列数据上的应用。

15.1 动机:简单回归模型中的遗漏变量面对可能发生的遗漏变量偏误(或未观测到的异质性),迄今为止我们已讨论了三种选择:(1)我们可以忽略此问题,承受有偏、非一致性估计量的后果;(2)我们可以试图为未观测到的变量寻找并使用一个适宜的代理变量;(3)我们可以假定遗漏变量不随时间变化,运用第`13与14章中的固定效应或一阶差分方法。

若能把估计值与关键参数的偏误方向一同给出,则第一个回答是令人满意的。

例如,如果我们能说一个正参数(譬如职业培训对往后工资的影响)的估计量有朝零偏误 ,并且我们找到了一个统计上显著的正的估计值,那么我们还是学到了一些东西:职业培训对工资有正的影响,而我们很可能低估了该影响。

不幸的是,相反的情况经常发生,我们的估计值可能在数值上太大了,以致我们要得出任何有用的结论都非常困难。

第9.2节中讨论的代理变量解也能获得令人满意的结果,但并不是总可以找到一个好的代理。

该方法试图通过用代理变量取代不可观测的变量,来解决遗漏变量的问题。

另一种方法是将未观测到的变量留在误差项中,但不是用OLS 估计模型,而是运用一种承认存在遗漏变量的估计方法。

这便是工具变量法所要做的。

举例来说,考虑成年劳动者的工资方程中存在未观测到的能力的问题。

一个简单的模型为:,)log(210e abil educ wage +++=βββ其中e 是误差项。

在第9章中,我们说明了在某些假定下,如何用诸如IQ 的代理变量代替能力,从而通过以下回归可得到一致性估计量)log(wage 对IQ educ , 回归然而,假定不能得到适当的代理变量(或它不具备足以获取一致性估计量所需的性质)。

这样一来,我们将abil 放入误差项中,留下来的就是简单的回归模型:,)log(10u educ wage ++=ββ (15.1)其中u 包含了abil 。

当然,如果用OLS 估计方程(15.1),若是educ 与abil 相关,得到的结果将是1β的有偏、非一致性估计量。

最后证明是,假如我们能为educ 找到一个工具变量,我们仍可以根据方程(15.1)来进行估计。

为描述该方法,将简单回归模型写成:,10u x y ++=ββ(15.2)其中我们认为x 与u 相关: .0),(Cov ≠u x (15.3) 工具变量法无论x 与u 相关与否都行得通,但是,如果x 与u 不相关,我们应该使用OLS ,其原因我们将在后面看到。

为了获得x 与u 相关时0β和1β的一致性估计量,我们还需要一些另外的信息。

这些信息由一个满足某些性质的新变量给出。

假定我们有一个可观测到的变量z ,它满足两个假定:(1)z 与u 不相关,即,.0),(Cov =u z (15.4)(2)z 与x 相关,即,.0),(Cov ≠x z (15.5)我们则称z 是x 的工具变量(instrumental variable )。

有时候,人们把所需条件(15.4)概括为“z 在方程(15.2)中是外生的”。

从遗漏变量的角度看,这意味着z 应当对y 无偏效应,也不应当与其它影响y 的因素相关。

方程(15.5)意味着z 必然与内生解释变量x 有着正的或负的关系。

对工具变量的两个要求之间有一个非常重要的差别。

因为(15.4)是z 与不可观测的误差u 的协方差,我们无法对它进行验证或哪怕是检验:我们必须求助于经济行为或内心感受来维持这一假定。

相比之下,给定一个来自总体的随机样本,z 与x 相关(在总体中)的条件则可加以检验。

做到这一点最容易的方法是估计一个x 与z 之间的简单回归。

在总体中,我们有.10v z x ++=ππ (15.6) 从而,由于)(V ar ),Cov(1z x z =π,(15.5)中的假定当且仅当01≠π时成立。

因而我们就能够以充分小(习惯说充分高——译者)的显著水平(5%或1%)拒绝虚拟假设0 :H 10=π (15.7) 并接受双侧对立假设0 :H 10≠π。

如果真是这样,我们能相当有把握肯定(15.5)是成立的。

对于(15.1)中的log(wage )方程,educ 的工具变量z 必须:(1)与能力(以及其它影响工资的不可观测的因素)不相关,(2)与教育相关。

诸如一个人的社会福利登记号的最后一位数字之类的变量,几乎一定满足第一个必需条件:与能力不相关,因为它是随机决定的。

然而,该变量与教育不相关,因而是educ的一个低劣的工具变量。

我们所谓的用于遗漏变量的代理变量因相应的原因成为低劣的IV 。

例如,在遗漏能力的log(wage )例子中,abil 的代理变量应该尽可能地与abil 高度相关。

而工具变量必须与abil 不相关。

因此,尽管IQ 是abil 的一个好的代理变量候选者,它却不是educ 的好的工具变量。

对其它可能的工具变量候选者,这些必需条件更加不确定。

劳动经济学家已在工资方程中使用家庭背景变量作为教育的IV 。

例如,母亲的教育(motheduc )与孩子的教育是正相关的,这一点通过收集劳动者数据样本并做educ 对motheduc 的简单回归便可以看出来。

因此,motheduc 满足方程(15.5)。

问题是,母亲的教育也可能与孩子的能力相关(通过母亲的能力和可能通过孩子幼年所受的教养的质量)。

(15.1)中educ 的另一个IV 选择是成长过程中兄弟姊妹的数目(sibs )。

一般地说,较多的兄弟姊妹与较低的平均教育水平相联系。

这样,如果兄弟姊妹的数目与能力不相关,它可以 充当educ 的工具变量。

再举一个例子,考虑估计逃课对期末考试成绩的因果影响的问题。

在一个简单的回归框架中,我们有 ,10u skipped score ++=ββ (15.8) 其中score 是期末考试成绩,skipped 是该学期逃课的总数目。

当然,我们可能担心skipped 与u 中其它因素相关:较好的学生可能逃课较少。

因而score 对skipped 的简单回归可能不会给我们一个对逃课的因果影响的好的估计。

什么可能是skipped 的好的IV ?我们所需要的是对score 无直接效应,且与学生能力不相关的IV 。

同时,该IV 必须与skipped 相关。

一个选择是利用住宿区与学校之间的距离。

一所大规模的大学中将有部分学生乘车去学校,这也许会增加逃课的可能性(由于恶劣的天气、睡过头等等)。

因而,skipped 可能与distance 正相关;这一点可通过skipped 对distance 的回归并作一个t 检验得以验证,正如前面所描述的。

distance 是否与u 不相关?在简单回归模型(15.8)中,u 中的一些因素可能与distance 相关。

例如,低收入家庭的学生可能不住在学校;如果收入影响到学生的行为,可能会导致distance 与u 相关。

第15.2节说明如何在多元回归的情况下使用IV ,以便其他影响score 的因素能直接地包含在模型中。

那么,distance 也许是skipped 的一个好的IV 。

如果学生能力有一个好的代理,例如以往学期的累积GPA ,IV 法可能根本就不需要。

现在我们来证明可得到的工具变量能够用于进行方程(15.2)中的一致性参数估计。

特别地,我们将说明(15.4)与(15.5)[等价地,(15.4)与(15.7)]中的假定足以识别参数1β。

在这一点上,参数的识别(identification )意味着我们可以根据总体矩写出1β,总体矩可用样本数据来估计。

为了根据总体协方差写出1β,我们利用方程(15.2):z 与y 之间的协方差为).,(Cov ),(Cov ),(Cov 1u z x z y z +=β现在,在(15.4)中0),(Cov =u z 与(15.5)中0),(Cov ≠x z 的假定下,我们可以解出1β为: .),(Cov ),(Cov 1x z y z =β (15.9) [注意到如果z 与x 不相关,即0),(Cov =x z ,该简单代数式不成立。

] 方程(15.9)表明1β是z 、y 之间的总体协方差除以z 、x 之间的总体协方差的商,这说明了1β被识别。

给定一个随机样本,我们用对应样本量来估计总体的量。

在分子和分母中约去样本容量后,我们得到1β的工具变量(IV )估计量(instrumentalvariables (IV) estimator ):.))(())((ˆ111∑∑==----=n i i in i i i x x z zy y z z β (15.10) 给定x 、y 和z 的样本数据,很容易获得(15.10)中的IV 估计量。

相关文档
最新文档