stata上机实验第五讲 工具变量(IV)
工具变量(IV)详细解说
IV
The 2SLS name notwithstanding, we don‘t usually construct 2SLS estimates in two-steps. For one thing, the resulting standard errors are wrong, as we discuss later. () Where si is the residual from a regression cov( si , si ) V ( si ) of si on X i .This follows from the multivariate regression anatomy formula and the fact that cov( si , si ) V ( si ) . It is also easy to show that, in a model with a single endogenous variable and a single instrument, the 2SLS estimator is the same as the corresponding ILS( Indirect Least Squares ) estimator.(Q3) 由2SLS,
Zi 0 1si i cov( Zi ,i ) 0 cov(Yi , Zi ) cov(Yi , Zi ) / v( Zi ) (4.1.3) cov( si , Zi ) cov( si , Zi ) / v( Zi )
Zi
(IV)
IV
• Q1:The second equality in (4.1.3) is useful because its usually easier to think in terms of regression coefficients than in terms of covariance. 2.
工具变量法(四):GMM
工具变量法(四):GMMProf. Lars Peter HansenWhat Hansen did with the generalized method of moments is show that when we have more moment conditions than parameters we can best estimate those parameters by giving more weight to the conditions that we have better information about. -- Alex Tabarrok (Marginal Revolution Blog)传统的工具变量法为2SLS,因为它操作方便,且同时适用于恰好识别与过度识别的情形。
然而,2SLS 仅在扰动项同方差的情况下,才是最有效率的。
理由很简单,如果每位个体的扰动项方差不相同(比如,大企业的方差一般不同于小企业的方差),则方差小的个体观测值所包含的信息量更大,而 2SLS 却对所有数据等量齐观地进行处理,故在异方差的情况下不是最有效率的。
在过度识别且存在异方差的情况下,更有效率的做法是“广义矩估计”(Generalized Method of Moments,简记 GMM)。
该方法由芝加哥大学的 Lars Peter Hansen 教授所提出 (Hansen, 1982),已成为最流行的计量方法之一,Hansen 也因此获得 2013年的诺贝尔经济学奖。
顾名思义,广义矩估计为矩估计的推广,故先介绍矩估计。
矩 (Moment)何为矩?简单说,矩就是随机变量之函数的期望。
比如,对于随机变量,其一阶原点矩为其期望,二阶中心矩为其方差,以此类推。
更一般地,考虑随机变量的函数。
显然,仍为随机变量,其期望也称为“矩”(moment)。
进一步推广,随机向量的函数之期望,也称为“矩”。
stata工具变量
stata工具变量面板数据、工具变量选择和HAUSMAN检验的若干问题*第一节关于面板数据PANEL DATA1、面板数据回归为什么好一般而言,面板数据模型的误差项由两部分组成,一部分是与个体观察单位有关的,它概括了所有影响被解释变量,但不随时间变化的因素,因此,面板数据模型也常常被成为非观测效应模型;另外一部分概括了因截面因时间而变化的不可观测因素,通常被成为特异性误差或特异扰动项(事实上这第二部分误差还可分成两部分,一部分是不因截面变化但随时间变化的非观测因素对应的误差项Vt,这一部分一般大家的处理办法是通过在模型中引入时间虚拟变量来加以剥离和控制,另一部分才是因截面因时间而变化的不可观测因素。
不过一般计量经济学的面板数据分析中都主要讨论两部分,在更高级一点的统计学或计量经济学中会讨论误差分量模型,它一般讨论三部分误差)。
非观测效应模型一般根据对时不变非观测效应的不同假设可分为固定效应模型和随机效应模型。
传统上,大家都习惯这样分类:如果把非观测效应看做是各个截面或个体特有的可估计参数,并且不随时间而变化,则模型为固定效应模型;如果把非观测效应看作随机变量,并且符合一个特定的分布,则模型为随机效应模型。
不过,上述定义不是十分严谨,而且一个非常容易让人产生误解的地方是似乎固定效应模型中的非观测效应是随时间不变的,是固定的,而随机效应模型中的非观测效应则不是固定的,而是随时间变化的。
一个逻辑上比较一致和严谨,并且越来越为大家所接受的假设是(参见Wooldridge的教材和Mundlak1978年的论文),不论固定效应还是随机效应都是随机的,都是概括了那些没有观测到的,不随时间而变化的,但影响被解释变量的因素(尤其当截面个体比较大的时候,这种假设是比较合理的)。
非观测效应究竟应假设为固定效应还是随机效应,关键看这部分不随时间变化的非观测效应对应的因素是否与模型中控制的观测到的解释变量相关,如果这个效应与可观测的解释变量不相关,则这个效应成为随机效应。
Stata面板数据回归分析中的工具变量法如何选择合适的工具变量
Stata面板数据回归分析中的工具变量法如何选择合适的工具变量工具变量法(Instrumental Variable,简称IV)在面板数据回归分析中被广泛应用。
它通过引入外生变量作为工具变量来解决内生性问题,从而使得回归结果更具可靠性和稳健性。
在Stata软件中,选择合适的工具变量对于IV估计的准确性起着至关重要的作用。
本文将介绍在Stata面板数据回归分析中如何选择合适的工具变量。
一、IV方法简介在介绍IV方法如何选择合适的工具变量之前,先简要介绍一下IV方法的原理和步骤。
IV方法是通过引入工具变量来解决内生性问题,从而得到一致性的估计。
其基本思想是找到一个与内生变量相关但与误差项不相关的变量作为工具变量,从而通过工具变量的外生性来消除内生性引起的估计偏误。
IV方法的具体步骤如下:1. 识别工具变量:首先需要找到一个与内生变量相关但与误差项不相关的变量作为工具变量。
工具变量的选择要满足两个条件:与内生变量有相关性,与误差项无相关性。
2. 检验工具变量:选择好的工具变量需要经过检验,以确保其满足与内生变量相关但与误差项不相关的要求。
常用的检验方法有Hausman检验和Sargan检验。
3. 使用工具变量进行回归:将选定的工具变量引入回归方程中,通过工具变量的外生性来消除内生性引起的估计偏误。
二、选择合适的工具变量在选择合适的工具变量时,需要考虑以下几个因素:1. 相关性:工具变量应该与内生变量有一定的相关性,才能正确地估计内生变量对因变量的影响。
相关性可以通过计算相关系数来衡量,一般要求相关系数大于0.1。
2. 排除性:工具变量与误差项无相关性,即工具变量不能受到其他未观测到的因素的影响。
排除性通常通过进行统计检验来验证,常用的检验方法有Hausman检验和Sargan检验。
3. 弱工具变量:如果工具变量过弱,即相关系数过小,会导致估计结果的方差增大,同时降低估计的准确性和稳健性。
一般来说,工具变量的F统计量应大于10,同时第一阶段回归的R-squared要大于0.1。
工具变量(IV):估计与检验_图文_图文
• 3。Wright考虑了几个可能的工具变量; 其中一个是天气。例如,某牧场的降雨量低 于平均值会使牧草减少从而减少给定价格时 黄油的产量(会使供给曲线向左移动而使均 衡价格上升),因此牧场地区降雨量满足工 具变量相关性的条件。但牧场地区降雨量对 黄油的需求没有直接影响,因此牧场地区降 雨量与ui的相关系数为零;也就是牧场地区 降雨量满足工具变量外生性条件。
• 例如具休考虑黄油的需求弹性估计问题 :
根据11个均衡样本点估计的方程究竟是需求函数还是 供给函数?两者都不是。由于这些点是由需求和供给 两者的变化确定的,因此用OLS拟合这些点的直线既 不是需求曲线也不是供给曲线的估计。
利用这些样本点估计出来的OLS拟合线是需求曲 线还是供给曲线,都不是!两个极端的情况如图 :
• 工具变量的外生性:若销售税是外生的,则必 须与需求方程中的误差无关;即销售税必然只 是通过价格间接影响香烟的需求。这看上去是 合理的:主要是因为不同州选择了不同的销售 额、收入、财产和其他公共财政事业的混合税 收,所以不同州的一般销售税是不同的。其中 关于公共财政的选择受到政治考量的驱使而不 是受香烟需求有关的因素影响。
工具变量(IV):估计与检验_图文_图文.ppt
• 由来
• 估计
– 矩估计(不好)
– 2SLS (最常用) – GMM(异方差自相关);LIML(若IV)
• 工具变量有效imum eigenvalue statistic,最小特征值统计量,用于多内 生解释变量
• 相关性条件:
• 1. 当包含一个内生变量但有多个工具变量时,工具 变量相关性的条件为给定W时至少有一个Z对预测X 是有用的(相关的)。
• 2. 当包含多个内生变量时,不但要排除完全多重共 线性问题,而且工具变量必须提供关于这些变量外生 性变动的足够信息,以分离出它们各自对Y的效应。
应用计量之一——工具变量(IV)
应用计量之一——工具变量(IV)本期推文来自首都经贸大学朱超的博客,关于上海对外经贸大学左翔老师暑期课上工具变量的介绍。
今年上海对外经贸大学李辉文老师和YES团队继续办暑期班(/thread-3742527-1-1.html),一个很好的福利,国内青年经济学者愿意分享的精神值得推广。
一个好的工具变量可以直接MIT博士毕业,可见找工具变量是一件有挑战性的事情。
在我看来,找工具变量是一项有趣的智力活动,除了需要一个人有经济学的素养和逻辑,还需要这个人知识面广,自然、地理、人文、世俗智慧和经验等,通常,这跟一个人熟悉的领域,由长期观察和思考产生的洞见有关。
当然还需要一点运气,学术不是苦思冥想,也许做一个梦,喝一杯下午茶,灵感就闪现了。
工具变量的原理最早出现在菲利普·莱特( Philip G.Wright) 1928年写的书《The Tariff on Animal and Vegetable Oils》里。
为了进一步解释这个原理,首先给出一个典型的线性回归模型:y = β0 + β1x1 + βX + ε (1)这里y为被解释变量,x1为自变量,或者解释变量,也即“因”。
大写的 X 为外生控制项向量( 也即一组假定为外生的其他控制变量,例如年龄、性别等等) ,ε则为误差项。
如果ε与x1不相关,那么我们可以利用OLS 模型对方程进行无偏估计。
然而,如果一个重要变量x2被模型(1) 遗漏了,且x1和x2也相关,那么对β1的OLS 估计值就必然是有偏的。
此时,x1被称作“内生”的解释变量,这就是“内生性”问题。
遇到“内生性”问题肿木办?有一个方法就是找工具变量Z。
工具变量(IV)可以用来解决1 )遗漏变量偏差2)经典的测量误差问题3)联立性(逆向因果)工具变量的条件·变量z可以作为变量x的有效工具变量,当满足:·工具变量必须外生·即, Cov(z,u) = 0·工具变量必须与内生变量x相关·即, Cov(z,x) ≠0 Cov(z,u) = 0无法验证,Cov(z,x) ≠0可以验证对工具变量的两个要求之间有一个非常重要的差别。
stata工具变量法案例
stata工具变量法案例Stata工具变量法是一种经济学研究中常用的方法,用于解决内生性问题。
它通过利用某些外生性强的变量作为工具变量,来估计内生变量与因果变量之间的关系。
下面是10个以Stata工具变量法案例为题的内容介绍。
1. 工具变量法的基本原理:介绍工具变量法的基本思想和理论基础,解释为什么需要使用工具变量来解决内生性问题。
2. 数据准备:讲解如何在Stata中导入和准备数据,包括变量的选择和处理,确保数据的质量和可用性。
3. 内生性问题的存在:说明内生性问题在经济学研究中的重要性和普遍存在性,以及内生性问题对实证结果的影响。
4. 工具变量的选择:介绍如何选择合适的工具变量,包括外生性、相关性和可用性等因素的考虑,以及常用的工具变量选择方法。
5. 工具变量法的估计:详细介绍Stata中的工具变量法估计命令,包括IVREG、IVREG2等命令的使用方法和参数解释。
6. 结果解读:解释工具变量法估计结果的含义和解读方法,包括工具变量估计量的一致性和有效性等统计性质。
7. 内生性检验:介绍如何在Stata中进行内生性检验,包括第一阶段回归、Hausman检验等常用的内生性检验方法。
8. IV回归的问题和限制:讨论工具变量法的局限性和可能存在的问题,如工具变量的有效性和外推性等问题。
9. 实证案例分析:以某个具体的经济学研究问题为例,使用Stata 进行实证分析,展示工具变量法的应用过程和结果。
10. 结论和讨论:总结工具变量法的优点和局限性,讨论工具变量法在经济学研究中的应用前景和发展方向。
以上是以Stata工具变量法案例为题的内容介绍,通过对工具变量法的原理、数据准备、工具变量选择、估计方法、结果解读、内生性检验、案例分析等方面的介绍,可以帮助读者更好地理解和应用Stata工具变量法。
stata第五讲【山大陈波】
静态面板数据
静态面板数据模型,是指解释变量中不包含 被解释变量的滞后项(通常为一阶滞后项) 的 情形。但严格地讲,随机干扰项服从某种序 列相关的模型,如AR(1), AR(2), MA(1) 等, 也不是静态模型。静态面板数据主要有两种 模型------固定效应模型和随机效应模型。
面板数据的格式
company 1 1 1 1 2 2 2 2 3 3 3 3 year 1951 1952 1953 1954 1951 1952 1953 1954 1951 1952 1953 1954 invest 755.9 891.2 1304.4 1486.7 588.2 645.5 641 459.3 135.2 157.3 179.5 189.6 mvalue 4833 4924.9 6241.7 5593.6 2289.5 2159.4 2031.3 2115.5 1819.4 2079.7 2371.6 2759.9
究竟该用OLS 还是IV
即解释变量是否真的存在内生性? 假设能够找到方程外的工具变量。 1。如果所有解释变量都是外生变量,则OLS 比IV 更有效。在这种情况下使用IV,虽然估 计量仍然是一致的,会增大估计量的方差。2。 如果存在内生解释变量,则OLS 是不一致的, 而IV 是一致的。
豪斯曼检验(Hausman specification test)原假设: H0 :所有解释变量均为外生变量。 H1:至少有一个解释变量为内生变量。 quietly reg lw80 s80 expr80 tenure80 iq est store ols quietly ivregress 2sls lw80 expr80 tenure80 (s80 iq=med kww mrt age) est store iv hausman iv ols
工具变量(IV)详细解说
IV
• 1、Origin
Studying agricultural markets in the 1920s, the father and son research team of Phillip and Sewall Wright were interested in a challenging problem of causal inference: how to estimate the slope of supply and demand curves when observed data on prices and quantities are determined by the intersection of these two curves. In other words, equilibrium prices and quantities the only ones we get to observe solve these two stochastic equations at the same time. Upon which curve, therefore, does the observed scatterplot of prices and quantities lie? The fact that population regression coefficients do not capture the slope of any one equation in a set of simultaneous equations had been understood by Phillip Wright for some time. The IV method, first laid out in Wright (1928), solves the statistical simultaneous equations problem by using variables that appear in one equation to shift this equation and trace out the other. The variables that do he shifting came to be known as instrumental variables (Reiersol, 1941).
stata中工具变量法
stata中工具变量法在Stata 中,工具变量法(Instrumental Variables, IV)是一种处理内生性(endogeneity)问题的方法,通常用于解决因果关系中的回归模型。
内生性问题指的是模型中的某些变量可能与误差项相关,从而导致OLS估计结果的偏误。
工具变量法通过引入一个或多个外生性足够相关但与误差项不相关的变量(称为工具变量)来解决这个问题。
以下是在Stata 中使用工具变量法的一般步骤:1. 确定内生性问题:确定模型中是否存在内生性问题,即某些解释变量与误差项相关。
2. 选择工具变量:选择足够相关但与误差项不相关的工具变量。
这些变量通常被认为是外生的,与误差项独立。
3. 估计工具变量模型:使用Stata 中的`ivregress` 命令估计工具变量模型。
语法如下:```stataivregress 2sls dependent_variable (endogenous_variable = instruments) other_exogenous_variables```其中,`dependent_variable` 是因变量,`endogenous_variable` 是内生变量,`instruments` 是工具变量,`other_exogenous_variables` 是其他外生变量。
例如:```stataivregress 2sls y (x = z) controls```4. 检验工具变量的有效性:使用`ivregress` 命令的`ivendog` 选项来检验工具变量的有效性。
```stataivregress 2sls y (x = z) controls, ivendog(x)```此命令将进行工具变量的内生性检验。
5. 诊断:进行模型诊断,检查模型的合理性和有效性。
stata工具变量检验代码
stata工具变量检验代码
变量的内生性是回归分析中的一个重要问题,为了解决内生性问题,需要使用工具变量来进行检验。
以下是stata工具变量检验的代码:
1. 首先,需要导入数据并进行描述统计分析:
use 'filename.dta', cleartt
describettt
summarizettt
2. 然后,需要定义工具变量并估计两个回归模型:
gen z = [定义工具变量]tt
reg y x ztttt
reg x z [工具变量回归方程]
3. 使用ivreg2命令估计工具变量回归模型,并进行内生性检验: ivreg2 y (x = z)tt
estat endogenous
4. 如果检验结果显示存在内生性问题,则需要进行外生性检验: estat overid
5. 最后,根据检验结果进行修正,重新估计回归模型:
ivreg2 y (x = z) if [外生性检验结果为显著]tt
以上就是stata工具变量检验的完整代码。
- 1 -。
工具变量法(IV)的Stata操作
⼯具变量法(IV)的Stata操作Stata操作⼯具变量法的难点在于找到⼀个合适的⼯具变量并说明其合理性,Stata操作其实相当简单,只需⼀⾏命令就可以搞定,我们通常使⽤的⼯具变量法的Stata命令主要就是ivregress命令和ivreg2命令。
ivregress命令ivregress命令是Stata⾃带的命令,⽀持两阶段最⼩⼆乘(2SLS)、⼴义矩估计(GMM)和有限信息最⼤似然估计(LIML)三种⼯具变量估计⽅法,我们最常使⽤的是两阶段最⼩⼆乘法(2SLS),因为2SLS最能体现⼯具变量的实质,并且在球形扰动项的情况下,2SLS是最有效率的⼯具变量法。
顾名思义,两阶段最⼩⼆乘法(2SLS)需要做两个回归:(1)第⼀阶段回归:⽤内⽣解释变量对⼯具变量和控制变量回归,得到拟合值。
(2)第⼆阶段回归:⽤被解释变量对第⼀阶段回归的拟合值和控制变量进⾏回归。
如果要使⽤2SLS⽅法,我们只需在ivregress后⾯加上2sls即可,然后将内⽣解释变量lnjinshipop和⼯具变量bprvdist放在⼀个⼩括号中,⽤=号连接。
选项first表⽰报告第⼀阶段回归结果,选项cluster()表⽰使⽤聚类稳健的标准误。
ivregress 2sls lneduyear (lnjinshipop=bprvdist) lnnightlight lncoastdist tri suitability lnpopdensity urbanrates i.provid , first cluster(provid)第⼀阶段回归结果First-stage regressions-----------------------Number of obs = 274No. of clusters = 28F( 7, 239) = 85.27Prob > F = 0.0000R-squared = 0.6487Adj R-squared = 0.5988Root MSE = 0.4442------------------------------------------------------------------------------| Robustlnjinshipop | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------lnnightlight | .183385 .0682506 2.690.008 .0489354 .3178346lncoastdist | .0350333 .0771580.450.650 -.1169634 .1870299tri | 1.06676 .5637082 1.890.060 -.0437105 2.177231suitability | -.0769726 .0549697 -1.400.163 -.1852596 .0313144lnpopdensity | .196144 .0843727 2.320.021 .0299349 .3623532urbanrates | 3.352916 1.687109 1.990.048 .029414 6.676419|provid |12 | .2051006 .0551604 3.720.000 .096438 .313763213 | -1.890425 .0951146 -19.880.000 -2.077795 -1.703055......64 | -1.301895 .1581021 -8.230.000 -1.613346 -.9904433|bprvdist | -.0846917 .0107859 -7.850.000 -.1059393 -.0634441_cons | 2.126233 .9791046 2.170.031 .1974567 4.05501------------------------------------------------------------------------------从表中可以看出,⼯具变量bprvdist的系数为-0.085,标准误为0.011,在1%的⽔平上显著。
高维回归stata工具变量法命令
高维回归stata工具变量法命令
在高维回归分析中,Stata工具变量法的命令是`ivregress`和`ivreg2`。
其中,`ivregress`是Stata自带的命令,支持两阶段最小二乘(2SLS)、广义矩估计(GMM)和有限信息最大似然估计(LIML)三种工具变量估计方法。
而`ivreg2`是一个更新的命令,支持更多的工具变量估计方法。
使用`ivregress`命令时,需要提供因变量、内生解释变量、工具变量和控制变量。
命令会自动进行两阶段最小二乘回归,第一阶段回归使用内生解释变量对工具变量和控制变量进行回归,得到拟合值,第二阶段回归使用被解释变量对第一阶段回归的拟合值和控制变量进行回归。
如果需要控制固定效应或进行聚类分析,可以使用选择项`absorb`和
`cluster`。
选择项`first`可以报告第一阶段回归的结果。
选择项`endog`可以检验内生解释变量是否为内生变量,即进行内生性检验。
请注意,使用工具变量法需要找到一个合适的工具变量并说明其合理性,这是工具变量法的难点。
另外,由于模型设定错误或数据问题,工具变量法可能无法完全消除内生性问题,因此在使用时需要谨慎。
工具变量(IV):估计与检验
与内生解释
i
变量xi相关,若不相关,则秩条件无法满足。证略
阶条件:zi中至少包含k个变量
根据是否满足阶条件可分为三种情况:
1 不可识别:工具变量个数少于内生解释变量个数
2 恰好识别:工具变量个数等于内生解释变量个数
3 过度识别:工具变量个数多于内生解释变量个数
以上介绍的矩估计法仅适用于恰好识别的情况。
3。Wright考虑了几个可能的工具变量; 其中一个是天气。例如,某牧场的降雨量低 于平均值会使牧草减少从而减少给定价格时 黄油的产量(会使供给曲线向左移动而使均 衡价格上升),因此牧场地区降雨量满足工 具变量相关性的条件。但牧场地区降雨量对 黄油的需求没有直接影响,因此牧场地区降 雨量与ui的相关系数为零;也就是牧场地区 降雨量满足工具变量外生性条件。
谁开创了工具变量回归?
1928年的著作的“The Tariff on Animal and Vegetable Oils”的附录B。 作者是谁? Philip Wright 还是他的儿子 Sewall Wright 文体计量学的分析
为什么IV回归是有效的?
例1: Philip Wright的问题
• 遗漏变量变量 • 变量有测量误差 • 双向因果关系。
遗漏变量偏差可采用在多元回归中加入遗漏变量 的方法加以解决,但前提是只有当你有遗漏变量 数据时上述方法才可行。
双向因果关系偏差是指如果有时因果关系是从X 到Y又从Y到X时,此时仅用多元回归无法消除这 一偏差。同样,
变量有测量误差也无法用我们前面学过的方法解 决。
因此,由于这些点是由需求和供给两者的变化 确定的,因此用OLS拟合这些点的直线既不是 需求曲线也不是供给曲线的估计。
Wright的解决办法:
stata弱识别检验代码
标题:Stata弱识别检验代码解析弱识别检验是统计推断中常用的一种方法,用于检验模型设定是否正确,以及模型参数的估计是否有效。
在Stata中,弱识别检验可以通过多种方法实现,下面我们将详细介绍如何使用Stata进行弱识别检验,并提供相应的代码示例。
一、弱识别检验的基本原理弱识别检验的核心思想是通过比较模型估计结果与样本数据的差异,来判断模型设定是否正确。
如果差异较小,则说明模型设定是合理的,参数估计也是有效的。
二、弱识别检验的方法1. Durbin-Wu-Hausman检验(DWH检验):该检验是一种非参数检验方法,用于检验内生性变量是否具有序列相关性。
如果DWH统计量显著,则说明内生变量存在序列相关性,需要进一步调整模型。
2. 工具变量法(IV方法):该方法是一种解决内生性问题的方法,通过选择合适的工具变量来控制内生性。
在Stata中,可以使用ivregress命令进行工具变量回归,并使用bootstrap 方法进行置信区间的估计。
3. Hausman检验:该检验是一种参数检验方法,用于比较固定效应模型和随机效应模型的拟合优度。
如果Hausman统计量显著,则说明应选择固定效应模型进行参数估计。
三、Stata弱识别检验代码示例下面是一些Stata弱识别检验的代码示例,其中假设我们使用面板数据对一个回归模型进行弱识别检验。
代码示例1:Durbin-Wu-Hausman检验`gen durbin_wuw_test = .` //创建测试变量` Durbin-Wu-Hausman test Durbin_wuw_test durbin_wuw_test.robust` //执行Durbin-Wu-Hausman检验代码示例2:工具变量法(ivregress)`ivregress 2sls y (x = z)` //执行工具变量回归,其中y为因变量,x为内生变量,z为工具变量`estat overid` //输出弱识别检验结果代码示例3:Hausman检验`hausman` //执行Hausman检验`estat hettest` //输出Hausman统计量及其对应的p值四、总结通过以上代码示例,我们可以看到在Stata中进行弱识别检验的步骤和方法。
工具变量法(三):IV真的外生吗?
工具变量法(三):IV真的外生吗?你的整篇论文都依赖于你的工具变量的外生性,那么你的工具变量究竟是否外生呢……工具变量的本质特征是外生性,即工具变量与扰动项不相关。
如果工具变量外生,且为强工具变量,则工具变量法的逻辑必然成立,可得到回归方程的一致估计。
由于工具变量的相关性易检验(比如,考察第一阶段回归的F统计量),而工具变量的外生性不易检验,故对于使用 IV 的实证论文,工具变量的外生性常常成为审稿人、主编与作者的分歧焦点。
工具变量不外生的后果如果工具变量本身“不干净”(与扰动项相关),则通过工具变量分离出来的内生变量之“外生部分” 也必然“不干净”。
具体来说,如果工具变量内生,则 2SLS 的第一阶段回归拟合值也内生(此拟合值是工具变量的线性组合),将此拟合值代入第二阶段回归,则必然导致 2SLS 不一致。
恰好识别的情形如果检验工具变量的外生性?在恰好识别的情形下(工具变量个数等于内生变量个数),目前尚无严格的统计检验,只能进行定性讨论。
以一元回归为例:其中,为内生解释变量,与扰动项相关。
假设找到某潜在工具变量,与内生变量相关,且可能与扰动项不相关。
由于不可观测,如何判断是否与相关?首先,由于是被解释变量扰动项,故可从工具变量与的相关性入手考察。
其次,由于与相关,而影响,故会通过而影响,参见上图。
最后,如果外生性成立,即与不相关,则不可能通过而影响。
另一方面,根据定义,扰动项为除以外,所有影响的其他因素。
因此,如果满足外生性,则不可能通过除以外的任何其他因素或渠道影响,这被称为“排他性约束”(exclusion restrictions)。
通过排他性约束来定性探讨工具变量的外生性,在实践中需要将影响的所有可能渠道一一列出,然后将除以外的渠道全部排除(比如,通过讨论认为这些其他渠道不存在或可以忽略)。
如果发现可能通过另一渠道而影响,则一种解决方法是将作为控制变量也放入回归方程中。
然而,如果不可度量,则工具变量的外生性便是可疑的。
stata 工具变量
面板数据、工具变量选择和HAUSMAN检验的若干问题*第一节关于面板数据PANEL DATA1、面板数据回归为什么好一般而言,面板数据模型的误差项由两部分组成,一部分是与个体观察单位有关的,它概括了所有影响被解释变量,但不随时间变化的因素,因此,面板数据模型也常常被成为非观测效应模型;另外一部分概括了因截面因时间而变化的不可观测因素,通常被成为特异性误差或特异扰动项(事实上这第二部分误差还可分成两部分,一部分是不因截面变化但随时间变化的非观测因素对应的误差项Vt,这一部分一般大家的处理办法是通过在模型中引入时间虚拟变量来加以剥离和控制,另一部分才是因截面因时间而变化的不可观测因素。
不过一般计量经济学的面板数据分析中都主要讨论两部分,在更高级一点的统计学或计量经济学中会讨论误差分量模型,它一般讨论三部分误差)。
非观测效应模型一般根据对时不变非观测效应的不同假设可分为固定效应模型和随机效应模型。
传统上,大家都习惯这样分类:如果把非观测效应看做是各个截面或个体特有的可估计参数,并且不随时间而变化,则模型为固定效应模型;如果把非观测效应看作随机变量,并且符合一个特定的分布,则模型为随机效应模型。
不过,上述定义不是十分严谨,而且一个非常容易让人产生误解的地方是似乎固定效应模型中的非观测效应是随时间不变的,是固定的,而随机效应模型中的非观测效应则不是固定的,而是随时间变化的。
一个逻辑上比较一致和严谨,并且越来越为大家所接受的假设是(参见Wooldridge的教材和Mundlak1978年的论文),不论固定效应还是随机效应都是随机的,都是概括了那些没有观测到的,不随时间而变化的,但影响被解释变量的因素(尤其当截面个体比较大的时候,这种假设是比较合理的)。
非观测效应究竟应假设为固定效应还是随机效应,关键看这部分不随时间变化的非观测效应对应的因素是否与模型中控制的观测到的解释变量相关,如果这个效应与可观测的解释变量不相关,则这个效应成为随机效应。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
究竟该用OLS 还是IV
即解释变量是否真的存在内生性? 假设能够找到方程外的工具变量。 1。如果所有解释变量都是外生变量,则OLS
比IV 更有效。在这种情况下使用IV,虽然估 计量仍然是一致的,会增大估计量的方差。2。 如果存在内生解释变量,则OLS 是不一致的, 而IV 是一致的。
豪斯曼检验(Hausman specification test)原假设: H0 :所有解释变量均为外生变量。 H1:至少有一个解释变量为内生变量。
检验方法: estat firststage 1。初步判断可以用偏R2(partial R2) (剔除掉模型中原有外生变量的影响)。 2。 Minimum eigenvalue statistic(最小特征 值统计量),经验上此数应该大于10。
ivregress 2sls lw80 expr80 tenure80 (s80 iq=med kww mrt age), first
使用grilic.dta估计教育投资的回报率。
变量说明:lw80(80年工资对数),s80 (80年时受教育年限),expr80(80年时工 龄),tenure80(80年时在现单位工作年 限), iq(智商),med(母亲的教育年 限),kww(在‘knowledge of the World of Work’测试中的成绩),mrt(婚姻虚拟变量, 已婚=1),age(年龄)。
ivregress 2sls lw80 expr80 tenure80 (s80 iq=med kww mrt age), first estat overid ivregress gmm lw80 expr80 tenure80 (s80 iq=med kww mrt age) estat overid
在误差。 3。变量内生性问题:s80可能与扰动项中除“能力”
以外的其他因素相关,因此是内生变量。
解决方法:使用med,kww,mrt,age作为内生解 释变量iq与s80的工具变量。
1。使用2SLS。
ivregress 2sls lw80 expr80 tenure80 (s80 iq=med kww mrt age), first 2。使用两步GMM 。
广义矩估计法:GMM
基本思想: 求解如下一般化目标函数,使之最小化 J(b_GMM) = n*g(b_GMM)'*W*g(b_GMM) 其中,W 为权重矩阵
在球型扰动项的假定下,2SLS 是最有效的。但如 果扰动项存在异方差或自相关,则广义矩估计方法 效果更好。
GMM方法又分为两步GMM法和迭代GMM方法。
estat firststage
过度识别检验
检验工具变量是否与干扰项相关,即工具变量是否 为外生变量。目前仅限于在过度识别的情况下,进 行过度识别检验。
2SLS根据Sargan统计量进行过度识别检验 ,GMM 使用Hansen J Test进行过度识别检验。 命令均为: estat overid 检验工具变量的外生性 H0:所有工具变量都是外生的。 H1:至少有一个工具变量不是外生的,与扰动项相 关。
quietly reg lw80 s80 expr80 tenure80 iq
est store ols
quietly ivregress 2sls lw80 expr80 tenure80 (s80 iq=med kww mrt age)
est store iv
hausman iv ols
一些面板数据教材
u建se立g方ril程ic.:dtal ,w c8 le0 a r 1 s 8 0 2 e x p r 8 0 3 t e n u r e 8 0
reg lw80 s80 expr80 tenure80
对方程进行分析: 1。遗漏变量问题:认为方程遗漏了“能力”这个
变量,加入iq(智商)作为“能力”的代理变量。 2。测量误差问题:iq(智商)对“能力”的测量存
2。不可能单独为每个内生变量指定一组特定的工 具变量, 所有外生变变量都作为自己的工具变量。
3。在大样本下,IV 估计是一致的,但在小样本下, IV 估计并非无偏估计量,有些情况下偏误可能很严 重。
弱工具变量检验
工具变量Z与 X 的相关性较低时,2SLS 估计 量存在偏误,Z 称为“弱工具变量”。
Stata上机实验
二阶段最小二乘法:2SLS
主要3;b2x2+u
其中x1是外生变量,x2是内生变量,找到两 个变量z1和z2,作为x2的工具变量。 第一阶段回归:reg x2 x1 z1 z2 x2结合了z1 和z2的信息,此时取出x2的拟合值x2_hat。 第二阶段回归: reg y x1 x2_hat
静态面板数据
静态面板数据模型,是指解释变量中不包含 被解释变量的滞后项(通常为一阶滞后项) 的 情形。但严格地讲,随机干扰项服从某种序 列相关的模型,如AR(1), AR(2), MA(1) 等, 也不是静态模型。静态面板数据主要有两种 模型------固定效应模型和随机效应模型。
面板数据分析 (美)萧政 著 横截面与面板数据的经济计量分析 伍德里奇
著,王忠玉 译 Baltagi. Econometric Analysis of Panel Data
最新动态可关注期刊: Journal of Econometrics
面板数据一些前沿问题
面板向量自回归模型(Panel VAR) 面板单位根检验(Panel Unit Root test) 面板协整分析(Panel Cointegeration) 门槛面板数据模型(Panel Threshold) 面板联立方程组 面板空间计量
ivregress gmm lw80 expr80 tenure80 (s80 iq=med kww mrt age) 3。使用迭代GMM 。
ivregress gmm lw80 expr80 tenure80 (s80 iq=med kww mrt age),igmm
几点注意事项:
1。2SLS只能通过stata完成,利用定义手动计算的 结果是错误的,因为残差序列是错误的。