第十二讲 工具变量回归(1)
-工具变量回归 简约式回归
工具变量回归简约式回归
《关于工具变量回归和简约式回归的那些事儿》
嘿呀,今天咱来说说工具变量回归和简约式回归这俩家伙。
就好比我上次去菜市场买菜吧,我想买点西红柿。
我就在那一堆西红柿面前挑啊挑,我发现有些西红柿看着红彤彤的特别诱人,但有些呢就有点青一块红一块的。
这就像我们的数据啊,有好的数据,也有不那么完美的数据。
我挑西红柿的时候,我会根据它的颜色、形状这些来判断它好不好,这就像是工具变量回归,通过一些相关的因素来找到我们想要的那个关系。
而简约式回归呢,就像是我直接看这个西红柿整体给我的感觉,不纠结那么多细节,就大致判断一下。
有时候啊,我可能会因为一个西红柿长得特别好看就买了它,而忽略了它可能有点软,不太新鲜。
这就跟我们在分析数据的时候一样,可能只看到了表面的一些联系,而没考虑到更深层次的因素。
哎呀,反正就是这么回事儿啦,工具变量回归和简约式回归在我们生活中好多地方都能找到影子呢,就像我买菜挑西红柿一样平常又有趣。
希望我这么说能让大家更好地理解它们呀!哈哈!。
解释工具变量法的两阶段回归结果
解释工具变量法的两阶段回归结果工具变量法是一种用于解决因果推断时,由于内生性问题而引起的估计偏差的方法。
在实际研究中,有时候想要探究的变量与一些重要的控制变量之间存在内生性,如果直接使用普通最小二乘法来估计,所得结果会由于内生性而产生偏差,使得推断结果不可靠。
此时,如果使用工具变量法来引入一个外生性足够强的工具变量,便可以解决内生性问题,得到比较可靠的估计结果。
工具变量法的主要思路是,通过在原方程中引入一个或多个与内生性变量相关、但本身不受其他内生因素影响的外生性变量,作为工具变量,用工具变量代替内生性变量来消除内生性问题。
具体而言,工具变量法需要进行两次回归,第一次回归的目的是估计工具变量和内生性变量之间的关系,第二次回归的目的则是将工具变量代入原方程,从而得到消除内生性问题后的估计结果。
例如,我们想要研究一个人的受教育程度对其收入的影响,但由于家庭背景等难以观测的因素可能会影响到受教育程度和收入之间的关系,造成内生性问题。
此时,可以引入父母教育水平作为工具变量,因为父母教育水平与个人受教育程度相关,但本身又不直接影响个人收入。
第一次回归得到父母教育水平对个人受教育程度的影响系数,第二次回归则用父母教育水平代替个人受教育程度,得到消除内生性问题后的受教育程度对收入的影响系数。
工具变量法的两阶段回归结果主要包括两个方面:第一阶段结果和第二阶段结果。
第一阶段结果包括引入工具变量与内生性变量之间的回归结果,包括工具变量与内生性变量的回归系数、截距项以及回归结果的显著性检验。
第二阶段结果则是用第一阶段得到的工具变量代入原方程后得到的估计结果,包括受教育程度对收入的影响系数、截距项以及估计结果的显著性检验。
总之,工具变量法是一种有效的解决内生性问题的方法,通过引入外生性足够强的工具变量进行两阶段回归,可以消除内生性问题,得到比较可靠的因果推断结果。
两阶段回归结果的解释可以通过第一阶段和第二阶段的回归结果进行,从中可以得到受教育程度与收入之间的真实影响关系。
工具变量是什么,以及如何用Eviews跑有工具变量的回归_
工具变量是什么,以及如何用Eviews跑有工具变量的回归_
工具变量这个东东貌似在斯蒂芬列维特(Steven Levitt,魔鬼经济学的作者)得了克拉克奖以后就很有名。
不过这个东西其实应用起来并不需要很高的难度,所谓工具变量,说白了,就是在要解释的变量和用来解释它的变量之间存在相互因果关系的时候,给用来解释的一方加上的“壳子”,让反向的,我们不需要的因果关系被“屏蔽”,留下我们想要的正向因果关系。
具体的例子比如,衡量某市的犯罪率与警力配备的关系,直接做OLS,得到系数为正,于是得到警察越多,犯罪越多的奇怪结论。
这可能是因为城市本来也会在犯罪率比较高的街区多配备警力造成的,或者是由于这个街区人口比较多,所以政府部门相对比较大,雇用各种员工都比较多,自然也会有比较多警察。
要解决这个问题,可以用消防队员人数作为工具变量:消防队员人数和警察人数一般有一定正比关系,但和犯罪率无关。
我们分成两步做这个模型,第一步把警察人数作为被解释变量,消防队员作为解释变量作一次OLS,第二步把第一部里OLS对警察的“预测值”作为解释变量,代替原来的警察人数对犯罪率做回归,因为这个新的解释变量是用消防队员人数“包裹”起来的,所以就消除了犯罪率导致警力上升的因果关系,就可以得到一个基本消除“内生性”(互为因果)的模型,也是著名的“两步最小方差”(2 stages least square, 2SLS).
这个方法在Eviews里的实现比上述还要简单,只要在estimate equation的回归方法下拉栏步选LS/NLS,选择2SLS就可以了,然后在Instrumental Variable里填入IV对应的序列名字,结果就会直接出来。
工具变量法
工具变量法一.为什么需要使用工具变量法?当模型存在内生解释变量问题,一般为以下三种情形:(1)遗漏变量:如果遗漏的变量与其他解释变量不相关,一般不会造成问题。
否则,就会造成解释变量与残差项相关,从而引起内生性问题。
(2)解释变量与被解释变量相互影响(3)度量误差 (measurement error ):由于在关键变量的度量上存在误差,使其与真实值之间存在偏差,这种偏差可能会成为回归误差的一部分,从而导致内生性问题。
Ex :i 01122Y i i k ik i X X X ββββμ=+++⋅⋅⋅++ 其中:X 2为内生解释变量 当22Cov(X ,)=E[X ]0i i i i μμ≠时,内生解释变量与随机干扰项同期相关。
此时会导致回归参数估计量是有偏的且不一致,需要用工具变量法进行回归。
二.如何使用工具变量? (一)判断是否需要用工具变量当存在内生性变量时,则需使用工具变量,所以需要对内生性变量进行检验。
在实践中,往往是通过经济学理论先说明是否存在内生性变量,最后再通过检验证明确实存在内生变量。
(1)豪斯曼检验(Hausman )原假设H 0:所有解释变量均为外生变量将内生解释变量关于工具变量与外生变量进行OLS 回归估计 记录残差序列(^^IV OLS ββ−),加入原模型后进行OLS 估计 结果:若差值依概率收敛于0,接受原假设;反之,拒绝。
(2)杜宾-吴-豪斯曼检验(DWH )注:存在异方差的情况下传统豪斯曼检验不适用。
回归模型:'1122y x x ββε=++ z=(x 1,z 2) 第一阶段回归:''21x x z v γδ=++ 检验扰动项v 与ε相关性模型:=v+ερξ 其中:ρ为ε对v 回归系数,ε与v 不相关则ρ=0. 对 ^'''1122y=x x v e ββρ+++ 回归 对原假设H 0:ρ=0. 进行t 检验。
工具变量
设定模型
Y 0 1 X 1 v
工具变量
1
~
X
i 1 n i 1
n
i1
X 1 Yi
2 X X i 1 1
Yi 0 1 X i1 2 X i 2 u i
X
i 1 n i 1
n
i1
X 1 0 1 X i1 2 X i 2 u i X1
基本流程
第一步: 建立模型
第二步: 寻找工具变量 第三步: 数据分析
工具变量
演示
工具变量
假说1: 区域的经济增长或财政税收水平等政绩考核指 标会显著影响地区性行政垄断的强弱。 假说2: 区域内企业经济指标会显著影响地区性行政垄 断的强弱。
地方财政支出占GDP 比重gov 作为工具变量。 外商资本比重lobby 作为工具变量。 liquid 变量( 流动资产合计的自然对数) 作为另一个 工具变量。
选择Y2的工具变量Z2,满足: 与Y2相关,与随机误差项不相关,与另 一外生解释变量不要高度相关
工具变量
在检验时,采用如下回归模型:
Y2 0 1 Z1 2 Z 2 v
如果Z2系数显著不为0,则满足一个基本 条件,其含义是,控制其他外生解释变 量,相关性仍然存在。
工具变量
出现相关最常见的原因是遗漏变量我们以此为例来进行说明工具变量如果遗漏变量与解释变量正相关则解释变量与随机误差项正相关如果遗漏变量与解释变量负相关则解释变量与随机误差项负相关无论何种情况系数估计都会出现偏误工具变量处理此类问题的一般方法是工具变量法instrumentalvariable寻找一个变量z满足
stata工具变量二阶段回归结果解读 -回复
stata工具变量二阶段回归结果解读-回复如何解读Stata工具变量二阶段回归结果。
引言:Stata是一种统计分析软件,广泛用于社会科学研究中的定量分析。
工具变量(Instrumental Variables,IV)方法是回归分析中常用的一种技术,用于解决内生性问题。
内生性是指解释变量和错误项之间存在相关性,而工具变量方法通过引入一个或多个工具变量来帮助解决这个问题。
本文将详细介绍在Stata中进行工具变量二阶段回归的步骤,并解读其结果。
第一步:拟合第一阶段回归模型工具变量方法包括两个阶段,首先我们需要拟合第一阶段回归模型。
在第一阶段回归中,我们将内生变量(即存在内生性问题的解释变量)作为因变量,将所有的解释变量以及工具变量作为自变量。
在Stata中,使用regress命令进行回归分析,命令格式为:regress 内生变量解释变量工具变量。
得到结果后,我们需要查看模型的拟合度以及回归系数的显著性。
第二步:检验工具变量的有效性在拟合第一阶段回归模型后,我们需要检验所引入的工具变量的有效性。
主要有两种方法可以进行检验:第一种是检验工具变量和内生变量的相关性,如果相关性显著,则说明工具变量是有效的;第二种是检验工具变量和误差项的相关性,如果相关性为零,则说明工具变量是有效的。
在Stata中,我们可以使用ivreg2命令进行工具变量的有效性检验,命令格式为:ivreg2 内生变量解释变量工具变量。
得到结果后,我们需要查看工具变量的显著性,如果显著,则说明工具变量是有效的。
第三步:拟合第二阶段回归模型在确认工具变量的有效性后,我们可以进行第二阶段回归模型的拟合。
在第二阶段回归模型中,我们将内生变量以及其他解释变量作为自变量,将工具变量的预测值作为仪器变量。
在Stata中,使用ivregress命令进行工具变量二阶段回归,命令格式为:ivregress 2sls 内生变量解释变量工具变量。
得到结果后,我们需要查看模型的拟合度以及回归系数的显著性。
工具变量法(一):2SLS
工具变量法(一):2SLSGive me a lever long enough and a place to stand, and I will move the world. -- Archimedes实证研究的常见问题之一为“内生性”(endogeneity),即解释变量与扰动项相关。
研究者通常要花很大精力来解决内生性问题,而工具变量法则是解决内生性的常用利器。
内生性及其后果考虑最简单的一元线性回归模型:其中,为被解释变量,为解释变量,与为待估计的未知参数,下标表示个体(比如,第个企业),为随机扰动项(包含除外影响的所有其他因素),而为样本容量。
内生性意味着解释变量与扰动项相关,即如果存在内生性,则称解释变量为“内生变量”(endogenous variable);反之,则称为“外生变量”(exogenous variable)。
内生性的严重后果是使得OLS估计量不一致(inconsistent),即无论样本容量多大,OLS 估计量也不会收敛至真实的参数值。
工具变量的思想工具变量的思想其实很简单。
虽然内生变量是“坏” 的变量(与扰动项相关),但仍可能有“好” 的部分(与扰动项不相关的部分),正如坏人通常也有好的一面。
如果能将内生变量分解为内生部分与外生部分之和,则可能使用其外生部分得到一致估计。
而要实现这种分离,通常需要借助另一变量,比如,称为“工具变量”(Instrumental Variable,简记IV),因为它起着工具性的作用。
显然,并非任何变量都可以作为工具变量。
首先,变量要能够帮助内生变量分离出一个外生部分,则变量自身必须是“干净”的,即满足“外生性”(与扰动项不相关):其次,变量还须与有一定关系,即满足“相关性”(与相关):寻找内生变量的外生部分假设找到内生变量的有效工具变量,则可将对进行 OLS 回归,从而分离出的外生部分:此回归称为“第一阶段回归”(first stage regression)。
工具变量
工具变量
~ E 1 1
~
2
X X
~
i 1 i 1 n
n
i1
X 1 X i2 X1
i1
2
E 1 1 2 1
在两种情况下无偏:
2 0 ~ 1 0
工具变量
偏误情况
X1 和 X2 正相关
2 0 2 0
设定模型
Y 0 1 X 1 v
工具变量
1
~
X
i 1 n i 1
n
i1
X 1 Yi
2 X X i 1 1
Yi 0 1 X i1 2 X i 2 u i
X
i 1 n i 1
n
i1
X 1 0 1 X i1 2 X i 2 u i X1
工具变量
应用领域
[1]邓曲恒,王亚柯. 农民工的工作条件与工资收入:以补偿性工资差异为视角[J]. 南开 经济研究,2013,06:134-147. [2]陈昊. 出口贸易与学历误配:缓解还是加剧?——基于多工具变量法的经验研究[J]. 财经研究,2014,03:42-51. [3]陈继勇,梁柱. 贸易开放与经济增长的内生性研究新进展[J]. 经济评论 ,2011,06:130-137.
工具变量
Wooldridge给出两个可能的IV:
母亲的受教育水平 成长过程中兄弟姐妹数
工具变量
选择工具变量,需要验证它是否满足两 个条件,对于与X(内生变量)相关,可 以通过做X与Z的回归模型,对系数进行 检验,但对于与u不相关,则只能依靠理 论设定了!
工具变量系数和基准回归
工具变量系数和基准回归
工具变量系数和基准回归是经济学中常用的两个概念,下面将对它们进行解释。
1. 工具变量系数
工具变量系数是经济学中用于解决内生性问题的一种方法。
内生性是指某些解释变量与误差项具有相关关系,从而导致OLS估计结果不准确。
工具变量系数的核心思想是利用一个或多个无关联的变量(即工具变量)来代替内生变量,从而消除了内生性问题。
工具变量系数是利用工具变量来进行所需变量的估计,它可以通过2SLS(Two-stage least squares)方法来实现。
2SLS方法中,首先通过工具变量进行回归,得到工具变量的系数,接着将工具变量的系数带入原有方程中,得到所需变量的系数。
这样得到的估计结果是无偏且一致的。
2. 基准回归
基准回归是指在进行其他分析前,先进行一次简单的线性回归,以确定变量间的基本关系。
基准回归通常是用来解释某些变量对一个因变量的影响,并且通常是第一步,是其他分析的基础。
基准回归的目的是为了确定需要控制的变量,以使其他分析结果更准确。
基准回归的
特点是回归方程简单,包含少量变量,通常是目标变量与一个或多个影响因素之间的关系。
在实际研究中,通常是通过基准回归来确定需要控制的变量,然后再使用工具变量系数来解决内生性问题。
基准回归可以帮助我们确定主要的关键变量,以及哪些变量需要控制,而工具变量系数可以帮助我们消除内生性问题,提高回归结果的准确性和可靠性。
stata工具变量二阶段回归结果解读
一、介绍在经济学和社会科学中,研究者经常面临内生性问题,即某些变量可能同时影响解释变量和被解释变量,在回归分析中会引起估计量偏误。
为了解决内生性问题,研究者可以使用工具变量方法来进行分析。
而在使用Stata软件进行工具变量二阶段回归分析时,需要对回归结果进行准确解读,以确保研究结论的科学性和可靠性。
二、Stata中工具变量二阶段回归的基本步骤1. 数据准备:需要将数据导入Stata软件中,并对数据进行清洗和预处理,以确保数据的准确性和完整性。
2. 第一阶段回归:在进行工具变量回归之前,需要进行第一阶段回归,即使用工具变量对内生变量进行回归。
在Stata中,可以使用ivreg命令进行第一阶段回归,该命令可以同时进行内生变量的工具变量选择和回归分析。
3. 二阶段回归:在完成第一阶段回归后,可以使用ivreg2命令进行工具变量二阶段回归,该命令可以输出各项回归结果,包括工具变量系数、内生变量系数和其他控制变量系数等。
三、Stata工具变量二阶段回归结果的解读在Stata中进行工具变量二阶段回归后,需要对回归结果进行准确解读,以得出科学可靠的研究结论。
1. 工具变量系数的解读:工具变量系数反映了工具变量对内生变量的影响程度,其显著性检验结果可以帮助研究者判断所选择的工具变量是否有效,从而保证工具变量回归的可靠性。
2. 内生变量系数的解读:内生变量系数反映了内生变量对被解释变量的影响程度,其显著性检验结果可以帮助研究者判断内生变量的影响是否显著,从而得出相应的研究结论。
3. 控制变量系数的解读:除了工具变量和内生变量外,工具变量二阶段回归模型中还包括其他控制变量,其系数反映了控制变量对被解释变量的影响程度,研究者需要注意对控制变量系数进行解读,以准确评估其对研究结果的影响。
4. 残差分析:在进行工具变量二阶段回归后,研究者还需要对回归残差进行分析,以验证回归模型的合理性和稳健性,包括残差的正态性、异方差性和自相关性等。
工具变量回归
影响回归结果正确性的三大威胁有: 遗漏变量偏差,由于没有遗漏变量的观测数据所以不能 把它加到回归中; 双向因果关系 (X 导致了 Y, Y 导致了 X); 变量有测量误差 (X 中带有测量误差) 当 E(u|X) ≠ 0 时,工具变量回归可消除偏差——利用工具变 量( instrumental variable) Z
#2: 简单的代数 Yi = 0 + 1Xi + ui 于是, cov(Yi,Zi) = cov(0 + 1Xi + ui,Zi) = cov(0,Zi) + cov(1Xi,Zi) + cov(ui,Zi) = 0 + cov(1Xi,Zi) + 0 = 1cov(Xi,Zi) 其中 cov(ui,Zi) = 0 (工具外生性); 因此
13
在供给需求实例中的TSLS:
ln(Qibutter ) = 0 + 1ln( Pi butter ) + ui 令 Z = 牧场地区的降雨量. Z 是一个有效的工具变量吗? (1) 外生性? corr(raini,ui) = 0? 合理的: 牧场地区是否下雨不影响需求 (2) 相关性? corr(raini,ln( Pi butter )) 0?
cov(Yi , Z i ) 1 = cov( X i , Z i )
8
IV 估计量, 一个 X和一个Z (续)
cov(Yi , Z i ) 1 = cov( X i , Z i )
IV 估计量为将这些总体协方差替换为样本协方差:
sYZ TSLS ˆ , 1 = s XZ
sYZ 和 sXZ 伪样本协方差. 这就是 TSLS 估计量 ,只是采用了 不同的推导!
工具变量法PPT教案学习
Z = ( X, X ,… , X , Z)
1
2
K −1
K
只要Cov(Z, X ) ≠ 0 ,Cov(Z,ε ) = 0
K
K
K
变量Z就满足条件1和2,成为工具变量
• 实际运用中,寻找工具变量的关键 就是要 找到与Xk高度相关而与u无关的 Zk
第30页/共64页
识别
• 恰好识别
– 回归模型中有一个解释变量是内生的,而我们就找 到 一个工具变量
– 通常ability受到教育的影响 abil=₀+₃edu+r,
E(r|exp,exp²)=0 – 从而E(b3)= 3+ 3,b3不仅是有偏的,而且在大
样本中也是不一致的。
– 特别是,如果3>0,b3会高估教育对工资的影响
第9页/共64页
变量的测量误差
• 被解释变量的测量误差 • 真实的模型设定
工具变量法
会计学
1
单方程线性模型
• 如果我们在经验分析中采用一个单方程线 性模型来研究x 对y 的影响,并得到相关的 政策结论,那么则要求方程
y = + X + X + . . . X + u
0
1
1
2
2
k
k
能够反映X与y之间的因果关系,而不是单 纯的统计相关关系
第1页/共64页
假设1
• 条件期望线性与外生性假设 y = E(y|X)+u
第15页/共64页
遗漏变量
• 当被遗漏的变量与引入模型的其他解释变量 相 关,被遗漏的变量进入到随机扰动项时, 就会导致解释变量与扰动项相关
• 假定真实的总体模型设定为:Y = X β + Wγ + u
工具变量法~
工具变量法~工具变量法一、工具变量法的主要思想在无限分布滞后模型中,为了估计回归系数,通常的做法是对回归系数作一些限制,从而对受限的无限分布滞后模型进行估计。
在这里,考伊克模型、适应性期望模型与部分调整模型给出了很好的解决此类问题的思路。
经过变换,新的模型中,随机扰动项的表达式为:考伊克模型:1t t t v u u λ-=- (01λ<< ,λ为衰减率)(1.1);适应性期望模型:1(1)t t t v u u λ-=--(01λ<< ,λ为期望系数)(1.2);部分调整模型:(1)t t v u γ=-(01γ≤< ,1γ-为调整系数)(1.3)。
t u 为原无限分布滞后模型中的扰动项,t v 为变换后的扰动项。
在原模型中的随机扰动项满足经典假设的前提下,部分调整模型也满足经典假设,但是考伊克模型与适应性期望模型的随机扰动项由于存在原随机扰动项的滞后项,也就是说考伊克模型与适应性期望模型的解释变量1t Y - 势必与误差项t v 相关,因此,可能会出现上述两个模型的最小二乘估计甚至是有偏的这样严重的问题。
那么,我们是否可以找到一个与1t Y -高度相关但与t v 不相关的变量来替代1t Y -?在这里,一个可行的估计方法就是工具变量法。
在讨论工具变量法之前,我们先来了解一下外生变量和内生变量。
一般来说:一个回归模型中的解释变量有的与随机扰动项无关,我们称这样的解释变量为外生变量;而模型中有的解释变量与随机扰动项相关,我们可称这样的解释变量为内生解释变量。
内生解释变量的典型情况之一就是滞后应变量为解释变量的情形,如上述考伊克模型与适应性期望模型中的1t Y -。
外生解释变量:回归模型中的解释变量与随机扰动项无关;内生解释变量:回归模型中的解释变量与随机扰动项无关;了解了内生变量和外生变量的概念,我们接着讨论工具变量法的主要思想:工具变量法和普通最小二乘法是模型参数估计的两类重要方法,在多元线性回归模型中,如果出现解释变量与随机误差项相关(即出现内生变量)时,其回归系数的普通最小二乘估计是非一致的,这时就需要引入工具变量。
01-93.1 恰好识别情况下的工具变量回归
代回结构式可解出 =0+1+2+
IV 估计量2:“简约式”方程的推导
一般地,如果“简约形式”关系到 Y 和 Z 以及 X 和 Z :
Xi = π0 + π1Zi + vi
Yi = γ0 + γ1Zi + wi
其中 wi 是误差项。由于 Z 是外生的,所以它与 vi 和 wi
均不相关。
= β0 + β1Xi + ui,
其中β0 = γ0 – π0γ1 /π1, β1 = γ1/π1, ui = wi – (γ1/π1)vi,即X
变化一个单位对 Y 的影响是 β1 = γ1/π1 个单位
IV 估计量3:两阶段最小二乘(2SLS)
两阶段最小二乘的基本思想是使用工具变量把分
成两个部分,一部分能被解释的,外生的,另一部
如果工具变量的个数少于内生回归变量的个数,
我们则无法估计出 β1,…,βk
例如: 当 k = 1, m = 0 时,没有工具变量!
识别(续)
对于系数 β1,…, βk :
如果m = k,则恰好识别
刚好有足够的工具变量来估计 β1,…,βk
如果m > k,则过度识别
工具变量的个数足够多,因而可以利用多余的工具
分是造成问题的,内生的− ;再将 作为外生的解
释变量,代替去解释。
我们将在下次课讲述具体操作。
对外经济贸易大学计量经济学 Nhomakorabea导论
Introduction to Econometrics
恰好识别情况下的
工具变量回归
识别
如果从数据中我们可以唯一确定地估计出参数,
或者说不同的参数值一定对应着不同的数据分布,那么
工具变量法
工具变量法一、工具变量法的主要思想在无限分布滞后模型中,为了估计回归系数,通常的做法是对回归系数作一些限制,从而对受限的无限分布滞后模型进行估计。
在这里,考伊克模型、适应性期望模型与部分调整模型给出了很好的解决此类问题的思路。
经过变换,新的模型中,随机扰动项的表达式为:考伊克模型:1t t t v u u λ-=- (01λ<< ,λ为衰减率) (); 适应性期望模型:1(1)t t t v u u λ-=--(01λ<< ,λ为期望系数)();部分调整模型:(1)t t v u γ=-(01γ≤< ,1γ-为调整系数) ()。
t u 为原无限分布滞后模型中的扰动项,t v 为变换后的扰动项。
在原模型中的随机扰动项满足经典假设的前提下,部分调整模型也满足经典假设,但是考伊克模型与适应性期望模型的随机扰动项由于存在原随机扰动项的滞后项,也就是说考伊克模型与适应性期望模型的解释变量1t Y - 势必与误差项t v 相关,因此,可能会出现上述两个模型的最小二乘估计甚至是有偏的这样严重的问题。
那么,我们是否可以找到一个与1t Y -高度相关但与t v 不相关的变量来替代1t Y -在这里,一个可行的估计方法就是工具变量法。
在讨论工具变量法之前,我们先来了解一下外生变量和内生变量。
一般来说:一个回归模型中的解释变量有的与随机扰动项无关,我们称这样的解释变量为外生变量;而模型中有的解释变量与随机扰动项相关,我们可称这样的解释变量为内生解释变量。
内生解释变量的典型情况之一就是滞后应变量为解释变量的情形,如上述考伊克模型与适应性期望模型中的1t Y -。
外生解释变量:回归模型中的解释变量与随机扰动项无关; 内生解释变量:回归模型中的解释变量与随机扰动项无关;了解了内生变量和外生变量的概念,我们接着讨论工具变量法的主要思想:工具变量法和普通最小二乘法是模型参数估计的两类重要方法,在多元线性回归模型中,如果出现解释变量与随机误差项相关(即出现内生变量)时,其回归系数的普通最小二乘估计是非一致的,这时就需要引入工具变量。
工具变量法 模糊断点回归[001]
工具变量法模糊断点回归工具变量法和模糊断点回归是经济学和统计学中常用的分析方法,用于解决因果关系中的内生性问题。
这两种方法在研究中起着重要的作用,能够帮助研究者得出更准确的结果和结论。
首先,我们先了解一下工具变量法的基本思想和原理。
在观察数据分析中,内生性问题是非常常见的。
内生性指的是某个变量对其他变量产生影响,同时也受到其他变量的影响,造成了一个循环关系,使得我们无法准确地判断因果关系。
而工具变量就是用来打破这种内生性问题的,它是一种被认为只会通过对自变量产生影响,而不会直接对因变量产生影响的变量。
工具变量的选择是非常关键的。
一个好的工具变量应该满足两个条件:第一,与自变量之间存在关联,也就是说工具变量可以影响自变量;第二,与内生性问题之间存在关联,也就是说工具变量不会直接影响因变量。
通过工具变量法进行分析时,我们可以将工具变量引入回归模型中,通过工具变量与自变量的关系,来推断自变量对因变量的影响,从而避免内生性问题。
接下来,我们介绍一下模糊断点回归的基本原理和应用。
模糊断点回归是一种寻找内生性所导致的变量阈值的方法。
在研究中,我们往往希望找到一个阈值,当变量的值超过这个阈值时,因变量的变化就会发生明显的改变。
然而,在实际应用中,我们并不知道这个阈值具体是多少,这就需要使用模糊断点回归来进行分析。
模糊断点回归的核心思想是基于一些经验或理论猜测,提出一个阈值的范围,然后利用这个范围内的数据进行回归分析,通过估计系数和显著性检验来判断阈值对因变量的影响是否显著。
如果发现了一个显著的阈值,那么我们就可以说在这个阈值附近存在一个变化点,从而得到更准确的分析结果。
工具变量法和模糊断点回归在实际研究中有着广泛的应用。
例如,在经济学中,研究收入对教育水平的影响时,收入往往存在内生性问题,因为收入水平可能受到个人教育水平的影响,而个人教育水平又与收入水平存在关联。
这时候,我们可以通过选择一个合适的工具变量,如家庭背景等,来解决内生性问题,并更准确地评估收入对教育水平的影响。
第十二讲 工具变量回归(1)
3。Wright考虑了儿个可能的工具变量; 。 考虑了儿个可能的工具变量; 考虑了儿个可能的工具变量 其中一个是天气。例如,某牧场的降雨量 降雨量低 其中一个是天气。例如,某牧场的降雨量低 于平均值会使牧草减少从而减少给定价格时 黄油的产量(会使供给曲线向左移动而使均 黄油的产量 会使供给曲线向左移动而使均 衡价格上升), 衡价格上升 ,因此牧场地区降雨量满足工 具变量相关性的条件。 具变量相关性的条件。但牧场地区降雨量对 黄油的需求没有直接影响, 黄油的需求没有直接影响,因此牧场地区降 雨量与u 的相关系数为零; 雨量与 i的相关系数为零;也就是牧场地区 降雨量满足工具变量外生性条件。 降雨量满足工具变量外生性条件。
为此,必须找到与警察人数相关, 为此,必须找到与警察人数相关,但对 犯罪率却没有单独影响的工具变量。 犯罪率却没有单独影响的工具变量。 Levitt (1997)创造性地使用“市长选举 创造性地使用“ 创造性地使用 的政治周期”作为工具变量。通常, 的政治周期”作为工具变量。通常,在 任市长在竞选连任时,为了拉选票, 任市长在竞选连任时,为了拉选票,会 增加警察人数,故满足“相关性” 增加警察人数,故满足“相关性”。另 一方面, 一方面,选举周期一般以机械的方式确 除了对警察人数有影响外, 定,除了对警察人数有影响外,不会单 独地对犯罪率起作用,故满足“ 独地对犯罪率起作用,故满足“外生 性”。
工具变量(instrumental variable, IV)回 工具变量 回 归是当回归变量X与误差项 与误差项u相关时获得总体 归是当回归变量 与误差项 相关时获得总体 回归方程未知系数一致估计量的一般方法。 回归方程未知系数一致估计量的一般方法。 估计。 我们经常称其为IV估计 我们经常称其为 估计。 基本思想是 假设方程是: 其基本思想是:假设方程是:
工具变量I
内生性、工具变量摘要:本讲义阐述违背误差项与解释变量无关这一假定的原 因、后果及其可能的解决方法。
其中工具变量法(或称两阶 段最小二乘法)与 OLS —样,是计量中被广泛应用的方法。
本讲义的内容结构与课时安排如下:Part I 内生性的介绍 内生性的定义内生性的来源:遗漏相关变量;测量误差; Part II 工具变量法(两阶段最小二乘法) 回顾矩估计的原理 工具变量法的原理及估计步骤 IV 估计量的大样本性质设定检验:有效性检验、内生性检验和过度识别检验 例子:估计教育回报率 参考文献:chapter 9 chapter15 内生性(Endogeneity ) 内生变量Cov(X j ,u) = 0显然,如果回归模型存在内生变量,古典线性回归模型的严 格外生性就不成立;因为严格外生性意味着所有的解释变量 都与扰动项不相关。
内生性的来源:遗漏解释变量 例8.1工资方程其中,「I 是工作经验;是教育,用上学年限衡量;屮" 是能力。
由于个人能力不可观测,把它归入扰动项w 二、Ability i - V i , 此时married i 等变量可以认为是外生变量,但是教育 educ i 与能 力相关,它是内生变量,即 E(eduC i U i )= O 。
解释变量与不可观测因素相关通常是因为自选择 (self-selection ):个体选择解释变量的某个值, 这一选择很可能依赖于分析者不可观测的因素。
遗漏了解释变量的 OLS其中是n K 1矩阵,X 2是n K 2矩阵。
遗漏了 X 2的方程为: 有限样本下的分析:当斤2鼻0而且卩2鼻0,OLS 有偏,偏差为:E(bjX)-B 广 P/2。
大样本下的分析:外生变量Covg u) = 0:当卩佃(经厂0而且七=°时,OLS不一致。
n例8.1中的OLS偏差:当P.2式0意味着:abil = 0「exper 2educ e;偏差E(b j X)"i+叩,i = 1,2 ;问题:假设Cov(eduG abil) 0,Cov(exper, abil p 0,那么是否只有:2有偏?分析:只有Cov(exper, abil) = 0和 Cov(exper,educ) = 0 同时成立才能推出0,无偏。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
具体来说: 具体来说: 第一阶段: 分解成与X高度相关的外生变 第一阶段:将X分解成与 高度相关的外生变 分解成与 以及与干扰项u 量Z以及与干扰项 i相关的部分 i。 以及与干扰项 相关的部分v
为什么IV回归是有效的? 为什么 回归是有效的? 回归是有效的
例1: Philip Wright的问题 的问题 Philip Wright关心的是他那个时期的一个重要经济 关心的是他那个时期的一个重要经济 问题:即如何对诸如黄油, 问题:即如何对诸如黄油,大豆油这样的动植物油和 食用动物设置进口关税。 世纪20年代 食用动物设置进口关税。在20世纪 年代,进口关 世纪 年代, 税是美国主要的税收收入来源。 税是美国主要的税收收入来源。而理解关税的经济效 应的关键在于要有商品需求和供给曲线的定量估计。 应的关键在于要有商品需求和供给曲线的定量估计。 由前知供给弹性为价格上涨1%引起的供给量变化的 由前知供给弹性为价格上涨 引起的供给量变化的 百分率,而需求弹性为价格上涨1%引起的需求量的 百分率,而需求弹性为价格上涨 引起的需求量的 百分率变化。 百分率变化。Philip Wright就需要这些供给和需求 就需要这些供给和需求 弹性的估计。 弹性的估计。
(2)工具变量外生性:工具变量与随机误差 )工具变量外生性: 项不相关; 项不相关;
Cov(ui, Zi) = 0
两阶段最小二乘估计量
若工具变量Z满足工具变量相关性和外生性 若工具变量 满足工具变量相关性和外生性 的条件,则可用称为两阶段最小二乘 两阶段最小二乘(TSLS) 的条件,则可用称为两阶段最小二乘 估计量估计系数ß 的IV估计量估计系数ß1。 估计量估计系数 两阶段最小二乘估计量分两阶段计算: 两阶段最小二乘估计量分两阶段计算: 第一阶段把 分解成两部分 分解成两部分: 第一阶段把X分解成两部分:即与回归误差 项相关的会引发问题的一部分以及与误差项 无关的不会引发问题的一部分。 无关的不会引发问题的一部分。 第二阶段是利用与误差项无关的那部分进行 第二阶段是利用与误差项无关的那部分进行 估计。 估计。
在计量经济学中,把所有与扰动项相关的解释 在计量经济学中, 变量都称为“内生变量” 变量都称为“内生变量”。这与一般经济学理 论中的定义有所不同。 论中的定义有所不同。 因此在工具变量回归中有特定术语来区分与总 体误差项相关和不相关的变量: 体误差项相关和不相关的变量: 1。其中与误差项相关的变量称为内生变量 。其中与误差项相关的变量称为内生变量 (endogenous variable)。 。 2。而与误差项不相关的变量称为外生变量 。而与误差项不相关的变量称为外生变量 (exogenous variable)。 。
Wright的解决办法: 的解决办法: 的解决办法 1。找到第三个变量,这个变量影响供给但不 。找到第三个变量, 影响需求。这样, 影响需求。这样,所有的均衡价格和均衡量对 都落在这条稳定的需求曲线上, 都落在这条稳定的需求曲线上,此时很容易估 计出它的斜率。 计出它的斜率。 2。可见,这第三个变量,也就是工具变量, 。可见,这第三个变量,也就是工具变量, 它与价格相关(它使供给曲线移动 它使供给曲线移动, 它与价格相关 它使供给曲线移动,于是导致 价格发生变化),但与u无关 无关(需求曲线保持不 价格发生变化 ,但与 无关 需的方法
使用工具变量法的前提是存在有效的工具变 因此, 量。因此,如果寻找工具变量在实践中十分 重要。由于工具变量的两个要求( 相关性” 重要。由于工具变量的两个要求(“相关性” 外生性” 常常是自相矛盾的, 与“外生性”)常常是自相矛盾的,即与内 生解释变量相关的变量常常与被解释变量的 扰动项也相关。 扰动项也相关。故在实践上寻找合适的工具 变量常常比较困难, 变量常常比较困难,有时需要一定的创造性 与想象力。 与想象力。
例如具休考虑黄油的需求弹性估计问题: 例如具休考虑黄油的需求弹性估计问题:
根据11个均衡样本点估计的方程究竟是需求函数还是 根据 个均衡样本点估计的方程究竟是需求函数还是 供给函数?两者都不是。 供给函数?两者都不是。由于这些点是由需求和供给 两者的变化确定的,因此用OLS拟合这些点的直线既 两者的变化确定的,因此用 拟合这些点的直线既 不是需求曲线也不是供给曲线的估计。 不是需求曲线也不是供给曲线的估计。
工具变量问归提供了解决这一问题的另一种 方法。考虑下面的假想例子: 方法。考虑下面的假想例子:由于夏天发生 了地震,为了进行灾后修复工作, 了地震,为了进行灾后修复工作,必须关闭 某些加利福尼亚州的学校。 某些加利福尼亚州的学校。而最靠近震中的 地区受到的影响最严重。 地区受到的影响最严重。于是有学校关闭的 地区需要把学生“挤在一起” 地区需要把学生“挤在一起”,因此暂时扩 大了班级规模。这意味着到震中的距离 到震中的距离与班 大了班级规模。这意味着到震中的距离与班 级规模相关, 级规模相关,故它满足工具变最相关性的条 件但如果到震中的距离与其他影响学生成绩 的因素无关(如学生是否还在学习英语 如学生是否还在学习英语), 的因素无关 如学生是否还在学习英语 ,则 由于它与误差项无关因此是外生的。 由于它与误差项无关因此是外生的。于是到 震中的距离这个工具变量可以用来避免遗漏 变量偏差和估计班级规模对测试成绩的效应。 变量偏差和估计班级规模对测试成绩的效应。
3。Wright考虑了儿个可能的工具变量; 。 考虑了儿个可能的工具变量; 考虑了儿个可能的工具变量 其中一个是天气。例如,某牧场的降雨量 降雨量低 其中一个是天气。例如,某牧场的降雨量低 于平均值会使牧草减少从而减少给定价格时 黄油的产量(会使供给曲线向左移动而使均 黄油的产量 会使供给曲线向左移动而使均 衡价格上升), 衡价格上升 ,因此牧场地区降雨量满足工 具变量相关性的条件。 具变量相关性的条件。但牧场地区降雨量对 黄油的需求没有直接影响, 黄油的需求没有直接影响,因此牧场地区降 雨量与u 的相关系数为零; 雨量与 i的相关系数为零;也就是牧场地区 降雨量满足工具变量外生性条件。 降雨量满足工具变量外生性条件。
我们的工作就是要寻找相应的工具变量将解 我们的工作就是要寻找相应的工具变量将解 工具变量 释变量分解成内生变量和外生变量, 释变量分解成内生变量和外生变量,然后利 两阶段最小二乘法(TSLS)进行估计。 进行估计。 用两阶段最小二乘法 进行估计 一个例子:考虑货币政策对宏观经济的影响。 一个例子:考虑货币政策对宏观经济的影响。 由于货币政策的制定者会根据宏观经济的运 行情况来调整货币政策, 行情况来调整货币政策,故货币政策是个内 生变量(双向因果关系)。 )。Romer (2004) 生变量(双向因果关系)。 通过阅读历史文献将货币政策的变动分解为 内生” 对经济的反应) 外生” “内生”(对经济的反应)与“外生”(货 币当局的自主调整)的两部分。 币当局的自主调整)的两部分。
工具变量(instrumental variable, IV)回 工具变量 回 归是当回归变量X与误差项 与误差项u相关时获得总体 归是当回归变量 与误差项 相关时获得总体 回归方程未知系数一致估计量的一般方法。 回归方程未知系数一致估计量的一般方法。 估计。 我们经常称其为IV估计 我们经常称其为 估计。 基本思想是 假设方程是: 其基本思想是:假设方程是:
寻找工具变量的步骤大致可以分为两步, 寻找工具变量的步骤大致可以分为两步, (i)列出与内生解释变量(x)相关的 )列出与内生解释变量( 尽可能多的变量的清单( 尽可能多的变量的清单(这一步较容 易); (ii)从这一清单中剔除与扰动项相关的 ) 变量(这一步较难)。 变量(这一步较难)。
例:警力与犯罪率。一般认为,警察人 警力与犯罪率。一般认为, 数越多,执法力度越大, 数越多,执法力度越大,则犯罪率应该 越低。为了度量警力对犯罪率的作用, 越低。为了度量警力对犯罪率的作用, 如果直接把犯罪率对警察人数进行回归, 如果直接把犯罪率对警察人数进行回归, 就会出现“内生变量偏差” 这是因为, 就会出现“内生变量偏差”。这是因为, 警察人数其实是一个内生变量,比如, 警察人数其实是一个内生变量,比如, 某个城市的犯罪率很高, 某个城市的犯罪率很高,则市政府通常 会扩大警力规模。 会扩大警力规模。
工具变量回归
假设4 所有的解释变量Xi与随机误差项彼此之 假设4 所有的解释变量X
间不相关。 间不相关。
Cov(ui, Xi) = 0
若解释变量X 相关, 若解释变量 i和ui相关,则OLS估计量是非 估计量是非 一致的,也就是即使当样本容量很大时, 一致的,也就是即使当样本容量很大时, OLS估计量也不会接近回归系数的真值。 估计量也不会接近回归系数的真值。 估计量也不会接近回归系数的真值
误差项与回归变量相关:遗漏变量变量、 误差项与回归变量相关:遗漏变量变量、变 量有测量误差和双向因果关系。 量有测量误差和双向因果关系。 遗漏变量偏差可采用在多元回归中加入遗漏 遗漏变量偏差可采用在多元回归中加入遗漏 变量的方法加以解决, 变量的方法加以解决,但前提是只有当你有 遗漏变量数据时上述方法才可行。 遗漏变量数据时上述方法才可行。 双向因果关系偏差是指如果有时因果关系是 双向因果关系偏差是指如果有时因果关系是 又从Y到 时 从X到Y又从 到X时,此时仅用多元回归无法 到 又从 消除这一偏差。同样, 消除这一偏差。同样, 变量有测量误差也无法用我们前面学过的方 变量有测量误差也无法用我们前面学过的方 法解决。 法解决。 因此我们就必须寻找一种新的方法。 因此我们就必须寻找一种新的方法。
上图表明若某个变量使供给曲线移动而使需求保待 不变时会发生什么样的情况。 不变时会发生什么样的情况。现在所有的均衡价格 和均衡量对都落在这条稳定的需求曲线
例2:班级模型对测试成缓的效应估计 : 尽管控制了学生和地区特征, 尽管控制了学生和地区特征,但由于受诸如 校外学习机会或教师质量等不可测变量的影响. 校外学习机会或教师质量等不可测变量的影响 第二篇中给出的班级规模对测试成绩的效应估 计中仍然可能存在着遗漏变量偏差。 计中仍然可能存在着遗漏变量偏差。若这些变 量的数据不可得, 量的数据不可得,则不能通过在多元回归中加 入这些变量的方法来处理遗漏变量偏差。 入这些变量的方法来处理遗漏变量偏差。