第8讲_截断与样本选择模型2-Heckman及Roy
Chap 8. Heteroskedasticity(截面和面板数据分析,复旦大学,陆铭、张晏)解析
through MLR.4.
But, if MLR.3 is violated—in particular, if the functional
form of E(y x) is misspecified—then a test for heteroskedastcity can reject H0, even if Var(y/x) is constant. If we omit one or more quadratic terms in a regression model or use the level model when we should use the log, a test for heteroskedasticity can be significant.
8.3.1 The Breusch-Pagan Test (BP Test) for Heteroskedasticity
The
Breusch-Pagan Test (B-P Test) Basic Methods
Heteroskedasticity
BP Test
Heteroskedasticity
Heteroskedasticity-Robust s.e.——不需知道是否存在 异方差 Testing for Heteroskedasticity
The Breusch-Pagan Test (B-P Test) The White Test
Basic Methods
BP Test White Test
Example 8.1 (7.6, 7.1, 7.5) The Determination of log Hourly Wage:
因果推理中的科学模型--反事实、选择性偏差与赫克曼结构计量经济学模型
因果推理中的科学模型反事实、选择性偏差与赫克曼结构计量经济学模型李文钊*摘要:因果推理中的科学模型起源于赫克曼对于经济学中样本选择性偏差的研究,它代表了经济学对于因果关系的理论思考,也是对统计学提出的因果理论的回应。
为了解决选择性偏差问题,赫克曼没有像统计学一样试图通过随机实验而使得样本选择对于干预结果没有影响,而是求助于科学研究,去发现导致选择性偏差的真实原因,对偏差进行估计,并且将这一选择性偏差模型化,形成了有关选择的模型和结果的模型的两个模型。
这种将选择与结果分别建立模型,并且强调它们之间内在逻辑关系构成了因果推理的结构计量经济学路径,也是因果推理中科学模型的核心思想。
赫克曼的科学模型不仅对于社会科学研究有非常重要的意义,而且对于政策评估有突出的价值。
更多的因果模型不应该是非此即彼的选择,而应该是在相互竞争中共同学习、共同成长和共同演化。
关键词:因果推理;科学模型;潜在结果模型;选择性偏差;结构方程一、导论因果推理中的科学模型(the Scientific Model of Causality)是计量经济学家詹姆斯•赫克曼(Heckman,2005)于2005年正式提出的一种不同于潜在结果模型的因果理论,它代表了经济学家对于因果关系的理论思考,也是对统-国家自然科学基金,项目批准号:71874198,项目名称:政治周期、制度摩擦与中国政策的间断性:基于1992—2016年的中国预算变迁数据的实证研究。
-李文钊,中国人民大学公共管理学院公共财政与公共政策研究所副教授。
因果推理中的科学模型计学家提出的因果理论的回应.正如潜在结果模型可以称之为鲁宾因果模型(Rubin Causal Model)一样,因果推理中科学模型也可称之为赫克曼因果模型(Heckman Causal Model).因果推理中的科学模型起源于赫克曼(Heckman,1979;1990;Heckman &Todd,1998)对于经济学中样本选择性偏差(Sample Selection Bias)的研究,它是从解决问题再到上升理论的过程.赫克曼认识到样本选择性偏差经常出现在经济生活中,如我们要计算加入工会对于工人工资的影响,但是我们只有加入工会会员的工资水平,没有这些会员如果不加入工会的工资情况,这样如果我们用工会会员工资平均水平与没有加入工会的工人的平均水平相比较,就可能面临着选择性偏差问题.我们想知道文明城市评选是否会有利于官员晋升,但是选择进行文明城市评选的官员很有可能是官员晋升的内在原因.为了解决选择性偏差问题,赫克曼没有像统计学家一样试图通过随机实验而使得样本选择对于干预结果没有影响,而是试图求助于科学研究,去发现导致选择性偏差的真实原因,对偏差进行估计,并且将这一选择性偏差模型化,形成了有关选择的模型和结果的模型的两个模型.这种将选择与结果分别建立模型,并且强调它们之间内在逻辑关系构成了讨论因果推理的结构方程模型路径,或者说计量经济学路径.与统计学家对于因果推理的一般性理论研究相比,赫克曼在讨论因果推理时总是与具体的问题联系在一起,这反映了经济学有对于问题与现实关注的传统.在对问题的研究中,赫克曼认为我们并不一定要每次从零开始,应该借助于已经发展的理论对选择过程和结果产生过程进行模型化,以实现社会科学累积化,并进一步对复杂的政策评估问题进行回答.正是因为这一原因,赫克曼将他的因果理论称之为“科学模型”,不同于统计理论中“潜在结果模型”。
二值选择模型内生性检验方法、步骤及Stata应用
二值选择模型内生性检验方法、步骤及Stata应用一、本文概述本文旨在深入探讨二值选择模型内生性检验的方法、步骤,并详细解析在统计软件Stata中的具体应用。
二值选择模型,作为一类重要的统计模型,广泛应用于经济学、社会学、医学等多个领域,用于分析二元结果数据的生成机制。
然而,在模型构建过程中,内生性问题往往不可避免,它可能导致模型估计结果的偏差,从而影响结论的准确性。
因此,对二值选择模型进行内生性检验,对于确保模型的有效性和可靠性至关重要。
本文首先将对二值选择模型内生性检验的理论基础进行梳理,包括内生性的定义、来源及其对模型估计的影响。
随后,将详细介绍几种常用的内生性检验方法,如Heckman两阶段选择模型、Probit模型的内生性检验等,并阐述各自的优缺点和适用场景。
在方法介绍的基础上,本文将重点阐述在Stata中进行二值选择模型内生性检验的具体步骤。
通过案例分析的方式,将展示如何在Stata 中实现各种内生性检验方法,包括数据的准备、模型的设定、命令的执行以及结果的解读等。
还将对Stata在处理内生性问题时的优势和局限性进行讨论。
本文将对二值选择模型内生性检验的未来发展进行展望,探讨新的检验方法和技术在解决内生性问题上的潜力和挑战。
通过本文的阐述,旨在为读者提供一套系统的二值选择模型内生性检验方法,并促进Stata在相关领域的应用和发展。
二、内生性检验的理论基础内生性问题是经济学、计量经济学和社会科学研究中一个普遍且重要的问题。
在二值选择模型中,内生性通常指的是模型中的解释变量与误差项之间存在相关性,这会导致估计结果产生偏差,从而影响到模型的预测和解释能力。
因此,对二值选择模型进行内生性检验至关重要。
内生性检验的理论基础主要建立在计量经济学的相关理论和假设之上。
在二值选择模型中,通常假设解释变量是外生的,即与误差项无关。
然而,在现实中,这一假设可能不成立。
例如,可能存在未观测到的遗漏变量,或者解释变量和误差项之间可能存在反向因果关系,这些都可能导致内生性问题。
Heckman模型out了,内生转换模型掌控大局
Heckman模型out了,内生转换模型掌控大局copyright@计量经济圈(ID: econometrics666),有需要do文件的进入计量经济圈社群直接提取,今后很有可能do文件只放在社群。
多逛逛计量经济圈这个中国计量第一大社区,最好进入咱们的社群进一步学习和交流。
Heckman选择模型与内生转化模型的区别:Heckman模型关注的是那个可观察的方程,然后研究两变量之间的关系。
比如,研究有没有小孩与工资之间的关系,那么对于那些没有工作的人,工资这个被解释变量为missing value,因此我们此时就存在样本选择偏差,那Heckman模型更多的通过从观察到的样本得到一个mills ratio比例,从而纠正这个样本的分布,从而估计出两者之间的关系。
但内生转化模型是同时关注两个状态下的情况,即那有工作的与没有工作的都关注,然后去推演两者之间的关系。
之所以强调内生,是因为我们的选择方程比如是否加入工会,会同时受到比如公共部门的工资和私有部门的工资的影响。
要晓得,还有外生转换模型,called exogenous switching model.内生转换模型能够由两阶段最小二乘法或最大似然估计得到,但是这两种方法会让模型估计出的参数有效性降低。
这些估计方法需要很繁琐的调整,来得到一致的标准误差。
我们接下来会介绍到的movestay命令,通过完全信息极大似然方法能够同时估计二值选择部分和连续部分,从而获得一致的标准误差。
这个方法的前提是,二值选择方程和连续部分的方程的误差项需要服从联合正太分布。
在劳动经济学领域,房产需求预测以及市场失衡等建模方面,内生转换模型已经变成了中流砥柱的内生选择偏差修正模型。
我们使用movestay命令,来估计一个个体在公共部门和私有部门工作工资的差异性。
I i*是个潜变量,它来决定一个个体是选择公共部门还是私有部门上班。
W1i和W2i分别表示一个个体在私有部门工作的工资和在公共部门工作的工资。
heckman两阶段模型处理效应stata命令
heckman两阶段模型处理效应stata命令在 Stata 中,你可以使用 heckman 命令来估计 Heckman 两阶段模型,该模型常用于处理因果推断中的选择偏误(Selection Bias)问题。
Heckman 模型通常用于解决存在选择性取样或截断的情况下的估计问题。
下面是 heckman 命令的基本语法和参数:heckman depvar indepvars if in [weight], select(select_varlist) twostepdepvar 是你的主要因变量。
indepvars 是你的自变量。
if 和 in 是用于选择数据子集的条件。
[weight] 是用于指定加权的选项。
select(select_varlist) 用于指定选择方程中的变量列表。
twostep 参数指定使用两阶段方法进行估计。
在Heckman 两阶段模型中,第一阶段估计了选择方程(Selection Equation),通常使用 probit 或者 logit 模型。
第二阶段使用了被选择样本的数据来估计主要的模型,同时考虑了选择方程的残差项。
以下是一个简单的例子:// 第一阶段:估计选择方程probit participation educ age married// 保存选择方程的残差项predict select_resid, resid// 第二阶段:估计主模型(有选择样本)heckman wage educ age married, select(select_resid) twostep在这个例子中,我们首先使用 probit 命令估计了选择方程,然后保存了选择方程的残差项。
接着,我们使用 heckman 命令估计了主要的 Heckman 模型,指定了选择方程的残差项,并使用了两阶段方法进行估计。
请注意,在实际应用中,你需要根据你的数据和研究问题来适当地选择模型和参数,并进行必要的检验和诊断。
tobit与选择性样本
0(
xi
)xi
(
xi
)
.
17
3、 x k对于y的边际影响
E(y| xk
x)(x/)k
结论:在数据存在截取的情况下,x k 对于y的
边际影响通过两个渠道产生作用:首先影
响 ( x ),即观测值是否被截取的概率,其次 是通过 影响y*的大小,从而影响被观察到
的y值的大小。当
于
k
时(x,) 边1 际影响等
由于我们面对的是断尾数据,因此考虑 E(y2|y11,x) 是有意义的。
E(y2| y1 1,x)E(y2*| y1* 0,x)
E(x222| x111 0) x22E(2|1 x11)
因为 21
.
37
所以
E(y2| y11,x)x22E(1|1x11) x22E(1|1x11)x22 ((xx1111)) x2212(x11)
i~N (0,2) Pri (xi)P ri (x i)1 (x i) (x i)
即 P ri(y0|xi)(xi) P ryi(0|xi)1(xi)
.
14
(2)当 yi 0 时的条件期望
其中, (.) Ratio)
(.)
(.)
为逆米尔斯比(Inverse Mills
.
15
E(yi | yi 0,xi) E(xii | yi 0,xi)
我们可以对截取数据进行tobit回归,得到系数 的一致估计结果。步骤:
第一,用全部数据采用probit模型,估计 ,, 代 入得到 的估计值。
第二,用y>0的数据,进行y对x和 的OLS估计,
得到系数的一致估计。
.
23
+ 如果样本观测值不是以0为界,而是以某一个数值 a为界,则有
heckman两阶段法的应用
heckman两阶段法的应用HECKMAN两阶段法(Heckman two-step approach)是一种经济计量方法,常用于解决因果效应评估的问题。
该方法通常被应用于处理选择性取样问题,其中一个变量的取值仅在某些特定条件下才能观察到。
本文将详细介绍HECKMAN两阶段法的应用。
HECKMAN两阶段法是由经济学家James Heckman于1979年提出的。
它基于开始于正态分布的隐变量模型(random utility model)的原理,并结合一种选择性取样模型(sample selection model),从而解决了选择性取样问题。
在介绍HECKMAN两阶段法的具体应用之前,我们先来了解一下选择性取样问题的本质。
选择性取样问题存在于许多经济和社会科学研究中。
简言之,选择性取样问题是指研究者能够观察到的样本并不代表整个总体,因为某些样本只有在满足某些特定条件时才会被观察到。
假设我们希望研究教育对工资的影响,即教育的因果效应。
在真实情况下,我们可能只能观察到劳动力市场中已经工作的人们的工资和教育程度。
然而,如果我们仅仅依据这个样本进行分析,就可能忽略了那些没有就业的人们和没有接受教育的人们。
这样,我们就会面临一个选择性取样问题,即因为工资的观察条件是就业状态,而就业状态又受到教育程度的影响,所以只能观察到部分数据。
这时,我们就可以借助HECKMAN两阶段法来解决选择性取样问题。
HECKMAN两阶段法是基于两个步骤的操作原理而得名。
第一步是估计参与方程(participation equation),用于估计选择进入分析的效应变量的条件概率。
在上述例子中,参与方程是用于估计就业状态对教育程度的影响。
通过对参与方程进行估计,我们可以得到一个关于就业状态的回归模型,从而控制了观察到的教育程度和未观察到的教育程度之间的影响。
第二步是估计结果方程(outcome equation),用于估计参与方程中得到的概率条件下,效应变量与其他解释变量之间的关系。
第八章 (1) 离散和受限被解释变量模型
SC -2 -2 -2 -2 -2 -2 -2 -1 0 -2 -1 0 -2 0 -1 1 1 1 -1 -1 1 1 1 1 -1 0
JGF 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.9979 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.9998 0.9999 1.0000 0.4472 0.0000 0.0000 1.0000 1.0000 0.9999 0.0000 0.0000
• 对于两个方案的选择。例如,两种出行方式的选 择,两种商品的选择。由决策者的属性和备选方 案的属性共同决定。
二、二元离散选择模型
1、原始模型
• 对于二元选择问题,可以建立如下计量经济学模 型。其中Y为观测值为1和0的决策被解释变量;X 为解释变量,包括选择对象所具有的属性和选择 主体所具有的属性。
2、重复观测值不可以得到情况下二元Probit 离散选择模型的参数估计
ln L
fi fi Xi Xi 1 Fi F y 0 y 1 i
i
i
q i f (q i X i ) Xi F (q i X i ) i 1
n i 1
n
n
• 在样本数据的支持下,如果知道概率分布函数 和概率密度函数,求解该方程组,可以得到模 型参数估计量。
三、二元Probit离散选择模型及其参数 估计
1、标准正态分布的概率分布函数
F (t )
t
(2 )
12
exp( x 2 2)dx
f ( x) (2 )
heckman两阶段法结果解读
heckman两阶段法结果解读Heckman两阶段法是一种经济学中常用的数据分析方法,主要用于处理因果推断中的选择偏差(selection bias)问题。
该方法由诺贝尔经济学奖得主James Heckman在1979年首次提出,并被广泛应用于社会科学领域。
Heckman两阶段法通常用于处理存在自愿选择参与的样本数据,其中第一阶段估计了参与选择的概率,而第二阶段则通过对参与者和非参与者进行比较来估计因果效应。
下面是对Heckman两阶段法结果的解读步骤:第一阶段:1. 分析参与选择的概率估计结果:首先,检查参与选择的概率估计结果。
这个结果可以告诉我们哪些变量对于影响选择参与的决策最为重要。
2. 检查参与选择方程的拟合度:通过观察模型的拟合度指标(如拟合优度R-squared),评估模型对观测数据的拟合程度。
较高的拟合度意味着模型能够较好地解释选择参与的变异性。
第二阶段:1. 分析因果效应估计结果:在第二阶段,我们关注的是参与者和非参与者之间的差异,以估计因果效应。
检查因果效应估计结果以确定参与对结果变量的影响程度。
2. 进行统计显著性检验:使用合适的统计方法(如t检验)对因果效应进行显著性检验。
如果因果效应的p值小于预先设定的显著性水平(通常为0.05),则可以认为该因果效应是显著的。
总体解读:1. 注意选择偏差问题:Heckman两阶段法的核心目的是处理选择偏差问题,因此需要关注参与选择和因果效应估计中的潜在选择偏差。
如果选择偏差得到有效控制,那么可以更可靠地解释结果。
2. 结果的解释和政策意义:最后,根据第二阶段的因果效应估计结果,结合研究问题的背景和实际情况,解读分析结果并提出相应的政策建议或学术观点。
请注意,具体的解读可能会因研究问题和数据特征而有所不同。
在实际应用中,建议进一步参考相关文献和专家意见,以确保准确解读Heckman两阶段法的结果。
heckman模型 边际效应
heckman模型边际效应赫克曼选择模型中的边际效应赫克曼选择模型(Heckman Selection Model)是一种统计模型,用于解决样本选择偏差问题,该偏差是由于样本选择过程与被观测变量之间的相关性而产生的。
该模型分为两个方程:选择方程和结果方程。
选择方程选择方程用于建模参与样本选择的概率。
它以二元选择模型的形式出现,其中被解释变量是参与样本选择的指示变量。
选择方程中的解释变量包括影响参与样本选择的特征,如个人属性、激励机制和机会成本。
结果方程结果方程用于建模被观测变量的条件期望,条件是满足选择方程中指定的参与样本选择的条件。
结果方程中的解释变量通常包括与被观测变量相关的特征,如教育、经验和能力。
边际效应边际效应是选择方程或结果方程中某一解释变量变化一个单位对被解释变量的影响。
对于二元选择的选择方程,边际效应表示解释变量变化一个单位对参与样本选择的概率的变化。
对于结果方程,边际效应表示解释变量变化一个单位对被观测变量条件期望的变化。
样本选择偏差样本选择偏差产生于被观测样本的选择过程与被观测变量相关时。
例如,如果教育水平较高的人更有可能参与一项调查,那么教育这一变量就会与调查结果中的其他变量相关,导致估计结果出现偏倚。
赫克曼校正法赫克曼校正法是一种解决样本选择偏差的方法,它通过将选择方程和结果方程联合建模来实现。
该方法包括以下步骤:1. 估计选择方程,并使用逆米尔斯比率 (IMR) 作为选择校正项。
2. 将 IMR 添加到结果方程中,作为额外的解释变量。
3. 估计结果方程,并解释边际效应。
估计解释在赫克曼选择模型中,选择方程和结果方程的边际效应具有重要的解释意义。
选择方程的边际效应表明解释变量如何影响参与样本选择的概率,而结果方程的边际效应则表明解释变量如何影响条件被观测变量。
应用赫克曼选择模型已广泛应用于各种领域,包括劳动经济学、健康经济学和计量经济学。
它可以用于解决各种样本选择问题,并提供更准确、无偏的估计结果。
第7讲_截断与样本选择模型1-Tobit
断尾产生的原因:样本选择
• 样本选择是产生断尾数据的主要原因 • 样本选择的概念
– 是指所观察到的样本由于在抽样的过程中,或多 或少受到因变量取值的影响,而因此成为非随机样 本 – 样本选择的出现一方面与被调查对象的“自选择 ”行为有关,即具有某种特定行为的被调查对象很 容易进入到样本中来,而其它的被调查对象则除出 在外 – 一方面与抽样方案的设计不当有关
• 当被解释变量y的取值在某个范围内,我们 无法获得有关的样本信息时,就出现了数 据断尾的问题
• 从上断尾的数学表述
y*,y* c
y
, y*
c
• 数据断尾实际上是一个样本缺失的问题, 由于缺失的样本在某个截取点之外,所以 就称之为"断尾"
• 在断尾问题中,数据的缺失不是随机的, 它具有系统性,从而导致所得到的样本不 具有对总体的代表性
E(x
|
x
c)
(
c
)
(
c
)
第I类Tobit模型: 在零值左截取的回归模型
• James Tobin在1958年的文章“Estimation of Relationships for Limited Dependent Variables”中,以家庭耐用消费品为例,讨 论了当因变量y在0点被左截取的时候,如 何估计x对y的影响
f (y | y c) f ( y) 1 F(c)
• 从上截取:
F (y | y c) F ( y) F (c)
f (y | y c) f ( y) F (c)
截取变量的期望
• 无截取: E( y) yf ( y)dy
•
从下截取:E(
y
|
y
c)
Heckman模型:你用对了吗?
Heckman模型:你用对了吗?❝作者:秦利宾 (厦门大学)邮箱:**************❝连享会主页:扫码查看最新推文和分享NEW!连享会·推文专辑:Stata资源 | 数据处理 | Stata绘图 |Stata程序 | 结果输出 | 回归分析 |时间序列 | 面板数据 | 离散数据 |交乘调节 | DID | RDD | 因果推断 |SFA-TFP-DEA | 文本分析+爬虫 |空间计量 | 学术论文 | 软件工具[编者按]: 本文主要内容摘译自以下文章。
同时,结合网上资料和个人经验整理了Stata 命令Heckman、etregress、以及手动计算两步法的代码,以供大家参考。
❝[Source]: Lennox C S, Francis J R,Wang Z.Selection models in accountingresearch[J].The Accounting Review, 2012, 87(2):589-616. Link温馨提示:文中链接在微信中无法生效。
请点击底部「阅读原文」。
❝连享会- 效率分析专题,2020年5月29-31日主讲嘉宾:连玉君 | 鲁晓东 | 张宁课程主页连享会-效率分析专题视频❝连享会- 生存分析(Survival Analysis)专题2020年6月6日主讲嘉宾:王存同教授 (中央财经大学)点击了解课程详情连享会-生存分析专题直播目录•1. 背景•2. 选择性偏差校正o 2.1 选择模型o 2.2 应用中存在的问题•3. 选择模型在研究中应用情况•4. 应用案例o 4.1 样本选择模型o 4.2 处理效应模型•5. 选择模型使用建议•6. 结论•7. 参考文献1. 背景社会科学数据大部分都是非随机分配,使得选择模型在研究中的作用越来越重要,编辑和审稿人也通常会要求作者控制内生性和选择偏差。
但是,学者在使用中也存在一些问题,如忽视了排他性约束变量的重要性。
Heckman两阶段概述
Heckman两阶段概述
Heckman两阶段模型是一种用于处理选择性偏误(selectivity bias)问题的方法。
选择性偏误是指当样本在某些特征上存在偏差,导致对某些变量的影响估计结果不准确。
Heckman两阶段模型的基本思想是:在第一阶段,对影响选择过程的因素进行回归,得到选择概率的估计,然后在第二阶段,使用选择概率来控制选择性偏误,对感兴趣的变量进行回归分析。
具体来说,Heckman两阶段模型包括两个方程:
第一阶段方程:
选择方程(Selection Equation)Y*=Xβ+Zγ+ε
其中,Y*是潜在变量,表示决定选择的因素,X是自变量,Z是影响选择概率的协变量,β和γ分别是X和Z的系数,ε是误差项。
第二阶段方程:
观测方程(Outcome Equation)Y=Xβ+u
其中,Y是观测变量,X是自变量,β是系数,u是残差项。
在第一阶段,首先根据选择方程得到选择概率p,然后根据p来估计Y。
在第二阶段,利用估计的Y和X,对β进行回归估计。
Heckman两阶段模型的优点是可纠正选择性偏误,缺点是对模型的设定要求比
较高,同时需要大量的数据进行模型估计。
二元选择面板模型的设定检验
其中 F(·) 为 扰 动 项 的 分 布 函 数,这 里 假 设 为
标准正态分布和标准 logistics 分布。
关于模型( 1) 的设 定 检 验,主 要 分 三 个 方 面,分
别是扰动项的分布 设 定、同 方 差 设 定 以 及 是 否 存 在
遗漏变量。众所周 知,不 同 于 线 性 模 型 的 最 小 二 乘
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– education – intelligence test scores – union membership – level of vocational training – disability status – age
• 第II类Tobit模型明确提出了选择方程和结果 方程,这两个方程是不一样的,并对它们 分别进行了估计
• 在第I类Tobit模型中,影响数据截取的变量 以及系数与影响数据水平结果的变量及系 数完全一样,都为x和β
• 而在第II类Tobit模型中,影响数据截取的变 量x1以及系数β1与影响数据水平结果的变量 x2及β2 是有区别的
• 在对方差-协方差矩阵进行估计时,我们 需要考虑到结果方程内在的异方差性,以 及λ本身为拟合值
• 在这里,我们不对Heckit方法中方差-协方 差矩阵进行推导,有些计量软件,如Stata 在给出Heckit估计结果时,对方差-协方差 矩阵的估计结果进行了调整
与第I类Tobit模型的比较
• 第I类Tobit模型以常数0为左截取点,虽然 它也采用了隐性变量的模型结构,但是在 该模型中,仅仅是y*自身的取值大小影响其 被观察到的数值大小
• 之所以将选择方程中的随机扰动项方差设定为1,是因 为在后面我们要采用Probit方法对该方程进行估计
– u2= δu1+η,可以推出:
u1 u2
~
N
0 0
,
1
21
12 2
y1与y2的概率分布
• 对于选择结果y1,它的概率分布容易推导: Pr( y1 = 0|x1 ) = Pr(u1 < −x1′β1 ) = 1 − Φ (x1′β1 )
估计结果。但在样本选择的情形中,u1与u2 通常是相关的
基本假设
• 记x=(x1,x2),表示模型中所有的解释变量, • 在双变量样本选择模型中的基本假设如下
– x和y1总可以观察到,但y2只有当y1=1时才能够 被观察到
– X1和x2是外生的解释变量,即 E(u1|x)= E(u2|x)=0
– u1∼N(0,1) ,u2∼Ν(0,σ2)
Use a variable to identify selection . generate wageseen = (wage < .) . heckman wage educ age, select(wageseen = married children educ age)
Specify robust variance . heckman wage educ age, select(married children educ age) vce(robust)
No constant in model . heckman wage educ age, noconstant select(married children educ age)
No constant in selection equation . heckman wage educ age, select(married children educ age, noconstant)
• 这样要求的理由在于,尽管Inverse Mills Ratio λ(x‘1β1)是x1的非线性函数,但它通常 可以很好地由一个线性函数来近似
– 如果x1=x2,就会造成λ与x2的高度相关,从而出 现多重共线性,参数估计结果的方差极高
• 特别是当参与概率的预测值没有很大的变化 时,多重共线性问题会变得更加严重
Parameter Estimates
Stata命令
• truncreg truncreg y x1 x2 … xk, ll(c) ul(c)
用于估计正态断尾模型,使用该命令时, 通常需要指定至少一个断尾点,在实际的 分析中,有时需要指定两个断尾点。上限 用ul()表示,下限用ll()表示
• heckman
• 后一个模型是前一个模型的一般化,所以 第II类Tobit模型有时又被称为一般化的 Tobit模型
例子: Hausman and Wise (1977)
• Estimated earnings equation for low-income households (i.e., those below the poverty level)
– 影响选择方程的解释变量至少有一个不影响结果 方程,而影响结果方程的解释变量一定都包含在 选择方程中
– 没有包含在结果方程中的解释变量称为“排除约 束”(exlusion restriction),本质上,这些变量为 工具变量
– 例如孩子的年龄和个数会影响到已婚女性是否进 入劳动市场,但是它们并不影响已婚女性的工资 状况
Obtain full ML estimates . heckman wage educ age, select(married children educ age)
Obtain Heckman's two-step consistent estimates . heckman wage educ age, select(married children educ age) twostep
(u1 ~ N (0,1))
Pr( y1 = 1|x1 ) = Φ (x′1β1) • 由于水平结果y2只有当y1=1时才能够被观察 到,所以当y2连续时,只有讨论它的密度函 数f(y2 |y1=1,x)才有意义
• 对于观察到的y2 ,其密度函数为
f
( y2
y1
1,
x)
x11
y1
x
2
x11
– 有计量经济学家通过大量的Monte Carlo模拟发现,没 有包含“排除约束”的双变量样本选择模型,在有限 样本的情形下,估计结果非常糟糕
– 如果能够保证x2⊂x1,那么当选择偏差存在时,我们就 能够保证得到一致的估计结果。
估计参数的方差-协方差矩阵
• 估计参数的方差-协方差矩阵的正确估计 值无法通过简单的OLS过程得到
• heckprobit
heckprobit p x1 x2 … xk, select(z1 z2 … zs) 用于估计存在样本选择时的Probit模型,在这个
命令中,不提供twostep的选项,因为两阶段 估计无法得到一致估计量。
• 模型设定 • 估计 • 例子讨论
Roy模型
简介
• 第II类Tobit模型即双变量选择模型中,被解 释变量可能会观察不到,对于y2=1的对象, 我们可以观察到y1,而对于y2=0的对象,我 们则看不到y1
y1
x2 2
部分ML估计
• 由于y2只有当y1=1时才能够被观察到,因此 我们不能够采用全条件的ML估计,而应当 采用部分ML估计法
– 也就是说,所建立的似然函数是以y1=1为条件 的,因此所使用的只是部分观察到y2的样本
– 前面推导的f(y2|y1=1,x)正是部分ML估计所需要 和所能运用的密度函数
Specify clustering on county . heckman $wage_eqn, select($seleqn) vce(cluster county)
Report first-step probit estimates . heckman wage educ age, select(married children educ age) first
heckman y x1 x2 … xk, select(z1 z2 … zs) twostep
用于估计第二类Tobit模型,估计的方法默认为 ML估计,如果加上选项twostep,则采用Heckit 方法; 选项select则设定参与方程中的被解释变量和解 释变量,被解释变量应该为0-1变量,如果缺省 的话,则y的观测值缺失被认为没有参与,反之 视为参与。
• 在第二阶段的估计中,用观察到的y2对x2和 λhat进行OLS估计,从而得到β2和σ12的估 计值
检验
• 对H1: σ12 =0的检验,可以检验参与方程与 结果方程中的随机扰动项是否相关,从而 判断对样本选择偏差的校正是否必要
• σ12为第二阶段回归方程中Inverse Mills Ratio的系数,由于该回归方程中的随机扰 动项具有异方差性,因此对该系数的检验 应该通过Wald检验完成
– 对所有观察到y1的样本的对数似然函数 f(y2|y1=1,x)进行加总,并通过最大化,可以估 计出β1,β2,σ和δ=σ12
Heckit方法
• 由于我们面对的是断尾数据,因此考虑 E(y2|y1=1,x)是有意义的
•上式成为Heckman两阶段程序即Heckit方法 中的估计方程
• 从中我们可以看到,如果σ12=0,那么即 使用有选择的样本来进行OLS估计,仍然 可以得到x2对于y2的一致影响
的意愿
双变量样本选择模型
• 选择方程(Selection Equation),又称为参 与方程(Participation Equation)
1 if y1 0 if
y1* 0 y1* 0
• 结果方程(Outcome Equation),又称为水平
方程(Level Equation)
y2
y2*
模型设定
• 令y2*为我们所感兴趣的被解释变量,由于 样本选择的原因,它不是总能够被观察到
• y1*为一个隐性变量,它的取值大小决定y2* 是否能被观察到
• 举例而言
– y2*为工资, y1*为工作意愿,当她(他)工作 时,她(他)的工资数据就可以得到
– y2*为住院天数, y1*决定住院倾向 – y2*为某门选修课的成绩, y1*为选修该门课程