因果推理中的科学模型--反事实、选择性偏差与赫克曼结构计量经济学模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因果推理中的科学模型
反事实、选择性偏差与赫克曼结构计量经济学模型
李文钊*
摘要:因果推理中的科学模型起源于赫克曼对于经济学中样本选择性偏差的研究,它代表了经济学对于因果关系的理论思考,也是对
统计学提出的因果理论的回应。
为了解决选择性偏差问题,赫
克曼没有像统计学一样试图通过随机实验而使得样本选择对于
干预结果没有影响,而是求助于科学研究,去发现导致选择性偏
差的真实原因,对偏差进行估计,并且将这一选择性偏差模型
化,形成了有关选择的模型和结果的模型的两个模型。
这种将
选择与结果分别建立模型,并且强调它们之间内在逻辑关系构
成了因果推理的结构计量经济学路径,也是因果推理中科学模
型的核心思想。
赫克曼的科学模型不仅对于社会科学研究有非
常重要的意义,而且对于政策评估有突出的价值。
更多的因果
模型不应该是非此即彼的选择,而应该是在相互竞争中共同学
习、共同成长和共同演化。
关键词:因果推理;科学模型;潜在结果模型;选择性偏差;结构方程
一、导论
因果推理中的科学模型(the Scientific Model of Causality)是计量经济学家詹姆斯•赫克曼(Heckman,2005)于2005年正式提出的一种不同于潜在结果模型的因果理论,它代表了经济学家对于因果关系的理论思考,也是对统
-国家自然科学基金,项目批准号:71874198,项目名称:政治周期、制度摩擦与中国政策的间断性:基于1992—2016年的中国预算变迁数据的实证研究。
-李文钊,中国人民大学公共管理学院公共财政与公共政策研究所副教授。
因果推理中的科学模型
计学家提出的因果理论的回应.正如潜在结果模型可以称之为鲁宾因果模型(Rubin Causal Model)一样,因果推理中科学模型也可称之为赫克曼因果模型(Heckman Causal Model).
因果推理中的科学模型起源于赫克曼(Heckman,1979;1990;Heckman &Todd,1998)对于经济学中样本选择性偏差(Sample Selection Bias)的研究,它是从解决问题再到上升理论的过程.赫克曼认识到样本选择性偏差经常出现在经济生活中,如我们要计算加入工会对于工人工资的影响,但是我们只有加入工会会员的工资水平,没有这些会员如果不加入工会的工资情况,这样如果我们用工会会员工资平均水平与没有加入工会的工人的平均水平相比较,就可能面临着选择性偏差问题.我们想知道文明城市评选是否会有利于官员晋升,但是选择进行文明城市评选的官员很有可能是官员晋升的内在原因.为了解决选择性偏差问题,赫克曼没有像统计学家一样试图通过随机实验而使得样本选择对于干预结果没有影响,而是试图求助于科学研究,去发现导致选择性偏差的真实原因,对偏差进行估计,并且将这一选择性偏差模型化,形成了有关选择的模型和结果的模型的两个模型.这种将选择与结果分别建立模型,并且强调它们之间内在逻辑关系构成了讨论因果推理的结构方程模型路径,或者说计量经济学路径.
与统计学家对于因果推理的一般性理论研究相比,赫克曼在讨论因果推理时总是与具体的问题联系在一起,这反映了经济学有对于问题与现实关注的传统.在对问题的研究中,赫克曼认为我们并不一定要每次从零开始,应该借助于已经发展的理论对选择过程和结果产生过程进行模型化,以实现社会科学累积化,并进一步对复杂的政策评估问题进行回答.正是因为这一原因,赫克曼将他的因果理论称之为“科学模型”,不同于统计理论中“潜在结果模型”。
由于赫克曼非常重视其因果理论在政策评估(Policy Evaluation)领域的应用,有时候他的研究也被称之为计量经济学政策评估(Econometric Policy Evaluation)或者社会项目的计量经济学评估(Econometric Evaluation of Social Program),它是政策评估中使用计量经济学模型的典型代表(Heckman &Vytlacil,2005;Heckman&Vytlacil,2007a;2007b;Abbring&Heckman, 2007;Imbens&Wooldridge,2009).
接下来,我们将首先介绍赫克曼有关干预效果和选择性偏差的讨论,并讨论应对这一问题的不同路径;其次对他称之为“科学模型”的主要任务、核心思想和基本内容进行分析,这些构成了他讨论政策评估问题的思想基础;再次对
实证社会科学(第六卷)
他提出解决政策评估核心问题的结构计量经济学模型进行简要描述,这一模型提供了解决反事实和因果推理的另一种路径;随后,我们进一步详细比较了赫克曼的结构计量经济学模型与潜在结果模型两者的差异,并以一些具体例子阐述他们之间的差异;最后对不同因果推理理论进行了简要评述,指出多样性因果推理理论对于人类而言是一种财富而非负担,不同的因果推理理论可以从对方中学习以完善自身理论。
二、干预效果、选择性偏差与因果推理的路径
干预效果(Treatment Effect)是所有因果推理理论讨论的核心问题(Heckman,Lopes,&Piatek,2014)。
不同学者从不同研究传统和路径出发,对于干预效果形成了不同的定义、假设、解决路径和方法,这些也构成了多样性的因果理论(Heckman&Pinto,2015)。
赫克曼(Heckman,2005:1)指出,对于因果关系的定义总是容易陷入套套逻辑的圈套。
不过,在因果关系的讨论中,有两个核心问题通常都会涉及:一是由一系列因素(Factors)导致的潜在结果;二是在这一系列因素中,有一个因素要被操纵。
由于学科的差异性,通常也使得各个学科用各自的话语体系讨论因果关系,形成了学术中的巴别塔现象,这不利于学术发展和进步。
当然,目前看来,各学科之间,尤其是统计学与计量经济学之间就因果推理的交流、讨论、争论、相互学习、借鉴和共同发展正在强化。
与潜在 结果模型一 样,因果推理的科学 模型 也是 从反事实(Counterfactual)或潜在结果出发来讨论干预效果。
评估政策或社会项目的标准方法是使用非参与者(Nonparticipants)的结果来估计参与者如果他们不参与政策或项目会产生什么样的结果。
赫克曼认为由于反事实的存在,导致了很多数据缺失,这使得因果推理容易出现选择性偏差,即非参与者的结果很可能与参与者不参与政策或项目所产生的结果有系统性偏差。
在其1979年发表的有关选择性偏差的经典论文中,赫克曼(Heckman,1979)列举了通常会遇到的选择性偏差的例子,如劳动力市场中女性平均工资问题、工会对工人工资影响、培训对工资影响、移民的工资水平估计等。
在没有随机实验的情况之下,一个人对于某一个项目或政策的选择,本身会对结果产生影响。
当然,赫克曼对于选择性偏差讨论更为复杂,它既包括了干预效果中要讨论的选择
因果推理中的科学模型
性偏差问题,也包括了在经济生活中只能够观察到一组结果变量的例子,如就业市场中女性平均工资.对于赫克曼因果推理中科学模型的讨论,我们将主要结合干预效果问题进行讨论.这意味着,潜在结果模型中的干预不影响结果的假设被违背,干预的选择机制对结果会产生非常重要的影响.如果,我们用正式符号来表示选择性偏差,可以参见等式1和等式2:
E(Y]D=1)-E(y()D=0)
=LE(y l D=1)-D(y0D=1)+[E(Y0D=1)-E(y0D=0)
(1)
E(B)=E(y0D=1)-E(y0D=0)(2)从等式1的左边公式E(y1|D=1)-E(y0|D=0)来估计因果关系的常用方法,也是现实中我们能够观察到的结果.但是根据潜在结果模型,这不是真正的因果关系.真正的因果关系应该是对同一个对象实施干预或不实施干预的结果差异.为了构造真正的因果关系,我们可以对等式1进行改造,引入一个观察不到的反事实或潜在结果即D(y0D=1).这样,我们可以得到等式1的右边公式,这一公式由两个部分构成.其中公式的前半段构成了潜在结构模型中真正因果关系,而后半段[E(y0D=1)—E(y。
D=0)则构成了选择性偏差的来源.通过等式2,我们可以看出,选择性偏差产生的真正根源是项目或政策的干预组或控制组在初始状态存在差异,这一差异使得实验对象即使不接受干预,两者最后的结果也会不同.这一初始状态的差异有可能构成了干预组和控制组之间结果差异,即选择性偏差有可能解释因果关系.赫克曼(Heckman&Todd,1998)曾经使用工作培训伙伴立法(The Job Training Partnership Act,JTPA)的数据,结合他们从实验中可获得的数据(Eligible Nonparticipants,ENPs),比较参与实验中接受控制的人员(Experimental Control Groups)与可获得数据人员的结果,由于这两组人员都没有接受干预,如果他们之间结果测量存在差异,则可将这一差异归于选择性偏差.赫克曼通过数据证明,接受实验的控制组与比较组(Comparison Groups)在工资水平等结果指标方面存在差异,并且进一步比较了选择模型、匹配法和双重差分法在消除偏差中的作用,他们的研究表明选择模型对于偏差消除最有利,双重差分法其次,匹配法作用不大.
这样面对由于反事实而导致的选择性偏差,潜在结果模型与科学模型采取了完全不同的路径.潜在结果模型遵循统计学路径,通常求助于随机实验,实现对选择性偏差的消除,即统计学家认为一旦实现随机实验,我们就可以使
实证社会科学(第六卷)
用实验中控制组人员的结果来对实验中干预组人员如果不接受干预时的结果进行无偏估计。
用符号表达,为等式3:
:E(y0l D=1)=D(y0|D=0)](3)不过,赫克曼(Heckman&Smith,1995)对实验主义的路径进行了批判,认为即便随机实验也不可能真正消除偏差。
与其考虑将选择性偏差消除,不如通过建立选择模型(Selection Model)直接描述和刻画选择性偏差,将这一偏差带入结果模型(Outcome Model)之中,这也构成了赫克曼结构方程模型的核心思想。
对此,我们将在第三部分中进行详细阐述。
这样,面对同样的问题和难题,统计学和经济学给出了不同答案和不同路径,这也构成了因果推理中潜在结果模型和科学模型的实质性差异。
对于这两者差异,我们在讨论完科学模型之后,再进行详细阐述。
接下来,我们将以他对因果推理的理解为基础,对科学模型的核心问题、主要任务、因果定义以及符号表达进行简要描述,并在第三部分对其结构计量经济学模型进行详细分析。
三、因果推理的科学模型:主要任务、核心问题
和赫克曼结构计量经济学模型
赫克曼提出的因果推理的科学模型强调因果关系是有关假设的模型,这些模型是按照一些规则对反事实的建构过程,模型决定了反事实产生的过程和机制。
模型存在于一个人的心灵中,因果关系也是存在于人的心灵中,它们都是观念的产物,属于认知范畴的事物,需要依靠人类的想象力。
人类要想象现存的结果是通过什么机制构造出来的,模型是这种机制的明确陈述。
科学模型认为应该按照科学的逻辑来进行研究,通过对效果产生的原因和机制进行研究,即建构一个效果的原因模型(Models of the causes of effects),相反因果推理中统计学模型则是对原因的效果建立模型(Models of the effects of causes)。
于是计量经济学更多是有关结果的原因的学问,而统计学则是有关原因的结果的学问。
为此,赫克曼认为因果关系理论需要处理三个任务,即对反事实的界定、从母体数据中对因果模型进行确定、从样本数据中对因果模型进行确定(见表1)。
因果推理中的科学模型
表1因果模型分析的三个不同任务
任务描述要求
对于假设或反事实的界定科学理论2从假设的母体数据中识别参数点或组合识别的数学分析
3从真实数据中识别参数估计和测量理论
(资料来源:Heckman,2005:3)
从这三个不同任务看,因果理论不是一种描述理论,而是一种假设理论;它是反事实是如何产生的理论。
第一项任务要求对推理规则、机制进行研究,并且与其他理论进行契合,还需要与事实具有一致性。
第二项和第三项任务是识别问题(Identification Problems),这也是因果推理的核心。
因果推理要求找出反事实,并进一步识别导致这一反事实产生的干预机制。
识别问题的过程也是理论模型与事实相契合的过程,它询问理论模型能否反映母体或样本现实?模型识别过程是理论与信息相结合,理论与现实相结合的过程。
不同的因果理论会提出不同研究问题。
从对选择的影响因素进行模型化并建立包含选择模型与结果模型的结构方程模型来进行因果推理,这使得赫克曼的科学模型提出了完全不同于潜在结果模型的研究问题。
在赫克曼(Heckman,2005:7-9)看来,政策评估的核心问题包括三个:
问题1(P1):评估历史上的干预(Historical Intervention)对结果的影响,以及这一影响的具体表现。
问题2(P2):预测一个环境之下执行的干预在其他环境之下的影响(建构反事实),以及这一影响的具体表现。
问题3(P3):预测历史上从来没有实施的干预对于其他环境的影响(建构与干预有关的反事实),以及这一影响的具体表现。
在这三个问题中,第一个问题是涉及给定环境之下干预效果问题的讨论,它也是潜在结果模型关注的核心问题。
坎贝尔和斯坦利(Campbell and Stanley,1963)将这一问题称之为内部效度(Internal Validity)问题。
潜在结果模型只能通过比较来判定干预效果问题,而一旦一个干预是对所有成员实施,没有对照组时,潜在结果模型面临着估算难题。
但是,因果推理中科学模型可以对此进行估计,这是回归模型的核心思想。
第二个问题涉及外部效度(External Validity)问题,其他环境之下能否使用这一干预,其中环境既包括
实证社会科学(第六卷)
个体属性,也包括政治经济社会环境等。
第三个问题更是雄心勃勃,它涉及用过去历史来预测新政策的效果,这也是政策评估中面临最难的问题。
对于科学模型而言,第二个问题和第三个问题只需要借助在评估第一个问题的基础之上形成的参数模型,对部分模型和参数进行适当调整,以使得其适应新的情景就可以了。
反事实是潜在结果模型和科学模型共同关注的问题,如何生成(Generating)反事实也构成了这两种模型面临的核心挑战。
科学模型强调“模型”是生成反事实的最有力工具,它继承了经济学的传统,试图找出“所有原因”(all causes)的模型。
这一模型为我们分析在所有其他情况不变的情况之下(Ceteris Paribus),—个变量的变化对结果产生的影响。
这一思想最早可以追溯到经济学家马歇尔,而经济学家Haavelmo则将这一思想形式化(Heckman&Pinto,2015).
等式4描述了事前个人建构的反事实模型,C,强调在不同干预类型的属性和特征,不同个体属性X和U则是强调在相同干预类型之下,不同个体的反映情况,而U则是反映同样的个体属性在同样的干预类型之下反映的差异化情况.等式4中的第一个方程将干预假定是给定的,讨论参与者个体变量及干预可能对结果的影响,第二个方程则是进一步将干预属性纳入方程,讨论干预属性可能对结果的影响.对于第二个方程就有利于回答政策评估中第三个问题P3,即预测一个完全没有实施过政策的效果.其核心思想是将一个种新的政策将其干预属性分解为已经实施过类型干预的属性,然后对其中干预参数进行修改.
y s=g s(x,U s)
y s=g(.c s,x,U S)(4) E(y(,w)|r”)=E(g(C s(w),X(w),U($,w))|r”)
为此,赫克曼举了一个简单的例子来讨论这一模型的意义.例如学校类型对于学生成绩的影响,学校类型包括教会学校,公立学校,私立学校等.其中c表示学校属性x表示学生属性.如果预测一个新的学校类型对学生成绩的影响,就可以在假定学生属性不变的情况之下,讨论C变化对学生成绩的影响,如从教会学校转变为公立学校对学生成绩的影响,这是回答政策评估中第三类问题P3.同样,在假定学校类型不变的情况之下,如同样属于教会学校,将学生属性x进行变化,会不会得出同样的干预效果这是回答政策评估中第二类问题P2.
因果推理中的科学模型
一旦选择过程发生,而反事实从潜在可能性转变成为实际可能性。
这个时候,我们可以将等式4从期望的结果转化为实际的结果,实际的结果为期望的结果与误差之和,见等式5。
这样,因果推理的科学模型对于反事实的建构主要是通过对选择性偏差及其来源的模拟,通过模型建构,它使得从表面上看相同人员的实际差异显性化,它是不可测量的测量化过程。
进一步,它通过借助于科学理论和选择理论,为设计和证明控制选择性偏差找到了合适的方法。
y(,w)=E(y(,w)r”)+v(s,w) (5)在一般的计量经济模型中,我们通常假定研究者可以同时对X和U进行控制,E(U)=0,误差不会对结果产生影响,于是我们可以形成等式6对结果进行估计和对变量的反事实进行建构。
但是,事实上,我们可能只能够控制X,不能够控制U,因为U本身是由X产生,这违反了回归分析中变量之间是独立关系的假设。
等式7不同于等式6的地方在于U不是固定变量,它本身是由X变化而产生变化的。
E(y|X)=X0+U(6)
E(y|X)=X0+E(U|X) (7)这就意味着我们需要对U本身进行模型化,通过建立选择模型(Selection Model)进一步将误差产生的原因显性化,并尽可能消除选择性偏差(Selection Bias)对结果造成的估计偏差,这也构成了赫克曼结构计量经济学模型不同于传统计量经济学模型的重要内容,也是他讨论因果关系的重大理论创新。
赫克曼(Heckman,1979)也将选择性偏差称之为设定误差(Specification Error),它是由于缺失变量(Omitted Variables)产生的。
等式8和等式9分别描述了赫克曼的结构计量经济学模型中回归模型(又称之为结果模型)和选择模型:
Regression equation:=xfi+c,observed only if w;=1,(8) Selection equation:w*=z i y+u i,w i=1if w:>0,and w i=0otherwise Prob(w i=1z i)=^(z i7)
Prob(W i=0|z i)=1—0(z i7)(9)此后,有研究者将赫克曼的结构计量经济学模型应用于项目和政策评估中,形成了郭申阳(Guo&Fraser,2010:97)等认为的干预效果模型(Treatment Effect Model)。
与赫克曼选择模型相比,干预效果模型有两个基本特征:一是干预与否作为哑变量直接进入回归方程,这样可以讨论干预的净效果;二是回归方程的结果变量无论是对于作为干预组或作为控制组都得以
实证社会科学(第六卷)
呈现,这意味着研究者可以观察到接受干预和不接受干预的结果变量,而接受干预与不接受干预是虚拟变量。
这样,我们可以通过方程10的形式来展现基于样本选择的干预效果模型。
Regression equation:y i=x fi+w Q+e
Selection equation:w;=z i y+“i,w i=1f w i=0otherwise(10) Prob(w i=1z i)=0(z i7)
and Prob(W i=0z i)=1—0(z i Y)
一般而言,我们会进一步将选择方程的结果代入回归方程,最终形成一个用于解释干预效果的回归方程,见等式11。
而5正是我们要估计的干预对于结果的影响系数,通过最小二乘数,这一系数可以得到计算。
when w*>0,w i=1:y i=x i P+(z y+u i)8+e(11) and when w*<0,w*=0:y*=x£+e
赫克曼的结构计量经济学模型的一个应用是“二阶段最小乘数估计”(Two Stages Least Square Estimation),又称之为“二阶段回归"模型。
安格里斯特等(Angrist&Imbens,1995)就将赫克曼的二阶段回归模型看成是工具变量(Instrumental Variable,IV)的一种,他们比较了传统回归、工具变量和二阶段回归在教育与收入之间的关系。
在对收入与教育之间进行回归时,面临一个典型的赫克曼选择模型问题,即一个人是否选择读书的因素本身也会对他的收入水平产生影响,这意味着读书选择具有内生性。
劳动经济学家将这种选择性偏差称之为“能力偏差”(Ability Bias),这就需要在估计时对能力偏差进行剔除。
根据安格里斯特等学者(Angrist&Imbens,1995:433)的研究,在控制所有其他因素的情况之下,与普通最小乘数(OLS)估计的教育对收入回报的8%(20世纪70年代数据)和7.1%(20世纪80年代数据)相比,二阶段回归分别为7.7%(20世纪70年代数据)和8.9%(20世纪80年代数据),这意味着传统回归模型分别对教育对收入的影响进行了低估和高估,20世纪70年代高估了教育对收入回报,而20世纪80年代则低估了教育对收入的回报。
四、因果推理中的统计模型与计量经济学模型比较
赫克曼(Heckman&Smith,1995)在一篇早期讨论社会实验(Social Experiments)的论文中指出,公共政策评估存在两种范式,一种是社会实验的
因果推理中的科学模型
范式,一种是计量经济学的范式.或许这也是他后来进一步发展其因果推理科学模型,并将科学模型与统计模型进行对比的早期思想基础.赫克曼将社会实验的典型方法称之为“黑箱版本”(Black Box Version),并对社会实验的四个主要主张和观点进行了反对,即:社会实验认为选择性偏差无处不在,非实验方法不能够解决;实验方法是建立在可靠假设基础之上;实验结果易于向政策制定者解释;实验容易达成共识,并且进一步对社会实验的方法提出了批评,这些批评包括:对于很多重要问题,实验方法只能够回答一部分问题;随机实验本身也面临着内在变动性问题;随机性也可能存在随机性偏差;社会实验本身可能存在一些社会限制;替代性偏差等.这意味着,社会实验方法并非“理想蓝图”,仍然存在自身的局限性,并不具有方法论的“优越性”和“参照系”作用.
正是基于对社会实验的批判,赫克曼提出了结构计量经济学模型的思路.赫克曼是因果推理中科学模型(又称之为“计量经济学模型”)的坚定捍卫者,他认为以鲁宾为代表的因果推理中统计模型(又称之为“潜在结果模型”)没有考虑选择性问题,没有将选择与结果进行区分.要在现实社会中考虑因果关系,需要使用计量经济学结构方案模型,第一步是对选择过程进行模型化,第二步是对结果进行模型化,这样形成选择方程和结果方案,以解决社会中到处存在的"选择性偏差”。
为此,他(Heckman&Vytlacil,2005;Heckman, 2005;2008)在很多论文中,对以他所代表的计量经济学模型和以鲁宾为代表的统计模型之间有差异进行了系统比较.
赫克曼(Heckman,2005:36)认为,鲁宾的统计模型的核心内容如下(我们用R指代统计模型,它来源于鲁宾的首字母):
R1:{y(sw)}j e s,这是对一系列作为事后结果(Ex Post)的反事实界定,它没有对结果的价值评估,也没有对干预选择规定的阐述.
R2:鲁宾模型的核心假设之一是SUTVA,即强调参与实验的主体之间没有交互影响,一个人接受干预不会影响其他人接受干预时的结果.
R3:鲁宾模型的核心假设之二是可忽视的干预机制假设,即强调干预的分配机制不会对反事实结果产生影响.
R4:鲁宾模型仅仅回答了政策评估三个核心问题中第一个问题,即已经发生的社会干预的效果.
R5:鲁宾模型对于结果变量的关注主要是平均干预效果,对于其他结果变量不感兴趣.。