断点回归及其在经济学

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

断点回归及其在经济学中的应用

一引言

2010年4月24日，该年度的约翰·贝茨·克拉克奖章（John Bates Clark Medal）——针对40岁以下年轻经济学者的最高荣誉，授予了麻省理工学院经济系的Esther Duflo教授以表彰其在随机实验普及和其在发展经济学中应用方面的卓越贡献。在因果关系分析的实证方法中，最优的选择应当为随机实验，但是随机实验的时间成本和经济成本都比较高，而在随机实验不可得的情况下，需要考虑使用其它方法。断点回归（Regression Discontinuity）便是仅次于随机实验的，能够有效利用现实约束条件分析变量之间因果关系的实证方法。Lee （2008）认为在随机实验不可得的情况下，断点回归能够避免参数估计的内生性问题，从而真实反映出变量之间的因果关系。然而，断点回归也仅仅是在20世纪90年代末才被应用于处理经济学的问题。2001年，Hahn等人对断点回归模型的识别和估计的理论问题进行了严格细致的分析，此后，断点回归才在众多的经济学研究领域

中崭露头角。时至今日，断点回归已经在劳动和教育经济学、政治经济学、环境经济学和发展经济学等领域取得了广泛的应用。然而，断点回归却鲜为中国经济学者所应用，正是基于断点回归在实证研究中的重要性和国内文献的缺乏，本文拟以此为背景，从断点回归的理论、发展历史、实证步骤和经济学中的应用几个方面阐述断点回归这一个新“拟随机试验”方法的兴起。

二断点回归理论及发展历史

断点回归是一种拟随机实验，此种随机实验定义了这样一个特征，即接受处置（Treatment）的概率是一个或者几个变量的间断函数。Hahn et al.（2001）提出了断点回归的首要假设，如果变量表示处置效应，表示决定处置的关键变量，那么和必须存在，并且。在使用断点回归的情况下，存在一个变量，如果该变量大于一个临界值时，个体接受处置，而在该变量小于临界值时，个体不接受处置。一般而言，个体在接受处置的情况下，无法观测到其没有接受处置的情况，而在断点回归中，小于临界值的个体可以作为一个很好的可控组（Control Group）来反映个体没有接受处

置时的情况，尤其是在变量连续的情况下，临界值附近样本的差别可以很好的反映处置和经济变量之间的因果联系。断点回归可以分为两类，第一类，临界值是确定的（Sharp），即在临界值一侧的所有的观测点都接受了处置，反之，在临界值另一侧的所有观测点都没有接受处置。此时，接受处置的概率从临界值一侧的0跳转到另一侧的1；第二类，临界点是模糊的（Fussy），即在临界值附近，接受处置的概率是单调变化的。Hahn et al.（2001）在一定的假设下，证明了无论是哪一类型的断点回归，都可以利用临界值附近样本的系统性变化来研究处置和其它经济变量之间的因果关系。

断点回归首先是由美国西北大学的心理学家Campbell于1958年首先发展设计出来的，从那时开始直到二十世纪80年代，Campbell和西北大学心理学系和统计学系的同事一直从事断点回归的设计和研究工作。Thistlethwaite和Campbell（1960）正式发表了第一篇关于断点回归的论文，他们提出断点回归是在非实验的情况下处理处置效应（Treatment Effects）的一种有效的方法，主

要应用于心理学和教育学领域。随后，Campbell 和Stanley（1963）为断点回归提供了更加清晰化的概念，但是由于他们并没有给出断点回归统计上的证明。在他们看来，断点回归主要是为了解决选择性偏误（Selection Bias）问题，断点回归利用了一个取决于某连续变量的间断函数，这个间断函数完全决定了个体是否受到处置，这就使得样本选择的细节完全展示出来，使得我们知道样本选择的问题所在。此外，Campbell和Stanley还认为断点回归仅仅是在间断的临界值处类似于随机实验，其推论的有效性也仅仅局限于间断的临界值处。整个20世纪60年代，断点回归方法的应用还停留在一种直觉的推导，而缺乏统计上严密的证明。Goldberger（1972 a, b）曾对断点回归的无偏因果推断进行了证明，可惜的是，他的论文并没有得到发表，这主要是因为他认为断点回归的适用环境是一个高度理想化的环境，其适用范围十分有限。相反，变量之间因果关系的推断还包括了工具变量法（IV Approach）和Heckman处理样本选择问题的模型，这两种方法的适用性更加广泛，从而使得人们忽视了断点回归方法的应用，也使得断点回归

在很长一段时间内消失在人们的视野之中。随着Campbell等人所认为的断点回归适用性仅仅局限于临界值附近这一论断被证伪之后，断点回归才开始重新回到人们的视野之中。Rubin（1977）证明了在个体是否接受处置仅仅取决于一个关键变量的情况下，处置效应能够在关键变量的整个范围内得到无偏的因果推断。Sacks和Ylvisaker（1978）提出了断点回归的估计方法，并在理论上给予了较粗略的证明。他们将被解释变量分解为观察变量的线性组合再加上一个非随机的误差项，其估计方法类似于局部非参数回归（Local Nonparametric Regression），其有效性不仅仅是对于临界值附近的样本，而且可以扩展到关键变量的整个领域。断点回归在理论方面取得了新进展的同时，其它因果推断方法的不足之处也逐渐的被认识到。比如，工具变量法存在局限性，特别是排他性（Excludability）条件难以满足，即难以保证工具变量仅仅通过影响关键解释变量而影响到被解释变量，寻找合适的工具变量存在一定的困难。此外，Lalonde（1985）发现Heckman样本选择模型并不能产生和随机实验一样的结果。正因为因果关系的推断是经济

学家所关注的最主要的问题，并且现有的因果推断方法都不能得出完全合理的因果关系，人们开始逐渐将目光转向了断点回归。Trochim（1984）继续了他老师Campbell的工作，Trochim综合了之前关于断点回归的理论和方法，并且将断点回归类型分为两类，第一类是确定型的断点回归（Sharp Regression Discontinuity），即个体在临界值一边接受处置效应的概率为1，而在临界值另一边接受处置效应的概率为0；第二类是模糊型的断点回归（Fuzzy Regression Discontinuity），即个体接受处置效应的概率均大于0小于1，个体在临界值一边接受处置的概率大于在临界值另一边接受处置的概率。Trochim特别对第二类断点回归问题进行了研究，并开始利用该方法进行实证研究。与Campbell观点不同，Trochim认为断点回归的应用性并非那么的狭隘，相反，其应用范围还十分的广泛。除此之外，他还强调了决定处置的关键变量不仅仅可以是一个单一变量，而且还可以是一个合成变量。随后，断点回归的优势逐渐被学界所认可，其应用也愈加广泛。具体而言，其优势包括两方面：第一，断点回归可以应用于出于