让跳跃更有意义：断点回归设计(RDD)

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

让“跳跃”更有意义：断点回归设计(RDD) 在一个高度依赖规则的世界里，有些规则的出现十分随意，这种随意性为我们提供了

性质良好的实验（Angrist&Pischke，2009）。断点回归设计（RegressionDiscontinuity Design）是一种仅次于随机实验的能够有效利用现实约束条件分析变量之间因果关系的实证方法。Lee（2008）认为在随机实验不可得的情况下，断点回归能够避免参数估计的内生性问题，从而真实反映出变量之间的因果关系。

断点回归方法首先是由美国西北大学心理学家Campbell于1958年提出的；并与1960年，与Thistlethwaite正式发表了第一篇关于断点回归的论文，提出断点回归是在非实验的情况下处理处置效应（Treatment Effects）的一种有效的方法，主要应用于心理学和教育学领域。1963年，Campbell and Stanley为断点回归提供了更加清晰化的概念，但由于当时

还缺乏严密的统计证明，加之IV 方法在处理内生性的思路和范式上具有更广阔的适用范围，因此在随后的几十年间，RD 方法一直没有得到经济学者的重视。直到上世纪90 年代末，随着该方法的理论基础得到进一步发展，大量经济学文献才开始使用RD 方法对变量之间的因果关系进行识别。

断点回归可以分为两类，一类是模糊断点回归（Fuzzy RD），另一类是清晰断点回归(Sharp RD)。清晰断点回归可以看作是一种基于可观察变量进行的选择

（selection-on-observablesstory），而模糊断点回归则常被视为一种工具变量的方法（instrumental-variables-type）。

清晰断点回归(Sharp RD)

当处理状态是协变量确定型、不连续函数时，可以使用清晰间断点回归法。对于清晰

断点回归，个体在临界值的一边接受处理效应（treatment effect）的概率为0，而在临界值

另一边的概率则为1。最早使用清晰断点回归方法的典型例子是：获得国家杰出奖学金的学生是不是会更愿意读研究生(Thistlewaithe and Campbell,1960; Campbell, 1969)。清晰断点回归通过比较PSAT分数刚好高于或低于国家杰出奖学金分数线的那些高中生的研究生入学率来回答这一问题。一般情况下，在PAST考试中得分越高的学生，其将来读研究生的概率也就越大。通过回归来拟合研究生院入学率和PSAT之间的关系，可以控制这一趋势，将分数线附近PSAT成绩和大学入学率之间的关系中出现的跳跃视为存在处理效应的证据。

Imben and Limieux(2008)认为断点回归的有效性依赖于我们对协变量的外推，或者至少在协变量有不连续的那个领域内外推，因此，条件期望函数的具体形式的设定很重要。给予具体函数形式得到的断点回归估计值的有效性依赖于多项式模型能否精确的描述条件期望函数。如果不能，那么看上去由于个体被处理而发生的跳跃可能只不过是条件期望函数的某个点的不连续，在设定期望函数之前我们并没有预计到这种不连续。为了使得这种错误降低到最低，断点回归在实际操作中只去考察在不连续点的领域中的数据，也就是考察区间[x0-△,x0+△],其中△为某个很小的正数。换言之，在x0左侧和右侧一个足够小领域内比较Y1i和Y0i的平均值之间的差别，就可估计出处理效应，而这种方法与条件期望函数的具体的形式无关。

断点回归估计方法可以分为参数估计和非参数方法的估计。大部分利用断点回归进行的经验研究中，仍然是参数型估计。参数估计方法内涵一个思想是：赋予靠近临界值的数据点更大的权重。随着不连续样本窗口的缩小，断点回归估计值会变得不精确，但是用来模型化函数f（xi）的多项式的阶数也会下降。当以X0为中心不断调整样本窗口大小时，控制变量会逐渐变少，但Di的处理效应会保持稳定。

非参数方法的应用越来越广泛。使用非参数方法对断点回归进行估计时，需要分别对

x0左侧和右侧领域中的Yi的平均值做出精确估计，但这至少会遇到两个问题：如果在临界值很小的领域中进行估计，那么可用的数据就相对较少；在有界领域中对条件期望函数的估计是有偏的。针对这一问题，Hahn, Todd and van der Klaauw在2001年提出了使用非参

数的局部线性回归，感兴趣的读者可以进一步阅读。

清晰断点回归的一个经典例子是关于执政党地位对其再次当选的研究。在美国的议会

政治中，执政党被再次高概率当选已经成为美国议会政治中最为引人注目的事实。Lee在其一文中试

图回答的问题是：如果民主党在上次竞选中获胜，那么是否会在本次竞选中获得优势。这项研究可能遇到的问题是：议会会员是否会利用他们的官方身份所带来的权利和资源为他们自己的党派谋取利益。也就说，执政党的成功并不必然是反映真正的选举优势，而是在满足投票者或者换取选票方面更高明。为了寻求执政党地位所带来的因果效应，Lee将民主党候选人获胜看作是由Di=1（xi>=0）决定，xi是选举胜利者在边际上的得票份额（民主党和共

和党的得票之差）。Di是xi的确定性函数，在xi之外并无其他变量干扰。Lee通过将民主

党获胜的概率（Y轴）和在上一次选举中民主党与共和党得票份额之差（X轴）在坐标抽中绘出，发现民主党在0点处获胜的概率大幅提高，民主党得多数票，由于这一点跳跃，执政党大约可以将再次当选的概率提高40%。Lee的分析认为以往选举中的获胜率应该与上次

选举中的获胜的断点没有关系，这一检验符合了Sharp RD 识别策略的假设。在给定的处理状态下，协变量应该是像在随机实验中一样被处理平衡。然而需要解决的一个问题是，在选举中存在私利的人可能会控制操纵处在临界值附近的xi，从而使得临界值两边的状况不可比，但Lee通过计算接近x0处的xi的比例来考察不连续点附近的xi的分布密度发现，这种情况