断点回归(RD)学习手册

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

断点回归（RD）学习手册
断点回归由Thistlewaite and Campbell(1960)首次使用，但直到1990年代末才引起经济学家的重视。

Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应，在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。

由于奖学金由学习成绩决定，故成绩刚好达到获奖标准与差一点达到的学生具有可比性。

如果考试分数大于获奖标准分数, 则进入处理组；如果考试分数小于获奖标准分数, 则进入控制组。

因此处理变量在获奖标准分数处形成了一个断点，该研究设计的主要思想是可以利用靠近这一断点附近的样本来有效估计处理效应。

Angrist and Lavy(1999)在研究班级规模对成绩的影响时，利用以色列教育系统的一项制度进行断点回归；该制度限定班级规模的上限为40名学生，一旦超过40名学生（比如41名学生），则该班级被一分为二。

此后30年, 该方法并未引起学术界的重视，直到1990年以后, 断点回归设计开始被应用于各种领域，并且近年来成为因果分析和政策评估领域最重要的研究方法。

Hahn et al(2001)提供了断点回归在计量经济学理论基础。

目前，断点回归在教育经济学、劳动经济学、健康经济学、政治经济学以及区域经济学的应用仍方兴未艾。

参见Imbens and Lemieux(2008)，Van Der Klaauw(2008)以及Lee and Lemieux(2010)的文献综述。

断点回归设计是一种准自然实验, 其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的，因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。

一般将该连续变量X称为分组变量 (assignment variable) 。

在进行断点回归（R D）设计时，一般有如下步骤：
▍1、参考变量分布连续性检验/检验内生分组
这里检验内生分组，即主要检验配置变量，其实就是R D中个体是否将自行进入断点两侧，决定是否进入实验的，并是否存在某种跳跃性的变化。

如果存在内生分组，个体将自行进入实验，导致在断点两侧的分布不均匀，这样分组变量x的密度函数f（x）在x=c处不连续，出现左右极限不相等的情况。

Mc Crary（2008）提出了一种核密度函数的检验方法（命令是DCdensity，介绍见下述操作），将参考变量划分成不同的区间并计算各区间中的个体数量，如果个体能够操纵参考变量，我们将能观测到断点左右个体数量有较大差别，比如很多个体通过操纵到了断点的右侧，那么，在断点右侧的区间中个体数量可能将大大超过断点左侧区间中个体的数量，利用带宽选择和曲线拟合方法，可以检验在断点处c是否存在跳跃。

▍2、检查为精确断点回归还是模糊断点回归分析
检验处理变量是否完全由“某连续变量是否超过某一断点”所决定，如果个体被处理的概率从0跳跃为1，即为精确断点回归，如果个体被处理的概率从 a跳跃为 b，0<a<b<1，则为模糊断点回归。

▍3、图形分析
画出结果变量与参考变量之间的关系图，如果是模糊断点，再画出原因变量与参考变量的关系图，呈现结果变量和原因变量在断点处行为，为断点回归设计提供理论支撑。

▍4、检验结果对不同带宽、不同多项式次数的稳健性
设置不同带宽，通过选择最优带宽，再检验并选择相对应的模型。

stata 断点回归命令有相关的操作选项。

另外还有图形选择（在最优带宽处画线），可以考虑加协变量进行选择。

▍5、检验其他影响结果变量的因素（协变量），在断点处是否存在跳跃
检验协变量在断点处是否存在跳跃，若是存在跳跃，说明该协变量的条件密度函数在断点处不是连续的，需要剔除。

若将存在跳跃的协变量剔除。

则需要重新选择最优带宽再重新进行断点回归分析。

▍5、显著性检验
模型估计完成后，可以进行下列模型设定检验，以判断估计结果的稳健性（见赵西亮编著的《基本有用的计量经济学》）
（1）协变量连续性检验，也称为伪结果检验（ pseud o o ut co me）。

以协变量作为伪结果，利用与前面相同的方法，检验相应的R DD估计量是否显著，如果显著说明这些协变量不符合连续性假设，上文的R DD估计量可能存在问题。

（2）参考变量分布连续性检验，如果参考变量分布连续，意味着在断点处个体没有精确操纵参考变量的能力，局部随机化假设成立，从而保证断点附近左右样本能够代表断点处的总体。

（此处与检验内生分组一致）
（3）伪断点检验（ pseud o c ut off p o int）。

在参考变量的其他位置，比如断点左右两侧中点位置作为伪断点，利用同样的方法估计R DD估计量，我们知道在伪断点干预效应为零，如果发现伪断点的R DD估计量不为零，则说明我们的R DD设计可能有问题，可能混杂了其他未观测因素
的影响，得到的因果效应可能是由其他未观测混杂的跳跃造成的，而不
完全是干预的影响
（4）带宽选择的敏感性检验。

选择不同的带宽对R DD估计量进行重新估计，检验估计结果是否有较大的变量，如果差异较大，尤其是影响方向
有变化说明R DD设计可能有问题。

上述显著性检验其实在前面进行分析时候已经部分有所提及需要进行检
验的。

在进行断点回归（RD）设计时，样本数据需要满足一定的前提条件，比如，断点两侧除断点（Cutoff）处理效应外，其他因素需保持平衡（滑）以及不存在Selective Sorting。

而断点回归的前提假设：Wi的条件密度在X=c0处连续。

另外进行断点分析前，需要首先考察变量分组变量是否有内生分组的存在，意思就是样本个体事先知道分组原则等信息，然后通过自身选择来选择是否进入处理组，这样的内生分组将导致断点回归失效。

本文提供一种基于断点两侧样本分布密度来进行检验的方法：McCrary(2008)。

它主要通过考察分布变量的密度函数在断点处是否连续进而实现检验样本是否存在选择性偏误，主要分为两步检验：第一步，将分组变量在断点处两侧尽量等距离细分，并计算每组的标准化频率；第二步，使用三角核估计进行局部线性回归，并计算密度函数估计值，然后检验密度函数在断点c处是否连续。

McCrary（2008）可以通过非官方命令DCdensity来实现，其中DC表示Discontinuity，可以来检验分组变量的密度函数在断点处是否连续。

依此判断，是否存在内生分组问题。

该命令的下载地址为：https:///~jmccrary/DCdensity/
然后将该命令的DCdensity.ado下载安装或者复制到C:\ado\plus，Mac 系统的需要自己sysdir查询外部命令安装路径，自行复制下载。

命令语
法格式为：
DCdensity assign_var,breakpoint(#) generate(Xj Yj r0 fhat se_fhat) graphname(filename)
其中，assign_var 为分组变量，必选项breakpoint(#)用来指定断点位置，generate(Xj Yj r0 fhat se_fhat)用来指定输出变量名，graphname用来命名指定密度函数图。

操作应用如下：
本文使用断点回归命令rd所系统自带的数据进行演示，该案例考察美国国会选区如果有一名民主党众议员对该选区联邦指出的影响。

传统上，民主党倾向于大政府，故一个选区如果有民主党众议员，则该议员可能为该选区争取更多的联邦支出。

然而，直接对二者进行回归可能存在遗漏变量问题或双向因果问题。

为此，使用民主党候选人的得票率作为分组变量，以0.5作为断点（在两党政治中，得票率大于或等于0.5则当选，反之落选），进行断点回归。

数据集votex.dta，其中结果变量为lne（选区联邦开支的对数）、分组变量为d（民主党候选人得票率减去0.5）、处理变量win（民主党候选人当选），以及一系列协变量。

数据描述性分析结果如下：
检验分组变量的密度函数是否在断点处不连续。

可以看出断点两侧密度函数估计值的置信区间有很大部分重叠，所以断
点两侧的密度函数不存在显著差异，检验结果为不存在内生分组，可以
继续进行断点回归分析。

三．断点回归模型选择：精确断点or模糊断点
按照在断点处个体得到处理效应概率的变化特征可以分为两种类型（即断点回归可以分为两种类型）:一种类型是精确断点回归设计(sharp regression discontinuity design, 以下简称SRD) , 其特征是在断点(也就是上面所说的临界点) X=c处, 个体接受政策干预的概率从0跳跃到1；另一种是模糊断点回归设计(fuzzy regression discontinuity, 以下简称FRD) , 其特征是在断点X=c处, 个体接受政策干预的概率从a变为b, 其中a≠b，0<a<b<1。

判断是精确断点回归还是模糊断点回归？
g ranwin=(d>=0)
tab ranwin win
此处，分组变量d的断点是0，生成新虚拟变量ranwin，若ranwin与处理变量win完全相等，则属于精确断点回归，否则属于模糊断点回归。

此处，是精确断点回归。

由于断点回归在操作上有不同选择，因此在时间上，一般同时汇报如下各种情形，然后以保证结果的稳健性（见陈强编著的《高级计量经济学及Stata应用》（第二版）
①分别汇报三角核与矩形核的局部线性回归结果（后者等价于线性参数回归）
②分别汇报使用不同带宽的结果（比如最优带宽及其二分之一0.5或者两倍带宽2）
③分别汇报（不）包括协变量的情形
④进行模型设定检验，包括检验分组变量、协变量的条件密度在断点处是否连续。

断点回归的基本命令是rd，另外，还有一些其他命令，例如rdrobust、rdlocrand、rddensity等等，本文主要介绍rd。

首先我们输入如下命令进行安装：ssc install rd, replace
该命令的基本句式如下：rd y d x, z0 (real) strineq mbw (numlist) graph bdep oxline kernel (rectangle)
其中mbw(numlist) 用来指定最优带宽的倍数，默认值为mbw(50 100 200)
z0(real) 用来指定断点的位置，默认值为z0(0)，即断点为原点，如果此处省去D，则为精确断点回归，并根据分组变量X来计算处理变量
graph 根据每一带宽，画出局部线性回归图
bdep 根据画图来考察断点回归估计量对带宽的依赖性
oxline表示在此图的默认带宽上画出一条直线，以便识别
kernel(rectangle)表示使用均匀核（矩阵核），默认使用三角核
covar(varlist) 表示用来指定加入局部线性回归的协变量
x(varlist) 表示检验这些协变量在断点处是否存在跳跃（估计跳跃值和显著性）
▍1、回归分析
首先直接进行线性回归
上述回归分析结果，虽然win表示当选了，会增加lne的支出，但是不显著
▍2、选择最优窗宽：设置不同带宽，并通过图形选择-
从默认的3种窗宽mbw(100,50,200)中，选一个最优的rd lne d, gr bdep oxline
mbw(50)，即最优窗宽的0.5倍
mbw(100)，即最优窗宽的1倍
mbw(200)，即最优窗宽的2倍
最优带宽
也可以直接选择默认的带宽以及三角核进行断点回归，命令为rd lne d, gr mbw(100)
上面结果说明拥有民主党派候选人当选的选区，并不能显著的增加联邦政府开支
也可以加入变量进行断点回归，命令为
rd lne d, mbw(100) cov(i votpop black blucllr farmer fedwrkr forborn manuf unemplyd union urban veterans)
进行断点回归，还需要对其进行检验，检验协变量在断点处的条件密度是否存在跳跃
五．模糊断点回归操作应用
模糊断点回归
现在生成一个新的处理变量randwin，使得randwin不完全由分组变量d 所决定。

set seed 20181203
g byte randwin=cond(uniform()<.1,1-win, win)
tabulate randwin win
结果显示randwin与win基本相同，但不完全相同，说明randwin不完全由分组变量d所决定。

下面使用最优带宽与默认的三角核进行模糊断点回归。

含协变量的断点回归
rd lne randwin d, gr mbw(100) covar(i votpop black blucllr farmer fedwrkr forborn manuf unemplyd union urban veterans)
来源于计量经济学服务中心，作者数量经济学。