RD方法(regression-discontinuity-design)
RD断点回归法
Y ou jump, I will not jump!断点回归的连续性假设断点回归RD是当代社会科学因果推断的最基本无害的大招之一。
比如我们要研究上一本大学是否能提高一个人的工资,如果直接对比上了一本大学和没上一本大学群体的工资,可能会因为上一本大学的天生能力更强而得出有偏误的结论,而能力等不可观测变量无法控制。
RD给我们提供了一个思想——观察一本线附近上下几分学生的工资。
比一本线低2分、1分的人工资差距不大,高2分、1分的差距也不大,但比一本线低1分的和正好达线的工资上有个跳跃,那这个跳跃就是一本大学对工资的作用。
一本线产生了一个天然的跳跃(两侧的人分别上一本和二本),如果在一本线两侧我们也看到了关注变量(工资)的跳跃,那么就识别了因果效应。
直觉上来看,RD的成立还需要一个关键假设:一本线产生了一个天然的跳跃,但一本线附近学生各特征不能有跳跃!否则就混淆了一本大学对工资的作用。
这就是连续性假设。
1、断点回归背景介绍Thistlethwaite and Campbell(1960)使用了RD方法后的40年,RD并没有在经济学中大规模使用,一大原因就是RD太像自然科学的随机实验了,太不像经济学传统方法了(比如上周我们BLUE_OLS读Black(1999)关于择校会使房价上升的论文(”Do better schools matter? Parental valuation of elementary education”),该文利用学区边界推断因果,应该说思想跟RD 很像,但没有按照RD框架来写,可能的原因是作者写作年代RD还并不流行)。
直到Hahn, Todd, and van der Klaauw(2001)把RD纳入到了我们熟悉的“反事实因果推断”框架下,如下图(原文图2)。
我们把断点看成一种treatment,断点右侧的是处理组,断点左侧的是控制组。
可以观测到处理后的处理组,和未处理的控制组。
断点回归法名词解释
断点回归法名词解释
RD方法(regression discontinuity design),即断点回归方法。
断点回归方法是最近的政策评估中非常重要的一个方法,他可以在没有随机性的情况下识别出政策的效果。
断点回归可以分为两类,第一类,临界值是确定的(Sharp),即在临界值一侧的所有的观测点都接受了处置,反之,在临界值另一侧的所有观测点都没有接受处置。
此时,接受处置的概率从临界值一侧的0跳转到另一侧的1;临界点是模糊的(Fussy),即在临界值附近,接受处置的概率是单调变化的。
Hahn et al(2001)在一定的假设下,证明了无论是哪一类型的断点回归,都可以利用临界值附近样本的系统性变化来研究处置和其它经济变量之间的因果关系。
断点回归设计的步骤
近在做一个需要利用断点回归设计的研究。
为了保证实践的规范性,并且避免未来审稿中可能面对的质疑,花了几天时间梳理了一下断点回归设计的标准操作,整理出来,供来人参考。
本文参考了三篇文献,先摆在这里,建议大家去读原文:第一篇:Lee, and Lemieux, 2010," Regression Discontinuity Designs in Economics ",Journal ofEconomic Literature, Vol. 48: 281–355.第二篇:Pinotti, Paolo. "Clicking on heaven's door: The effect of immigrant legalization oncrime." American Economic Review107.1 (2017): 138-68.第三篇:Thoemmes, Felix, Wang Liao, and Ze Jin. "The Analysis of the Regression-DiscontinuityDesign in R." Journal of Educational and Behavioral Statistics 42.3 (2017): 341-360.1.断点回归常规操作流程第1步检查配置变量(assignment variable,又叫running variable、forcing variable)是否被操纵。
这里的配置变量,其实就是RD中决定是否进入实验的分数(Score),是否被操纵的意思就是,是否存在某种跳跃性的变化。
在实际操作中有两种方式来检验,一是画出配置变量的分布图。
最直接的方法,是使用一定数量的箱体(bin),画出配置变量的历史直方图(histogrm)。
为了观察出分布的总体形状,箱体的宽度要尽量小。
Stata:断点回归(RDD)教程
Stata:断点回归(RDD)教程作者:张子楠 (浙江财经大学)E-mail:******************Stata连享会计量专题 || 公众号合集点击查看完整推文列表连享会直播:我的特斯拉—实证研究设计(连玉君主讲)课程主页:/arlionn/Live•1. RDD基本原理•2. 图形观察o 2.1 生成模拟数据o 2.2 断点效应的图形观察•3. 政策效应估计o 3.1 局部线性回归o 3.2 局部多项式回归o 3.3 全局多项式回归•4. RDD有效性检验o 4.1 局部平滑性的检验o 4.2 驱动变量不受人为控制的检验•5. 稳健性检验o 5.1 断点的安慰剂检验o 5.2 样本选择的敏感性检验o 5.3 带宽选择的敏感性检验1. RDD基本原理断点回归分析被认为是最接近随机实验的检验方法,能够缓解参数估计的内生性问题,近来在越来越多的研究中得到使用。
现有资料已经对断点回归方法的基本原理和效应识别进行了较为广泛的介绍,但对阶数选择和稳健性检验等问题的仍相对较少涉及。
本文将基于Stata软件来系统介绍断点回归方法的图形观测、效应识别和有效性和稳健性检验。
限于篇幅,本文将内容限定于清晰断点回归方法(Sharp Regression Discontinuity Design ),且只考虑只有一个断点和一个分配变量的问题。
2. 图形观察2.1 生成模拟数据我们先生成一份模拟数据,并保存为 RDD_simu_data0 。
生成的数据中, z1 和 z2 为控制变量。
y1 为结果变量(outcome variable)。
x 为分配变量(assignment vaiable)。
分配点(cutoff point)设定为 0.5 ,从而x大于0.5 的为实验组,小于0.5的为对照组。
此外,在RDD检验中,我们通常还会对分配变量进行去中心化处理,即用分配变量减去分配点值。
如本文中,令xc=x-0.5 。
RDD包-回归分断估计文档说明书
Package‘rdd’October14,2022Maintainer Drew Dimmery<*************>Author Drew DimmeryVersion0.57License Apache License(==2.0)Title Regression Discontinuity EstimationDescription Provides the tools to undertake estimation inRegression Discontinuity Designs.Both sharp and fuzzy designs aresupported.Estimation is accomplished using local linear regression.A provided function will utilize Imbens-Kalyanaraman optimalbandwidth calculation.A function is also included to test theassumption of no-sorting effects.Type PackageDate2016-03-14Depends R(>=2.15.0),sandwich,lmtest,AER,FormulaCollate'kernelwts.R''DCdensity.R''IKbandwidth.R''RDestimate.R''plot.RD.R''print.RD.R''rdd-package.R''summary.RD.R'RoxygenNote5.0.1NeedsCompilation noRepository CRANDate/Publication2016-03-1423:46:03R topics documented:rdd-package (2)DCdensity (2)IKbandwidth (4)kernelwts (5)plot.RD (6)print.RD (7)RDestimate (7)summary.RD (10)Index111rdd-package Regression Discontinuity Estimation PackageDescriptionRegression discontinuity estimation packageDetailsrdd supports both sharp and fuzzy RDD utilizing the AER package for2SLS regression under the fuzzy design.Local linear regressions are performed to either side of the cutpoint using the Imbens-Kalyanamaran optimal bandwidth calculation,IKbandwidth.Author(s)Drew Dimmery<*************>See AlsoRDestimate,DCdensity,IKbandwidth,summary.RDplot.RD,kernelwtsDCdensity McCrary Sorting TestDescriptionDCdensity implements the McCrary(2008)sorting test.UsageDCdensity(runvar,cutpoint,bin=NULL,bw=NULL,verbose=FALSE,plot=TRUE,ext.out=FALSE,htest=FALSE)Argumentsrunvar numerical vector of the running variablecutpoint the cutpoint(defaults to0)bin the binwidth(defaults to2*sd(runvar)*length(runvar)^(-.5))bw the bandwidth to use(by default uses bandwidth selection calculation from Mc-Crary(2008))verbose logicalflag specifying whether to print diagnostic information to the terminal.(defaults to FALSE)plot logicalflag indicating whether to plot the histogram and density estimations(de-faults to TRUE).The user may wrap this function in additional graphical optionsto modify the plot.ext.out logicalflag indicating whether to return extended output.When FALSE(the de-fault)DCdensity will return only the p-value of the test.When TRUE,DCdensitywill return the additional information documented below.htest logicalflag indicating whether to return an"htest"object compatible with base R’s hypothesis test output.ValueIf ext.out is FALSE,only the p value will be returned.Additional output is enabled when ext.out is TRUE.In this case,a list will be returned with the following elements:theta the estimated log difference in heights at the cutpointse the standard error of thetaz the z statistic of the testp the p-value of the test.A p-value below the significance threshhold indicates that the user can reject the null hypothesis of no sorting.binsize the calculated size of bins for the testbw the calculated bandwidth for the testcutpoint the cutpoint useddata a dataframe for the binning of the histogram.Columns are cellmp(the mid-points of each cell)and cellval(the normalized height of each cell)Author(s)Drew Dimmery<<*************>>ReferencesMcCrary,Justin.(2008)"Manipulation of the running variable in the regression discontinuity de-sign:A density test,"Journal of Econometrics.142(2):698-714./10.1016/ j.jeconom.2007.05.005Examples#No discontinuityx<-runif(1000,-1,1)DCdensity(x,0)#Discontinuityx<-runif(1000,-1,1)x<-x+2*(runif(1000,-1,1)>0&x<0)DCdensity(x,0)4IKbandwidth IKbandwidth Imbens-Kalyanaraman Optimal Bandwidth CalculationDescriptionIKbandwidth calculates the Imbens-Kalyanaraman optimal bandwidth for local linear regression in Regression discontinuity designs.UsageIKbandwidth(X,Y,cutpoint=NULL,verbose=FALSE,kernel="triangular") ArgumentsX a numerical vector which is the running variableY a numerical vector which is the outcome variablecutpoint the cutpointverbose logicalflag indicating whether to print more information to the terminal.Default is FALSE.kernel string indicating which kernel to use.Options are"triangular"(default and recommended),"rectangular","epanechnikov","quartic","triweight","tricube","gaussian",and"cosine".ValueThe optimal bandwidthAuthor(s)Drew Dimmery<<*************>>ReferencesImbens,Guido and Karthik Kalyanaraman.(2009)"Optimal Bandwidth Choice for the regression discontinuity estimator,"NBER Working Paper Series.14726./papers/ w14726kernelwts5 kernelwts Kernel Weighting functionDescriptionThis function will calculate the appropriate kernel weights for a vector.This is useful when,forinstance,one wishes to perform local regression.Usagekernelwts(X,center,bw,kernel="triangular")ArgumentsX input x values.This variable represents the axis along which kernel weightingshould be performed.center the point from which distances should be calculated.bw the bandwidth.kernel a string indicating the kernel to use.Options are"triangular"(the default),"epanechnikov","quartic","triweight","tricube","gaussian",and"cosine". ValueA vector of weights with length equal to that of the X input(one weight per element of X).Author(s)Drew Dimmery<<*************>>Examplesrequire(graphics)X<-seq(-1,1,.01)triang.wts<-kernelwts(X,0,1,kernel="triangular")plot(X,triang.wts,type="l")cos.wts<-kernelwts(X,0,1,kernel="cosine")plot(X,cos.wts,type="l")6plot.RD plot.RD Plot of the Regression DiscontinuityDescriptionPlot the relationship between the running variable and the outcomeUsage##S3method for class RDplot(x,gran=400,bins=100,which=1,range,...)Argumentsx rd object,typically the result of RDestimategran the granularity of the plot.This specifies the number of points to either side of the cutpoint for which the estimate is calculated.bins if the dependent variable is binary,include the number of bins within which to averagewhich identifies which of the available plots to display.For a sharp design,the only possibility is1,the plot of the running variable against the outcome variable.For a fuzzy design,an additional plot,2,may also be displayed,showing therelationship between the running variable and the treatment variable.Both plotsmay be displayed with which=c(1,2).range the range of values of the running variable for which to plot.This should be a vector of length two of the format c(min,max).To plot from the minimum tothe maximum value,simply enter c("min","max").The default is a window20times wider than thefirst listed bandwidth from the rd object,truncated by themin/max values of the running variable from the data....unusedDetailsIt is important to note that this function will only plot the discontinuity using the bandwidth which isfirst in the vector of bandwidths passed to RDestimateAuthor(s)Drew Dimmery<<*************>>print.RD7 print.RD Print the Regression DiscontinuityDescriptionPrint a very basic summary of the regression discontinuityUsage##S3method for class RDprint(x,digits=max(3,getOption("digits")-3),...)Argumentsx rd object,typically the result of RDestimatedigits number of digits to print...unusedAuthor(s)Drew Dimmery<<*************>>RDestimate Regression Discontinuity EstimationDescriptionRDestimate supports both sharp and fuzzy RDD utilizing the AER package for2SLS regression under the fuzzy design.Local linear regressions are performed to either side of the cutpoint using the Imbens-Kalyanaraman optimal bandwidth calculation,IKbandwidth.UsageRDestimate(formula,data,subset=NULL,cutpoint=NULL,bw=NULL,kernel="triangular",se.type="HC1",cluster=NULL,verbose=FALSE,model=FALSE,frame=FALSE)Argumentsformula the formula of the RDD.This is supplied in the format of y~x for a simple sharp RDD,or y~x|c1+c2for a sharp RDD with two covariates.Fuzzy RDD maybe specified as y~x+z where x is the running variable,and z is the endogenoustreatment variable.Covariates are then included in the same manner as in a sharpRDD.data an optional data framesubset an optional vector specifying a subset of observations to be usedcutpoint the cutpoint.If omitted,it is assumed to be0.bw a numeric vector specifying the bandwidths at which to estimate the RD.If omit-ted,the bandwidth is calculated using the Imbens-Kalyanaraman method,andthen estimated with that bandwidth,half that bandwidth,and twice that band-width.If only a single value is passed into the function,the RD will similarly beestimated at that bandwidth,half that bandwidth,and twice that bandwidth.kernel a string specifying the kernel to be used in the local linearfitting."triangular"kernel is the default and is the"correct"theoretical kernel to be used for edge es-timation as in RDD(Lee and Lemieux2010).Other options are"rectangular","epanechnikov","quartic","triweight","tricube","gaussian"and"cosine".se.type this specifies the robust SE calculation method to use.Options are,as in vcovHC,"HC3","const","HC","HC0","HC1","HC2","HC4","HC4m","HC5".This op-tion is overriden by cluster.cluster an optional vector specifying clusters within which the errors are assumed to becorrelated.This will result in reporting cluster robust SEs.This option overridesanything specified in se.type.It is suggested that data with a discrete runningvariable be clustered by each unique value of the running variable(Lee and Card2008).verbose will provide some additional information printed to the terminal.model logical.If TRUE,the model object will be returned.frame logical.If TRUE,the data frame used in modelfitting will be returned.DetailsCovariates are problematic for inclusion in the regression discontinuity design.This package allowstheir inclusion,but cautions against them insomuch as is possible.When covariates are included inthe specification,they are simply included as exogenous regressors.In the sharp design,this meansthey are simply added into the regression equation,uninteracted with treatment.Likewise for thefuzzy design,in which they are added as regressors in both stages of estimation.ValueRDestimate returns an object of class"RD".The functions summary and plot are used to obtainand print a summary and plot of the estimated regression discontinuity.The object of class RD is alist containing the following components:type a string denoting either"sharp"or"fuzzy"RDD.est numeric vector of the estimate of the discontinuity in the outcome under a sharpdesign,or the Wald estimator in the fuzzy design for each corresponding band-widthse numeric vector of the standard error for each corresponding bandwidthz numeric vector of the z statistic for each corresponding bandwidthp numeric vector of the p value for each corresponding bandwidthci the matrix of the95for each corresponding bandwidthbw numeric vector of each bandwidth used in estimationobs vector of the number of observations within the corresponding bandwidthcall the matched callna.action the observations removed fromfitting due to missingnessmodel(if requested)For a sharp design,a list of the lm objects is returned.For a fuzzy design,a list of lists is returned,each with two elements:firststage,thefirst stage lm object,and iv,the ivreg object.A model is returned for eachcorresponding bandwidth.frame(if requested)Returns the model frame used infitting.Author(s)Drew Dimmery<<*************>>ReferencesLee,David and Thomas Lemieux.(2010)"Regression Discontinuity Designs in Economics,"Jour-nal of Economic Literature.48(2):281-355./articles.php?doi=10.1257/jel.48.2.281Imbens,Guido and Thomas Lemieux.(2010)"Regression discontinuity designs:A guide to prac-tice,"Journal of Econometrics.142(2):615-635./10.1016/j.jeconom.2007.05.001Lee,David and David Card.(2010)"Regression discontinuity inference with specification error,"Journal of Econometrics.142(2):655-674./10.1016/j.jeconom.2007.05.003Angrist,Joshua and Jorn-Steffen Pischke.(2009)Mostly Harmless Econometrics.Princeton: Princeton University Press.See Alsosummary.RD,plot.RD,DCdensity IKbandwidth,kernelwts,vcovHC,ivreg,lmExamplesx<-runif(1000,-1,1)cov<-rnorm(1000)y<-3+2*x+3*cov+10*(x>=0)+rnorm(1000)RDestimate(y~x)#Efficiency gains can be made by including covariatesRDestimate(y~x|cov)10summary.RD summary.RD Summarizing Regression Discontinuity DesignsDescriptionsummary method for class"RD"Usage##S3method for class RDsummary(object,digits=max(3,getOption("digits")-3),...)Argumentsobject an object of class"RD",usually a result of a call to RDestimatedigits number of digits to display...unusedValuesummary.RD returns an object of class"summary.RD"which has the following components:coefficients A matrix containing bandwidths,number of observations,estimates,SEs,z-values and p-values for each estimated bandwidth.fstat A global F-test of the corresponding modelAuthor(s)Drew Dimmery<<*************>>Indexclass,8,10DCdensity,2,2,9IKbandwidth,2,4,7,9ivreg,9kernelwts,2,5,9lm,9plot.RD,2,6,9print.RD,7rdd(rdd-package),2rdd-package,2RDestimate,2,6,7,7,10summary.RD,2,9,10vcovHC,8,911。
regression discontinuity design in economics
regression discontinuity design in economics
回归断点设计(Regression Discontinuity Design,RDD)是经济学研究中常用
的一种估计因果关系的方法。
它通过利用自然实验的断点,解决了传统实验设计很难实现或不现实的限制,同时可以更准确地估计因果效应。
在回归断点设计中,存
在一个或多个变量作为配置变量(score),它们决定了个体是否被包含在实验中。
具体操作上,可以通过画出配置变量的分布图和因变量均值对配置变量的散点图来观察是否存在回归断点。
在散点图中,如果存在断点,那么在断点处的跳跃是否正常可以为我们提供一些启示。
为了更好地观察分布的总体形状,箱体的宽度要尽量小。
回归断点设计在经济学的应用中有很多优点,例如可以更准确地估计因果效应,并且可以通过利用自然实验的断点来解决传统实验设计的限制。
但也有其局限性和潜在的挑战,例如存在多重处理的问题、必须存在合适的断点和需要选择适当的配置变量等。
总之,回归断点设计是一种估计因果关系的方法,它在经济学中有广泛的应用。
但也需要考虑其局限性和潜在的挑战,以实现更为准确和可靠的估计。
Regression Discontinuity Design - University of Chicago
3 / 40
Introduction
Validity
Validity
Simple idea: assignment mechanism is completely known We know that the probability of treatment jumps to 1 if test score > c Assumption is that individuals cannot manipulate with precision their assignment variable (think about the SAT) Key word: precision. Consequence: comparable individuals near cutoff point If treated and untreated individuals are similar near the cutoff point then data can be analyzed as if it were a (conditionally) randomized experiment If this is true, then background characteristics should be similar near c (can be checked empirically) The estimated treatment effect applies to those near the cutoff point (external validity)
4 / 40
Introduction
Validity
Aside: validity doesn’t depend on assignment rule being “arbitrary” Hinges on assignment mechanism being known and free of manipulation with precision Manipulation example 1: Test with few questions and plenty of time Manipulation example 2: DMV test to get a driving license Again: some manipulation is fine (you can always study harder, for example). Precision is the key
RD方法
RD方法(regression discontinuity design)什么是regression discontinuity design下面将用一篇文章来介绍:如何理解「由于使用燃煤取暖,中国 5 亿北方居民预期寿命将缩短年」7月8日发表在《美国国家科学院院刊》(PNAS)的一篇论文,向已经逐渐意识到空气污染危害的中国民众再次展现了残酷的现实:以淮河为界,烧煤供暖的中国北方地区空气污染水平高于中国南方,北方5亿居民因严重的空气污染,平均每人失去5年寿命。
这篇文章由清华大学的李宏彬、北京大学的陈玉宇和另外两位作者共同完成。
前两位完成了这篇论文的主要部分。
这个回答首先介绍他们的研究方法,再谈一谈研究者和媒体对这篇文章的引申。
科学家如何得出「使用燃煤取暖中国5亿北方居民预期寿命将缩短年」这个结论的首先要说的是这篇文章使用的RD方法(regression discontinuity design),即断点回归方法。
断点回归方法是最近的政策评估中非常重要的一个方法,他可以在没有随机性的情况下识别出政策的效果。
在早期的研究中,要识别一个处理(Treatment)的效果,我们必须拥有随机性,比如两组随机分开的小白鼠,一组加上某种处理,一组没有处理,最后观察两者的区别。
为什么我们那么需要随机性呢因为研究的基础需要几组十分类似的群体,他们的任何特征都服从一个相同的分布,无论是性别、年龄、教育、健康程度……这样,我们才能确定几组对象之间出现的差别是来自于实验处理的差异,而非某些个人特征。
从一个大样本中严格随机抽取的样本,正好满足这样的同分布假设。
但对于政策研究来说,我们不可能找到这样随机分开的两组人,而且也无法用实验的方法来获得结果——你能将随机分开的100人放在干净空气中,将另外100人放在肮脏空气中并观察一段时间吗一些研究者面对这种缺乏随机性的情况,采用了增加控制变量的方式。
比如,把性别年龄教育健康程度全部放进回归式中,然后声称,两组人之间由于性别年龄教育健康的不同而造成的差别都已经去掉了,剩下的就是这个政策的效果了。
断点回归RDD
工具变量法( Instrumental Variable,IV) 、双重差分法( Difference-in-Difference,DID) 和断点回归设计( Regression Discontinuity Design,RDD) 成为应用微观计量研究中运用最广泛的方法。
断点回归是拟随机实验方法中揭示因果效应最有效的一种方法,可以视作是一种特殊的倾向值匹配,它不需要对多个混淆变量控制,而是考虑一个个体是否接受某个自变量的影响。
RDD 优势:更接近于随机试验的拟随机实验方法,从理论上讲是一种更好的因果识别方法。
拟随机实验方法是以统计控制模拟实验控制,从而检验因果假设。
Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。
1960 年就已被Thistlethwaite 和Campbell( 1960)提出,Lee 和Lemieux ( 2010)提出了运用RDD 做经验研究的规范。
RDD 适用条件:符合非混淆假设。
在断点附近有较多观测值,对数据要求很高。
强制变量一定要非常干净,强制变量的临界值不得用于作为实验之外的干预。
断点回归设计的基本逻辑哲学逻辑:Holland(1986)通过总结自然科学、社会科学的大量研究和讨论,提出科学的解决方案和统计的解决方案两种解决因果问题的方案,科学的解决方案主要包括重复实验和随机实验。
断点回归的主要思想,运用随机实验思想,控制研究的样本近似于随机分布在临界值附近,小于临界值的样本作为控制组,大于临界值的样本作为实验组,通过比较它们的差别来研究干预变量和结果变量之间的因果联系。
统计逻辑:通过统计控制,使得非实验的调查数据尽可能地随机分布在临界值附近,同时,满足非混淆假设,就是要求结果变量独立于干预变量。
解决了传统方法中个体异质性和混杂因素的问题。
非混淆假设要求研究对象是随机地分配到实验组和对照组,即二分量D(实验处置变量)本身和最后的实验结果Y1(接受实验的结果——事实)、Y0(未接受实验的结果——反事实)没有关系(工具变量思想),换句话说,Y1、Y0独立于D。
Stata中的回归不连续设计概述说明书
I rddensity: manipulation testing using local polynomial density estimation. I rdbwdensity: bandwidth or window selection.
Conventional Local-polynomial Approach
Idea: approximate regression functions for control and treatment units locally.
“Local-linear” estimator (w/ weights K( )):
Important: use also estimators that do not “smooth-out” data.
RD Plots (Calonico, Cattaneo & Titiunik, JASA): I Two ingredients: (i) Sm o othed global p olynom ial …t & (ii) binned discontinuous lo cal-m eans …t. I Two goals: (i) detention of discontinuities, & (ii) representation of variability. I Two tuning parameters:
F G lo b a l p o ly n o m ia l d e g re e (kn). F L o c a tio n (E S o r Q S ) a n d nu m b e r o f b in s (Jn).
公共管理与政策研究中的实地实验:因果推断与影响评估的视角
公共管理与政策研究中的实地实验:因果推断与影响评估的视角王思琦【摘要】实验方法作为统计学因果推断的重要方法,在公共管理与公共政策研究中得到了越来越多的应用.实地实验作为实验方法的新发展,相比传统的实验室实验和调查实验具有更高的外在效度和现实应用价值,被广泛用于变量之间的因果推断及政策与项目的影响评估中.论文在解释实验方法的统计学因果推断基础、并比较各类实验优劣势之后,举例分析了实地实验的基本原理、程序和可能出现的各种现实问题,并以公共政策影响评估为切入点讨论了中国公共管理与政策研究中使用实地实验方法面临的挑战与机遇.【期刊名称】《公共行政评论》【年(卷),期】2018(011)001【总页数】25页(P83-107)【关键词】因果推断;实地实验;准实验;自然实验;影响评估【作者】王思琦【作者单位】西南交通大学公共管理与政法学院【正文语种】中文【中图分类】D63一、引言实地实验(Field Experiments,也称为田野实验或现场实验)方法是近年来社会科学实验方法发展的一个新阶段。
相比于传统的观察研究(Observational Studies),如社会科学研究方法中最常用的问卷调查与管理数据分析等,实验研究(Experimental Studies)对模型设定(Specification)和变量控制的依赖程度较小,因此不必限定过多的假设条件和想方设法找出各种控制变量。
同时,实验方法通过随机分配(Random Assignment)和进行干预(Treatment,也称为处理),能够有效克服内生性(Endogeneity)、遗漏变量(Omitted Variable)、混淆变量(Confounder)、样本选择性偏误(Selection Bias)等统计推断中的常见问题。
作为目前社会科学因果推断(Causal Inference)的前沿方法,实验方法受到了越来越多的关注与应用。
在实验方法内部,不同于经典的实验室实验(Lab Experiments)通常招募学生作为实验被试(Subjects)、采用抽象的激励手段(金钱或点数)来研究诸如拍卖、决策、偏好等心理学和博弈论的理论问题。
模糊断点回归
模糊断点回归在因果关系分析的实证方法中,最优的选择应当为随机实验,但是随机实验的时间成本和经济成本都比较高,而在随机实验不可得的情况下,需要考虑使用其它方法。
断点回归便是仅次于随机实验的, 能够有效利用现实约束条件分析变量之间因果关系的实证方法。
断点回归设计是由美国西北大学的心理学家campbell在1958年首先提出来的,到20世纪80年代,campbell及其同事一直从事断点回归的设计和研究工作。
断点回归设计(regressiondiscontinuity design)是一种仅次于随机实验的能够有效利用现实约束条件分析变量之间因果关系的实证方法。
断点回归可以分为两类,一类是模糊断点回归(fuzzy rd),其特征是断点x=c处,个体得到处理的概率从0跳跃到1;另一类是清晰断点回归(sharp rd),其特征是断点x=c 处,个体得到处理的概率从a跳跃到b,其中0<a<b<1。
rd的目的是选取其他特征相似的组,考察临界值区间上下不同比如考察进清华对收入的影响。
考687分的不能上清华,考689分的可以进去。
只差2分。
这两类人的基本能力其实没什么区别。
两组人,围绕688分的分割线,研究工资差异的内在效度很高,因为他们之间唯一的区别就是进不进清华。
其他都一样。
将这种想法扩展到控制其他变量。
数据分为1)688以下和2)688以上。
回归线应该斜率差不多,但截距明显不同。
截距项可以理解为招生带来的收入差。
rd需要数据更少,主要是考虑临界值附近的影响关于断点回归的基本逻辑、方法和应用,可参考中南财经政法大学罗胜博士在“统计与决策”上的《断点回归设计:基本逻辑、方法、应用评述》一文。
关于断点回归的操作,可参考三篇文献:第一是香樟经济学圈发表的基于lee,and lemieux, 2010,"regression discontinuity designs in economics ",journal of economic literature, vol. 48: 281–355.的推文,【香樟推文0620】运用断点回归设计做研究的规定动作()第二是2017年aer论文pinotti, paolo. "clicking on heaven's door: the effect of immigrant legalization on crime." american economicreview107.1(2017): 138-68.第三是一篇实际操作的比较thoemmes,felix, wang liao, and ze jin. "the analysis of the regression-discontinuity design in r." journal of educational and behavioral statistics 42.3 (2017): 341-360.以及史冬波梳理断点回归设计的标准操作()运用断点回归设计做研究的规定动作第1步检查配置变量(assignment variable,又叫running variable、forcing variable)是否被操纵。
断点回归(RD)学习手册
断点回归(RD)学习手册断点回归由Thistlewaite and Campbell(1960)首次使用,但直到1990年代末才引起经济学家的重视。
Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应, 在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。
由于奖学金由学习成绩决定,故成绩刚好达到获奖标准与差一点达到的学生具有可比性。
如果考试分数大于获奖标准分数, 则进入处理组;如果考试分数小于获奖标准分数, 则进入控制组。
因此处理变量在获奖标准分数处形成了一个断点, 该研究设计的主要思想是可以利用靠近这一断点附近的样本来有效估计处理效应。
Angrist and Lavy(1999)在研究班级规模对成绩的影响时,利用以色列教育系统的一项制度进行断点回归;该制度限定班级规模的上限为40名学生,一旦超过40名学生(比如41名学生),则该班级被一分为二。
此后30年, 该方法并未引起学术界的重视,直到1990年以后, 断点回归设计开始被应用于各种领域,并且近年来成为因果分析和政策评估领域最重要的研究方法。
Hahn et al(2001)提供了断点回归在计量经济学理论基础。
目前,断点回归在教育经济学、劳动经济学、健康经济学、政治经济学以及区域经济学的应用仍方兴未艾。
参见Imbens and Lemieux(2008),Van Der Klaauw(2008)以及Lee and Lemieux(2010)的文献综述。
断点回归设计是一种准自然实验, 其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的,因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。
一般将该连续变量X称为分组变量 (assignment variable) 。
断点回归设计方法应用的研究综述
经济管理㊀㊀[基金项目]国家社会科学基金项目 我国医院行业市场机制有效性的实证研究 (17BGL170)㊀㊀[作者简介]谢谦(1982-㊀)ꎬ男ꎬ河北保定人ꎬ中国社会科学院经济研究所助理研究员ꎮ主要研究方向:国际经济学ꎮ①分别为AmericanEconomicReview(AER)㊁Econometrica(ECMA)㊁JournalofPoliticalEconomy(JPE)㊁Quar ̄terlyJournalofEconomics(QJE)和ReviewofEconomicStudies(RES)ꎮ②不包括五大上关于RDD方法的理论研究论文ꎮ我们在Jstor数据库中用全文任一地方出现 regressiondiscontinuity 这个关键词检索ꎬ然后剔除不是运用RDD做的经验研究论文ꎬ譬如RDD的理论研究论文㊁仅论文文献综述或脚注中出现 regressiondiscontinuity 的论文等ꎮ断点回归设计方法应用的研究综述谢㊀谦1㊀薛仙玲2㊀付明卫1(1.中国社会科学院经济研究所ꎬ北京㊀100836ꎻ2.中国社会科学院研究生院ꎬ北京㊀102488)㊀㊀[摘㊀要]㊀近年来ꎬ国内经济学界颇为关注断点回归设计(RDD)方法ꎬ运用RDD的文章日益增多ꎮ首先概述Lee和Lemieux(2010)提出的运用RDD的规范ꎬ然后基于2011-2017年五大英文顶级经济学期刊发表的RDD应用研究论文ꎬ归纳出运用RDD的三个新动作:新的最优带宽确定方法㊁甜甜圈RDD和参数估计中最高只能使用二次多项式ꎮ以国外的RDD用法为参照ꎬ我们发现ꎬ国内熟悉Lee和Lemieux(2010)提出的规范ꎬ也在吸收国外文献中出现的新动作ꎬ但运用RDD时存在如下几个突出问题:不做适用性检验㊁不重视描述统计图和不交代清楚非参数估计的关键细节ꎮ建议国内运用RDD时需要增加如下动作:非参数估计应该同时尝试CV㊁IK和CCT三种带宽确定方法ꎻ在配置变量存在堆积现象或被操纵的可能时ꎬ使用甜甜圈RDDꎻ尝试到四次多项式ꎮ[关键词]㊀断点回归设计ꎻ参数估计ꎻ非参数估计ꎻ最优带宽ꎻ甜甜圈RDD[DOI编码]㊀10.13962/j.cnki.37-1486/f.2019.02.006[中图分类号]F224㊀㊀[文献标识码]A㊀㊀[文章编号]2095-3410(2019)02-0069-11一㊁引言20世纪80年代以来ꎬ应用微观计量研究经历了一场可信性革命ꎬ变得十分强调研究设计(researchdesign)ꎮ这种转变导致工具变量法(InstrumentalVariableꎬIV)㊁双重差分法(Difference-in-DifferenceꎬDID)和断点回归设计(RegressionDiscontinuityDesignꎬRDD)成为应用微观计量研究中运用最广泛的方法[1]ꎮ与工具变量法和双重差分法相比ꎬRDD更接近于随机试验ꎬ因而从理论上讲是更好的因果识别方法[2]ꎮRDD虽然早在1960年就已被Thistlethwaite和Campbell(1960)[3]提出ꎬ但20世纪90年代末之后才被国外大量应用于经济学研究ꎮ尽管运用RDD要求在断点附近有较多观测值ꎬ对数据要求很高ꎬ但过去几年的相关研究并不少ꎮ2011-2017年ꎬ五大英文顶级经济学期刊①发表的运用RDD做的经验研究论文(下文简称 五大RDD论文 )共39篇②ꎬ96经济管理各年分别为6篇㊁3篇㊁3篇㊁11篇㊁5篇㊁7篇和4篇(如图1所示)ꎬ表明RDD在国际上已经成为一种主流的经验研究方法ꎮ根据在中国知网的检索ꎬ中文期刊发表的头两篇运用RDD做的经验研究论文是 退休会影响健康吗? [4]和 城市群落的崛起㊁经济绩效与区域收入差距 [5]ꎻ2011-2017年间ꎬ中文CSSCI期刊共发表运用RDD做的经验研究论文46篇ꎬ各年分别为1篇㊁1篇㊁0篇㊁5篇㊁8篇㊁8篇和23篇(如图1所示)ꎮ我们预计ꎬ大数据时代的来临会极大地打破运用RDD面临的数据限制①ꎬ运用RDD的相关研究会越来越多ꎮ图1㊀中文核心期刊和英文五大期刊上发表的断点回归设计经验研究论文数②Imbens和Lemieux(2008)[6]㊁vanderKlaauw(2008)[7]㊁Lee和Lemieux(2010)[2]㊁Skovron和Titiunik(2017)[8]㊁Hausman和Repson(2018)[9]专门综述了RDD的理论和应用研究ꎮ余静文和王春超(2011)[10]简要介绍了断点回归设计的发展历史㊁理论㊁实施步骤和应用情况ꎮ但是ꎬ由于RDD这种方法的理论研究仍很活跃ꎬ运用RDD涉及参数估计和非参数估计的选择㊁参数估计中多项式次数的选择和非参数估计最优带宽的确定等众多技术细节ꎬ文献中在RDD的具体用法上存在很大差别ꎬ特别是中文文献运用RDD的规范程度明显滞后于外文文献ꎬ有时还存在误用ꎮ因此ꎬ十分有必要归纳RDD应用的新进展ꎬ为国内学者规范运用RDD提供借鉴ꎮ由于本文强调被五大RDD论文运用过的新进展ꎬ侧重于应用ꎬ我们不会涉及多配置变量RDD(RDdesignswithassignmentvariables)[11]㊁分位数RDD[12]㊁拐点回归设计(regressionkinkdesigns)[13]㊁多断点RDD(RDdesignswithmultiplecutoffs)[14]㊁远离断点处的处理效应的识别方法(methodsforextrapolationawayfromthecutoff)[15][16]㊁离散型配置变量RDD[17]等五大RDD论文中未运用的新进展ꎮ本文综述Lee和Lemieux(2010)[2]以来RDD的新进展ꎮ选择以Lee和Lemieux07 ①②这方面的一个表现是ꎬ大量行政管理数据(administrativedata)被用于经济学经验研究ꎮ根据英国«经济学人»(TheEconomist)的报道ꎬNBER(NationalBureauofEconomicResearch)工作论文摘要里出现 administra ̄tivedata 的论文数ꎬ2000年是0篇ꎬ之后快速增长ꎬ2017年达到28篇ꎮ报道链接为:https://www.economist.com/international/2018/05/26/government-data-are-ever-more-important-to-economic-researchꎮ中文核心期刊论文数的检索方法如下:在中国知网检索出主题包含 断点回归 ㊁发表年度为2011年至2017年的中文社会科学引文索引(CSSCI)期刊论文ꎬ然后逐一检查㊁剔除非经验研究论文ꎬ最后剩下46篇ꎮ将检索限定在中文社会科学引文索引期刊ꎬ是为了保证检索到的论文的质量ꎮ英文五大期刊论文数的检索方法如下:在Jstor数据库中用全文任一地方出现 regressiondiscontinuity 这个关键词㊁发表年度为2011至2017年㊁期刊为五大期刊检索到50篇ꎬ然后逐一检查㊁剔除非经验研究论文ꎬ最后剩下39篇ꎮ经济管理(2010)[2]为基点的理由如下:首先ꎬ与Imbens和Lemieux(2008)[6]㊁vanderKlaauw(2008)[7]相比ꎬLee和Lemieux(2010)[2]的时间要晚ꎮ其次ꎬ与Skovron和Titiunik(2017)[8]综述政治学中断点回归设计的应用情况㊁Hausman和Repson(2018)[9]综述时间作为配置变量(也叫驱动变量)的RDD应用情况相比ꎬLee和Lemieux(2010)[2]综述的是经济学中的应用情况ꎬ包括各种类型的配置变量ꎬ更综合㊁更全面ꎮLee和Lemieux(2010)[2]提出了运用RDD做经验研究的规范ꎬ算是一个共识ꎮ但是ꎬ通过归纳2011-2017年的五大RDD论文ꎬ我们发现:一方面很多论文都没有遵守此规范ꎮ另一方面涌现出了很多被广泛应用的新进展ꎬ譬如非参数估计中确定带宽的IK法①[18]和CCT法[19]㊁参数估计中只应使用配置变量的低次项和甜甜圈RDD(DonutholeRDD)等②ꎮ通过归纳2011-2017年CSSCI期刊发表的RDD经验研究论文ꎬ我们发现ꎬ国内总体上了解运用RDD的规范ꎬ但仍然存在不少问题ꎬ譬如不做适用性检验㊁不重视描述统计图㊁不交代清楚非参数估计的关键细节等ꎮ二、运用断点回归设计的规范和新进展(一)运用断点回归设计做研究的既定规范Lee和Lemieux(2010)[2]提出了运用RDD做经验研究的规范ꎬ概述如下:1.利用配置变量检验RDD的适用性ꎮRDD的前提条件是个体不能精准操控(preciselymanipulate)配置变量ꎮ此条件可利用配置变量来检验ꎮ首先ꎬ选定一定数量的箱体画出配置变量的历史直方图ꎮ如果频数(frequencies)在邻近断点处的两个箱体间存在跳跃式变化ꎬ则很可能意味着前提条件不成立ꎮ其次ꎬ做配置变量的McCrary检验[20]ꎮ此检验的stata命令DCdensity是外部命令ꎬ可在下述网址下载后安装:https://eml.berkeley.edu/~jmccrary/DCden ̄sity/ꎮ2.利用前定变量检验RDD的适用性ꎮ首先ꎬ选定一定数量的箱体ꎬ求前定变量在每个箱体内的均值ꎬ画出均值对箱体中间点的散点图ꎻ接着再画出使用多项式模型对前定变量做出的拟合曲线ꎬ其中多项式一般是4次多项式③ꎮ如果前定变量的均值在断点处存在跳跃ꎬ则意味着前提条件很可能不成立ꎮ其次ꎬ用前定变量对常数项㊁处理变量㊁配置变量的多项式㊁处理变量和配置变量多项式的交互项做回归ꎮ如果前定变量比较多ꎬ那么随机因素也可能导致某个前定变量存在显著的断点ꎮ因此ꎬ有必要把众多检验合并为一个检验所有前定变量都不存在断点的统计量ꎮ这时ꎬ应该用似不相关回归(SeeminglyUnrelatedRegressionꎬSUR)ꎮ3.画结果变量的图ꎮ选定一定数量的箱体ꎬ求结果变量在每个箱体内的均值ꎬ画出均值对箱体中间点的散点图ꎻ接着再画出使用多项式模型对结果变量做出的拟合曲线ꎬ其中多项式一般是4次多项式ꎮ一定要求了局部平均值后再画图ꎮ如果直接画原始数据的散点图ꎬ那么噪音太大ꎬ看不出潜在函数的形状ꎮ如果结果变量的均值在断点处存在跳跃ꎬ则意味着处理变量有影响ꎮ用图来显示结果变量和配置变量之间的关系ꎬ已经成为运用RDD的标准作法ꎮLee17 ①②③Imbens和Kalyanaraman(2009)是工作论文ꎬ后来于2012年发表在«ReviewofEconomicStudies»上ꎮ用Stata软件实现这些新进展的操作命令可以参考Cattaneoetal.(2018)ꎬ更详细的操作命令细节可参考本文所引用文献的网上附件ꎮ这些网上附件可在发表各引用文献的期刊官网上下载ꎮ作者文中用的都是4次多项式ꎬ没解释不用其他次数多项式的原因ꎮ经济管理和Lemieux(2010)[2]指出ꎬ画图在RDD经验文章中是如此重要ꎬ以致没有图的文章会让人自然而然地怀疑图形证据对文章不利ꎮ4.全样本参数估计ꎮ使用全样本数据进行参数估计ꎮ以精确断点回归为例ꎬ估计模型如下:y=α+ρˑTreatment+ðKk=1βkˑ(x-c)k+ðKk=1γkˑTreatmentˑ(x-c)k+W+ε(1)其中y㊁x㊁treatment和W分别为结果变量㊁配置变量㊁处理变量(当xȡc时ꎬtreatment=1ꎬ否则treatment=0)和前定变量ꎮα㊁ρ㊁β和γ为待估计的参数ꎬε为随机扰动项ꎮρ显著不为0ꎬ表明处理对结果变量有影响ꎮ参数估计的要点是确定模型(1)中的多项式次数Kꎮ一般从一次尝试到八九次①ꎬ然后挑选赤池信息准则(AIC)取值最小的模型ꎮ另外一个比赤池信息准则更好的方法是ꎬ在多项式模型的自变量中先加入表示箱体的虚拟变量ꎬ然后不断加入配置变量的多次项ꎬ只到下述原假设成立:所有箱体虚拟变量的系数均等于零ꎮ5.子样本非参数估计ꎮ非参数估计就是对最优带宽内的子样本做加权局部线性回归ꎮ非参数估计的要点是确定最优带宽ꎮ确定最优带宽的方法有两种②:拇指规则法(ruleofthumbꎬROT)和交叉验证法(crossvalidationprocedureꎬCV)ꎮ加权可用矩形核密度函数㊁三角形核密度函数等ꎮ其中ꎬ使用矩形核密度函数加权的非参数估计ꎬ等于是基于子样本的参数估计ꎮ使用三角形核密度函数与使用矩形核密度函数的唯一区别是ꎬ前者给临近断点的观测值更大的权重ꎮ但是ꎬ要想给临近断点的观测值更大的权重ꎬ更透明的做法是在更小的带宽内使用矩形核密度函数ꎮ使用矩形核密度函数得到的结果也更易解释ꎮ值得庆幸的是ꎬ实践中不同核密度函数得到的结果一般是一致的ꎮ具体研究中ꎬ参数估计和非参数估计都要做ꎬ在两种方法下都稳定的结果更可信ꎮ(二)运用断点回归设计做研究的新进展Lee和Lemieux(2010)[2]之后的7年里(2011-2017年)ꎬ学者在运用RDD时出现了不少Lee和Lemieux(2010)[2]未提及的新做法ꎬ譬如非参数估计中确定带宽的IK法和CCT法㊁甜甜圈RDD(DonutholeRDD)㊁参数估计中只应使用配置变量的低次项和利用配置变量做适用性检验的Frandsen法[21]等ꎮ此处归纳比较重要的三种新做法如下:1.非参数估计中最优带宽的确定ꎮLee和Lemieux(2010)[2]介绍了ROT和CV两种确定最优带宽的方法ꎮ但是ꎬ2011-2017年间五大RDD论文使用得多的是IK法和CCT法ꎮstata中用非参数法做断点回归估计时的命令rdꎬ就是用IK法确定最优带宽ꎬ而命令rdrobust提供CV㊁IK㊁CCT三种不同的最优带宽计算方法选项ꎮImbens和Kalyanaraman(2012)[18]指出ꎬROT和CV两种方法对于在整个支撑集(supportset)里估计回归方程而言是最优的ꎬ但RDD只关心断点处的回归方程估计ꎬ故ROT和CV对于RDD而言不是最优的ꎬ而IK法对于RDD而言27 ①②作者说这是经验上的做法ꎬ没解释这样做的原因ꎮLee和Lemieux(2010)在脚注中提到了之后应用广泛的IK法(Imbens和Kalyanaramanꎬ2009)ꎬ但是文中举例只使用拇指规则法和交叉验证法ꎬ没使用IK法ꎮ经济管理是渐近最优的ꎻ另外ꎬCV法需要研究人员自己设定一个调节参数(tuningparameter)ꎬ而IK法是完全数据驱动的ꎮImbens和Kalyanaraman(2012)[18]进一步指出ꎬ尽管IK法具备这些优点ꎬ但研究人员不能只看这一个最优带宽下的估计结果ꎬ而应把这一带宽作为基准㊁检验结果对不同带宽的稳健性ꎮCalonico㊁Cattaneo和Titiunik(2014)[19]认为ꎬROT㊁CV和IK这些方法得出的最优带宽过大ꎬ导致相应的置信区间有偏ꎬ会过度拒绝 没有处理效应 的原假设ꎬ结果把 没有 处理效应说成 有 ꎮCCT法校正了过大带宽带来的偏误ꎮ2.甜甜圈RDD(DonutholeRDD)ꎮ甜甜圈RDD用来克服数据堆积(heaping)问题对估计结果的影响①ꎮ数据堆积指取配置变量某些值的观测值过多的现象ꎮ导致这一现象的原因包括受访者自报告某些信息时倾向于向某个数值近似ꎬ测量标尺的精读有限等ꎮ譬如ꎬ调查数据中受访者自报告的身高在160cm㊁170cm和180cm等取值上堆积ꎬ新生儿体重会在3000克㊁3500克和4000克等取值上堆积ꎮ数据操纵现象源自经济个体的逐利动机ꎬ只出现在断点处ꎮ然而ꎬ数据堆积不是源自经济个体的逐利动机ꎬ且可能出现在除断点之外的其他地方ꎮ如果结果变量受配置变量的堆积现象影响ꎬ那么RDD估计量可能是有偏的[22]ꎮ此时ꎬ可以去掉断点附近的某些观测值再做RDD估计ꎮ由于去掉断点附近的某些观测值后的数据就像一个 甜甜圈 ꎬ故称作 甜甜圈RDD ꎮ至于去掉断点附近多少观测值为适ꎬ文献中尚未达成共识ꎮ3.全样本参数估计的缺点ꎮ根据Lee和Lemieux(2010)[2]ꎬ配置变量多项式要尝试到八九次ꎮ但是ꎬGelman和Imbens(2014)[23]认为ꎬ不能尝试配置变量多项式的高次项ꎬ只能使用局部一次或局部二次多项式ꎬ理由有三点:第一ꎬ断点回归设计的估计量可以写成处理组结果的加权平均值和控制组结果的加权平均值之差ꎬ其中加权权重是配置变量的函数ꎮ运用全域高阶多项式方法时ꎬ当配置变量取值较大时ꎬ使用不同次数多项式得到的权重差别巨大ꎮ然而ꎬ局部线性回归方法给临近断点处的观测值赋予要大的权重ꎬ理论上讲更合理ꎮ第二ꎬ处理效应的估计值对全域高阶多项式的次数十分敏感ꎮ使用不同次数多项式得到的估计值差别很大ꎮ第三ꎬ在本身不存在断点的情况下ꎬ全域多项式方法得到错误结果(认为有断点)的概率高于实际水平ꎬ而局部一次(或二次)多项式方法得到错误结果的概率和实际水平差不多ꎮ三、断点回归设计的国外应用情况2011-2017年ꎬ五大英文顶级经济学期刊共发表39篇运用RDD做的经验研究论文ꎬ涉及公共经济学㊁新政治经济学㊁劳动经济学和教育经济学等众多领域ꎮ39篇论文中有33篇使用行政管理数据②ꎬ由此可见开放行政管理数据对于RDD应用的重要性ꎮ第二部分提到的三个新进展的应用情况如下:首先ꎬ使用非参数估计的26篇论文中ꎬ用IK法㊁CCT法确定最优带宽的分别为13篇㊁6篇ꎬ表明这两种最优带宽确定方法已被学界接受ꎻ其次ꎬ在甜甜圈RDD被提出的2011年之后ꎬ33篇论文中有5篇用了此方法ꎻ最后ꎬDell(2015)[24]和Pinotti(2017)[25]引用了Gelman和Imbens(2014)[23]ꎬ但还使用超过二次的配置变量多项式做稳健性检验ꎮ这些文献对RDD的运用与Lee和Lemieux(2010)[2]提出的规范大体一致ꎬ譬如20篇(占37 ①②实际上ꎬ甜甜圈RDD也可以克服数据操纵问题对估计结果的影响ꎮ分别来自美国㊁巴西㊁挪威㊁意大利等17个国家ꎮ经济管理51.28%)论文引用了Lee和Lemieux(2010)[2]ꎬ33篇(占84.62%)做了适用性检验ꎮ与Lee和Lemieux(2010)[2]提出的规范不一致的情况ꎬ包括如下几点:第一ꎬLee和Lemieux(2010)[2]建议参数估计和非参数估计均要做①ꎬ但这样做的只有16篇ꎮ只使用参数估计㊁只使用非参数估计的分别为13篇和10篇ꎮ在16篇同时使用了两种估计方法的文章中ꎬ将两种方法视为同等重要的有4篇ꎬ参数估计仅只是做稳健性检验㊁非参数仅只是做稳健性检验的分别为4篇和8篇ꎮ因此ꎬ总体来看ꎬ文献中偏重于参数估计ꎮ值得一提的是ꎬECMA上的4篇文章都只用非参数估计ꎬ而QJE上的5篇文章ꎬ除Malamud和Pop-Eleches(2011)[26]同时使用了两种方法外ꎬ其余4篇都只用参数估计ꎮECMA由国际计量经济学会主办ꎬQJE由哈佛大学经济系主办ꎮ二者在RDD应用上的差异可能体现了两个主办方不同的学术风格ꎮ第二ꎬLee和Lemieux(2010)[2]建议用前定变量做适用性检验时ꎬ应该做似不相关检验ꎬ但没有一篇文献这样做ꎮ第三ꎬLee和Lemieux(2010)[2]建议画描述统计图中的拟合曲线时ꎬ用配置变量的4次多项式ꎬ但仅有3篇论文用了4次多项式ꎮ39篇论文中ꎬ仅有Chettyetal(2014)[27]这一篇没在描述统计图中画上对散点的拟合曲线ꎮ在画了的38篇中ꎬ未说明用的什么方法㊁使用局部线性回归(locallinearregression)㊁使用局部线性平滑(locallinearsmoother)㊁移动平均法(running-meansmoothing)和多项式方法的分别为3篇㊁3篇㊁3篇㊁1篇和28篇ꎬ可见多项式方法是主流方法ꎮ在画拟合曲线所用方法上的差异具有明显的期刊特色:使用局部线性回归法的3篇文章有1篇来自QJE㊁2篇来自JPEꎬ使用局部线性平滑法的3篇文章均来自ECMAꎬ使用移动平均法的一篇文章来自RESꎬAER上的文章都使用多项式方法ꎮ在使用多项式方法的28篇论文中ꎬ使用1次㊁2次㊁3次㊁4次㊁8次及同时使用1次和2次多项式的分别为8篇㊁11篇㊁4篇㊁3篇㊁1篇和1篇ꎬ使用1次多项式和2次多项式的明显居多ꎮ值得一提的是ꎬMeng(2017)[28]在同一张图中同时画了1次多项式和2次多项式的拟合曲线ꎮ第四ꎬLee和Lemieux(2010)[2]建议参数估计时的配置变量多项式要尝试到八九次ꎬ然后挑选赤池信息准则(AIC)取值最小的模型ꎮ但是ꎬ使用过参数估计的29篇论文中ꎬ仅有Clark和Martorell(2014)[29]和Deshpande(2016)[30]根据AIC来挑选模型ꎮ在明确说明尝试过的多项式次数的论文中ꎬ仅有Auffhammer和Kellogg(2011)[31]㊁Pinotti(2017)[25]尝试过超过4次的多项式ꎬ绝大多数只尝试到4次多项式ꎮ第五ꎬLee和Lemieux(2010)[2]建议非参数估计时用矩形核密度函数ꎮ但是ꎬ在使用非参数估计且说明了所用核密度函数的16篇文献中ꎬ使用矩形核密度函数的为7篇ꎬ而使用三角形核密度函数的有8篇ꎬ还有一篇使用帐篷型核密度函数(tent-shapededgekernel)ꎮ综上所述ꎬLee和Lemieux(2010)[2]之后ꎬ运用RDD出现了IK和CCT两种最优带宽确定方法以及甜甜圈RDD两个新操作环节ꎮGelman和Imbens(2014)[23]不该使用超过两次的多项式的建议ꎬ尚未被学界普遍接受ꎮ同时ꎬ学界在Lee和Lemieux(2010)[2]涉及的RDD运用为方便讨论ꎬ使用矩形核密度函数的非参数估计虽然等同于参数估计ꎬ但此处只将其归为非参数估计ꎮ 47 ①经济管理环节上未达成共识ꎮLee和Lemieux(2010)[2]发表在权威经济学期刊«JournalofEconomicLit ̄erature»上ꎬ其两位作者均是国际上知名的经济学者ꎮ他们提出的RDD应用规范未被学界完全接受ꎬ并不因为他们的观点不准确㊁不权威ꎬ而是因为RDD的理论研究仍很活跃ꎬ故应用上达成的共识不多ꎻ因为RDD应用涉及众多技术环节ꎬ故更难达成共识ꎮ作为一个对比ꎬIV和DID的理论研究相对成熟㊁应用涉及的技术环节单一①ꎬ学者运用这两种方法做研究时的动作比较一致ꎮ四、断点回归设计的国内应用情况2011-2017年间ꎬCSSCI期刊共发表RDD经验研究论文46篇ꎬ涉及公共经济学㊁环境经济学㊁财政学等众多领域ꎬ其中使用行政管理数据的仅有王骏和孙志军(2015)[32]一篇ꎮ总体而言ꎬ对于两篇权威的RDD综述文章 Imbens和Lemieux(2008)[6]㊁Lee和Lemieux(2010)[2]ꎬ至少引用过其中一篇的中文论文有32篇ꎬ占69.57%ꎬ这意味着国内学者总体上了解运用RDD涉及的众多技术环节ꎮRDD应用的新进展也在被国内文献吸收ꎮ首先ꎬ确定最优带宽的IK法已被广泛应用ꎬCCT法也开始被使用ꎮ使用非参数估计且说明了带宽确定方法的24篇文章中ꎬ使用了IK法㊁CCT法的分别有10篇㊁3篇ꎮ其次ꎬ李宏彬等(2014)[33]㊁张川川等(2015)[34]和张明(2017)[35]都使用了甜甜圈RDDꎮ最后ꎬ马光荣等(2016)[36]㊁何文剑(2016)[37]㊁李江一和李涵(2017)[38]以及王家庭等(2017)[39]共4篇文章引用了Gelman和Im ̄bens(2014)[22]ꎮ与国外文献一样ꎬ国内文献运用RDD也存在很多与Lee和Lemieux(2010)[2]规范不一致的情况ꎬ具体如下:首先ꎬ同时使用参数估计和非参数估计的只有18篇(占39.13%)ꎮ只使用参数估计㊁只使用非参数估计的分别为17篇和11篇ꎮ在18篇同时使用了两种估计方法的文章中ꎬ将两种方法视为同等重要的有3篇ꎬ参数估计仅只是做稳健性检验㊁非参数仅只是做稳健性检验的分别为2篇和13篇ꎮ因此ꎬ总体来看ꎬ国内文献与国外文献一样ꎬ偏重于参数估计ꎮ其次ꎬ用前定变量做适用性检验时ꎬ仅有曹静等(2014)[40]㊁王骏和孙志军(2015)[32]使用了似不相关回归ꎮ再次ꎬ使用了参数估计的35篇文章中ꎬ只有杨小聪(2017)[41]㊁张英和陈绍志(2015)[42]㊁曹静等(2014)[40]3篇文章尝试到配置变量八九次的多项式ꎮ最后ꎬ在使用非参数估计且说明了所用核密度函数的11篇文章中ꎬ只使用矩形核密度函数㊁同时使用矩形和三角形核密度函数以及只使用三角形核密度函数的分别为2篇㊁5篇和4篇ꎮ由于运用RDD涉及众多技术环节ꎬ国内对RDD的运用还存在不少问题ꎬ主要表现在以下几个方面:首先ꎬ5篇文章未做适用性检验ꎬ2篇文章在适用性检验未通过时依然使用RDDꎮ张明(2017)[34]既没有用配置变量也没有用前定变量做适用性检验ꎮ陈强等(2017)[43]㊁黄新飞和杨丹(2017)[44]㊁高彦彦和王逸飞(2017)[45]以及王旭光(2017)[46]使用的配置变量不可能被操控ꎬ无须检验ꎬ但他们都没有检验前定变量的连续性ꎮ邹红和喻开志(2015)[47]㊁邓婷鹤和何秀荣(2016)[48]使用的配置变量 年龄 均在断点(60岁)处不连续ꎬ但依然运用RDDꎮ邹红57 ①运用IV必需的技术环节是报告第一阶段回归的F统计量取值ꎬ运用DID必需的技术环节是做平行趋势假设检验ꎮ经济管理和喻开志(2015)[47]做回归分析时去掉了60岁断点上的样本ꎬ但是出于男性实际停止工作的时间普遍是61岁这个考虑ꎬ并没有从RDD适用性这个角度深化㊁细化研究内容ꎬ譬如检验样本是否在50岁㊁60岁㊁70岁等年龄上存在堆积问题ꎮ其次ꎬ对描述统计图的运用不规范ꎮ如前所述ꎬ画图在RDD应用研究中十分必需ꎮ然而ꎬ有11篇没有画描述统计图ꎮ根据Lee和Lemieux(2010)[2]和英文顶级期刊的实际ꎬ画拟合曲线图以多项式方法居多ꎮ然而ꎬ在画有描述统计图的35篇文章中ꎬ15篇没有说明拟合曲线图所采用的方法ꎬ14篇采用局部多项式方法ꎬ6篇采用了平滑㊁多元回归等其他方法ꎮ未画描述统计图和未说明画拟合曲线所采用方法的文章合计达26篇(占56.52%)ꎬ表明国内学界对画图重要性的认识不够ꎮ最后ꎬ使用非参数估计时的关键技术细节未说明ꎮ在29篇使用了非参数估计的文章中ꎬ5篇没有报告带宽的确定方法ꎬ18篇(占62.07%)未说明使用了哪个核密度函数ꎮ五㊁总结和展望RDD在断点附近的局部等价于一个随机试验ꎬ这一特点使得其备受经验研究人员的青睐ꎮ在国外ꎬRDD从20世纪90年代末期开始被大量应用于经济学研究ꎮLee和Lemieux(2010)[2]提出了运用RDD的必备技术环节ꎬ相当于给出了RDD应用的规范ꎮ但是ꎬ由于RDD的理论研究仍在不断深入ꎬ至今尚未定型ꎬLee和Lemieux(2010)[2]之后应用RDD的文献出现了新的技术环节ꎬ譬如新的最优带宽确定方法㊁甜甜圈RDD和参数估计中最高只能使用二次多项式等ꎮ国内运用RDD做研究始于2010年ꎬ最近两年大幅增加ꎮ虽然国内熟悉Lee和Lemieux(2010)[2]提出的规范ꎬ但运用RDD时存在不少问题ꎬ譬如不做适用性检验㊁不重视描述统计图㊁不交代清楚非参数估计的关键细节等ꎮ为了使得研究结论更稳健ꎬ基于五大英文顶级期刊发表的论文ꎬ我们建议ꎬ国内运用RDD时ꎬ在完成Lee和Lemieux(2010)[2]提出的技术动作后ꎬ需要增加如下动作:考虑到学术界在最优带宽确定方法上尚未达成共识[26][49]ꎬ非参数估计时应该同时尝试CV㊁IK和CCT三种方法ꎻ在配置变量存在堆积现象或被操纵的可能时ꎬ使用甜甜圈RDDꎮ尝试到四次多项式ꎮRDD从理论上讲是更好的因果识别方法ꎬ但运用此方法要求在断点附近有较多观测值㊁对数据要求很高ꎮ可喜的是ꎬ最近几年ꎬ我国经济社会的数字化进程加速ꎬ越来越多的经济活动开始数据化ꎬ越来越多的中央政府部门和地方政府公开了行政管理数据ꎬ为运用RDD做研究提供了契机ꎮ特别值得指出的是ꎬ运用医疗卫生行业行政管理数据的研究已经成批量涌现ꎮ参考文献:[1]AngristJDꎬPischkeJ.Thecredibilityrevolutioninempiricaleconomics:Howbetterresearchdesignistak ̄ingtheconoutofeconometrics[J].JournalofEconomicPerspectivesꎬ2010ꎬ24(2):3-30.[2]LeeDSꎬLemieuxT.Regressiondiscontinuitydesignsineconomics[J].JournalofEconomicLiteratureꎬ2010ꎬ48(2):281-355.[3]ThistlethwaiteDLꎬCampbellDT.Regression-discontinuityanalysis:Analternativetotheexpostfactoex ̄periment[J].JournalofEducationalPsychologyꎬ1960ꎬ51(6):309-317.[4]雷晓燕ꎬ谭力ꎬ赵耀辉.退休会影响健康吗?[J].经济学(季刊)ꎬ2010ꎬ(04):1539-1558.[5]余静文ꎬ赵大利.城市群落的崛起㊁经济绩效与区域收入差距 基于京津冀㊁长三角和珠三角城市圈 67。
RD方法(regression discontinuity design)
RD方法(regression discontinuity design)●什么是regression discontinuity design?下面将用一篇文章来介绍:如何理解「由于使用燃煤取暖,中国 5 亿北方居民预期寿命将缩短 5.5 年」?7月8日发表在《美国国家科学院院刊》(PNAS)的一篇论文,向已经逐渐意识到空气污染危害的中国民众再次展现了残酷的现实:以淮河为界,烧煤供暖的中国北方地区空气污染水平高于中国南方,北方5亿居民因严重的空气污染,平均每人失去5年寿命。
这篇文章由清华大学的李宏彬、北京大学的陈玉宇和另外两位作者共同完成。
前两位完成了这篇论文的主要部分。
这个回答首先介绍他们的研究方法,再谈一谈研究者和媒体对这篇文章的引申。
●科学家如何得出「使用燃煤取暖中国5亿北方居民预期寿命将缩短5.5年」这个结论的?首先要说的是这篇文章使用的RD方法(regression discontinuity design),即断点回归方法。
断点回归方法是最近的政策评估中非常重要的一个方法,他可以在没有随机性的情况下识别出政策的效果。
在早期的研究中,要识别一个处理(Treatment)的效果,我们必须拥有随机性,比如两组随机分开的小白鼠,一组加上某种处理,一组没有处理,最后观察两者的区别。
为什么我们那么需要随机性呢?因为研究的基础需要几组十分类似的群体,他们的任何特征都服从一个相同的分布,无论是性别、年龄、教育、健康程度……这样,我们才能确定几组对象之间出现的差别是来自于实验处理的差异,而非某些个人特征。
从一个大样本中严格随机抽取的样本,正好满足这样的同分布假设。
但对于政策研究来说,我们不可能找到这样随机分开的两组人,而且也无法用实验的方法来获得结果——你能将随机分开的100人放在干净空气中,将另外100人放在肮脏空气中并观察一段时间吗?一些研究者面对这种缺乏随机性的情况,采用了增加控制变量的方式。
rdd(断点回归)名词解释
rdd(断点回归)名词解释
RDD(Regression Discontinuity Design)即断点回归设计,是一种用于评估政策或干预措施效果的计量经济学方法。
该方法通过在政策或干预措施实施的临界点(断点)附近比较处理组和控制组的结果,来确定政策或干预措施是否对结果产生了显著影响。
RDD的基本思想是在断点处创造一个自然实验,使得处理组和控制组在断点前后的条件相似,除了政策或干预措施的差异外。
通过比较断点前后处理组和控制组的结果差异,可以推断出政策或干预措施的效果。
RDD通常需要满足以下假设:一是断点处的处理组和控制组在断点前后的条件相似;二是在断点附近,处理组和控制组的结果变量应该是连续的;三是除了政策或干预措施外,没有其他因素会导致断点处的结果变量发生跳跃。
RDD常用于评估教育、就业、医疗等领域的政策效果,也可用于评估自然灾害、市场干预等事件的影响。
影响评估术语表
第一版日期:2009年12月如对本术语表有任何意见或建议,请发送至3ie@.推荐引用:3ie (2009) 3ie影响评估术语表。
影响评估国际动议组织:印度新德里归因(Attribution)在已考虑了其他因素对研究对象的影响的前提下,在结果中观察到的变化在多大程度上是干预引起的。
损耗(Attrition)或是在干预期间有参与者从处理组中退出,或是在面板数据的收集过程中,在第一轮之后的几轮调查中未能获得其中某组数据。
这两种形式的损耗都可能会使影响评估的结果产生偏误。
平均处理效应(Average treatment effect)对受益组(或处理组)影响的平均值。
见意向处理和处理后的处理。
基线调查和基线数据(Baseline survey and baseline data)在开始干预之前收集数据的调查。
基线数据对于进行双差分析是必要的,应该同时从处理组和控制组都收集数据。
前后对照(Before versus after)见单差分分析。
受益者或者受益者群体( Beneficiary or beneficiaries)受益者群体是指直接或间接从干预中获益的个人、公司、机构或者村落等。
偏误(Bias)因评估方法或者抽样设计(例:不是由于抽样错误)中的问题引起的影响评估的结果与真实值相异的程度。
盲法(Blinding)隐藏哪些对象属于处理组,哪些属于对照组的过程叫做单盲法。
在采用双盲法时,不论是对象还是试验者都不知道哪些对象属于哪个组。
而在采用三盲法的试验中,数据分析者也不知道对象是属于哪个组。
一般而言,盲法对于社会经济发展干预是不太可行的,因此可能会产生偏误。
整群抽样(Cluster sample)一种多阶段的抽样方法。
在这一过程中,一个样本首先从某个地理区域(例如片区或者村庄)中选取,然后从选定区域中选取某些家庭、企业、机构等作为研究样本。
与简单随机抽样相比,这种抽样方式将造成更大的标准误差,但是出于降低成本的考虑,这种方法经常被采用。
使用地理边界进行断点回归设计
使用地理边界进行断点回归设计断点回归设计(Regression Discontinuity Design)是近年来十分流行的一种因果识别方法,被广泛地应用于社会科学研究的诸多领域。
使用地理边界作为断点回归设计中断点的文章近年来也屡屡有佳作涌现,本期推送的是PennState University政治系副教授Luke J. Keele和密歇根大学政治系助理教授Rocio Titiunik发表在Political Analysis上的综述性文章Geographic boundaries as regression discontinuities。
题外话,推文作者注意到,其实早在Hahn等(2001)发表在Econometrica 上的经典文章之前,他们三位1999年就已经在一篇很古老的NBER工作论文中给出了断点回归设计的基本估计方法(NBER working paper No. 7131),可惜当时并未引起重视。
回到我们推送的文章,作者认为,地理断点回归(Geographic Regression Discontinuity,GRD)虽然其基本思想和估计方法与Hahn等(2001)给出的方法类似,但也有其自身独有的一些特点。
作者将其归纳为以下三个主要的方面:第一,地理断点作为一种多维度处理效应,对结果变量的影响也是多维度的,很容易同时引起其他变量的跳跃,从而使研究者比其他类型的断点回归设计更容易遭遇联立性偏误的问题。
第二,在GRD中,选用不同的距离度量方法将会影响断点回归中的处置变量(forcing variable或者assignment variable),进而对结果产生十分重大的影响。
第三,任何使用GRD的研究都将无法回避空间相关性的问题,而现有的研究通常没有加以考虑。
地理边界对样本的处理效应实际上是高维的,其是否受到处置由经度、维度(有时可能还包括海拔)共同决定。
地球上两点之间的距离是两点经度、维度和该点与地心距离的一个函数,通常我们不考虑地球是个不规则球体这一事实,并且认为相对于地球平均半径(6371千米),任何两点间的海拔差异都小得可以忽略不计。
浅谈分流教育的弊端_2113
浅谈分流教育的弊端分流教育的有关研究中,同伴效应(peer effect)占有重要理论地位。
同伴效应中相互竞争的成分有多大?从严格的实证研究角度讲,这个因果很难单独评估出来,因为把成绩相同的孩子放在一起,他们有可能相互竞争,也有可能因有类似的家庭背景和社会地位而更容易沟通,也有可能因为缺乏多样性而影响创造力。
一般都要受控随机实验(RCT,Randomized Controlled Treatment)才能做出来,很多时候教育学家、经济学家常常没有这个条件。
因此,绝大部分研究和分析都是针对分流教学的,包含了分班/择校等各种区别能力教学的措施。
一、分流教育的定义不同国家对于分流的定义不一样,以我国为例,指的是我们国家高中和部分初中普遍存在的分实验班(火箭班、快班、强化班)以及普通班(平行班、慢班)教学的现象,这在西方国家也是普遍存在的。
如果只是单纯比较快班和慢班教育的成果,包括升学率、高等教育完成比率、失业率、犯罪率以及青少年怀孕比率等,就会忽略其它变量对学生表现的影响。
如,有可能一个学生内在能力就是比另一个要强,所以他/她去了实验班,而另一个去了普通班,以后我们观察到的人生轨迹分歧可能都是拜内在能力所赐。
另一个很有可能形成干扰的因素是家庭背景,包括家庭收入、父母教育、祖父母教育,等等。
这一因素同样会同时影响学生进入快班的概率以及日后的成就。
这些因素都会干扰我们希望进行的研究。
二、分流教育的研究手段解决的方法主要有以下几种。
一是做受控实验。
芬兰在上世纪进行了一次学制改革,将普遍义务教育的时间延长了两年。
由于芬兰的教育制度是在义务教育后分流学生,所以这次改革相当于在全国范围进行的一次实验,个体是否接受改革不受自身特质和家庭背景影响,从而可以得到分流时间推迟对学生成绩的影响。
另一种选取准实验的典型方法是观察入学制度的改革,Kang选取的就是韩国初中的学区内随机分配学位制度(在中国很多地方直接叫派位或者电脑抽签)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
RD方法(regression discontinuity design)●什么是regression discontinuity design?下面将用一篇文章来介绍:如何理解「由于使用燃煤取暖,中国 5 亿北方居民预期寿命将缩短 5.5 年」?7月8日发表在《美国国家科学院院刊》(PNAS)的一篇论文,向已经逐渐意识到空气污染危害的中国民众再次展现了残酷的现实:以淮河为界,烧煤供暖的中国北方地区空气污染水平高于中国南方,北方5亿居民因严重的空气污染,平均每人失去5年寿命。
这篇文章由清华大学的李宏彬、北京大学的陈玉宇和另外两位作者共同完成。
前两位完成了这篇论文的主要部分。
这个回答首先介绍他们的研究方法,再谈一谈研究者和媒体对这篇文章的引申。
●科学家如何得出「使用燃煤取暖中国5亿北方居民预期寿命将缩短5.5年」这个结论的?首先要说的是这篇文章使用的RD方法(regression discontinuity design),即断点回归方法。
断点回归方法是最近的政策评估中非常重要的一个方法,他可以在没有随机性的情况下识别出政策的效果。
在早期的研究中,要识别一个处理(Treatment)的效果,我们必须拥有随机性,比如两组随机分开的小白鼠,一组加上某种处理,一组没有处理,最后观察两者的区别。
为什么我们那么需要随机性呢?因为研究的基础需要几组十分类似的群体,他们的任何特征都服从一个相同的分布,无论是性别、年龄、教育、健康程度……这样,我们才能确定几组对象之间出现的差别是来自于实验处理的差异,而非某些个人特征。
从一个大样本中严格随机抽取的样本,正好满足这样的同分布假设。
但对于政策研究来说,我们不可能找到这样随机分开的两组人,而且也无法用实验的方法来获得结果——你能将随机分开的100人放在干净空气中,将另外100人放在肮脏空气中并观察一段时间吗?一些研究者面对这种缺乏随机性的情况,采用了增加控制变量的方式。
比如,把性别年龄教育健康程度全部放进回归式中,然后声称,两组人之间由于性别年龄教育健康的不同而造成的差别都已经去掉了,剩下的就是这个政策的效果了。
可是,这很容易遭到批评,而且是没完没了的批评。
为什么不控制工资高低?婚姻状况?从事行业?只要没有随机分开,任何特征变量的差异造成的结果,都可能混淆在政策结果中,你不控制这个变量,政策的效果就仍然没有识别干净。
遭到批评的研究者只能继续加变量,没完没了的加变量。
更关键的是,前面说的还是可以量化的东西,努力程度?性格特征?甚至,智商?这些不可观测的变量可能影响更大。
举一个例子,科学家想知道上了“一本”大学对学生未来的工资有什么影响。
上了一本和没上一本的大学生,显然不是随机分开的两个群体。
当然也没法用控制变量的方法来消除“一本”之外的影响,因为肯定有一些不可观测的变量是你控制不了的。
控制变量法至此完败。
但科学家并没有束手无策,他们找到了RD方法。
所谓RD方法,就是观察那些在一本线上下2分的学生,看“上一本”和“没上一本”的学生的未来工资差异。
这个想法的天才之处在于,高考的上下5分,实在是一件随机性非常大的事情。
让这批学生重新考一次,不少学生的情况可能就要逆转。
对于这5分区间内的学生来说,一条一本线,就像一个天然的分割线,将两组人随机分开了。
退一步说,即使我们将高考视为一项没有随机性的考试,RD方法还有另外一个假设——连续性假设。
那些刚好上了一本的学生,比起差几分没上一本的学生,可能要聪明一点;也可能家庭环境好一点,请了好一点的家庭教师;也可能更努力一些,多做了几道习题。
但注意,如果我们将智商、努力程度、家庭环境等等变量都视为连续的变量,那么上了一本的学生,比起没上一本的,也只是多了那么“一点点”。
于是,我们可以开始观察这批学生的工资了。
RD方法的所有目光,都聚焦在了那个“间断点”上。
首先看一本线下1分的学生,和线下2分的学生,线上2分的学生和线上1分的学生,是否有工资差别?直观上想,可能没有,可能前者比后者高10块,这说明在没有其他显著差别时,各种连续变量产出的工资,也应该是一个连续变量。
但我们再看线上0分的学生,和线下1分的学生时,显著的工资差异出现了,乖乖,差1000块。
线上0分的学生,和线下1分的学生,各种特征都应该是差不多的,即便有差别,在连续性假设下也应该是很小很小的差别,那么产生这样显著的工资差异,只能由前者上了一本,而后者没上一本来解释了,因为这是两者间唯一的区别。
于是,科学家们说,“上一本”这个事情,可以增加大学生大约1000元工资。
我们回到这篇论文上,作者正是观察到了这样一条天然的分割线:淮河以北地区,政府提供了暖气,用烧煤的方式进行,而淮河以南则没有。
那么,淮河两岸十分接近的两个地区,理论上来说也应该服从这样的“连续性”假设,也就是各种变量都差不多,唯一的区别就是有没有烧煤。
于是作者发现,由于烧煤,淮河以北的空气总悬浮物比淮河以南多了而空气污染造成的结果,淮河两岸的人均寿命差异则是惊人的5年。
同时,不考虑空气污染,用其他变量预测出来的人均寿命则几乎没有差别。
这说明了连续性假设是成立的,淮河两岸的两个十分接近的地区几乎拥有相同的特征。
作者还发现,淮河以北的超额死亡率,正是由和空气污染相关的心肺疾病相关,并进而与空气总悬浮物相关,而与谋杀、自杀等因素无关。
至此,作者终于给出结论:烧煤将使空气总悬浮物大幅度上升,并使中国北方地区的居民人均寿命降低5年。
Regression Discontinuity Design的局限性「由于使用燃煤取暖,中国5亿北方居民预期寿命将缩短5.5年」这个结论有什么问题?如果看完上面那段,你感到心服口服,感叹科学家真聪明,RD方法真奇妙,进而相信了这个结论,那……你可能不是从事学术工作的。
这项研究主要存在以下三个问题。
第一个问题:连续性假设是否对所有变量都成立?淮河分界线两边的城市,真的在所有变量上都是连续的吗?作者在Figure4中控制了许多变量,并验证他们都是连续的,但那些没有控制的变量呢?我们可能可以说说高考差5分的学生没有什么显著差别,但一条河流两旁的城市,我们就很难说他没有显著差别。
由于河流两侧的流速不同,地势不同,我们常常能发现一条河两侧的气候特征相差较大,甚至作物种植不同,这些都会导致死亡率的差异,也有可能造成空气总悬浮物的不同,而且他们都没有被控制在作者的图中。
也就是说,淮河这个间断点,在识别烧煤取暖对空气污染以及死亡率的作用上,还不够干净。
第二个问题:无法消除的自选择性还是从“一本和工资”的故事开始讲。
科学家们虽然能研究一本线上的学生和线下1分学生的工资差异,可却忘记了一个问题:可能有好些刚好越过一本线的学生,并不是因为他考上了一本,而是他老爹有一些手腕,买通了官员,将他儿子的分数改了。
而且,又不好太张扬,于是,就改一个躺在一本线上的分数。
所以,他们的工资差异,还有一部分来自那些躺在一本线上学生的“有手腕的老爹”。
对于这一项研究来说,所谓的自选择,就是迁移。
一些在淮河以北的居民可能发现,淮河以北空气太差,他还是搬到淮河以南吧。
而另一些淮河以南的居民感到没有暖气太冷,于是他选择搬到淮河以北。
于是,搬到淮河以南的人,更注重自身健康;搬到淮河以北的人,由于体弱而怕冷。
如此,两岸居民的分布就出现了差异,其寿命差异,有一部分就来自这些不可观测的自选择效应。
第三个问题:小范围的有效性回到上一本和工资的那个例子上。
“科学家们说,“上一本”这个事情,可以增加大学生大约1000元工资。
”这句话,就有问题。
你最多只能说:一本线上2分的学生,能因为上一本这个事情,增加约1000元的工资。
举一个极端的例子,一个因为家庭情况不允许复读,而且本来可以超过一本线100多分,甚至可以上清华北大的学生,却因为试卷丢失而少了一门成绩,从而没上成一本。
对他来说,“上一本”这个事情,可能就不止1000元工资的差异了。
这个例子的意思是,RD方法得出的结论,仅仅在他所研究的那个小范围内有效。
超出这个范围太多,就没有那么有效了。
同样的,我们可以说“淮河以北,且紧邻淮河的地区,因为烧煤取暖导致的空气总悬浮物增加,损失了5.5年的寿命”。
但将结论推到北方所有地区,就有问题。
比如,也许从淮河向北,人们拥有一个随纬度升高而逐渐上升的“空气总悬浮物耐受能力”,但科学家却无法观察到这点,“5.5年寿命差异”的外推便失效了。
鉴于以上三个缺点,烧煤取暖到5.5年寿命差异这个逻辑链条,我们都不能够完全相信。
更别说将这个寿命差异推广到整个北方地区了。
当然,我们也不能矫枉过正,全盘否定这项研究的意义。
这一项研究的重要意义在于:1,消除了无休止的口水仗,识别了空气污染和健康之间的因果关系。
要知道在使用RD方法之前,“空气污染有害论”者还在不停地增加控制变量,“空气污染无害论”者还在argue不可观测的健康特征呢。
2,虽然有上述提到的几个问题,但他们的数据选取让我相信这几个问题都不是特别严重,我们大致可以下定论,淮河以北十分接近的几个城市,由空气污染所导致的寿命减少大致是5年左右。
这是一个十分醒目的结果,会引起一批人的重视。
3,上一点私货。
鉴于两位主要作者都是经济学家,这个研究,是经济学帝国主义的又一次扩张。
以后,在这样的自然科学刊物上,来自经济学家的贡献可能会越来越多。
因为经济学最关注的就是因果识别,经济学的好些识别方法,早就溢出到了社会科学的其他领域,也正在逐渐蔓延到一些和政策相关的自然科学领域。
前阵子的人类学家大战经济学家事件也只是经济学帝国主义的一个缩影,作为经济学研究人员,我感到十分高兴。
在因果关系分析的实证方法中,最优的选择应当为随机实验,但是随机实验的时间成本和经济成本都比较高,而在随机实验不可得的情况下,需要考虑使用其它方法。
断点回归(Regression Discontinuity):是仅次于随机实验的,能够有效利用现实约束条件分析变量之间因果关系的实证方法。
在使用断点回归的情况下,存在一个变量,如果该变量大于一个临界值时,个体接受处置,而在该变量小于临界值时,个体不接受处置。
一般而言,个体在接受处置的情况下,无法观测到其没有接受处置的情况,而在断点回归中,小于临界值的个体可以作为一个很好的可控组(Control Group)来反映个体没有接受处置时的情况,尤其是在变量连续的情况下,临界值附近样本的差别可以很好的反映处置和经济变量之间的因果联系。
断点回归可以分为两类,第一类,临界值是确定的(Sharp),即在临界值一侧的所有的观测点都接受了处置,反之,在临界值另一侧的所有观测点都没有接受处置。
此时,接受处置的概率从临界值一侧的0跳转到另一侧的1;第二类,临界点是模糊的(Fussy),即在临界值附近,接受处置的概率是单调变化的。