让跳跃更有意义:断点回归设计(RDD)
rdd断点回归模型 第一阶段、简化形式和第二阶段

RDD(Regression Discontinuity Design)断点回归设计是一种常用的因果推断方法,用于评估某一处理对于结果变量的影响。
在实际的社会科学、经济学和政策评估研究中,对于RDD方法的应用越来越广泛。
本文将重点讨论RDD断点回归模型的第一阶段、简化形式和第二阶段,以便更好地理解和运用这一方法。
一、RDD断点回归模型的第一阶段在RDD设计中,被处理的对象根据其自身特征在一个阈值点上被分成了处理组和对照组。
第一阶段就是指在这个阈值点附近对处理组和对照组的特征变量进行回归分析,以检验处理(介入)变量是否对阈值附近特征变量产生了影响。
在RDD的第一阶段中,我们可以利用条件平行趋势假设(Common Regression Discontinuity Design Assumption)来进行估计。
在这个假设下,我们假设在阈值附近的处理组和对照组具有类似的趋势,即在阈值点之前,处理组和对照组之间的特征变量值变化趋势是相似的。
利用这一假设,我们可以通过回归分析来估计处理变量对结果变量的影响。
二、RDD断点回归模型的简化形式在实际应用中,为了简化模型和提高回归估计的效率,我们可以将RDD模型进行简化。
简化形式的RDD模型主要是通过截断线性回归模型(Truncated Linear Regression Model)来进行估计。
在这种模型中,我们只对阈值点附近一段范围内的数据进行回归分析,以减少其他无关变量的干扰。
简化形式的RDD模型还可以采用局部多项式回归(Local Polynomial Regression)来进行估计,以更好地适应数据的非线性特征。
通过简化形式的模型,我们可以更好地控制回归估计的方差,提高估计的准确性。
三、RDD断点回归模型的第二阶段在RDD设计中,第二阶段主要是通过控制第一阶段的回归估计结果,进一步对处理变量对结果变量的影响进行评估。
第二阶段的方法主要有两种:鲁宾斯特因果效应估计(Rubin Causal Effect Estimation)和平行趋势检验(Parallel Trend Test)。
断点回归设计的步骤

近在做一个需要利用断点回归设计的研究。
为了保证实践的规范性,并且避免未来审稿中可能面对的质疑,花了几天时间梳理了一下断点回归设计的标准操作,整理出来,供来人参考。
本文参考了三篇文献,先摆在这里,建议大家去读原文:第一篇:Lee, and Lemieux, 2010," Regression Discontinuity Designs in Economics ",Journal ofEconomic Literature, Vol. 48: 281–355.第二篇:Pinotti, Paolo. "Clicking on heaven's door: The effect of immigrant legalization oncrime." American Economic Review107.1 (2017): 138-68.第三篇:Thoemmes, Felix, Wang Liao, and Ze Jin. "The Analysis of the Regression-DiscontinuityDesign in R." Journal of Educational and Behavioral Statistics 42.3 (2017): 341-360.1.断点回归常规操作流程第1步检查配置变量(assignment variable,又叫running variable、forcing variable)是否被操纵。
这里的配置变量,其实就是RD中决定是否进入实验的分数(Score),是否被操纵的意思就是,是否存在某种跳跃性的变化。
在实际操作中有两种方式来检验,一是画出配置变量的分布图。
最直接的方法,是使用一定数量的箱体(bin),画出配置变量的历史直方图(histogrm)。
为了观察出分布的总体形状,箱体的宽度要尽量小。
Stata:断点回归(RDD)教程

Stata:断点回归(RDD)教程作者:张子楠 (浙江财经大学)E-mail:******************Stata连享会计量专题 || 公众号合集点击查看完整推文列表连享会直播:我的特斯拉—实证研究设计(连玉君主讲)课程主页:/arlionn/Live•1. RDD基本原理•2. 图形观察o 2.1 生成模拟数据o 2.2 断点效应的图形观察•3. 政策效应估计o 3.1 局部线性回归o 3.2 局部多项式回归o 3.3 全局多项式回归•4. RDD有效性检验o 4.1 局部平滑性的检验o 4.2 驱动变量不受人为控制的检验•5. 稳健性检验o 5.1 断点的安慰剂检验o 5.2 样本选择的敏感性检验o 5.3 带宽选择的敏感性检验1. RDD基本原理断点回归分析被认为是最接近随机实验的检验方法,能够缓解参数估计的内生性问题,近来在越来越多的研究中得到使用。
现有资料已经对断点回归方法的基本原理和效应识别进行了较为广泛的介绍,但对阶数选择和稳健性检验等问题的仍相对较少涉及。
本文将基于Stata软件来系统介绍断点回归方法的图形观测、效应识别和有效性和稳健性检验。
限于篇幅,本文将内容限定于清晰断点回归方法(Sharp Regression Discontinuity Design ),且只考虑只有一个断点和一个分配变量的问题。
2. 图形观察2.1 生成模拟数据我们先生成一份模拟数据,并保存为 RDD_simu_data0 。
生成的数据中, z1 和 z2 为控制变量。
y1 为结果变量(outcome variable)。
x 为分配变量(assignment vaiable)。
分配点(cutoff point)设定为 0.5 ,从而x大于0.5 的为实验组,小于0.5的为对照组。
此外,在RDD检验中,我们通常还会对分配变量进行去中心化处理,即用分配变量减去分配点值。
如本文中,令xc=x-0.5 。
断点回归和读者的提问解答

断点回归和读者的提问解答本文包括两部分:政策评估方法里的断点回归设计(regression discontinuity design),附加了部分倾向匹配分析方法,和读者3个提问的解答(文章后面)。
断点回归是一种准实验设计。
如果政策在一个关于个人背景的连续的变量(例如考试成绩、家庭人均收入等)上设定一个临界值(Cutoff/Threshold),使得在临界值一侧的个体接受政策干预,而在临界值另一侧的个体不接受干预,则在临界值附近就构成了一个准实验。
我们把这个决定了是否接受干预的连续变量叫做强制变量(Forcing Variable),由于强制变量是连续的,所以在临界值两侧的个体应该是类似的、可比的,则这两侧的个体在产出上的差异就应该是干预造成的差异。
当个体是否接受政策干预由强制变量值与临界值之间的关系决定时,我们可以用如下数学表达式:现在假设设立了奖学金,且只有成绩高于一个临界点的学生才能获得,则获得这个奖学金对上大学概率的影响可以用公式(10)来表达:应用断点回归的一个经典研究是Lemieux&Milligan(2008)(17)。
他们研究社会救助会不会影响就业率。
劳动力经济学家根据理论推测,增加社会救济会减少接受救济的人群工作的必要性,从而减少劳动力供给、降低就业率。
Lemieux&Milligan(2008)研究的这个社会救助项目规定30岁以下的人只能获得185美元,而一旦超过30岁,就可以获得507美元,这是一个巨大的差额。
因此年龄就是这个政策的强制变量,临界点是30岁。
图4展示了1986年人口普查时30岁以下和30以上的人群获得社会救助的额度。
可以看到在临界点两侧,人们的救助收入有一个飞跃。
因此,实际情况完全符合政策设计。
图5展示了人口普查当天在临界点30岁附近,就业率的情况。
可以看到,在30岁附近的就业率确实有一个跳跃。
这就是在30岁时大幅增加社会救助的干预效应——降低就业率。
regression discontinuity design in economics

regression discontinuity design in economics
回归断点设计(Regression Discontinuity Design,RDD)是经济学研究中常用
的一种估计因果关系的方法。
它通过利用自然实验的断点,解决了传统实验设计很难实现或不现实的限制,同时可以更准确地估计因果效应。
在回归断点设计中,存
在一个或多个变量作为配置变量(score),它们决定了个体是否被包含在实验中。
具体操作上,可以通过画出配置变量的分布图和因变量均值对配置变量的散点图来观察是否存在回归断点。
在散点图中,如果存在断点,那么在断点处的跳跃是否正常可以为我们提供一些启示。
为了更好地观察分布的总体形状,箱体的宽度要尽量小。
回归断点设计在经济学的应用中有很多优点,例如可以更准确地估计因果效应,并且可以通过利用自然实验的断点来解决传统实验设计的限制。
但也有其局限性和潜在的挑战,例如存在多重处理的问题、必须存在合适的断点和需要选择适当的配置变量等。
总之,回归断点设计是一种估计因果关系的方法,它在经济学中有广泛的应用。
但也需要考虑其局限性和潜在的挑战,以实现更为准确和可靠的估计。
Stata:不可不知的4种断点回归(RDD)中的平滑性检验方法

Stata:不可不知的4种断点回归(RDD)中的平滑性检验方法Stata: 不可不知的4种断点回归 (RDD) 中的平滑性检验方法断点回归由Thistlewaite and Campbell(1960)首次使用,但直到1990年代末才引起经济学家的重视。
Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应,在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。
此后30年, 该方法并未引起学术界的重视,直到1990年以后, 断点回归设计开始被应用于各种领域,并且近年来成为因果分析和政策评估领域最重要的研究方法。
Hahn et al(2001)提供了断点回归在计量经济学理论基础。
目前,断点回归在教育经济学、劳动经济学、健康经济学、政治经济学以及区域经济学的应用仍方兴未艾。
参见Imbens and Lemieux(2008),Van Der Klaauw(2008)以及Lee and Lemieux(2010)的文献综述。
在进行断点回归(RD)设计时,一般需要检验参考变量分布连续性检验/检验内生分组这里检验内生分组,即主要检验配置变量,其实就是RD中个体是否将自行进入断点两侧,决定是否进入实验的,并是否存在某种跳跃性的变化。
如果存在内生分组,个体将自行进入实验,导致在断点两侧的分布不均匀,这样分组变量x的密度函数f(x)在x=c处不连续,出现左右极限不相等的情况。
McCrary(2008)提出了一种核密度函数的检验方法(命令是DCdensity,介绍见下述操作),将参考变量划分成不同的区间并计算各区间中的个体数量,如果个体能够操纵参考变量,我们将能观测到断点左右个体数量有较大差别,比如很多个体通过操纵到了断点的右侧,那么,在断点右侧的区间中个体数量可能将大大超过断点左侧区间中个体的数量,利用带宽选择和曲线拟合方法,可以检验在断点处c是否存在跳跃。
断点回归RDD

工具变量法( Instrumental Variable,IV) 、双重差分法( Difference-in-Difference,DID) 和断点回归设计( Regression Discontinuity Design,RDD) 成为应用微观计量研究中运用最广泛的方法。
断点回归是拟随机实验方法中揭示因果效应最有效的一种方法,可以视作是一种特殊的倾向值匹配,它不需要对多个混淆变量控制,而是考虑一个个体是否接受某个自变量的影响。
RDD 优势:更接近于随机试验的拟随机实验方法,从理论上讲是一种更好的因果识别方法。
拟随机实验方法是以统计控制模拟实验控制,从而检验因果假设。
Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。
1960 年就已被Thistlethwaite 和Campbell( 1960)提出,Lee 和Lemieux ( 2010)提出了运用RDD 做经验研究的规范。
RDD 适用条件:符合非混淆假设。
在断点附近有较多观测值,对数据要求很高。
强制变量一定要非常干净,强制变量的临界值不得用于作为实验之外的干预。
断点回归设计的基本逻辑哲学逻辑:Holland(1986)通过总结自然科学、社会科学的大量研究和讨论,提出科学的解决方案和统计的解决方案两种解决因果问题的方案,科学的解决方案主要包括重复实验和随机实验。
断点回归的主要思想,运用随机实验思想,控制研究的样本近似于随机分布在临界值附近,小于临界值的样本作为控制组,大于临界值的样本作为实验组,通过比较它们的差别来研究干预变量和结果变量之间的因果联系。
统计逻辑:通过统计控制,使得非实验的调查数据尽可能地随机分布在临界值附近,同时,满足非混淆假设,就是要求结果变量独立于干预变量。
解决了传统方法中个体异质性和混杂因素的问题。
非混淆假设要求研究对象是随机地分配到实验组和对照组,即二分量D(实验处置变量)本身和最后的实验结果Y1(接受实验的结果——事实)、Y0(未接受实验的结果——反事实)没有关系(工具变量思想),换句话说,Y1、Y0独立于D。
社会科学研究中的断点回归设计

社会科学研究中的断点回归设计
断点回归设计是社会科学研究中常用的一种方法,旨在探究某个自变量在一个或多个特定阈值点发生变化时,对因变量产生的影响。
在断点回归设计中,研究者首先选择一个或多个自变量作为断点,并通过对该自变量的某个或多个阈值点进行分割,将样本观测值划分为低于、高于或等于阈值的不同组别。
然后,通过运用回归分析,分别对每个组别进行回归分析,以探究自变量在不同组别中对因变量的影响。
主要应用领域包括经济学、教育学、社会学等社会科学领域。
例如,在经济学中,研究者可能对所得水平进行断点回归分析,以探究所得对消费行为的影响是否存在非线性关系。
断点回归设计的优点包括能够识别自变量与因变量之间的不同关系模式,帮助理解自变量对因变量的影响方式;同时,通过考察阈值点,还可以揭示政策或实践上的相关意义。
然而,断点回归设计也存在一些限制和挑战。
例如,确定合适的阈值点需要在理论和实证的基础上进行推断,具有一定的主观性和不确定性;此外,样本选择和内生性问题也可能对分析结果产生影响。
总而言之,断点回归设计是一种用于社会科学研究中探究自变量对因变量影响的方法,其在研究领域中应用广泛,可以帮助研究者更深入地理解相关关系,并为政策制定提供参考依据。
使用地理边界进行断点回归设计

使用地理边界进行断点回归设计断点回归设计(Regression Discontinuity Design)是近年来十分流行的一种因果识别方法,被广泛地应用于社会科学研究的诸多领域。
使用地理边界作为断点回归设计中断点的文章近年来也屡屡有佳作涌现,本期推送的是PennState University政治系副教授Luke J. Keele和密歇根大学政治系助理教授Rocio Titiunik发表在Political Analysis上的综述性文章Geographic boundaries as regression discontinuities。
题外话,推文作者注意到,其实早在Hahn等(2001)发表在Econometrica 上的经典文章之前,他们三位1999年就已经在一篇很古老的NBER工作论文中给出了断点回归设计的基本估计方法(NBER working paper No. 7131),可惜当时并未引起重视。
回到我们推送的文章,作者认为,地理断点回归(Geographic Regression Discontinuity,GRD)虽然其基本思想和估计方法与Hahn等(2001)给出的方法类似,但也有其自身独有的一些特点。
作者将其归纳为以下三个主要的方面:第一,地理断点作为一种多维度处理效应,对结果变量的影响也是多维度的,很容易同时引起其他变量的跳跃,从而使研究者比其他类型的断点回归设计更容易遭遇联立性偏误的问题。
第二,在GRD中,选用不同的距离度量方法将会影响断点回归中的处置变量(forcing variable或者assignment variable),进而对结果产生十分重大的影响。
第三,任何使用GRD的研究都将无法回避空间相关性的问题,而现有的研究通常没有加以考虑。
地理边界对样本的处理效应实际上是高维的,其是否受到处置由经度、维度(有时可能还包括海拔)共同决定。
地球上两点之间的距离是两点经度、维度和该点与地心距离的一个函数,通常我们不考虑地球是个不规则球体这一事实,并且认为相对于地球平均半径(6371千米),任何两点间的海拔差异都小得可以忽略不计。
让跳跃更有意义:断点回归设计(RDD)

让“跳跃”更有意义:断点回归设计(RDD) 在一个高度依赖规则的世界里,有些规则的出现十分随意,这种随意性为我们提供了性质良好的实验(Angrist&Pischke,2009)。
断点回归设计(RegressionDiscontinuity Design)是一种仅次于随机实验的能够有效利用现实约束条件分析变量之间因果关系的实证方法。
Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。
断点回归方法首先是由美国西北大学心理学家Campbell于1958年提出的;并与1960年,与Thistlethwaite正式发表了第一篇关于断点回归的论文,提出断点回归是在非实验的情况下处理处置效应(Treatment Effects)的一种有效的方法,主要应用于心理学和教育学领域。
1963年,Campbell and Stanley为断点回归提供了更加清晰化的概念,但由于当时还缺乏严密的统计证明,加之IV 方法在处理内生性的思路和范式上具有更广阔的适用范围,因此在随后的几十年间,RD 方法一直没有得到经济学者的重视。
直到上世纪90 年代末,随着该方法的理论基础得到进一步发展,大量经济学文献才开始使用RD 方法对变量之间的因果关系进行识别。
断点回归可以分为两类,一类是模糊断点回归(Fuzzy RD),另一类是清晰断点回归(Sharp RD)。
清晰断点回归可以看作是一种基于可观察变量进行的选择(selection-on-observablesstory),而模糊断点回归则常被视为一种工具变量的方法(instrumental-variables-type)。
清晰断点回归(Sharp RD)当处理状态是协变量确定型、不连续函数时,可以使用清晰间断点回归法。
对于清晰断点回归,个体在临界值的一边接受处理效应(treatment effect)的概率为0,而在临界值另一边的概率则为1。
《因果推断实用计量方法》大学教学课件--第12章-断点回归

方法,虽然它使用的是观测数据而非真正的实验数据。
断点回归的数据要求
断点回归的数据要求一
断点回归的数据需要包含3个基本变量
✓ 配 置 变 量 ( Assignment Variable ) , 也称作 驱 动 变 量 ( Forcing Variables,
Running Variables):配置变量是个体的一个连续特征变量,匹配变量的值
• 接受治疗的平均潜在健康状况 1 和收入关系的函数为
1 =
• 未接受治疗的平均潜在健康状况 0 和收入关系的函数为
0 =
• 给定收入水平,病人平均治疗效果为
τ = 1 − 0 = −
• 本文利用美国企业成立工会投票事件来估计工会对债券价格的因果影响。当
成立工会投票结果公布后,企业的债券价格会对投票结果做出反映,RDD的方
法是通过比较工会得票率在50%左右企业的债券价格变化来估计工会的影响。
变量
• 配置变量(vote_for_share):支持成立工会的得票率;
• 断点:得票率为50%。如果支持工会成立得票率大于或等于50%,企业必须成
(5.2) 局部多项式回归(rdrobust)
多项式次数
带宽选择
权重选择
RDD运用实例
文章背景
• 文章引用:Murillo Campello, Janet Gao, Jiaping Qiu, and Yue Zhang, "Bankruptcy
and the Cost of Organized Labor: Evidence from Union Elections," Review of
(1) , ≤ 50
RD断点回归法

You jump, I will not jump!断点回归的连续性假设断点回归RD是当代社会科学因果推断的最基本无害的大招之一。
比如我们要研究上一本大学是否能提高一个人的工资,如果直接对比上了一本大学和没上一本大学群体的工资,可能会因为上一本大学的天生能力更强而得出有偏误的结论,而能力等不可观测变量无法控制。
RD给我们提供了一个思想——观察一本线附近上下几分学生的工资。
比一本线低2分、1分的人工资差距不大,高2分、1分的差距也不大,但比一本线低1分的和正好达线的工资上有个跳跃,那这个跳跃就是一本大学对工资的作用。
一本线产生了一个天然的跳跃(两侧的人分别上一本和二本),如果在一本线两侧我们也看到了关注变量(工资)的跳跃,那么就识别了因果效应。
直觉上来看,RD的成立还需要一个关键假设:一本线产生了一个天然的跳跃,但一本线附近学生各特征不能有跳跃!否则就混淆了一本大学对工资的作用。
这就是连续性假设。
1、断点回归背景介绍Thistlethwaite and Campbell(1960)使用了RD方法后的40年,RD并没有在经济学中大规模使用,一大原因就是RD太像自然科学的随机实验了,太不像经济学传统方法了(比如上周我们BLUE_OLS读Black(1999)关于择校会使房价上升的论文(”Do better schools matter? Parental valuation of elementary education”),该文利用学区边界推断因果,应该说思想跟RD 很像,但没有按照RD框架来写,可能的原因是作者写作年代RD还并不流行)。
直到Hahn, Todd, and van der Klaauw(2001)把RD纳入到了我们熟悉的“反事实因果推断”框架下,如下图(原文图2)。
我们把断点看成一种treatment,断点右侧的是处理组,断点左侧的是控制组。
可以观测到处理后的处理组,和未处理的控制组。
断点回归设计的步骤

断点回归设计的步骤近在做⼀个需要利⽤断点回归设计的研究。
为了保证实践的规范性,并且避免未来审稿中可能⾯对的质疑,花了⼏天时间梳理了⼀下断点回归设计的标准操作,整理出来,供来⼈参考。
本⽂参考了三篇⽂献,先摆在这⾥,建议⼤家去读原⽂:第⼀篇:Lee, and Lemieux, 2010," Regression Discontinuity Designs in Economics ",Journal ofEconomic Literature, Vol. 48: 281–355.第⼆篇:Pinotti, Paolo. "Clicking on heaven's door: The effect of immigrant legalization oncrime." American Economic Review107.1 (2017): 138-68.第三篇:Thoemmes, Felix, Wang Liao, and Ze Jin. "The Analysis of the Regression-DiscontinuityDesign in R." Journal of Educational and Behavioral Statistics 42.3 (2017): 341-360.1.断点回归常规操作流程第1步检查配置变量(assignment variable,⼜叫running variable、forcing variable)是否被操纵。
这⾥的配置变量,其实就是RD中决定是否进⼊实验的分数(Score),是否被操纵的意思就是,是否存在某种跳跃性的变化。
在实际操作中有两种⽅式来检验,⼀是画出配置变量的分布图。
最直接的⽅法,是使⽤⼀定数量的箱体(bin),画出配置变量的历史直⽅图(histogrm)。
为了观察出分布的总体形状,箱体的宽度要尽量⼩。
断点回归(RD)学习手册

断点回归(RD)学习手册断点回归由Thistlewaite and Campbell(1960)首次使用,但直到1990年代末才引起经济学家的重视。
Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应, 在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。
由于奖学金由学习成绩决定,故成绩刚好达到获奖标准与差一点达到的学生具有可比性。
如果考试分数大于获奖标准分数, 则进入处理组;如果考试分数小于获奖标准分数, 则进入控制组。
因此处理变量在获奖标准分数处形成了一个断点, 该研究设计的主要思想是可以利用靠近这一断点附近的样本来有效估计处理效应。
Angrist and Lavy(1999)在研究班级规模对成绩的影响时,利用以色列教育系统的一项制度进行断点回归;该制度限定班级规模的上限为40名学生,一旦超过40名学生(比如41名学生),则该班级被一分为二。
此后30年, 该方法并未引起学术界的重视,直到1990年以后, 断点回归设计开始被应用于各种领域,并且近年来成为因果分析和政策评估领域最重要的研究方法。
Hahn et al(2001)提供了断点回归在计量经济学理论基础。
目前,断点回归在教育经济学、劳动经济学、健康经济学、政治经济学以及区域经济学的应用仍方兴未艾。
参见Imbens and Lemieux(2008),Van Der Klaauw(2008)以及Lee and Lemieux(2010)的文献综述。
断点回归设计是一种准自然实验, 其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的,因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。
一般将该连续变量X称为分组变量 (assignment variable) 。
模糊断点回归 协变量

模糊断点回归协变量
模糊断点回归(Fuzzy Regression Discontinuity, FRD)是一种回归分析方法,用于研究一个连续变量(称为跳跃变量)对另一个连续变量(称为结果变量)的影响是否存在一个阈值效应。
在模糊断点回归中,协变量是指除了跳跃变量和结果变量之外的其他控制变量,用来控制可能对结果变量产生影响的其他因素。
模糊断点回归通过比较跳跃变量在阈值附近两侧对结果变量的平均差异来估计阈值效应。
具体而言,该方法将观测样本根据跳跃变量的取值与阈值的关系进行分组,然后分别计算两个组的结果变量的平均值差异。
如果在阈值处存在阈值效应,即跳跃变量对结果变量的影响在阈值左右发生明显变化,那么在阈值处的平均差异应该显著不等于零。
协变量在模糊断点回归中的作用是控制其他可能干扰结果变量的因素。
通过引入协变量,可以减少由于未考虑其他因素导致的误差和偏差,从而更准确地估计阈值效应。
在实际应用中,选择合适的协变量需要基于领域知识和理论基础进行判断。
通常可以通过观察协变量与跳跃变量和结果变量之间的相关关系来判断其是否需要作为控制变量加入模型中。
1。
python rdd回归结果解读

回归分析是统计学中常用的一种分析方法,用来探究自变量与因变量之间的关系。
在Python中,RDD(Regression Discontinuity Design)回归是一种常见的回归分析方法,它适用于处理因果推断中的断点回归问题。
在本文中,我们将对Python中的RDD回归结果进行解读,帮助读者更好地理解和应用这一分析方法。
一、RDD回归的基本原理RDD回归是一种利用跳跃点(断点)进行分析的回归方法,它可以有效地处理因果效应的推断问题。
在RDD回归中,我们假设存在一个断点,当自变量的取值趋近于这个断点时,因变量的取值会发生突变。
通过对断点附近的数据进行回归分析,我们可以得到自变量对因变量的因果效应估计。
二、RDD回归的基本步骤1. 确定跳跃点:我们需要通过图表或其他分析方法确定自变量与因变量之间存在的跳跃点,这个跳跃点将作为我们进行回归分析的关键依据。
2. 构建回归模型:在确定了跳跃点之后,我们可以利用Python中的相关库(如statsmodels、scikit-learn等)构建RDD回归模型,将自变量和因变量之间的关系进行建模分析。
3. 进行回归分析:通过对回归模型进行估计和拟合,我们可以得到自变量对因变量的因果效应估计值,从而进行因果推断。
三、RDD回归结果的解读在进行RDD回归分析后,我们通常会得到一些重要的统计量和参数估计结果,接下来将对这些结果进行解读。
1. 断点处的因果效应:在RDD回归中,我们通常会关注自变量在跳跃点处对因变量的因果效应。
通过回归分析,我们可以得到跳跃点处的因果效应估计值,这个值将帮助我们理解自变量对因变量的影响程度。
2. 回归系数的显著性:在RDD回归中,我们也需要关注回归系数的显著性检验结果,这将帮助我们确定回归模型的可靠程度和参数估计的准确性。
3. 拟合优度的评估:通过检验回归模型的拟合优度和残差分析,我们可以评估RDD回归模型对数据的拟合程度,进而判断模型的适用性和准确性。
断点回归设计方法应用的研究综述

经济管理㊀㊀[基金项目]国家社会科学基金项目 我国医院行业市场机制有效性的实证研究 (17BGL170)㊀㊀[作者简介]谢谦(1982-㊀)ꎬ男ꎬ河北保定人ꎬ中国社会科学院经济研究所助理研究员ꎮ主要研究方向:国际经济学ꎮ①分别为AmericanEconomicReview(AER)㊁Econometrica(ECMA)㊁JournalofPoliticalEconomy(JPE)㊁Quar ̄terlyJournalofEconomics(QJE)和ReviewofEconomicStudies(RES)ꎮ②不包括五大上关于RDD方法的理论研究论文ꎮ我们在Jstor数据库中用全文任一地方出现 regressiondiscontinuity 这个关键词检索ꎬ然后剔除不是运用RDD做的经验研究论文ꎬ譬如RDD的理论研究论文㊁仅论文文献综述或脚注中出现 regressiondiscontinuity 的论文等ꎮ断点回归设计方法应用的研究综述谢㊀谦1㊀薛仙玲2㊀付明卫1(1.中国社会科学院经济研究所ꎬ北京㊀100836ꎻ2.中国社会科学院研究生院ꎬ北京㊀102488)㊀㊀[摘㊀要]㊀近年来ꎬ国内经济学界颇为关注断点回归设计(RDD)方法ꎬ运用RDD的文章日益增多ꎮ首先概述Lee和Lemieux(2010)提出的运用RDD的规范ꎬ然后基于2011-2017年五大英文顶级经济学期刊发表的RDD应用研究论文ꎬ归纳出运用RDD的三个新动作:新的最优带宽确定方法㊁甜甜圈RDD和参数估计中最高只能使用二次多项式ꎮ以国外的RDD用法为参照ꎬ我们发现ꎬ国内熟悉Lee和Lemieux(2010)提出的规范ꎬ也在吸收国外文献中出现的新动作ꎬ但运用RDD时存在如下几个突出问题:不做适用性检验㊁不重视描述统计图和不交代清楚非参数估计的关键细节ꎮ建议国内运用RDD时需要增加如下动作:非参数估计应该同时尝试CV㊁IK和CCT三种带宽确定方法ꎻ在配置变量存在堆积现象或被操纵的可能时ꎬ使用甜甜圈RDDꎻ尝试到四次多项式ꎮ[关键词]㊀断点回归设计ꎻ参数估计ꎻ非参数估计ꎻ最优带宽ꎻ甜甜圈RDD[DOI编码]㊀10.13962/j.cnki.37-1486/f.2019.02.006[中图分类号]F224㊀㊀[文献标识码]A㊀㊀[文章编号]2095-3410(2019)02-0069-11一㊁引言20世纪80年代以来ꎬ应用微观计量研究经历了一场可信性革命ꎬ变得十分强调研究设计(researchdesign)ꎮ这种转变导致工具变量法(InstrumentalVariableꎬIV)㊁双重差分法(Difference-in-DifferenceꎬDID)和断点回归设计(RegressionDiscontinuityDesignꎬRDD)成为应用微观计量研究中运用最广泛的方法[1]ꎮ与工具变量法和双重差分法相比ꎬRDD更接近于随机试验ꎬ因而从理论上讲是更好的因果识别方法[2]ꎮRDD虽然早在1960年就已被Thistlethwaite和Campbell(1960)[3]提出ꎬ但20世纪90年代末之后才被国外大量应用于经济学研究ꎮ尽管运用RDD要求在断点附近有较多观测值ꎬ对数据要求很高ꎬ但过去几年的相关研究并不少ꎮ2011-2017年ꎬ五大英文顶级经济学期刊①发表的运用RDD做的经验研究论文(下文简称 五大RDD论文 )共39篇②ꎬ96经济管理各年分别为6篇㊁3篇㊁3篇㊁11篇㊁5篇㊁7篇和4篇(如图1所示)ꎬ表明RDD在国际上已经成为一种主流的经验研究方法ꎮ根据在中国知网的检索ꎬ中文期刊发表的头两篇运用RDD做的经验研究论文是 退休会影响健康吗? [4]和 城市群落的崛起㊁经济绩效与区域收入差距 [5]ꎻ2011-2017年间ꎬ中文CSSCI期刊共发表运用RDD做的经验研究论文46篇ꎬ各年分别为1篇㊁1篇㊁0篇㊁5篇㊁8篇㊁8篇和23篇(如图1所示)ꎮ我们预计ꎬ大数据时代的来临会极大地打破运用RDD面临的数据限制①ꎬ运用RDD的相关研究会越来越多ꎮ图1㊀中文核心期刊和英文五大期刊上发表的断点回归设计经验研究论文数②Imbens和Lemieux(2008)[6]㊁vanderKlaauw(2008)[7]㊁Lee和Lemieux(2010)[2]㊁Skovron和Titiunik(2017)[8]㊁Hausman和Repson(2018)[9]专门综述了RDD的理论和应用研究ꎮ余静文和王春超(2011)[10]简要介绍了断点回归设计的发展历史㊁理论㊁实施步骤和应用情况ꎮ但是ꎬ由于RDD这种方法的理论研究仍很活跃ꎬ运用RDD涉及参数估计和非参数估计的选择㊁参数估计中多项式次数的选择和非参数估计最优带宽的确定等众多技术细节ꎬ文献中在RDD的具体用法上存在很大差别ꎬ特别是中文文献运用RDD的规范程度明显滞后于外文文献ꎬ有时还存在误用ꎮ因此ꎬ十分有必要归纳RDD应用的新进展ꎬ为国内学者规范运用RDD提供借鉴ꎮ由于本文强调被五大RDD论文运用过的新进展ꎬ侧重于应用ꎬ我们不会涉及多配置变量RDD(RDdesignswithassignmentvariables)[11]㊁分位数RDD[12]㊁拐点回归设计(regressionkinkdesigns)[13]㊁多断点RDD(RDdesignswithmultiplecutoffs)[14]㊁远离断点处的处理效应的识别方法(methodsforextrapolationawayfromthecutoff)[15][16]㊁离散型配置变量RDD[17]等五大RDD论文中未运用的新进展ꎮ本文综述Lee和Lemieux(2010)[2]以来RDD的新进展ꎮ选择以Lee和Lemieux07 ①②这方面的一个表现是ꎬ大量行政管理数据(administrativedata)被用于经济学经验研究ꎮ根据英国«经济学人»(TheEconomist)的报道ꎬNBER(NationalBureauofEconomicResearch)工作论文摘要里出现 administra ̄tivedata 的论文数ꎬ2000年是0篇ꎬ之后快速增长ꎬ2017年达到28篇ꎮ报道链接为:https://www.economist.com/international/2018/05/26/government-data-are-ever-more-important-to-economic-researchꎮ中文核心期刊论文数的检索方法如下:在中国知网检索出主题包含 断点回归 ㊁发表年度为2011年至2017年的中文社会科学引文索引(CSSCI)期刊论文ꎬ然后逐一检查㊁剔除非经验研究论文ꎬ最后剩下46篇ꎮ将检索限定在中文社会科学引文索引期刊ꎬ是为了保证检索到的论文的质量ꎮ英文五大期刊论文数的检索方法如下:在Jstor数据库中用全文任一地方出现 regressiondiscontinuity 这个关键词㊁发表年度为2011至2017年㊁期刊为五大期刊检索到50篇ꎬ然后逐一检查㊁剔除非经验研究论文ꎬ最后剩下39篇ꎮ经济管理(2010)[2]为基点的理由如下:首先ꎬ与Imbens和Lemieux(2008)[6]㊁vanderKlaauw(2008)[7]相比ꎬLee和Lemieux(2010)[2]的时间要晚ꎮ其次ꎬ与Skovron和Titiunik(2017)[8]综述政治学中断点回归设计的应用情况㊁Hausman和Repson(2018)[9]综述时间作为配置变量(也叫驱动变量)的RDD应用情况相比ꎬLee和Lemieux(2010)[2]综述的是经济学中的应用情况ꎬ包括各种类型的配置变量ꎬ更综合㊁更全面ꎮLee和Lemieux(2010)[2]提出了运用RDD做经验研究的规范ꎬ算是一个共识ꎮ但是ꎬ通过归纳2011-2017年的五大RDD论文ꎬ我们发现:一方面很多论文都没有遵守此规范ꎮ另一方面涌现出了很多被广泛应用的新进展ꎬ譬如非参数估计中确定带宽的IK法①[18]和CCT法[19]㊁参数估计中只应使用配置变量的低次项和甜甜圈RDD(DonutholeRDD)等②ꎮ通过归纳2011-2017年CSSCI期刊发表的RDD经验研究论文ꎬ我们发现ꎬ国内总体上了解运用RDD的规范ꎬ但仍然存在不少问题ꎬ譬如不做适用性检验㊁不重视描述统计图㊁不交代清楚非参数估计的关键细节等ꎮ二、运用断点回归设计的规范和新进展(一)运用断点回归设计做研究的既定规范Lee和Lemieux(2010)[2]提出了运用RDD做经验研究的规范ꎬ概述如下:1.利用配置变量检验RDD的适用性ꎮRDD的前提条件是个体不能精准操控(preciselymanipulate)配置变量ꎮ此条件可利用配置变量来检验ꎮ首先ꎬ选定一定数量的箱体画出配置变量的历史直方图ꎮ如果频数(frequencies)在邻近断点处的两个箱体间存在跳跃式变化ꎬ则很可能意味着前提条件不成立ꎮ其次ꎬ做配置变量的McCrary检验[20]ꎮ此检验的stata命令DCdensity是外部命令ꎬ可在下述网址下载后安装:https://eml.berkeley.edu/~jmccrary/DCden ̄sity/ꎮ2.利用前定变量检验RDD的适用性ꎮ首先ꎬ选定一定数量的箱体ꎬ求前定变量在每个箱体内的均值ꎬ画出均值对箱体中间点的散点图ꎻ接着再画出使用多项式模型对前定变量做出的拟合曲线ꎬ其中多项式一般是4次多项式③ꎮ如果前定变量的均值在断点处存在跳跃ꎬ则意味着前提条件很可能不成立ꎮ其次ꎬ用前定变量对常数项㊁处理变量㊁配置变量的多项式㊁处理变量和配置变量多项式的交互项做回归ꎮ如果前定变量比较多ꎬ那么随机因素也可能导致某个前定变量存在显著的断点ꎮ因此ꎬ有必要把众多检验合并为一个检验所有前定变量都不存在断点的统计量ꎮ这时ꎬ应该用似不相关回归(SeeminglyUnrelatedRegressionꎬSUR)ꎮ3.画结果变量的图ꎮ选定一定数量的箱体ꎬ求结果变量在每个箱体内的均值ꎬ画出均值对箱体中间点的散点图ꎻ接着再画出使用多项式模型对结果变量做出的拟合曲线ꎬ其中多项式一般是4次多项式ꎮ一定要求了局部平均值后再画图ꎮ如果直接画原始数据的散点图ꎬ那么噪音太大ꎬ看不出潜在函数的形状ꎮ如果结果变量的均值在断点处存在跳跃ꎬ则意味着处理变量有影响ꎮ用图来显示结果变量和配置变量之间的关系ꎬ已经成为运用RDD的标准作法ꎮLee17 ①②③Imbens和Kalyanaraman(2009)是工作论文ꎬ后来于2012年发表在«ReviewofEconomicStudies»上ꎮ用Stata软件实现这些新进展的操作命令可以参考Cattaneoetal.(2018)ꎬ更详细的操作命令细节可参考本文所引用文献的网上附件ꎮ这些网上附件可在发表各引用文献的期刊官网上下载ꎮ作者文中用的都是4次多项式ꎬ没解释不用其他次数多项式的原因ꎮ经济管理和Lemieux(2010)[2]指出ꎬ画图在RDD经验文章中是如此重要ꎬ以致没有图的文章会让人自然而然地怀疑图形证据对文章不利ꎮ4.全样本参数估计ꎮ使用全样本数据进行参数估计ꎮ以精确断点回归为例ꎬ估计模型如下:y=α+ρˑTreatment+ðKk=1βkˑ(x-c)k+ðKk=1γkˑTreatmentˑ(x-c)k+W+ε(1)其中y㊁x㊁treatment和W分别为结果变量㊁配置变量㊁处理变量(当xȡc时ꎬtreatment=1ꎬ否则treatment=0)和前定变量ꎮα㊁ρ㊁β和γ为待估计的参数ꎬε为随机扰动项ꎮρ显著不为0ꎬ表明处理对结果变量有影响ꎮ参数估计的要点是确定模型(1)中的多项式次数Kꎮ一般从一次尝试到八九次①ꎬ然后挑选赤池信息准则(AIC)取值最小的模型ꎮ另外一个比赤池信息准则更好的方法是ꎬ在多项式模型的自变量中先加入表示箱体的虚拟变量ꎬ然后不断加入配置变量的多次项ꎬ只到下述原假设成立:所有箱体虚拟变量的系数均等于零ꎮ5.子样本非参数估计ꎮ非参数估计就是对最优带宽内的子样本做加权局部线性回归ꎮ非参数估计的要点是确定最优带宽ꎮ确定最优带宽的方法有两种②:拇指规则法(ruleofthumbꎬROT)和交叉验证法(crossvalidationprocedureꎬCV)ꎮ加权可用矩形核密度函数㊁三角形核密度函数等ꎮ其中ꎬ使用矩形核密度函数加权的非参数估计ꎬ等于是基于子样本的参数估计ꎮ使用三角形核密度函数与使用矩形核密度函数的唯一区别是ꎬ前者给临近断点的观测值更大的权重ꎮ但是ꎬ要想给临近断点的观测值更大的权重ꎬ更透明的做法是在更小的带宽内使用矩形核密度函数ꎮ使用矩形核密度函数得到的结果也更易解释ꎮ值得庆幸的是ꎬ实践中不同核密度函数得到的结果一般是一致的ꎮ具体研究中ꎬ参数估计和非参数估计都要做ꎬ在两种方法下都稳定的结果更可信ꎮ(二)运用断点回归设计做研究的新进展Lee和Lemieux(2010)[2]之后的7年里(2011-2017年)ꎬ学者在运用RDD时出现了不少Lee和Lemieux(2010)[2]未提及的新做法ꎬ譬如非参数估计中确定带宽的IK法和CCT法㊁甜甜圈RDD(DonutholeRDD)㊁参数估计中只应使用配置变量的低次项和利用配置变量做适用性检验的Frandsen法[21]等ꎮ此处归纳比较重要的三种新做法如下:1.非参数估计中最优带宽的确定ꎮLee和Lemieux(2010)[2]介绍了ROT和CV两种确定最优带宽的方法ꎮ但是ꎬ2011-2017年间五大RDD论文使用得多的是IK法和CCT法ꎮstata中用非参数法做断点回归估计时的命令rdꎬ就是用IK法确定最优带宽ꎬ而命令rdrobust提供CV㊁IK㊁CCT三种不同的最优带宽计算方法选项ꎮImbens和Kalyanaraman(2012)[18]指出ꎬROT和CV两种方法对于在整个支撑集(supportset)里估计回归方程而言是最优的ꎬ但RDD只关心断点处的回归方程估计ꎬ故ROT和CV对于RDD而言不是最优的ꎬ而IK法对于RDD而言27 ①②作者说这是经验上的做法ꎬ没解释这样做的原因ꎮLee和Lemieux(2010)在脚注中提到了之后应用广泛的IK法(Imbens和Kalyanaramanꎬ2009)ꎬ但是文中举例只使用拇指规则法和交叉验证法ꎬ没使用IK法ꎮ经济管理是渐近最优的ꎻ另外ꎬCV法需要研究人员自己设定一个调节参数(tuningparameter)ꎬ而IK法是完全数据驱动的ꎮImbens和Kalyanaraman(2012)[18]进一步指出ꎬ尽管IK法具备这些优点ꎬ但研究人员不能只看这一个最优带宽下的估计结果ꎬ而应把这一带宽作为基准㊁检验结果对不同带宽的稳健性ꎮCalonico㊁Cattaneo和Titiunik(2014)[19]认为ꎬROT㊁CV和IK这些方法得出的最优带宽过大ꎬ导致相应的置信区间有偏ꎬ会过度拒绝 没有处理效应 的原假设ꎬ结果把 没有 处理效应说成 有 ꎮCCT法校正了过大带宽带来的偏误ꎮ2.甜甜圈RDD(DonutholeRDD)ꎮ甜甜圈RDD用来克服数据堆积(heaping)问题对估计结果的影响①ꎮ数据堆积指取配置变量某些值的观测值过多的现象ꎮ导致这一现象的原因包括受访者自报告某些信息时倾向于向某个数值近似ꎬ测量标尺的精读有限等ꎮ譬如ꎬ调查数据中受访者自报告的身高在160cm㊁170cm和180cm等取值上堆积ꎬ新生儿体重会在3000克㊁3500克和4000克等取值上堆积ꎮ数据操纵现象源自经济个体的逐利动机ꎬ只出现在断点处ꎮ然而ꎬ数据堆积不是源自经济个体的逐利动机ꎬ且可能出现在除断点之外的其他地方ꎮ如果结果变量受配置变量的堆积现象影响ꎬ那么RDD估计量可能是有偏的[22]ꎮ此时ꎬ可以去掉断点附近的某些观测值再做RDD估计ꎮ由于去掉断点附近的某些观测值后的数据就像一个 甜甜圈 ꎬ故称作 甜甜圈RDD ꎮ至于去掉断点附近多少观测值为适ꎬ文献中尚未达成共识ꎮ3.全样本参数估计的缺点ꎮ根据Lee和Lemieux(2010)[2]ꎬ配置变量多项式要尝试到八九次ꎮ但是ꎬGelman和Imbens(2014)[23]认为ꎬ不能尝试配置变量多项式的高次项ꎬ只能使用局部一次或局部二次多项式ꎬ理由有三点:第一ꎬ断点回归设计的估计量可以写成处理组结果的加权平均值和控制组结果的加权平均值之差ꎬ其中加权权重是配置变量的函数ꎮ运用全域高阶多项式方法时ꎬ当配置变量取值较大时ꎬ使用不同次数多项式得到的权重差别巨大ꎮ然而ꎬ局部线性回归方法给临近断点处的观测值赋予要大的权重ꎬ理论上讲更合理ꎮ第二ꎬ处理效应的估计值对全域高阶多项式的次数十分敏感ꎮ使用不同次数多项式得到的估计值差别很大ꎮ第三ꎬ在本身不存在断点的情况下ꎬ全域多项式方法得到错误结果(认为有断点)的概率高于实际水平ꎬ而局部一次(或二次)多项式方法得到错误结果的概率和实际水平差不多ꎮ三、断点回归设计的国外应用情况2011-2017年ꎬ五大英文顶级经济学期刊共发表39篇运用RDD做的经验研究论文ꎬ涉及公共经济学㊁新政治经济学㊁劳动经济学和教育经济学等众多领域ꎮ39篇论文中有33篇使用行政管理数据②ꎬ由此可见开放行政管理数据对于RDD应用的重要性ꎮ第二部分提到的三个新进展的应用情况如下:首先ꎬ使用非参数估计的26篇论文中ꎬ用IK法㊁CCT法确定最优带宽的分别为13篇㊁6篇ꎬ表明这两种最优带宽确定方法已被学界接受ꎻ其次ꎬ在甜甜圈RDD被提出的2011年之后ꎬ33篇论文中有5篇用了此方法ꎻ最后ꎬDell(2015)[24]和Pinotti(2017)[25]引用了Gelman和Imbens(2014)[23]ꎬ但还使用超过二次的配置变量多项式做稳健性检验ꎮ这些文献对RDD的运用与Lee和Lemieux(2010)[2]提出的规范大体一致ꎬ譬如20篇(占37 ①②实际上ꎬ甜甜圈RDD也可以克服数据操纵问题对估计结果的影响ꎮ分别来自美国㊁巴西㊁挪威㊁意大利等17个国家ꎮ经济管理51.28%)论文引用了Lee和Lemieux(2010)[2]ꎬ33篇(占84.62%)做了适用性检验ꎮ与Lee和Lemieux(2010)[2]提出的规范不一致的情况ꎬ包括如下几点:第一ꎬLee和Lemieux(2010)[2]建议参数估计和非参数估计均要做①ꎬ但这样做的只有16篇ꎮ只使用参数估计㊁只使用非参数估计的分别为13篇和10篇ꎮ在16篇同时使用了两种估计方法的文章中ꎬ将两种方法视为同等重要的有4篇ꎬ参数估计仅只是做稳健性检验㊁非参数仅只是做稳健性检验的分别为4篇和8篇ꎮ因此ꎬ总体来看ꎬ文献中偏重于参数估计ꎮ值得一提的是ꎬECMA上的4篇文章都只用非参数估计ꎬ而QJE上的5篇文章ꎬ除Malamud和Pop-Eleches(2011)[26]同时使用了两种方法外ꎬ其余4篇都只用参数估计ꎮECMA由国际计量经济学会主办ꎬQJE由哈佛大学经济系主办ꎮ二者在RDD应用上的差异可能体现了两个主办方不同的学术风格ꎮ第二ꎬLee和Lemieux(2010)[2]建议用前定变量做适用性检验时ꎬ应该做似不相关检验ꎬ但没有一篇文献这样做ꎮ第三ꎬLee和Lemieux(2010)[2]建议画描述统计图中的拟合曲线时ꎬ用配置变量的4次多项式ꎬ但仅有3篇论文用了4次多项式ꎮ39篇论文中ꎬ仅有Chettyetal(2014)[27]这一篇没在描述统计图中画上对散点的拟合曲线ꎮ在画了的38篇中ꎬ未说明用的什么方法㊁使用局部线性回归(locallinearregression)㊁使用局部线性平滑(locallinearsmoother)㊁移动平均法(running-meansmoothing)和多项式方法的分别为3篇㊁3篇㊁3篇㊁1篇和28篇ꎬ可见多项式方法是主流方法ꎮ在画拟合曲线所用方法上的差异具有明显的期刊特色:使用局部线性回归法的3篇文章有1篇来自QJE㊁2篇来自JPEꎬ使用局部线性平滑法的3篇文章均来自ECMAꎬ使用移动平均法的一篇文章来自RESꎬAER上的文章都使用多项式方法ꎮ在使用多项式方法的28篇论文中ꎬ使用1次㊁2次㊁3次㊁4次㊁8次及同时使用1次和2次多项式的分别为8篇㊁11篇㊁4篇㊁3篇㊁1篇和1篇ꎬ使用1次多项式和2次多项式的明显居多ꎮ值得一提的是ꎬMeng(2017)[28]在同一张图中同时画了1次多项式和2次多项式的拟合曲线ꎮ第四ꎬLee和Lemieux(2010)[2]建议参数估计时的配置变量多项式要尝试到八九次ꎬ然后挑选赤池信息准则(AIC)取值最小的模型ꎮ但是ꎬ使用过参数估计的29篇论文中ꎬ仅有Clark和Martorell(2014)[29]和Deshpande(2016)[30]根据AIC来挑选模型ꎮ在明确说明尝试过的多项式次数的论文中ꎬ仅有Auffhammer和Kellogg(2011)[31]㊁Pinotti(2017)[25]尝试过超过4次的多项式ꎬ绝大多数只尝试到4次多项式ꎮ第五ꎬLee和Lemieux(2010)[2]建议非参数估计时用矩形核密度函数ꎮ但是ꎬ在使用非参数估计且说明了所用核密度函数的16篇文献中ꎬ使用矩形核密度函数的为7篇ꎬ而使用三角形核密度函数的有8篇ꎬ还有一篇使用帐篷型核密度函数(tent-shapededgekernel)ꎮ综上所述ꎬLee和Lemieux(2010)[2]之后ꎬ运用RDD出现了IK和CCT两种最优带宽确定方法以及甜甜圈RDD两个新操作环节ꎮGelman和Imbens(2014)[23]不该使用超过两次的多项式的建议ꎬ尚未被学界普遍接受ꎮ同时ꎬ学界在Lee和Lemieux(2010)[2]涉及的RDD运用为方便讨论ꎬ使用矩形核密度函数的非参数估计虽然等同于参数估计ꎬ但此处只将其归为非参数估计ꎮ 47 ①经济管理环节上未达成共识ꎮLee和Lemieux(2010)[2]发表在权威经济学期刊«JournalofEconomicLit ̄erature»上ꎬ其两位作者均是国际上知名的经济学者ꎮ他们提出的RDD应用规范未被学界完全接受ꎬ并不因为他们的观点不准确㊁不权威ꎬ而是因为RDD的理论研究仍很活跃ꎬ故应用上达成的共识不多ꎻ因为RDD应用涉及众多技术环节ꎬ故更难达成共识ꎮ作为一个对比ꎬIV和DID的理论研究相对成熟㊁应用涉及的技术环节单一①ꎬ学者运用这两种方法做研究时的动作比较一致ꎮ四、断点回归设计的国内应用情况2011-2017年间ꎬCSSCI期刊共发表RDD经验研究论文46篇ꎬ涉及公共经济学㊁环境经济学㊁财政学等众多领域ꎬ其中使用行政管理数据的仅有王骏和孙志军(2015)[32]一篇ꎮ总体而言ꎬ对于两篇权威的RDD综述文章 Imbens和Lemieux(2008)[6]㊁Lee和Lemieux(2010)[2]ꎬ至少引用过其中一篇的中文论文有32篇ꎬ占69.57%ꎬ这意味着国内学者总体上了解运用RDD涉及的众多技术环节ꎮRDD应用的新进展也在被国内文献吸收ꎮ首先ꎬ确定最优带宽的IK法已被广泛应用ꎬCCT法也开始被使用ꎮ使用非参数估计且说明了带宽确定方法的24篇文章中ꎬ使用了IK法㊁CCT法的分别有10篇㊁3篇ꎮ其次ꎬ李宏彬等(2014)[33]㊁张川川等(2015)[34]和张明(2017)[35]都使用了甜甜圈RDDꎮ最后ꎬ马光荣等(2016)[36]㊁何文剑(2016)[37]㊁李江一和李涵(2017)[38]以及王家庭等(2017)[39]共4篇文章引用了Gelman和Im ̄bens(2014)[22]ꎮ与国外文献一样ꎬ国内文献运用RDD也存在很多与Lee和Lemieux(2010)[2]规范不一致的情况ꎬ具体如下:首先ꎬ同时使用参数估计和非参数估计的只有18篇(占39.13%)ꎮ只使用参数估计㊁只使用非参数估计的分别为17篇和11篇ꎮ在18篇同时使用了两种估计方法的文章中ꎬ将两种方法视为同等重要的有3篇ꎬ参数估计仅只是做稳健性检验㊁非参数仅只是做稳健性检验的分别为2篇和13篇ꎮ因此ꎬ总体来看ꎬ国内文献与国外文献一样ꎬ偏重于参数估计ꎮ其次ꎬ用前定变量做适用性检验时ꎬ仅有曹静等(2014)[40]㊁王骏和孙志军(2015)[32]使用了似不相关回归ꎮ再次ꎬ使用了参数估计的35篇文章中ꎬ只有杨小聪(2017)[41]㊁张英和陈绍志(2015)[42]㊁曹静等(2014)[40]3篇文章尝试到配置变量八九次的多项式ꎮ最后ꎬ在使用非参数估计且说明了所用核密度函数的11篇文章中ꎬ只使用矩形核密度函数㊁同时使用矩形和三角形核密度函数以及只使用三角形核密度函数的分别为2篇㊁5篇和4篇ꎮ由于运用RDD涉及众多技术环节ꎬ国内对RDD的运用还存在不少问题ꎬ主要表现在以下几个方面:首先ꎬ5篇文章未做适用性检验ꎬ2篇文章在适用性检验未通过时依然使用RDDꎮ张明(2017)[34]既没有用配置变量也没有用前定变量做适用性检验ꎮ陈强等(2017)[43]㊁黄新飞和杨丹(2017)[44]㊁高彦彦和王逸飞(2017)[45]以及王旭光(2017)[46]使用的配置变量不可能被操控ꎬ无须检验ꎬ但他们都没有检验前定变量的连续性ꎮ邹红和喻开志(2015)[47]㊁邓婷鹤和何秀荣(2016)[48]使用的配置变量 年龄 均在断点(60岁)处不连续ꎬ但依然运用RDDꎮ邹红57 ①运用IV必需的技术环节是报告第一阶段回归的F统计量取值ꎬ运用DID必需的技术环节是做平行趋势假设检验ꎮ经济管理和喻开志(2015)[47]做回归分析时去掉了60岁断点上的样本ꎬ但是出于男性实际停止工作的时间普遍是61岁这个考虑ꎬ并没有从RDD适用性这个角度深化㊁细化研究内容ꎬ譬如检验样本是否在50岁㊁60岁㊁70岁等年龄上存在堆积问题ꎮ其次ꎬ对描述统计图的运用不规范ꎮ如前所述ꎬ画图在RDD应用研究中十分必需ꎮ然而ꎬ有11篇没有画描述统计图ꎮ根据Lee和Lemieux(2010)[2]和英文顶级期刊的实际ꎬ画拟合曲线图以多项式方法居多ꎮ然而ꎬ在画有描述统计图的35篇文章中ꎬ15篇没有说明拟合曲线图所采用的方法ꎬ14篇采用局部多项式方法ꎬ6篇采用了平滑㊁多元回归等其他方法ꎮ未画描述统计图和未说明画拟合曲线所采用方法的文章合计达26篇(占56.52%)ꎬ表明国内学界对画图重要性的认识不够ꎮ最后ꎬ使用非参数估计时的关键技术细节未说明ꎮ在29篇使用了非参数估计的文章中ꎬ5篇没有报告带宽的确定方法ꎬ18篇(占62.07%)未说明使用了哪个核密度函数ꎮ五㊁总结和展望RDD在断点附近的局部等价于一个随机试验ꎬ这一特点使得其备受经验研究人员的青睐ꎮ在国外ꎬRDD从20世纪90年代末期开始被大量应用于经济学研究ꎮLee和Lemieux(2010)[2]提出了运用RDD的必备技术环节ꎬ相当于给出了RDD应用的规范ꎮ但是ꎬ由于RDD的理论研究仍在不断深入ꎬ至今尚未定型ꎬLee和Lemieux(2010)[2]之后应用RDD的文献出现了新的技术环节ꎬ譬如新的最优带宽确定方法㊁甜甜圈RDD和参数估计中最高只能使用二次多项式等ꎮ国内运用RDD做研究始于2010年ꎬ最近两年大幅增加ꎮ虽然国内熟悉Lee和Lemieux(2010)[2]提出的规范ꎬ但运用RDD时存在不少问题ꎬ譬如不做适用性检验㊁不重视描述统计图㊁不交代清楚非参数估计的关键细节等ꎮ为了使得研究结论更稳健ꎬ基于五大英文顶级期刊发表的论文ꎬ我们建议ꎬ国内运用RDD时ꎬ在完成Lee和Lemieux(2010)[2]提出的技术动作后ꎬ需要增加如下动作:考虑到学术界在最优带宽确定方法上尚未达成共识[26][49]ꎬ非参数估计时应该同时尝试CV㊁IK和CCT三种方法ꎻ在配置变量存在堆积现象或被操纵的可能时ꎬ使用甜甜圈RDDꎮ尝试到四次多项式ꎮRDD从理论上讲是更好的因果识别方法ꎬ但运用此方法要求在断点附近有较多观测值㊁对数据要求很高ꎮ可喜的是ꎬ最近几年ꎬ我国经济社会的数字化进程加速ꎬ越来越多的经济活动开始数据化ꎬ越来越多的中央政府部门和地方政府公开了行政管理数据ꎬ为运用RDD做研究提供了契机ꎮ特别值得指出的是ꎬ运用医疗卫生行业行政管理数据的研究已经成批量涌现ꎮ参考文献:[1]AngristJDꎬPischkeJ.Thecredibilityrevolutioninempiricaleconomics:Howbetterresearchdesignistak ̄ingtheconoutofeconometrics[J].JournalofEconomicPerspectivesꎬ2010ꎬ24(2):3-30.[2]LeeDSꎬLemieuxT.Regressiondiscontinuitydesignsineconomics[J].JournalofEconomicLiteratureꎬ2010ꎬ48(2):281-355.[3]ThistlethwaiteDLꎬCampbellDT.Regression-discontinuityanalysis:Analternativetotheexpostfactoex ̄periment[J].JournalofEducationalPsychologyꎬ1960ꎬ51(6):309-317.[4]雷晓燕ꎬ谭力ꎬ赵耀辉.退休会影响健康吗?[J].经济学(季刊)ꎬ2010ꎬ(04):1539-1558.[5]余静文ꎬ赵大利.城市群落的崛起㊁经济绩效与区域收入差距 基于京津冀㊁长三角和珠三角城市圈 67。
断点回归控制变量回归系数

断点回归控制变量回归系数
断点回归(Regression Discontinuity Design,RDD)是一种非实验性的研究方法,用于估计一个变量对另一个变量的因果效应。
在断点回归中,如果一个变量在某个特定的阈值处发生跳跃,那么我们可以通过观察这个跳跃点附近的观察值来估计该变量的效应。
控制变量(Control Variables)在回归分析中用于帮助估计自变量对因变量的影响,并控制其他可能的干扰因素的影响。
控制变量的选择应基于理论和研究的假设,并能够解释因变量的变异。
控制变量回归系数(Control Variable Regression Coefficients)是指在回归分析中,控制变量对因变量的影响程度。
控制变量的回归系数可以用于估计其效应的大小和方向,以及检验其是否显著。
在断点回归中,控制变量回归系数的解释和常规回归分析中的解释类似。
如果一个控制变量在断点附近的回归系数显著,那么可以认为该控制变量对因变量有显著影响。
同时,通过比较控制变量在断点附近和非断点附近的回归系数,可以评估该控制变量对因变量的因果效应。
需要注意的是,在断点回归中,控制变量的选择和回归系数的解释应谨慎。
由于断点回归是一种非实验性的研究方法,因此无法完全排除其他干扰因素的影响。
因此,在解释控制变量回归系数时,应考虑到其他可能的干扰因素,并进行充分的讨论和检验。
rdd(断点回归)名词解释

rdd(断点回归)名词解释
RDD(Regression Discontinuity Design)即断点回归设计,是一种用于评估政策或干预措施效果的计量经济学方法。
该方法通过在政策或干预措施实施的临界点(断点)附近比较处理组和控制组的结果,来确定政策或干预措施是否对结果产生了显著影响。
RDD的基本思想是在断点处创造一个自然实验,使得处理组和控制组在断点前后的条件相似,除了政策或干预措施的差异外。
通过比较断点前后处理组和控制组的结果差异,可以推断出政策或干预措施的效果。
RDD通常需要满足以下假设:一是断点处的处理组和控制组在断点前后的条件相似;二是在断点附近,处理组和控制组的结果变量应该是连续的;三是除了政策或干预措施外,没有其他因素会导致断点处的结果变量发生跳跃。
RDD常用于评估教育、就业、医疗等领域的政策效果,也可用于评估自然灾害、市场干预等事件的影响。
RDD断点回归,Stata程序百科全书式的宝典

RDD断点回归,Stata程序百科全书式的宝典断点回归设计RDD是当前最热门的因果推断计量⽅法,最主要的原因在于它的透明性和强因果识别性,⾥⾯的每⼀步都可以成功运⾏出来,若需要do ⽂件和数据dta的请进⼊计量经济圈社群直接提取(⽂末)。
gen y = outcome // 结果变量gen d = running>0 // 处理变量(0/1种类)gen v = running // 分配变量或参考变量gen vd = v*d // 交互项local i=1forvalues i=2/4 {gen v`i'=v^`i'gen v`i'd=v`i'*d} // 产⽣分配变量的三次⽅、四次⽅和他们与处理变量的交互项qui tab year, gen(dyear) // 如果在⾯板数据中,想要控制年份可以产⽣虚拟变量gen pop2 = pop^2 // 将来⽤在回归中作为协变量,pop的平⽅项————————————————**************************************图形识别,提供三种⽅式***************************************1.结果变量是不是在断点处跳跃---------global sizebin 0.2 //根据你的那个running variable选择箱体,这个你⾃⼰设定参数gen bin=floor(v/$sizebin)gen midbin=bin*$sizebin+0.5*$sizebinbys bin: egen mean=mean(y)reg y d v v2 vd v2d, robustpredict fitpredict fitsd, stdpgen upfit=fit+1.645*fitsd // 产⽣置信区间的上边界gen downfit=fit-1.645*fitsd // 产⽣置信区间的下边界preserve // 第⼀种⽅式绘制断点回归图twoway (rarea upfit downfit v, sort fcolor(gs12) lcolor(gs12)) ///(line fit v if v<0, sort="" lcolor(green)="" lwidth(thick))="">(line fit v if v>0, sort lcolor(red) lwidth(thick)) ///(scatter mean midbin, msize(large) mcolor(black) msymbol(circle_hollow)), ///ytitle('') xtitle('treatment, X (cutoff: X=0)') xline(0, lcolor(black)) ///legend(off) xlabel(-1(0.2)1) title('policy implementation')graph copy all, replacerestorecmogram y v,cut(0) scatter lineat(0) qfitci // 第⼆种⽅式绘制断点回归图形rdplot y v, cut(0) nbins(10) // 第三种⽅式绘制断点回归图/**通过图形识别,我们发现在断点处结果变量y发⽣了跳跃**/———————————————*********************************估计结果,使⽤三种⽅式*************************************1. ⾮参数估计--------------rdrobust y v,c(0) kernel(uni) bwselect(mserd) all // 使⽤rdrobust进⾏的⾮参数估计rdrobust y v, c(0) kernel(tri) bwselect(mserd) all // 这⾥使⽤的是triangular密度估计rdrobust y v, c(0) kernel(epa) bwselect(mserd) all // 这⾥使⽤的是epanechnikov密度估计**2. ⾮参数估计----------------------rd y v, mbw(50 100 200) gr z0(0) kernel(tri) // 这个根据最优带宽计算了三个相应带宽,感觉⽐较⽅便rd y v, mbw(50 100 200) gr z0(0) kernel(rec) // 这⾥使⽤的是rectangle密度估计**3. 参数估计:局部线性回归------rdbwselect y v, c(0) kernel(uni) bwselect(mserd) // 选择最优带宽preservekeep if v>= -0.216 & v<= 0.216 ="">eststo x1: reg y d, robust // ⾯板的话选择xtreg,如果是2sls选择xtivregreeststo x2:reg y d##c.v, robusteststo x3:reg y d##c.(v v2), robust // 局部线性回归法,选择2阶多项式eststo x4:reg y d##c.(v v2 v3), robust // 局部线性回归法,选择3阶多项式eststo x5:reg y d##c.(v v2 v3 v4), robust // 局部线性回归法,选择4阶多项式esttab x1 x2 x3 x4 x5 using y.rtf, star(* .1 ** .05 * .01) nogap nonumber replace ///se(%5.4f) ar2 aic(%10.4f) bic(%10.4f) //输出结果到rtf格式restore*********************************稳健性检验***********************************1. 加⼊协变量后看看回归结果是不是依然显著-----*1.1 ⾮参估计加⼊协变量rd y v, cov(pop pop2) mbw(50 100 200) z0(0) kernel(tri) // 加⼊协变量pop和pop2*1.2 参数估计加⼊协变量preserveeststo x11: reg y d pop pop2, robust // 加⼊协变量pop和它的平⽅项eststo x21:reg y d##c.v pop pop2, robusteststo x31:reg y d##c.(v v2) pop pop2, robusteststo x41:reg y d##c.(v v2 v3)pop pop2, robusteststo x51:reg y d##c.(v v2 v3 v4) pop pop2, robustesttab x11 x21 x31 x41 x51 using y1.rtf, star(* .1 ** .05 * .01) nogap nonumber replace ///se(%5.4f) ar2 aic(%10.4f) bic(%10.4f) //输出加⼊协变量后的结果到rtf格式restore————————————————**2.检验其中的协变量是不是在断点处连续-------**2.1 绘制图形检验⼀下协变量pop是不是连续的cmogram pop v,cut(0) scatter lineat(0) qfitci // 第⼆种⽅式绘制断点回归图形rdplot pop v, cut(0) nbins(10) // 第三种⽅式绘制断点回归图**2.2 使⽤估计⽅法估计出来具体系数看显著不** ⾮参数估计-----------------** ⾮参数估计-----------------rdrobust pop v,c(0) kernel(uni) bwselect(mserd) all // 使⽤rdrobust进⾏的⾮参数估计** 参数估计:局部线性回归------rdbwselect pop v, c(0) kernel(uni) bwselect(mserd) // 最优带宽的选择preservekeep if v>= -0.175 & v<= 0.175 ="">eststo xa:reg pop d, robusteststo xb:reg pop d##c.v, robust // ⽤协变量作为伪结果变量,进⾏断点回归,选择1阶多项式eststo xb:reg pop d##c.(v v2), robust // ⽤协变量作为伪结果变量,进⾏断点回归,选择2阶多项式eststo xc:reg pop d##c.(v v2 v3), robust // ⽤协变量作为伪结果变量,进⾏断点回归,选择3阶多项式eststo xd:reg pop d##c.(v v2 v3 v4), robust // ⽤协变量作为伪结果变量,进⾏断点回归,选择4阶多项式restoreesttab x11 x21 x31 x41 x51 using m.rtf, star(* .1 ** .05 * .01) nogap nonumber replace ///se(%5.4f) ar2 aic(%10.4f) bic(%10.4f) //输出加⼊协变量后的结果到rtf格式/**结果显⽰pop回归⽅程不是显著的,所以rdd是适⽤于此的**/————————————————**3.Mccracy检验:操纵running variable检验---net install DCdensity, from('http://www.czxa.top/DCdensity') // 安装McCrary检验命令*注意:以下这个关于分配变量在断点处跳跃的操纵检验会随着下⾯的binsize和bandwidth设置⽽不同的preserveDCdensity v, breakpoint(0) generate(Xj Yj r0 fhat se_fhat) b(0.2) h(0.216) // McCracy testgen upfhat=fhat+1.645*se_fhatgen lowfhat=fhat-1.645*se_fhattwoway (rarea upfhat lowfhat r0 if r0<0, sort="" fcolor(gs12)="" lcolor(gs12))="">(rarea upfhat lowfhat r0 if r0>0, sort fcolor(gs12) lcolor(gs12)) ///(line fhat r0 if r0<0, lcolor(red))="" (line="" fhat="" r0="" if="" r0="">0, lcolor(blue)) ///(scatter Yj Xj if Yj>0, mcolor(gs4) msymbol(circle_hollow)), ///ytitle('Density') xtitle('') xline(0) legend(off)restoregen t= .079111002/.143889525 // 产⽣t值,这个需要你根据系数提取出来display 2*ttail(2651, t) // 得到p值,2651是⾃由度/**可以看出在5%显著性⽔平下实际上Mccrary检验是通不过的,证明没有操纵**/** 把邻近断点处的那些密度分布放⼤⼀些看,这样可以更能清楚地看见是不是有操纵—-preserveDCdensity v, breakpoint(0) generate(Xj Yj r0 fhat se_fhat) b(0.2) h(0.216) // McCracy testlocal breakpoint 0local cellmpname Xjlocal cellvalname Yjlocal evalname r0local cellsmname fhatlocal cellsmsename se_fhatdrop if `cellmpname' < -1="" |="" `cellmpname'=""> 0.5 // 把⼩于-1和⼤于0.5的部分都去掉drop if `evalname' < -1="" |="" `evalname'=""> 0.5tempvar hiquietly gen `hi' = `cellsmname' + 1.96*`cellsmsename'tempvar loquietly gen `lo' = `cellsmname' - 1.96*`cellsmsename'gr twoway (scatter `cellvalname' `cellmpname', msymbol(circle_hollow) mcolor(gray)) /// (line `cellsmname' `evalname' if `evalname' < `breakpoint',="" lcolor(black)="" lwidth(medthick)) =""> (line `cellsmname' `evalname' if `evalname' > `breakpoint', lcolor(black) lwidth(medthick)) /// (line `hi' `evalname' if `evalname' < `breakpoint',="" lcolor(black)="" lwidth(vthin)) ="">(line `lo' `evalname' if `evalname' < `breakpoint',="" lcolor(black)="" lwidth(vthin)) ="">(line `hi' `evalname' if `evalname' > `breakpoint', lcolor(black) lwidth(vthin)) ///(line `lo' `evalname' if `evalname' > `breakpoint', lcolor(black) lwidth(vthin)), ///(line `lo' `evalname' if `evalname' > `breakpoint', lcolor(black) lwidth(vthin)), /// xline(`breakpoint', lcolor(black)) legend(off)restore——————————————** 4.安慰剂检验-----------------------**4.1 改变断点的位置-----------------rdplot y v if v<0, c(-0.25) ="">rdplot y v if v>0, c(0.25) // 将原来的断点0改变为新的断点0.25rdrobust y v,c(-0.25) kernel(uni) bwselect(mserd) all // 新断点处使⽤rdrobust进⾏的⾮参数估计rdrobust y v,c(0.25) kernel(uni) bwselect(mserd) all // 新断点处使⽤rdrobust进⾏的⾮参数估计/** 通过以上发现改变断点后不显著了,所以我们的断点选择是有道理的**/**4.2 改变带宽-----------------rdrobust y v,c(0) kernel(uni) h(0.1) all // 改变带宽为0.1rdrobust y v,c(0) kernel(uni) h(0.4) all // 改变带宽为0.4/** 通过以上发现改变带宽并没有影响其显著性,因此我们识别的因果效应很稳健**/。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
矿产资源开发利用方案编写内容要求及审查大纲
矿产资源开发利用方案编写内容要求及《矿产资源开发利用方案》审查大纲一、概述
㈠矿区位置、隶属关系和企业性质。
如为改扩建矿山, 应说明矿山现状、
特点及存在的主要问题。
㈡编制依据
(1简述项目前期工作进展情况及与有关方面对项目的意向性协议情况。
(2 列出开发利用方案编制所依据的主要基础性资料的名称。
如经储量管理部门认定的矿区地质勘探报告、选矿试验报告、加工利用试验报告、工程地质初评资料、矿区水文资料和供水资料等。
对改、扩建矿山应有生产实际资料, 如矿山总平面现状图、矿床开拓系统图、采场现状图和主要采选设备清单等。
二、矿产品需求现状和预测
㈠该矿产在国内需求情况和市场供应情况
1、矿产品现状及加工利用趋向。
2、国内近、远期的需求量及主要销向预测。
㈡产品价格分析
1、国内矿产品价格现状。
2、矿产品价格稳定性及变化趋势。
三、矿产资源概况
㈠矿区总体概况
1、矿区总体规划情况。
2、矿区矿产资源概况。
3、该设计与矿区总体开发的关系。
㈡该设计项目的资源概况
1、矿床地质及构造特征。
2、矿床开采技术条件及水文地质条件。