断点回归方法的应用
stata模糊断点回归结果解读
【知识文章】标题:深度解读stata模糊断点回归结果在统计分析领域,断点回归是一种常用的分析方法,能够帮助研究人员在研究数据中找到关键的转折点或阈值,从而更好地理解现象背后的规律。
而在实际应用中,stata软件提供了模糊断点回归分析的功能,更加贴近实际情况,对于研究人员来说是一个非常有用的工具。
本文将深度解读stata模糊断点回归结果,帮助读者更好地理解该分析方法的有效性和结果解释。
一、基本概念1.1 模糊断点回归模糊断点回归是一种用于发现数据中的结构转变的分析方法,相比传统的断点回归更加灵活和智能。
它能够针对数据的不确定性进行分析,帮助研究人员更好地理解数据中的变化规律。
1.2 staa软件及其应用stata是一种专业的统计分析软件,广泛应用于学术研究和商业领域。
它提供了丰富的统计分析功能,包括模糊断点回归分析,在实际数据分析中有较高的可靠性和灵活性。
二、结果解读2.1 模糊断点的确定在进行模糊断点回归分析时,首先需要确定数据中的模糊断点位置。
通过stata软件的分析工具,可以得到数据中的潜在断点位置及其置信区间,帮助研究人员更好地理解数据的结构变化。
2.2 断点处的效应估计在确定了模糊断点位置后,接下来需要对断点处的效应进行估计。
stata软件能够提供准确的效应估计值和显著性检验结果,帮助研究人员判断断点处的效应是否显著,从而更好地理解数据的变化规律。
2.3 结果的解释和应用通过对模糊断点回归结果的深度分析,研究人员可以更好地解释数据中存在的潜在断点和其影响,从而为进一步的研究和决策提供依据。
stata软件提供了直观的结果展示和解释功能,帮助研究人员更好地应用分析结果。
三、个人观点和总结在实际研究和数据分析中,模糊断点回归分析是一种非常有用的方法,能够帮助研究人员更好地理解数据中的结构变化和规律。
而stata软件提供了便捷和可靠的分析工具,能够有效支持模糊断点回归分析的实施和结果解释。
对于研究人员来说,掌握stata模糊断点回归分析的方法和技巧,能够更好地发掘数据的潜在规律和价值,为实际决策和研究提供更有力的支持。
诺贝尔奖断点回归例子
诺贝尔奖断点回归例子所谓断点回归就是找到一个断点,然后在确定因素里找随机性,比如高考分数650分可以上清华大学,649分不能上,65岁能退休,64岁不能退休,22岁可以结婚,21岁不能结婚,这条分割线就叫断点,高考的随机性就是分数,比如一群高考学生们成绩稳定在650分,上下20分浮动,就可以认为这些学生的学习水平基本没有太大差别,而他们唯一的差别就是“是否上了清华大学”,对比他们将来的收入水平,就可以大致排除其他因素,得到“是否上清华大学”对于他们收入的影响。
有了他们两这些看似原理极其简单的方法贡献,却对经济学、心理学、社会学甚至国际关系等等学科都产生了非常重大的影响。
如今他们使用的“差中差方法”已经成为了每一位研究实证经济学者都必须学习的基本工具之一。
而今年另一位经济学诺奖得主大卫· 卡德(David Card)的发现,离我们的生活更加贴近了一步,在上世纪90年代初之前,几乎所有的传统经济学家都有两个共同的想法,一个是如果提高法定最低工资一定会导致企业的工资成本增加,企业压力增大逐渐被迫裁员,进一步导致就业率减少,失业率上升。
第二个是外国移民增多会导致本地人的失业率上升,因为外国移民增加会夺取本地有限的工作席位,这两种想法在理论上都站得住脚,但所有人都苦于这两个理论无法用实验来证明或推翻。
为了调查法定最低工资如何影响就业,来自于加拿大的大卫· 卡德和另一位经济学家艾伦·克鲁格(Alan Krueger)通过电话调查新泽西州和宾夕法尼亚州东部的快餐店市场,使用刚才提到的“差中差”方法做了实验,终于顶着压力推翻了传统观念,他们发现新泽西州在提高了最低工资之后,快餐业的工作并没有出现如预料般减少,反而有了几个重要的新发现,包括更高的工资换来的是工作效率的上升,员工更加自愿的工作,并由此吸引来更多的人才。
而企业可以通过提升产品价格来弥补工资成本的上升,而且产品价格的提升幅度也只需要非常小,他们发现最低工资从7.25美元上升到10.10美元,提升了近40%,而快餐店仅仅只需要将产品的价格上升2.7%,就可以覆盖上升的工资成本。
断点回归参数估计方法
"断点回归参数估计方法" 通常指的是在回归分析中使用断点模型进行参数估计的方法。
断点回归模型是一种考虑在自变量达到某个特定点时因变量发生显著变化的模型。
这个特定点称为"断点",在该点上可能存在两个不同的回归关系。
断点回归参数估计的方法通常涉及两个阶段的模型拟合:
1. **拟合阶段1:** 在断点之前的区域拟合一个回归模型。
2. **拟合阶段2:** 在断点之后的区域拟合另一个回归模型。
通常,这两个模型在断点处具有不同的参数。
估计的参数可以告诉我们在自变量达到断点时因变量发生了什么样的变化。
在实际应用中,选择断点的方法和确定两个阶段模型的参数估计方法都是关键的问题。
这通常需要进行统计检验和模型比较来确保选择的断点和模型是合适的。
总体来说,断点回归参数估计方法是一种用于处理因变量在自变量特定点发生显著变化的回归分析方法。
断点回归法事件研究法
断点回归法事件研究法断点回归法(Breakpoint Regression Analysis)是一种常用的事件研究方法,在金融学、经济学、管理学等领域得到广泛应用。
本文将介绍断点回归法的基本概念、原理和应用,并探讨其优缺点。
一、断点回归法的基本概念断点回归法是一种用于研究某个事件对特定变量的影响的统计方法。
该方法通过在时间序列数据中选择一个或多个断点,将数据分为两个或多个子样本,然后对每个子样本进行回归分析,从而比较不同子样本之间的差异。
这种方法能够帮助研究者判断某个事件对变量的影响是否存在、是否显著,并进一步分析影响的程度和方向。
二、断点回归法的原理断点回归法的核心原理是基于时间序列数据中存在的某个结构性断点,该断点可能是由于政策改变、市场变动、经济周期变化等原因引起的。
研究者通过设定断点,将样本数据分为两个或多个子样本,然后对每个子样本进行回归分析。
在分析中,需要控制其他可能影响结果的变量,以确保所得的结果是由所关注的事件引起的。
三、断点回归法的应用断点回归法在金融学、经济学、管理学等领域有广泛的应用。
例如,在金融市场中,研究者可以使用断点回归法来分析某个重大事件对股票市场的影响。
他们可以选择一个事件作为断点,将数据分为事件前后两个子样本,然后对每个子样本进行回归分析,以比较事件前后的差异。
这样可以帮助研究者了解事件对股票价格、交易量等指标的影响程度和方向。
四、断点回归法的优缺点断点回归法具有一定的优点和缺点。
其优点在于可以通过选择合适的断点,准确地判断事件对变量的影响,并量化影响的程度和方向。
此外,断点回归法能够更好地控制其他可能的干扰变量,提高分析结果的可靠性。
然而,该方法也存在一些缺点,如对断点的选择比较主观,需要研究者具备一定的经验和专业知识;另外,断点回归法只能检测到存在结构性断点的影响,对于连续性变化的影响则无法有效分析。
断点回归法是一种常用的事件研究方法,通过选择断点,将样本数据分为两个或多个子样本,并对每个子样本进行回归分析,以比较不同子样本之间的差异。
断点回归方法及其应用
断点回归方法及其应用下载温馨提示:该文档是我店铺精心编制而成,希望大家下载以后,能够帮助大家解决实际的问题。
文档下载后可定制随意修改,请根据实际需要进行相应的调整和使用,谢谢!并且,本店铺为大家提供各种各样类型的实用资料,如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等,如想了解不同资料格式和写法,敬请关注!Download tips: This document is carefully compiled by theeditor. I hope that after you download them,they can help yousolve practical problems. The document can be customized andmodified after downloading,please adjust and use it according toactual needs, thank you!In addition, our shop provides you with various types ofpractical materials,such as educational essays, diaryappreciation,sentence excerpts,ancient poems,classic articles,topic composition,work summary,word parsing,copy excerpts,other materials and so on,want to know different data formats andwriting methods,please pay attention!断点回归方法及其应用断点回归方法是一种用于分析因果关系的方法,通过对处理组和对照组进行划分,并利用断点回归分析处理效应。
双重差分断点回归模型的一般形式
双重差分断点回归模型的一般形式引言:双重差分断点回归模型是一种用于分析因果关系的统计模型,广泛应用于经济学、社会学等领域。
该模型通过考察不同条件下的数据变动情况,揭示变量之间的因果关系。
本文将介绍双重差分断点回归模型的一般形式,并探讨其应用场景和分析方法。
一、双重差分断点回归模型的基本概念双重差分断点回归模型是在传统差分回归模型的基础上引入断点变量的一种扩展形式。
传统差分回归模型用于分析时间序列数据或面板数据中的因果关系,通过比较同一对象在不同时间或不同条件下的差异来估计因果效应。
而双重差分断点回归模型则在此基础上引入了一个或多个断点变量,用于分析在某一特定条件下因果效应的变化情况。
二、双重差分断点回归模型的一般形式双重差分断点回归模型的一般形式可以表示为:Y_it = β_0 + β_1*X_it + β_2*T_i + β_3*T_i*X_it + γ*X_it + θ*T_i + ε_it其中,Y_it表示因变量的观测值,X_it表示自变量的观测值,T_i表示断点变量的观测值,β_0、β_1、β_2、β_3分别为模型的系数,γ和θ分别为自变量和断点变量的系数,ε_it表示误差项。
三、双重差分断点回归模型的应用场景双重差分断点回归模型适用于具有时间序列或面板数据结构的研究问题,尤其适用于以下几种情况:1. 政策评估:当政策在某一时间点发生改变时,可以使用断点回归模型来评估政策改变对因果关系的影响。
2. 经济研究:当经济环境在某一特定条件下发生改变时,可以使用断点回归模型来研究因果效应的变化情况。
3. 社会学研究:当社会因素在某一特定条件下发生变化时,可以使用断点回归模型来研究因果效应的差异。
四、双重差分断点回归模型的分析方法在应用双重差分断点回归模型进行数据分析时,通常需要以下几个步骤:1. 数据准备:收集相关的时间序列或面板数据,并进行清洗和整理,确保数据的准确性和完整性。
2. 模型设定:根据研究问题确定模型的自变量、因变量和断点变量,并设定模型的形式和假设。
《因果推断实用计量方法》大学教学课件--第12章-断点回归
方法,虽然它使用的是观测数据而非真正的实验数据。
断点回归的数据要求
断点回归的数据要求一
断点回归的数据需要包含3个基本变量
✓ 配 置 变 量 ( Assignment Variable ) , 也称作 驱 动 变 量 ( Forcing Variables,
Running Variables):配置变量是个体的一个连续特征变量,匹配变量的值
• 接受治疗的平均潜在健康状况 1 和收入关系的函数为
1 =
• 未接受治疗的平均潜在健康状况 0 和收入关系的函数为
0 =
• 给定收入水平,病人平均治疗效果为
τ = 1 − 0 = −
• 本文利用美国企业成立工会投票事件来估计工会对债券价格的因果影响。当
成立工会投票结果公布后,企业的债券价格会对投票结果做出反映,RDD的方
法是通过比较工会得票率在50%左右企业的债券价格变化来估计工会的影响。
变量
• 配置变量(vote_for_share):支持成立工会的得票率;
• 断点:得票率为50%。如果支持工会成立得票率大于或等于50%,企业必须成
(5.2) 局部多项式回归(rdrobust)
多项式次数
带宽选择
权重选择
RDD运用实例
文章背景
• 文章引用:Murillo Campello, Janet Gao, Jiaping Qiu, and Yue Zhang, "Bankruptcy
and the Cost of Organized Labor: Evidence from Union Elections," Review of
(1) , ≤ 50
间断点回归的经济学应用,教育理论范文.doc
间断点回归的经济学应用,教育理论-:王湛晨摘要:间断点回归(RD)是仅次于随机实验的,能够有效利用现实约束条件分析变量之间因果关系的实证方法。
本文旨在简要介绍间断点回归,并对一些问题予以解释。
关键词:间断点回归,处理效应,有效性间断点回归(也成RD)首次被在Thistlethwaite和Campbell (1960)用于在准自然实验中评估处理效应,实验准则便是参与实验的某一样本(也可称为强制变量)是否超过了既定的“间断点”。
该评估策略尽管已有五十多年历史,但直到最近才被引入经济学中使用。
自从教育领域运用RD逐渐成熟后,之后涌现一大批运用此方法研究各种问题的文献。
Hahn Jinyong,Petra Todd 和Wilbert van der Klaauw(2001)认为RD相比于其他准实验的需要的假设更为宽泛并且为RD的使用建立了规范。
RD兴起的另一个原因在于它不仅仅是效用评估的方法,基于RD的因果推论也比其他传统的自然实验更为可信(双重差分法和工具变量法),因此被更多的应用在应用研究领域。
因此,为了提供一个具有高可信度和透明的项目效应评估方法,RD能够被用于分析许多重要经济学问题。
尽管RD在经济学中的地位日渐重要,始终没有对于如何理解RD的总结的文献,以及对RD的优缺点评判的文献。
另外,对于使用RD的具体细节步骤也尚未涵盖标准的计量经济学检验。
撰写本文的目的便在于弥补上述的不足,把RD在经济学中使用的一些要求明确出来,给予对此方法感兴趣的学者以引导。
如果样本能够准确的改变所赋值的变量,那么RD便是无效的。
当接受处理会获得奖励或收益时,经济学家自然会想要知道该个体会如何表现进而得到奖励。
比如,学生通过努力有效“提高”自己的测试成绩。
得分为c的样本应该比起得分低于c的样本来说应该不同。
这就告诉我们,处理的存在就好比赋值变量的函数为不连续函数,但仅仅有这一点并不能够分辨RD是否合理。
因此,任何产生激励进行为的间断规则都能导致RD无效。
模糊断点回归 协变量
模糊断点回归协变量
模糊断点回归(Fuzzy Regression Discontinuity, FRD)是一种回归分析方法,用于研究一个连续变量(称为跳跃变量)对另一个连续变量(称为结果变量)的影响是否存在一个阈值效应。
在模糊断点回归中,协变量是指除了跳跃变量和结果变量之外的其他控制变量,用来控制可能对结果变量产生影响的其他因素。
模糊断点回归通过比较跳跃变量在阈值附近两侧对结果变量的平均差异来估计阈值效应。
具体而言,该方法将观测样本根据跳跃变量的取值与阈值的关系进行分组,然后分别计算两个组的结果变量的平均值差异。
如果在阈值处存在阈值效应,即跳跃变量对结果变量的影响在阈值左右发生明显变化,那么在阈值处的平均差异应该显著不等于零。
协变量在模糊断点回归中的作用是控制其他可能干扰结果变量的因素。
通过引入协变量,可以减少由于未考虑其他因素导致的误差和偏差,从而更准确地估计阈值效应。
在实际应用中,选择合适的协变量需要基于领域知识和理论基础进行判断。
通常可以通过观察协变量与跳跃变量和结果变量之间的相关关系来判断其是否需要作为控制变量加入模型中。
1。
断点回归设计方法应用的研究综述
经济管理㊀㊀[基金项目]国家社会科学基金项目 我国医院行业市场机制有效性的实证研究 (17BGL170)㊀㊀[作者简介]谢谦(1982-㊀)ꎬ男ꎬ河北保定人ꎬ中国社会科学院经济研究所助理研究员ꎮ主要研究方向:国际经济学ꎮ①分别为AmericanEconomicReview(AER)㊁Econometrica(ECMA)㊁JournalofPoliticalEconomy(JPE)㊁Quar ̄terlyJournalofEconomics(QJE)和ReviewofEconomicStudies(RES)ꎮ②不包括五大上关于RDD方法的理论研究论文ꎮ我们在Jstor数据库中用全文任一地方出现 regressiondiscontinuity 这个关键词检索ꎬ然后剔除不是运用RDD做的经验研究论文ꎬ譬如RDD的理论研究论文㊁仅论文文献综述或脚注中出现 regressiondiscontinuity 的论文等ꎮ断点回归设计方法应用的研究综述谢㊀谦1㊀薛仙玲2㊀付明卫1(1.中国社会科学院经济研究所ꎬ北京㊀100836ꎻ2.中国社会科学院研究生院ꎬ北京㊀102488)㊀㊀[摘㊀要]㊀近年来ꎬ国内经济学界颇为关注断点回归设计(RDD)方法ꎬ运用RDD的文章日益增多ꎮ首先概述Lee和Lemieux(2010)提出的运用RDD的规范ꎬ然后基于2011-2017年五大英文顶级经济学期刊发表的RDD应用研究论文ꎬ归纳出运用RDD的三个新动作:新的最优带宽确定方法㊁甜甜圈RDD和参数估计中最高只能使用二次多项式ꎮ以国外的RDD用法为参照ꎬ我们发现ꎬ国内熟悉Lee和Lemieux(2010)提出的规范ꎬ也在吸收国外文献中出现的新动作ꎬ但运用RDD时存在如下几个突出问题:不做适用性检验㊁不重视描述统计图和不交代清楚非参数估计的关键细节ꎮ建议国内运用RDD时需要增加如下动作:非参数估计应该同时尝试CV㊁IK和CCT三种带宽确定方法ꎻ在配置变量存在堆积现象或被操纵的可能时ꎬ使用甜甜圈RDDꎻ尝试到四次多项式ꎮ[关键词]㊀断点回归设计ꎻ参数估计ꎻ非参数估计ꎻ最优带宽ꎻ甜甜圈RDD[DOI编码]㊀10.13962/j.cnki.37-1486/f.2019.02.006[中图分类号]F224㊀㊀[文献标识码]A㊀㊀[文章编号]2095-3410(2019)02-0069-11一㊁引言20世纪80年代以来ꎬ应用微观计量研究经历了一场可信性革命ꎬ变得十分强调研究设计(researchdesign)ꎮ这种转变导致工具变量法(InstrumentalVariableꎬIV)㊁双重差分法(Difference-in-DifferenceꎬDID)和断点回归设计(RegressionDiscontinuityDesignꎬRDD)成为应用微观计量研究中运用最广泛的方法[1]ꎮ与工具变量法和双重差分法相比ꎬRDD更接近于随机试验ꎬ因而从理论上讲是更好的因果识别方法[2]ꎮRDD虽然早在1960年就已被Thistlethwaite和Campbell(1960)[3]提出ꎬ但20世纪90年代末之后才被国外大量应用于经济学研究ꎮ尽管运用RDD要求在断点附近有较多观测值ꎬ对数据要求很高ꎬ但过去几年的相关研究并不少ꎮ2011-2017年ꎬ五大英文顶级经济学期刊①发表的运用RDD做的经验研究论文(下文简称 五大RDD论文 )共39篇②ꎬ96经济管理各年分别为6篇㊁3篇㊁3篇㊁11篇㊁5篇㊁7篇和4篇(如图1所示)ꎬ表明RDD在国际上已经成为一种主流的经验研究方法ꎮ根据在中国知网的检索ꎬ中文期刊发表的头两篇运用RDD做的经验研究论文是 退休会影响健康吗? [4]和 城市群落的崛起㊁经济绩效与区域收入差距 [5]ꎻ2011-2017年间ꎬ中文CSSCI期刊共发表运用RDD做的经验研究论文46篇ꎬ各年分别为1篇㊁1篇㊁0篇㊁5篇㊁8篇㊁8篇和23篇(如图1所示)ꎮ我们预计ꎬ大数据时代的来临会极大地打破运用RDD面临的数据限制①ꎬ运用RDD的相关研究会越来越多ꎮ图1㊀中文核心期刊和英文五大期刊上发表的断点回归设计经验研究论文数②Imbens和Lemieux(2008)[6]㊁vanderKlaauw(2008)[7]㊁Lee和Lemieux(2010)[2]㊁Skovron和Titiunik(2017)[8]㊁Hausman和Repson(2018)[9]专门综述了RDD的理论和应用研究ꎮ余静文和王春超(2011)[10]简要介绍了断点回归设计的发展历史㊁理论㊁实施步骤和应用情况ꎮ但是ꎬ由于RDD这种方法的理论研究仍很活跃ꎬ运用RDD涉及参数估计和非参数估计的选择㊁参数估计中多项式次数的选择和非参数估计最优带宽的确定等众多技术细节ꎬ文献中在RDD的具体用法上存在很大差别ꎬ特别是中文文献运用RDD的规范程度明显滞后于外文文献ꎬ有时还存在误用ꎮ因此ꎬ十分有必要归纳RDD应用的新进展ꎬ为国内学者规范运用RDD提供借鉴ꎮ由于本文强调被五大RDD论文运用过的新进展ꎬ侧重于应用ꎬ我们不会涉及多配置变量RDD(RDdesignswithassignmentvariables)[11]㊁分位数RDD[12]㊁拐点回归设计(regressionkinkdesigns)[13]㊁多断点RDD(RDdesignswithmultiplecutoffs)[14]㊁远离断点处的处理效应的识别方法(methodsforextrapolationawayfromthecutoff)[15][16]㊁离散型配置变量RDD[17]等五大RDD论文中未运用的新进展ꎮ本文综述Lee和Lemieux(2010)[2]以来RDD的新进展ꎮ选择以Lee和Lemieux07 ①②这方面的一个表现是ꎬ大量行政管理数据(administrativedata)被用于经济学经验研究ꎮ根据英国«经济学人»(TheEconomist)的报道ꎬNBER(NationalBureauofEconomicResearch)工作论文摘要里出现 administra ̄tivedata 的论文数ꎬ2000年是0篇ꎬ之后快速增长ꎬ2017年达到28篇ꎮ报道链接为:https://www.economist.com/international/2018/05/26/government-data-are-ever-more-important-to-economic-researchꎮ中文核心期刊论文数的检索方法如下:在中国知网检索出主题包含 断点回归 ㊁发表年度为2011年至2017年的中文社会科学引文索引(CSSCI)期刊论文ꎬ然后逐一检查㊁剔除非经验研究论文ꎬ最后剩下46篇ꎮ将检索限定在中文社会科学引文索引期刊ꎬ是为了保证检索到的论文的质量ꎮ英文五大期刊论文数的检索方法如下:在Jstor数据库中用全文任一地方出现 regressiondiscontinuity 这个关键词㊁发表年度为2011至2017年㊁期刊为五大期刊检索到50篇ꎬ然后逐一检查㊁剔除非经验研究论文ꎬ最后剩下39篇ꎮ经济管理(2010)[2]为基点的理由如下:首先ꎬ与Imbens和Lemieux(2008)[6]㊁vanderKlaauw(2008)[7]相比ꎬLee和Lemieux(2010)[2]的时间要晚ꎮ其次ꎬ与Skovron和Titiunik(2017)[8]综述政治学中断点回归设计的应用情况㊁Hausman和Repson(2018)[9]综述时间作为配置变量(也叫驱动变量)的RDD应用情况相比ꎬLee和Lemieux(2010)[2]综述的是经济学中的应用情况ꎬ包括各种类型的配置变量ꎬ更综合㊁更全面ꎮLee和Lemieux(2010)[2]提出了运用RDD做经验研究的规范ꎬ算是一个共识ꎮ但是ꎬ通过归纳2011-2017年的五大RDD论文ꎬ我们发现:一方面很多论文都没有遵守此规范ꎮ另一方面涌现出了很多被广泛应用的新进展ꎬ譬如非参数估计中确定带宽的IK法①[18]和CCT法[19]㊁参数估计中只应使用配置变量的低次项和甜甜圈RDD(DonutholeRDD)等②ꎮ通过归纳2011-2017年CSSCI期刊发表的RDD经验研究论文ꎬ我们发现ꎬ国内总体上了解运用RDD的规范ꎬ但仍然存在不少问题ꎬ譬如不做适用性检验㊁不重视描述统计图㊁不交代清楚非参数估计的关键细节等ꎮ二、运用断点回归设计的规范和新进展(一)运用断点回归设计做研究的既定规范Lee和Lemieux(2010)[2]提出了运用RDD做经验研究的规范ꎬ概述如下:1.利用配置变量检验RDD的适用性ꎮRDD的前提条件是个体不能精准操控(preciselymanipulate)配置变量ꎮ此条件可利用配置变量来检验ꎮ首先ꎬ选定一定数量的箱体画出配置变量的历史直方图ꎮ如果频数(frequencies)在邻近断点处的两个箱体间存在跳跃式变化ꎬ则很可能意味着前提条件不成立ꎮ其次ꎬ做配置变量的McCrary检验[20]ꎮ此检验的stata命令DCdensity是外部命令ꎬ可在下述网址下载后安装:https://eml.berkeley.edu/~jmccrary/DCden ̄sity/ꎮ2.利用前定变量检验RDD的适用性ꎮ首先ꎬ选定一定数量的箱体ꎬ求前定变量在每个箱体内的均值ꎬ画出均值对箱体中间点的散点图ꎻ接着再画出使用多项式模型对前定变量做出的拟合曲线ꎬ其中多项式一般是4次多项式③ꎮ如果前定变量的均值在断点处存在跳跃ꎬ则意味着前提条件很可能不成立ꎮ其次ꎬ用前定变量对常数项㊁处理变量㊁配置变量的多项式㊁处理变量和配置变量多项式的交互项做回归ꎮ如果前定变量比较多ꎬ那么随机因素也可能导致某个前定变量存在显著的断点ꎮ因此ꎬ有必要把众多检验合并为一个检验所有前定变量都不存在断点的统计量ꎮ这时ꎬ应该用似不相关回归(SeeminglyUnrelatedRegressionꎬSUR)ꎮ3.画结果变量的图ꎮ选定一定数量的箱体ꎬ求结果变量在每个箱体内的均值ꎬ画出均值对箱体中间点的散点图ꎻ接着再画出使用多项式模型对结果变量做出的拟合曲线ꎬ其中多项式一般是4次多项式ꎮ一定要求了局部平均值后再画图ꎮ如果直接画原始数据的散点图ꎬ那么噪音太大ꎬ看不出潜在函数的形状ꎮ如果结果变量的均值在断点处存在跳跃ꎬ则意味着处理变量有影响ꎮ用图来显示结果变量和配置变量之间的关系ꎬ已经成为运用RDD的标准作法ꎮLee17 ①②③Imbens和Kalyanaraman(2009)是工作论文ꎬ后来于2012年发表在«ReviewofEconomicStudies»上ꎮ用Stata软件实现这些新进展的操作命令可以参考Cattaneoetal.(2018)ꎬ更详细的操作命令细节可参考本文所引用文献的网上附件ꎮ这些网上附件可在发表各引用文献的期刊官网上下载ꎮ作者文中用的都是4次多项式ꎬ没解释不用其他次数多项式的原因ꎮ经济管理和Lemieux(2010)[2]指出ꎬ画图在RDD经验文章中是如此重要ꎬ以致没有图的文章会让人自然而然地怀疑图形证据对文章不利ꎮ4.全样本参数估计ꎮ使用全样本数据进行参数估计ꎮ以精确断点回归为例ꎬ估计模型如下:y=α+ρˑTreatment+ðKk=1βkˑ(x-c)k+ðKk=1γkˑTreatmentˑ(x-c)k+W+ε(1)其中y㊁x㊁treatment和W分别为结果变量㊁配置变量㊁处理变量(当xȡc时ꎬtreatment=1ꎬ否则treatment=0)和前定变量ꎮα㊁ρ㊁β和γ为待估计的参数ꎬε为随机扰动项ꎮρ显著不为0ꎬ表明处理对结果变量有影响ꎮ参数估计的要点是确定模型(1)中的多项式次数Kꎮ一般从一次尝试到八九次①ꎬ然后挑选赤池信息准则(AIC)取值最小的模型ꎮ另外一个比赤池信息准则更好的方法是ꎬ在多项式模型的自变量中先加入表示箱体的虚拟变量ꎬ然后不断加入配置变量的多次项ꎬ只到下述原假设成立:所有箱体虚拟变量的系数均等于零ꎮ5.子样本非参数估计ꎮ非参数估计就是对最优带宽内的子样本做加权局部线性回归ꎮ非参数估计的要点是确定最优带宽ꎮ确定最优带宽的方法有两种②:拇指规则法(ruleofthumbꎬROT)和交叉验证法(crossvalidationprocedureꎬCV)ꎮ加权可用矩形核密度函数㊁三角形核密度函数等ꎮ其中ꎬ使用矩形核密度函数加权的非参数估计ꎬ等于是基于子样本的参数估计ꎮ使用三角形核密度函数与使用矩形核密度函数的唯一区别是ꎬ前者给临近断点的观测值更大的权重ꎮ但是ꎬ要想给临近断点的观测值更大的权重ꎬ更透明的做法是在更小的带宽内使用矩形核密度函数ꎮ使用矩形核密度函数得到的结果也更易解释ꎮ值得庆幸的是ꎬ实践中不同核密度函数得到的结果一般是一致的ꎮ具体研究中ꎬ参数估计和非参数估计都要做ꎬ在两种方法下都稳定的结果更可信ꎮ(二)运用断点回归设计做研究的新进展Lee和Lemieux(2010)[2]之后的7年里(2011-2017年)ꎬ学者在运用RDD时出现了不少Lee和Lemieux(2010)[2]未提及的新做法ꎬ譬如非参数估计中确定带宽的IK法和CCT法㊁甜甜圈RDD(DonutholeRDD)㊁参数估计中只应使用配置变量的低次项和利用配置变量做适用性检验的Frandsen法[21]等ꎮ此处归纳比较重要的三种新做法如下:1.非参数估计中最优带宽的确定ꎮLee和Lemieux(2010)[2]介绍了ROT和CV两种确定最优带宽的方法ꎮ但是ꎬ2011-2017年间五大RDD论文使用得多的是IK法和CCT法ꎮstata中用非参数法做断点回归估计时的命令rdꎬ就是用IK法确定最优带宽ꎬ而命令rdrobust提供CV㊁IK㊁CCT三种不同的最优带宽计算方法选项ꎮImbens和Kalyanaraman(2012)[18]指出ꎬROT和CV两种方法对于在整个支撑集(supportset)里估计回归方程而言是最优的ꎬ但RDD只关心断点处的回归方程估计ꎬ故ROT和CV对于RDD而言不是最优的ꎬ而IK法对于RDD而言27 ①②作者说这是经验上的做法ꎬ没解释这样做的原因ꎮLee和Lemieux(2010)在脚注中提到了之后应用广泛的IK法(Imbens和Kalyanaramanꎬ2009)ꎬ但是文中举例只使用拇指规则法和交叉验证法ꎬ没使用IK法ꎮ经济管理是渐近最优的ꎻ另外ꎬCV法需要研究人员自己设定一个调节参数(tuningparameter)ꎬ而IK法是完全数据驱动的ꎮImbens和Kalyanaraman(2012)[18]进一步指出ꎬ尽管IK法具备这些优点ꎬ但研究人员不能只看这一个最优带宽下的估计结果ꎬ而应把这一带宽作为基准㊁检验结果对不同带宽的稳健性ꎮCalonico㊁Cattaneo和Titiunik(2014)[19]认为ꎬROT㊁CV和IK这些方法得出的最优带宽过大ꎬ导致相应的置信区间有偏ꎬ会过度拒绝 没有处理效应 的原假设ꎬ结果把 没有 处理效应说成 有 ꎮCCT法校正了过大带宽带来的偏误ꎮ2.甜甜圈RDD(DonutholeRDD)ꎮ甜甜圈RDD用来克服数据堆积(heaping)问题对估计结果的影响①ꎮ数据堆积指取配置变量某些值的观测值过多的现象ꎮ导致这一现象的原因包括受访者自报告某些信息时倾向于向某个数值近似ꎬ测量标尺的精读有限等ꎮ譬如ꎬ调查数据中受访者自报告的身高在160cm㊁170cm和180cm等取值上堆积ꎬ新生儿体重会在3000克㊁3500克和4000克等取值上堆积ꎮ数据操纵现象源自经济个体的逐利动机ꎬ只出现在断点处ꎮ然而ꎬ数据堆积不是源自经济个体的逐利动机ꎬ且可能出现在除断点之外的其他地方ꎮ如果结果变量受配置变量的堆积现象影响ꎬ那么RDD估计量可能是有偏的[22]ꎮ此时ꎬ可以去掉断点附近的某些观测值再做RDD估计ꎮ由于去掉断点附近的某些观测值后的数据就像一个 甜甜圈 ꎬ故称作 甜甜圈RDD ꎮ至于去掉断点附近多少观测值为适ꎬ文献中尚未达成共识ꎮ3.全样本参数估计的缺点ꎮ根据Lee和Lemieux(2010)[2]ꎬ配置变量多项式要尝试到八九次ꎮ但是ꎬGelman和Imbens(2014)[23]认为ꎬ不能尝试配置变量多项式的高次项ꎬ只能使用局部一次或局部二次多项式ꎬ理由有三点:第一ꎬ断点回归设计的估计量可以写成处理组结果的加权平均值和控制组结果的加权平均值之差ꎬ其中加权权重是配置变量的函数ꎮ运用全域高阶多项式方法时ꎬ当配置变量取值较大时ꎬ使用不同次数多项式得到的权重差别巨大ꎮ然而ꎬ局部线性回归方法给临近断点处的观测值赋予要大的权重ꎬ理论上讲更合理ꎮ第二ꎬ处理效应的估计值对全域高阶多项式的次数十分敏感ꎮ使用不同次数多项式得到的估计值差别很大ꎮ第三ꎬ在本身不存在断点的情况下ꎬ全域多项式方法得到错误结果(认为有断点)的概率高于实际水平ꎬ而局部一次(或二次)多项式方法得到错误结果的概率和实际水平差不多ꎮ三、断点回归设计的国外应用情况2011-2017年ꎬ五大英文顶级经济学期刊共发表39篇运用RDD做的经验研究论文ꎬ涉及公共经济学㊁新政治经济学㊁劳动经济学和教育经济学等众多领域ꎮ39篇论文中有33篇使用行政管理数据②ꎬ由此可见开放行政管理数据对于RDD应用的重要性ꎮ第二部分提到的三个新进展的应用情况如下:首先ꎬ使用非参数估计的26篇论文中ꎬ用IK法㊁CCT法确定最优带宽的分别为13篇㊁6篇ꎬ表明这两种最优带宽确定方法已被学界接受ꎻ其次ꎬ在甜甜圈RDD被提出的2011年之后ꎬ33篇论文中有5篇用了此方法ꎻ最后ꎬDell(2015)[24]和Pinotti(2017)[25]引用了Gelman和Imbens(2014)[23]ꎬ但还使用超过二次的配置变量多项式做稳健性检验ꎮ这些文献对RDD的运用与Lee和Lemieux(2010)[2]提出的规范大体一致ꎬ譬如20篇(占37 ①②实际上ꎬ甜甜圈RDD也可以克服数据操纵问题对估计结果的影响ꎮ分别来自美国㊁巴西㊁挪威㊁意大利等17个国家ꎮ经济管理51.28%)论文引用了Lee和Lemieux(2010)[2]ꎬ33篇(占84.62%)做了适用性检验ꎮ与Lee和Lemieux(2010)[2]提出的规范不一致的情况ꎬ包括如下几点:第一ꎬLee和Lemieux(2010)[2]建议参数估计和非参数估计均要做①ꎬ但这样做的只有16篇ꎮ只使用参数估计㊁只使用非参数估计的分别为13篇和10篇ꎮ在16篇同时使用了两种估计方法的文章中ꎬ将两种方法视为同等重要的有4篇ꎬ参数估计仅只是做稳健性检验㊁非参数仅只是做稳健性检验的分别为4篇和8篇ꎮ因此ꎬ总体来看ꎬ文献中偏重于参数估计ꎮ值得一提的是ꎬECMA上的4篇文章都只用非参数估计ꎬ而QJE上的5篇文章ꎬ除Malamud和Pop-Eleches(2011)[26]同时使用了两种方法外ꎬ其余4篇都只用参数估计ꎮECMA由国际计量经济学会主办ꎬQJE由哈佛大学经济系主办ꎮ二者在RDD应用上的差异可能体现了两个主办方不同的学术风格ꎮ第二ꎬLee和Lemieux(2010)[2]建议用前定变量做适用性检验时ꎬ应该做似不相关检验ꎬ但没有一篇文献这样做ꎮ第三ꎬLee和Lemieux(2010)[2]建议画描述统计图中的拟合曲线时ꎬ用配置变量的4次多项式ꎬ但仅有3篇论文用了4次多项式ꎮ39篇论文中ꎬ仅有Chettyetal(2014)[27]这一篇没在描述统计图中画上对散点的拟合曲线ꎮ在画了的38篇中ꎬ未说明用的什么方法㊁使用局部线性回归(locallinearregression)㊁使用局部线性平滑(locallinearsmoother)㊁移动平均法(running-meansmoothing)和多项式方法的分别为3篇㊁3篇㊁3篇㊁1篇和28篇ꎬ可见多项式方法是主流方法ꎮ在画拟合曲线所用方法上的差异具有明显的期刊特色:使用局部线性回归法的3篇文章有1篇来自QJE㊁2篇来自JPEꎬ使用局部线性平滑法的3篇文章均来自ECMAꎬ使用移动平均法的一篇文章来自RESꎬAER上的文章都使用多项式方法ꎮ在使用多项式方法的28篇论文中ꎬ使用1次㊁2次㊁3次㊁4次㊁8次及同时使用1次和2次多项式的分别为8篇㊁11篇㊁4篇㊁3篇㊁1篇和1篇ꎬ使用1次多项式和2次多项式的明显居多ꎮ值得一提的是ꎬMeng(2017)[28]在同一张图中同时画了1次多项式和2次多项式的拟合曲线ꎮ第四ꎬLee和Lemieux(2010)[2]建议参数估计时的配置变量多项式要尝试到八九次ꎬ然后挑选赤池信息准则(AIC)取值最小的模型ꎮ但是ꎬ使用过参数估计的29篇论文中ꎬ仅有Clark和Martorell(2014)[29]和Deshpande(2016)[30]根据AIC来挑选模型ꎮ在明确说明尝试过的多项式次数的论文中ꎬ仅有Auffhammer和Kellogg(2011)[31]㊁Pinotti(2017)[25]尝试过超过4次的多项式ꎬ绝大多数只尝试到4次多项式ꎮ第五ꎬLee和Lemieux(2010)[2]建议非参数估计时用矩形核密度函数ꎮ但是ꎬ在使用非参数估计且说明了所用核密度函数的16篇文献中ꎬ使用矩形核密度函数的为7篇ꎬ而使用三角形核密度函数的有8篇ꎬ还有一篇使用帐篷型核密度函数(tent-shapededgekernel)ꎮ综上所述ꎬLee和Lemieux(2010)[2]之后ꎬ运用RDD出现了IK和CCT两种最优带宽确定方法以及甜甜圈RDD两个新操作环节ꎮGelman和Imbens(2014)[23]不该使用超过两次的多项式的建议ꎬ尚未被学界普遍接受ꎮ同时ꎬ学界在Lee和Lemieux(2010)[2]涉及的RDD运用为方便讨论ꎬ使用矩形核密度函数的非参数估计虽然等同于参数估计ꎬ但此处只将其归为非参数估计ꎮ 47 ①经济管理环节上未达成共识ꎮLee和Lemieux(2010)[2]发表在权威经济学期刊«JournalofEconomicLit ̄erature»上ꎬ其两位作者均是国际上知名的经济学者ꎮ他们提出的RDD应用规范未被学界完全接受ꎬ并不因为他们的观点不准确㊁不权威ꎬ而是因为RDD的理论研究仍很活跃ꎬ故应用上达成的共识不多ꎻ因为RDD应用涉及众多技术环节ꎬ故更难达成共识ꎮ作为一个对比ꎬIV和DID的理论研究相对成熟㊁应用涉及的技术环节单一①ꎬ学者运用这两种方法做研究时的动作比较一致ꎮ四、断点回归设计的国内应用情况2011-2017年间ꎬCSSCI期刊共发表RDD经验研究论文46篇ꎬ涉及公共经济学㊁环境经济学㊁财政学等众多领域ꎬ其中使用行政管理数据的仅有王骏和孙志军(2015)[32]一篇ꎮ总体而言ꎬ对于两篇权威的RDD综述文章 Imbens和Lemieux(2008)[6]㊁Lee和Lemieux(2010)[2]ꎬ至少引用过其中一篇的中文论文有32篇ꎬ占69.57%ꎬ这意味着国内学者总体上了解运用RDD涉及的众多技术环节ꎮRDD应用的新进展也在被国内文献吸收ꎮ首先ꎬ确定最优带宽的IK法已被广泛应用ꎬCCT法也开始被使用ꎮ使用非参数估计且说明了带宽确定方法的24篇文章中ꎬ使用了IK法㊁CCT法的分别有10篇㊁3篇ꎮ其次ꎬ李宏彬等(2014)[33]㊁张川川等(2015)[34]和张明(2017)[35]都使用了甜甜圈RDDꎮ最后ꎬ马光荣等(2016)[36]㊁何文剑(2016)[37]㊁李江一和李涵(2017)[38]以及王家庭等(2017)[39]共4篇文章引用了Gelman和Im ̄bens(2014)[22]ꎮ与国外文献一样ꎬ国内文献运用RDD也存在很多与Lee和Lemieux(2010)[2]规范不一致的情况ꎬ具体如下:首先ꎬ同时使用参数估计和非参数估计的只有18篇(占39.13%)ꎮ只使用参数估计㊁只使用非参数估计的分别为17篇和11篇ꎮ在18篇同时使用了两种估计方法的文章中ꎬ将两种方法视为同等重要的有3篇ꎬ参数估计仅只是做稳健性检验㊁非参数仅只是做稳健性检验的分别为2篇和13篇ꎮ因此ꎬ总体来看ꎬ国内文献与国外文献一样ꎬ偏重于参数估计ꎮ其次ꎬ用前定变量做适用性检验时ꎬ仅有曹静等(2014)[40]㊁王骏和孙志军(2015)[32]使用了似不相关回归ꎮ再次ꎬ使用了参数估计的35篇文章中ꎬ只有杨小聪(2017)[41]㊁张英和陈绍志(2015)[42]㊁曹静等(2014)[40]3篇文章尝试到配置变量八九次的多项式ꎮ最后ꎬ在使用非参数估计且说明了所用核密度函数的11篇文章中ꎬ只使用矩形核密度函数㊁同时使用矩形和三角形核密度函数以及只使用三角形核密度函数的分别为2篇㊁5篇和4篇ꎮ由于运用RDD涉及众多技术环节ꎬ国内对RDD的运用还存在不少问题ꎬ主要表现在以下几个方面:首先ꎬ5篇文章未做适用性检验ꎬ2篇文章在适用性检验未通过时依然使用RDDꎮ张明(2017)[34]既没有用配置变量也没有用前定变量做适用性检验ꎮ陈强等(2017)[43]㊁黄新飞和杨丹(2017)[44]㊁高彦彦和王逸飞(2017)[45]以及王旭光(2017)[46]使用的配置变量不可能被操控ꎬ无须检验ꎬ但他们都没有检验前定变量的连续性ꎮ邹红和喻开志(2015)[47]㊁邓婷鹤和何秀荣(2016)[48]使用的配置变量 年龄 均在断点(60岁)处不连续ꎬ但依然运用RDDꎮ邹红57 ①运用IV必需的技术环节是报告第一阶段回归的F统计量取值ꎬ运用DID必需的技术环节是做平行趋势假设检验ꎮ经济管理和喻开志(2015)[47]做回归分析时去掉了60岁断点上的样本ꎬ但是出于男性实际停止工作的时间普遍是61岁这个考虑ꎬ并没有从RDD适用性这个角度深化㊁细化研究内容ꎬ譬如检验样本是否在50岁㊁60岁㊁70岁等年龄上存在堆积问题ꎮ其次ꎬ对描述统计图的运用不规范ꎮ如前所述ꎬ画图在RDD应用研究中十分必需ꎮ然而ꎬ有11篇没有画描述统计图ꎮ根据Lee和Lemieux(2010)[2]和英文顶级期刊的实际ꎬ画拟合曲线图以多项式方法居多ꎮ然而ꎬ在画有描述统计图的35篇文章中ꎬ15篇没有说明拟合曲线图所采用的方法ꎬ14篇采用局部多项式方法ꎬ6篇采用了平滑㊁多元回归等其他方法ꎮ未画描述统计图和未说明画拟合曲线所采用方法的文章合计达26篇(占56.52%)ꎬ表明国内学界对画图重要性的认识不够ꎮ最后ꎬ使用非参数估计时的关键技术细节未说明ꎮ在29篇使用了非参数估计的文章中ꎬ5篇没有报告带宽的确定方法ꎬ18篇(占62.07%)未说明使用了哪个核密度函数ꎮ五㊁总结和展望RDD在断点附近的局部等价于一个随机试验ꎬ这一特点使得其备受经验研究人员的青睐ꎮ在国外ꎬRDD从20世纪90年代末期开始被大量应用于经济学研究ꎮLee和Lemieux(2010)[2]提出了运用RDD的必备技术环节ꎬ相当于给出了RDD应用的规范ꎮ但是ꎬ由于RDD的理论研究仍在不断深入ꎬ至今尚未定型ꎬLee和Lemieux(2010)[2]之后应用RDD的文献出现了新的技术环节ꎬ譬如新的最优带宽确定方法㊁甜甜圈RDD和参数估计中最高只能使用二次多项式等ꎮ国内运用RDD做研究始于2010年ꎬ最近两年大幅增加ꎮ虽然国内熟悉Lee和Lemieux(2010)[2]提出的规范ꎬ但运用RDD时存在不少问题ꎬ譬如不做适用性检验㊁不重视描述统计图㊁不交代清楚非参数估计的关键细节等ꎮ为了使得研究结论更稳健ꎬ基于五大英文顶级期刊发表的论文ꎬ我们建议ꎬ国内运用RDD时ꎬ在完成Lee和Lemieux(2010)[2]提出的技术动作后ꎬ需要增加如下动作:考虑到学术界在最优带宽确定方法上尚未达成共识[26][49]ꎬ非参数估计时应该同时尝试CV㊁IK和CCT三种方法ꎻ在配置变量存在堆积现象或被操纵的可能时ꎬ使用甜甜圈RDDꎮ尝试到四次多项式ꎮRDD从理论上讲是更好的因果识别方法ꎬ但运用此方法要求在断点附近有较多观测值㊁对数据要求很高ꎮ可喜的是ꎬ最近几年ꎬ我国经济社会的数字化进程加速ꎬ越来越多的经济活动开始数据化ꎬ越来越多的中央政府部门和地方政府公开了行政管理数据ꎬ为运用RDD做研究提供了契机ꎮ特别值得指出的是ꎬ运用医疗卫生行业行政管理数据的研究已经成批量涌现ꎮ参考文献:[1]AngristJDꎬPischkeJ.Thecredibilityrevolutioninempiricaleconomics:Howbetterresearchdesignistak ̄ingtheconoutofeconometrics[J].JournalofEconomicPerspectivesꎬ2010ꎬ24(2):3-30.[2]LeeDSꎬLemieuxT.Regressiondiscontinuitydesignsineconomics[J].JournalofEconomicLiteratureꎬ2010ꎬ48(2):281-355.[3]ThistlethwaiteDLꎬCampbellDT.Regression-discontinuityanalysis:Analternativetotheexpostfactoex ̄periment[J].JournalofEducationalPsychologyꎬ1960ꎬ51(6):309-317.[4]雷晓燕ꎬ谭力ꎬ赵耀辉.退休会影响健康吗?[J].经济学(季刊)ꎬ2010ꎬ(04):1539-1558.[5]余静文ꎬ赵大利.城市群落的崛起㊁经济绩效与区域收入差距 基于京津冀㊁长三角和珠三角城市圈 67。
空间断点回归命令 stata
空间断点回归命令stata全文共四篇示例,供读者参考第一篇示例:空间断点回归是回归分析方法中的一种,可以用来探究变量之间是否存在非线性关系,并且能够确定这种关系的突变点。
在实际应用中,有时候变量之间的关系并不是简单的线性关系,而是存在一定的非线性特征,空间断点回归通过引入断点变量来捕捉这种非线性关系,从而更准确地描述变量之间的关系。
Stata是一款功能强大的统计分析软件,提供了丰富的数据分析工具和函数,包括空间断点回归命令。
在Stata中,空间断点回归可以通过命令“spatreg bivariate”来实现,该命令允许用户指定自变量、因变量和断点变量,并且能够自动识别并拟合最佳的空间断点回归模型。
空间断点回归在实际应用中有着广泛的用途,例如在经济学领域可以用来研究不同经济政策对经济增长的影响;在社会学领域可以用来探究不同社会变量对人口增长的作用;在环境科学领域可以用来分析污染物排放对空气质量的影响等等。
空间断点回归是一种强大的统计分析方法,可以帮助用户更深入地理解变量之间的关系,并且找出其中的非线性特征和突变点。
在Stata中使用空间断点回归命令可以更加方便快捷地进行分析,帮助用户更好地理解数据和现象,为决策提供科学依据。
第二篇示例:空间断点回归命令stata是一种在统计分析中常用的方法,用于检测和估计数据中存在的空间断点。
空间断点是指在数据中存在一个或多个分界线,该分界线导致数据之间的关系发生突变。
在空间分析中,研究人员常常需要识别这些空间断点,并加以探讨其影响和意义。
空间断点回归命令stata是通过统计软件stata实现的一种方法,它可以帮助研究人员快速、有效地检测和估计数据中的空间断点。
通过空间断点回归命令stata,研究人员可以进一步探究数据背后的规律和结构,从而更好地理解数据中的空间关联性。
在使用空间断点回归命令stata时,研究人员需要首先准备好要分析的数据集,并确定研究的问题和假设。
断点回归控制变量回归系数
断点回归控制变量回归系数
断点回归(Regression Discontinuity Design,RDD)是一种非实验性的研究方法,用于估计一个变量对另一个变量的因果效应。
在断点回归中,如果一个变量在某个特定的阈值处发生跳跃,那么我们可以通过观察这个跳跃点附近的观察值来估计该变量的效应。
控制变量(Control Variables)在回归分析中用于帮助估计自变量对因变量的影响,并控制其他可能的干扰因素的影响。
控制变量的选择应基于理论和研究的假设,并能够解释因变量的变异。
控制变量回归系数(Control Variable Regression Coefficients)是指在回归分析中,控制变量对因变量的影响程度。
控制变量的回归系数可以用于估计其效应的大小和方向,以及检验其是否显著。
在断点回归中,控制变量回归系数的解释和常规回归分析中的解释类似。
如果一个控制变量在断点附近的回归系数显著,那么可以认为该控制变量对因变量有显著影响。
同时,通过比较控制变量在断点附近和非断点附近的回归系数,可以评估该控制变量对因变量的因果效应。
需要注意的是,在断点回归中,控制变量的选择和回归系数的解释应谨慎。
由于断点回归是一种非实验性的研究方法,因此无法完全排除其他干扰因素的影响。
因此,在解释控制变量回归系数时,应考虑到其他可能的干扰因素,并进行充分的讨论和检验。
断点回归分析方法在经济学研究中的应用
断点回归分析方法在经济学研究中的应用随着经济学的发展,研究者们常常遭遇经济数据中存在的结构突变或断点问题。
为了更准确地解释这些问题,断点回归分析方法被广泛应用于经济学研究中。
本文将介绍断点回归分析的基本原理和其在经济学研究中的实际应用。
断点回归分析是一种统计建模方法,它通过在数据中寻找断点位置,将数据分为不同的阶段,并拟合对每个阶段都有意义的回归模型。
在经济学中,结构突变或断点可能出现在许多变量之间的关系上。
通过使用断点回归分析方法,研究者能够识别并建立在不同阶段具有不同形式的关系模型。
为了更加形象地理解断点回归分析的应用,我们以一个经典的例子来说明。
假设我们研究某个城市的房价与居民收入的关系。
我们发现,在某个时间点后,房价与收入的关系发生了明显的变化。
在这种情况下,我们可以使用断点回归分析方法来找到这个时间点,然后将数据分为两个阶段,分别拟合不同的回归模型。
这可以帮助我们更准确地了解房价和收入的关系模式,并解释结构突变发生的原因。
除了房价和收入的关系,断点回归分析还可以应用于许多其他领域。
例如,它可以用于研究劳动力市场中的工资差异,金融市场中的资产定价,以及宏观经济中的投资与经济增长之间的关系等等。
在这些研究中,断点回归分析能够帮助我们发现变量之间的非线性关系,并提供更准确的预测和政策建议。
然而,断点回归分析也存在一些挑战和限制。
首先,寻找断点位置通常是一个困难的问题。
在实际应用中,研究者们需要依赖统计方法和经验判断来确定最合适的断点位置。
其次,断点回归分析方法对数据的要求较高,需要满足一些基本的假设条件,如线性关系和正态分布等。
如果这些假设条件不满足,结果可能得到偏误。
尽管存在一些限制,断点回归分析方法在经济学研究中的应用仍然具有重要的意义。
它能够帮助我们更好地理解经济现象中的结构变化,并提供准确的解释和预测。
因此,在经济学研究中,我们应该更加关注并充分利用这一方法的潜力。
总而言之,断点回归分析方法在经济学研究中具有重要的应用价值。
断点回归的例子
断点回归的例子
断点回归是一种常见的统计方法,它假设样本在断点处被随机分组,然后估计处理效应。
下面是一个断点回归的例子:
高考分数线为492分,对于高考成绩为489、490、491、492、493、494的考生,他们在各方面(不可观测因素)没有系统差异,甚至可以认为他们的成绩具有一定的随机性。
有的考生发挥好,成绩为492、493、494,达到了录取分数线(处理组);有的考生运气差点,成绩为489、490、491,未达到录取分数线(控制组)。
对于水平差不多的考生,若考生蒙对一道选择题,可能就考上了大学;相反,若考生蒙错一题,可能就上不了本科。
对于分数在492附近的考生能否考上大学,好像是上天在进行掷硬币的随机分组。
在这个例子中,断点为492分,考生的高考成绩落在(492-θ,492+θ)之间,好像是被随机分组了一般。
断点回归得到的结论一般不能推广至其他样本,在进行精确断点回归之前,首先要知道平均处理效应LATE。
这个例子只是断点回归的一个简单应用,在实际应用中,断点回归可以用于各种场景,例如政策实施效果评估、医疗效果评估等。
断点回归方法的应用
一引言2010年4月24日,该年度的约翰·贝茨·克拉克奖章(John Bates Clark Medal)——针对40岁以下年轻经济学者的最高荣誉,授予了麻省理工学院经济系的Esther Duflo教授以表彰其在随机实验普及和其在发展经济学中应用方面的卓越贡献。
在因果关系分析的实证方法中,最优的选择应当为随机实验,但是随机实验的时间成本和经济成本都比较高,而在随机实验不可得的情况下,需要考虑使用其它方法。
断点回归(Regression Discontinuity)便是仅次于随机实验的,能够有效利用现实约束条件分析变量之间因果关系的实证方法。
Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。
然而,断点回归也仅仅是在20世纪90年代末才被应用于处理经济学的问题。
2001年,Hahn等人对断点回归模型的识别和估计的理论问题进行了严格细致的分析,此后,断点回归才在众多的经济学研究领域中崭露头角。
时至今日,断点回归已经在劳动和教育经济学、政治经济学、环境经济学和发展经济学等领域取得了广泛的应用。
然而,断点回归却鲜为中国经济学者所应用,正是基于断点回归在实证研究中的重要性和国内文献的缺乏,本文拟以此为背景,从断点回归的理论、发展历史、实证步骤和经济学中的应用几个方面阐述断点回归这一个新“拟随机试验”方法的兴起。
二断点回归理论及发展历史断点回归是一种拟随机实验,此种随机实验定义了这样一个特征,即接受处置(Treatment)的概率是一个或者几个变量的间断函数。
Hahn et al.(2001)提出了断点回归的首要假设,如果变量表示处置效应,表示决定处置的关键变量,那么和必须存在,并且。
在使用断点回归的情况下,存在一个变量,如果该变量大于一个临界值时,个体接受处置,而在该变量小于临界值时,个体不接受处置。
一般而言,个体在接受处置的情况下,无法观测到其没有接受处置的情况,而在断点回归中,小于临界值的个体可以作为一个很好的可控组(Control Group)来反映个体没有接受处置时的情况,尤其是在变量连续的情况下,临界值附近样本的差别可以很好的反映处置和经济变量之间的因果联系。
让跳跃更有意义:断点回归设计(RDD)
让“跳跃”更有意义:断点回归设计(RDD) 在一个高度依赖规则的世界里,有些规则的出现十分随意,这种随意性为我们提供了性质良好的实验(Angrist&Pischke,2009)。
断点回归设计(RegressionDiscontinuity Design)是一种仅次于随机实验的能够有效利用现实约束条件分析变量之间因果关系的实证方法。
Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。
断点回归方法首先是由美国西北大学心理学家Campbell于1958年提出的;并与1960年,与Thistlethwaite正式发表了第一篇关于断点回归的论文,提出断点回归是在非实验的情况下处理处置效应(Treatment Effects)的一种有效的方法,主要应用于心理学和教育学领域。
1963年,Campbell and Stanley为断点回归提供了更加清晰化的概念,但由于当时还缺乏严密的统计证明,加之IV 方法在处理内生性的思路和范式上具有更广阔的适用范围,因此在随后的几十年间,RD 方法一直没有得到经济学者的重视。
直到上世纪90 年代末,随着该方法的理论基础得到进一步发展,大量经济学文献才开始使用RD 方法对变量之间的因果关系进行识别。
断点回归可以分为两类,一类是模糊断点回归(Fuzzy RD),另一类是清晰断点回归(Sharp RD)。
清晰断点回归可以看作是一种基于可观察变量进行的选择(selection-on-observablesstory),而模糊断点回归则常被视为一种工具变量的方法(instrumental-variables-type)。
清晰断点回归(Sharp RD)当处理状态是协变量确定型、不连续函数时,可以使用清晰间断点回归法。
对于清晰断点回归,个体在临界值的一边接受处理效应(treatment effect)的概率为0,而在临界值另一边的概率则为1。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一引言2010年4月24日,该年度的约翰·贝茨·克拉克奖章(John Bates Clark Medal)——针对40岁以下年轻经济学者的最高荣誉,授予了麻省理工学院经济系的Esther Duflo教授以表彰其在随机实验普及和其在发展经济学中应用方面的卓越贡献。
在因果关系分析的实证方法中,最优的选择应当为随机实验,但是随机实验的时间成本和经济成本都比较高,而在随机实验不可得的情况下,需要考虑使用其它方法。
断点回归(Regression Discontinuity)便是仅次于随机实验的,能够有效利用现实约束条件分析变量之间因果关系的实证方法。
Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。
然而,断点回归也仅仅是在20世纪90年代末才被应用于处理经济学的问题。
2001年,Hahn等人对断点回归模型的识别和估计的理论问题进行了严格细致的分析,此后,断点回归才在众多的经济学研究领域中崭露头角。
时至今日,断点回归已经在劳动和教育经济学、政治经济学、环境经济学和发展经济学等领域取得了广泛的应用。
然而,断点回归却鲜为中国经济学者所应用,正是基于断点回归在实证研究中的重要性和国内文献的缺乏,本文拟以此为背景,从断点回归的理论、发展历史、实证步骤和经济学中的应用几个方面阐述断点回归这一个新“拟随机试验”方法的兴起。
二断点回归理论及发展历史断点回归是一种拟随机实验,此种随机实验定义了这样一个特征,即接受处置(Treatment)的概率是一个或者几个变量的间断函数。
Hahn et al.(2001)提出了断点回归的首要假设,如果变量表示处置效应,表示决定处置的关键变量,那么和必须存在,并且。
在使用断点回归的情况下,存在一个变量,如果该变量大于一个临界值时,个体接受处置,而在该变量小于临界值时,个体不接受处置。
一般而言,个体在接受处置的情况下,无法观测到其没有接受处置的情况,而在断点回归中,小于临界值的个体可以作为一个很好的可控组(Control Group)来反映个体没有接受处置时的情况,尤其是在变量连续的情况下,临界值附近样本的差别可以很好的反映处置和经济变量之间的因果联系。
断点回归可以分为两类,第一类,临界值是确定的(Sharp),即在临界值一侧的所有的观测点都接受了处置,反之,在临界值另一侧的所有观测点都没有接受处置。
此时,接受处置的概率从临界值一侧的0跳转到另一侧的1;第二类,临界点是模糊的(Fussy),即在临界值附近,接受处置的概率是单调变化的。
Hahn et al.(2001)在一定的假设下,证明了无论是哪一类型的断点回归,都可以利用临界值附近样本的系统性变化来研究处置和其它经济变量之间的因果关系。
断点回归首先是由美国西北大学的心理学家Campbell于1958年首先发展设计出来的,从那时开始直到二十世纪80年代,Campbell和西北大学心理学系和统计学系的同事一直从事断点回归的设计和研究工作。
Thistlethwaite和Campbell(1960)正式发表了第一篇关于断点回归的论文,他们提出断点回归是在非实验的情况下处理处置效应(Treatment Effects)的一种有效的方法,主要应用于心理学和教育学领域。
随后,Campbell和Stanley(1963)为断点回归提供了更加清晰化的概念,但是由于他们并没有给出断点回归统计上的证明。
在他们看来,断点回归主要是为了解决选择性偏误(Selection Bias)问题,断点回归利用了一个取决于某连续变量的间断函数,这个间断函数完全决定了个体是否受到处置,这就使得样本选择的细节完全展示出来,使得我们知道样本选择的问题所在。
此外,Campbell和Stanley还认为断点回归仅仅是在间断的临界值处类似于随机实验,其推论的有效性也仅仅局限于间断的临界值处。
整个20世纪60年代,断点回归方法的应用还停留在一种直觉的推导,而缺乏统计上严密的证明。
Goldberger(1972 a, b)曾对断点回归的无偏因果推断进行了证明,可惜的是,他的论文并没有得到发表,这主要是因为他认为断点回归的适用环境是一个高度理想化的环境,其适用范围十分有限。
相反,变量之间因果关系的推断还包括了工具变量法(IV Approach)和Heckman处理样本选择问题的模型,这两种方法的适用性更加广泛,从而使得人们忽视了断点回归方法的应用,也使得断点回归在很长一段时间内消失在人们的视野之中。
随着Campbell等人所认为的断点回归适用性仅仅局限于临界值附近这一论断被证伪之后,断点回归才开始重新回到人们的视野之中。
Rubin(1977)证明了在个体是否接受处置仅仅取决于一个关键变量的情况下,处置效应能够在关键变量的整个范围内得到无偏的因果推断。
Sacks和Ylvisaker(1978)提出了断点回归的估计方法,并在理论上给予了较粗略的证明。
他们将被解释变量分解为观察变量的线性组合再加上一个非随机的误差项,其估计方法类似于局部非参数回归(Local Nonparametric Regression),其有效性不仅仅是对于临界值附近的样本,而且可以扩展到关键变量的整个领域。
断点回归在理论方面取得了新进展的同时,其它因果推断方法的不足之处也逐渐的被认识到。
比如,工具变量法存在局限性,特别是排他性(Excludability)条件难以满足,即难以保证工具变量仅仅通过影响关键解释变量而影响到被解释变量,寻找合适的工具变量存在一定的困难。
此外,Lalonde(1985)发现Heckman 样本选择模型并不能产生和随机实验一样的结果。
正因为因果关系的推断是经济学家所关注的最主要的问题,并且现有的因果推断方法都不能得出完全合理的因果关系,人们开始逐渐将目光转向了断点回归。
Trochim(1984)继续了他老师Campbell的工作,Trochim综合了之前关于断点回归的理论和方法,并且将断点回归类型分为两类,第一类是确定型的断点回归(Sharp Regression Discontinuity),即个体在临界值一边接受处置效应的概率为1,而在临界值另一边接受处置效应的概率为0;第二类是模糊型的断点回归(Fuzzy Regression Discontinuity),即个体接受处置效应的概率均大于0小于1,个体在临界值一边接受处置的概率大于在临界值另一边接受处置的概率。
Trochim特别对第二类断点回归问题进行了研究,并开始利用该方法进行实证研究。
与Campbell观点不同,Trochim认为断点回归的应用性并非那么的狭隘,相反,其应用范围还十分的广泛。
除此之外,他还强调了决定处置的关键变量不仅仅可以是一个单一变量,而且还可以是一个合成变量。
随后,断点回归的优势逐渐被学界所认可,其应用也愈加广泛。
具体而言,其优势包括两方面:第一,断点回归可以应用于出于对经济成本和伦理道德问题的考虑,随机实验不能进行的环境;第二,断点回归优越于所有其它已知的因果推断方法,其结果十分接近于随机实验结果,Lee 和Lemieux(2010)也通过形象的例子展示了断点回归和随机实验的相似性。
Hahn et al(2001)最终为断点回归的模型识别和模型估计进行了严格意义上的理论证明,并提出了相应的估计方法,由此,断点回归在经济学中的应用如雨后春笋般出现在重要经济学文献中。
三断点回归的实施步骤(一)确定型断点回归运用图形来分析处置效应是否存在是断点回归分析的基础。
图形分析在断点回归的实施中扮演着重要的角色,通过将样本点和决定处置的关键变量在坐标系中描述出来,便可以清楚的看到临界值附近的样本点是否存在跳跃。
如果样本点存在跳跃,那么说明确实存在处置效应,相反,如果样本点没有出现相应的跳跃,那么说明断点回归的模型识别可能存在问题。
当我们从图形分析中发现了临界值处存在处置效应,那么就应当做进一步更加细致的计量实证分析。
为了使图形更为直观,需要根据决定处置的关键变量来划分箱体(Bin)和箱体的范围,并在该范围内计算变量的均值。
一般而言,箱体的范围需要大到包含足够多的样本使其样本点在临界值两边都比较平滑,但又要小到一定程度使得样本点在临界值处的跳跃能够明显的显现出来。
Lee和Lemieux(2010)提出两种方法来选择合适的箱体范围。
第一种是根据对数据的观察决定使用个箱体;然后对个箱体的虚拟变量做回归;随后,将箱体范围缩小二分之一,使得箱体由个变为个,将个箱体的虚拟变量作为解释变量再做一次回归。
由于使用个箱体虚拟变量的回归是内嵌于使用个箱体虚拟变量的回归之中的,因此,可以使用标准的F检验来比判断个箱体和个箱体的优劣。
第二种方法是基于这样一个原理,如果箱体足够的小,那么被解释变量和决定处置的关键变量将不会出现系统的联系,因此,可以将被解释变量对箱体的虚拟变量以及该虚拟变量和决定处置的关键变量的乘积项做回归,并使用F检验来判断虚拟变量和关键变量的乘积项是否显著的为0。
通过以上方法得到合适箱体范围后,便可以分别对临界值两边的样本进行估计,得到临界值两边的平滑曲线,具体实施步骤如下:第一步,构造箱体,,其中为临界值,为箱体的范围;其次,计算每一个箱体中的样本数量,,其中为决定处置的关键变量;再次,求出每个箱体的平均值,;最后,画出和二者之间的曲线关系。
第二步,同时利用临界值两边的样本进行回归。
这就好比在非参数回归中使用了rectangular的核,选取叶宽(bandwidth),将样本的估计局限在范围内。
一般而言,可以使用非参数回归,但是如Hahn et al.(2001)指出的,非参数回归会产生高阶数的偏差,简单的非参数估计往往并不具有吸引力,所以对于样本的回归可以采取局部线性回归(Local Linear Regression),即最小化下式:这其中存在叶宽选择的问题,Hahn等(2001)提出最优的叶宽与成比例。
例如,样本增加32倍,那么为1/2,叶宽就可以减少一半,但是这并没有解决如何选择叶宽的问题。
计量经济学和统计学的文献中有两种选择叶宽的方法:第一种方法是根据拇指规则(Rule of Thumb)对整个样本的数据进行估计以求得最优叶宽。
比如,对于rectangular的核,最优叶宽可以根据下式求出:其中是断点回归的标准差,表示断点回归方程的二阶导数,是断点回归方程估计时的范围,2.702是使用rectangular核估计的常数。
另一种方法是交叉验证法(cross-validation),即首先对临界值两边的样本分别进行回归,得到:交叉验证准则即为选择合适的叶宽以最小化:此外,断点回归中也可以加入其它的控制变量,如此做的原因是消除小样本偏差,同时使得估计更为精确。