断点回归及其在经济学中的应用

合集下载

RD断点回归法

RD断点回归法

Y ou jump, I will not jump!断点回归的连续性假设断点回归RD是当代社会科学因果推断的最基本无害的大招之一。

比如我们要研究上一本大学是否能提高一个人的工资,如果直接对比上了一本大学和没上一本大学群体的工资,可能会因为上一本大学的天生能力更强而得出有偏误的结论,而能力等不可观测变量无法控制。

RD给我们提供了一个思想——观察一本线附近上下几分学生的工资。

比一本线低2分、1分的人工资差距不大,高2分、1分的差距也不大,但比一本线低1分的和正好达线的工资上有个跳跃,那这个跳跃就是一本大学对工资的作用。

一本线产生了一个天然的跳跃(两侧的人分别上一本和二本),如果在一本线两侧我们也看到了关注变量(工资)的跳跃,那么就识别了因果效应。

直觉上来看,RD的成立还需要一个关键假设:一本线产生了一个天然的跳跃,但一本线附近学生各特征不能有跳跃!否则就混淆了一本大学对工资的作用。

这就是连续性假设。

1、断点回归背景介绍Thistlethwaite and Campbell(1960)使用了RD方法后的40年,RD并没有在经济学中大规模使用,一大原因就是RD太像自然科学的随机实验了,太不像经济学传统方法了(比如上周我们BLUE_OLS读Black(1999)关于择校会使房价上升的论文(”Do better schools matter? Parental valuation of elementary education”),该文利用学区边界推断因果,应该说思想跟RD 很像,但没有按照RD框架来写,可能的原因是作者写作年代RD还并不流行)。

直到Hahn, Todd, and van der Klaauw(2001)把RD纳入到了我们熟悉的“反事实因果推断”框架下,如下图(原文图2)。

我们把断点看成一种treatment,断点右侧的是处理组,断点左侧的是控制组。

可以观测到处理后的处理组,和未处理的控制组。

诺贝尔奖断点回归例子

诺贝尔奖断点回归例子

诺贝尔奖断点回归例子所谓断点回归就是找到一个断点,然后在确定因素里找随机性,比如高考分数650分可以上清华大学,649分不能上,65岁能退休,64岁不能退休,22岁可以结婚,21岁不能结婚,这条分割线就叫断点,高考的随机性就是分数,比如一群高考学生们成绩稳定在650分,上下20分浮动,就可以认为这些学生的学习水平基本没有太大差别,而他们唯一的差别就是“是否上了清华大学”,对比他们将来的收入水平,就可以大致排除其他因素,得到“是否上清华大学”对于他们收入的影响。

有了他们两这些看似原理极其简单的方法贡献,却对经济学、心理学、社会学甚至国际关系等等学科都产生了非常重大的影响。

如今他们使用的“差中差方法”已经成为了每一位研究实证经济学者都必须学习的基本工具之一。

而今年另一位经济学诺奖得主大卫· 卡德(David Card)的发现,离我们的生活更加贴近了一步,在上世纪90年代初之前,几乎所有的传统经济学家都有两个共同的想法,一个是如果提高法定最低工资一定会导致企业的工资成本增加,企业压力增大逐渐被迫裁员,进一步导致就业率减少,失业率上升。

第二个是外国移民增多会导致本地人的失业率上升,因为外国移民增加会夺取本地有限的工作席位,这两种想法在理论上都站得住脚,但所有人都苦于这两个理论无法用实验来证明或推翻。

为了调查法定最低工资如何影响就业,来自于加拿大的大卫· 卡德和另一位经济学家艾伦·克鲁格(Alan Krueger)通过电话调查新泽西州和宾夕法尼亚州东部的快餐店市场,使用刚才提到的“差中差”方法做了实验,终于顶着压力推翻了传统观念,他们发现新泽西州在提高了最低工资之后,快餐业的工作并没有出现如预料般减少,反而有了几个重要的新发现,包括更高的工资换来的是工作效率的上升,员工更加自愿的工作,并由此吸引来更多的人才。

而企业可以通过提升产品价格来弥补工资成本的上升,而且产品价格的提升幅度也只需要非常小,他们发现最低工资从7.25美元上升到10.10美元,提升了近40%,而快餐店仅仅只需要将产品的价格上升2.7%,就可以覆盖上升的工资成本。

断点回归方法的应用

断点回归方法的应用

一引言2010年4月24日,该年度的约翰·贝茨·克拉克奖章(John Bates Clark Medal)——针对40岁以下年轻经济学者的最高荣誉,授予了麻省理工学院经济系的Esther Duflo教授以表彰其在随机实验普及和其在发展经济学中应用方面的卓越贡献。

在因果关系分析的实证方法中,最优的选择应当为随机实验,但是随机实验的时间成本和经济成本都比较高,而在随机实验不可得的情况下,需要考虑使用其它方法。

断点回归(Regression Discontinuity)便是仅次于随机实验的,能够有效利用现实约束条件分析变量之间因果关系的实证方法。

Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。

然而,断点回归也仅仅是在20世纪90年代末才被应用于处理经济学的问题。

2001年,Hahn等人对断点回归模型的识别和估计的理论问题进行了严格细致的分析,此后,断点回归才在众多的经济学研究领域中崭露头角。

时至今日,断点回归已经在劳动和教育经济学、政治经济学、环境经济学和发展经济学等领域取得了广泛的应用。

然而,断点回归却鲜为中国经济学者所应用,正是基于断点回归在实证研究中的重要性和国内文献的缺乏,本文拟以此为背景,从断点回归的理论、发展历史、实证步骤和经济学中的应用几个方面阐述断点回归这一个新“拟随机试验”方法的兴起。

二断点回归理论及发展历史断点回归是一种拟随机实验,此种随机实验定义了这样一个特征,即接受处置(Treatment)的概率是一个或者几个变量的间断函数。

Hahn et al.(2001)提出了断点回归的首要假设,如果变量表示处置效应,表示决定处置的关键变量,那么和必须存在,并且。

在使用断点回归的情况下,存在一个变量,如果该变量大于一个临界值时,个体接受处置,而在该变量小于临界值时,个体不接受处置。

一般而言,个体在接受处置的情况下,无法观测到其没有接受处置的情况,而在断点回归中,小于临界值的个体可以作为一个很好的可控组(Control Group)来反映个体没有接受处置时的情况,尤其是在变量连续的情况下,临界值附近样本的差别可以很好的反映处置和经济变量之间的因果联系。

半参数回归断点回归

半参数回归断点回归

半参数回归断点回归半参数回归是一种常用的统计方法,用于研究自变量对因变量的影响。

而断点回归则是半参数回归的一种特殊形式,用于揭示自变量对因变量的影响在某一阈值点处发生了显著变化的情况。

本文将介绍半参数回归和断点回归的基本原理、应用场景以及相关的统计分析方法。

一、半参数回归的基本原理半参数回归是一种非参数统计方法,不对自变量和因变量之间的函数关系做出任何假设。

它通过拟合局部的回归线来估计自变量对因变量的影响。

半参数回归可以应用于自变量和因变量之间的线性和非线性关系,具有较强的灵活性和适应性。

二、断点回归的基本原理断点回归是半参数回归的一种特殊形式,用于研究自变量对因变量的影响在某一阈值点处发生显著变化的情况。

断点回归将自变量分为两个区间,分别估计这两个区间内的回归系数,并通过比较两个区间的回归系数来判断是否存在断点。

如果存在断点,则说明自变量对因变量的影响在断点处发生了显著变化。

三、半参数回归和断点回归的应用场景半参数回归和断点回归可以应用于各种研究领域和实际问题。

例如,在经济学中,可以使用半参数回归和断点回归来研究收入对消费的影响是否存在阈值效应;在医学研究中,可以使用半参数回归和断点回归来研究药物剂量对疗效的影响是否存在阈值效应。

四、半参数回归和断点回归的统计分析方法在进行半参数回归和断点回归分析时,需要选择合适的估计方法和假设检验方法。

常用的估计方法包括局部加权回归、核密度估计和B样条回归等;常用的假设检验方法包括断点是否存在的检验和断点位置的检验等。

这些方法可以通过统计软件来实现,如R语言中的segmented包和np包。

总结:半参数回归和断点回归是一种常用的统计方法,可以用于研究自变量对因变量的影响以及是否存在阈值效应。

它们具有较强的灵活性和适应性,可以应用于各种研究领域和实际问题。

在进行半参数回归和断点回归分析时,需要选择合适的估计方法和假设检验方法。

通过合理地运用半参数回归和断点回归,我们可以更好地理解数据背后的规律和关系,为实际问题的解决提供科学的依据。

企业避税、债务融资与债务融资来源基于所得税征管体制改革的断点回归分析

企业避税、债务融资与债务融资来源基于所得税征管体制改革的断点回归分析

企业避税、债务融资与债务融资来源基于所得税征管体制改革的断点回归分析一、本文概述1、研究背景与意义随着全球经济的深度融合与快速发展,企业在经营活动中面临着日益复杂的税收环境和融资挑战。

避税行为和债务融资作为企业财务策略的重要组成部分,对于企业的经济效益和长期发展具有深远的影响。

特别是在我国所得税征管体制不断改革的大背景下,企业的避税行为、债务融资决策及其融资来源的选择都受到了前所未有的关注。

所得税征管体制的改革不仅直接影响企业的税负水平,也间接影响企业的融资决策。

一方面,随着税收征管的加强,企业避税的空间逐渐缩小,这迫使企业重新审视其财务策略,寻找新的税收优化途径。

另一方面,税收改革也可能影响企业的债务融资成本,进而影响企业的融资结构和融资来源的选择。

因此,研究企业避税、债务融资及其融资来源在所得税征管体制改革背景下的变化,具有重要的理论和实践价值。

本文以断点回归分析方法为基础,旨在深入探究所得税征管体制改革对企业避税行为、债务融资及其融资来源选择的影响。

通过实证分析,不仅有助于揭示税收改革与企业财务策略之间的内在联系,还能为企业制定合理的财务策略提供决策支持,同时也为政府完善税收政策和优化税收征管体制提供参考依据。

因此,本研究具有重要的现实意义和深远的社会影响。

2、国内外研究现状避税行为作为企业财务管理的重要策略之一,一直以来都受到国内外学者的广泛关注。

国内外的研究主要集中在避税对企业价值、股东利益、公司策略等方面的影响。

在国内,随着所得税征管体制的不断改革,企业避税行为也呈现出新的特点。

这些改革包括税率调整、税收优惠政策的变化、反避税力度的加大等,这些都对企业避税行为产生了深远影响。

国外研究方面,早期的研究主要关注避税行为对企业价值的影响,认为避税可以增加企业的自由现金流,从而提高企业价值。

然而,随着研究的深入,学者们开始关注避税行为可能带来的负面效应,如增加企业的财务风险、损害企业声誉等。

断点回归法事件研究法

断点回归法事件研究法

断点回归法事件研究法断点回归法(Breakpoint Regression Analysis)是一种常用的事件研究方法,在金融学、经济学、管理学等领域得到广泛应用。

本文将介绍断点回归法的基本概念、原理和应用,并探讨其优缺点。

一、断点回归法的基本概念断点回归法是一种用于研究某个事件对特定变量的影响的统计方法。

该方法通过在时间序列数据中选择一个或多个断点,将数据分为两个或多个子样本,然后对每个子样本进行回归分析,从而比较不同子样本之间的差异。

这种方法能够帮助研究者判断某个事件对变量的影响是否存在、是否显著,并进一步分析影响的程度和方向。

二、断点回归法的原理断点回归法的核心原理是基于时间序列数据中存在的某个结构性断点,该断点可能是由于政策改变、市场变动、经济周期变化等原因引起的。

研究者通过设定断点,将样本数据分为两个或多个子样本,然后对每个子样本进行回归分析。

在分析中,需要控制其他可能影响结果的变量,以确保所得的结果是由所关注的事件引起的。

三、断点回归法的应用断点回归法在金融学、经济学、管理学等领域有广泛的应用。

例如,在金融市场中,研究者可以使用断点回归法来分析某个重大事件对股票市场的影响。

他们可以选择一个事件作为断点,将数据分为事件前后两个子样本,然后对每个子样本进行回归分析,以比较事件前后的差异。

这样可以帮助研究者了解事件对股票价格、交易量等指标的影响程度和方向。

四、断点回归法的优缺点断点回归法具有一定的优点和缺点。

其优点在于可以通过选择合适的断点,准确地判断事件对变量的影响,并量化影响的程度和方向。

此外,断点回归法能够更好地控制其他可能的干扰变量,提高分析结果的可靠性。

然而,该方法也存在一些缺点,如对断点的选择比较主观,需要研究者具备一定的经验和专业知识;另外,断点回归法只能检测到存在结构性断点的影响,对于连续性变化的影响则无法有效分析。

断点回归法是一种常用的事件研究方法,通过选择断点,将样本数据分为两个或多个子样本,并对每个子样本进行回归分析,以比较不同子样本之间的差异。

断点回归方法及其应用

断点回归方法及其应用

断点回归方法及其应用下载温馨提示:该文档是我店铺精心编制而成,希望大家下载以后,能够帮助大家解决实际的问题。

文档下载后可定制随意修改,请根据实际需要进行相应的调整和使用,谢谢!并且,本店铺为大家提供各种各样类型的实用资料,如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等,如想了解不同资料格式和写法,敬请关注!Download tips: This document is carefully compiled by theeditor. I hope that after you download them,they can help yousolve practical problems. The document can be customized andmodified after downloading,please adjust and use it according toactual needs, thank you!In addition, our shop provides you with various types ofpractical materials,such as educational essays, diaryappreciation,sentence excerpts,ancient poems,classic articles,topic composition,work summary,word parsing,copy excerpts,other materials and so on,want to know different data formats andwriting methods,please pay attention!断点回归方法及其应用断点回归方法是一种用于分析因果关系的方法,通过对处理组和对照组进行划分,并利用断点回归分析处理效应。

退休与城镇家庭消费基于断点回归设计的经验证据

退休与城镇家庭消费基于断点回归设计的经验证据

退休与城镇家庭消费基于断点回归设计的经验证据一、本文概述1、阐述研究背景:退休制度对城镇家庭消费的影响日益受到关注。

随着中国社会经济的快速发展和人口老龄化趋势的加剧,退休制度对城镇家庭消费的影响日益受到广泛关注。

这一变革性的社会现象不仅直接关系到亿万城镇家庭的经济生活,还深刻影响着国家经济结构调整和社会稳定大局。

在这一背景下,深入探究退休制度如何影响城镇家庭消费,对于理解家庭消费行为、优化社会保障政策、促进经济持续健康发展具有重要的理论和现实意义。

一方面,随着我国人口老龄化程度的不断加深,退休人口数量逐年增加,这一群体在消费市场上的影响力不容忽视。

他们的消费行为不仅关系到自身的生活品质,还对整个社会的消费结构和产业升级产生深远影响。

另一方面,随着我国社会保障体系的不断完善,退休制度也在逐步调整和优化,这些变化无疑会对城镇家庭消费产生直接或间接的影响。

因此,本文旨在通过断点回归设计等方法,实证探究退休制度对城镇家庭消费的影响,以期为相关政策制定提供科学依据和决策支持。

我们期望通过这一研究,不仅能够深化对退休制度与城镇家庭消费关系的理解,还能够为优化社会保障政策、促进消费升级提供有益参考。

2、提出研究问题:退休如何影响城镇家庭消费?是否存在断点回归现象?随着中国社会经济的持续发展,人口老龄化问题日益凸显,退休制度对城镇家庭消费的影响逐渐受到学术界的关注。

退休作为个体生命周期中的一个重要节点,标志着个体从职业劳动市场转向非劳动市场,这一转变可能会带来家庭消费结构和消费行为的变化。

因此,探讨退休对城镇家庭消费的具体影响及其内在机制,不仅对于理解个体和家庭在生命周期内的消费决策过程具有重要价值,也为政府制定相关政策以应对人口老龄化挑战提供了科学依据。

在经济学研究中,断点回归现象通常指的是某一变量在达到某一特定阈值后,其与其他变量之间的关系发生显著变化。

在退休与城镇家庭消费的背景下,断点回归现象可能表现为退休前后家庭消费模式的显著变化。

间断点回归的经济学应用,教育理论范文.doc

间断点回归的经济学应用,教育理论范文.doc

间断点回归的经济学应用,教育理论-:王湛晨摘要:间断点回归(RD)是仅次于随机实验的,能够有效利用现实约束条件分析变量之间因果关系的实证方法。

本文旨在简要介绍间断点回归,并对一些问题予以解释。

关键词:间断点回归,处理效应,有效性间断点回归(也成RD)首次被在Thistlethwaite和Campbell (1960)用于在准自然实验中评估处理效应,实验准则便是参与实验的某一样本(也可称为强制变量)是否超过了既定的“间断点”。

该评估策略尽管已有五十多年历史,但直到最近才被引入经济学中使用。

自从教育领域运用RD逐渐成熟后,之后涌现一大批运用此方法研究各种问题的文献。

Hahn Jinyong,Petra Todd 和Wilbert van der Klaauw(2001)认为RD相比于其他准实验的需要的假设更为宽泛并且为RD的使用建立了规范。

RD兴起的另一个原因在于它不仅仅是效用评估的方法,基于RD的因果推论也比其他传统的自然实验更为可信(双重差分法和工具变量法),因此被更多的应用在应用研究领域。

因此,为了提供一个具有高可信度和透明的项目效应评估方法,RD能够被用于分析许多重要经济学问题。

尽管RD在经济学中的地位日渐重要,始终没有对于如何理解RD的总结的文献,以及对RD的优缺点评判的文献。

另外,对于使用RD的具体细节步骤也尚未涵盖标准的计量经济学检验。

撰写本文的目的便在于弥补上述的不足,把RD在经济学中使用的一些要求明确出来,给予对此方法感兴趣的学者以引导。

如果样本能够准确的改变所赋值的变量,那么RD便是无效的。

当接受处理会获得奖励或收益时,经济学家自然会想要知道该个体会如何表现进而得到奖励。

比如,学生通过努力有效“提高”自己的测试成绩。

得分为c的样本应该比起得分低于c的样本来说应该不同。

这就告诉我们,处理的存在就好比赋值变量的函数为不连续函数,但仅仅有这一点并不能够分辨RD是否合理。

因此,任何产生激励进行为的间断规则都能导致RD无效。

断点回归设计方法应用的研究综述

断点回归设计方法应用的研究综述

经济管理㊀㊀[基金项目]国家社会科学基金项目 我国医院行业市场机制有效性的实证研究 (17BGL170)㊀㊀[作者简介]谢谦(1982-㊀)ꎬ男ꎬ河北保定人ꎬ中国社会科学院经济研究所助理研究员ꎮ主要研究方向:国际经济学ꎮ①分别为AmericanEconomicReview(AER)㊁Econometrica(ECMA)㊁JournalofPoliticalEconomy(JPE)㊁Quar ̄terlyJournalofEconomics(QJE)和ReviewofEconomicStudies(RES)ꎮ②不包括五大上关于RDD方法的理论研究论文ꎮ我们在Jstor数据库中用全文任一地方出现 regressiondiscontinuity 这个关键词检索ꎬ然后剔除不是运用RDD做的经验研究论文ꎬ譬如RDD的理论研究论文㊁仅论文文献综述或脚注中出现 regressiondiscontinuity 的论文等ꎮ断点回归设计方法应用的研究综述谢㊀谦1㊀薛仙玲2㊀付明卫1(1.中国社会科学院经济研究所ꎬ北京㊀100836ꎻ2.中国社会科学院研究生院ꎬ北京㊀102488)㊀㊀[摘㊀要]㊀近年来ꎬ国内经济学界颇为关注断点回归设计(RDD)方法ꎬ运用RDD的文章日益增多ꎮ首先概述Lee和Lemieux(2010)提出的运用RDD的规范ꎬ然后基于2011-2017年五大英文顶级经济学期刊发表的RDD应用研究论文ꎬ归纳出运用RDD的三个新动作:新的最优带宽确定方法㊁甜甜圈RDD和参数估计中最高只能使用二次多项式ꎮ以国外的RDD用法为参照ꎬ我们发现ꎬ国内熟悉Lee和Lemieux(2010)提出的规范ꎬ也在吸收国外文献中出现的新动作ꎬ但运用RDD时存在如下几个突出问题:不做适用性检验㊁不重视描述统计图和不交代清楚非参数估计的关键细节ꎮ建议国内运用RDD时需要增加如下动作:非参数估计应该同时尝试CV㊁IK和CCT三种带宽确定方法ꎻ在配置变量存在堆积现象或被操纵的可能时ꎬ使用甜甜圈RDDꎻ尝试到四次多项式ꎮ[关键词]㊀断点回归设计ꎻ参数估计ꎻ非参数估计ꎻ最优带宽ꎻ甜甜圈RDD[DOI编码]㊀10.13962/j.cnki.37-1486/f.2019.02.006[中图分类号]F224㊀㊀[文献标识码]A㊀㊀[文章编号]2095-3410(2019)02-0069-11一㊁引言20世纪80年代以来ꎬ应用微观计量研究经历了一场可信性革命ꎬ变得十分强调研究设计(researchdesign)ꎮ这种转变导致工具变量法(InstrumentalVariableꎬIV)㊁双重差分法(Difference-in-DifferenceꎬDID)和断点回归设计(RegressionDiscontinuityDesignꎬRDD)成为应用微观计量研究中运用最广泛的方法[1]ꎮ与工具变量法和双重差分法相比ꎬRDD更接近于随机试验ꎬ因而从理论上讲是更好的因果识别方法[2]ꎮRDD虽然早在1960年就已被Thistlethwaite和Campbell(1960)[3]提出ꎬ但20世纪90年代末之后才被国外大量应用于经济学研究ꎮ尽管运用RDD要求在断点附近有较多观测值ꎬ对数据要求很高ꎬ但过去几年的相关研究并不少ꎮ2011-2017年ꎬ五大英文顶级经济学期刊①发表的运用RDD做的经验研究论文(下文简称 五大RDD论文 )共39篇②ꎬ96经济管理各年分别为6篇㊁3篇㊁3篇㊁11篇㊁5篇㊁7篇和4篇(如图1所示)ꎬ表明RDD在国际上已经成为一种主流的经验研究方法ꎮ根据在中国知网的检索ꎬ中文期刊发表的头两篇运用RDD做的经验研究论文是 退休会影响健康吗? [4]和 城市群落的崛起㊁经济绩效与区域收入差距 [5]ꎻ2011-2017年间ꎬ中文CSSCI期刊共发表运用RDD做的经验研究论文46篇ꎬ各年分别为1篇㊁1篇㊁0篇㊁5篇㊁8篇㊁8篇和23篇(如图1所示)ꎮ我们预计ꎬ大数据时代的来临会极大地打破运用RDD面临的数据限制①ꎬ运用RDD的相关研究会越来越多ꎮ图1㊀中文核心期刊和英文五大期刊上发表的断点回归设计经验研究论文数②Imbens和Lemieux(2008)[6]㊁vanderKlaauw(2008)[7]㊁Lee和Lemieux(2010)[2]㊁Skovron和Titiunik(2017)[8]㊁Hausman和Repson(2018)[9]专门综述了RDD的理论和应用研究ꎮ余静文和王春超(2011)[10]简要介绍了断点回归设计的发展历史㊁理论㊁实施步骤和应用情况ꎮ但是ꎬ由于RDD这种方法的理论研究仍很活跃ꎬ运用RDD涉及参数估计和非参数估计的选择㊁参数估计中多项式次数的选择和非参数估计最优带宽的确定等众多技术细节ꎬ文献中在RDD的具体用法上存在很大差别ꎬ特别是中文文献运用RDD的规范程度明显滞后于外文文献ꎬ有时还存在误用ꎮ因此ꎬ十分有必要归纳RDD应用的新进展ꎬ为国内学者规范运用RDD提供借鉴ꎮ由于本文强调被五大RDD论文运用过的新进展ꎬ侧重于应用ꎬ我们不会涉及多配置变量RDD(RDdesignswithassignmentvariables)[11]㊁分位数RDD[12]㊁拐点回归设计(regressionkinkdesigns)[13]㊁多断点RDD(RDdesignswithmultiplecutoffs)[14]㊁远离断点处的处理效应的识别方法(methodsforextrapolationawayfromthecutoff)[15][16]㊁离散型配置变量RDD[17]等五大RDD论文中未运用的新进展ꎮ本文综述Lee和Lemieux(2010)[2]以来RDD的新进展ꎮ选择以Lee和Lemieux07 ①②这方面的一个表现是ꎬ大量行政管理数据(administrativedata)被用于经济学经验研究ꎮ根据英国«经济学人»(TheEconomist)的报道ꎬNBER(NationalBureauofEconomicResearch)工作论文摘要里出现 administra ̄tivedata 的论文数ꎬ2000年是0篇ꎬ之后快速增长ꎬ2017年达到28篇ꎮ报道链接为:https://www.economist.com/international/2018/05/26/government-data-are-ever-more-important-to-economic-researchꎮ中文核心期刊论文数的检索方法如下:在中国知网检索出主题包含 断点回归 ㊁发表年度为2011年至2017年的中文社会科学引文索引(CSSCI)期刊论文ꎬ然后逐一检查㊁剔除非经验研究论文ꎬ最后剩下46篇ꎮ将检索限定在中文社会科学引文索引期刊ꎬ是为了保证检索到的论文的质量ꎮ英文五大期刊论文数的检索方法如下:在Jstor数据库中用全文任一地方出现 regressiondiscontinuity 这个关键词㊁发表年度为2011至2017年㊁期刊为五大期刊检索到50篇ꎬ然后逐一检查㊁剔除非经验研究论文ꎬ最后剩下39篇ꎮ经济管理(2010)[2]为基点的理由如下:首先ꎬ与Imbens和Lemieux(2008)[6]㊁vanderKlaauw(2008)[7]相比ꎬLee和Lemieux(2010)[2]的时间要晚ꎮ其次ꎬ与Skovron和Titiunik(2017)[8]综述政治学中断点回归设计的应用情况㊁Hausman和Repson(2018)[9]综述时间作为配置变量(也叫驱动变量)的RDD应用情况相比ꎬLee和Lemieux(2010)[2]综述的是经济学中的应用情况ꎬ包括各种类型的配置变量ꎬ更综合㊁更全面ꎮLee和Lemieux(2010)[2]提出了运用RDD做经验研究的规范ꎬ算是一个共识ꎮ但是ꎬ通过归纳2011-2017年的五大RDD论文ꎬ我们发现:一方面很多论文都没有遵守此规范ꎮ另一方面涌现出了很多被广泛应用的新进展ꎬ譬如非参数估计中确定带宽的IK法①[18]和CCT法[19]㊁参数估计中只应使用配置变量的低次项和甜甜圈RDD(DonutholeRDD)等②ꎮ通过归纳2011-2017年CSSCI期刊发表的RDD经验研究论文ꎬ我们发现ꎬ国内总体上了解运用RDD的规范ꎬ但仍然存在不少问题ꎬ譬如不做适用性检验㊁不重视描述统计图㊁不交代清楚非参数估计的关键细节等ꎮ二、运用断点回归设计的规范和新进展(一)运用断点回归设计做研究的既定规范Lee和Lemieux(2010)[2]提出了运用RDD做经验研究的规范ꎬ概述如下:1.利用配置变量检验RDD的适用性ꎮRDD的前提条件是个体不能精准操控(preciselymanipulate)配置变量ꎮ此条件可利用配置变量来检验ꎮ首先ꎬ选定一定数量的箱体画出配置变量的历史直方图ꎮ如果频数(frequencies)在邻近断点处的两个箱体间存在跳跃式变化ꎬ则很可能意味着前提条件不成立ꎮ其次ꎬ做配置变量的McCrary检验[20]ꎮ此检验的stata命令DCdensity是外部命令ꎬ可在下述网址下载后安装:https://eml.berkeley.edu/~jmccrary/DCden ̄sity/ꎮ2.利用前定变量检验RDD的适用性ꎮ首先ꎬ选定一定数量的箱体ꎬ求前定变量在每个箱体内的均值ꎬ画出均值对箱体中间点的散点图ꎻ接着再画出使用多项式模型对前定变量做出的拟合曲线ꎬ其中多项式一般是4次多项式③ꎮ如果前定变量的均值在断点处存在跳跃ꎬ则意味着前提条件很可能不成立ꎮ其次ꎬ用前定变量对常数项㊁处理变量㊁配置变量的多项式㊁处理变量和配置变量多项式的交互项做回归ꎮ如果前定变量比较多ꎬ那么随机因素也可能导致某个前定变量存在显著的断点ꎮ因此ꎬ有必要把众多检验合并为一个检验所有前定变量都不存在断点的统计量ꎮ这时ꎬ应该用似不相关回归(SeeminglyUnrelatedRegressionꎬSUR)ꎮ3.画结果变量的图ꎮ选定一定数量的箱体ꎬ求结果变量在每个箱体内的均值ꎬ画出均值对箱体中间点的散点图ꎻ接着再画出使用多项式模型对结果变量做出的拟合曲线ꎬ其中多项式一般是4次多项式ꎮ一定要求了局部平均值后再画图ꎮ如果直接画原始数据的散点图ꎬ那么噪音太大ꎬ看不出潜在函数的形状ꎮ如果结果变量的均值在断点处存在跳跃ꎬ则意味着处理变量有影响ꎮ用图来显示结果变量和配置变量之间的关系ꎬ已经成为运用RDD的标准作法ꎮLee17 ①②③Imbens和Kalyanaraman(2009)是工作论文ꎬ后来于2012年发表在«ReviewofEconomicStudies»上ꎮ用Stata软件实现这些新进展的操作命令可以参考Cattaneoetal.(2018)ꎬ更详细的操作命令细节可参考本文所引用文献的网上附件ꎮ这些网上附件可在发表各引用文献的期刊官网上下载ꎮ作者文中用的都是4次多项式ꎬ没解释不用其他次数多项式的原因ꎮ经济管理和Lemieux(2010)[2]指出ꎬ画图在RDD经验文章中是如此重要ꎬ以致没有图的文章会让人自然而然地怀疑图形证据对文章不利ꎮ4.全样本参数估计ꎮ使用全样本数据进行参数估计ꎮ以精确断点回归为例ꎬ估计模型如下:y=α+ρˑTreatment+ðKk=1βkˑ(x-c)k+ðKk=1γkˑTreatmentˑ(x-c)k+W+ε(1)其中y㊁x㊁treatment和W分别为结果变量㊁配置变量㊁处理变量(当xȡc时ꎬtreatment=1ꎬ否则treatment=0)和前定变量ꎮα㊁ρ㊁β和γ为待估计的参数ꎬε为随机扰动项ꎮρ显著不为0ꎬ表明处理对结果变量有影响ꎮ参数估计的要点是确定模型(1)中的多项式次数Kꎮ一般从一次尝试到八九次①ꎬ然后挑选赤池信息准则(AIC)取值最小的模型ꎮ另外一个比赤池信息准则更好的方法是ꎬ在多项式模型的自变量中先加入表示箱体的虚拟变量ꎬ然后不断加入配置变量的多次项ꎬ只到下述原假设成立:所有箱体虚拟变量的系数均等于零ꎮ5.子样本非参数估计ꎮ非参数估计就是对最优带宽内的子样本做加权局部线性回归ꎮ非参数估计的要点是确定最优带宽ꎮ确定最优带宽的方法有两种②:拇指规则法(ruleofthumbꎬROT)和交叉验证法(crossvalidationprocedureꎬCV)ꎮ加权可用矩形核密度函数㊁三角形核密度函数等ꎮ其中ꎬ使用矩形核密度函数加权的非参数估计ꎬ等于是基于子样本的参数估计ꎮ使用三角形核密度函数与使用矩形核密度函数的唯一区别是ꎬ前者给临近断点的观测值更大的权重ꎮ但是ꎬ要想给临近断点的观测值更大的权重ꎬ更透明的做法是在更小的带宽内使用矩形核密度函数ꎮ使用矩形核密度函数得到的结果也更易解释ꎮ值得庆幸的是ꎬ实践中不同核密度函数得到的结果一般是一致的ꎮ具体研究中ꎬ参数估计和非参数估计都要做ꎬ在两种方法下都稳定的结果更可信ꎮ(二)运用断点回归设计做研究的新进展Lee和Lemieux(2010)[2]之后的7年里(2011-2017年)ꎬ学者在运用RDD时出现了不少Lee和Lemieux(2010)[2]未提及的新做法ꎬ譬如非参数估计中确定带宽的IK法和CCT法㊁甜甜圈RDD(DonutholeRDD)㊁参数估计中只应使用配置变量的低次项和利用配置变量做适用性检验的Frandsen法[21]等ꎮ此处归纳比较重要的三种新做法如下:1.非参数估计中最优带宽的确定ꎮLee和Lemieux(2010)[2]介绍了ROT和CV两种确定最优带宽的方法ꎮ但是ꎬ2011-2017年间五大RDD论文使用得多的是IK法和CCT法ꎮstata中用非参数法做断点回归估计时的命令rdꎬ就是用IK法确定最优带宽ꎬ而命令rdrobust提供CV㊁IK㊁CCT三种不同的最优带宽计算方法选项ꎮImbens和Kalyanaraman(2012)[18]指出ꎬROT和CV两种方法对于在整个支撑集(supportset)里估计回归方程而言是最优的ꎬ但RDD只关心断点处的回归方程估计ꎬ故ROT和CV对于RDD而言不是最优的ꎬ而IK法对于RDD而言27 ①②作者说这是经验上的做法ꎬ没解释这样做的原因ꎮLee和Lemieux(2010)在脚注中提到了之后应用广泛的IK法(Imbens和Kalyanaramanꎬ2009)ꎬ但是文中举例只使用拇指规则法和交叉验证法ꎬ没使用IK法ꎮ经济管理是渐近最优的ꎻ另外ꎬCV法需要研究人员自己设定一个调节参数(tuningparameter)ꎬ而IK法是完全数据驱动的ꎮImbens和Kalyanaraman(2012)[18]进一步指出ꎬ尽管IK法具备这些优点ꎬ但研究人员不能只看这一个最优带宽下的估计结果ꎬ而应把这一带宽作为基准㊁检验结果对不同带宽的稳健性ꎮCalonico㊁Cattaneo和Titiunik(2014)[19]认为ꎬROT㊁CV和IK这些方法得出的最优带宽过大ꎬ导致相应的置信区间有偏ꎬ会过度拒绝 没有处理效应 的原假设ꎬ结果把 没有 处理效应说成 有 ꎮCCT法校正了过大带宽带来的偏误ꎮ2.甜甜圈RDD(DonutholeRDD)ꎮ甜甜圈RDD用来克服数据堆积(heaping)问题对估计结果的影响①ꎮ数据堆积指取配置变量某些值的观测值过多的现象ꎮ导致这一现象的原因包括受访者自报告某些信息时倾向于向某个数值近似ꎬ测量标尺的精读有限等ꎮ譬如ꎬ调查数据中受访者自报告的身高在160cm㊁170cm和180cm等取值上堆积ꎬ新生儿体重会在3000克㊁3500克和4000克等取值上堆积ꎮ数据操纵现象源自经济个体的逐利动机ꎬ只出现在断点处ꎮ然而ꎬ数据堆积不是源自经济个体的逐利动机ꎬ且可能出现在除断点之外的其他地方ꎮ如果结果变量受配置变量的堆积现象影响ꎬ那么RDD估计量可能是有偏的[22]ꎮ此时ꎬ可以去掉断点附近的某些观测值再做RDD估计ꎮ由于去掉断点附近的某些观测值后的数据就像一个 甜甜圈 ꎬ故称作 甜甜圈RDD ꎮ至于去掉断点附近多少观测值为适ꎬ文献中尚未达成共识ꎮ3.全样本参数估计的缺点ꎮ根据Lee和Lemieux(2010)[2]ꎬ配置变量多项式要尝试到八九次ꎮ但是ꎬGelman和Imbens(2014)[23]认为ꎬ不能尝试配置变量多项式的高次项ꎬ只能使用局部一次或局部二次多项式ꎬ理由有三点:第一ꎬ断点回归设计的估计量可以写成处理组结果的加权平均值和控制组结果的加权平均值之差ꎬ其中加权权重是配置变量的函数ꎮ运用全域高阶多项式方法时ꎬ当配置变量取值较大时ꎬ使用不同次数多项式得到的权重差别巨大ꎮ然而ꎬ局部线性回归方法给临近断点处的观测值赋予要大的权重ꎬ理论上讲更合理ꎮ第二ꎬ处理效应的估计值对全域高阶多项式的次数十分敏感ꎮ使用不同次数多项式得到的估计值差别很大ꎮ第三ꎬ在本身不存在断点的情况下ꎬ全域多项式方法得到错误结果(认为有断点)的概率高于实际水平ꎬ而局部一次(或二次)多项式方法得到错误结果的概率和实际水平差不多ꎮ三、断点回归设计的国外应用情况2011-2017年ꎬ五大英文顶级经济学期刊共发表39篇运用RDD做的经验研究论文ꎬ涉及公共经济学㊁新政治经济学㊁劳动经济学和教育经济学等众多领域ꎮ39篇论文中有33篇使用行政管理数据②ꎬ由此可见开放行政管理数据对于RDD应用的重要性ꎮ第二部分提到的三个新进展的应用情况如下:首先ꎬ使用非参数估计的26篇论文中ꎬ用IK法㊁CCT法确定最优带宽的分别为13篇㊁6篇ꎬ表明这两种最优带宽确定方法已被学界接受ꎻ其次ꎬ在甜甜圈RDD被提出的2011年之后ꎬ33篇论文中有5篇用了此方法ꎻ最后ꎬDell(2015)[24]和Pinotti(2017)[25]引用了Gelman和Imbens(2014)[23]ꎬ但还使用超过二次的配置变量多项式做稳健性检验ꎮ这些文献对RDD的运用与Lee和Lemieux(2010)[2]提出的规范大体一致ꎬ譬如20篇(占37 ①②实际上ꎬ甜甜圈RDD也可以克服数据操纵问题对估计结果的影响ꎮ分别来自美国㊁巴西㊁挪威㊁意大利等17个国家ꎮ经济管理51.28%)论文引用了Lee和Lemieux(2010)[2]ꎬ33篇(占84.62%)做了适用性检验ꎮ与Lee和Lemieux(2010)[2]提出的规范不一致的情况ꎬ包括如下几点:第一ꎬLee和Lemieux(2010)[2]建议参数估计和非参数估计均要做①ꎬ但这样做的只有16篇ꎮ只使用参数估计㊁只使用非参数估计的分别为13篇和10篇ꎮ在16篇同时使用了两种估计方法的文章中ꎬ将两种方法视为同等重要的有4篇ꎬ参数估计仅只是做稳健性检验㊁非参数仅只是做稳健性检验的分别为4篇和8篇ꎮ因此ꎬ总体来看ꎬ文献中偏重于参数估计ꎮ值得一提的是ꎬECMA上的4篇文章都只用非参数估计ꎬ而QJE上的5篇文章ꎬ除Malamud和Pop-Eleches(2011)[26]同时使用了两种方法外ꎬ其余4篇都只用参数估计ꎮECMA由国际计量经济学会主办ꎬQJE由哈佛大学经济系主办ꎮ二者在RDD应用上的差异可能体现了两个主办方不同的学术风格ꎮ第二ꎬLee和Lemieux(2010)[2]建议用前定变量做适用性检验时ꎬ应该做似不相关检验ꎬ但没有一篇文献这样做ꎮ第三ꎬLee和Lemieux(2010)[2]建议画描述统计图中的拟合曲线时ꎬ用配置变量的4次多项式ꎬ但仅有3篇论文用了4次多项式ꎮ39篇论文中ꎬ仅有Chettyetal(2014)[27]这一篇没在描述统计图中画上对散点的拟合曲线ꎮ在画了的38篇中ꎬ未说明用的什么方法㊁使用局部线性回归(locallinearregression)㊁使用局部线性平滑(locallinearsmoother)㊁移动平均法(running-meansmoothing)和多项式方法的分别为3篇㊁3篇㊁3篇㊁1篇和28篇ꎬ可见多项式方法是主流方法ꎮ在画拟合曲线所用方法上的差异具有明显的期刊特色:使用局部线性回归法的3篇文章有1篇来自QJE㊁2篇来自JPEꎬ使用局部线性平滑法的3篇文章均来自ECMAꎬ使用移动平均法的一篇文章来自RESꎬAER上的文章都使用多项式方法ꎮ在使用多项式方法的28篇论文中ꎬ使用1次㊁2次㊁3次㊁4次㊁8次及同时使用1次和2次多项式的分别为8篇㊁11篇㊁4篇㊁3篇㊁1篇和1篇ꎬ使用1次多项式和2次多项式的明显居多ꎮ值得一提的是ꎬMeng(2017)[28]在同一张图中同时画了1次多项式和2次多项式的拟合曲线ꎮ第四ꎬLee和Lemieux(2010)[2]建议参数估计时的配置变量多项式要尝试到八九次ꎬ然后挑选赤池信息准则(AIC)取值最小的模型ꎮ但是ꎬ使用过参数估计的29篇论文中ꎬ仅有Clark和Martorell(2014)[29]和Deshpande(2016)[30]根据AIC来挑选模型ꎮ在明确说明尝试过的多项式次数的论文中ꎬ仅有Auffhammer和Kellogg(2011)[31]㊁Pinotti(2017)[25]尝试过超过4次的多项式ꎬ绝大多数只尝试到4次多项式ꎮ第五ꎬLee和Lemieux(2010)[2]建议非参数估计时用矩形核密度函数ꎮ但是ꎬ在使用非参数估计且说明了所用核密度函数的16篇文献中ꎬ使用矩形核密度函数的为7篇ꎬ而使用三角形核密度函数的有8篇ꎬ还有一篇使用帐篷型核密度函数(tent-shapededgekernel)ꎮ综上所述ꎬLee和Lemieux(2010)[2]之后ꎬ运用RDD出现了IK和CCT两种最优带宽确定方法以及甜甜圈RDD两个新操作环节ꎮGelman和Imbens(2014)[23]不该使用超过两次的多项式的建议ꎬ尚未被学界普遍接受ꎮ同时ꎬ学界在Lee和Lemieux(2010)[2]涉及的RDD运用为方便讨论ꎬ使用矩形核密度函数的非参数估计虽然等同于参数估计ꎬ但此处只将其归为非参数估计ꎮ 47 ①经济管理环节上未达成共识ꎮLee和Lemieux(2010)[2]发表在权威经济学期刊«JournalofEconomicLit ̄erature»上ꎬ其两位作者均是国际上知名的经济学者ꎮ他们提出的RDD应用规范未被学界完全接受ꎬ并不因为他们的观点不准确㊁不权威ꎬ而是因为RDD的理论研究仍很活跃ꎬ故应用上达成的共识不多ꎻ因为RDD应用涉及众多技术环节ꎬ故更难达成共识ꎮ作为一个对比ꎬIV和DID的理论研究相对成熟㊁应用涉及的技术环节单一①ꎬ学者运用这两种方法做研究时的动作比较一致ꎮ四、断点回归设计的国内应用情况2011-2017年间ꎬCSSCI期刊共发表RDD经验研究论文46篇ꎬ涉及公共经济学㊁环境经济学㊁财政学等众多领域ꎬ其中使用行政管理数据的仅有王骏和孙志军(2015)[32]一篇ꎮ总体而言ꎬ对于两篇权威的RDD综述文章 Imbens和Lemieux(2008)[6]㊁Lee和Lemieux(2010)[2]ꎬ至少引用过其中一篇的中文论文有32篇ꎬ占69.57%ꎬ这意味着国内学者总体上了解运用RDD涉及的众多技术环节ꎮRDD应用的新进展也在被国内文献吸收ꎮ首先ꎬ确定最优带宽的IK法已被广泛应用ꎬCCT法也开始被使用ꎮ使用非参数估计且说明了带宽确定方法的24篇文章中ꎬ使用了IK法㊁CCT法的分别有10篇㊁3篇ꎮ其次ꎬ李宏彬等(2014)[33]㊁张川川等(2015)[34]和张明(2017)[35]都使用了甜甜圈RDDꎮ最后ꎬ马光荣等(2016)[36]㊁何文剑(2016)[37]㊁李江一和李涵(2017)[38]以及王家庭等(2017)[39]共4篇文章引用了Gelman和Im ̄bens(2014)[22]ꎮ与国外文献一样ꎬ国内文献运用RDD也存在很多与Lee和Lemieux(2010)[2]规范不一致的情况ꎬ具体如下:首先ꎬ同时使用参数估计和非参数估计的只有18篇(占39.13%)ꎮ只使用参数估计㊁只使用非参数估计的分别为17篇和11篇ꎮ在18篇同时使用了两种估计方法的文章中ꎬ将两种方法视为同等重要的有3篇ꎬ参数估计仅只是做稳健性检验㊁非参数仅只是做稳健性检验的分别为2篇和13篇ꎮ因此ꎬ总体来看ꎬ国内文献与国外文献一样ꎬ偏重于参数估计ꎮ其次ꎬ用前定变量做适用性检验时ꎬ仅有曹静等(2014)[40]㊁王骏和孙志军(2015)[32]使用了似不相关回归ꎮ再次ꎬ使用了参数估计的35篇文章中ꎬ只有杨小聪(2017)[41]㊁张英和陈绍志(2015)[42]㊁曹静等(2014)[40]3篇文章尝试到配置变量八九次的多项式ꎮ最后ꎬ在使用非参数估计且说明了所用核密度函数的11篇文章中ꎬ只使用矩形核密度函数㊁同时使用矩形和三角形核密度函数以及只使用三角形核密度函数的分别为2篇㊁5篇和4篇ꎮ由于运用RDD涉及众多技术环节ꎬ国内对RDD的运用还存在不少问题ꎬ主要表现在以下几个方面:首先ꎬ5篇文章未做适用性检验ꎬ2篇文章在适用性检验未通过时依然使用RDDꎮ张明(2017)[34]既没有用配置变量也没有用前定变量做适用性检验ꎮ陈强等(2017)[43]㊁黄新飞和杨丹(2017)[44]㊁高彦彦和王逸飞(2017)[45]以及王旭光(2017)[46]使用的配置变量不可能被操控ꎬ无须检验ꎬ但他们都没有检验前定变量的连续性ꎮ邹红和喻开志(2015)[47]㊁邓婷鹤和何秀荣(2016)[48]使用的配置变量 年龄 均在断点(60岁)处不连续ꎬ但依然运用RDDꎮ邹红57 ①运用IV必需的技术环节是报告第一阶段回归的F统计量取值ꎬ运用DID必需的技术环节是做平行趋势假设检验ꎮ经济管理和喻开志(2015)[47]做回归分析时去掉了60岁断点上的样本ꎬ但是出于男性实际停止工作的时间普遍是61岁这个考虑ꎬ并没有从RDD适用性这个角度深化㊁细化研究内容ꎬ譬如检验样本是否在50岁㊁60岁㊁70岁等年龄上存在堆积问题ꎮ其次ꎬ对描述统计图的运用不规范ꎮ如前所述ꎬ画图在RDD应用研究中十分必需ꎮ然而ꎬ有11篇没有画描述统计图ꎮ根据Lee和Lemieux(2010)[2]和英文顶级期刊的实际ꎬ画拟合曲线图以多项式方法居多ꎮ然而ꎬ在画有描述统计图的35篇文章中ꎬ15篇没有说明拟合曲线图所采用的方法ꎬ14篇采用局部多项式方法ꎬ6篇采用了平滑㊁多元回归等其他方法ꎮ未画描述统计图和未说明画拟合曲线所采用方法的文章合计达26篇(占56.52%)ꎬ表明国内学界对画图重要性的认识不够ꎮ最后ꎬ使用非参数估计时的关键技术细节未说明ꎮ在29篇使用了非参数估计的文章中ꎬ5篇没有报告带宽的确定方法ꎬ18篇(占62.07%)未说明使用了哪个核密度函数ꎮ五㊁总结和展望RDD在断点附近的局部等价于一个随机试验ꎬ这一特点使得其备受经验研究人员的青睐ꎮ在国外ꎬRDD从20世纪90年代末期开始被大量应用于经济学研究ꎮLee和Lemieux(2010)[2]提出了运用RDD的必备技术环节ꎬ相当于给出了RDD应用的规范ꎮ但是ꎬ由于RDD的理论研究仍在不断深入ꎬ至今尚未定型ꎬLee和Lemieux(2010)[2]之后应用RDD的文献出现了新的技术环节ꎬ譬如新的最优带宽确定方法㊁甜甜圈RDD和参数估计中最高只能使用二次多项式等ꎮ国内运用RDD做研究始于2010年ꎬ最近两年大幅增加ꎮ虽然国内熟悉Lee和Lemieux(2010)[2]提出的规范ꎬ但运用RDD时存在不少问题ꎬ譬如不做适用性检验㊁不重视描述统计图㊁不交代清楚非参数估计的关键细节等ꎮ为了使得研究结论更稳健ꎬ基于五大英文顶级期刊发表的论文ꎬ我们建议ꎬ国内运用RDD时ꎬ在完成Lee和Lemieux(2010)[2]提出的技术动作后ꎬ需要增加如下动作:考虑到学术界在最优带宽确定方法上尚未达成共识[26][49]ꎬ非参数估计时应该同时尝试CV㊁IK和CCT三种方法ꎻ在配置变量存在堆积现象或被操纵的可能时ꎬ使用甜甜圈RDDꎮ尝试到四次多项式ꎮRDD从理论上讲是更好的因果识别方法ꎬ但运用此方法要求在断点附近有较多观测值㊁对数据要求很高ꎮ可喜的是ꎬ最近几年ꎬ我国经济社会的数字化进程加速ꎬ越来越多的经济活动开始数据化ꎬ越来越多的中央政府部门和地方政府公开了行政管理数据ꎬ为运用RDD做研究提供了契机ꎮ特别值得指出的是ꎬ运用医疗卫生行业行政管理数据的研究已经成批量涌现ꎮ参考文献:[1]AngristJDꎬPischkeJ.Thecredibilityrevolutioninempiricaleconomics:Howbetterresearchdesignistak ̄ingtheconoutofeconometrics[J].JournalofEconomicPerspectivesꎬ2010ꎬ24(2):3-30.[2]LeeDSꎬLemieuxT.Regressiondiscontinuitydesignsineconomics[J].JournalofEconomicLiteratureꎬ2010ꎬ48(2):281-355.[3]ThistlethwaiteDLꎬCampbellDT.Regression-discontinuityanalysis:Analternativetotheexpostfactoex ̄periment[J].JournalofEducationalPsychologyꎬ1960ꎬ51(6):309-317.[4]雷晓燕ꎬ谭力ꎬ赵耀辉.退休会影响健康吗?[J].经济学(季刊)ꎬ2010ꎬ(04):1539-1558.[5]余静文ꎬ赵大利.城市群落的崛起㊁经济绩效与区域收入差距 基于京津冀㊁长三角和珠三角城市圈 67。

空间断点回归命令 stata

空间断点回归命令 stata

空间断点回归命令stata全文共四篇示例,供读者参考第一篇示例:空间断点回归是回归分析方法中的一种,可以用来探究变量之间是否存在非线性关系,并且能够确定这种关系的突变点。

在实际应用中,有时候变量之间的关系并不是简单的线性关系,而是存在一定的非线性特征,空间断点回归通过引入断点变量来捕捉这种非线性关系,从而更准确地描述变量之间的关系。

Stata是一款功能强大的统计分析软件,提供了丰富的数据分析工具和函数,包括空间断点回归命令。

在Stata中,空间断点回归可以通过命令“spatreg bivariate”来实现,该命令允许用户指定自变量、因变量和断点变量,并且能够自动识别并拟合最佳的空间断点回归模型。

空间断点回归在实际应用中有着广泛的用途,例如在经济学领域可以用来研究不同经济政策对经济增长的影响;在社会学领域可以用来探究不同社会变量对人口增长的作用;在环境科学领域可以用来分析污染物排放对空气质量的影响等等。

空间断点回归是一种强大的统计分析方法,可以帮助用户更深入地理解变量之间的关系,并且找出其中的非线性特征和突变点。

在Stata中使用空间断点回归命令可以更加方便快捷地进行分析,帮助用户更好地理解数据和现象,为决策提供科学依据。

第二篇示例:空间断点回归命令stata是一种在统计分析中常用的方法,用于检测和估计数据中存在的空间断点。

空间断点是指在数据中存在一个或多个分界线,该分界线导致数据之间的关系发生突变。

在空间分析中,研究人员常常需要识别这些空间断点,并加以探讨其影响和意义。

空间断点回归命令stata是通过统计软件stata实现的一种方法,它可以帮助研究人员快速、有效地检测和估计数据中的空间断点。

通过空间断点回归命令stata,研究人员可以进一步探究数据背后的规律和结构,从而更好地理解数据中的空间关联性。

在使用空间断点回归命令stata时,研究人员需要首先准备好要分析的数据集,并确定研究的问题和假设。

断点回归分析方法在经济学研究中的应用

断点回归分析方法在经济学研究中的应用

断点回归分析方法在经济学研究中的应用随着经济学的发展,研究者们常常遭遇经济数据中存在的结构突变或断点问题。

为了更准确地解释这些问题,断点回归分析方法被广泛应用于经济学研究中。

本文将介绍断点回归分析的基本原理和其在经济学研究中的实际应用。

断点回归分析是一种统计建模方法,它通过在数据中寻找断点位置,将数据分为不同的阶段,并拟合对每个阶段都有意义的回归模型。

在经济学中,结构突变或断点可能出现在许多变量之间的关系上。

通过使用断点回归分析方法,研究者能够识别并建立在不同阶段具有不同形式的关系模型。

为了更加形象地理解断点回归分析的应用,我们以一个经典的例子来说明。

假设我们研究某个城市的房价与居民收入的关系。

我们发现,在某个时间点后,房价与收入的关系发生了明显的变化。

在这种情况下,我们可以使用断点回归分析方法来找到这个时间点,然后将数据分为两个阶段,分别拟合不同的回归模型。

这可以帮助我们更准确地了解房价和收入的关系模式,并解释结构突变发生的原因。

除了房价和收入的关系,断点回归分析还可以应用于许多其他领域。

例如,它可以用于研究劳动力市场中的工资差异,金融市场中的资产定价,以及宏观经济中的投资与经济增长之间的关系等等。

在这些研究中,断点回归分析能够帮助我们发现变量之间的非线性关系,并提供更准确的预测和政策建议。

然而,断点回归分析也存在一些挑战和限制。

首先,寻找断点位置通常是一个困难的问题。

在实际应用中,研究者们需要依赖统计方法和经验判断来确定最合适的断点位置。

其次,断点回归分析方法对数据的要求较高,需要满足一些基本的假设条件,如线性关系和正态分布等。

如果这些假设条件不满足,结果可能得到偏误。

尽管存在一些限制,断点回归分析方法在经济学研究中的应用仍然具有重要的意义。

它能够帮助我们更好地理解经济现象中的结构变化,并提供准确的解释和预测。

因此,在经济学研究中,我们应该更加关注并充分利用这一方法的潜力。

总而言之,断点回归分析方法在经济学研究中具有重要的应用价值。

断点回归设计国内外研究综述

断点回归设计国内外研究综述

断点回归设计国内外研究综述和其他因果分析方法相比, 学术界普遍认为运用断点回归设计更接近准自然实验, 估计的结果更加准确, 因此近年来越来越多的实证文献依赖断点回归设计进行政策效应评估。

文章主要按照模型设定、估计方法、相关实证研究这三个方面对国内外相关理论和文献进行述评, 呈现断点回归设计完整的理论框架和应用领域, 旨在为国内相关研究者提供借鉴。

文/吉丹俊来源/无锡商业职业技术学院学报因果分析与政策效应评估是经济分析最为关注的核心问题[1], 运用计量模型进行因果分析的难点在于如何避免模型的内生性问题。

针对这一问题, 微观计量领域的学者们通过不断探索, 借助于心理学和医学研究中准自然实验(quasiexperiment) 的思想评估不同政策的处理效应, 试图获得一致 (consistent) 或者无偏 (unbiased) 估计量。

常见的通过准自然实验思想估计处理相应的模型有:工具变量(Instrumental variables) 、匹配和加权估计法 (matching and reweighting) 、倍差法(difference-in-difference) 和断点回归设计(regression discontinuity design) [2]。

和其他方法相比, 学术界普遍认为运用断点回归设计更接近准自然实验, 估计的结果更加准确。

因此, 近年来越来越多的实证文献依赖断点回归设计进行政策效应评估。

Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应, 在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。

如果考试分数大于获奖标准分数, 则进入处理组;如果考试分数小于获奖标准分数, 则进入控制组。

因此处理变量在获奖标准分数处形成了一个断点, 该研究设计的主要思想是可以利用靠近这一断点附近的样本来有效估计处理效应[3]。

断点回归例子

断点回归例子

断点回归例子标题:断点回归的实例解析简介:本文将通过一个实际案例,详细解析断点回归的概念和应用,旨在帮助读者更好地理解和应用这一概念。

正文:断点回归是统计学中一种重要的分析方法,常被用于研究一个或多个自变量对于因变量的影响。

在实际应用中,断点回归常常被用来发现因果关系中的转折点,即自变量变化对因变量影响方向发生突变的位置。

为了更好地理解断点回归,我们以一项经济研究为例进行解析。

该研究的目的是探究城市人口密度对房价的影响。

研究者收集了一组城市的人口密度和对应的房价数据,并进行了断点回归分析。

首先,研究者绘制了城市人口密度与房价的散点图,发现两者呈现出一种曲线关系,即人口密度低时,房价较低,但当人口密度增加到一定程度后,房价开始上升。

这种曲线关系表明存在一个转折点,该点之前和之后的影响因素可能不同。

接下来,研究者使用断点回归方法,将人口密度作为自变量,房价作为因变量,拟合了一条回归线。

通过对回归线的分段斜率进行检验,研究者发现在某一特定的人口密度值附近,回归线的斜率发生了显著变化。

这个特定的人口密度值就是断点。

进一步的分析显示,断点前后两个阶段的回归线斜率不同,这意味着在转折点附近,人口密度对房价的影响发生了改变。

在转折点之前,人口密度的增加对房价的影响相对较小;而在转折点之后,人口密度的增加对房价的影响变得更为显著。

这一发现有助于研究者更准确地理解城市人口密度与房价之间的关系,为相关决策提供了科学依据。

通过以上实例,我们可以看到断点回归在解析转折点和因果关系中的应用。

在实际研究中,断点回归可以帮助研究者揭示出数据中隐藏的非线性关系,并提供更深入的分析和理解。

在撰写类似的研究报告时,我们应当注意保持文章的清晰逻辑,确保标题、简介和正文相符,避免添加广告信息或侵权争议,以及不适宜展示的敏感词或不良信息。

同时,文章应当流畅地表达,避免出现缺失语句、丢失序号或段落不完整的情况,以保证良好的阅读体验。

总结:断点回归在实际研究中具有重要的应用价值,通过分析转折点和因果关系,可以揭示出数据中的非线性关系。

学习经济学会让你富有吗?基于大学专业回报的断点回归分析

学习经济学会让你富有吗?基于大学专业回报的断点回归分析

学习经济学会让你富有吗?基于大学专业回报的断点回归分析稿件:***********************所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.正文关于下方文字内容,作者:邵诗语, 西南财经大学行为经济学,通信邮箱:*********************摘要本文利用一项政策来调查经济学学习的工资回报,该政策禁止低入门成绩的学生申报专业。

勉强达到经济学专业GPAthreshold的学生获得22000美元(46%)比他们的第二选择专业的年薪更高。

进入经济学专业会改变学生对商业/金融职业的偏好,大约一半的工资回报来自于在高薪行业工作的经济学专业。

主修经济学的因果回归与全国代表性数据中观察到的收入差异非常相似。

研究背景加州大学商学院经济系2003年的GPA限制是该大学第一项限制注册学生进入特定大学专业的政策,这一限制首先记录在加州大学商学院2003年的课程目录中,该目录规定,经济学1和2(EGPA)的GPA低于2.8的学生只能“由系自行决定”申报专业。

如果学生重修其中一门课程,则只使用初始成绩计算平均绩点。

尽管2012年课程目录首次指出,对于低于2.8 EGPA的学生,“上诉很少被批准”,但该政策在随后的十年中几乎没有改变。

从2013年开始,计算分数被添加到GPA计算中。

然而,该系的“自由裁量权”为逐年下降的学生提供了很大的空间。

低于2.8的学生进入该专业的机会存在差异。

在GPA上下主修经济学的可能性仍然很小(低于15个百分点)直到2008年进入队列,然后在2012年之前从25%到60个百分点不等。

因此,本研究将重点放在后五个UCSC新生队列上。

数据本研究中分析的学生数据库(UC-CHP,2020年)是从UCSC注册处收集的,作为UC计量历史的一部分项目,样本涵盖了1999年至2014年间首次在加州大学学院入学的所有新生。

15对于每个学生,观察了性别、种族、队列年、(入学前)家庭住址、加州居住状况、高中和SAT分数以及UCSC课程注册和成绩。

断点回归方程

断点回归方程

断点回归方程1. 简介断点回归方程是一种用于分析数据中存在结构性断点的回归模型。

在实际应用中,经常会遇到一些数据集中存在着不同阶段的关系,而传统的线性回归模型无法很好地捕捉到这种非线性关系。

断点回归方程通过引入一个或多个断点,将数据集划分为不同的区间,并在各区间内分别拟合线性回归模型,从而更准确地描述数据的关系。

2. 基本原理断点回归方程的基本思想是将数据集分割成若干个区间,每个区间内的数据符合线性关系。

通过引入一个或多个断点,将整个数据集划分为不同的区间,并在每个区间内拟合线性回归模型。

具体来说,断点回归方程可以表示为:Y=β0+β1X+β2X break+ϵ其中,Y表示因变量,X表示自变量,β0、β1、β2是待估计的系数,X break是断点变量,取值为0或1,用于表示数据是否处于断点位置。

ϵ是误差项。

3. 断点检验为了确定断点的位置,需要进行断点检验。

常用的断点检验方法有F统计量法、信息准则法等。

这些方法都是基于模型拟合的好坏程度来选择最优的断点位置。

在进行断点检验时,需要设定一些阈值或准则,用于确定断点的个数和位置。

3.1 F统计量法F统计量法是一种常用的断点检验方法,其基本原理是比较两个模型的拟合优度。

在进行F统计量法时,首先需要指定一个断点位置,然后分别在断点前后拟合线性回归模型,计算两个模型的F统计量。

如果F统计量超过了设定的阈值,就意味着该断点位置是显著的,否则就认为该断点位置不显著。

3.2 信息准则法信息准则法是另一种常用的断点检验方法,其基本思想是通过最小化信息准则函数来选择最优的断点位置。

常用的信息准则函数有AIC(赤池信息准则)和BIC(贝叶斯信息准则)等。

在进行信息准则法时,需要计算每个可能的断点位置的信息准则值,并选择具有最小信息准则值的断点位置作为最优的断点位置。

4. 断点回归方程的应用断点回归方程在实际应用中具有广泛的应用价值。

以下是一些常见的应用场景:4.1 经济学在经济学领域,断点回归方程可以用于研究经济变量之间的非线性关系。

regression discontinuity design in economics

regression discontinuity design in economics

regression discontinuity design in economics
回归断点设计(Regression Discontinuity Design,RDD)是经济学研究中常用
的一种估计因果关系的方法。

它通过利用自然实验的断点,解决了传统实验设计很难实现或不现实的限制,同时可以更准确地估计因果效应。

在回归断点设计中,存
在一个或多个变量作为配置变量(score),它们决定了个体是否被包含在实验中。

具体操作上,可以通过画出配置变量的分布图和因变量均值对配置变量的散点图来观察是否存在回归断点。

在散点图中,如果存在断点,那么在断点处的跳跃是否正常可以为我们提供一些启示。

为了更好地观察分布的总体形状,箱体的宽度要尽量小。

回归断点设计在经济学的应用中有很多优点,例如可以更准确地估计因果效应,并且可以通过利用自然实验的断点来解决传统实验设计的限制。

但也有其局限性和潜在的挑战,例如存在多重处理的问题、必须存在合适的断点和需要选择适当的配置变量等。

总之,回归断点设计是一种估计因果关系的方法,它在经济学中有广泛的应用。

但也需要考虑其局限性和潜在的挑战,以实现更为准确和可靠的估计。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

断点回归及其在经济学中的应用一引言2010年4月24日,该年度的约翰·贝茨·克拉克奖章(John Bates Clark Medal)——针对40岁以下年轻经济学者的最高荣誉,授予了麻省理工学院经济系的Esther Duflo教授以表彰其在随机实验普及和其在发展经济学中应用方面的卓越贡献。

在因果关系分析的实证方法中,最优的选择应当为随机实验,但是随机实验的时间成本和经济成本都比较高,而在随机实验不可得的情况下,需要考虑使用其它方法。

断点回归(Regression Discontinuity)便是仅次于随机实验的,能够有效利用现实约束条件分析变量之间因果关系的实证方法。

Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。

然而,断点回归也仅仅是在20世纪90年代末才被应用于处理经济学的问题。

2001年,Hahn等人对断点回归模型的识别和估计的理论问题进行了严格细致的分析,此后,断点回归才在众多的经济学研究领域中崭露头角。

时至今日,断点回归已经在劳动和教育经济学、政治经济学、环境经济学和发展经济学等领域取得了广泛的应用。

然而,断点回归却鲜为中国经济学者所应用,正是基于断点回归在实证研究中的重要性和国内文献的缺乏,本文拟以此为背景,从断点回归的理论、发展历史、实证步骤和经济学中的应用几个方面阐述断点回归这一个新“拟随机试验”方法的兴起。

二断点回归理论及发展历史断点回归是一种拟随机实验,此种随机实验定义了这样一个特征,即接受处置(Treatment)的概率是一个或者几个变量的间断函数。

Hahn et al.(2001)提出了断点回归的首要假设,如果变量表示处置效应,表示决定处置的关键变量,那么和必须存在,并且。

在使用断点回归的情况下,存在一个变量,如果该变量大于一个临界值时,个体接受处置,而在该变量小于临界值时,个体不接受处置。

一般而言,个体在接受处置的情况下,无法观测到其没有接受处置的情况,而在断点回归中,小于临界值的个体可以作为一个很好的可控组(Control Group)来反映个体没有接受处置时的情况,尤其是在变量连续的情况下,临界值附近样本的差别可以很好的反映处置和经济变量之间的因果联系。

断点回归可以分为两类,第一类,临界值是确定的(Sharp),即在临界值一侧的所有的观测点都接受了处置,反之,在临界值另一侧的所有观测点都没有接受处置。

此时,接受处置的概率从临界值一侧的0跳转到另一侧的1;第二类,临界点是模糊的(Fussy),即在临界值附近,接受处置的概率是单调变化的。

Hahn et al.(2001)在一定的假设下,证明了无论是哪一类型的断点回归,都可以利用临界值附近样本的系统性变化来研究处置和其它经济变量之间的因果关系。

断点回归首先是由美国西北大学的心理学家Campbell于1958年首先发展设计出来的,从那时开始直到二十世纪80年代,Campbell和西北大学心理学系和统计学系的同事一直从事断点回归的设计和研究工作。

Thistlethwaite和Campbell(1960)正式发表了第一篇关于断点回归的论文,他们提出断点回归是在非实验的情况下处理处置效应(Treatment Effects)的一种有效的方法,主要应用于心理学和教育学领域。

随后,Campbell和Stanley(1963)为断点回归提供了更加清晰化的概念,但是由于他们并没有给出断点回归统计上的证明。

在他们看来,断点回归主要是为了解决选择性偏误(Selection Bias)问题,断点回归利用了一个取决于某连续变量的间断函数,这个间断函数完全决定了个体是否受到处置,这就使得样本选择的细节完全展示出来,使得我们知道样本选择的问题所在。

此外,Campbell和Stanley 还认为断点回归仅仅是在间断的临界值处类似于随机实验,其推论的有效性也仅仅局限于间断的临界值处。

整个20世纪60年代,断点回归方法的应用还停留在一种直觉的推导,而缺乏统计上严密的证明。

Goldberger(1972 a, b)曾对断点回归的无偏因果推断进行了证明,可惜的是,他的论文并没有得到发表,这主要是因为他认为断点回归的适用环境是一个高度理想化的环境,其适用范围十分有限。

相反,变量之间因果关系的推断还包括了工具变量法(IV Approach)和Heckman处理样本选择问题的模型,这两种方法的适用性更加广泛,从而使得人们忽视了断点回归方法的应用,也使得断点回归在很长一段时间内消失在人们的视野之中。

随着Campbell等人所认为的断点回归适用性仅仅局限于临界值附近这一论断被证伪之后,断点回归才开始重新回到人们的视野之中。

Rubin(1977)证明了在个体是否接受处置仅仅取决于一个关键变量的情况下,处置效应能够在关键变量的整个范围内得到无偏的因果推断。

Sacks和Ylvisaker(1978)提出了断点回归的估计方法,并在理论上给予了较粗略的证明。

他们将被解释变量分解为观察变量的线性组合再加上一个非随机的误差项,其估计方法类似于局部非参数回归(Local Nonparametric Regression),其有效性不仅仅是对于临界值附近的样本,而且可以扩展到关键变量的整个领域。

断点回归在理论方面取得了新进展的同时,其它因果推断方法的不足之处也逐渐的被认识到。

比如,工具变量法存在局限性,特别是排他性(Excludability)条件难以满足,即难以保证工具变量仅仅通过影响关键解释变量而影响到被解释变量,寻找合适的工具变量存在一定的困难。

此外,Lalonde(1985)发现Heckman样本选择模型并不能产生和随机实验一样的结果。

正因为因果关系的推断是经济学家所关注的最主要的问题,并且现有的因果推断方法都不能得出完全合理的因果关系,人们开始逐渐将目光转向了断点回归。

Trochim(1984)继续了他老师Campbell的工作,Trochim综合了之前关于断点回归的理论和方法,并且将断点回归类型分为两类,第一类是确定型的断点回归(Sharp Regression Discontinuity),即个体在临界值一边接受处置效应的概率为1,而在临界值另一边接受处置效应的概率为0;第二类是模糊型的断点回归(Fuzzy Regression Discontinuity),即个体接受处置效应的概率均大于0小于1,个体在临界值一边接受处置的概率大于在临界值另一边接受处置的概率。

Trochim特别对第二类断点回归问题进行了研究,并开始利用该方法进行实证研究。

与Campbell观点不同,Trochim认为断点回归的应用性并非那么的狭隘,相反,其应用范围还十分的广泛。

除此之外,他还强调了决定处置的关键变量不仅仅可以是一个单一变量,而且还可以是一个合成变量。

随后,断点回归的优势逐渐被学界所认可,其应用也愈加广泛。

具体而言,其优势包括两方面:第一,断点回归可以应用于出于对经济成本和伦理道德问题的考虑,随机实验不能进行的环境;第二,断点回归优越于所有其它已知的因果推断方法,其结果十分接近于随机实验结果,Lee和Lemieux(2010)也通过形象的例子展示了断点回归和随机实验的相似性。

Hahn et al(2001)最终为断点回归的模型识别和模型估计进行了严格意义上的理论证明,并提出了相应的估计方法,由此,断点回归在经济学中的应用如雨后春笋般出现在重要经济学文献中。

三断点回归的实施步骤(一)确定型断点回归运用图形来分析处置效应是否存在是断点回归分析的基础。

图形分析在断点回归的实施中扮演着重要的角色,通过将样本点和决定处置的关键变量在坐标系中描述出来,便可以清楚的看到临界值附近的样本点是否存在跳跃。

如果样本点存在跳跃,那么说明确实存在处置效应,相反,如果样本点没有出现相应的跳跃,那么说明断点回归的模型识别可能存在问题。

当我们从图形分析中发现了临界值处存在处置效应,那么就应当做进一步更加细致的计量实证分析。

为了使图形更为直观,需要根据决定处置的关键变量来划分箱体(Bin)和箱体的范围,并在该范围内计算变量的均值。

一般而言,箱体的范围需要大到包含足够多的样本使其样本点在临界值两边都比较平滑,但又要小到一定程度使得样本点在临界值处的跳跃能够明显的显现出来。

Lee和Lemieux(2010)提出两种方法来选择合适的箱体范围。

第一种是根据对数据的观察决定使用个箱体;然后对个箱体的虚拟变量做回归;随后,将箱体范围缩小二分之一,使得箱体由个变为个,将个箱体的虚拟变量作为解释变量再做一次回归。

由于使用个箱体虚拟变量的回归是内嵌于使用个箱体虚拟变量的回归之中的,因此,可以使用标准的F检验来比判断个箱体和个箱体的优劣。

第二种方法是基于这样一个原理,如果箱体足够的小,那么被解释变量和决定处置的关键变量将不会出现系统的联系,因此,可以将被解释变量对箱体的虚拟变量以及该虚拟变量和决定处置的关键变量的乘积项做回归,并使用F检验来判断虚拟变量和关键变量的乘积项是否显著的为0。

通过以上方法得到合适箱体范围后,便可以分别对临界值两边的样本进行估计,得到临界值两边的平滑曲线,具体实施步骤如下:第一步,构造箱体,,其中为临界值,为箱体的范围;其次,计算每一个箱体中的样本数量,,其中为决定处置的关键变量;再次,求出每个箱体的平均值,;最后,画出和二者之间的曲线关系。

第二步,同时利用临界值两边的样本进行回归。

这就好比在非参数回归中使用了rectangular的核,选取叶宽(bandwidth),将样本的估计局限在范围内。

一般而言,可以使用非参数回归,但是如Hahn et al.(2001)指出的,非参数回归会产生高阶数的偏差,简单的非参数估计往往并不具有吸引力,所以对于样本的回归可以采取局部线性回归(Local Linear Regression),即最小化下式:这其中存在叶宽选择的问题,Hahn等(2001)提出最优的叶宽与成比例。

例如,样本增加32倍,那么为1/2,叶宽就可以减少一半,但是这并没有解决如何选择叶宽的问题。

计量经济学和统计学的文献中有两种选择叶宽的方法:第一种方法是根据拇指规则(Rule of Thumb)对整个样本的数据进行估计以求得最优叶宽。

比如,对于rectangular的核,最优叶宽可以根据下式求出:其中是断点回归的标准差,表示断点回归方程的二阶导数,是断点回归方程估计时的范围,2.702是使用rectangular核估计的常数。

另一种方法是交叉验证法(cross-validation),即首先对临界值两边的样本分别进行回归,得到:交叉验证准则即为选择合适的叶宽以最小化:此外,断点回归中也可以加入其它的控制变量,如此做的原因是消除小样本偏差,同时使得估计更为精确。

相关文档
最新文档