断点回归方法的应用

合集下载

stata模糊断点回归结果解读

【知识文章】标题：深度解读stata模糊断点回归结果在统计分析领域，断点回归是一种常用的分析方法，能够帮助研究人员在研究数据中找到关键的转折点或阈值，从而更好地理解现象背后的规律。

而在实际应用中，stata软件提供了模糊断点回归分析的功能，更加贴近实际情况，对于研究人员来说是一个非常有用的工具。

本文将深度解读stata模糊断点回归结果，帮助读者更好地理解该分析方法的有效性和结果解释。

一、基本概念1.1 模糊断点回归模糊断点回归是一种用于发现数据中的结构转变的分析方法，相比传统的断点回归更加灵活和智能。

它能够针对数据的不确定性进行分析，帮助研究人员更好地理解数据中的变化规律。

1.2 staa软件及其应用stata是一种专业的统计分析软件，广泛应用于学术研究和商业领域。

它提供了丰富的统计分析功能，包括模糊断点回归分析，在实际数据分析中有较高的可靠性和灵活性。

二、结果解读2.1 模糊断点的确定在进行模糊断点回归分析时，首先需要确定数据中的模糊断点位置。

通过stata软件的分析工具，可以得到数据中的潜在断点位置及其置信区间，帮助研究人员更好地理解数据的结构变化。

2.2 断点处的效应估计在确定了模糊断点位置后，接下来需要对断点处的效应进行估计。

stata软件能够提供准确的效应估计值和显著性检验结果，帮助研究人员判断断点处的效应是否显著，从而更好地理解数据的变化规律。

2.3 结果的解释和应用通过对模糊断点回归结果的深度分析，研究人员可以更好地解释数据中存在的潜在断点和其影响，从而为进一步的研究和决策提供依据。

stata软件提供了直观的结果展示和解释功能，帮助研究人员更好地应用分析结果。

三、个人观点和总结在实际研究和数据分析中，模糊断点回归分析是一种非常有用的方法，能够帮助研究人员更好地理解数据中的结构变化和规律。

而stata软件提供了便捷和可靠的分析工具，能够有效支持模糊断点回归分析的实施和结果解释。

对于研究人员来说，掌握stata模糊断点回归分析的方法和技巧，能够更好地发掘数据的潜在规律和价值，为实际决策和研究提供更有力的支持。

诺贝尔奖断点回归例子

诺贝尔奖断点回归例子所谓断点回归就是找到一个断点，然后在确定因素里找随机性，比如高考分数650分可以上清华大学，649分不能上，65岁能退休，64岁不能退休，22岁可以结婚，21岁不能结婚，这条分割线就叫断点，高考的随机性就是分数，比如一群高考学生们成绩稳定在650分，上下20分浮动，就可以认为这些学生的学习水平基本没有太大差别，而他们唯一的差别就是“是否上了清华大学”，对比他们将来的收入水平，就可以大致排除其他因素，得到“是否上清华大学”对于他们收入的影响。

有了他们两这些看似原理极其简单的方法贡献，却对经济学、心理学、社会学甚至国际关系等等学科都产生了非常重大的影响。

如今他们使用的“差中差方法”已经成为了每一位研究实证经济学者都必须学习的基本工具之一。

而今年另一位经济学诺奖得主大卫· 卡德（David Card）的发现，离我们的生活更加贴近了一步，在上世纪90年代初之前，几乎所有的传统经济学家都有两个共同的想法，一个是如果提高法定最低工资一定会导致企业的工资成本增加，企业压力增大逐渐被迫裁员，进一步导致就业率减少，失业率上升。

第二个是外国移民增多会导致本地人的失业率上升，因为外国移民增加会夺取本地有限的工作席位，这两种想法在理论上都站得住脚，但所有人都苦于这两个理论无法用实验来证明或推翻。

为了调查法定最低工资如何影响就业，来自于加拿大的大卫· 卡德和另一位经济学家艾伦·克鲁格（Alan Krueger）通过电话调查新泽西州和宾夕法尼亚州东部的快餐店市场，使用刚才提到的“差中差”方法做了实验，终于顶着压力推翻了传统观念，他们发现新泽西州在提高了最低工资之后，快餐业的工作并没有出现如预料般减少，反而有了几个重要的新发现，包括更高的工资换来的是工作效率的上升，员工更加自愿的工作，并由此吸引来更多的人才。

而企业可以通过提升产品价格来弥补工资成本的上升，而且产品价格的提升幅度也只需要非常小，他们发现最低工资从7.25美元上升到10.10美元，提升了近40%，而快餐店仅仅只需要将产品的价格上升2.7%，就可以覆盖上升的工资成本。

断点回归参数估计方法

"断点回归参数估计方法" 通常指的是在回归分析中使用断点模型进行参数估计的方法。

断点回归模型是一种考虑在自变量达到某个特定点时因变量发生显著变化的模型。

这个特定点称为"断点"，在该点上可能存在两个不同的回归关系。

断点回归参数估计的方法通常涉及两个阶段的模型拟合：
1. **拟合阶段1：** 在断点之前的区域拟合一个回归模型。

2. **拟合阶段2：** 在断点之后的区域拟合另一个回归模型。

通常，这两个模型在断点处具有不同的参数。

估计的参数可以告诉我们在自变量达到断点时因变量发生了什么样的变化。

在实际应用中，选择断点的方法和确定两个阶段模型的参数估计方法都是关键的问题。

这通常需要进行统计检验和模型比较来确保选择的断点和模型是合适的。

总体来说，断点回归参数估计方法是一种用于处理因变量在自变量特定点发生显著变化的回归分析方法。

断点回归法事件研究法

断点回归法事件研究法断点回归法（Breakpoint Regression Analysis）是一种常用的事件研究方法，在金融学、经济学、管理学等领域得到广泛应用。

本文将介绍断点回归法的基本概念、原理和应用，并探讨其优缺点。

一、断点回归法的基本概念断点回归法是一种用于研究某个事件对特定变量的影响的统计方法。

该方法通过在时间序列数据中选择一个或多个断点，将数据分为两个或多个子样本，然后对每个子样本进行回归分析，从而比较不同子样本之间的差异。

这种方法能够帮助研究者判断某个事件对变量的影响是否存在、是否显著，并进一步分析影响的程度和方向。

二、断点回归法的原理断点回归法的核心原理是基于时间序列数据中存在的某个结构性断点，该断点可能是由于政策改变、市场变动、经济周期变化等原因引起的。

研究者通过设定断点，将样本数据分为两个或多个子样本，然后对每个子样本进行回归分析。

在分析中，需要控制其他可能影响结果的变量，以确保所得的结果是由所关注的事件引起的。

三、断点回归法的应用断点回归法在金融学、经济学、管理学等领域有广泛的应用。

例如，在金融市场中，研究者可以使用断点回归法来分析某个重大事件对股票市场的影响。

他们可以选择一个事件作为断点，将数据分为事件前后两个子样本，然后对每个子样本进行回归分析，以比较事件前后的差异。

这样可以帮助研究者了解事件对股票价格、交易量等指标的影响程度和方向。

四、断点回归法的优缺点断点回归法具有一定的优点和缺点。

其优点在于可以通过选择合适的断点，准确地判断事件对变量的影响，并量化影响的程度和方向。

此外，断点回归法能够更好地控制其他可能的干扰变量，提高分析结果的可靠性。

然而，该方法也存在一些缺点，如对断点的选择比较主观，需要研究者具备一定的经验和专业知识；另外，断点回归法只能检测到存在结构性断点的影响，对于连续性变化的影响则无法有效分析。

断点回归法是一种常用的事件研究方法，通过选择断点，将样本数据分为两个或多个子样本，并对每个子样本进行回归分析，以比较不同子样本之间的差异。

断点回归方法及其应用

断点回归方法及其应用下载温馨提示:该文档是我店铺精心编制而成，希望大家下载以后，能够帮助大家解决实际的问题。

文档下载后可定制随意修改，请根据实际需要进行相应的调整和使用，谢谢!并且，本店铺为大家提供各种各样类型的实用资料，如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等，如想了解不同资料格式和写法，敬请关注!Download tips: This document is carefully compiled by theeditor. I hope that after you download them,they can help yousolve practical problems. The document can be customized andmodified after downloading,please adjust and use it according toactual needs, thank you!In addition, our shop provides you with various types ofpractical materials,such as educational essays, diaryappreciation,sentence excerpts,ancient poems,classic articles,topic composition,work summary,word parsing,copy excerpts,other materials and so on,want to know different data formats andwriting methods,please pay attention!断点回归方法及其应用断点回归方法是一种用于分析因果关系的方法，通过对处理组和对照组进行划分，并利用断点回归分析处理效应。

双重差分断点回归模型的一般形式

双重差分断点回归模型的一般形式引言：双重差分断点回归模型是一种用于分析因果关系的统计模型，广泛应用于经济学、社会学等领域。

该模型通过考察不同条件下的数据变动情况，揭示变量之间的因果关系。

本文将介绍双重差分断点回归模型的一般形式，并探讨其应用场景和分析方法。

一、双重差分断点回归模型的基本概念双重差分断点回归模型是在传统差分回归模型的基础上引入断点变量的一种扩展形式。

传统差分回归模型用于分析时间序列数据或面板数据中的因果关系，通过比较同一对象在不同时间或不同条件下的差异来估计因果效应。

而双重差分断点回归模型则在此基础上引入了一个或多个断点变量，用于分析在某一特定条件下因果效应的变化情况。

二、双重差分断点回归模型的一般形式双重差分断点回归模型的一般形式可以表示为：Y_it = β_0 + β_1*X_it + β_2*T_i + β_3*T_i*X_it + γ*X_it + θ*T_i + ε_it其中，Y_it表示因变量的观测值，X_it表示自变量的观测值，T_i表示断点变量的观测值，β_0、β_1、β_2、β_3分别为模型的系数，γ和θ分别为自变量和断点变量的系数，ε_it表示误差项。

三、双重差分断点回归模型的应用场景双重差分断点回归模型适用于具有时间序列或面板数据结构的研究问题，尤其适用于以下几种情况：1. 政策评估：当政策在某一时间点发生改变时，可以使用断点回归模型来评估政策改变对因果关系的影响。

2. 经济研究：当经济环境在某一特定条件下发生改变时，可以使用断点回归模型来研究因果效应的变化情况。

3. 社会学研究：当社会因素在某一特定条件下发生变化时，可以使用断点回归模型来研究因果效应的差异。

四、双重差分断点回归模型的分析方法在应用双重差分断点回归模型进行数据分析时，通常需要以下几个步骤：1. 数据准备：收集相关的时间序列或面板数据，并进行清洗和整理，确保数据的准确性和完整性。

2. 模型设定：根据研究问题确定模型的自变量、因变量和断点变量，并设定模型的形式和假设。

《因果推断实用计量方法》大学教学课件--第12章-断点回归

方法，虽然它使用的是观测数据而非真正的实验数据。
断点回归的数据要求
断点回归的数据要求一
断点回归的数据需要包含3个基本变量
✓ 配置变量（ Assignment Variable ），也称作驱动变量（ Forcing Variables,
Running Variables）：配置变量是个体的一个连续特征变量，匹配变量的值
• 接受治疗的平均潜在健康状况 1 和收入关系的函数为
1 =
• 未接受治疗的平均潜在健康状况 0 和收入关系的函数为
0 =
• 给定收入水平，病人平均治疗效果为
τ = 1 − 0 = −
• 本文利用美国企业成立工会投票事件来估计工会对债券价格的因果影响。当
成立工会投票结果公布后，企业的债券价格会对投票结果做出反映，RDD的方
法是通过比较工会得票率在50%左右企业的债券价格变化来估计工会的影响。
变量
• 配置变量（vote_for_share）：支持成立工会的得票率；
• 断点：得票率为50%。如果支持工会成立得票率大于或等于50%，企业必须成
(5.2) 局部多项式回归（rdrobust）
多项式次数
带宽选择
权重选择
RDD运用实例
文章背景
• 文章引用：Murillo Campello, Janet Gao, Jiaping Qiu, and Yue Zhang, "Bankruptcy
and the Cost of Organized Labor: Evidence from Union Elections," Review of
(1) , ≤ 50

间断点回归的经济学应用,教育理论范文.doc

间断点回归的经济学应用,教育理论-：王湛晨摘要：间断点回归(RD)是仅次于随机实验的，能够有效利用现实约束条件分析变量之间因果关系的实证方法。

本文旨在简要介绍间断点回归，并对一些问题予以解释。

关键词：间断点回归，处理效应，有效性间断点回归（也成RD）首次被在Thistlethwaite和Campbell （1960）用于在准自然实验中评估处理效应，实验准则便是参与实验的某一样本（也可称为强制变量）是否超过了既定的“间断点”。

该评估策略尽管已有五十多年历史，但直到最近才被引入经济学中使用。

自从教育领域运用RD逐渐成熟后，之后涌现一大批运用此方法研究各种问题的文献。

Hahn Jinyong，Petra Todd 和Wilbert van der Klaauw(2001)认为RD相比于其他准实验的需要的假设更为宽泛并且为RD的使用建立了规范。

RD兴起的另一个原因在于它不仅仅是效用评估的方法，基于RD的因果推论也比其他传统的自然实验更为可信（双重差分法和工具变量法），因此被更多的应用在应用研究领域。

因此，为了提供一个具有高可信度和透明的项目效应评估方法，RD能够被用于分析许多重要经济学问题。

尽管RD在经济学中的地位日渐重要，始终没有对于如何理解RD的总结的文献，以及对RD的优缺点评判的文献。

另外，对于使用RD的具体细节步骤也尚未涵盖标准的计量经济学检验。

撰写本文的目的便在于弥补上述的不足，把RD在经济学中使用的一些要求明确出来，给予对此方法感兴趣的学者以引导。

如果样本能够准确的改变所赋值的变量，那么RD便是无效的。

当接受处理会获得奖励或收益时，经济学家自然会想要知道该个体会如何表现进而得到奖励。

比如，学生通过努力有效“提高”自己的测试成绩。

得分为c的样本应该比起得分低于c的样本来说应该不同。

这就告诉我们，处理的存在就好比赋值变量的函数为不连续函数，但仅仅有这一点并不能够分辨RD是否合理。

因此，任何产生激励进行为的间断规则都能导致RD无效。

模糊断点回归协变量

模糊断点回归协变量
模糊断点回归（Fuzzy Regression Discontinuity, FRD）是一种回归分析方法，用于研究一个连续变量（称为跳跃变量）对另一个连续变量（称为结果变量）的影响是否存在一个阈值效应。

在模糊断点回归中，协变量是指除了跳跃变量和结果变量之外的其他控制变量，用来控制可能对结果变量产生影响的其他因素。

模糊断点回归通过比较跳跃变量在阈值附近两侧对结果变量的平均差异来估计阈值效应。

具体而言，该方法将观测样本根据跳跃变量的取值与阈值的关系进行分组，然后分别计算两个组的结果变量的平均值差异。

如果在阈值处存在阈值效应，即跳跃变量对结果变量的影响在阈值左右发生明显变化，那么在阈值处的平均差异应该显著不等于零。

协变量在模糊断点回归中的作用是控制其他可能干扰结果变量的因素。

通过引入协变量，可以减少由于未考虑其他因素导致的误差和偏差，从而更准确地估计阈值效应。

在实际应用中，选择合适的协变量需要基于领域知识和理论基础进行判断。

通常可以通过观察协变量与跳跃变量和结果变量之间的相关关系来判断其是否需要作为控制变量加入模型中。

1。

断点回归设计方法应用的研究综述

经济管理㊀㊀[基金项目]国家社会科学基金项目我国医院行业市场机制有效性的实证研究 (１７ＢＧＬ１７０)㊀㊀[作者简介]谢谦(１９８２－㊀)ꎬ男ꎬ河北保定人ꎬ中国社会科学院经济研究所助理研究员ꎮ主要研究方向:国际经济学ꎮ①分别为ＡｍｅｒｉｃａｎＥｃｏｎｏｍｉｃＲｅｖｉｅｗ(ＡＥＲ)㊁Ｅｃｏｎｏｍｅｔｒｉｃａ(ＥＣＭＡ)㊁ＪｏｕｒｎａｌｏｆＰｏｌｉｔｉｃａｌＥｃｏｎｏｍｙ(ＪＰＥ)㊁Ｑｕａｒ￣ｔｅｒｌｙＪｏｕｒｎａｌｏｆＥｃｏｎｏｍｉｃｓ(ＱＪＥ)和ＲｅｖｉｅｗｏｆＥｃｏｎｏｍｉｃＳｔｕｄｉｅｓ(ＲＥＳ)ꎮ②不包括五大上关于ＲＤＤ方法的理论研究论文ꎮ我们在Ｊｓｔｏｒ数据库中用全文任一地方出现ｒｅｇｒｅｓｓｉｏｎｄｉｓｃｏｎｔｉｎｕｉｔｙ这个关键词检索ꎬ然后剔除不是运用ＲＤＤ做的经验研究论文ꎬ譬如ＲＤＤ的理论研究论文㊁仅论文文献综述或脚注中出现ｒｅｇｒｅｓｓｉｏｎｄｉｓｃｏｎｔｉｎｕｉｔｙ的论文等ꎮ断点回归设计方法应用的研究综述谢㊀谦１㊀薛仙玲２㊀付明卫１(１.中国社会科学院经济研究所ꎬ北京㊀１００８３６ꎻ２.中国社会科学院研究生院ꎬ北京㊀１０２４８８)㊀㊀[摘㊀要]㊀近年来ꎬ国内经济学界颇为关注断点回归设计(ＲＤＤ)方法ꎬ运用ＲＤＤ的文章日益增多ꎮ首先概述Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)提出的运用ＲＤＤ的规范ꎬ然后基于２０１１－２０１７年五大英文顶级经济学期刊发表的ＲＤＤ应用研究论文ꎬ归纳出运用ＲＤＤ的三个新动作:新的最优带宽确定方法㊁甜甜圈ＲＤＤ和参数估计中最高只能使用二次多项式ꎮ以国外的ＲＤＤ用法为参照ꎬ我们发现ꎬ国内熟悉Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)提出的规范ꎬ也在吸收国外文献中出现的新动作ꎬ但运用ＲＤＤ时存在如下几个突出问题:不做适用性检验㊁不重视描述统计图和不交代清楚非参数估计的关键细节ꎮ建议国内运用ＲＤＤ时需要增加如下动作:非参数估计应该同时尝试ＣＶ㊁ＩＫ和ＣＣＴ三种带宽确定方法ꎻ在配置变量存在堆积现象或被操纵的可能时ꎬ使用甜甜圈ＲＤＤꎻ尝试到四次多项式ꎮ[关键词]㊀断点回归设计ꎻ参数估计ꎻ非参数估计ꎻ最优带宽ꎻ甜甜圈ＲＤＤ[ＤＯＩ编码]㊀１０.１３９６２/ｊ.ｃｎｋｉ.３７－１４８６/ｆ.２０１９.０２.００６[中图分类号]Ｆ２２４㊀㊀[文献标识码]Ａ㊀㊀[文章编号]２０９５－３４１０(２０１９)０２－００６９－１１一㊁引言２０世纪８０年代以来ꎬ应用微观计量研究经历了一场可信性革命ꎬ变得十分强调研究设计(ｒｅｓｅａｒｃｈｄｅｓｉｇｎ)ꎮ这种转变导致工具变量法(ＩｎｓｔｒｕｍｅｎｔａｌＶａｒｉａｂｌｅꎬＩＶ)㊁双重差分法(Ｄｉｆｆｅｒｅｎｃｅ－ｉｎ－ＤｉｆｆｅｒｅｎｃｅꎬＤＩＤ)和断点回归设计(ＲｅｇｒｅｓｓｉｏｎＤｉｓｃｏｎｔｉｎｕｉｔｙＤｅｓｉｇｎꎬＲＤＤ)成为应用微观计量研究中运用最广泛的方法[１]ꎮ与工具变量法和双重差分法相比ꎬＲＤＤ更接近于随机试验ꎬ因而从理论上讲是更好的因果识别方法[２]ꎮＲＤＤ虽然早在１９６０年就已被Ｔｈｉｓｔｌｅｔｈｗａｉｔｅ和Ｃａｍｐｂｅｌｌ(１９６０)[３]提出ꎬ但２０世纪９０年代末之后才被国外大量应用于经济学研究ꎮ尽管运用ＲＤＤ要求在断点附近有较多观测值ꎬ对数据要求很高ꎬ但过去几年的相关研究并不少ꎮ２０１１－２０１７年ꎬ五大英文顶级经济学期刊①发表的运用ＲＤＤ做的经验研究论文(下文简称五大ＲＤＤ论文 )共３９篇②ꎬ９６经济管理各年分别为６篇㊁３篇㊁３篇㊁１１篇㊁５篇㊁７篇和４篇(如图１所示)ꎬ表明ＲＤＤ在国际上已经成为一种主流的经验研究方法ꎮ根据在中国知网的检索ꎬ中文期刊发表的头两篇运用ＲＤＤ做的经验研究论文是退休会影响健康吗? [４]和城市群落的崛起㊁经济绩效与区域收入差距 [５]ꎻ２０１１－２０１７年间ꎬ中文ＣＳＳＣＩ期刊共发表运用ＲＤＤ做的经验研究论文４６篇ꎬ各年分别为１篇㊁１篇㊁０篇㊁５篇㊁８篇㊁８篇和２３篇(如图１所示)ꎮ我们预计ꎬ大数据时代的来临会极大地打破运用ＲＤＤ面临的数据限制①ꎬ运用ＲＤＤ的相关研究会越来越多ꎮ图１㊀中文核心期刊和英文五大期刊上发表的断点回归设计经验研究论文数②Ｉｍｂｅｎｓ和Ｌｅｍｉｅｕｘ(２００８)[６]㊁ｖａｎｄｅｒＫｌａａｕｗ(２００８)[７]㊁Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]㊁Ｓｋｏｖｒｏｎ和Ｔｉｔｉｕｎｉｋ(２０１７)[８]㊁Ｈａｕｓｍａｎ和Ｒｅｐｓｏｎ(２０１８)[９]专门综述了ＲＤＤ的理论和应用研究ꎮ余静文和王春超(２０１１)[１０]简要介绍了断点回归设计的发展历史㊁理论㊁实施步骤和应用情况ꎮ但是ꎬ由于ＲＤＤ这种方法的理论研究仍很活跃ꎬ运用ＲＤＤ涉及参数估计和非参数估计的选择㊁参数估计中多项式次数的选择和非参数估计最优带宽的确定等众多技术细节ꎬ文献中在ＲＤＤ的具体用法上存在很大差别ꎬ特别是中文文献运用ＲＤＤ的规范程度明显滞后于外文文献ꎬ有时还存在误用ꎮ因此ꎬ十分有必要归纳ＲＤＤ应用的新进展ꎬ为国内学者规范运用ＲＤＤ提供借鉴ꎮ由于本文强调被五大ＲＤＤ论文运用过的新进展ꎬ侧重于应用ꎬ我们不会涉及多配置变量ＲＤＤ(ＲＤｄｅｓｉｇｎｓｗｉｔｈａｓｓｉｇｎｍｅｎｔｖａｒｉａｂｌｅｓ)[１１]㊁分位数ＲＤＤ[１２]㊁拐点回归设计(ｒｅｇｒｅｓｓｉｏｎｋｉｎｋｄｅｓｉｇｎｓ)[１３]㊁多断点ＲＤＤ(ＲＤｄｅｓｉｇｎｓｗｉｔｈｍｕｌｔｉｐｌｅｃｕｔｏｆｆｓ)[１４]㊁远离断点处的处理效应的识别方法(ｍｅｔｈｏｄｓｆｏｒｅｘｔｒａｐｏｌａｔｉｏｎａｗａｙｆｒｏｍｔｈｅｃｕｔｏｆｆ)[１５][１６]㊁离散型配置变量ＲＤＤ[１７]等五大ＲＤＤ论文中未运用的新进展ꎮ本文综述Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]以来ＲＤＤ的新进展ꎮ选择以Ｌｅｅ和Ｌｅｍｉｅｕｘ０７ ①②这方面的一个表现是ꎬ大量行政管理数据(ａｄｍｉｎｉｓｔｒａｔｉｖｅｄａｔａ)被用于经济学经验研究ꎮ根据英国«经济学人»(ＴｈｅＥｃｏｎｏｍｉｓｔ)的报道ꎬＮＢＥＲ(ＮａｔｉｏｎａｌＢｕｒｅａｕｏｆＥｃｏｎｏｍｉｃＲｅｓｅａｒｃｈ)工作论文摘要里出现ａｄｍｉｎｉｓｔｒａ￣ｔｉｖｅｄａｔａ的论文数ꎬ２０００年是０篇ꎬ之后快速增长ꎬ２０１７年达到２８篇ꎮ报道链接为:ｈｔｔｐｓ://ｗｗｗ.ｅｃｏｎｏｍｉｓｔ.ｃｏｍ/ｉｎｔｅｒｎａｔｉｏｎａｌ/２０１８/０５/２６/ｇｏｖｅｒｎｍｅｎｔ－ｄａｔａ－ａｒｅ－ｅｖｅｒ－ｍｏｒｅ－ｉｍｐｏｒｔａｎｔ－ｔｏ－ｅｃｏｎｏｍｉｃ－ｒｅｓｅａｒｃｈꎮ中文核心期刊论文数的检索方法如下:在中国知网检索出主题包含断点回归㊁发表年度为２０１１年至２０１７年的中文社会科学引文索引(ＣＳＳＣＩ)期刊论文ꎬ然后逐一检查㊁剔除非经验研究论文ꎬ最后剩下４６篇ꎮ将检索限定在中文社会科学引文索引期刊ꎬ是为了保证检索到的论文的质量ꎮ英文五大期刊论文数的检索方法如下:在Ｊｓｔｏｒ数据库中用全文任一地方出现ｒｅｇｒｅｓｓｉｏｎｄｉｓｃｏｎｔｉｎｕｉｔｙ这个关键词㊁发表年度为２０１１至２０１７年㊁期刊为五大期刊检索到５０篇ꎬ然后逐一检查㊁剔除非经验研究论文ꎬ最后剩下３９篇ꎮ经济管理(２０１０)[２]为基点的理由如下:首先ꎬ与Ｉｍｂｅｎｓ和Ｌｅｍｉｅｕｘ(２００８)[６]㊁ｖａｎｄｅｒＫｌａａｕｗ(２００８)[７]相比ꎬＬｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]的时间要晚ꎮ其次ꎬ与Ｓｋｏｖｒｏｎ和Ｔｉｔｉｕｎｉｋ(２０１７)[８]综述政治学中断点回归设计的应用情况㊁Ｈａｕｓｍａｎ和Ｒｅｐｓｏｎ(２０１８)[９]综述时间作为配置变量(也叫驱动变量)的ＲＤＤ应用情况相比ꎬＬｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]综述的是经济学中的应用情况ꎬ包括各种类型的配置变量ꎬ更综合㊁更全面ꎮＬｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]提出了运用ＲＤＤ做经验研究的规范ꎬ算是一个共识ꎮ但是ꎬ通过归纳２０１１－２０１７年的五大ＲＤＤ论文ꎬ我们发现:一方面很多论文都没有遵守此规范ꎮ另一方面涌现出了很多被广泛应用的新进展ꎬ譬如非参数估计中确定带宽的ＩＫ法①[１８]和ＣＣＴ法[１９]㊁参数估计中只应使用配置变量的低次项和甜甜圈ＲＤＤ(ＤｏｎｕｔｈｏｌｅＲＤＤ)等②ꎮ通过归纳２０１１－２０１７年ＣＳＳＣＩ期刊发表的ＲＤＤ经验研究论文ꎬ我们发现ꎬ国内总体上了解运用ＲＤＤ的规范ꎬ但仍然存在不少问题ꎬ譬如不做适用性检验㊁不重视描述统计图㊁不交代清楚非参数估计的关键细节等ꎮ二、运用断点回归设计的规范和新进展(一)运用断点回归设计做研究的既定规范Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]提出了运用ＲＤＤ做经验研究的规范ꎬ概述如下:１.利用配置变量检验ＲＤＤ的适用性ꎮＲＤＤ的前提条件是个体不能精准操控(ｐｒｅｃｉｓｅｌｙｍａｎｉｐｕｌａｔｅ)配置变量ꎮ此条件可利用配置变量来检验ꎮ首先ꎬ选定一定数量的箱体画出配置变量的历史直方图ꎮ如果频数(ｆｒｅｑｕｅｎｃｉｅｓ)在邻近断点处的两个箱体间存在跳跃式变化ꎬ则很可能意味着前提条件不成立ꎮ其次ꎬ做配置变量的ＭｃＣｒａｒｙ检验[２０]ꎮ此检验的ｓｔａｔａ命令ＤＣｄｅｎｓｉｔｙ是外部命令ꎬ可在下述网址下载后安装:ｈｔｔｐｓ://ｅｍｌ.ｂｅｒｋｅｌｅｙ.ｅｄｕ/~ｊｍｃｃｒａｒｙ/ＤＣｄｅｎ￣ｓｉｔｙ/ꎮ２.利用前定变量检验ＲＤＤ的适用性ꎮ首先ꎬ选定一定数量的箱体ꎬ求前定变量在每个箱体内的均值ꎬ画出均值对箱体中间点的散点图ꎻ接着再画出使用多项式模型对前定变量做出的拟合曲线ꎬ其中多项式一般是４次多项式③ꎮ如果前定变量的均值在断点处存在跳跃ꎬ则意味着前提条件很可能不成立ꎮ其次ꎬ用前定变量对常数项㊁处理变量㊁配置变量的多项式㊁处理变量和配置变量多项式的交互项做回归ꎮ如果前定变量比较多ꎬ那么随机因素也可能导致某个前定变量存在显著的断点ꎮ因此ꎬ有必要把众多检验合并为一个检验所有前定变量都不存在断点的统计量ꎮ这时ꎬ应该用似不相关回归(ＳｅｅｍｉｎｇｌｙＵｎｒｅｌａｔｅｄＲｅｇｒｅｓｓｉｏｎꎬＳＵＲ)ꎮ３.画结果变量的图ꎮ选定一定数量的箱体ꎬ求结果变量在每个箱体内的均值ꎬ画出均值对箱体中间点的散点图ꎻ接着再画出使用多项式模型对结果变量做出的拟合曲线ꎬ其中多项式一般是４次多项式ꎮ一定要求了局部平均值后再画图ꎮ如果直接画原始数据的散点图ꎬ那么噪音太大ꎬ看不出潜在函数的形状ꎮ如果结果变量的均值在断点处存在跳跃ꎬ则意味着处理变量有影响ꎮ用图来显示结果变量和配置变量之间的关系ꎬ已经成为运用ＲＤＤ的标准作法ꎮＬｅｅ１７ ①②③Ｉｍｂｅｎｓ和Ｋａｌｙａｎａｒａｍａｎ(２００９)是工作论文ꎬ后来于２０１２年发表在«ＲｅｖｉｅｗｏｆＥｃｏｎｏｍｉｃＳｔｕｄｉｅｓ»上ꎮ用Ｓｔａｔａ软件实现这些新进展的操作命令可以参考Ｃａｔｔａｎｅｏｅｔａｌ.(２０１８)ꎬ更详细的操作命令细节可参考本文所引用文献的网上附件ꎮ这些网上附件可在发表各引用文献的期刊官网上下载ꎮ作者文中用的都是４次多项式ꎬ没解释不用其他次数多项式的原因ꎮ经济管理和Ｌｅｍｉｅｕｘ(２０１０)[２]指出ꎬ画图在ＲＤＤ经验文章中是如此重要ꎬ以致没有图的文章会让人自然而然地怀疑图形证据对文章不利ꎮ４.全样本参数估计ꎮ使用全样本数据进行参数估计ꎮ以精确断点回归为例ꎬ估计模型如下:ｙ＝α＋ρˑＴｒｅａｔｍｅｎｔ＋ðＫｋ＝１βｋˑ(ｘ－ｃ)ｋ＋ðＫｋ＝１γｋˑＴｒｅａｔｍｅｎｔˑ(ｘ－ｃ)ｋ＋Ｗ＋ε(１)其中ｙ㊁ｘ㊁ｔｒｅａｔｍｅｎｔ和Ｗ分别为结果变量㊁配置变量㊁处理变量(当ｘȡｃ时ꎬｔｒｅａｔｍｅｎｔ＝１ꎬ否则ｔｒｅａｔｍｅｎｔ＝０)和前定变量ꎮα㊁ρ㊁β和γ为待估计的参数ꎬε为随机扰动项ꎮρ显著不为０ꎬ表明处理对结果变量有影响ꎮ参数估计的要点是确定模型(１)中的多项式次数Ｋꎮ一般从一次尝试到八九次①ꎬ然后挑选赤池信息准则(ＡＩＣ)取值最小的模型ꎮ另外一个比赤池信息准则更好的方法是ꎬ在多项式模型的自变量中先加入表示箱体的虚拟变量ꎬ然后不断加入配置变量的多次项ꎬ只到下述原假设成立:所有箱体虚拟变量的系数均等于零ꎮ５.子样本非参数估计ꎮ非参数估计就是对最优带宽内的子样本做加权局部线性回归ꎮ非参数估计的要点是确定最优带宽ꎮ确定最优带宽的方法有两种②:拇指规则法(ｒｕｌｅｏｆｔｈｕｍｂꎬＲＯＴ)和交叉验证法(ｃｒｏｓｓｖａｌｉｄａｔｉｏｎｐｒｏｃｅｄｕｒｅꎬＣＶ)ꎮ加权可用矩形核密度函数㊁三角形核密度函数等ꎮ其中ꎬ使用矩形核密度函数加权的非参数估计ꎬ等于是基于子样本的参数估计ꎮ使用三角形核密度函数与使用矩形核密度函数的唯一区别是ꎬ前者给临近断点的观测值更大的权重ꎮ但是ꎬ要想给临近断点的观测值更大的权重ꎬ更透明的做法是在更小的带宽内使用矩形核密度函数ꎮ使用矩形核密度函数得到的结果也更易解释ꎮ值得庆幸的是ꎬ实践中不同核密度函数得到的结果一般是一致的ꎮ具体研究中ꎬ参数估计和非参数估计都要做ꎬ在两种方法下都稳定的结果更可信ꎮ(二)运用断点回归设计做研究的新进展Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]之后的７年里(２０１１－２０１７年)ꎬ学者在运用ＲＤＤ时出现了不少Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]未提及的新做法ꎬ譬如非参数估计中确定带宽的ＩＫ法和ＣＣＴ法㊁甜甜圈ＲＤＤ(ＤｏｎｕｔｈｏｌｅＲＤＤ)㊁参数估计中只应使用配置变量的低次项和利用配置变量做适用性检验的Ｆｒａｎｄｓｅｎ法[２１]等ꎮ此处归纳比较重要的三种新做法如下:１.非参数估计中最优带宽的确定ꎮＬｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]介绍了ＲＯＴ和ＣＶ两种确定最优带宽的方法ꎮ但是ꎬ２０１１－２０１７年间五大ＲＤＤ论文使用得多的是ＩＫ法和ＣＣＴ法ꎮｓｔａｔａ中用非参数法做断点回归估计时的命令ｒｄꎬ就是用ＩＫ法确定最优带宽ꎬ而命令ｒｄｒｏｂｕｓｔ提供ＣＶ㊁ＩＫ㊁ＣＣＴ三种不同的最优带宽计算方法选项ꎮＩｍｂｅｎｓ和Ｋａｌｙａｎａｒａｍａｎ(２０１２)[１８]指出ꎬＲＯＴ和ＣＶ两种方法对于在整个支撑集(ｓｕｐｐｏｒｔｓｅｔ)里估计回归方程而言是最优的ꎬ但ＲＤＤ只关心断点处的回归方程估计ꎬ故ＲＯＴ和ＣＶ对于ＲＤＤ而言不是最优的ꎬ而ＩＫ法对于ＲＤＤ而言２７ ①②作者说这是经验上的做法ꎬ没解释这样做的原因ꎮＬｅｅ和Ｌｅｍｉｅｕｘ(２０１０)在脚注中提到了之后应用广泛的ＩＫ法(Ｉｍｂｅｎｓ和Ｋａｌｙａｎａｒａｍａｎꎬ２００９)ꎬ但是文中举例只使用拇指规则法和交叉验证法ꎬ没使用ＩＫ法ꎮ经济管理是渐近最优的ꎻ另外ꎬＣＶ法需要研究人员自己设定一个调节参数(ｔｕｎｉｎｇｐａｒａｍｅｔｅｒ)ꎬ而ＩＫ法是完全数据驱动的ꎮＩｍｂｅｎｓ和Ｋａｌｙａｎａｒａｍａｎ(２０１２)[１８]进一步指出ꎬ尽管ＩＫ法具备这些优点ꎬ但研究人员不能只看这一个最优带宽下的估计结果ꎬ而应把这一带宽作为基准㊁检验结果对不同带宽的稳健性ꎮＣａｌｏｎｉｃｏ㊁Ｃａｔｔａｎｅｏ和Ｔｉｔｉｕｎｉｋ(２０１４)[１９]认为ꎬＲＯＴ㊁ＣＶ和ＩＫ这些方法得出的最优带宽过大ꎬ导致相应的置信区间有偏ꎬ会过度拒绝没有处理效应的原假设ꎬ结果把没有处理效应说成有 ꎮＣＣＴ法校正了过大带宽带来的偏误ꎮ２.甜甜圈ＲＤＤ(ＤｏｎｕｔｈｏｌｅＲＤＤ)ꎮ甜甜圈ＲＤＤ用来克服数据堆积(ｈｅａｐｉｎｇ)问题对估计结果的影响①ꎮ数据堆积指取配置变量某些值的观测值过多的现象ꎮ导致这一现象的原因包括受访者自报告某些信息时倾向于向某个数值近似ꎬ测量标尺的精读有限等ꎮ譬如ꎬ调查数据中受访者自报告的身高在１６０ｃｍ㊁１７０ｃｍ和１８０ｃｍ等取值上堆积ꎬ新生儿体重会在３０００克㊁３５００克和４０００克等取值上堆积ꎮ数据操纵现象源自经济个体的逐利动机ꎬ只出现在断点处ꎮ然而ꎬ数据堆积不是源自经济个体的逐利动机ꎬ且可能出现在除断点之外的其他地方ꎮ如果结果变量受配置变量的堆积现象影响ꎬ那么ＲＤＤ估计量可能是有偏的[２２]ꎮ此时ꎬ可以去掉断点附近的某些观测值再做ＲＤＤ估计ꎮ由于去掉断点附近的某些观测值后的数据就像一个甜甜圈 ꎬ故称作甜甜圈ＲＤＤ ꎮ至于去掉断点附近多少观测值为适ꎬ文献中尚未达成共识ꎮ３.全样本参数估计的缺点ꎮ根据Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]ꎬ配置变量多项式要尝试到八九次ꎮ但是ꎬＧｅｌｍａｎ和Ｉｍｂｅｎｓ(２０１４)[２３]认为ꎬ不能尝试配置变量多项式的高次项ꎬ只能使用局部一次或局部二次多项式ꎬ理由有三点:第一ꎬ断点回归设计的估计量可以写成处理组结果的加权平均值和控制组结果的加权平均值之差ꎬ其中加权权重是配置变量的函数ꎮ运用全域高阶多项式方法时ꎬ当配置变量取值较大时ꎬ使用不同次数多项式得到的权重差别巨大ꎮ然而ꎬ局部线性回归方法给临近断点处的观测值赋予要大的权重ꎬ理论上讲更合理ꎮ第二ꎬ处理效应的估计值对全域高阶多项式的次数十分敏感ꎮ使用不同次数多项式得到的估计值差别很大ꎮ第三ꎬ在本身不存在断点的情况下ꎬ全域多项式方法得到错误结果(认为有断点)的概率高于实际水平ꎬ而局部一次(或二次)多项式方法得到错误结果的概率和实际水平差不多ꎮ三、断点回归设计的国外应用情况２０１１－２０１７年ꎬ五大英文顶级经济学期刊共发表３９篇运用ＲＤＤ做的经验研究论文ꎬ涉及公共经济学㊁新政治经济学㊁劳动经济学和教育经济学等众多领域ꎮ３９篇论文中有３３篇使用行政管理数据②ꎬ由此可见开放行政管理数据对于ＲＤＤ应用的重要性ꎮ第二部分提到的三个新进展的应用情况如下:首先ꎬ使用非参数估计的２６篇论文中ꎬ用ＩＫ法㊁ＣＣＴ法确定最优带宽的分别为１３篇㊁６篇ꎬ表明这两种最优带宽确定方法已被学界接受ꎻ其次ꎬ在甜甜圈ＲＤＤ被提出的２０１１年之后ꎬ３３篇论文中有５篇用了此方法ꎻ最后ꎬＤｅｌｌ(２０１５)[２４]和Ｐｉｎｏｔｔｉ(２０１７)[２５]引用了Ｇｅｌｍａｎ和Ｉｍｂｅｎｓ(２０１４)[２３]ꎬ但还使用超过二次的配置变量多项式做稳健性检验ꎮ这些文献对ＲＤＤ的运用与Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]提出的规范大体一致ꎬ譬如２０篇(占３７ ①②实际上ꎬ甜甜圈ＲＤＤ也可以克服数据操纵问题对估计结果的影响ꎮ分别来自美国㊁巴西㊁挪威㊁意大利等１７个国家ꎮ经济管理５１.２８％)论文引用了Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]ꎬ３３篇(占８４.６２％)做了适用性检验ꎮ与Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]提出的规范不一致的情况ꎬ包括如下几点:第一ꎬＬｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]建议参数估计和非参数估计均要做①ꎬ但这样做的只有１６篇ꎮ只使用参数估计㊁只使用非参数估计的分别为１３篇和１０篇ꎮ在１６篇同时使用了两种估计方法的文章中ꎬ将两种方法视为同等重要的有４篇ꎬ参数估计仅只是做稳健性检验㊁非参数仅只是做稳健性检验的分别为４篇和８篇ꎮ因此ꎬ总体来看ꎬ文献中偏重于参数估计ꎮ值得一提的是ꎬＥＣＭＡ上的４篇文章都只用非参数估计ꎬ而ＱＪＥ上的５篇文章ꎬ除Ｍａｌａｍｕｄ和Ｐｏｐ－Ｅｌｅｃｈｅｓ(２０１１)[２６]同时使用了两种方法外ꎬ其余４篇都只用参数估计ꎮＥＣＭＡ由国际计量经济学会主办ꎬＱＪＥ由哈佛大学经济系主办ꎮ二者在ＲＤＤ应用上的差异可能体现了两个主办方不同的学术风格ꎮ第二ꎬＬｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]建议用前定变量做适用性检验时ꎬ应该做似不相关检验ꎬ但没有一篇文献这样做ꎮ第三ꎬＬｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]建议画描述统计图中的拟合曲线时ꎬ用配置变量的４次多项式ꎬ但仅有３篇论文用了４次多项式ꎮ３９篇论文中ꎬ仅有Ｃｈｅｔｔｙｅｔａｌ(２０１４)[２７]这一篇没在描述统计图中画上对散点的拟合曲线ꎮ在画了的３８篇中ꎬ未说明用的什么方法㊁使用局部线性回归(ｌｏｃａｌｌｉｎｅａｒｒｅｇｒｅｓｓｉｏｎ)㊁使用局部线性平滑(ｌｏｃａｌｌｉｎｅａｒｓｍｏｏｔｈｅｒ)㊁移动平均法(ｒｕｎｎｉｎｇ－ｍｅａｎｓｍｏｏｔｈｉｎｇ)和多项式方法的分别为３篇㊁３篇㊁３篇㊁１篇和２８篇ꎬ可见多项式方法是主流方法ꎮ在画拟合曲线所用方法上的差异具有明显的期刊特色:使用局部线性回归法的３篇文章有１篇来自ＱＪＥ㊁２篇来自ＪＰＥꎬ使用局部线性平滑法的３篇文章均来自ＥＣＭＡꎬ使用移动平均法的一篇文章来自ＲＥＳꎬＡＥＲ上的文章都使用多项式方法ꎮ在使用多项式方法的２８篇论文中ꎬ使用１次㊁２次㊁３次㊁４次㊁８次及同时使用１次和２次多项式的分别为８篇㊁１１篇㊁４篇㊁３篇㊁１篇和１篇ꎬ使用１次多项式和２次多项式的明显居多ꎮ值得一提的是ꎬＭｅｎｇ(２０１７)[２８]在同一张图中同时画了１次多项式和２次多项式的拟合曲线ꎮ第四ꎬＬｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]建议参数估计时的配置变量多项式要尝试到八九次ꎬ然后挑选赤池信息准则(ＡＩＣ)取值最小的模型ꎮ但是ꎬ使用过参数估计的２９篇论文中ꎬ仅有Ｃｌａｒｋ和Ｍａｒｔｏｒｅｌｌ(２０１４)[２９]和Ｄｅｓｈｐａｎｄｅ(２０１６)[３０]根据ＡＩＣ来挑选模型ꎮ在明确说明尝试过的多项式次数的论文中ꎬ仅有Ａｕｆｆｈａｍｍｅｒ和Ｋｅｌｌｏｇｇ(２０１１)[３１]㊁Ｐｉｎｏｔｔｉ(２０１７)[２５]尝试过超过４次的多项式ꎬ绝大多数只尝试到４次多项式ꎮ第五ꎬＬｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]建议非参数估计时用矩形核密度函数ꎮ但是ꎬ在使用非参数估计且说明了所用核密度函数的１６篇文献中ꎬ使用矩形核密度函数的为７篇ꎬ而使用三角形核密度函数的有８篇ꎬ还有一篇使用帐篷型核密度函数(ｔｅｎｔ－ｓｈａｐｅｄｅｄｇｅｋｅｒｎｅｌ)ꎮ综上所述ꎬＬｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]之后ꎬ运用ＲＤＤ出现了ＩＫ和ＣＣＴ两种最优带宽确定方法以及甜甜圈ＲＤＤ两个新操作环节ꎮＧｅｌｍａｎ和Ｉｍｂｅｎｓ(２０１４)[２３]不该使用超过两次的多项式的建议ꎬ尚未被学界普遍接受ꎮ同时ꎬ学界在Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]涉及的ＲＤＤ运用为方便讨论ꎬ使用矩形核密度函数的非参数估计虽然等同于参数估计ꎬ但此处只将其归为非参数估计ꎮ ４７ ①经济管理环节上未达成共识ꎮＬｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]发表在权威经济学期刊«ＪｏｕｒｎａｌｏｆＥｃｏｎｏｍｉｃＬｉｔ￣ｅｒａｔｕｒｅ»上ꎬ其两位作者均是国际上知名的经济学者ꎮ他们提出的ＲＤＤ应用规范未被学界完全接受ꎬ并不因为他们的观点不准确㊁不权威ꎬ而是因为ＲＤＤ的理论研究仍很活跃ꎬ故应用上达成的共识不多ꎻ因为ＲＤＤ应用涉及众多技术环节ꎬ故更难达成共识ꎮ作为一个对比ꎬＩＶ和ＤＩＤ的理论研究相对成熟㊁应用涉及的技术环节单一①ꎬ学者运用这两种方法做研究时的动作比较一致ꎮ四、断点回归设计的国内应用情况２０１１－２０１７年间ꎬＣＳＳＣＩ期刊共发表ＲＤＤ经验研究论文４６篇ꎬ涉及公共经济学㊁环境经济学㊁财政学等众多领域ꎬ其中使用行政管理数据的仅有王骏和孙志军(２０１５)[３２]一篇ꎮ总体而言ꎬ对于两篇权威的ＲＤＤ综述文章Ｉｍｂｅｎｓ和Ｌｅｍｉｅｕｘ(２００８)[６]㊁Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]ꎬ至少引用过其中一篇的中文论文有３２篇ꎬ占６９.５７％ꎬ这意味着国内学者总体上了解运用ＲＤＤ涉及的众多技术环节ꎮＲＤＤ应用的新进展也在被国内文献吸收ꎮ首先ꎬ确定最优带宽的ＩＫ法已被广泛应用ꎬＣＣＴ法也开始被使用ꎮ使用非参数估计且说明了带宽确定方法的２４篇文章中ꎬ使用了ＩＫ法㊁ＣＣＴ法的分别有１０篇㊁３篇ꎮ其次ꎬ李宏彬等(２０１４)[３３]㊁张川川等(２０１５)[３４]和张明(２０１７)[３５]都使用了甜甜圈ＲＤＤꎮ最后ꎬ马光荣等(２０１６)[３６]㊁何文剑(２０１６)[３７]㊁李江一和李涵(２０１７)[３８]以及王家庭等(２０１７)[３９]共４篇文章引用了Ｇｅｌｍａｎ和Ｉｍ￣ｂｅｎｓ(２０１４)[２２]ꎮ与国外文献一样ꎬ国内文献运用ＲＤＤ也存在很多与Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]规范不一致的情况ꎬ具体如下:首先ꎬ同时使用参数估计和非参数估计的只有１８篇(占３９.１３％)ꎮ只使用参数估计㊁只使用非参数估计的分别为１７篇和１１篇ꎮ在１８篇同时使用了两种估计方法的文章中ꎬ将两种方法视为同等重要的有３篇ꎬ参数估计仅只是做稳健性检验㊁非参数仅只是做稳健性检验的分别为２篇和１３篇ꎮ因此ꎬ总体来看ꎬ国内文献与国外文献一样ꎬ偏重于参数估计ꎮ其次ꎬ用前定变量做适用性检验时ꎬ仅有曹静等(２０１４)[４０]㊁王骏和孙志军(２０１５)[３２]使用了似不相关回归ꎮ再次ꎬ使用了参数估计的３５篇文章中ꎬ只有杨小聪(２０１７)[４１]㊁张英和陈绍志(２０１５)[４２]㊁曹静等(２０１４)[４０]３篇文章尝试到配置变量八九次的多项式ꎮ最后ꎬ在使用非参数估计且说明了所用核密度函数的１１篇文章中ꎬ只使用矩形核密度函数㊁同时使用矩形和三角形核密度函数以及只使用三角形核密度函数的分别为２篇㊁５篇和４篇ꎮ由于运用ＲＤＤ涉及众多技术环节ꎬ国内对ＲＤＤ的运用还存在不少问题ꎬ主要表现在以下几个方面:首先ꎬ５篇文章未做适用性检验ꎬ２篇文章在适用性检验未通过时依然使用ＲＤＤꎮ张明(２０１７)[３４]既没有用配置变量也没有用前定变量做适用性检验ꎮ陈强等(２０１７)[４３]㊁黄新飞和杨丹(２０１７)[４４]㊁高彦彦和王逸飞(２０１７)[４５]以及王旭光(２０１７)[４６]使用的配置变量不可能被操控ꎬ无须检验ꎬ但他们都没有检验前定变量的连续性ꎮ邹红和喻开志(２０１５)[４７]㊁邓婷鹤和何秀荣(２０１６)[４８]使用的配置变量年龄均在断点(６０岁)处不连续ꎬ但依然运用ＲＤＤꎮ邹红５７ ①运用ＩＶ必需的技术环节是报告第一阶段回归的Ｆ统计量取值ꎬ运用ＤＩＤ必需的技术环节是做平行趋势假设检验ꎮ经济管理和喻开志(２０１５)[４７]做回归分析时去掉了６０岁断点上的样本ꎬ但是出于男性实际停止工作的时间普遍是６１岁这个考虑ꎬ并没有从ＲＤＤ适用性这个角度深化㊁细化研究内容ꎬ譬如检验样本是否在５０岁㊁６０岁㊁７０岁等年龄上存在堆积问题ꎮ其次ꎬ对描述统计图的运用不规范ꎮ如前所述ꎬ画图在ＲＤＤ应用研究中十分必需ꎮ然而ꎬ有１１篇没有画描述统计图ꎮ根据Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]和英文顶级期刊的实际ꎬ画拟合曲线图以多项式方法居多ꎮ然而ꎬ在画有描述统计图的３５篇文章中ꎬ１５篇没有说明拟合曲线图所采用的方法ꎬ１４篇采用局部多项式方法ꎬ６篇采用了平滑㊁多元回归等其他方法ꎮ未画描述统计图和未说明画拟合曲线所采用方法的文章合计达２６篇(占５６.５２％)ꎬ表明国内学界对画图重要性的认识不够ꎮ最后ꎬ使用非参数估计时的关键技术细节未说明ꎮ在２９篇使用了非参数估计的文章中ꎬ５篇没有报告带宽的确定方法ꎬ１８篇(占６２.０７％)未说明使用了哪个核密度函数ꎮ五㊁总结和展望ＲＤＤ在断点附近的局部等价于一个随机试验ꎬ这一特点使得其备受经验研究人员的青睐ꎮ在国外ꎬＲＤＤ从２０世纪９０年代末期开始被大量应用于经济学研究ꎮＬｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]提出了运用ＲＤＤ的必备技术环节ꎬ相当于给出了ＲＤＤ应用的规范ꎮ但是ꎬ由于ＲＤＤ的理论研究仍在不断深入ꎬ至今尚未定型ꎬＬｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]之后应用ＲＤＤ的文献出现了新的技术环节ꎬ譬如新的最优带宽确定方法㊁甜甜圈ＲＤＤ和参数估计中最高只能使用二次多项式等ꎮ国内运用ＲＤＤ做研究始于２０１０年ꎬ最近两年大幅增加ꎮ虽然国内熟悉Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]提出的规范ꎬ但运用ＲＤＤ时存在不少问题ꎬ譬如不做适用性检验㊁不重视描述统计图㊁不交代清楚非参数估计的关键细节等ꎮ为了使得研究结论更稳健ꎬ基于五大英文顶级期刊发表的论文ꎬ我们建议ꎬ国内运用ＲＤＤ时ꎬ在完成Ｌｅｅ和Ｌｅｍｉｅｕｘ(２０１０)[２]提出的技术动作后ꎬ需要增加如下动作:考虑到学术界在最优带宽确定方法上尚未达成共识[２６][４９]ꎬ非参数估计时应该同时尝试ＣＶ㊁ＩＫ和ＣＣＴ三种方法ꎻ在配置变量存在堆积现象或被操纵的可能时ꎬ使用甜甜圈ＲＤＤꎮ尝试到四次多项式ꎮＲＤＤ从理论上讲是更好的因果识别方法ꎬ但运用此方法要求在断点附近有较多观测值㊁对数据要求很高ꎮ可喜的是ꎬ最近几年ꎬ我国经济社会的数字化进程加速ꎬ越来越多的经济活动开始数据化ꎬ越来越多的中央政府部门和地方政府公开了行政管理数据ꎬ为运用ＲＤＤ做研究提供了契机ꎮ特别值得指出的是ꎬ运用医疗卫生行业行政管理数据的研究已经成批量涌现ꎮ参考文献:[１]ＡｎｇｒｉｓｔＪＤꎬＰｉｓｃｈｋｅＪ.Ｔｈｅｃｒｅｄｉｂｉｌｉｔｙｒｅｖｏｌｕｔｉｏｎｉｎｅｍｐｉｒｉｃａｌｅｃｏｎｏｍｉｃｓ:Ｈｏｗｂｅｔｔｅｒｒｅｓｅａｒｃｈｄｅｓｉｇｎｉｓｔａｋ￣ｉｎｇｔｈｅｃｏｎｏｕｔｏｆｅｃｏｎｏｍｅｔｒｉｃｓ[Ｊ].ＪｏｕｒｎａｌｏｆＥｃｏｎｏｍｉｃＰｅｒｓｐｅｃｔｉｖｅｓꎬ２０１０ꎬ２４(２):３－３０.[２]ＬｅｅＤＳꎬＬｅｍｉｅｕｘＴ.Ｒｅｇｒｅｓｓｉｏｎｄｉｓｃｏｎｔｉｎｕｉｔｙｄｅｓｉｇｎｓｉｎｅｃｏｎｏｍｉｃｓ[Ｊ].ＪｏｕｒｎａｌｏｆＥｃｏｎｏｍｉｃＬｉｔｅｒａｔｕｒｅꎬ２０１０ꎬ４８(２):２８１－３５５.[３]ＴｈｉｓｔｌｅｔｈｗａｉｔｅＤＬꎬＣａｍｐｂｅｌｌＤＴ.Ｒｅｇｒｅｓｓｉｏｎ－ｄｉｓｃｏｎｔｉｎｕｉｔｙａｎａｌｙｓｉｓ:Ａｎａｌｔｅｒｎａｔｉｖｅｔｏｔｈｅｅｘｐｏｓｔｆａｃｔｏｅｘ￣ｐｅｒｉｍｅｎｔ[Ｊ].ＪｏｕｒｎａｌｏｆＥｄｕｃａｔｉｏｎａｌＰｓｙｃｈｏｌｏｇｙꎬ１９６０ꎬ５１(６):３０９－３１７.[４]雷晓燕ꎬ谭力ꎬ赵耀辉.退休会影响健康吗?[Ｊ].经济学(季刊)ꎬ２０１０ꎬ(０４):１５３９－１５５８.[５]余静文ꎬ赵大利.城市群落的崛起㊁经济绩效与区域收入差距基于京津冀㊁长三角和珠三角城市圈６７。

空间断点回归命令 stata

空间断点回归命令stata全文共四篇示例，供读者参考第一篇示例：空间断点回归是回归分析方法中的一种，可以用来探究变量之间是否存在非线性关系，并且能够确定这种关系的突变点。

在实际应用中，有时候变量之间的关系并不是简单的线性关系，而是存在一定的非线性特征，空间断点回归通过引入断点变量来捕捉这种非线性关系，从而更准确地描述变量之间的关系。

Stata是一款功能强大的统计分析软件，提供了丰富的数据分析工具和函数，包括空间断点回归命令。

在Stata中，空间断点回归可以通过命令“spatreg bivariate”来实现，该命令允许用户指定自变量、因变量和断点变量，并且能够自动识别并拟合最佳的空间断点回归模型。

空间断点回归在实际应用中有着广泛的用途，例如在经济学领域可以用来研究不同经济政策对经济增长的影响；在社会学领域可以用来探究不同社会变量对人口增长的作用；在环境科学领域可以用来分析污染物排放对空气质量的影响等等。

空间断点回归是一种强大的统计分析方法，可以帮助用户更深入地理解变量之间的关系，并且找出其中的非线性特征和突变点。

在Stata中使用空间断点回归命令可以更加方便快捷地进行分析，帮助用户更好地理解数据和现象，为决策提供科学依据。

第二篇示例：空间断点回归命令stata是一种在统计分析中常用的方法，用于检测和估计数据中存在的空间断点。

空间断点是指在数据中存在一个或多个分界线，该分界线导致数据之间的关系发生突变。

在空间分析中，研究人员常常需要识别这些空间断点，并加以探讨其影响和意义。

空间断点回归命令stata是通过统计软件stata实现的一种方法，它可以帮助研究人员快速、有效地检测和估计数据中的空间断点。

通过空间断点回归命令stata，研究人员可以进一步探究数据背后的规律和结构，从而更好地理解数据中的空间关联性。

在使用空间断点回归命令stata时，研究人员需要首先准备好要分析的数据集，并确定研究的问题和假设。

断点回归控制变量回归系数

断点回归控制变量回归系数
断点回归（Regression Discontinuity Design，RDD）是一种非实验性的研究方法，用于估计一个变量对另一个变量的因果效应。

在断点回归中，如果一个变量在某个特定的阈值处发生跳跃，那么我们可以通过观察这个跳跃点附近的观察值来估计该变量的效应。

控制变量（Control Variables）在回归分析中用于帮助估计自变量对因变量的影响，并控制其他可能的干扰因素的影响。

控制变量的选择应基于理论和研究的假设，并能够解释因变量的变异。

控制变量回归系数（Control Variable Regression Coefficients）是指在回归分析中，控制变量对因变量的影响程度。

控制变量的回归系数可以用于估计其效应的大小和方向，以及检验其是否显著。

在断点回归中，控制变量回归系数的解释和常规回归分析中的解释类似。

如果一个控制变量在断点附近的回归系数显著，那么可以认为该控制变量对因变量有显著影响。

同时，通过比较控制变量在断点附近和非断点附近的回归系数，可以评估该控制变量对因变量的因果效应。

需要注意的是，在断点回归中，控制变量的选择和回归系数的解释应谨慎。

由于断点回归是一种非实验性的研究方法，因此无法完全排除其他干扰因素的影响。

因此，在解释控制变量回归系数时，应考虑到其他可能的干扰因素，并进行充分的讨论和检验。

断点回归分析方法在经济学研究中的应用

断点回归分析方法在经济学研究中的应用随着经济学的发展，研究者们常常遭遇经济数据中存在的结构突变或断点问题。

为了更准确地解释这些问题，断点回归分析方法被广泛应用于经济学研究中。

本文将介绍断点回归分析的基本原理和其在经济学研究中的实际应用。

断点回归分析是一种统计建模方法，它通过在数据中寻找断点位置，将数据分为不同的阶段，并拟合对每个阶段都有意义的回归模型。

在经济学中，结构突变或断点可能出现在许多变量之间的关系上。

通过使用断点回归分析方法，研究者能够识别并建立在不同阶段具有不同形式的关系模型。

为了更加形象地理解断点回归分析的应用，我们以一个经典的例子来说明。

假设我们研究某个城市的房价与居民收入的关系。

我们发现，在某个时间点后，房价与收入的关系发生了明显的变化。

在这种情况下，我们可以使用断点回归分析方法来找到这个时间点，然后将数据分为两个阶段，分别拟合不同的回归模型。

这可以帮助我们更准确地了解房价和收入的关系模式，并解释结构突变发生的原因。

除了房价和收入的关系，断点回归分析还可以应用于许多其他领域。

例如，它可以用于研究劳动力市场中的工资差异，金融市场中的资产定价，以及宏观经济中的投资与经济增长之间的关系等等。

在这些研究中，断点回归分析能够帮助我们发现变量之间的非线性关系，并提供更准确的预测和政策建议。

然而，断点回归分析也存在一些挑战和限制。

首先，寻找断点位置通常是一个困难的问题。

在实际应用中，研究者们需要依赖统计方法和经验判断来确定最合适的断点位置。

其次，断点回归分析方法对数据的要求较高，需要满足一些基本的假设条件，如线性关系和正态分布等。

如果这些假设条件不满足，结果可能得到偏误。

尽管存在一些限制，断点回归分析方法在经济学研究中的应用仍然具有重要的意义。

它能够帮助我们更好地理解经济现象中的结构变化，并提供准确的解释和预测。

因此，在经济学研究中，我们应该更加关注并充分利用这一方法的潜力。

总而言之，断点回归分析方法在经济学研究中具有重要的应用价值。

断点回归的例子

断点回归的例子
断点回归是一种常见的统计方法，它假设样本在断点处被随机分组，然后估计处理效应。

下面是一个断点回归的例子：
高考分数线为492分，对于高考成绩为489、490、491、492、493、494的考生，他们在各方面（不可观测因素）没有系统差异，甚至可以认为他们的成绩具有一定的随机性。

有的考生发挥好，成绩为492、493、494，达到了录取分数线（处理组）；有的考生运气差点，成绩为489、490、491，未达到录取分数线（控制组）。

对于水平差不多的考生，若考生蒙对一道选择题，可能就考上了大学；相反，若考生蒙错一题，可能就上不了本科。

对于分数在492附近的考生能否考上大学，好像是上天在进行掷硬币的随机分组。

在这个例子中，断点为492分，考生的高考成绩落在（492-θ,492+θ）之间，好像是被随机分组了一般。

断点回归得到的结论一般不能推广至其他样本，在进行精确断点回归之前，首先要知道平均处理效应LATE。

这个例子只是断点回归的一个简单应用，在实际应用中，断点回归可以用于各种场景，例如政策实施效果评估、医疗效果评估等。

断点回归方法的应用

一引言2010年4月24日，该年度的约翰·贝茨·克拉克奖章（John Bates Clark Medal）——针对40岁以下年轻经济学者的最高荣誉，授予了麻省理工学院经济系的Esther Duflo教授以表彰其在随机实验普及和其在发展经济学中应用方面的卓越贡献。

在因果关系分析的实证方法中，最优的选择应当为随机实验，但是随机实验的时间成本和经济成本都比较高，而在随机实验不可得的情况下，需要考虑使用其它方法。

断点回归（Regression Discontinuity）便是仅次于随机实验的，能够有效利用现实约束条件分析变量之间因果关系的实证方法。

Lee（2008）认为在随机实验不可得的情况下，断点回归能够避免参数估计的内生性问题，从而真实反映出变量之间的因果关系。

然而，断点回归也仅仅是在20世纪90年代末才被应用于处理经济学的问题。

2001年，Hahn等人对断点回归模型的识别和估计的理论问题进行了严格细致的分析，此后，断点回归才在众多的经济学研究领域中崭露头角。

时至今日，断点回归已经在劳动和教育经济学、政治经济学、环境经济学和发展经济学等领域取得了广泛的应用。

然而，断点回归却鲜为中国经济学者所应用，正是基于断点回归在实证研究中的重要性和国内文献的缺乏，本文拟以此为背景，从断点回归的理论、发展历史、实证步骤和经济学中的应用几个方面阐述断点回归这一个新“拟随机试验”方法的兴起。

二断点回归理论及发展历史断点回归是一种拟随机实验，此种随机实验定义了这样一个特征，即接受处置（Treatment）的概率是一个或者几个变量的间断函数。

Hahn et al.（2001）提出了断点回归的首要假设，如果变量表示处置效应，表示决定处置的关键变量，那么和必须存在，并且。

在使用断点回归的情况下，存在一个变量，如果该变量大于一个临界值时，个体接受处置，而在该变量小于临界值时，个体不接受处置。

一般而言，个体在接受处置的情况下，无法观测到其没有接受处置的情况，而在断点回归中，小于临界值的个体可以作为一个很好的可控组（Control Group）来反映个体没有接受处置时的情况，尤其是在变量连续的情况下，临界值附近样本的差别可以很好的反映处置和经济变量之间的因果联系。

让跳跃更有意义：断点回归设计(RDD)

让“跳跃”更有意义：断点回归设计(RDD) 在一个高度依赖规则的世界里，有些规则的出现十分随意，这种随意性为我们提供了性质良好的实验（Angrist&Pischke，2009）。

断点回归设计（RegressionDiscontinuity Design）是一种仅次于随机实验的能够有效利用现实约束条件分析变量之间因果关系的实证方法。

Lee（2008）认为在随机实验不可得的情况下，断点回归能够避免参数估计的内生性问题，从而真实反映出变量之间的因果关系。

断点回归方法首先是由美国西北大学心理学家Campbell于1958年提出的；并与1960年，与Thistlethwaite正式发表了第一篇关于断点回归的论文，提出断点回归是在非实验的情况下处理处置效应（Treatment Effects）的一种有效的方法，主要应用于心理学和教育学领域。

1963年，Campbell and Stanley为断点回归提供了更加清晰化的概念，但由于当时还缺乏严密的统计证明，加之IV 方法在处理内生性的思路和范式上具有更广阔的适用范围，因此在随后的几十年间，RD 方法一直没有得到经济学者的重视。

直到上世纪90 年代末，随着该方法的理论基础得到进一步发展，大量经济学文献才开始使用RD 方法对变量之间的因果关系进行识别。

断点回归可以分为两类，一类是模糊断点回归（Fuzzy RD），另一类是清晰断点回归(Sharp RD)。

清晰断点回归可以看作是一种基于可观察变量进行的选择（selection-on-observablesstory），而模糊断点回归则常被视为一种工具变量的方法（instrumental-variables-type）。

清晰断点回归(Sharp RD)当处理状态是协变量确定型、不连续函数时，可以使用清晰间断点回归法。

对于清晰断点回归，个体在临界值的一边接受处理效应（treatment effect）的概率为0，而在临界值另一边的概率则为1。

断点回归方法的应用

stata模糊断点回归结果解读

诺贝尔奖断点回归例子

断点回归参数估计方法

断点回归法事件研究法

断点回归方法及其应用

双重差分断点回归模型的一般形式

《因果推断实用计量方法》大学教学课件--第12章-断点回归

间断点回归的经济学应用,教育理论范文.doc

模糊断点回归 协变量

断点回归设计方法应用的研究综述

空间断点回归命令 stata

断点回归控制变量回归系数

断点回归分析方法在经济学研究中的应用

断点回归的例子

断点回归方法的应用

让跳跃更有意义：断点回归设计(RDD)

模糊断点回归协变量