第9讲_回归断点分析及分位数回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• OLS 回归会产生严重的内生性问题:
• 首先,健康状况本身就是决定是否退休的重要变量,因此存在反向因 果带来的偏误;
• 另外,有一些无法观测的变量(个人偏好、健康禀赋等) 既影响健康也 影响退休,因此会带来遗漏变量误差问题。
• 面板数据能否解决退休与健康的内生性问题?相对于OLS,面板数据 可以去除不随时间变化的遗漏变量误差, 但是无法克服随时间变化的 遗漏变量误差和反向因果误差, 而这两种误差可能相当严重, 因此这并 不是一个令人满意的解决办法。
• 第三, 样本空间变化是否会导致估计结果, 尤其是在临界值附近的估 计结果出现显著的差异;
• 第四, 检验因变量是否在临界值取其他的值时依然会出现跳跃, 如果 RD方法是有效的, 那么当临界值取其他值时, 因变量便不会出现这种跳 跃。
示例:
退休会影响健康吗?
雷晓燕,谭力,赵耀辉 经济学(季刊), 2010年7月
(2)如果存在其他自变量也出现某种“中断”的情况,我们就很难知道什 么原因造成了因变量取值的中断。
• 假设一个人是否获奖不仅仅与考试成绩在临界点上下有关( x>c 或x< c),也和年龄有关( 例如年龄大的人容易获奖,而年龄小的人很难获 奖) ,则回归中断设计就无法探究荣誉奖励本身对未来学术成就的影 响( 因为学术成就的中断也有可能是因为年龄不同) (Hahn et al., 2001)。 在社会科学研究中,类似的多重中断并不少见。
• 如果个体能精确控制参考变量X,则RDD方法失效。
• 局部随机化假设是RDD策略有效的关键假设之一,可以利用参考变量X 分布在断点处是否连续进行判断。
回归断点设计的识别条件
定理1(Hahn et al, 2001): • 如果断点假设1、连续性假设2和局部随机化假设3均成立,则:
其中
为个体因果效应。
• 绘制结果变量与参考变量的关系图,判断结果变量在断点处是 否有跳跃,以及在非断点处是否有跳跃。
• 绘制协变量与参考变量的关系图,检验其在临界点处是否有跳 跃。
结果变量与参考变量的关系图
• 用于观察结果变量是否在间断点处有跳跃。 • 但避免直接利用原始数据绘图,原始数据中噪音太多。 • 可以通过适当平均后绘图: • 通常将参考变量划分为一系列区间,区间的宽度相同,并且保
人的健康状况Y 可以表示为: Y = Y0 *( 1- D) + Y1 *D = Y0 + ( Y1 - Y0 )*D
小意味着断点左右h范围内的样本容量较小,估计量的方差较大,估计精度较 低。 • 带宽比较大时,断点左右h范围内的样本容量较大,估计量的方差较小,估计 精度较高。但是,较大的带宽意味着有些个体特征差异较大,相似度降低, 估计偏差较大。
• 选择最优带宽通常采用:交叉验证方法(Ludwig & Miller, 2007; Imbens & Lemieux, 2008):
立,则:
• 由于断点独立于潜在结果Y,并且假设1保证了第一阶段的存在, 因而这里断点相当于个体干预变量的工具变量。
回归断点设计的图形分析
• RDD识别的基本条件是:干预分配概率在临界点会有跳跃,结 果变量在临界点也会有跳跃,而其他影响结果的变量在临界点 没有跳跃。
• 绘制干预分配概率与结果变量的关系图,判断是适用精确断点 回归,还是模糊断点回归。
• 如果是模糊断点,则 但要求断点右侧个体接受干预的概率高于断点左侧的概率。
回归断点设计的识别条件
假设2(连续性假设): •
即
是x的函数,并且在x0处是连续的,
回归断点设计的识别条件
假设3(局部随机化假设): • 假设在断点附近近似于完全随机化实验,即
其中
为x0的δ邻域,δ>0为任意小的正数。
• 局部随机化假设要求个体不能精确控制或操纵参考变量X,使之超过 临界值。
RD估计的稳健性检验
Imbens和Lemieux( 2008)提出四种对RD结果进行稳健性检验的方法:
• 第一, 其他的控制变量在临界值处是否存在跳跃, 如果出现显著跳跃 的情况, 那么模型所估计的结果将不仅仅包含treatment effect,还包含 控制变量在临界值处的跳跃对因变量的影响;
• 第二, 决定treatment的关键变量的条件概率在临界值处是否存在跳跃, 如果关键变量的条件概率出现了非连续的跳跃情况, 那么则说明个体 有可能操作treatment 从而使估计结果无效;
对男性而言, 跳点可能出现 在50 岁、55 岁和60 岁;
对于女性, 跳点可能出现在 45 岁、50 岁和55 岁。
• 当然,并非所有人都是在规定退休年龄处停止工作, 因为还有其他因 素也会影响到退休决定:
✓ 有的人会因为健康状况而更早一些停止工作,
✓ 一些人可能会在办理了法律上的退休手续后返聘或者找到另外的 工作,等。
结果变量Y与参考变量X的关系图:
• 也可利用rdplot指令绘图: rdplot vote margin, c(0) nbins(50)
• 其中,c(0)为设置断点0; nbins(#)用来设置断点左右区间数,也可不设定,程序会自动选择最优带 宽,获得相应区间数。
绘制参考变量X的分布图:
• RDD的另一关键识别条件是:个体不能精确控制或操纵临界点 • 如果个体可以控制断点,则断点左右个体分布差异很大 • 可以通过绘制变量分布图进行检验 • 参考程序如下:
处也是连续的。 • 则Y在断点处的跳跃可以解释为原因变量D的影响。
精确断点回归(sharp):
• 干预分配完全由参考变量是否超过临界值决定。
• 超过临界值的个体均接受干预,纳入实验组; • 未超过临界值的个体均未接受干预,纳入对照组;
模糊断点回归(fuzzy):
• 干预分配不完全由参考变量决定,还受到其他未观测因素的影响。
•
其中
完全由参考变量X决定;
• Ɛ是影响干预的其他未观测因素,也可能同时影响结果变量Y。
• 倾向指数:
• 一定比例的合格样本未进入实验组,同时,一定比例的不合格样本进 入实验组。
回归断点设计的识别条件
假设1(断点假设): • 假设极限
存在,并且 其中:
• 如果是精确断点,则 即断点右侧个体都进入干预组,左侧个体进入控制组。
• 所以, 退休制度仅仅使得退休的可能性在政策规定的退休年龄处发生 一个外生的跳跃, 但不一定是完全由0 至1 的改变。
• 具有这种特征的RD 被称为“模糊( fuzzy) RD”
利用退休状况的年龄断点识别退休对健康的因果关系
• 设退休状况为D, 工作时取值0, 退休时取值1。 • Y0 为工作时(D= 0) 的健康状态, 而Y1 为退休时( D= 1) 的健康状态, 一个
• 基本思想:在没有退休制度的情况下, 退休应该是随年龄而平滑变化 的, 在退休制度所涉及的年龄前后, 如果发现退休率有断点, 那么我们 就可以认为这些退休的差异是外生的制度因素带来的, IV/ RD 就是利用 了退休制度引致的退休的变化来识别退休对健康的因果性影响。
退休年龄跳点:
在中国现行退休制度安排下, 退休( 指停止工作) 状况在三 个年龄可能出现跳点, 即退 休比例的突然增加。
• 基本思想是:在所有可能的带宽下,选择使拟合的均方误差最小的带宽。
在利用局部多项式进行RDD估计时,需要选择滞后阶数P: • 可以采用常用的模型选择标准,例如AIC标准,AICC标准,或BIC标准。 • 带宽越大时,需要选择的滞后阶数越大;带宽越小时,滞后阶数越小。
绘制结果变量Y与参考变量X的关系图: 选择带宽0.01,共100个区间,可以利用egen的cut()函数实现:
证断点左边和右边分别在不同区间内,避免将处于不同干预状 态的个体混在同一区间。 • 然后将所有区间里个体结果变量的平均值与区间的中点进行描 点。 • 可以通过多项式分别对断点两边的点进行拟合,并将拟合曲线 描在图上。
• 可观测协变量与参考变量的关系图也参照上述方法绘制。
带宽选择和滞后阶数
• RDD的参数估计依赖于一个重要参数—带宽h的选择。 • 带宽比较小时,断点左右的个体特征差异较小,估计偏差较小。但是,带宽
• 定理1说明,如果干预分配概率在临界点处有间断,但总体而言潜在结果Y 是参考变量X的连续函数,并且个体没有能力对X进行精确操纵,从而在断 点处近似于随机化实验,那么,可以识别出在断点处的平均因果效应。
• 如果是精确断点,则断点处的平均因果效应为:
回归断点设计的识别条件
假设4源自文库独立性假设): • 假设潜在结果Y1i,Y0i,D1i (x),D0i (x) 在断点附近独立于参考变量Xi,
即
• 独立性假设要求断点独立于所有的潜在结果或个人选择,断点是外生
的。断点的分配
近似于完全随机化实验。
回归断点设计的识别条件
假设5(单调性假设):
• 假设断点对所有个体的影响方向是相同的,这里我们假设正向单调性
成立,即存在δ>0,使得对于任意
,有:
回归断点设计的识别条件
定理2(Hahn et al, 2001): • 如果断点假设1、连续性假设2、独立性假设4和单调性假设5均成
第9讲:
回归断点分析及分位数回归
回归断点分析
(Regression Discontinuity, RD)
RD方法的原理
• RD 方法最早由Thistlethwaite 和Campbell 于1960年提出,是在非实验 的情况下处理处置效应( treatment effects) 的一种方法。
• 在RD 方法中, 当变量大于临界值时, 经济个体接受处置(treatment) , 而 在该变量小于临界值时, 经济个体不接受处置, 由于经济个体在接受处 置时, 无法观测到其没有接受处置的情况, 则小于临界值的个体可以作 为一个很好的可控组( control group) 来反映个体接受处置和没有接受 处置的差异。
• 前提条件:确定断点或阈值必须独立于样本对象的分类选择。 • 回归断点分析能较好控制内生性问题,其实质是一种“局部随机试
验”,更加接近于真正的随机试验。
回归断点分析的局限性
(1)回归中断设计中只能有一个混淆变量x ( 例如:考试成绩) 。
• 回归中断设计之所以不需要考虑多个混淆变量,就在于一个个体是否 能够接受某个自变量的影响( 即能否得到奖励) 完全取决于单一变量 x( 考试成绩) 。然而,在社会科学的调查研究中这种“单一混淆变量” 的情况不常见。
绘制参考变量X的分布图:
• 从图上看,参考变量在断点处没有明显跳跃。 • 但利用多项式拟合曲线,似乎存在跳跃。 • 需要利用McCarry(2008)密度检验统计量进行检验,以判断跳跃是否显著。
回归断点分析适用情形
• 适用场合:即基于分类值是否超过一个阈值或断点,一些样本得到选 择并受到干预,这些样本会具有不同于未受干预的样本表现。它经常 被用于资源分配或者施加制裁的情形中。
• 尤其是在变量连续的情况下, 临界值附近样本的差别可以很好地反映 处置变量和经济结果之间的因果联系。
• 研究问题:学习上的荣誉奖励(原因)是否能够提升学生未来的学术成就(结果)?
• 自变量设计:这里的荣誉奖励是根据考试成绩而定的:当考试成绩x超过一定分 数c,则给予奖励(D=1),否则(x<c时)则没有奖励(D=0)。
• 近年来有一些文献用工具变量( IV) / 断点回归( RD) 的办法较好地解决 了内生性问题, 他们都是利用退休制度规定的一些年龄点所带来的退 休行为的不连续性进行识别的。
• 在这些年龄点前后退休的激励有明显的不同, 比如过了某个年龄, 法律 允许退休或者提前退休, 或者过了某个年龄退休金的计算公式有变化 等( 如Charles, 2004; Neuman, 2008; Co e and Zamarro , 2008; Jo hnsto n and Lee, 2008) 。
• 自变量D在x=c处产生“中断”,随后如果学生的学术成就也发生了类似的中断 (例如考试成绩在c以下学生的学术成就低于考试成绩在c以上的学生的学术成就), 则可以认为奖励和学术成就之间有因果关系。
断点设计的基本思想
• 一个原因变量或干预(D)完全依赖于一个参考变量(X)
• 参考变量X本身可以对结果变量Y有影响,也可以没有影响。 • 如果有影响,则Y与X的关系是连续的,其他可能影响Y的因素Z在断点