无条件分位数回归与应用实例
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
究 模型:Firpo, Fortin 和 Lemieux(2009) 提出的的再中心化影响函数(recentered influence function, RIF)
回归,Frolich 和 Melly(2010)提出的无条件分位数处理效应模型与 Powell(2010)提出的一般无条件
研 分位数回归。另外,论文还运用一个研究居民收入分配格局变化对其医疗支出影响的实例详细说明
经 做法得到的无条件分位数不是一致估计。这一点类似于在最小二乘法中即使研究者只想了解某一解
释变量对被解释变量的偏影响系数,遗漏剩余解释变量仍会导致所有系数估计的不一致性,除非遗
量 失变量与所剩变量是正交的。 还有,若从微观层面运用分位点方法检验熊彼特关于技术创新能力与企业规模之间的关系并据
数 此分别考察企业各种水平创新活动的经费投入强度或人力投入强度随企业规模的变化效应、特征及
只有掌握了这些政策与措施实施前后人们收入的无条件中位点,若干个低分位点和高分位点变化的
平均速度之间的差异及特征,才能给出对这些政策与措施是否有效的客观评价。
无条件分位数回归(unconditional quantile regression, UQR)技术正是有来对于CQR技术的补充和
拓展,在基于微观数据的实证研究中,特别是在劳动经济学与经济政策评估中具有十分重要的意义。
(3) 其中
是
的 -分位数对应的再中心化影响函数(re-centered influence function)。
心
按定义计算可得
中
(4) 其中 是 的无条件分位数,满足
,
究 是 的密度函数。利用条件期望的迭代法则
可将(4)进一步写成
研
(5)
。
济 为考察(5)式中等号右边 的边际变化对等号左边
的影响,FFL 令 每一个分量进行一个虚
二、无条件分位数回归的最新进展
济研
经 假设已经获得了被解释变量 以及可能影响 的 维解释变量 的观测值。我们关心的是 的
变动对 的影响。例如研究者时常关心以下条件分位数偏效应(conditional quantile partial
effects,CQPE)的估计值: (1) CQPE 的重要性在于它反映了在某一给定的
不等于它的无条件分位数,2这意味着我们无法在获得了CQPE后,通过计算以下积分
1 当条件分位函数
取成线性函数形式 ,
wk.baidu.com
。
2 与此不同的是,条件均值的期望等于无条件均值,这被称为条件期望的迭代法则。
来获得 UQPE 的估计。为应对这一难题,Firpo, Fortin 和 Lemieux(FFL, 2009)借用稳健估计 (robust estimation)中影响函数(influence function)的基本概念,建立了估计 UQPE 的一般步骤。 该方法的基本思想如下:利用统计学中稳健估计的若干知识,可得以下恒等式:
入变化如何影响其生活消费支出的规律,进而基于这些规律推断低收入、中等收入群体的收入变化
海 是如何引起他们的消费支出条件分位点的变化。但由于条件分位点的期望并不等于无条件分位点,
而人们恰恰要求了解经济体中低收入、中等收入群体的收入发生变化后,整体的消费支出状况发生
上了什么变化?这就是收入关于消费的无条件分位点问题;再比如,近几年来,我国中央与地方政府 非常重视通过民生的改善达到调整收入分配差异的目的,为此,实施了许多惠民生的政策与措施。
显区别的另一问题:
会 (问题 2) “当整个人群的收入分布发生微小变化时,他们的 分布的 -分位数将产生何种变化?” 问题 2 与问题 1 的相似之处在于两者都是关心 的边际变动对 分布的影响;两者的显著不
社 同是:问题 1 只是针对整个人群中的某一(具有特征
群整体而言。
)子人群而言,而问题 2 是针对整个人
条件四分位数(对应于给定的 X 和 Z 的取值)。当τ 取不同值时,模型参数(β、γ)将随τ 值的变
化而变化,即模型参数在被解释变量的条件分布中的不同分布点有所不同,相当于给定几个分位
点,就有几个对应的回归方程,所以它可以对变量之间回归关系的细部特征迸行更详细的描述。 与一般线性面板数据模型相比,面板数据分位数回归模型约束条件(如回归残差项呈正态分布等)
科 端或顶端)人群的异质性作用。例如,教育对于人们收入的影响作用是劳动经济学中极具争议的问题
之一。由于人的能力不可直接观测,且普遍被认为与个人的收入水平密切相关,因此,工资方程的
会 扰动项很大意义上就是用来包含不可观测的个人能力。在这种设定下,通过分位点回归,人们可以
了解对于不同能力水平上的个人,可观测的个体特征如何影响他们的收入。
了新方法的应用。
济 关键词:条件分位数回归;无条件分位数回归;RIF 回归;处理效应模型;
经 中图分类号:F224.0
文献标识码:A
量 一、引言
数 自从Koenker和Bassett(1978)提出分位数回归(quantile regression, QR)方法以来,其已发展成为经
济学实证研究的常用方法之一。最初,QR方法仅被看作是用来替代最小二乘(OLS)估计的一种稳健
相互关系具有极为重大的现实意义。然而在实证研究的具体进行过程中,尽管我们只想分别了解创
院 新经费投入强度或人力投入强度与企业规模之间的关系,然而,影响企业创新经费投入强度或人力
投入强度的因素并非仅仅只有企业规模。换言之,如果我们仅仅采用创新经费投入强度对企业规模
学 进行回归,会导致估计所得的参数具有不一致性。另一方面,如果用创新投入强度对包括企业规模
社 从以上例子不难理解,Koenker和Bassett(1978)提出的只是条件分位数回归方法(conditional
quantile regression, CQR),其目的是观察和比较变量分布中不同分位点上解释变量对被解释变量边
海 ( ) 际效应。对于面板数据模型左边不再是因变量的条件均值 E Yit X it , Zit ,而是因变量的条件分位数
在内的一系列变量进行回归,所得企业规模前的系数可能失去原本的经济学意义。无条件分位数回
科 归为解决这一问题提供了方法。它既可以保证参数的估值可以集中反映企业规模对于创新投入强度 会 的异质性边际影响,又可以防止模型误设的问题。 社 再则,运用条件分位点方法,可以从生活消费支出低、中分位点处了解到低、中收入阶层的收
义阐释基于过多甚至是不必要的个体特征,其结果与政策制定者所关心的问题很有可能并不一致。
例如,人们可能只想了解教育年限对于个人收入的一般边际影响,而无论个体的年龄,性别与家庭
济 背景如何,这就是所谓收入关于教育程度的无条件分位数估计问题。解决这个问题的一个直觉想法
是在计算中抛弃除了教育年限外的其他解释变量,直接用收入对教育年限进行分位数回归,但这种
经 拟的无穷小平移变换(location shift),于是(5)式右边将变成
(6)
量 将(6)式与(5)式右边相减,除以增量 并令 趋向于零,可以得到 数 无条件分位数的边际影响,即无条件分位数偏效应:
。 的单位平移变换对
的-
(7)
。
院 最后,FFL 建议从( 7)式出发,通过以下三步获得 UQPE 的一致估计:
上( ) Qτ Yit X it , Zit ,即
Qτ (Yit | X it , Zit ) = α (τ )it + β (τ )it X it + γ (τ )it Zit
由于以上模型是分位数回归方法应用于面板数据构建的模型,所以被称为面板数据分位数回
归模型。其中τ ( 0<τ<1)表示分位,如当τ =0.25 时, Q0.25 (Yit | X it , Zit ) 就表示 Y 的第一个
量 数的水平上, 取值的微小变化对于
的 -条件分位
院 数的边际影响。例如,假设向量 的第 1 个分量
表示收入,则通过计算
可以告诉人们:
学 (问题 1) :1仅当收入发生微小改变时,引起所有具备特征
分位数的变化量。
的个体组成群体的 分布 -条件
科 CQPE 尽管可以帮助我们回答问题 1,但是却无法回答下面虽与问题 1 密切相关,但却有明
一般地,我们需要了解 分布的微小变化对于被解释变量 无条件分布 -分位数的影响。这
海 等价于计算以下无条件分位数偏效应(unconditional quantile partial effects,UQPE): 上(2)
其中
表示随机变量 的 -分位数, 表示对 求期望。由于条件分位数的期望一般来说并
的问题有可能并不一致。例如,在劳动经济学对教育回报的研究中,无论个体的年龄,性别与家 庭特征如何,教育程度对于个人收入的异质性影响是人们关注的重点,即人们想了解收入关于教
心
中 育程度的无条件分位数估计。本文旨在介绍近年来发展起来的无条件分位数回归(unconditional
quantile regression,UQR)技术并梳理相关文献。特别地,本文介绍三种重要的无条件分位数回归
在这一前沿领域,国外学者的研究也只是刚刚开始,并且有关无条件分位数回归的理论与方法正在
逐渐完善之中。本文旨在介绍UQR技术并梳理相关文献。特别地,我们介绍三种重要的无条件分位 数回归模型:Firpo, Fortin和Lemieux(2009)的再中心化影响函数(recentered influence function, RIF) 回 归,Frolich和Melly(2010)的无条件分位数处理效应模型与Powell(2010)的无条件分位数回归。有关 UQR与CQR的差别,本文将在第二部分“无条件分位数回归的最新进展”中详细说明。
(i) 在利用样本次序统计量获得 一致估计 的基础上,用
对,
作 probit
学 或 logit 回归,获得
中 的一致估计,其中 是正态分布函数或
科 Logistic 分布函数。
(ii) 计 算 (7) 式 中 偏 导 数
社会的假定下,可得
的一致估计 ,
。在
海 其中 是 密度函数的非参数一致估计。
上(iii)最后通过计算
院 (robust)估计。事实上,经济学家们在如今的实证研究,特别是基于微观数据的研究中如此青睐QR
方法,并不在于它的稳健特性,而是可以借此方法考察解释变量对于被解释变量在扰动项的不同分
学 位点上的异质性影响。通常,人们在评估一项经济政策对受众群体的影响时,不但希望了解政策对
任一参与者的平均影响(average treatment effect),更希望知道政策对位于特征分布不同位置(分布末
无条件分位数回归与应用实例
朱平芳
张征宇
( 上海社会科学院数量经济研究中心,200020)
内容提要:条件分位数回归(conditional quantile regression,CQR)方法已成为经济学实证研究的常
用方法之一。由于 CQR 结果的经济学阐释基于过多甚至是不必要的控制变量,这与人们所关心
另外,本文试图用一个研究居民收入分配格局变化对其医疗支出影响的实例说明新方法的应
用。该实例将说明居民总体收入分配格局的变化如何影响其医疗支出的分布,而已有基于条件分
位数回归技术的文献无法对这一问题做出全面的回答。运用新方法得到的实证结果表明:在控制 了疾病严重程度与城乡差异等因素后,由收入引起的居民医疗消费不平等显著存在;居民收入的
心
中 更少,对于异常值更具包容性,估计的稳健性更高。分位数回归模型的参数可以采用最小绝对离
究 差法(LAD)估计,一般被转换为线性规划问题迭代求解,也可以用广义矩方法(GMM)求解。 条件分位数(CQR)方法的结果实际上只告诉我们对于具有相同观测特征的个人( 例如,具有某
研 一特定年龄,家庭背景的女性),不可观测的能力差异对于收入的异质性影响。由于CQR的经济学意
心
中 按量(by amount)增长无法改善这种不平等,而收入的按比例(by proportion)增长对医疗高消费人
群的拉动作用远大于对低消费人群。因而,收入的按比例增长会加剧这种不平等性。
究 本文结构安排如下:第二部分介绍无条件分位数回归模型的最新进展,第三部分给出实例,
第四部分总结全文。
(一)、RIF回归
(8)
来获得
的一致估计。
(二)、无条件分位数处理效应 处理效应模型和普通的回归(regression)框架探究变量之间的相关关系不同,它研究的是变量之
间的因果(causality)关系,允许研究者在十分弱的假定下获得变量之间因果关系的准确估计,因而