无条件分位数回归与应用实例

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

究模型：Firpo, Fortin 和 Lemieux(2009) 提出的的再中心化影响函数(recentered influence function, RIF)
回归，Frolich 和 Melly(2010)提出的无条件分位数处理效应模型与 Powell(2010)提出的一般无条件
研分位数回归。另外,论文还运用一个研究居民收入分配格局变化对其医疗支出影响的实例详细说明
经拟的无穷小平移变换(location shift)，于是(5)式右边将变成
(6)
量将(6)式与(5)式右边相减，除以增量并令趋向于零，可以得到数无条件分位数的边际影响，即无条件分位数偏效应：
。的单位平移变换对
的-
(7)
。
院最后，FFL 建议从( 7)式出发，通过以下三步获得 UQPE 的一致估计：
在这一前沿领域，国外学者的研究也只是刚刚开始，并且有关无条件分位数回归的理论与方法正在
逐渐完善之中。本文旨在介绍UQR技术并梳理相关文献。特别地，我们介绍三种重要的无条件分位数回归模型：Firpo, Fortin和Lemieux(2009)的再中心化影响函数(recentered influence function, RIF) 回归，Frolich和Melly(2010)的无条件分位数处理效应模型与Powell(2010)的无条件分位数回归。有关 UQR与CQR的差别，本文将在第二部分“无条件分位数回归的最新进展”中详细说明。
二、无条件分位数回归的最新进展
济研
经假设已经获得了被解释变量以及可能影响的维解释变量的观测值。我们关心的是的
变动对的影响。例如研究者时常关心以下条件分位数偏效应(conditional quantile partial
effects，CQPE)的估计值： (1) CQPE 的重要性在于它反映了在某一给定的
院 (robust)估计。事实上，经济学家们在如今的实证研究，特别是基于微观数据的研究中如此青睐QR
方法，并不在于它的稳健特性，而是可以借此方法考察解释变量对于被解释变量在扰动项的不同分
学位点上的异质性影响。通常，人们在评估一项经济政策对受众群体的影响时，不但希望了解政策对
任一参与者的平均影响(average treatment effect)，更希望知道政策对位于特征分布不同位置(分布末
不等于它的无条件分位数，2这意味着我们无法在获得了CQPE后，通过计算以下积分
1 当条件分位函数
取成线性函数形式，
。
2 与此不同的是，条件均值的期望等于无条件均值，这被称为条件期望的迭代法则。
来获得 UQPE 的估计。为应对这一难题，Firpo, Fortin 和 Lemieux(FFL, 2009)借用稳健估计 (robust estimation)中影响函数(influence function)的基本概念，建立了估计 UQPE 的一般步骤。该方法的基本思想如下：利用统计学中稳健估计的若干知识，可得以下恒等式：
(3) 其中
是
的 -分位数对应的再中心化影响函数(re-centered influence function)。
心
按定义计算可得
中
(4) 其中是的无条件分位数，满足
，
究是的密度函数。利用条件期望的迭代法则
可将(4)进一步写成
研
(5)
。
济为考察(5)式中等号右边的边际变化对等号左边
的影响，FFL 令每一个分量进行一个虚
只有掌握了这些政策与措施实施前后人们收入的无条件中位点，若干个低分位点和高分位点变化的
平均速度之间的差异及特征，才能给出对这些政策与措施是否有效的客观评价。
无条件分位数回归(unconditional quantile regression, UQR)技术正是有来对于CQR技术的补充和
拓展，在基于微观数据的实证研究中，特别是在劳动经济学与经济政策评估中具有十分重要的意义。
上( ) Qτ Yit X it , Zit ，即
Qτ (Yit | X it , Zit ) = α (τ )it + β (τ )it X it + γ (τ )it Zit
由于以上模型是分位数回归方法应用于面板数据构建的模型，所以被称为面板数据分位数回
归模型。其中τ （ 0＜τ＜1）表示分位，如当τ ＝0.25 时， Q0.25 (Yit | X it , Zit ) 就表示 Y 的第一个
了新方法的应用。
济关键词：条件分位数回归；无条件分位数回归；RIF 回归；处理效应模型；
经中图分类号：F224.0
文献标识码：A
量一、引言
数自从Koenker和Bassett(1978)提出分位数回归(quantile regression, QR)方法以来，其已发展成为经
济学实证研究的常用方法之一。最初，QR方法仅被看作是用来替代最小二乘(OLS)估计的一种稳健
科端或顶端)人群的异质性作用。例如，教育对于人们收入的影响作用是劳动经济学中极具争议的问题
之一。由于人的能力不可直接观测，且普遍被认为与个人的收入水平密切相关，因此，工资方程的
会扰动项很大意义上就是用来包含不可观测的个人能力。在这种设定下，通过分位点回归，人们可以
了解对于不同能力水平上的个人，可观测的个体特征如何影响他们的收入。
条件四分位数（对应于给定的 X 和 Z 的取值）。当τ 取不同值时，模型参数（β、γ）将随τ 值的变
化而变化，即模型参数在被解释变量的条件分布中的不同分布点有所不同，相当于给定几个分位
点，就有几个对应的回归方程，所以它可以对变量之间回归关系的细部特征迸行更详细的描述。与一般线性面板数据模型相比，面板数据分位数回归模型约束条件（如回归残差项呈正态分布等）
心
中按量(by amount)增长无法改善这种不平等，而收入的按比例(by proportion)增长对医疗高消费人
群的拉动作用远大于对低消费人群。因而，收入的按比例增长会加剧这种不平等性。
究本文结构安排如下：第二部分介绍无条件分位数回归模型的最新进展，第三部分给出实例，
第四部分总结全文。
(一)、RIF回归
相互关系具有极为重大的现实意义。然而在实证研究的具体进行过程中，尽管我们只想分别了解创
院新经费投入强度或人力投入强度与企业规模之间的关系，然而，影响企业创新经费投入强度或人力
投入强度的因素并非仅仅只有企业规模。换言之，如果我们仅仅采用创新经费投入强度对企业规模
学进行回归，会导致估计所得的参数具有不一致性。另一方面，如果用创新投入强度对包括企业规模
在内的一系列变量进行回归，所得企业规模前的系数可能失去原本的经济学意义。无条件分位数回
科归为解决这一问题提供了方法。它既可以保证参数的估值可以集中反映企业规模对于创新投入强度会的异质性边际影响，又可以防止模型误设的问题。社再则，运用条件分位点方法，可以从生活消费支出低、中分位点处了解到低、中收入阶层的收
(8)
来获得
的一致估计。
(二)、无条件分位数处理效应处理效应模型和普通的回归(regression)框架探究变量之间的相关关系不同，它研究的是变量之
间的因果(causality)关系，允许研究者在十分弱的假定下获得变量之间因果关系的准确估计，因而
义阐释基于过多甚至是不必要的个体特征，其结果与政策制定者所关心的问题很有可能并不一致。
例如，人们可能只想了解教育年限对于个人收入的一般边际影响，而无论个体的年龄，性别与家庭
济背景如何，这就是所谓收入关于教育程度的无条件分位数估计问题。解决这个问题的一个直觉想法
是在计算中抛弃除了教育年限外的其他解释变量，直接用收入对教育年限进行分位数回归，但这种

(i) 在利用样本次序统计量获得一致估计的基础上，用
对，
作 probit
学或 logit 回归，获得
中的一致估计，其中是正态分布函数或
科 Logistic 分布函数。
(ii) 计算 (7) 式中偏导数
社会的假定下，可得
的一致估计，
。在
海其中是密度函数的非参数一致估计。
上(iii)最后通过计算
经做法得到的无条件分位数不是一致估计。这一点类似于在最小二乘法中即使研究者只想了解某一解
释变量对被解释变量的偏影响系数，遗漏剩余解释变量仍会导致所有系数估计的不一致性，除非遗
量失变量与所剩变量是正交的。还有，若从微观层面运用分位点方法检验熊彼特关于技术创新能力与企业规模之间的关系并据
数此分别考察企业各种水平创新活动的经费投入强度或人力投入强度随企业规模的变化效应、特征及
显区别的另一问题：
会 (问题 2) “当整个人群的收入分布发生微小变化时，他们的分布的 -分位数将产生何种变化？” 问题 2 与问题 1 的相似之处在于两者都是关心的边际变动对分布的影响；两者的显著不
社同是：问题 1 只是针对整个人群中的某一(具有特征
群整体而言。
)子人群而言，而问题 2 是针对整个人
一般地，我们需要了解分布的微小变化对于被解释变量无条件分布 -分位数的影响。这
海等价于计算以下无条件分位数偏效应(unconditional quantile partial effects，UQPE)：上(2)
其中
表示随机变量的 -分位数，表示对求期望。由于条件分位数的期望一般来说并
另外，本文试图用一个研究居民收入分配格局变化对其医疗支出影响的实例说明新方法的应
用。该实例将说明居民总体收入分配格局的变化如何影响其医疗支出的分布，而已有基于条件分
位数回归技术的文献无法对这一问题做出全面的回答。运用新方法得到的实证结果表明：在控制了疾病严重程度与城乡差异等因素后，由收入引起的居民医疗消费不平等显著存在；居民收入的
社从以上例子不难理解，Koenker和Bassett(1978)提出的只是条件分位数回归方法(conditional
quantile regression, CQR)，其目的是观察和比较变量分布中不同分位点上解释变量对被解释变量边
海 ( ) 际效应。对于面板数据模型左边不再是因变量的条件均值 E Yit X it , Zit ，而是因变量的条件分位数
量数的水平上，取值的微小变化对于
的 -条件分位
院数的边际影响。例如，假设向量的第 1 个分量
表示收入，则通过计算
可以告诉人们：
学 (问题 1) ：1仅当收入发生微小改变时，引起所有具备特征
分位数的变化量。
的个体组成群体的分布 -条件
科 CQPE 尽管可以帮助我们回答问题 1，但是却无法回答下面虽与问题 1 密切相关，但却有明
的问题有可能并不一致。例如，在劳动经济学对教育回报的研究中，无论个体的年龄，性别与家庭特征如何，教育程度对于个人收入的异质性影响是人们关注的重点，即人们想了解收入关于教
心
中育程度的无条件分位数估计。本文旨在介绍近年来发展起来的无条件分位数回归(unconditional
quantile regression，UQR)技术并梳理相关文献。特别地，本文介绍三种重要的无条件分位数回归
入变化如何影响其生活消费支出的规律，进而基于这些规律推断低收入、中等收入群体的收入变化
海是如何引起他们的消费支出条件分位点的变化。但由于条件分位点的期望并不等于无条件分位点，
而人们恰恰要求了解经济体中低收入、中等收入群体的收入发生变化后，整体的消费支出状况发生
上了什么变化？这就是收入关于消费的无条件分位点问题；再比如，近几年来，我国中央与地方政府非常重视通过民生的改善达到调整收入分配差异的目的，为此，实施了许多惠民生的政策与措施。
心
中更少，对于异常值更具包容性，估计的稳健性更高。分位数回归模型的参数可以采用最小绝对离
究差法（LAD）估计，一般被转换为线性规划问题迭代求解，也可以用广义矩方法（GMM）求解。条件分位数(CQR)方法的结果实际上只告诉我们对于具有相同观测特征的个人( 例如，具有某
研一特定年龄，家庭背景的女性)，不可观测的能力差异对于收入的异质性影响。由于CQR的经济学意
无条件分位数回归与应用实例
朱平芳
张征宇
( 上海社会科学院数量经济研究中心,200020)
内容提要：条件分位数回归(conditional quantile regression，CQR)方法已成为经济学实证研究的常
用方法之一。由于 CQR 结果的经济学阐释基于过多甚至是不必要的控制变量，这与人们所关心