无条件分位数回归文献综述与应用实例上
无条件分位数回归:文献综述与应用实例(上)
朱平芳张征宇
2013-1-7 11:17:39 来源:《统计研究》(京)2012年3期第88~96页
内容提要:条件分位数回归(conditional quantile regression,CQR)方法已成为经济学实证研究的常用方法之一。由于CQR 结果的经济学阐释基于过多甚至是不必要的控制变量,这与人们所关心的问题有可能并不一致。例如,在劳动经济学对教育回报的研究中,无论个体的年龄,性别与家庭特征如何,教育程度对于个人收入的异质性影响是人们关注的重点,即人们想了解收入关于教育程度的无条件分位数估计。本文旨在介绍近年来发展起来的无条件分位数回归(unconditional quantile regression,UQR)技术并梳理相关文献。特别地,本文介绍三种重要的无条件分位数回归模型:Firpo,Fortin和Lemieux(2009)提出的再中心化影响函数(recentered influence function,RIF)回归,Frolich和Melly(2010)提出的无条件分位数处理效应模型与Powell(2010)提出的一般无条件分位数回归。另外,论文还运用一个研究居民收入分配格局变化对其医疗支出影响的实例详细说明了新方法的应用。
关键词:条件分位数回归无条件分位数回归 RIF回归处理效应模型
作者简介:朱平芳(1961-),男,浙江兰溪人,1987年毕业于上海财经大学应用统计专业,获经济学硕士学位,2005年毕业于上海社会科学院经济研究所,获经济学博士学位,现为上海社会科学院数量经济研究中心主任,研究员,博士生导师,兼任中国数量
经济学会常务理事,上海市数量经济学会副理事长兼秘书长,研究方向为科技政策与科技进步;张征宇(1981-),男,浙江宁波人,2006年毕业于复旦大学数学系数学专业,获理学硕士学位,2009年毕业于上海财经大学经济学院数量经济学专业,获经济学博士学位,现为上海社会科学院数量经济研究中心副研究员,兼任上海市数量经济学会理事,研究方向为微观计量经济学。
一、引言
自从Koenker和Bassett(1978)提出分位数回归(quantile regression,QR)方法以来,其已发展成为经济学实证研究的常用方法之一。最初,QR方法仅被看作是用来替代最小二乘(OLS)估计的一种稳健(robust)估计。事实上,经济学家们在如今的实证研究,特别是基于微观数据的研究中青睐QR方法,并不在于它的稳健特性,而是可以借此方法了解解释变量对于被解释变量在扰动项的不同分位点上的异质性影响。通常,人们在评估一项经济政策对受众群体的影响时,不但希望了解政策对任一参与者的平均影响,更希望知道政策对位于特征分布不同位置(分布末端或顶端)人群的异质性作用。例如,教育对于人们收入的影响作用是劳动经济学中极具争议的问题之一。由于人的能力不可直接观测,且普遍被认为与个人的收入水平密切相关,因此,工资方程的扰动项很大意义上就是用来包含不可观测的个人能力。在这种设定下,通过分位点回归,人们可以了解对于不同能力水平的个人,可观测的个体特征
如何影响他们的收入。
从以上例子不难理解,Koenker和Bassett(1978)提出的只是条件分位数回归方法。条件分位数(CQR)方法的结果实际上只告诉我们对于具有相同观测特征的个人(例如,具有某一特定年龄,家庭背景的女性),不可观测的能力差异对于收入的异质性影响。由于CQR的经济学意义阐释基于过多甚至是不必要的个体特征,其结果与政策制定者所关心的问题很有可能并不一致。例如,人们可能只想了解教育年限对于个人收入的一般边际影响,而无论个体的年龄,性别与家庭背景如何,这就是所谓收入关于教育程度的无条件分位数估计问题。解决这个问题的一个直觉想法是在计算中抛弃除了教育年限外的其他解释变量,直接用收入对教育年限进行分位数回归,但这种做法得到的无条件分位数不是一致估计。这一点类似于在最小二乘法中即使研究者只想了解某一解释变量对被解释变量的偏影响系数,遗漏剩余解释变量仍会导致所有系数估计的不一致性,除非遗失变量与所剩变量是正交的。
无条件分位数回归(unconditional quantile regression,UQR)技术正是对于CQR技术的补充和拓展,在基于微观数据的实证研究中,特别是在劳动经济学与经济政策评估中具有十分重要的意义。在这一前沿领域,国外学者的研究也只是刚刚开始,并且有关无条件分位数回归的理论与方法正在逐渐完善之中。本文旨在介绍UQR技术并梳理相关文献。特别地,我们介绍三种重要的无条件分位数回归模型:Firpo、Fortin和Lemieux(2009)的再中心化影响函数(recentered influence function,RIF)回归,Frolich和Melly(2010)的无条件分位数处理效应模型与Powell(2010)的无条件分位数回归。有关UQR与CQR的差别,本文将在第二部分“无
条件分位数回归的最新进展”中详细说明。
另外,本文试图用一个研究居民收入分配格局变化对其医疗支出影响的实例说明新方法的应用。该实例将说明居民总体收入分配格局的变化如何影响其医疗支出的分布,而已有基于条件分位数回归技术的文献无法对这一问题做出全面的回答。运用新方法的实证结果表明:在控制了疾病严重程度与城乡差异等因素后,由收入引起的居民医疗消费不平等显著存在;居民收入的按量(by amount)增长无法改善这种不平等,而收入的按比例(by proportion)增长对医疗高消费人群的拉动作用远大于对低消费人群的作用,因而进一步加剧了这种不平等性。
二、无条件分位数回归的最新进展
(一)RIF回归
假设已经获得了被解释变量Y以及可能影响Y的k维解释变量X的观测值。我们关心的是X的变动对Y的影响。例如研究者时常关心以下条件分位数偏效应(conditional quantile partial effects,CQPE)的估计值:
问题1:仅当收入发生微小改变时,引起所有具备特征X=x的个体组成群体的Y分布τ-条件分位数的变化量①。
CQPE尽管可以帮助我们回答问题1,但是却无法回答下面虽与问题1密切相关,但有明显区别的另一问题:
问题2:当整个人群的收入分布发生微小变化时,他们的Y分布的τ-分位数将产生何种变化?
问题2与问题1的相似之处在于两者都是关心X的边际变动对Y分布的影响;两者的显著不同是:问题1只是针对整个人群中的某一(具有特征X=x)子人群而言,而问题2是针对整个人群整体而言。
一般地,我们需要了解X分布的微小变化对于被解释变量Y无条件分布τ-分位数的影响。这等价于计算以下无条件分位数偏效应(unconditional quantile partial effects,UQPE):
来获得UQPE的估计。为应对这一难题,Firpo,Fortin和Lemieux(FFL,2009)借用稳健估计(robust estimation)中影响函数(influence function)的基本概念,建立了估计UQPE的一般步骤。该方法的基本思想如下:利用统计学中稳健估计的若干知识,可得以下恒等式:
将式(6)与式(5)右边相减,除以增量Δx并令Δx趋向于零,可以得到X的单位平移变换对Y的τ-无条件分位数的边际影响,即无条件分位数偏效应:
最后,FFL建议从式(7)出发,通过以下三步获得UQPE的一致估计:
来获得UQPE(τ)的一致估计。(二)无条件分位数处理效应
处理效应模型和普通的回归框架探究变量之间的相关关系不同,它研究的是变量之间的因果关系,允许研究者在十分弱的假定下获得变量之间因果关系的准确估计,因而在微观经济政策评估中占据十分重要的地位。假设D是一个0-1处理变量。D=1表示个体接受了某种政策,D=0表示未接受这种政策。用与分别表示个体在D=1或D=0状态下的结果。平均处理效应(average treatment effect)E(-)表示的是该政策对潜在受众对象的平均作用大小。但是,政策的平均影响并不是政策制定者关心的全部内容,通常他们还关心政策对于群体在整个分布不同分位点上的异质性影响,这等价于需要估计如下的分位点处理效应(quantile treatment effect,QTE):
FM首先注意到并非所有个体的QTE都可以被识别出来,而只有那些可以通过变动工具Z来改变他们处理状态D的遵从者(complier)的QTE才能被识别出来。其中,遵从者当D=1时的分布函数满足
可以看出的是,要通过式(10)和式(11)的逆函数来求解式(12)其实十分困难。为克服这一难题使得UQTE便于计算,FM采用了再赋权(reweighting)分位点回归的算法,其主要思路如下。定义权重函数
其中p(X)=E(D=1|X)。在以上权重下,可以证明式(10)和式(11)具有等价表示
为计算在特定τ处的UQTE,令式(13)和式(14)的等号的左边都等于数值τ,即得
其中(u)=u(τ-1(u<0))。基于以上思路,实际计算可分为三步,首先获得得分倾向p(X)的非参数估计p(·),随后代入W的表达式获得W的一致估计
(三)无条件分位数回归
回顾以上两类对UQR的研究,Powell(2010)认为,FFL的RIF回归虽然具备无条件分位数回归的思想,但是它将所有解释变量都等同于控制变量,即RIF回归无法同时基于一些变量的条件分位数回归时计算另一些变量的无条件分位数回归。另一方面,FM的无条件分位数处理效应无法推广到处理变量取值为连续的一般情形。Powell(2010)考虑以下回归方程
Y=g(D,X,ε)(17)
其中Y是被解释变量,D是政策变量,X是反映个体特征的一组控制变量,ε是不可观察的扰动项。这里区分政策变量与控制变量的目的主要是为了计算Y关于D是有条件的分位数回归,同时关于X的部分分量是无条件分位数回归。这种部分无条件分位数回归在实际应用中具有极大的灵活性,因为,人们可以根据研究目的自由地选择自己想要了解哪些解释变量对于被解释变量的异质性作用。例如,当人们想要了解教育对于工资的分位数影响时,可以令D只包含教育变量,而将其他有关个人性别、年龄、家庭背景等因素全部放入控制变量X中。此时部分无条件分位数回归结果回答的问题将完全不同于FFL的RIF回归结果回答的问题,当然也不同于一般条件分位数回归结果回答的问题。
为简单起见且能够说明部分无条件分位数回归的基本想法,Powell只考虑当Y关于D的无条件分位函数是线性的情形。在这种情况下,式(17)可以进一步写成
Y=αD+U(X,ε)
其中
E(P(U(X,ε)≤0|D,X)|D)=τ(18)
比较式(18)与CQR框架下对应的条件可以帮助我们理解UQR与CQR的重要区别。在CQR中,我们有
P(ε≤0|D,X)=τ(19)
将式(19)与式(18)对比,可以发现UQR实际上计算的是D对被解释变量Y在由控制变量X与真正的误差项ε一起组成的扰动项分布不同分位点上的异质性作用。
需要指出的是,为了计算Y有条件的关于D同时无条件的关于X的分位数回归,直接用Y对D进行条件分位数回归的做法是有问题的。首先,一般来说X与D是相关的。即使D和X各自与ε独立,也会因为X与D的相关导致D与复合扰动项U(X,ε)是相关的。换句话说,即使方程本身不具有内生性问题,也会因为无条件分位数回归的定义导致计算时出现内生性问题。第二,即使X与D不相关,直接用Y对D进行条件分位数回归会导致X中包含的信息未加充分利用而使得估计量是无效的。为了克服这些问题,Powell(2010)将UQR框架的基本假设用以下两个矩条件进行了概括:
P(Y-αD≤0|D,X)=
(20)
与
=τ(21)
其中矩条件式(20)实际上只是一个排除性约束。因为一般来说,式(20)的右边应该同时是X与D的函数。在线性假设正确的前提下,如果αD是Y有条件的关于D同时无条件的关于X的分位函数,那么Y的τ分位数中不能由αD解释的部分,只可能是X的函数,而不会再与D相关。矩条件(21)是矩条件(20)的一个附带约束,它说明剩余部分虽然可能随X变动,但是均值为τ,这说明当前估计的是τ分位点上的无条件分位函数。容易说明式(20)和式(21)是CQR的一个自然推广。与UQR相比,可以认为CQR中所有的解释变量都在D中,因此X就不再存在。于是式(20)的右边就变成常数τ,这正是CQR对应的矩条件。结合式(20)与式(21),
以及它们与CQR的联系,可以得到估计参数α的一般方法,即(τ)可以通过最小化以下目标函数得到
(未完待续)
最新张晓峒分位数回归讲义
第15章分位数回归模型 15.1 总体分位数和总体中位数 15.2 总体中位数的估计 15.3 分位数回归 15.4 分位数回归模型的估计 15.5 分位数回归模型的检验 15.6 分位数的计算与分位数回归的EViews操作 15.7 分位数回归的案例分析 以往介绍的回归模型实际上是研究被解释变量的条件期望。人们当然也关心解释变量与被解释变量分布的中位数,分位数呈何种关系。这就是分位数回归,它最早由Koenker和Bassett(1978)提出,是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法。 正如普通最小二乘OLS回归估计量的计算是基于最小化残差平方和一样,分位数回归估计量的计算也是基于一种非对称形式的绝对值残差最小化,其中,中位数回归运用的是最小绝对值离差估计(LAD,least absolute deviations estimator)。它和OLS主要区别在于回归系数的估计方法和其渐近分布的估计。在残差检验、回归系数检验、模型设定、预测等方面则基本相同。 分位数回归的优点是,(1)能够更加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望(均值),也可以分析解释变量如何影响被解释变量的中位数、分位数等。不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。 另外,中位数回归的估计方法与最小二乘法相比,估计结果对离群值则表现的更加稳健,而且,分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数估计量则更加稳健。 15.1 总体分位数和总体中位数 在介绍分位数回归之前先介绍分位数和中位数概念。 对于一个连续随机变量y,其总体第τ分位数是y(τ)的定义是:y小于等于y(τ)的概率是τ,即τ = P( y≤y(τ)) = F(y(τ)) 其中P(?)表示概率,F(y(τ)) 表示y的累积(概率)分布函数(cdf)。 比如y(0.25) = 3,则意味着y≤ 3的概率是0.25。且有 y(τ) = F-1(y(τ)) 即F(y(τ))的反函数是y(τ)。当τ=0.5时,y(τ)是y的中位数。τ= 0.75时,y(τ)是y的第3/4分位数,τ= 0.25时,y(τ) 是y的第1/4分位数。若y服从标准正态分布,y(0.5) = 0,y(0.95) =1.645,y(0.975) =1.960。 另外,如果随机变量y的分布是对称的,那么其均值与中位数是相同的。当其中位数小于均值时,分布是右偏的。反之,分布是左偏的。 对于回归模型,被解释变量y t对以X为条件的第τ分位数用函数y(τ)t|X表示,其含义是:以X为条件的y t小于等于y(τ)t|X的概率是τ。这里的概率是用y t对X的条件分布计算的。且有 y(τ)t|X= F-1(y(τ)t|X) 其中F(y(τ)t|X) 是y t在给定X条件下的累积概率分布函数(cdf)。则y(τ)t|X称作被解释变量y t对X 的条件分位数函数。而F '(y(τ)t|X)= f (y(τ)t|X)则称作分位数概率密度函数。其中F'(y(τ)t|X)表示F(y(τ)t|X)
分位数回归及其实例
分位数回归及其实例 一、分位数回归的概念 分位数回归(Quantile Regression):是计量经济学的研究前沿方向之一,它利用解释变量的多个分位数(例如四分位、十分位、百分位等)来得到被解释变量的条件分布的相应的分位数方程。与传统的OLS 只得到均值方程相比,它可以更详细地描述变量的统计分布。 传统的线性回归模型描述了因变量的条件分布受到自变量X 的影响过程。普通最dx--乘法是估计回归系数的最基本的方法,它描述了自变量X 对于因变量y 的均值影响。如果模型中的随机扰动项来自均值为零而且同方差的分布,那么回归系数的最dx--乘估计为最佳线性无偏估计(BLUE);如果近一步随机扰动项服从正态分布,那么回归系数的最dx--乘法或极大似然估计为最小方差无偏估计(M Ⅵ甩)。但是在实际的经济生活中,这种假设常常不被满足,饲如数据出现尖峰或厚尾的分布、存在显著的异方差等情况,这时的最小二乘法估计将不再具有上述优良性且稳健性非常差。最小二乘回归假定自变量X 只能影响因变量的条件分布的位置,但不能影响其分布的刻度或形状的任何其他方面。 为了弥补普通最dx--乘法(0Ls)在回归分析中的缺陷,Koenkel"和Pxassett 于1978年提出了分位数回归(Quantile Regression)的思想。它依据因变量的条件分位数对自变量X 进行回归,这样得到了所有分位数下的回归模型。因此分位数回归相比普通最小二乘回归只能描述自变量X 对于因变量y 局部变化的影响而言,更能精确地描述自变量X 对于因变量y 的变化范围以及条件分布形状的影响。 分位数回归是对以古典条件均值模型为基础的最小二乘法的延伸,用多个分位函数来估计整体模型。中位数回归是分位数回归的特殊情况,用对称权重解决残差最小化问题,而其他的条件分位数回归则用非对称权重解决残差最小化。 一般线性回归模型可设定如下: ()((0)),(0,1).x t t I t ρττ=-<∈ 在满足高斯-马尔可夫假设前提下,可表示如下: 01122(|)...k k E y x x x x αααα=++++ 其中u 为随机扰动项k αααα,...,,,210为待估解释变量系数。这是均值回归(OLS )模型表达式,类似于均值回归模型,也可以定义分位数回归模型如下: 01122(|)...()y k k u Q x x x x Q ταααατ=+++++ 对于分位数回归模型,则可采取线性规划法(LP )估计其最小加权绝对偏差,从而得到解释变量的回归系数,可表示如下: 01122min (...)x k k E y x x x ραααα----- 求解得:01122?????(|)y k k Q x a a x a x a x τ=++++
R软件Logic回归介绍
Package‘LogicReg’ January12,2010 Version1.4.9 Date2010-01-11 Title Logic Regression Author Charles Kooperberg
2cumhaz print.logreg (36) print.logregmodel (37) print.logregtree (39) Index41 cumhaz Cumulative hazard transformation Description Transforms survival times using the cumulative hazard function. Usage cumhaz(y,d) Arguments y vector of nonnegative survival times d vector of censoring indicators,should b e the same length as y.I f d is missing the data is assumed to be uncensored. Value A vector of transformed survival times. Note The primary use of doing a cumulative hazard transformation is that after such a transformation, exponential survival models yield results that are often very much comparable to proportional haz-ards models.In our implementation of Logic Regression,however,exponential survival models run much faster than proportional hazards models when there are no continuous separate covariates. Author(s) Ingo Ruczinski
江苏县域经济要素关系及演化过程的分位数回归_柯文前
第29卷 第5期2013年9月 地理与地理信息科学 Geography and Geo-Information ScienceVol.29 N o.5Sep tember 2013 收稿日期:2013-02-06; 修回日期: 2013-04-23 基金项目: 国家自然科学基金项目(41071084);江苏省研究生科研创新计划项目(CXZZ13_0398) 作者简介:柯文前(1988-),男,博士研究生,研究方向为区域空间结构与区域发展。*通讯作者E-mail:yuzhaoyuan@nj nu.edu.cndoi:10.7702/dly dlxxkx20130516江苏县域经济要素关系及演化过程的分位数回归 柯文前1,陆玉麒1,俞肇元1*,陈 伟2,王 晗1 (1.南京师范大学地理科学学院,江苏南京210023;2.东北师范大学地理科学学院,吉林长春130024 )摘要:针对经典回归模型的“两难问题”,引入非参数的分位数回归构建了要素关系模型,并以江苏县域经济为案例分析。结果表明:1)相比OLS回归,分位数回归对县域经济总体模拟效果和刻画演化特征能力更优;2)根据变量关系结构,将县域经济发展驱动机制划分为产业结构占优型、一般均衡驱动型和高效均衡驱动型;3)苏锡常各县市受因子波动影响而使得驱动机制发生改变导致演化过程的分位点跃迁,表现出发展路径选择具有多样化的特点。 关键词:分位数回归;经济要素关系;演化过程;区域经济;苏锡常 中图分类号:F127 文献标识码:A 文章编号:1672-0504(2013)05-0072-06 0 引言 区域经济增长与差异演化特征的影响机理分析是区域经济学与经济地理学研究的核心,区域经济系统是多要素(多变量)影响下具有复杂的开放系统, 不同要素组合将形成不同驱动作用。从影响因素出发,利用多指标建立不同地区经济发展的要素关系模型是进行影响机理及时空过程分析的主流手 段[1-5 ]。传统以OLS为代表的经典回归模型在参数 估计方面面临强条件假设和序列检验的“两难问题”,很难全面揭示具有时空多尺度与动态性特征的各类分布信息,尤其体现在极端地区的拟合效果上,导致其分析适用性减弱。分位数回归可通过多个不同分位函数来估计整体模型,相比OLS均值回归模型,该方法放松了正态假设,可从数据的不同分布位置与形状入手,在全面刻画因变量分布特征基础上,对自变量与因变量的条件分布进行统计性描述,不仅在处理非正态、非平稳经济数据方面有更好的解 释,更可最大限度挖掘已有数据中的相关信息[ 6-8 ],从而准确捕捉具有尖峰、厚尾等极端样本的分布特 征。由于该模型估计具有稳健性与鲁棒性[9,10] ,在 有效揭示变量分布与时空过程的内在关系方面显示出独特的优势。 江苏省自改革开放以来,人均GDP由430元升至1990年的2 103元再到2010年的52 448元,区域经济实现了快速增长,成为中国沿海地区发展最快与最具活力的省份之一。然而,区域经济的快速 发展导致区域内部的差异也逐渐扩大,1990年苏南地区发展最快的无锡市区人均GDP达6 433元,而苏北的铜山县人均GDP仅为499元,相差13倍;到了2010年发展水平最高与最低的县市差距更加悬殊, 丰县仅为昆山市的4%,相差高达23倍。在此差异基础上形成了以苏北、 苏中和苏南不同发展水平主导的极端不平衡的区域经济格局。鉴于江苏区域经济差异的典型性与代表性,本文拟以江苏省2000-2010年13个地级市市区和50个县域(包括县级市)共63个县级尺度的空间单元作为实证研究对象,从区域经济发展影响因素的作用过程出发,以分位数回归建立人均GDP为代表的区域经济发展要素关系模型,在较为全面刻画所有样本的分异特征基础上, 深入挖掘不同时期苏锡常等地区要素作用与经济发展的时空分异特征,一方面拓展分位数回归在区域经济发展领域的应用;另一方面,为本区及其他地区经济发展提供决策参考。 1 基本模型与影响因素 1.1 分位数回归模型 若一组独立变量X与响应变量Y满足高斯-马尔可夫假设,两者间OLS均值回归表达式的条件概率表达为:E(y|x)=Xβ, 即因变量相对自变量条件概率的数学期望。考虑Y的条件分布函数为Fy( y|x),则τ分位数为:Q(τ|x)=inf{y:Fy(y|x)≥τ},τ∈(0,1),从而可得线性条件分位数的一般表达式为:Q(τ|x)=X′β( τ)。与一般均值线性回归参数估计普遍采用
无条件分位数回归文献综述与应用实例上
无条件分位数回归:文献综述与应用实例(上) 朱平芳张征宇 2013-1-7 11:17:39 来源:《统计研究》(京)2012年3期第88~96页 内容提要:条件分位数回归(conditional quantile regression,CQR)方法已成为经济学实证研究的常用方法之一。由于CQR 结果的经济学阐释基于过多甚至是不必要的控制变量,这与人们所关心的问题有可能并不一致。例如,在劳动经济学对教育回报的研究中,无论个体的年龄,性别与家庭特征如何,教育程度对于个人收入的异质性影响是人们关注的重点,即人们想了解收入关于教育程度的无条件分位数估计。本文旨在介绍近年来发展起来的无条件分位数回归(unconditional quantile regression,UQR)技术并梳理相关文献。特别地,本文介绍三种重要的无条件分位数回归模型:Firpo,Fortin和Lemieux(2009)提出的再中心化影响函数(recentered influence function,RIF)回归,Frolich和Melly(2010)提出的无条件分位数处理效应模型与Powell(2010)提出的一般无条件分位数回归。另外,论文还运用一个研究居民收入分配格局变化对其医疗支出影响的实例详细说明了新方法的应用。 关键词:条件分位数回归无条件分位数回归 RIF回归处理效应模型 作者简介:朱平芳(1961-),男,浙江兰溪人,1987年毕业于上海财经大学应用统计专业,获经济学硕士学位,2005年毕业于上海社会科学院经济研究所,获经济学博士学位,现为上海社会科学院数量经济研究中心主任,研究员,博士生导师,兼任中国数量
定量研究案例
一篇转帖的文章,作者真的很强大! 本文的缘起: 当初一个舍友来自西部地区,从没学过计量(OLS都没学过)。但毕业论文老板要求用数据说话,发愁。我于心不忍,告诉她:我每天晚上自习回来,睡觉前花10分钟给你讲解一下STATA的操作和出来的各项结果意义。第一天,我讲了OLS。画了一张散点图和一根直线,用了1分钟就让她完全理解了OLS的精髓,这是用来干啥的。后面9分钟讲解了STATA的操作和OLS的各种变种。结果只一个星期,讲完五种方法(下面会介绍),她信心大增。后来一下子发了好几篇CSSCI,计量做的天花乱坠,让人误以为是一个大师。毕业论文也顺利通过。她说我的方法是当今世界上最快的计量速成法。她说,以后有时间要好好看看计量书,打打基础。我推荐她读伍德里奇的那本现代观点。但她论文发表了好多篇,至今还没看那本书。问其原因:“看了一下OLS,跟你讲的没啥区别,就是多了些推导。那些推导看不看都不影响我用软件。现在没空看,先发论文再说。” 我笑其太浮躁。但后来想想,这种学习方法不一定适合所有人,但或许适合一部分人群。因此有必要写出来让这部分人群都有所收获,不会因为发不了CSSCI而担忧,不会因为毕业论文不会做计量而担忧。因此有了本文。你是不是属于这样的人群?请看下面: 本文的目标人群: 1、不懂计量的人; 2、想学计量却苦于缺乏时间的人; 3、想学计量却看不懂、推导不了那些恐怖矩阵的人,也就是不想看推导过程,也想发论文的人。 4、不想看计量书,却想写计量论文,发几篇CSSCI,尽快毕业的人。 5、所有想速成的人。 但是目标人群一定要能看懂STATA软件操作手册的人(或者其他软件操作手册)。如果你不认得手册上的字,不要来告诉我。我也不认得。如果你能找到一个懂STATA、EVIEWS的人给你讲解一下,那么你看不懂手册也无所谓。 本文的目标:不看计量推导、不看计量书籍就能发计量论文,而且是大规模批量生产计量论文,甚至是发经济研究和管理世界。 目标能否实现:取决于你能否掌握本黑客教程的内容,能否阅读软件手册。 申明:不是教你如何抄袭作弊,而是教你写计量论文的方法和捷径。
用R语言进行分位数回归
用R语言进行分位数回归:基础篇 詹鹏 (师大学经济管理学院) 本文根据文献资料整理,以介绍方法为主要目的。作者的主要贡献有:(1)整理了分位数回归的一些基本原理和方法;(2)归纳了用R语言处理分位数回归的程序,其中写了两个函数整合估计结果;(3)写了一个分位数分解函数来处理MM2005的分解过程;(4)使用一个数据集进行案例分析,完整地展现了分析过程。 第一节分位数回归介绍 (一)为什么需要分位数回归? 传统的线性回归模型描述了因变量的条件均值分布受自变量X的影响过程。其中,最小二乘法是估计回归系数的最基本方法。如果模型的随机误差项来自均值为零、方差相同的分布,那么回归系数的最小二乘估计为最佳线性无偏估计(BLUE);如果随机误差项是正态分布,那么回归系数的最小二乘估计与极大似然估计一致,均为最小方差无偏估计(MVUL)。此时它具有无偏性、有效性等优良性质。 但是在实际的经济生活中,这种假设通常不能够满足。例如当数据中存在严重的异方差,或后尾、尖峰情况时,最小二乘法的估计将不再具有上述优良 性质。为了弥补普通最小二乘法(OLS)在回归分析中的缺陷,1818年Laplace[2]提出了中位数回归(最小绝对偏差估计)。在此基础上,1978年Koenker 和Bassett[3]把中位数回归推广到了一般的分位数回归(Quantile Regression)上。 分位数回归相对于最小二乘回归,应用条件更加宽松,挖掘的信息更加丰富。它依据因变量的条件分位数对自变量X进行回归,这样得到了所有分位数下的回归模型。因此分位数回归相比普通的最小二乘回归,能够更加精确第描述自变量X对因变量Y的变化围,以及条件分布形状的影响。 (二)一个简单的分位数回归模型[4] 假设随机变量的分布函数为 (1) Y的分位数的定义为满足的最小值,即 (2) 回归分析的基本思想就是使样本值与拟合值之间的距离最短,对于Y的一组随机样本,样本均值回归是使误差平方和最小,即 (3) 样本中位数回归是使误差绝对值之和最小,即 (4) 样本分位数回归是使加权误差绝对值之和最小,即 (5) 上式可等价表示为: 其中,为检查函数(check function),定义为:
分位数回归及其实例
LP )估计其最小加权绝对偏 分位数回归及其实例 一、分位数回归的概念 分位数回归(Quantile Regression):是计量经济学的研究前沿方向之一,它 利用解释变量的多个分位数(例如四分位、十分位、百分位等)来得到被解释变 量的条件分布的相应的分位数方程。与传统的 OLS 只得到均值方程相比,它可 以更详细地描述变量的统计分布。 传统的线性回归模型描述了因变量的条件分布受到自变量 X 的影响过程。 普通最dx--乘法是估计回归系数的最基本的方法,它描述了自变量 X 对于因变 量y 的均值影响。如果模型中的随机扰动项来自均值为零而且同方差的分布, 那 么回归系数的最dx--乘估计为最佳线性无偏估计(BLUE);如果近一步随机扰动 项服从正态分布,那么回归系数的最 dx--乘法或极大似然估计为最小方差无偏 估计(M 切甩)。但是在实际的经济生活中,这种假设常常不被满足,饲如数据出 现尖峰或厚尾的分布、存在显著的异方差等情况,这时的最小二乘法估计将不再 具有上述优良性且稳健性非常差。最小二乘回归假定自变量 X 只能影响因变量 的条件分布的位置,但不能影响其分布的刻度或形状的任何其他方面。 为了弥补普通最dx--乘法(OLs)在回归分析中的缺陷,Koenkel"和Pxassett 于1978年提出了分位数回归(Quantile Regression) 的思想。它依据因变量的条 件分位数对自变量X 进行回归,这样得到了所有分位数下的回归模型。因此分 位数回归相比普通最小二乘回归只能描述自变量 X 对于因变量y 局部变化的影 响而言,更能精确地描述自变量 X 对于因变量y 的变化范围以及条件分布形状 的影响。 分位数回归是对以古典条件均值模型为基础的最小二乘法的延伸, 用多个分 位函数来估计整体模型。中位数回归是分位数回归的特殊情况, 用对称权重解决 残差最小化问题,而其他的条件分位数回归则用非对称权重解决残差最小化。 一般线性回归模型可设定如下: x (t) t( I(t 0)), (0,1). 在满足咼斯-马尔可夫假设前提下,可表示如下: E(y|x) 0 1X 1 2X 2 ... k X k 其中U 为随机扰动项0, 1, 2,…,k 为待估解释变量系数。这是均值回归 (OLS )模型 表达式,类似于均值回归模型,也可以定义分位数回归模型如下: Q y ( |x) 1X 1 2X 2 ... k X k Q u () 对于分位数回归模型,则可采取线性规划法( 差,从而得到解释变量的回归系数,可表示如下: min E x (y 0 必 2 X2 …k Xj
【原创】R语言进行分位数回归数据分析报告论文(附代码数据)
欢迎登陆官网:https://www.360docs.net/doc/2218566452.html,/datablog 用R语言进行分位数回归 作者的主要贡献有:(1)整理了分位数回归的一些基本原理和方法;(2)归纳了用R语言处理分位数回归的程序,其中写了两个函数整合估计结果;(3)写了一个分位数分解函数来处理MM2005的分解过程;(4)使用一个数据集进行案例分析,完整地展现了分析过程。 第一节分位数回归介绍 (一)为什么需要分位数回归? 传统的线性回归模型描述了因变量的条件均值分布受自变量X的影响过程。其中,最小二乘法是估计回归系数的最基本方法。如果模型的随机误差项来自均值为零、方差相同的分布,那么回归系数的最小二乘估计为最佳线性无偏估计(BLUE);如果随机误差项是正态分布,那么回归系数的最小二乘估计与极大似然估计一致,均为最小方差无偏估计(MVUL)。此时它具有无偏性、有效性等优良性质。 但是在实际的经济生活中,这种假设通常不能够满足。例如当数据中存在严重的异方差,或后尾、尖峰情况时,最小二乘法的估计将不再具有上述优良 性质。为了弥补普通最小二乘法(OLS)在回归分析中的缺陷,1818年Laplace[2]提出了中位数回归(最小绝对偏差估计)。在此基础上,1978年Koenker 和Bassett[3]把中位数回归推广到了一般的分位数回归(Quantile Regression)上。 分位数回归相对于最小二乘回归,应用条件更加宽松,挖掘的信息更加丰富。它依据因变量的条件分位数对自变量X进行回归,这样得到了所有分位数下的回归模型。因此分位数回归相比普通的最小二乘回归,能够更加精确第描述自变量X对因变量Y的变化范围,以及条件分布形状的影响。 (二)一个简单的分位数回归模型[4] 假设随机变量的分布函数为 (1) Y的分位数的定义为满足的最小值,即 (2) 回归分析的基本思想就是使样本值与拟合值之间的距离最短,对于Y的一组随机样本,样本均值回归是使误差平方和最小,即 (3) 样本中位数回归是使误差绝对值之和最小,即 (4) 样本分位数回归是使加权误差绝对值之和最小,即 (5) 上式可等价表示为: 其中,为检查函数(check function),定义为:
分位数回归及应用简介
第21卷第3期2006年5月 统计与信息论坛 Vol.21No.3M ay ,2006 收稿日期:2005-09-09 基金项目:国家自然科学基金(10431010);教育部重点基地重大项目(05JJD910001);中国人民大学应用统计中心资助。作者简介:李育安(1969-),男,湖北省大悟人,副教授,博士,研究方向:复杂数据的统计建模。 统计理论与方法 分位数回归及应用简介 李育安1,2 (1.中国人民武装警察部队学院,河北廊坊065000;2.中国人民大学统计学院,北京100872)摘要:文章介绍了分位数回归法的概念、算法及主流统计软件R 和SA S 计算时的语法,并通过实例与以普通最小二乘法为基础的线性回归进行了对比,展现了分位数回归的巨大魅力。 关键词:最小二乘法;分位数回归;恩格尔曲线 中图分类号:O212.1 文献标识码:A 文章编号:1007-3116(2006)03-0035-05 一、引 言 1870年,英国的高尔顿在研究人类身高的遗传规律时发现:父母是高个子的,其子女的身高有低于父母身高的趋势;相反,父母是矮个子的,其子女的身高却往往有高于父母身高的趋势。从全局来看,高、矮个子人的子女都有!回归?于一般人身高的期 望值。这就是统计学上!回归?的最初涵义。1886年,高尔顿在论文中正式提出了!回归?的概念。经过他的学生皮尔逊多年的进一步的发展后,这个出自于生物统计学领域的概念,便被推广为一般统计方法论的重要概念。 !回归分析?悠久的历史,使其理论完美,计算工具齐全,这其中又以基于最小二乘法的经典线性回归在数据分析中遍地开花。原因不外是最小二乘法的解释与人们的直观想象一致;同时该方法易于计算,有时计算用手工,其优越性在前计算机时代是不言而喻的。尤其是当假设误差是正态分布时,它具有如无偏性与有效等优良性质;但是运用最小二乘法的条件比较高,如线性回归模型要求满足同方差性、随机误差间两两不相关等条件,当需要进行回归系数的显著性推断时,通常还要假设残差服从正态分布。尤其是当分布是重尾或有离群点时,其结果的稳健性较差。在实际问题中,完全满足这些基本假设的情况并不多见,然而一旦违背了某一项基本 假设,那么在应用时就难以得到无偏的、有效的参数估计量。还有,大量的宝贵数据仅仅只能得到一条回归曲线,而一条曲线所能提供的信息毕竟是有限的。所以人们在使用回归分析时,也在不断地探索更新更好的方法,而条件更宽松,挖掘信息更丰富者,当属分位数回归。 自从Koenker 和Bassett(1978) [1] 最早提出线性 分位数回归的理论以后,当时由于分位数回归本身计算的复杂性,所以它没能象经典的回归分析那样迅速普及,但对它的理论研究一直在不断的完善中。随着计算机技术的不断突破,分位数回归软件包现已是主流统计软件R 、SAS 等中的座上客了,分位数回归也就自然而然地成为经济、医学、教育等领域的常用分析工具。 二、分位数回归的概念、性质 对于任意实值随机变量Y ,它的所有性质都可以由Y 的分布函数,即:F(y )=Pr (Y #y ) 来刻画。对于任意的0< <1,定义随机变量Y 的 分位数函数Q ( )为: Q ( )=inf {y :F (y )? } (1) 它完全刻画了随机变量Y 的性质,可以看出[注意:与F -1( )={y :F(y )? }进行比较],存在比例为 的部分小于分位数函数Q( ),而比例为1-
分位数回归模型及其应用研究
分位数回归模型及其应 用研究 The manuscript was revised on the evening of 2021
第一组计量经济学理论与方法 分位数回归模型及其应用研究 王桂胜1 (首都经济贸易大学,北京,100026) 摘要:本文在对分位数回归方法的含义和基本原理进行全面分析说明的基础上,对分位数回归方法在PANEL DATA模型中的应用作了深入分析,并对不同回归估计方法在PANEL DATA模型中的估计效果进行了比较分析。在此基础上,通过分别采取一般最小平方法和分位数回归法对中国15省区的人均消费和人均收入的回归方程估计的统计结果比较,发现分位数回归方法在进行某些特殊的PANEL DATA模型估计时具有一定的优势。 关键词:分位数回归、面板数据模型、惩罚分位数回归估计 一、分位数回归研究介绍 自Koenker 和 Bassett (1978)提出线性分位数回归理论以来,分位数回归(QR)即成为近几十年来发展较快、应用广泛的回归模型方法,它不仅深化了对传统回归模型的理解,而且也推广了回归模型的类型和应用,使得回归模型拟合有关统计数据更加准确细致。分位数回归模型是在稳健估计模型基础上发展形成。稳健估计(Robust Estimation)理论包括基于一般凸损失函数的M 估计理论、基于样本秩统计量的R估计理论和基于样本次序统计量的L估计理论1王桂胜:男,1970年生,首都经济贸易大学劳动经济学院副教授,清华大学经管学院博士生。
等。分位数回归强调以解释变量的分位数来估计推断因变量的分位数,通过建 立分位数估计方程,并运用线性规划方法或非参数估计等方法来估计相应于不 同分位数的解释变量系数或未知参数。分位数回归是中位数回归和均值回归的 推广。分位数回归模型具体又分为四分位数回归、十分位数回归、百分位数回归、LOGIT分位数回归、审查分位数回归等模型。 关于分位数回归研究的最近发展,主要表现在分位数回归技术方法和方法 应用等两方面的研究上。具体包括Koenker和Zhijie Xiao (2000) 解决分位数回归过程中存在的特定推断问题; Kim 和Muller (2000) 关于双步分位数回归的渐进特性的研究; Tasche (2001) 对最小分位数回归的无偏性研究; Chernozhukov 和Han Hong (2002) 提出对审查分位数回归的三步评估法;吴建南、Bret- schneider 等(2002) 用蒙特卡罗(Monte Carlo) 方法产生100 个随机数据集合来比 较显着权重分析方法与分位数回归的优劣; Kottas 和Krnjaji′c 提出分位数回归中的贝叶斯非参数模型;Koenker(2004)将分位数回归方法运用于PANEL DATA模 型估计中,并提出了PQR估计技术及相关理论证明,在此基础上CARLOS LAMARCHE(2006)对PQR估计方法进一步深入探讨并结合实际数据进行实证分析等等。此外是对分位数回归方法的应用研究。在这一方面,Barnes 和W. Hughes (2002) 利用分位数回归对跨部门公债市场的回收进行了分析;Buhai (2004) 在分析介绍了分位数回归方法的基础上,研究了它在持续时期模型和循环结构等式模型中的应用;Leggett 和Craighead 利用分位数回归确定了时间分布和特定风 险驱动的影响。国内也有很多学者将分位数回归估计方法运用于医学卫生事业 研究、公共管理事业等具有极值分布特点的统计数据研究中。具体如教育收益 率估计分析、劳工歧视因素分析等等。
基于分位数回归的动态CoVaR计算操作手册
基于分位数回归的动态CoVaR 计算操作手册 一、项目简介 (一)案例简介 (二)实验数据 本次数据时间跨度为2015年01月06日到2020年04月02日 ① 下载各个银行股票收盘价和板块指数的日数据到Excel 。 【tips 】本案例使用choice 下载数据,下载choice 金融终端后,excel 里会有choice 的控件,进入excel 后找到choice 的控件,在菜单栏点击历史行情选择所要数据,直接下载导入数据简单方便。 ② 处理数据,求出每个银行和板块指数的收益率数据(v1-v16、s ) 1100*ln(/)t t t R P P -= ③ Eviews 读取日期不规则的Excel 数据:点击File ——open ——foreign data
as workfile 【tips】注意在最后的basis structure中是dated-specified by date series,紧接着显示Link imported series… 选择no。 【tips】在下一次再次打开文件夹显示refresh,选择no。 二、数据检验 (一)描述性统计 ①点击group——View——Descriptive Stats——Common Sample ②由上表可以看出,各个银行及金融系统的收益率并不服从正态分布,大多数银行的收益率偏度(Skewness)呈现左偏,峰度值(Kurtosis)大于3,各家银行收益率的尾部比正态分布的尾部厚,其分布呈现出尖峰厚尾的特征。J-B检验也拒绝各收益率正态性的假设。因此这种数据恰好适用于分位数回归方法。
(二)ADF检验 由于本文所建立的模型是时间序列模型,所以还要对于时间序列进行平稳性检验,我们采用单位根检验的方法,对各银行机构及银行板块指数的收益率序列进行平稳性检验: ①在主菜单Quick——Series Statistic——Unit Root Test ②金融收益率一般选择无趋势项和截距项。 (三)ARCH检验 由于需要由GARCH(1,1)模型估计得到的沪深300指数收益率序列的条件方差,因此对其进行ARCH效应检验。 ①在主菜单Quick——Estimate Equation——输入hs300 ar(2) ②观察是否显著:(1)否,继续更换模型;(2)是,进行下一步 ③点击view——residual test——Heteroskedasticity tests——ARCH 滞后项的设置从1开始,判断的标准根据p值,若p<0.05,存在arch效应。【注】如果查出数据不具有ARCH效应,但是你的论文又得用ARCH类模型,那就尝试更换时间段区间和调整方程到具备ARCH效应为止。
基于分位数回归模型的我国上市公司ROE研究
基于分位数回归的净资产收益率研究 ——来自2008年我国上市公司的财务数据 摘要:根据公司财务的基本理论,以我国上市公司2008年财务年报作为基础数据,对我国上市公司ROE(Rate of Return on Common Stockholders' Equity)进行实证研究。指出我国上市公司ROE呈显著左偏态的尖峰厚尾分布,处在分布两侧尾部的绩优和绩差企业,反映了企业经营的风险特征和成功属性,构成了我国上市公司实证研究的重点,进而采用分位数回归方法构建计量模型进行研究。认为不同 值的分位数模型刻画了ROE水平不同的企业的资金运用效率和偏好特征,分位数回归方法是研究ROE的有效工具。得出了保持SRC均衡增长,降低融资交易成本,改善公司财务管理水平,是提高我国上市公司ROE水平的客观要求的结论。 关键词:净资产收益率、分位数回归、偏态分布 Key words:Rate of Return on Common Stockholders' Equity(ROE);Quantile Regression(QR) 一、导言 净资产收益率(以下简称为ROE)为公司税后利润除以公司净资产的百分比,衡量公司运用自有资本的效率,是衡量公司盈利能力的一项重要财务指标,在一定程度上反映了公司的资本结构、经营效率及获利模式,常用于评价公司的综合绩效和内在价值。Hitt,Hoskisson和Kim(1997)[1]指出ROE与资本结构之间存在着密切联系,ROE不仅可以反映公司的获利水平,还可以作为研究公司财务绩效的综合测度。 包括ROE在内的财务数据,在一般情况下存在着尖峰厚尾,偏态等非正态等特征,这时采用普通最小二乘(OLS)方法构建均值模型,会由于均值显著地偏离中位数,而丧失代表性。同时,对企业财务状况进行实证研究时,往往需要对其数据分布两端的尾部特征进行深入分析,研究优劣两类企业在有关财务指标上的具体表现及其相互联系。分位数(QR)回归方法估计的中位数模型和分位数模型,为解决这类问题,提供了有效的方法。 分位数回归估计建立在加权误差绝对值之和最小化的基础上,有利于消除异常值的影响,克服OLS关于正态分布假设的局限,拟合的回归模型更加稳健。并且,分位数回归估计所给出的有关分位点的回归系数统计量,可以用于研究数据分布两端的尾部特征。Koenker 和Bassett (1978a[2],1978b[3]) 首先提出了分位数回归估计的理论和方法,开创了分位数回归的先河。Koenker和Park(1996)[4]进一步将单纯形算法应用于分位数回归中,推动了分位数回归的实际应用。随后,Koenker和Machado (1999) [5],Koenker(2005)[6]等对分位数回归估计的理论和方法进行了不断的完善和发展,为分位数回归作出了不懈努力。近年来,随着EViews、R语言等陆续开发了分位数回归的应用软件包,使得这一内容相对复杂,专业性较强的计量
分位数回归模型及其应用研究
第一组计量经济学理论与方法 分位数回归模型及其应用研究 王桂胜1 (首都经济贸易大学,北京,100026) 摘要:本文在对分位数回归方法的含义和基本原理进行全面分析说明的基础上,对分位数回归方法在PANEL DATA模型中的应用作了深入分析,并对不同回归估计方法在PANEL DATA模型中的估计效果进行了比较分析。在此基础上,通过分别采取一般最小平方法和分位数回归法对中国15省区的人均消费和人均收入的回归方程估计的统计结果比较,发现分位数回归方法在进行某些特殊的PANEL DATA模型估计时具有一定的优势。 关键词:分位数回归、面板数据模型、惩罚分位数回归估计 一、分位数回归研究介绍 自Koenker 和 Bassett (1978)提出线性分位数回归理论以来,分位数回归(QR)即成为近几十年来发展较快、应用广泛的回归模型方法,它不仅深化了对传统回归模型的理解,而且也推广了回归模型的类型和应用,使得回归模型拟合有关统计数据更加准确细致。分位数回归模型是在稳健估计模型基础上发展形成。稳健估计(Robust Estimation)理论包括基于一般凸损失函数的M 估计理论、基于样本秩统计量的R估计理论和基于样本次序统计量的L估计理论等。分位数回归强调以解释变量的分位数来估计推断因变量的分位数,通过建立分位数估计方程,并运用线性规划方法或非参数估计等方法来估计相应于不同分位数的解释变量系数或未知参数。分位数回归是中位数回归和均值回归的推广。分位数回归模型具体又分为四分位数回归、十分位数回归、百分位数回归、LOGIT分位数回归、审查分位数回归等模型。 关于分位数回归研究的最近发展,主要表现在分位数回归技术方法和方法应用等两方面的研究上。具体包括Koenker和Zhijie Xiao (2000) 解决分位数回归过程中存在的特定推断问题; Kim 和Muller (2000) 关于双步分位数回归的渐进特性的研究; Tasche (2001) 对最小分位数回归的无偏性研究; Chernozhukov 和Han Hong (2002) 提出对审查分位数回归的三步评估法;吴建南、Bret- schneider 等(2002) 用蒙特卡罗(Monte Carlo) 方法产生100 个随机数据集合来比较显著权重分析方法与分位数回归的优劣; Kottas 和Krnjaji′c 提出分位数回归中的贝叶斯非参数模型;Koenker(2004)将分位数回归方法运用于PANEL DATA模型估计中,并提出了PQR估计技术及相关理论证明,在此基础上CARLOS LAMARCHE(2006)对PQR估计方法进一步深入探讨并结合实际数据进行实证分析等等。此外是对分位数回归方法的应用研究。在这一方面,Barnes 和W. Hughes (2002) 利用分位数回归对跨部门公债市场的回收进行了分析;Buhai (2004) 在 1王桂胜:男,1970年生,首都经济贸易大学劳动经济学院副教授,清华大学经管学院博士生。