分位数回归模型及其应用研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一组计量经济学理论与方法
分位数回归模型及其应用研究
王桂胜1
(首都经济贸易大学,北京,100026)
摘要:本文在对分位数回归方法的含义和基本原理进行全面分析说明的基础上,对分位数回归方法在PANEL DATA模型中的应用作了深入分析,并对不同回归估计方法在PANEL DATA模型中的估计效果进行了比较分析。

在此基础上,通过分别采取一般最小平方法和分位数回归法对中国15省区的人均消费和人均收入的回归方程估计的统计结果比较,发现分位数回归方法在进行某些特殊的PANEL DATA模型估计时具有一定的优势。

关键词:分位数回归、面板数据模型、惩罚分位数回归估计
一、分位数回归研究介绍
自Koenker 和 Bassett (1978)提出线性分位数回归理论以来,分位数回归(QR)即成为近几十年来发展较快、应用广泛的回归模型方法,它不仅深化了对传统回归模型的理解,而且也推广了回归模型的类型和应用,使得回归模型拟合有关统计数据更加准确细致。

分位数回归模型是在稳健估计模型基础上发展形成。

稳健估计(Robust Estimation)理论包括基于一般凸损失函数的M 估计理论、基于样本秩统计量的R估计理论和基于样本次序统计量的L估计理论等。

分位数回归强调以解释变量的分位数来估计推断因变量的分位数,通过建立分位数估计方程,并运用线性规划方法或非参数估计等方法来估计相应于不同分位数的解释变量系数或未知参数。

分位数回归是中位数回归和均值回归的推广。

分位数回归模型具体又分为四分位数回归、十分位数回归、百分位数回归、LOGIT分位数回归、审查分位数回归等模型。

关于分位数回归研究的最近发展,主要表现在分位数回归技术方法和方法应用等两方面的研究上。

具体包括Koenker和Zhijie Xiao (2000) 解决分位数回归过程中存在的特定推断问题; Kim 和Muller (2000) 关于双步分位数回归的渐进特性的研究; Tasche (2001) 对最小分位数回归的无偏性研究; Chernozhukov 和Han Hong (2002) 提出对审查分位数回归的三步评估法;吴建南、Bret- schneider 等(2002) 用蒙特卡罗(Monte Carlo) 方法产生100 个随机数据集合来比较显著权重分析方法与分位数回归的优劣; Kottas 和Krnjaji′c 提出分位数回归中的贝叶斯非参数模型;Koenker(2004)将分位数回归方法运用于PANEL DATA模型估计中,并提出了PQR估计技术及相关理论证明,在此基础上CARLOS LAMARCHE(2006)对PQR估计方法进一步深入探讨并结合实际数据进行实证分析等等。

此外是对分位数回归方法的应用研究。

在这一方面,Barnes 和W. Hughes (2002) 利用分位数回归对跨部门公债市场的回收进行了分析;Buhai (2004) 在
1王桂胜:男,1970年生,首都经济贸易大学劳动经济学院副教授,清华大学经管学院博士生。

分析介绍了分位数回归方法的基础上,研究了它在持续时期模型和循环结构等式模型中的应用;Leggett 和Craighead 利用分位数回归确定了时间分布和特定风险驱动的影响。

国内也有很多学者将分位数回归估计方法运用于医学卫生事业研究、公共管理事业等具有极值分布特点的统计数据研究中。

具体如教育收益率估计分析、劳工歧视因素分析等等。

本文将在系统介绍分位数回归模型的含义和基本原理的基础上,重点分析将分位数回归方法与PANEL DATA 模型结合分析的主要形式和估计原理以及相关结果。

第二节讨论分位数回归方法的一般原理以及PQR 估计原理,在此基础上提出关于PANEL DATA 的分位数回归模型的PQR 估计方法;第三节分析分位数回归方法在PANEL DATA 模型中的应用以及数据模拟;第四节对本文的分析结果进行总结。

二、分位数回归模型原理
(一)分位数回归的基本原理
一般线性回归模型可设定如下:
01122,k k y a a x a x a x u u =+++++为随机扰动项.
在满足高斯-马尔可夫假设前提下,可表示如下:
()01122k k E y x a a x a x a x =++++ 其中,01,,,k a a a 为待估解释变量系数。

上述模型即均值回归模型表达式,是对等式两边取数学期望的结果。

类似于均值回归模型,也可设定中位数回归模型如下:
()()01122k k M y x a a x a x a x M u =+++++ 其中,()M y x 为关于x 的条件中位数,()M u 为随机扰动项的中位数。

以及分位数回归模型如下:
()()01122y k k u Q x a a x a x a x Q ττ=+++++
对于均值回归模型,可采取最小平方法(OLS )估计未知参数;对于中位数回归模型,可采取最小一乘法(或称最小绝对偏差法LAD );而对于分位数回归模型,则可采取线性规划法(LP )估计其最小加权绝对偏差,从而得到解释变量的回归系数。

分别可表示如下:
OLS 法:()201122min k k E y a a x a x a x -----
求解得:()01122ˆˆˆˆˆk k E
y x a a x a x a x =++++ LAD 法:01122min k k E y a a x a x a x -----
求解得:()01122ˆˆˆˆˆk k M
y x a a x a x a x =++++
QR 法:()01122min k k E y a a x a x a x τρ-----
求解得:()01122ˆˆˆˆˆy
k k Q x a a x a x a x τ=++++ 其中,()()()()0,0,1.t t I t τρττ=-<∈。

(二)PANEL DATA 模型与分位数回归方法
考虑一般PANEL DATA 模型,表达式如下:
',1,2,,.1,2,,.it it i it y x u i N t T βα=++==
其中,i 代表不同的样本个体,t 代表不同的样本观察时点,u 表示随机误差项,β表示解释变量的系数向量,αi 表示第i 个样本的不可观察随机效应。

()'
121,,,,it it it itp x x x x = 关于β的估计有两种情形,即固定效应情形和随机效应情形,相应的有两种估计方法。

将上述PANEL DATA 模型写成如下矩阵形式:
y X Z u βα=++
固定效应情形下,β的估计量为 ()()2,11min ˆ,,.y X Z X MX X My M I P P Z Z Z Z αβ
βαβ----''''==-=
随机效应情形下,β的估计量为
假设u ∼ N(0,R), α ∼ N(0,W),v=Z α+u 。

则有 ()()E vv ZWZ R V ''=+=。

可以对此情形PANEL DATA 模型采取GLS 估计法、也可采取反映个体影响的惩罚最小二乘法(PLS )估计回归系数β,分别表述如下:
GLS 法: 1
2min V y X ββ-- PLS 法:112
2,min R W y X αββα---+
二者的共同解为:()111ˆX V X X V y β---''=。

对于上述PANEL DATA 模型也可采取分位数回归法进行参数估计。

为此。

建立以下条件分位数方程:
()
()',it y j it i it j i Q x x ταβτα=+ 上述分位数方程假设个体效应是固定的。

对此方程,KOENKER (2004)提出了惩罚分位数回归(PQR )方法进行估计。

具体如下:
(){}(){}{}()()'1,11111
ˆˆ,,arg min j J T N N J N j i j it it j i i i j j t i i w y x ταββτλαλρβταλα=======--+∑∑∑∑
其中,w j 为相应于各分位数的权数,λ为调节系数。

如果λ=0,则为固定效
应分位数回归估计量(FEQR );如果λ>0,则为惩罚分位数回归估计量(PQR )。

此外,KOENKER 还对分位数回归和惩罚分位数回归估计量的渐进特性进行了详细的考察。

在此基础上,运用蒙特卡罗模拟法在小样本设定下比较分析了不同回归估计方法的效果,如下表所示: 表 1 最小平方法与分位数回归法的估计效果比较
误差项分布 LS PLS LSFE QR PQR QRFE
正态分布
偏差 0.0031 0.0048 0.0056 0.0048 0.0067 0.0047
均方误差平方根 0.0847 0.0604 0.0668 0.0977 0.0781 0.0815
T 分布
偏差 -0.0062 -0.0054 -0.0051 -0.0063 -0.0101 -0.0082
均方误差平方根 0.1377 0.1031 0.1143 0.1274 0.0881 0.0921
卡方分布
偏差 -0.0068 0.0002 0.0032 -0.0052 0.0063 0.0072
均方误差平方根 0.2155 0.1503 0.1650 0.2362 0.1506 0.1513
由上表可见,对于某些非正态分布,分位数回归估计效果相对较好一些(如表1中的T 分布)。

三、分位数回归方法的应用
分位数回归方法对于具有某些非高斯分布的随机误差项和随机效应的回归方程的系数估计具有较好的效果,这已在理论上得到了论证。

本文将运用实际经济数据对比最小平方法与分位数回归方法在PANEL DATA 模型中的估计效果。

所用数据来自中国1996-2002年东北、华北和华东15个省、市、自治区的居民人均消费(CP ,不变价格)和人均收入(IP ,不变价格)2。

建立关于人均消费与人均收入关系的PANEL DATA 模型,分别采取最小平方法和分位数回归法进行估计,由于样本资料原因,本文仅考虑合并数据下和固定效应下的两种估计方法的估计结果,并进行比较分析。

1、合并数据下最小平方法估计
运用EVIEWS 软件对样本数据进行处理,结果如下:
129.630.76it it CP IP ∧
=+ 其中,判定系数为0.98,常数项T 统计量值为2.0,回归系数T 统计量值为
79.7。

2、固定效应下最小平方法估计
对15个省区设计15个虚拟变量D1,D2,…,D15。

其定义为:
1,,1,2,...,15.0,.i i D =⎧=⎨⎩
当属于第i 个个体其他 运用EVIEWS 软件,对样本数据进行处理,得到如下结果:
2 注:本数据资料来自张晓峒著《EVIEWS 使用指南与案例》,机械工业出版社,2007年,第261页。

215479.31053.714.20.70it it CP D D IP ∧=++++
其中,判定系数为0.99,常数项T 统计量值为1.6,回归系数T 统计量值为55。

3、合并数据下分位数回归法估计
将15个省区的数据当作一个个体的数据进行分位数回归估计,运用STATA 软件运行后,得到如下结果:
4、固定效应下分位数回归法估计
与2中固定效应回归一样,可设计15个虚拟变量D1,D2,…,D15,并运用STATA 软件进行分析可得如下结果:
比较分析上述两种回归方法的统计结果,发现在固定效应情形下两种方法回归效果均比合并数据情形下更好;在同一情形下做回归分析,显然分位数回归分析结果更加稳定,各系数估计显著程度更高。

因而,分位数回归估计在PANEL DATA 模型中可以发挥重要作用。

四、结论
本文在对分位数回归方法的含义和基本原理进行全面分析说明的基础上,对分位数回归方法在PANEL DATA 模型中的应用作了深入分析,并对不同回归估计方法在PANEL DATA 模型中的估计效果进行了比较分析。

一般而言,分位数估计方法在估计具有非正态分布的误差项或不可观察的随机效应时具有一定优势。

本文在理论分析之后,提供了一个应用案例分析,通过对我国人均收入和人均消费的各种回归分析,充分证明了分位数回归的较好效果。

当然,由于样本数据的不足,缺乏对在随机效应情形下两种回归方法估计的效果比较,以及在不同调节系数下对惩罚分位数回归估计效果的考察。

这将在分位数回归方法的应用分析中进一步开展深入探讨。

参考文献
1.Emanuel Parzen, Quantile Probability and Statistical Data Modeling, [J].Statistical Science, Vol. 19, No. 4, (Nov., 2004), pp. 652-662.
2.Roger Koenker and Zhijie Xiao, Inference on the Quantile Regression Process, [J].Econometrica, Vol. 70, No. 4, (Jul., 2002), pp. 1583-1612.
3.Keming Yu, Zudi Lu, Julian Stander, Quantile Regression: Applications and Current Research Areas,[J]. The Statistician, Vol. 52, No. 3, (2003), pp. 331-350.
4. Roger Koenker and Jose A. F. Machado, Goodness of Fit and Related Inference Processes for Quantile Regression,[J].Journal of the American Statistical Association, Vol. 94, No. 448, (Dec., 1999), pp. 1296 –1310.
5. Keming Yu and M. C. Jones, Local Linear Quantile Regression, [J].Journal of the American Statistical Association, Vol. 93, No. 441, (Mar., 1998), pp. 228 –237.
6. James W. Taylor and Derek W. Bunn, A Quantile Regression Approach to Generating Prediction Intervals,[J] .Management Science, Vol. 45, No. 2, (Feb., 1999), pp. 225-23
7.
7. Rene Gelinas, Alain Martel, Pierre Lefrancois, SOS: A Quantile Estimation Procedure for Dynamic Lot-Sizing Problems,[J]. The Journal of the Operational Research Society, Vol. 46, No. 11, (Nov., 1995), pp. 1337-1351.
8. P. K. Bhattacharya and Ashis K. Gangopadhyay, Kernel and Nearest-Neighbor Estimation of a Conditional Quantile,[J]. The Annals of Statistics, Vol. 18, No. 3, (Sep., 1990), pp. 1400-1415.
9. PORTNOY S. KOENKER R., The Gaussian Hare and the Laplacian
Tortoise :Computability of Squared - error Versus Absolute- error Estimators[J ] . Statistical Science ,1997(12) :279 - 300.
10. Koenker , R. and Bassett , G. 1978.“Regression Quantiles. ”[J ] . Econometrica. Vol. 46 , pp. 33 - 50.
11.Koenker, R. (2004): “Quantile Regression for Longitudinal Data,” [J],Journal of Multivariate Analysis, 91,74–89.
12.吴建南、马伟,估计极端行为模型:分位数回归方法及其实现与应用,[J]数理统计
与管理,2006、9月,第25卷第5期,536-543。

Research on Quantile Regression Modeling and Its Application
Wang guisheng
(capital university of economics and business,Beijing,100026)
Abstract: This article principally introduces some basic principles of all kinds of quantile regressions and their application. After stating the concepts and estimation equations of general least square method and quantile regression, we especially analyze the principle of penalized quantile regression and its application in Panel data modeling. We contrast the estimation efficiency of two kinds of methods by theoretical and empirical analyses: LS,PLS and QR,PQR. We find that PQR or QR has certain relative advantages over LS or PLS on some estimation of models in which there are non-Gauss distributional stochastic error terms or stochastic effects.
Keywords: quantile regression, Panel data model, penalized quantile regression estimation。

相关文档
最新文档