分位数回归模型及其应用研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分位数回归模型及其应
用研究
The manuscript was revised on the evening of 2021
第一组计量经济学理论与方法
分位数回归模型及其应用研究
王桂胜1
(首都经济贸易大学,北京,100026)
摘要:本文在对分位数回归方法的含义和基本原理进行全面分析说明的基础上,对分位数回归方法在PANEL DATA模型中的应用作了深入分析,并对不同回归估计方法在PANEL DATA模型中的估计效果进行了比较分析。在此基础上,通过分别采取一般最小平方法和分位数回归法对中国15省区的人均消费和人均收入的回归方程估计的统计结果比较,发现分位数回归方法在进行某些特殊的PANEL DATA模型估计时具有一定的优势。
关键词:分位数回归、面板数据模型、惩罚分位数回归估计
一、分位数回归研究介绍
自Koenker 和 Bassett (1978)提出线性分位数回归理论以来,分位数回归(QR)即成为近几十年来发展较快、应用广泛的回归模型方法,它不仅深化了对传统回归模型的理解,而且也推广了回归模型的类型和应用,使得回归模型拟合有关统计数据更加准确细致。分位数回归模型是在稳健估计模型基础上发展形成。稳健估计(Robust Estimation)理论包括基于一般凸损失函数的M 估计理论、基于样本秩统计量的R估计理论和基于样本次序统计量的L估计理论1王桂胜:男,1970年生,首都经济贸易大学劳动经济学院副教授,清华大学经管学院博士生。
等。分位数回归强调以解释变量的分位数来估计推断因变量的分位数,通过建
立分位数估计方程,并运用线性规划方法或非参数估计等方法来估计相应于不
同分位数的解释变量系数或未知参数。分位数回归是中位数回归和均值回归的
推广。分位数回归模型具体又分为四分位数回归、十分位数回归、百分位数回归、LOGIT分位数回归、审查分位数回归等模型。
关于分位数回归研究的最近发展,主要表现在分位数回归技术方法和方法
应用等两方面的研究上。具体包括Koenker和Zhijie Xiao (2000) 解决分位数回归过程中存在的特定推断问题; Kim 和Muller (2000) 关于双步分位数回归的渐进特性的研究; Tasche (2001) 对最小分位数回归的无偏性研究; Chernozhukov 和Han Hong (2002) 提出对审查分位数回归的三步评估法;吴建南、Bret-
schneider 等(2002) 用蒙特卡罗(Monte Carlo) 方法产生100 个随机数据集合来比
较显着权重分析方法与分位数回归的优劣; Kottas 和Krnjaji′c 提出分位数回归中的贝叶斯非参数模型;Koenker(2004)将分位数回归方法运用于PANEL DATA模
型估计中,并提出了PQR估计技术及相关理论证明,在此基础上CARLOS LAMARCHE(2006)对PQR估计方法进一步深入探讨并结合实际数据进行实证分析等等。此外是对分位数回归方法的应用研究。在这一方面,Barnes 和W. Hughes (2002) 利用分位数回归对跨部门公债市场的回收进行了分析;Buhai (2004) 在分析介绍了分位数回归方法的基础上,研究了它在持续时期模型和循环结构等式模型中的应用;Leggett 和Craighead 利用分位数回归确定了时间分布和特定风
险驱动的影响。国内也有很多学者将分位数回归估计方法运用于医学卫生事业
研究、公共管理事业等具有极值分布特点的统计数据研究中。具体如教育收益
率估计分析、劳工歧视因素分析等等。
本文将在系统介绍分位数回归模型的含义和基本原理的基础上,重点分析将分位数回归方法与PANEL DATA 模型结合分析的主要形式和估计原理以及相关结果。第二节讨论分位数回归方法的一般原理以及PQR 估计原理,在此基础上提出关于PANEL DATA 的分位数回归模型的PQR 估计方法;第三节分析分位数回归方法在PANEL DATA 模型中的应用以及数据模拟;第四节对本文的分析结果进行总结。
二、分位数回归模型原理
(一)分位数回归的基本原理 一般线性回归模型可设定如下:
01122,k k y a a x a x a x u u =+++
++为随机扰动项.
在满足高斯-马尔可夫假设前提下,可表示如下:
()01122k k E y x a a x a x a x =++++
其中,01,,
,k a a a 为待估解释变量系数。
上述模型即均值回归模型表达式,是对等式两边取数学期望的结果。类似于均值回归模型,也可设定中位数回归模型如下:
()()01122k k M y x a a x a x a x M u =+++
++
其中,()M y x 为关于x 的条件中位数,()M u 为随机扰动项的中位数。以及分位数回归模型如下:
()()01122y k k u Q x a a x a x a x Q ττ=+++
++
对于均值回归模型,可采取最小平方法(OLS )估计未知参数;对于中位数回归模型,可采取最小一乘法(或称最小绝对偏差法LAD );而对于分位数
回归模型,则可采取线性规划法(LP )估计其最小加权绝对偏差,从而得到解释变量的回归系数。分别可表示如下:
OLS 法:()2
01122min k k E y a a x a x a x ----
- 求解得:()01122ˆˆˆˆˆk k E
y x a a x a x a
x =++++ LAD 法:01122min k k E y a a x a x a x ----
- 求解得:()01122ˆˆˆˆˆk k M
y x a a x a x a
x =++++ QR 法:()01122min k k E y a a x a x a x τρ----
- 求解得:()01122ˆˆˆˆˆy
k k Q x a a x a x a
x τ=++++ 其中,()()()()0,0,1.t t I t τρττ=-<∈。
(二)PANEL DATA 模型与分位数回归方法 考虑一般PANEL DATA 模型,表达式如下:
'
,1,2,
,.1,2,,.it it i it y x u i N t T βα=++==
其中,i 代表不同的样本个体,t 代表不同的样本观察时点,u 表示随机误差项,β表示解释变量的系数向量,αi 表示第i 个样本的不可观察随机效应。
()'
121,,,
,it it it itp x x x x =
关于β的估计有两种情形,即固定效应情形和随机效应情形,相应的有两种估计方法。将上述PANEL DATA 模型写成如下矩阵形式:
y X Z u βα=++
固定效应情形下,β的估计量为
()()2
,1
1
min ˆ,,.y X Z X MX X My M I P P Z Z Z Z αβ
βα
β
----''''==-=
随机效应情形下,β的估计量为