分位数回归
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分位数回归及其实例
一、分位数回归的概念
分位数回归(Quantile Regression):是计量经济学的研究前沿方向之一,它利用解释变量的多个分位数(例如四分位、十分位、百分位等)来得到被解释变量的条件分布的相应的分位数方程。与传统的OLS 只得到均值方程相比,它可以更详细地描述变量的统计分布。 传统的线性回归模型描述了因变量的条件分布受到自变量X 的影响过程。普通最dx--乘法是估计回归系数的最基本的方法,它描述了自变量X 对于因变量y 的均值影响。如果模型中的随机扰动项来自均值为零而且同方差的分布,那么回归系数的最dx--乘估计为最佳线性无偏估计(BLUE);如果近一步随机扰动项服从正态分布,那么回归系数的最dx--乘法或极大似然估计为最小方差无偏估计(M Ⅵ甩)。但是在实际的经济生活中,这种假设常常不被满足,饲如数据出现尖峰或厚尾的分布、存在显著的异方差等情况,这时的最小二乘法估计将不再具有上述优良性且稳健性非常差。最小二乘回归假定自变量X 只能影响因变量的条件分布的位置,但不能影响其分布的刻度或形状的任何其他方面。
为了弥补普通最dx--乘法(0Ls)在回归分析中的缺陷,Koenkel"和Pxassett 于1978年提出了分位数回归(Quantile Regression)的思想。它依据因变量的条件分位数对自变量X 进行回归,这样得到了所有分位数下的回归模型。因此分位数回归相比普通最小二乘回归只能描述自变量X 对于因变量y 局部变化的影响而言,更能精确地描述自变量X 对于因变量y 的变化范围以及条件分布形状的影响。
分位数回归是对以古典条件均值模型为基础的最小二乘法的延伸,用多个分位函数来估计整体模型。中位数回归是分位数回归的特殊情况,用对称权重解决残差最小化问题,而其他的条件分位数回归则用非对称权重解决残差最小化。
一般线性回归模型可设定如下:
()((0)),(0,1).x t t I t ρττ=-<∈
在满足高斯-马尔可夫假设前提下,可表示如下:
01122(|)...k k E y x x x x αααα=++++
其中u 为随机扰动项k αααα,...,,,210为待估解释变量系数。这是均值回归(OLS )模型表达式,类似于均值回归模型,也可以定义分位数回归模型如下:
01122(|)...()y k k u Q x x x x Q ταααατ=+++++
对于分位数回归模型,则可采取线性规划法(LP )估计其最小加权绝对偏差,从而得到解释变量的回归系数,可表示如下:
01122min (...)x k k E y x x x ραααα-----
求解得:01122ˆˆˆˆˆ(|)y
k k Q x a a x a x a x τ=++++ 其中,
,,001,0234,0,log(/)ln()ln(/)ln()ln()i T i i i T y y y I GDP n g h βββββε=+++++∂++1
从参数的估计方法来看,一般线性回归模型的原理是使得被解释变量y 与其拟合值之差(称作残差)的平方和最小,而分位数回归是使得这个残差的绝对值的一个表达式最小,这个表达式不可微,因此传统的求导方法不再适用,而是采用线性规划方法或单纯形算法。这也是它与一般线性回归最大的不同点之一。随着计算机技术的不断突破,上述算法可以很方便地由各种软件实现。现在主流统计、计量与科学计算软件SAS 、STATA 、EViews 、MATLAB 等中都可以加载分位数回归软件包。
分位数回归能够捕捉分布的尾部特征,当自变量对不同部分的因变量的分布产生不同的影响时.例如出现左偏或右偏的情况时。它能更加全面的刻画分布的特征,从而得到全面的分析,而且其分位数回归系数估计比OLS 回归系数估计更稳健。近10多年来,分位数回归在国外得到了迅猛的发展及应用,其研究领域包括经济、医学、环境科学、生存分析以及动植物学等方面。
二、分位数回归的实例
下面举一个实例,关于我国地区经济增长收敛的分位数回归分析。 β-收敛的分位数回归分析。
绝对β-收敛的检验
分三阶段对中国经济增长的绝对收敛情况分位数回归方法进行分析。 表1 1978-2007年关于中国经济绝对收敛的OLS 估计和分位数回归结果 变量
分位数 1978-1991 1992-2003 2004-2007 0
ln t y 0.1 -0.2448(-6.93***) 0.1309(2.84*** ) -0.1098(-6.15***) 0.25 -0.2711(-5.49***) 0.1554(1.72*) -0.0482(-0.76
) 0.5 -0.3253(-4.28***) 0.1914(2.17**) -0.0386(-0.88
) 0.75 -0.2301(-2.05**) 0.1842( 1.55) -0.0497(-1.01
) 0.9
-0.3854(-5.86***) 0.2328(7.43***) -0.1067(-2.20**)
OLS
-0.2791(-4.06***)
0.1727(2.96***)
-0.0806(-2.59**)
常数
0.1
2.8573(12.75
***)
0.3483( 0.9
9 )
1.4088(8.11**
*)
0.25
3.0627(9.77*
**)
0.2172(0.31
)
0.8984(1.54) 0.5
3.4860(7.70*
**)
0.0158(0.02
)
0.8556(2.08**
)
0.75
3.0649(
4.36*
**)
0.2203( 0.2
4)
1.0185(
2.20**
)
0.9
4.1783(9.6**
*)
-0.0141(-0.
06)
1.5943(3.30**
*)
OLS
3.2428(7.95*
**)
0.1893(0.42
)
1.2535
(4.30***)
分位数回归结果分析
通过观察表1,看出人均生产总值在第一阶段从十分位到九十分位β系数显著为负,存在着绝对收敛,而且β系数的绝对值呈现逐渐增加的趋势。而从1992年到2003年这一阶段可以明显看出十分位,四分之一分位,中位数,四分之三分位,九十分位β系数均为正,而且显著性水平都很高,β系数从十分位的0.1309增加到九十分位的0.2328,存在着显著的递增趋势,因此不存在绝对收敛。在第三阶段,只有十分位和九十分位β系数通过了显著性检验,其余水平下的β系数都不是很显著,但是总体上β系数均是负的,说明这阶段也存在着绝对β-收敛。这与许绍元、李善同(2006)得到的结果相似,他们认为我国的地区差距经历了一个先缩小后持续扩大的历程。与20世纪90年代相比,近年来我国的地区差距发展趋势出现了一定的变化,2000-2004年,我国的地区差距仍然在持续扩大,但扩展的速度比20世纪90年代有所减缓,2004年出现了地区差距缩小的迹象。