分位数回归方法及其应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分位数回归参数的估计方法(点估计) 分位数回归参数的估计方法(点估计)
求解 β (τ ) = argmin β ∈R ∑ ρτ ( yi − xi′ β ) 等价于求解以 i =1 下个线性规划问题: M ax{ y ′z |X ′z= (1- τ )X ′e,z ∈ [0,1] n } z 其中 e 为单位向量。目前对上式的算法主要有 如下几种:
Example —Risk factors for low birthweight
• The research question can be rephrased as exploring the covariate effects on the lower quantiles of birthweight. • Potential covariates include ◦ Mother’s education ◦ Mother’s prenatal care ◦ Mother’s age ◦ Mother’s weight gain ◦ ... • Covariate effects on lower quantiles may differ from those on the mean or median birthweight. • Reference: Abreveya (2001) and Koenker and Hallock (2001).
分位数的概念
定义:设随机变量 Y 的分布函数为 则 Y 的第 τ 分位数为
−1
F ( y ) = P (Y ≤ y )
F (τ ) = inf{ y : F ( y ) ≥ τ }
F 其中中位数可以表示为 (1 / 2)。
−1
分位数回归思想的数学公式化
对于 Y 的一组随机样本 {y1, y2,K, yn},样本均 n 值是 m in ∑ ( y i − ξ ) 2 的最优解。
分位数回归参数的显著性检验方法
在分位数回归模型中,设 β (τ ) = ( β1 (τ ), β 2 (τ )) Koenker 与Machado(1999)提出了检验假设 H : β (τ ) = 0 0 2 q (其中 β2 (τ ) ∈R )的两个统计量: χ q2 Tw(τ) 和 TLR (τ ) 在原假设下都服从 从而,它们都可能用来检验回归系数的显著性。
p
∑ ( y − x ′β )
i= i =1 i i
得到参数估计值。而一般线性条件分位数函数 为 Q(τ |X=x)=x′β (τ ) ,通过求解 得到参数估计 值 n
ˆ β (τ ) = argm in β ∈ R
p
∑ ρτ ( y
i =1
i
− x i′ β )
对于任意的 τ ∈ ( 0 , 1) ,估计 βˆ (τ ) 称为第 τ 分位 数下的回归系数估计。
Example —Risk factors for low birthweight
Low birthweight is known to be associated with * Higher infant mortality (Abreveya, 2001). * Higher health-care cost (Lewit et al. 1995). * a Wide range of subsequent health problems (Hack et al., 1995). * long-term educational attainment and even labor market outcomes (Corman and Chaikind, 1998). Investigate the facotrs influencing birthweight, especially the ones that may help reduce the incidence of low birthweight infants.
线性分位数回归模型的估计
分位数回归的基本性质
分位数回归的渐近性质
分位数回归的渐近性质
与普通线性最小二乘回归方法的比较
1.在模型假设方面:OLS法要求满足经典假设的几个条 F i 的条件下 Fi −1(τ ) = 0 。 件;QR法只要求扰动项 e i 2.在计算方面:OLS法求解简单;QR法复杂,但由于计 算机技术的发展,其不难完成。 3.在估计的优良性方面:两者都有各自的优良性。由于 QR法在模型的假设方面要求较少,较容易得到满足。 特别是其估计方法(加权最小一乘估计方法)决定了 其估计具有较强的稳键性。
分位数回归的思想
How to “go further” ? 分位数回归的思想最早是由Koenker and Bassett (1978)提出的。它是对古典条件均值 模型为基础的最小二乘的拓展。 普通最小二乘法是利用因变量的条件均值来建 模,通过使残差平方和达到最小来获得回归参 数的估计。 分位数回归则利用因变量的条件分位数来建模 ,通过最小化加权的残差绝对值之和来估计回 归参数。它可以称之为“加权的最小一乘回归 法”。
第二部分:应用实例分析
主要结合应用实例,介绍如何利用统计 软件实现分位数回归,如何对研究结果 进行解释和分析。
分位数回归模型的软件计算
目前,计算分位数回归的统计软件主要有SAS 以及R。 Estimation in SAS:
Estimation in R (http://www.r-project.org)
i
m in
ξ∈R
ρτ ( yi − ξ )
其中 ρτ ( z ) = τ zI[0,∞ ) ( z ) − (1 − τ ) zI ( −∞ ,0) ( z ) , I (⋅) 为 示性函数。
对于一般线性条件均值函数 E(Y|X=x)=x′β , n 通过求解 ˆ 2
β = argmin β∈R
τ
分位数回归模型的拟合优度
Koenker与Machado(1999)依据最小二乘回归中拟合 2 优度 R 的计算思想,提出了分位数回归中拟合优度的 计算方法,定义为 R 1 (τ ) ,且 0 ≤ R1(τ ) ≤1 。
R2 依据残 差平方和度量了回归平 最小二乘回归中的
方和占总离差平方和的比重,而 R 1 ( τ ) 则按照残差绝 对值的加权和,度量了在某个分位数 下分位数回归的 拟合效果。因此不像 反映的是整个分布的拟合情况, 描述的是在某个分位数下的局部拟合效果。
Example : Exploring the risk factors of low birthweight
Example --Exploring the risk factors of low birthweight
A quantile regression model for birthweight
第三部分:分位数回归的发展和应用
分位数回归的发展
最小二乘方法最早是由Adrien-Marie(1806)提出的 。 QR法最早是由Koenker和Bassett(1978)提出的。
Less than 370 articles on QR 从1978-1994年, published 从1994-1997年, 446 articles on QR published
分位数回归参数的估计方法(区间估计) 分位数回归参数的估计方法(区间估计)
依据目前的文献,区间估计方法也可分为三种: 1.直接估计法(Direct Estimation Method),见Koenker和Bassett (1982)以及Koenker和Machado (1999)。该方法依据估计出来的 回归分位系数的渐进正态性来计算置信区间。比较有代表性的是 Sparsity算法,它是一种最直接且运算速度也最快的算法,但该 算法得到的估计值对于随机项为独立同分布这一假设十分敏感。 2. 秩得分法(Rank Score Method),见Koenker(1994)。秩得分法算 法比较简单,但是对于大型数据处理效率较慢。 3. 重复抽样法(Resampling method),见He和Hu (2002)。该方法使 用了MCMB(Markov Chain Marginal Bootstrap)算法,这种算法能 够进行高效率的运算,大大节省了运算时间。重复抽样法能够克 服直接法和秩得分法的缺陷,但是对于小样本时计算出的参数估 计值不够稳定。
SAS codes for the birthweight model
Some conclusions for example
An Engel Curves for Food: This figure Leabharlann Baidulots data taken from Ernst Engel's (1857) study of the dependence of households' food expenditure on household income
从1997-2004年, 506 articles on QR published
分位数回归的发展 Heteroscedasticity Robustness Censoring Sample selection Binary response models Panel data Time series
i =1
样本中位数是最小化残差绝对值和的解,即
F (1 / 2) = arg min ∑ yi − ξ
−1
ξ ∈R
i =1
对于其他的第
τ
分位数,我们可以求解下式:
min β∈Rp [
等价的表示为:
i∈{i: yi ≥ }
∑ξ τ
∑
i =1
yi − ξ +
i∈{i: yi < }
∑ξ (1 −τ ) y − ξ ]
分位数回归(QR)方法及其应用
陈建宝
厦门大学经济学院计统系 厦门大学宏观经济研究中心
第一部分:方法介绍
主要包括分位数回归的概念,分位数回归系数 的估计方法及其性质、分位数回归系数的检验 方法、模型的拟合优度检验、分位数回归的优 良性(与最小二乘法做比较)。
分位数回归( QR)产生的根源
Mosteller and Tukey’s (1977) remark:What the regression curve does is give a grand summary for the averages of the distributions corresponding to the set of xs. We could go further and compute several different regression curves corresponding to the various percentage points of the distributions and thus get a more complete picture of the set. Ordinarily this is not done, and so regression often gives a rather incomplete picture. Just as the mean gives an incomplete picture of a single distribution, so the regression curve gives a correspondingly incomplete picture for a set of distribution .
ˆ
p
n
1.单纯形算法(Simplex Method):该算法估计出来的参 数具有很好的稳定性,但是在处理大型数据时运算的 速度会显著的降低(见Koenker and Orey,1993)。 2.内点算法(Interior Point Method):内点算法对于那 些具有大量观察值和少量变量的数据集运算效率很高 (见Portnoy and Koenker, 1997)。 3.平滑算法 (Smoothing Method):平滑算法在理论上 比较简单,它适合处理具有大量观察值以及很多变量 的数据集 (见Chen, 2004) 。 其他方法: 如adaptive method 等。