分位数回归及应用简介_李育安

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、 引 言
1870 年 , 英国的高尔顿在研究人类身高的遗传 规律时发现 : 父母是高个子的 , 其子女的身高有低于 父母身高的趋势 ; 相反 , 父母是矮个子的 , 其子女的 身高却往往有高于父母身高的趋势 。 从全局来看 , 高、 矮个子人的子女都有“ 回归” 于一般人身高的期 望值 。 这就是 统计学上 “ 回归” 的最 初涵义 。 1886 年 , 高尔顿在论文中正式提出了“ 回归” 的概念 。 经 过他的学生皮尔逊多年的进一步的发展后 , 这个出 自于生物统计学领域的概念 , 便被推广为一般统计 方法论的重要概念 。 “ 回归分析” 悠久的历史 , 使其理论完美 , 计算工 具齐全 , 这其中又以基于最小二乘法的经典线性回 归在数据分析中遍地开花 。 原因不外是最小二乘法 的解释与人们的直观想象一致 ; 同时该方法易于计 算 , 有时计算用手工 , 其优越性在前计算机时代是不 言而喻的 。 尤其是当假设误差是正态分布时 , 它具 有如无偏性与有效等优良性质 ; 但是运用最小二乘 法的条件比较高 , 如线性回归模型要求满足同方差 性、 随机误差间两两不相关等条件 , 当需要进行回归 系数的显著性推断时 , 通常还要假设残差服从正态 分布 。 尤其是当分布是重尾或有离群点时 , 其结果 的稳健性较差 。 在实际问题中 , 完全满足这些基本 假设的情况并不多见 , 然而一旦违背了某一项基本
在线性条件下 , 给定 x 后 , Y 的 τ 分位数函数为 : Qy ( τ |x )= x ′ β( τ ) τ∈ ( 0 , 1) 在不同的 τ 下 , 就能得到不同的分位数函数 。 随着 τ 由 0 至 1 , 就能得到所有 y 在 x 上的条件分布的轨 迹 , 即一簇曲线 , 而不 象线性回归只能得到一条曲 线。 此理论看似简单 , 可当时想计算出 β( τ )值却不 ( 5) 是一件容易的事 。 随着科学家的努力和计算机技术 的飞速发展 , 现在不少软件都有计算分位数回归的 专门函数 。
第 21 卷第 3 期 2006 年 5 月
统计与信息论坛
Vol . 21 No . 3 M ay , 2006
【 统计理论与方法】
分位数回归及应用简介
李育安1 , 2
( 1. 中国人民武装警察部队学院 , 河北 廊坊 065000 ; 2. 中国人民大学 统计学院 , 北京 100872) 摘要 : 文章介绍了分位数回归法的概念 、算法及主流 统计软件 R 和 SA S 计算 时的语 法 , 并 通过实 例与以 普通最小二乘法为基础的线性回归进行了对比 , 展现了分位数回归的巨大魅力 。 关键词 : 最小二乘法 ; 分位数回归 ; 恩格尔曲线 中图分类号 : O 212 . 1 文献标识码 : A 文章编号 : 1007 -3116( 2006) 03 -0035 -05
β∈ R
τ ( y i - x′ τ ) ) iβ( ∑ρ
-i
图1 “检验函数” ρ τ ( u)示意图 为积分方便 , “检验函数” ρ τ ( u)可改写成 : ρ ( u)=( τ- I (u <0)) u τ = τ ul(u ≥0) +( τ-1) ul(u <0) 由定义( 式 2) , 当 u 取 y -ζ时 , 则有 : ρ ( y -ζ ) τ =τ ( y -ζ ) I (y -ζ≥0) + ( τ-1) ( y -ζ ) I( y -ζ <0) ( 4) 则 Y 的τ 分位数回归 , 就是找到 ζ , 使 E[ ρ ( y -ζ ) ] τ 最小 , 即求满足下式的 ζ : min E[ ρ ( y -ζ ) ] τ ζ ∈R 在公式( 4) 两边同时取期望 , 积分得 : min E[ ρ ( y -ζ ) ] τ ζ ∈R =( τ-1) τ ) dF ( x )+ ∫(y -ζ
样本量 100 1 000 10 000 100 000 单纯性法 ( 秒) 0. 03 0. 57 17 . 96 1 317 . 24 内点法 ( 秒) 0. 04 0. 14 1. 49 24 . 59 预处理后 内点法( 秒) 0. 05 0. 47 1. 61 11 . 69
中 , 可运行过程 P ROC Q UANT REG ② , 其基本语法 为: P ROC QUAN T REG DATA = sas -data set < options > BY variables ; Class variables MODEL response = independents <options ? RUN MODEL 后的( options) 可选择不同的 τ 值: 单个 : Q UANT ILE =0 . 25 多个 : Q UANT ILE =0 . 25 , 0 . 5, 0. 75 所有 : Q UANT ILE = AL L 缺省时 , 进行中位数回归 。 算法的选取则是在 : P ROC QUAN T REG DATA = sas -data set( options) ; ( opt ions) 中: 单纯性法( 缺省值) : ALGORIT HM =SIMP LEX 内点法 : ALGORIT HM =INT ERIOR 预处理后内点法 : ALGORITHM =INT ERIOR PP 光滑法 : ALGORIT HM = SMOOTH ING
基金项目 : 国家自然科学基金( 10431010); 教 育部重点基地重大项目( 05JJD910001) ; 中国人民大学应用统计中心资助 。 作者简介 : 李育安( 1969 ), 男 , 湖北省大悟人 , 副教授 , 博士 , 研究方向 : 复杂数据的统计建模 。
35
统计与信息论坛
的部分位于分位数函数 Q ( τ ) 之上 。 对于任 意 的 0 < τ < 1 , 定 义 “ 检 验 函 数 ” ρ τ ( u)为 : ρ ( u)=( τ- I (u <0)) u τ ( τ -1) u u <0 其中 I (u <0)为示性函数 , 由“ 检验函数 ” 定义( 式 2) 或图 1( 注意 : 同线性方程 y = k x 比较 , τ 相当于直 线的斜率 k ) 。 可以看出 , “ 检验函数” 是分段函数 , 且 ρ ( u)≥ 0 。 τ = τ u u ≥ 0 ( 2)
数 据来 源 : K oenker & Hallock( 2000). Quan tile Reg ression An I ntroduction[ R] . Univsersity of Illinois at Urbana Champaign
下面主要介绍如 何用主流统计 软件 : R①、 SAS 来计算分位数回归 : 1. 在免费软件 R 上的基本语法 : d <-read . t able( file = “D : engel . t xt” , header =T RUE) engel <-data . frame( d) at tach( engel) library ( quant rge) plo t( x , y , t ype = “ n” cex = 0. 4 xlab = “ 家庭收入” ylab = “ 食品支出”) points( x , y cex = 0. 4 col = “ black”) abline( rq( y ~ x tau = 0. 05)col = “ black”) abline( rq( y ~ x t au =0 . 5)1ty =2 col = “black”) abline( rq( y ~ x tau = 0. 95) col = “ black”) abline( lm ( y ~ x lt y = 3 col = “ black”) for ( i in 1 : 1ength( t aus) ) { abline( rq( y ~ x tau =taus[ i] col = “ black”) } legend( 500 , 2000 c( “ 分位数回归” ,“ 中位数” , “ 线性回归” , 1ty =1 : 3) 选读入数据 , 再加载分位数回归软件包 , 然后是 作图 , 拟合不同的分位数回归直线 ( rq) 和用最小二 乘法拟合的直线( 1m ) , 应该注意的是 , 实证部分的 就是这些命令的实现( 见图 2) 。 2. 在 SAS 9 . 1( Window s 版) 的模块 SAS/ STAT dataset
-∞ ζ
的解 β( τ ) , 它的展开式为 :
β( τ ) ∈ Rk
min
′ ( i: y ≥x β( τ ) ) i i

τ |y i - x i β( τ ) | +

( 3)
( i: y <x′β( τ ) )
i i

Hale Waihona Puke Baidu
( 1 -τ ) |y i - x′ τ ) | ] τ∈ ( 0 , 1) i β(
三 、 样本的线性分位回归
对于随机变量 Y 的一个随机样本 { y 1 , y 2 , y3 , … , yn } , 它的中位数线性回归就是求解使下面的绝 对值偏差和为 : min ζ∑ |y i -ζ | 中位数线性回归其实是分位数线性回归的一个特例 ( τ= 1/ 2) , 它在分位数线性回归中占有相当重要 的 地 位 , 对 它 的 研 究 可 追 溯 到 18 世 纪 中 叶 的 Boscovich 研究地球椭圆率时 。 19 世纪 Edgewo rth 对 此有所发展 , 但之后则陷入了计算泥潭 , 太多的未知 数、 太多的超平面 。 直到 20 世纪 40 年代末 , 线性规 划中单纯形法的出现 , 中位数线性回归才得以在实 践中大显身手 。 而 τ 分位数的样本分位数线性回归 则是求满足 : min k
四、 分位数回归的计算
( 6) 目前 , 有 3 种公认有效的计算分位数的算法 ①, 且在统计软件 SAS 、R 或 Splus 上都有可实现的软件 包: ( 一) 单纯性法[ 1-2] 。 任选一个顶点 , 然后沿着可 ( 7) 行解围成的多边形的边界搜索 , 直到找到最优点 。 这 种算法的特点决定其较适合不大的样本量和不多的 变量 。
[ 1]
二、 分位数回归的概念 、 性质
对于任意实值随机变量 Y , 它的所有性质都可 以由 Y 的分布函数 , 即 : F( y )= Pr ( Y ≤ y) 来刻画 。 对于任意的 0 < τ< 1 , 定义随机变量 Y 的 τ 分位数函数 Q ( τ ) 为: Q( τ )= i nf { y: F( y )≥ τ } ( 1) 它完全刻画了随机变量 Y 的性质 , 可以看出[ 注意 : 与 F -1( τ )={ y: F( y )≥ τ } 进行比较] , 存在比例 为τ 的部分小于分位数函数 Q( τ ) , 而比例为 1 -τ

ζ
+∞
( y -ζ ) dF ( x)
ζ -∞ ζ
再对公式( 6)两边同时对 ζ 求导得 : 0 =( 1 -τ ) = F ( ζ )
∫dF(x )-τ ∫dF(x)
-∞
因为分 布函 数 F 是 单调 增函 数 , 则 集合 { y: F( ζ )= τ }中的任意元素都满足条件 , 即可能存在 某个区间上的元素都满足使式( 5)最小 。 而由定义 式( 1) , 若令 Q ( τ )= y 时 , 则 y 是唯一的 。
收稿日期 : 2005 -09 -09
假设 , 那么在应用时就难以得到无偏的 、 有效的参数 估计量 。 还有 , 大量的宝贵数据仅仅只能得到一条 回归曲线 , 而一条曲线所能提供的信息毕竟是有限 的 。 所以人们在使用回归分析时 , 也在不断地探索 更新更好的方法 , 而条件更宽 松 , 挖掘 信息更丰富 者 , 当属分位数回归 。 自从 Koenker 和 Bassett( 1978) 最早提出线性 分位数回归的理论以后 , 当时由于分位数回归本身 计算的复杂性 , 所以它没能象经典的回归分析那样 迅速普及 , 但对它的理论研究一直在不断的完善中 。 随着计算机技术的不断突破 , 分位数回归软件包现 已是主流统计软件 R 、 SAS 等中的座上客了 , 分位数 回归也就自然而然地成为经济 、医学 、 教育等领域的 常用分析工具 。

目前新的 、高效的算 法在不断地发展和涌现中 , 如光滑法( Chen( 2004) ) : 通过光滑目标函数 ρ τ ( . )后 , 再搜寻最优解 。
36
李育安 : 分位数回归及应用简介
( 二) 内点法[ 3] 。 从可行解围成的多边形一个内 点出发 , 但不出边界 , 直到找到最优点 。 它在样本量 大时效率也很高 。 ( 三) 预处理后内点法[ 3] 。 对 β( τ ) 预处理后 , 再 用内点法 , 它适合样本量大于 10 的情形 。 在其它情况相同时 , 不同算法的运算速度是有 差别的 , 见表 1 。 表 1 不同算法在运算速度上的差异表
相关文档
最新文档