分位数回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
896.4746 476.3200
454.4782 386.3602
584.9989 423.2783
第16章 分位数回归
16.1 问题的提出
install.packages("quantreg") library(quantreg) data(engel) attach(engel) hist(foodexp) curve(density(foodexp),add=T) plot(income,foodexp,xlab="Household Income",ylab="Food Expenditure",type = "n", cex=.5) points(income,foodexp,cex=.5,col="blue")
第16章 分位数回归
16.2 总体分位数和总体中位数 另外,如果随机变量 y 分布是对称的,那么其均值与中位数是相同的。当其中位数小于均值时,分布是右
偏的。反之,分布是左偏的。一般来讲,工资的分布是右偏的(如图16-3),所以如果单纯以平均工资来反映 工资的话,这是很不恰当的,因此美国等一些国家除了公布平均工资外,还会同时公布工资的中位数和1/4、3/ 4分位数等。
表 16-1 恩格尔定律的部分数据
No. 1 2 3 4 5 6 7 8 9 10
收入 420.1577 541.4117 901.1575 639.0802 750.8756 945.7989 829.3979 979.1648 1309.8789 1492.3987
消费 255.8394 310.9587 485.6800 402.9974 495.5608 633.7978 630.7566 700.4409 830.9586 815.3602
No. 11 12 13 14 15 16 17 18 19 20
收入 502.8390 616.7168 790.9225 555.8786 713.4412 838.7561 535.0766 596.4408 924.5619 487.7583
消费 338.0014 412.3613 520.0006 452.4015 512.7201 658.8395 392.5995 443.5586 640.1164 333.8394
-1.24081576 -0.68239663 0.06231451 0.71881867
第16章 分位数回归
16.4 分位数回归原理
∑ 离差绝对值 y − α 在中位数时取到最小值。因此,中位数回归估计量可以通过最小绝对离差法(least
第16章 分位数回归
16.2 总体分位数和总体中位数
定义 16- 1:对于一个连续随机变量 y ,其总体第τ 分位数 y(τ ) 的定义是: y 小于等于 y(τ ) 的概率是τ ,即
τ = P( y ≤ y(τ ) ) = F ( y(τ ) )
其中 P() 表示概率, F ( y(τ ) ) 表示 y 的累积分布函数(cdf)。 比如 y(0.25) = 3 ,则意味着 y ≤ 3 的累积概率是 0.25,即 P( y ≤ 3) = 0.25 。并且, y(τ ) = F −1( y(τ ) ) ,即 F ( y(τ ) ) 的反函数是 y(τ ) 。 当τ = 0.5 时, y(τ ) 是 y 的中位数。τ = 0.75 时, y(τ ) 是 y 的第 3/4 分位数,τ = 0.25 时, y(τ ) 是 y 的第 1/4 分位数。若 y 服从标准正态分布,则 y(0.5) = 0 , y(0.95) = 1.645 , y(0.975) = 1.96 。
No. 21 22 23 24 25 26 27 28 29 30
收入
消费
692.6397 466.9583
997.8770 543.3969
506.9995 317.7198
654.1587 424.3209
933.9193 518.9617
433.6813 338.0014
587.5962 419.6412
表 16-3 连续样本经验分位数
Type4 Type5
m=0,p[k]=k / n. 也就说经验分布函数的线性插值。 m = 1/2,p[k] = (k - 0.5) / n. 这是一个分段线性回归函数。水文研究比 较常用该方法。
Type6
m = p,p[k] = k / (n + 1). 因此,p[k] = E[F(x[k])]. Minitab and SPSS 用这种方法
(Median Regression),利用最小绝对偏差估计(Least absolute
分位数 deviance, LAD)。在此基础上,1978年Koenker和Bassett把中位数回归推广到了一般的
回归(Quantile Regression)上。分位数回归是估计一组回归变量X与被解释变量Y的分位数之间关
Type9
m = p/4 + 3/8,p[k] = (k - 3/8) / (n + 1/4). 当x是正态分布是,该估计结果对期望顺序统计量是近似无偏的。
我们利用quantile()函数求经验分位数
> quantile(x, probs = c(0.1,0.25,0.5,0.75),type=2) 10% 25% 50% 75%
图16-1 消费核密度函数图 图16-2 收入消费散点图
图16-1是家庭消费支出的核密度函数图,从该图可以看出消费支出不符合正态性假设,是一个右偏 的分布。另外,从图16-2收入消费散点图来看,消费支出和收入之间存在着异方差,即随着收入的 增加,消费之间的差异在扩大。对于这样的数据,如果直接利用传统的均值回归方法会有问题,此 处利用分位数回归是比较合适的
经验分布函数的反函数. 假如g=0,则γ = 0;g取其他值时,γ 取1。 与Type 1类似,但是在非连续处取均值,当g=0,则γ = 0.5; g取其他值时,γ取1。 SAS定义方法:最近的偶数顺序统计量。假如g=0,则γ = 0并 且j是偶数,γ = 0;其他情况,γ取1。
第16章 分位数回归
第16章
分位数回归
方匡南 朱建平 姜叶飞
传统的线性回归模型描述了因变量的条件均值分布与自变量X的关系,为了和分位数回归相区别,因此
均值回归 OLS 把传统的回归又称为
(Mean Regression)。其中,
是估计回归系数的最基本
最 佳 线 方 法 。 如 果 模 型 的 随 机 误 差 项 来 自 均 值 为 零 、 方 差 相 同 的 分 布 , 那 么 回 归 系 数 的 O L S 估 计 为
(1)离散样本分位数 对于types 1, 2 and 3, Q[i](p)是关于p的离散函数,当i = 1和2时, m = 0,当i = 3时, m = -1/2.
Type1 Type2 Type3
表 16-2 离散样本经验分位数
quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE, names = TRUE, type = 7, ...) 其中,type是1到9的取值,代表不同的经验分位数的算法,默认是第7种算法,具体 的各种算法如下表。
Type7
m = 1-p,p[k] = (k - 1) / (n - 1). 此时, p[k] = mode[F(x[k])]. S语言使 用此方法.
Type8
m = (p+1)/3,p[k] = (k - 1/3) / (n + 1/3). 则p[k] =~ median[F(x[k])].这 个分位数估计方法近似与中位数无偏,而不管x的分布。
其中[i]表示不大于 i 的最大整数。给定一个具体的随机变量 y ,对于一个容量为 T 的
样本,则 y 的第τ 分位数的序号 i 的计算方法如下。在大样本情况下,各方法收敛到同一值。
连续样本的经验分位数利用表 16-3 的方法计算。
第16章 分位数回归
16.3 样本(经验)分位数估计
第16章 分位数回归
16.4 分位数回归原理
Koenker 和 Bassett(1978)证明,若用 yˆ(τ ) 表示 y 的τ 分位数回归估计量,则对于以检查
16.3 样本(经验)分位数估计
(2)连续样本分位数 对于types 4-9, Q[i](p)是关于p的连续函数, 以及对应的gamma = g和 m 详见下表。样
本(经验)分位数可以通过点(p[k],x[k])之间进行线性插值得到,其中x[k]是第k个顺序统 计量。关于p[k]的具体表达式详见下表。
其中 F ( y(τ ) | X ) 和 F −1( y(τ )t | X ) 分别是 y 在给定 X 条件下的累积概率分布函数(cdf)和其 反 函 数 。 则 y(τ ) | X 称 作 被 解 释 变 量 yt 对 X 的 条 件 分 位 数 函 数 。 而 F ′( y(τ )t | X ) = f ( y(τ )t | X ) 则称作分位数概率密度函数。
absolute deviation, LAD)估计
∑ 对于线性回归模型 yt = X′tβ + µt 。通过求 yt − X t′βˆ(0.5) 最小,得到 β 的中位数回归系数估计量
βˆ(0.5) ,从而得到 yt 的中位数回归拟合值 (yˆ(0.5)t X ) = Xt βˆ(0.5) 。
性无偏估计(BLUE);如果随机误差项是正态分布,那么回归系数的OLS估计与MLE估计一致
最小方差无偏估计 ,均为
(MVUE)。此时它具有无偏性、有效性等优良性质。
但实际中,假设不能够满足时,为了弥补普通最小二乘法(OLS)在回归分析中的缺陷,1818年Laplac
中 位 数 回 归 e 提 出 了
第16章 分位数回归
16.4 分位数回归原理
现在我们把中位数回归推广到分位数回归。对于回归模型,被解释变量 y 对以 X 为条
件的第τ 分位数用函数 y(τ ) | X 表示,其含义是:以 X 为条件的 y 小于等于 y(τ ) | X 的概率 是τ ,即 p( y ≤ y(τ ) | X ) = F ( y(τ ) | X ) = τ ,或者可以写成 y(τ )t | X = F −1( y(τ )t | X )
图16-3 美国2012家庭年收入分布 注:该图来自美国劳工与统计调查局
第16章 分位数回归
16.3 样本(经验)分位数估计 对一个离散的随机变量 y ,取其容量为T 的样本序列( y1,K , yT ),计算第τ 分位数的
方法如下:
首先将数据从小到大排序,标号为 i , i = 1, 2,K ,T 。然后利用表 16-2 所列的方法计 算随机变量 y 的第τ 分位数的排列序号的 i ;如果 i 为整数,则随机变量 y 的第τ 分位数即 为 yi,如果 i 不是整数,则随机变量 yt 的第τ 分位数为: y(τ ) = y[i] + (i − [i])( y[i]+1 − y[i] )
系的建模方法。本章主要介绍基本的分位数回归及其应用。
1ห้องสมุดไป่ตู้.1 问题的提出
例16-1:恩格尔定律 德国统计学家恩格尔 ( Engel)使用收集的235个比利时家庭的收入与食物支出数据得 出其著 名的恩格尔定律其著名的恩格尔定律:收入越高的家庭将其收入用于食物支出的比例越低。