分位数回归ppt课件
分位数回归
三、分位数回归的假设检验
分位数回归估计的检验包括两部分:
–一是与均值回归类似的检验,例如拟合优 度检验、拟似然比检验和Wald检验等; –一是分位数回归估计特殊要求的检验,例 如斜率相等检验和斜率对称性检验等。
1、拟合优度检验
ˆ ˆ ( ) X 假设分位数回归直线为 y ( )
将解释变量矩阵和参数向量都分为两部分,即 ˆ ˆ ˆ ˆ ( ) 0( ) Z 1( ) X (1, Z ) 和 ( ) ( 0( ) , 1( ) ) ,且有 y 定义:
拒绝域,LR
2 1
(q )
' 似然比检验另一种表达, LR 2ln n(ln e* e* ln ee) ~ 2 (q)
' e e 有约束模型残差平方和; ** ee无约束模型残差平方和;
3、Wald检验
给定分位数回归参数估计量的渐近方差协 方差矩阵,我们就可以构造Wald形式的统计量 进行各种约束形式的参数检验。 Wald统计量的一种表达形式:
对一个样本,估计的分位数回归式越多, 对被解释变量yt条件分布的理解就越充分。 以一元回归为例,如果用LAD(最小绝对离 差和)法估计的中位数回归直线与用OLS法估计 的均值回归直线有显著差别,则表明被解释变 量yt的分布是非对称的。
如果散点图上侧分位数回归直线之间与下侧 分位数回归直线之间相比,相互比较接近,则说 明被解释变量yt的分布是左偏倚的。反之是右偏 倚的。 对于不同分位数回归函数如果回归系数的差 异很大,说明在不同分位数上解释变量对被解释 变量的影响是不同的。
最小二乘估计假定解释变量只能影响 被解释变量的条件分布的均值位置。 而分位数回归估计能精确地描述解释 变量对于被解释变量的变化范围以及条件 分布形状的影响,能够更加全面的描述被解 释变量条件分布的全貌,而不是仅仅分析 被解释变量的条件期望(均值),也可以 分析解释变量如何影响被解释变量的中位 数、分位数等。不同分位数下的回归系数 估计量常常不同,即解释变量对不同水平 被解释变量的影响不同。
分位数回归分析
分位数回归分析简介分位数回归分析(Quantile Regression Analysis)是一种统计分析方法,用来研究因变量与一个或多个自变量之间关系的非线性问题。
相比于传统的OLS(Ordinary Least Squares)回归分析,分位数回归分析更加灵活,能够提供对不同分位数的因变量条件分布的估计。
分位数回归的定义在传统的OLS回归中,我们通过找到一条线性回归方程来描述自变量和因变量之间的关系。
但是,OLS回归假设因变量在各个条件上的分布是相同的,即在不同的自变量取值下,因变量的条件分布是相同的。
而在分位数回归中,我们允许因变量在不同条件下的分布产生变化,因此可以更准确地描述不同区间的因变量与自变量之间的关系。
分位数回归的目标是找到一组系数,用于描述自变量与因变量在给定分位数时的关系。
分位数回归通过最小化残差的绝对值之和来估计这组系数。
这种方法使得我们能够探索不同分位数下自变量和因变量之间的变化。
分位数回归的优势相比于OLS回归,分位数回归具有以下优势:1.非线性建模能力:分位数回归能够对因变量和自变量之间的非线性关系进行建模,从而更准确地描述实际数据的特征。
2.探索条件分布的能力:由于分位数回归允许因变量在不同条件下的分布变化,因此可以提供对不同分位数的条件分布的估计,进一步帮助我们理解数据的性质。
3.对异常值的鲁棒性:分位数回归对异常值更加鲁棒,因为它通过最小化残差的绝对值之和来估计系数,而不是最小二乘法中常用的最小化残差的平方和。
4.考虑不完全因果关系:分位数回归可以用来研究因变量对自变量的影响程度,考虑到因变量可能由其他未观测的变量影响,从而提供了一种更加全面的因果分析方法。
分位数回归的应用分位数回归广泛应用于各个领域,以下是一些常见的应用场景:1.收入和贫困研究:分位数回归可以用来研究不同收入水平下的贫困率变化,进一步探讨收入不平等的影响因素。
2.教育研究:分位数回归可以用来研究教育水平对工资收入的影响情况,从而分析教育对个体生活水平的提高程度。
分位数回归方法及应用PPT18页
▪
26、要使整个人生都过得舒适、愉快,这是不可能的,因为人类必须具备一种能应付逆境的态度。——卢梭
▪
Байду номын сангаас
27、只有把抱怨环境的心情,化为上进的力量,才是成功的保证。——罗曼·罗兰
▪
28、知之者不如好之者,好之者不如乐之者。——孔子
▪
29、勇猛、大胆和坚定的决心能够抵得上武器的精良。——达·芬奇
▪
30、意志是一个强壮的盲人,倚靠在明眼的跛子肩上。——叔本华
谢谢!
18
分位数回归方法及应用
16、人民应该为法律而战斗,就像为 了城墙 而战斗 一样。 ——赫 拉克利 特 17、人类对于不公正的行为加以指责 ,并非 因为他 们愿意 做出这 种行为 ,而是 惟恐自 己会成 为这种 行为的 牺牲者 。—— 柏拉图 18、制定法律法令,就是为了不让强 者做什 么事都 横行霸 道。— —奥维 德 19、法律是社会的习惯和思想的结晶 。—— 托·伍·威尔逊 20、人们嘴上挂着的法律,其真实含 义是财 富。— —爱献 生
第04章分位数回归模型
下式(目标函数)最小,
T
T
Q (1 )uˆ( )t uˆ( )t
uˆ( )t 0
uˆ( )t 0
T
T
(1 )(yt X βˆ ( ) )
( yt X βˆ ( ) )
t:yt X ˆ( )
t:yt X ˆ( )
ห้องสมุดไป่ตู้
(15.3)
其中 uˆ( )t 表示第分位数回归方程对应的残差。(0, 1)。第分位数的回归方程表达式是
2
相对于最小二乘估计,分位数回归模型具有四个方面的优 势:
(1)分位数模型特别适合具有异方差性的模型。 (2)对条件分布的刻画更加的细致,能给出条件分布的大 体特征。每个分位点上的回归都赋予条件分布上某个特殊点 (中央或尾部)一些特征;把不同的分位点上的分位数回归 集中起来就能提供一个关于条件分布的更完整的统计特征描 述。并且不同分位点下所给出的参数估计本身也可能有值得 进一步探讨的意义。 (3)分位数回归并不要求很强的分布假设,在扰动项非正 态的情形下,分位数估计量可能比最小二乘估计量更为有效。 (4)与最小二乘法通过使误差平方和最小得到参数的估计 不同,分位数回归是通过使加权误差绝对值之和最小得到参
6
15.5 分位数回归模型的检验 评价分位数回归函数好坏的统计量主要有 3 个,拟合优度、拟似然比检验和 Wald 检验。 (1)拟合优度(Goodness-of-Fit) Koenker 和 Machado(1999)提出了分位数回归的拟合优度的概念。它与一般回归分析中的 R2 很类似。 假设分位数回归直线为
即 F(y(τ))的反函数是 y(τ)。当 τ=0.5 时,y(τ) 是 y 的中位数。τ= 0.75 时,y(τ) 是 y 的第 3/4 分位数,τ= 0.25 时, y(τ) 是 y 的第 1/4 分位数。若 y 服从标准正态分布,y(0.5) = 0,y(0.95) =1.645,y(0.975) =1.960。
分位数回归估计课件
在某些情况下,分位数回归的结果可能对模型假设的违背较为敏感。
分位数回归与其他方法的比较
与普通最小二乘法的比较
普通最小二乘法只关注数据的均值和方差,而 分位数回归可以提供更全面的信息。
与核密度估计的比较
核密度估计主要用于探索性数据分析,而分位 数回归主要用于因果关系推断。
与决策树和随机森林的比较
这些方法主要用于分类问题,而分位数回归主要用于回归问题。
05 分位数回归的未来发展
分位数回归的理论研究
01
深入研究分位数回归的理论基础,包括其假设、性 质和限制条件,以完善其理论体系。
02
探讨分位数回归与其他统计方法的结合,如混合模 型、贝叶斯方法等,以拓展其应用范围。
03
针对分位数回归的统计推断问题,研究更有效的推 断方法和理论。
灵活性
可以估计多个分位数,而不仅 仅是均值。
无分布假设
不需要假定误差项服从特定的 分布,比如正态分布。
刻画异质性
可以更好地捕捉数据的异质性 ,提供更全面的信息。
分位数回归的缺点
计算复杂度
相对于普通最小二乘法,计算成本较高。
解释性
分位数回归的系数较难解释,不如普通最小二乘法直观。
对离群值的敏感性
离群值可能会对分位数回归的结果产生较大影响。
$Y = Xbeta + epsilon$,其中$Y$是因变量,$X$是自变量,$beta$是待估 计的参数,$epsilon$是误差项。
非线性分位数回归模型
通过引入非线性函数或变换,使得模型能够更好地拟合非线性关系。
分位数回归的估计方法
最小二乘法
通过最小化残差平方和来估计参数。
迭代加权最小二乘法
分位数回归
896.4746 476.3200
454.4782 386.3602
584.9989 423.2783
第16章 分位数回归
16.1 问题的提出
install.packages("quantreg") library(quantreg) data(engel) attach(engel) hist(foodexp) curve(density(foodexp),add=T) plot(income,foodexp,xlab="Household Income",ylab="Food Expenditure",type = "n", cex=.5) points(income,foodexp,cex=.5,col="blue")
第16章 分位数回归
16.2 总体分位数和总体中位数 另外,如果随机变量 y 分布是对称的,那么其均值与中位数是相同的。当其中位数小于均值时,分布是右
偏的。反之,分布是左偏的。一般来讲,工资的分布是右偏的(如图16-3),所以如果单纯以平均工资来反映 工资的话,这是很不恰当的,因此美国等一些国家除了公布平均工资外,还会同时公布工资的中位数和1/4、3/ 4分位数等。
表 16-1 恩格尔定律的部分数据
No. 1 2 3 4 5 6 7 8 9 10
收入 420.1577 541.4117 901.1575 639.0802 750.8756 945.7989 829.3979 979.1648 1309.8789 1492.3987
消费 255.8394 310.9587 485.6800 402.9974 495.5608 633.7978 630.7566 700.4409 830.9586 815.3602
分位数回归
分位数回归参数估计的思想
与LR估计量明显不同的QR估计量的特点在于, 在QR中数据点到回归线距离的测量通过垂直距离 的加权总和(没有平方)而求得,这里赋予拟合 线之下的数据点的权重是1-τ,而赋予拟合线之上 的数据点的权重则是τ.对于τ的每一个选择,都会 产生各自不同的条件分位数的拟合函数,这一任 务是为每一个可能的寻找适合的估计量。
示,对于条件均值函数E(Y|Xx)xi' ,求解
^
argminRk
n
(Yi xi')2
i1
得参数估计值。
分位数回归是对如上简单形式的扩展:
^
argm inRk
n
(Yi xi')
i1
通过对上式求解得到其参数估计值。
参数意义解释:当其它协变量保持不变时,这一估计差异 来自一个连续型协变量的单位增量,或者虚拟变量值从0 到1的变化。
人们当然也关心解释变量与被解释变量分 布的中位数,分位数呈何种关系。这就是分位 数回归,它最早由凯恩克(Koenker Roger)和 巴西特(Bassett Gilbert Jr)于1978年提出, 是估计一组回归变量X与被解释变量Y的分位数 之间线性关系的建模方法,强调条件分位数的 变化。
中位数是一个特殊的分位数,它表示 一种分布的中心位置。中位数回归是分位 数回归的一种特殊情况,其他分位数则可 以用来描述一种分布的非中心位置。第p 个百分位数表示因变量的数值低于这一百 分位数的个数占总体的p%.因此,分位数 可以指定分布中的任何一个位置。
最小二乘估计假定解释变量只能影响 被解释变量的条件分布的均值位置。
而分位数回归估计能精确地描述解释 变量对于被解释变量的变化范围以及条件 分布形状的影响,能够更加全面的描述被解 释变量条件分布的全貌,而不是仅仅分析 被解释变量的条件期望(均值),也可以 分析解释变量如何影响被解释变量的中位 数、分位数等。不同分位数下的回归系数 估计量常常不同,即解释变量对不同水平 被解释变量的影响不同。
分位数回归解读
分位数回归解读
分位数回归(Quantile regression)是一种回归分析方法,最早由Roger Koenker和Gilbert Bassett于1978年提出。
相较于传统的回归分析,分位数回归研究自变量与因变量的条件分位数之间的关系,而不仅仅是条件期望。
这使得分位数回归能够更加全面地描述因变量条件分布的全貌,而不仅仅是分析条件期望。
分位数回归的主要优势有以下两点:
1. 能够更加全面地描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望。
通过分析不同分位数下的回归系数估计量,可以了解解释变量对不同水平被解释变量的影响程度,从而得到更加丰富的信息。
2. 分位数回归对离群值的影响较小。
在传统最小二乘回归中,离群值会对估计结果产生较大影响。
而分位数回归则可以通过选择合适的分位数,使得离群值对估计结果的影响减小,从而提高模型的鲁棒性。
在实际应用中,分位数回归可以用于各个领域,例如经济学、金融学、医学、社会科学等。
通过对自变量与因变量的条件分位数之间的关系进行建模,分位数回归能够为研究者提供更加全面和深入的分析结果。
1。
第04章 分位数回归模型
下式(目标函数)最小,
Q
ˆ( ) t 0 u
(1 )uˆ ( )t uˆ ( )t
ˆ( ) t 0 u
T
T
t: yt X ( )
ˆ
T
ˆ 0 .( 5y t X β ) (0 . )5
. )5
0 . 5yt X βˆ (0 . )5
t 1
T
ˆ ˆ ˆ (0.5)t = X β y (0.5) 称作中位数回归方程, β (0.5) 称作中位数回归系数估计量。
ˆ ( )t 。 一旦得到估计的分位数回归方程,就可以计算分位数回归的残差 u
和刻画共同基金投资类型的指数模型。
2
相对于最小二乘估计,分位数回归模型具有四个方面的 优势: (1)分位数模型特别适合具有异方差性的模型。 (2)对条件分布的刻画更加的细致,能给出条件分布的 大体特征。每个分位点上的回归都赋予条件分布上某个特殊 点(中央或尾部)一些特征;把不同的分位点上的分位数回 归集中起来就能提供一个关于条件分布的更完整的统计特征 描述。并且不同分位点下所给出的参数估计本身也可能有值 得进一步探讨的意义。 (3)分位数回归并不要求很强的分布假设,在扰动项非 正态的情形下,分位数估计量可能比最小二乘估计量更为有 效。 (4)与最小二乘法通过使误差平方和最小得到参数的估 计不同,分位数回归是通过使加权误差绝对值之和最小得到 参数的估计,因此估计量不容易受到异常值的影响,从而估 计更加稳健。
i 1,2,, p 1
如果对于给定的X,Y的分布是对称的,则应该有:
( β ( ) β (1 )) / 2 β (1 / 2)
计量分位数回归 eviews课件
(4.7.3)中条件关系式 z 为 yi y,当 yi y 时,I(yi y) = 1,否则
取值为0。 12
相应地,经验分位数为:
qN ( ) inf{ y : FN ( y) } ,0 1
(4.7.6)
式(4.7.3)可以等价地表示为下面的形式:
qN
(
)
arg
min
i:
yi
7
中位数是一个特殊的分位数,它表示一种分 布的中心位置。中位数回归是分位数回归的 一种特殊情况,其他分位数则可以用来描述 一种分布的非中心位置。第p个百分位数表 示因变量的数值低于这一百分位数的个数占 总体的p%.因此,分位数可以指定分布中的 任何一个位置。
8
4.7.1 分位数回归的基本思想和系数估计
V yi xiβ (1 ) yi xiβ
i: yi xiβ
i: yi xiβ
F(y)的 分位数可以由最小化关于 的目标函数得到,即:
q(
)
arg
min
y
y
dF
(
y)
(1
)
y
y
dF
(
y)
(4.7.3)
arg min ( y )dF ( y)
其中,argmin{}函数表示取函数最小值时 的取值, (u) u( I(u < 0)) 称为检查函数(check function),依
假设随机变量 Y 的概率分布为:
F( y) Prob(Y y) Y 的 分位数定义为满足 F(y) 的最小 y 值,即:
(4.7.1)
q( ) inf{ y : F( y) } ,0 1
(4.7.2)
9
图4.7.1 cs 变量的累积分布函数F(y) 图4.7.2 cs 变量的分位数分布函数q()
第26章分位数回归
i:y q yi i:y (1 q) yi
n n
i i
13
ˆq y
例 如果 q 1 4 ,则满足“ yi ”条件的观测值只得到1 4 的权 重,而满足“ yi ”条件的其余观测值则得到 3 4 的权重。 因为估计的是1 4 分位数(位于总体的底部),故较大的观测值得 到的权重较小,而较小的观测值得到的权重较大。 证明:将目标函数中的绝对值去掉可得
3
如果 q 1 2 ,则为中位数,正好将总体分为两个相等的部分。 如果 Fy () 严格单调递增,则有
yq Fy1 (q )
其中, Fy1 () 为 Fy () 的逆函数,参见图 26.1。
4
图 26.1 总体 q 分位数与累积分布函数
5
对于回归模型,记条件分布 y | x 的累积分布函数为 Fy | x () 。 条件分布 y | x 的总体 q 分位数,记为 yq ,满足以下定义式:
2
26.2 总体分位数 假设Y 为连续型随机变量,其累积分布函数为 Fy () 。
Y的 “总体 q 分位数” (population qth quantile,0 q 1), 记为 yq ,
满足以下定义式:
q P(Y yq ) Fy ( yq )
其中小于或等于 yq 总体 q 分位数 yq 正好将总体分布分为两部分, 的概率为 q,而大于 yq 的概率为 (1 q) 。
i1 ( yi )
n
2
1 n y i 1 yi n
样本中位数可视为“最小化残差绝对值之和”问题的解:
min
i1 yi
n
median y1 , y2 , , yn
分位数回归ppt课件
e e
' * *
有约束模型残差平方和 无约束模型残差平方和
e 'e
Wald检验
H C 0:g
C 0 如果约束条件为真,则 g 不应该显著异于
M L E
L E 零,其中 M L E 是无约束极大似然估计值。当 gM C
显著异于零时,约束条件无效,拒绝原假设。
' ee 有 约 束 模 型 残 差 平 方 和 ; ** 无 ee 约 束 模 型 残 差 平 方 和 ;
3、Wald检验
给定分位数回归参数估计量的渐近方差协 方差矩阵,我们就可以构造Wald形式的统计量 进行各种约束形式的参数检验。 Wald统计量的一种表达形式:
' ' ne e e e ** 2 w ~ q ' e e
二、分位数回归及其估计
损失函数
• 定义 在统计学中损失函数是一种衡量损失和错 误程度的函数。常常记作 L ( , a ) 。
损失函数常用形式
分位数回归参数估计的思想
对于之前的线性模型来说,就是使 得残差平方和最小,即损失函数为平方 损失函数,此为最小二乘回归。而如果 损失函数为绝对值损失函数,则称为最 小一乘回归,它使得残差绝对值的和最 小。最小一乘回归是分位数回归的特例。
中位数是一个特殊的分位数,它表示 一种分布的中心位置。中位数回归是分位 数回归的一种特殊情况,其他分位数则可 以用来描述一种分布的非中心位置。第p 个百分位数表示因变量的数值低于这一百 分位数的个数占总体的p%.因此,分位数 可以指定分布中的任何一个位置。
分位数的性质
• 单调同变性 如果对一个随机变量进行函数h的单调转换 (如指数或对数函数),分位数可通过对分位数 函数进行同样的转换而得利。换言之,如果q是Y 的第p分位数,那么h(q)是h(Y)的第p分位数。 • 对离群值的不敏感性 假如有中位数为m的样本数据x1,…,xn,我们 将一个位于中位数之上的数据值xi替换成同样在 中位数之上的其他值,从而修改了样本。同样的, 我们也可以将一个位于中位数之下的数据值替换 成同样在中位数之下的其他值。这样的修改对样 本中位数没有任何影响。
第26章分位数回归
i:y q( yi ) i:y (1 q)( yi )
n n
i i
对 求一阶导数可得
i:y q(1) i:y (1 q) 0
n n
i i
14
假设 y( k ) y( k 1) ,其中 y( k ) 为第 k 个最小观测值,则共有 k 个 观测值满足“ yi ” , (n k ) 个观测值满足“ yi ” ,故
(n k )q k (1 q ) 0
经整理可得
k nq
ˆ q ,即样本分位数。 k 必须是整数。故最优解 y[ nq ] y
为证明二阶条件满足,只要说明目标函数为凸函数即可。
15
定义函数 q () 为
q yi , 若 yi q ( yi ) (1 q ) y , 若 y i i
n
i i q i i q i q i q
ˆ n q yi xi i: y xˆ (1 q) yi xiˆq q
ˆ q 为样本 q 分位数,上式第二项的分子为 q 分位数回归 其中, y
目标函数的最小值 (sum of weighted deviations about estimated quantiles) , 而 分 母 为 “ sum of weighted deviations about raw quantiles” 。
7
根据定义,条件分位数函数 yq ( x ) 满足
q P y yq ( x )
(条件分位数的定义) (代入 y x u ) (移项) (代入 u x ) (两边同除以 x 0 ) (累积分布函数的定义)
基于Eviews的分位数回归分析课件
基于Eviews的分位数回归分析
• 考察此最小化问题的一阶条件为:
0d( Fy)(1)d( Fy)
(4.7.4)
y
y
(1F()) (1)F()F()
• 即F() = ,也就是说F(Y)的第 个分位数是上述优化问题的解。
基于Eviews的分位数回归分析
系数协方差的估计
• 1.独立同分布设定下协方差矩阵的直接估计方法 • (1)Siddiqui 差商法 • (2)稀疏度的核密度估计量 • 2.独立但不同分布设定下协方差矩阵的直接估计方法 • 3.自举法(Bootstrap) • (1)X-Y自举法 • (2)残差自举方法 • (3)马尔可夫链边际自举法
• 1. 方法选择
• 为了使用分位数回归方法估计方程,在方程设定对话框的估计方法 中选择“QREG”,打开分位数回归估计对话框:
•
图4.15 分位数回归
• “Quantile to estimate”后面输入值,可以输入0~1之间的任意数值, 默认值是0.5,即进行中位数回归。
基于Eviews的分位数回归分析
0.24 (0.25)
ˆ2
0.62
0.93
0.74
0.46
(0.001) (0.00) (0.0002) (0.16)
0.13
0.08
0.11
0.13
ˆ3
(0.001) (0.08) (0.009) (0.03)
R2
0.99
0.96
0.97
0.96
注:括号内为弹性系数的t值; Quant20, Quant50, Quant80分别
基于Eviews的分位数回归分析
模型评价和检验
• 1.拟合优度
分位数回归.
2、不同分位点拟合曲线的比较# 散点图attach(engel) # 打开engel数据集,直接运行其中的列名,就可以调用相应列plot(income,foodexp,cex=0.25,type="n", # 画图,说明①xlab="Household Income", ylab="Food Expenditure")points(income,foodexp,cex=0.5,col="blue") # 添加点,点的大小为0.5abline( rq(foodexp ~ income, tau=0.5), col="blue" ) # 画中位数回归的拟合直线,颜色蓝abline( lm(foodexp ~ income), lty = 2, col="red" ) # 画普通最小二乘法拟合直线,颜色红taus = c(0.05, 0.1, 0.25, 0.75, 0.9, 0.95)for(i in 1:length(taus)){ # 绘制不同分位点下的拟合直线,颜色为灰色abline( rq(foodexp ~ income, tau=taus[i]), col="gray" )}detach(engel)3、穷人和富人的消费分布比较# 比较穷人(收入在10%分位点的那个人)和富人(收入在90%分位点的那个人)的估计结果# rq函数中,tau不在[0,1]时,表示按最细的分位点划分方式得到分位点序列z = rq(foodexp ~ income, tau=-1)z$sol # 这里包含了每个分位点下的系数估计结果x.poor = quantile(income, 0.1) # 10%分位点的收入x.rich = quantile(income, 0.9) # 90%分位点的收入ps = z$sol[1,] # 每个分位点的tau值qs.poor = c( c(1,x.poor) %*% z$sol[4:5,] ) # 10%分位点的收入的消费估计值qs.rich = c( c(1,x.rich) %*% z$sol[4:5,] ) # 90%分位点的收入的消费估计值windows(, 10,5)par(mfrow=c(1,2)) # 把绘图区域划分为一行两列plot(c(ps,ps),c(qs.poor,qs.rich),type="n", # type=”n”表示初始化图形区域,但不画图xlab=expression(tau), ylab="quantile")plot(stepfun(ps,c(qs.poor[1],qs.poor)), do.points=F,add=T)plot(stepfun(ps,c(qs.poor[1],qs.rich)), do.points=F,add=T, col.hor="gray", col.vert="gray")ps.wts = ( c(0,diff(ps)) + c(diff(ps),0) )/2ap = akj(qs.poor, z=qs.poor, p=ps.wts)ar = akj(qs.rich, z=qs.rich, p=ps.wts)plot(c(qs.poor,qs.rich), c(ap$dens, ar$dens),type="n", xlab="Food Expenditure", ylab="Density")lines(qs.rich,ar$dens,col="gray")lines(qs.poor,ap$dens,col="black")legend("topright", c("poor","rich"), lty=c(1,1),col=c("black","gray"))上图表示收入(income)为10%分位点处(poor,穷人)和90%分位点处(rich,富人)的食品支出的比较。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分位数回归估计与经典模型的最小二乘估 计相比较,有许多优点。
当数据出现尖峰或厚尾的分布、存在显 著的异方差等情况,最小二乘估计将不再具 有优良性质,且稳健性非常差。分位数回归 系数估计结果比OLS估计更稳健,而且,分 位数回归对误差项并不要求很强的假设条件, 因此对于非正态分布而言,分位数回归系数 估计量则更加稳健。
i
n
i : Y i
上式可等价为:
min (Yi )
R
i1
一般的
uu I u 0
分位数回归的损失函数为:
其中, I Z 为示性函数,Z是指示关系式。 当分位数为0.5时,就是最小一乘回归,即 中位数回归。
普通最小二乘估计 基本思想 目的 原理 算法 前提假设 假设要求 检验类型 承载信息 极端值 异方差 拟合曲线 计算方法
分位数回归估计
设法使所构建的方程和样本之间的距 同普通最小二乘估计方法 离最短 借助数学模型对客观世界所存在的事 同普通最小二乘估计方法 物间的不确定关系进行数量化描写 以平均数为基准,求解最短距离 最小二乘法 独立、正态、同方差 强假设 参数检验 描述平均的总体信息 无法考虑极端值的影响 影响大 只能拟合一条曲线 求偏导解行列式,算法完备 以不同的分位数为基准,求解最 短距离 加权最小一乘法 独立 弱假设 非参数检验 充分体现整个分布的各部分信息 可以充分考虑极端值的影响 影响小 可以拟合一簇曲线 自助方法估计标准误差,多种算 法求解目标函数
min ( yi )2
R
i 1 n
样本中位数回归是使误差绝对值之和最小,即
min | yi |
R
i 1 n
样本分位数回归是使加权误差绝对值之和最小,即
m i n { | Y | ( 1) | Y | } i i
R i : Y
最小二乘估计假定解释变量只能影响 被解释变量的条件分布的均值位置。 而分位数回归估计能精确地描述解释 变量对于被解释变量的变化范围以及条件 分布形状的影响,能够更加全面的描述被解 释变量条件分布的全貌,而不是仅仅分析 被解释变量的条件期望(均值),也可以 分析解释变量如何影响被解释变量的中位 数、分位数等。不同分位数下的回归系数 估计量常常不同,即解释变量对不同水平 被解释变量的影响不同。
分位数回归参数估计的思想
与LR估计量明显不同的QR估计量的特点在于, 在QR中数据点到回归线距离的测量通过垂直距离 的加权总和(没有平方)而求得,这里赋予拟合 线之下的数据点的权重是1-τ,而赋予拟合线之上 的数据点的权重则是τ.对于τ的每一个选择,都会 产生各自不同的条件分位数的拟合函数,这一任 务是为每一个可能的寻找适合的估计量。
二、分位数回归及其估计源自 损失函数• 定义 在统计学中损失函数是一种衡量损失和错 误程度的函数。常常记作 L ( , a ) 。
损失函数常用形式
分位数回归参数估计的思想
对于之前的线性模型来说,就是使 得残差平方和最小,即损失函数为平方 损失函数,此为最小二乘回归。而如果 损失函数为绝对值损失函数,则称为最 小一乘回归,它使得残差绝对值的和最 小。最小一乘回归是分位数回归的特例。
中位数是一个特殊的分位数,它表示 一种分布的中心位置。中位数回归是分位 数回归的一种特殊情况,其他分位数则可 以用来描述一种分布的非中心位置。第p 个百分位数表示因变量的数值低于这一百 分位数的个数占总体的p%.因此,分位数 可以指定分布中的任何一个位置。
分位数的性质
• 单调同变性 如果对一个随机变量进行函数h的单调转换 (如指数或对数函数),分位数可通过对分位数 函数进行同样的转换而得利。换言之,如果q是Y 的第p分位数,那么h(q)是h(Y)的第p分位数。 • 对离群值的不敏感性 假如有中位数为m的样本数据x1,…,xn,我们 将一个位于中位数之上的数据值xi替换成同样在 中位数之上的其他值,从而修改了样本。同样的, 我们也可以将一个位于中位数之下的数据值替换 成同样在中位数之下的其他值。这样的修改对样 本中位数没有任何影响。
分位数回归原理
假设随机变量的分布函数为:
F () y = P r o b ( Y y )
Y的
分位数的定义为:
Q ( ) = i n f { y : F ( y ) } , 0 < < 1
回归分析的基本思想就是使样本值与拟合值 之间的距离最短,对于Y的一组随机样本 , 样本均值回归是使误差平方和最小,即
最小二乘回归和最小一乘回归的损失函数是 对称的,而一般的分位数回归的损失函数不是 对称的,而是由两条从原点出发的分别位于第 一和第二象限的射线组成,它们的斜率之比为 : 1 。
现假设因变量Y由k个自变量组成的矩阵X线性表 ' E ( YX | x ) x ,求解 示,对于条件均值函数 i
n ' 2 a r g m i n ( Y x ) k 得参数估计值。 i i R i 1 ^
分位数回归是对如上简单形式的扩展:
n ' a r g m i n ( Y x ) k i i R i 1 ^
分位数回归
一、分位数回归的提出 二、分位数回归及其估计 三、分位数回归的假设检验
一、分位数回归的提出
传统的回归分析主要关注均值,即采用因 变量条件均值的函数来描述自变量每一特定数 值下的因变量均值,从而揭示自变量与因变量 的关系。这类回归模型实际上是研究被解释变 量的条件期望,描述了因变量条件均值的变化。 人们当然也关心解释变量与被解释变量分 布的中位数,分位数呈何种关系。这就是分位 数回归,它最早由凯恩克(Koenker Roger)和 巴西特(Bassett Gilbert Jr)于1978年提出, 是估计一组回归变量X与被解释变量Y的分位数 之间线性关系的建模方法,强调条件分位数的 变化。