分位数回归

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ r ) R ˆ r ) ~ 2 (q) ˆ W ( R ( X X ) R ( R
2 1 1 a
拒绝域,
2 W (q)
系列分位数回归检验
前面的分析主要集中在单个分位数回归模 型的假设检验上,而有些时候也需要对一系列 分位数回归的回归系数进行联合检验。比如, 需要通过检验不同分位数模型的斜率是否相等 来判断一个模型是否具有位移特征。同时考虑 多个分位数回归式称作系列分位数回归分析。
因为 ,所以RQ *( 之间,解释 ˆ τ)的值在0和1 ~ Q( ) ( ) 变量的作用越强, 越远远小于 , R*(τ)越接 近于1,反之,越接近于0。所以可用来考察解 释变量对被解释变量第τ分位数回归拟和的好坏。
~ ˆ Q Q ( ) ( )
2、拟似然比检验
Koenker和Machado(1999)根据目标函数在施 加约束条件前后得到的两个极小值构造了两个拟 似然比检验统计量(QLR)。两统计量的表达式如 下:
中位数是一个特殊的分位数,它表示 一种分布的中心位置。中位数回归是分位 数回归的一种特殊情况,其他分位数则可 以用来描述一种分布的非中心位置。第p 个百分位数表示因变量的数值低于这一百 分位数的个数占总体的p%.因此,分位数 可以指定分布中的任何一个位置。
分位数的性质
• 单调同变性 如果对一个随机变量进行函数h的单调转换 (如指数或对数函数),分位数可通过对分位数 函数进行同样的转换而得利。换言之,如果q是Y 的第p分位数,那么h(q)是h(Y)的第p分位数。 • 对离群值的不敏感性 假如有中位数为m的样本数据x1,…,xn,我们 将一个位于中位数之上的数据值xi替换成同样在 中位数之上的其他值,从而修改了样本。同样的, 我们也可以将一个位于中位数之下的数据值替换 成同样在中位数之下的其他值。这样的修改对样 本中位数没有任何影响。
二、分位数回归及其估计
损失函数
• 定义 在统计学中损失函数是一种衡量损失和错 误程度的函数。常常记作 L( , a) 。
损失函数常用形式
分位数回归参数估计的思想
对于之前的线性模型来说,就是使 得残差平方和最小,即损失函数为平方 损失函数,此为最小二乘回归。而如果 损失函数为绝对值损失函数,则称为最 小一乘回归,它使得残差绝对值的和最 小。最小一乘回归是分位数回归的特例。
普通最小二乘估计 基本思想 目的 原理 算法 前提假设 假设要求 检验类型 承载信息 极端值 异方差 拟合曲线 计算方法
分位数回归估计
设法使所构建的方程和样本之间的距 同普通最小二乘估计方法 离最短 借助数学模型对客观世界所存在的事 同普通最小二乘估计方法 物间的不确定关系进行数量化描写 以平均数为基准,求解最短距离 最小二乘法 独立、正态、同方差 强假设 参数检验 描述平均的总体信息 无法考虑极端值的影响 影响大 只能拟合一条曲线 求偏导解行列式,算法完备 以不同的分位数为基准,求解最 短距离 加权最小一乘法 独立 弱假设 非参数检验 充分体现整个分布的各部分信息 可以充分考虑极端值的影响 影响小 可以拟合一簇曲线 自助方法估计标准误差,多种算 法求解目标函数
分位数回归估计与经典模型的最小二乘 估计相比较,有许多优点。
当数据出现尖峰或厚尾的分布、存在显 著的异方差等情况,最小二乘估计将不再具 有优良性质,且稳健性非常差。分位数回归 系数估计结果比OLS估计更稳健,而且,分 位数回归对误差项并不要求很强的假设条件, 因此对于非正态分布而言,分位数回归系数 估计量则更加稳健。
R
i 1 n
样本中位数回归是使误差绝对值之和最小,即
min | yi |
R
i 1 n
样本分位数回归是使加权误差绝对值之和最小,即
min{ | Yi |
R
i:Yi i:Yi
(1 ) | Y |}
i
上式可等价为:
min (Yi )
似然比检验:
• 似然比 • 命题:H 0 : g C • 检验思想:如果约束是无效的,有约束的最大似然函 数值当然不会超过无约束的最大似然函数值,但如果 约束条件“有效”,有约束的最大值应当“接近”无 约束的最大值,这正是似然比检验的基本思路。 •
, 2) L( 似然比: ˆ , ˆ2) L(
分位数回归
一、分位数回归的提出 二、分位数回归及其估计 三、分位数回归的假设检验
一、分位数回归的提出
传统的回归分析主要关注均值,即采用因 变量条件均值的函数来描述自变量每一特定数 值下的因变量均值,从而揭示自变量与因变量 的关系。这类回归模型实际上是研究被解释变 量的条件期望,描述了因变量条件均值的变化。 人们当然也关心解释变量与被解释变量分 布的中位数,分位数呈何种关系。这就是分位 数回归,它最早由凯恩克(Koenker Roger)和 巴西特(Bassett Gilbert Jr)于1978年提出, 是估计一组回归变量X与被解释变量Y的分位数 之间线性关系的建模方法,强调条件分位数的 变化。
分位数回归参数估计的思想
与LR估计量明显不同的QR估计量的特点在于, 在QR中数据点到回归线距离的测量通过垂直距离 的加权总和(没有平方)而求得,这里赋予拟合 线之下的数据点的权重是1-τ,而赋予拟合线之上 的数据点的权重则是τ.对于τ的每一个选择,都会 产生各自不同的条件分位数的拟合函数,这一任 务是为每一个可能的寻找适合的估计量。
现假设因变量Y由k个自变量组成的矩阵X线性表 ' E ( Y | X x ) x 示,对于条件均值函数 i ,求解
arg min R
^
k
n ' 2 ( Y x ) i i i 1
得参数估计值。
分位数回归是对如上简单形式的扩展:
arg min R
对一个样本,估计的分位数回归式越多, 对被解释变量yt条件分布的理解就越充分。 以一元回归为例,如果用LAD(最小绝对离 差和)法估计的中位数回归直线与用OLS法估计 的均值回归直线有显著差别,则表明被解释变 量yt的分布是非对称的。
如果散点图上侧分位数回归直线之间与下侧 分位数回归直线之间相比,相互比较接近,则说 明被解释变量yt的分布是左偏倚的。反之是右偏 倚的。 对于不同分位数回归函数如果回归系数的差 异很大,说明在不同分位数上解释变量对被解释 变量的影响是不同的。
~ Q( ) min[
ˆ Q ( ) R 1 拟和优度准则表达式如下: ( ) ~ Q ( )
*
t: yt X ( )
ˆ(1 )( yt ˆ 0 ( ) ) ˆ ( y t ˆ 0 ( ) )]
t: yt X ( )
T
T
ˆ , 无约束模型似然函数值: L( ˆ2)
, 有约束模型似然函数值: L( 2)
似然比检验
• 显然 0 1 。如果原假设是真,则λ趋近于1;如果 λ太小,则约束无效,拒绝原假设。 • 可以证明,对大样本来说,检验统计量为,
ˆ , , ˆ 2 ) ln L ( 2 ) ~ 2 (q ) LR 2 ln 2 ln L (
三、分位数回归的假设检验
分位数回归估计的检验包括两部分:
–一是与均值回归类似的检验,例如拟合优 度检验、拟似然比检验和Wald检验等; –一是分位数回归估计特殊要求的检验,例 如斜率相等检验和斜率对称性检验等。
1、拟合优度检验
ˆ ˆ ( ) X 假设分位数回归直线为 y ( )
将解释变量矩阵和参数向量都分为两部分,即 ˆ ˆ ˆ ˆ ( ) 0( ) Z 1( ) X (1, Z ) 和 ( ) ( 0( ) , 1( ) ) ,且有 y 定义:
拒绝域,LR
2 1
(q )
' 似然比检验另一种表达, LR 2ln n(ln e* e* ln ee) ~ 2 (q)
' e e 有约束模型残差平方和; ** ee无约束模型残差平方和;
3、Wald检验
给定分位数回归参数估计量的渐近方差协 方差矩阵,我们就可以构造Wald形式的统计量 进行各种约束形式的参数检验。 Wald统计量的一种表达形式:
最小二乘估计假定解释变量只能影响 被解释变量的条件分布的均值位置。 而分位数回归估计能精确地描述解释 变量对于被解释变量的变化范围以及条件 分布形状的影响,能够更加全面的描述被解 释变量条件分布的全貌,而不是仅仅分析 被解释变量的条件期望(均值),也可以 分析解释变量如何影响被解释变量的中位 数、分位数等。不同分位数下的回归系数 估计量常常不同,即解释变量对不同水平 被解释变量的影响不同。
MLE
显著异于零时,约束条件无效,拒绝原假设。
• 检验统计量
ˆ C ) Var g ( ˆ) C (g ˆ C ) ~ 2 (q) W (g



1

a
• Wald只需要估计无约束模型,但需要计算渐进协 方差矩阵。
Wald检验
在线性约束条件下, Wald检验 H 0 : R r
LT ( ) ~ ˆ ) 2(Q( ) Q ( )
(1 ) s( )
T ( )
ˆ 2Q ( )
(1 ) s ( )
log(
~ Q( ) ˆ Q ( )
)
两个统计量都渐近服从自由度为q的卡方分布, ~ 其中q是原假设目标函数中约束条件的个数。 Q( ) ˆ ( ) 分别代表有约束的和无约束目标方程的极小 和Q 值。s(τ)是分位数密度函数。
w
' * *
' n e* e* e'e
e'e
~ 2 q
e e 有约束模型残差平方和
e e 无约束模型残差平方和
'
Wald检验
H0 : g C
如果约束条件为真,则 g C 0不应该显著异于
MLE
零,其中 MLE是无约束极大似然估计值。当 g C
R
i 1
n
一般的 分位数回归的损失函数为:
u u I u 0

其中, I Z 为示性函数,Z是指示关系式。 当分位数为0.5时,就是最小一乘回归,即 中位数回归。
最小二乘回归和最小一乘回归的损失函数是 对称的,而一般的分位数回归的损失函数不是 对称的,而是由两条从原点出发的分别位于第 一和第二象限的射线组成,它们的斜率之比为 : 1。
分位数回归原理
假设随机变量的分布函数为:
F (y )=Prob(Y y )
Y的

分位数的定义为:
Q( )=inf{y :F (y ) },0< <1
回归分析的基本思想就是使样本值与拟合值 之间的距离最短,对于Y的一组随机样本 , 样本均值回归是使误差平方和最小,即
min ( yi ) 2
无约束分位数回归目标 函数
ˆ min[ Q ( ) ˆ ˆ ( yt 0 ( ) Z 1( ) )] ˆ(1 )( yt ˆ0( ) Z ˆ1( ) ) ˆ
t: yt X ( ) T T
t: yt X ( )
约束的分位数ቤተ መጻሕፍቲ ባይዱ归目标函数
^
k
n ' (Yi xi ) i 1
通过对上式求解得到其参数估计值。
参数意义解释:当其它协变量保持不变时,这一估计差异 来自一个连续型协变量的单位增量,或者虚拟变量值从0 到1的变化。
正如普通最小二乘OLS回归估计量的计算是 基于最小化残差平方和一样,分位数回归估计 量的计算也是基于一种非对称形式的绝对值残 差最小化,其中,中位数回归运用的是最小绝 对值离差估计(LAD,least absolute deviations estimator)。它和OLS主要区别在 于回归系数的估计方法和其渐近分布的估计。 在残差检验、回归系数检验、模型设定、预测 等方面则基本相同。
相关文档
最新文档