自助法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n
0),而1xi x表示样本中小于或等于x的个数 i=1
经验分布函数的图形为阶梯函数。可以证明,对任
意x,Fn x p F x,即经验分布函数依概率收敛
于总体分布函数
二、自助法的分类
1、非参数自助法(nonparametric bootstrap) 也称为经验分布自助法(empirical distribution function bootstrap)。这种方法就是前面所介绍的 将原始样本进行有放回地随机抽样。在回归模型中
这意味着将被解释变量与所有解释变量,即 yi,xi
成对地抽样,故也称为成对自助法(paired bootstrap) 这是最简单、最常见的自助法
2、参数自助法parametric bootstrap
假设总体分布函数的形式已知,为Fx, ,其中
为未知参数。则可以先得到的估计量(ˆ 比如,
使用最大似然估计法),然后从总体F x,ˆ 中重
ˆi
但真实总体F的分布常常未知,无法从中抽取随机 样本,而从实际总体中进行多次实地抽样的成本会 很高。
为此,考虑以经验分布函数Fn来近似真实分布函数
F,并从Fn中大量抽取随机样本,即在原始样本
x1,x
,
2
,x n 中每次有放回地随机抽样,得到样
本容量为n的自助样本 x1,x2, ,xn ,并以此计算
error)。但有时 Var ˆ 没有解析表达式,故希望用
计算机模拟的方法来估计 Var ˆ
如果可以从真实总体F产生样本容量为n的很多的
B个样本,对每个样本都可以计算ˆ,从而得到B
个估计值 ˆ1,ˆ2, ,ˆB ,则可以使用
Sˆ
1B B i=1
ˆi-
2 来估计ˆ,其中
1 B
B i=1
使用自助法,得到残差的自助样本 ˆ1,ˆ2, ,ˆn
然后计算对应的yi=g xi,ˆ +ˆi,进而得到自助
样本 y1,x1 , ,yn,xn
三、使用自助法估计标准差
假设原始样本为x1,x
,
2
,x n 。对于未知参数
的估计量ˆ=ˆ
x1,x
Fra Baidu bibliotek
,
2
,x n
,需要计算其标准差
ˆ Var ˆ ,也称为估计量ˆ的标准误差(standard
第十三章 自助法
一、自助法的思想与用途 蒙特卡罗法虽然威力很大,但缺点是必须对总体模 型(即数据生成过程)做很具体的假定,比如确定 所有参数的取值以及扰动项的概率分布。 Efron提出了一种对原始样本进行再抽样(resampling) 的方法,即自助法(bootstrap)(自己的鞋带自己系) 假设从总体抽得样本容量为n的随机样本,显然,来 自总体的这个样本带有总体的信息。在一定程度上可 以将此样本看作是一个总体,再进行有放回地抽样, 样本容量仍然为n。这种样本称为自助样本(bootstrap sample)
复抽样。这个方法的前提是必须对总体分布函数的 形式比较确信。在此前提下,参数自助法通常比非 参数自助法更有效率。
在回归模型中,则需要先确定条件分布的具体形式
即y x Fx, 。具体来说,一种方法是,在得到
估计量ˆ后,给定原先的xi,从F xi,ˆ 中随机抽样
得到对应的yi。这相当于是固定解释变量的情形。
2
就是百分位t法,它比百分位法更渐近有效。
可以证明,自助法估计量是一致的
另一种方法是,先从
x1,x
,
2
,x n 中进行再抽样
得到xi,然后再从从F xi,ˆ 中随机抽样得到对应
的yi。这相当于随机解释变量(stochastic regressors) 的情形。
3、残差自助法residual bootstrap
对于回归模型yi=g
x
i,
+
,首先通过估计得到
i
残差ˆi=yi-g xi,ˆ ,然后对残差ˆ1,ˆ2, ,ˆn
区间,即ˆ-1.96Sˆ,ˆ+1.96Sˆ
其中,Sˆ是用自助法估计的标准差,并假定置信度 为95%
3百分位t法(percentile-t method)。根据每个自
助样本计算对应的自助t统计量
ti
ˆi-ˆ ,i=1,
Sˆi
,B
其中,ˆ为根据原始样本计算的 估计量,而Sˆi 是
根据 ˆ1,ˆ2, ,ˆB 计算的标准差。如此,即得
到自助t统计量的经验分布
t1,t
,
2
,t
B
,并记其
2与1- 2 上分位数分别为t 2与t1- 2,则的置
信区间为ˆ-t1- 2 Sˆ,ˆ+t 2 Sˆ ,其中Sˆ是根
据原始样本计算的标准差。百分位t法比百分位法
更渐近有效,但在小样本中不一定有优势
五、使用自助法进行假设检验
考虑用自助法进行如下双边检验
们已经得到自助估计量ˆ的经验分布
ˆ1,ˆ2, ,ˆB 。将 ˆ1,ˆ2, ,ˆB 按从小到大
的顺序排列,并记其 2与1- 2上分位数分别为 ˆ 2与ˆ1- 2,则的置信区间为ˆ1- 2,ˆ 2
2基于正态的置信区间(normal-based confidence
interval)。也可以使用标准正态分布来估计置信
ˆ=ˆ x1,x2, ,xn 。如此重复,共抽取B个自助
样本,则得到的B个自助估计值 ˆ1,ˆ2, ,ˆB
可以定义标准差的自助估计为
Sˆ
1B B-1 i=1
ˆi-
2
其中
1 B
B
ˆi
i=1
四、使用自助法进行区间估计
考虑用自助法对 进行置信度为1-的区间估
计,有以下三种方法:
1百分位法(percentile method)根据上一节,我
H0:=0 vs H1: 0
一种方法是,如果0 ˆ1- 2,ˆ 2 ,则接受原假
设H
;反之则拒绝。这就是百分位法
0
另一方法是,在假设H
成立的情况下,计算原始样
0
本的t统计量,t ˆ-0
Sˆ
如果t ˆ-t1- 2 Sˆ,ˆ+t 2 Sˆ ,则接受原假设
H0;反之则拒绝。其中,t
2与t1-
的定义如前。这
自助法的优点是,可以通过计算机模拟毫不费力地
获得许多自助样本,然后利用这些自助样本对总体
进行统计推断。
假设x1,x
,
2
,x n 是来自总体F的一个随机样本,
可以定义总体F的经验分布函数(empirical distribution
function)Fn=
1 n
n
1 xi
i=1
x ,-<x<
其中1 为示性函数(满足条件为1,不满足条件为