非参数bootstra方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于样本10000
(
M* 10000
135.1)2
(134.9
135.1)2
0.04,
用这10000个数的平均值
1
10000
10000
(
i 1
M
* i
135.1)2
0.07
近似E[(M )2 ] ,
既得MSE[(M )2]的bootstrap 估计为 0.07.
例3 设X ( X1, X2 ,, Xn )是来自总体F的样本,
20 相继地、独立地求出B个(B 1000)容量为
n的bootstrap 样本,x* i ( x1* i , x2* i ,, xn* i ), i 1,2,, B. 对于第i个bootstrap 样本,计算
ˆ* i ˆ( x1* i , x2* i ,, xn* i ),
i 1,2,, B,
(ˆ(*k1 ) ,ˆ(*k2 ) ) 这一区间称为的置信水平为1 的bootstrap 置信
区间. 这种求置信区间的方法 称为分位数法.
例4 在例2中(1)以样本中位数作为总体 中位数 的 估计求 的置信水平为0.95的bootstrap的置信区间; (2)以样本20%截尾均值作为总体 20%截尾均值1 的估计,求1的置信水平为0.95的bootstrap置信区
以样本中位数作为总体 中位数 的估计,试求中位
数估计的标准误差的 bootstrap 估计. 解 将原始样本自小到大排序,中间一个数为12.0, 相继地、独立地在上述5个数据中,按放回抽样的 方法取样,取B 10得到下述10个bootstrap样本:
样本1 9.5 18.2 12.0 10.2 18.2 样本2 21.2 18.2 12.0 9.5 10.2 样本3 21.1 10.2 10.2 12.0 10.2 样本4 18.2 12.0 9.5 18.2 10.2 样本5 21.1 12.0 18.2 12.0 18.2 样本6 10.2 10.2 9.5 21.1 10.2 样本7 9.5 21.1 12.0 10.2 12.0 样本8 10.2 18.2 10.2 21.1 21.1 样本9 10.2 10.2 18.2 18.2 18.2 样本10 18.2 10.2 18.2 10.2 10.2
ˆˆ
1 9
10 i 1
(ˆi*
* )2
3.4579 .
二、估计量的均方误差及偏差的bootstrap 估计
设X ( X1, X2 ,, Xn )是来自总体F的样本, F未知,R R( X )是感兴趣的随机变量,它依赖于
样本X .
按照上面所说的三个步 骤10,20,30进行,只是
在20中对第i个bootstrap
算出样本
20%截尾均值:xt*1
,
xt*2
,,
x* t 10000
,
将它们自小到大排序得 到
xt*(1)
xt*( 2 )
x* t (250)
x* t (251)
x* t (9750)
x* t (9751)
x* t (10000)
bootstrap 样本B
x1* 1 , x2* 1 ,, xn* 1 , bootstrap估计ˆ1*
x1* 2 , x2* 2 ,, xn* 2 ,bootstrap估计ˆ2*
x1* B , x2* B ,, xn* B ,bootstrap估计ˆB*
则ˆ的标准误差 D(ˆቤተ መጻሕፍቲ ባይዱ,
ˆ
1 B
1
B i 1
第一节 非参数bootstrap方法
一、估计量的标准误差bootstrap估计 二、估计量的均方误差及偏差的 bootstrap估计 三、bootstrap置信区间
四、用bootstrap t法求均值的bootstrap的置信
区间 五、小结
设总体的分布F未知,但已经有一个容量为 n 的来自F的数据样本,自这一样本按放回抽样 的方 法抽取一个容量为 n的样本,这种样本称为
对以上每个bootstrap 样本,求得样本中位数分别为
ˆ1* 12.0 ˆ2* 12.0 ˆ3* 10.2 ˆ4* 12.0 ˆ5* 18.2 ˆ6* 10.2 ˆ7* 12.0 ˆ8* 18.2 ˆ9* 18.2 ˆ1*0 10.2 以原始样本确定的样本 中位数ˆ 12.0作为总体中 位数的估计,其标准误差的bootstrap 估计为
设X ( X1, X2 , Xn )是来自总体F容量为n的 样本,x ( x1, x2 ,, xn )是一个已知的样本值 . F中
含有未知参数,ˆ=ˆ( X1, X2 ,, Xn )是 的估计量. 现在来求的置信水平为1 的置信区间.
相继地、独立地从样本 x ( x1, x2 ,, xn )中抽 出B个容量为n的bootstrap 样本,
对于样本10000
M* 10000
135.1
0.02
将上述10000个数取平均值得到偏差 b的bootstrap
估计为
b*
1 10000
10000
(
i 1
M
* i
135.1)
1 10000
10000
M
i 1
* i
135.1
135.14 135.1
0.04.
三、bootstrap置信区间
计算估计ˆ( x1, x2 ,, xn )那样求出的估计 ˆ ˆ( x1*, x2*,, xn* ),估计ˆ*称为 的bootstrap估计.
相继地、独立地抽得 B个bootstrap 样本,
以这些样本分别求出 的bootstrap 估计如下:
bootstrap 样本1
bootstrap 样本2
135.4 135.4 135.8 136.6 146.5 146.5 147.8 148.8
得样本中位数为134.9
对于第i个样本计算
Ri*
R(
x*
i
)
(
M
* i
ˆ
)2
(
M
* i
135.1)2
,
对于样本1
i 1,2,,10000.
(M1* 135.1)2(135.3 135.1)2 0.04,
136.3 136.6 136.6 141.2 143.3 143.3 147.8 148.8
得样本中位数为135.3
样本10000
134.3 134.5 134.5 134.5 134.7 134.8 134.8 134.8 134.8
134.8 134.9 134.9 134.9 134.9 135.0 135.4 135.4 135.4
样本
xi*
( x1*
i
,
x
* 2
i
,,
xn*
i
),
计算Ri* R( xi* )代替计算ˆi*, 且在30中计算感兴趣
的R的特征 .
E*(R* )
1 B
B i 1
Ri*
例2 设金属元素铂的升华热 是具有分布函数F的
连续型随机变量,F的中位数是未知参数,现测得
以下的数据(以kcal mol计)
136.3 136.6 135.8 135.4 134.7 135.0 134.1 143.3 147.8 148.8 134.8 135.2 134.9 149.5 141.2 135.4 134.8 135.8 135.0 133.7 134.4 134.9 134.8 134.5 134.3 135.2
ˆ ˆ( X1, X2 ,, Xn )是参数的估计量. 的估计ˆ关于 的偏差定义为
b E(ˆ ) E(ˆ) . 当ˆ是 的无偏估计时b 0.
试在例2中,以样本中位数M M ( X )作为总
体F的中位数 的估计, 求偏差b E(M )的bootstrap 估计.
由例2知原始样本的中位数为135.1.
设X1, X2 ,, Xn是来自以F ( x)为分布函数的总体
的样本, 是我们感兴趣的未知参 数, 用ˆ ˆ( X1, X2 ,, Xn )作为 的估计量, 应用中ˆ 的抽样分布很难处理,
标准差 D(ˆ) 无法用一个简单的表达 式给出,
但可以用计算机模拟的 方法来求得 D(ˆ) 的估计.
自F产生很多容量为n的样本,对每个样本计算 ˆ 的
(ˆi*称为 的第i个bootstrap 的估计.)
30
计算 ˆˆ
1 B
1
B i 1
(ˆi*
* )2
其中
*
1 B
B
ˆi* .
i 1
例1 某种基金的年回报率是具有分布函数F的连续
型随机变量,F未知,F的中位数 是未知参数 .
现有以下的数据(%率) 18.2 9.5 12.0 21.1 10.2
bootstrap样本或自助样本 .
相继地、独立地自原始样本中取 出很多 个bootstrap样本,利用这些样本对总体 F进行统计 推断, 这种方法称为非参数 bootstrap方法, 又称自 助法.
一、估计量的标准误差bootstrap估计
在估计总体未知参数 时 : 给出 的估计ˆ 的同时还要指出这一估 计ˆ 的精度; 用估计量ˆ 的标准差ˆ D(ˆ) 来度量估计的精度 . 估计量ˆ 的标准差ˆ 也称为估计量ˆ 的标准误差.
(ˆi*
*
)2
其中
*
1 B
B
ˆi* .
i 1
D(ˆ)就是bootstrap 的估计.
求 D(ˆ) 即bootstrap 的估计的步骤是
10 自原始数据样本 x ( x1, x2 ,, xn )按放回 抽样的方法,抽得容量为n的样本 x* ( x1*, x2*,, xn* ) (称为bootstrap 样本)
以样本中位数M M ( X )作为总体中位数 的估计, 试求均方误差MSE E[(M )2 ]的bootstrap估计.
解 将原始样本自小到大排 序, 左起第13个数为135.0, 左起第14个数为135.2, 于是样本中位数为 1 (135 .0 135 .2) 135.1.
2
以135.1作为总体中位数 的估计, 即ˆ 135.1.
取R R( X ) (M ˆ)2 . 需要估计R( X )的均值E[(M ˆ)2 ] .
相继地、独立地抽取 10000个样本如下:
样本1
133.2 134.1 134.1 134.1 134.8 134.8 134.8 134.9 134.9
134.9 135.0 135.2 135.2 135.4 135.4 135.8 135.8 136.3
值,得ˆ1, ˆ2 ,,ˆB , 则 D(ˆ) 可以用
ˆ
1 B1
B i 1
(ˆi
)2
其中
1 B
B
ˆi
i 1
,然而F常常是未知的,
设F未知,x1, x2 ,, xn是来自F的样本值,
Fn是相应的经验分布函数 . 当n很大时,Fn接近F .
以Fn代替F , 在Fn中抽样,得到一个容量为 n的
样本x1*, x2*,, xn* . 这就是bootstrap 样本.
以135.1作为总体中位数R 的估计,即ˆ 135.1,
取R R( X ) M ˆ, 需要估计R( X )的均值E(M ˆ).
对于例2中第i个样本计算
Ri*
R( x*
i
)
(
M
* i
ˆ)
(
M
* i
135.1),
i 1,2,,10000.
即有对于样本1
(
M
* 1
135.1)
0.02
M* ( 9751)
M
* (10000
)
.
由
k1
10000
0.05 2
=250
,
k2 10000 1-0.205 =9750,
B 10000 , 1 0.95, 0.05,
bootstrap置信区间为
(
M* ( 250 )
,
M
* ( 9750
)
)
(134.8,135.8).
(2)对于例2中的10000 个bootstrap样本中的每一个
对于每个bootstrap样本求出的bootstrap 估计: ˆ1* ,ˆ2* ,,ˆB* .
将它们自小到大排序,得
ˆ*1 ˆ*2 ˆ*B
取R( X ) ˆ,用对应的R ( X * ) ˆ*的分布作为
R( X )的分布的近似,
求出R( X * )的分布的近似下分位点 *
2和ˆ1*
使
间. 解 n 26, B 10000 , 原始样本以及10000 个模拟 bootstrap 样本见例2.
(1)对于每一个bootstrap 样本算出中位数 M1*,
M
* 2
,,
M
* 10000
.将他们自小到大排序得
到
M (*1)
M
* (2)
M* ( 250 )
M* ( 251)
M* ( 9750 )
2
P{ˆ* 2 ˆ* ˆ1* 2 } 1
于是近似地有
P{ˆ* 2 ˆ* ˆ1* 2 } 1
记k1
B
2
,
k2
B
1
2
,
式中以ˆ*k1 和ˆ*k2 分别作为分位数 ˆ*
2 ,ˆ1*
的估计,
2
得到近似等式 P{ˆ(*k1 ) ˆ(*k2 ) } 1 由上式就得到 的置信水平为1 的近似置信区间: