bootstrap方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
以下的数据(以kcal mol计)
136.3 136.6 135.8 135.4 134.7 135.0 134.1 143.3 147.8 148.8 134.8 135.2 134.9 149.5 141.2 135.4 134.8 135.8 135.0 133.7 134.4 134.9 134.8 134.5 134.3 135.2
以这些样本分别求出 的bootstrap 估计如下:
bootstrap 样本1
bootstrap 样本2
bootstrap 样本B
x1* 1 , x2* 1 ,, xn* 1 , bootstrap估计ˆ1*
x1* 2 , x2* 2 ,, xn* 2 ,bootstrap估计ˆ2*
Biblioteka Baidu
x1* B , x2* B ,, xn* B ,bootstrap估计ˆB*
第7页/共54页
20 相继地、独立地求出B个(B 1000)容量为
n的bootstrap 样本,x* i ( x1* i , x2* i ,, xn* i ), i 1,2,, B. 对于第i个bootstrap 样本,计算
ˆ* i ˆ( x1* i , x2* i ,, xn* i ),
在20中对第i个bootstrap 样本 xi* ( x1* i , x2* i ,, xn* i ),
计算Ri* R( xi* )代替计算ˆi*, 且在30中计算感兴趣
的R的特征 .
E*(R* )
1 B
B i 1
Ri*
第12页/共54页
例2 设金属元素铂的升华热是具有分布函数F的
连续型随机变量,F的中位数是未知参数,现测得
第一节 非参数bootstrap方法
一、估计量的标准误差bootstrap估计 二、估计量的均方误差及偏差的 bootstrap估计 三、bootstrap置信区间
四、用bootstrap—t法求均值 的bootstrap的置信区间
五、小结
第1页/共54页
设总体的分布F未知,但已经有一个容量为n 的来自F的数据样本,自这一样本按放回抽样的方 法抽取一个容量为n的样本,这种样本称为
ˆˆ
1 9
10 i 1
(ˆi*
*
)2
3.4579 .
第11页/共54页
二、估计量的均方误差及偏差的bootstrap 估计
设X ( X1, X2,, Xn )是来自总体F的样本, F未知,R R( X )是感兴趣的随机变量,它依赖于
样本X .
按照上面所说的三个步骤10,20,30 进行,只是
第3页/共54页
设X1, X2,, Xn是来自以F( x)为分布函数的总体
的样本, 是我们感兴趣的未知参数, 用ˆ ˆ( X1, X2,, Xn )作为 的估计量, 应用中ˆ 的抽样分布很难处理, 标准差 D(ˆ) 无法用一个简单的表达式给出, 但可以用计算机模拟的方法来求得 D(ˆ) 的估计.
第6页/共54页
则ˆ的标准误差 D(ˆ),
ˆ
1 B
1
B i 1
(ˆi*
* )2
其中
*
1 B
B
ˆi* .
i 1
D(ˆ)就是bootstrap 的估计.
求 D(ˆ) 即bootstrap 的估计的步骤是
10 自原始数据样本 x ( x1, x2,, xn )按放回 抽样的方法,抽得容量为n的样本 x* ( x1*, x2*,, xn* ) (称为bootstrap 样本)
bootstrap 样本或自助样本.
相继地、独立地自原始样本中取出很多 个bootstrap 样本,利用这些样本对总体F进行统计 推断, 这种方法称为非参数bootstrap方法, 又称自 助法.
第2页/共54页
一、估计量的标准误差bootstrap估计
在估计总体未知参数 时 : 给出 的估计ˆ 的同时还要指出这一估计ˆ 的精度; 用估计量ˆ 的标准差ˆ D(ˆ) 来度量估计的精度. 估计量ˆ 的标准差ˆ 也称为估计量ˆ 的标准误差.
i 1,2,, B,
(ˆi*称为 的第i个bootstrap的估计.)
30
计算 ˆˆ
1 B
1
B i 1
(ˆi*
*
)2
其中
*
1 B
B
ˆi* .
i 1
第8页/共54页
例1 某种基金的年回报率是具有分布函数F的连续
型随机变量,F未知,F的中位数是未知参数.
现有以下的数据(%率) 18.2 9.5 12.0 21.1 10.2
以样本中位数作为总体中位数 的估计,试求中位
数估计的标准误差的bootstrap 估计. 解 将原始样本自小到大排序,中间一个数为12.0, 相继地、独立地在上述5个数据中,按放回抽样的 方法取样,取B 10得到下述10个bootstrap 样本:
第9页/共54页
样本1 9.5 18.2 12.0 10.2 18.2 样本2 21.2 18.2 12.0 9.5 10.2 样本3 21.1 10.2 10.2 12.0 10.2 样本4 18.2 12.0 9.5 18.2 10.2 样本5 21.1 12.0 18.2 12.0 18.2 样本6 10.2 10.2 9.5 21.1 10.2 样本7 9.5 21.1 12.0 10.2 12.0 样本8 10.2 18.2 10.2 21.1 21.1 样本9 10.2 10.2 18.2 18.2 18.2 样本10 18.2 10.2 18.2 10.2 10.2
第10页/共54页
对以上每个bootstrap 样本,求得样本中位数分别为
ˆ1*12.0 ˆ2*12.0 ˆ3*10.2 ˆ4*12.0 ˆ5*18.2 ˆ6*10.2 ˆ7*12.0 ˆ8*18.2 ˆ9*18.2 ˆ1*010.2 以原始样本确定的样本中位数ˆ 12.0作为总体中 位数的估计,其标准误差的bootstrap 估计为
第4页/共54页
自F产生很多容量为n的样本,对每个样本计算ˆ 的
值,得ˆ1, ˆ2,,ˆB , 则 D(ˆ) 可以用
ˆ
1 B
1
B i 1
(ˆi
)2
其中
1 B
B
ˆi
i 1
,然而F常常是未知的,
设F未知,x1, x2,, xn是来自F的样本值,
Fn是相应的经验分布函数. 当n很大时,Fn接近F .
以Fn代替F , 在Fn中抽样,得到一个容量为n的
第5页/共54页
样本x1*, x2*,, xn* . 这就是bootstrap 样本.
计算估计ˆ( x1, x2,, xn )那样求出的估计 ˆ ˆ( x1*, x2*,, xn* ),估计ˆ*称为 的bootstrap估计.
相继地、独立地抽得B个bootstrap 样本,
136.3 136.6 135.8 135.4 134.7 135.0 134.1 143.3 147.8 148.8 134.8 135.2 134.9 149.5 141.2 135.4 134.8 135.8 135.0 133.7 134.4 134.9 134.8 134.5 134.3 135.2
以这些样本分别求出 的bootstrap 估计如下:
bootstrap 样本1
bootstrap 样本2
bootstrap 样本B
x1* 1 , x2* 1 ,, xn* 1 , bootstrap估计ˆ1*
x1* 2 , x2* 2 ,, xn* 2 ,bootstrap估计ˆ2*
Biblioteka Baidu
x1* B , x2* B ,, xn* B ,bootstrap估计ˆB*
第7页/共54页
20 相继地、独立地求出B个(B 1000)容量为
n的bootstrap 样本,x* i ( x1* i , x2* i ,, xn* i ), i 1,2,, B. 对于第i个bootstrap 样本,计算
ˆ* i ˆ( x1* i , x2* i ,, xn* i ),
在20中对第i个bootstrap 样本 xi* ( x1* i , x2* i ,, xn* i ),
计算Ri* R( xi* )代替计算ˆi*, 且在30中计算感兴趣
的R的特征 .
E*(R* )
1 B
B i 1
Ri*
第12页/共54页
例2 设金属元素铂的升华热是具有分布函数F的
连续型随机变量,F的中位数是未知参数,现测得
第一节 非参数bootstrap方法
一、估计量的标准误差bootstrap估计 二、估计量的均方误差及偏差的 bootstrap估计 三、bootstrap置信区间
四、用bootstrap—t法求均值 的bootstrap的置信区间
五、小结
第1页/共54页
设总体的分布F未知,但已经有一个容量为n 的来自F的数据样本,自这一样本按放回抽样的方 法抽取一个容量为n的样本,这种样本称为
ˆˆ
1 9
10 i 1
(ˆi*
*
)2
3.4579 .
第11页/共54页
二、估计量的均方误差及偏差的bootstrap 估计
设X ( X1, X2,, Xn )是来自总体F的样本, F未知,R R( X )是感兴趣的随机变量,它依赖于
样本X .
按照上面所说的三个步骤10,20,30 进行,只是
第3页/共54页
设X1, X2,, Xn是来自以F( x)为分布函数的总体
的样本, 是我们感兴趣的未知参数, 用ˆ ˆ( X1, X2,, Xn )作为 的估计量, 应用中ˆ 的抽样分布很难处理, 标准差 D(ˆ) 无法用一个简单的表达式给出, 但可以用计算机模拟的方法来求得 D(ˆ) 的估计.
第6页/共54页
则ˆ的标准误差 D(ˆ),
ˆ
1 B
1
B i 1
(ˆi*
* )2
其中
*
1 B
B
ˆi* .
i 1
D(ˆ)就是bootstrap 的估计.
求 D(ˆ) 即bootstrap 的估计的步骤是
10 自原始数据样本 x ( x1, x2,, xn )按放回 抽样的方法,抽得容量为n的样本 x* ( x1*, x2*,, xn* ) (称为bootstrap 样本)
bootstrap 样本或自助样本.
相继地、独立地自原始样本中取出很多 个bootstrap 样本,利用这些样本对总体F进行统计 推断, 这种方法称为非参数bootstrap方法, 又称自 助法.
第2页/共54页
一、估计量的标准误差bootstrap估计
在估计总体未知参数 时 : 给出 的估计ˆ 的同时还要指出这一估计ˆ 的精度; 用估计量ˆ 的标准差ˆ D(ˆ) 来度量估计的精度. 估计量ˆ 的标准差ˆ 也称为估计量ˆ 的标准误差.
i 1,2,, B,
(ˆi*称为 的第i个bootstrap的估计.)
30
计算 ˆˆ
1 B
1
B i 1
(ˆi*
*
)2
其中
*
1 B
B
ˆi* .
i 1
第8页/共54页
例1 某种基金的年回报率是具有分布函数F的连续
型随机变量,F未知,F的中位数是未知参数.
现有以下的数据(%率) 18.2 9.5 12.0 21.1 10.2
以样本中位数作为总体中位数 的估计,试求中位
数估计的标准误差的bootstrap 估计. 解 将原始样本自小到大排序,中间一个数为12.0, 相继地、独立地在上述5个数据中,按放回抽样的 方法取样,取B 10得到下述10个bootstrap 样本:
第9页/共54页
样本1 9.5 18.2 12.0 10.2 18.2 样本2 21.2 18.2 12.0 9.5 10.2 样本3 21.1 10.2 10.2 12.0 10.2 样本4 18.2 12.0 9.5 18.2 10.2 样本5 21.1 12.0 18.2 12.0 18.2 样本6 10.2 10.2 9.5 21.1 10.2 样本7 9.5 21.1 12.0 10.2 12.0 样本8 10.2 18.2 10.2 21.1 21.1 样本9 10.2 10.2 18.2 18.2 18.2 样本10 18.2 10.2 18.2 10.2 10.2
第10页/共54页
对以上每个bootstrap 样本,求得样本中位数分别为
ˆ1*12.0 ˆ2*12.0 ˆ3*10.2 ˆ4*12.0 ˆ5*18.2 ˆ6*10.2 ˆ7*12.0 ˆ8*18.2 ˆ9*18.2 ˆ1*010.2 以原始样本确定的样本中位数ˆ 12.0作为总体中 位数的估计,其标准误差的bootstrap 估计为
第4页/共54页
自F产生很多容量为n的样本,对每个样本计算ˆ 的
值,得ˆ1, ˆ2,,ˆB , 则 D(ˆ) 可以用
ˆ
1 B
1
B i 1
(ˆi
)2
其中
1 B
B
ˆi
i 1
,然而F常常是未知的,
设F未知,x1, x2,, xn是来自F的样本值,
Fn是相应的经验分布函数. 当n很大时,Fn接近F .
以Fn代替F , 在Fn中抽样,得到一个容量为n的
第5页/共54页
样本x1*, x2*,, xn* . 这就是bootstrap 样本.
计算估计ˆ( x1, x2,, xn )那样求出的估计 ˆ ˆ( x1*, x2*,, xn* ),估计ˆ*称为 的bootstrap估计.
相继地、独立地抽得B个bootstrap 样本,