10.1 非参数bootstrap方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ 的标准差 ˆ D( ˆ ) 来度量估计的精度 . 用估计量
ˆ 的标准差 ˆ 也称为估计量 ˆ 的标准误差. 估计量
设X1 , X 2 ,, X n是来自以F ( x )为分布函数的总体
的样本, 是我们感兴趣的未知参数,
ˆ ˆ ( X 1 , X 2 ,, X n )作为 的估计量, 用
只是 按照上面所说的三个步骤10, 20, 30 进行,
*i *i *i 在2 0中对第i个bootstrap 样本 x i* ( x1 , x2 , , x n ),
ˆi* , 且在30中计算感兴趣 计算Ri* R( xi* )代替计算 B 1 * * 的R的特征 . E* ( R ) Ri B i 1
ˆ 的抽样分布很难处理, 应用中
ˆ ) 无法用一个简单的表达式给出, 标准差 D( ˆ ) 的估计. 但可以用计算机模拟的 方法来求得 D(
ˆ的 对每个样本计算 自F产生很多容量为n的样本, ˆ2 ,, ˆB , 则 D( ˆ1 , ˆ ) 可以用 值, 得
1 B ˆ 2 ˆ ( ) i B 1 i 1
得样本中位数为135.3
样本10000
134.3 134.5 134.5 134.5 134.7 134.8 134.8 134.8 134.8 134.8 134.9 134.9 134.9 134.9 135.0 135.4 135.4 135.4 135.4 135.4 135.8 136.6 146.5 146.5 147.8 148.8
得样本中位数为134.9
对于第i个样本计算
ˆ )2 ( M * 135.1)2 , R R( x i ) ( M i* i
* i
*
对于样本1
* 1 2 2
i 1,2,,10000.
( M 135.1) (135.3 135.1) 0.04,
对于样本10000
于是近似地有
* * * ˆ ˆ ˆ P{ 2 1 2 } 1
记k1 B , k2 B 1 , 2 2 * * ˆ*k 和 ˆ*k 分别作为分位数 ˆ ˆ 式中以 , 2 1 2的估计, 1 2
样本, x ( x1, x2 ,, xn )是一个已知的样本值 . F中
ˆ= ˆ ( X 1 , X 2 ,, X n )是 的估计量 含有未知参数, .
现在来求的置信水平为1 的置信区间.
相继地、独立地从样本x ( x1 , x2 ,, xn )中抽
出B个容量为n的bootstrap 样本, 对于每个bootstrap样本求出的bootstrap 估计: * * ˆ1* , ˆ2 ˆB ,, .
1 于是样本中位数为 (135 .0 135 .2) 135.1. 2 ˆ 135.1. 以135.1作为总体中位数 的估计, 即
ˆ )2 . 取R R( X ) ( M ˆ )2 ] . 需要估计R( X )的均值E[( M
相继地、独立地抽取10000个样本如下:
例2 设金属元素铂的升华热是具有分布函数F的
连续型随机变量, F的中位数是未知参数, 现测得
以下的数据(以kcal mol计)
136.3 136.6 135.8 135.4 134.7 135.0 134.1 143.3 147.8
148.8 134.8 135.2 134.9 149.5 141.2 135.4 134.8 135.8
135.0 133.7 134.4 134.9 134.8 134.5 134.3 135.2
以样本中位数M M ( X )作为总体中位数 的估计,
试求均方误差MSE E[( M ) ]的bootstrap估计.
2
解
将原始样本自小到大排 序,
左起第13个数为135.0 , 左起第14个数为135.2 ,
B 1 ˆi* . 其中 * B i 1
例1 某种基金的年回报率是具有分布函数F的连续
F的中位数是未知参数 . 型随机变量,F未知,
现有以下的数据(%率)
18.2 9.5 12.0 21.1 10.2
试求中位 以样本中位数作为总体中位数 的估计,
数估计的标准误差的bootstrap 估计.
对于第i个bootstrap 样本,计算
*i *i *i *i ˆ ˆ ( x1 , x2 ,, xn ),
i 1,2,, B,
ˆi*称为 的第i个bootstrap 的估计. ( )
B 1 * * 2 0 ˆ ˆ ( ) 3 计算 ˆ i B 1 i 1
第一节
非参数bootstrap方法
一、估计量的标准误差bootstrap估计 二、估计量的均方误差及偏差的 bootstrap估计 三、bootstrap置信区间
四、用bootstrap t法求均值的bootstrap的置信 区间
五、小结
但已经有一个容量为 n 设总体的分布F未知, 的来自F的数据样本, 自这一样本按放回抽样的方 法抽取一个容量为n的样本, 这种样本称为
bootstrap样本或自助样本 .
相继地、 独立地自原始样本中取 出很多
个bootstrap样本, 利用这些样本对总体F进行统计
推断, 这种方法称为非参数bootstrap方法, 又称自
助法.
一、估计量的标准误差bootstrap估计
在估计总体未知参数 时 :
ˆ 的同时还要指出这一估计 ˆ 的精度; 给出 的估计
2
例3 设X ( X1 , X 2 ,, X n )是来自总体F的样本,
ˆ ˆ ( X 1 , X 2 ,, X n )是参数的估计量 .
ˆ关于 的偏差定义为 的估计 ˆ) . ˆ ) E ( b E ( ˆ是 的无偏估计时b 0. 当
来自百度文库
样本1
133.2 134.1 134.1 134.1 134.8 134.8 134.8 134.9 134.9 134.9 135.0 135.2 135.2 135.4 135.4 135.8 135.8 136.3 136.3 136.6 136.6 141.2 143.3 143.3 147.8 148.8
* * *1 ˆ1* x1 1 , x2 ,, xn 1 , bootstrap估计
* ˆ2 x , x ,, x ,bootstrap估计
* 2
2
*2 1
*2 n
*B *B *B * ˆB bootstrap 样本B x1 , x2 ,, xn ,bootstrap估计
ˆ的标准误差 D( ˆ ), 则
解 将原始样本自小到大排序, 中间一个数为12.0, 相继地、 独立地在上述5个数据中,按放回抽样的
取B 10得到下述10个bootstrap样本: 方法取样,
样本1 9.5
18.2 12.0
10.2 9.5 12.0 18.2 12.0 21.1 10.2 21.1 18.2 10.2
18.2 10.2 10.2 10.2 18.2 10.2 12.0 21.1 18.2 10.2
10000 1 * b* ( M i 135.1) 10000 i 1
1 10000 * M i 135.1 10000 i 1
135.14 135.1 0.04.
三、bootstrap置信区间
设X ( X1 , X 2 , X n )是来自总体F容量为n的
* ( M10000 135.1)2 (134.9 135.1)2 0.04,
用这10000个数的平均值
1 10000 * 2 ( M 135 . 1 ) 0.07 i 10000 i 1
近似E[( M )2 ] ,
既得MSE[( M ) ]的bootstrap 估计为 0.07.
* * * * 抽得容量为 n 的样本 x ( x , x , , x 抽样的方法, 1 2 n)
(称为bootstrap 样本 )
2 相继地、 独立地求出B个( B 1000)容量为
0
n的bootstrap 样本,x
*
i
( x , x ,, x ),
* 2
i
*i 1
*i n
i 1,2,, B.
1 B ˆ* * 2 ˆ ( ) i B 1 i 1
B 1 ˆi* . 其中 * B i 1
ˆ )就是bootstrap 的估计. D(
ˆ ) 即bootstrap 的估计的步骤是 求 D(
10 自原始数据样本x ( x1 , x2 ,, xn )按放回
位数的估计, 其标准误差的bootstrap 估计为
10 1 ˆˆ ( ˆi* * )2 3.4579 . 9 i 1
二、估计量的均方误差及偏差的bootstrap 估计
设X ( X1 , X 2 ,, X n )是来自总体F的样本,
F未知, 它依赖于 R R( X )是感兴趣的随机变量, 样本X .
将它们自小到大排序, 得
ˆ*2 ˆ*B ˆ*1
ˆ , 用对应的R ( X * ) ˆ*的分布作为 取R( X )
R( X )的分布的近似,
* ˆ 求出R( X )的分布的近似下分位点 2和1 2 使 * * * * * ˆ ˆ ˆ P{ 2 1 2 } 1
对于例2中第i个样本计算
ˆ ) ( M i* 135.1), Ri* R( x* i ) ( M i*
即有对于样本1
i 1,2,,10000. * ( M1 135.1) 0.02
对于样本10000
估计为
M
* 10000
135.1 0.02
将上述10000个数取平均值得到偏差 b的bootstrap
试在例2中, 以样本中位数M M ( X )作为总
体F的中位数 的估计, 求偏差b E ( M )的bootstrap 估计.
由例2知原始样本的中位数为135.1.
ˆ 135.1, 以135.1作为总体中位数R 的估计,即
ˆ, 取R R( X ) M ˆ ). 需要估计R( X )的均值E ( M
ˆ ( x1 , x2 ,, xn )那样求出 计算估计 的估计 * * * ˆ ˆ ˆ*称为 的bootstrap估计. ( x1 , x2 ,, xn ), 估计
相继地、独立地抽得B个bootstrap 样本, 以这些样本分别求出 的bootstrap 估计如下:
bootstrap 样本1 bootstrap 样本 2
对以上每个bootstrap 样本, 求得样本中位数分别为 * ˆ2 ˆ4* 12.0 ˆ5* 18.2 ˆ1* 12.0 12.0 ˆ3* 10.2
ˆ6* 10.2
* ˆ10 ˆ7* 12.0 ˆ8* 18.2 ˆ9* 18.2 10.2
ˆ 12.0作为总体中 以原始样本确定的样本中位数
样本2 21.2 18.2 12.0 样本3 21.1 10.2 10.2 样本4 18.2 12.0 样本6 10.2 10.2 9.5 9.5 样本5 21.1 12.0 18.2 样本7 9.5 21.1 12.0 样本8 10.2 18.2 10.2 样本9 10.2 10.2 18.2 样本10 18.2 10.2 18.2
1 B ˆ 其中 i , 然而F常常是未知的, B i 1
x1 , x2 ,, xn是来自F的样本值, 设F未知,
Fn 接近F . Fn是相应的经验分布函数 . 当n很大时,
得到一个容量为n的 以Fn代替F , 在Fn中抽样,
* * * 样本x1 , x2 ,, xn . 这就是bootstrap 样本.
ˆ 的标准差 ˆ 也称为估计量 ˆ 的标准误差. 估计量
设X1 , X 2 ,, X n是来自以F ( x )为分布函数的总体
的样本, 是我们感兴趣的未知参数,
ˆ ˆ ( X 1 , X 2 ,, X n )作为 的估计量, 用
只是 按照上面所说的三个步骤10, 20, 30 进行,
*i *i *i 在2 0中对第i个bootstrap 样本 x i* ( x1 , x2 , , x n ),
ˆi* , 且在30中计算感兴趣 计算Ri* R( xi* )代替计算 B 1 * * 的R的特征 . E* ( R ) Ri B i 1
ˆ 的抽样分布很难处理, 应用中
ˆ ) 无法用一个简单的表达式给出, 标准差 D( ˆ ) 的估计. 但可以用计算机模拟的 方法来求得 D(
ˆ的 对每个样本计算 自F产生很多容量为n的样本, ˆ2 ,, ˆB , 则 D( ˆ1 , ˆ ) 可以用 值, 得
1 B ˆ 2 ˆ ( ) i B 1 i 1
得样本中位数为135.3
样本10000
134.3 134.5 134.5 134.5 134.7 134.8 134.8 134.8 134.8 134.8 134.9 134.9 134.9 134.9 135.0 135.4 135.4 135.4 135.4 135.4 135.8 136.6 146.5 146.5 147.8 148.8
得样本中位数为134.9
对于第i个样本计算
ˆ )2 ( M * 135.1)2 , R R( x i ) ( M i* i
* i
*
对于样本1
* 1 2 2
i 1,2,,10000.
( M 135.1) (135.3 135.1) 0.04,
对于样本10000
于是近似地有
* * * ˆ ˆ ˆ P{ 2 1 2 } 1
记k1 B , k2 B 1 , 2 2 * * ˆ*k 和 ˆ*k 分别作为分位数 ˆ ˆ 式中以 , 2 1 2的估计, 1 2
样本, x ( x1, x2 ,, xn )是一个已知的样本值 . F中
ˆ= ˆ ( X 1 , X 2 ,, X n )是 的估计量 含有未知参数, .
现在来求的置信水平为1 的置信区间.
相继地、独立地从样本x ( x1 , x2 ,, xn )中抽
出B个容量为n的bootstrap 样本, 对于每个bootstrap样本求出的bootstrap 估计: * * ˆ1* , ˆ2 ˆB ,, .
1 于是样本中位数为 (135 .0 135 .2) 135.1. 2 ˆ 135.1. 以135.1作为总体中位数 的估计, 即
ˆ )2 . 取R R( X ) ( M ˆ )2 ] . 需要估计R( X )的均值E[( M
相继地、独立地抽取10000个样本如下:
例2 设金属元素铂的升华热是具有分布函数F的
连续型随机变量, F的中位数是未知参数, 现测得
以下的数据(以kcal mol计)
136.3 136.6 135.8 135.4 134.7 135.0 134.1 143.3 147.8
148.8 134.8 135.2 134.9 149.5 141.2 135.4 134.8 135.8
135.0 133.7 134.4 134.9 134.8 134.5 134.3 135.2
以样本中位数M M ( X )作为总体中位数 的估计,
试求均方误差MSE E[( M ) ]的bootstrap估计.
2
解
将原始样本自小到大排 序,
左起第13个数为135.0 , 左起第14个数为135.2 ,
B 1 ˆi* . 其中 * B i 1
例1 某种基金的年回报率是具有分布函数F的连续
F的中位数是未知参数 . 型随机变量,F未知,
现有以下的数据(%率)
18.2 9.5 12.0 21.1 10.2
试求中位 以样本中位数作为总体中位数 的估计,
数估计的标准误差的bootstrap 估计.
对于第i个bootstrap 样本,计算
*i *i *i *i ˆ ˆ ( x1 , x2 ,, xn ),
i 1,2,, B,
ˆi*称为 的第i个bootstrap 的估计. ( )
B 1 * * 2 0 ˆ ˆ ( ) 3 计算 ˆ i B 1 i 1
第一节
非参数bootstrap方法
一、估计量的标准误差bootstrap估计 二、估计量的均方误差及偏差的 bootstrap估计 三、bootstrap置信区间
四、用bootstrap t法求均值的bootstrap的置信 区间
五、小结
但已经有一个容量为 n 设总体的分布F未知, 的来自F的数据样本, 自这一样本按放回抽样的方 法抽取一个容量为n的样本, 这种样本称为
bootstrap样本或自助样本 .
相继地、 独立地自原始样本中取 出很多
个bootstrap样本, 利用这些样本对总体F进行统计
推断, 这种方法称为非参数bootstrap方法, 又称自
助法.
一、估计量的标准误差bootstrap估计
在估计总体未知参数 时 :
ˆ 的同时还要指出这一估计 ˆ 的精度; 给出 的估计
2
例3 设X ( X1 , X 2 ,, X n )是来自总体F的样本,
ˆ ˆ ( X 1 , X 2 ,, X n )是参数的估计量 .
ˆ关于 的偏差定义为 的估计 ˆ) . ˆ ) E ( b E ( ˆ是 的无偏估计时b 0. 当
来自百度文库
样本1
133.2 134.1 134.1 134.1 134.8 134.8 134.8 134.9 134.9 134.9 135.0 135.2 135.2 135.4 135.4 135.8 135.8 136.3 136.3 136.6 136.6 141.2 143.3 143.3 147.8 148.8
* * *1 ˆ1* x1 1 , x2 ,, xn 1 , bootstrap估计
* ˆ2 x , x ,, x ,bootstrap估计
* 2
2
*2 1
*2 n
*B *B *B * ˆB bootstrap 样本B x1 , x2 ,, xn ,bootstrap估计
ˆ的标准误差 D( ˆ ), 则
解 将原始样本自小到大排序, 中间一个数为12.0, 相继地、 独立地在上述5个数据中,按放回抽样的
取B 10得到下述10个bootstrap样本: 方法取样,
样本1 9.5
18.2 12.0
10.2 9.5 12.0 18.2 12.0 21.1 10.2 21.1 18.2 10.2
18.2 10.2 10.2 10.2 18.2 10.2 12.0 21.1 18.2 10.2
10000 1 * b* ( M i 135.1) 10000 i 1
1 10000 * M i 135.1 10000 i 1
135.14 135.1 0.04.
三、bootstrap置信区间
设X ( X1 , X 2 , X n )是来自总体F容量为n的
* ( M10000 135.1)2 (134.9 135.1)2 0.04,
用这10000个数的平均值
1 10000 * 2 ( M 135 . 1 ) 0.07 i 10000 i 1
近似E[( M )2 ] ,
既得MSE[( M ) ]的bootstrap 估计为 0.07.
* * * * 抽得容量为 n 的样本 x ( x , x , , x 抽样的方法, 1 2 n)
(称为bootstrap 样本 )
2 相继地、 独立地求出B个( B 1000)容量为
0
n的bootstrap 样本,x
*
i
( x , x ,, x ),
* 2
i
*i 1
*i n
i 1,2,, B.
1 B ˆ* * 2 ˆ ( ) i B 1 i 1
B 1 ˆi* . 其中 * B i 1
ˆ )就是bootstrap 的估计. D(
ˆ ) 即bootstrap 的估计的步骤是 求 D(
10 自原始数据样本x ( x1 , x2 ,, xn )按放回
位数的估计, 其标准误差的bootstrap 估计为
10 1 ˆˆ ( ˆi* * )2 3.4579 . 9 i 1
二、估计量的均方误差及偏差的bootstrap 估计
设X ( X1 , X 2 ,, X n )是来自总体F的样本,
F未知, 它依赖于 R R( X )是感兴趣的随机变量, 样本X .
将它们自小到大排序, 得
ˆ*2 ˆ*B ˆ*1
ˆ , 用对应的R ( X * ) ˆ*的分布作为 取R( X )
R( X )的分布的近似,
* ˆ 求出R( X )的分布的近似下分位点 2和1 2 使 * * * * * ˆ ˆ ˆ P{ 2 1 2 } 1
对于例2中第i个样本计算
ˆ ) ( M i* 135.1), Ri* R( x* i ) ( M i*
即有对于样本1
i 1,2,,10000. * ( M1 135.1) 0.02
对于样本10000
估计为
M
* 10000
135.1 0.02
将上述10000个数取平均值得到偏差 b的bootstrap
试在例2中, 以样本中位数M M ( X )作为总
体F的中位数 的估计, 求偏差b E ( M )的bootstrap 估计.
由例2知原始样本的中位数为135.1.
ˆ 135.1, 以135.1作为总体中位数R 的估计,即
ˆ, 取R R( X ) M ˆ ). 需要估计R( X )的均值E ( M
ˆ ( x1 , x2 ,, xn )那样求出 计算估计 的估计 * * * ˆ ˆ ˆ*称为 的bootstrap估计. ( x1 , x2 ,, xn ), 估计
相继地、独立地抽得B个bootstrap 样本, 以这些样本分别求出 的bootstrap 估计如下:
bootstrap 样本1 bootstrap 样本 2
对以上每个bootstrap 样本, 求得样本中位数分别为 * ˆ2 ˆ4* 12.0 ˆ5* 18.2 ˆ1* 12.0 12.0 ˆ3* 10.2
ˆ6* 10.2
* ˆ10 ˆ7* 12.0 ˆ8* 18.2 ˆ9* 18.2 10.2
ˆ 12.0作为总体中 以原始样本确定的样本中位数
样本2 21.2 18.2 12.0 样本3 21.1 10.2 10.2 样本4 18.2 12.0 样本6 10.2 10.2 9.5 9.5 样本5 21.1 12.0 18.2 样本7 9.5 21.1 12.0 样本8 10.2 18.2 10.2 样本9 10.2 10.2 18.2 样本10 18.2 10.2 18.2
1 B ˆ 其中 i , 然而F常常是未知的, B i 1
x1 , x2 ,, xn是来自F的样本值, 设F未知,
Fn 接近F . Fn是相应的经验分布函数 . 当n很大时,
得到一个容量为n的 以Fn代替F , 在Fn中抽样,
* * * 样本x1 , x2 ,, xn . 这就是bootstrap 样本.