Bootstrap及jackknife刀切法中文讲义

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


通过两步实现:

第一步:用

ˆ F n
Tn
估计
F
Tn
ˆ F n
插入估计,积分符号变成求和

ˆ中采样来近似计算 第二步:通过从 F n

Tn
Bootstrap采样+大数定律近似
ˆ F n
Tn
1 B
B b 1
T
* n ,b
T
* 2 n
, T
* n
1 B
B b 1
Tn*,b
14
Bootstrap:方差估计
0.0484,
vboot
0.221
与直接用嵌入式估计得到的结果比较:
Xn
se
ˆ2
0.22
17
Bootstrap:方差估计

Fn 真实世界: Bootstrap世界: Fn
X1 ,..., X n
* X1* ,..., X n
Tn
Tn*
g X1 ,..., X n
* g X1* ,..., X n

Bootstrap也可用于偏差、置信区间和分布估计等计算
1
本节课内容

重采样技术(resampling)

Bootstrap 刀切法(jackknife)
2
引言

Tn g X1 ,..., X n 是一个统计量,或者是数据的某个函数, 数据来自某个未知的分布F,我们想知道 的某些性质 Tn (如偏差、方差和置信区间)
X
7.0411 5.2546 7.4199 4.1230 3.6790 -3.8635 -0.1864 -1.0138 6.9523 6.5975 6.1559 4.5010 5.5741 6.6439 6.0919 7.3199 5.3602 7.0912 4.9585 4.7654
0.2 N 1,22 X 1,..., X 100
假设我们想知道 Tn的方差 F Tn 如果 F Tn 的形式比较简单,可以直接用上节课学习 的嵌入式估计量 作为 F Tn 的估计 ˆ Tn F n 例: Tn n 1 X i,则
n

i 1

F
ˆ F n
Tn Tn
n,其中 2 ˆ 2 n,其中 ˆ
2
2
n i 1
x
Xi
2
dF x ,
2
xdF x
0.8 N 6,1
5,
直接用嵌入式估计结果: X n 4.997,
Xn ˆ2
n 2
Xi
i 1
Xn
16
n2
0.0484
例:混合高斯模型(续)

用Bootstrap计算统计量Tn X n的方差: * * 1. 得到B=1000个bootstrap样本 X 1 ,..., X 1000 ,其中
* Xb * * X 1, ,..., X , b b 100, b



5
重采样

X 1,..., X n 进行n次有放回采 通过从原始数据 X * * X 1* ,..., X n 样n个数据,得到bootstrap样本 X b

对原始数据进行有放回的随机采样,抽取的样本数目 同原始样本数目一样

如:若原始样本为 X X1, X 2 , X 3 , X 4 , X 5 则bootstrap样本可能为 * X1 X 2 , X 3, X 5, X 4 , X 5

F
Tn*
Tn
Bootstrap偏差估计的步骤为: * * 得到B个独立bootstrap样本 X 1 ,..., X B * 计算每个bootstrap样本 X b 对应的统计量的值
* * g X 1, ,..., X b n ,b n 1 计算bootstrap期望: Tn* Tn*,r Br 1

已知的只有X,但是我们可以讨论X的分布F 如果我们可以从分布F中得到样本 X * ,..., X *,我们可以计算
Tn

*
g X 1 ,..., X n
*
*
1
n
ˆ 代替(嵌入式估计量) 怎样得到F?用 F n ˆ 中采样? 怎样从 F n ˆ 对每个数据点 X1 ,..., X n 的质量都为1/n 因为 F n ˆ 中抽取一个样本等价于从原始数据随机抽取一个样本 所以从 F n * * ˆ,可以通过有放回地随机 也就是说:为了模拟 X ,..., X ~ F n 1 n
Meanboot
1 4.13 4.64 1.74 3
3.50
X3=(0.22, 3.12,1.57, 3.12, 2.20, 0.22) Mean=1.74
13
Bootstrap方差估计

方差: F 2 其中 T

Tn
t
2 T
T
n
2
dGn t ,
T
tdGn t
注意:F为数据X的分布,G为统计量T的分布
Tn*,b
* g Xb


计算bootstrap偏差:Biasboot
Tn boot
1 B
B b 1
Tn*,b
1 B
B b 1
g X* b
12
例:中值
X1=(1.57,0.22,19.67, 0,0,2.2,3.12) Mean=4.13 X = (3.12, 0, 1.57, 19.67, 0.22, 2.20) Mean=4.46 X2=(0, 2.20, 2.20, 2.20, 19.67, 1.57) Mean=4.64
X2
wenku.baidu.com… *
X1, X 3 , X1, X 4 , X 5
6
计算bootstrap样本

重复B次,


1. 随机选择整数 i1 ,..., in,每个整数的取值范围为[1, n], 选择每个[1, n]之间的整数的概率相等,均为1 n 2. 计算bootstrap样本为:X * X i1,..., X in

除了用来计算方差外,还可以用作其他应用

CDF近似、偏差估计、置信区间估计
19
CDF近似

Tn t 为 Tn 的CDF 令 Gn t 则 Gn的bootstrap估计为 B 1 * ˆ* t G I T t n n ,b Bb 1
20
偏差估计

偏差的bootstrap估计定义为:
Biasboot Tn
(大数定律)
15
例:混合高斯模型:

假设真实分布为F : F X X 现有n=100个观测样本:
4.8397 7.3937 5.3677 3.8914 0.3509 2.5731 2.7004 4.9794 5.3073 6.3495 5.8950 4.7860 5.5139 4.5224 7.1912 5.1305 6.4120 7.0766 5.9042 6.4668 5.3156 6.7719 4.3376 4.4010 6.7028 6.2003 5.2323 5.5942 1.4197 1.7585 -0.7367 0.5627 2.1487 2.3513 0.1518 2.8683 4.7191 5.4374 7.2762 5.9453 5.7591 5.2173 5.4382 4.8893 5.8869 7.2756 5.5028 4.5672 6.4181 7.2248 6.8719 5.2686 6.0721 5.2740 5.9750 6.6091 5.9273 6.5762 6.1983 4.3450 7.0616 5.1724 7.5707 7.1479 2.4476 1.6379 1.4833 1.6269 4.6108 4.6993 4.9980 7.2940 5.8449 5.8718 8.4153 5.8055 7.2329 7.2135 5.3702 5.3261
抽取n个样本(bootstrap 样本)来实现
11
Bootstrap:一个重采样过程

重采样:

X 1,..., X n 进行有放回采样n个 通过从原始数据 X 数据,得到bootstrap样本
* Xb * * X 1, ,..., X b n ,b

模拟:

为了估计我们感兴趣的统计量 Tn g X g X1 ,..., X n 的方差/中值/均值,我们用 bootstrap样本对应的统计量 * * * Tn*,b g X b g X 1, ,..., X (bootstrap复制) 近似,其 b n ,b 中 b 1,..., B

Web上有matlab代码:



BOOTSTRAP MATLAB TOOLBOX, by Abdelhak M. Zoubir and D. Robert Iskander, http://www.csp.curtin.edu.au/downloads/bootstrap_ toolbox.html Matlab函数:bootstrp

发生了两个近似
O1 F n Fn O1 B
Tn
Tn
vboot

近似的程度与原始样本数目n及bootstrap样本的数目B 有关
18
Bootstrap:方差估计

Tn 可为任意统计函数 在方差估计中,

如均值(混合高斯模型的例子) 中值(伪代码参见教材) 偏度(例子参见教材) 极大值(见后续例子) …
的差别可以忽略不计

9
模拟

更一般地,对任意均值有限的函数h,当 B
1 B
B

h Tn,b
b 1
P
h t dGn t
2
h Tn

则当 h Tn,b Tn,b Tn 时,有 2 P 2 1 B Tn ,b Tn Tn Tn Bb 1

Tn
Tn
用模拟样本的方差来近似方差
10
模拟

怎样得到 Tn 的分布?



计算机的引导程序boot也来源于此 意义:不靠外界力量,而靠自身提升自己的性能,翻译为自助/ 自举

1980年代很流行,因为计算机被引入统计实践中来
4
Bootstrap简介

Bootstrap:利用计算机手段进行重采样 一种基于数据的模拟(simulation)方法,用于统计推断。 基本思想是:利用样本数据计算统计量和估计样本分布, 而不对模型做任何假设(非参数bootstrap) 无需标准误差的理论计算,因此不关心估计的数学形式有 多复杂 Bootstrap有两种形式:非参数bootstrap和参数化的 bootstrap,但基本思想都是模拟
1, ..., B

2. 计算B=1000个bootstrap样本对应的统计量的值
Tn*,b

* Xn ,b
3. vboot
1 B
B b 1
1 n
n
i 1
X i*,b
* * Xn ,Xn 2
* Xn ,b
1 B
n r 1
* Xn ,r
X
* 100
5.001, vboot
4.997,
ˆ2
0.0489, seboot
7
Bootstrap样本

在一次bootstrap采样中,某些原始样本可能没被 采到,另外一些样本可能被采样多次
在一个bootstrap样本集中不包含某个原始样本X i 的概率为 n 1 1 X j X i , j 1,...n 1 e 0.368 n


一个bootstrap样本集包含了大约原始样本集的1-0.368 = 0.632,另外0.368的样本没有包括
8
模拟

假设我们从 Tn 的分布Gn中抽取IID样本 Tn,1 ,..., Tn, B , 当B 时,根据大数定律, P 1 B Tn Tn ,b tdGn t Tn Bb 1
也就是说,如果我们从 Gn中抽取大量样本,我们 可以用样本均值 Tn来近似 Tn 当样本数目B足够大时,样本均值 T 与期望 Tn 之间 n

Bootstrap的步骤: * (计算boostrap样本) Fn 1.画出 X1* ,..., X n * 2.计算 Tn* g X 1* ,..., X n (计算boostrap复制) * ,..., T 3.重复步骤1和2共B次,得到 Tn* ,1 n, B 2 4. B n 1 1 * vboot Tn,b Tn*,r Bb 1 Br 1
Xn
n

问题:若 F Tn 的形式很复杂(任意统计量),如何 3 计算/估计?
Bootstrap简介

Bootstrap是一个很通用的工具,用来估计标准误差、置 信区间和偏差。由Bradley Efron于1979年提出,用于计 算任意估计的标准误差 术语“Bootstrap”来自短语“to pull oneself up by one’s bootstraps” (源自西方神话故事“ The Adventures of Baron Munchausen”,男爵掉到了深湖底,没有工具, 所以他想到了拎着鞋带将自己提起来)
上节课内容总结

统计推断基本概念


统计模型:参数模型与非参数模型 统计推断/模型估计:点估计、区间估计、假设检验 估计的评价:无偏性、一致性、有效性、MSE

偏差、方差、区间估计

CDF估计:

点估计、偏差、方差及区间估计

统计函数估计

点估计 区间估计/标准误差

影响函数 Bootstrap
相关文档
最新文档