Bootstrap及jackknife刀切法中文讲义
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Bootstrap采样+大数定律近似
B
1 B * 1 * 2 * VF (Tn ) = 邋 Tn,b - Tn ) , Tn = ( ˆ n B b= 1 B
Tn*,b
b= 1Байду номын сангаас
14
Bootstrap:方差估计
Bootstrap的步骤: * µ (计算boostrap样本) 1.画出 X1* ,..., X n : F n * 2.计算 Tn* = g ( X 1* ,..., X n ) (计算boostrap复制) 3.重复步骤1和2共B次,得到 Tn* ,..., Tn* B ,1 , 2 4. B 骣 n 1 çT * - 1 vboot = 邋 n ,b Tn*,r ÷ ÷ ç ÷ ç B B 桫
Web上有matlab代码:
BOOTSTRAP MATLAB TOOLBOX, by Abdelhak M. Zoubir and D. Robert Iskander, .au/downloads/bootstrap_ toolbox.html Matlab函数:bootstrp
计算机的引导程序boot也来源于此 意义:不靠外界力量,而靠自身提升自己的性能,翻译为自助/ 自举
1980年代很流行,因为计算机被引入统计实践中来
4
Bootstrap简介
Bootstrap:利用计算机手段进行重采样 一种基于数据的模拟(simulation)方法,用于统计推断。 基本思想是:利用样本数据计算统计量和估计样本分布, 而不对模型做任何假设(非参数bootstrap) 无需标准误差的理论计算,因此不关心估计的数学形式有 多复杂 Bootstrap有两种形式:非参数bootstrap和参数化的 bootstrap,但基本思想都是模拟
假设我们想知道 Tn的方差 VF (Tn ) 如果 VF (Tn ) 的形式比较简单,可以直接用上节课学习 的嵌入式估计量 VFˆ (Tn ) 作为 VF (Tn ) 的估计 n - 1 例: n = n å X i,则 T
n
i= 1
VF (Tn ) = s VF (Tn ) = sˆ 2 ˆ
X2=(0, 2.20, 2.20, 2.20, 19.67, 1.57) Mean=4.64
Meanboot
1 = (4.13 + 4.64 + 1.74) = 3.50 3
X3=(0.22, 3.12,1.57, 3.12, 2.20, 0.22) Mean=1.74
13
Bootstrap方差估计
上节课内容总结
统计推断基本概念
统计模型:参数模型与非参数模型 统计推断/模型估计:点估计、区间估计、假设检验 估计的评价:无偏性、一致性、有效性、MSE
偏差、方差、区间估计
CDF估计:
点估计、偏差、方差及区间估计
统计函数估计
点估计 区间估计/标准误差
影响函数 Bootstrap
Tn = g ( X 1 ,..., X n )
* * *
1
n
ˆ 怎样得到F?用 Fn 代替(嵌入式估计量) ˆ 怎样从 Fn 中采样? ˆ 因为 F 对每个数据点 X 1 ,..., X n 的质量都为1/n n ˆ 所以从 Fn 中抽取一个样本等价于从原始数据随机抽取一个样本 * * ˆ,可以通过有放回地随机 也就是说:为了模拟 X ,..., X ~ Fn 1 n
5
重采样
通过从原始数据 X = ( X 1,..., X n ) 进行n次有放回采 * * * 样n个数据,得到bootstrap样本 X b = ( X 1 ,..., X n )
对原始数据进行有放回的随机采样,抽取的样本数目 同原始样本数目一样
如:若原始样本为 X = ( X1, X 2 , X 3 , X 4 , X 5 ) 则bootstrap样本可能为 * X1 = ( X 2 , X 3 , X 5 , X 4 , X 5 )
2 VF (Tn ) = s T n 方差:
其中 s =
2 T
注意:F为数据X的分布,G为统计量T的分布
ò (t -
mT ) dGn (t ), mT =
2
ò tdG (t )
n
通过两步实现: 第一步:用 VF (Tn ) 估计 VF (Tn ) ˆ
n
插入估计,积分符号变成求和
n
ˆ 第二步:通过从 F中采样来近似计算 VFˆ (Tn ) n
m= 5,
直接用嵌入式估计结果: X n = 4.997,
V ( X n ) = sˆ 2 =
n 2
å (Xi i= 1
Xn)
16
n2
5.9042 5.9273 6.5762 5.3702 6.4668 6.1983 4.3450 5.3261
= 0.0484
例:混合高斯模型(续)
用Bootstrap计算统计量Tn = X n的方差: * * 1. 得到B=1000个bootstrap样本 X 1 ,..., X 1000 ,其中
假设真实分布为F : F ( X ) = 0.2 N (1,22 ) + 0.8 N (6,1) X 现有n=100个观测样本: = ( X 1,..., X 100 )
4.8397 5.3156 6.7719 7.0616 7.3937 4.3376 4.4010 5.1724 5.3677 6.7028 6.2003 7.5707 3.8914 5.2323 5.5942 7.1479 0.3509 1.4197 1.7585 2.4476 2.5731 -0.7367 0.5627 1.6379 2.7004 2.1487 2.3513 1.4833 4.9794 0.1518 2.8683 1.6269 5.3073 6.3495 5.8950 4.7860 5.5139 4.5224 7.1912 5.1305 6.4120 7.0766 4.7191 7.2762 5.7591 5.4382 5.8869 5.5028 6.4181 6.8719 6.0721 5.9750 5.4374 5.9453 5.2173 4.8893 7.2756 4.5672 7.2248 5.2686 5.2740 6.6091 4.6108 4.6993 4.9980 7.2940 5.8449 5.8718 8.4153 5.8055 7.2329 7.2135
n
E (h (Tn ))
则当 h (Tn,b ) = (Tn,b - Tn ) 时,有 2 P 2 1 B å= 1 (Tn,b - Tn ) ? E (Tn Tn ) = V (Tn ) Bb
2
(
)
用模拟样本的方差来近似方差 V (Tn )
10
模拟
怎样得到 Tn 的分布?
已知的只有X,但是我们可以讨论X的分布F 如果我们可以从分布F中得到样本 X * ,..., X *,我们可以计算
7
Bootstrap样本
在一次bootstrap采样中,某些原始样本可能没被 采到,另外一些样本可能被采样多次
在一个bootstrap样本集中不包含某个原始样本 X i 的概率为 n 骣 1÷ ç1- ÷ 换e- 1 0.368 P ( X j ? X i , j 1,...n) = ç ç n÷ 桫
也就是说,如果我们从 Gn中抽取大量样本,我们 可以用样本均值 Tn来近似 E (Tn ) 当样本数目B足够大时,样本均值 T 与期望 E (T ) 之间 n n
的差别可以忽略不计
9
模拟
更一般地,对任意均值有限的函数h,当 B
P 1 B å= 1 h (Tn,b )? Bb
有
ò h (t )dG (t )
(
)
Tn boot
1 B * 1 = 邋Tn ,b = B b= 1 B
B
g (X* ) b
b= 1
12
例:中值
X1=(1.57,0.22,19.67, 0,0,2.2,3.12) Mean=4.13 X = (3.12, 0, 1.57, 19.67, 0.22, 2.20) Mean=4.46
X 2 = ( X1, X 3 , X1, X 4 , X 5 )
6
… *
计算bootstrap样本
重复B次,
1. 随机选择整数 i1 ,..., in,每个整数的取值范围为[1, n], 选择每个[1, n]之间的整数的概率相等,均为1 n 2. 计算bootstrap样本为:X * = ( X i1 ,..., X in )
抽取n个样本(bootstrap 样本)来实现
11
Bootstrap:一个重采样过程
重采样:
通过从原始数据 X = ( X 1,..., X n ) 进行有放回采样n个 数据,得到bootstrap样本
* * * X b = X 1,b ,..., X n ,b
模拟:
(
)
为了估计我们感兴趣的统计量 Tn = g (X) = g ( X1 ,..., X n ) 的方差/中值/均值,我们用 bootstrap样本对应的统计量 * * * T (bootstrap复制) n*,b = g ( X b ) = g X 1,b ,..., X n ,b 近似,其 中 b = 1,..., B
b= 1 r= 1
(大数定律)
15
例:混合高斯模型:
轾 7.0411 犏 犏 5.2546 犏 犏 7.4199 犏 犏 4.1230 犏 犏 3.6790 犏 犏 -3.8635 犏 犏 -0.1864 犏 犏 -1.0138 犏 犏 犏 6.9523 犏 犏 6.5975 X= 犏 犏 6.1559 犏 犏 4.5010 犏 犏 5.5741 犏 犏 6.6439 犏 犏 6.0919 犏 犏 7.3199 犏 犏 犏 5.3602 犏 犏 7.0912 犏 犏 4.9585 犏 犏 4.7654 臌
一个bootstrap样本集包含了大约原始样本集的1-0.368 = 0.632,另外0.368的样本没有包括
8
模拟
假设我们从 Tn 的分布Gn中抽取IID样本 Tn,1 ,..., Tn, B , 当 B 时,根据大数定律, P 1 B Tn = å Tn ,b ? ò tdGn (t ) E (Tn ) B b= 1
Bootstrap也可用于偏差、置信区间和分布估计等计算
1
本节课内容
重采样技术(resampling)
Bootstrap 刀切法(jackknife)
2
引言
Tn = g ( X1 ,..., X n )是一个统计量,或者是数据的某个函数, 数据来自某个未知的分布F,我们想知道 的某些性质 Tn (如偏差、方差和置信区间)
* * * X b = X 1,b ,..., X 100,b , b = 1, ..., B
(
)
2. 计算B=1000个bootstrap样本对应的统计量的值
* Tn*,b = X n ,b
2 1 B 1 n * * * * 3. vboot = X n ,b - X n , X n = X n,r 邋 B b= 1 B r= 1 * µ X100 = 5.001, vboot = 0.0489, seboot = vboot = 0.221
1 n * = å X i ,b n i= 1
(
)
与直接用嵌入式估计得到的结果比较:
X n = 4.997,
sˆ 2 = 0.0484,
n
2
n,其中 s = n ( x - m) dF ( x), m = 2 2 n,其中 sˆ = å ( X i - X n ) n
i= 1
2
蝌
2
xdF ( x)
问题:若 VF (Tn ) 的形式很复杂(任意统计量),如何 3 计算/估计?
Bootstrap简介
Bootstrap是一个很通用的工具,用来估计标准误差、置 信区间和偏差。由Bradley Efron于1979年提出,用于计 算任意估计的标准误差 术语“Bootstrap”来自短语“to pull oneself up by one’s bootstraps” (源自西方神话故事“ The Adventures of Baron Munchausen”,男爵掉到了深湖底,没有工具, 所以他想到了拎着鞋带将自己提起来)