Bootstrap方法简介
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Bootstrap 方法简介
1 Bootstrap 抽样方法
Bootstrap 方法是Efron 在 1977 年提出的一种数据处理方法,其本质上是对已知数据的再抽样。Bootstrap 的数学原理大致如下:1(,,)n T T T =是来自总体分布函数为()F T 的独立同分布随机样本。()n F T 是由样本T 得到的分布函数(在产品可靠性分析中,()n F T 一般是指数函数或多参数weibull 函数),由()
n F T 得到的参数估计ˆˆ()F θθ=,它可以作为样本参数θ的准确值。再从新总体()n
F T 中抽取与样本T 相同的伪样本1(,
,)m m T T T =,一般取m n =。用伪样本m T 求出参数θ的估计值。重复操作M 次(一般取1000M =)可得到M 个基于伪样本m T 而得
到的θ估计值[4]。 Bootstrap 方法在应用中,重复抽样带来的误差不可避免。误差主要来源于样本数据的抽样误差和从样本分布中的再抽样误差。对于再抽样误差,只要 Bootstrap 再抽样样本数充分大,由样本分布所得的再抽样误差就会趋于消失,Bootstrap 估计的所有误差就会接近于抽样误差[5] 。Bootstrap 方法根据抽样方式的不同可分为参数和非参数两种。非参数方法主要用于在不知道抽样函数服从什么分布情况下,对经验分布不做过多的假设,把试验数据按从小到大排序获得经验分布,然后从中抽取伪样本的一种方法;参数方法主要用于经验分布已知情况下,当试验数据分布明确时,运用参数方法比运用非参数方法效率更高[6]。 由于多方面的原因,使得收集到的故障间隔时间数据中常含有分离群数据,这些数据会导致估计精度降低。但是,对于高可靠度的现代机电产品来说收集到的每一个数据都来之不易,所以不易轻易舍去。因此,可以应用改进的参数 Bootstrap 方法,具体过程如下:
(1) 将试验样本数据12(,,
,)n X X X X =从小到大排序,每次从中去掉一个样本 i X ,剩下1n -个样本用传统方法建模,得出样本分布函数(1)()n i F T -的估计参
数值ˆm 和ˆη。 (2) 重复(1)n 次,获得参数ˆi m 和ˆi η,取其均值11ˆˆn i i m m n ==∑和1
1ˆˆn i i n n n ==∑作为经 验分布()n F T 的尺度和形状参数。
(3) 再从经验分布中随机抽取Bootstrap 样本,伪样本容量与原样本容量相等,
共抽取1000组(一般抽取200组就可以获得较高精度)。
(4) 根据每组伪样本****12(,,,)i n X X X X =用传统方法建模,得到1000个ˆm
和ˆη。 通过上述Bootstrap 方法我们可以获得多次经验分布参数,减少了抽样误差,比一次计算获得的经验分布更具有说服力。