bootstrap方法对总体均值区间估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(4)使用 t 百分位数 bootstrap 方法,matlab 程序如下: function [y1,y2]=bfun3(x,b) for i=1:b for j=1:12 k=randint(1,1,[1,16]); x1(j)=x(k); end x2(i)=mean(x1); end x0=mean(x2); for i=1:b a(i)=(x0-x2(i))^2; end p=sqrt(sum(a)/(b-1)); for i=1:b t(i)=(x2(i)-x0)/p; end q=sort(t); y1=x0-q(0.025*b)*p; y2=x0-q(0.975*b)*p; 输入命令[y1,y2]=bfun3(x,10000),得到结果为:[1476.8,1503.5],区间长度为 26.7.由此观之, 最后一种优化过的 bootstrap 方法对区间估计的精度没有任何提高,反而精度有下降的趋势。 反思:经过模拟试验,得到的结果不是文章中表述的可以有精度上的优化。我认为有以下三 个原因:第一,可能是我对问题的理解还存在误区,可能对 bootstrap 经验分布的理解不够; 第二,原文中给出的 16 只灯泡的寿命数据,很可能是不真实的;第三,一般来说,灯泡的 寿命应该服从的是指数分布,不应该是原文中提到的是服从正态分布。
x (i ) x , t (i ) = Var ( x)
将结果从小到大排列,得到顺序统计量 t ( i ) ,当显著性水平为α时,第α/2 和第 1-α/2 分位 点分别为 t
* ( B) 2 *
^
^
和t
*
((1 ) B ) 2
.
则总体均值的置信区间为:[ x 4.模拟试验研究
^
t *
1.统计研究的目的和意义 一般来说, 涉及到对总体的均值进行区间估计, 通常的方法是根据抽得的样本量大小来选 择合适的统计量,进而套用相应的公式来进行区间估计。通常进行区间估计时,总是把总体 假设为正态分布,在此基础上利用相关理论和统计表进行推断。 Bootstrap 方法是一种在抽样的统计方法,也叫做自助法。该方法只依赖于给定的观测信 息,不需要其他的假设,不需要增加新的观测。它借助计算机对原始样本资料进行重复抽样 以产生一系列“新”的样本,可以用于研究一组数据某统计量的分布特征,特别适用于那些 难以用常规方法导出的对参数的区间估计、假设检验等问题。 Bootstrap 方法的基本思想是:在原始数据的范围内作有放回的再抽样,对参数θ进行估计, 样本含量仍为 n, 原始数据中每个观察值每次被抽到的概率相等, 为 1/n, 所得样本为 Bootstrap 样本,这样重复 B 次,就可以得到 B 个 Bootstrap 样本,然后进行统计分析。此方法可以提 高小样本下对总体均值区间估计的精度。 2.数据的背景和结构 数据来自某厂某种灯泡的寿命,已知其服从正态分布。先从一批灯泡中随机抽取 16 个, 测得其寿命为: 1510,1450,1480,1460,1520,1480,1490,1460,1480,1510,1530,1470,1500,1520,1510,1470。数据只 有 16 个,属于小样本。常规方法对小样本进行总体均值区间估计误差可能会比较大。常规
t 的 方 法 可 以 得 到 区 间 估 计 的 结 果 为 ( x - t / 2 (16-1)s/n, x + / 2 (16-1)s/n). 另 外 将 用 三 种
Bootstrap 方法对均值进行区间估计。 3.Bootstrap 方法区间估计的三种类型 对置信区间进行估计主要采用标准 Bootstrap,百分位数 Bootstrap,t 百分位数 Bootstrap 三 种方法。 (1)标准 Bootstrap 方法假设从服从某分布的总体 X 中独立随机地抽取容量为 n 的样本 x1,x2,x3,...,xn。对原始样本就行重复的又放回抽样,共有 n^n 个可能的 Bootstrap 样本。对 于每一个子样本求出的均值,都是总体均值的一个估计值。同时,样本均值与总体均值的分 布相同。但是实际抽取中,n^n 个样本对计算机的运行速度是一个非常大的挑战,在实际操 作中,一班 B 取 3000 即可。但是考虑到后面的方法以来 bootstrap 样本的近似分布要求样本 量尽量大,我将在最后的模拟中取 B=10000。 令 x 作为 x 的估计值, x (i) 表示第 i 个 bootstrap 样本得到的均值。
( B) 2
* Var ( x) , x -
^
t*
((1 ) B ) 2
*
Var ( x) ]。
(1)使用常规方法,按照公式( x 间为[1477,1503],区间长度为 26.

t / 2 (16-1)s/n, x + t / 2 (16-1)s/n)得到总体均值的置信区

(2)使用标准 bootstrap 方法,该方法思路很清晰, 可以使用 matlab 实现,取α=0.05, 程序如下: function [y1,y2]=bfun1(x,b) for i=1:b for j=1:12
end x2(i)=mean(x1); end x3=sort(x2); y1=x3(0.025*b); y2=x3(0.975*b); 运行一万次,输入命令[y1,y2]=bfun2(x,10000),得到结果为[1476.7,1503.3],区间长度为 26.6, 相比以上两种方法,区间长度没有缩短反而稍微更长。
^来自百度文库
u1 / 2
是标准正态分布的 1-α/2 百分位数。
(2)百分位数 Bootstrap 方法利用 Bootstrap 经验分布的第α/2 和第 1-α/2 分位点是(1-α) 置信水平之下统计量的置信区间的上下限。具体如下:通过 Bootstrap 抽样,可以得到 B 个 Bootstrap 样本,将每个样本得到的样本均值按照从小到大的顺序排列,可以得到一组顺序 统计量 x (i) , 则第α/2 和第 1-α/2 分位点分别是 1-α置信水平下统计量 x 的置信区间的上下 限,即[ x
^ ^


则x=
^
1 B
x(i ) 样本方差为 Var( x )=
i 1
B
^
^
1 B -1
{x (i) x}2 ,
i 1 ^ ^ ^
B
^
^
由此得到总体均值的(1-α)%置信区间为:[ x - u1 / 2 Var( x ), x + 其中
u1 / 2 Var( x )].
^ * ( B) 2 ^ *
,x
*
^
((1- )B) 2
]。
(3)t 百分位数 Bootstrap 方法是在对百分位数 Bootstrap 方法进行改进得到的。 通常此方法 比百分位数 bootstrap 方法得到更精确的置信区间。进行 bootstrap 抽样,针对每个 bootstrap 样本计算 t 统计量:
k=randint(1,1,[1,16]); x1(j)=x(k);
end x2(i)=mean(x1); end x0=mean(x2); for i=1:b a(i)=(x2(i)-x0)^2; end p=sqrt(sum(a)/(b-1)); y1=x0-1.96*p; y2=x0+1.96*p; 令抽样进行一万次,输入命令[y1,y2]=bfun1(x,10000),得到结果为:[1476.3,1503.7],区间 长度为 26.4,较普通方法相比,精度没有提高。 (3)使用百分位数 bootstrap 方法,matlab 程序如下: function [y1,y2]=bfun2(x,b) for i=1:b for j=1:12 k=randint(1,1,[1,16]); x1(j)=x(k);
相关文档
最新文档