拉丁超立方抽样.doc
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
拉丁超立方抽样
从蒙特卡罗误差估计中,我们可以看到,大多数统计量的估计值的敛散性都与亠有关。
特别的,对y/N 于均值的估计量,我们发现:
而问题在于厶是否能被改善。
值得注意的是蒙特卡y/N 罗方法的一个主要优点就是他的敛散性依赖于独立的随机参数个数,而接下来我们将要看到的是一种完全不同的抽样方式:拉丁超立方抽样(LHS)。
但首先,我们要先了解一下分层抽样的相关内容。
分层抽样
我们考虑一维的单个变量输入问题:y = f(x), x 是一个随机变量。
分层抽样通过如下的步骤来进行:
1)定义参与计算机运行的抽样数目M
2)将x等概率地分成若干个区域——"bin”,
x o<x l<x2<xy<x…<x n+l■■-<x N
使得P(x n<x<x n+1) = l:
3)样本一次落入哪一个bin屮取决丁•该bin的概率密
度函数,样本0使得且概率为
P (兀邸 VXV£)
此时,均值的估计量可表示为:
N W-刃2
7?=1 等等 分层抽样的谋岸估计
我们只考虑均值y 的标准误差,有: 这里,同等于第i 个bin 中y 的均值。
(再_] ) 等式右边第一项同蒙特卡罗方法的标准误差一样,第 一项为附加项,它使方差变小。
所以,较之基于随机 抽样的蒙特卡罗方法,分层抽样降低了误差的方差。
多维分层抽样
对于有多个随机变量的输入,分层抽样需要 将输入的样本空间等概率地化为N 个区域,而这操作 起来
S,
1 N — 1
是很困难的。
(注意:仅仅在每一维上等概划分是不行的)考虑一个二维的情形:
2 bins
2 bins
假设珀,勺是均匀分布的(即二向同性的),则有:N =2x2 = 4 bins
对于一般N”个bins,考虑一个d维输入问题,我们发现有:
N=(Nj
举个例子,对于8维输入且每维上有2个bins,
N = 2S= 256 bins
或者,每维有3个bins,
TV =38 =6561 bins
显然,抽样数目随着每维bins的数目的增加而迅速增加。
拉丁超立方抽样
拉丁超立方抽样是另一种多维分层抽样方法,下面我们介绍它的工作原理:
1)定义参与计算机运行的抽样数目M
x iO<x il<x i2<x i3---<x in
2)把每一次输入等概率地分成N列,
且有 P (X <x<x +1) = -^
3)对每一列仅抽取一个样本,各列中样本bin 的位置 是随机的。
相对于单纯的分层抽样,拉丁超立方抽样的最大优势 就
在于任何大小的抽样数目都能容易地产生。
至于估计均值,通常的做法是:
_ 1 N
y 和孚的
一般情况下,这种估计的标准误差不能认为是对标准 蒙特卡洛抽样方法的改进。
但实际上,拉丁超立方抽 样对均值和方差的估计和蒙特卡罗方法相比,在效果 上至少是一样的,且常常会显著改善。
问题:因为拉丁超立方抽样标准误差的理论估计并不 是''贴紧”的,(例如:实际的均值远好于由误差估计 得到的值),边界必然是很悲观的。
尽管一般来讲误差 估计对于拉丁超立方抽样不是很理想,但有个特别的 N = 4个样本 的2维问题
X. k 丄 *«*
i.,亢U &二耳芒
《AJ )/
例子表明拉丁超立方抽样较Z 蒙特卡罗方法有潜在的 改进。
我们来看看这个例子:
假设y 是关于输入变量的线性函数y 土小分别利
/=1
用蒙特卡罗抽样和拉丁超立方抽样方法,再对均值进 行估计,结果都是:y =》£/(*)
而标准误差分别是:
拉丁超立方抽样的标准误差 1
------------------------ = ---
蒙特卡洛抽样的标准课差 N 2 我们可以看到,拉丁超立方抽样对样本数量的节省非 常显著。
因此,对丁•输出结果能用一个线性函数很好的逼 近的情况下,我们认为拉丁超立方抽样比蒙特卡洛抽 样更好。
MC
:
LHS。