应用随机过程02

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
龚光鲁,钱敏平著 应用随机过程教程及其在算法与智能计算中的应用 清华大学出版社, 2003
第2章 随机样本生成法
1 一维随机数
随机变量(或随机向量)的样本简称为随机数. 由于在统计中常用的是独立样本列, 所以我们不妨假设随机数之间都是独立的.生成随机数的方法,也称为随机数的取样法 (Sampling).
态随机数.
命题2.5 (生成标准正态随机数的 Marsaglia 方法) 设( X ,Y ) 为单位圆上的均匀
随机数. 则
ηξ


=

2 ln( X 2 + Y X 2 +Y2
2
)

X Y

~
N
00
,
1 0
10 .
(提示 将直角坐标( X ,Y ) 转换为极坐标 ( R,ϑ) ).
的周期数列, 但是由于它可以像均匀随机数一样地通过数理统计中的独立性与均匀性假设 检验, 而且它的周期非常长, 以至在计算机实际运算过程中不会出现重复, 所以在实际计算 中它能很好地替代均匀随机数.
最普遍用以产生伪随机数的方法是同余法. 典型的例子如下:
yn+1 = 513 yn (mod 236 ) , y0 = 1, xn = yn ⋅ 2 −36 (周期约为2 ⋅1010);
k =1
k =1

证明 令Tk =− ln U k ~ Exp1 . 在指数流与 Poisson 过程的关系 ( 参见第 3 章) 中取参
数为 1, 取时间t 为 λ 即得.
1. 5 混合分布随机数
对于权重为 p1,L, pn (和为 1 的n 个正数) 的混合分布随机数, 我们有
命题2.7 设U ~ U[0,1],0 = t0 < L < t n = 1,t i − ti−1 = pi (i ≤ n) , Fi ( x)(i ≤ n) 为分
铮,徐映波编 蒙特卡罗法.华中科技大学出版社,2000 年).
1. 2 分布函数 F( x) 的随机数
命题2.2(反函数方法)分布函数为 F( x) 的独立随机变量列的样本,称为 F( x) 随机
数.若 F( x) 严格单调递增, ξ 是均匀随机数, 则 F −1(ξ ) 是 F( x) 随机数, 其中 F −1 为 F 的反
点是简单易行, 可以适用于非常复杂的分布.
注2 如果 p( x) 只在有限区间[a, b] 上不等于零, 而且有界, 那么 p0 (x) 就可取均匀分
布 U [a,b] ; 如果 p( x) 只在右半直线不等于零, 那么指数分布就可以是 p0 (x) 的一个选择;
如果 p( x) 在实直线上不等于零,且分布密度的尾部不大, 则正态分布就可以是 p0 (x) 的一
那么,我们有
命题 2. 8 设随机变量η 具有密度 p0 (x) , 而随机变量U ~ U [0,1] 且与η 独立, 则
∫ P(η ≤ x |
p(η)
x
≥ U ) = p(v)dv .
Cp0 (η)
−∞
∫ 证明 对η 的取值用推广了的全概率公式( P( A) = P( A | η = x) g(x)dx ),得到
1. 6 Von Neuman 取舍原则 Von Neuman 取舍原则:
假定我们要生成密度为 p( x) 的随机数. 为此取一个参考分布密度 p0 (x) , 使它满足:
(1) p0 (x) 随机数容易生成, 例如 p0 (x) 为正态密度, 均匀密度, 指数密度, 及它们的
混合密度;
(2) p0 (x) 与 p( x) 的取值范围差不多, 且存在C ,使 p(x) ≤ C ⋅ p0 ( x) .
布函数, 那么
∑ ∑ n
i=1
Fi −1 (U
− ti −1 pi
)I (ti −1,ti ] (U )
~
分布函数为
n i=1
pi Fi
的混合分布.
35
证明
∑ P(
n i=1
Fi
−1
U (
−t pi
i
−1
)I
(ti
−1
,
ti
]
(U
)

x)
=
∑n
i=1
P(Fi −1 (U
− ti −1 pi
) I ( ti −1,ti ]
∧2
机模拟取样,而是人工取样)如果要作方差的区间估计,就需要知道方差估计 σ 的方差
∧2
∧2
Var(σ ) .一般 Var(σ ) 很不好求,需要对它用再抽样进行估计.为此可将样本分布

X1 1
L L
Xn 1

作为离散随机变量的分布,
独立地取样 N 次,每次独立地取样 m 个.设从
n
33
n
∑ xi I Ji (U )
i=1
就是一个ξ 随机数(它的意思是:如果U 落入 J i ,就取ξ = xi ).
在统计再抽样中的应用 在样本组中再抽样,或者由样本作的参数估计代替分布中的未知参数后,所得到的分布 的随机取样,统一称为 Bootstrap 方法.具体地说有如下两种方法
(1)非参数 Bootstrap 方法.设自一个未知方差的分布取样 X1,L, X n (不是计算
1. 3 正态随机数
N (0,1) 随机数称为标准正态随机数. 生成标准正态随机数有一个比反函数的方法更为
简单的实践方法, 就是利用中心极限定理. 设η1,L,η12 为均匀随机数(它们是独立的), 由 中心极限定理,可以认为ξ = η1 + L +η12 − 6 ≈ N(0,1) , 即用ξ = η1 + L +η12 − 6 近似地 作为标准正态随机数. 在实际计算中ηi (1 ≤ i ≤ 12) 们还应该用伪随机数代替.
=
右 .?
取舍原则(Rejection Principle)的具体作法是:
(1) 独立地生成 n 个独立的 p0 (x) 随机数η1,L,ηn 与 n 个与之独立的U [0,1] 随机数
36
U1 ,L,U n .
(2)
对于 i = 1,2,L ,
如果有 p(ηi ) Cp0 (ηi )
≥Ui ,
就保留ηi ,
的样本 X1,L, X n(不是计算机模拟取样,而是人工取样)得到未知参数的估计(ϑ∧1,L,ϑ∧ l )
后,对分布 p(x,ϑ∧1,L,ϑ∧ l ) 用计算机模拟取样.独立地取样 N 次,每次独立地取样 m 个.其
它与(1)相同. 注意,计算机模拟取样只能对已知的分布施行,对于含未知参数的分布,只能作普通的 人工取样.以上的两种再抽样方法,补充了人工取样采样量的限制.因为计算机模拟取样既 快速又经济.
1. 1 均匀随机变量的计算机模拟
定义2.1 在[0,1]上均匀分布的随机变量的独立样本称为均匀随机数(U [0,1] 随机数).
在计算机上产生的称之为”伪随机数”的数列, 是一种具有非常长周期的, 且能通过数理 统计中的独立性与均匀性假设检验的数列. 实践证明伪随机数是均匀随机数的一种可行的
近似. 这种伪随机数虽然并不是独立同分布的U [0,1] 随机变量的样本, 而是在[0,1]中取值
一般正态随机数的生成 若ξ 为标准正态随机数, 则显见σξ + µ 为 N (µ,σ 2 ) 随机数.
1. 4 Poisson 随机数 下述结论给出了利用伪随机数生成 Poisson 随机数的方法。
命题2.6 设U1 ,U 2,L 是相互独立的[0,1]均匀随机数. 若
n+1
n
∏ ∏ U k < e −λ ≤ U k , 则定义 N = n . 那么 N ~ Poissonλ .
n
∧2
∧2
第 k 次的 m 个样本值得到方差的估计 σ k (k ≤ N ) ,将此 N 个的平均记为 σ ,最后用
∑ ∧ 2

σ
=
1
N
∧2 ∧2
∧2
(σ k − σ ) 2 估计Var(σ ) .
N − 1 k=1
此法可以用于一般未知参数的方差估计.
(2)参数 Bootstrap 方法. 设自一个带有未知参数 (ϑ1,Lϑl ) 的分布 p( x,ϑ1,Lϑl )
证明 只需注意到这时有
p(x) ≤ γ
⋅C ⋅
p0 ( x) ,
并且
γ
p(x) ⋅ Cp0 ( x)
=
h(x) 即可. Cp0 ( x)
∫ 注1 一般地 γ 需通过 1 = h(x)dx 计算, 其中的积分不易计算. 但是上面的事实说
γ 明不必计算 γ , 即可以忽视这个常数因子.这就使取舍原则变得非常好用.取舍原则的优
函数.
证明 P(F −1(ξ ) ≤ x) = P(ξ ≤ F (x)) = F( x) . ?
命 题 2 .3
设随机变量 ξ 只取有限个值,其分布为
ξ
~

x1 p1
L L
xn pn
.
把[0,1]
分为 n 个不交子区间, 使第i 个区间 J i 的长度为 pi . 任取均匀随机数U , 则
− x2
布 函 数 F( x) = (1 − e 2 )I[0,∞) (x) 由 命 题 2 .2,

ρ = F −1(1 −η1) =
− 2 ln η1 ~ F , 且 与

ϑ = 2πη2 ~ U[0,2π ] 相互独立. 而 ξ1 = ρ cosϑ,ξ2 = ρ sin ϑ ,易见它们是独立的标准正
∫∫ ∫∫ 左
=
P(η ≤ x, p(η) ≥ U ) Cp0 (η)
P( p(η) ≥ U ) Cp 0 (η )
=
x
P(U
−∞ ∞
P(U
−∞
≤ ≤
p( y) Cp0 ( y) ) p0 ( y)dy
p( y) Cp0 ( y) ) p0 ( y)dy
=
x1
−∞C ∞1 −∞C
p( y)dy p( y)dy
命题2.4 (生成标准正态随机数的 Box-Muller 方法) 取两个独立的均匀随机数
34
η1,η2 , 令
ξ1 = − 2ln η1 cos(2πη2) ,
ξ 2 = − 2 ln η1 sin( 2πη2 ) .
则ξ1,ξ 2 为相互独立的标准正态随机数.
证明 令η1,η2 ~ U[0,1] 且独立, 则1 −η1,η2 也是独立的 U [0,1] 随机变量. 于是对于分
用 h(x) 代替 p( x) ,得到 p( x) 随机数. 具体为:独立地生成 n 个独立的 p0 (x) 随机数
η1
,
L,η
n

n
个与Baidu Nhomakorabea独立的独立
U
[0,1]
随机数
U1
,L
,U
n
,如果
h(ηi ) Cp0 (ηi
)
≥Ui ,
则保留ηi ,
否则舍弃ηi , 那么所有保留下的是相互独立的 p( x) 随机数.
yn+1 = 517 yn (mod 2 42 ) , y0 = 1, xn = yn ⋅ 2−42 (周期约为1012);
yn+2 = yn +1 + yn (mod
244 ), y0 = 0, y1 = 1, xn = yn ⋅ 2−44
(周期约为 1 ⋅1014). 4
(关于伪随机数, 可参见:现代数学手册,随机数学卷,第 10 篇,孙嘉阳, 石坚,丛树
)
,
n
这样得到的数就是 pi Fi 混合分布随机数.
i=1
这个方法常用在排队论中. 在那里的典型情形是混合指数分布(有的书上称为超指数分
布 ),
即 Fi ( x) = 1 − e−λix ,
此时简单地有
Fi −1 ( y)
=

1 λi
ln(1 −
y)
,
于是计算变得非常简单
而有效 (当然也可利用命题 2.2 通过反函数来得到混合指数分布随机数. 但是计算量会增加 很多, 因为这个反函数并不简单).
个选择; 如果 p( x) 在实直线上不等于零,且分布密度的尾部较大(重尾分布), 则t 分布
就可以是 p0 (x) 的一个选择; 如果 p( x) 具有多个峰, 则混合正态分布或混合指数分布就可
以是 p0 (x) 的一个选择. 可见适当精心地选取 p0 (x) 是使计算省时的关键.
注3 原则上取舍原则也适用于离散分布和多维密度,但是在多维密度的情形, p0 (x)
(U
)

x, U
∈ (ti−1,
ti
])
n
n
∑ ∑ = P(ti−1 < U ≤ ti−1 + pi Fi ( x)) = piFi (x) . ?
i=1
i=1
在实际计算中, 应该用伪随机数来取代均匀随机数 U , 如果取到的伪随机数落在 (t i−1, ti ]
∑ 中,
则取
Fi −1 (U
− ti−1 pi
否则就舍弃ηi 。
由命题 2.8, 所有这样保留下来的那些ηi 们就成为一系列独立的 p( x) 随机数(当然个数会
比 n 小很多). 这种取舍方法称为 Von Neuman 取舍原则.
取舍原则可以改良为:
如果 p(x) = γ ⋅ h(x) , 只要存在 C ,使 h (x ) ≤ C ⋅ p 0 (x ) , 那么我们可以在取舍原则中
相关文档
最新文档