SAS和统计计算
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
,
1 1 2x 1 1 2 0.242 2 2 ˆ Var (2 ) e dx (e 1) (e 1) (e 1) . 0 n 2 n n
14
由重要抽样法的思想,选一个与
2 x e x 1 x ...... 2
,
x1 ,
, xn 是U (a, b) 的随机数,
n n f ( x ) 1 b a i ˆ2 f ( xi ) 。 n i 1 g ( xi ) n i 1
的估计为
9
步骤:
(1) 、独立产生 n 个U (0,1)随机数 u1 , u 2 ,
, un ,
,n
(2) 计算: xi a (b a )ui 和 f ( xi )。 i 1, 2,
ˆ I , 的相关度 2
越高, ˆ 的方差越小。
23
考虑用重要抽样法估计
I1 ,I 2 ,即改写
为:
h1 ( x ) g1 ( x ) dx h2 ( x ) g 2 ( x ) dx ,
fi ( x) hi ( x) , i 1, 2. g ( x ) g ( x ) 1 2 其中 , 为概率密度, gi ( x)
第九章 SAS 和 统计计算
1
例:1777 年,法国学者 Buffon 提出用试验方法求圆周率
的值,其原理如下:
假设平面上有无数条距离为 1 的等距平行线,现向该平面随
l ( l 1) 的针,则计算该针与任一平行线相 交的概率。设针的中心点与最近的平行线间的距离 x 均匀分
机投掷一长度为
1 [0, ] 布在区间 2 上,针与平行线的夹角
li ˆ I (3) 、计算 i ni
f (x
j 1
ni
ij
ˆ I ) ˆi . ,则 3
i 1
m
ˆ ( E I ˆ I) E 3 i i
ˆ ) Var{ Var (
3
li i 1 ni
m
j 1
ni
l 2 f ( xij )} i . i 1 ni
ˆ 比 ˆ 有效 。 2 1
11
重要抽样法
由样本平均值法知:对任一密度函数 g ( x)
b
a
f (X ) f ( x) g ( x)dx E , g ( x) g(X )
n f ( xi ) 1 ˆ . n i 1 g ( xi )
ˆ 是无偏的, g( ) 使 其方差与g ( ) 有关, 问题变为: 如何选择 ˆ 的方差变小。
2 1 0
0.5
2e2 x dx 4(e e )2 (e2 e) 4(e e )2 0.09493
2 2 0.5
2 2 0.5 0.5 2 2 ˆ) n1 个,Var ( 设共抽 n 个, [0,0.5]上有 3 1 2 , n1 n n1
12
1 f (X ) 2 2 ˆ Var ( ) E ( ) 因为 n g( X ) ,
ˆ) 0. f ( x ) 0, 取 g ( x ) f ( x ) / , 则 Var ( 若
但 未知, 故不能取g ( x) f ( x) / , , 但 g ( x)可取与f ( x)形状接近的函数,, 这样就能降低估 计的方差,这就是重要抽样法的基本思想。
15
2 也是 的无偏估计,即 E ( 2 ) , 且
1 1 f 2 ( x) 2 Var (2 ) dx (e 1) 0 n g ( x)
0.242 ˆ Var ( 2 ) . n
1 3 e2 x 0.0269 2 dx (e 1) . 0 2 1 x (数值计算) n
n0 p M (b a ) n
n ˆ M (b a) 0 n
步骤:
i (1) 、独立地产生 2 n 个U (0,1) 随机数 ui vi ,
, =1,2,…,n;
(2) 、计算 xi a ui (b a) ,yi Mvi 和f ( xi ) ;
(3) 、统计 f ( xi ) yi 的个数 no
Di
成正比。
如此,对 贡献大的
抽样数多,可提高抽样效率。
17
考虑百度文库分
f ( x ) dx ,将 [0,1]
0
1
分成 m 个小区间,各
区间端点记为:
1 0
ai , 0 a0 a1 ,......, am 1 ,则
m ai i 1 ai 1
f ( x)dx
先由 g1 ( x ) , g 2 ( x ) 各产生 和
n
个随机数 x1 ,......, xn
m
2 i
,
其中
i2
ai
ai1
Ii 2 f 2 ( x) dx ( ) li li
19
如
1
0
e x dx. ,将[0,1]划分为[0,0.5]和[0.5,1],则
I1 e 1, I2 e e
2e2 x dx 4( e 1)2 (e 1) 4( e 1)2 0.03492
n b a ˆ f ( xi ) 2 n i 1
ˆ ) E( 2
n b b a 1 1 2 2 2 ˆ Var (2 ) Var f ( X ) ( b a ) f ( x ) dx i a n n ba i 1 b 1 (b a ) f 2 ( x)dx 2 a n
n0 ˆ 1 M (b a) , 。 n
7
精度:
no
b ( n, p ) , p
M (b a)
,
ˆ , E 1
2 2 M ( b a ) ˆ) Var ( Var ( n ) [ M (b a) ]. 1 o 2 n n
ˆ 以标准差衡量, 1 的精度为 n
ˆ I I1 I 2 ,用 1
的方差为:
ˆ 作为 ,I 2
ˆI ˆ I ˆ 估计 I1 , I 2 的估计, 1 2
ˆ ,则
ˆ) Var(I ˆ ) Var(I ˆ ) 2Cov(I ˆ ,I ˆ Var( 1 2 1 2)
ˆ I 若Var ( Iˆ1 ) ,Var ( Iˆ2 ) 确定,则当 1
1 2
。
8
设 g ( x) 是 (a, b) 上的密度函数,则
f ( x)dx
a b b a
样本平均值法
由矩法, 若有 n 个来自 g ( x) 的观测值, 则可给出
的一个矩估计,即样本平均值法。
1 a , b g ( x ) 如: 有限,取 ba
f (X ) f ( x) g ( x)dx E g ( x) g ( X )
13
例 : 考 虑
1
0
e x dx,的精确值为(e 1), 是可求的. , 现 用
Monte Carlo 法估计
首先考虑样本平均值法,即产生 n 个 U (0,1) 随机数
x1 ,
, xn , ,则
n 1 xi ˆ e 2 n i 1
ˆ ) , E ( ,且 2
e
x
相似的密度函数,
2 g ( x ) (1 x ), 利用线性近似取 3
则
g ( x)是(0,1)上密度函数.,设 x1 ,......, xn
是 g ( x) 的随机数,,则
n
的估计为
n xi
f ( xi ) 3 1 e 2 . n i 1 g ( xi ) 2n i 1 1 xi
在计算机上随机产生n个数对( x, ), x 1 判定 是否成立。 sin 2 记成立(即相交)的次数n0, 2n ˆ . 则 n0
4
随机模拟的计算思路:
(1) 、针对实际问题建立一个简单便于实现的概率统计模型,使 所求的解恰好是所建模型的概率分布或某数字特征。如事件 的概率或模型的期望; (2) 、对模型中的随机变量建立抽样方法,在计算机上进行模拟 试验,抽取足够的随机数,并对有关的事件进行统计; (3) 、对模拟试验结果加以分析,给出所求解的估计及精度(方 差)的估计; (4) 、必要时,还应改进模型以降低估计方差和减少试验费用, 提高模拟计算的效率。
考虑简单的定积分
f ( x)dx
a
b
(如计算概率、各阶矩等,可归为定积分)
5
随机投点法
设 a,b 有限,0
f ( x ) M ,令 {( x, y ) : a x b, 0 y M }
设(X,Y)在
上均匀分布,
为阴影部分的面积
M f(x)
a
b
6
向 随机投点,若点落在{(x,y): y<f (x)},称为“中的” 。
1
对 n1 求导,n 给定
20
n1 1 0.03492 当 n 1 2 0.03492 0.09493
0.18687 0.37753 时,方差最小 0.18687 .30811
2 0.5 ˆ) Var ( 3 n 2 12 0.06125 2 n n1 / n 1 n1 / n
ˆ 方差小,即优于 2 。
16
分层抽样法
另一种利用贡献率大小来降低估计方差的方法是分层抽样法。 它首先把样本空间 D 分成一些小区间D1 ,......, Dm ,且诸 Di 不相交, 小决定,即 定义 pi
Di D ,然后在各小区间内的抽样数由其贡献大
Di
f ( x ) dx ,则 Di 抽样数应与 pi
n
, 则
p
的估计
ˆ ~ N ( p, p
p 2
近似
p(1 p) ) n
p(1 p) 0.2313 n n
3
0.6366 ,
ˆ 若 要 以 95% 的 概 率 保 证p
精确到三位有效数字,即
ˆ p 0.001 n 1.96 2 0.2313 / 0.0012 8.87 10 5 p
2
2 注:一般 i 未知,取简单分配 ni
nli
l
i 1
m
nli ,此时也有 ba
i
m b a 2 ˆ Var (ˆ3 ) l i i Var ( 2 ) n i 1
22
关联抽样法
考虑积 分之 差
f1 ( x)dx f 2 ( x)dx
2 若将区间细分为 10 等分,计算诸 i ,最优抽样次数分配
ni i m n
j 1
0.00246 j ,方差为 n
21
2 li 已知时,当 n 固定, ni 一般在 i 和
nli i
l
i 1 i
m
时,
i
1 m l 方差最小,值为 i i n i 1
(不管相交与否) ,
均匀分布在区间 [0, ] 上,于是针与线相交的充要条件是:
2
x l . sin 2
x
l sin 2 l 2l 2 p P( X sin ) dxd . 0 0 2 2 假设l =1, 则 p = 。 由中心极限定理,若试验次数为
10
在 0 f ( x) M 下,可证,对相同的n ,
ˆ) ˆ ) Var ( Var ( 1 。 2
事实上
Var (ˆ1 ) Var (ˆ2 )
2 b f ( x) b M (b a ) M (b a ) dx f ( x)dx 0 a a n M n
f ( x)dx I i .
i 1
m
记 li ai ai 1 , i 1,......, m ,抽样步骤:
(1) 、产生 U(0,1)上随机数
{ uij : j 1,......, ni , i 1,......, m
}
18
(2 )、计算 xij ai 1 li uij , j 1,......, ni , i 1,......, m