依分布收敛及中心极限定理
第五章_大数定律和中心极限定理 例题与解析
V 20 5 100 / 12 20
105 20 5 100 / 12 20
V 100 V 100 P 0 . 39 1 P 0 . 39 12 ) 20 12 ) 20 ( 10 ( 10
1 ( 0 . 39 ) 1 0 . 6517 0 . 3483
lim F n ( x ) F ( x )
W 则称{ F n ( x )} 弱收敛于F(x),记为 Fn ( x) F ( x)。 L { 称 }依分布收敛于,记为 。
n
n
n
定理5.2 (几种收敛之间的关系) P ,则 L 。 1. 若
n
L P 2. 设为常数,则 n 当且仅当 n 。 a.s. P n ,则 n 。 3. 若
设随机变量 1, 2, , n 相互独立且服从同一分布,且 具有相同的数学期望和方差:
E ( i ) ,D ( i ) , i 1,, , n , 2
2
则随机变量
n
i 1
n
i
n
n
n
L N ( 0, , 1)
即 n 的分布函数 F n ( x ) 对任何x满足
lim P (
n
n np
np (1 p )
x
x)
1 2
t
2
e
2
dt .
例2 (2002年数学四考研试题)
设随机变量 X 1, X 2, , X n 相互独立,S n
n
X i.
i 1
则根据列维-林德贝格中心极限定理,当n充分大时,S n 近似
中心极限定理(27页PPT)
电子科技大学
中心极限定理
例5.2.3 路边有一个售报亭, 每个过路人 在报亭买报的概率是 1/3, 求: 正好售出 100 份报纸时的过路人数在 280 到 300 之间的概 率。
解 设 X 是正好售出 100 份报纸时的过路人
数, Xi 是售出第 i 1 份报纸后到售出第 i 份报 纸时的过路人数, 则
n
P{Yn
y}
2
e 2 dt ( y)
称随机变量序列 {Xk}服从中心极限定理.
注1 随机变量序列 {Xk}服从中心极量
k 1
依分布收敛于标准正态分布随机变量X;
注2 解释了现实中哪些随机变量可看服从 正态分布;
电子科技大学
中心极限定理
若随机变量序列{Xk },k = 1,2,…服从中心 极限定理,有
中心极限定理
§5.2 中心极限定理
一. 中心极限定理的定义与意义
定义5.2.1 设随机变量X, X1, X2, …的分布函 数分别为F( x ),F1( x ), F2( x ), …, 若极限式
lim
n
Fn
(
x)
F
(
x
)
在F( x )的每一个连续点上都成立,称随机变 量序列{Xk}, k = 1,2,…依分布收敛于X .
100
X Xi
i 1
电子科技大学
中心极限定理
并且随机变量 X1, X2, ···, X100 独立同分布,
具有分布律:
P{ X i
k}
1 (2)k1, 33
k 1,2,
因 1
E( X i ) 1 3, 3
2
D( X i )
3
(
1 3
依概率收敛 大数定律 中心极限定理
依概率收敛大数定律中心极限定理依概率收敛、大数定律和中心极限定理是概率论中重要的三个定理,它们在统计学、经济学、物理学等领域有着广泛的应用。
本文将分别介绍这三个定理的定义、原理和应用。
一、依概率收敛1.1 定义依概率收敛是指,对于一组随机变量序列X1,X2,...,Xn,...,如果对于任意给定的正数ε>0,都有:lim P(|Xn-X|≥ε)=0(n→∞)其中,X为常数,则称随机变量序列{Xn}依概率收敛于X。
1.2 原理依概率收敛是弱收敛的一种形式。
它表示当样本容量趋近于无限大时,样本均值与总体均值之间的差距会越来越小,并最终趋于零。
1.3 应用依概率收敛在经济学和金融学中有着广泛的应用。
例如,在股票市场上,当投资者持有股票时,他们通常希望股票价格能够稳定增长。
而依概率收敛则可以帮助投资者预测股票价格的未来趋势,从而制定出更为科学合理的投资策略。
二、大数定律2.1 定义大数定律是指,对于一组独立同分布的随机变量序列X1,X2,...,Xn,...,如果E(Xi)=μ,则对于任意给定的正数ε>0,都有:lim P(|(X1+X2+...+Xn)/n-μ|≥ε)=0(n→∞)其中,μ为总体均值,则称随机变量序列{Xn}满足大数定律。
2.2 原理大数定律是概率论中最基本也是最重要的一条定理。
它表明当样本容量越来越大时,样本均值会越来越接近总体均值。
换句话说,当样本容量充分大时,样本均值就可以代表总体均值。
2.3 应用大数定律在统计学中有着广泛的应用。
例如,在进行人口普查或调查时,如果样本容量太小,则无法准确地反映总体情况。
而通过应用大数定律可以帮助我们确定一个合适的样本容量范围,并保证调查结果的准确性和可靠性。
三、中心极限定理3.1 定义中心极限定理是指,对于一组独立同分布的随机变量序列X1,X2,...,Xn,...,如果E(Xi)=μ,Var(Xi)=σ²,则随机变量序列:Zn=(X1+X2+...+Xn-μn)/σ√n近似服从标准正态分布,则称随机变量序列{Xn}满足中心极限定理。
大数定律与中心极限定理
⼤数定律与中⼼极限定理⽬录随机变量序列的两种收敛性依概率收敛:设{X n}为⼀随机变量序列,X为⼀随机变量,若对于任意ϵ>0,有P(|X n−X|≥ϵ)→0(n→∞)则称序列{X n}依概率收敛于X,记作X n P →X依概率收敛的性质:若X n P →aY n P →b则:X n±Y n P→a±bX n Y n P→abX n÷Y n P→a÷b弱收敛(按分布收敛):随机变量X,X1,X2…的分布函数为F(x),F1(x),F2(x)…,若对于F(x)的任意⼀个连续点x,有lim n→∞F n(x)=F(x)则称分布函数序列{F n(x)}弱收敛于F(x),记作F n(x)W→F(x)也称{X n}按分布收敛于X,记作X n L →X特征函数特征函数:设X是⼀个随机变量,则φ(t)=E(e itX)为X的特征函数。
常⽤分布的特征函数0-1分布:φ(t)=pe it+q泊松分布:φ(t)=∑e itx λk e−λk!=e−λ∑(λe it)kk!=eλ(e it−1)均匀分布:φ(t)=∫b ae itxb−a dx=e itb−e itait(b−a)标准正态分布:φ(t)=e−1 2t2证明:φ(t)=∫∞−∞e itx1√2πe−12x2dx=1√2π∫∞−∞∞∑n=0(itx)nn!e−12x2dx=∞∑n=0(it)nn![∫∞−∞x n1√2πe−12x2]dx=∞∑n=0(it)nn!E(X n)当n为奇数时,E(X n)=∫∞−∞x n1√2πe−12x2dx=0当n为偶数时,E(X n)=E(X2m)=∫∞−∞x2m1√2πe−12x2dx=1√2π∫∞−∞−x2m−1d(e−12x2)=1√2π(2m−1)∫∞−∞x2m−2e−12x2dx=(2m−1)(2m−3)…1∫∞−∞1√2πe−12x2dx=(2m−1)!!=2m!2m(m−1)!故φ(t)=∞∑m=0(it)2m(2m)!E(X2m)=∞∑m=0(it)2m(2m)!2m!2m(m−1)!=∞∑m=0(−t22)mm!=e−1 2t2指数分布的特征函数:φ(t)=(1−it λ)−1证明:φ(t)=∫∞0e itxλe−λx dx=λ[∫∞0cos(tx)e−λx dx+i∫∞0sin(tx)e−λx dx]I=∫∞0cos(tx)e−λx dx=∫∞01t e−λx dsin(tx)=λt∫∞sin(tx)e−λx dx=−λt2[−1+λ∫∞cos(tx)e−λx dx]=−λ2t2I+λt2故I=λλ2+t2φ(t)=λ(λλ2+t2+itλ2+t2)=λλ2+t2(λ+it)=λλ−it=(1−it λ)−1特征函数的性质|φ(t)|≤φ(0)=1证明:|φ(t)|=|∫e itx f(x)dx|≤∫|e itx|f(x)dx=1若Y=aX+b,则φY(t)=e ibtφX(at)证明:φY(t)=∫e it(ax+b)f(x)dx=e itb∫e itax f(x)dx=e ibtφX(at)若X和Y相互独⽴,则有φX+Y(t)=φX(t)φY(t)证明:E(e it(X+Y))=E(e itx e ity)=E(e itx)E(e ity)=φX(t)φY(t)若E(X l)存在,则X的特征函数l次可导,且对1≤k≤l有φ(k)(0)=i k E(X k)证明:φ(k)(t)=∫i k x k e ixt f(x)dx将t=0代⼊得φ(k)(0)=i k∫x k f(x)dx=i k E(X k)⼤数定律 概率是频率的稳定值,其中稳定是什么意思?⼤数定律详细的描述了这个问题。
中心极限定理
= Φ (1.83) = 0.966
练习:237页1、2
3、李雅普诺夫(独立不同分布) 、
设随机变量 X 1 , X 2 ,L, X n ,L相互独立 , 它 们具有数学期望 和方差: 和方差: E ( X k ) = µ k , D( X k ) = σ k ≠ 0 ( k = 1,2,L),
2 n
中心极限定理
林德贝格—勒维(独立同分布定理) 棣莫弗—拉普拉斯(二项分布的正态近似) 李雅普诺夫(独立不同分布)
一.依分布收敛
为随机变量序列, 为随机变量, 设{Xn}为随机变量序列,X为随机变量,其 对应的分布函数分别为F 若在F(x) 对应的分布函数分别为Fn(x), F(x). 若在F(x) 的连续点, 的连续点,有 则称{F (x)}弱收敛于 弱收敛于F(x). 则称{Fn(x)}弱收敛于F(x). 可记为
由中心极限定理, 由中心极限定理,结论得证
记
2 2 Bn = ∑ σ k , k =1
若存在正数 δ , 使得当 n → ∞ 时, 1
2 Bn +δ
E {| X k − µ k |2+δ } → 0, ∑
k =1
n
则随机变量之和的标准化变量 n n n n ∑ X k − E ∑ X k ∑ X k − ∑ µk k =1 = k =1 k =1 Z n = k =1 Bn n D ∑ X k k =1 的分布函数 Fn ( x ) 对于任意 x 满足 n n ∑ X k − ∑ µk k =1 k =1 lim Fn ( x ) = lim P ≤ x n→ ∞ n→ ∞ Bn 2 t x 1 −2 e dt = Φ ( x ). =∫ −∞ 2π
大数定律与中心极限定理 定义与例题
三、典型例题
一加法器同时收到 例1 20 个噪声电压 Vk ( k 1 , 2 , 20 ), 设它们是相互独立的随 且都在区间 ( 0 ,10 ) 上服从均匀分布 机变量 , ,记 V
k 1
20
Vk ,
求 P { V 105 } 的近似值 .
解 E (V k ) 5 ,
解:对每台车床的观察作为一次试验,
每次试验观察该台车床在某时刻是否工作, 工作的概率为0.6,共进行200次试验. 用X表示在某时刻工作着的车床数, 依题意, X~B(200,0.6), 设应供应N千瓦电力,现在的问题是:求满足 P(X≤N)≥0.999 的最小的N.
由德莫佛-拉普拉斯极限定理
X np np(1 p)
i1
n
Xi
n
1
n
EX i
i1
0.
切比雪夫不等式
如 果 随 机 变 量 X的 数 学 期 望 EX 和 方 差 DX 存 在 , 则 对于任一正数, 都有 P
X EX
DX
2
证 明 : 对 于 任 给 正 数 , 由 切 比 雪 夫 不 等 式 ,有 1 D n
i1
n
Xi
n
1
n
EX i
i1
0.
辛钦大数定律
设 随 机 变 量 X 1 , X 2 , , X n , 独 立 同 分 布 , 且 数 学 期 望 存 在 ,则 对 于 任 意 0, 有 1 li m P n n
i1
n
X i 0.
例1 判 断 下 列 说 法 的 对 错 , 并 简 述 理 由 : (1 ) 设 随 机 变 量 X 1 , X 2 , , X n , 独 立 同 具 有 密 度 f ( x ), 则 序 列 X 1 , X 2 , , X n , 满 足 辛 钦 大 数 定 律 . ( 2 ) 设 随 机 变 量 X 1 , X 2 , , X n , 独 立 同 服 从 参 数 为 的 泊 松 分 布 , 则 X 1 , 2 X 2 , , n X n , 满 足 切 比 雪 夫 大 数 定 律 .
中心极限定理
1 n P{0.09 ≤ ∑Xk ≤ 0.11 } n k=1
欲使 即 查表得
n 2Φ( ) −1 ≥ 0.95 30 n Φ( ) ≥ 0.975 30 即至少应取球3458次 即至少应取球 次 才能使“ 出现的频 才能使“0”出现的频 n ≥ 1.96 率在 率在0.09-0.11之间的 之间的 30 概率至少是0.95. 概率至少是
现在我们就来研究独立随机变量之和所 特有的规律性问题. 特有的规律性问题 无限增大时, 当n无限增大时,这个和的极限分布是 无限增大时 什么呢? 什么呢? 在什么条件下极限分布会是正态的呢? 在什么条件下极限分布会是正态的呢?
由于无穷个随机变量之和可能趋于∞, 由于无穷个随机变量之和可能趋于 , 故我们不研究n个随机变量之和本身而考虑 故我们不研究 个随机变量之和本身而考虑 它的标准化的随机变量
于是 P(X≤N)= P(0≤X≤N)
N −120 −120 ≈ Φ( ) − Φ( ) 48 48 N −120 ≈ Φ( ) 48
N −120 )≥0.999, 查正态分布函数表得 由 Φ( , 48 Φ(3.1) = 0.999 N −120 故 ≥ 3.1, 48
从中解得N≥141.5, 从中解得
千瓦, (由于每台车床在开工时需电力1千瓦, 由于每台车床在开工时需电力 千瓦 N台工作所需电力即 千瓦 ) 台工作所需电力即N千瓦 台工作所需电力即 千瓦.)
由德莫佛-拉普拉斯极限定理 由德莫佛 拉普拉斯极限定理
X − np 近似N(0,1), 近似 np(1− p)
这里 np=120, np(1-p)=48
定理1(独立同分布下的中心极限定理) 定理 (独立同分布下的中心极限定理) 设X1,X2, …是独立同分布的随机 是独立同分布的随机 变量序列, 变量序列,且E(Xi)=µ ,D(Xi)= σ 2 , i=1,2,…,则 ,
随机过程第01章 基础知识772.7 2.7 收敛性和极限定理
(3)若 X n 依概率收敛,则 X n 必为依分布收敛。
注 均方收敛与以概率1收敛不存在确定的关系。
二、极限定理
1.强大数定理
如果 X1,X 2, 独立同分布,
具有均值 ,则
首页
P{lim ( n
X1
X
2
X
n
)
/
n
}
1
2.中心极限定理 如果 X1,X 2, 独立同分布,
设 Fn (x),F(x)分别为随机变量 X n 及X 的
分布函数
如果 F(x) 对于的每一个连续点x,有
lim
n
Fn
(x)
F
(x)
则称 随机变量序列 X n 以分布收敛于X,记作
X n d X
首页
收敛性之间的关系
(1)若
X
均方收敛,则
n
X n 必为依概率收敛;
(2)若 X n 以概率1收敛,则 X n 必为依概率收敛;
具有均值 与方差 2 ,则
lim P X1 X n n a
n
n
a
1
x2
e 2 dx
2
n
注 若令 Sn X i ,其中 X1,X 2, 独立同分布 i 1
则 强大数定理 表明 Sn / n 以概率1收敛于 E[X i ];
中心极限定理 表明当n 时,S n 有
且
lim
n
E[|
Xn
X
|2 ]
0
则称 随机变量序列 X n 以均方收敛于X,记作
l.i.m n
Xn
X
依分布收敛与中心极限定理
第四章第四章 极限定理§1 依分布收敛与中心极限定理一、一、分布函数弱收敛二、性质三、中心极限定理概率论早期发展的目的在于揭示由于大量随机因素产生影响而呈现的规律性. 贝努里首先认识到研究无穷随机试验序列的重要性,并建立了概率论的第一个极限定理——大数定律,清楚地刻画了事件的概率与它发生的频率之间的关系. 棣莫佛和拉普拉斯提出将观察的误差看作大量独立微小误差的累加,证明了观察误差的分布一定渐近正态——中心极限定理. 随后,出现了许多各种意义下的极限定理. 这些结果和研究方法对概率论与数理统计及其应用的许多领域有着重大影响. 本章着重介绍上述大数定律和中心极限定理等有关内容.§1 依分布收敛与中心极限定理我们知道,如果ξ是概率空间 (Ω, F , P)上的随机变量,那么它的分布函数F(x)=P(ξ≤x )刻画了它的全部概率性质. 因此,对随机变量序列的研究就必须首先对相应的分布函数序列作深入研究.一、分布函数弱收敛定义1 设F 是一分布函数,{F n }是一列分布函数,如果对F 的每个连续点x ∈R ,都有F n (x)→F(x) (n →∞),则称F n 弱收敛(weak convergence)于F ,记作F n W −→− F.设ξ是一随机变量,{ξn }是一列随机变量,如果ξn 的分布函数列弱收敛于ξ的分布函数,则称ξn 依分布收敛(convergence in distribution)于ξ,记作ξn d−→−ξ.注1注1 分布函数逐点收敛的极限函数未必是分布函数.例如, F n (x)=⎩⎨⎧,1,0.,n x n x ≥<该分布函数列处处收敛于0, 但G(x)≡0不是分布函数. 因此对一般的分布函数列,要它们逐点收敛于分布函数,要求是过高了,不得不如定义1加上限制.注2 定义1中的限制条件“对F 的每个连续点x ,F n (x) →F(x)”是足够宽的,例如, F n (x)=⎩⎨⎧,1,0./1,/1n x n x ≥< F(x)= ⎩⎨⎧,1,0 .0,0≥<x x 除在0点以外(F n (0)=0→/F(0)=1),逐点收敛于F(x),而0点刚好是F(x) 的唯一不连续点,因此按定义1,F n W−→− F.*注3 由于分布函数F 的不连续点最多有可数个,F n W−→− F 意味着F n 在R 的一个稠密子集上处处收敛于F (D 在R 上稠密,是指对任意x o ∈R, 在x o 的任意小邻域内,一定有x ∈D ).下面给出海莱(Helly)定理,它们对分布函数列弱收敛性的研究起着重要作用.定理1(海莱第一定理) 设{F n }是一列分布函数,那么存在一个单调不减右连续的函数F (不一定是分布函数),0≤≤F x ()1, x ∈R, 和一子列{k n F },使得对F 的每个连续点x ,k n F (x)→F(x) (k →+∞).证 令r r 12,, 表示全体有理数. 01)(≤≤x F n 意味着{)(1r F n }是有界数列,因此可以找到一个收敛子列{)(11r F n }, 记+∞→=n r G lim )(1)(11r F n . 接着考虑有界数列{)(21r F n },存在它的一个收敛子列{)(22r F n },记+∞→=n r G lim)(2)(22r F n . 如此继续,得到{kn F }⊂{n k F ,1-}, +∞→=n k r G lim )()(k kn r F , k ≥2.现在考虑对角线序列{nn F }. 显然,+∞→n lim )(k nn r F =)(k r G 对所有正整数k 都成立. 另外,由于F n 单调不减,如果r r i j <,有)()(j i r G r G ≤. 因此G(r)是定义在有理数上的有界不减函数. 定义)(inf )(j xr r G x F j ≥= x ∈R.(1)这个函数在有理数上与G(x)相等,它显然也是有界不减的. 下面证明,对F 的每个连续点x,+∞→n lim )(x F nn =F(x).(2)任意给定ε>0和F 的连续点x ,选取h >0,使得F(x+h)--F(x--h) <ε/2.根据有理数的稠密性,存在有理数r r i j ,满足x-h <j i r x r <<< x+h,从而F(x-h))()()()(h x F r F x F r F j i +≤≤≤≤. (3)另外,存在N (ε) 使得当n ≥N()ε时,2/|)()(|ε<-i i nn r F r F , 2/|)()(|ε<-j j nn r F r F .(4)进而由F n 和F 的单调性,当n ≥N()ε时,εεε+≤++≤+≤≤)(2/)(2/)()()(x F h x F r F r F x F j j nn nn ,εεε-≥--≥-≥≥)(2/)(2/)()()(x F h x F r F r F x F i i nn nn .综合得到|ε<-|)()(x F x F nn .(5)(2)式得证. 由F 的定义(1),在它的不连续点上是右连续的. 定理1证毕.定理2 (海莱第二定理) 设F 是一分布函数,{F n }是一列分布函数,F n −→−WF. 如果g(x)是R 上的有界连续函数,则⎰⎰∞∞-∞∞-→)()()()(x dF x g x dF x g n . (6)证 因为g 是有界函数,必存在c >0使得 |g (x) | < c, x ∈R. 因为F 的所有连续点构成R 上的稠密集,又由F(∞-)=0, F(∞)=1,故对于任意给定的ε>0, 可以选取a>0使得±a 是F 的连续点,并且F(-a)<ε/12c,1-F(a)<ε/12c.(7)由于F n W−→−F ,存在N 1()ε, 使得当n ≥N 1()ε时,|F n (-a)-F(-a)|<ε/12c,|1-F n (a)-(1-F(a))|<ε/12c,(8)这样我们有|⎰⎰⎰⎰-∞--∞-∞∞-+-aa aan n x dF x g x dF x g x dF x g x dF x g |)()()()()()()()(≤c ))(1)(1)()((a F a F a F a F n n -+-+-+-≤c [ |n F (-a)-F(-a)|+2F(-a)+|1-n F (a)-(1-F(a))|+2(1-F(a))]<ε/2.(9)下面考虑⎰⎰---a aaan x dF x g x dF x g )()()()(||. 由于g(x)在闭区间[-a, a]上一致连续,可以选取a x x x a m =<<<=- 10, 使得所有x i 是F 的连续点,且i i x x x ≤<-1max |g(x)--g(i x )|<ε/8. 于是⎰⎰---aaaan x dF x g x dF x g )()()()(||=∑⎰∑⎰==---mi x x mi x x n ii ii x dF x g x dF x g 1111)()()()(||∑⎰=--≤mi x x n i ii x dF x g x g 11)(|)()(|+∑⎰=--mi x x i i i x dF x g x g 11)(|)()(|+∑⎰⎰=---⋅m i x x x x n i i i ii x dF x dF x g 111)()(||)(||∑∑==---+-+-≤m i mi i i n i i i ninx F x F c x F x F xF x F 1011|)()(|2)}()()()({8ε=∑=-+--+--mi i i n n n x F x F c a F a F a F a F 0|)()(|2))()()()((8ε. (10)由于1)()(≤--a F a F n n , F a F a ()()--≤1, 再选择N 2()ε使得当n ≥N 2()ε时,<-|)()(|i i n x F x F mc 8ε,i = 0,1,2,…,m.(11)故(10)式不超过ε/2. 因此,当n ))(),(max(21εεN N ≥时,⎰⎰∞∞-∞∞--)()()()(|x dF x g x dF x g n | <ε.(12)定理证毕.定理3 (勒维(Levy)连续性定理(continuity theorem)) 设F 是一分布函数,{F n }是一列分布函数. 如果F n W−→− F ,则相应的特征函数列{)(t f n }关于t 在任何有限区间内一致收敛于F 的特征函数)(t f .对任何b >0, 仅考虑 | t |≤b . 令itxt e x g =)(, x ∈R. 注意到下列事实:|)(x g t |=1,|||||)()(|sup ||y x b y g x g t t bt -⋅≤-≤,则该定理的证明完全类似于定理2,不再重复.由前面一章知道,特征函数与分布函数相互唯一确定. 同样,勒维连续性定理的逆命题也成立.定理4(逆极限定理) 设)(t f n 是分布函数F x n ()的特征函数,如果对每一个t ,)(t f n →)(t f , 且)(t f 在t=0处连续,则)(t f 一定是某个分布函数F 的特征函数, 且F n W −→− F.本定理的证明比较繁复,从略. 但定理的作用是很大的,它使得特征函数成为研究某些极限定理的重要工具. 这里先举个例子来说明这个定理的应用.例1 用特征函数法证明二项分布的泊松逼近定理.证 设ξn 服从二项分布B (n,p n ),且λ=+∞→n n np lim . 它的特征函数为)(t f n =n n it n q e p )(+, 其中n n p q -=1. 当n +∞→时,它的极限为)1())1(1(lim )(lim -+∞→+∞→=-+=it e nit n n n n e n e np t f λ,这正是泊松分布的特征函数. 由逆极限定理,二项分布B (n,p n )依分布收敛于泊松分布P(λ).二、性质除连续性定理外,分布函数弱收敛还有下列性质.性质1 设{F n }是一列分布函数,如果n F −→−WF, F 是一连续的分布函数,则n F (x)在R 上一致收敛于F(x).证明留给读者.性质2 设ξ是一随机变量,{ξn }是一列随机变量,g (x)是R 上的连续函数,如果nξξ−→−d ,则)(n g ξ)(ξg d−→−.证 假设ξ和n ξ的分布函数分别为F 和n F . 如果nξξ−→−d ,即n F −→−W F ,由定理2,)(n g ξ的特征函数⎰+∞∞-)()(x dF en x itg 收敛于⎰+∞∞-)()(x dF e x itg , 该极限正是)(ξg 的特征函数.再类似定理4, )(n g ξ的分布函数弱收敛于)(ξg 的分布函数,即)(n g ξ)(ξg d−→−.性质3 设{a n }和{b n }是两列常数,F 是一分布函数, {F n }是一列分布函数. 如果a n →a,b n →b, F n W −→−F,则F n (n n b x a +)→F(a x +b ),其中x 使得a x +b 是F 的连续点.证 设x 使得a x +b 是F 的连续点. 令ε>0使得F 在a x +b ±ε处连续(这是可能的,因为F 的连续点在R 上稠密). 显然a x b n n +→a x +b, 故对充分大的n,.εε++≤+≤-+b ax b x a b ax n n (13)因此).()()(εε++≤+≤-+b ax F b x a F b ax F n n n n n 由于F n W−→− F ,则).()(lim )(lim )(εε++≤+≤+≤-++∞→+∞→b ax F b x a F b x a F b ax F n n n n n n n n 让ε→0,由于F 在a x+b 处连续,即可完成证明.推论如果n ξξ−→−d,则b a b a d n n n +−→−+ξξ,(0,≠a a n ).这是因为n n n b a +ξ与b a +ξ的分布函数分别为n F (n na b x -)与F(a bx -),再应用性质3即可.三、中心极限定理设一次贝努里试验中成功的概率为p (0 <p <1), 令S n 表示n 重贝努里试验中成功的次数,那么,概率P(S n =k) = b (k; n, p). 在实际问题中, 人们常常对成功次数介于两整数α和β之间(α<β)的概率感兴趣,即要计算P(∑≤≤=≤≤βαβαk n p n k b S ),;().(14)这一和式往往涉及很多项,直接计算相当困难. 然而德莫佛和拉普拉斯发现,当n →∞时可以用正态分布函数作为二项分布的渐近分布.定理5(德莫佛—拉普拉斯定理) 设Φ(x)为标准正态分布的分布函数. 对-∞<x<∞,有∞→n lim P ⎪⎪⎭⎫ ⎝⎛≤-x npqnp S n =Φ(x),(15)其中q=1-p.注意到E S n = np, Var S n = npq, (15)式左边是S n 标准化后的分布函数的极限,因此这个定理表示二项分布的标准化变量依分布收敛于标准正态分布. 简单地说成二项分布渐近正态分布.历史上人们是通过精确估计二项分布的值来说明该定理的. 但从现代分析概率论的观点看,这个结果只是将要介绍的更一般的中心极限定理(见定理6)的特殊情形. 因此, 我们不再给出它的证明.定理的直接应用是:当n 很大,p 的大小适中时,(14)式可用正态分布近似计算:P()βα≤≤n S =P ⎪⎪⎭⎫⎝⎛-≤-≤-npq np npq np S npq np n βα=Φ⎪⎪⎭⎫ ⎝⎛-npq np β-Φ⎪⎪⎭⎫ ⎝⎛-npq np α. (16)它的含义可用右图(图4-1)显示(为了直观,图中显示的是未标准化的随机变量):作相邻小矩形,各小矩形的底边中心为k(α≤k ≤β),底边长为1,高度为b( k; n, p),这些小矩形面积之和即为P()βα≤≤n S . 再作N(np, npq)的密度曲线,在[α,β]之间曲线覆盖的面积为(16)式右边之值.注1 第二章讲过二项分布渐近于泊松分布的泊松定理,它与定理5是没有矛盾的. 因为泊松定理要求λ=∞→n n np lim 是常数,而定理5中p 是固定的. 实际应用中,当n 很大时, 1o若p 大小适中,用正态分布Φ(x)去逼近(15)式左边的概率,精度达到O(n -12/); 2o如果p 接近0(或1),且np 较小(或较大),则二项分布的图形偏斜度太大,用正态分布去逼近效果就不好. 此时用泊松分布去估计精度会更高.注2 实际计算中,若n 不很大,把(16)式右边修正为Φ⎪⎪⎭⎫ ⎝⎛-+npq np 5.0β-Φ⎪⎪⎭⎫⎝⎛--npq np 5.0α,(17)一般可提高精度(从上图看,相当于计算密度曲线下[α-0.5,β+0.5]之间的面积).例2 设n=104, p=5310-⨯, 求P(70≤nS ).解 尽管p 很小,但np=50很大,此时用泊松逼近并不好, 故用定理5.P(70≤n S )=P ⎪⎭⎫ ⎝⎛≤-50205050n S ≈Φ⎪⎭⎫ ⎝⎛5020≈0.997.例3 抛掷一枚均匀硬币时需要抛掷多少次才能保证出现正面的频率在0.4与0.6之间的概率不小于90%?解 令n 为抛掷次数, S n 为出现正面的次数, S n ~B(n, 1/2). 题意要求n, 使P(0.4≤≤n S n 0.6)≥0.9.利用定理5, 上式左边等于P ⎪⎪⎭⎫ ⎝⎛-≤-≤-4/2/6.04/2/4/2/4.0n n n n n S n n n n ≈Φ(0.2n )-Φ(-0.2n )=2Φ(0.2n )-1,当n ≥69时, 上式≥0.9.如果用第三章的切比雪夫不等式,则因E(n S /n)=1/2, Var(n S /n)=1/4n ,取ε=0.1,则P(0.4≤≤n S n /0.6)=P(|n S /n-1/2|<0.1)>1-25 / n, 只当n ≥250时才满足要求. 通过比较可以看出正态逼近比切比雪夫不等式要精确得多.德莫佛—拉普拉斯定理的意义远不限于这些数值计算. 该定理及其推广形式实际上是概率论早期研究的中心问题.定义2 设{ξn }是一列随机变量. 如果存在常数列B n >0与A n ,使dn nk knA B →-∑=11ξN (0,1),(18)就称{n ξ}满足中心极限定理(central limit theorem).定理6(林德贝格(Lindeberg)—勒维定理) 设{ξn }是一列独立同分布的随机变量. 记S n =∑=nk k1ξ, E ξ1=a, Var ξ1=2σ, 则中心极限定理成立,即−→−-d n n naS σN (0,1).证 我们用特征函数法. 令)(t f 与)(t f n 分别为1ξ-a 与σn naS n -的特征函数,由于ξξξ12,,, n 独立同分布,故)(t f n =nn t f ⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛σ. 另外,已知E ξ1=a, Var ξ1=σ2, 所以特征函数有二阶连续导数,并且由泰勒 (Taylor) 展开式得+'+=x f f x f )0()0()(12)()0(22x o x f +'', x →0.对给定的t ∈R ,⎪⎪⎭⎫ ⎝⎛σn t f =1-⎪⎭⎫ ⎝⎛+n o n t 122, n →∞,从而2/2)(tn et f -→, 后者是标准正态分布的特征函数,由定理4即得定理6的结论.中心极限定理有着广泛的应用,在实际工作中,只要n 足够大,便可以把独立同分布的随机变量和的标准化当作正态变量. 下面再看两个例子.例4 近似计算时,原始数据k x 四舍五入到小数第m 位,这时舍入误差k ξ可以看作在[-0.5m-⨯10,0.5m-⨯10]上均匀分布,而据此得n 个k x 的和∑kx,按四舍五入所得的误差是多少呢?习惯上人们总是以各k x 误差上限的和来估计∑kx的误差限,即0.5×n ×10-m. 当n 很大时,这个数自然很大.事实上,误差不太可能这么大. 因为{k ξ}独立同分布,E k ξ=0, Var k ξ=σ2=102-m/12. 由定理6,P(|σξ∑≤n x k|)≈2Φ(x)-1.若取x=3,上述概率为0.997. 和的误差超过m n n -⨯⨯⨯=1035.03σ的可能性仅为0.003.显然,对较大的n ,这一误差界限远小于习惯上的保守估计0.5mn -⨯⨯10.*例5 正态随机数的产生有各种方法. 除第二章§5介绍的以外,下面这种方法也是常用的:设{ξk }独立同分布,都服从[0,1 ]上的均匀分布,则E k ξ=0.5,12/1==k Var ξσ,由中心极限定理,n 很大时,η=12/2/1n n nk k∑=-ξ近似服从标准正态分布,事实上取n=12就够了.于是取区间 [0, 1]上12个均匀随机数,则∑=-=1216k k ξη即近似为标准正态随机数.定理6要求各k ξ同分布,这要求有时还是高了一点. 更一般地,林德贝格证明了在各独立随机变量kξ组成的和式∑∑-kkk Var E ξξξ)(中,只要各被加项kkk ar V E ξξξ∑-依概率“均匀地小”,中心极限定理就仍然成立. 即定理7(林德贝格—费勒(Lindeberg-Feller)定理)设{k ξ}为独立随机变量序列,则∑=≤≤∞→n k kknk n 11var var maxlim ξξ=0 (费勒条件)与)(var )(11x E dnk kn k k kΦ−→−-∑∑==ξξξ成立的充要条件是林德贝格条件被满足 :τ∀>0,∑⎰=≥-∑-nk E x k k kk x dF E x 1var ||2)()(ξτξξ→0.特别地有定理8(李雅普诺夫(Lyapunov)定理) 若对独立随机变量序列{ξk },存在常数δ>0, 使当n →∞时有∑∑=+=+→-nk k k nk k E E Var 1212/10||)(1δδξξξ,则中心极限定理成立.这些结果解释了正态随机变量在自然界中普遍存在的原因.例6 设{}k ξ是相互独立的随机变量序列,k ξ的分布列是⎝⎛-5.0k ⎪⎪⎭⎫5.0k . 易知0=k E ξ,2k Var k =ξ,33||k E k =ξ. 因此,当∞→n 时,.0)/()/(||23121312331→=∑∑∑∑====nk nk n k k n k k k k Var ξξ也就是说满足李雅普洛夫条件,所以{}k ξ满足中心极限定理. 对数理统计学的许多分支,如参数(区间)估计、假设检验、抽样调查等,中心极限定理都有着重要的作用. 事实上,它也是保险精算等学科的理论基础之一. 假定某保险公司为某险种推出保险业务,现有n 个顾客投保,第i 份保单遭受风险后损失索赔量记为i X . 对该保险公司而言,随机理赔量应该是所有保单索赔量之和,记为S ,即S.1∑=X =ni i 弄清S 的概率分布对保险公司进行保费定价至关重要. 在实际问题中,通常假定所有保单索赔相互独立. 这样,当保单总数n 充分大时,我们并不需要计算S 的精确分布(一般情况下这是困难甚至不可能的). 此时,可应用中心极限定理,对S 进行正态逼近:VarSESS -渐近具有正态分布)1,0(N ,并以此来估计一些保险参数.例7 某保险公司发行一年期的保险索赔金分别为1万元与2万元的两种人身意外险. 索赔概率k q 及投保人数k n 如下表所示(金额单位:万元).类别k索赔概率kq 索赔额kb 投保数kn12340.020.020.100.101212500500300500保险公司希望只有0.05的可能使索赔金额超过所收取的保费总额. 设该保险公司按期望值原理进行保费定价,即保单i 的保费i i E X +=X )1()(θπ. 要求估计θ. 解:计算∑=X =18001i i S 的均值与方差 k k k k i i q b n E ES ∑∑===X =4118001 =,16010.0250010.0130002.0250002.01500=⋅⋅+⋅⋅+⋅⋅+⋅⋅ )1(41218001k k k k k i i q q b n Var VarS -=X =∑∑== =98.002.0250098.002.0150022⋅⋅⋅+⋅⋅⋅ ,25690.010.0250090.010.0130022=⋅⋅⋅+⋅⋅⋅+由此得保费总额).1(160)1()(θθπ+=+=ES S 依题意, 我们有95.0))1((=+≤P ES S θ,也即.95.0)10()(=≤-P =≤-P θθVarS ES S VarS ES VarS ES S 将VarS ES S -近似看作标准正态随机变量,查表可得645.110=θ,故1645.0=θ.。
中心极限定理依分布收敛
中心极限定理依分布收敛中心极限定理是概率论中一项重要的定理,它对很多实际问题的分析和推导具有非常重要的指导意义。
它是在分布收敛的前提下得出的,下面我将以生动、全面的方式介绍中心极限定理,并阐述其指导意义。
中心极限定理是指在一定条件下,对于独立随机变量之和的分布,当变量的数量趋于无穷大时,这个和的分布将会逼近一个正态分布。
具体来说,对于任意独立同分布的随机变量序列X1,X2,...,Xn,它们的和Sn=S1+S2+...+Sn符合中心极限定理,当n趋于无穷大时,Sn的分布趋向于正态分布。
中心极限定理具有广泛的应用范围,其中一个重要的应用是在统计学中。
在大部分情况下,我们无法事先准确地得知总体的分布情况,而只能通过从总体中抽取样本来进行分析。
中心极限定理的应用使得我们可以通过样本数据来推断总体的特征,例如总体均值、总体比例等。
这为统计学的发展和应用提供了重要的工具。
另外,中心极限定理也在财务分析、风险评估、医学统计等领域中得到了广泛的应用。
在财务风险评估中,我们通常面临着大量的证券价格、汇率变动等数据,通过应用中心极限定理,我们能够更准确地预测未来的风险和波动性。
在医学统计中,通过对大量病例的分析,中心极限定理使得我们能够更好地对人群健康状况进行判断和预测。
当然,中心极限定理也有一些前提条件。
首先,序列中的随机变量需要独立同分布。
其次,这些随机变量的方差需要有限。
当这些条件满足时,中心极限定理才能成立。
总之,中心极限定理作为概率论中的重要定理,具有丰富的应用价值。
它在统计学、财务分析、医学统计等领域中为我们提供了重要的指导。
通过中心极限定理,我们可以更准确地分析和推断一系列独立随机变量之和的分布情况,从而帮助我们理解和解决实际问题。
因此,了解和应用中心极限定理对我们的学习和工作具有重要的意义。
依概率收敛和依分布收敛
依概率收敛和依分布收敛在概率论和数理统计中,依概率收敛和依分布收敛是两个重要的概念。
它们是用来描述随机变量序列的收敛性质的。
本文将详细介绍这两个概念的定义、特点及其在实际应用中的意义。
一、依概率收敛依概率收敛是指在概率意义下,随机变量序列Xn收敛于随机变量X的概率趋于1。
形式化的表示为:当n趋向于无穷大时,P(|Xn-X|>=ε)→0其中,ε>0是一个任意给定的正数。
以下是对这个定义的解释:- 在数学语言中,“P(|Xn-X|>=ε)”表示Xn与X之间的距离大于等于ε的概率。
- 在一般情况下,当n趋向无穷大时,Xn与X越来越接近,因此“P(|Xn-X|>=ε)”越来越小。
- 依概率收敛的定义是独立于分布的,也就是说,在随机变量的分布不同的情况下,只要满足上述条件,就可以说Xn依概率收敛于X。
二、依分布收敛依分布收敛是指当n趋向于无穷大时,随机变量序列Xn的分布函数Fn(x)收敛于X的分布函数F(x)。
形式化的表示为:当n趋向于无穷大时,Fn(x)→F(x),对于F(x)的任意一个连续点x。
- 在数学语言中,“Fn(x)→F(x)”表示Fn(x)越来越接近于F(x)。
- 依分布收敛的定义是与随机变量的取值无关的,它只关注于随机变量的分布函数。
- 由于随机变量的分布可以是不同的,因此不能像依概率收敛那样简单地将它们放在一起比较,必须先将它们转换成分布函数的形式,然后再进行比较。
依概率收敛和依分布收敛是两种不同的收敛方式,但它们之间存在着一定的联系,可以通过下面的命题来描述它们之间的关系:如果随机变量序列Xn依概率收敛于随机变量X,则序列Xn也必定依分布收敛于X。
命题的证明需要使用Helly定理,这里不作赘述。
但需要注意的是,反过来则不成立,即随机变量序列Xn依分布收敛于随机变量X并不能推出Xn依概率收敛于X。
依概率收敛和依分布收敛可以用来判断概率极限定理的应用条件,从而给出概率极限的结果。
中心极限定理
随机变量
Zn
1 n
n i 1
X
2
i
近似服从
正态分布并指出其分布参数.
证记
Yi
X
2 i
,
(i 1,2, ,n)
E(Yi
)
E(
X
2 i
)
D(
X
i
)
D(Yi
)
E(Yi2 )
[E(Yi
)]2
E
(
X
4 i
)
[E(Yi
)]2
因为
E
(
X
4 i
)
1 1
xi4
1 2
dxi
1 5
,
所以
D(Yi
)
1 5
1 2 3
30500 np(1
np
p)
30500 np
np(1 p) 29500 np
1
t2
e 2 dt
2π
np(1 p)
30500 np 29500 np np(1 p) np(1 p)
n 90000, p 1 , 3
P{29500 X 30500} 5 2 5 2 2 2
(1) 求参加会议的家长数 X 超过 450 的概率; (2) 求有1名家长来参加会议的学生数不多于
340的概率.
解 (1) 以 Xk k=1, 2,…, 400 记 第k个学生来参加会议的家长数.
则Xk的分布律为 Xk 0 1 2
pk 0.05 0.8 0.15
易知 E( Xk ) 1.1, D( Xk ) 0.19, k 1,2, ,400
4, 45
因为X1, X2,…, Xn相互独立, 所以Y1, Y2,…,Yn
2021考研数学概率论与数理统计重点公式详解-大数定律及中心极限定理
l出咐
其中μ =挖E(X1 ).
" k=I
三、中心极限定理
1、强立同分布中心极限定理z 设 X1 ,X2 ,… ,xn ,… 是独立同分布的随机变量序列,
LXi -nµ
、 EX;随机变盐ζ= i=I J广 nσ 的分布函数F,,(吟,'vxe R,
2021考研高等数学必备公式
大数定律及中心极限定理
一、切比雪夫不等式 设随机变量X具有E(X)和D(X),则任给&>0, 有
叫X-E(X)I山毕,盯{IX-E(X)忡忡 1-毕. E 二、大数定律 1、依榄率收敛 设a是一个常数,x..为 一随机变量序列, 'vs>0, 3P{IX,. -al< &}=1或 P{IX,. -ajυ}=0,则称{几}依概率收敛于a,记为x..」→a. 2、伯努利大数定律〈即频率依概率收敢于概率〉
!!里乓(x)=φ(x)= [古e-?dt
即,当n充分大时,nA近似地服从以它的均值为均值,它的方差为方差的正态分布,即正态
分布 N(np,np(l- p)).
有
!出凡 (x)=φ(x)= 巳古 e-1dt
即,当n充分大时,汇坑近似地服从以它的均值为均值,它的方差为方差的正态分布,即
正态分布 N(nµ,nσ2 ). 2、拉普拉斯中心极限定理z设nA 表示n重Bernoulli试验中事件A出现次数, P(A)= p,
则随机变盘瓦” =.卫 Jnp二(l-旦p-) 的分布函数瓦” (x),'vxe R ,有
设nA 是n次独立重复试验中事件A发生的次数,P(A)= p ,则've>O,有
极限定理
概 率 论
柯尔莫哥洛夫定理 对相互独立同分布随机变量序列 n ,若满足条件 E| n |<, 则 1 n 1 n P lim i E ( i ) 0 1. n i 1 n n i 1
返 回
前一页
后一页
概 率 论
故而当 n 很大时, 事件发生的频率与概率 有较大偏差的可能性很小. 在实际应用中, 当试 验次数很大时, 便可以用事件发生的频率来代 替事件的概率.
返 回
前一页
后一页
概 率 论
3、泊松大数定律(定理5.1.2)
设随机变量 X 1 , X 2 , , X n , 为相互独立的随机变量序列,
P { X n 1} pn , P { X n 0} q n .
1 n 1 n lim P {| X i EX i | } 1 n n i 1 n i 1
或
1 n 1 n lim P {| X i EX i | } 0 n n i 1 n i 1
即{ X n } 服从 大数定律.
µ
1 n lim P {| X | } lim P X k 1. n n n k 1
返 回 前一页 后一页
1 n lim P {| X | } lim P X k 1. n n n k 1 n n
概 率 论
证明
1 1 E X k E( X k ) n k 1 n k 1
根据上述方法,例1不收敛。
定义
| X n X | :| X n ( ) X () |
lim P{| X n X | } 1
统计学基础理论之一——中心极限定理的核心概念
统计学基础理论之一——中心极限定理的核心概念
编者按:中心极限定理是概率论中的一组重要定理,它的中心思想是无论是什么分布的数据,当我们从中抽取相互独立的随机样本,且采集的样本足够多时,样本均值的分布将收敛于正态分布。
为了帮助更多学生理解这个概念,今天,UW iSchool的教师Mike Freeman制作了一些直观的可视化图像,让不少统计学教授大呼要把它们用在课堂上。
本文旨在尽可能直观地解释统计学基础理论之一——中心极限定理的核心概念。
通过下文中的一系列动图,读者应该能真正理解这个定理,并从中汲取应用灵感,把它用于决策树等其他项目。
需要注意的是,这里我们不会介绍具体推理过程,所以它不涉及定理解释。
教科书上的中心极限定理
在看可视化前,我们先来回顾一下统计学课程对中心极限定理的描述。
来源:LthID
n>30一般为大样本的分界线来源:LthID
来源:LthID
一个简单的例子
为了降低这个定理的理解门槛,首先我们来举个简单的例子。
假设有一个包含100人的团体,他们在某些问题上的意见分布在0-100之间。
如果以可视化的方式把他们的意见分数表示在水平轴上,我们可以得到下面这幅图:深色竖线表示所有人意见分数的平均值。
假如你是一名社会科学家,你想知道这个团体的立场特点,并用一些信息,比如上面的“平均意见得分”来描述他们。
但可惜的是,由于时间、资金有限,你没法一一询问。
这时候,。
中心极限定理 证明
中心极限定理证明中心极限定理(Central Limit Theorem)是概率论中的一个重要定理,指的是当样本容量足够大时,样本均值的分布逼近于正态分布。
这一定理的证明可以从两个方面入手,一是通过独立随机变量的和的特点,二是通过特征函数的性质。
下面将依次介绍这两种证明方法。
首先从独立随机变量的和的特点进行证明。
设X1, X2, ..., Xn为独立同分布的随机变量序列,其期望和方差分别为μ和σ^2,定义Sn = (X1 + X2 + ... + Xn) / n为这n个随机变量的均值。
根据大数定理,当n趋向于无穷大时,Sn的极限为μ,即Sn依概率收敛于μ。
根据协方差的性质,有Var(Sn) = Var((X1 + X2 + ... + Xn) / n) = (1/n^2) * (Var(X1) + Var(X2) + ... + Var(Xn))。
由于X1,X2, ..., Xn为独立同分布的随机变量,它们的方差都相等,即Var(X1) = Var(X2) = ... = Var(Xn) = σ^2,所以Var(Sn) = σ^2 / n。
根据切比雪夫不等式,对于任意ε > 0,有P(|Sn - μ| ≥ ε) ≤ Var(Sn) / ε^2 = σ^2 / (nε^2)。
当n趋向于无穷大时,右边的概率趋近于0,即Sn依概率收敛于μ。
接下来,我们通过特征函数的性质进行证明。
设X1, X2, ..., Xn 为独立同分布的随机变量序列,其特征函数分别为φ(t) = E(e^itX1),则Sn的特征函数为φ(t/n)^n。
根据独立随机变量和的特征函数的性质,有φ(t/n)^n = φ(t/n) * φ(t/n) * ... * φ(t/n),其中有n个φ(t/n)相乘。
考虑到φ(t)的级数展开形式为φ(t) = 1 + itμ - (t^2σ^2)/ 2 + R(t),其中R(t)为误差项。
将φ(t/n)带入展开形式得到:φ(t/n) = 1 + itμ/n - (t^2σ^2) / (2n^2) + R(t/n)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 第四章 极限定理§1 依分布收敛与中心极限定理一、 一、分布函数弱收敛概率论早期发展的目的在于揭示由于大量随机因素产生影响而呈现的规律性. 贝努里首先认识到研究无穷随机试验序列的重要性,并建立了概率论的第一个极限定理——大数定律,清楚地刻画了事件的概率与它发生的频率之间的关系. 棣莫佛和拉普拉斯提出将观察的误差看作大量独立微小误差的累加,证明了观察误差的分布一定渐近正态——中心极限定理. 随后,出现了许多各种意义下的极限定理. 这些结果和研究方法对概率论与数理统计及其应用的许多领域有着重大影响. 本章着重介绍上述大数定律和中心极限定理等有关内容.§1 依分布收敛与中心极限定理我们知道,如果ξ是概率空间 (Ω, F , P)上的随机变量,那么它的分布函数F(x)=P(ξ≤x )刻画了它的全部概率性质. 因此,对随机变量序列的研究就必须首先对相应的分布函数序列作深入研究.一、分布函数弱收敛定义1 设F 是一分布函数,{F n }是一列分布函数,如果对F 的每个连续点x ∈R ,都有F n (x)→F(x) (n →∞),则称F n 弱收敛(weak convergence)于F ,记作F n W−→− F. 设ξ是一随机变量,{ξn }是一列随机变量,如果ξn 的分布函数列弱收敛于ξ的分布函数,则称ξn 依分布收敛(convergence in distribution)于ξ,记作ξn d−→−ξ. 注1 注1 分布函数逐点收敛的极限函数未必是分布函数.例如, F n (x)=⎩⎨⎧,1,0.,n x n x ≥<该分布函数列处处收敛于0, 但G(x)≡0不是分布函数. 因此对一般的分布函数列,要它们逐点收敛于分布函数,要求是过高了,不得不如定义1加上限制.注2 定义1中的限制条件“对F 的每个连续点x ,F n (x) →F(x)”是足够宽的,例如,F n (x)=⎩⎨⎧,1,0./1,/1n x n x ≥< F(x)= ⎩⎨⎧,1,0 .0,0≥<x x 除在0点以外(F n (0)=0→/F(0)=1),逐点收敛于F(x),而0点刚好是F(x) 的唯一不连续点,因此按定义1,F n W−→− F. *注3 由于分布函数F 的不连续点最多有可数个,F n W−→− F 意味着F n 在R 的一个稠密子集上处处收敛于F (D 在R 上稠密,是指对任意x o ∈R, 在x o 的任意小邻域内,一定有x ∈D ).下面给出海莱(Helly)定理,它们对分布函数列弱收敛性的研究起着重要作用.定理1(海莱第一定理) 设{F n }是一列分布函数,那么存在一个单调不减右连续的函数F (不一定是分布函数),0≤≤F x ()1, x ∈R, 和一子列{kn F },使得对F 的每个连续点x ,kn F (x)→F(x) (k →+∞).证 令r r 12,, 表示全体有理数. 01)(≤≤x F n 意味着{)(1r F n }是有界数列,因此可以找到一个收敛子列{)(11r F n }, 记+∞→=n r G lim )(1)(11r F n .接着考虑有界数列{)(21r F n },存在它的一个收敛子列{)(22r F n },记+∞→=n r G lim )(2)(22r F n . 如此继续,得到 {kn F }⊂{n k F ,1-},+∞→=n k r G lim )()(k kn r F , k ≥2. 现在考虑对角线序列{nn F }. 显然,+∞→n lim )(k nn r F =)(k r G 对所有正整数k 都成立. 另外,由于F n 单调不减,如果r r i j <,有)()(j i r G r G ≤. 因此G(r)是定义在有理数上的有界不减函数.定义)(inf )(j xr r G x F j ≥= x ∈R. (1)这个函数在有理数上与G(x)相等,它显然也是有界不减的. 下面证明,对F 的每个连续点x,+∞→n lim )(x F nn =F(x). (2)任意给定ε>0和F 的连续点x ,选取h >0,使得F(x+h)--F(x--h) <ε/2.根据有理数的稠密性,存在有理数r r i j,满足x-h <ji r x r <<< x+h,从而F(x-h))()()()(h x F r F x F r F j i +≤≤≤≤ . (3)另外,存在N (ε) 使得当n ≥N()ε时,2/|)()(|ε<-i i nn r F r F , 2/|)()(|ε<-j j nn r F r F .(4)进而由F n 和F 的单调性,当n ≥N()ε时,εεε+≤++≤+≤≤)(2/)(2/)()()(x F h x F r F r F x F j j nn nn ,εεε-≥--≥-≥≥)(2/)(2/)()()(x F h x F r F r F x F i i nn nn .综合得到|ε<-|)()(x F x F nn .(5)(2)式得证. 由F 的定义(1),在它的不连续点上是右连续的. 定理1证毕.定理2 (海莱第二定理) 设F 是一分布函数,{F n }是一列分布函数,F n −→−WF. 如果g(x)是R 上的有界连续函数,则⎰⎰∞∞-∞∞-→)()()()(x dF x g x dF x g n . (6)证 因为g 是有界函数,必存在c >0使得 |g (x) | < c, x ∈R. 因为F 的所有连续点构成R 上的稠密集,又由F(∞-)=0, F(∞)=1,故对于任意给定的ε>0, 可以选取a>0使得±a 是F 的连续点,并且F(-a)<ε/12c,1-F(a)<ε/12c.(7)由于F n W−→−F ,存在N 1()ε, 使得当n ≥N 1()ε时, |F n (-a)-F(-a)|<ε/12c, |1-F n (a)-(1-F(a))|<ε/12c,(8)这样我们有|⎰⎰⎰⎰-∞--∞-∞∞-+-aa aan n x dF x g x dF x g x dF x g x dF x g |)()()()()()()()(≤c ))(1)(1)()((a F a F a F a F n n -+-+-+-≤c [ |n F (-a)-F(-a)|+2F(-a)+|1-n F (a)-(1-F(a))|+2(1-F(a))]<ε/2. (9)下面考虑⎰⎰---a aaan x dF x g x dF x g )()()()(||. 由于g(x)在闭区间[-a, a]上一致连续,可以选取a x x x a m =<<<=- 10, 使得所有x i 是F 的连续点,且i i x x x ≤<-1max |g(x)--g(i x )|<ε/8. 于是⎰⎰---aa aan x dF x g x dF x g )()()()(||=∑⎰∑⎰==---mi x x mi x x n ii ii x dF x g x dF x g 1111)()()()(||∑⎰=--≤mi x x n i ii x dF x g x g 11)(|)()(|+∑⎰=--mi x x i ii x dF x g x g 11)(|)()(|+∑⎰⎰=---⋅mi x x x x n i ii ii x dF x dF x g 111)()(||)(||∑∑==---+-+-≤mi mi i i n i i i ninx F x F c x F x F x F x F 111|)()(|2)}()()()({8ε=∑=-+--+--mi i i n n n x F x F c a F a F a F a F 0|)()(|2))()()()((8ε. (10)由于1)()(≤--a F a F n n , F a F a ()()--≤1, 再选择N 2()ε使得当n ≥N 2()ε时,<-|)()(|i i n x F x F mc 8ε,i = 0,1,2,…,m. (11)故(10)式不超过ε/2. 因此,当n ))(),(m ax (21εεN N ≥时,⎰⎰∞∞-∞∞--)()()()(|x dF x g x dF x g n | <ε.(12)定理证毕.定理3 (勒维(Levy)连续性定理(continuity theorem)) 设F 是一分布函数,{F n }是一列分布函数. 如果F n W −→− F ,则相应的特征函数列{)(t f n}关于t 在任何有限区间内一致收敛于F 的特征函数)(t f .对任何b >0, 仅考虑 | t |≤b . 令itx t e x g =)(, x ∈R. 注意到下列事实:|)(x g t|=1,|||||)()(|sup ||y x b y g x g t t bt -⋅≤-≤,则该定理的证明完全类似于定理2,不再重复.由前面一章知道,特征函数与分布函数相互唯一确定. 同样,勒维连续性定理的逆命题也成立.定理4(逆极限定理) 设)(t f n 是分布函数F x n ()的特征函数,如果对每一个t ,)(t f n→)(t f ,且)(t f 在t=0处连续,则)(t f 一定是某个分布函数F 的特征函数, 且F n W −→− F. 本定理的证明比较繁复,从略. 但定理的作用是很大的,它使得特征函数成为研究某些极限定理的重要工具. 这里先举个例子来说明这个定理的应用.例1 用特征函数法证明二项分布的泊松逼近定理. 证 设ξn 服从二项分布B (n,p n ),且λ=+∞→n n np lim . 它的特征函数为)(t f n =n n it n q e p )(+, 其中n n p q -=1. 当n +∞→时,它的极限为)1())1(1(lim )(lim -+∞→+∞→=-+=it e nit n n n n e n e np t f λ,这正是泊松分布的特征函数. 由逆极限定理,二项分布B (n,p n )依分布收敛于泊松分布P(λ).二、性质除连续性定理外,分布函数弱收敛还有下列性质. 性质1 设{F n }是一列分布函数,如果n F −→−W F, F 是一连续的分布函数,则n F (x)在R上一致收敛于F(x).证明留给读者.性质2 设ξ是一随机变量,{ξn }是一列随机变量,g (x)是R 上的连续函数,如果n ξξ−→−d ,则)(n g ξ)(ξg d−→−.证 假设ξ和n ξ的分布函数分别为F 和n F . 如果n ξξ−→−d ,即n F −→−W F ,由定理2,)(n g ξ的特征函数⎰+∞∞-)()(x dF en x itg 收敛于⎰+∞∞-)()(x dF e x itg , 该极限正是)(ξg 的特征函数. 再类似定理4, )(n g ξ的分布函数弱收敛于)(ξg 的分布函数,即)(n g ξ)(ξg d−→−. 性质3 设{a n }和{b n }是两列常数,F 是一分布函数, {F n }是一列分布函数. 如果 a n →a, b n →b, F n W−→−F, 则F n (n n b x a +)→F(a x +b ),其中x 使得a x +b 是F 的连续点. 证 设x 使得a x +b 是F 的连续点. 令ε>0使得F 在a x +b ±ε处连续(这是可能的,因为F 的连续点在R 上稠密). 显然a x b n n +→a x +b, 故对充分大的n,.εε++≤+≤-+b ax b x a b ax n n(13)因此).()()(εε++≤+≤-+b ax F b x a F b ax F n n n n n由于F n W−→− F ,则 ).()(lim )(lim )(εε++≤+≤+≤-++∞→+∞→b ax F b x a F b x a F b ax F n n n n n n n n让ε→0,由于F 在a x+b 处连续,即可完成证明.推论 如果n ξξ−→−d ,则b a b a d n n n +−→−+ξξ, (0,≠a a n ).这是因为n nn b a +ξ与b a +ξ的分布函数分别为n F (n na b x -)与F(a bx -),再应用性质3即可.三、中心极限定理设一次贝努里试验中成功的概率为p (0 <p <1), 令S n 表示n 重贝努里试验中成功的次数,那么,概率P(S n =k) = b (k; n, p). 在实际问题中, 人们常常对成功次数介于两整数α和β之间(α<β)的概率感兴趣,即要计算P(∑≤≤=≤≤βαβαk n p n k b S ),;(). (14)这一和式往往涉及很多项,直接计算相当困难. 然而德莫佛和拉普拉斯发现,当n →∞时可以用正态分布函数作为二项分布的渐近分布.定理5(德莫佛—拉普拉斯定理) 设Φ(x)为标准正态分布的分布函数. 对-∞<x<∞,有∞→n lim P ⎪⎪⎭⎫⎝⎛≤-x npqnp S n =Φ(x), (15)其中q=1-p.注意到E S n = np, Var S n = npq, (15)式左边是S n 标准化后的分布函数的极限,因此这个定理表示二项分布的标准化变量依分布收敛于标准正态分布. 简单地说成二项分布渐近正态分布.历史上人们是通过精确估计二项分布的值来说明该定理的. 但从现代分析概率论的观点看,这个结果只是将要介绍的更一般的中心极限定理(见定理6)的特殊情形. 因此, 我们不再给出它的证明.定理的直接应用是:当n 很大,p 的大小适中时,(14)式可用正态分布近似计算:P()βα≤≤n S =P ⎪⎪⎭⎫⎝⎛-≤-≤-npq np npq np S npq np n βα =Φ⎪⎪⎭⎫ ⎝⎛-npq np β-Φ⎪⎪⎭⎫ ⎝⎛-npq np α. (16) 它的含义可用右图(图4-1)显示(为了直观,图中显示的是未标准化的随机变量):作相邻小矩形,各小矩形的底边中心为k(α≤k ≤β),底边长为1,高度为b( k; n, p),这些小矩形面积之和即为P()βα≤≤n S . 再作N(np, npq)的密度曲线,在[α,β]之间曲线覆盖的面积为(16)式右边之值.注1 第二章讲过二项分布渐近于泊松分布的泊松定理,它与定理5是没有矛盾的. 因为泊松定理要求λ=∞→n n np lim 是常数,而定理5中p 是固定的. 实际应用中,当n 很大时, 1o若p 大小适中,用正态分布Φ(x)去逼近(15)式左边的概率,精度达到O(n-12/); 2o如果p 接近0(或1),且np 较小(或较大),则二项分布的图形偏斜度太大,用正态分布去逼近效果就不好. 此时用泊松分布去估计精度会更高.注2 实际计算中,若n 不很大,把(16)式右边修正为Φ⎪⎪⎭⎫ ⎝⎛-+npq np 5.0β-Φ⎪⎪⎭⎫ ⎝⎛--npq np 5.0α, (17)一般可提高精度(从上图看,相当于计算密度曲线下[α,β+]之间的面积).例2 设n=104, p=5310-⨯, 求P(70≤n S ).解 尽管p 很小,但np=50很大,此时用泊松逼近并不好, 故用定理5.P(70≤n S )=P ⎪⎭⎫ ⎝⎛≤-50205050n S ≈Φ⎪⎭⎫ ⎝⎛5020≈. 例3 抛掷一枚均匀硬币时需要抛掷多少次才能保证出现正面的频率在与之间的概率不小于90%?解 令n 为抛掷次数, S n 为出现正面的次数, S n ~B(n, 1/2). 题意要求n, 使P≤≤n S n≥利用定理5, 上式左边等于P⎪⎪⎭⎫⎝⎛-≤-≤-4/2/6.04/2/4/2/4.0n n n n n S n n n n ≈Φn -Φn =2Φn -1,当n ≥69时, 上式≥.如果用第三章的切比雪夫不等式,则因E(n S /n)=1/2, Var(n S /n)=1/4n ,取ε=,则P≤≤n S n /n S / n, 只当n ≥250时才满足要求. 通过比较可以看出正态逼近比切比雪夫不等式要精确得多.德莫佛—拉普拉斯定理的意义远不限于这些数值计算. 该定理及其推广形式实际上是概率论早期研究的中心问题.定义2 设{ξn }是一列随机变量. 如果存在常数列B n >0与A n ,使dn nk knA B →-∑=11ξN (0,1),(18)就称{n ξ}满足中心极限定理(central limit theorem).定理6(林德贝格(Lindeberg)—勒维定理) 设{ξn }是一列独立同分布的随机变量. 记S n =∑=nk k1ξ, E ξ1=a, Var ξ1=2σ, 则中心极限定理成立,即−→−-d n n na S σN (0,1).证 我们用特征函数法. 令)(t f 与)(t f n分别为1ξ-a 与σn naS n -的特征函数,由于ξξξ12,,, n 独立同分布,故)(t f n =nn t f ⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛σ. 另外,已知E ξ1=a, Var ξ1=σ2, 所以特征函数有二阶连续导数,并且由泰勒 (Taylor) 展开式得+'+=x f f x f )0()0()(12)()0(22x o x f +'', x →0.对给定的t ∈R ,⎪⎪⎭⎫ ⎝⎛σn t f =1-⎪⎭⎫ ⎝⎛+n o n t 122, n →∞,从而2/2)(tn e t f -→, 后者是标准正态分布的特征函数,由定理4即得定理6的结论.中心极限定理有着广泛的应用,在实际工作中,只要n 足够大,便可以把独立同分布的随机变量和的标准化当作正态变量. 下面再看两个例子.例4 近似计算时,原始数据k x 四舍五入到小数第m 位,这时舍入误差k ξ可以看作在[m-⨯10,m-⨯10]上均匀分布,而据此得n 个k x 的和∑k x ,按四舍五入所得的误差是多少呢?习惯上人们总是以各k x 误差上限的和来估计∑k x 的误差限,即×n ×10-m . 当n 很大时,这个数自然很大.事实上,误差不太可能这么大. 因为{k ξ}独立同分布,E k ξ=0, Var k ξ=σ2=102-m /12. 由定理6,P(|σξ∑≤n x k|)≈2Φ(x)-1.若取x=3,上述概率为. 和的误差超过m n n -⨯⨯⨯=1035.03σ的可能性仅为. 显然,对较大的n ,这一误差界限远小于习惯上的保守估计mn -⨯⨯10.*例5 正态随机数的产生有各种方法. 除第二章§5介绍的以外,下面这种方法也是常用的:设{ξk }独立同分布,都服从[0,1 ]上的均匀分布,则Ek ξ=, 12/1==k Var ξσ,由中心极限定理,n 很大时,η=12/2/1n n nk k∑=-ξ近似服从标准正态分布,事实上取n=12就够了. 于是取区间 [0, 1]上12个均匀随机数,则∑=-=1216k k ξη即近似为标准正态随机数.定理6要求各k ξ同分布,这要求有时还是高了一点. 更一般地,林德贝格证明了在各独立随机变量kξ组成的和式∑∑-kkkVar E ξξξ)(中,只要各被加项kkk ar V E ξξξ∑-依概率“均匀地小”,中心极限定理就仍然成立. 即定理7(林德贝格—费勒(Lindeberg-Feller)定理)设{k ξ}为独立随机变量序列,则∑=≤≤∞→nk kknk n 11var var maxlim ξξ=0 (费勒条件)与)(var )(11x E dnk knk k kΦ−→−-∑∑==ξξξ成立的充要条件是林德贝格条件被满足 :τ∀>0,∑⎰=≥-∑-nk E x k k kk x dF E x 1var ||2)()(ξτξξ→0.特别地有定理8(李雅普诺夫(Lyapunov)定理) 若对独立随机变量序列{ξk },存在常数δ>0, 使当n →∞时有∑∑=+=+→-nk k knk k E E Var 1212/10||)(1δδξξξ,则中心极限定理成立.这些结果解释了正态随机变量在自然界中普遍存在的原因.例6 设{}k ξ是相互独立的随机变量序列,k ξ的分布列是 ⎝⎛-5.0k ⎪⎪⎭⎫5.0k . 易知0=k E ξ,2k Var k =ξ,33||k E k =ξ. 因此,当∞→n 时,.0)/()/(||23121312331→=∑∑∑∑====nk n k nk k nk kk k Var ξξ也就是说满足李雅普洛夫条件,所以{}k ξ满足中心极限定理.对数理统计学的许多分支,如参数(区间)估计、假设检验、抽样调查等,中心极限定理都有着重要的作用. 事实上,它也是保险精算等学科的理论基础之一. 假定某保险公司为某险种推出保险业务,现有n 个顾客投保,第i 份保单遭受风险后损失索赔量记为i X . 对该保险公司而言,随机理赔量应该是所有保单索赔量之和,记为S ,即S.1∑=X =ni i弄清S 的概率分布对保险公司进行保费定价至关重要. 在实际问题中,通常假定所有保单索赔相互独立. 这样,当保单总数n 充分大时,我们并不需要计算S 的精确分布(一般情况下这是困难甚至不可能的). 此时,可应用中心极限定理,对S 进行正态逼近:VarS ES S -渐近具有正态分布)1,0(N ,并以此来估计一些保险参数.例7 某保险公司发行一年期的保险索赔金分别为1万元与2万元的两种人身意外险. 索赔概率k q 及投保人数k n 如下表所示(金额单位:万元).保险公司希望只有的可能使索赔金额超过所收取的保费总额. 设该保险公司按期望值原理进行保费定价,即保单i 的保费i i E X +=X )1()(θπ. 要求估计θ.解:计算∑=X =18001i iS 的均值与方差百度文库 - 好好学习,天天向上-11 kk k k i i q b n E ES ∑∑===X =4118001=,16010.0250010.0130002.0250002.01500=⋅⋅+⋅⋅+⋅⋅+⋅⋅)1(41218001k k k k k i i q q b n Var VarS -=X =∑∑== =98.002.0250098.002.0150022⋅⋅⋅+⋅⋅⋅,25690.010.0250090.010.0130022=⋅⋅⋅+⋅⋅⋅+ 由此得保费总额).1(160)1()(θθπ+=+=ES S依题意, 我们有95.0))1((=+≤P ES S θ,也即.95.0)10()(=≤-P =≤-P θθVarS ES S VarS ES VarS ES S 将VarS ES S -近似看作标准正态随机变量,查表可得645.110=θ,故1645.0=θ.。