中心极限定理及其意义
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
题目:中心极限定理及意义
课程名称:概率论与数理统计
专业班级:
成员组成:
联系方式:
2012年5月25日
摘要:
本文从随机变量序列的各种收敛与他们的关系谈起,通过对概率经典定理——中心极限定理在独立同分布和不同分布两种条件下的结论做了比较系统的阐述,揭示了随机现象最根本的性质——平均结果的稳定性。
经过对中心极限定理的讨论,给出了独立随机变量之和的分布用正态分布来表示的理论依据。
同样中心极限定理的内容也从独立分布与独立不同分布两个角度来研究。
同时通过很多相关的正反例题,进行说明这些定理所给出的条件是否是充要条件;签掉在实际问题中灵活的应用和辨别是否服从我们给出的定理条件。
最后了解一些简单简便的中心极限定理在数理统计、管理决策、仅是计算以及保险业务等方面的应用,来进一步的阐明了中心极限定理分支学课中的中重要作用和应用价值。
关键词:
随机变量,独立随机变量,特征函数,中心极限定理
引言:
在客观实际中有许多随机变量,他们是由大量的相互独立的随机因数的综合
影响所形成的,而其中每一个别因数在总的影响中所起的作用都是渺小的,这种随机变量往往近似地服从正态分布,这种现象就是中心极限定理的客观背景。
中心极限定理自提出至今,其内容已经非常丰富。
在概率论中,把研究在什么条件下,大量独立随机变量和的分布以正态分布为极限的这一类定理称为中心极限定理。
但其中最常见、最基本的两个定理是德莫佛-拉普拉斯中心极限定理和林德贝格-勒维中心极限定理。
一、三个重要的中心极限定理 1.独立同分布的中心极限定理
设随机变量⋅⋅⋅⋅⋅⋅,,,,21n X X X 相互独立,服从统一分布,具有数学期望和方差
()())
,2,1(0,2⋅⋅⋅=>==k X D X E k k σμ,则随机变量之和
∑=n
k k
X
1
的标准化变量,
σ
μ
n n X
X D X E X Y n
k k
n k k n k k n
k k n -=⎪⎭
⎫ ⎝⎛⎪⎭⎫ ⎝⎛-=∑∑∑∑====1
111
的分布函数)(x F n 对于任意x 满足,
()x dt e x n n X P x F t x n k k n n n Φ==⎪⎪⎩⎪⎪⎨⎧⎪⎪
⎭⎪
⎪⎬⎫
≤-=-∞-=∞→∞→⎰∑2/1221lim )(lim πσμ
2.李雅普诺夫定理
设随机变量⋅⋅⋅⋅⋅⋅,,,,21n X X X 相互独立,它们具有数学期望和方差
()())
,2,1(0,2⋅⋅⋅=>==k X D X E k k k k σμ,
记
∑==n
k k n B 12
2σ.
若存在正数δ,使得当∞→n 时,
}{0
1122→-∑=++n
k k
n
X
E B
δ
δ
μ
,
则随机变量之和
∑=n
k k
X
1
的标准化量化,
n
n
k k
n k k
n k k n k k n
k k
n B X X D X E X Z ∑∑∑∑∑=====-=⎪⎭
⎫ ⎝⎛⎪⎭⎫
⎝⎛-=1
1
111
μ
的分布函数)(x F n 对于任意x 满足,
()x dt e x B X P x F t x n n
k k n k k n n n Φ==⎪⎪⎩⎪⎪⎨⎧⎪⎪
⎭⎪⎪⎬⎫
≤-=-∞-==∞→∞→⎰∑∑2/1
1221lim )(lim πμ
3.棣莫弗—拉普拉斯定理
设随机变量),2,1(⋅⋅⋅=n n η服从参数为)10(,<<p p n 的二项分布,则对于任意x ,有
()x dt e x p np np P t x n n Φ==⎪⎩⎪⎨⎧⎪⎭⎪
⎬⎫≤---∞-∞→⎰2/221)1(lim πη
二、中心极限定理的意义: 首先,中心极限定理的核心内容是只要n 足够大,便可以把独立同分布的随机变量和的标准化当作正态变量,所以可以利用它解决很多实际问题,同时这还有助于解释为什么很多自然群体的经验频率呈现出钟形曲线这一值得注意的事实,从而正态分布成为概率论中最重要的分布,这就奠定了中心极限定理的首要功绩。
其次,中心极限定理对于其他学科都有着重要作用。
例如数理统计中的参数(区间)估计、假设检验、抽样调查等;进一步,中心极限定理为数理统计在统计学中的应用铺平了道路,用样本推断总体的关键在于掌握样本特征值的抽样分布,而中心极限定理表明只要样本容量足够地大,得知未知总体的样本特征值就近似服从正态分布。
从而,只要采用大量观察法获得足够多的随机样本数据,几乎就可以把数理统计的全部处理问题的方法应用于统计学,这从另一个方面也间接地开辟了统计学的方法领域,其在现代推断统计学方法论中居于主导地位.
三、中心极限定理的应用: 1.1保险学的概率论数学原理
保险体现了“人人为我,我为人人”的互助思想,它以数理统计为依据。
保险中的风险单位是发生一次风险事故可能造成标的物损失的范围,也就是遭受损失的人、场所或事物。
风险单位是保险公司确定其能够承担的最高保险责任的计算基础。
理想状态下的风险单位应独立同分布,这种现象的意义在于保险人可以
据此向每个潜在的被保险人收取同样的保费。
同时根据中心极限定理,含有n
个风险单位的随机样本的平均损失符合正态分布,这个结论对保险费率的厘定极为重要。
保险公司各险种的交费标准是经过精算后以同期银行利率比照制定的,所以在此基础上应尽可能地多承保风险单位,也就越可能有足够的资金赔付保险期内发生的所有索赔,从而使保险公司的运营更加平稳,也就越有利于投保人或被保险人.
既然可利用中心极限定理能合理地厘定保险费率,为何老年人投保一再被提高门槛呢?京江晚报3月28日就有报道“对保险公司来说,老年人属于高风险人群,存在的不确定因素较多,老年人发生医疗费用支出和意外事故的风险要比年轻人大。
所以,从赔付率的角度考虑,保险产品在推出前会经过精密测算,设置相应的年龄门槛和不同的缴费标准”.
我们以最简单的一年定期寿险为例说明保险公司为何对中老年人保险总提高门槛,老年人投保寿险与年轻人有何区别。
如表1所示是台湾远雄人寿千喜男性一年定期寿险的部分费率及死亡率(见附录三、四)。
为说明问题,我们选取25-29岁作为年轻人的代表,61-65岁为老年人的代表,将这两个年龄段进行比较。
远雄人寿千喜男性一年定期寿险的部分费率及死亡率表1
总保费=1000 ⨯单个人的保费(元)=0.1 ⨯单个人的保费(万元),
赔付额=
4
101000
i i i
E E E i
ξξξ
⨯=
(元)(万元),为个年龄为岁的个体在一年内死亡的期望。
不同年龄的总保费及赔付额表2
导致赔付额的基数较大,所以还不能很好的解释问题,这里再引入赔付率(赔付率=赔付额/总保费),得出表3。
呈上升趋势且赔付率处于较高水平。
那么对于一个保险公司,她的经营主要是以
盈利为目的,老年人身体状况较差,是疾病、死亡的多发群体,面临的风险大,所以为老年承保寿险时保险公司的赔付率相对较高。
因此老年人投保寿险一再被提高门槛。
同时,老年人寿险的保费若定价较高,但老年人收入相对偏低,可能买不起,而定价过低,保险公司也承受不起,从而更加影响公司的盈利。
因此,寿险公司更愿意把目光投向年轻人群体。
1.2 定期寿险保险金的给付模型
在上述比较中,我们知道了保险公司更青睐于年轻群体,但是在保险公司追求利益的同时还应考虑到他们的偿还能力。
我国《保险法》规定“保险公司应该具有与其业务相适应的最低偿付能力。
”下面我们就将建立定期寿险保险金给付模型。
首先,根据国际精算协会的惯例,采用下列符号: (x ):一个新生儿生存至x 岁,记为个体(x );
t
x
p :(x )活过年龄x+t 岁的概率,即(x )至少再活t 年的概率;()t μ:(x )活
到t 岁的个体恰好在此年龄死亡的可能性,称为死亡力。
且当()t μ为常数时有
t
x p =t
e μ-
δ:是衡量在某个确切时点上利率水平的指标,称为利息力,简称息力;
v :称为贴现因子,表示1年后得到1元在年初时刻的现值;
T (x ): 个体(x )的未来生存时间[9]。
现假定利率为常数i ,则有:
1
ln(1),,11i i d v i i δ=+=
=++
再记n 年定期寿险的保险人给付额的现值为Z ,则Z 的精算现值为
1
:x n
A =1
()t t x v
p x dt
μ⎰
Z 的j 阶矩为
1:j
x n
A
=1
:@x n A j δ(其中@j j δδ表示计算时采用利息力)
=0
()n
jt t x v
p x dt
μ⎰
现假定1000个x 岁独立的个体投保一年定期寿险,死亡保险金为1万元,在死亡后立即给付。
死亡力为常数μ=0.06。
死亡给付是由某投资基金提供,投资基金的利息力为δ=0.04。
若要能够支付未来死亡保险金的概率不低于0.975,现在所需资金最低额度是多少?
记1000个个体的未来生存时间分别为121000(),(),...,()T x T x T x ,总给付金额的现
值为1000
()
1
j T x i v
=∑,则精算现值为
1
1
1()0.1:1
()(1)0.6(1)0.0571
t
t t x t x A
v p x dt e e dt e e δμμδμμμμδ
---+-===
-=-=+⎰⎰,
二阶矩为
1
2
112(2)0.14:1:1
03
@2(1)(1)0.056027
t t x x A A e e dt e e δμμδμδμμδ---+-===
-=-=+⎰
因此方差2
1
1
()
2:1:1()()j T x x x D v A A =-=0.0527。
设W 为满足要求所需的最低资金额
度,利用中心极限定理,我们可以得到:
1000
1
()
:1
1
1000:1()
1
10001
()
:1
10001000()100052.7
)7.26
52.7(
)7.26
j j j T x x T x j T x x v
A A P v
W P v
A W P W =-≤=≤--=≤-=Φ∑∑∑
再利用正态分布0.975的分为点1.96,得
52.7
1.967.26
W -≈ 即W ≈67万元。
所以,若需要能够支付未来死亡保险金的概率不低于0.975,现在所需资金的最低额度是67万元。
1.3 定期寿险业的盈亏
我们已经知道寿险公司的经营是为了盈利,而一个保险公司的盈亏,是否破产,我们也可以运用中心极限定理的知识做到估算和预测。
例如设某寿险公司在一段时间内有n 个同一年龄的人投保一年定期寿险,他们是相互独立彼此互不影响的,且在一年内没有新的投保人加入该项保险业务,也没有人退保。
那么就可以利用中心极限定理估计该公司接下这些保单的盈亏概率。
设每份保单的保费为M ,保额为Q ,该年龄的死亡率为p ,令
i X =10i i ⎧⎨
⎩,第个人死亡,第个人仍活着
,i=1,2,…,n ,
则有
1
(,)n
i
i X
N n p =∑,
再结合中心极限定理有该保险公司的亏本概率为
()()n M
np
n M P n M x Q P x P Q ⨯-⨯⨯<⨯=<=<
1n M
np β⨯-=-Φ= (7) 若计算出的β较小,则对公司的盈利有好处,若β偏大,则为了盈利着想,寿险公司可通过增加保费等手段来降低亏本率。
1.4 实例分析
例1 :某保险公司的老年人寿保险有10000人参加,每人每年交200元。
若老人在该年内死亡,公司付给其家属1万元。
设老年人的死亡率为0.017,问:(1)保险公司在一年内的这项保险中亏本的概率多大? (2)保险公司一年的利润不少于20万元的概率多大? 解:设ξ表示一年内参保人的死亡数。
则由题可知ξ(10000,0.017)B 。
(1)要使保险公司亏本,必须满足 200⨯10000-10000ξ<0
∴ξ>200
则P (ξ>200)=1- P (0≤ξ ≤200)
≈
1-[ Φ-Φ]
=1- (2.3256)Φ-(13.1783)Φ-=0.01 即保险公司亏本的概率为1%。
(2)要使保险公司一年的利润不少于20万元,必须满足
200 ⨯10000-10000ξ≥200000
∴ξ≤180
则P (0≤ξ ≤180)
≈Φ-Φ
=(0.78)Φ-(13.1783)Φ-=0.7823
即保险公司一年的利润不少于20万元的概率为78.23%。
2.1中心极限定理在决策问题中的应用
决策是为了达到某种预定的目标,在若干可供选择方案中决定一个合适方案的过程。
那么在就某事的可行性进行决策时,单个人认为是否可行称为个体决策,几个人(至少3个人)按照少数服从多数的方法决定是否可行称为集体决策。
俗话说,人多力量大,那么我们习惯上认为的集体正确决策的概率大于每个单个个体正确决策的概率是否正确呢?下面将应用中心极限定理来讨论分析这个问题。
首先,我们给出一些简单的数据,利用特殊法看看该说法是否正确。
见表4。
记n 为参与集体决策的人数,假定每个个体做出正确决策的概率相同,且均为p ,决策方式也是根据少数服从多数原则,则在空格中所填数据为集体决策正确的概
率,记为P 集正(其中n=30、40时应用中心极限定理计算P 集正)。
情况一:10.25(0,)210.5210.75(1)2p n P p P n p n P ⎧
=∈⎪⎪
⎪=≡⎨⎪
⎪
=∈⎪⎩
集正集正
集正当时,随着的增加,逐渐下降当时,,与无关当,时,随着的增加,逐渐增加,
由此我们得出第一个猜测,
猜测一:1(0,)211
221(1)2p n P p P n p n P ⎧∈⎪⎪
⎪=≡⎨⎪
⎪
∈⎪⎩
集正集正集正当时,随着的增加,逐渐下降当时,,与无关
当,时,随着
的增加,逐渐增加。
情况二:10.25(0,)2
0.510.75(1)2
p P p p P p
p P p ⎧
=∈<⎪⎪==⎨⎪
⎪=∈>⎩集正集正集正当时,当时,当,时,, 显然由这一情况可知,集体正确决策的概率大于每个单个个体正确决策的概率这
一说法是不一定正确的,同时我们也得出了第二个猜测,
猜测二:1(0,)2121(1)2p P p p P p
p P p ⎧
∈<⎪⎪
⎪==⎨⎪
⎪∈>⎪⎩
集正集正集正当时,当时,当,时,。
现在就利用一般法检验两个猜测是否正确,下面将结合中心极限定理来做出判
断。
设X 为n 个人中做出正确决策的人数,令
1,1,2,...,0,i i X i n i ⎧==⎨⎩第个人的决策正确第个人的决策错误
,
记(1,(01i i P X p P X p ====-)),则
1,,(1)n
i i X X EX np DX np p ====-∑。
将X标准化,并由中心极限定理可得
N(0,1)。
当n成分大时,
()1
2
n n
np np
n
P X P
--
>=>=-Φ (8)
为下面讨论方便,令
1
()
n
np
f n
-
==
()1(())
2
n
P X f n
∴>=-Φ (9) 那么对于猜测一:(1)当1
2
p
<<时,f(n)是大于0的单调增函数,
若
1212
,0()()
n n f n f n
<<<
则
12
(())(())
f n f n
∴Φ<Φ
12
((
22
n n
P X P X
∴>>
)>)。
同理可证明(2),(3)。
所以猜测一是正确的。
对于猜测二:当n充分大时,我们可以得到
1
0,(),()0;
22
11
,()0,();
222
1
1,(),()1
22
n
p f n P X
n
p f n P X
n
p f n P X
⎧
<<→+∞>→
⎪
⎪
⎪
==>=
⎨
⎪
⎪
<<→-∞>→
⎪⎩
若则此时
若则此时
若则此时。
由此可知,当n充分大时,若11
2
p
<<则()
2
n
P X>无限趋近于1,而p是一个大于
1/2小于1的常数,所以必定有()
2
n
P X p
>>,即
1
1
2
p
<<是()
2
n
P X p
>>的必要条件;
相反当()
2
n
P X p
>>时,是否也有
1
1
2
p
<<呢?不妨采用反证法说明。
若p=1
2
,则
()
2
n
P X
>1
n
np
-
=-Φ=
1
2
>p,
矛盾。
若0<p<
1
2
,则当n充分大时,
()
2
n
P X
>1
n
np
-
=-Φ趋于0,
而p 是一个大于0小于
12的常数, 所以()2
n
P X >也不可能大于p,矛盾。
即p 只能属于(12,1)。
因此,当n 充分大时,112
P p p ><<集正的充要条件为[6]。
在验证猜测一与二的基础上,我们可以得出这样的结论:当且仅当0.5<p<1时集体决策为正确的概率大于个体决策为正确的概率,并且当参与人数n 不断增加时,集体决策正确的概率也不断趋向于1
3.0 中心极限定理在生产供应、需求上的应用
现实生活中,当厂家的生产量大于需求量时,会导致商品的积压以及商品价值难以体现;而当厂家的生产量小于需求量时,供给又难以满足社会需求。
为了尽量防止“供”过于大于“求”及尽可能的满足社会需求度,我们就要利用中心极限定理来估算一些值,具体如下。
3.1 根据现有生产能力及用户需求状态,估算能满足社会需求的可靠程度
某工厂负责供应某地区n 个人的商品供应,在一段时间内每人需用一件该商品的概率为p ,假定在这段时间内每个人购买与否彼此独立,现该工厂仅生产M 件商品,试估计能满足该地区人们需求的概率β。
若记
10i i X i ⎧=⎨
⎩,第个人购买该商品
,第个人不购买该商品
,i=1,…,n 则
1()n
i
n
i i X
np
P X M P β=-≤=≤
=Φ=∑∑,
通过查正态分布表可求得β。
3.2 根据社会需求状态来确定生产任务
某工厂负责供应某地区n 个人的商品供应,在一段时间内每人需用一件该商品的概率为p ,假定在这段时间内每个人购买与否彼此独立,现该工厂至少有β的把握满足社会需求,试问该工厂需要生产商品的件数M 。
若记
10i i X i ⎧=⎨
⎩,第个人购买该商品,第个人不购买该商品
,i=1,…,n 则
),(~1
p n N X
N
i i
∑=
∴1
()n
i
n
i i X
np
P X M P β=-≤==Φ≥∑∑,
令
()x ββ
Φ=,
M np x ≥+ (11)
所以该工厂至少需要生产np x β+
3.3 根据需求及产品质量情况来确定生产量
某工厂负责供应某地区的商品供应,该商品的次品率为p,而在一段时间内共需M 件该商品且要求至少有β的可靠程度来保证居民购买到的是正品,求该工厂的生产量N 。
若记
10i i Y i ⎧=⎨
⎩,第件商品是次品
,第件商品不是次品
,i=1,…,N , 则
),(~1p N Y N
i i ∑=
所以由
1()N
i i P N Y M β=-≥≥∑
可知
1()N
i N
i i Y Np
P Y N M P β=-≤-=≥∑∑
令
()y ββ
Φ=,
再通过解不等式
≥y β
由上式可解出生产量N 的范围。
3.4 例题分析
设某电视机厂生产液晶电视机以满足某地区100家客户的需求,若由以往的统计资料表明:每一用户对该电视机的年需求量服从λ=2的泊松分布,现在该厂这种电视机的年产量为220台,能以多大的把握满足客户的需求量呢?若该厂要有97.5%的把握满足客户的需求,则该厂至少生产多少台这种液晶电视机?现在该厂引进先进技术,将液晶电视机的出厂正品率提高到95%,现估计一年内该地区的社会总需求量为500台,则为了有99.7%的把握保证客户购买到的是正品
液晶电视机,则该厂该年至少生产多少台液晶电视机[11]
?
解:设这100户客户对这种液晶电视机的年需求量依次为12100,,...,ξξξ。
则由统计资料表明:
)2(~)(=λξλP k
2
2()(0,1,2...;1,2,...,100)!
j
k P j e j k j ξ-====,
那么根据泊松分布的知识知
2k k E D ξξλ===,
再设100η为这100家客户对这种液晶电视机的年需求总量,则
100η=100
1k k ξ=∑,
由于n=100较大,根据中心极限定理我们有:100η近似服从正态分布N (,n n λλ),即N(200,200)。
现在该厂的年产量为220台,则能满足客户需求的把握为
P (100η≤200)=P
≤=Φ=0.91924,
即能满足客户需求的把握为91.924%。
又若该厂要有97.5%的把握满足需求,则设该厂安排年产量为M 台,则M 应满足下式:
P(100η≤M)≥97.5%
从而有
≤)=Φ≥0.975
由正态表查得(1.96)0.975Φ=,而()x Φ是x 的增函数,所以有
≥1.96,M ≥227.7,
即取M=228(台)。
最后我们设N 为当液晶电视机正品率为95%时的生产量,设i η为第i 台电视机含次品的个数,即i η=1表示次品;i η=0表示正品。
则
N η=1
N
i i η=∑
为N 台液晶电视机中的次品总数,而N-N η为N 台电视机中的正品总数,它应满足
P(N-N η≥500) ≥0.997,
即
P(N η≤N-500) ≥0.997,
由题意知
N η~B (N ,0.05),
从而
E N η=0.05N,D N η=0.95*0.05N=0.0475 N ,
结合中心极限定理知N η近似服从N (0.05N, 0.0475 N ),所以
P(N η≤
≤
0.997Φ≥
再通过查正态分布表知
(2.75)Φ=0.997,
就有
≥2.75 解此不等式得
N ≥541.16,
取N=542(台)所以在这种情况下应生产出542台液晶电视机才能有99.7%的把握客户买到的是正品。