概率论中几种常用的重要的分布
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
概率论中几种常用的重要的分布
概率论中几种常用的重要的分布
摘要:本文主要探讨了概率论中的几种常用分布,的来源和他们中间的关系。
其在实际中的应用。
关键词
1 一维随机变量分布
随机变量的分布是概率论的主要内容之一,一维随机变量部分要介绍六中常
用分布,即( 0 -1) 分布、二项分布、泊松分布、均匀分布、指数分布和正态分布.下面我们将对这六种分布逐一地进行讨论.随机事件是按试验结果而定出现与否的事件。
它是一种“定性”类型的概念。
为了进一步研究有关随机试验的问题,还需引进一种“定量”类型的概念,即,根据试验结果而定取什么值(实值或向量值)的变数。
称这种变数为随机变数。
本章内将讨论取实值的这种变数——一维随机变数。
定义1.1 设X 为一个随机变数,令()([(,)])([]),()F x P X x P X
x x
=∈-∞=-∞
+∞.
这样规定的函数()F x 的定义域是整个实轴、函数值在区间[0,1]上。
它是一个普通的函数。
成这个函数为随机函数X 的分布函数。
有的随机函数X 可能取的值只有有限多个或可数多个。
更确切地说:存在着有限多个值或可数多个值12,,...,a a 使得 12([{,,...}])1P X a a ∈=
称这样的随机变数为离散型随机变数。
称它的分布为离散型分布。
【例1】下列诸随机变数都是离散型随机变数。
(1)X 可能取的值只有一个,确切地说,存在着一个常数a ,使([])1P X a ==。
称这种随机变数的分布为退化分布。
一个退化分布可以用一个常数a 来确定。
(2)X 可能取的值只有两个。
确切地说,存在着两个常
数a ,b ,使
([{,}])1P X a b ∈=.称这种随机变数的分布为两点分布。
如果([])P X b p ==,那
么,([])1P X a p ===-。
因此,一个两点分布可以用两个不同的常数,a b 及一个在区间(0,1)内的值p 来确定。
特殊地,当,a b 依次为0,1时,称这两点分布为零-壹分布。
从而,一个零-壹分布可以用一个在区间(0,1)内的值p 来确定。
(3)X 可能取的值只有n 个:12,...,a a (这些值互不相同),且,取每个i a 值
得概率都是
1n
,称这种随机变数的分布为离散型均匀分布。
一个离散型均匀分布可以用一个正整数n 及n 个不同的常数12,...,a a 来确定。
定义1.2 若随机变量X 的概率分布为
{0}1,{
1}P X p P X p ==-== 其中01p ,则称X 服从参数为p 的(0-1)分布。
(0-1)分布是最简单的一种分布,它用于描述只有两个可能结果的试验。
例
如,对新生婴儿的性别登记,观察机器是否正常工作,考察一件产品是否为合格品等,均可用(0-1)分布来描述。
定义1.3 若随机变量X 的概率分布为
(){}(1),0,1,...,k k
n k n X k C p p k n -==-=
其中1n ≥为正整数,0
1p ,则称X 服从参数为,n p 的二项分布,记作
~(,)X B n p
由二项分布的导出可知,该种分布用于描述n 重伯努利试验中发生的概率为
p .在研究某事件A 发生的概率时,我们对事件A 所在的试验进行
独立重复观察,
统计出事件A 发生的次数n μ。
这里n μ是一个随机变量,它就服从二项分布。
另外,一批种子能发芽的个数,一定人群中患某种疾病的人数,某时刻一个城市开着的灯的盏数都可以认为是服从二项分布的。
在二项分布中,如果1n =,那么只能取0或1,这是显然有
01p p =-, 1p p =
抛掷均匀硬币的例子中,随机变量η 的分布列为
它就是(0-1)分布当2
p =时的特例。
定义1.4 若随机变量X 的概率分布为
{},0,1,2,...!
k
P X k e k k λλ-==
=
其中0λ为常数,则称X 服从参数为λ的泊松分布,记作~()X P λ.
泊松分布是作为二项分布的极限分布而引入的。
事实上,泊松定理表明,当
n 很大时,p 很小,np 适中时,(,)B n p 分布就近似于()P λ分布,其中np λ=。
由二项分布描述的内容可知,泊松分布主要用于描述大量独立重复实验中稀有事件发生的次数,所谓稀有事件指概率很小的
事件。
由此,纺织品上的疵点数,印刷品中的错字数,某时间段内电话交换台接到的呼叫次数,某时间段内公共汽车站等车的乘客人数等均可用泊松分布来描述。
定理 1.1 (泊松定理)在n 重贝努力试验中,事件A 在一次实验中出现的概率为n p (与实验总数n 有关),如果当n →∞时,n np λ→(0λ常数),则
有
lim (;,),0,1,2,...!
k
n n b k n p e k k λλ-→∞
=
=
证明记n n np λ=,则 (;,)(1)k n k n n n n b k n p p p k -??
=- ?
(1)...(1)1!k
n k
n n n n n k k n n λλ---+??
=- ?
12111...11!n k
k n n k k n n n n λλ--??
=---- ??? ???
对于任一固定的k ,显然有
l i m
k k n n λλ→∞
= lim 1lim 1n
n
n
n k
n k
n
n n n n e n n λλλλλ---→∞→∞??
-=-= ?
还有
11lim 1...11n k n n →∞---= ? ?
从而
lim (;,)!
k
n n b k n p e k λλ-→∞
=
对任意k (0,1,2,...k =)成立,定理得证。
2 连续性随机变量分布
以上对离散型随机变量做了一些研究,下面将要研究另一类十分重要而且常见的随机变量——连续型随机变量
定义2.1 若()ξω是随机变量,()F x 是它的分布函数,如果存在函数()p x ,使对任意的,有
()()x
F x p y dy -∞
=?
则称()ξω对连续型随机变量,相应的()F x 为连续型分布函数,同
时称()p x 是
()F x 的概率密度函数或简称为密度。
由分布函数的性质即可验证任一连续型分布的密度函数()p x 必具有下述性质:
(1)()0p x ≥
(2)
()1p x dx ∞
-∞
=?
定义2.2 若随机变量X 的概率分布为
2
()
22(),(,(0))x a x a σ?σ--=都是常数
为密度连续型分布,称这种分布为正态分布,记作2~(,)X N a σ 下面验证()x ?是一个密度函数。
因为这时为显然,此外还可以验证有
22
()2()1x x dx e dx μσ?--
∞
∞
-∞
-∞
=
=?
为此,可令
x y μ
σ
-=,则222
()22
x y e
dx e
dy μσ
--
∞
∞
-
-∞
-∞
=
这时有222222
2
2
2
2
121
2y x y x y e dy e
dx e
dy e dxdy ππ
∞
∞
∞--
-
-∞
-∞
-∞
+∞∞
--∞-∞
=
=
现在作坐标变换
cos sin x r y r θ
θ=??=?
这时,变换的雅可比式J r =,而 222 2
1r r e
rdr e ∞
--∞-∞=-=?
所以有
22
2
22
2
01
1122y r e
dy e rdr d π
θππ∞
∞---∞
==
于是
()1x dx ?∞
-∞
=?
这说明给出的的确是一个密度函数,这个密度函数成为正态密度。
正态分布是德国数学家和天文学家棣莫弗于1733 年在求二项分布的渐进公式时得到的.棣莫弗-拉普拉斯中心极限定理表明正态分布是二项分布的极限分布.正态分布2()N μσ,的密度函数曲线是钟型曲线,它的“钟型”特征与实际中很多随机变“中间大,两头小”的分布规律相吻合.人的各种生理指标,一个班的一次考试成绩,测量的误差等均服从或近似服从正态分布.
在许多实际问题中,遇到的随机变数是受到许多互不相干扰的随机因素的影响的,而每个个别因素的影响都不起决定性作用,且这些影响是可以叠加的。
例如,电灯泡的耐用时数(寿命)受到原料,工艺,保管条件等因素的随机变动的影响,而这些因素的波动在正常情况下是互不干扰的,且,每一个都不起决定性作用,又,可以认为是可以叠加的。
在概率论的极限理论中可以证明:具有上述特点的随机变数一般都可以认为服从正态分布。
二项分布,泊松分布和正态分布(或称高斯分布)时概率论中最重要的分布,在实际理论中有着广泛的应用。
本文从三中分布的区别与联系出发,采用实例计算及比较方法,以达到较准确选择合适的分布解决实际问题为目的,对三种分布进行进一步探讨。
一、三种分布的区别
1.定义不同:以每个分布的定义为切入点,阐明定义特征。
二项分布B(n,p)、泊松分布P(λ)和正态分布N(μ,σ2)的分布规律分别由它们的参数确定,并且三种分布的数字特征均值及方差是用不同的参数来描述。
因此,区别参数的意义是深刻理解定义的关键。
2.随机变量的取值范围不同:二项分布的随机变量取值是有限个,泊松分布的随机变量取值是无穷可列,它们属于离散型的。
正态分布的随机变量取值无穷不可列,充满某一区间,属于连续型的。
3.适用的条件不同:二项分布用于描述只有“成功”与“失败”两种试验结果的数学模型。
例如:某个学生做n 道数学题,每道题的结果只有“对”与“错”,若每题做对的概率已知,则可利用二项分布求出做对k 道题的概率;泊松分布适用于描绘大量重复试验中稀有事件(飞机意外坠落、高楼突然倒塌等);正态分布用于一个随机变量由大量相互独立的偶然因素之和构成,每个因素所起的作用对总的来说很微小。
例如:某校2002级3000名学生的数学考试分数,受每个学生考分的影响,但每个学生的考试分数对总的分数影响不大,所以,考试分数服从正态分布。
二、三种分布之间的联系
尽管三种分布有许多不同点,但它们之间还有着相互的联系。
在n 次贝努力试验中,二项分布的极限是泊松分布,我们可以用二项分布逼近泊松分布。
反之,也可以用泊松分布近似具有较大n 的二项分布,即若已知泊松分布P(λ),可用二项分布B(n,λ/n)去逼近它;若已知二项分布B(n,p),可用泊松分布P(λ)近似二项分布,其理论根据是近似公式: ()
(1)
!
k k k
n k n
e C p p λλκ---≈ (1)
这里要求n 较大,p 较小,np λ=。
正态分布是二项分布的极限分布,当n 较大时,可用正态分布近似二项分布,其近似公式为:
()(1)
k k n k n C p p --≈
(2)若~(,)n B n p η,则有
12{}n P k k η≤≤≈Φ-Φ (3)
从上面可以看到,泊松分布和正态分布都是二项分布的极限分布,在满足
一定条件下都能近似二项分布。
在实际中,利用这种关系有时能够带来很多方便,从而简化计算。
三、三种分布在实际中的应用
三种分布在实际中有广泛的应用。
二项分布适用于抽查产品、能量供应、药效试验、保险公司估计利润等;泊松分布用于公共汽车站来到的乘客数、电话总机在一段时间内收到的呼唤次数、运输损耗等;正态分布用于年平均气温和降雨量、测量误差、发电站电能消耗、人的身高和体重等。
在日常生活、生产实际和科学研究中,怎样利用三种分布的特点及联系,简单准确计算出所求事件的概率呢?下面通过实际例子说明这一问题。
例如:某大城市有一个繁忙的交通岗,若每天有100000人通过,每人出事故的概率为0.0001,求该天出事故的人数X 不超过2人的概率。
解法一:显然~(1000000,0.0001)X B ,利用二项分布得{2}P X ≤=0.00276849 这里n 较大,p 较小,直接用二项分布计算比较麻烦。
解法二:用泊松分布近似二项分布的方法计算,代入公式(1)得
10
2
10{2}0.002769!k K e P X k -=≤≈=∑
这里10np λ==,直接查泊松分布表求出,产生的误差为75.110-?。
由此可见,当n 较大时,p 较小时,泊松分布近似二项分布,其近似程度非常好,而且计算简单。
解法三:用正态分布的分布函数近似二项分布的方法计算,由近似公式(3)得
{2}( 2.53)( 3.16)0..00501P X ≤≈Φ--Φ-=
这里直接查标准正态分布的分布函数表求得,其误差为0.00224151,这比
用泊松分布产生的误差要大。
在实际中,用二项分布计算量较大时,一般满足
0.13p ≤≤≥的条件下,采用正态分布近似二项分布的方法,较为方便准确有效。
解法四:用正态分布的密度函数近似二项分布的计算方法,近似公式(2)得
{2}(3.16)(2.85)(2.53)]0.0081907P X ≤≈
++= 这里通过查标准正态分布的密度函数表直接求出,产生的误差为0.00542221,其误差比上面的两种近似求值所产生的误差都大。
所以,在实际中,当p 不太接近0或1,n 不太小,随机变量的取值较小时,应该利用近似(2)计算,结果更准确。
从以上四种解法中可以得到:对于一个实际问题,首先应该根据三中分布适用的条件,判断是服从什么分布。
然后用此分布去解决问题。
若随机变量
~(,)X B n p ,当n 不太大,p 不很小(一般10,0.001n p ≥)时,可以用二项分
布直接计算,也可以查二项分布表求出;当10,0.1n p ≥≤,且随机变量的取值
个数较少时,可以用泊松分布直接查表计算;当0.13p ≤≤≥,随机变量的取值比较多,用二项分布计算量太大时,可以用正态分布直接查表求出结果。
定义2.2 (均匀分布)若随机变量X 的密度函数为
1
()0 a x b f x b a ?≤≤?
=-其他
则称服从区间上的均匀分布,记作~[,]X U a b
均匀分布描述的是在一个区间上等可能取值的分布规律,也即是说概率在该区间上的分布是均匀的。
均匀分布是最简单。
最基本的连续型分布,就像直线运动中的匀速运动,物体中的均匀物体一样.设某路公共汽车每10 分钟一趟,则乘客的等车时间可认为是在区间[0,10]上均匀分布的.
还可以把这个分布推广到一个在实数轴上某个指定的长度不为0的集合B 上的连续型均匀分布。
相应的密度函数为
1 0 , B x B B ??
∈?
=
,的长度
其余地方按连续型随机变数X 的密度函数()x ?的定义,有
()([])(),()x
F x P X
x x dx x ?-∞
==-∞
+∞?
这是用密度函数来表达分布函数的公式。
下面用一个例子来说明均匀分布的分布函数的推导过程【例2】算出区间[),a b 上的均匀分布的分布函数解:当x a ≤
[),()()00x
x
a b F x x dx dx ?-∞
-∞===?
当a
x b ≤时
[),1()()0x a
x
a b a
x a F x x dx dx dx b a b a
-∞
-∞
-==+=-- 当b
x 时
[),1()()00001x
a
b
x a b a
b b a
F x x dx dx dx dx b a b a
-∞
-∞
-==++=++=--
即,
0 , () , 1 , x a
x a F x a x b b a b x
≤??-?
=≤?-
为了推导用分布函数来表达密度函数的公式,考虑x 从0x 变化到
0x x +?时
()F x 的增量
00
00()()()()x x
x F x F x x F x x dx ?+??=+?-=?
当()x ?在0x 处连续时,对于任意给定的0ε
,存在着0δ
,使得:当x
δ?时,
0()
x x x ??ε+?-?,从而,当x δ?时,
0()
()F x x x
ε?-≤?。
因此,当()x ?在0x 处连续时,0()()x F x ?'=.这就是用分布函数表达密度函数的公式. 定义2.3 (指数分布)若随机变量的密度函数为
, 0()0 , x e x f x λλ-?=?
其他其中0λ为常数,则称X 服从参数为λ的指数分布(有的称为负指数分布),记
作~()X e λ
下面验证()f x 是一个连续型分布密度函数。
由于()f x 在整个实轴上都不为负,又, 00
()()()f x dx f x dx f x dx ∞
+∞
-∞
-∞=+?
001
kx kx
dx ke dx
e
+∞
--∞
+∞
-=+??=+-??=??
所以,()f x 是一个连续型分布的密度函数。