概率论中几种常用重要分布

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

概率论中几种常用的重要的分布摘要:本文主要探讨了概率论中的几种常用分布,的来源和他们中间的关系。

其在实际中的应用。

关键词
1 一维随机变量分布
随机变量的分布是概率论的主要内容之一,一维随机变量部分要介绍六中常用分布,即( 0 -1) 分布、二项分布、泊松分布、均匀分布、指数分布和正态分布.下面我们将对这六种分布逐一地进行讨论.
随机事件是按试验结果而定出现与否的事件。

它是一种“定性” 类型的概念。

为了进一步研究有关随机试验的问题,还需引进一种“定量”类型的概念,即,根据试验结果而定取什么值(实值或向量值)的变数。

称这种变数为随机变数。

本章内将讨论取实值的这种变数——一维随机变数。

定义1.1 设X 为一个随机变数,令
F(x) P([X ( ,x)]) P([X p x]),( p xp ).
这样规定的函数F(x)的定义域是整个实轴、函数值在区间[0,1]上。

它是一个普通的函数。

成这个函数为随机函数X 的分布函数。

有的随机函数X 可能取的值只有有限多个或可数多个。

更确切地说:存在着有限多个值或可数多个值a1,a2,..., 使得
P([ X { a1, a2 ,...}]) 1
称这样的随机变数为离散型随机变数。

称它的分布为离散型分布。

【例1】下列诸随机变数都是离散型随机变数。

(1) X可能取的值只有一个,确切地说,存在着一个常数a,使P([X a]) 1 o
称这种随机变数的分布为退化分布。

一个退化分布可以用一个常数 a 来确定。

(2) X可能取的值只有两个。

确切地说,存在着两个常数a , b,使
P([X {a,b}]) 1.称这种随机变数的分布为两点分布。

如果P([X b]) p,那么,P ([X a]) 1 p。

因此,一个两点分布可以用两个不同的常数a,b及一个在区间(0,1 )内的值p来确定。

特殊地,当a,b依次为0,1时,称这两点分布为零-壹分布。

从而,一个零
-壹分布可以用一个在区间(0,1)内的值p来确定。

(3) X可能取的值只有n个:a1,...,a2 (这些值互不相同),且,取每个a:值
■. 、. 1
得概率都是-,称这种随机变数的分布为离散型均匀分布。

一个离散型均匀分布n
可以用一个正整数n及n个不同的常数a-,...,a2来确定。

定义1.2 若随机变量X的概率分布为
P{X 0} 1 p, P{X 1} p
其中Op p p 1,则称X服从参数为p的(0-1)分布。

(0-1)分布是最简单的一种分布,它用于描述只有两个可能结果的试验。

例如,对新生婴儿的性别登记,观察机器是否正常工作,考察一件产品是否为合格品等,均可用(0-1)分布来描述。

定义1.3若随机变量X的概率分布为
{X k} c;p k(1 p)(n k),k 0,1,..., n
其中n 1为正整数,0p p p 1,则称X服从参数为n, p的二项分布,记作
X ~ B(n,p)
由二项分布的导出可知,该种分布用于描述n重伯努利试验中发生的概率为
p.在研究某事件A发生的概率时,我们对事件A所在的试验进行独立重复观察,
统计出事件A发生的次数n。

这里n是一个随机变量,它就服从二项分布。

另外,一批种子能发芽的个数,一定人群中患某种疾病的人数,某时刻一个城市开着的灯的盏数都可以认为是服从二项分布的。

在二项分布中,如果n 1,那么只能取0或1,这是显然有
P0 1 P,P1 P
也可以表示成
这个分布就是上面介绍的(0-1)分布,它是二项分布的特例。

在讨论抛掷均匀硬币的例子中,随机变量的分布列为
P i
1
它就是(0-1 )分布当p丄时的特例。

2
定义1.4 若随机变量X的概率分布为
1
还有
从而
lim 1 n n
lim
n
lim
n
lim n
b (k ;n, P n )
k
e k!
P{X k} 丁,k o,1,2,…
其中f 0为常数,则称X 服从参数为 的泊松分布,记作X ~P().
泊松分布是作为二项分布的极限分布而引入的。

事实上,泊松定理表明,当 n 很大时,p 很小,np 适中时,B(n, p)分布就近似于P()分布,其中 叩。

由二项分布描述的内容可知,泊松分布主要用于描述大量独立重复实验中稀有事 件发生的次数,所谓稀有事件指概率很小的事件。

由此,纺织品上的疵点数,印 刷品中的错字数,某时间段内电话交换台接到的呼叫次数, 某时间段内公共汽车 站等车的乘客人数等均可用泊松分布来描述。

n(n 1)...(n k 1)
k!
k
—1 k!
对于任一固定的k ,显然有
lim
n
定理1.1 (泊松定理) 在n 重贝努力试验中,事件 概率为p n
(与实验总数n 有关),如果当n 时,np .
lim b(k; n, p n )
n
k
e k!
,k 0,1,2,…
证明
记np n
n ,则
b(k; n, p n )
k n k
P n
(1 P n )
A 在一次实验中出现的 (f 0常数),则
...1
(x)dx
为此,可令-—y ,贝U
这时有
1 (x )2
e 2 2 dx
1
2
(x )2
1 2
匸 e 2 2 dx
e 2 dy
2 2
2 2
_y_
1 e
2 x y
e 2 dy
2
dx
e 2 dy
1 2 2
x y
e 2 dxdy
2
对任意k ( k 0,1,2,...)成立,定理得证
2连续性随机变量分布
以上对离散型随机变量做了一些研究, 见的随机变量——连续型随机变量
定义2.1若()是随机变量,F(x)是它的分布函数,如果存在函数 p(x), 使对任意的,有
x
F(x) p(y)dy
则称()对连续型随机变量,相应的 F(x)为连续型分布函数,同时称 p(x)是 F(x)的概率密度函数或简称为密度
由分布函数的性质即可验证任一连续型分布的密度函数 性质:
(1) p(x) 0
(2)
p(x)dx 1
定义2.2
若随机变量X 的概率分布为
1
(X a)
(x) e 2
2 ,(a, 2(f 0)都是常数)
为密度连续型分布,称这种分布为正态分布,记作X~N(a, 2) F 面验证(x)是一个密度函数。

因为这时为显然,此外还可以验证有
F 面将要研究另一类十分重要而且常
p(x)必具有下述
(x)dx 1
这说明给出的的确是一个密度函数,这个密度函数成为正态密度
正态分布是德国数学家和天文学家棣莫弗于
1733年在求二项分布的渐进
公式时得到的.棣莫弗-拉普拉斯中心极限定理表明正态分布是二项分布的极 限分布.正态分布N ( , 2)的密度函数曲线是钟型曲线,它的“钟型”特征与
实际中很多随机变“中间大,两头小”的分布规律相吻合. 人的各种生理指标, 一个班的一次考试成绩,测量的误差等均服从或近似服从正态分布.
在许多实际问题中,遇到的随机变数是受到许多互不相干扰的随机因素的影 响的,而每个个别因素的影响都不起决定性作用, 且这些影响是可以叠加的。

例 如,电灯泡的耐用时数(寿命)受到原料,工艺,保管条件等因素的随机变动的 影响,而这些因素的波动在正常情况下是互不干扰的, 且,每一个都不起决定性 作用,又,可以认为是可以叠加的。

在概率论的极限理论中可以证明:具有上述 特点的随机变数一般都可以认为服从正态分布。

二项分布,泊松分布和正态分布(或称高斯分布)时概率论中最重要的分布, 在实际理论中有着广泛的应用。

本文从三中分布的区别与联系出发, 采用实例计 算及比较方法,以达到较准确选择合适的分布解决实际问题为目的, 对三种分布 进行进一步探讨。

一、三种分布的区别
1. 定义不同:以每个分布的定义为切入点,阐明定义特征。

二项分布B (n,p )、 泊松分布P (入)和正态分布N (卩,c 2)的分布规律分别由它们的参数确定,并且 三种分布的数字特征均值及方差是用不同的参数来描述。

因此,区别参数的意义 是深刻理解定义的关键。

2. 随机变量的取值范围不同:二项分布的随机变量取值是有限个,泊松分布 的随机变量取值是无穷可列,它们属于离散型的。

正态分布的随机变量取值无穷 不可列,充满某一区间,属于连续型的。

现在作坐标变换
x r cos y r sin
这时,变换的雅可比式J r ,而
—2
e rdr
所以有
y 2
r 2
于是
e 2 dy
e 2 rdr d
3.
适用的条件不同:二项分布
用于描述只有“成功”与“失败”两种试验结 果的数学模型。

例如:某个学生做n 道数学题,每道题的结果只有“对”与“错”, 若每题做对的概率已知,则可利用二项分布求出做对 k 道题的概率;泊松分布适 用于描绘大量重复试验中稀有事件(飞机意外坠落、高楼突然倒塌等);正态分布 用于一个随机变量由大量相互独立的偶然因素之和构成 ,每个因素所起的作用对 总的来说很微小。

例如:某校2002级3000名学生的数学考试分数,受每个学生考分的影响,但 每个学生的考试分数对总的分数影响不大,所以,考试分数服从正态分布。

二、三种分布之间的联系
尽管三种分布有许多不同点,但它们之间还有着相互的联系。

在 n 次贝努力 试验中,二项分布的极限是泊松分布,我们可以用二项分布逼近泊松分布。

反之, 也可以用泊松分布近似具有较大 n 的二项分布,即若已知泊松分布P (入),可用二 项分布B (n,入/n )去逼近它;若已知二项分布B (n,p ),可用泊松分布P (入)近似二 项分布,其理论根据是近似公式:
这里要求n 较大,p 较小, 叩。

正态分布是二项分布的极限分布,当n 较大时,可用正态分布近似二项分布, 其近似公式为:
若n ~ B( n, p),则有
从上面可以看到,泊松分布和正态分布都是二项分布的极限分布,在满足 一定条件下都能近似二项分布。

在实际中,利用这种关系有时能够带来很多方便, 从而简化计算。

三、三种分布在实际中的应用
三种分布在实际中有广泛的应用。

二项分布适用于抽查产品、能量供应、药 效试验、保险公司估计利润等;泊松分布用于公共汽车站来到的乘客数、电话总 机在一段时间内收到的呼唤次数、运输损耗等 ;正态分布用于年平均气温和降雨 量、测量误差、发电站电能消耗、人的身高和体重等。

在日常生活、生产实际和 科学研究中,怎样利用三种分布的特点及联系,简单准确计算出所求事件的概率 呢?下面通过实际例子说明这一问题。

例如:某大城市有一个繁忙的交通岗,若每天有100000人通过,每人出事故的 概率为0.0001,求该天出事故的人数X 不超过2人的概率。

解法一:显然 X ~ B(1000000,0.0001),利用二项分布得 P{X 2} =0.00276849 这里n 较大,p 较小,直接用二项分布计算比较麻烦
k k (n k)
C n
P (1 P)
k
e
(1)
k k (n k)
C n
P (1 P)
1 .np(1 p)
k np np(1 p)
(2)
P{K n
k 2}
k 2 np np(1 p)
k 1 np (
:np(1=p))
(3)
1
f(x) b a
a x b
其他
解法二:用泊松分布近似二项分布的方法计算,代入公式(1)得
2
10k e 10
P{X 2}
0.002769
K 0
k!
这里 np 10,直接查泊松分布表求出,产生的误差为5.1 10 7。

由此可
见,当n 较大时,p 较小时,泊松分布近似二项分布,其近似程度非常好,而 且计算简单。

解法三:用正态分布的分布函数近似二项分布的方法计算, 由近似公式(3)

P{X 2}
( 2.53) ( 3.16) 0..00501
这里直接查标准正态分布的分布函数表求得,其误差为 0.00224151,这比
用泊松分布产生的误差要大。

在实际中,用二项分布计算量较大时,一般满足
0.1 p 0.9,」p (1_p ) 3的条件下,采用正态分布近似二项分布的方法,较为 方便准确
有效。

解法四:用正态分布的密度函数近似二项分布的计算方法,近似公式( 2
) 得
这里通过查标准正态分布的密度函数表直接求出,产生的误差为
0.00542221,其误差比上面的两种近似求值所产生的误差都大。

所以,在实际
中,当p 不太接近0或1, n 不太小,随机变量的取值较小时,应该利用近似(2) 计算,结果更准确。

从以上四种解法中可以得到:对于一个实际问题,首先应该根据三中分布 适用的条件,判断是服从什么分布。

然后用此分布去解决问题。

若随机变量
X ~ B (n,p ),当n 不太大,p 不很小(一般n p 10, p 0.001 )时,可以用二项分 布直接计算,也可以查二项分布表求出;当 n 10, p 0.1,且随机变量的取值 个数较少时,可以用泊松分布直接查表计算;当
0.1 p 0.9,; np (1_p ) 3,随
机变量的取值比较多,用二项分布计算量太大时,可以用正态分布直接查表求 出结果。

定义2.2 (均匀分布)若随机变量X 的密度函数为
P{X 2}
1 .9.999
[(3.16) (2.85) (2.53)] 0.0081907
则称服从区间上的均匀分布,记作 X~U[a,b]
均匀分布描述的是在一个区间上等可能取值的分布规律,也即是说概率在该 区间上的分布是均匀的。

均匀分布是最简单。

最基本的连续型分布,就像直线运 动中的匀速运动,物体中的均匀物体一样.设某路公共汽车每 10分钟一趟,则 乘客的等车时间可认为是在区间]0,10] 上均匀分布的.
还可以把这个分布推广到一个在实数轴上某个指定的长度不为 0的集合B 上的连续型均匀分布。

相应的密度函数为
1 B 的长度
按连续型随机变数X 的密度函数(x)的定义,有
x
F(x) P([Xpx])
(x)dx,( pxp )
这是用密度函数来表达分布函数的公式。

下面用一个例子来说明均匀分布的分布函数的推导过程 【例2】算出区间a,b 上的均匀分布的分布函数
F(x)的增量
X Q X
F(x) F(X Q x) F(x o ) x (x)dx
x
F(x) x
a,b
(x )dX
x
0dx 0
当a p x
b 时
x
a
x
1
x a F(x)
a,b (x)dx
0dx
dx
a
b a b a
当b p x 时
x
a
b
1 x
b a F(x)
ab (x)dx
0dx
dx
0dx 0
0 1
a
b a
b
b a
即,
0 , x a
x a
F(x)
,a p x b
b a
1 , b p x
解:当x a
为了推导用分布函数来表达密度函数的公式,考虑
x 从x 0变化到x 0 x 时
当(x)在x o 处连续时,对于任意给定的
f 0,存在着 f 0,使得:当x p 时,
1
X o 处连续时,(X) F (X o ).这就是用分布函数表达密度函数的公式 定义2.3 (指数分布)若随机变量的密度函数为
其中f0为常数,则称X 服从参数为 的指数分布(有的称为负指数分布) 作 X~e() F 面验证f(x)是一个连续型分布密度函数
由于f(x)在整个实轴上都不为负,又,
f(x)dx f (x)dx ° f (x)dx
kx
所以,f(x)是一个连续型分布的密度函数
(X o
X X) p ,从而,当 X p 时,
F(x) x
(X o )
因此,当 (X)在
f(X)
e X , X
f 0 0 , 其他
,记
0 0dx
ke kX dx。

相关文档
最新文档