几种常见的概率分布率

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

u
❖对于一般正态分布，要先进行标准化，再查表；
标准化的公式为： u = x -
u
=
x-
=
9.2 10
5
= 0.42
正态分布 σ= 10
标准正态分布 σ=1
μ=5 9.2
x
μ=0 0.42 u
例3.7 查标准正态分布u＝-0.82 及u＝1.15时的F（u）的值例3.8 随机变量u服从正态分布N（0，1），问随机变量u的值落
在生物统计学中，正态分布占有极其重要的地位。许多生物学现象所产生的数据，都服从正态分布。
一、正态分布（x—N (μ,σ2)）的密度函数与分布函数
➢ 正态分布的规律是数据分布集
中在平均数附近，并且在平均
数的两侧成对称分布。正态分
布密度函数的图像，称为正态
曲线。
➢ 密度函数： f (x) =
1
正态曲线
p(x)
=
cnx
px (1-
p)n-x
=
n! x!(n -
x)!
p x (1-
p)n-x
= n(n -1)(n - 2)(n - x 1) px (1- p)n-x
=
1(1-
1
)(1-
x! x -1)
(np) x
(1-
p)n-x
（将系数的分子分母同乘以nx）
n
n
x!
= x (1- p)n-x
=
x!
2
=
1
概率函数内的λ ，不但是它的平均数，而且是
它的方差。
λ很大时， γ1和γ2则接近于0，这时的泊松分布近
似于正态分布。
三、泊松分布应用实例
例3.5 在麦田中，平均每10m2有一株杂草，问每 100m2麦田中，有0株、1株、2株、…杂草的概率是多少？
解：先求出每100m2麦田中，平均杂草数μ μ＝ 100/10＝ 10株将μ代入泊松分布的概率密度函数中， p(x) = 10x/(x!e10),（ e=2.71828）即可求出x＝ 0，1，2，… 时所相应的概率。
在（0，1.21）区间的概率？利用公式P（0<U<u）=F（u）－0.5
例3.9 已知随机变量u服从正态分布N（0，1），问随机变量u的
值落在（-1.96，1.96）区间的概率是多少？
利用公式 P（∣U∣<u）=1－ 2F（－u）或 P（u1<U<u2）=F（u2）－ F（u1）
例3.10 已知某高粱品种的株高X服从正态分布N（156.2，
标轴从－∞到u所夹的面积，该曲线下的面积即表示随机变量U 落入区间（－∞，u）的概率；
➢ 标准正态分布查表常用的几个关系式：
• P（0<U <u1）=F（u1）－0.5 • P（U >u1）=F（－u1）=1－F（u1） • P（∣U∣>u1）=2F（－u1） • P（∣U∣<u1）=1－ 2F（－u1） • P（u1<U <u2）=F（u2）－F（u1）
本容量或试验次数却往往很大，即有很小的p值和很大的n值。这时二项分布就变成另外一种特殊的分布，
即泊松分布。
如，显微镜视野内染色体有变异的细胞计数、单位容积的水中细菌数目的分布、作物种子内杂草的分布以及样方内少见植物的个体数等都属于泊松分布。
➢ 其概率函数可由二项分布的概率函数推导。
一、泊松分布概率函数的推导
➢ 上侧分位数：P(u>ua)=α时的ua值； ➢ 下侧分位数： P(u<-ua)=α时的ua值； ➢ 双侧分位数： P(∣u∣>ua/2 )=α时的ua值（从附
表2中以α /2查出的ua即可)；
大数定律与中心极限定理的应用
• 样本容量越大，样本统计数与总体参数之差越小。 • 对于容量大于30的样本，样本均值的分布可以较好地用一
➢ x=μ 时，f(x) 具有最大值，其值为
1 2
；
➢ σ的大小，决定曲线的“胖”、“瘦”程度（展开程度），σ越
小，曲线越“瘦”，数据越集中，σ越大，曲线越“胖”，数
据越分散。
➢ σ 固定时，μ值决定曲线的位置，当μ增大时曲线向右平移，当μ
减少时曲线向左平移，但曲线形状不变。
二、标准正态分布
➢μ=0，σ=1时的正态分布称为标准正态分布。
数n 和概率P，因此其图形变化趋势与这两个参数有关。
1
0.5
0.8
γ1＝3.11
0.4
0.5
γ1＝0.98
0.4
γ1＝0.44
0.6
γ2＝9.50
0.3
0.4
0.2
γ2＝0.95
0.3
0.2
γ2＝0.19
0.2
0.1
0.1
0
0
0
0 2 4 6 8 10
0
25 50 75 100
0
100
200
300
兔出现的概率。在[p＋(1－p)]n的展开式中只有第一项pn无棕色短毛兔
出现，因此n值可由pn＝1－0.99求出。
pn ＝（15/16）n ＝ 0.01
n（lg15－lg16）＝ lg0.01 -0.02803n ＝－2.00000 n ＝71.4
二项分布的应用条件有三：
（1）各观察单位只具有互相对立的一种结果，如阳性或阴性，生存或死亡等，属于二项分类资料；
0 25 50 75 100
n=10，p＝0.50
n=100，p＝0.50
0.02 0.01
0 0
100 200 300 400 500 n=500，p＝0.50
二、二项分布应用实例
例3.2 用棕色正常毛(bbRR)的家兔和黑色短毛(BBrr)兔杂交， F1代为黑色正常毛长的家兔(BbRr), F1代自交，F2代表型比为： 9/16B_R_ : 3/16B_rr : 3/16bbR_ : 1/16bbrr。问最少需要多少 F解2代：家设兔p，为才非能棕色以短99毛％兔的出概现率的得概到率一，个则棕1－色p短就为毛棕兔色（短bb毛rr）？
➢ 例：例3.1 注意： 1)放回式抽样适用于二项分布，非放回式抽样适
用于超几何分布；
2)通式为： P(x) = cnx p x (1- p)n-x
n = 试验次数； x = 在n次试验中事件A出现的次数 p= 事件A发生的概率（每次试验都是恒定的）
1－p= 事件 A发生的概率
P(x) = X 的概率函数为 P（X=x）； F(x) = P( X≤x )
（2）已知发生某一结果 (如死亡) 的概率为p，其对立结果的概率则为1-p=q，实际中要求 p 是从大量观察中
获得的比较稳定的数值；
（3）n个观察单位的观察结果互相独立，即每个观察
单位的观察结果不会影响到其它观察单位的观察结果。
3. 2 泊松分布P(λ)
➢ 在生物学研究中，有许多事件出现的概率很小，而样
合计 400 1.00 1.00 400
• 注意，二项分布的应用条件也是泊松分布的应用条件。比
如二项分布要求n 次试验是相互独立的，这也是泊松分布
的要求。然而一些具有传染性的罕见疾病的发病数，因为首例发生之后可成为传染源，会影响到后续病例的发生，所以不符合泊松分布的应用条件。
3. 3 正态分布
一、服从二项分布的随机变量的特征数
➢ 平均数：μ＝np ，μ＝ p （用比率表示时）
➢ 方差： 2 = np(1- p), 2 = p(1- p) （用比率表示时）
n
➢ 偏斜度：
1 =
1- 2 p np(1- p)
➢ 峭度：
2
=
1 np(1 -
p)
-
6 n
从以上公式可以看出二项分布决定于两个参考数：试验次
4.822），求：
（1）X<161cm的概率；（2）X>164cm的概率；（3）152<X<162的概率。
x-
=
161 - 156.2 4.82
=
1.00
x
=
164 - 156.2 4.82
=
1.62
x
=
152 - 156.2 4.82
=
-0.87
x
=
162 - 156.2 4.82
=
1.20
四、正态分布的单侧分位数和双侧分位数
400
500
n=10，p＝0.01 0.5
n=100，p＝0.01 0.2
0.1
n=500，p＝0.01
0.4
γ1＝0.84 0.15
γ1＝0.27
0.08
γ1＝0.12
0.3
γ2＝0.51
0.1
0.2
γ2＝0.05
0.06
0.04
γ2＝0.01
0.1
n=10，p＝0.10
个正态分布近似（其中均值为μ ，即，样本均值的平均
值，标准差为 n ，即，样本均值的标准差）样本容量越大，近似的效果越好。 • 如果原始总体就是正态分布，则对于任意样本容量n，样本均值都将是正态分布的。
EXCEL在本章内容的应用
EXCEL电子表格提供的粘帖函数
BINOMDIST
计算二项式分布的概率值
➢密度函数： f (u) =
1
-u2
e 2 ,- u
2
➢分布函数：
F(u) = P(U u) =
1
u - 2
e 2 d
2 -
u= x-
标准正态分布有以下特性:
➢ μ=0时，概率密度值最大； ➢ 概率密度曲线向左、向右无限延伸，以x轴为渐近线；左右对
称
➢ u =1和u =－1是概率分布曲线的两个拐点；
➢ 曲线与横坐标轴所夹的图形面积为1； ➢ 累积分布函数曲线从－∞到0平稳上升，围绕点(0,0.5)对称；
➢ 标准正态分布的偏斜度γ1和峭度γ2均为零。
以下一些特征值很重要：
-3 -2 -1
1 23
68.27%
95.45%
99.73%
P（-1≤u＜1）=0.6826 P（-2≤u＜2）=0.9545 P（-3≤u＜3）=0.9973
e-
(
x- )2 2 2
,-
x
,
0
2
➢ 分布（累积）函数：
x
F(x) = p(X x) = f (u)du =
1
e du x
-
(u- )2 2 2
-
2 -
正态分布密度曲线特点：
➢ 密度曲线以x=μ直线为对称；
➢ x=σ和x=-σ所确定的点为曲线的两个“拐点”；
➢ 曲线向左、向右无限延伸，以x轴为渐近线；
第三章几种常见的概率分布
离散型概率分布
• 二项分布（binomial distribution) • 泊松分布（poisson distribution) • 超几何分布（hypergeometric probability
distritution）
• 负二项分布（Negative binomial distribution）
以下一些特征值很重要：
-2.58 -1.96 -1.645 1.645 1.96 2.58
90% 95% 99% P（-1.96≤u＜1.96）=0.95 P (-2.58≤u＜2.58) =0.99
三、正态分布表的查法
➢ 对于标准正态分布，其累积分布函数值F（u）可直接查
表（书p315附表1）得到，其值等于标准正态曲线与横坐
0.3
0.2
0 10 0
0.1 0.08 0.06
25 50 75 100 n=100，p＝0.10
γ1＝0 γ2＝－0.02
0 0
0.05 0.04 0.03
100 200 300 400 500 n=500，p＝0.10
γ1＝0 γ2＝0
0.1
γ1＝0
0.04
γ2＝－0.20
0.02
0
0
0 2 4 6 8 10
3.1 二项分布 B(n, p)
贝努利试验（Bernoulli trial）：我们把只有两种可能观测值（每次试验只可能是两个对立
事件之一）的随机试验统称为贝努利试验。这种试验在实际中广泛存在，如观察某一实验动物的卵孵化与否、某一实验动物是雌性还是雄性、实验反应是阴性还是阳性等。 n次独立地贝努利试验称为n重贝努利试验，其试验结果的分布（一种结果出现x次的概率是多少的分布）即为二项分布。应用二项分布的重要条件是：每一种试验结果在每次试验中都有恒定的概率，各试验之间是重复独立的。
• 代入泊松分布公式
P( x = k ) = 0.5k e -0.5 k!
1ml水中细菌数
实际次数f
频率概率理论频数
0 243 0.6075 0.6065 242.60
1 120 0.3000 0.3033 121.32
2 31 0.0775 0.0758 30.32
3 6 0.0150 0.0144 5.76
x
[(1-
-1
p) ]p - p(n-x)
（当n→∞时，系数的极限为1，且nφ =μ）
x!
= x e-
x!
1
-1
e = lim (1 z) z，lim (1 - p) p = e
z0
p0
二、服从泊松分布的随机变量的特征数
➢ 平均数：μ=λ ➢ 方差： σ2 = λ
➢ 偏斜度： 1=
1
➢
峭度：
例：为监测饮用水的污染情况，现检验某社区每毫升饮用水中细菌数，共得400个记录如下：
1ml水中细菌数 0
1
2
3
次数f
243 120
31
6
合计 400
试分析饮用水中细菌数的分布是否服从泊松分布，计算每毫升水中细菌数的概率及理论次数并将頻率分布与泊松分布作直观比较。 • 解：经计算得每毫升水中平均细菌数为0.500 x ＝0.5，s2＝ 0.496，两者相接近，可认为服从泊松分布