第4章 常见概率分布.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章常用概率分布
一、二项分布的概念和特征
概念
分布:随机变量的取值规律分布函数:描述分布的规律
变量类型
连续型变量
离散型变量如:正态分布
如:二项分布,泊松分布
思考
例1.假设有5只实验小白鼠,要求它们同种属、同性别、体重相近,且给小白鼠注射一定剂量的毒物时,他们有相同的死亡率80%,存活率为20%。
那么这5只小白鼠实验后全部死亡的概率是多少?有一只白小鼠存活的概率是多少?2只小白鼠存活的概率是多少?
例1.假设有5只实验小白鼠,要求它们同种属、同性别、体重相近, 且给小白鼠注射一定剂量的毒物时,他们有相同的死亡率80%, 存活率为20%。
那么这5只小白鼠实验后全部死亡的概率是多少? 有一只白小鼠存活的概率是多少?2只小白鼠存活的概率是多少? P 死
=0.8 P 活
=0.2 P 1
=0.8×0.8×0.8×0.8×0.8 P 2 = P 3 = 1 5
C 2 5
C 0.2×0.8 4 =0.082 0.2 2 ×0.8 3 =0.020 =0.8 5 =0.328
该实验有三个特点:
1.各次实验是彼此独立的;
2.每次实验只有二种可能的结果,或死亡或生存;
3.每次实验小白鼠死亡和生存的概率是固定的。
具备以上三点,即从阳性率为π的总体中随机抽取大小为n的样本, 则出现“阳性”数为X的概率分布即呈现二项分布,记作B(n,p。
概率分布函数
二项分布的概率函数P (X 可用公式
X n X X
n
C X P - - = 1 ( ( p p 其中 !
( ! ! X n X n C X
n - = 对于任何二项分布,总有 ( 1
= å = n
X X P
例2.临床上用针灸治疗某型头疼,有效的概率为60%,现以该疗法治疗3例,其中2例有效的概率是多大?
分析:治疗结果为有限和无效两类,每个患者是否有效不受其他病例的影响,有效概率均为0.6,符合二项分布的条件。
X n X X
n
C X P - - = 1 ( ( p p ( ( 432 . 0 6 . 0 - 1 6 . 0 !
2 -
3 ! 2 ! 3 1 ( 2 - 3 2 2 3 2 2
3 2 ( = = - - = p p C P 因此,2例有效的概率是0.432。
二项分布的特征
B (n,p
n = 3,π = 0.5 n = 10,π = 0.5
π = 0.3时,不同 n 值对应的二项分布
二项分布的特征
1. n,π是二项分布的两个参数,所以二项分布的形状取决于n,π。
2. 当π=0.5时分布对称,近似对称分布。
3. 当π ≠0.5时,分布呈偏态,特别是 n 较小时,π 偏离0.5越远,分布的对称性越差,但只要不接近1和0时,随着 n 的增大,分布逐渐逼近正态。
4. 当π 或1 π 不太小,而 n 足够大,通常nπ 和n(1 π 均大于或等于5,我们常用正态近似的原理来处理二项分布的问题。
例3.临床上用针灸治疗某型头痛,有效的概率为60%,现以该疗法治疗3例,求有效人数的均数和方差。
二项分布的均数和标准差
分析:n = 3,p =0.6
0 1 2 3
0.064 0.288 0.432 0.216 根据总体均数(又称数学期望和方差的定义,有效人数的均数为: ( 80 . 1 216 . 0 3 432 . 0 2 288 . 0 1 064 . 0 0 ( = ´ + ´ + ´ + ´ = å = X XP X E 方差为: [ ] [ ] 22 222 ((((
(0 1.800.064(1 1.800.288...(3 1.800.216 0.72
V a r X E X E X X E X P X =-=- =-´+-´++-´ = å
对于任何一个二项分布B(n,π,如果每次试验出现“阳性” 结果的概率均为π,则在n 次独立重复实验中,出现 X 次阳性结果
总体均数为标准差为
p
m n
=
(
p
p
s-
= 1
n
二项分布的均数和标准差
如果以率表示,将阳性结果的频率记做为则P 的总体均数
总体标准差为式中
是频率P 的标准误,反映阳性频率的抽样误差的大小。
p m = P (
n
P p p s - = 1 P s n
X P =
例4. 已知某地钩虫感染率为6.7%,如果随机抽查150人,记样本钩虫感染率为P ,求 P 的标准误。
本例 ,n =150,P =6.7%
% 0 . 2 020 . 0 150
067 . 0 1 ( 067 . 0 = = - = P s
小结:
1. 二项分布的条件:
1每次实验结果,只能是两个互斥的结果之一。
2相同的实验条件下,每次实验中事件A的发生具有相同的概率π。
3各次实验独立,各次的实验结果互不影响。
2. 二项分布的分布特征:
1二项分布的形状取决于n,π。
2当π =0.5时分布对称,近似对称分布。
3当π ≠0.5时,分布呈偏态,特别是 n 较小时,π 偏离0.5越远,分布的对称性越差,但只要不接近1和0时,随着 n 的增大,分布逐渐逼近正态。
3.二项分布的均数和标准差
对于任何一个二项分布B (n ,π
均数:
标准差: 对于以率表示的二项分布,
总体均数:
总体标准差小结:
p m n = (
p p s - = 1 n p m = P ( n
P p p s - = 1
第四章常用概率分布
二、二项分布的应用
1. 二项分布的条件:
1 每次实验结果,只能是两个互斥的结果之一。
2 相同的实验条件下,每次实验中事件A的发生具有相同的概率π。
3 各次实验独立,各次的实验结果互不影响。
2. 二项分布的分布特征:
1 二项分布的形状取决于n,π。
2 当π=0.5时分布对称,近似对称分布。
3 当π≠0.5时,分布呈偏态,特别是n 较小时,π偏离0.5越远,分布的对称性越差,但只要不接近1和0时,随着 n 的增大,分布逐渐逼近正态。
3. 二项分布的均数和标准差
对于任何一个二项分布B (n ,π
均数: 标准差: 对于以率表示的二项分布
总体均数: 总体标准差: n = m p (
1 n =- s p p P = m p
(
n
P p p s - = 1
在生物医学研究中,我们经常要处理这样一类问题:
(1每次试验只有两种互斥的结果。
如生化检验的结果(阴性或阳性,毒性试验的结果(存活或死亡,或者每次试验我们只关心某事件是否发生,即要么事件发生,要么事件不发生。
(2为了找到这些试验结果的规律性,通常需要在相同条件下独立重复作 n 次,如对 n个患者用完全相同的治疗方案进行治疗,对 n只动物进行剂量相同的毒性试验等。
(3我们只关心的是 n次试验中阳性结果的数目,如 n 个患者治疗后的治愈数,n 只动物毒性试验的存活数等等。
1.概率估计
例1.如果某地钩虫感染率为13%,随机观察当地150人,其中恰好有10人感染钩虫的概率有多大?
分析:
(1钩虫感染只有两个互斥的结果,即感染与非感染;
(2每个人被钩虫感染的概率相同;
(3人与人之间钩虫感染可假设为相互独立的,所以感染钩虫的人
数 X 可认为服从n= 150,π= 0.13的二项分布。
1.概率估计
例1.如果某地钩虫感染率为13%,随机观察当地150人,其中恰好有10人感染钩虫的概率有多大?
10140 150! (100.130.870.0055 10!(15010!
P X ==´= - X
n X X
n C X P - - = 1 ( ( p p
二项分布出现阳性次数至少为 k 次的概率为 2. 累计概率计算
( ( ( ( ! 1 !! n
n n X
X X k X k n P X k P X X n X - == ³==
- - åå p p 阳性次数至多为 k 次的概率为
( ( ( ( 00 ! 1 !! k
k n X
X X X n P X k P
X X n X - == £==- - åå p p
2.累计概率计算
例2.如果某地钩虫感染率为13%,随机观察当地150人,其中至多有2人感染钩虫的概率有多大?至少有2人感染钩虫的概率有多大?至少有20人感染钩虫的概率有多大? 至多有2名感染的概率为:
( ( ( ( 2
2 00 ! 21 !! n X
X X X n P X P
X X n X - == £==- - åå p p ( ( ( ( ( ( 150149 01 148 7 012 150!150!
0.1310.130.1310.13 0!150!1!149!
150! 0.13210.13 2!148!
P P P - ++ =
-+- +-
至少有2名感染的概率为:
至少有20名感染的概率为:
( ( ( ( ( 1
20 21 1011
n
X X P X P
X P X P P == ³==- =-+» éù ëû åå ( ( ( ( ( ( 19
200 201 10119 0.4879
n X X P X P X P X P P P == ³=
=- =-+++ éù ëû = åå L
3.其它应用
1. 二项分布的正态近似
根据中心极限定理,在 n 较大,nπ 与n (1π均大于或等于5时,二项分布接近与正态分布。
当 n 无穷大时,二项分布B (n ,π的极限分布是总体均数为
, 总体标准差为的正态分布 , 此时可用该正态分布进行估计。
n = m p ( 1 n =- s p p ( ( ,1 N n n - p p p
3. 其它应用
2. 总体率的区间估计
3. 样本率与总体率的比较
4. 两样本率的比较
5. 研究非遗传性疾病的家族聚集性
6. 率的抽样调查的样本量估计
……
4.小结
1. 二项分布的应用条件
1 每次实验结果,只能是两个互斥的结果之一。
2 相同的实验条件下,每次实验中事件A的发生具有相同的概率π。
3 各次实验独立。
各次的实验结果互不影响。
2.二项分布的正态近似条件
在 n较大,nπ 与n(1π 均大于或等于5时,可用的正态分布近似估计。
3.二项分布可以用于概率估计,统计推断等
( ( ,1
N n n-
p p p
第四章常用概率分布三、Poisson分布的概念与特征
一、Poisson分布的概念
Poisson分布是一种离散型分布,用于描述单位时间、空间、面积等的罕见事件发生次数的概率分布。
如:
n每毫升水中的大肠杆菌数、
n单位时间(如1分钟内放射性质点数、
n每1000个新生儿中某出生缺陷、多胞胎、染色体异常等事件出现的例数、
n ……
注意:
Poisson分布要求观察结果相互独立,发生的概率p不变。
如,人群中传染性疾病首例出现后便成为传染源,会增加后续病例出现的概率,因此病例数的分布不能看作是Poisson 分布;
又如,污染的牛奶中细菌成集落存在,单位容量牛奶中细菌数不能认为服从Poisson分布。
二、Poisson 分布的特征
Poisson 分布一般记作P (l ,其概率函数为:
式中,l =nπ为Poisson 分布的总体均数;
X 为观察单位内某稀有事件的发生次数; e 为自然对数的底,为常数,约等于
2.71828。
( !
X
P X e
X l
l
- =
例1 如某地20年间共出生短肢畸形儿10名,平均每年 0.5名。
试估计该地每年出生此类短肢畸形儿的人数为0, 1, 2,…的概率P (X。
X
0 1 2 3 4 5 0.607 0.303 0.076 0.013 0.002 0.000
(
P X 2
0.5
0.5
(20.076 2!
P e
- == 1
0.5
0.5
(10.303, 1!
P e
- == 0
0.5
0.5
(00.607, 0!
P e
- ==
随着l的增大,Poisson分布
逐渐趋于对称分布。
当l>20时,Poisson分布可视
为近似正态分布。
图1 l取不同值时的Poisson分布图
Poisson 分布具有以下特性: (1总体均数与总体方差相等:均为l 。
(2可加性:
从总体均数分别为l 1 和l 2 的两个Poisson 分布总体中各自随机抽出一份样本,其中稀有事件的发生次数分别为 X 1 和X 2 ,则合计发生数T =X 1 +X 2 也服从Poisson 分布,总体均数为l 1 +l 2。
水源
P (l 1 P (l 2 P (l 3
P (l 1 +l 2 +l 3 +l 4 +l 5
P (l 4 P (l 5
可加性可推广到多
个Poisson 分布。
正态近似
若随机变量X服从Poisson分布,Y=2X是否服从Poisson分布?
否!
n若服从Poisson分布的随机变量可能取值为0,1,2,…;但Y的可能取值为
0,2,4,…,与Poisson分布随机变量的可能取值不符。
n若X的总体均数和方差为μ,则Y的总体均数为2μ,总体方差为4μ, 总体均数≠总体方差。
三、Poisson 分布的应用
1、概率估计:
如果某地新生儿先天性心脏病的发病概率为8‰,那么该地120名新生儿中有4人患先天性心脏病的概率有多大?
( ( 4
1.96 1200.0080.96
!
0.96 40.014 4!
X
n P X e X P e l l p l - - ==´= ===
2、累积概率计算
如果稀有事件发生次数的总体均数为λ,那么该稀有事件
发生次数至多为k 次的概率为
00 (( ! X
k k X X P X k P X e X l l - == £== åå发生次数至少为k 次的概率为
(1(1
P X k P X k ³=-£-
6606162
22 00 6666 (3( !
0!1!2! = 0.062 X X X e e e e P X P X X ---- == <===++ åå 6061
66 (11(0(11 0!1!
0.983 e e P X P X P X -- >=-=-==-- = 例2某100cm 2 的培养皿中平均菌落数为6个。
今用100cm 2 的培养皿进行
培养,试估计每一个培养皿中菌落数小于3个的概率,大于1个的概率。
该培养皿菌落数小于3个的概率为
菌落数大于1个的概率为
例3 某放射性物质半小时内发出的脉冲数服从Poisson 分布,平均为 360个,试估计该放射性物质半小时内发出的脉冲数大于400个的概率。
4000.5360 (4001(4001(1(2.1350.0164 360
P X P X +- >=-£»-F =-F = 该放射性物质半小时内发出的脉冲数大于400个的概率为0.0164。
二项分布 Poisson 分布正态分布 n 很大π很小
l ≥20
n p ≥5,
且n (1p ≥5
第四章常用概率分布
四、正态分布的概念与特征
正态分布是自然界最常见的分布之一,例如测量的误差、人体许多生化指标的测量值等等都可认为近似正态分布。
此外,正态分布具有许多良好的性质,许多理论分布在一定条件下可用正态分布近似,一些重要的分布可由正态分布导出。
可以说正态分布是统计学中最重要的分布。
2
3 图1 频数分布逐渐接近正态分布示意图
1.228 1.234 1.240 1.246 1.252 1.258 1.264 1.270 1.276 1.282 1.288
图2 体模“骨密度”测量值的分布接近正态分布示意图(频率密度=频率/组距
正态分布的概率密度函数(即纵向的曲线高度( 2
1- - 2 1
, 2 X f X e X m s s p æö ç÷ èø -¥+ = ¥
< < 图3正态曲线位置、形状与μ和σ
关系示意图
正态分布的概率密度函数(即纵向的曲线高度
( 2
1- - 2 1
, 2 X f X e X m s s p æö ç÷ èø -¥+ = ¥
< < 图3正态曲线位置、形状与μ和σ关系示意图
正态分布的特征
1.关于
对称。
即正态分布以均数为中心,左右对称。
2. 在处取得概率密度函数的最大值,在
处有拐点,表现为钟形曲线。
即正态曲线在横轴上方均数处最高。
x m = x m = x m s =±
正态分布的特征
3. 正态分布有两个参数,即均数µ和标准差σ。
µ是位置参数, σ是变异度参数(形状参数。
常用N(µ,σ 2 表示均数为μ,标准差为σ的正态分布;用N(0,1表示标准正态分布。
4. 正态曲线下面积分布有一定规律。
横轴上正态曲线下的面积等于1(也常写作100%。