6.几种离散型变量的分布及其应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
从阳性率为π 的总体中随机抽取n个个体,则 (1)最多有k例阳性的概率 P(x≤k)=P(0) + P(1) +……+ P(k) (2)最少有k例阳性的概率 P(x≥k)=P(k) + P(k+1) +……+ P(n) =1- P(x≤k-1) X=0,1,2,…,k,…,n
3.二项分布的图形B(n,π)
数为nπ次,这一结果较为符合人们的直观想法。如
果,生男孩这一事件的概率是1/2,则100个新生儿
中可期望有nπ =100×1/2=50个是男孩。
当用率表示时,µ=π
(二)二项分布的性质
二项分布的方差:
n (1 )
2
二项分布的标准差:
n (1 )
标准差表示x取值的离散度或变异的大小。
5 10
[n! 为的阶乘 ,n!= n*(n-1)……*2*1, 0!=1]
②牛顿二项展开式:
(a b) a 2ab b
2 2
2
(a b) a 3a b 3ab b
3 3 2 2
Biblioteka Baidu
3
(a b)
n
n
? ? ? ? .......... ...
0 n 0 n n n 1 1 n 1 n
事件
成功(A)——失败(非A)
这类“成功─失败型”试验称为Bernoulli试验。
Bernoulli试验序列 n次Bernoulli试验构成了Bernoulli试验序列。 其特点(如抛硬币):
(1)每次试验结果,只能是两个互斥的结果之一(A或非A)。 (2)每次试验的条件不变。即每次试验中,结果A发生的概率不变, 均为 π 。
第六章 几种离散型变量的 分布及其应用
第六章
离散型变量的分布及其应用
二项分布
Poisson分布 负二项分布(自学)
第一节
第二节 第三节
第一节 二项分布(贝努利分布) (Bernoulli distribution)
为纪念17世纪法国数学
家雅各布· 伯努利(Jacob
Bernoulli)(荷兰人)(1654~
值可以一一列举出来。 如:出生人数、死亡人数、有效人数
随机变量
概率分布
连续型
离散型
连续型分布 (u、t、F、χ2)
离散型分布(二项分布、poisson)
本讲的内容
二项分布
概念、性质、应用
泊松分布 概念、性质、应用
复习中学数学概念
①组合( Combination ) : 从个 n 元素中抽取 x 个元素 组成一组(不考虑其顺序)的组合方式个数记为
各种可能发生的结果对应的概率相当于展开后的各项数 值,即:
[ (1 )]n n n n 1 (1 ) n (1 )
n 1
n !/[ x !( n x )!]
n x
(1 )
x n
(1 )
前例:π =3 0.2,13 π = 0.8 2 ,n 1 = 3 [0.2 0.8] (0.2) 3(0.2) (0.8) 3(0.2)1(0.8)2 (0.8)3
B(n,π) →N(nπ, nπ(1-π)) 样本率 → N(π,π(1-π)/ n) → N(p, p(1-p)/ n) 总体率的CI: p±1.96.Sp
p±1.96.sp
p 1.96
p(1 p) / n
例:在某地随机抽取329人,做HBsAg检验,得阳性率为8.81%, 求阳性率95%置信区间。 已知:p=8.81%,n=329,故:
1705)而命名,1713年出版
《猜度术》,给出《伯努利数》、
《伯努利大数定律》。
随机变量(random variable):指取值不
能事先确定的观察结果,通常简称为变量。
连续型变量:在一定区间内变量取值为无限个,或数
值无法一一列举。 如:身高、体重、血清转氨酶测定结果
离散型变量:在一定区间内变量取值为有限个,或数
例:对13名输卵管结扎的育龄妇女经壶腹部-壶腹 部吻合术后,观察其受孕情况,发现有7人受孕, 请估计该吻合术妇女受孕率的95%可信区间。
未孕率的95%CI:
注意:X>n/2时应以n-X查表 此例:n=13, n- x=6 查表得95%CI为:19%~75%。
25%~81%
(二)正态近似法:
应用条件:当n较大、 np及n(1−p)均≥5
抓中三个黑球的概率: P(3)=0.5×0.5×0.5=0.12 5
抓中两黑一白的概率: P(2)=3×0.125=0.375
定理:在几个互不相容的事件 中,任一事件发生的概率等于 这几个事件的概率之和。
表 3-4 3 只小白鼠各种试验结果及其发生概率(π =0.2,n=3) 白鼠存亡组合方式 排列方式 每种组合的概率 每种排列的概率 生存数 死亡数 P( X ) Cnx X (1 ) n X 甲 乙 丙 (X) (n-X) 3 0 0.008 生 生 生 0.2×0.2×0.2=0.008 生 生 死 0.2×0.2×0.8=0.032 2 1 0.096 生 死 生 0.2×0.8×0.2=0.032 死 生 生 0.2×0.8×0.2=0.032 生 死 死 0.8×0.2×0.8=0.128 1 2 0384 死 生 死 0.8×0.2×0.8=0.128 死 死 生 0.8×0.8×0.2=0.128 0 3 0.512 死 死 死 0.8×0.8×0.8=0.512
s p p(1 p) / n 0.0881(1 0.0881) / 329 0.0156 1.56%
95%CI:8.81±1.96×1.56;即5.75%~11.87%。
(二) 样本率和总体率的比较 (1)直接计算概率法(当π偏离0.5较远时) 例1 某医院用甲药治疗某病 ,其治愈率为 70% ,今用乙药治疗该病 10 人,治愈 9 人,问乙药疗 效是否优于甲药? 已知: π =0.7,1- π =0.3,假设两药疗效无 差别,则治愈与非治愈的概率应符合二项分布,即:
( a b) C a b C a b C a b C a b
n k 0 n 1 n 1 1 n k n k n 0
C a b
2 n
2 n 2
...
C ab
n k
Bernoulli试验 毒性试验:白鼠 临床试验:病人 临床化验:血清 死亡——生存 治愈——未愈 阳性——阴性
图D n=30,π =0.3
二项分布总体不同样本例数时的抽样分布
二、二项分布的应用
(一)总体率的区间估计 (二)样本率与总体率的比较 (三)两样本率的比较 (四)研究非遗传性疾病的家族集聚性
(一)总体率的估计
有点值估计和区间估计。 ( 一) 查表法:当 n较小,如n≤50时,特别是p 很接近于 0 或 1 时,可由P 817附表 6百分率的可信区间表直接查出。 例:某地调查 50 名儿童蛔虫感染情况,发现有 10 人大便中有蛔虫卵,问儿童蛔虫感染率的 95% 可信 区间是多少? 此例:n=50,x=10 查表得95%CI为:10%~34%。
sp
p(1 p) n
二项分布的均数和标准差用绝对数表示:
x n x n 1 二项分布的均数和标准差用相对数表示:
p p
sp
1
n p 1 p n
(二)二项分布的性质
2.二项分布的累计概率 常用的有左侧累计和右侧累计2种方法。
二项分布(binomial distribution) :指在只会产生
两种可能结果如“阳性”或“阴性”之一的n次独立
重复试验(Bernoulli试验)中,当每次试验的“阳性”
概率保持不变时,出现阳性的次数X=0,1,2,…,n
的一种概率分布。
X~B(n,π)
定理:几个相互独立事件 同时发生的概率等于各独 立事件的概率之积。
P( X ) 1
x 0
n
n次Bernoulli试验中出现X次阳性的概率:
P( x) C (1 )
x n x
n x
n! x n x (1 ) x !(n x)!
X=0,1,2,…,n
二项分布的概率公式
如果一个事件 A ,在 n 次独立试验中,每次试验都具 有概率π ,那么,这一事件A将在n次试验中出现x次 的概率为:
0.4
0.4
P(X)
P(X)
0.3
0.3 0.2 0.1
0.2
0.1
0
0 0 1
0
1
2
3
4
5 X
图A n=5,π =0.5
2
3
4
5 X
图B n=5, π =0.3
P(X)
0.4
P(X)
0.2
0.3 0.2 0.1 0 0 1
0.1
0
图C n=5,π =0.7
2
3
4
5 X
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 X
n n! C x x !(n x)!
x n
3 3! 3 2 1 C 3 2 2!(3 2)! 2 11
2 3
10 10! 10 9 8 7 6 5! C 252 5 5!(10 5)! 5! (5 4 3 2 1)
二项分布的图形,取决于两个方面,其一为事
件发生的概率π ,其二为样本含量n。
当π =1- π =1/2时,二项分布的图形是对称的;
当π <1/2时,二项分布的图形呈正偏态;
当π >1/2时,二项分布的图形呈负偏态;
当π与1- π不变时,即使π ≠1- π ,但随着n的增大,二
项分布的的偏态程度会逐渐降低而趋于对称。
[ (1 )]n [0.7 0.3]10
[0.7 0.3]10
0 1 2 3 C10 (0.7)0 (0.3)10 C10 (0.7)1 (0.3)9 C10 (0.7)2 (0.3)8 C10 (0.7) 3 (0.3) 7 4 5 6 7 C10 (0.7)4 (0.3)6 C10 (0.7)5 (0.3)5 C10 (0.7)6 (0.3)4 C10 (0.7)7 (0.3) 3 8 9 10 C10 (0.7)8 (0.3)2 C10 (0.7)9 (0.3)1 C10 (0.7)10 (0.3)0
P( x) C (1 )
x n x
n x
,( x 1, 2, 3......n)
n! C 式中: x !( n x )!
x n
称二项系数。
一、二项分布的适用条件和性质
(一)二项分布的适用条件:
即分别发生两种结果的概率之和恒等于1。
1. 各观察单位只能具有互相对立的一种结果,属于二项分类资料;
如n=5,π=5/6,1-π=1-5/6,则:
n (1 ) 5 5 6 1 6 0.8333
(二)二项分布的性质
二项分布的标准误 若以比值或百分数表示,则标准误为 :
p (1 )
n
σp被称为率的标准误(standard error of rate),用来反映随机抽样获得的样本率p与总体π之 间的抽样误差大小。 实际工作中常用p作为π 的估计值,得:
0.000006 0.000138 0.001447 0.009002 0.036757 0.102919 0.200121 0.266828 0.233474 0.121061 0.028248
(3)各次试验独立。即一次试验出现什么样的结果与前面已出现的
结果无关。
二项分布的概念
在生命科学研究中,经常会遇到一些事物,其结果可分 为两个彼此对立的类型,如一个病人的死亡与存活;动物的雌与 雄;微生物培养的阳性与阴性;某种药物治疗某种非传染性疾病 的疗效分为有效与无效等,这些都可以根据某种性状的出现与否 而分为非此即彼的对立事件。这种非此即彼事件构成的总体,就 称为二项总体(binomial population)。
2. 已知发生某一结果的概率为 π,其对立结果的概率则为1-π 。
实际工作中要求π是从大量观察中获得的比较稳定的数值;
3. n个观察单位的观察结果互相独立,即每个观察单位的观察结
果不会影响到其它观察单位的结果。
(二)二项分布的性质
1.二项分布的均数和标准差 二项分布的平均数:μ=nπ
意义:做n次独立试验,某事件平均出现的次
3.二项分布的图形B(n,π)
数为nπ次,这一结果较为符合人们的直观想法。如
果,生男孩这一事件的概率是1/2,则100个新生儿
中可期望有nπ =100×1/2=50个是男孩。
当用率表示时,µ=π
(二)二项分布的性质
二项分布的方差:
n (1 )
2
二项分布的标准差:
n (1 )
标准差表示x取值的离散度或变异的大小。
5 10
[n! 为的阶乘 ,n!= n*(n-1)……*2*1, 0!=1]
②牛顿二项展开式:
(a b) a 2ab b
2 2
2
(a b) a 3a b 3ab b
3 3 2 2
Biblioteka Baidu
3
(a b)
n
n
? ? ? ? .......... ...
0 n 0 n n n 1 1 n 1 n
事件
成功(A)——失败(非A)
这类“成功─失败型”试验称为Bernoulli试验。
Bernoulli试验序列 n次Bernoulli试验构成了Bernoulli试验序列。 其特点(如抛硬币):
(1)每次试验结果,只能是两个互斥的结果之一(A或非A)。 (2)每次试验的条件不变。即每次试验中,结果A发生的概率不变, 均为 π 。
第六章 几种离散型变量的 分布及其应用
第六章
离散型变量的分布及其应用
二项分布
Poisson分布 负二项分布(自学)
第一节
第二节 第三节
第一节 二项分布(贝努利分布) (Bernoulli distribution)
为纪念17世纪法国数学
家雅各布· 伯努利(Jacob
Bernoulli)(荷兰人)(1654~
值可以一一列举出来。 如:出生人数、死亡人数、有效人数
随机变量
概率分布
连续型
离散型
连续型分布 (u、t、F、χ2)
离散型分布(二项分布、poisson)
本讲的内容
二项分布
概念、性质、应用
泊松分布 概念、性质、应用
复习中学数学概念
①组合( Combination ) : 从个 n 元素中抽取 x 个元素 组成一组(不考虑其顺序)的组合方式个数记为
各种可能发生的结果对应的概率相当于展开后的各项数 值,即:
[ (1 )]n n n n 1 (1 ) n (1 )
n 1
n !/[ x !( n x )!]
n x
(1 )
x n
(1 )
前例:π =3 0.2,13 π = 0.8 2 ,n 1 = 3 [0.2 0.8] (0.2) 3(0.2) (0.8) 3(0.2)1(0.8)2 (0.8)3
B(n,π) →N(nπ, nπ(1-π)) 样本率 → N(π,π(1-π)/ n) → N(p, p(1-p)/ n) 总体率的CI: p±1.96.Sp
p±1.96.sp
p 1.96
p(1 p) / n
例:在某地随机抽取329人,做HBsAg检验,得阳性率为8.81%, 求阳性率95%置信区间。 已知:p=8.81%,n=329,故:
1705)而命名,1713年出版
《猜度术》,给出《伯努利数》、
《伯努利大数定律》。
随机变量(random variable):指取值不
能事先确定的观察结果,通常简称为变量。
连续型变量:在一定区间内变量取值为无限个,或数
值无法一一列举。 如:身高、体重、血清转氨酶测定结果
离散型变量:在一定区间内变量取值为有限个,或数
例:对13名输卵管结扎的育龄妇女经壶腹部-壶腹 部吻合术后,观察其受孕情况,发现有7人受孕, 请估计该吻合术妇女受孕率的95%可信区间。
未孕率的95%CI:
注意:X>n/2时应以n-X查表 此例:n=13, n- x=6 查表得95%CI为:19%~75%。
25%~81%
(二)正态近似法:
应用条件:当n较大、 np及n(1−p)均≥5
抓中三个黑球的概率: P(3)=0.5×0.5×0.5=0.12 5
抓中两黑一白的概率: P(2)=3×0.125=0.375
定理:在几个互不相容的事件 中,任一事件发生的概率等于 这几个事件的概率之和。
表 3-4 3 只小白鼠各种试验结果及其发生概率(π =0.2,n=3) 白鼠存亡组合方式 排列方式 每种组合的概率 每种排列的概率 生存数 死亡数 P( X ) Cnx X (1 ) n X 甲 乙 丙 (X) (n-X) 3 0 0.008 生 生 生 0.2×0.2×0.2=0.008 生 生 死 0.2×0.2×0.8=0.032 2 1 0.096 生 死 生 0.2×0.8×0.2=0.032 死 生 生 0.2×0.8×0.2=0.032 生 死 死 0.8×0.2×0.8=0.128 1 2 0384 死 生 死 0.8×0.2×0.8=0.128 死 死 生 0.8×0.8×0.2=0.128 0 3 0.512 死 死 死 0.8×0.8×0.8=0.512
s p p(1 p) / n 0.0881(1 0.0881) / 329 0.0156 1.56%
95%CI:8.81±1.96×1.56;即5.75%~11.87%。
(二) 样本率和总体率的比较 (1)直接计算概率法(当π偏离0.5较远时) 例1 某医院用甲药治疗某病 ,其治愈率为 70% ,今用乙药治疗该病 10 人,治愈 9 人,问乙药疗 效是否优于甲药? 已知: π =0.7,1- π =0.3,假设两药疗效无 差别,则治愈与非治愈的概率应符合二项分布,即:
( a b) C a b C a b C a b C a b
n k 0 n 1 n 1 1 n k n k n 0
C a b
2 n
2 n 2
...
C ab
n k
Bernoulli试验 毒性试验:白鼠 临床试验:病人 临床化验:血清 死亡——生存 治愈——未愈 阳性——阴性
图D n=30,π =0.3
二项分布总体不同样本例数时的抽样分布
二、二项分布的应用
(一)总体率的区间估计 (二)样本率与总体率的比较 (三)两样本率的比较 (四)研究非遗传性疾病的家族集聚性
(一)总体率的估计
有点值估计和区间估计。 ( 一) 查表法:当 n较小,如n≤50时,特别是p 很接近于 0 或 1 时,可由P 817附表 6百分率的可信区间表直接查出。 例:某地调查 50 名儿童蛔虫感染情况,发现有 10 人大便中有蛔虫卵,问儿童蛔虫感染率的 95% 可信 区间是多少? 此例:n=50,x=10 查表得95%CI为:10%~34%。
sp
p(1 p) n
二项分布的均数和标准差用绝对数表示:
x n x n 1 二项分布的均数和标准差用相对数表示:
p p
sp
1
n p 1 p n
(二)二项分布的性质
2.二项分布的累计概率 常用的有左侧累计和右侧累计2种方法。
二项分布(binomial distribution) :指在只会产生
两种可能结果如“阳性”或“阴性”之一的n次独立
重复试验(Bernoulli试验)中,当每次试验的“阳性”
概率保持不变时,出现阳性的次数X=0,1,2,…,n
的一种概率分布。
X~B(n,π)
定理:几个相互独立事件 同时发生的概率等于各独 立事件的概率之积。
P( X ) 1
x 0
n
n次Bernoulli试验中出现X次阳性的概率:
P( x) C (1 )
x n x
n x
n! x n x (1 ) x !(n x)!
X=0,1,2,…,n
二项分布的概率公式
如果一个事件 A ,在 n 次独立试验中,每次试验都具 有概率π ,那么,这一事件A将在n次试验中出现x次 的概率为:
0.4
0.4
P(X)
P(X)
0.3
0.3 0.2 0.1
0.2
0.1
0
0 0 1
0
1
2
3
4
5 X
图A n=5,π =0.5
2
3
4
5 X
图B n=5, π =0.3
P(X)
0.4
P(X)
0.2
0.3 0.2 0.1 0 0 1
0.1
0
图C n=5,π =0.7
2
3
4
5 X
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 X
n n! C x x !(n x)!
x n
3 3! 3 2 1 C 3 2 2!(3 2)! 2 11
2 3
10 10! 10 9 8 7 6 5! C 252 5 5!(10 5)! 5! (5 4 3 2 1)
二项分布的图形,取决于两个方面,其一为事
件发生的概率π ,其二为样本含量n。
当π =1- π =1/2时,二项分布的图形是对称的;
当π <1/2时,二项分布的图形呈正偏态;
当π >1/2时,二项分布的图形呈负偏态;
当π与1- π不变时,即使π ≠1- π ,但随着n的增大,二
项分布的的偏态程度会逐渐降低而趋于对称。
[ (1 )]n [0.7 0.3]10
[0.7 0.3]10
0 1 2 3 C10 (0.7)0 (0.3)10 C10 (0.7)1 (0.3)9 C10 (0.7)2 (0.3)8 C10 (0.7) 3 (0.3) 7 4 5 6 7 C10 (0.7)4 (0.3)6 C10 (0.7)5 (0.3)5 C10 (0.7)6 (0.3)4 C10 (0.7)7 (0.3) 3 8 9 10 C10 (0.7)8 (0.3)2 C10 (0.7)9 (0.3)1 C10 (0.7)10 (0.3)0
P( x) C (1 )
x n x
n x
,( x 1, 2, 3......n)
n! C 式中: x !( n x )!
x n
称二项系数。
一、二项分布的适用条件和性质
(一)二项分布的适用条件:
即分别发生两种结果的概率之和恒等于1。
1. 各观察单位只能具有互相对立的一种结果,属于二项分类资料;
如n=5,π=5/6,1-π=1-5/6,则:
n (1 ) 5 5 6 1 6 0.8333
(二)二项分布的性质
二项分布的标准误 若以比值或百分数表示,则标准误为 :
p (1 )
n
σp被称为率的标准误(standard error of rate),用来反映随机抽样获得的样本率p与总体π之 间的抽样误差大小。 实际工作中常用p作为π 的估计值,得:
0.000006 0.000138 0.001447 0.009002 0.036757 0.102919 0.200121 0.266828 0.233474 0.121061 0.028248
(3)各次试验独立。即一次试验出现什么样的结果与前面已出现的
结果无关。
二项分布的概念
在生命科学研究中,经常会遇到一些事物,其结果可分 为两个彼此对立的类型,如一个病人的死亡与存活;动物的雌与 雄;微生物培养的阳性与阴性;某种药物治疗某种非传染性疾病 的疗效分为有效与无效等,这些都可以根据某种性状的出现与否 而分为非此即彼的对立事件。这种非此即彼事件构成的总体,就 称为二项总体(binomial population)。
2. 已知发生某一结果的概率为 π,其对立结果的概率则为1-π 。
实际工作中要求π是从大量观察中获得的比较稳定的数值;
3. n个观察单位的观察结果互相独立,即每个观察单位的观察结
果不会影响到其它观察单位的结果。
(二)二项分布的性质
1.二项分布的均数和标准差 二项分布的平均数:μ=nπ
意义:做n次独立试验,某事件平均出现的次