第六章 几种离散型变量的分布及其应
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P(X
k) P( X )
X 0
k
k
X 0
n! X (1 ) n X X !( n X )!
(2)出现“阳性”的次数至少为k次的概率为
P(X k) P( X )
X k
n
n
X k
n! X (1 ) n X X !(n X )!
0.5 0.4 0.3 0.2 0.1 0 0 1 n=2 2 3 阳性数X
0.4 0.3
P(X)
P(X)
0.2 0.1 0 0 1 2
n=5
3
4
阳性数X
5
0.3
0.3
0.2
P(X)
0.1
P(X)
0.2 0.1 0
0
0
1
2
3
4
n=8
5
6
7
8
0 1 2 3 4 5 6 7 8 9 10
n=10 阳性数X
10! 6 106 P(6) 0.70 (1 0.70) 0.20012 6! (10 6)!
10! 7 107 P(7) 0.70 (1 0.70) 0.26683 7! (10 7)!
10! 8 108 P(8) 0.70 (1 0.70) 0.23347 8! (10 8)!
(二)样本率与总体率的比较
1.直接法 在诸如疗效评价中,利用二项分布 直接计算有关概率,对样本率与总体率的差异 进行有无统计学意义的比较。比较时,经常遇 到单侧检验,即“优”或“劣”的问题。那么, 在总体阳性率为π的n次独立重复试验中,下 面两种情形的概率计算是不可少的。
(1)出现“阳性”的次数至多为k次的概率为:
P P( X 9) P( X 0) P( X 1) P( X 2) P( X 10)
=0.040311+0.000104858+0.001572864+0.010617 +0.006046618 =0.058652 0.05<P<0.10,按 =0.05 水准,不拒绝 H0,尚不 能认为甲、乙两种药物的疗效不同。
第六章
几种离散型变量的 分布及其应用
Distribution and Application of Discrete Data
Binomial
distribution Poissin distribution
随机变量有连续型和离散型之分,相应的 概率分布就可分为连续型分布和离散型分布。 有关连续型分布如正态分布、t分布和F分 布等在前面的章节中已作了介绍。 本章主要介绍在医学中较为常用的离散型 分布,即二项分布、Poisson分布。
i
,其中 i 满足
P( X i ) P( X k ) 。
例6-4 据报道,对输卵管结扎了的育龄妇女实施壶腹 部-壶腹部吻合术后,受孕率为0.55。今对10名输卵 管结扎了的育龄妇女实施峡部-峡部吻合术,结果有9 人受孕。问实施峡部-峡部吻合术妇女的受孕率是否 高于壶腹部-壶腹部吻合术? 显然,这是单侧检验的问题,其假设检验为 H0:π=0.55 H1:π>0.55
=0.05
对这 10名实施峡部 -峡部吻合术的妇女 , 按 0.55的受孕率,若出现至少9人受孕的概率大 于0.05,则不拒绝H0 ;否则,拒绝H0 ,接受 H 1。 本例n=10,π=0.55,k=9。按公式(6-12) 有:
P(X 9)
P( X )
X 9
10
10
X 9
Sp
p(1 p) / n
2.二项分布的图形 对于二项分布而言,当 π=0.5时,分布是对称的,见图6-1;
图 6-1.
=0.5 时,不同 n 值下的二项分布
当 0.5时,分布是偏态的,但随着n的增大, 分布趋于对称。当n 时,只要π不太靠近0 或1,二项分布则接近正态分布,见图6-2。
二项分布有两个参数:
总体率
样本含量
n
记作:X~B(n,π)
在n个独立的个体中出现X个阳性的概率可由下式求 出:
n! P( X ) X (1 )n X X !(n X )!
P( X )
X 0,1, 2, , n
实际 上就是二 项函数 (1 )n 展 开式中的 通项,式中 的
n
2
n (1 )
n (1 )
若以率表示,则样本率p的 总体均数为
p
p
2
总体方差为
总体标准差为
(1 )
n
(1 )
n
p
样本率的标准差也称为率的标准误,可用来描 述样本率的抽样误差,率的标准误越小,则率 的抽样误差就越小。 在一般情形下,总体率π往往并不知道。此时 若用样本资料计算样本率p=X/n作为π的估计 值,则 p 的估计为:
2. 正态近似法 根据数理统计学的中心极限定理可 得,当n较大、π不接近0也不接近1时,二项分布 B(n,π)近似正态分布 N (n , n (1 )) ,而相应的 N ( , p 2 ) 样本率p的分布也近似正态分布 。为此, 当n较大、p和1-p均不太小,如np和n(1-p)均大于 5时,可利用样本率p的分布近似正态分布来估计 总体率的可信区间。
对于双侧检验而言,由于要回答的是 “有无差别” ,即备择假设 H1:π π0 是否 成立,因此,所要计算的双侧检验概率 P 值 应为实际样本(记“阳性”次数为 k 次)出 现的概率与更背离无效假设的事件(记“阳 性”次数为 i 次,i k)出现的概率之和, 即
P P( X k ) P( X i )
1 的 可信区间为:
( p u 2 S p , p u 2S p )
如: 的95%可信区间为 ( p 1.96S p , p 1.96S p )
的99%可信区间为 ( p 2.58S p , p 2.58S p )
例6-3 在观测一种药物对某种非传染性疾病 的治疗效果时,用该药治疗了此种非传染性 疾病患者100人,发现55人有效,试据此估 计该药物治疗有效率的95%可信区间。
治疗10例可能的有效例数及其概率 X C10 有效人数x X (1 )n X
0 1 1 10 0.70 0.71 0.310 0.39
2 3 4 5 6 7 8 9 10
45 120 210 252 210 120 45 10 1
0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.710
10! 0.55 X (1 0.55)10 X X !(10 X )!
=0.023257
按=0.05水准,拒绝H0,接受H1,即认为实施 峡部-峡部吻合术妇女的受孕率要高于壶腹部壶腹部吻合术。
例 6-5 已知某种非传染性疾病采用甲药治疗的 有效率为 0.60。今改乙药治疗该疾病患者 10 人,发 现 9 人有效。问甲、乙两种药物的疗效是否不同? 显然,这是双侧检验的问题。记乙药治疗该疾病 的有效率为π,其假设检验为 H0:π=0.60 H1:π 0.60 =0.05 本例 n=10,按π=0.60,实际样本阳性数 X =9 出现 的概率由公式(6-1)有
n n! 称为二项系数。总有: P ( X ) 1 。 X ! ( n X )! x0
例6-1 某种药物治疗某种非传染性疾病的有效率 为0.70。今用该药治疗该疾病患者10人,试分 别计算这10人中有6人、7人、8人有效的概率。
本例n=10,π=0.70,X=6,7,8。 按公式(6-1)计算相应的概率为
在上面的例6-1中,对这10名非传染 性疾病患者的治疗,可看作10次独立的 重复试验,其疗效分为有效与无效,且 每一名患者治疗有效的概率(π=0.70) 是恒定的。这样,10人中发生有效的人 数X~B(10,0.70)。
(二) 二项分布的性质
1. 二项分布的均数与标准差 在n次独立重复 试验中,出现“阳性”次数X的 总体均数为 总体方差为 总体标准差为
在医学中类似如这种n重Bernoulli试验的情形 较为常见。
如用某种药物治疗某种疾病,其疗效分为有效 或无效; 在动物的致死性试验中,动物的死亡或生存;
接触某种病毒性疾病的传播媒介后,感染或非 感染等。
若从阳性率(死亡率、感染率等)为π的 总体中随机抽取大小为n的样本,则出现 阳性数为X的概率分布即呈二项分布,记 为X~B(n,π).
本例 n=100,p=55/100=0.55
Sp p(1 p) Sp n 0.55(1 0.55) 0.0497 100
0.55-1.96×0.0497=0.4526 0.55+1.96×0.0497=0.6474 即该药物治疗有效率的 95%可信区间为(45.26%, 64.74% ) 。
本例 n=13,X=6。查附表 6, 取 0.05 时,在 n=13 (横行)与X=6(纵列)的交叉处数值为19~75, 即该吻合术妇女受孕率的95%可信区间为(19%, 75%)。 附表6只列出X
n n X 2 的部分。当 2
时,可先按“阴 性”数n-X查得总体阴性率的 可信区间QL~QU, 1 1 再用下面的公式转换成所需的阳性率的 可信区 间。 PL=1-QU, PU=1-QL
P(X 9) 10! 0.609 (1 0.60)109 0.040311 9!(10 9)!
比 实 际 样 本 更 背 离 无 效 假 设 的 事 件 , 即 满足 P( X i) 0.040311 的 i(i 9)分别有:0、1、2、10。 因此,所要计算的双侧检验概率 P 值为
第一节
二项分布
二项分布
ຫໍສະໝຸດ Baidu
一个袋子里有5个乒乓球,其中2个黄球,3个白球, 我们进行摸球游戏,每次摸1球,然后放回再摸。先 后摸5次,摸到黄球的可能是0次,可能是1次、2次 等,也可能每次都摸到黄球。 问摸到黄球次数为0的概率有多大?为1的概率?为2 的概率?5次均为黄球的概率? 每一次摸到黄球的概率是0.4,摸到白球的概率是0.6, 如果5次里前x次摸到的是黄球,以后5-x次摸到的是 白球,相应的概率是0.4x0.65-x
阳性数X
图 6-2.
=0.4 时,不同 n 值下的二项分布图
二、二项分布的应用 (一)总体率的区间估计 1. 查表法 2. 正态近似法
1. 查表法 对于n 50的小样本资料,直接查 附表6百分率的95%或99%可信区间表,即可 得到其总体率的可信区间。
例6-2 在对13名输卵管结扎的育龄妇女经壶 腹部-壶腹部吻合术后,观察其受孕情况,发 现有6人受孕,据此资料估计该吻合术妇女受 孕率的95%可信区间。
一、二项分布的适用条件和性质
(一) 二项分布的适用条件 1. 每次试验只会发生两种对立的可能结果 之一,即分别发生两种结果的概率之和 恒等于1; 2. 每次试验产生某种结果(如“阳性”)的 概率π固定不变; 3. 重复试验是相互独立的,即任何一次试 验结果的出现不会影响其它试验结果出 现的概率。
0.38 0.37 0.36 0.35 0.34 0.33 0.32 0.31 0.30
P(X ) 1
P(X) 0.0000059 0.0001378 0.0014467 0.0090017 0.0367569 0.1029193 0.2001209 0.2668279 0.2334744 0.1210608 0.0282475
二项分布
二项分布的概念与特征 这个实验有三个特点:
一是各次摸球是彼此独立的; 二是每次摸球只有二种可能的结果,或黄球或白球; 三是每次摸到黄球(或摸到白球)的概率是固定的。
具备这三点, n次中有X次摸到黄球(或白球) 的概率分布就是二项分布。
二项分布(binomial distribution)是指在只 会产生两种可能结果如“阳性”或“阴性”之 一的n次独立重复试验(常常称为n重 Bernoulli试验)中,当每次试验的“阳性” 概率保持不变时,出现“阳性”的次数X=0, 1,2,…,n的一种概率分布。