几种常见离散型变量的分布及其应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
=0.023257
按 α =0.05水准,拒绝H0,接受H1,即认为实施峡部 -峡部吻合术妇女的受孕率要高于壶腹部-壶腹部吻合 术。
例 6-5 已知某种非传染性疾病采用甲药治疗的 有效率为 0.60。今改乙药治疗该疾病患者 10 人,发 现 9 人有效。问甲、乙两种药物的疗效是否不同? 显然,这是双侧检验的问题。记乙药治疗该疾病 的有效率为π,其假设检验为 H0:π=0.60 H1:π 0.60 =0.05 本例 n=10,按π=0.60,实际样本阳性数 X =9 出现 的概率由公式(6-1)有
P x
1
n x
n x
x百度文库
二项分布的累计概率(cumulative probability)
两种累计方式: 最多有k例阳性概率
最少有k例阳性的概率
例6.2 已知某地玉米的黄曲霉污染率近年为 1 10! 10 20%。若抽取10 个样品作检查, 0.81010.2 0.376 P x 1 P x P0 P1 0.8 1! 10 1! 0 求(1)污染样品数不超过一个的概率。 10 (2)污染样品数在8个以上的概率。 P x 8 P x P8 P9 P10 解: 8
X k X k
X !(n X )!
对于双侧检验而言,由于要回答的是 “有无差别” ,即备择假设 H1:π π0 是否 成立,因此,所要计算的双侧检验概率 P 值 应为实际样本(记“阳性”次数为 k 次)出 现的概率与更背离无效假设的事件(记“阳 性”次数为 i 次,i k)出现的概率之和, 即
二、二项分布的应用
(一)总体率的区间估计 1. 查表法 2. 正态近似法
二、二项分布的应用
1. 查表法 对于n ≤50的小样本资料,直接查附 表6百分率的95%或99%可信区间表,即可得 到其总体率的可信区间。 例6-2 在对13名输卵管结扎的育龄妇女经壶腹 部-壶腹部吻合术后,观察其受孕情况,发现 有6人受孕,据此资料估计该吻合术妇女受孕 率的95%可信区间。
P P( X k ) P( X i )
i
,其中 i 满足
P( X i ) P( X k ) 。
例6-4 据报道,对输卵管结扎了的育龄妇女实 施壶腹部-壶腹部吻合术后,受孕率为0.55。 今对10名输卵管结扎了的育龄妇女实施峡部 -峡部吻合术,结果有9人受孕。问实施峡部峡部吻合术妇女的受孕率是否高于壶腹部壶腹部吻合术? 显然,这是单侧检验的问题,其假设检验为 H0:π=0.55 H1:π>0.55 =0.05
第六章 几种常见离散型 变量的分布和应用
Distribution and Application of Discrete Data
宁夏医科大学公共卫生学院 流行病与卫生统计学系 主讲人 李吴萍 教授
第一节 二项分布
一、二项分布条件与性质(二分类变量) 一)、Bernoulli试验 在医学科研中,很多情况可归纳为观察
5.394
查u界值表(t界值表中 v为 ∞的一行)得单 侧 P<0.005 。按 а=0.05水准,拒绝H0, 接受H1,即新的治疗方法比常规疗法的效 果好。
(三)两样本率的比较 两样本率的比较,目的在于对相应的两总体率 进行统计推断。 设两样本率分别为p1和p2,当n1与n2均较大, 且p1 、1-p1 及p2 、1-p2 均不太小,如n1p1 、 n1(1-p1)及n2p2 、n2(1-p2)均大于5时,可利 用样本率的分布近似正态分布,以及独立的 两个正态变量之差也服从正态分布的性质, 采用正态近似法对两总体率作统计推断。
P X C 1
X n X
n X
其中X=0,1,2…,n。 n,π 是二项分布的两个参数 。
对于任何二项分布,总有
二项式展开各项就是每种组合的概率
其一般表达式为:
由于各观察单位是独立的,则从该总体中随机抽取n例,
其中恰有x例是阳性的概率为二项式展开,
记作 ,称为二项分布的概率函数,即
二、二项分布的应用
n n 附表6只列出 X 的部分。当X 时,可先 2 2
按“阴性”数n-X查得总体阴性率的1-α可信
区间QL~QU,再用下面的公式转换成所需
的阳性率的 1-α可信区间。 PL=1-QU,
PU=1-QL
例6-2 在对13名输卵管结扎的育龄妇女经壶腹部-壶
腹部吻合术后,观察其受孕情况,发现有7人受孕,
P P( X 9) P( X 0) P( X 1) P( X 2) P( X 10)
=0.040311+0.000104858+0.001572864+0.010617 +0.006046618 =0.058652 0.05<P<0.10,按 =0.05 水准,不拒绝 H0,尚不 能认为甲、乙两种药物的疗效不同。
随机试验中某事件是否发生。如观察某药物
是否有效;观察某指标的化验结果是否为阳
性。这些试验的共同的特征是一次试验只有
两种独立的结果:事件发生或事件不发生,
这种试验称为Bernoulli试验(或成败试验)。
Bernoulli试验序列满足以下三个条件的 n
次试验构成的序列称为Bernoulli试验序列。
2.正态近似法 当n较大、p和1-p均不太小,如np和n(1-p)均 大于5时,利用样本率的分布近似正态分布的 原理,可作样本率p与已知总体率π0的比较。 检验统计量u值的计算公式为:
u
p 0
0 (1 0 ) n
例6-6 对某疾病采用常规治疗,其治愈率为45%。
现改用新的治疗方法,并随机抽取180名该疾病
患者进行了新疗法的治疗,治愈117人。问新治
疗方法是否比常规疗法的效果好?
本例是单侧检验,记新治疗方法的治愈率为π,而 π0=0.45。其假设检验为 H0:π=0.45 H1:π>0.45
α =0.05
本例n=180,p=117/180=0.65
u
0.65 0.45 0.45(1 0.45) 180
验中,下面两种情形的概率计算是不可少的。
(1)出现“阳性”的次数至多为k次的概 率为:
P(X k) P( X )
X 0
k
k
X 0
n! X (1 ) n X X !(n X )!
(2)出现“阳性”的次数至少为k次的概 率为 n n n! X n X P(X k) P( X ) (1 )
如np和n(1-p)均大于5时,可利用样本率p的
分布近似正态分布来估计总体率的可信区间。
的1 可信区间为: ( p u 2 S p , p u 2 S p ) 如: 的95%可信区间为 的99%可信区间为
( p 1.96S p , p 1.96S p )
( p 2.58S p , p 2.58S p )
0.00007373 0.0000041 0.0000001 0.00007793 10! P8 0.810 8 0.28 0.00007373 8! 10 8 ! 10! P9 0.810 9 0.29 0.00000410 9! 10 9 ! P10 0.210 0.0000001
例 在某镇按人口的1/20随机抽取329人, 作血清登革热血凝抑制扩抗体反应检验,得 阳性率为8.81%,求此阳性率的抽样误差 Sp 及总体阳性率的95%可信区间。 本例n=329,p=8.81%,则其抽样误差为:
则其总体率的95%可信区间为:
(二)样本率与总体率的比较 1.直接法 在诸如疗效评价中,利用二项分布 直接计算有关概率,对样本率与总体率的差 异进行有无统计学意义的比较。比较时,经 常遇到单侧检验,即“优”或“劣”的问题。 那么,在总体阳性率为π的n次独立重复试
二项分布图形由参数n和π决定, 当π=0.5时,分布是对称的,见图6-1
图 6-1.
=0.5 时,不同 n 值下的二项分布
2、二项分布的图形特征
当π≠0.5时,分布是偏态的,但随着n的增大, 分布趋于对称。当n ~ ∞时,只要π不太靠近0 或1,二项分布则接近正态分布, 见图6-2。
图6-2
染性疾病患者的治疗,可看作10次独
立的重复试验,其疗效分为有效与无
效,且每一名患者治疗有效的概率
(π=0.70)是恒定的。这样,10人中
发生有效的人数X~B(10,0.70)。
三) 二项分布的性质
1、二项分布的均数与方差
若X服从二项分布,它的概率 为π,样本例数为n,可简记为 X~B(N,)则: X的均数 n X的方差
X的标准差
若以率表示,
则样本率 p 的总体均数为
则样本率 p 的总体方差为
p
2
(1 )
n
(1 )
n
则样本率 p 的总体标准差为
p
样本率的标准差也称为率的标准误,可用来
描述样本率的抽样误差,率的标准误越小,
则率的抽样误差就越小。
在一般情形下,总体率π往往并不知道。此
据此资料估计该吻合术妇女受孕率的95%可信区间。
二、二项分布的应用
2. 正态近似法 根据数理统计学的中心极限定
理可得,当n较大、π不接近0或1时,二项分
N (n , n (1 ,而 )) 2 相应的样本率p的分布也近似 N ( , 正 p )
布B(n,π)近似正态分布
态分布。为此,当n较大、p和1-p均不太小,
进行实验观察。结果见下表 满足Bernoulli试验序列三个条件: 一、二分类资料; 二、因每次实验条件不变,每只动物的死亡概率 是相同的; 三、每只动物的生与死不影响其它动物。
互不相容事件 独立事件的 的加法定理 乘法定理
构成Bernoulli试验序列的n次实验中,事件 A出现的次数X的概率分布为:
时若用样本资料计算样本率p=X/n作为π的估
计值,则
的估计为: p
例6-3 在观测一种药物对某种非传染性疾病 的治疗效果时,用该药治疗了此种非传染性 疾病患者100人,发现55人有效,计算率的 抽样误差。
Sp
p(1 p) 0.55(1 0.55) 0.0497 n 100
2、二项分布的图形特征
二) 二项分布的适用条件
1. 每次试验只会发生两种对立的可能结果 之一,即分别发生两种结果的概率之和 恒等于1; 2. 每次试验产生某种结果(如“阳性”)的 概率π固定不变; 3. 重复试验是相互独立的,即任何一次试 验结果的出现不会影响其它试验结果出 现的概率。
在上面的例6-1中,对这10名非传
1)各观察单位只能是具有相互对立的一种结
果,如阳性或阴性,生存和死亡等。 2)已知发生某一结果(如阳性)的概率为, 其对立结果的概率为1- 。实际工作中要求 是从大量观察中获取的比较稳定的数值。 3)n个观察单位结果互相独立,即每个观察结 果不会影响到其它观察单位结果。
例 6-1 设小白鼠接受某种毒物一定剂量时,其 死亡率为80%,对于每只小白鼠来说,其死亡 概率为0.8,生存概率为0.2。现对3只小白鼠
对这10名实施峡部-峡部吻合术的妇女,按 0.55的受孕率,若出现至少9人受孕的概 率大于0.05,则不拒绝H0 ;否则,拒绝 H0,接受H1。 本例n=10,π=0.55,k=9。按公式(6-12)
P(X 9) P( X )
X 9 10 10 X 9
10! 0.55 X (1 0.55)10 X X !(10 X )!
10! P(X 9) 0.609 (1 0.60)109 0.040311 9!(10 9)!
比 实际样本更 背 离 无 效 假 设 的 事 件 , 即 满足 P( X i) 0.040311 的 i(i 9)分别有:0、1、2、10。 因此,所要计算的双侧检验概率 P 值为
检验统计量u的计算公式为:
p1 p 2 u S p1 p2
S p1 p2 X1 X 2 X1 X 2 1 1 (1 )( ) n1 n2 n1 n2 n1 n2