四格表的确切概率法教学材料
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
序号( i) 0 1 2 3 4 5 6
阳性
6 0 5 1 4 2 3 3 2 4 1 5 0 6
阴性
6 10
7 9 8 8 9 7 10 6 11 5 12 4
P1 P2 0.5000 0.0000 0.4167 0.1000 0.3333 0.2000 0.2500 0.3000 0.1667 0.4000 0.0833 0.5000 0.0000 0.6000
变量2 阴性
a
b
c
d
m1
m2
合计
n1 n2 n(固定值)
由表7-11不难看出,
变量1的阳性率 n1 a b nn
变量2的阳性率 m1 a c nn
变量1的阳性率—变量2的阳性率abacbc
nn n
可见,两个变量阳性率的比较只和b、c有关,而与a d无关。
回到表7-10,两种培养基白喉杆菌生长状况一致
b18与 c2作 2检 验
H 0 : 两种培养基上白喉杆菌生长的阳性概率相等 H 1 : 两种培养基上白喉杆菌生长的阳性概率不相等
检验水准 0.05
若 H 成0 立, 白喉杆菌生长状况不一致的两个格 子理论频数都应该是 (bc)/ 2
由检验 基2 本公式(7-1)有
2
b
bc2 2
c
b
2
c2
异常
2 9 17 28
合计
65 51 34 150(固定值)
类似于例7-6,这里是配对设计,只是定性变量有
3种可能的“取值”;甲方法的测定结果 65,51,34
是一组频数分布;乙方法的测定结果 68,54是,28另 一组
频数分布。
需要检Байду номын сангаас的是
H 0 : 两种测定方法的检查结果的概率分布相同 H 1 : 两种测定方法的检查结果的概率分布不相同
甲培养基
阳性 阴性 合计
阳性
22 (a) 2 (c) 24
乙培养基 阴性 18 (b) 14 (d) 32
合计
40 16 56(固定值)
配对设计
对子号
甲
1
阳性
2
阳性
…
…
56
阴性
乙 阳性 阴性
… 阴性
两种培养基白喉杆菌生长情况实验结果
乙
甲
合计
阳性(+) 阴性(-)
阳性(+) 22(a) 18(b) 40 阴性(-) 2(c) 14(d) 16
以上检验称为 McNemar 检验。
我们将两个变量不一致的总例数(b+c)视为 固定值,在此条件下进行推断无需考虑两变 量一致的总例数a和d的大小。这类方法在统 计学中称为条件推断方法。当然,也有文献 报道对此类问题进行非条件推断的方法,这 时a和d的信息都能用上,但十分复杂,超出 了本书的范围。
2 0 .0 5 (1 ) 3 .8 4 ,1 1 .2 5 3 .8 4 ,P 0 .0 5 ,
按 0水.05准拒绝 ,H 0 差别有统计学意义, 可以认为,两种培养基上白喉杆菌生长的阳性概
率不相等。鉴于甲培养基阳性频率为 40/56==71.4%,乙培养基为24/56=42.9%,可 以认为,甲培养基阳性概率高于乙培养基。
检验水准 0.05
变量1
1 2 … R 合计
表7-13 配对设计下多分类资料的R×R列联表
变量2
1
2
…
R
合计
A11
A12
…
A1c
n1(固定值)
A21
A22
…
A2c
n2(固定值)
…
…
…
…
…
AR1
AR2
…
ARR
nR(固定值)
m1
m2
…
mR
n(固定值)
配对设计下多分类资料一般可表示为表7-13的形 式。表7-13是表7-11的推广,这里的定性变量1和 变量2都有R个可能的“取值”,R〉2。
这类问题的原始数据可以表示为表7-11所示的四格 表形式。表7-11和表7-3的区别仅在设计上,前面是 两个独立样本,行合计是事先固定的;而这里的“两 份样本”互不独立,样本量都是n,固定的,而行合计 与列合计却是事先不确定的。
变量1
阳性 阴性 合计
表7-11 两个变量阳性率比较的一般形式和符号
阳性
k i1 ni mi 2Aii
3 1 ( 6 5 - 6 8 ) 2 (5 1 5 4 )2
(3 4 2 8 )2
3 6 5 + 6 8 - 2 6 0 5 1 5 4 2 4 2 3 4 2 8 2 1 7
=1.60
2 0 .0 5 ,2 5 .9 9 ,1 .6 0 5 .9 9 ,P 0 .0 5 ,
合计
24
32
56
本例是以每份标本一分为二,分别同时接种于两种 培养基上,属于配对设计;两份样本实质上是一样的, 不是互相独立的,观察白喉杆菌生长与否,指标为二 分类的定性变量;目的是通过样本资料来推断两方法 的阳性概率有无差别。
观察结果甲培养基的阳性率等于40/56,乙培养基 的阳性率等于24/56,比较总体阳性概率不能用前面 第二节的办法,原因是前面的办法针对的是“两组独 立样本”,而现在我们遇到的实质上是一组样本,即 使分成了两份,也是“两份互不独立的样本”需要另 想方法。
33
41.67
乙批 36(33.2) 2(4.8)
38
合计
62
9
71
10.00 27.27
end
计算 P 值
• 表7-14中甲批食品阳性率P1=0.4167,乙批食品阳性 率P2=0.1000,两者之差| p1-p2 |=0.3167。在周边
合计数不变的条件下,可能还有其它组合的四格表, 其阳性率之差≥0.3167,所有这些比当前四格表更
k i1 ni mi 2Aii
(7-14)
其中k为类别数,ni和 m分i 别为第i行合计和第i列合计。 H 0成立时(7-14)式中统计量服从自由度为k-1的
2分布。
当k=2时,(7-14)式便回到(7-12)式,这说明
本节的方法McNema是r检验的推广。
例7-7,
Tk1 k (ni mi)2
• 2.当多个样本率(或构成比)比较的检验,结论 为拒绝检验假设,只能认为各总体率(或总体构 成比)之间不全相等,但不能认为彼此间都不相 等。若要比较彼此间的差别,可用行×列表的分 割法。
• 3.对于行×列表单向等级资料(单向有序资料) 组间的比较,宜用第八章秩和检验,如作卡方检 验法只说明各处理组的效应在构成比上有无差异, 而不能说明组间整体效应的差异。
故尚不能认为甲法测定结果的概率分布与乙法测 定结果的概率分布不同。
将上述方法用于多等位基因传递不平衡检验
搜集n对同胞,每一对中必须有一位是某疾病的患 者,另一位未患该疾病;变量1为该病患者在某位点 的等位基因类别,变量2为未患者在该点的等位基因 类别。要检验的是:同胞对中患病者与未患病者在 该位点上等位基因的概率分布是否相同。如果两个 概率分布不同,则该基因位点可能与该疾病有关。
极端的情况都应考虑进去,因为这些极端情况在H0
条件下都有可能发生。
end
❖ 表7-11中| p1-p2 |≥0.3167的四格表为序
号(0)、(1)、(5)、(6)的情形,按公式 求得序号(1)的概率为
12!10!6!16!
P(1)
0.1061
5!7!1!9!22!
end
表7-11 确切概率计算表(四格表周边合计数不变)
❖ 推断结论 按=0.05的水准,不拒绝H0,差异无
统计学意义。还不能认为两批食品卫生状况有差 别。
end
bc
bc
2
2
化简后不难得到, 2统计量的计算公式为
2 (bc)2 v1
bc
若 bc40公,需 式对 (7-14)校正公式为
(7-12)
2
(bc1)2
v1
bc
(7-13)
对于例7-6数据,因为 bc 按40式, (7-15)计算
2(1821 )222511.25, v1
182 20
由 临2 界值表,
假设检验基础
一、二分类情形--2×2列联表
2 (bc)2 v1
bc
一、二分类情形--2×2列联表
k1 k
T
(ni mi)2
k i1 ni mi 2Aii
第六节* 四格表的确切概率法
• 前已述及,四格表若有理论频数T小于1,或n<40时,
尤其是用其他检验方法所得概率接近检验水准时, 宜用四格表的确切概率法(exact probabilities in 2×2 table),即四格表概率的直接计算法。 • 本法的基本思想是:在四格表周边合计不变的情况 下,获得某个四格表的概率为 :
| P1- P2 | 0.5000 0.3167 0.1333 0.0500 0.2333 0.4167 0.6000
end
P(i) 0.0124 0.1061
0.0405 0.0028
❖余仿此,P(0)=0.0124, P(5)=0.0405, P(6)=0.0028, 因此所求概率为:
P =P(0)+P(1)+P(5)+P(6)=0.0124+0.1061 +0.0405+0.0028=0.1618
P (a b)(!cd)(!a c)(!bd)! a !b !c !d !n !
end
例7-14 抽查两批食品的卫生状况,作大肠杆菌检 查,检查结果见表6-10。问两批食品的卫生状况有 无差别?
• 表7-14 甲乙两批食品大肠杆菌检查结果
组 别 阳性数 阴性数 合计
阳性率 (%)
甲批 26(28.8) 7(4.2)
卫生统计学(第五版)
卫生统计学与数学学教研室
检验水准调整:
'
=k(k
1)/
2+1
例7-6 设有56份咽喉涂抹标本,把每一份标本一 分为二,依同样的条件分别接种于甲、乙两种白喉 杆菌培养基上,观察白喉杆菌的生长情况,结果如 表7-10,问两种培养基上白喉杆菌的生长概率有无 差别?
表7-10 两种培养基白喉杆菌生长情况
现在的问题是:
基于一份配对的多分类样本,我们得到了两组频
数分布, n 1 ,n 2 n R 和 要 m 1 了,m 解2它m R 们的总体概率分布是
否相同,即
H 0 : 两变量的概率分布相同 H 1 : 两变量的概率分布不相同
检验水准 0.05
我们采用的检验统计量为
Tk1 k (ni mi)2
第五节 检验要注意的问题
• 1. 理论数不宜太小,一般不宜有1/5以上格子的 理论频数小于5,或有一个理论频数小于1。对理 论数太小有三种处理方法:
• ①最好增加样本含量以增大理论频数;根本的方 法。
• ②删去理论频数太小的行和列;此法不好。 • ③将理论频数较小的行或列与邻行或邻列合并以
增大理论频数。但后两法可能会损失信息,
二、多分类的情形--R×R列联表
例7-7 对150名冠心病患者用两种方法检 查室壁收缩运动的情况,检测结果见表7-12。 试比较两种方法测定结果的概率分布有无差 别。
表7-12 两种方法检查室壁收缩运动情况
甲法测定结果
正常 减弱 异常 合计
正常
60 0 8 68
乙法测定结果 减弱 3 42 9 54
的两个格子频数分别为 a22与 d14
其中,a,d,为两法观察结果一致的两种情况,b,c为 两法观察结果不一致的两种情况。当两种处理方法 无差别时,对总体有B=C。由于在抽样研究中,抽样 误差是不可避免的,样本中的b和c往往不相等。为 此,需进行假设检验 。 该法一般用于样本含量不太大的资料。
这两个频数的大小显示不出两种培养基上白喉杆 菌生长状况的差别。比较两种培养基的阳性概率是 否有差别,需要考察白喉杆菌生长状况不一致的两 个格子,我们只对其中的频数