15-2配对四格表资料差别检验的精确概率方法_刘玉秀
递进法讲解四格表fisher确切概率法
CN
。
第一步 : 以假设检验的过程为 出发点 。 首先帮助学生复习假设检验 的过程 , 重强调假设检验 都 着 是在 H 成 立的条件 下 , 0 根据研究 的 目的 、 究设 计 的类 型和资 研 料 的特点等选择合适 的统计量 ,比如 t 统计量 统计 量等 , 然 后通过 统计 量与相应 的界值做 比较 , 出 P值 的范 围 , 得 最后 与 检验水准 做比较 , 得出统计学结论和专业 结论。 在这里 , 我们 强调 P值范 围是基于某一统计量 的分布来 确定的。
本” 出现概率还要小 的所有情况出现的概率之和 。
第 三步 : 举一个经典 的例子说 明超 几何分布 的含义及其概 率 的计算方法1 2 1 。
在数理统计学教学中常用的经典例子 : —批产品共 J件 , 7 其 v
本思想 , 进行对 P值含 义 的充 分理解 , 然后 基于超几 何分布 的 思想 , 解析 “ 四格 表周边合计 不变 ” 的本 质 , 出所有 可能 的组 得 合, 进而求解 当前组合发生 的概率和“ 不利于 风” 的更极 端组 合
并进一步体会假设检验的基本过程和 P值 的含 义。结果证 明, 应用该 法基本 可达到教 学要 求 , 可供 同行借鉴。
关键词 : 卫生统计学 ; 四格表 fh r i e 确切概率法 ; s 递进 法 ; 教学
中 图分 类号 : 4 4 G 2 文 献 标识 码 : B 文 章 编 号 :6 1 14 (0 9)0 0 6 - 2 17 — 2 6 2 0 2 -0 5- - 0
3 4 写 的 方 面 .
地择取 。 我们 中等卫生职业学校 自编的语 文教材就专门设计 了
一
四格表资料分析 卡方检验 以及Poisson资料分析
四格表资料分析卡方检验以及Poisson资料分析内容1四个表和卡方检验原理2成组设计两样本率比较的卡方检验3确切概率法4配对设计两样本率比较的卡方检验5Poisson资料分析概述卡方检验是以卡方分布为基础的一种常用假设检验方法,主要用于分类变量,它基本的无效假设是(不包括配对资料):卡方检验在H 0为真时,实际观察数与理论数之差A i -T i 应该比较接近0。
所以在H 0为真时,检验统计量2()kA T -方法原理表6.2 使用含氟牙膏与一般牙膏儿童的龋患率牙膏类型患龋齿人数未患龋齿人数调查人数龋患率(%)方法原理理论频数▪基于H 0成立,两样本所在总体无差别的前提下n n方法原理•从卡方的计算公式可见,当观察频数与期望频数完全一致时,卡方值为0;方法原理卡方分布▪显然,卡方值的大小不仅与A、E之差有关,还操作步骤1. 建立检验假设和确定检验水准▪H:使用含氟牙膏和一般牙膏儿童龋患率相等操作步骤4. 确定P值和作出推断结论▪查附表8,χ2界值表,得p>0.05。
按α= 0.05卡方检验假设的等价性两组儿童的龋齿率相同▪两组发生率的比较四格表χ2值的校正英国统计学家Yates认为,χ2分布是一种连续型分布,而四格表资料是分类资料,属离散型分布,由此计算的χ2值的抽样分布也应当是不连续的,分析实例注意:确切概率法不属于χ2检验的范畴,但常作为χ2检验应用上的补充。
分析实例1.建立检验假设和确立检验水准▪H0:新药组与对照组疗效相等,即π1 = π2方法原理在四格表周边合计不变的条件下,在相应的总体中进行抽样,四格表中出现各种排列组合情况的概率方法原理表6.10 在四格表(表6.9)周边合计不变的条件下,π1=π2时的概率分布计算d 0 1 2 3 4 5 6* 7 8一点补充确切概率法可以考虑单边检验对于较大的行乘列表,确切概率法的计算量将变方法原理例6.9 用A、B两种方法检查已确诊的乳腺癌患者140名,A法检出91名(65%),B法检出77名(55%),A、B两法一致的检出56名(40%),问哪种方法阳性方法原理•显然,本例对同一个个体有两次不同的测量,从设计的角度上讲可以被理解为自身配对设计方法原理注意▪考虑该例四格表中两处理阳性检出率是否相同方法原理根据H0得b、c两格的理论数均为T b = T c = (b+c)/2,对注意事项McNemar检验(配对卡方检验)只会利用非主对角线单元格上的信息,即它只关心两者不一致的评价情况,用于比较两个评价者间存在怎样的倾向。
四格表资料的Fisher确切概率法资料讲解
9
二、两样本率比较
目的:推断两个样本各自代表的两总体率是否相等 应用条件:当两个样本率均满足正态近似条件时,
可用u检验。
up1p2 sp1p2
p1p2
pc(1pc)(n11
1) n2
pc
x1 n1
x2 n2
10
两样本率比较
例5 为研究高血压病的遗传度, 某医师进行了高血 压子代患病率调查。其中父母双亲有一方患高血压 者调查了205人,其中高血压患者101人;父母双亲 均患高血压者调查了153人,其中高血压患者112人。 问双亲中只有一方患高血压与双亲均患高血压的子 代中,高血压患病率是否相同? 本例 p1=101/205=0.49268
H0(=0=50) 成立时,1小时内该装置发出的质点数的概率分布 19
样本阳性数与总体平均数的比较----直接计算概率法
例10 某省肺癌死亡率为35.2/10万,在该省某 地抽查10万人,进行三年死亡回顾调查,得肺 癌死亡数为82人。已知该地人口年龄别构成与 全省基本相同。问该地肺癌死亡率与全省有无 差别?
本例π0=0.80,1-π0=0.20,n=10, 根据题意需求最少治愈9人的概率。
5
样本率与总体率的比较----直接计算概率法
例2 据以往经验,新生儿染色体异常率一般为1%, 某医生观察了当地400名新生儿,发现有1例染色体 异常,问该地新生儿染色体异常率是否低于一般?
H0成立时, 400名新生儿中染色体异常例数的概率分布
p1=70/100=0.70 p2=60/120=0.50 pc =(70+60)/(100+120)=0.5909
12
四格表资料的确切概率法
愈合
未愈合
64(57.84) 21(27.16)
51(57.16) 33(26.84)
115
54
合计 85 84
169
愈 合 率 (%) 75.29 60.71 68.05
表 反应变量按二项分类的两个独立样本资料
反应结果
阳性
阴性
观察 总频数
阳性 频率
样本 1
A11
A12
n1 ( 给 定 ) P1 A11 n1
理论频数
f1 F1 2 ( f2 F2 )2 ... ( fk Fk )2
F1
F2
Fk
k 1 (计算理论分布时利用
自由度 样本资料估计的参数个数)
(3) 确定概率 P 并作出统计推论。
注意:理论频数F不宜过小,如不小于5,否则需要合并
例 6-1 某 医 学 院 校 医 生 随 机 抽 取 100 名 一 年 级
0
f
( 2)
1
2( / 2)
2
2
( / 21) e 2 / 2
自由度=1 自由度=2 自由度=3 自由度=6 P=0.05的临界值
3 3.84 6 7.81 9
1122.59 15
18卡方值Fra bibliotek性质:若 2 (1 ), 2 (2 )互相独立,
则
2 (1 ) 2 (2 ) 服从 2分布, 自由度 1 2 2 (1 ) 2 (2 )服从 2分布, 自由度 1 2
第二节 拟合优度检验
类别或组段 观察频数
理论频数
1
f1
F1
2
f2
F2
…
…
…
k
fk
Fk
四格表资料精确检验法的计算程序
参 考 文 献
表 l 新 IN种药物治疗某种疾病结果 比较[ B ]
1 上海第 一医学 院卫生统计教研室 .医学统计方法 . 1版 .上海 : 第
上海 科 学技 术 出版 社 ,9 9 1 5 1 6 17 :2 ~ 2 .
2 宇传华 , 徐勇勇 .四格表精 确检验双 侧概率 计算方法 比较 .中国
卫生统计 , 9 6 1 ( )4  ̄4 . 19 ,3 4 :7 9
收 稿 日期 :0 90 —1 2 0 —83
作者简介 : 毕永 (9 0)男 , 1 6一 , 汉族 , 卫生 检验 师。
* 陕 西省 子 长 县 人 民 医 院
子长
C SO f 3 0 A I x 6 0P计 算器 , 一 阶乘输 入范 围 0 z 9, ≤ ≤6 置 有 3 8步程序存储 器 。笔者利用 K 寄存器输入变量 , 编制 了确 切 概率 的计 算程 序 , 在 M 寄存 器 读 取 , 高 了工作 效 P 可 提
率。现介绍如下 :
P ( 示 0 04 ) 1显 . 2 5 令 : n1 7 Ki
0 Ki n2
0Ki 3 n
P2
输 入 变 量
X!一 I NV) k NV c 1I — X!× Ko t4I u NV !× Ko t5I X u NV X!
× Ko t6 Ki + 5 I u n NV !- U - u NV x k KO t1 k Ko t5 I x!
L N 状 态 R
P ( 示 0 13 ) 1显 . 8 6
Pl
I C NV P L
P 2 2 程 序 |
完全随机设计四格表资料的卡方检验,其校正公式
完全随机设计四格表资料的卡方检验,其校正公式在统计学中,卡方检验是用来检验观测频数与期望频数是否存在显著差异的一种常用方法。
在实际应用中,我们经常会遇到完全随机设计四格表资料的情况,而对这种情况进行卡方检验时,需要使用相应的校正公式,以确保检验结果的准确性和可靠性。
让我们来理解一下完全随机设计四格表资料的含义。
完全随机设计是实验设计中的一种常见形式,它要求实验对象被随机分配到各个处理组中,各处理之间相互独立,且每个处理组中的实验对象也是相互独立的。
四格表则是指实验结果按照两个因素分组,形成四个格子,每个格子中包含了不同处理的观测频数。
在这种情况下,我们需要进行卡方检验来判断两个因素之间是否存在相关性或独立性。
在进行卡方检验时,我们首先需要计算期望频数。
期望频数是指在假设两个因素之间不存在相关性或独立性的情况下,每个格子中的理论频数。
一般情况下,完全随机设计四格表资料的期望频数可以通过计算公式进行推导。
在这里,我们就需要使用校正公式来确保计算的准确性。
校正公式是针对完全随机设计四格表资料计算期望频数时可能出现的分母为0或者过小的情况而设计的。
当实际观测频数与期望频数之间存在很大差异时,校正公式能够有效地调整计算结果,提高卡方检验的准确性。
一般来说,校正公式的具体形式会根据不同的实验设计和数据特点而有所不同,需要根据具体情况进行选择和应用。
在进行卡方检验时,我们需要使用校正公式来计算期望频数,并将实际观测频数与校正后的期望频数进行比较,进而得出检验结果。
通过对实际情况进行充分的了解和分析,我们可以更好地理解和运用卡方检验,从而做出科学合理的决策。
回顾本文所涉及的内容,完全随机设计四格表资料的卡方检验及其校正公式是统计学中一个重要且常见的问题,它在实际应用中具有广泛的意义。
通过了解和掌握相关的知识和方法,我们可以更好地进行数据分析和推断,为科学研究和决策提供可靠的依据。
在个人观点和理解方面,我认为掌握卡方检验及其校正公式是统计学学习中的一项基本能力,它不仅可以帮助我们理解实验设计和数据分析的原理,还可以为科学研究和实践工作提供重要的支持。
医学统计学 四格表资料的 检验
1. 2 分布
(1) 2分布是一种连续型分布:按分布的密度函数可给出
自由度=1,2,3,……的一簇分布曲线 (图7-1)。
(2) 2分布的一个基本性质是可加性: 如果两个独立的
随机变量X1和X2分别服从自由度ν1和ν2的分布,
即
X1
~
2 1
,
X2
~
2 2
,那么它们的和(
X1+X2
)服从自由度
( ν1+ν2 )的 分 2布,即 ( X1 X~2 )
95.20
对照组 75(83.52) c 21(12.48) d 96 (c+d)
78.13
合 计 174(a+c)
26(b+d)
200 (n)
87.00
本例资料经整理成图7-2形式,即有两
个处理组,每个处理组的例数由发生数和
未发生数两部分组成。表内有
99 75
5 21
四个
基本数据,其余数据均由此四个数据推算
α=0.05。
(2)求检验统计量值
T11 104 174 / 200 90.48 ,T12 104 90.48 13.52 T21 174 90.48 83.52 ,T22 26 13.52 12.48 。
福师《生物统计学》答案
一、单选题(共?32?道试题,共?64?分。
)V1.??最小二乘法是指各实测点到回归直线的A. 垂直距离的平方和最小B. 垂直距离最小C. 纵向距离的平方和最小D. 纵向距离最小2.??被观察到对象中的()对象称为()A. 部分,总体B. 所有,样本C. 所有,总体D. 部分,样本3.??必须排除______因素导致“结果出现”的可能,才能确定“结果出现”是处理因素导致的。
只有确定了______,才能确定吃药后出现的病愈是药导致的。
A. 非处理因素,不吃药就不可能出现病愈B. 处理因素,不吃药就不可能出现病愈C. 非处理因素,吃药后确实出现了病愈D. 处理因素,吃药后确实出现了病愈4.??张三观察到李四服药后病好了。
由于张三的观察是“个案”,因此不能确定______。
A. 确实进行了观察B. 李四病好了C. 病好的原因D. 观察结果是可靠的5.??四个样本率作比较,χ2>χ20.05,ν可认为A. 各总体率不同或不全相同B. 各总体率均不相同C. 各样本率均不相同D. 各样本率不同或不全相同6.??下列哪种说法是错误的A. 计算相对数尤其是率时应有足够的观察单位或观察次数B. 分析大样本数据时可以构成比代替率C. 应分别将分子和分母合计求合计率或平均率D. 样本率或构成比的比较应作假设检验7.??总体指的是()的()对象A. 要研究,部分B. 观察到,所有C. 观察到,部分D. 要研究,所有8.??以下叙述中,除了______外,其余都是正确的。
A. 在比较未知参数是否不等于已知参数时,若p(X>x)<α/2,则x为小概率事件。
B. 在比较未知参数是否等于已知参数时,若p(X=x)<α,则x为小概率事件。
C. 在比较未知参数是否大于已知参数时,若p(X>x)<α,则x为小概率事件。
D. 在比较未知参数是否小于已知参数时,若p(X<x)<α,则x为小概率事件。
统计学-四格表资料分析卡方检验
方法原理
• 从卡方的计算公式可见,当观察频数与期望频数完全 一致时,卡方值为0;
• 观察频数与期望频数越接近,两者之间的差异越小, 卡方值越小;
• 反之,观察频数与期望频数差别越大,两者之间的差 异越大,卡方值越大。
• 当然,卡方值的大小也和自由度有关。
方法原理
卡方分布
显然,卡方值的大小不仅与A、E之差有关,还 与单.1元2 格数(自由度)有关
方法原理
根据 H0 得 b、c 两格的理论数均为 Tb = Tc = (b+c)/2,对 应的配对检验统计量为:
2 (b c)2 ,
bc
1
一般在 b + c < 40 时,采用确切概率法。
注意事项
McNemar检验(配对卡方检验)只会利用非主对角线 单元格上的信息,即它只关心两者不一致的评价 情况,用于比较两个评价者间存在怎样的倾向。 因此,对于一致性较好的大样本数据(a,d较大且 b,c较小时),McNemar检验可能会失去实用价值。 例如对1万个案例进行一致性评价,9995个都是 完全一致的,在主对角线上,另有5个分布在左 下的三角区,显然,此时一致性相当的好。但 如果使用McNemar检验,此时反而会得出两种评 价有差异的结论来。
Pearson’s 卡方检验
2 P
k i 1
( Ai
Ti )2 Ti
A: 实际頻数 (actual frequency) T: 理论頻数 (theoretical frequency)
Chi-squared distribution
概述
卡方检验是以卡方分布为基础的一种常用假设检 验方法,主要用于分类变量,它基本的无效假设 是(不包括配对资料):
Poisson分布资料是离散型资料,但不具有分类特征,故 视为计量资料。
第5讲 卡方检验
第5章χ2检验☐第1节χ2检验的基本思想☐第2节独立样本四格表的χ2检验☐第3节配对资料四格表的χ2检验☐第4节行×列表的χ2检验学习要求☐了解χ2检验的基本思想☐掌握独立样本四格表的χ2检验、配对样本四格表的χ2检验和行×列表资料χ2检验的特点、应用条件和方法。
第1节χ2检验的基本思想 χ2检验的基本概念χ2检验的用途χ2检验的基本思想1、χ2检验的基本概念•常用于分类变量资料的统计推断。
该检验以χ2分布(chi square distribution) 为理论依据。
χ2分布是一种连续型随机变量的概率分布。
它只有一个参数,自由度ν。
χ2分布曲线特征χ2分布的形状依赖于自由度ν的大小; 当自由度ν≤2时,曲线呈L型;随着ν的增加,曲线逐渐趋于对称; 当ν→∞时,χ2分布趋近正态分布。
χ2分布的基本性质可加性如果两个独立的随机变量X1和X2分别服自由度ν1和ν2的χ2分布,即X1~ χ2 ν1 , X2~ χ2 ν2 ,那么它们的和X1+X2服从自由度ν1+ν2的χ2分布,即X1+X2 ~ χ2 ν1+ν2。
χ2分布的分位数当自由度ν确定后,χ2分布曲线下右侧尾部的面积为α时,横轴上相应的χ2值记作χ2 α,ν即χ2分布的分位数。
χ2值越大,P值越小;反之亦然。
2、 2检验的用途用于分类变量(计数)资料的统计推断。
检验可用于两个(或多个)率或构成比的比较、关联性检验和频数分布拟合优度检验。
3、χ2检验的基本思想χ2检验的基本思想是检验实际频数(A )和理论频数(T )的差别是否是由抽样误差引起的,也就是由样本率(或样本构成比)来推断总体率(或构成比)的差别是否是由抽样误差引起的。
χ2检验的统计量基本公式为:理论频数与实际频数的吻合程度(-1)-1ν=行数(列数)χ2值反映了实际频数A与理论频数T的相对吻合程度。
若检验假设H成立,A与T不应该比较接近。
χ2会小。
若检验假设H0成立,A与T相差较大,χ2会大。
完全随机设计四格表资料两组率比较的假设检验方法
完全随机设计四格表资料两组率比较的假设检验方法在研究中,我们经常需要比较两个不同条件下的事件发生率。
对于这种情况,我们可以使用假设检验来确定两个群体之间是否存在统计学上的显著性差异。
其中,常用的一种方法是使用完全随机设计的四格表资料进行率比较的假设检验。
下面是关于这种方法的相关参考内容。
四格表是用于展示两个二元变量之间关系的表格。
在完全随机设计的研究中,我们经常把四格表用于比较两个事件的发生率。
这个表格有两个分类变量和一个样本量。
为了比较两个条件下的事件发生率,我们可以使用率比较的假设检验方法。
假设我们有两个群体,其中一个群体的事件发生率为p1,另一个群体的事件发生率为p2。
我们的原假设是p1=p2,即两个群体之间没有显著性差异。
备选假设是p1≠p2,即两个群体之间存在显著性差异。
我们可以使用卡方检验进行这个假设检验。
卡方检验是一种基于卡方分布的假设检验方法。
在这个检验中,我们会计算出一个卡方值,该值反映了我们观察到的样本差异与我们预期的误差有多大。
卡方检验的公式为:χ^2 = Σ [(O-E)^2/E]其中,χ^2是卡方值,O是实际观察值,E是期望值。
在这个公式中,我们需要计算每一个四格表中的期望值。
期望值的计算方法为:E = (行总计数 ×列总计数) / 样本总数在计算完期望值后,我们可以将实际观察值和期望值代入卡方公式中,计算出卡方值。
然后,我们需要使用卡方分布表来查找临界值,以确定是否存在显著性差异。
如果观察到的卡方值大于临界值,我们可以拒绝原假设,并得出结论两个群体之间存在显著性差异。
如果卡方值小于临界值,则我们无法拒绝原假设,因此不能得出结论两个群体之间存在显著性差异。
除了卡方检验,我们还可以使用精确性检验方法来进行假设检验。
这种方法可以用于样本量较小的情况,以获得更精确的结论。
使用精确性检验时,我们可以计算出两个群体之间差异的精确概率。
如果这个概率小于0.05,则我们可以得出结论两个群体之间存在显著性差异。
配对四格表资料χ2检验在 SPSS 和 SAS 软件中的实现
配对四格表资料χ2检验在 SPSS 和 SAS 软件中的实现丁宁;范大志;刘丽;邹延峰;范引光;胡艳婷;潘发明【期刊名称】《中国医院统计》【年(卷),期】2014(000)002【摘要】目的:通过实例来介绍配对四格表资料的卡方检验在SPSS和SAS统计分析软件中如何操作,输出结果的区别及正确的解读,为临床及相关科研人员提供可以借鉴的方法。
方法使用SPSS和SAS统计软件,对配对四格表资料的卡方检验进行操作和分析。
结果本文以两种方法诊断肺癌的检测结果为例题,根据基本公式算得统计量χ2=4.92,P<0.05,得出两种诊断方法的诊断结果存在差异。
在SPSS软件的分析结果中只有P值,SAS软件的分析结果可以给出统计量和P的确切值,但统计量χ2=6.23,与基本公式计算的结果不同,经过自编程序运行后,我们得到了与基本公式相同的结果。
结论 SPSS和SAS统计软件是医学统计学数据分析的常用教学软件,本文通过实例详解,得出在结果的输出方面两种软件有很大区别,但这并不影响我们得出相同的统计结论。
SPSS软件操作简便,SAS软件编程比较麻烦,以及SAS软件在处理此类资料上存在默认不校正的问题,因此,在实际应用中,我们可以根据情况自行选择。
【总页数】3页(P91-93)【作者】丁宁;范大志;刘丽;邹延峰;范引光;胡艳婷;潘发明【作者单位】230032 安徽医科大学流行病与卫生统计学系安徽省合肥市;230032 安徽医科大学流行病与卫生统计学系安徽省合肥市;230032 安徽医科大学流行病与卫生统计学系安徽省合肥市;230032 安徽医科大学流行病与卫生统计学系安徽省合肥市;230032 安徽医科大学流行病与卫生统计学系安徽省合肥市;230032 安徽医科大学流行病与卫生统计学系安徽省合肥市;230032 安徽医科大学流行病与卫生统计学系安徽省合肥市【正文语种】中文【相关文献】1.四格表资料非条件精确检验的SAS实现 [J], 柳伟伟;胡良平;周诗国2.如何用SAS软件正确分析生物医学科研资料Ⅱ.用SAS软件实现配对设计定量资料的统计分析 [J], 郭晋;胡良平;高辉3.配对四格表资料差别检验的精确概率方法 [J], 刘玉秀;刘钧4.如何正确运用x2检验——配对设计四格表资料的x2检验 [J], 胡纯严;胡良平5.应用配对四格表资料的X^2检验对比例法和绝对浓度法检测结核分枝杆菌药物敏感性试验的评价 [J], 武洁;桂晓虹;朱江化;王弈峰;王莉莉;孙斌;董秀英;高谦;梅建因版权原因,仅展示原文概要,查看原文内容请购买。
四格表资料三种常用统计方法的比较
四格表资料三种常用统计方法的比较
陈平雁;王斌会
【期刊名称】《中国卫生统计》
【年(卷),期】1996(013)002
【摘要】本文应用计算机模拟方法比较了四格表资料三种常用统计方法,即PearsonX^2检验,Yates校正X^2检验和Fisher精确概率法的第一类错误要和把握度。
结果显示Pearsonx^2检验较其他两种方法的第一类错误概率更接近检验水准,且其把握度更高,不受诸如理论频数小于5或样本含量不足40等条件的限制,对此结论无根本影响。
【总页数】3页(P14-16)
【作者】陈平雁;王斌会
【作者单位】不详;不详
【正文语种】中文
【中图分类】R195.4
【相关文献】
1.四格表资料χ2检验专用公式与校正公式及确切概率法的比较 [J], 陈国民;王洁贞
2.四格表资料三种检验方法分析 [J], 谭艺强
3.对等级资料作比较的常用统计方法 [J], 丁建生;申希平
4.如何正确运用x2检验——配对设计四格表资料的x2检验 [J], 胡纯严;胡良平
5.三种医学期刊计量资料均数间比较所用统计方法的调查分析 [J], 许汝福;冷怀明;尹全焕;张蔚
因版权原因,仅展示原文概要,查看原文内容请购买。
15-2配对四格表资料差别检验的精确概率方法_刘玉秀
南京大学学报(自然科学)第34卷 第5期 JOU RN AL OF NAN JING U NIV ERSIT Y Vol.34,No.5 1998年9月 (N ATU RAL SCIENCES ) Sept .,1998配对四格表资料差别检验的精确概率方法刘玉秀 刘 钧(南京大学医学院临床学院南京军区南京总医院 医务部,210002,南京)摘 要 探讨用于配对四格表资料差别检验的精确概率方法。
方法:在配对四格表资料两组率差为0的无效假设下,根据两项分布的原理,可导出假设检验用的精确概率计算公式,借此公式经逐一计算,给出b ≤20和c ≤10不同组合时的单、双侧检验精确概率值。
提供了配对四格表资料差别检验的精确概率计算公式,并构造出b ≤20和c ≤10的精确概率速查表。
结论:M cN emar 卡方检验方法仅适于b +c >20情形,当b +c ≤20时宜用本文介绍的精确概率方法:或通过公式计算或直接查表。
关键词 配对四格表,假设检验,精确概率分类法 R311a0 引 言医学研究中经常会遇到配对形式的四格表资料,该类资料数据处理的目的一般为推断两因素(处理)间有无关联或两处理的结果间有无差异(此种情况更为多见),前者可采用通常四格表资料处理的卡方检验法或Fisher 精确概率法,后者常规应用的方法为M cNem ar 卡方检验法,但此方法需满足一定的条件,当配对四格表中(b+c)较小(<20)时不宜使用,应考虑选用配对四格表资料差别检验的精确概率计算方法。
表1 A 、B 两种检验方法对血中某抗体的检出情况T able 1 T he o utcome o f two test matho dsA B +-合 计+461460-43640合计50501001 举 例欲比较两种检验方法对血样中某抗体的检出率,将100份血样同时用两种方法进行检测,结果为阳性或阴性。
根据检测的结果,应以血样本为基本单位,整理成数据对子数为100的配对形式的四格表资料(表1)进行两方法间检出率a收稿日期:1997-07-14;修回日期:1998-03-03第一作者简介:刘玉秀,男,1966年2月生,主治医师,现从事科研管理,曾发表“生物检定数据效价比值的广义线性模型估计”等论文差异的检验时,应进行专用于配对四格表资料的检验方法。
第六节 四格表资料的确切概率法
2
2
2
表 6-3 处理 洛赛克 雷米替叮
两种药物治疗消化道溃疡效果 愈合 64(a) 51(c) 未愈合 21(b) 33(d) 合计 85 84 愈 合 率 (%) 75.29 60.71
115 54 169(n) 合计 用 表 6-3 资 料 , 代 入 式 (6-10), 求 2 值 如 下 :
F1 F2
1 2
…
f1 f2
…
…
Fk
k
fk
问题:试判断这份样本,是否来自该理论分布?
(1) H 0:样本的总体与该理论分布无区别 H1 :样本与该理论分布有区别 0.05或 0.1 2 (2) Pearson 统计量 2 k (实际频数-理论频数) 2 P 理论频数 i 1
2
(64 33 21 51) 2 169 4.13, 85 84 115 54
与前面计算的结果一致。
4.四格表资料检验的连续性校正公式
( A T 0.5) T
2 c
2 n 2 2
2
(| ad - bc | - ) n c = (a+b)(c+d )(a+c)(b+d )
检验
2
χ 2检验(Chi-square test)是现代统计学的创 始人之一,英国人K . Pearson(1857-1936) 于1900年提出的一种具有广泛用途的统计方 法,可用于拟合优度检验、两个或多个率或 构成比间的比较等等。
第一节
分布
2
(1) 自由度为 1 的 2 分布 若 Z ~ N ( 0,1), 则 Z 2 的分布称为自由度为 1 的 2 分布. 2 (1) . (chi-square distribution),记为 (2 或 1) 图形:从纵轴某个点开始单调下降,先凸后凹.
四格表的确切概率法
例7-6 设有56份咽喉涂抹标本,把每一份标本 一分为二,依同样的条件分别接种于甲、乙两种白 喉杆菌培养基上,观察白喉杆菌的生长情况,结果 如表7-10,问两种培养基上白喉杆菌的生长概率有 无差别?
表7-10 两种培养基白喉杆菌生长情况
甲培养基
阳性 阴性 合计
阳性
22 (a) 2 (c) 24
乙培养基 阴性 18 (b) 14 (d) 32
20
由 2临界值表,
2 0.05(1)
3.84,11.25
3.84,
P
0.05,
按 0.05 水准拒绝 H0 ,差别有统计学意义, 可以认为,两种培养基上白喉杆菌生长的阳性
概率不相等。鉴于甲培养基阳性频率为
40/56==71.4%,乙培养基为24/56=42.9%,可以认为,
甲培养基阳性概率高于乙培养基。
bc
(7-12)
若 b c 40,需对 公式(7-14)校正公式为
2 ( b c 1)2 v 1
bc
(7-13)
对于例7-6数据,因为 b c 40, 按式(7-15)计算
2 (18 2 1)2 225 11.25, v 1
18 2
检验水准 0.05
变量1
1 2 … R 合计
表7-13 配对设计下多分类资料的R×R列联表
变量2
1
2
…
R
合计
A11
A12
…
A1c
n1(固定值)
A21
A22
…
A2c
n2(固定值)
…
…
…
…
…
AR1
AR2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
南京大学学报(自然科学)第34卷 第5期 JOU RN AL OF NAN JING U NIV ERSIT Y Vol.34,No.5 1998年9月 (N ATU RAL SCIENCES ) Sept .,1998配对四格表资料差别检验的精确概率方法刘玉秀 刘 钧(南京大学医学院临床学院南京军区南京总医院 医务部,210002,南京)摘 要 探讨用于配对四格表资料差别检验的精确概率方法。
方法:在配对四格表资料两组率差为0的无效假设下,根据两项分布的原理,可导出假设检验用的精确概率计算公式,借此公式经逐一计算,给出b ≤20和c ≤10不同组合时的单、双侧检验精确概率值。
提供了配对四格表资料差别检验的精确概率计算公式,并构造出b ≤20和c ≤10的精确概率速查表。
结论:M cN emar 卡方检验方法仅适于b +c >20情形,当b +c ≤20时宜用本文介绍的精确概率方法:或通过公式计算或直接查表。
关键词 配对四格表,假设检验,精确概率分类法 R311a0 引 言医学研究中经常会遇到配对形式的四格表资料,该类资料数据处理的目的一般为推断两因素(处理)间有无关联或两处理的结果间有无差异(此种情况更为多见),前者可采用通常四格表资料处理的卡方检验法或Fisher 精确概率法,后者常规应用的方法为M cNem ar 卡方检验法,但此方法需满足一定的条件,当配对四格表中(b+c)较小(<20)时不宜使用,应考虑选用配对四格表资料差别检验的精确概率计算方法。
表1 A 、B 两种检验方法对血中某抗体的检出情况T able 1 T he o utcome o f two test matho dsA B +-合 计+461460-43640合计50501001 举 例欲比较两种检验方法对血样中某抗体的检出率,将100份血样同时用两种方法进行检测,结果为阳性或阴性。
根据检测的结果,应以血样本为基本单位,整理成数据对子数为100的配对形式的四格表资料(表1)进行两方法间检出率a收稿日期:1997-07-14;修回日期:1998-03-03第一作者简介:刘玉秀,男,1966年2月生,主治医师,现从事科研管理,曾发表“生物检定数据效价比值的广义线性模型估计”等论文差异的检验时,应进行专用于配对四格表资料的检验方法。
一般,可供应用的检验方法为M cNemar 卡方检验,连续性校正的公式为:V 2=(ûb-c û-1)2b+c,自由度df =1该式的使用有一定的限制条件,不适于b+c<20的情形。
对配对四格表资料差别的检验可基于参数P =0.5的两项分布,用直接计算概率的方法进行,称为精确概率计算法〔1,2〕。
2 精确概率计算的通用步骤a b cd2.1 构造出配对的四格表资料 假设比较的两组结果为属阳性或阴性的两分类数据,以a 代表两组均为阳性的对子数,d 代表两组均为阴性的对子数,b 代表一组为阳性另一组为阴性的对子数,c 代表一组为阴性而另一组为阳性的对子数,n 为总对子数,n=a+b +c+d 。
配对的四格表可简单示意为如右的形式:2.2 建立检验假设 由配对四格表资料可知,第1组的阳性率为(a+b)/n,第2组的阳性率为(a+c)/n 。
比较两组的阳性率,也即是对两组阳性率的差异进行假设检验。
假设为:H 0:P1-P 2=0,两组的阳性率相等;H 1:P 1-P 2≠0,两组的阳性率不等;显著性水平A =0.05。
因两组样本率的差值为(b-c)/n,故两组率差异的假设检验实际上等价于b 和c 差异的假设检验。
在零假设下,对于给定的(b+c)个对子,b 或c 可认为服从于参数P =0.5的两项分布。
以下的精确概率计算方法即是根据此原理而导出的。
2.3 精确概率计算 若b >c ,单侧检验的P 值为〔3,4〕:P 单=∑ci =0(b+c)!i!(b+c-i)!×0.5b +c式中“!”为阶乘的数学符号,指其前整数逐次减少1以后的连乘积。
约定:0!=1。
∑指对其后的算式求和,下同。
若b ≤c,单侧检验的P 值为〔3,4〕:P 单=∑bi =0(b+c)!i!(b+c-i)!×0.5b +c因P =0.5的两项分布为对称分布,故双侧检验的P 值为:P 双=2×P 单2.4 推断结论 根据精确概率的P 值大小,按一定的显著性水平即可对结论进行推断。
事实上,以上的精确概率计算法适于任何情况下配对四格表资料差别的假设检验,只是当b +c >20时的计算量较大,故可选用不失准确性、且简便易用的M cNemar 卡方检验法。
3 例算过程上例采用连续性校正的M cNemar 卡方检验,可计算出检验统计量V 2=4.50,df=1,P =0.0339(<0.05),差异显著,A 方法的检出率高于B 方法。
由于b +c =18<20,故结论的准确性值得怀疑。
为此,最好使用配对四格表资料差别检验的精确概率计算法。
若有足够的理由认为A 方法的检出率不会低于B 方法,应计算单侧精确概率。
将b=14和c=4代入上述公式得:・628・南京大学学报(自然科学)第34卷 P 单=∑4i =018!i!(18-i)!×0.518=0.01544通常应采用双侧检验,其精确概率为:P 双=2×P 单=2×0.01544=0.03088 按0.05的显著性水平,可拒绝零假设,认为A 方法的检出率比B 方法的检出率高。
此统计结论和采用M cNem ar 卡方检验的结论一致。
当M cNemar 卡方检验法和精确概率计算法的结论不一致时,应以精确概率计算法的推断结论为准。
4 精确概率数值表及其使用 为了方便使用者,作者已根据上述的公式,对b ≤20和c ≤10不同组合下的配对四格表计算了单侧和双侧的概率(表2)。
实用中,对配对四格表资料的差别检验不需再进行复杂的计算,直接查表即可获得精确概率P 值。
例如,本例的b=14,c=4,也可直接查配对四格表资料差别检验的精确概率数值表,得单侧P =0.0154,双侧P =0.0309,与计算结果仅存在舍入误差。
表2 配对四格表资料差别检验的精确概率数值表T able 2 Exact pr obability for paired four fold t ables of b ≤20and c ≤10b c0123456789101.50001.00002.2500.5000.5000 1.00003.1250.3125.5000.2500.6250 1.00004.0625.1875.3438.5000.1250.3750.6875 1.00005.0313.1094.2266.3633.5000.0625.2188.4531.7266 1.00006.0156.0625.1445.2539.3770.5000.0313.1250.2891.5078.7539 1.00007.0078.0352.0898.1719.2744.3872.5000.0156.0703.1797.3438.5488.7744 1.00008.0039.0195.0547.1133.1938.2905.3953.5000.0078.0391.1094.2266.3877.5811.7905 1.00009.0020.0107.0327.0730.1334.2120.3036.4018.5000.0039.0215.0654.1460.2668.4240.6072.8036 1.000010.0010.0059.0193.0461.0898.1509.2272.3145.4073.5000.0020.0117.0386.0923.1796.3018.4545.6291.8145 1.000011.0005.0032.0112.0287.0592.1051.1662.2403.3238.4119.5000.0010.0063.0225.0574.1185.2101.3323.4807.6476.8238 1.000012.0002.0017.0065.0176.0384.0717.1189.1796.2517.3318.4159.0005.0034.0129.0352.0768.1435.2379.3593.5034.6636.831813.0001.0009.0037.0106.0245.0481.0835.1316.1917.2617.3388・629・第5期 刘玉秀等: 配对四格表资料差别检验的精确概率方法b c 01234567891014.0001.0005.0021.0064.0154.0318.0577.0946.1431.2024.2706.0001.0010.0042.0127.0309.0636.1153.1892.2863.4049.541315.0000.0003.0012.0038.0096.0207.0392.0669.1050.1537.2122.0001.0005.0023.0075.0192.0414.0784.1338.2100.3075.424416.0000.0001.0007.0022.0059.0133.0262.0466.0758.1148.1635.0000.0003.0013.0044.0118.0266.0525.0931.1516.2295.326917.0000.0001.0004.0013.0036.0085.0173.0320.0539.0843.1239.0000.0001.0007.0026.0072.0169.0347.0639.1078.1686.247818.0000.0000.0002.0007.0022.0053.0113.0216.0378.0610.0925.0000.0001.0004.0015.0043.0106.0227.0433.0755.1221.184919.0000.0000.0001.0004.0013.0033.0073.0145.0261.0436.0680.0000.0000.0002.0009.0026.0066.0146.0290.0522.0872.136020.0000.0000.0001.0002.0008.0020.0047.0096.0178.0307.0494.0000.0000.0001.0005.0015.0041.0094.0192.0357.0614.0987 (b>c;上行:单侧概率,下行:双侧概率)本精确概率数值表仅给出b>c 的情形,若遇b<c 时,可将b 、c 对调后查表,并不影响概率P 值。