医学统计学定性资料的统计分析-χ2检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、2检验(Chi-square test)
主要应用: 推断两个或多个样本率之间有无差别; 推断两个或多个构成比之间有无差别; 检验分类变量配对设计下的卡方检验; 频数分布的拟合优度检验等。
(一) χ2分布
χ2分布是一种连续 型随机变量的概率 分布
图 7-1 若干χ2分布的概率密度曲 线
2
2
1.建立检验假设,确定检验水准: H0:两种方法测定的阳性率相同,即B = C H1:两种方法测定的阳性率不同,即B ≠ C
0.05
2.计算检验统计量值: 本例由于为b+c = 26 + 7 = 33<40,按校正公式计算:
2
( 26 7 1) 2 26 7
9.818
2检验的基本公式: 2 =∑(A-T)2/T 式中:A代表每个格子的实际频数( actual frequency ),即表中 R C 的基本数据;T代表每个格子的理论频数( theoretical frequency )。
n n T n
从公式中可以看出: 2值反映的是实际频数与理论 频数的吻合程度。
(二)2检验的基本思想
例4-6-1 据临床研究,一般的胃溃疡病患者有25%会出现胃出 血症状。某医院观察了300例65岁的胃溃疡病患者,其中有99例 发生胃出血,占33.0%,问老年患者是否较一般患者易出血? 表中基本数据是a,b,c,d,其余数 据都是从这四个基本数据推算出 表4-6-1 131例胃癌患者治疗后5年存活率的比较 来的,这种资料称为四格表资料。 存活率(%) 存活数 死亡数 合计治疗数
1 2
例4-6-2 某肿瘤医院4年来共治疗食道癌患者131例,每例均 观察满5年,其中单纯手术治疗组观察84例,存活57例,存活 率p1=67.9%,联合治疗(手术+术后化疗)组观察47例,存活 39例,存活p2=83.0%,问两组存活率有无差别?
两样本率比较的检验假设为: H0:两总体存活率相等,即1=2; H1:两总体存活率不等,即12。 = 0.05。
注意:这里所介绍的两样本率比较的Z 检验, 当n1p1、n2p2、n1 (1p1)、n2 (1-p2)均大于5才适 用,如果n 较小,则可以用校正的Z 检验公式:
Zc n | p1 p2 | 2 1 1 pc (1 pc )( ) n1 n2
而当n 很小时(比如n≤40时),须用确切概率法 (见2检验部分内容)。
第六节 定性资料的统计分析
一、两个率比较的Z检验
当样本含量n足够大,样本率p或1-p 均不太小时(如np和n(1-p)均大于5), 样本率的分布近似正态分布。样本率和总 体率之间、两个样本率之间的比较可用Z 检验(Z test) 。
(一)样本率与总体率的比较 样本率与总体率比较的目的是推断该样本 是否来自某已知总体。统计量Z 的计算为:
按 =1查2界值表,得P>0.05,按 = 0.05水准不 拒绝H0,差异无统计学意义。故根据本资料尚不能认
为两种药物的总体缓解率有差别。
(四)配对四格表的2检验
在定性资料的统计分析中,如两组率之 间的比较,设计类型是按配对设计,则要按 配对设计的卡方检验来完成。不能采用成组 设计的卡方检验,否则会降低统计学的检验 效能。
计算统计量Z :
z
0.33 0.25
0.25 (1 0.25) / 300
3.20
. 确定P 值和判断结果:
Z0.01=2.326,得P<0.01,按=0.05水 准拒绝H0,接受H1。 认为老年胃溃疡病患者的胃出血率大于 20%,即老年患者较一般患者易出血.
(二)两样本率的比较
四格表资料2值的校正
由于2分布是一种连续性分布,2界值是根据 此连续性分布的理论公式计算出来的,但两个 或多个率比较的原始数据却属定性资料,是不 连续的,上述公式只是一个近似计算公式。若 四格表(或行×列表,详见后)中的基本数据均 不太小时,这种近似程度相当高。如果四格表 中的任一基本数据出现小值,依据上述两个公 式计算出来的2值往往偏大,相应的P 值偏小, 从而人为地扩大了I型误差。为纠正这种偏性, 可采用校正2,用C2表示。
(2 1)(2 1) 1
3.确定P 值,作出统计推断:
2 查 =7.88,P<0.005, 0.05 按水准,拒 0.005,1 绝H0,接受H1,差异有统计学意义,可认为甲乙两种方法的测 定结果有差别,甲法测定阳性率较高。
2 界值表,得
(五)行×列表资料的2检验
Z
p
p
p 0
0 (1 0 ) / n
例4-6-1 据临床研究,一般的胃溃疡病患者有25%会出 现胃出血症状。某医院观察了300例65岁的胃溃疡病患 者,其中有99例发生胃出血,占33.0%,问老年患者是 否较一般患者易出血?
本例,样本率为25%,np和n(1-p)均大于5,可采用 Z 检验。 检验假设: H0:=0, 老年胃溃疡病患者的胃出血率等于25 %; H1:>0, 老年胃溃疡病患者的胃出血率大于25 %。 单侧=0.05。
=(行数一1)(列数一1) 四格表是由2行2列组成的,故 =1。
(三)四个表资料的2检验
基本步骤: 1.建立假设:H0:1=2 ;H1:12 ,α= 0.05。 2.计算理论值和2统计量:
(39 34.44) 2 (8 12.56) 2 (57 61.56) 2 (27 22.44) 2 2 3.52 34.44 12.56 61.56 22.44
用正态近似检验,检验统计量Z为:
Z
0.679 0.830 0.733 (1 0.733)(1 / 47 1 / 84)
1.874
Z0.05=百度文库.96,得P >0.05, 差别无统计学意义,按=0.05水 准,不拒绝H0。故尚不能认为单纯手术疗法与联合疗法对食道 癌患者治疗效果有差别。
2 C
2 C
( A T 0.5) 2 T
2
( a d b c n / 2) n ( a b )(c d )(a c )(b d )
使用校正公式的条件:理论频数T 1≤T<5),且总例 数n≥40; 注意:当n和T过小,如T<1或n<40时,不宜用2检 验,而应改用确切概率法。
2
(a b)(c d )(a c)(b d )
式中a、b、c、d分别为四格表的四个实际频数,总例 数n =a+b+c+d。仍以表4-6-1资料为例计算2值 , 可见结果同前:
(39 27 8 57) 2 131 2 3.52 47 84 96 35
(即多个率或构成比的比较)
上述两个样本率比较的资料,其基本数据只 有2行2列,称为2 ×2表或四格表资料。当基 本数据超过2行或2列的资料,就称为行×列 表或 R × C表资料。行×列表资料的2检验 主要用于多个样本率或多个构成比之间的比 较。
2 值的计算可按前述基本公式( 2 =∑(A-
2
下表是131例胃癌患者按H0计算的理论频数
处理 联合治疗 单纯治疗 合 计
存活数 34.44 61.56 96
死亡数 12.56 22.44 35
合计 47 84 131
H0假设的5年 存活率(%)
73.28
由公式 还可看出,2值的大小除取决于|A-T|的 (A 差值外,还与基本数据的格子数有关(因为每格的 T ) 2 T 2值一般随着格子数的增 都≥0 ,且一般都>0,故 多而加大),严格地说是与自由度有关。四格表及行 ×列表的自由度,是指在表中周边合计数不变的前 提下,基本数据可以自由变动的格子数。如四格表 中基本数据有四个,其中任一数据发生变化,其余 三个数据由于受周边合计数的限制,只能随之相应 变动,故其自由度为1;若基本数据大于4个,则自 由度也必然大于1。行×列表的自由度 为:
T)2/T ),但用下式计算更为方便,两式等价。
A n( 1) n R nC
2
式中,A为第R行第C列对应的实际频数,nR为第R行 的行合计,nC为第C列的列合计,n为总样本含量。
例4-6-4 某地调查了2002~2005四个年度中 小学男生的肥胖检出状况,见表4-6-3,问各年 度间学生肥胖率有无差别?
-
26(b) 11(d) 37 42 18 60
由于甲乙两法一致阳性数a和一致阴性数d相同,如果要比较甲 乙两法何者为优,只要比较b和c即可,采用配对2检验
配对2 检验专用公式为:
(b c) bc
2
2
若b+c<40,应该对式进行校正,校正公式为:
(| b c | 1) bc
如果实际频数与理论频数的差别是由抽样误差造成 的,即H0假设成立,则实际频数与理论频数应该比较接 近, 其2值 也就应该比较小;反之,如果2值较大, 则说明实际频数与理论频数相差较大,超出了抽样误差 所能解释的范围,就认为H0假设不成立,即两样本对应 的总体率不等, 2 值越大,就越有理由认为H0假设不 成立。
29 41
48.28 39.02
H0:1=2; H1:12; =0.05。 本例a格的理论频数最小,T11=1216/41=4.68<5, n>40,故考虑用校正公式计算2 值。
2 C
( 2 15 1014 41/ 2) 12 2916 25
2
41
2 2.36 0.05,1 3.84
两个样本率比较的目的是推断两总体率是否相等。检验 方法可用Z 检验和后面介绍的2检验。Z 检验公式为:
p1 p2 Z S p1 p2 | p1 p2 | 1 1 pc (1 pc )( ) n1 n2
式中:p1、p2分别为两样本率;n1、n2分别为两样本 例数; X1 X 2 pc为合计率: pc n n
39(a) 57(c) 96(a+c) 8(b) 27(d) 35(b+d) 47(a+b) 84(c+d) 131(n=a+b+c+d) 83.0 67.9 73.3
处理 联合治疗 单纯治疗 合计
假设检验的基本步骤: 1.建立假设 H0:无效假设,两总体存活率相等,即1=2 H1:备择假设,两总体存活率不等,即12 2.确定检验水准:α= 0.05。 3. 选择检验方法,并计算检验统计量 4. 确定P值,作出推断结论 P≤α,拒绝H0,接受H1 P>α,不拒绝H0
例4-6-3 表4-6-2资料是表示使用强的松与使 用甲氨蝶呤药对系统性红斑狼疮的疗效,问两组 患者总体的完全缓解率有无差别?
表4-6-2 两组药物的缓解率比较
治疗组
缓解
未缓解
合计
缓解率(%)
强的松
2(4.68)
10(7.32)
12
16.67
甲氨蝶呤 合 计
14(11.32) 16
15(17.68) 25
表4-6-3 某地各年度学生肥胖检出率的比较(%)
年份
贫血人数
正常人数
合计
检出率(%)
2000
2001
279
271
4702
2089
4981
2360
5.60
11.48
2002
2003 合计
367
784 1701
2161
4199 13151
3.确定P 和判断结果:=(2-1)×(2-1)= 1;查2界 值表,20.05=3.84, 所以P>0.05,按=0.05水准不拒绝H0,差别无统计 学意义。故尚不能认为单纯手术疗法与联合疗法对胃 癌患者治疗效果有差别。
四格表资料专用公式
由于理论频数均是从四格表中实际频数计算出来的, 故2 检验公式可以简化,直接用下列专用公式计算2 2 值。 (ad bc) n
例4-6-7 某医院采用甲乙两种方法测定60例一种肿瘤患者 体内某基因表达阳性率,甲法测定阳性率为70.0%,乙法 测定阳性率为38.3%,两种方法一致测定阳性率为26.7 %。为比较甲乙两种方法的测定阳性率是否有差异?
表4-6-7 两种方法测定结果比较
甲 法
乙 法 合 计
+
+ - 合 计 16(a) 7(c) 23