医学统计学定性资料的统计分析-χ2检验
医学统计学之卡方x2检验
举例
买彩票
奖项 中奖概率
T
A
一等 1% 10 0
0
二等 5% 50 0
0
三等 10% 100 20
2%
四等 20% 200 180
18%
五等 64% 640 800
80%
二、基本原理
基本思想是检验实际频数和理论频数的差别是否 由抽样误差所引起的,由样本率来推断总体率。
x2反映了实际频数于理论频数的吻合程度,x2值
α=0.05。
T11 =44(41/70)=25.8 T12=44(29/70)=18.2 T21=26(41/70)=15.2 T22 = 26(29/70)=10.8
(2)求检验统计量值
2 (20 25.8)2 (24 18.2)2 (21 15.2)2 (5 10.8)2 8.40
作χ2检验后所得概率P接近检验水准α,需要
计数资料的统计推断
卡方检验是χ2检验(Chi-square test) 是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的 一种具有广泛用途的统计方法,是分类 计数资料的假设检验方法,可用于两个 或多个率间或构成比之间的比较,计数 资料的关联度分析,拟合优度检验等等。
2 检验的应用
①检验两个样本率之间差别的显著性; ②检验多个样本率或构成比之间差别的
显著性; ③配对计数资料的比较; ④检验两个双向无序分类变量是否存在
关联。
某医生想观察一种新药对流感的预防效 果,进行了如下的研究,问此药是否有 效?
组别 实验组 对照组 合计
发病人数 14 30 44
未 发 病人数 86 90 176
观察例数 100 120 220
医学统计学:卡方检验
CM C N M P( x ) n CN
式中X的取值是从0与(n-N+M)之较大者开始直到n与M之较小者为止。
卡方检验
■ 四格表资料的χ2检验
3.当n<40,或T<1时,用四格表资料的Fisher确切概率法。 超几何分布
x n x CM CN M P( x ) n CN
C
卡方检验
■ χ2检验的基本思想
卡方检验
■ χ2检验的基本思想
卡方检验
■ χ2检验的基本思想
卡方检验
■ χ2检验的基本思想
卡方检验
■ 四格表资料的χ2检验
1.当n≥40且所有的T≥5时,用χ2检验的基本公式;当P≈α时,改用四格 表资料的Fisher确切概率法。 例 某院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地塞米松(对照组) 降低颅内压的疗效。将200例颅内压增高症患者随机分为两组,结果见表1 。问两组降低颅内压的总体有效率有无差别?
卡方检验
■ 四格表资料的χ2检验
3.当n<40,或T<1时,用四格表资料的Fisher确切概率法。 Fisher确切概率法的基本思想
在四格表周边合计数不变的条件下, 利用超几何分布直接计算样本事件及 比样本事件更极端情形发生的概率。
卡方检验
■ 四格表资料的χ2检验
3.当n<40,或T<1时,用四格表资料的Fisher确切概率法。 Fisher确切概率法的基本思想
卡方检验
■ 四格表资料的χ2检验
1.当n≥40且所有的T≥5时,用χ2检验的基本公式;当P≈α时,改用四格 表资料的Fisher确切概率法。
卡方检验
■ 四格表资料的χ2检验
1.当n≥40且所有的T≥5时,用χ2检验的基本公式;当P≈α时,改用四格 表资料的Fisher确切概率法。
医学统计学9 χ2检验
卡方检验的基本原理
反映实际频数与理论频数的吻合程度可用统计量
A
T T
2
来表示
案例分析
某医院采用甲乙两种方法测定60例结核杆菌阳性率, 如下图。试问这两种检测方法阳性率是否相同。
测定方法 阳性数 阴性数 合计
阳性率
甲法
42
18
60
70.0%
乙法
23
37
60
38.3%
合计
65
55
120
54.2%
错误的方法
根据2*2四格表卡方检验方法进行 可求得 2 =12.62, p<0.001;
2
(ad bc)2n
(a b)(a c)(bd )(c d )
c2
(
29 26 5 2 42
2 5 )( 26 9 )( 2 26 )( 5
9
)
5.49
x2,1 3.84
P 0.05
结论与之相反。
配对四格表资料的 χ2 检验
与计量资料推断两总体均数是否有差别有成组设 计和配对设计一样,计数资料推断两个总体率(构 成比)是否有差别也有成组设计和配对设计,即四 格表资料和配对四格表资料。
若检验假设H0:π1=π2成立,四个格子的实际频 数A与理论频数T 相差不应该很大,即统计量不
应该很大。如果上述统计量值很大,从而怀疑H0 的正确性,继而拒绝H0,接受其对立假设H1,即 π1≠π2 。
这个统计量就称为卡方统计量。
χ2检验
检验(chi-square test)检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法。
可以分为成组比较(不配对资料)和个别比较(配对,或同一对象两种处理的比较)两类。
一、四格表资料的检验例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者,结果如表20-11,问两种疗法有无差别?表20-11 两种疗法治疗卵巢癌的疗效比较组别有效无效合计有效率(%)化疗组19244344.2化疗加放疗组34104477.3合计53348760.9表内用虚线隔开的这四个数据是整个表中的基本资料,其余数据均由此推算出来;这四格资料表就专称四格表(fourfold table),或称2行2列表(2×2 contingency table)从该资料算出的两种疗法有效率分别为44.2%和77.3%,两者的差别可能是抽样误差所致,亦可能是两种治疗有效率(总体率)确有所不同。
这里可通过检验来区别其差异有无统计学意义,检验的基本公式为:式中A为实际数,以上四格表的四个数据就是实际数。
T为理论数,是根据检验假设推断出来的;即假设这两种卵巢癌治疗的有效率本无不同,差别仅是由抽样误差所致。
这里可将两种疗法合计有效率作为理论上的有效率,即53/87=60.9%,以此为依据便可推算出四格表中相应的四格的理论数。
兹以表20-11资料为例检验如下。
检验步骤:1.建立检验假设:H0:π1=π2H1:π1≠π2α=0.052.计算理论数(TRC),计算公式为:公式(20.13)式中TRC是表示第R行C列格子的理论数,n R为理论数同行的合计数,n C为与理论数同列的合计数,n为总例数。
第1行1列:43×53/87=26.2第1行2列:43×34/87=16.8第2行1列:44×53/87=26.8第2行2列:4×34/87=17.2以推算结果,可与原四项实际数并列成表20-12:表20-12 两种疗法治疗卵巢癌的疗效比较组别有效无效合计化疗组19(26.2)24(16.8)43化疗加放疗组34(26.8)10(17.2)44合计533487因为上表每行和每列合计数都是固定的,所以只要用TRC式求得其中一项理论数(例如T1.1=26.2),则其余三项理论数都可用同行或同列合计数相减,直接求出,示范如下:T1.1=26.2T1.2=43-26.2=16.8T2.1=53-26.2=26.8T2.2=44-26.2=17.23.计算值按公式20.12代入4.查值表求P值在查表之前应知本题自由度。
医学统计学——卡方检验
• ⑵χ2分布具有可加性:如果两个独立的 随机变量X1和X2分别服从ν1和ν2的χ2分 布,那么它们的和(X1+X2)也服从(ν1+ ν2)的χ2分布。
χ2 界值
• ν确定后,如果分布曲线下右侧尾部的 面积为α时,则横轴上相应的χ2值就记 作χ2 α,ν ,即χ2界值。其右侧部分的 面积α表示:自由度为ν时, χ2值大 于界值的概率大小。χ2值与P值的对应 关系见χ2界值表(附表6)。χ2值愈大,P 值愈小;反之,χ2值愈小,P值愈大。
• T22=(c+d)×(1- PC)=(c+d)×(b+d)/n = 56×17/112=8.5
χ2检验的基本思想
• χ2检验实质上是检验A的分布与T的分 布是否吻合及吻合的程度,χ2越小,表
明实际观察次数与理论次数越接近。
• 若检验假设成立,则A与T之差不会很 大,出现大的χ2值的概率P是很小的, 若P≤α,就怀疑假设成立,因而拒绝 它;若P>α,则没有理由拒绝它。
不同自由度的χ2分布曲线图
图 8-1 不同自由度的χ2 分布曲线图
二、χ2检验的基本思想
• 例8-1 某中医院将112例急性肾炎 病人随机分为两组,分别用西药和 中西药结合方法治疗,结果见表8-1, 问两种方法的疗效有无差别?
表8-1 两种方法治疗急性肾炎的结果
组 别 治愈例数 未愈例数 合计 治愈率(%)
例8-2
• 某医师将门诊的偏头痛病人随机 分为两组,分别采用针灸和药物 两种方法治疗,结果见表8-3 , 问两种疗法的有效率有无差别?
两种疗法对偏头痛的治疗结果
疗 法 有效例数 无效例数 合计 有效率(%)
针 灸 33(30.15) 2(4.85) 35 94.29
第六章 χ2检验
二、计算检验统计量:
2 1 4 1 3
2
2 2 2 2 2 2 2 2 30 38 32 12 19 30 19 9 189 1 0 . 69 112 49 112 68 112 51 112 21 77 49 77 68 77 51 77 21
统计:按照α=0.05的检验水准,拒绝H0,接受H1,差异有统计学意义。 专业:结合本例,可以认为三种方法治疗慢性支气管炎的效果不同或 不全相同。
2.两组或多组样本构成比的比较
例6-4:欲了解儿童白血病患者的血型分布是否与成 年患者有所不同,资料见表6-4。试分析儿童白血病 患者与成年患者的血型分布构成比有无差别?
第六章 χ2检验
《医学统计学》余松林主编
本章内容
第三节 独立性检验 第四节 趋势检验 第五节 多个四格表的联合分析 第六节 四格表的费歇尔精确概率检验
第三节 独立性检验
本节介绍应用χ2检验推断两个或两个以 上总体率(或构成比)之间有无差别及 两分类变量间有无相关关系。
一、四格表资料的χ2检验 (两个样本率的比较)
表6-4 儿童急性白血病患者与成人急性白血病患者的血型分布
分组
儿童 成人 合计
A型 30
19 49
B型 38
30 68
O型 32
19 51
AB型 12
9 21
合计 112
77 189
解:
一、建立假设,确定检验水准:
H0:儿童白血病患者与成人患者的血型分布构成比相同 H1:儿童白血病患者与成人患者的血型分布构成比不相同 检验水准α=0.05。
二、计算检验统计量:
医学论文中常用统计分析方法的合理选择
医学论文中常用统计分析方法的合理选择目前,不少医学论文中的统计分析存在较多的问题。
有报道,经两位专家审稿认为可以发表的稿件中,其统计学误用率为90%-95%[1]。
为帮助广大医务工作者提高统计分析水平,本文将介绍医学论文中常用统计分析方法的选择原则及应用过程中的注意事项。
1.t 检验t检验是英国统计学家W.S.Gosset 1908年根据t分布原理建立起来的一种假设检验方法,常用于计量资料中两个小样本均数的比较。
理论上,t检验的应用条件是要求样本来自正态分布的总体,两样本均数比较时,还要求两总体方差相等。
但在实际工作中,与上述条件略有偏离,只要其分布为单峰且近似正态分布,也可应用[2]。
常用的t检验有如下三类:①单个样本t检验:用于推断样本均数代表的总体均数和已知总体均数有无显著性差别。
当样本例数较少(n<60)且总体标准差未知时,选用t检验;反之当样本例数较多或样本例数较少、总体标准差已知时,则可选用u检验[3]。
②配对样本t检验:适用于配对设计的两样本均数的比较,在选用时应注意两样本是否为配对设计资料。
常用的配对设计资料主要有如下三种情况:两种同质受试对象分别接受两种不同的处理;同一受试对象或同一样本的两个部分,分别接受不同的处理;同一受试对象处理前后的结果比较。
③两独立样本t检验:又称成组t检验,适用于完全随机设计的两样本均数的比较。
与配对t检验不同的是,在进行两独立样本t检验之前,还必须对两组资料进行方差齐性检验。
若为小样本且方差齐,则选用t检验;反之若方差不齐,则选用校正t检验(t’检验),或采用数据变换的方法(如取对数、开方、倒数等)使两组资料具有方差齐性后再进行t检验,或采用非参数检验[4]。
此外,当两组样本例数较多(n1、n2均>50)时,这时应用t检验的计算比较繁琐,可选用u检验[5]。
2.方差分析方差分析适用于两组以上计量资料均数的比较,其应用条件是各组资料取自正态分布的总体且各组资料具有方差齐性。
《医学统计学》教学课件 计数资料的统计推断 ——x2检验
2
ad bc2 n
a ca bc db d
11
例8.1
为了解某中药治疗原发性高血压的疗效,将 70名高血压患者随机分为两组。试验组用该 药加辅助治疗,对照组用安慰剂加辅助治疗, 观察结果如表8-1,问该药治疗原发性高血 压是否有效?
12
表8-1 两种疗法治疗原发性高血压的疗效
组别 对照组 试验组 合计
大,说明实际频数和理论频数的差距大,如果假
设检验成立,A与T不应该相差太大。理论上可以
证明
2 ( A T )2
T
服从x2分布,计算出x2值后,查表判断这么大的x2
是否为小概率事件,以判断建设检验是否成立。
7
χ2分布(chi-square distribution)
纵高
0.5 0.4 0.3 0.2 0.1 0.0
P=0.01, x2 =6.63 P=0.05时, v=1, x2 =3.84
v=2, x2 =5.99
9
三、四格表χ2检验
一般格式
处理组 甲组 乙组
四格表格式
发生数 未发生数
a
b
a+b
c
d
c+d
a+c
b+d n=a+b+c+d
10
四格表统计量公式
当n≥40,T≥5时
2
( ARC TRC )2 TRC
21
年级 四年级 五年级
合计
表 8-2 两个年级大学生的近视眼患病率比较
近视
非近视
合计 近视率(%)
2(4.67) 26(23.33)
28
7.14
5(2.33) 9 (11.67)
9-定性资料的统计分析1
计算公式
(( p − p ) − u
1 2
α
× s p1 − p2 , ( p1 − p2 ) + uα × s p1 − p2
)
其中, s p1 − p2 为率之差值的标准误
s p1 − p2 = p1 (1 − p1 ) p 2 (1 − p 2 ) + n1 n2
第三节 Poisson分布简介
常用二项分布(binomial distribution)来描 述其概率分布。
概率的乘法法则:
几个独立事件同时发生的概率,等于各 独立事件的概率之积。
概率的加法法则:
互不相容事件和的概率等于各事件的概 率之和。
例、设小白鼠接受某种毒物一定剂量时, 其死亡率为π=80%,则对于每只小白鼠而 言,其死亡概率为π=0.8,生存概率为1π=0.2。若每组各用三只小白鼠(分别计为 甲、乙、丙),对每只鼠独立做实验,故 各鼠的实验结果(生存或死亡)是互不影 响的。观察每组小白鼠存亡情况,如果计 算生与死的顺序,则共有8种排列方式;如 果只计生存与死亡的数目,则只有4种组合 方式。
0 k
2、最少有k例阳性的概率:
P( X ≥ k ) = ∑ P( X ) = P(k ) + P(k + 1) + ... + P(n) = 1 − P( X ≤ k − 1)
k n
n− X π P ( X + 1) = × P( X ) X +1 1− π
例1、据以往经验,用某药治疗小儿上呼吸道感染、 支气管炎,有效率为85%,今有5个患者用该药 治疗,问:① 至少3人有效的概率为多少?② 最 多1人有效的概率为多少? 本例π =0.85,1-π =0.15,n =5 ,依题意, ①至少3人有效的概率: P(X≥3)=P(3)+P(4)+P(5) =0.138178125+0.391504688+ 0.443705313=0.973388126 ②最多1人有效的概率为: 1 P(X≤1) = P(0) + P(1) = 0.155 + C5 × (0.15)5−1 × 0.85 = 0.00223
研究生医学统计学-X2检验
青岛大学医学院公共卫生系流行病 与卫生统计学教研室 周晓彬制作
H
(1)检验 (1)检验 H 1 : π 1 ≠ π (2)用 (2)用 P =
n +1
0
:π1 = π
2 2
= π ( 分 别 为 样 本 率 P1、 P2 、 P 的 总 体 率 )
α = 0 .0 5
理论上应有: n 近似地代替 π ,理论上应有:
青岛大学医学院公共卫生系流行病 与卫生统计学教研室 周晓彬制作
2011-12-15
本章内容
第一节 χ2分布和拟合优度检验 第二节 四格表资料的χ2检验 第三节 行×列(R×C)表资料的χ2检验 第四节 配对设计四格表资料的χ2检验 第五节 四格表资料的确切概率法
2011-12-15
青岛大学医学院公共卫生系流行病 与卫生统计学教研室 周晓彬制作
第二节
表
2检验 四格表资料的χ
有效 无效 合 计 45 35 有效率 (%) (%) 91.1 68.6
两种疗法的心血管病病死率比较
药物
兰芩口服液 41(36.56) 4(8.44) 银黄口服液 24(28.44) 11(6.56)
合
计
65
15
80
81.3
2011-12-15
青岛大学医学院公共卫生系流行病 与卫生统计学教研室 周晓彬制作
表
反应变量按二项分类的两个独立样本资料 反应结果 阳性 阴性 观察 总频数 阳性 频率
样本 1 样本 2 合计
A11
A21
A12
A22 n+2
n1+ ( 给 定 )
P = A11 n1+ 1
P2 = A21 n2+
优选定性资料统计推断医学统计学
未发生数
合计
甲
a
b
a+b
乙
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
一、 2检验的基本思想
表1
疗法
联合治疗
两种疗法治疗乳腺癌患者存活率比较
生存
死亡
合计
存活率(%)
39 (a)
8(b)
47 (a+b)
83.0
单纯治疗 57(c) 27 (d)
84 (c+d)
67.9
合 计 96 (a+c.) 35 (b+d.) 131(n=a+b+c+d)
2分布的形状依赖于自由度的大小;当自 由度趋向于无穷大时, 2分布趋向正态分布。
2分布(chi-square distribution)
0.3
f
( 2)
1
2(
/ 2)
2
2
(
/ 21)
e2 / 2
0.2
0.1
0.0
0
2
4
6
8
10
2分布规律(附表c5.p569)
▪ 自由度一定时,P值越小, 2值越大。 =1时, P=0.05, 2 =3.84 P=0.01, 2 =6.63
T
上述基本公式由现代统计学的创始人之 一,英国人Karl Pearson(1857-1936)于 1900年提出,因此软件上常称这种检验为
Pearson 2检验(Chi-square test)。
2分布(chi-square distribution)
2分布是一种连续型分布,按分布的密
上海交通大学网络《医学统计学》习题册答案
上海交通⼤学⽹络《医学统计学》习题册答案上海交通⼤学⽹络教育学院医学院分院医学统计学课程练习册第⼀章绪论⼀、单选题1. ⼩概率事件是指P ( B )A.P>0.05 B.P<0.05 C. P >0.01 D. P <0.12. 从⼀个数值变量资料的总体中抽样,产⽣抽样误差的原因是( A )A总体中个体值存在差别B样本中个体值存在差别C样本只含总体的⼀部分D总体均数不等于03. 调查中国放射科医⽣接触射线情况,全国放射科医⽣的全部组成为( A )A.研究总体B.⽬标总体C.研究样本D.⽬标样本4. 若以舒张压90mmHg、收缩压130 mmHg为⾼⾎压阳性临界点,调查3000⼈中有300名⾎压超过临界值,这份资料属于:( B )A. 定量资料B. 分类资料C. 等级资料D. 离散型变量5. 下列属于统计量的指标是( C )A 总体均数B 总体标准差C 样本标准差D 总体率6. 调查某地区⾼⾎压的患病情况,抽样调查了2000名居民,得到了2000对舒张压与收缩压的数据,请问此资料是:( C )A 分类资料B等级资料 C 定量资料D分析后才知7. 下列属于参数的指标是( D )A 样本均数B 样本率C 样本标准差D总体标准差8. ⽤样本做统计推断,样本应是( B )A. 总体中典型⼀部分B. 总体中有代表性⼀部分C. 总体中任意⼀部分D. 总体中信息明确⼀部分9. 统计推断的内容为( D )A. ⽤样本指标估计相应的总体指标B. 检验统计上的“检验假设”C. A和B均不是D. A和B均是10. 随机调查社区2000⼈,得到平均体重为60公⽄,则该资料属于( A )A. 计量资料B. 总体资料C. 计数资料D. 等级资料⼆、名词解释1.抽样误差:由于总体中各观察单位间存在个体变异,抽样研究中抽取的样本,只包含总体的⼀部分观察单位,因⽽样本指标不⼀定恰好等于相应的总体指标。
样本指标与总体指标的差异称为抽样误差。
9-定性资料的统计分析2
英国统计学家Yates F认为,应将实际频数 与理论频数之差的绝对值减去0.5作连续性 校正。
2值公式在四格表的基本数据均不太小时,
近似程度相当高。
但是,当四格表中的有一基本数据出现较
小值,则求得的2值往往偏大,相应的P值
偏小,从而扩大了I型误差。
20.05,1=3.84>2.00,所以 P>0.05。
⑤结论:按=0.05 水准,不能拒绝 H0,
差别无统计学意义。故尚不能认为
两药对控制牙科术后疼痛的疗效不同。
三、四格表资料专用公式
理论频数由四格表中实际频数计算得来
对于四格表资料,可直接用专用公式计算2
值,以简化计算过程。
2
药 物 治 愈 未 愈 合 计治 愈 率 (% )
甲 2 2 8 (4 .7 1 )
3 0
7 3 .3 3
乙 3 7
3
4 0
9 2 .5 0
合 计 5 9
1 1
7 0
8 5 .7 1
①建立检验假设:
H 0: 两 种 药 物 的 胃 溃 疡 治 愈 率 相 等 , 即 1= 2; H 1: 两 种 药 物 的 胃 溃 疡 治 愈 率 不 等 , 即 12。 ② 确 立 检 验 水 准 : = 0.05。 ③ 计 算 检 验 统 计 量 2 值 : 由于 b 格的理论频数最小, T 12= 3 0 11/7 0 = 4 .7 1< 5 且 n> 4 0 , 故 考 虑 用 校 正 公 式 计 算 2 值 。
实际频数Ai与理论频数Ti之间的抽样误差,
可以用2统计量表示:
2
(Ai Ti )2 Ti
医学统计学-第九章计数资料的参数估计与卡方检验
率的标准误的计算公式:
p
(1-)
n
式中,δp 为率的标准误,π为总体率,n为样本含量
在实际工作中,由于总体率π很难知道,常用样本率P来代 替,故公式变为:
sp
Sp为率的标准误的估计值
p(1 p)
n
p为样本率
n为样本含量
方法: 1.查表法:当样本含量较小(如n≤50),特别是np或n(1-p)较小时,p呈偏态 分布, 可根据样本含量n和阳性数x,查相关统计学教材“百分率的可信区间” 表,求得总体率可信区间。 2.正态近似法:当样本含量足够大(如n﹥50),且样本率p或1-p均不太小, 如np和n(1-p)均≥5时,样本率的分布近似正态分布,可按下列公式计算 :
第二步:计算检验统计量
2 ( A T )2
T
式中: A 为实际频数(actual frequency)T 为理论频数(theoretical frequency)
第三步:确定 P 值,得出结论
x2=9.32
ν=(R-1)(C-1)=(2-1)(2-1) 由 2界值表查得 20.05,1 = 3.84 ,
组别 有效 无效 合计
H0成立下的有效率(%)
中药
T11
T12
160
西药
T21
T22
140
72.7% 72.7%
合计 218
82
300
72.7%
T11 =160 ×72.7%= 160×(218/300)=116.3 T12 =160 ×(1-72.7%)= 160×(82/300)=43.7 T21 =140 ×72.7%= 140×(218/300)=101.8 T22 =140×(1-72.7%)= 140×(82/300)=38.2
《医学统计学》第九章X的平方检验
(3 1) (2 1) 2
3. 确定 P 值,作出推断结论
查界值表得 P < 0.05 ,在α=0.05 的检验水准下,拒绝 H0,接受 H1,可以认为三种
疗法的有效率有差别。
医学统计学(第7版)
实例
➢ 例9-6 某研究人员收集了亚洲、欧洲和北美洲,结果见下表,问不同地区人群的血型
1 : 三种治疗方案的总体有效率不全相等
0.05
2. 计算检验统计量,计算 χ2 值:
512
49 2
35 2
45 2
59 2
15 2
254 (
- 1)
100 145 100 109 80 145 80 109 74 145 74 109
2
254 (0.1794 0.2203 0.1056 0.2322 0.3244 0.0279-1)
2
方法。
了解
在小样本情况下的Fisher确切概率法原理及应用, 检验的
2
注意事项。
第一节
四格表资料的 检验
2
医学统计学(第7版)
一、四格表 检验的原理
2
2 检验(chi-square test):英国统计学家Pearson提出的一
种主要用于分析分类变量数据的假设检验方法,该方
法主要用途是推断两个或多个总体率及构成比之间有
2. 计算检验统计量
6 25 3 24 58 / 2 58
0.376
2
2
c
49 9 28 30
3. 确定 P 值,作出推断结论
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
29 41
48.28 39.02
H0:1=2; H1:12; =0.05。 本例a格的理论频数最小,T11=1216/41=4.68<5, n>40,故考虑用校正公式计算2 值。
2 C
( 2 15 1014 41/ 2) 12 2916 25
2
41
2 2.36 0.05,1 3.84
(二)2检验的基本思想
例4-6-1 据临床研究,一般的胃溃疡病患者有25%会出现胃出 血症状。某医院观察了300例65岁的胃溃疡病患者,其中有99例 发生胃出血,占33.0%,问老年患者是否较一般患者易出血? 表中基本数据是a,b,c,d,其余数 据都是从这四个基本数据推算出 表4-6-1 131例胃癌患者治疗后5年存活率的比较 来的,这种资料称为四格表资料。 存活率(%) 存活数 死亡数 合计治疗数
(即多个率或构成比的比较)
上述两个样本率比较的资料,其基本数据只 有2行2列,称为2 ×2表或四格表资料。当基 本数据超过2行或2列的资料,就称为行×列 表或 R × C表资料。行×列表资料的2检验 主要用于多个样本率或多个构成比之间的比 较。
2 值的计算可按前述基本公式( 2 =∑(A-
2
计算统计量Z :
z
0.33 0.25
0.25 (1 0.25) / 300
3.20
. 确定P 值和判断结果:
Z0.01=2.326,得P<0.01,按=0.05水 准拒绝H0,接受H1。 认为老年胃溃疡病患者的胃出血率大于 20%,即老年患者较一般患者易出血.
(二)两样本率的比较
3.确定P 和判断结果:=(2-1)×(2-1)= 1;查2界 值表,20.05=3.84, 所以P>0.05,按=0.05水准不拒绝H0,差别无统计 学意义。故尚不能认为单纯手术疗法与联合疗法对胃 癌患者治疗效果有差别。
四格表资料专用公式
由于理论频数均是从四格表中实际频数计算出来的, 故2 检验公式可以简化,直接用下列专用公式计算2 2 值。 (ad bc) n
(2 1)(2 1) 1
3.确定P 值,作出统计推断:
2 查 =7.88,P<0.005, 0.05 按水准,拒 0.005,1 绝H0,接受H1,差异有统计学意义,可认为甲乙两种方法的测 定结果有差别,甲法测定阳性率较高。
2 界值表,得
(五)行×列表资料的2检验
两个样本率比较的目的是推断两总体率是否相等。检验 方法可用Z 检验和后面介绍的2检验。Z 检验公式为:
p1 p2 Z S p1 p2 | p1 p2 | 1 1 pc (1 pc )( ) n1 n2
式中:p1、p2分别为两样本率;n1、n2分别为两样本 例数; X1 X 2 pc为合计率: pc n n
第六节 定性资料的统计分析
一、两个率比较的Z检验
当样本含量n足够大,样本率p或1-p 均不太小时(如np和n(1-p)均大于5), 样本率的分布近似正态分布。样本率和总 体率之间、两个样本率之间的比较可用Z 检验(Z test) 。
(一)样本率与总体率的比较 样本率与总体率比较的目的是推断该样本 是否来自某已知总体。统计量Z 的计算为:
例4-6-7 某医院采用甲乙两种方法测定60例一种肿瘤患者 体内某基因表达阳性率,甲法测定阳性率为70.0%,乙法 测定阳性率为38.3%,两种方法一致测定阳性率为26.7 %。为比较甲乙两种方法的测定阳性率是否有差异?
表4-6-7 两种方法测定结果比较
甲 法
乙 法 合 计
+
+ - 合 计 16(a) 7(c) 23
2检验的基本公式: 2 =∑(A-T)2/T 式中:A代表每个格子的实际频数( actual frequency ),即表中 R C 的基本数据;T代表每个格子的理论频数( theoretical frequency )。
n n T n
从公式中可以看出: 2值反映的是实际频数与理论 频数的吻合程度。
Z
p ห้องสมุดไป่ตู้
p
p 0
0 (1 0 ) / n
例4-6-1 据临床研究,一般的胃溃疡病患者有25%会出 现胃出血症状。某医院观察了300例65岁的胃溃疡病患 者,其中有99例发生胃出血,占33.0%,问老年患者是 否较一般患者易出血?
本例,样本率为25%,np和n(1-p)均大于5,可采用 Z 检验。 检验假设: H0:=0, 老年胃溃疡病患者的胃出血率等于25 %; H1:>0, 老年胃溃疡病患者的胃出血率大于25 %。 单侧=0.05。
2
(a b)(c d )(a c)(b d )
式中a、b、c、d分别为四格表的四个实际频数,总例 数n =a+b+c+d。仍以表4-6-1资料为例计算2值 , 可见结果同前:
(39 27 8 57) 2 131 2 3.52 47 84 96 35
用正态近似检验,检验统计量Z为:
Z
0.679 0.830 0.733 (1 0.733)(1 / 47 1 / 84)
1.874
Z0.05=1.96,得P >0.05, 差别无统计学意义,按=0.05水 准,不拒绝H0。故尚不能认为单纯手术疗法与联合疗法对食道 癌患者治疗效果有差别。
-
26(b) 11(d) 37 42 18 60
由于甲乙两法一致阳性数a和一致阴性数d相同,如果要比较甲 乙两法何者为优,只要比较b和c即可,采用配对2检验
配对2 检验专用公式为:
(b c) bc
2
2
若b+c<40,应该对式进行校正,校正公式为:
(| b c | 1) bc
注意:这里所介绍的两样本率比较的Z 检验, 当n1p1、n2p2、n1 (1p1)、n2 (1-p2)均大于5才适 用,如果n 较小,则可以用校正的Z 检验公式:
Zc n | p1 p2 | 2 1 1 pc (1 pc )( ) n1 n2
而当n 很小时(比如n≤40时),须用确切概率法 (见2检验部分内容)。
表4-6-3 某地各年度学生肥胖检出率的比较(%)
年份
贫血人数
正常人数
合计
检出率(%)
2000
2001
279
271
4702
2089
4981
2360
5.60
11.48
2002
2003 合计
367
784 1701
2161
4199 13151
2 C
2 C
( A T 0.5) 2 T
2
( a d b c n / 2) n ( a b )(c d )(a c )(b d )
使用校正公式的条件:理论频数T 1≤T<5),且总例 数n≥40; 注意:当n和T过小,如T<1或n<40时,不宜用2检 验,而应改用确切概率法。
1 2
例4-6-2 某肿瘤医院4年来共治疗食道癌患者131例,每例均 观察满5年,其中单纯手术治疗组观察84例,存活57例,存活 率p1=67.9%,联合治疗(手术+术后化疗)组观察47例,存活 39例,存活p2=83.0%,问两组存活率有无差别?
两样本率比较的检验假设为: H0:两总体存活率相等,即1=2; H1:两总体存活率不等,即12。 = 0.05。
T)2/T ),但用下式计算更为方便,两式等价。
A n( 1) n R nC
2
式中,A为第R行第C列对应的实际频数,nR为第R行 的行合计,nC为第C列的列合计,n为总样本含量。
例4-6-4 某地调查了2002~2005四个年度中 小学男生的肥胖检出状况,见表4-6-3,问各年 度间学生肥胖率有无差别?
例4-6-3 表4-6-2资料是表示使用强的松与使 用甲氨蝶呤药对系统性红斑狼疮的疗效,问两组 患者总体的完全缓解率有无差别?
表4-6-2 两组药物的缓解率比较
治疗组
缓解
未缓解
合计
缓解率(%)
强的松
2(4.68)
10(7.32)
12
16.67
甲氨蝶呤 合 计
14(11.32) 16
15(17.68) 25
=(行数一1)(列数一1) 四格表是由2行2列组成的,故 =1。
(三)四个表资料的2检验
基本步骤: 1.建立假设:H0:1=2 ;H1:12 ,α= 0.05。 2.计算理论值和2统计量:
(39 34.44) 2 (8 12.56) 2 (57 61.56) 2 (27 22.44) 2 2 3.52 34.44 12.56 61.56 22.44
2
2
1.建立检验假设,确定检验水准: H0:两种方法测定的阳性率相同,即B = C H1:两种方法测定的阳性率不同,即B ≠ C
0.05
2.计算检验统计量值: 本例由于为b+c = 26 + 7 = 33<40,按校正公式计算:
2
( 26 7 1) 2 26 7
9.818
如果实际频数与理论频数的差别是由抽样误差造成 的,即H0假设成立,则实际频数与理论频数应该比较接 近, 其2值 也就应该比较小;反之,如果2值较大, 则说明实际频数与理论频数相差较大,超出了抽样误差 所能解释的范围,就认为H0假设不成立,即两样本对应 的总体率不等, 2 值越大,就越有理由认为H0假设不 成立。
39(a) 57(c) 96(a+c) 8(b) 27(d) 35(b+d) 47(a+b) 84(c+d) 131(n=a+b+c+d) 83.0 67.9 73.3