祝晓明《医学统计学》医统-第九章卡方检验共58页

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表9-5 A、B两种培养基的培养结果
上述配对设计实验中,就每个对子而言,两种处 理的结果不外乎有四种可能:
a ① A、B两种检测方法皆为阳性数(?); d ② A、B两种检测方法皆为阴性数 (?); b ③ A法为阳性、B法为阴性数 (?); c ④ A法为阴性、B法为阳性数 (?)。
其中,a, d 为两法观察结果一致的两种情况,
医学统计学
第九章 2检验
公共卫生系 流行病与卫生统计学教研室
祝晓明
一、率
率(rate):率表示在一定空间或时间范围内 某现象的发生数与可能发生的总数之比,说明 某现象出现的强度或频度,通常以百分率 (%)、千分率(‰)、万分率(/万)、或 十万分率(/10万)等来表示。
你们班级的及格率,挂科率怎么算?
b, c为两法观察结果不一致的两种情况。
检验统计量(McNemar test)
注意:
本法一般用于样本含量不太大的资料。因 为它仅考虑了两法结果不一致的两种情况
(b, c),而未考虑样本含量n和两法结果一 致的两种情况(a, d)。所以,当 n 很大且 a 与 d 的数值很大(即两法的一致率较高), b 与 c 的数值相对较小时,即便是检验结
阳性
8 0
阴性
1 8
a-Ta -3.76
7
2
2
1
7
-2.76
3
6 2
3 6
-1.76
5
4
4
3
5
-0.76
4
5
5
4
4
0.24
3
6
6
5
3
1.24
7*
2
7
6
2
2.24*
8
1 7
8 1
3.24
0
9
9
8
0
4.24
* 为实际数据的四格表
P 0.000370 0.011847 0.096750 0.290251 0.362814 0.193501 0.041464* 0.002962 0.000041
要求:两样本的两分类个体数排列成 四格表资料
要考查西安医学院临床专业01班和02班 的系统解剖的及格率,从01班抽取20人 (其中15人及格,5人挂科),从02班抽 取30人(其中20人及格,10人挂科)。 问这两个班级的及格率有无不同?哪个 班级学习成绩更好?
四格表资料的基本形式
处理组 发生数 未发生数 合计
第二节 配对四格表资料的 χ2 检验
与计量资料推断两总体均数是否有 差别有成组设计和配对设计一样,计 数资料推断两个总体率(构成比)是 否有差别也有成组设计和配对设计, 即四格表资料和配对四格表资料。
例9-4 现有198份痰标本,每份标本分别用A、 B两种培养基培养结核菌,问A、B两种培养基 的阳性培养率是否不等?
2 检验(chi-square test):英国统计学家
Pearson提出的一种主要用于分析分类变 量数据的假设检验方法.
目的:
推断两个总体率或构成比之间有无差别 推断多个总体率或构成比之间有无差别 检验统计量:χ2 应用:计数资料
Karl Pearson
第一节 四格表资料的χ2 检验
目的:推断两个总体率(构成比)是 否有差别
二、四格表资料χ2检验的专用公式
专用公式:
2
(ad bc)2 n
(a b)(c d )(a c)(b d )
2 (20 5 24 21)2 70 8.40
44 26 41 29
结论同前。
三、四格表资料χ2检验的校正公式
χ2分布是一连续型分布,而四格表资料属离散型分 布,由此计算得的 χ2统计量的抽样分布亦呈离散性质。 为改善χ2 统计量分布的连续性,则需行连续性校正。
四、四格表资料的Fisher确切概率法(自学)
当四格表资料中出现n<40 或T <1,需改用四格表 资料的Fisher确切概率法。该法是一种直接计算 概率的假设检验方法,其理论依据是超几何分布 (hypergeometric distribution)。四格表的确切 概率法不属于检验的范畴,但常作为四格表资料 假设检验的补充。
2 (20 25.77)2 (24 18.23)2 (2115.23)2 (5 10.77)2 8.40
25.77
18.23
15.23
10.77
(2 1)(2 1) 1
3.确定P 值,作出推断结论
0.5
0.4
0.3
×Ô ÓÉ ¶È £½ 1
0.2
×Ô ÓÉ ¶È £½ 2
2) 根据专业知识,删去理论频数太小的行或 列,或将理论频数太小的行或列与性质相近 的邻行或邻列合并。例如:不同年龄组可以 合并,但不同血型就不能合并。
3) 改用双向无序R×C表的Fisher确切概率法 (可用SAS软件实现)。
2.多个样本率比较:若所得统计推断为拒绝 H0,接受H1时,只能认为各总体率之间总 的来说有差别,但不能说明任两个总体率之 间均有差别。要进一步推断哪两两总体率之 间有差别,需进一步做多个样本率的多重比 较。
果有统计学意义,其实际意义往往也不大。
1.建立检验假设并确定检验水准 H0:B=C,即两种培养基的阳性培养率相等 H1:B≠C,即两种培养基的阳性培养率不相等 α =0,05
2.计算检验统计量 本例b+c>40,用非校正公式计算得
2 (24 - 20)2 0.36, 1
24 20
3.双侧累计概率P值为 P = P (1) + P (2) + P (7) + P (8) + P (9)
=0.000370 + 0.011847 + 0.041464 + 0.002962 + 0.000041=0.057
所得P 值,在α=0.05检验水准下,不拒绝 H0 , 还不能认为预防注射组与非预防组的新生白兔 HBV的总体感染率不等。
表9-7 三个不同地区血型样本的频分布
地区
A
B
AB
O
亚洲
321
369
95
295
欧洲
258
43
22
194
北美洲
408
106
37
444
合计
987
518
154
933
H0? H1?
合计 1080 517 995 2592
行×列表资料 χ2 检验的 注意事项
1.理论频数:行列表中的各格T≥1,并且1≤T
<5的格子数不宜超过1/5格子总数,否则可能 产生偏性。处理方法有三种: 1) 增大样本含量以达到增大理论频数的目的, 属首选方法,只是有些研究无法增大样本含量, 如同一批号试剂已用完等。
有效 51 35 59 145
无效 49 45 15 109
合计 100
80 74 254
有效率(%) 51.00 43.75 79.73 57.09
H0? H1?
例9-6 某研究人员收集了亚洲、欧洲和北美洲人 的A、B、AB、O血型资料,结果见表9-7,问不 同地区人群ABO血型分类构成比是否不同。
检验的自由度取决于可以自由取值的格子数目,
而不是样本含量n。四格表资料只有两行两
列,ν=1,即在周边合计数固定的情况下,4个基 本数据当中只有一个可以自由取值。
检验步骤: 1.建立检验假设并确定检验水准 H0:π1=π2 即试验组与对照组的总体有效率相等 H1:π1≠π2 即试验组与对照组的总体有效率不等
检验统计量
2
(A T)2 T
2 n(
A2 1) nR nC
(行数 1)(列数 1)
例9-5 某医院用3种方案治疗急性肝炎254例,观察 结果如下,问3种方案治疗急性肝炎的有效率是否不 同。
表9-6 3种方案治疗急性肝炎的效果
组别 西药组 中药组 中西药结合组 合计
H1:1 2 ,即两组新生白兔HBV的总体感染率不相等
0.05
2.计算概率 根据公式计算各种组合的四格表概率,结果见表
9-4。例如实际观察到的四格表资料的概率为
P* 9!8!8!9! 0.041464 7!2!2!6!17!
表9-4 各种组合的四格表计算的概率
四格表序号 1
计算公式如下:


某事物或现象发生的实 际数 某事物或现象发生的所 有可能数
比例基数
二、构成比
构成比( proportion ):表示某事物内部 各组成部分在整体中所占的比重,常以百分 数表示。
调查下:你们当中多少人用国产手机? 非国产手机?
计算公式为
构成比

该事物内部某一组成部分的观察单位数(例数) 某事物内部的所有观察单位之和(例数之和) 100%
×Ô ÓÉ ¶È £½ 3
0.1
×Ô ÓÉ ¶È £½ 6
0.0
0
3
6
9 12 15 18
¿¨·½ Öµ
Ý×߸
当自由度ν确定后,χ2分布曲线下右侧尾部的面积 为α时,横轴上相应的χ2值记作χ2α,ν
查χ2界值表,得χ20.05,1=3.84,按α =0.05 水 准, 拒绝H0 , 接受H1 , P<0.05,可 以认为两组治疗原发性高血压的总体有 效率不同,即可认为吲达帕胺片治疗原 发性高血压是有效的。
α=0.05
2.计算检验统计量
按公式计算T11 ,然后利用四格表的各行列的合计数计算T12 、T21
和T22 ,即
T11 = (44×41)/70=25.77, T12 =44-25.77=18.23
T21 =41-25.77=15.23, T22 =26-15.23=10.77
按公式(9-1)计算 2 值
3.行×列表资料卡方检验与分类变量的顺序无关。 ①有序的R×C 表资料两组(或多组)疗效(痊 愈、显效、有效、无效)的比较不宜用卡方检验。 ②有序的R×C 表资料两组(或多组)构成比 (痊愈、显效、有效、无效)的比较可用用卡方 检验。 单向有序表资料,宜选用秩转换的非参数检验; 分析两个有序分类变量间是否存在相关关系,宜 用等级相关分析。
n 40, 1 T 5,校正公式;
n 40 或 T 1,直接计算概率。
例9-2 某医师欲比较胞磷胆碱与神经节苷酯治疗脑 血管疾病的疗效,将58例脑血管疾病患者随机分为 两组,结果见表。问两种药物治疗脑血管疾病的有 效率是否相等?
1.建立假设,设定检验水准
H

0
1

2即两种药物治疗脑血管疾病的有效率相等
统计量χ2不应该很大。如果χ2值很大,即相
对应的P 值很小,若 P≤α,则反过来推断A 与T 相差太大,超出了抽样误差允许的范围, 从而怀疑H0的正确性,继而拒绝H0,接受其 对立假设H1,即π1≠π2 。
自由度ν愈大,χ2 值也会愈大;所以 只有考虑了自由度ν的影响,χ2 值才 能正确地反映实际频数A和理论频数T 的吻合程度。
H1:1 2 即两种药物治疗脑血管疾病的有效率不相等
0.05
2.计算检验统计量
c2


6
25
3 24 49 9
58 / 22
28 30

58

0.376
(2 1)(2 1) 1
3.确定P 值,作出推断结论
不拒绝H0,尚不能认为两种药物治疗脑血管疾 病的有效率不相等
A 为实际频数,T 为理论频数, 为自由度。
理论频数计算公式
Tij

nin j n
Tij 为第 i 行第 j 列的理论频数,ni 和nj 分别为
相应行与列的周边合计数,n 为总例数。
检验统计量χ2 值反映了实际频数 与理论频数的吻合程度。
若检验假设H0:π1=π2成立,四个格子的实 际频数A 与理论频数T 相差不应该很大,即
χ2连续性校正仅用于ν =1 的四格表资料,当ν≥2
时,一般不作校正。
校正公式:

2 c

( A T 0.5)2 T
c2
=
(| ad (a +b)(c
- bc | -n / + d )(a +
2)2 n c)(b +
d
)
Frank Yates
四格表资料χ2 检验公式的选择:
n 40, T 5,基本公式/专用公式;
3.确定P值,作出推断结论 P >0.05,不拒绝H0,尚不能认为两种培养基的
阳性培养率不同
第三节 行×列表资料的χ2检验
行×列表资料
① 多个样本率比较时,
有 R 行 2源自文库列,称为 R ×2表;
② 两个样本的构成比比较时,
有 2 行 C 列,称 2×C 表;
③ 多个样本的构成比比较,
有 R 行 C 列,称为 R ×C 表。
例9-3 某研究者为研究乙肝免疫球蛋白预防白兔胎 儿宫内感染HBV的效果,将17例HBsAg阳性白兔 随机分为预防注射组和非预防组,观察两组所产出 的新生白兔HBV感染情况,结果见表9-3。问两组 新生白兔的HBV总体感染率有无差别?
1.建立检验假设并确定检验水准
H

0
1
2
,即两组新生白兔HBV的总体感染率相等

a
b
a+b

c
d
c+d
合 计 a+c
b+d
n
例9-1 吲达帕胺片治疗原发性高血压疗效,将70名高 血压患者随机分为两组,试验组用吲达帕胺片加辅 助治疗,对照组用安慰剂加辅助治疗。试分析有效 性。
一、 2检验的通用公式
通用公式:
2 ( A T )2
T
=(行数-1)(列数-1)
相关文档
最新文档