医学统计学--卡方检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
பைடு நூலகம்
笃 学
精 业
修 德
厚 生
6
2 ( A T ) 2值的大小还取决于 个数的多少(严 T 2 ( A T ) 格地说是自由度 的大小)。由于各 皆是 T 2
正值,故自由度 愈大, 值也会愈大;所以只 2 值才能正确地反映 有考虑了自由度 的影响,
实际频数 A和理论频数 T 的吻合程度。检验时, 要根据自由度 查 2 界值表。当 2≥ 2时, P , ,
2 中,若拒绝无效假设
H0只能做出总的结论,但还不知道哪两
个率之间有差别。若想知道哪两个率之间
有差别,还要进行两两比较,本节介绍两
两比较的方法之一:行×列表的分割。
笃 学
精 业
修 德
厚 生
30
4.行×列表的分割 (一)多个实验组间的两两比较 由于要做重复多次的假设检验,需对第Ⅰ 类错误作校正,新的校正检验水准为:
第七章 掌握内容:
2 检 验
1.检验的基本思想和用途 2.成组设计四格表资料检验的计算及应用条件
3.配对设计四格表资料检验 4.行列表资料检验及应用时应注意的问题 5.频数分布拟合优度的检验 了解内容 1.四格表资料的Fisher精确概率法的基本思想 与检验步骤
笃 学 精 业 修 德 厚 生
2 检验是一种用途很广的假设检验方
处理组 1 2 属性 阳性 阴性 合计
合计
a (T11) c (T21) m1
b (T12) d (T22) m2
n1(固定值) n2(固定值) n
要想知道处理组1,2之间差别是否有统计学意义, 常用 2 检验统计量来作假设检验。
笃 学 精 业 修 德 厚 生
5
其基本公式为:
2
(A T) T
③多个样本的构成比比较,以及双向无序分类资料
关联性检验时,有R行C列,称为 R C 表。
以上3种情况可统称为行×列表资料。
笃 学
精 业
修 德
厚 生
26
2 2 行×列表资料的 检验仍可用Pearson 公式,
但用下列专用公式,计算简单, 2 A 2 n( 1) , (行数-1)(列数-1) n R nC 1. 多个率的比较 例 2. 多个构成比的比较 例
笃 学 精 业 修 德 厚 生
28
(二).多个样本率比较,若所得统计推断为 拒绝H0,接受H1时,只能认为各总体率之 间总的来说有差别,但不能说明任两个总
体率之间皆有差别。要进一步推断哪两总
体率之间有差别,需进一步做多个样本率 的多重比较。
笃 学
精 业
修 德
厚 生
29
4.行×列表的分割
在行×列表的
2 时, 拒绝 H 0 ,接受 H 1;当 2 P ,尚没有 , 理由拒绝 H 0 。 而自由度 1。
笃 学
精 业
修 德
厚 生
7
2 二、 检验的检验步骤
1.建立检验假设 H 0 : 1 2 ,两总体率相等
H1 : 1 2 ,两总体率不等
0.05
笃 学
精 业
修 德
厚 生
10
两样本率比较的资料,既可用
u 检验
也可用 2检验来推断两总体率是否有差别,
且在不校正的条件下两种检验方法是等价的,
对同一份资料有
u 2。 2
笃 学
精 业
修 德
厚 生
11
例 为了解铅中毒病人是否有尿棕色素增加现 象,分别对病人组和对照组的尿液作尿棕色素 定性检查,结果见下表,问铅中毒病人与对照 人群的尿棕色素阳性率差别有无统计学意义?
精 业
防护服种类
合计 15 28 43
新
旧 合计
笃 学
32
修 德
厚 生
14
本例n>40,因有一格子的理论数<5,因而要 2 用校正 检验。
H0:两组工人皮肤炎总体患病率相等,即 1 2
H1:两组工人皮肤炎总体患病率不等,即 1 2
0.05
校正 2 值为:
2 2 (| 1 3 . 84 | 0 . 5 ) (| 14 11 . 16 | 0 . 5 ) 2 3.84 11.16 (| 10 7.16 | 0.5) 2 (| 18 20.84 | 0.5) 2 7.16 20.84 2.94
2
(7.1)
2 ( A T ) 理论频数的吻合程度,其中 反映了某个格子 T
2 由公式(7.1)可以看出: 值反映了实际频数与
实际频数与理论频数的吻合程度。若检验假设 H 0 成
立,实际频数与理论频数的差值会小,则 2值也
论频数的差值会大,则 值也会大。
2
会小;反之,若检验假设H 0不成立,实际频数与理
N , k ( k 1) N 2
笃 学
精 业
修 德
厚 生
31
例:某医师分别用西药,中药和中西药
结合治疗恶性肿瘤,结果如下表:
表
对比组 西药组 中药组 中西药结合组 合计
三种疗法效率
有效 51 35 59 145 无效 49 45 15 109 合计 100 80 74 254
笃 学 精 业 修 德 厚 生
13
例2 某矿石粉厂生产一种矿石粉时,在数天内即有部分 工人患有职业性皮肤炎。后随机抽取15名工人穿新防护 服,其余仍穿原用的防护服,一个月后检查两组工人的 皮肤炎患病情况,资料见下表,问两组的患病率差别有 无统计学意义? 表 穿新旧防护服工人的皮肤炎患病比较 皮肤炎症 阳性数 阴性数 1(3.84) 14(11.16) 10(7.16) 18(20.84) 11
用专用公式:
2 2 ( ad bc ) n ( 29 28 7 9 ) 73 2 (a b)(c d )(a c)(b d ) 36 37 38 35 23.12
下结论: 2 以 =1查 界值表, P 0.05 ,按 0.05 检 验水准拒绝H 0,接受H ,可认为两总体率不同; 1
bc 2 bc 2 [b ] [c ] 2 2 2 bc bc 2 2
化简后得到,2 统计量的计算公式为:
2
笃 学
(b c )2 bc
精 业 修 德 厚 生
20
若 b c 40, 需对上述公式校正, 校正公式为:
(| b c | 1) bc
H0 : B C ,即两种方法的总体检测结果相同
B C ,即两种方法的总体检测结果不相同 H1 : 0.05
2. 计算统计量 由于 b c 28 40 ,需作连续性校正,计 算卡方值:
2 (| 22 6 | 1 ) 2 8.04 22 6
笃 学
精 业
笃 学 精 业 修 德 厚 生
27
2 3. 行×列表资料 检验的注意事项
(一).一般认为,行×列表中的理论频数 不应小于1,或 1 T 5 的格子数不宜超过格子 总数的 1 / 5。若出现上述情况,可通过以下方 法解决:①最好是增加样本含量,使理论频 数增大;②根据专业知识,考虑能否删去理 论频数太小的行或列,能否将理论频数太小 的行或列与性质相近的邻行或邻列合并;③ 改用双向无序表的Fisher确切概率法(可用 SAS软件实现)。
修 德
厚 生
23
3. 作出统计推断 ……
笃 学
精 业
修 德
厚 生
24
第三节
行×列表的χ2检验
行×列表资料的检验,用于多个样本
率的比较、两个或多个构成比的比较、以
及双向无序分类资料的关联性检验。其基
本数据有以下3种情况:
笃 学
精 业
修 德
厚 生
25
第三节
行×列表的χ2检验
①多个样本率比较时,有R行2列,称为 R 2 表; ②两个样本的构成比比较时,有2行C列,称为 2 C 表;
(2)当总例数 n 40且只有一个格子的 1 T 5 时:用四格表资料 2检验的校正公式;或改用四
格表资料的Fisher确切概率法。
校正公式 校正公式
笃 学
c2
( A T 0.5) 2 T
n 2 ( |ad-bc|2) n 2 c = (a+b)(c+d)(a+c)(b+d)
法。本章只介绍它在分类变量资料中的应用,
即推断两个及多个总体率或总体构成比之间
有无差别,两种属性或两个变量之间有无关
联,以及频数分布的拟合优度检验等。
笃 学
精 业
修 德
厚 生
2
第一节 四格表资料的2 检验 一、检验的基本思想 以两样本率比较的 检验为例,介绍
2 2
检验的基本思想。
2 分布是一种连续型分布 ,它的形状依赖于自 由度 的大小,当自由度 ≤2时,曲线呈L型; 随着 的增加,曲线逐渐趋于对称;当自由度 →∞时, 分布趋向正态分布。 2 分布具有可加性。
可见,两个变量阳性率的比较只和 b 、
ab ac bc = - = n n n
而与
a 、d
无关。
c
有关,
H0 : B C ,即两种方法的总体检测结果相同
B C ,即两种方法的总体检测结果不相同 H1 : 0.05
笃 学
精 业
修 德
厚 生
19
若H0 成立,变量1与变量2所示的结果不一致的 两个格子理论频数都应该是 (b c) / 2 基本思想得 : 。由2 检验
表
组别 铅中毒病人
两组人群尿棕色素阳性率比较
阳性数 29 (18.74) (19.26) 阴性数 7 (17.26) (17.74) 合计 36 阳性率 (%) 80.56
对照组
合计
笃 学
9
38
28
35
37
73
24.32
52.05
厚 生
12
精 业
修 德
2 2 2 2 ( 29 18 . 74 ) ( 7 17 . 26 ) ( 9 19 . 26 ) ( 28 17 . 74 ) 2 18.74 17.26 19.26 17.74 23.12
笃 学
精 业
修 德
厚 生
17
表7-2 两个变量阳性率比较的一般形式和符号
变量1 阳性 阴性 变量2 阳性 阴性 合计
a c
m1
b d
合计
n1 ab 变量1的阳性率= = n n
笃 学 精 业
m2
n1 n2
(固定值) n
m1 ac 变量2的阳性率= = n n
修 德 厚 生
18
变量1的阳性率-变量2的阳性率
精 业
修 德
厚 生
9
(3)当 n 40,或 T 1 时,不能用 2检验, 改用四格表资料的Fisher确切概率法。
3.作出统计结论
以 =1查 2界值表,若 P 0.05,按 0.05 检验水准拒绝H ,接受H ,可认为两总体率不 0 1 同;若 P 0.05 ,按检验水准 0.05 不拒绝 H 0, 尚不能认为两总体率不同。
2
2
笃 学
精 业
修 德
厚 生
21
例 某研究室用甲乙两种血清方法检查鼻咽癌 患者血清93份,结果如下表,问两法的检出率 有无差别?
表 两种血清学检查结果比较
甲 法
+ -
乙 + 45 6
法 - 22 20
合 计
67 26
合 计
51
42
93
笃 学
精 业
修 德
厚 生
22
1. 建立假设检验,确定检验水准。
笃 学 精 业 修 德 厚 生
3
表7-1 完全随机设计两样本率比较的四格表
处理组 1 2 属性 阳性 A11 (T11) A (T21)
21
阴性 A12 (T12) A (T22)
22
合计
合计
m1
m2
n1(固定值) n2(固定值) n
笃 学
精 业
修 德
厚 生
4
表7-1 完全随机设计两样本率比较的四格表
2.计算检验统计量 (1)当总例数大于40且所有格子的理论数大
于5时:用检验的基本公式或四格表资料检验
的专用公式; 基本公式
笃 学 精 业
2 ( A T ) 2 T
修 德
厚 生
8
专用公式
2 ( ad bc ) n 2 (a b)(c d )( a c)(b d )
笃 学
精 业
修 德
厚 生
16
第二节
配对四格表资料的2检验
属于配对设计的两组频数分布的2检验。 这类问题的原始数据可以表示为表7-2所示的
四格表形式。表7-2和表7-1的区别仅在设计
上,前面是两个独立样本,行合计是事先固 定的;而这里的“两份样本” 互不独立,样 本量都是n,是固定的,而行合计与列合计 却是事先不确定的。
笃 学
精 业
修 德
厚 生
15
P 0.05,按 0.05 检 以 =1查 2界值表,
验水准不拒绝 H ,接受H 1 ,尚不能认为穿不同 0 防护服的两组工人的皮肤炎患病率的差别有统 计学意义; 注意:本例若不作连续性校正,则 2 4.33 , 得 P 0.05 ,可见两者是有区别的。
笃 学
精 业
修 德
厚 生
6
2 ( A T ) 2值的大小还取决于 个数的多少(严 T 2 ( A T ) 格地说是自由度 的大小)。由于各 皆是 T 2
正值,故自由度 愈大, 值也会愈大;所以只 2 值才能正确地反映 有考虑了自由度 的影响,
实际频数 A和理论频数 T 的吻合程度。检验时, 要根据自由度 查 2 界值表。当 2≥ 2时, P , ,
2 中,若拒绝无效假设
H0只能做出总的结论,但还不知道哪两
个率之间有差别。若想知道哪两个率之间
有差别,还要进行两两比较,本节介绍两
两比较的方法之一:行×列表的分割。
笃 学
精 业
修 德
厚 生
30
4.行×列表的分割 (一)多个实验组间的两两比较 由于要做重复多次的假设检验,需对第Ⅰ 类错误作校正,新的校正检验水准为:
第七章 掌握内容:
2 检 验
1.检验的基本思想和用途 2.成组设计四格表资料检验的计算及应用条件
3.配对设计四格表资料检验 4.行列表资料检验及应用时应注意的问题 5.频数分布拟合优度的检验 了解内容 1.四格表资料的Fisher精确概率法的基本思想 与检验步骤
笃 学 精 业 修 德 厚 生
2 检验是一种用途很广的假设检验方
处理组 1 2 属性 阳性 阴性 合计
合计
a (T11) c (T21) m1
b (T12) d (T22) m2
n1(固定值) n2(固定值) n
要想知道处理组1,2之间差别是否有统计学意义, 常用 2 检验统计量来作假设检验。
笃 学 精 业 修 德 厚 生
5
其基本公式为:
2
(A T) T
③多个样本的构成比比较,以及双向无序分类资料
关联性检验时,有R行C列,称为 R C 表。
以上3种情况可统称为行×列表资料。
笃 学
精 业
修 德
厚 生
26
2 2 行×列表资料的 检验仍可用Pearson 公式,
但用下列专用公式,计算简单, 2 A 2 n( 1) , (行数-1)(列数-1) n R nC 1. 多个率的比较 例 2. 多个构成比的比较 例
笃 学 精 业 修 德 厚 生
28
(二).多个样本率比较,若所得统计推断为 拒绝H0,接受H1时,只能认为各总体率之 间总的来说有差别,但不能说明任两个总
体率之间皆有差别。要进一步推断哪两总
体率之间有差别,需进一步做多个样本率 的多重比较。
笃 学
精 业
修 德
厚 生
29
4.行×列表的分割
在行×列表的
2 时, 拒绝 H 0 ,接受 H 1;当 2 P ,尚没有 , 理由拒绝 H 0 。 而自由度 1。
笃 学
精 业
修 德
厚 生
7
2 二、 检验的检验步骤
1.建立检验假设 H 0 : 1 2 ,两总体率相等
H1 : 1 2 ,两总体率不等
0.05
笃 学
精 业
修 德
厚 生
10
两样本率比较的资料,既可用
u 检验
也可用 2检验来推断两总体率是否有差别,
且在不校正的条件下两种检验方法是等价的,
对同一份资料有
u 2。 2
笃 学
精 业
修 德
厚 生
11
例 为了解铅中毒病人是否有尿棕色素增加现 象,分别对病人组和对照组的尿液作尿棕色素 定性检查,结果见下表,问铅中毒病人与对照 人群的尿棕色素阳性率差别有无统计学意义?
精 业
防护服种类
合计 15 28 43
新
旧 合计
笃 学
32
修 德
厚 生
14
本例n>40,因有一格子的理论数<5,因而要 2 用校正 检验。
H0:两组工人皮肤炎总体患病率相等,即 1 2
H1:两组工人皮肤炎总体患病率不等,即 1 2
0.05
校正 2 值为:
2 2 (| 1 3 . 84 | 0 . 5 ) (| 14 11 . 16 | 0 . 5 ) 2 3.84 11.16 (| 10 7.16 | 0.5) 2 (| 18 20.84 | 0.5) 2 7.16 20.84 2.94
2
(7.1)
2 ( A T ) 理论频数的吻合程度,其中 反映了某个格子 T
2 由公式(7.1)可以看出: 值反映了实际频数与
实际频数与理论频数的吻合程度。若检验假设 H 0 成
立,实际频数与理论频数的差值会小,则 2值也
论频数的差值会大,则 值也会大。
2
会小;反之,若检验假设H 0不成立,实际频数与理
N , k ( k 1) N 2
笃 学
精 业
修 德
厚 生
31
例:某医师分别用西药,中药和中西药
结合治疗恶性肿瘤,结果如下表:
表
对比组 西药组 中药组 中西药结合组 合计
三种疗法效率
有效 51 35 59 145 无效 49 45 15 109 合计 100 80 74 254
笃 学 精 业 修 德 厚 生
13
例2 某矿石粉厂生产一种矿石粉时,在数天内即有部分 工人患有职业性皮肤炎。后随机抽取15名工人穿新防护 服,其余仍穿原用的防护服,一个月后检查两组工人的 皮肤炎患病情况,资料见下表,问两组的患病率差别有 无统计学意义? 表 穿新旧防护服工人的皮肤炎患病比较 皮肤炎症 阳性数 阴性数 1(3.84) 14(11.16) 10(7.16) 18(20.84) 11
用专用公式:
2 2 ( ad bc ) n ( 29 28 7 9 ) 73 2 (a b)(c d )(a c)(b d ) 36 37 38 35 23.12
下结论: 2 以 =1查 界值表, P 0.05 ,按 0.05 检 验水准拒绝H 0,接受H ,可认为两总体率不同; 1
bc 2 bc 2 [b ] [c ] 2 2 2 bc bc 2 2
化简后得到,2 统计量的计算公式为:
2
笃 学
(b c )2 bc
精 业 修 德 厚 生
20
若 b c 40, 需对上述公式校正, 校正公式为:
(| b c | 1) bc
H0 : B C ,即两种方法的总体检测结果相同
B C ,即两种方法的总体检测结果不相同 H1 : 0.05
2. 计算统计量 由于 b c 28 40 ,需作连续性校正,计 算卡方值:
2 (| 22 6 | 1 ) 2 8.04 22 6
笃 学
精 业
笃 学 精 业 修 德 厚 生
27
2 3. 行×列表资料 检验的注意事项
(一).一般认为,行×列表中的理论频数 不应小于1,或 1 T 5 的格子数不宜超过格子 总数的 1 / 5。若出现上述情况,可通过以下方 法解决:①最好是增加样本含量,使理论频 数增大;②根据专业知识,考虑能否删去理 论频数太小的行或列,能否将理论频数太小 的行或列与性质相近的邻行或邻列合并;③ 改用双向无序表的Fisher确切概率法(可用 SAS软件实现)。
修 德
厚 生
23
3. 作出统计推断 ……
笃 学
精 业
修 德
厚 生
24
第三节
行×列表的χ2检验
行×列表资料的检验,用于多个样本
率的比较、两个或多个构成比的比较、以
及双向无序分类资料的关联性检验。其基
本数据有以下3种情况:
笃 学
精 业
修 德
厚 生
25
第三节
行×列表的χ2检验
①多个样本率比较时,有R行2列,称为 R 2 表; ②两个样本的构成比比较时,有2行C列,称为 2 C 表;
(2)当总例数 n 40且只有一个格子的 1 T 5 时:用四格表资料 2检验的校正公式;或改用四
格表资料的Fisher确切概率法。
校正公式 校正公式
笃 学
c2
( A T 0.5) 2 T
n 2 ( |ad-bc|2) n 2 c = (a+b)(c+d)(a+c)(b+d)
法。本章只介绍它在分类变量资料中的应用,
即推断两个及多个总体率或总体构成比之间
有无差别,两种属性或两个变量之间有无关
联,以及频数分布的拟合优度检验等。
笃 学
精 业
修 德
厚 生
2
第一节 四格表资料的2 检验 一、检验的基本思想 以两样本率比较的 检验为例,介绍
2 2
检验的基本思想。
2 分布是一种连续型分布 ,它的形状依赖于自 由度 的大小,当自由度 ≤2时,曲线呈L型; 随着 的增加,曲线逐渐趋于对称;当自由度 →∞时, 分布趋向正态分布。 2 分布具有可加性。
可见,两个变量阳性率的比较只和 b 、
ab ac bc = - = n n n
而与
a 、d
无关。
c
有关,
H0 : B C ,即两种方法的总体检测结果相同
B C ,即两种方法的总体检测结果不相同 H1 : 0.05
笃 学
精 业
修 德
厚 生
19
若H0 成立,变量1与变量2所示的结果不一致的 两个格子理论频数都应该是 (b c) / 2 基本思想得 : 。由2 检验
表
组别 铅中毒病人
两组人群尿棕色素阳性率比较
阳性数 29 (18.74) (19.26) 阴性数 7 (17.26) (17.74) 合计 36 阳性率 (%) 80.56
对照组
合计
笃 学
9
38
28
35
37
73
24.32
52.05
厚 生
12
精 业
修 德
2 2 2 2 ( 29 18 . 74 ) ( 7 17 . 26 ) ( 9 19 . 26 ) ( 28 17 . 74 ) 2 18.74 17.26 19.26 17.74 23.12
笃 学
精 业
修 德
厚 生
17
表7-2 两个变量阳性率比较的一般形式和符号
变量1 阳性 阴性 变量2 阳性 阴性 合计
a c
m1
b d
合计
n1 ab 变量1的阳性率= = n n
笃 学 精 业
m2
n1 n2
(固定值) n
m1 ac 变量2的阳性率= = n n
修 德 厚 生
18
变量1的阳性率-变量2的阳性率
精 业
修 德
厚 生
9
(3)当 n 40,或 T 1 时,不能用 2检验, 改用四格表资料的Fisher确切概率法。
3.作出统计结论
以 =1查 2界值表,若 P 0.05,按 0.05 检验水准拒绝H ,接受H ,可认为两总体率不 0 1 同;若 P 0.05 ,按检验水准 0.05 不拒绝 H 0, 尚不能认为两总体率不同。
2
2
笃 学
精 业
修 德
厚 生
21
例 某研究室用甲乙两种血清方法检查鼻咽癌 患者血清93份,结果如下表,问两法的检出率 有无差别?
表 两种血清学检查结果比较
甲 法
+ -
乙 + 45 6
法 - 22 20
合 计
67 26
合 计
51
42
93
笃 学
精 业
修 德
厚 生
22
1. 建立假设检验,确定检验水准。
笃 学 精 业 修 德 厚 生
3
表7-1 完全随机设计两样本率比较的四格表
处理组 1 2 属性 阳性 A11 (T11) A (T21)
21
阴性 A12 (T12) A (T22)
22
合计
合计
m1
m2
n1(固定值) n2(固定值) n
笃 学
精 业
修 德
厚 生
4
表7-1 完全随机设计两样本率比较的四格表
2.计算检验统计量 (1)当总例数大于40且所有格子的理论数大
于5时:用检验的基本公式或四格表资料检验
的专用公式; 基本公式
笃 学 精 业
2 ( A T ) 2 T
修 德
厚 生
8
专用公式
2 ( ad bc ) n 2 (a b)(c d )( a c)(b d )
笃 学
精 业
修 德
厚 生
16
第二节
配对四格表资料的2检验
属于配对设计的两组频数分布的2检验。 这类问题的原始数据可以表示为表7-2所示的
四格表形式。表7-2和表7-1的区别仅在设计
上,前面是两个独立样本,行合计是事先固 定的;而这里的“两份样本” 互不独立,样 本量都是n,是固定的,而行合计与列合计 却是事先不确定的。
笃 学
精 业
修 德
厚 生
15
P 0.05,按 0.05 检 以 =1查 2界值表,
验水准不拒绝 H ,接受H 1 ,尚不能认为穿不同 0 防护服的两组工人的皮肤炎患病率的差别有统 计学意义; 注意:本例若不作连续性校正,则 2 4.33 , 得 P 0.05 ,可见两者是有区别的。