卡方检验解释讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
式; n 40, 1 T 5,校正公式;
n 40 或 T 1,直接计算概率
(Fisher)。
理论频数 T 是根据检验设 H0 :1 2 ,且
用合并率 来估计而定的。
a c a c (7 2) ab cd n
Ta
T11
(a
b)(a n
c)
(7 3)
Tc
T21
(c
d )(a n
c)
(7 4)
b d b d (7 5) ab cd n
处理组 发生数 未发生数 合计
甲
a
b
a+b
乙
c
d
c+d
合 计 a+c b+d
n
表7-2 四格表资料的基本形式
基本思想:可通过 检验的基本公式
来理解。
2
2 (AT)2 , (行数-1)(列数1)
T
式中,A为实际频数(actual frequency), T为理论频数(theoretical frequency)。
四格表资料检验的专用公式
2
(ad bc)2n
(ab)(ac)(bd)(cd)
2 (33104 1039)2186 34.10
72 43143114
(四)四格表资料检验的校正公式
c2
( A T 0.5)2 T
(| ad - bc | - n)2 n
卡方检验概述p136
Fra Baidu bibliotek
• 研究目的:率 or 构成比的假设检验(大样本率或
小样本率)
• 资料类型:计数资料
•
基本思想: 2
检验中的
2
是希腊字母,称为卡方
检验,是一种用途较广的计数资料的假设检验方法,
属于非参数检验的范畴,主要是比较两个及两个以
上样本率( 构成比)以及两个分类变量的关联性分
析。其根本思想就是在于比较理论频数和实际频数
2 (33 16.6)2 (39 55.4)2 (10 26.4)2 (104 87.6)2
2 (1969.6 90.48)2 5(55.4 13.52)2 2(67.54 83.52)2 87(.261 12.48)
16.42(11261..86960.54581.4
Tb
T12
(a
b)(b n
d)
(7 6)
Td
T22
(c d)(b d) n
(7 7)
理论频数由下式求得:
TRC
nRnC n
式中,TRC 为第R 行C 列的理论频数 nR 为相应的行合计 nC 为相应的列合计
检验统计量 2 值反映了实际频数与
理论频数的吻合程度。
的吻合程度或拟合优度问题。
检验的应用
2
• ①检验两个样本率之间差别的显著性; • ②检验多个样本率或构成比之间差别的
显著性; • ③检验两个双向无序分类变量是否存在
关联; • ④配对计数资料的比较。
一、两独立样本率检验 (一)两独立样本率资料的四格表形式
例7-1 为研究肿瘤标志物癌胚抗原(CEA)
1 26.4
13.512 )
87.6
83.52
34.32
12.48
(2 1)(2 1) 1
以 =1 查附表 8 的 2 界值表得P 0.005 。按 0.05 检验水准拒绝H0 ,接受H1 ,肺癌患者癌胚抗原的 阳性率显著高于健康人,提示可能具有临床诊断价 值。
医学统计学---卡方检验
www.xybms.net
www.xybms.net
E-MAIL: xybms@163.com
主讲内容
第一 第二 第三 第四 第五 第六 第七
2 概述——基本思想 2×2表卡方检验 配对四格表卡方检验 R×C表卡方检验 Fisher确切概率检验 多个样本率的多重比较 有序分组资料的线性趋势检验
c2
=
(a
+
b)(c
+
d
)(a
2 + c)(b
+
d
)
2 分布是一连续型分布,而四
格表资料属离散型分布,由此计算
得的 2 统计量的抽样分布亦呈离散 性质。为改善 2 统计量分布的连续
性,则进行连续性校正。
四格表资料 2 检验公式选择条件:
n 40, T 5,不校正的理论或专用公
43
* 括号内为理论频数。
阴性 39(55.4) 104(87.6)
143
合计 72 114 186
阳性率(%) 45.8 8.8 23.1
(二) 2检验的基本思想
本例资料经整理成表7-1形式,即有 两个处理组,每个处理组的例数由发生数 和未发生数两部分组成。表内有33、39、 10、104 四个基本数据,其余数据均由此 四个数据推算出来的,故称四格表资料。
个数的多少(严格地说是自由度ν的大小)。由于各
(
A
T T
)2
皆是正值,故自由度ν愈大,
2
T
值也会愈大;所以只有考虑
了自由度ν的影响, 2值才能正确地反映实际频数A和理论
频数T 的吻合程度。
2检验的自由度取决于可以自由取值的格
子数目,而不是样本含量n。四格表资料只
有两行两列,=1,即在周边合计数固定的情
对肺癌的诊断价值,随机抽取72例确诊为肺癌的 患者为肺癌组,114例接受健康体检的非肺癌患 者为对照组。用CEA对其进行检测,结果呈阳性 反应者病例组中33例,对照组中10例。问两组人 群的CEA阳性率有无差异?
表7-1 CEA对两组人群的诊断结果*
分组 肺癌组 对照组 合计
阳性 33(16.6) 10(26.4)
况下,4个基本数据当中只有一个可以自由
取值。
(三) 假设检验
(1) 建立检验假设,确定检验水平。
H0:π1=π2 H1:π1≠π2
α=0.05。
(2)求检验统计量值
T11 72 43 /186 16.6 ,T12 72 16.6 55.4
T21 43 16.6 26.4 ,T22 114 26.4 87.6 。
若检验假设H0:π1=π2成立,四个格子的实际 频数A 与理论频数T 相差不应该很大,即统计量
不应该很大。如果 2 值很大,即相对应的P 值很
小,若 P ,则反过来推断A与T相差太大,超
出了抽样误差允许的范围,从而怀疑H0的正确性, 继而拒绝H0,接受其对立假设H1,即π1≠π2 。
由公式(7-1)还可以看出: 2 值的大小还取决于(A T )2
n 40 或 T 1,直接计算概率
(Fisher)。
理论频数 T 是根据检验设 H0 :1 2 ,且
用合并率 来估计而定的。
a c a c (7 2) ab cd n
Ta
T11
(a
b)(a n
c)
(7 3)
Tc
T21
(c
d )(a n
c)
(7 4)
b d b d (7 5) ab cd n
处理组 发生数 未发生数 合计
甲
a
b
a+b
乙
c
d
c+d
合 计 a+c b+d
n
表7-2 四格表资料的基本形式
基本思想:可通过 检验的基本公式
来理解。
2
2 (AT)2 , (行数-1)(列数1)
T
式中,A为实际频数(actual frequency), T为理论频数(theoretical frequency)。
四格表资料检验的专用公式
2
(ad bc)2n
(ab)(ac)(bd)(cd)
2 (33104 1039)2186 34.10
72 43143114
(四)四格表资料检验的校正公式
c2
( A T 0.5)2 T
(| ad - bc | - n)2 n
卡方检验概述p136
Fra Baidu bibliotek
• 研究目的:率 or 构成比的假设检验(大样本率或
小样本率)
• 资料类型:计数资料
•
基本思想: 2
检验中的
2
是希腊字母,称为卡方
检验,是一种用途较广的计数资料的假设检验方法,
属于非参数检验的范畴,主要是比较两个及两个以
上样本率( 构成比)以及两个分类变量的关联性分
析。其根本思想就是在于比较理论频数和实际频数
2 (33 16.6)2 (39 55.4)2 (10 26.4)2 (104 87.6)2
2 (1969.6 90.48)2 5(55.4 13.52)2 2(67.54 83.52)2 87(.261 12.48)
16.42(11261..86960.54581.4
Tb
T12
(a
b)(b n
d)
(7 6)
Td
T22
(c d)(b d) n
(7 7)
理论频数由下式求得:
TRC
nRnC n
式中,TRC 为第R 行C 列的理论频数 nR 为相应的行合计 nC 为相应的列合计
检验统计量 2 值反映了实际频数与
理论频数的吻合程度。
的吻合程度或拟合优度问题。
检验的应用
2
• ①检验两个样本率之间差别的显著性; • ②检验多个样本率或构成比之间差别的
显著性; • ③检验两个双向无序分类变量是否存在
关联; • ④配对计数资料的比较。
一、两独立样本率检验 (一)两独立样本率资料的四格表形式
例7-1 为研究肿瘤标志物癌胚抗原(CEA)
1 26.4
13.512 )
87.6
83.52
34.32
12.48
(2 1)(2 1) 1
以 =1 查附表 8 的 2 界值表得P 0.005 。按 0.05 检验水准拒绝H0 ,接受H1 ,肺癌患者癌胚抗原的 阳性率显著高于健康人,提示可能具有临床诊断价 值。
医学统计学---卡方检验
www.xybms.net
www.xybms.net
E-MAIL: xybms@163.com
主讲内容
第一 第二 第三 第四 第五 第六 第七
2 概述——基本思想 2×2表卡方检验 配对四格表卡方检验 R×C表卡方检验 Fisher确切概率检验 多个样本率的多重比较 有序分组资料的线性趋势检验
c2
=
(a
+
b)(c
+
d
)(a
2 + c)(b
+
d
)
2 分布是一连续型分布,而四
格表资料属离散型分布,由此计算
得的 2 统计量的抽样分布亦呈离散 性质。为改善 2 统计量分布的连续
性,则进行连续性校正。
四格表资料 2 检验公式选择条件:
n 40, T 5,不校正的理论或专用公
43
* 括号内为理论频数。
阴性 39(55.4) 104(87.6)
143
合计 72 114 186
阳性率(%) 45.8 8.8 23.1
(二) 2检验的基本思想
本例资料经整理成表7-1形式,即有 两个处理组,每个处理组的例数由发生数 和未发生数两部分组成。表内有33、39、 10、104 四个基本数据,其余数据均由此 四个数据推算出来的,故称四格表资料。
个数的多少(严格地说是自由度ν的大小)。由于各
(
A
T T
)2
皆是正值,故自由度ν愈大,
2
T
值也会愈大;所以只有考虑
了自由度ν的影响, 2值才能正确地反映实际频数A和理论
频数T 的吻合程度。
2检验的自由度取决于可以自由取值的格
子数目,而不是样本含量n。四格表资料只
有两行两列,=1,即在周边合计数固定的情
对肺癌的诊断价值,随机抽取72例确诊为肺癌的 患者为肺癌组,114例接受健康体检的非肺癌患 者为对照组。用CEA对其进行检测,结果呈阳性 反应者病例组中33例,对照组中10例。问两组人 群的CEA阳性率有无差异?
表7-1 CEA对两组人群的诊断结果*
分组 肺癌组 对照组 合计
阳性 33(16.6) 10(26.4)
况下,4个基本数据当中只有一个可以自由
取值。
(三) 假设检验
(1) 建立检验假设,确定检验水平。
H0:π1=π2 H1:π1≠π2
α=0.05。
(2)求检验统计量值
T11 72 43 /186 16.6 ,T12 72 16.6 55.4
T21 43 16.6 26.4 ,T22 114 26.4 87.6 。
若检验假设H0:π1=π2成立,四个格子的实际 频数A 与理论频数T 相差不应该很大,即统计量
不应该很大。如果 2 值很大,即相对应的P 值很
小,若 P ,则反过来推断A与T相差太大,超
出了抽样误差允许的范围,从而怀疑H0的正确性, 继而拒绝H0,接受其对立假设H1,即π1≠π2 。
由公式(7-1)还可以看出: 2 值的大小还取决于(A T )2