卡方检验,秩和检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(2) 2 分布的一个基本性质是可加性: 如果两个独立的随
机变量X1和X2分别服从自由度ν1和ν2的分布,即
X1~
21,
X2~
2
2
,那么它们的和( X1+X2 )服从自由度( ν1+ν2 )的 2 分布,
即 (X1 X2)
~ 2 1 2

(3) 2 界值:当 确定后, 2 分布曲线下右侧尾部的
R×C表的χ2检验通用公式
理 论 频 数 T 行 合 计 列 合 计 n R n C 代 入 基 本 公 式 总 例 数 n
可 推 导 出 : 基 本 公 式 通 用 公 式
2 ( A T ) 2 2 n ( A 2 1 )
T
n R n C
自 由 度 = ( 行 数 1 ) ( 列 数 1 )
问:两种方法何者为优?
七、行×列(R×C)表资料的χ2检验
前述四格表,即 2×2 表,是最简单的一种 R×C 表 形式。因为其基本数据有 R 行 C 列,故通称行×列表或 R×C 列联表(contingency table),简称 R×C 表。
R×C 表的资料形式有: 1. 多个样本率的比较 2. 多组构成比的比较
上述基本公式由Pearson提出,因此软件上常称这种 检验为Pearson卡方检验,下面将要介绍的其他卡方检验 公式都是在此基础上发展起来的。它不仅适用于四格表 资料,也适用于其它的“行×列表”。
检验统计量 2 值反映了实际频数与理论频
数的吻合程度。
若检验假设H0:π1=π2成立,四个格子的实际频数A 与
数固定的情况下,4个基本数据当中只有一个可
以自由取值。
χ2检验的步骤
(1)建立检验假设:假设两总体率相等 H0:两种疗法病死率相同,即π1=π2; H1:两种疗法有病死率不同,即π1≠π2; α=0.05。
表1 两种疗法治疗心血管疾病的病死率比较
疗法
死亡
生存
合计
盐酸苯乙双胍 26 (21.3) 178 (182.7) 204(a+b)
1. 多个样本率的比较
例 :用三种不同治疗方法治疗慢性支气管炎的疗效如表3, 试比较三种治疗方法治疗慢性支气管炎的疗效。
表3 三种不同治疗方法治疗慢性支气管炎的疗效
组别 有效 A药组 35
无效 5
合计 40
有效率 %
87.50
B药组 20
10
30
66.67
C药组 7
25
32
21.88
合计 62
40
12.75 (p1)
安慰剂 合计
2 (c)
62 (d)
64(c+d)
3.13 (p2)
28 (a+c.) 240(b+d.) 268(a+b+c+d=n) 10.45 (pc)
T行 (ro )合 w 总 列 计 (c例 o) l合 数 um 计 n R n n n C
• 实际频数A (actual frequency) ( a、 b、 c、 d) • 理论频数T( theoretical frequency)(H0:π1=π2=π≈Pc): • a的T 11= (a +b ) ×pc= (a + b) × [( a + c)/ n]= n R n C /n =21.3 • b的T 12=(a+b)×(1-pc)= (a + b)× [( b + d)/ n] = n R n C /n =182.7 • c的T21 = (c + d) ×pc= ( c + d) ×[( a +c )/ n] =n R n C/n =6.7 • d的T22 =(c+d)×(1-pc)= ( c + d )×[(b + d)/ n] =n R n C/n =57.3
甲药物 死亡 死亡
乙药物 死亡 生存
乙药物
甲药物
合计
死亡(+) 生存(-)
死亡(+) 6(a) 12(b) 18



39
生存
生存
生存(-) 3(c) 18(d) 21
合计
9
30
39
成组设计(完全随机设计)
编号 药物 结果
1

死亡
2

生存



78

生存
表 两种药物的毒理实验结果
分组 死亡(+) 生存(-) 合计
已知总体分布类型已知总体分布类型对未知参数未知参数进行统计推断行统计推断对于符合参数统计分析条件的资料采用非参数统计分析其检验效能较低适用范围广可用于任何类型适用范围广可用于任何类型资料资料等级资料等级资料不受总体参数的影响不受总体参数的影响比较分布或分布位置比较分布或分布位置对总体的分布类对总体的分布类型型不作任何要求不作任何要求非参数统计非参数统计nonparametricstatisticsnonparametricstatistics依赖于特定分布类依赖于特定分布类型比较的是参数比较的是参数参数统计参数统计parametricstatisticsparametricstatistics基于秩次通过编秩用秩次代替原始数据信息来进行检验即检验各组的平均秩是否相等
21.3
18.72
6.7
57.3
4.72(211.3118.7261.7517.3)4.82
v(21)(21)1
自由度为1的2分布界值
0.5
0.4
0.3
0.2
0.05
0.1
0.0
3.84
(3)查 2 分布界值表确定 P 值并作出推论
按 = (2-1)×(2-1)= 1查附表3,2界值表,得 P< 0.05,差异有统计学意义,按=0.05水准拒 绝H0,可以认为两组治疗方案的总体病死率不同。
通过构造A与T吻合程度的统计量来反映两
样本率的差别!
实际数A
理论数T
26
178
2
62
21.3 182.7
6.7
57.3
各种情形下,理论与实际偏离的总和即为 卡方值(chi-square value),它服从自
由度为ν的卡方分布。
(1) 2 分布是一种连续型分布:按分布的密度函数可给出自 由度=1,2,3,……的一簇分布曲线 。
三、四格表专用公式
为了不计算理论频数T, 可由基本公式推导出,直接由各格 子的实际频数(a、b、c、d)计算卡方值的公式:
基本公式: 2 (AT)2 T
a(aabb)(acdc)2 b(aabb)(bcdd)2 d(acbd)(bcdd)2
(ab)(ac)
(ab)(bd)
(cd)(bd)
abcd
3.84;
则P0.05,即不拒 H0, 绝上不能认 1 为 2
2(1) ~ u2 =2.19492=4.82(n 40,所有T5时)
四、连续性校正公式
2分布是连续性分布,而四格表资料属分类资料,不连续;
计算所得 2 偏大,对应概率 P 偏小,增加了I类错误概率。
⑴当n≥40,且T≥5 时,用前述基本公式
安慰剂 合计
2 (c)
62 (d)
64(c+d)
3.13 (p2)
28 (a+c.) 240(b+d.) 268(a+b+c+d=n) 10.45 (pc)
P1≠P2
H0:π1=π2 H1:π1≠π2
表1 两种疗法治疗心血管疾病的病死率比较
疗法
死亡
生存
合计
病死率(%)
盐酸苯乙双胍 26 (a) 178 (b) 204(a+b)
理论频数T 相差不应该很大,即统计量 2 不应该很大。
如果 2 值很大,即相对应的P 值很小,若P<α,则反过
来推断A与T 相差太大,超出了抽样误差允许的范围,从 而怀疑H0 的正确性,继而拒绝H0,接受其对立假设H1,即 π1 ≠ π2 。
由公式还可以看出: 2 值的大小还取决于 ( A T ) 2
⑵当n≥40,而1≤T<5时,用连续性校正公式
(3)当n<40,或T<1时,用Fisher精确检验(Fisher exact test )
校正公式:
2 c
(AT0.5)2 T
c2(a(ba)c(d bd)ca (n/c2))2b (nd)
2 连续性校正仅用于 1 的四格表资料,当 2时(
甲药物 (a) (b)
乙药物 (c) (d)
合计
78
bc
(+,)和(,+)两个格子中的理论频数均为
2
b c 40时
2
(AT)2
(b b c )2 2
(c b c )2
2
T
bc
bc
2
2
同理可得 b c 40时
(b c) 2
bc
~ 2 分布
校正公式: 2 (| A T | 0.5)2 (| b c | 1)2
单侧尾部面积的界值
2 ,
,它满足条

P(22,) 01
根据的定义,当自由度 1 时, 2 分
布的界值为标准正态分布界值的平方,即
四格表的双侧z检验与 2 检验等价
二、 2检验的基本公式
2 (A T T)2 (R 1 )C ( 1 )
式中,A为实际频数(actual frequency), T为理论频数(theoretical frequency)。
合计有效率(%)来自7094.346
82.6
116
89.7
H 0 :1 2 ,H 1 :1 2 , 0 .0 5
本例 n116,但 T224.8,故用四格表资料 2 检验的校
正公式
c 2(6687 0 4 4 3 6 8 10 14 16 1 2 2 )21162.92
1,查 界2 值表得 0.0 5P0.1。0 按
检验统计量: 2
应用:计数资料
四格表资料的基本形式
处理组 发生数 未发生数 合计

a
b
a+b

c
d
c+d
合 计 a+c
b+d
n
一、卡方检验的基本思想
表1 两种疗法治疗心血管疾病的病死率比较
疗法
死亡
生存
合计
病死率(%)
盐酸苯乙双胍 26 (a) 178 (b) 204(a+b)
12.75 (p1)
1. 把 已 确 诊 的 乳 腺 癌 患 者 120 名 随 机 分为两组,每组60人。分别用两种方法分 别检查。甲法的检出率为60%,乙法检出 率为50%。 问:两种方法何者为优?
2.分别用两种方法检查已确诊的乳腺癌 患者120名。甲法的检出率为60%,乙法 检出率为50%,甲乙两法阳性一致的检出 率为35%。
2 检验(Chi-square test)是现代统
计学的创始人之一,英国人K . Pearson (1857-1936)于1900年提出的一种具有 广泛用途的统计方法,可用于两个或多个 率间的比较,计数资料的关联度分析,拟 合优度检验等等。
目的: ➢ 推断两个总体率或构成比之间有无差别 ➢ 推断多个总体率或构成比之间有无差别 ➢ 多个样本率比较的分割和趋势检验 ➢ 两个分类变量之间有无关联性 ➢ 频数分布拟合优度的检验
面积为
时,横轴上相应的
2
值,记作
2 ,
(见附表 7)。
2 值愈大,P 值愈小;反之, 2 值愈小,P 值愈大。
0.5 0.4 0.3
f ( 2 ) 0.2
0.1 0 0
f(2)2(1/2)22(/21)e2/2
1
6
10
2 4 6 8 10 12 14 16
2
卡方表给出了自由度取不同值时, 2 分布
多行多列),一般不作校正。
例 将116例癫痫患者随机分为两组,一组70例接受常规加高压 氧治疗(高压氧组),另一组46例接受常规治疗(常规组) ,治疗结果见表。问两种疗法的有效率有无差别?
治疗方法
高压氧组 常规组 合计
有效
66(62.8) 38(41.2) 104
无效
4(7.2) 8(4.8) 12
病死率(%) 12.75 (p1)
安慰剂 合计
2 (6.7) 62 (57.3) 64(c+d)
3.13 (p2)
28 (a+c.) 240(b+d.) 268(a+b+c+d=n) 10.45 (pc)
(2)计算检验统计量:实际数与理论数的差值服从 χ2分布
2(2621.3)2(17818.72)2(26.7)2(6257.3)2
abcd
abcd
(adbc)2 n
(ab)(cd)(ac)(bd)
1 ; (四格表专用公式)
2(26621782)22684.82,1
2042824064
2
2 0.05,1
3.84;
P0.05
下结论:
如果 2
2 0.05,1
3.84;
P0.05,拒绝 H0,可以认1为 2
如果 2
2 0.05,1
0.05检验水准不拒绝 H 0 ,尚不能认为组有效率不等。
本资料若不校正时, 24.08, P0.05
结论与之相反。
五、四格表的确切概率检验法
在四格表 χ2 检验中,若n<40,或有理 论频数T<1,采用Fisher确切概率法。
六、配对四格表资料的χ2检验
配对设计
表 两种药物的毒理实验结果
对子号 1 2
T
个数的多少(严格地说是自由度ν 的大小)。由于各
(A T )2 T
皆是正值,故自由度 ν 愈大, 2 值也会愈大;所以只有
考虑了自由度ν的影响, 2 值才能正确地反映实际频数A
和理论频数T 的吻合程度。
2检验的自由度取决于可以自由取值的格子数目,
而不是样本含量n。
四格表资料只有两行两列,=1,即在周边合计
102
60.78
卡方检验的步骤:
1. 建立检验假设:假设两总体率相等
H0:三种治疗方法的疗效相同,即1=2=3 ;
H1: 1 , 2 , 3 不全相等;
α=0.05。 2. 计算统计量:
210 ( 2325 52 ... 225-1)
4 0624 040 3 240
T
bc
配对四格表资料的χ2检验也称McNemar检验 (McNemar's test)
H0:B=C,两种药物的致死率相同; H1:B≠C,两种药物的致死率不同;
α=0.05。
本例bc 1540,采用连续性校正
2 (123 1)2 4.27, 1
123
20 2.0,1 53.8;4P0.05
两个例子
相关文档
最新文档