6.卡方检验,秩和检验解读
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1) 2 分布是一种连续型分布:按分布的密度函数可给出自
由度=1,2,3,……的一簇分布曲线 。
(2) 2 分布的一个基本性质是可加性: 如果两个独立的随 机变量X1和X2分别服从自由度ν1和ν2的分布,即 X1 ~ 2 , X 2 ~ 2
1 2
,那么它们的和( X1+X2 )服从自由度( ν1+ν2 )的 2 分布, 2 即 ( X 1 X 2 ) ~ 1 2 。
如果 值很大,即相对应的P 值很小,若P<α,则反过 来推断 A与T 相差太大,超出了抽样误差允许的范围,从 而怀疑H0 的正确性,继而拒绝H0,接受ห้องสมุดไป่ตู้对立假设H1,即 π1 ≠ π2 。
2
由公式还可以看出: 值的大小还取决于
2
个数的多少(严格地说是自由度ν 的大小)。由于各
( A T )2 T ( A T )2
上述基本公式由Pearson提出,因此软件上常称这种 检验为Pearson卡方检验,下面将要介绍的其他卡方检验 公式都是在此基础上发展起来的。它不仅适用于四格表 资料,也适用于其它的“行×列表”。
检验统计量 数的吻合程度。
值反映了实际频数与理论频
2
若检验假设H0:π1=π2成立,四个格子的实际频数A 与 理论频数T 相差不应该很大,即统计量 2不应该很大。
3.13 (p2) 10.45 (pc)
H 0: π 1= π 2
P1≠P2
H 1: π 1≠π 2
表1 疗法
两种疗法治疗心血管疾病的病死率比较 生存 合计 病死率(%)
死亡
盐酸苯乙双胍 26 (a)
安慰剂 合 计 2 ( c) 28 (a+c.)
178 (b)
62 (d) 240(b+d.)
204(a+b)
2
( / 21)
e
2 / 2
1
f ( 2 )
0.2 0.1 0 0 2 4
6
10
6
8
10
12
14
16
2
分布 卡方表给出了自由度取不同值时, 2 单侧尾部面积的界值 , ,它满足条 件
2
P(
2
2
,
)
0 1
(3 ) 2 界值:当 确定后, 2 分布曲线下右侧尾部的
2 面积为 时,横轴上相应的 2 值,记作 , (见附表 7)。
2 值愈大,P 值愈小;反之, 2 值愈小,P 值愈大。
0.5 0.4 0.3
f ( ) 2( / 2) 2
2
1
2
根据的定义,当自由度 1 时, 分 布的界值为标准正态分布界值的平方,即 四格表的双侧z检验与 2 检验等价
二、 2检验的基本公式
(A T) T
2
2
( R 1)(C 1)
式中,A为实际频数(actual frequency), T为理论频数(theoretical frequency)。
64(c+d) 268(a+b+c+d=n)
12.75 (p1)
3.13 (p2) 10.45 (pc)
行(row)合计 列(column)合计 nR nC T 总例数 n
• 实际频数A (actual frequency) ( a、 b、 c、 d)
• 理论频数T( theoretical frequency)(H0:π1=π2=π≈Pc):
χ2检验的步骤
(1)建立检验假设:假设两总体率相等 H0:两种疗法病死率相同,即π1=π2; H1:两种疗法有病死率不同,即π1≠π2; α=0.05。
表1 疗法
两种疗法治疗心血管疾病的病死率比较 死亡 生存 合计 病死率(%) 12.75 (p1) 3.13 (p2) 10.45 (pc)
盐酸苯乙双胍 26 (21.3) 安慰剂 合 计 2 (6.7) 28 (a+c.)
推断两个总体率或构成比之间有无差别 推断多个总体率或构成比之间有无差别 多个样本率比较的分割和趋势检验 两个分类变量之间有无关联性 频数分布拟合优度的检验 检验统计量:
2
应用:计数资料
四格表资料的基本形式
处理组 甲 乙 合 计 发生数 未发生数 合计 a+b c+d n
a c a+c
b d b+d
• a的T 11= (a +b ) ×pc= (a + b) × [( a + c)/ n]= n R n C /n =21.3
• b的T 12=(a+b)×(1-pc)= (a + b)× [( b + d)/ n] = n R n C /n =182.7
• c的T21 = (c + d) ×pc= ( c + d) ×[( a +c )/ n] =n R n C/n =6.7
T
皆是正值,故自由度 ν 愈大, 2 值也会愈大;所以只有 2 考虑了自由度ν的影响, 值才能正确地反映实际频数A 和理论频数T 的吻合程度。
2检验的自由度取决于可以自由取值的格子数目,
而不是样本含量n。 四格表资料只有两行两列, =1,即在周边合计 数固定的情况下,4个基本数据当中只有一个可 以自由取值。
检验 Chi-square test
2
2 检验(Chi-square test)是现代统
计学的创始人之一,英国人K . Pearson
(1857-1936)于1900年提出的一种具有
广泛用途的统计方法,可用于两个或多个 率间的比较,计数资料的关联度分析,拟 合优度检验等等。
目的:
• d的T22 =(c+d)×(1-pc)= ( c + d )×[(b + d)/ n] =n R n C/n =57.3
通过构造A与T吻合程度的统计量来反映两 样本率的差别!
实际数A 理论数T
26
2
178
62
21.3 6.7
182.7 57.3
各种情形下,理论与实际偏离的总和即为 卡方值(chi-square value),它服从自 由度为ν 的卡方分布。
一、卡方检验的基本思想
表1 疗法 两种疗法治疗心血管疾病的病死率比较 生存 合计 病死率(%) 死亡
盐酸苯乙双胍 26 (a)
安慰剂 合 计 2 ( c) 28 (a+c.)
178 (b)
62 (d) 240(b+d.)
204(a+b)
64(c+d) 268(a+b+c+d=n)
12.75 (p1)