卡方检验方法..
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 2 (
2
( )
2
2
)
2
1
e
2
2
0 2 , 1,2,3,...
17
2分布是一种连续型分布(Continuous distribution),v 个相互独立的标准正态变量 (standard normal variable) ui (i 1,2,, ) 的平方和称为 2 变量,其分布即为 2 分布; 自由度(degree of freedom)为v 。
22
第一节 四格表资料χ2检验
一般四格表的基本形式 B1 A1 A2 合计 a c a+c B2 b d b+d 合计 a+b c+d n=a+b+c+d
23
表7-1 完全随机设计两样本率比较的四格表
属性 处理组 1 阳性 A11 (T11) 阴性 A12 (T12) 合计
n1(固定值)
2
合计
对照组
合计
9
38
Baidu Nhomakorabea
28
35
37
73
24.32
52.05
6
2检验(Chi-square test)是现代统计学的 创始人之一,英国人K . Pearson( 1857-1936)于1900年提出的一种具有 广泛用途的统计方法。
7
2 检验的用途
用途较为广泛的假设检验方法,本章仅介绍用 于分类计数资料的假设检验,用于检验两个 (或多个)率或构成比之间差别是否有统计
第八章 2检验 Chi-square test
1
掌握内容:
几种常见设计类型资料的卡方检验 熟悉的内容 卡方检验的适用范围 了解内容 1.四格表资料的Fisher精确概率法
2
用样本信息推论总体特征的过程。
包括: 参数估计: 运用统计学原理,用从样本计算出来 的统计指标量,对总体统计指标量进行估计。 假设检验:又称显著性检验,是指由样本间存 在的差别对样本所代表的总体间是否存在着 差别做出判断。
2 ( A T ) 基本公式: 2 T
(a b)( a c) (a b)(b d ) (c d )(b d ) a b d abcd abcd abcd (a b)( a c) (a b)(b d ) (c d )(b d ) abcd abcd abcd (ad bc) 2 n 1 ; (四格表专用公式) (a b)(c d )( a c)(b d )
理论上可以证明 (A-T)2/T服从x2分
布,计算出x2值后,查表判断这么大的
x2是否为小概率事件,以判断建设检验
是否成立。
20
附表 8
自由度 υ 1 2 3 4 5 6 7 8 0.01 0.07 0.21 0.41 0.68 0.99 1.34 0.02 0.11 0.30 0.55 0.87 1.24 1.65 … … … … … … …
ν=(行-1)×(列-1)
13
理论频数的计算
TRC
nR nC n
nR是ARC所在行的合计, nC是ARC所 在列的合计,是两个样本例数的合计
14
理论频数 T 是根据检验假设H 0 : 1 2 且用合并率 pc 来估计 而定的。
如本例,无效假设是A药组与B药组的总体 有效率相等,均等于合计的阳性率66.67% (110/165)。那么理论上,A药组的85例中 阳性人数应为85(110/165)=56.67,阴性人数 为85(55/165)=28.33;同理,B药组的80例中 阳性人数应为80(110/165)=53.33,阴性人数 为80(55/165)=26.67。
15
χ2检验的基本公式
2 ( A T ) 1 2 2 (AT) T T
( R 1)(C 1)
上述基本公式由Pearson提出,因此软 件上常称这种检验为Peareson卡方检验, 下面将要介绍的其他卡方检验公式都是在 此基础上发展起来的。它不仅适用于四格 表资料,也适用于其它的“行×列表”。
学意义,配对2检验检验配对计数资料的差
异是否有统计学意义。
8
2检验的基本思想
检验实际频数(A)和理论频数(T)的差别
是否由抽样误差所引起的。也就是由样 本率(或样本构成比)来推断总体率或 构成比。
9
表7-1 两种药物治疗胃溃疡有效率的比较
处理 有 效 无 效 23(28.33)b 32(26.67)d 55(b+d) 合 计 有效率 (% )
34
例8.5 某药品检验所随机抽取574名成年人,研究抗生素的 耐药性(资料如表8-11)。问两种人群的耐药率是否一致? 表8-11 某抗生素的人群耐药情况
用药史 曾服该药 未服该药 合 计
不敏感
敏感
合计
耐药率(%)
180
73 253
215
106 321
395
179 574
45.57
40.78 44.08
37
(2)计算检验统计量
当总例数 n且所有格子的理论频数T>5时:用 检验的基本公式或四格表资料检验的专用公 式: 2 2 2 180 174 . 10 215 220 . 90 106 100 . 10 2= = 23.12
16
(Continuous distribution),v 个相 互独立的标准正态变量(standard normal variable) 2 2 的平方和称为 变量,其分布即为 分布;自由度(degree of freedom) 为v 。
f ( )
2
分布是一种连续型分布
2
2
0.4
v=1
0.3
0.2
v=4 v=6
0.1
v=9
0.0 0 3 6 9 12 15
18
2分布的形状依赖于自由度ν 的大小:
① 当自由度ν≤2时,曲线呈“L”型; ② 随着ν 的增加,曲线逐渐趋于对称;
③ 当自由度ν →∞时,曲线逼近于正态
曲线。
19
如果假设检验成立,A与T不应该相差
太大。
3
统计描述
计量资料 频数分布 集中趋势 离散趋势
统计推断 应 用
抽样误差、正常值范围 标准误 t u F检验 区间估计
统计图表
计数资料 相对数及 其标准化 统计图表 r b 标准误 人口统计 2检验 疾病统计 率的区间 估计 t检验
4
相关与回归
统计图表
在总体率为π的二项分布总体中做
n1和n2抽样,样本率p1和p2与π的差 别,称为率抽样误差。
u p 0
已知π0 nP>5, n(1-P)>5
p
5
例 为了解铅中毒病人是否有尿棕色素增加现象, 分别对病人组和对照组的尿液作尿棕色素定性检查, 结果见下表,问铅中毒病人与对照人群的尿棕色素 阳性率差别有无统计学意义?
表 组别 铅中毒病人 两组人群尿棕色素阳性率比较 阳性数 29 阴性数 7 合计 36 阳性率 (%) 80.56
用校正公式;或改用四格表资料的Fisher确切
概率法。
c2
2
( A T 0.5) 2 T
n 2 2
(|ad-bc|- ) n c = (a+b)(c+d)(a+c)(b+d)
30
2分布是一连续型分布,而四格表资料 属离散型分布,由此计算得的 2统计量 的抽样分布亦呈离散性质。为改善2统 计量分布的连续性,则需行连续性校正 (correction for continuity)。 2 连续性校正仅用于ν =1 的四格表资 料,当ν≥2 时,一般不作校正。
A21 (T21)
A22 (T22)
n2(固定值)
n
24
m1
m2
四格表2检验的专用公式
n≥40,T≥5
(ad bc) n (a b)(c d )(a c )(b d )
2 2
25
为了不计算理论频数T, 可由基本公式推导出 ,直接由各格子的实际频数(a、b、c、d)计 算卡方值的公式:
能认为两总体率不同。
33
自由度 ν 愈大,χ2 值也会愈大;所以只有考虑 了自由度 ν的影响 ,χ2 值才能正确地反映实际 频数A和理论频数T 的吻合程度。
检验的自由度取决于可以自由取值的格子数 目,而不是样本含量n。四格表资料只有两行 两列,ν=1,即在周边合计数固定的情况下,4 个基本数据当中只有一个可以自由取值。
31
(3)当n<40,或T<1时,不能用卡方 检验,改用四格表资料的Fisher确切概 率法。
32
3.作出统计结论
以 =1查 2 界值表,若 P 0.05,按 0.05 检验 水准拒绝H ,接受H 1,可认为两总体率不同; 0 若 P 0.05 ,按检验水准 0.05不拒绝H 0,尚不
2
2
2
1.建立检验假设
H 0 : 1 2 ,两总体率相等
H1 : 1 2 ,两总体率不等
0.05
检验统计量χ2值反映了实际频数与理论频 数的吻合程度。
27
若检验假设 H0:π1=π2 成立,四个格子的 实际频数A 与理论频数T 相差不应该很 大,即统计量χ 2 不应该很大。如果χ 2 值很大,即相对应的P 值很小,若 P≤α, 则反过来推断 A 与 T 相差太大,超出了 抽样误差允许的范围,从而怀疑H0的正 确性,继而拒绝H0,接受其对立假设H1, 即π1≠π2 。
A 药 62(56.67)a B药 合计 8(53.33)c 110(a+c)
85(a+b) 72.94 (p1) 80(c+d) 60.00 (p2) 165(n) 66.67
目的:推断是否π1=π2?
10
本例资料经整理成下表形式, 即有两个处理组,每个处理 组的例数由发生数和未发生 62 a 23 b 数两部分组成。表内有 四个基本数据,其余数据 48 c 32 d 均由此四个数据推算出来的, 故称四格表资料。
9.49 11.14
9.24 11.07 12.83 10.64 12.59 14.45 12.02 14.07 16.01 13.36 15.51 17.53
在υ=1,
2 0.05,1
u
2 0.05/ 2
1.96
2
21
自由度一定时,P值越小, x2值越大, 反比关系。 当P 值一定时,自由度越大, x2越大。 =1时, P=0.05, x2 =3.84 P=0.01, x2 =6.63 P=0.05时, =1, x2 =3.84 =2, x2 =5.99
35
理论频数的计算
实际数 理论数
180 73
215 106 174.10 78.90 220.90 100.10
36
2检验的步骤
(1)建立假设并确定检验水准
H0:两种人群对该抗生素的耐药率相同,
即1 = 2; (两总体率相等) H1:两种人群对该抗生素的耐药率不同, 即1≠2 ;(两总体不相等) =0.05
处的理论频数。 ( ARC - TRC )反映实际频数与理论频数的差
距,除以TRC 为的是考虑相对差距。所以,2 值反映了实际频 数与理论频数的吻合程度, 2 值大,说明实际频数与理论频 数的差距大。 2 值的大小除了与实际频数和理论频数的差的 大小有关外,还与它们的行、列数有关。即自由度的大小。
28
2.计算检验统计量
(1)当总例数n≥40 且所有格子的理论频数T>5 时:用检验的基本公式或四格表资料检验的专 用公式;
基本公式
2
(A T )2 T
专用公式
(ad bc) 2 n (a b)(c d )( a c)(b d )
2
29
(2)当总例数 n≥40 且有一个格子1≤T<5时:
χ2 界值表
概率,P
0.995 0.990
…
0.100 0.050 0.025 2.71 4.61 6.25 7.78 3.84 5.99 7.81 5.02 7.38 9.35
… … … … … … … … …
0.005 7.88 10.60 12.84 14.86 16.75 18.55 20.28 21.95
11
表7-1 完全随机设计两样本率比较的四格表
属性 处理组 1 2 合计 合计
阳性
A11 (T11) A21 (T21)
阴性
A12 (T12) A22 (T22)
n1(固定值)
n2(固定值)
n
m1
m2
12
衡量理论频数与实际频数的差别
( ARC TRC ) TRC
2
2
ARC是位于R行C列交叉处的实际频数, TRC是位于R行C列交叉