第7章 χ2 检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

式中,A为第R行第C列对应的实际频数,nR为第R行的行合计,
nC为第C列的列合计,
n为总样本含量。
例7.4 某地调查了1995~1998四个年度中小学女生的贫血状况, 见表7.4,问各年度间学生贫血率有无差别?
表 7.4 某地各年度学生贫血检出率的比较(%)
年份 1995 1996 1997 1998 合计
续性分布的理论公式计算出来的,但两个或多个率比较的原 始数据却属定性资料,是不连续的,故式(7.5)只是一个近似
计算公式。计算出来的2值往往偏大,相应的P值偏小,从
而人为地增加了范第一类错误的机会。为纠正这种偏性,可
采用校正2,用C2表示。
四格表资料2检验的应用条件
❖2检验的条件: n ≥40 且所有T ≥ 5 ❖ 2校正的条件: n≥40 但有l≤T<5
原理,就有理由怀疑H0的真实性,因而
拒绝它;若P>,则没有理由拒绝H0
四格表资料2检验专用公式
2
(ad bc)2 n
(a b)(c d)(a c)(b d)
2 (39 27 857)2 131 3.52
47849635
四格表资料2检验的校正
➢ 由于2分布是一种连续性分布,附表3中2界值是根据此连
故尚不能认为单纯手术疗法与联合疗法对乳腺 癌患者治疗效果有差别。
基本思想概括
❖若H0成立,则四个格子的实际频数A与 理论频数T之差异纯系抽样误差所致, 故一般不会很大,2值也就不会很大;在 一次随机试验中,出现大的2值的概率P
是很小的。
❖因此,若根据实际样本资料求得一个很
小的P,且P≤ (检验水准),根据小概率
第七章 χ2 检验
➢ 样本率与总体率的比较 ➢ 两样本率的比较 ➢ 多个率的比较 ➢ 构成比的比较 ➢ 配对设计两样本率的比较 ➢ 两事件数的比较 ➢ 定性资料假设检验的正确应用
7.1 样本率与总体率的比较
➢ 推断样本是否来自某已知总体 ➢正态近似检验:np>5 n(1-p)>5 ➢ 可信区间估计:不符合上述条件 (二项分布原理)
❖当n和T过小,如T<1或n<40时因近似程度
太差,不宜用2检验,而应改用确切概率法。
四格表资料2检验的校正公式
2 C
( A T 0.5) 2 T
2 C
( ad bc n / 2)2 n (a b)(c d )(a c)(b d )
治疗组 单纯化疗 复合化疗 合计
表 7.3 两组化疗的缓解率比较
➢ 读作 chi 2 :卡方 ➢2检验(chi-square test) 是现代统计学的创始
人 Karl Pearson( 1857-1936 )于1900年提 出的一种具有广泛用途的统计方法 。
例7.2
表 1 131 例乳腺癌患者治疗后 5 年存活率的比较 处 理 存活数 死亡数 合计 存活率(%)
➢ 对多(R)个构成比检验的目的是推断各样本分别代表
的总体构成比是否相同,用2检验。
➢ 基本思想:首先假设各样本所代表的总体构成比相 同,均等于合计的构成比,据此,可算得每个格子 的理论频数(见表7.6括号内数据)。如果检验假设是 真实的,则每一格子的理论频数与实际频数一般均
➢ =0.05。
2 14852 ( 2792 47022 2712 20892
49811701 498113151 23601701 236013151 3672 21612 7842 41992 1) 25281701 252813151 49831701 498313151 281.6263
同。若为单侧检验,则用u检验较为方便。
7.3 多个样本率的比较
➢ 多(R)个率的比较,其基本数据有R行2列,构成
R×2表,用以表述R个率的基本数据。R×2表的2
检验用于推断R个样本率各自所代表的总体率是否 相等。
多个样本率的比较的公式
2
( Ai Ti )2 Ti
2 n( A2 1) nR nC
效与无效,患病与未患病,阳性与阴性,检出与未检 出,等等。
表 2 四格表资料的基本形式
处理组
发生数
未发生数

a
b

c
d
合计
a+c
b+d
合计 a+b c+d0:两总体存活率相等,即1=2; ➢H1:两总体存活率不等,即12。
第二步:确定检验水准
➢ = 0.05 (双侧检验)
表 3 131 例乳腺癌患者按 H0 计算的理论频数 处理 存活数 死亡数 合 计 H0 假设下的 5 年
存活率(%)
联合治疗 34.44 12.56
47
73.3
单纯治疗 61.56 22.44
84
73.3
合 计 96
35
131
73.3
T a 47 73.3% 34.44 T c 84 73.3% 61.56
0.3158 0.2 u 0.2 (1 0.2) / 304 5.05 u0.01(单侧) 2.33
P<0.01,按=0.05水准拒绝H0,接受H1。认为老年胃
溃疡病患者的胃出血率大于20%。
7.2 两样本率的比较
➢目的: 推断两总体率是否相等 ➢两样本率比较的u 检验(u test)
➢两样本率比较的2检验 (chi-square test)
联合治疗
39
8 47
83.0
单纯治疗
57
27 84
67.9
合计
96
35 131
73.3
四格表(fourfold table)
➢ 表1 中间阴影部分的四个数据为基本数据,其余数据 均由此四个数据派生出来,故称此种资料为四格表 (fourfold table)资料。
➢ 四格表资料比较的是两种处理的效果。 ➢ 每种处理只产生两种相互对立的结果,如生与死,有
构成比的比较
➢ 构成比(proportion) 又称构成指标,表示某一事物 内部各组成部分所占的比重或频率,常以百分数表 示,计算公式为:
构成比
事物内部某一组成部分 同一事物各组成部分的
的观察单位数 观察单位总数
100 %
➢构成比有两个特点:
✓各部分构成比的合计为1或100%
✓事物内部某一部分的构成比发生变化时, 其他部分也会相应发生变化
n
❖由 2界值表查得 20.05,1 = 3.84 ,即理论上 如果H0成立,则2有95%的可能 在0~3.84 之间,2 >3.84的可能性只有0.05,是一小概
率事件。
.5 .4 .3 .2 .1 0
0
3.84
❖ 本例 2 =3.52 < 3.84 得P > 0.05。
❖ 按 = 0.05水准不拒绝H0,差别无统计学意义。
第三步:计算检验统计量
2 (AT)2
T
式中: A 为实际频数(actual frequency) T 为理论频数(theoretical frequency)
要计算 2统计量,必须先计算H0条件下的理论频数T :
✓ 在H0成立的条件下,即两样本来自同一总体,则可
以用合计的存活率 73.3%(即96/131)作为总体存活 率的点估计;用合计的死亡率 26.7%(即35/131)作 为总体死亡率的点估计; 。
T b 47 26.7% 12..56 T d 84 26.7% 22.44
四格表的理论频数由下式求得 :
nn
T RC
RC
n
式中:TRC为第R 行C 列的理论频数, nR为相应的行合计, nC为相应的列合计。
结合本例:
表 1 131 例乳腺癌患者治疗后 5 年存活率的比较 处 理 存活数 死亡数 合计 存活率(%)
2 C
12 2916 25
2.36
2 0.05 ,1
3.84
按 =1查附表3,2界值表,得P>0.05,按 = 0.05水
准不拒绝H0,差异无统计学意义。故根据本资料尚 不能认为两种疗法的总体缓解率有差别。
u检验与2检验的关系
❖ 两样本率比较时,如为双侧检验,则u检验和四格
表2检验是等价的,即自由度为1的2=u2 ;校正u检 验和四格表校正2检验也是等价的,应用条件亦相
贫血人数 279 271 367 784 1701
正常人数 4702 2089 2161 4199 13151
合计 4981 2360 2528 4983 14852
检出率(%) 5.60 11.48 14.52 15.73 11.45
➢ H0:四个年度学生的贫血检出率相等; ➢ H1:四个年度学生的贫血检出率不等或不全相等。
样本率与总体率比较的正态近似检验
u
p 0
0 (1 0 ) / n
❖ 例7.1 据临床经验,一般的胃溃疡病患者有 20%会出现胃出血症状。某医院观察了304 例65岁的胃溃疡病患者,其中有96例发生胃 出血,占31.58%,问老年患者是否较一般 患者易出血?
0
p
检验假设:
H0:=0, 老年胃溃疡病患者的胃出血率等于20%; H1:>0, 老年胃溃疡病患者的胃出血率大于20%。 单侧=0.05。
本例中,已知: n1=84, X2=57, p2=67.9% n2=47, X2=39, p2=83.0%
n1p1、n2 p2、n1 (1p1)、n2 (1-p2)均大于5, pc= (X1+X2)/(n1+n2)=(39+57)/(47+84)=0.733
H0:两总体存活率相等,即1=2; H1:两总体存活率不等,即12。 = 0.05。
用正态近似检验,检验统计量u为:
0.679 0.830 u 0.733 (1 0.733)(1/ 47 1/ 84) 1.874 u0.05 1.96
P>0.05,按=0.05水准,不拒绝H0,差别无统计学
意义。故尚不能认为单纯手术疗法与联合疗法对乳腺 癌患者治疗效果有差别。
两样本率比较的2检验
34.44
12.56
61.56
22.44
3.52
第四步:确定 P 值,下结论
▪ 由于四格表资料为双边固定形式,即假 设行合计与列合计均固定,所以四格表 的自由度ν=1
表 2 四格表资料的基本形式
处理组
发生数
未发生数
甲 乙 合计
a a+1 c c-1 a+c
b b-1 d d+1 b+d
合计 a+b c+d
联合治疗
39
8 47
83.0
单纯治疗
57
27 84
67.9
合计
96
35 131
73.3
Ta
47 96 131
34.44
Tc
84 96 131
61.56
T
b
47 35 131
12.56
T
c
84 35 131
22..44
2 (39 34.44)2 (8 12.56)2 (57 61.56)2 (27 22.44)2
两样本率比较的u 检验
当n1p1、n2 p2、n1 (1p1)、n2 (1-p2)均大于5时,
采用正态近似法,其中: pc=(X1+X2)/n
u | p1 p2 | s p1 p2
| p1 p2 |
pc
(1
pc
)( 1 n1
1 n2
)
两样本率比较的u 检验
如果n较小,则可以用校正的u检验
➢ ν =(4-1)×(2-1)=3。查附表3,2界值表,得P<0.005。按 =0.05
水准拒绝H0,接受H1,差异有统计学意义。故可认为该地四个 年份中小学女生贫血检出率不相等
多个率的多重比较
➢ 当多个样本率比较的2检验,结论为拒绝H0时,只
能认为各总体率之间总的说来有差别,但不能说明 它们彼此间都有差别,或某两者间有差别。若要进 一步比较哪些率之间有差别,应进行多重比较。
uC
X1 0.5 X 2 0.5
n1
n2
s p1 p2
X1 0.5 X 2 0.5
n1
n2
pc
(1
pc
)( 1 n1
1 n2
)
而当n很小时(比如n≤40时),用确切概率法
❖ 例7.2 某医院肿瘤科3年来共治疗乳腺癌患者 n=131例,每例均观察满5年,其中单纯手术 治疗组观察n1=84例,存活x1=57例,存活率 p1=67.9%,联合治疗(手术+术后化疗)组观察 n2=47例,存活x2=39例,存活p2=83.0%,问 两 组存活率有无差别?
血型 O A B AB
合计
表2.2
507名傣族人血型的频数分布
频数
构成比(%)
205
40.43
112
22.09
150
29.59
40
7.89
507
100.00
➢ 多(R)个率的比较,构成 R×2表 ➢ 如有R个都分为C类的构成比(R≥2,C≥3),则
其基本数据有R行C列,组成R×C表,又称 行×列表 ➢ 2×2表、R×2表是行×列表的特殊情形
缓解
未缓解
合计
2(4.68)
10(7.32)
12
14(11.32) 15(17.68)
29
16
25
41
缓解率(%) 16.67 48.28 39.02
H0:1=2; H1:12。 =0.05。
本例a格的理论频数最小,T11=1216/41=4.68<5,n>40,
故考虑用校正公式计算2值。
( 215 1014 41/ 2)2 41
相关文档
最新文档