中国医科大学研究生医学统计学 第五讲 计数资料及卡方检验2
卡方检验解释
(四)卡方检验的连续性校正问题
反对依据是:经连续性校正后,P值有过分 保守之嫌。此外,Fisher确切概率法建立在 四格表双边固定的假定下,而实际资料则 是单边固定的四格表,连续性校正卡方检 验的P值与Fisher确切概率法的P值没有可 比性。
• 就应用而言,无论是否经过连续性校 正,若两种检验的结果一致,无须在 此问题上纠缠。但是,当两种检验结 果相互矛盾时,如例7-2,就需要谨 慎解释结果了。
24.08, P0.05
结论与之相反。
(四)卡方检验的连续性校正问题
赞成依据是:这样做可使卡方统计量抽样 分布的连续性和平滑性得到改善,可以降 低I类错误的概率,连续性校正后的卡方检 验,其结果更接近于Fisher确切概率法。不 过,校正也不是无条件的,它只适合于自 由度为1时,样本含量较小,如n<40,或 至少有一个格子的理论频数太小,如T<5 的情形。
• 为客观起见,建议将两种结论同时报 告出来,以便他人判断。当然,如果 两种结论一致,如均为或,则只报道 非连续性检验的结果即可。
第二节、两相关样本率检验 (McNemar检验)
配对四格表资料的 2 检验
与计量资料推断两总体均数是否 有差别有成组设计和配对设计一样, 计数资料推断两个总体率(构成比) 是否有差别也有成组设计和配对设计, 即四格表资料和配对四格表资料。
理论频数由下式求得:
TRC
nR nC n
式中,TRC 为第R 行C 列的理论频数 nR 为相应的行合计 nC 为相应的列合计
检验统计量 2 值反映了实际频数与 理论频数的吻合程度。
若检验假设H0:π1=π2成立,四个格子的实际 频数A 与理论频数T 相差不应该很大,即统计量
不应该很大。如果 2 值很大,即相对应的P 值很
医学统计学之卡方x2检验
举例
买彩票
奖项 中奖概率
T
A
一等 1% 10 0
0
二等 5% 50 0
0
三等 10% 100 20
2%
四等 20% 200 180
18%
五等 64% 640 800
80%
二、基本原理
基本思想是检验实际频数和理论频数的差别是否 由抽样误差所引起的,由样本率来推断总体率。
x2反映了实际频数于理论频数的吻合程度,x2值
α=0.05。
T11 =44(41/70)=25.8 T12=44(29/70)=18.2 T21=26(41/70)=15.2 T22 = 26(29/70)=10.8
(2)求检验统计量值
2 (20 25.8)2 (24 18.2)2 (21 15.2)2 (5 10.8)2 8.40
作χ2检验后所得概率P接近检验水准α,需要
计数资料的统计推断
卡方检验是χ2检验(Chi-square test) 是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的 一种具有广泛用途的统计方法,是分类 计数资料的假设检验方法,可用于两个 或多个率间或构成比之间的比较,计数 资料的关联度分析,拟合优度检验等等。
2 检验的应用
①检验两个样本率之间差别的显著性; ②检验多个样本率或构成比之间差别的
显著性; ③配对计数资料的比较; ④检验两个双向无序分类变量是否存在
关联。
某医生想观察一种新药对流感的预防效 果,进行了如下的研究,问此药是否有 效?
组别 实验组 对照组 合计
发病人数 14 30 44
未 发 病人数 86 90 176
观察例数 100 120 220
医学统计学课件-卡方检验
联合治疗 39 34.44 8 12.56 47 73.3 单纯治疗 57 61.56 27 22.44 84 73.3
合计
96
35
131 73.3
Trc
nr nc n
理论频数= 84 73.3%
χ2检验的基本思想(1)
通过构造A与T吻合程度的统计量来反 映两样本率的差别!
实际数A
39
8
57
27
污染率 (%)
甲
6
23
29
79.3
乙
30
14
44
31.8
丙
8
3
11
27.3
合计
44
40
84
47.6
理论数的计算
实际数A
6
23
29
30
14
44
8
3
11
44
40
84
(52.4%) (47.6%)
理论数T
15.2 13.8
23.0 21.0
5.8
5.2
T
nR
nC N
nR nC N
2值的计算
实际数A
χ2检验相关问题-应用条件
某矿石粉厂当生产一种矿石粉石时,在数天内即有 部分工人患职业性皮肤炎,在生产季节开始,随机 抽取15名车间工人穿上新防护服,其余仍穿原用的 防护服,生产进行一个月后,检查两组工人的皮肤 炎患病率,结果如表 ,问两组工人的皮肤炎患病 率有无差别?
χ2检验相关问题-应用条件
Total
When the variables are independent, the proportion in
both groups is close to the same size as the proportion
第五章计数资料组间比较的假设检验—卡方)检验(chi-
2 ( b c 1)2 (12 3 1)2 4.27, 1
bc
12 3
• 4.确定自由度(ν)和 χ2值 的概率P
• ν=(行数-1)(列数-)
• 本例:ν=(2-1)(2-1)=1
2 0.05,1
3.84
• 本例χ2=4.27>3.84,P<0.05
• 5.结论:在α=0.05水准,拒绝H0,认为两剂 量的死亡率不同,甲剂量的死亡率 (18/39=46.2%)高于乙剂量死亡率 (9/39=23.1%)。
• ν=(行数-1)(列数-)=(R-1)(C-1) • 本例:ν=(2-1)(2-1)=1
•
2 与
2
0.05,
比较
2
4.84
2 0.05,1
3.84, P0.05
• 5.结论:在=0.05水准上拒绝H0, 两总体率差别有统计的显著性,即
两组总体率不同,用苯乙双胍组的
病死率高于安慰剂组。
两组率相等的理论数与实际数
2
2
( A T 0.5)
T
2 ( ad bc N / 2)2 N
(a b)(a c)(c d)(b d)
公式5-9 公式5-10
表5-2 两零售点猪肉带菌率的比较
• 组别 阳性数 阴性数 合计 带菌率%
• 甲 2(4.67) 26(23.33) 28 7.14
• 乙 5(2.33) 9(11.67) 14 35.71
• 合计 7
35
42 16.67
• 校正公式
2 ( 29 265 42 / 2)2 42 3.62
(28) (14) (7) (35)
• 不校正X2=5.49 p<0.05
P> 0.05 .
第五讲卡方检验
3/19/2015
16
a
b d
2.成组四格表的专用公式
2
c
ad bc n 2 a bb d c d a c
该公式从x2基本公式推导而来,计算较为简单,结果相同。
3/19/2015
17
3.成组四格表χ2检验计算公式的适用条件
(1) 当实验对象总个数 n>40,且所有格子的理论频数 E≥5时, 可用χ2检验基本公式或专用公式计算χ2值。 (2) 当 n>40 ,但有任一格子的理论频数 E 仅满足 1<E<5 时, 需用校正公式:
▲
3/19/2015 12
x2检验的原理:
E χ2检验假设两组率相同,(O-E)2/E 应该很小。
2
O E
2
如果实际频数和理论频数相差的很大, χ2 值也越大。 当 χ2 值比规定的界值还大时,被认为是小概率事件, 就拒绝H0,认为两组率不相同。 因为 χ2 值是对每个格子的 (O-E)2/E 求和,所以格子
自由度:=(2-1) x (2-1)=1 第四步:确定P值 第五步:判断结果
3/19/2015 31
2 (三)行x列表 x 检验
四格表是指只有2行2列,当行数或列数超过2时,统
称为行x列表。
行x列表 x2 检验是对多个样本率(或构成比)的检
验。
基本公式:x2 =(O-E)2/E
O2 n 1 专用公式: n n R C
a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 20. 00.
医学统计学——卡方检验
• ⑵χ2分布具有可加性:如果两个独立的 随机变量X1和X2分别服从ν1和ν2的χ2分 布,那么它们的和(X1+X2)也服从(ν1+ ν2)的χ2分布。
χ2 界值
• ν确定后,如果分布曲线下右侧尾部的 面积为α时,则横轴上相应的χ2值就记 作χ2 α,ν ,即χ2界值。其右侧部分的 面积α表示:自由度为ν时, χ2值大 于界值的概率大小。χ2值与P值的对应 关系见χ2界值表(附表6)。χ2值愈大,P 值愈小;反之,χ2值愈小,P值愈大。
• T22=(c+d)×(1- PC)=(c+d)×(b+d)/n = 56×17/112=8.5
χ2检验的基本思想
• χ2检验实质上是检验A的分布与T的分 布是否吻合及吻合的程度,χ2越小,表
明实际观察次数与理论次数越接近。
• 若检验假设成立,则A与T之差不会很 大,出现大的χ2值的概率P是很小的, 若P≤α,就怀疑假设成立,因而拒绝 它;若P>α,则没有理由拒绝它。
不同自由度的χ2分布曲线图
图 8-1 不同自由度的χ2 分布曲线图
二、χ2检验的基本思想
• 例8-1 某中医院将112例急性肾炎 病人随机分为两组,分别用西药和 中西药结合方法治疗,结果见表8-1, 问两种方法的疗效有无差别?
表8-1 两种方法治疗急性肾炎的结果
组 别 治愈例数 未愈例数 合计 治愈率(%)
例8-2
• 某医师将门诊的偏头痛病人随机 分为两组,分别采用针灸和药物 两种方法治疗,结果见表8-3 , 问两种疗法的有效率有无差别?
两种疗法对偏头痛的治疗结果
疗 法 有效例数 无效例数 合计 有效率(%)
针 灸 33(30.15) 2(4.85) 35 94.29
卡方检验-有序资料的卡方检验
在社会学研究中,卡方检验可用 于分析分类变量之间的关系,例 如性别与职业选择、婚姻状况与
教育程度等。
在市场营销中,卡方检验可用于 分析消费者偏好和行为,例如品
牌选择、产品购买决策等。
注意事项
卡方检验的前提假设是样本数 据相互独立,且每个单元格的
期望频数不能太小。
卡方检验的结果受到样本大小 和期望频数的影响,因此在使 用时需要谨慎选择样本和数据
卡方检验的定义和原理
• 有序卡方检验基于卡方检验的原理,通过比较实际观测频数与期望频数之间的 差异,来评估变量之间的关联性。它利用卡方统计量来衡量观测频数与期望频 数之间的偏离程度,通过计算卡方值和对应的概率值(p值),判断变量之间 的关联是否具有统计学显著性。
• 有序卡方检验通常使用列联表的形式呈现数据,其中行表示一个分类变量,列 表示另一个分类变量。在列联表中,每个单元格表示两个分类变量在特定水平 下的观测频数。通过比较期望频数与实际观测频数,可以计算每个单元格的卡 方值。
05
卡方检验的案例分析
案例一:不同年龄段人群的吸烟习惯
01
目的
比较不同年龄段人群的吸烟习惯是否存在显著差异。
02
数据
将年龄段分为5个等级,分别为18岁以下、18-25岁、26-35岁、36-45
岁、46岁以上。吸烟习惯分为不吸烟、偶尔吸烟、经常吸烟三个等级。
03
分析
使用卡方检验分析不同年龄段人群的吸烟习惯分布是否有显著差异。
对样本量要求较高
有序卡方检验对样本量有一定的要求,如果 样本量过小,可能会导致检验结果不准确。
对数据要求较高
有序卡方检验要求数据必须满足一定的假设条件, 如独立性、均匀分布等,否则可能会导致检验结果 偏差。
医用统计学-卡方检验2
220(c+d) 400(a+b+c+d)
2
a
ad bc 2 n b c d a c b
d
χ2=21.65 P<0.05
1
14
2×2表χ2值的连续性校正:
➢ 当n≥40,且T≥5时,不需进行连续性校正(使用基本 公式或专用公式);
➢ 当n≥40,但1≤T<5时,需进行连续性校正;
2
合计 138
正常体重 48(43.3) 42(37.8) 21(18.9)
111
合计
78(31.3) 78(31.3) 93(37.4)
249
24
1.建立检验假设,确定检验水准 H0:两组人群的体育运动习惯的总体构成比相同 H1:两组人群的体育运动习惯的总体构成比不相同 α=0.05 2.选择公式,计算检验统计量
0.5 0.4
f (x2 ) 0.3
v 1
0.2
v6
0.1
0.05 v 10
0 024
3.84
6 8 10 12 14 16
x2
χ2分布规律: 自由度一定时,χ2值越大, P值越小。 当P值一定时,自由度越大,χ2越大。
=1时, χ2 =3.84, P=0.05 χ2 =6.63, P=0.01
根据 =1查2界值表,得P<0.05,按=0.05 的检验水准,拒绝H0,接受H1,提示两种药 物治愈率有差别。
专用公式法:
表8-1 两组流感患者不同疗法治愈率的比较
组别 治愈人数 未治愈人数
合计
中药 144(a)
36(b)
180(a+b)
西药 128(c) 合计 272(a+c)
[医学]卫统 卡方检验
3、确定P值,并做出结论
查卡方表,
2 0.05
3.84 ,
2
2
0.05
, 故P 0.05
按照 0.05水准,不拒绝 H0,两样本率的差别 无统计学意义,尚不能 认为两组工人的骨质增 生 总体发生率不等。
卡方检验的使用范围
两组及多组率的检验 两组及多组构成比分布的检验 独立性检验 拟合优度检验
45 25 35.5
综合以上思路,列联表期望频数的统一 计算公式为:
Tij
ri c j n
如果H0成立,A与T不应相差太大,x2值不应很大;
如果H0不成立,由H0为真的条件下所计算的理论频数 与样本的实际频数的差别会很大,大多数情况下的 检验统计量x2会较大或很大。 2 ( A T ) 2 理论上可以证明,若H0成立, T 服从x2分布。
表:两组工人的骨质增生发生率比较
组别 发生 井下工人 井上工人 18(14.2)a 9(12.8)c 骨质增生 未发生 22(25.8)b 27(23.2)d 40(a+b) 36(c+d) 45 25 合计 发生率
合计
27(a+c)
49(b+d)
76(n)
35.5
具体步骤
1. 建立假设
H 0 : 两组工人的骨质增生总 体发生率相等,即 1 2 H1 : 两组工人的骨质增生总 体发生率不等,即 1 2
χ2 分布(chi-square distribution)
0.5 0.4 0.3
f ( ) 2( / 2) 2
2
1
2
( / 21)
e
2 / 2
医学统计学卡方检验
03 左侧概率为P =P1+ P2 + P3 =0.316 , 右侧概率为P =P3+ P4 + P5 + P6 =0.929,故单侧检验P值为0.316。
Part 02.
配对四格表资料的 检验
χ2
概述
计数资料的配对设计常用于两种检验方 法、培养方法、诊断方法的比较。 特点是对样本中各观察单位分别用两种 方法处理,然后观察两种处理方法的某 两分类变量的计数结果,整理为
的条件下,利用超几何分布
Fisher确切概率法的基本思想
(hypergeometric distribution)公式直接计算 表内四个格子数据的各种组合 的概率,然后计算单侧或双侧
“!”为阶乘符号, n !=1×2×…×n,0 !=1, ∑Pi=1。
累计概率,并与检验水准比较,
P( ab)( c 作! 出 a 是! 否db 拒! ) 绝cH! ( 0a d 的! ! 结 论n! 。c)( b!d)!
当T<1或n<40,四格表资料χ2检验结果 可能会有偏性,需采用Fisher确切检验 进行分析。该法由R. A. Fisher提出,且 直接计算概率,因此也叫Fisher确切概 率检验(Fisher’s exact probability test)。
四格表资料的Fisher确切概率法
在四格表周边合计数固定不变
否有差别?
⑴设H0 :π1=π2 ,即两药有效率相同;H1 : π1≠π2 α=0.05
⑵n>40,Tmin>5
2 5 5 2 . 1 7 2 8 1 1 9 . 8 3 2 2 3 3 9 . 8 3 2 2 3 8 . 1 2 8 6 . 48 5 . 1 7 81 . 8 3 23 . 8 3 28 . 18
研究生医学统计学-X2检验课件
01
这是为了保证X2统计量的分布接近卡方分布。
每个单元格中的期望数都应该大于5
02
这是为了确保卡方分布的精确性和稳定性。
观察数和期பைடு நூலகம்数之间没有关联
03
这是为了确保X2统计量不受其他因素的影响。
限制条件
1 2
样本量较小
如果样本量较小,X2检验的准确性可能会受到影 响。
分类变量之间存在高度相关性
如果分类变量之间存在高度相关性,X2检验的结 果可能会受到干扰。
X2统计量的解读
X2值的大小表示分类变量之间关系的强度,X2值越大,说明分类变量之 间的关系越强。
X2检验的临界值一般为3.841、6.635等,当X2值大于临界值时,可以认 为分类变量之间存在显著关系。
在解读X2值时,需要考虑样本量和数据分布情况,对于小样本和极端数据 需要进行特殊处理。
X2统计量的优缺点
研究生医学统计学-x2检验课件
目录
CONTENTS
• X2检验的基本概念 • X2检验的假设与限制 • X2检验的统计量与解读 • X2检验的实际应用 • X2检验的软件实现 • X2检验的案例分析
01 X2检验的基本概念
CHAPTER
X2检验的定义
X2检验是一种用于检验分类变量间独 立性的统计方法,也称为卡方检验。 它通过比较实际观测频数与期望频数 之间的差异,来判断变量间的关联性。
谢谢
THANKS
总结词
探讨X2检验在医学研究中如何应用
详细描述
在医学研究中,X2检验常用于分析分类变量之间的关系,如疾病与基因型、治疗方式与疗效等。通过 X2检验,可以判断不同组别之间是否存在显著差异,从而为医学研究提供科学依据。
医学统计学课件卡方检验
队列研究中的卡方检验
总结词
在队列研究中,卡方检验用于比较不同暴露 水平或不同分组在某个分类变量上的分布差 异,以评估暴露因素与疾病发生之间的关系 。
详细描述
队列研究是一种前瞻性研究方法,按照暴露 因素的不同将参与者分为不同的组,追踪各 组的疾病发生情况。通过卡方检验,可以比 较不同暴露水平或不同分组在分类变量上的 分布差异,如分析不同饮食习惯的人群中患
卡方检验与相关性分析的区别
卡方检验主要用于比较实际观测频数与期望频数之间的差异,而相关性分析则用于研究 两个或多个变量之间的关联程度。
卡方检验与相关性分析的联系
在某些情况下,卡方检验的结果可以为相关性分析提供参考,帮助了解变量之间的关联 程度。
05
卡方检验的应用实例
病例对照研究中的卡方检验
总结词
02
公式
卡方检验的公式为 $chi^{2} = sum frac{(O_{ij} - E_{ij})^{2}}{E_{ij}}$,
其中 $O_{ij}$ 表示实际观测频数,$E_{ij}$ 表示期望频数。
03
适用范围
卡方检验适用于两个分类变量的比较,可以用于分析病例对照研究、队
列研究等类型的研究。
卡方检验的用途
如比较不同年龄组、性别组等人群中某种疾病的患病率。
卡方检验的基本假设
每个单元格中的期望 频数应该大于5。
卡方检验对于样本量 较小的情况可能不适 用。
观察频数与期望频数 应该服从相同的概率 分布。
02
卡方检验的步骤
收集数据
01
02
03
确定研究目的
在开始卡方检验之前,需 要明确研究的目的和假设 ,以便有针对性地收集数 据。
医学统计学----卡方检验
=
Xi − μ σ
χ2检验的内容
一、 χ2检验的基本思想 二、独立四格表资料的χ2检验 三、配对四格表资料的χ2检验 四、行×列表资料的χ2检验 五、多个样本率比较的χ2分割法 六、四格表资料的Fisher确切概率法 七、频数分布拟合优度的χ2检验
一、 χ2 检验的基本思想
χ2分布的概念 χ2检验的基本思想 P 值的确定 χ2 检验的基本检验步骤
表4
处理组
A B C 合计
三种脐带处理方法的脐带感染情况
脐带感染 感染 未感染
76
3143
15
2409
2
762
93
6314
合计 感染率(%)
3219
2.36
2424
0.62
764
0.26
6407
1.45
2. 样本构成比的比较
(comparison of several proportions)
例4 某医师在研究血管紧张素I转化酶(ACE)基
二、四格表资料的χ2检验
1. 四格表资料χ2 检验的专用公式
χ2 =
(ad − bc)2 n
(a + b)(c + d)(a + c)(b + d)
用四格表资料χ2专用公式计算例1的χ2值:
χ 2 = (99 × 21 − 5 × 75 ) 2 200 = 12 .86 104 × 96 × 174 × 26
处理组的例数由发生数和未发生数两部分组成。表
内有99、5、75、21 四个基本数据,其余数据均由
此四个数据推算出来的,故称四格表资料。
表2 四格表资料的基本形式
处理组 发生数 未发生数 合计
中国医科大学研究生必修课统计学复习重点
中国医科⼤学研究⽣必修课统计学复习重点统计学复习重点⼀、填空,选择1、根据(样本信息)来推断(总体特征)的⽅法即抽样研究。
2、为保证样本的代表性,抽样时必须遵循(随机化)原则。
3、资料可分为(定量资料)和(定性资料)两种类型,也可分为(计量资料)、(计数资料)和(等级资料)三种类型4、按误差产⽣的原因和性质可粗分为(随机误差)和(⾮随机误差)。
5、抽样误差产⽣的本质原因是(个体变异)6、⾮随机误差可分为(系统误差)和(⾮系统误差)7、医学统计⼯作的基本步骤:(设计)(收集资料)(整理资料)(分析资料)8、统计分析包括(统计描述)和(统计推断)9、连续型变量频数表编制步骤:(求极差)(确定组段数和组距)(根据组距写出组段)(分组划计并统计频数)10、统计描述是⽤(统计指标)、(统计表)、(统计图)描述资料的数据特征及分布规律。
11、频数分布表也叫(直⽅图)。
12、频数分布的类型可分为(对称分布)和(偏态分布)13、频数分布的重要特征是(离散趋势)和(集中趋势)14、统计推断包括(参数估计)和(假设检验)15、计量资料集中趋势的描述指标为(平均数)计量资料集中趋势的描述指标为(算数均数)(⼏何均数)(中位数)16、对数正态分布图形属于(右偏态/正偏态)分布17、描述⾎清抗体滴度平均效价的集中趋势,应选择(⼏何均数)指标。
18、描述端点⽆确切值资料的集中趋势,应选择(中位数)指标19、描述计量资料离散趋势的统计学指标为(级差)(四分位数间距)(⽅差)(标准差)(变异系数)20、(均数)和(标准差)结合在⼀起,是对⼀个正态分布资料的完整统计学描述21、(中位数)和(四分位数间距)结合在⼀起,是对⼀个偏态分布资料的完整统计学描述22、当⽐较两个观察指标的离散趋势,⽽观察指标单位不同或均数相差悬殊时,如⼉童和成⼈⾝⾼,体重和⾝⾼,应采⽤(变异系数)指标23、变异系数越⼤,表⽰数据的变异度越(⼤),数据越(分散)24、Φ(u)的含义是(标准正态曲线下,从-∞到u的⾯积)25、均数抽样误差是由(均数标准误)来衡量。
(医统)卡方检验
2
观测值的自由度(vi>2),Si为第i组观测值的标 准差 2 • 拒绝原假设的条件为: 2 ,
F检验
• 检验两组观测值的方差的齐性 • 原假设: 2 2
1 2
• 检验统计量:
2 2 2 S1 F 2 2 ~ F( 1 , 2 ) 1 S2
• 拒绝条件: F F /2 (1, 2 )或F F1 /2 (1, 2 )
2.拟合优度检验
• B.表征实验分布,即用卡方统计量检验实验分布 是否服从某一理论分布(正态、二项等) • 步骤:1.将总体X的取值范围分成k个互不重迭的 小区间 • 2.计算落入第i个小区间的样本值的观测频数 • 3. 根据所假设的理论分布, 算出总体X的值落入每 个小区间的概率p,于是np就是落入该区间的样本 值的理论频数 • 4.计算卡方统计量 • 5.与临界值进行比较,进行决策
χ2 检验 数据资料 总体 检验对象
离散型资料 总体分布是未知的
连续型资料假设检验
连续型资料 正态分布 对总体参数或几个总体 参数之差
不是对总体参数的检 验,而是对总体分布 的假设检验
三、χ2 检验的用途
适合性检验
是指对样本的理论数先通过一定的理
论分布推算出来,然后用实际观测值与理论
数相比较,从而得出实际观测值与理论数之
理论值(E)
696.75 232.25 929
O-E
+8.25 -8.25 0
由于差数之和正负相消,并不能反映实 际观测值与理论值相差的大小。
为了避免正、负相抵消的问题,可将实际 观测值与理论值的差数平方后再相加,也就是 计算:
∑(O-E)2
O--实际观察的频数 E--无效假设下的期望频数
中国医科大学医学统计学 卡方检验
四格表专用公式
2
(ad bc) n
2
(a b)(c d )( a c)(b d )
(4111 24 4) 80
2
本例
2
45 35 65 15
6.565
校正公式
当n≥40时,如果有某个格子出现 1T<5
2
( A T 0.5) T
1) 7.584
自由度 = (3-1)(2-1) = 2 20.025(2)=7.38,P<0.025,拒绝H0 可以认为三种剂量镇痛有效的总体概率有差别。 三个都不同? 哪两个间不同?
第二节 配对设计下两组频数分布的2检验
例 设有28份咽喉涂抹标本,把每份标本一分为二, 依同样的条件分别接种于甲、乙两种白喉杆菌培养基上, 观察白喉杆菌的生长情况,结果如表7-10,问两种培养基 上白喉杆菌的生长概率有无差别?
2
或其等价的形式
2
(| ad bc | n / 2) n
2
(a b)(c d )( a c)(b d )
例 将病情相似的淋巴系肿瘤患者随机分成两组,分别 做单纯化疗与复合化疗,两组的缓解率见表7-4,问两 疗法的总体缓解率是否不同?
属性 组别 缓解 单纯化疗 复合化疗 合计 2 ( 4.8) 14 (11.2) 16 未缓解 10 ( 7.2) 14 (16.8) 24 12 (固定值) 28 (固定值) 40 16.7 50.0 40.0 合计 缓解率 (%)
第十一章 2检验
第一节 独立样本列联表资料的2检验
例11.1
疗效 组别 有效 甲药 乙药 合计 27 40 67 无效 18 5 23 45(60.00%) 45(88.89%) 90(74.44) 合计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(四)注意资料的可比性 用以比较的资料应是同质的,除 了要比较的处理因素外,其它条件应 基本相同。对于不同时期、地区、条 件下的资料应注意是否齐同。
• (五)对比不同时期资料应注意客观 条件是否相同 例如,疾病报告制度完善和资料完整 的地区或年份,发病率可以“升高”; 居民因医疗普及,就诊机会增加,或诊 断技术提高,也会引起发病率“升高” 。因此在分析讨论时,应根据各方面情 形全面考虑,慎重对待。
2 ( A T ) 2 RC RC TRC
=
[b- (b+c)/2]2
+
[c- (b+c)/2]2
(b+c)/2 [(c- b)/2]2 (b+c)/2
(b+c)/2
= [ (b-c)/2]2 +
(b+c)/2
= (b-c)2/2
(b+c)/2
(b c) 2 bc
H0:总体B = C H1:总体B≠C α= 0.05 b + c = 12 + 2 = 14 < 40。
本资料若不校正时,X2=4.35,P<0.05,结 论与之相反。
最小理论频数TRC的判断: R行与C列中,行合计数中的最小 值与列合计数中的最小值所对应
格子的理论频数最小。
如本例,第2行与第2列所对应的格子 理论频数最小(4.67)。
第二节 配对设计的四格表资料的χ2检验
(一)配对四格表形式 B 甲种属性 + 合计 A乙种属性 + 合计 a b a+b c d c+d a+c b+d n=a+b+c+d
无效 b d b+d
合计 a+b c+d n= a+b+c+d
n1. n.1 (a c ) T11 (a b) n n
• 表7-1两组降低颅内压有效率的比较
χ2 值的含义: 反映了实际频数与理论 频数的吻合程度。 χ2值理论上是非负值。(即χ2≥0) χ2检验判别准则: 若 χ2<χ20.05(ν) , 则 P>0.05, 不拒绝无 效假设H0; 若 χ2≥χ20.05(ν) , 则 P<0.05, 拒绝无效假 设H0,接受H1 。
二、两个或多个构成比的比较(例7-7)
三、双向无序分类资料的关联性检验
(例7-8)
对一个样本(或称一组观察对象)按照 两种分类变量的取值,排列成二维的表, χ2检验可用于分析两分类变量的关系。
一、多个样本率的比较
例7-6 某医师研究物理疗法、药物治疗 和外用膏药三种疗法治疗周围性面神经 麻痹的疗效,资料见表7-8。问三种疗 法的有效率有无差别?
(六)样本率(或构成比)的抽样误差 不能仅凭数字表面相差大小下结 论,而应进行样本率 ( 或构成比 ) 差别 的假设检验。
2 χ 检验
χ2检验在分类资料中的应用:
( 1) 推断两个(或多个)总体率或构成比 之间有无差别 (2)多个样本率间多重比较 (3)两个分类变量之间有无关联性 (4)多维列联表的分析 (5)频数分布拟合优度的χ2检验
(三)正确计算合计率
不能简单地由各组率相加或平均而得, 而应用合计的有关实际数字进行计算。 例如用某疗法治疗肝炎,甲医院治疗150 人,治愈 30 人,治愈率为 20 %;乙医院 治疗100人,治愈30人,治愈率为30%。 两个医院合计治愈率应该是 [(30+30) / (150+100)]×100 % =24 % 。 若 算 为 20 % +30 %。 50 %或 (20 % +30 % ) / 2=25 %, 则是错的。
表7-8 三种疗法有效率的比较
H0:π 1=π 2=π 3, 即三种疗法治疗周围 性面神经麻痹的有效率相等
H1: 三种疗法治疗周围性面神经麻痹 的有效率不全相等 α = 0.05
2=21.04, =2, 查 2界值表得P<0.005。
按α=0.05 水准, 拒绝H0, 接受H1, 可认 为三种疗法治疗周围性面神经麻痹的 有效率有差别。
特点: (1)同一事物的各个组成部分的 构成比之和应为100%。 (2)事物内部各组成部分之间呈 此消彼长的关系。
三、相对比
相对比(ratio),是两个有关的指标之 比,用以描述两者的对比水平。两个指标 可以是绝对数、相对数或平均数;可以 性质相同,也可以性质不同。
甲指标 相对比 乙指标
第二节
第一节
2 四格表资料的χ 检验
• χ2检验的基本思想:是检验实际 频数和理论频数的差别是否由抽样 误差所引起的。
一、χ2检验的统计量基本公式为:
2
( ARC TRC ) TRC
2
应用条件:n≥40,且T ≥ 5, 其中
TRC
n R nC n
处理 A B 合计
有效 a c a+c
常用的相对数指标有比、比例和率三种。 1.两个有关指标之比称为比(ratio),或称相 对比; 2. 当比的分子是分母的一部分时,称为比 例(proportion),或称结构相对数。
3. 当比例与时间有关系时称为率(rate),或 称为强度相对数。
第一节 常用相对数 一、率(强度相对数 ) 率( rate )是表示某种现象发生的 频率和强度,常以百分率(%),千分 率(‰),万分率(1/万),十万分率 (1/10万)等表示,计算公式为:
率 某事物或现象发生的实 际数 比例基数 某事物或现象发生的所 有可能数
例1 • 某企业2003年有2839名职工,该企业 每年都对职工进行体检,这一年新发 生高血压患者5例,高血压发病率为: 5/2839×1000‰=1.76‰。 比例基数的选择 主要依据习惯用法或使计算结果保留 一位或二位整数,以便阅读。
际应用中常用它作为四格表资料假设检验的补充
2.适用条件:(1)n<40 (2)T<1 (3)P≈α
第四节
行×列表资料的χ2检验
行×列表资料的χ2检验用于:多个 样本率的比较、两个或多个构成比的 比较、以及双向无序分类资料的关联 性检验
A n( 1) nR nC
2
2
一、多个样本率的比较(例7-6)
二、构成比(结构相对数 )
构成比(Constituent ratio)表示事物内 部各个组成部分所占整体的比重,通常以 100%为比例基数,以百分比表示,计算公 式如下 :
构成比 某事物内部某一组成部分观察单位数 100% 同一事物各组成部分的观察单位总数
• 例2 某医院1990年和1998年住院病人 死于五种疾病的人数见下表。
a, d: 两法观察结果一致的两种情况,
b, c: 两法观察结果不一致的两种情况。
若两种处理方法无差别, 总体: B = C。 因抽样误差不可避免, 样本往往b≠c, 需进行假设检验 ( McNemar test ), 检验统计量为 。
2
例7-3 某实验室分别用乳胶凝集法和
免疫荧光法对58名可疑系统红斑狼疮
第五讲 分类资料的统计描述与χ2检验
• 计数资料常见的数据形式是绝对数,如 某病的出院人数、治愈人数、死亡人数 等。 绝对数:只能表示某事物在某时、某地 发生的实际水平。 相对数:便于相互比较与分析。
例:甲、乙两地麻疹流行,
甲地发病300人 绝对数 乙地发病250人 甲>乙 但不能据此确定甲地麻疹流行较为严重,需考 虑易感人数。若甲地易感人数3000人 乙地易感人数1000人 则甲地麻疹发病率=300/3000=10% 乙地麻疹发病率=250/1000=25% 相对数
见表7-3。问两种方法的检测结果有
无差别?
表7-3
两种方法的检测结果
(二)计算公式 1. b+c≥40 时
(b c) bc
2
2
2. b+c<40时
(| b c | 1) bc
2
2
H0:总体B = C = (b+c)/2 H1:总体B≠C
=96×174/200
表7-1内只有4个数
是该表的
基本数据,其余数据都是由这4
个基本数据推算出来的,称为
四格表(fourfold table)资料。
χ2检验的检验步骤
H 0: π 1= π 2 H 1: π 1≠π 2
2
α =0.05;
( ARC TRC ) 2 TRC
以υ=1查χ2界值表得P<0.05。按α=0.05检验水准拒绝 Ho,接受H1,可以认为两组降低颅内压总体有效率 不等。
2 =1, 查 界值表得P<0.05。按α= 0.05检
验水准, 拒绝H0 , 接受H1 , 可以认为两种方法的检
测结果不同。
第三节 四格表的Fisher确切概率法
1. R.A.Fisher提出直接计算有利于拒绝H0的概 率,以作出检验判断。 Fisher确切概率法并非χ2检验的范畴。但在实
两个无序分类变量的行×列表资料, 称双向无 序R×C表资料。
2 行×列表资料 检验:推断两个无序分类变
量之间有无关系/关联。
若有关系,想进一步分析关系的密切程度,可 计算Pearson列联系数C。
表7-10 某地5801人的血型
2:行×列表资料的 2值
n:样本含量
Pearson列联系数 C : 0~1 0 完全独立;1 完全相关;
二、 四格表资料χ2检验专用公式: (n≥40且所有的T≥5)
(ad bc) n (a b)(c d )(a c)(b d )
2 2
l
三、四格表资料χ2检验的连续性校正: (n≥40 且某一个理论数1≤T<5) 校正公式分别为: