医学统计学课件--第七章 卡方检验
【卫生统计学-资料】_医学统计学课件--第七章_卡方检验
n R nC N
式中符号含义:
A:实际频数,表中实际 发生的阳性或阴性频数
T:理论频数,按某H0假 设计算理论上的阳性或阴 性频数
表7-1两组疗法降低颅内压有效率(%)
疗法 有效人数 无效人数 合计 有效率
试验组 99(90.48) 5(13.52) 104 95.2
对照组 75(83.52) 21(12.48) 96 78.1
无效数 合计 有效率%
5(A12) 104
21(A22) 96
26
200
95.20 78.13 87.00
问:两组有效率差别是否是抽样误差或是不同药
物的作用?
组别 +
—
四格表
甲 99 5
的数字
乙 75 21
Pearson 2 检验的基本公式
(公式7-1)
2 (AT)2
T
(公式7-3)
T RC
Expected=T
90.48 13.52 83.52 12.48
2 (A T )2
T
T=n ×π
2 (9990.48)2 (513.52)2 (7583.52)2 (2112.48)2 12.86
90.48
13.52
83.52
12.48
TRC
nR nC N
T11
104 174 200
表 100例高血压患者治疗后临床记录
编号
1 2 3 4
年龄 X1
37 45 43 59
性别 治疗组 舒张压 体温
X2 X3 X4 X5
男 A 11.27 37.5 女 B 12.53 37.0 男 A 10.93 36.5 女 B 14.67 37.8
《卡方检验正式》课件
卡方检验的结果可以直接解释为实际意义 ,例如,如果卡方值较大,则说明观察频 数与期望频数存在显著差异。
缺点
对数据要求高
卡方检验要求数据量较大,且各分类的期望频数不能太小,否则可能 导致结果不准确。
对离群值敏感
卡方检验对离群值比较敏感,离群值可能会对结果产生较大的影响。
无法处理缺失值
卡方检验无法处理含有缺失值的数据,如果数据中存在缺失值,需要 进行适当的处理。
案例二:市场研究中的卡方检验
总结词
市场研究中,卡方检验用于评估不同市 场细分或产品特征与消费者行为之间的 关联。
VS
详细描述
在市场研究中,卡方检验可以帮助研究者 了解消费者对不同品牌、产品或服务的偏 好。例如,通过比较不同年龄段消费者对 某品牌的选择比例,企业可以更好地制定 市场策略和产品定位。
案例三:社会调查中的卡方检验
小,表示两者之间的差异越小。通常根据卡方值的概率水平来判断差异
是否具有统计学显著性。
02
卡方检验的步骤
建立假设
假设1
观察频数与期望频数无显著差异
假设2
观察频数与期望频数有显著差异
收集数据
从样本数据中获取观察频数 确定期望频数,可以使用理论值或预期频数
制作交叉表
将收集到的数据整理成二维表格形式,行和列分别表示分类变量
卡方检验的基本思想
01
基于假设检验原理
卡方检验基于假设检验的原理,通过构建原假设和备择假设,利用观测
频数与期望频数的差异来评估原假设是否成立。
02
比较实际观测频数与期望频数
卡方检验的核心是比较实际观测频数与期望频数,通过卡方值的大小来
评估两者之间的差异程度。
03
医学统计学卡方检验讲课稿
第一页PPT:同学们好,我们今天来一起学习卡方检验的基本思想。
第二页PPT:我们看一个研究案例,某神经内科医师欲比较A、B两种药物治疗脑血栓病人的疗效,将病情轻重、病程相近且满足实验人选标准的200例脑血管栓塞患者随机分为两组,结果见表1。
问两药治疗近期有效率是否有差别?请同学们思考一个问题,结合已学的知识关于两个率的比较我们会使用什么方法呢,那我们继续带着这个问题进入到我们今天的课程学习。
第三页PPT:这节课需要掌握的理论知识有:1.X2检验的定义、主要用途2.X2分布、X2检验的基本思想(这是重点内容)以及应用完全随机设计的四格表X2检验方法是我们这节课的难点内容。
第四页PPT:离散型概率分布有二项分布和泊松分布基于二项分布的假设检验方法可以做两样本率比较的检验问题,条件是np、n(1-p)均大于5,可以做Z检验进行,也是解决我们的案例问题。
第五页PPT:在医学研究中,进行两组或多组样本的总体率(或构成比)之间的差别是否具有统计学意义,X2检验(chi-square test)是解决此类问题较为常用的统计方法,。
X2检验是英国统计学家K.Pearson提出的一种具有广泛用途的假设检验方法,常用于分类变量资料的统计推断。
第六页PPT:X2检验主要用于:1.推断两个及多个总体率或总体构成比之间有无差别2.两种属性或两个变量之间有无关联性3.频数分布的拟合优度检验4.百分率线性趋势检验第七页PPT:我们来继续看我们的案例,两药有效率的比较问题。
表中我们A 药、B药的有效和无效分别为99、5、75、21,我们可以用a.b.c.d 来表示,表中其余的数据是由abcd这4个数据推算出来,我们习惯将这种资料形式称为四格表。
为什么叫四个表因为它有效的就是四个格子。
a.b.c.d是我们实际观察所得到的频数,我们叫实际频数(actual frequency),用A表示。
根据我们的研究目的,我们要比较两个率是否有差别的问题。
医学统计学课件-卡方检验
联合治疗 39 34.44 8 12.56 47 73.3 单纯治疗 57 61.56 27 22.44 84 73.3
合计
96
35
131 73.3
Trc
nr nc n
理论频数= 84 73.3%
χ2检验的基本思想(1)
通过构造A与T吻合程度的统计量来反 映两样本率的差别!
实际数A
39
8
57
27
污染率 (%)
甲
6
23
29
79.3
乙
30
14
44
31.8
丙
8
3
11
27.3
合计
44
40
84
47.6
理论数的计算
实际数A
6
23
29
30
14
44
8
3
11
44
40
84
(52.4%) (47.6%)
理论数T
15.2 13.8
23.0 21.0
5.8
5.2
T
nR
nC N
nR nC N
2值的计算
实际数A
χ2检验相关问题-应用条件
某矿石粉厂当生产一种矿石粉石时,在数天内即有 部分工人患职业性皮肤炎,在生产季节开始,随机 抽取15名车间工人穿上新防护服,其余仍穿原用的 防护服,生产进行一个月后,检查两组工人的皮肤 炎患病率,结果如表 ,问两组工人的皮肤炎患病 率有无差别?
χ2检验相关问题-应用条件
Total
When the variables are independent, the proportion in
both groups is close to the same size as the proportion
研究生医学统计学 卡方检验 PPT课件.ppt
431 388 495 137 1451
490 410 587 179 1666
902 800 950 32 2684
合计
1823 1598 2032 348 5801
H0:两种血型系统间无关联 H1:两种血型系统间有关联
=0.05
2 5801( 4312 490 2 ... 322 1) 213 .16
(A T )2 T
,
行数-1列数 1
2 (99 90.48)2 (5 13.52)2 (75 83.52)2 (2112.48)2 12.86
90.48
13.52
83.52
12.48
(2 1)(2 1) 1
以 1 查 2界值表得P<0.005。按 0.05水准,
拒绝H0,接受H1,可以认为两组降低颅内压的总体有效率不等,即 可认为异梨醇口服液降低颅内压的有效率高于氢氯噻泰+地塞米松 的有效率。
程度太差,不宜用2检验,而应改用确
切概率法。
四格表资料2检验的校正公式
2 C
( A T 0.5) 2 T
2 C
( ad bc n / 2)2 n (a b)(c d )(a c)(b d )
例 7-2 某医师欲比较胞磷胆碱与神经节甘酯治疗脑血管疾病的疗效, 将78例脑血管疾病患者随机分为两组,结果见表7-2。问两种药物治 疗脑血管疾病的有效率是否相等?
组别
阳性
预防注射组 4
非预防组 5(3)
合计
9
阴性 18 6 24
合计 22 11 33
感染率(%) 18.18 45.45 27.27
本例n为33<40,且有一个格子的理论频数为3<5.
《卡方检验》课件
制作交叉表
确定交叉表的行列变量
根据研究目的和内容,选择合适的行列变量,构建交叉表。
制作交叉表
将分组后的数据按照行列变量制作成交叉表,以便于进行卡 方检验。
计算理论频数
确定期望频数
根据交叉表中的数据,结合各组 的概率计算期望频数。
计算理论频数
根据期望频数和实际频数计算理 论频数,为后续的卡方检验提供 依据。
计算卡方值
计算卡方值
使用卡方检验的公式计算卡方值,该 值反映了实际频数与理论频数的差异 程度。
自由度的确定
在计算卡方值时,需要确定自由度, 自由度通常为行数与列数的减一。
显著性水平的确定
选择显著性水平
显著性水平是衡量卡方值是否显著的指标,通常选择0.05或0.01作为显著性水 平。
判断显著性
根据卡方值和自由度,结合显著性水平判断卡方检验的结果是否显著,从而得 出结论。
3.84、6.63等),可以确定观测频数与期望频数之间的差异是否具有统
计学显著性。
02
卡方检验的步骤
收集数据
确定研究目的
制定调查问卷或收集程序
在开始收集数据之前,需要明确研究 的目的和假设,以便有针对性地收集 相关数据。
根据研究目的和内容,制定合适的调 查问卷或建立数据收集程序,确保数 据的完整性和准确性。
详细描述
例如,在市场调研中,我们可以通过卡方检验来分析不同年龄段、性别、职业等 人群对于某产品的态度或购买意愿是否有显著差异,从而为产品定位和营销策略 提供依据。
实际案例二:医学研究中的应用
总结词
在医学研究中,卡方检验常用于病例 对照研究和队列研究中的分类变量关 联性分析。
详细描述
例如,在病例对照研究中,我们可以 通过卡方检验来比较病例组和对照组 在某些基因型、生活方式或暴露因素 上的分布是否有统计学差异,从而探 讨病因或危险因素。
医学统计方法之卡方检验PPT课件
3、查界值表,确定P值,做出推断结论
查χ2界值表,υ=6,χ20.05(6)=12.59, χ2 > χ20.05(1) ,则 P<0.05,在α=0.05的水准下,拒绝H0,认为三个不同地区 的人群血型分布总体构成比有差别。
.
38
二、多个样本率间多重比较
行×列表χ2检验的结果说明差异有统计学意义,需作两 两比较时,先调整α值,再进行率的两两比较。
配对检验公式推导:
bc
(+,)和(,+)两个格子中的理论频数均为
2
b c 40时
2
(AT)2(b b c )2 2(c b c)22
T
bc
bc
2
2
(b c)2
bc
~ 2 分布
同理可得b c 40时
1
校正公式: 2 (| A T | 0.5)2 (| b c | 1)2
表8-5 两种培养基的培养结果
B培养基
A培养基
+
-
合计
+
48
24
72
-
20
106
126
合计
68
130
198
A 培养基 B培养基
痰标本 1 2 3 4 5 6 7 8 9 10 11 12 13 14
结果统计
A培养基 + + + + + + + + + + -
B培养基 + + + + + + + -
合计
145 109 254 57.09
1.建立检验假设并确定检验水准
医学统计学卡方检验
03 左侧概率为P =P1+ P2 + P3 =0.316 , 右侧概率为P =P3+ P4 + P5 + P6 =0.929,故单侧检验P值为0.316。
Part 02.
配对四格表资料的 检验
χ2
概述
计数资料的配对设计常用于两种检验方 法、培养方法、诊断方法的比较。 特点是对样本中各观察单位分别用两种 方法处理,然后观察两种处理方法的某 两分类变量的计数结果,整理为
的条件下,利用超几何分布
Fisher确切概率法的基本思想
(hypergeometric distribution)公式直接计算 表内四个格子数据的各种组合 的概率,然后计算单侧或双侧
“!”为阶乘符号, n !=1×2×…×n,0 !=1, ∑Pi=1。
累计概率,并与检验水准比较,
P( ab)( c 作! 出 a 是! 否db 拒! ) 绝cH! ( 0a d 的! ! 结 论n! 。c)( b!d)!
当T<1或n<40,四格表资料χ2检验结果 可能会有偏性,需采用Fisher确切检验 进行分析。该法由R. A. Fisher提出,且 直接计算概率,因此也叫Fisher确切概 率检验(Fisher’s exact probability test)。
四格表资料的Fisher确切概率法
在四格表周边合计数固定不变
否有差别?
⑴设H0 :π1=π2 ,即两药有效率相同;H1 : π1≠π2 α=0.05
⑵n>40,Tmin>5
2 5 5 2 . 1 7 2 8 1 1 9 . 8 3 2 2 3 3 9 . 8 3 2 2 3 8 . 1 2 8 6 . 48 5 . 1 7 81 . 8 3 23 . 8 3 28 . 18
“医学统计课件-卡方检验”
卡方检验中的显著性水平和p 值
显著性水平和p值是判断卡方检验结果是否显著的重要指标。我们将解释它们 的概念和计算方法,并讨论常用的显著性水平选择。
卡方检验的优缺点
卡方检验是一种简单有效的统计方法,但也有其局限性。我们将讨论卡方检 验的优点和不足之处,以及与其他统计方法的比较。
单样本卡方检验的原理和步骤
单样本卡方检验用于比较一个分类变量的观察频数与期望频数之间的差异。 我们将介绍其原理、计算方法和实际操作步骤。
独立性卡方检验的原理和步骤
独立性卡方检验用于判断两个分类变量之间是否存在相关性。我们将详细解 释它的原理、计算方法,并提供一个实际案例进行分析。
适合度卡方检验的原理和步骤
卡方检验的实际应用案例
通过实际案例,我们将展示卡方检验在医学和流行病学研究中的应用。这些 案例将帮助您更好地理解卡方检件——卡方 检验”
卡方检验是一种常用的统计方法,用于比较两个或多个分类变量之间的差异。 本课件将详细介绍卡方检验的原理、步骤、应用和优缺点,以及在医学研究 和流行病学中的实际案例。
卡方检验的分类及适用范围
卡方检验可以分为单样本卡方检验、独立性卡方检验和适合度卡方检验。每 种检验方法适用的情况略有不同,我们将详细探讨它们的应用领域和限制。
医学统计学课件卡方检验
队列研究中的卡方检验
总结词
在队列研究中,卡方检验用于比较不同暴露 水平或不同分组在某个分类变量上的分布差 异,以评估暴露因素与疾病发生之间的关系 。
详细描述
队列研究是一种前瞻性研究方法,按照暴露 因素的不同将参与者分为不同的组,追踪各 组的疾病发生情况。通过卡方检验,可以比 较不同暴露水平或不同分组在分类变量上的 分布差异,如分析不同饮食习惯的人群中患
卡方检验与相关性分析的区别
卡方检验主要用于比较实际观测频数与期望频数之间的差异,而相关性分析则用于研究 两个或多个变量之间的关联程度。
卡方检验与相关性分析的联系
在某些情况下,卡方检验的结果可以为相关性分析提供参考,帮助了解变量之间的关联 程度。
05
卡方检验的应用实例
病例对照研究中的卡方检验
总结词
02
公式
卡方检验的公式为 $chi^{2} = sum frac{(O_{ij} - E_{ij})^{2}}{E_{ij}}$,
其中 $O_{ij}$ 表示实际观测频数,$E_{ij}$ 表示期望频数。
03
适用范围
卡方检验适用于两个分类变量的比较,可以用于分析病例对照研究、队
列研究等类型的研究。
卡方检验的用途
如比较不同年龄组、性别组等人群中某种疾病的患病率。
卡方检验的基本假设
每个单元格中的期望 频数应该大于5。
卡方检验对于样本量 较小的情况可能不适 用。
观察频数与期望频数 应该服从相同的概率 分布。
02
卡方检验的步骤
收集数据
01
02
03
确定研究目的
在开始卡方检验之前,需 要明确研究的目的和假设 ,以便有针对性地收集数 据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2013-8-7 医学统计学 3
第一节、四格表资料的 检验
2
一、χ2检验的基本思想
2013-8-7
医学统计学
4
1. 2 分布
1875年 F. Helmet提出2 统计量,设Xi为 来自正态总体的连续性变量。
xi 2 2 ( ) ui
( A T )2 2 T
2 2 2 2
T=n ×π
2
(99 90.48) (5 13.52) (75 83.52) (21 12.48) 12.86 90.48 13.52 83.52 12.48
TRC
2013-8-7
nR nC N
104 174 T11 90.48 医学统计学 200
2 2
2013-8-7 医学统计学 22
三、四格表χ2 检验的校正公式
(两组不配对资料) (1) 校正公式的条件: 1<T<5,同时N≥40,用校正公式计算 (2) 连续校正(continuity correction)公式:
2
( A T 0.5) 2 T
公式7-6
公式7-5
2
男 B 16.80 37.6
疗效 X6 有效 有效 有效 无效
无效
2013-8-7
医学统计学
11
计数资料数据检验的列连表
两组或多组比较数据的交叉表 行(Row)×列(Column)表 行分类 列分类 (Y) 合计数 (X) 阳性数 阴性数 甲组 A11 A12 n1 乙组 A21 A22 n2 合计 A11 + A21 A12+ A22 n
4.61 6.25 7.78
9.49 11.14
9.24 11.07 12.83 10.64 12.59 14.45 12.02 14.07 16.01 13.36 15.51 17.53
在υ=1,
2 医学统计学 2 0.05,1 0.05/ 2
u
1.96
2
K.Pearson的χ2统计量
• 1900年K.Pearson提出下述公式,在n≥40时 下式值与χ2分布近似,在理论数>5,近似程 度较好。
16
假定两组总体率相等的理论数与实际数
组别 死亡人数 抗凝血组 20(20) 对照组 20(20) 合计 40
2
生存数 80(80) 80(80) 160
2
合计 死亡率% 100 20.0 100 20.0 200 20.0
(A T) T
0
2
Χ2检验是考察实际频数与假设理论频数是否一 致 的统计量。
( A T ) 2 (实际数-理论数) 2 T 理论数
上述公式实际应用于检验计数资料组间率、构 成比一致程度的公式。
2013-8-7 医学统计学 8
Pearson
•
检验的用途
2
1. 用于检验计数资料的两组(多组)样本率 差别有无统计意义。
如二项分布数据 ( binomial proportions)
组别 甲组 乙组 合计 阳性数 a c a+c
各组样本例数是固定的
阴性数 合计 b a+b=n1 d c+d=n2 b+d N
率% a/n1 c/n2
2)四格表不配对资料检验的专用公式 (公式 7-4)
(ad bc) 2 N 2 (a b)( a c)(c d )(b d )
•
A:表示某组某分类的例数(频数)
2013-8-7 医学统计学 12
表7-1两组降低颅内压有效率比较
疗法 有效人数 试验组 99(A11) 对照组 75(A21) 合计 174 无效数 合计 有效率% 5(A12) 104 95.20 21(A22) 96 78.13 26 200 87.00
问:两组有效率差别是否是抽样误差或是不同药 物的作用? 组别 + — 四格表 的数字
医学统计学
14
表7-1两组疗法降低颅内压有效率(%)
疗法 试验组 对照组 合计 有效人数 99(90.48) 75(83.52) 174 无效人数 合计 有效率 5(13.52) 104 95.2 21(12.48) 96 78.1 26 200 87.0
注:括号内为理论数(T)
假设: H0:1= 2 = c = 87.00 (两组总体有效率相等) H1:1 2 (两组总体有效率不等) 假定两组有效率均为174/200=87%
2013-8-7 医学统计学 15
Class n Hypothesized Observed 试验组 104 有效概率π=0.87 99 试验组 无效概率π1=0.13 5 对照组 96 有效概率π=0.87 75 对照组 无效概率π1=0.13 21
Expected=T 90.48 13.52 83.52 12.48
第七章 检验
2
(chi-square test)
分类数据组间比较的假设检验
计数资料组间的比较
上海第二军医大学卫生统计学教研室 孟虹
2013-8-7 医学统计学 1
第七章 2 检验内容
(计数资料组间的比较)
第一节 第二节 第三节 第四节 四格表资料的χ2检验* 配对四格表资料的χ 2检验* Fisher确切概率检验 行×列表资料的χ2检验*
2013-8-7
医学统计学
10
表 100例高血压患者治疗后临床记录
编号
1 2 3 4 100
年龄 X1 37 45 43 59
54
性别 治疗组 舒张压 体温 X2 X3 X4 X5 男 A 11.27 37.5 女 B 12.53 37.0 男 A 10.93 36.5 女 B 14.67 37.8
Chi-Square Tests Value 4.353b 3.145 4.126 4.297 78 df 1 1 1 1 Asymp. Sig. (2-sided) .037 .076 .042 .038 Exact Sig. (2-sided) Exact Sig. (1-sided)
Pearson Chi-Square Continuity Correctiona Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases
2
有效率% 88.46 69.23 82.05
校正公式
2
( 46 8 18 6 78 / 2) 78 (52) (26) (64) (14)
3.14 3.84
P>0.05
.
不校正χ2=4.35 p<0.05
2013-8-7 医学统计学
24
表7-2 数据用SPSS统计软件计算结果
( ad bc N / 2) 2 N (a b)( a c)(c d )(b d )
(3) 当T<1,或N<40,用Fisher确切概率法 2013-8-7 医学统计学
23
表7-2 两药物治疗脑血管病有效率比较
组别 甲药 乙药 合计 有效数 46 18 64 无效数 6 8 (4.67) 14 合计 52 26 78
• 用途常用于比较两种检验方法或两种培养基的 阳性率是否有差别。 • 特点:对同一观察对象分别用两种方法处理, 观察其阳性与阴性结果。
• 资料整理为配对四格表形式.
2013-8-7 医学统计学 26
本例ν=(2-1)×(2-1)=1
2013-8-7 医学统计学 18
本例
2
与
2 0.05, 比较,得到p值
2 2 12.86 0.05,1 3.84, P 0.05
12.86
2
2 0.01,1
6.63, P 0.01
5.结论:在=0.05水准上,p<0.01,拒绝H0, 两样本率差别有统计意义,具本例可认为试验 组对降低颅内压有效率高于对照组。
… … … … … … … … …
0.005 7.88 10.60 12.84 14.86 16.75 18.55 20.28 21.95
7
0.01 0.07 0.21 0.41 0.68 0.99 1.34
0.02 0.11 0.30 0.55 0.87 1.24 1.65
… … … … … … …
0.5 0.4 0.3
f ( ) 2 ( / 2) 2
2
1
2
( / 2 1)
e
2 / 2
Ý ß ×·
×Ó ¶ £ 1 Ô É È ½
0.2 0.1 0.0 0
2013-8-7
×Ó ¶ £ 2 Ô É È ½ ×Ó ¶ £ 3 Ô É È ½ ×Ó ¶ £ 6 Ô É È ½
.058
.041
a. Computed only for a 2x2 table b. 1 cells (25.0%) have expected count less than 5. The minimum expected count is 4.67.
2013-8-7
医学统计学
25
第二节、配对设计两个样本率的χ2检验 ( McNemer检验 )
2 i
f ( ) 2 ( / 2) 2
2
1
2
( / 2 1)
e
2 / 2
χ2分布是一个连续型变量的分布,分布的参数 2 2 2 2 为自由度(ν)。 2013-8-7 医学统计学 u u u 5