统计学--第十二章卡方检验1
统计学--第十二章卡方检验

统计学--第十二章卡方检验
第二节 行×列表的2检验
• 当行或列超过2组时通称为行×列表,或 R×C表,亦称列联表contingency table。 可用于
• 1、多个率的比较 • 可用以下简化公式(无相应校正公式)
2 n( O2 1) nrnc 统计学--第十二章卡方检验
• 4、理论数:
– 一般溃疡患者80,按理论治愈率应治 愈80×52.51%=42.01,称theoretical value, theoretical frequency. 记为T。同理可得
统计学--第十二章卡方检验
其余理论数。亦可由减法求得
– Trc=(nrnc)/n:理论数为行合计乘列合计 除总合计
好转为2,显效为3,痊愈为4,计算其均 数,称行平均分row mean score
统计学--第十二章卡方检验
• aj为各疗效得分,n1j为第一行各疗效的频数,n1+ 为第一行合计
• 同理计算第二行平均分
• 再进行行平均得分差检验—χs2
f1
4 j1
ajn1j n1
s2
( f1 )2
(n n1 ) /[n1 (n 1)]}
特 殊 类 型 31(51.99) 68(47.01) 99
合计
94
85
179
统计学--第十二章卡方检验
– 为检验是否为第二种情况,无效假设 为两种治愈率本无不同,差别仅由抽 样误差所致。
• 3、理论治愈率:
– 根据两组治愈率相同的假设,合计治 疗179人,总治愈94人,得理论治愈率 为 94/179=52.51%
– HO:1=2,即两总体阳性率相等 – H1:12,即两总体阳性率不等 – =0.05
《卡方检验正式》课件

卡方检验的结果可以直接解释为实际意义 ,例如,如果卡方值较大,则说明观察频 数与期望频数存在显著差异。
缺点
对数据要求高
卡方检验要求数据量较大,且各分类的期望频数不能太小,否则可能 导致结果不准确。
对离群值敏感
卡方检验对离群值比较敏感,离群值可能会对结果产生较大的影响。
无法处理缺失值
卡方检验无法处理含有缺失值的数据,如果数据中存在缺失值,需要 进行适当的处理。
案例二:市场研究中的卡方检验
总结词
市场研究中,卡方检验用于评估不同市 场细分或产品特征与消费者行为之间的 关联。
VS
详细描述
在市场研究中,卡方检验可以帮助研究者 了解消费者对不同品牌、产品或服务的偏 好。例如,通过比较不同年龄段消费者对 某品牌的选择比例,企业可以更好地制定 市场策略和产品定位。
案例三:社会调查中的卡方检验
小,表示两者之间的差异越小。通常根据卡方值的概率水平来判断差异
是否具有统计学显著性。
02
卡方检验的步骤
建立假设
假设1
观察频数与期望频数无显著差异
假设2
观察频数与期望频数有显著差异
收集数据
从样本数据中获取观察频数 确定期望频数,可以使用理论值或预期频数
制作交叉表
将收集到的数据整理成二维表格形式,行和列分别表示分类变量
卡方检验的基本思想
01
基于假设检验原理
卡方检验基于假设检验的原理,通过构建原假设和备择假设,利用观测
频数与期望频数的差异来评估原假设是否成立。
02
比较实际观测频数与期望频数
卡方检验的核心是比较实际观测频数与期望频数,通过卡方值的大小来
评估两者之间的差异程度。
03
医学统计学课件-卡方检验

联合治疗 39 34.44 8 12.56 47 73.3 单纯治疗 57 61.56 27 22.44 84 73.3
合计
96
35
131 73.3
Trc
nr nc n
理论频数= 84 73.3%
χ2检验的基本思想(1)
通过构造A与T吻合程度的统计量来反 映两样本率的差别!
实际数A
39
8
57
27
污染率 (%)
甲
6
23
29
79.3
乙
30
14
44
31.8
丙
8
3
11
27.3
合计
44
40
84
47.6
理论数的计算
实际数A
6
23
29
30
14
44
8
3
11
44
40
84
(52.4%) (47.6%)
理论数T
15.2 13.8
23.0 21.0
5.8
5.2
T
nR
nC N
nR nC N
2值的计算
实际数A
χ2检验相关问题-应用条件
某矿石粉厂当生产一种矿石粉石时,在数天内即有 部分工人患职业性皮肤炎,在生产季节开始,随机 抽取15名车间工人穿上新防护服,其余仍穿原用的 防护服,生产进行一个月后,检查两组工人的皮肤 炎患病率,结果如表 ,问两组工人的皮肤炎患病 率有无差别?
χ2检验相关问题-应用条件
Total
When the variables are independent, the proportion in
both groups is close to the same size as the proportion
统计学-第十二章卡方检验

避免误用与误判的建议
充分理解卡方检验的原理 和适用条件,避免在不满 足条件的情况下使用。
结合专业知识判断观察频数与 期望频数的差异是否具有实际 意义,避免过度解读统计结果 。
ABCD
在进行卡方检验前,对数据 进行充分的描述性统计分析 ,了解数据的分布特点。
统计学-第十二章卡方检验
目 录
• 第十二章概述 • 卡方检验的基本原理 • 卡方检验的应用场景 • 卡方检验的步骤与实现 • 卡方检验的优缺点及注意事项 • 实例分析与操作演示
01
第十二章概述
章节内容与目标
01
掌握卡方检验的基本原理和假设检验流程
02
了解卡方检验在不同类型数据中的应用
能够运用卡方检验进行实际问题的分析和解决
THANK YOU
卡方分布及其性质
卡方分布的定义
若$n$个相互独立的随机变量$X_1, X_2, ldots, X_n$均服从标准正态分布$N(0,1)$,则它们的 平方和$X^2 = sum_{i=1}^{n}X_i^2$服从自 由度为$n$的卡方分布,记为$chi^2(n)$。
期望和方差
$E(X) = n$,$D(X) = 2n$,其中$X sim chi^2(n)$。
运行分析
点击“确定”按钮,运行卡方检验分 析。
结果解读与报告撰写
结果解读
根据卡方检验的结果,判断各组分类数据的 分布是否存在差异,以及差异的显著性水平 。
报告撰写
将分析结果以文字、表格和图表的形式呈现 出来,包括研究目的、数据收集与整理过程 、卡方检验结果和结论等部分。同时,需要
注意报告的规范性和可读性。
卫生统计学卡方检验课件

2/19/2021
卫生统计学卡方检验
7
若H0成立,则理论上:
奥美拉唑组愈合人数:
115
T11
85 57.84 169
奥美拉唑组未愈合人数:
T12
8554 27.16 169
雷尼替丁组愈合人数:
T21
8411557.16 2/19/2012619
T nRnC n
雷尼替丁组未愈合人数:
T22
8454 26.84 169
2/19/2021
卫生统计学卡方检验
3
表1 两药治疗消化道溃疡4周后疗效
两组的愈合率不同有两种可能:
1. 两药的总体愈合率无差别,两样本率的差别仅由抽 样误差所致。
2. 两种药物的总体愈合率确有不同。
2/19/2021
卫生统计学卡方检验
4
一、卡方检验的基本思想
表1中,64、21、51、33 是整个表的基本数据,其余
卫生统计学卡方检验
8
TRC
nR nC n
n R 为相应行的合计
n C 为相应列的合计
n 为总例数。
2/19/2021
卫生统计学卡方检验
9
表1 两药治疗消化道溃疡4周后疗效
2/19/2021
卫生统计学卡方检验
10
2 检验的基本公式:
2 (AT)2
T
2/19/2021
从基本公式可以看出, 2 统计量值反映了实际频数和理 论频数的吻合程度。如果假设检验H0 (π1=π2)成立,则 实际频数和理论频数之差一 般不会相差太大, 2值相 应也不会太大; 反之,实际频数和理论频数之差相差 很大卫,生则统计 学2 值卡相方检应验也会很大,11 相应的P值也就越小,
统计学卡方检验

根据分析结果,为患者提供个体化的干预措施,提高生存质量。
06
卡方检验注意事项及局限 性讨论
样本量要求及抽样方法选择
样本量要求
卡方检验对样本量有一定的要求,通常建议每个单元格的期望频数不小于5,以确保检验结果的稳定性和可靠性 。当样本量不足时,可能会导致检验效能降低,增加第二类错误的概率。
抽样方法选择
在进行卡方检验时,应选择合适的抽样方法。简单随机抽样是最常用的方法,但在某些情况下,如分层抽样或整 群抽样可能更适合。选择合适的抽样方法有助于提高检验的准确性和可靠性。
期望频数过低时处理策略
合并类别
当某个单元格的期望频数过低时,可以考虑 合并相邻的类别,以增加期望频数。合并类 别时应注意保持类别的逻辑性和实际意义。
适用范围及条件
适用范围
卡方检验适用于多个分类变量之间的独立性或相关性检验,如医学、社会科学等领域的调查研究。
条件
使用卡方检验需要满足一些前提条件,如样本量足够大、每个单元格的期望频数不宜过小等。此外, 对于有序分类变量或存在空单元格的情况,需要采用相应的处理方法或选择其他适合的统计方法。
02
卡方检验方法
统计学卡方检验
目录
• 卡方检验基本概念 • 卡方检验方法 • 数据准备与预处理 • 卡方检验实施步骤 • 卡方检验在医学领域应用举例 • 卡方检验注意事项及局限性讨论
01
卡方检验基本概念
定义与原理
01
02
定义
原理
卡方检验是一种基于卡方分布的假设检验方法,用于推断两个或多个 分类变量之间是否独立或相关。
确定分组界限
在确定分组界限时,可以采用等距分组、等频分组或 基于数据分布的分组方法。选择合适的分组界限有助 于保持各组之间的均衡性,减少信息损失。
9 第十二章 卡方检验(一)

确切概率法计算公式
在四格表的周边合计不变的条件 下 , 用下式直接计算表内四个数据 的各种组合之概率。 的各种组合之概率。 式中a、b、c、d为四格表的实际 频数
(a+b)!(c+d)!(a+c)!(b+d)! P= a!b c!d!n ! !
四格表资料的精确检验法基本步骤
1、建立假设 Ho:假设差别是由抽样误差引起的 H1:假设差别是本质上存在的 确定显著性水准: 2、确定显著性水准:α=0.05 3、计算确切概率P 周边合计不变,列出各种组合的四格表; (1)周边合计不变,列出各种组合的四格表; 计算各个四格表的| (2)计算各个四格表的|A-T|值; 样本| (3)求|A-T|值≥样本|A-T|值的所有四格表的Pi 值; Pi=(a+b)!(c+d)!(a+c)!(b+d)!/[a!b!c!d!n!] (4)求出确切概率P:P=ΣPi 结果判断: 4、结果判断:在事先确定的显著性水准α下作 出专业结论。 出专业结论。
行×列表资料χ2检验时的注意事项
1、行×列表资料χ2检验对资料的要求是:不宜有1/5以上 检验对资料的要求是:不宜有1 格子的理论数小于5 且理论数应大于1 格子的理论数小于 5 , 且理论数应大于 1 , 若发生上述情 可选用下述三种处理方法 三种处理方法: 况 , 可选用下述 三种处理方法 : ① 适当增大样本含量以 增大理论频数; 增大理论频数 ; ② 将理论数过小的格子所在的行或列与 性质相近的行或列中的实际数合并, 性质相近的行或列中的实际数合并 , 使重新计算的理论 数增大; 删去理论数过小的行或列。 数增大 ; ③ 删去理论数过小的行或列 。 后两种处理方法 有可能损失资料信息, 且可能破坏样本随机性, 有可能损失资料信息 , 且可能破坏样本随机性 , 故不宜 常规使用。 常规使用。 2、当试验效应按照强弱分为若干个级别,试验结果可整理 当试验效应按照强弱分为若干个级别, 为单向有序行×列表资料, 为单向有序行 × 列表资料 , 在比较各处理组间的效应有 无差别时,宜选用秩和检验、Ridit分析 趋势检验等, 分析、 无差别时,宜选用秩和检验、Ridit分析、趋势检验等, 检验只能说明各组构成比的差别有无显著性。 如作χ2检验只能说明各组构成比的差别有无显著性。 3、多个样本率或多个构成比的χ2检验,结果有显著性意义 检验, 只能认为总体率或总体构成之间总的来说有差别, 时,只能认为总体率或总体构成之间总的来说有差别, 不能说明两两之间皆有差别, 不能说明两两之间皆有差别,若要对每两个率或每两个 构成比进行比较,应采用行× 构成比进行比较,应采用行×列表的χ2分割法或者采用 其它率或构成比的多重比较。 其它率或构成比的多重比较。
《卡方检验》课件

制作交叉表
确定交叉表的行列变量
根据研究目的和内容,选择合适的行列变量,构建交叉表。
制作交叉表
将分组后的数据按照行列变量制作成交叉表,以便于进行卡 方检验。
计算理论频数
确定期望频数
根据交叉表中的数据,结合各组 的概率计算期望频数。
计算理论频数
根据期望频数和实际频数计算理 论频数,为后续的卡方检验提供 依据。
计算卡方值
计算卡方值
使用卡方检验的公式计算卡方值,该 值反映了实际频数与理论频数的差异 程度。
自由度的确定
在计算卡方值时,需要确定自由度, 自由度通常为行数与列数的减一。
显著性水平的确定
选择显著性水平
显著性水平是衡量卡方值是否显著的指标,通常选择0.05或0.01作为显著性水 平。
判断显著性
根据卡方值和自由度,结合显著性水平判断卡方检验的结果是否显著,从而得 出结论。
3.84、6.63等),可以确定观测频数与期望频数之间的差异是否具有统
计学显著性。
02
卡方检验的步骤
收集数据
确定研究目的
制定调查问卷或收集程序
在开始收集数据之前,需要明确研究 的目的和假设,以便有针对性地收集 相关数据。
根据研究目的和内容,制定合适的调 查问卷或建立数据收集程序,确保数 据的完整性和准确性。
详细描述
例如,在市场调研中,我们可以通过卡方检验来分析不同年龄段、性别、职业等 人群对于某产品的态度或购买意愿是否有显著差异,从而为产品定位和营销策略 提供依据。
实际案例二:医学研究中的应用
总结词
在医学研究中,卡方检验常用于病例 对照研究和队列研究中的分类变量关 联性分析。
详细描述
例如,在病例对照研究中,我们可以 通过卡方检验来比较病例组和对照组 在某些基因型、生活方式或暴露因素 上的分布是否有统计学差异,从而探 讨病因或危险因素。
医学统计方法之卡方检验PPT课件

3、查界值表,确定P值,做出推断结论
查χ2界值表,υ=6,χ20.05(6)=12.59, χ2 > χ20.05(1) ,则 P<0.05,在α=0.05的水准下,拒绝H0,认为三个不同地区 的人群血型分布总体构成比有差别。
.
38
二、多个样本率间多重比较
行×列表χ2检验的结果说明差异有统计学意义,需作两 两比较时,先调整α值,再进行率的两两比较。
配对检验公式推导:
bc
(+,)和(,+)两个格子中的理论频数均为
2
b c 40时
2
(AT)2(b b c )2 2(c b c)22
T
bc
bc
2
2
(b c)2
bc
~ 2 分布
同理可得b c 40时
1
校正公式: 2 (| A T | 0.5)2 (| b c | 1)2
表8-5 两种培养基的培养结果
B培养基
A培养基
+
-
合计
+
48
24
72
-
20
106
126
合计
68
130
198
A 培养基 B培养基
痰标本 1 2 3 4 5 6 7 8 9 10 11 12 13 14
结果统计
A培养基 + + + + + + + + + + -
B培养基 + + + + + + + -
合计
145 109 254 57.09
1.建立检验假设并确定检验水准
第十二章卡方检验

果是:优8名、良20 良 20 21.5 2.25 0.10
名,中18名,差4名。中 18 21.5 12.25
试检验其评定的分布
差 ∑
4 50
3.5 50
0.25 —
与正态分布所期待的
2(3)0.05=7.81
结果有无显著差别?
0.57 0.07 6.53
例12-7:测得 551名学生的身高 如下表。试问学 生的实际身高是 否符合正态分布?
148-150 80 149 –1.21 .21540 .12746 70
145-147 25 146 –1.70 .09400 .05562 31
142-144 139-141
8 143 –2.29 .02890 .01710 9 4 140 –2.88 .00670 .00396 121
∑ 551 - -
551
身高 f0 ft
2
169-171 0.125
2
18
166-168 7 7
163-165 22 23 0.043
160-162 57 60 0.150
157-159 110 104 0.471
154-156 124 130 0.277 151-153 112 114 11 0.035
148-150 80 70
求2
df=k-3 =9-
3=6 2(6)0.05=12.6
第三节 独立性检验
• 定义:检验两个变量是独立的,还是相关 的 性。 质:二元分类资料的χ 2检验。 方法
r×c列联表的χ 2检验 2×2列联表的χ 2检验
一、r×c列联表的χ 2检验
例12-7:某小学三、四年级独立概括某种 教
nr nc
卡方检验详述

卡方检验什么是卡方检验卡方检验是一种用途很广的计数资料的假设检验方法。
它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。
其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
卡方检验的基本原理卡方检验是以χ2分布为基础的一种常用假设检验方法,它的无效假设H0是:观察频数与期望频数没有差别。
该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。
根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。
如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。
卡方值的计算与意义χ2值表示观察值与理论值之问的偏离程度。
计算这种偏离程度的基本思路如下。
(1)设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差称为残差。
(2)显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。
因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和。
(3)另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1 000时20的残差就很小了。
考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。
进行上述操作之后,就得到了常用的χ2统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson χ2,其计算公式为:其中,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。
医学统计学课件卡方检验

队列研究中的卡方检验
总结词
在队列研究中,卡方检验用于比较不同暴露 水平或不同分组在某个分类变量上的分布差 异,以评估暴露因素与疾病发生之间的关系 。
详细描述
队列研究是一种前瞻性研究方法,按照暴露 因素的不同将参与者分为不同的组,追踪各 组的疾病发生情况。通过卡方检验,可以比 较不同暴露水平或不同分组在分类变量上的 分布差异,如分析不同饮食习惯的人群中患
卡方检验与相关性分析的区别
卡方检验主要用于比较实际观测频数与期望频数之间的差异,而相关性分析则用于研究 两个或多个变量之间的关联程度。
卡方检验与相关性分析的联系
在某些情况下,卡方检验的结果可以为相关性分析提供参考,帮助了解变量之间的关联 程度。
05
卡方检验的应用实例
病例对照研究中的卡方检验
总结词
02
公式
卡方检验的公式为 $chi^{2} = sum frac{(O_{ij} - E_{ij})^{2}}{E_{ij}}$,
其中 $O_{ij}$ 表示实际观测频数,$E_{ij}$ 表示期望频数。
03
适用范围
卡方检验适用于两个分类变量的比较,可以用于分析病例对照研究、队
列研究等类型的研究。
卡方检验的用途
如比较不同年龄组、性别组等人群中某种疾病的患病率。
卡方检验的基本假设
每个单元格中的期望 频数应该大于5。
卡方检验对于样本量 较小的情况可能不适 用。
观察频数与期望频数 应该服从相同的概率 分布。
02
卡方检验的步骤
收集数据
01
02
03
确定研究目的
在开始卡方检验之前,需 要明确研究的目的和假设 ,以便有针对性地收集数 据。
医学统计方法之卡方检验

医学统计方法之卡方检验卡方检验(Chi-square test)是一种常用的医学统计方法,用于比较观察频数与期望频数的差异,以判断两个或多个类别变量之间是否存在相关性或差异。
卡方检验适用于分类数据的分析,常用于研究疾病与相关因素的关系、药物与不良反应的关系等。
卡方检验的基本原理是通过计算观察频数与期望频数之间的差异,并比较差异的程度来判断两个或多个分类变量之间的关联性。
卡方值越大,观察频数与期望频数之间的差异越大,相关性越显著。
卡方检验的零假设(Null hypothesis)是假设变量之间没有关联性,即观察频数与期望频数之间的差异是由随机误差引起的。
卡方检验的计算步骤如下:1.建立零假设与备择假设。
例如,我们想要研究其中一种药物与不良反应的关系,零假设可以是“该药物与不良反应之间没有关联性”,备择假设可以是“该药物与不良反应之间存在关联性”。
2.构建两个变量的列联表,计算观察频数。
列联表是将两个或多个分类变量交叉组合生成的一个二维表格。
例如,我们可以将药物使用与不良反应按行和列分别组合,得到一个2×2的列联表。
3.计算期望频数。
期望频数是在零假设成立的情况下,根据总体总数和变量之间的独立性计算的理论频数。
期望频数可以通过计算每个组合的行合计、列合计以及总体合计来得到。
4.计算卡方值。
卡方值是观察频数与期望频数之间的差异的平方和除以期望频数的总和,即卡方值=Σ((O-E)²/E),其中O为观察频数,E为期望频数。
5.比较卡方值与临界值。
通过查找卡方分布表,根据给定的显著性水平(一般为0.05或0.01),确定临界值。
如果卡方值大于临界值,则拒绝零假设,认为两个变量之间存在关联性。
如果卡方值小于等于临界值,则无法拒绝零假设,认为两个变量之间不存在关联性。
6.进行推论。
如果拒绝零假设,可以推断两个变量之间存在关联性。
反之,如果无法拒绝零假设,不能推断两个变量之间存在关联性。
需要注意的是,卡方检验对样本容量有一定要求,通常要求每个格子的期望频数不低于5、如果期望频数低于5,需要采取合适的修正方法或使用其他适用于小样本的检验方法。
(医统)卡方检验

2
观测值的自由度(vi>2),Si为第i组观测值的标 准差 2 • 拒绝原假设的条件为: 2 ,
F检验
• 检验两组观测值的方差的齐性 • 原假设: 2 2
1 2
• 检验统计量:
2 2 2 S1 F 2 2 ~ F( 1 , 2 ) 1 S2
• 拒绝条件: F F /2 (1, 2 )或F F1 /2 (1, 2 )
2.拟合优度检验
• B.表征实验分布,即用卡方统计量检验实验分布 是否服从某一理论分布(正态、二项等) • 步骤:1.将总体X的取值范围分成k个互不重迭的 小区间 • 2.计算落入第i个小区间的样本值的观测频数 • 3. 根据所假设的理论分布, 算出总体X的值落入每 个小区间的概率p,于是np就是落入该区间的样本 值的理论频数 • 4.计算卡方统计量 • 5.与临界值进行比较,进行决策
χ2 检验 数据资料 总体 检验对象
离散型资料 总体分布是未知的
连续型资料假设检验
连续型资料 正态分布 对总体参数或几个总体 参数之差
不是对总体参数的检 验,而是对总体分布 的假设检验
三、χ2 检验的用途
适合性检验
是指对样本的理论数先通过一定的理
论分布推算出来,然后用实际观测值与理论
数相比较,从而得出实际观测值与理论数之
理论值(E)
696.75 232.25 929
O-E
+8.25 -8.25 0
由于差数之和正负相消,并不能反映实 际观测值与理论值相差的大小。
为了避免正、负相抵消的问题,可将实际 观测值与理论值的差数平方后再相加,也就是 计算:
∑(O-E)2
O--实际观察的频数 E--无效假设下的期望频数
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 1)实际数与理论数之间的差别等价于两 样本率的差别
• 2)检验假设H0:四格表的构成比相同, 等价于H0:两总体率相等
• 3)对实际数与理论数差值的假设检验, 等价于对两样本率差值的假设检验
• 6、2检验的基本思想(及计算步骤)
• 1)假设两总体率相等(构成比相同)
– HO:1=2,即两总体阳性率相等 – H1:12,即两总体阳性率不等 – =0.05
– 不妨把H0看作:1=2=两样本合并的 阳性率
• 2)实际数与理论数的差值服从2分布,又 称pearson 2 :
2 (O T )2
T
– 2值是以理论数为基数的相对误差, 它反映了实际数与理论数吻合的程度 (差别的程度)。若检验假设成立,则实 际数与理论数的差别不会很大,出现 大的2值的概率是很小的,若P,就 怀疑假设,因而拒绝它;若P>,则尚 无理由拒绝它
合计
94
85
179
– 为检验是否为第二种情况,无效假设 为两种治愈率本无不同,差别仅由抽 样误差所致。
• 3、理论治愈率:
– 根据两组治愈率相同的假设,合计治 疗179人,总治愈94人,得理论治愈率 为 94/179=52.51%
• 4、理论数:
– 一般溃疡患者80,按理论治愈率应治 愈80×52.51%=42.01,称theoretical value, theoretical frequency. 记为T。同理可得 其余理论数。亦可由减法求得
• 1、配对四格表中的数字为对子数
• 2、当a格与d格的数字都特别大,而b、c 格的数字都相对较小时,即使配对四格 表卡方检验结果有统计意义,其实际意 义也不大。因此,配对四格表的卡方检 验一般用于检验样本含量不太大的资料
• 二、两种以上处理方法的比较 • 见P170~171例12-15 • 仅供了解
• 7、 2值的校正、四格表2检验的条件
• 实际上2值是根据正态分布中2 =[(xi) /]2的定义计算出来的,用前述公式算 得的值只能说近似于2分布,在自由度 大于1,理论数皆大于5时,这种近似较 好;自由度为1,当有理论数小于5时, 需进行(连续性)校正
• 2检验条件:(四格表) – 1、当n40且所有T5时,用普通的2 检验;若所得P ,改用确切概率法。 – 2、当n40但有1T<5时,用校正2检 验 – 3、当n<40或有T<1时,不能用2检验, 改用确切概率法。
• aj为各疗效得分,n1j为第一行各疗效的频数,n1+ 为第一行合计
• 同理计算第二行平均分
• 再进行行平均得分差检验—χs2
f1
4 a j n1 j n j1 1
2 s
(nBiblioteka ( f1 )2 n1 ) /[n1 (n 1)]}
• μα为平均期望得分,να为方差
r
a jn j
j1 n
• 3)查2分布界值表确定P值并作出推论
– 2 =39.93,自由度为1,查附表6-7
– 2 0.05(1)=3.84; 2 0.01(1) =6.63; 2 0.001(1) =10.83
– 一般类型的治愈率高于特殊类型(结合 样本率作实际推论)
– P<0.001, 按=0.05水准,拒绝H0接受 H1,因而认为两总体的阳性率有差别 (统计学推论)。结果说明,两组胃溃疡 病人治愈率的差别有高度统计意义,
– 可用查表法或计算机直接给出
• 双侧检验时:
• 1)单侧概率加倍
• 2)加上对侧<当前四格表的概率的所有概 率。
• 这两种方法的结果有时可能会有所不同, 教科书建议以第二种方法为准
第四节 配对计数资料的2检验
• 一、两种处理方法的比较,P169
乙培养基 生长
甲培养基
生长 不生长
36(a)
34(b)
第十二章 卡方检验(一)
用于检验:
1)两组或几组率或构成比的差异有 无显著性
2)各行的平均分间有无差异 3)行与列两个顺序分类变量之间是 否相关
4)拟合优度检验
第一节 四格表资料的2检验
• 以P153例12-1为例
• 1、四格表:将资料列成表格,表格中四 个数字是基本的:63、17、31、68,称 四格表fourfold table
2=(O-T -0.5)2
T
• 8、四格表专用公式
• 为方便起见,当基本格子的实际数命名 为a,b,c,d;行合计写为a+b、c+d,列合计
写为a+c、b+d,n为总观察数
2=
(ad bc)2 n
(a b)(c d )(a c)(b d )
校正公式为:
2= ( ad bc-n / 2)2 n
第五节 列变量为顺序变量的列联 表—行平均分差检验
• 一、2×C表 • P163 例12-10 • Pearson 卡方只能得出两组构成是否相同
的结论,不能得出哪组疗效较好的结论 • 人为地给各疗效一个分数,如无效为1,
好转为2,显效为3,痊愈为4,计算其均 数,称行平均分row mean score
各疗效得分 各疗效合计人数 总例数
r
(a j )2 (n j )
j1
n
s2近似服从自由度为1的卡方分布
• 平均得分统计量的样本大小较容易达到: 只要主观确定一个分割点,把列分为1 ~J和J+1~r两部分,变成四格表,把新的 四格中各部分实际数相加,只要四格表 中大部分超过5即可
• 二、行为名义变量列为顺序变量的行×列表 • 1、行平均分的计算 • 行平均分可采用:整数给分法 • 2、行平均分差别统计意义检验
(a b)(c d )(a c)(b d )
组别 甲 乙
合计
阳性 a c
a+c
阴性
合计
b
a+b
d
c+d
b+d a+b+c+d= n
第二节 行×列表的2检验
• 当行或列超过2组时通称为行×列表,或 R×C表,亦称列联表contingency table。 可用于
• 1、多个率的比较 • 可用以下简化公式(无相应校正公式)
2 n( O2 1) nr nc
• 适用条件:不能有理论数小于1,并且1T5
的格子数不超过总格子数1/5。
• 条件不足时的三种处理方法:
– 1)增大样本例数使理论数变大
– 2)删除理论数太小的行或列
– 3)将理论数太小的行或列与性质相近的 邻行或邻列合并,使重新计算的理论 数增大。但是此处理可能损失信息, 也会损害样本的随机性,不同的合并 方式所得的结果也不一样,因而在不 得已时慎用
• 1、有实际数为0的情况下,只需代入公 式计算P值即可
• 2、没有实际数为0的情况时,要把更加 极端的情况都算入。
– 更加极端的情况是指:原来治愈率高 的治愈人数更要加多,治愈率低的治 愈人数更要减少,直至出现0为止,但 保持合计及总合计数字不变。见P157 例12-4
– 最后将几情况的概率相加得P值(单侧)
合计 70
不生长 0(c)
135(d)
135
合计
36
169
205
• 其中b、c为两种培养基生长情况不同的 数字,a、b两培养基相同可不考虑
2 (b c)2 , 1
bc
2 ( b c 1)2 , 1(校正公式)
bc
• 当b+c 40时可不校正,而b+c<40时,则 一定要用校正公式
• 注意:
– 2值的大小随着格子数的增加而变大, 即2分布与自由度有关。因而考虑2值 大小的意义时,要考虑到格子数。当 周边合计数固定的情况下,四个基本 数据当中只有一个可以自由取值,即 自由度为1。
• =(R-1)(C-1)
– R行C列时,R行中有一行数据受到列 合计的限制而不能自由变动,C列中亦 有一列数据在行合计的限制下不能自 由取值
s
(n 1) n1 (Fi )2
2 s
i 1
n
2值服从自由度为行数
s
1的卡方分布
第六节 行列变量的相关检验
• 行与列变量都是顺序变量时可检验两者是否相 关:P166例12-12
• 行c与列a都给予得分 • 用a和c计算线性函数f • 再分别计算行平均分和列平均分 • f的期望E(f)=行平均分×列平均分 • 计算f的方差var(f) • 计算卡方值,自由度为1
• 基本思想:在四格表周边合计不变的情 况下,获得某个四格表的概率为
P (a b)!(c d)!(a c)!(b d)! a!b!c!d!n!
• a!表示factorial a 或a factorial • 0!=1; 3!=3×2×1=6 • 该方法计算出的概率为分布中单侧的概
率,故双侧时应以0.025为显著性水平。 结合实际确定采用单侧还是双侧
• 如果把数据排成等级rank,而不用整数评分法则 卡方检验与Spearman等级相关结果极为接近。 可任选其一
2 cs
rs2 (N
1)
第七节 多层列联表的分析
• 一、多层2C表 • 采用扩展的Mantel-Haenszel 平均得分统
计量—χ2SMH • 各层间效应的方向一致时,检验效果较
好。
)
• 理论上当样本量相当大时,Pearson卡方和似然比 卡方都接近卡方分布;样本不够大时都偏离卡方
分布,两者的数值不同但接近,实践中这两个统 计量可同时使用,结合起来下结论。
第三节 四格表精确检验法
• 卡方检验的基本公式和校正公式有其应 用条件,且仅为近似。当四格表中有理 论数小于1或总观察例数小于40时,需改 用四格表的确切概率法exact probabilities in 2×2 table。