卡方检验44974演示教学
合集下载
《统计学卡方检验》课件
《统计学卡方检验》PPT 课件
统计学卡方检验是一种用于数据分析的重要统计方法。通过此课件,我们将 深入探讨卡方检验的定义与概念,应用场景,原理解释,假设检验步骤,检 验过程和实例分析,帮助您更好地理解和应用卡方检验。
什么是卡方检验
• 卡方检验是一种用于比较两个或多个分类变量之间关联性的统计方法。 • 通过计算观察频数与期望频数之间的差异,判断差异是否显著。 • 在实际应用中,卡方检验常用于分析样本调查结果、医学统计和市场
2
计算检验统计量
根据观察频数和期望频数之间的差异,计算得到卡方检验统计量。
3
查表判断结果
将计算得到的检验统计量与卡方分布的临界值进行比较,判断差异是否显著。
如何进行卡方检验
• 数据准备:收集和整理相关的分类数据。 • 检验步骤和计算:按照假设检验的步骤,计算据差异是否显著,得出结论。
实例分析
具体案例
使用卡方检验分析一个实际调查的数据,检验两个 分类变量之间是否存在关联性。
结果解读
根据计算得到的卡方值和卡方分布的临界值,解读 结论并讨论分析结果的意义。
总结与展望
• 卡方检验是一种重要的统计方法,可以帮助我们分析分类变量之间的关联性。 • 通过掌握卡方检验的原理和应用技巧,我们可以更有效地进行数据分析和假设检验。 • 未来,我们还将进一步探索卡方检验在不同领域的应用,为数据分析提供更多有益的工具和方法。
研究等领域。
卡方检验的原理
• 卡方检验的原理主要基于观察频数与期望频数之间的差异。 • 根据差异的大小和自由度,计算出一个统计量,然后与卡方分布进行
比较。 • 如果统计量超过了卡方分布的临界值,就可以拒绝原假设,认为差异
是显著的。
卡方检验的假设检验步骤
统计学卡方检验是一种用于数据分析的重要统计方法。通过此课件,我们将 深入探讨卡方检验的定义与概念,应用场景,原理解释,假设检验步骤,检 验过程和实例分析,帮助您更好地理解和应用卡方检验。
什么是卡方检验
• 卡方检验是一种用于比较两个或多个分类变量之间关联性的统计方法。 • 通过计算观察频数与期望频数之间的差异,判断差异是否显著。 • 在实际应用中,卡方检验常用于分析样本调查结果、医学统计和市场
2
计算检验统计量
根据观察频数和期望频数之间的差异,计算得到卡方检验统计量。
3
查表判断结果
将计算得到的检验统计量与卡方分布的临界值进行比较,判断差异是否显著。
如何进行卡方检验
• 数据准备:收集和整理相关的分类数据。 • 检验步骤和计算:按照假设检验的步骤,计算据差异是否显著,得出结论。
实例分析
具体案例
使用卡方检验分析一个实际调查的数据,检验两个 分类变量之间是否存在关联性。
结果解读
根据计算得到的卡方值和卡方分布的临界值,解读 结论并讨论分析结果的意义。
总结与展望
• 卡方检验是一种重要的统计方法,可以帮助我们分析分类变量之间的关联性。 • 通过掌握卡方检验的原理和应用技巧,我们可以更有效地进行数据分析和假设检验。 • 未来,我们还将进一步探索卡方检验在不同领域的应用,为数据分析提供更多有益的工具和方法。
研究等领域。
卡方检验的原理
• 卡方检验的原理主要基于观察频数与期望频数之间的差异。 • 根据差异的大小和自由度,计算出一个统计量,然后与卡方分布进行
比较。 • 如果统计量超过了卡方分布的临界值,就可以拒绝原假设,认为差异
是显著的。
卡方检验的假设检验步骤
《卡方检验》课件
制作交叉表
确定交叉表的行列变量
根据研究目的和内容,选择合适的行列变量,构建交叉表。
制作交叉表
将分组后的数据按照行列变量制作成交叉表,以便于进行卡 方检验。
计算理论频数
确定期望频数
根据交叉表中的数据,结合各组 的概率计算期望频数。
计算理论频数
根据期望频数和实际频数计算理 论频数,为后续的卡方检验提供 依据。
计算卡方值
计算卡方值
使用卡方检验的公式计算卡方值,该 值反映了实际频数与理论频数的差异 程度。
自由度的确定
在计算卡方值时,需要确定自由度, 自由度通常为行数与列数的减一。
显著性水平的确定
选择显著性水平
显著性水平是衡量卡方值是否显著的指标,通常选择0.05或0.01作为显著性水 平。
判断显著性
根据卡方值和自由度,结合显著性水平判断卡方检验的结果是否显著,从而得 出结论。
3.84、6.63等),可以确定观测频数与期望频数之间的差异是否具有统
计学显著性。
02
卡方检验的步骤
收集数据
确定研究目的
制定调查问卷或收集程序
在开始收集数据之前,需要明确研究 的目的和假设,以便有针对性地收集 相关数据。
根据研究目的和内容,制定合适的调 查问卷或建立数据收集程序,确保数 据的完整性和准确性。
详细描述
例如,在市场调研中,我们可以通过卡方检验来分析不同年龄段、性别、职业等 人群对于某产品的态度或购买意愿是否有显著差异,从而为产品定位和营销策略 提供依据。
实际案例二:医学研究中的应用
总结词
在医学研究中,卡方检验常用于病例 对照研究和队列研究中的分类变量关 联性分析。
详细描述
例如,在病例对照研究中,我们可以 通过卡方检验来比较病例组和对照组 在某些基因型、生活方式或暴露因素 上的分布是否有统计学差异,从而探 讨病因或危险因素。
医学统计方法之卡方检验PPT课件
3、查界值表,确定P值,做出推断结论
查χ2界值表,υ=6,χ20.05(6)=12.59, χ2 > χ20.05(1) ,则 P<0.05,在α=0.05的水准下,拒绝H0,认为三个不同地区 的人群血型分布总体构成比有差别。
.
38
二、多个样本率间多重比较
行×列表χ2检验的结果说明差异有统计学意义,需作两 两比较时,先调整α值,再进行率的两两比较。
配对检验公式推导:
bc
(+,)和(,+)两个格子中的理论频数均为
2
b c 40时
2
(AT)2(b b c )2 2(c b c)22
T
bc
bc
2
2
(b c)2
bc
~ 2 分布
同理可得b c 40时
1
校正公式: 2 (| A T | 0.5)2 (| b c | 1)2
表8-5 两种培养基的培养结果
B培养基
A培养基
+
-
合计
+
48
24
72
-
20
106
126
合计
68
130
198
A 培养基 B培养基
痰标本 1 2 3 4 5 6 7 8 9 10 11 12 13 14
结果统计
A培养基 + + + + + + + + + + -
B培养基 + + + + + + + -
合计
145 109 254 57.09
1.建立检验假设并确定检验水准
卡方检验正式文稿演示
组别 甲组 乙组 合计
阳性数 a c
a+c
阴性数 b d
b+d
合计 a+b=n1 c+d=n2
N
率% a/n1 c/n2 (a+c)/N
各组样 本例数 是固定 的
另一个同样重要的分布—χ2卡方分布(Chisquared distribution)。
此分布在1875年,首先由F. Helmet所提出, 而且是由正态分布演变而来的,即标准正态 分布Z值之平方而得
设Xi为来自正态总体的连续性变量。
ui
Xi
u2 i
(Xi )2 2
12
n
u2 i
类似于方差的计算思想,
(x i X ) (A T 0 )2 (A T )2
Pearson χ2检验的基本公式
残差大小是一个相对的概念,
相对于期望频数为10时,20
的残差非常大;可相对于期
望频数为1000时20就很小了。
因此又将残差平方除以期望
频数再求和,以标准化观察
Karl Pearson (1857 – 1936) 频数与期望频数的差别。
检验统计量:χ2 应用:计数资料
基本概念
例1 某院比较异梨醇(试验组)和氢氯塞嗪 (对照组)降低颅内压的疗效,将200名患者 随机分为两组,试验组104例中有效的99例,对 照组96例中有效的78例,问两种药物对降低颅 内压疗效有无差别?
表 200名颅内高压患者治疗情况
编号 年龄 性别 治疗组 舒张压 体温 疗效
行分类
列分类(Y)
合计
(X) 发生数 未发生数
甲
a=a99
b=b5
1a0+4b
四格表卡方检验PPT课件
2021/3/7
CHENLI
22
主要内容
第一节 卡方检验的原理 第二节 配合度检验 第三节 独立性检验 第四节 同质性检验
2021/3/7
CHENLI
23
独立性检验
独立性检验主要用于两个或两个以上因素多项
分类的计数资料分析,也就是研究两类变量之 间的关联性和依存性问题。
如果两变量无关联即相互独立,说明对于其中
三、连续变量分布的吻合性检验
对于连续随机变量的计量数据,有时在
实际研究中预先不知道其总体分布,而 是要根据对样本的次数分布来判断是否 服从某种指定的具有明确表达式的理论 次数分布。
关于分布的假设检验方法有很多,运用
卡方值所做的配合度检验是最常用的一 种。
2021/3/7
CHENLI
18
举例:正态分布吻合性检验
相关样本四格表卡方检验
用简捷公式较为简单 例题:p.349
2021/3/7
CHENLI
26
二、四格表的独立性检验
四格表卡方值的近似校正
当四格表的任一格理论次数小于5时,要用Yates连续 性校正公式计算卡方值(具体公式见书p.349)。
实际频数:指在实验或调查中得到的计数资 料。
理论次数:指根据概率原理、某种理论、某 种理论次数分布或经验次数分布计算出来的 次数。
2021/3/7
CHENLI
7
一、卡方检验的假设
分类相互排斥、互不包容; 观测值相互独立; 每一个单元格中的期望次数至少为5。
2021/3/7
CHENLI
8
二、卡方检验的类别
第十章 卡方检验
教科所 张念成
2021/3/7
CHENLI
医学统计学卡方检验详解演示文稿
第七十三页,共138页。
第七十四页,共138页。
SPSS软件Biblioteka 作• 第1步:定义变量第七十五页,共138页。
• 第2步:输入 原始数据
第七十六页,共138页。
• 第3步:定义频数
• 选择数据→加权个案
• 频数→加权个案(频数 变量)
第七十七页,共138页。
• 第4步:x2检验(1)
• 选择分析→交叉表 • 交叉表对话框:组别和中医分型分别进入行和列
第六十五页,共138页。
• 第3步:定义频数 • 选择数据→加权个案 • 频数→加权个案(频数 变量)
第六十六页,共138页。
• 第4步:x2检验(1) • 选择分析→交叉表 • 交叉表对话框:组别和疗效分别进入行和列
第六十七页,共138页。
• 第4步:x2检验(2) • 选择统计
量按钮
• 在交叉表 :统计量
• 2)当n≥40,但有理论频数1≤理论值<5 时,用连续校正的卡方检验;或者确切概 率法。
• 3) n<40或有理论值<1,或P≈α时,用 确切概率法。
第四十九页,共138页。
【例4】某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV 的效果,将33例HBsAg阳性孕妇随机分为预防注射组和非 预防组,结果见表。问两组新生儿的HBV总体感染率有无 差别?
• 第3步:定义频数 • 选择数据→加权个案
• 频数→加权个案(频数
变量)
第四十二页,共138页。
• 第4步:x2检验(1) • 选择分析→交叉表
• 交叉表对话框:组别和疗效分别进入行和列
第四十三页,共138页。
• 第4步:x2检验(2)
• 选择统计 量按钮
• 在交叉表
第七十四页,共138页。
SPSS软件Biblioteka 作• 第1步:定义变量第七十五页,共138页。
• 第2步:输入 原始数据
第七十六页,共138页。
• 第3步:定义频数
• 选择数据→加权个案
• 频数→加权个案(频数 变量)
第七十七页,共138页。
• 第4步:x2检验(1)
• 选择分析→交叉表 • 交叉表对话框:组别和中医分型分别进入行和列
第六十五页,共138页。
• 第3步:定义频数 • 选择数据→加权个案 • 频数→加权个案(频数 变量)
第六十六页,共138页。
• 第4步:x2检验(1) • 选择分析→交叉表 • 交叉表对话框:组别和疗效分别进入行和列
第六十七页,共138页。
• 第4步:x2检验(2) • 选择统计
量按钮
• 在交叉表 :统计量
• 2)当n≥40,但有理论频数1≤理论值<5 时,用连续校正的卡方检验;或者确切概 率法。
• 3) n<40或有理论值<1,或P≈α时,用 确切概率法。
第四十九页,共138页。
【例4】某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV 的效果,将33例HBsAg阳性孕妇随机分为预防注射组和非 预防组,结果见表。问两组新生儿的HBV总体感染率有无 差别?
• 第3步:定义频数 • 选择数据→加权个案
• 频数→加权个案(频数
变量)
第四十二页,共138页。
• 第4步:x2检验(1) • 选择分析→交叉表
• 交叉表对话框:组别和疗效分别进入行和列
第四十三页,共138页。
• 第4步:x2检验(2)
• 选择统计 量按钮
• 在交叉表
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
▪ 实际数据的频数分布和理论假设相同
• 理论分布与实际分布的检验
▪ 使用不同的牙膏并不会影响龋齿的发生(两 个分类变量间无关联)
• 两变量的相关分析
15
四格表2值的校正
▪ 英国统计学家Yates认为,2分布是一种连续
型分布,而四格表资料是分类资料,属离散
型分布,由此计算的2值的抽样分布也应当
是不连续的,当样本量较小时,两者间的差
185
300
38.33
7
方法原理
▪ 残差
• 设A代表某个类别的观察频数,E代表基于H0计 算出的期望频数,A与E之差被称为残差
▪ 残差可以表示某一个类别观察值和理论值的 偏离程度,但残差有正有负,相加后会彼此 抵消,总和仍然为0。为此可以将残差平方后 求和,以表示样本总的偏离无效假设的程度
8
方法原理
2
(Ai Ei)2k
(Ai npi)2
E i1
i
i1 npi
9
方法原理
▪ 从卡方的计算公式可见,当观察频数与期望 频数完全一致时,卡方值为0;
▪ 观察频数与期望频数越接近,两者之间的差 异越小,卡方值越小;
▪ 反之,观察频数与期望频数差别越大,两者 之间的差异越大,卡方值越大。
▪ 当然,卡方值的大小也和自由度有关
30.15
11 34.17
38.19
ch i- sq uar e
操作步骤
▪ 1. 建立检验假设和确定检验水准
• H0:使用含氟牙膏和一般牙膏儿童龋患率相等 • H1:使用含氟牙膏和一般牙膏儿童龋患率不等
▪ 2. =0.05 ▪ 3.计算检验统计量2值
2 7 0 7.6 6 2 7 1 3 10 .3 223 4 5 3.3 8 23 5 5 6.6 1 2 7 7.6 67 1.3 23 3.3 83 6.6 17 2 .82 12
13
操作步骤
▪ 值得指出,成组设计四格表资料的2检验与 前面学习过的两样本率比较的双侧u检验是等 价的。若对同一资料作两种检验,两个统计 量的关系为2= u2。其对应的界值也为平方关 系。两者的应用条件也是基本一致的,连续 性校正也基本互相对应。
14
卡方检验假设的等价性
▪ 两组儿童的龋齿率相同
• 两组发生率的比较
•
•
=0.05 统计量 P2 计数,Ti是在
k i1
H0
(Ai Ti )2
为真Ti 的情
,其中Ai是样本资料的 况下的理论数(期望值)。
4
卡方检验
• 在应该H0比为较真接时近,0。实所际以观在察H数0为与真理时论,数检之验差统计Ai-量Ti
P2
k i1
(Ai
Ti )2 Ti
服从自由度为k-1的卡方分布。
异不可忽略,应进行连续性校正(在每个单
元格的残差中都减去0.5)
• 若n > 40 ,此时有 1< T 5时,需计算Yates连续 性校正2值
• T <1,或n<40时,应改用Fisher确切概率法直接
计算概率
16
例 6.8 为比较某新药与传统药物治疗脑动脉硬化的疗
效,临床试验结果见表 6.4,问两种药物的疗效有无差异?
卡方检验
内容安排
▪ 卡方检验入门 ▪ 配对设计两样本率比较的χ2检验 ▪ 行列表资料的分析 ▪ 确切概率法
2
卡方检验入门
概述
▪ 卡方检验是以卡方分布为基础的一种常用假 设检验方法,主要用于分类变量,它的基本 的无效假设是:
• H0:行分类变量与列分类变量无关联
• H1:行分类变量与列分类变量有关联
A法
6
方法原理
▪ 理论频数
• 基于H0成立,两样本所在总体无差别的前提下计
算出各单元格的理论频数来
TRC
nRnC n
牙膏类型 患龋齿人数 未患龋齿人数
调查人数
龋患率(%)
含氟牙膏
70(76.67)
130(123.33)
200
35.00
一般牙膏
45(38.33)
55(61.67)
100
45.00
合计
115
即:
2 P
2,,v 拒绝H0。
上述卡方检验由此派生了不同应用背景的各种问题
的检验,特别最常用的是两个样本率的检验等。
因为该原理的使用范围很广,但本次课程只学习 用于推断两个分类变量是否相互关联
5
概述
牙膏类型 含氟牙膏 一般牙膏 合计
表 6.2 使用含氟牙膏与一般牙膏儿童的龋患率
患龋齿人数 70(76.67) 45(38.33) 115表 6.来自 两种药物治疗脑动脉硬化的疗效
处理措施 有效 无效 合计 有效率()
新药组 41(38.18) 3(5.82) 44 传统药物组 18(20.82) 6(3.18) 24
93.18 75.00
合计
59
9
68
86.76
17
配对设计两样本率比较 的χ2检验
方法原理
▪ 例6.9 用A、B两种方法检查已确诊的乳腺癌 患者140名,A法检出91名(65%),B法检出 77名(55%),A、B两法一致的检出56名 (40%),问哪种方法阳性检出率更高?
操作步骤
▪ 3. 确定P值和作出推断结论
• 查附表8,2界值表,得p>0.05。按 = 0.05水 准,不拒绝H0,尚不能认为使用含氟牙膏比使用 一般牙膏儿童的龋患率低。
• 对于四格表,卡方的计算公式又可进行简化,以 方便手工计算
▪ 对计算机而言并无实际价值 ▪ tabi a b \ c d, chi2
10
方法原理
▪ 卡方分布
• 显然,卡方值的大小不仅与A、E之差有关,还与 单元格数(自由度)有关
.12
.10
.08
概率
.06
.04
.02
0.00 .00
4.02 2.01
8.04
12.06
16.08
20.10
24.12
28.14
32.16
36.18
6.03
10.05
14.07
18.09
22.11
26.13
未患龋齿人数 130(123.33) 55(61.67)
185
调查人数 200 100 300
龋患率(%) 35.00 45.00 38.33
更一般地,可将上述表格记为表 6.3 的一般形式,称之为四格表(fourfold table)。因为表 中 a、b、c 和 d 四个格子的数据是基本的,其余数据均可从这四个数据派生出来。
▪ 另一方面,残差大小是一个相对的概念,相 对于期望频数为10时,20的残差非常大;可 相对于期望频数为1000时20就很小了。因此
又将残差平方除以期望频数再求和,以标准 化观察频数与期望频数的差别。
• 这就是我们所说的卡方统计量,在1900年由英国 统计学家Pearson首次提出,其公式为:
k
• 理论分布与实际分布的检验
▪ 使用不同的牙膏并不会影响龋齿的发生(两 个分类变量间无关联)
• 两变量的相关分析
15
四格表2值的校正
▪ 英国统计学家Yates认为,2分布是一种连续
型分布,而四格表资料是分类资料,属离散
型分布,由此计算的2值的抽样分布也应当
是不连续的,当样本量较小时,两者间的差
185
300
38.33
7
方法原理
▪ 残差
• 设A代表某个类别的观察频数,E代表基于H0计 算出的期望频数,A与E之差被称为残差
▪ 残差可以表示某一个类别观察值和理论值的 偏离程度,但残差有正有负,相加后会彼此 抵消,总和仍然为0。为此可以将残差平方后 求和,以表示样本总的偏离无效假设的程度
8
方法原理
2
(Ai Ei)2k
(Ai npi)2
E i1
i
i1 npi
9
方法原理
▪ 从卡方的计算公式可见,当观察频数与期望 频数完全一致时,卡方值为0;
▪ 观察频数与期望频数越接近,两者之间的差 异越小,卡方值越小;
▪ 反之,观察频数与期望频数差别越大,两者 之间的差异越大,卡方值越大。
▪ 当然,卡方值的大小也和自由度有关
30.15
11 34.17
38.19
ch i- sq uar e
操作步骤
▪ 1. 建立检验假设和确定检验水准
• H0:使用含氟牙膏和一般牙膏儿童龋患率相等 • H1:使用含氟牙膏和一般牙膏儿童龋患率不等
▪ 2. =0.05 ▪ 3.计算检验统计量2值
2 7 0 7.6 6 2 7 1 3 10 .3 223 4 5 3.3 8 23 5 5 6.6 1 2 7 7.6 67 1.3 23 3.3 83 6.6 17 2 .82 12
13
操作步骤
▪ 值得指出,成组设计四格表资料的2检验与 前面学习过的两样本率比较的双侧u检验是等 价的。若对同一资料作两种检验,两个统计 量的关系为2= u2。其对应的界值也为平方关 系。两者的应用条件也是基本一致的,连续 性校正也基本互相对应。
14
卡方检验假设的等价性
▪ 两组儿童的龋齿率相同
• 两组发生率的比较
•
•
=0.05 统计量 P2 计数,Ti是在
k i1
H0
(Ai Ti )2
为真Ti 的情
,其中Ai是样本资料的 况下的理论数(期望值)。
4
卡方检验
• 在应该H0比为较真接时近,0。实所际以观在察H数0为与真理时论,数检之验差统计Ai-量Ti
P2
k i1
(Ai
Ti )2 Ti
服从自由度为k-1的卡方分布。
异不可忽略,应进行连续性校正(在每个单
元格的残差中都减去0.5)
• 若n > 40 ,此时有 1< T 5时,需计算Yates连续 性校正2值
• T <1,或n<40时,应改用Fisher确切概率法直接
计算概率
16
例 6.8 为比较某新药与传统药物治疗脑动脉硬化的疗
效,临床试验结果见表 6.4,问两种药物的疗效有无差异?
卡方检验
内容安排
▪ 卡方检验入门 ▪ 配对设计两样本率比较的χ2检验 ▪ 行列表资料的分析 ▪ 确切概率法
2
卡方检验入门
概述
▪ 卡方检验是以卡方分布为基础的一种常用假 设检验方法,主要用于分类变量,它的基本 的无效假设是:
• H0:行分类变量与列分类变量无关联
• H1:行分类变量与列分类变量有关联
A法
6
方法原理
▪ 理论频数
• 基于H0成立,两样本所在总体无差别的前提下计
算出各单元格的理论频数来
TRC
nRnC n
牙膏类型 患龋齿人数 未患龋齿人数
调查人数
龋患率(%)
含氟牙膏
70(76.67)
130(123.33)
200
35.00
一般牙膏
45(38.33)
55(61.67)
100
45.00
合计
115
即:
2 P
2,,v 拒绝H0。
上述卡方检验由此派生了不同应用背景的各种问题
的检验,特别最常用的是两个样本率的检验等。
因为该原理的使用范围很广,但本次课程只学习 用于推断两个分类变量是否相互关联
5
概述
牙膏类型 含氟牙膏 一般牙膏 合计
表 6.2 使用含氟牙膏与一般牙膏儿童的龋患率
患龋齿人数 70(76.67) 45(38.33) 115表 6.来自 两种药物治疗脑动脉硬化的疗效
处理措施 有效 无效 合计 有效率()
新药组 41(38.18) 3(5.82) 44 传统药物组 18(20.82) 6(3.18) 24
93.18 75.00
合计
59
9
68
86.76
17
配对设计两样本率比较 的χ2检验
方法原理
▪ 例6.9 用A、B两种方法检查已确诊的乳腺癌 患者140名,A法检出91名(65%),B法检出 77名(55%),A、B两法一致的检出56名 (40%),问哪种方法阳性检出率更高?
操作步骤
▪ 3. 确定P值和作出推断结论
• 查附表8,2界值表,得p>0.05。按 = 0.05水 准,不拒绝H0,尚不能认为使用含氟牙膏比使用 一般牙膏儿童的龋患率低。
• 对于四格表,卡方的计算公式又可进行简化,以 方便手工计算
▪ 对计算机而言并无实际价值 ▪ tabi a b \ c d, chi2
10
方法原理
▪ 卡方分布
• 显然,卡方值的大小不仅与A、E之差有关,还与 单元格数(自由度)有关
.12
.10
.08
概率
.06
.04
.02
0.00 .00
4.02 2.01
8.04
12.06
16.08
20.10
24.12
28.14
32.16
36.18
6.03
10.05
14.07
18.09
22.11
26.13
未患龋齿人数 130(123.33) 55(61.67)
185
调查人数 200 100 300
龋患率(%) 35.00 45.00 38.33
更一般地,可将上述表格记为表 6.3 的一般形式,称之为四格表(fourfold table)。因为表 中 a、b、c 和 d 四个格子的数据是基本的,其余数据均可从这四个数据派生出来。
▪ 另一方面,残差大小是一个相对的概念,相 对于期望频数为10时,20的残差非常大;可 相对于期望频数为1000时20就很小了。因此
又将残差平方除以期望频数再求和,以标准 化观察频数与期望频数的差别。
• 这就是我们所说的卡方统计量,在1900年由英国 统计学家Pearson首次提出,其公式为:
k