浙江大学统计学第六讲卡方检验

合集下载

《卡方检验正式》课件

《卡方检验正式》课件

卡方检验的结果可以直接解释为实际意义 ,例如,如果卡方值较大,则说明观察频 数与期望频数存在显著差异。
缺点
对数据要求高
卡方检验要求数据量较大,且各分类的期望频数不能太小,否则可能 导致结果不准确。
对离群值敏感
卡方检验对离群值比较敏感,离群值可能会对结果产生较大的影响。
无法处理缺失值
卡方检验无法处理含有缺失值的数据,如果数据中存在缺失值,需要 进行适当的处理。
案例二:市场研究中的卡方检验
总结词
市场研究中,卡方检验用于评估不同市 场细分或产品特征与消费者行为之间的 关联。
VS
详细描述
在市场研究中,卡方检验可以帮助研究者 了解消费者对不同品牌、产品或服务的偏 好。例如,通过比较不同年龄段消费者对 某品牌的选择比例,企业可以更好地制定 市场策略和产品定位。
案例三:社会调查中的卡方检验
小,表示两者之间的差异越小。通常根据卡方值的概率水平来判断差异
是否具有统计学显著性。
02
卡方检验的步骤
建立假设
假设1
观察频数与期望频数无显著差异
假设2
观察频数与期望频数有显著差异
收集数据
从样本数据中获取观察频数 确定期望频数,可以使用理论值或预期频数
制作交叉表
将收集到的数据整理成二维表格形式,行和列分别表示分类变量
卡方检验的基本思想
01
基于假设检验原理
卡方检验基于假设检验的原理,通过构建原假设和备择假设,利用观测
频数与期望频数的差异来评估原假设是否成立。
02
比较实际观测频数与期望频数
卡方检验的核心是比较实际观测频数与期望频数,通过卡方值的大小来
评估两者之间的差异程度。
03

统计学卡方检验

统计学卡方检验
个体化干预
根据分析结果,为患者提供个体化的干预措施,提高生存质量。
06
卡方检验注意事项及局限 性讨论
样本量要求及抽样方法选择
样本量要求
卡方检验对样本量有一定的要求,通常建议每个单元格的期望频数不小于5,以确保检验结果的稳定性和可靠性 。当样本量不足时,可能会导致检验效能降低,增加第二类错误的概率。
抽样方法选择
在进行卡方检验时,应选择合适的抽样方法。简单随机抽样是最常用的方法,但在某些情况下,如分层抽样或整 群抽样可能更适合。选择合适的抽样方法有助于提高检验的准确性和可靠性。
期望频数过低时处理策略
合并类别
当某个单元格的期望频数过低时,可以考虑 合并相邻的类别,以增加期望频数。合并类 别时应注意保持类别的逻辑性和实际意义。
适用范围及条件
适用范围
卡方检验适用于多个分类变量之间的独立性或相关性检验,如医学、社会科学等领域的调查研究。
条件
使用卡方检验需要满足一些前提条件,如样本量足够大、每个单元格的期望频数不宜过小等。此外, 对于有序分类变量或存在空单元格的情况,需要采用相应的处理方法或选择其他适合的统计方法。
02
卡方检验方法
统计学卡方检验
目录
• 卡方检验基本概念 • 卡方检验方法 • 数据准备与预处理 • 卡方检验实施步骤 • 卡方检验在医学领域应用举例 • 卡方检验注意事项及局限性讨论
01
卡方检验基本概念
定义与原理
01
02
定义
原理
卡方检验是一种基于卡方分布的假设检验方法,用于推断两个或多个 分类变量之间是否独立或相关。
确定分组界限
在确定分组界限时,可以采用等距分组、等频分组或 基于数据分布的分组方法。选择合适的分组界限有助 于保持各组之间的均衡性,减少信息损失。

【实用】卡方检验(5)PPT文档

【实用】卡方检验(5)PPT文档
绿叶的频率的乘积,
2 0.619 0.363 (0.4) 0.285 0.316 0.118 试判断该小麦的株高表现是否遵从正态分布。
在假设两种随机现象相互独立的情况下,确定各组合的概率,并计算各组合按概率进行分配时的观测值频数
x 2.381 5.637 12.4 19.72 22.68 18.88 并统计各结果观测值的频数
解:H0:x~N(μσ) HA: x 不服从正太分布 由于总体μ、σ未知,故由样本去估计(采用点估计):
样本 x 65.60,样本 S 22.50
x 65.60, S 22.50
首先算出各组的理论频率:
pi
Φ
xi1
Φ
xi
式中:xi+1、xi表示第i组的上下限(i=1,2,…,k)。 本例中:k=9 再算出各组的理论频数:E(fi)=Npi =100×pi
有7=5%1的0置0信水×平认p为i杨麦1号本的株高例遵从中正态各分布组。 的已计算出并列于表6-2中。 继而便可算出x 统计量值: 若两者相互独立,表明三种灌溉方式对叶态2表现的影响相同。
本例中的自由度df=k-1-p=12-1-2=9,查x2 值表可知,
2 2 2 2 2 2 本例中,设灌溉方式与与叶态表现无关联,则深水灌溉与绿叶同时出现的理论频率应为三种灌溉方式中深水灌溉的频率与三种叶态中
且已经算得 样本x 94.8,样本S 5.2。
试判断该小麦的株高表现是否遵从正态分布。
正态分布是连续分布,没有自然的类别,为了利用卡方检
验,可先用第2章介绍的方法将数据进行分组,然后以每组作为 一个类别,再用卡方检验进行正态分布的适合性检验。
组中值 83 86 89 92 95 98 101 104 107 组分点值 84.5 87.5 90.5 93.5 96.5 99.5 102.5 105.5 组频数 3 6 12 20 23 19 10 5 2 理论频数 2.38 5.64 12.4 19.7222.6818.8811.37 4.95 1.98 偏差量 0.62 0.36 -0.4 0.29 0.32 0.12 -1.37 0.05 0.02

浙江大学统计学第六讲卡方检验

浙江大学统计学第六讲卡方检验
0.025<P<0.05。按α=0.05水准,拒绝 H0,接受 H1,两组溃疡愈 合率差别有统计学意义,故可以认为洛赛克治疗消化道溃疡的愈合 率高于雷尼替丁。
3.四格表专用公式:为了简化计算,省去求理论频数,可用式
(6-10)代替式(6-8)计算四格表资料的 值2 ,该式称为四格
表专用公式,
2
(ad bc)2 n
第三节 独立性检验
本节介绍应用 2 检验推断两个或两个以上总体率(或
构成比)之间有无差别及两分类变量间有无相关关系等。
一、四格表资料的 2检验(两个样本率的比较)
例6-2 某医生欲了解洛赛克治疗消化道溃疡的疗效,以雷尼 替了作对照,试验结果见表6-2。问两种药物治疗4周的疗效有无 差别(两组性别、年龄、病程、病情等方面均衡)?
合计 85
愈合率(%) 75.29
雷尼替丁 51(57.16) 33(26.84)
84
合计
115
54
169
60.71 68.05
1. 2 检验的基本思想 检验要计算检验统计量值,值的计算公式
如下:
2
( A T )2 T
(6 8)
式中A为实际频数,T是根据无效假设确定的理论频数,∑是对 所有格子求和。例如,上例要作洛赛克(试验组)和雷尼替了
f
(
2)
1 2( v )
2
2
v 1 2
2
e 2
,
2
0 2 , v 1,2,3, 。
(6 3)
式中是 ( v )伽玛(gamma)函数在v/2处的函数值。
2
这样,已知v时,就能按式(6-3)绘出 2 分布曲线,如图6-
1。 2 分布的分布函数为

《卡方检验》课件

《卡方检验》课件

制作交叉表
确定交叉表的行列变量
根据研究目的和内容,选择合适的行列变量,构建交叉表。
制作交叉表
将分组后的数据按照行列变量制作成交叉表,以便于进行卡 方检验。
计算理论频数
确定期望频数
根据交叉表中的数据,结合各组 的概率计算期望频数。
计算理论频数
根据期望频数和实际频数计算理 论频数,为后续的卡方检验提供 依据。
计算卡方值
计算卡方值
使用卡方检验的公式计算卡方值,该 值反映了实际频数与理论频数的差异 程度。
自由度的确定
在计算卡方值时,需要确定自由度, 自由度通常为行数与列数的减一。
显著性水平的确定
选择显著性水平
显著性水平是衡量卡方值是否显著的指标,通常选择0.05或0.01作为显著性水 平。
判断显著性
根据卡方值和自由度,结合显著性水平判断卡方检验的结果是否显著,从而得 出结论。
3.84、6.63等),可以确定观测频数与期望频数之间的差异是否具有统
计学显著性。
02
卡方检验的步骤
收集数据
确定研究目的
制定调查问卷或收集程序
在开始收集数据之前,需要明确研究 的目的和假设,以便有针对性地收集 相关数据。
根据研究目的和内容,制定合适的调 查问卷或建立数据收集程序,确保数 据的完整性和准确性。
详细描述
例如,在市场调研中,我们可以通过卡方检验来分析不同年龄段、性别、职业等 人群对于某产品的态度或购买意愿是否有显著差异,从而为产品定位和营销策略 提供依据。
实际案例二:医学研究中的应用
总结词
在医学研究中,卡方检验常用于病例 对照研究和队列研究中的分类变量关 联性分析。
详细描述
例如,在病例对照研究中,我们可以 通过卡方检验来比较病例组和对照组 在某些基因型、生活方式或暴露因素 上的分布是否有统计学差异,从而探 讨病因或危险因素。

卡方检验

卡方检验
定在H0成立的情况下获得当前统计量及更极端情况的概率 P。 如果P 很小,说明观察值和理论值偏离程度太大,应当拒 绝原假设,表示比较资料之间有显著性差异;否则就不能 拒绝原假设,尚不能认为样本所代表的实际情况与理论假 设有差别。
浙江大学医学院流行病与卫生统计学教研室
沈毅
卡方检验基础
2值的计算:
( A E) E
供了完整的支持,此处只涉及两分类变量间关联程度的指
标,更系统的相关程度指标见相关与回归一章。
浙江大学医学院流行病与卫生统计学教研室
沈毅
两分类变量间关联程度的度量
相对危险度RR:是一个概率的比值,指试验组人群反应阳性概率 与对照组人群反应阳性概率的比值。数值为1,表明试验因素与
反应阳性无关联;小于1时,表明试验因素导致反应阳性的发生
小 结
3.Kappa一致性检验对两种方法结果的一致
程度进行评价;配对检验则用于分析两种
分类方法的分类结果是否有差异。
浙江大学医学院流行病与卫生统计学教研室
沈毅
小 结 4.分层卡方检验是把研究对象分解成不同层次,按 各层对象来进行行变量与列变量的独立性研究。可 在去除分层因素下更准确地对行列变量的独立性进
浙江大学医学院流行病与卫生统计学教研室 沈毅
小 结
2.关联程度的测量:卡方检验从定性的角度分析是否存在 相关,而各种关联指标从定量的角度分析相关的程度大小。 不同的指标适合不同类型的变量。 RR值是一个概率的比值,是指试验组人群反应阳性概率与 对照组人群反应概率的比值。用于反映试验因素与反应阳 性的关联程度。 OR值是比值的比。是反应阳性人群中试验因素有无的比例 与反应阴性人群中试验因素有无的比例之比。在下列两个 条件均满足时,可用于估计RR值:①所关注的事件发生概 率比较小(<0.1),②所设计的研究是病例对照研究。 浙江大学医学院流行病与卫生统计学教研室 沈毅

第6章 卡方检验 PPT课件

第6章 卡方检验 PPT课件

由 χC 2
(|OE|1/2)2可得: E
χ C 2(|8 2 - .7|.7 1 0 5 -.5 )5 6 2 (|8 .7 7|.2 0 5 - 2 .5 )2 5 0 .31 0 .4 90 4 1 .25 06
查附表,
χ2 0.05,1
3.8。4 现
χC 2 1.256002.0,51故应接受
Section 6.2
Fit Test 适合性检验
[例1] 大豆花色一对等位基因的遗传研究,在F2获得表1 所列分离株数。问这一资料的实际观察比例是否符合于3∶1 的理论比值。
表1 大豆花色一对等位基因遗传的适合性测验
花色
F2代实际株数 (O)
理论株数(E)
O-E
紫色
208
216.75 -8.75
0.5
0.4
纵高
0.3 0.2 0.1 0.0
0
自由度=1 自由度=2 自由度=3 自由度=6 a=0.05的临界值
3 3.84 6 7.81 9
1122.59 15
18
卡方值
单侧临界值
➢ 在自由度为

2
分布曲线图下,
2 a ,
右方
的面积为
a
,则称
2 a ,
为自由度为
的 2
分布概率为 a 的单侧临界值。可查表。
取 a=0.05。
根据H0的假定,计算各组格观察次数的相应理论次数: 如与146相应的E=(481×160)/547=140.69,
与183相应的E=(481×205)/547=180.26,……, 所得结果填于表4括号内。
根据 2 (OE)2 可得
iE χ 2 ( 1 4 1.6 6 4 )2 9 0 ( 7 8 .7 )2 8 ( 1 1 6 .9 1 )28 5 .62

统计学中的卡方检验

统计学中的卡方检验

统计学中的卡方检验卡方检验是一种常用的统计学方法,用于判断两个或多个变量之间是否存在显著性差异。

本文将介绍卡方检验的原理、应用场景以及实际操作步骤。

一、卡方检验原理卡方检验基于观察数据与理论数据之间的差异来判断变量之间的相关性。

它通过计算卡方值来衡量观察值与理论值之间的偏离程度,进而判断差异是否具有统计学意义。

二、卡方检验的应用场景卡方检验广泛应用于以下几个方面:1. 样本观察与理论值比较:用于比较观察数据与理论数据之间的差异,例如检验一个硬币是否是公平的。

2. 不同群体之间的差异性:用于比较不同群体之间某一属性的差异,例如男性和女性在某一疾病患病率上是否存在显著性差异。

3. 假设检验:用于判断两个或多个变量之间是否存在显著性关联,例如是否存在两个变量之间的相关性。

三、卡方检验的基本思路卡方检验的基本思路是建立原假设和备择假设,通过计算卡方值和查表得到结果。

具体步骤如下:1. 建立假设:设立原假设H0和备择假设H1。

原假设通常假定两个变量之间不存在显著性关联,备择假设则相反。

2. 构建列联表:将观察数据按照行和列分别分类计数,得到列联表。

3. 计算期望频数:根据原假设计算每个单元格的期望频数,即在假设成立的条件下,各个单元格的理论频数。

4. 计算卡方值:根据观察频数和期望频数计算卡方值,计算公式为Χ²=∑[(O-E)^2/E],其中O为观察频数,E为期望频数。

5. 查找临界值:根据自由度和显著性水平,在卡方分布表中找到对应的临界值。

6. 判断结果:比较计算得到的卡方值与临界值,若卡方值大于临界值,则拒绝原假设,认为差异具有统计学意义。

四、卡方检验的实例分析假设我们想要研究吸烟和肺癌之间的关系,我们收集了300人的数据,包括是否吸烟和是否患有肺癌的情况。

观察数据如下:吸烟非吸烟总计患有肺癌 80 40 120未患肺癌 100 80 180总计 180 120 300根据这些数据,我们想要判断吸烟与肺癌之间是否存在显著性关联。

卡方检验.ppt

卡方检验.ppt

两种消毒方法对消毒效果的比较
方法 0.5%过氧乙酸
80%乙醇 合计
消除 35 27 62
未消除 27 46 73
合计 62 64 126
消除率 56.45 28.13 42.06
2019-6-26
谢谢你的观赏
6
R
C
C1
R1
a
R2
c
nR合计
a+c
C2
nC合计

b
a+b
a/(a+b)
d
c+d
c/(c+d)
一. 通用公式法
二.
专用公式法
三.
四格表χ2值的校正
四. 精确概率法
五.
配对资料的χ2检验
2019-6-26
谢谢你的观赏
4
一. 通用公式法
χ2=


A
T
T
2
其中为A实际频数,T为理论频数,,nR是行和,nC是列和,n是 四格数之和。
2019-6-26
谢谢你的观赏
5
例1 某护士为了解过氧乙酸和乙醇两种消毒方法对 HBV血清中HBsAg的消毒效果,做了两种方法的比较试 验,结果如下:
2019-6-26
谢谢你的观赏
1
二项分布中,我们应用正态近似法介绍了
两个率的u检验。但在观察例数不足够大或拟
对多个率进行比较时,u检验就不适宜了,因
为直接对多个样本率作两两间的u检验有可能
加大第一类误差( 如同直接对多个样本均数
作两两间的t检验)。X2 检验(chi-square test)可
解决此问题。
的皮肤炎患病率,结果如下:
防护服种类

医学统计学课件卡方检验

医学统计学课件卡方检验

队列研究中的卡方检验
总结词
在队列研究中,卡方检验用于比较不同暴露 水平或不同分组在某个分类变量上的分布差 异,以评估暴露因素与疾病发生之间的关系 。
详细描述
队列研究是一种前瞻性研究方法,按照暴露 因素的不同将参与者分为不同的组,追踪各 组的疾病发生情况。通过卡方检验,可以比 较不同暴露水平或不同分组在分类变量上的 分布差异,如分析不同饮食习惯的人群中患
卡方检验与相关性分析的区别
卡方检验主要用于比较实际观测频数与期望频数之间的差异,而相关性分析则用于研究 两个或多个变量之间的关联程度。
卡方检验与相关性分析的联系
在某些情况下,卡方检验的结果可以为相关性分析提供参考,帮助了解变量之间的关联 程度。
05
卡方检验的应用实例
病例对照研究中的卡方检验
总结词
02
公式
卡方检验的公式为 $chi^{2} = sum frac{(O_{ij} - E_{ij})^{2}}{E_{ij}}$,
其中 $O_{ij}$ 表示实际观测频数,$E_{ij}$ 表示期望频数。
03
适用范围
卡方检验适用于两个分类变量的比较,可以用于分析病例对照研究、队
列研究等类型的研究。
卡方检验的用途
如比较不同年龄组、性别组等人群中某种疾病的患病率。
卡方检验的基本假设
每个单元格中的期望 频数应该大于5。
卡方检验对于样本量 较小的情况可能不适 用。
观察频数与期望频数 应该服从相同的概率 分布。
02
卡方检验的步骤
收集数据
01
02
03
确定研究目的
在开始卡方检验之前,需 要明确研究的目的和假设 ,以便有针对性地收集数 据。

统计学中的卡方检验方法

统计学中的卡方检验方法

统计学中的卡方检验方法卡方检验是一种常用的统计方法,用于确定两个变量之间是否存在相关性。

它基于比较观察值与期望值之间的差异,通过计算卡方值来评估这种差异是否具有统计显著性。

本文将介绍卡方检验的原理、应用场景以及如何进行计算。

1. 原理卡方检验是基于频数表进行的统计推断方法。

它假设观察到的数据符合某种理论分布,然后计算观察值与理论值之间的差异程度。

卡方检验的原假设为无关性假设,即两个变量之间不存在相关性。

若观察到的卡方值大于一定的临界值,就可以拒绝原假设,认为两个变量之间存在相关性。

2. 应用场景卡方检验广泛应用于多个领域,包括医学、社会学、市场调研等。

以下是一些常见的应用场景:(1)医学研究:用于判断某种治疗方法对疾病的疗效是否显著,或者某种食物是否与某种疾病的发生相关。

(2)市场调研:用于分析消费者的购买偏好与不同产品之间的关联性。

(3)教育研究:用于研究学生的性别与不同学科成绩之间是否存在相关性。

(4)调查研究:用于分析样本调查结果与总体情况之间的差异。

3. 计算方法卡方检验的计算过程包括以下几个步骤:(1)建立假设:首先,我们需要明确研究的假设,包括原假设和备择假设。

(2)制作频数表:将观察到的数据按照行和列分组,形成一个频数表。

表中的值表示观察到的频数。

(3)计算期望值:根据无关性假设,计算期望频数,评估观察值与期望值之间的差异。

(4)计算卡方值:利用计算公式,将观察频数和期望频数代入,得到卡方值。

(5)确定显著性水平:根据显著性水平和自由度,查找卡方分布表,找到对应的临界值。

(6)比较卡方值和临界值:如果卡方值大于临界值,拒绝原假设,认为两个变量之间存在相关性;如果卡方值小于临界值,则无法拒绝原假设,即认为两个变量之间不存在相关性。

总结:卡方检验是一种简单而有效的统计方法,用于分析两个变量之间的相关性。

它的应用领域广泛,可以在医学、社会学、市场调研等领域中发挥重要作用。

通过计算卡方值和比较临界值,我们可以推断两个变量之间是否存在相关性。

浙江大学医学统计学第六讲非参数统计分析与直线相关回归分析

浙江大学医学统计学第六讲非参数统计分析与直线相关回归分析
它是由除X以外的一切因素所引起的,自 由度为n-2。
©Fall2002,Xiuyang Li
B99,MedStat
Variation Measures
Y
Total sum of squares (Yi -Y)2
©Fall2002,Xiuyang Li
Unexplained sum
Yi of squares (Yi -Y^i)2
How would you draw a line through the points? How do you determine which line ‘fits best’?
y 100
50 0 0
x
20
40
60
©Fall2002,Xiuyang Li
B99,MedStat
Thinking Challenge
条件均数的估计:
2
y/x
where, syˆ syx
个体y值的95%容许区间:
1
n
x0 x
2
xx
总体中x为某一定值时, 个体 y的波动范围
©Fall2002,Xiuyang Li
yˆ t0.05,n2(双)syyˆ
2
where, syyˆ syx
©Fall2002,Xiuyang Li
B99,MedStat
直线回归方程的建立(1)
变量X和Y的散点图呈现直线趋势,但X和Y之间的线性 关系具有不确定性,不同与数学函数式X和Y有严格的 意义对应关系,用一组实际资料得到回归方程的和 的估计值a和b后就可建立起直线回归方程(linear regression equation)。
第六讲 非参数统计分析与 直线相关回归分析

医学统计学6卡方检验资料讲解

医学统计学6卡方检验资料讲解

【例5】某中医师将某病患者随机分为三组,分别用新 药、传统药物和安慰剂治疗,结果见表。问三种方法治 疗该病的有效率是否有差别?
A
nR
nC
SPSS软件操作
• 第1步:定义变量
• 第2步:输 入原始数据
• 第3步:定义频数
• 选择数据→加权个案 • 频数→加权个案(频
数变量)
• 第4步:x2检验(1)
• 第4步:x2检验(3)
• 选择单元 格按钮
• 在交叉表: 单元显示 对话框: 勾上观察 值、百分 比:行、 列
• 第5步:结果解读(1)
• 结果解读:行与列均为无序变量,行、列百 分比均有各自专业意义。
• 第5步:结果解读(2) • 结果解读:x2=64.059,p=0.000
• 第5步:结果解读(3)
行×列表卡方检验注意事项
• 当多个样本率(或构成比)作卡方检验, 结论为拒绝零假设时,只能认为各总体率 (或总体构成比)之间总的有差别,不能 说明两两之间有差别;两组间的比较需进 一步做多个样本率或构成比的两两比较, 即多重比较。
行×列表卡方检验注意事项
• R×C表可以分为双向无序 、单向有序、双向有序属 性相同和双向有序属性不 同等4类。
卡方值的计算
➢卡方值的影响因素: • 1、格子数 • 2、实测值与理论值的差距
专用公式的推导
T11=(a+c)/(a+b+c+d)*(a+b) T12=(b+d)/(a+b+c+d)*(a+b) T21=(a+c)/(a+b+c+d)*(c+d) T22=(b+d)/(a+b+c+d)*(c+d)

卡方检验讲解

卡方检验讲解

185
300
38.33
7
方法原理
?残差
?设A代表某个类别的观察频数, E代表基于H0计 算出的期望频数, A与E之差被称为残差
?残差可以表示某一个类别观察值和理论值的 偏离程度,但残差有正有负,相加后会彼此 抵消,总和仍然为0。为此可以将残差平方后 求和,以表示样本总的偏离无效假设的程度
8
方法原理
?两组发生率的比较
?实际数据的频数分布和理论假设相同
?理论分布与实际分布的检验
?使用不同的牙膏并不会影响龋齿的发生(两 个分类变量间无关联)
?两变量的相关分析
15
四格表? 2值的校正
?英国统计学家Yates认为,? 2分布是一种连续
型分布,而四格表资料是分类资料,属离散 型分布,由此计算的? 2值的抽样分布也应当
方法原理
?例6.9 用A、B两种方法检查已确诊的乳腺癌 患者140名,A法检出91名(65%),B法检出 77名(55%),A、B两法一致的检出56名 (40%),问哪种方法阳性检出率更高?
A法
+ - 合计
+ 56 (a) 21 (c) 77
B法 -
35 (b) 28 (d) 63
合计
91 49 140
?2.计算概率和确定P值
?本例n = 36 < 40 ,不满足?2检验的应用条件,宜 采用四格表确切概率法。
32
方法原理
?在四格表周边合计不变的条件下,在相应的 总体中进行抽样,四格表中出现各种排列组 合情况的概率
?本例即28、8、22、14保持不变的条件下,若 H0 成立,计算出现各种四格表的概率
效,临床试验结果见表 6.4,问两种药物的疗效有无差异?
表 6.4 两种药物治疗脑动脉硬化的疗效
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表6-1中第(3)列为各组段上下限处的u值,如第1组段的上限对 应的u=-1.85;
第(4)列Ф (u)系按第(3)列的u值由附表1查出。如u=-1.87时, 查表得Ф (-1.87)=0.0307,余仿此。
第(5)列δ为相邻两Ф (u)之差值。如第一组段2.65~2.95的相对频 数 δ=0.0322;而2.95~3.25组段的相对频数δ=0.0793-0.0322=0.0471; 余仿此,但最末组段5.35~5.65的δ=l—0.9582=0.0418。
1.建立检验假设,确定检验水准。 H0:实际频数与正态分布的理论频数符合 H1:实际频数与正态分布的理论频数不符合 α=0.05 或α=0.10
2.按式(6-6)计算统计量 2 值。
2
( f F)2 ,
F
v k 3
(6 6)
式中f为各组段的实际频数J为由拟合曲线算得的各组段的理论
第六章 2 检 验
2 检验(chi-square test)是一种用途较广的假设检验方
法。本章重点介绍它用于频数分布资料拟合优度检验和分类 资料的假设检验。
第一节 2 分布
分2 布是一种连续型分布,可用于检验资料的实际频数和
按检验假设计算的理论频数是否相符等问题。早在1875年,
F.Helmet即得出来自正态总体的样本方差的分布服从 2 分布。
频数,k为用式(6-6)计算 2 值时所用F的个数,由于计算F
时,用了n、X 、S三个统计量,故v=k-3。当总体参数μ 及σ 已知时,则 v=k-l。
然后由u值附表1得Ф (u),它的意义是正态曲线下由-∞至u 的面积。相邻两Ф (u)之差值δ为各组段的相对频率,乘以n化 为理论频数F。
F=nδ
当v确定后, 2 分布曲线下右侧尾部的面积P为指定值α时, 横轴上相应的界值 2 ,记作 2(v),如图6-l,这就是 2 分布的 分位数,此值有 2 界值表,即附表3。作 2 检验时,先求得 观察样本的统计量 2 值,然后按v由附表3查得 2 界值,与统
计量比较得到与统计量相应的P值。
(3)确定概率P并作统计推论。查附表3, 界值表得0.05>P>
平方,因此
2 (1)
等于标准正态分布的双侧分位数uα之平方和。例
如u0.05=1.96,而=3.84=(1.96)2=
u
2 0.05
四、 2 分布的应用
1.直接应用:用于检验某一分布的实际频数与理论频数是否符
合;某些统计量的分布可用 2 分布作近似处理,如各组含量
不小于5,且组数不小于3时,秩和检验统计量H的分布可近似
地用 2 分布来代替;正态总体方差的区间估计等。 2.间接应用:如t分布和F分布就是在 2 分布的基础上推导出
来的。
第二节 拟合优度检验 拟合优度检验是判断样本实际频数分布与拟合的理论频数分布 是否符合,或者说判断此样本是否来自某种分布。本节以正态分布 的拟合优度检验为例,说明该方法的步骤,具体步骤如下:
注意∑F应与∑f相等或很相近,否则计算有误。求 2 值时一
般要求F不宜过小,比如不小于 5。因此常将 F值小的相邻组合 并,相应的f亦合并。
3.确定概率P并作出统计推论。
例6-l 某医学院校医随机抽取100名一年级医学生,测定空腹血 糖值(mmol/L),其频数分布如表6-l(教材62页)中第(1)栏
(6 2)
一、分布函数及其图形
2分布的密度函数为
f
(
2)

1 2( v )

2
2
v 1 2
2 eΒιβλιοθήκη 2,20 2 , v 1,2,3,。
(6 3)
式中是 ( v )伽玛(gamma)函数在v/2处的函数值。
2
这样,已知v时,就能按式(6-3)绘出 2 分布曲线,如图6-
1。 2 分布的分布函数为
F ( 2 ) 2 0
1 2(
v
)

2 2

v 1 2
e
2 2
d
2
,
2
0 2 , v 1,2,3,。
(6 4)
它的几何意义是: 2 分布曲线下从0到某给定 2 值的面
积,如图6-l。
二、分布的分位数
1900年,K.Pearson也独立地从检验分布的拟合优度发现这一
相同的 2 分布。
v个相互独立的标准正态变量ui(i=1,2,…,v)的平方和称
为 变2 量,即
2 u12 u22 uv2 ,
ui

Xi u

(6 1)
它的分布即为 2 分布,其自由度为v。式中Xi为服从正态分
第(6)列F是将第(5)列的相对频数乘以样本含量n化成的理论频数, 如第一行100仇0322)d.22,余仿此。注意第(5)、(6)列的6值与F 均写在相应组段中间,反映直方图上该直条的面积。
(2)求统计量。第(7)列系接式(6-6)的要求作 2 值计算,得 =125.05。表中共有10个F参加 值计2 算,故 的 自2 由度=10-3=7。
布的变量,μ 为总体均数,σ 为总体标准差。
在实际应用时,资料中k个实际频数Ai与相应的理论频数Ti之 间差别的大小,可用式(6-2)表示。如果样本含量n足够大
(大于40),且各Ti都大于5,则式(6-2)近似于 2 分布。n
愈大,近似程度愈好。
k
Ai
Ti
2
,
i1
Ti
i 1,2,, k。
三、 2分布与正态分布的关系
1.从图6-l可见,当v逐渐增大时, 2 曲线逼近于正态曲线,
这时它们的分布函数有如下关系:
2 f ( 2 )d 2 (u), 0
2 v
u 2v
(6 5)
式中的自由度v恰好等于 2 分布的均数,2v等于它的方差。
2.当v=1时,由式(6-l)可知, 2 变量等于标准正态变量的
和第(2)栏所示,试用 2 检验判断该资料是否符合正态分布。
(l)建立检验假设和确定检验水准
H0:一年级大学生空腹血糖的实际频数与正态分布的理论频数 符合
H1:一年级大学生空腹血糖的实际频数与正态分布的理论频数 不符合
检验水准为 α=0.10。
本资料的均数 X =4.1966,S=0.6737。
相关文档
最新文档