第四章 分类变量资料的卡方检验
卡方检验
卡方检验解释
(四)卡方检验的连续性校正问题
反对依据是:经连续性校正后,P值有过分 保守之嫌。此外,Fisher确切概率法建立在 四格表双边固定的假定下,而实际资料则 是单边固定的四格表,连续性校正卡方检 验的P值与Fisher确切概率法的P值没有可 比性。
• 就应用而言,无论是否经过连续性校 正,若两种检验的结果一致,无须在 此问题上纠缠。但是,当两种检验结 果相互矛盾时,如例7-2,就需要谨 慎解释结果了。
24.08, P0.05
结论与之相反。
(四)卡方检验的连续性校正问题
赞成依据是:这样做可使卡方统计量抽样 分布的连续性和平滑性得到改善,可以降 低I类错误的概率,连续性校正后的卡方检 验,其结果更接近于Fisher确切概率法。不 过,校正也不是无条件的,它只适合于自 由度为1时,样本含量较小,如n<40,或 至少有一个格子的理论频数太小,如T<5 的情形。
• 为客观起见,建议将两种结论同时报 告出来,以便他人判断。当然,如果 两种结论一致,如均为或,则只报道 非连续性检验的结果即可。
第二节、两相关样本率检验 (McNemar检验)
配对四格表资料的 2 检验
与计量资料推断两总体均数是否 有差别有成组设计和配对设计一样, 计数资料推断两个总体率(构成比) 是否有差别也有成组设计和配对设计, 即四格表资料和配对四格表资料。
理论频数由下式求得:
TRC
nR nC n
式中,TRC 为第R 行C 列的理论频数 nR 为相应的行合计 nC 为相应的列合计
检验统计量 2 值反映了实际频数与 理论频数的吻合程度。
若检验假设H0:π1=π2成立,四个格子的实际 频数A 与理论频数T 相差不应该很大,即统计量
不应该很大。如果 2 值很大,即相对应的P 值很
第四章 卡方检验
4.1 适合度检验
④ SPSS 点击确定。再点击菜单分析→非参数检验 →旧对话框→卡方:
4.1 适合度检验
④ SPSS
弹出对话框,将数量选择到检验变量列表中,在 期望值下面选择值,按比例从小到大分别输入1, 添加,3,添加:
4.1 适合度检验
④ SPSS
点击确定,即可得到结果:
4.1 适合度检验
② SPSS 点击继续,返回上级对话框,点击确定,得到结果:
df=1时,需要看连续校正的卡方值,为23.174,对应的p值为0.000, 小于0.01表明两种人群的气管炎患病率有非常显著的差异。
4.2.1.1 需要校正的四格表资料的χ2检验
例 某医师欲比较胞磷胆碱与神经节苷酯治疗脑 血管疾病的疗效,将78例脑血管疾病患者随机分 为两组,结果见表。问两种药物治疗脑血管疾病 的有效率是否相等?
4.1 适合度检验
④ SPSS 定义变量,输入数据,点击菜单数据→
加权个案,弹出对话框,选择加权个案, 将数量选择到频率变量下面,点击确定。 再点击菜单分析→非参数检验→旧对话框 →卡方,弹出对话框,将数量选择到检验 变量列表中,在期望值下面选择值,按比 例从小到大分别添加1,3,32×2表)分析:
4.2.1.3 四格表资料的Fisher确切概率法
① DPS 立刻得到结果:
4.2.1.3 四格表资料的Fisher确切概率法
② SPSS 定义变量,输入数据,点击菜单数据→加权个案,弹
出对话框,选择加权个案,将数量选择到频率变量下面, 点击确定。点击菜单分析→描述统计→交叉表:
4.2.1.1 需要校正的四格表资料的χ2检验
① DPS 在DPS中输入数据,选择数据,点击菜单分类
数据统计→四格表→四格表(2×2表)分析:
SPSS学习系列24. 卡方检验
24. 卡方检验卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:实际观察频数f 0与理论频数f e (又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从2χ分布,即)(n f f f ee 2202~)(χχ∑-= 卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异,二者差异越小,2χ值越小。
卡方检验要求:(1)分类相互排斥,互不包容; (2)观察值相互独立;(3) 样本容量不宜太小,理论频数≥5,否则需要进行校正(合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值)。
卡方校正公式为:∑--=ee f f f 202)5.0(χ卡方检验的原假设H 0: 2χ= 0; 备择假设H 1: 2χ≠0; 卡方检验的用途:(1)检验某连续变量的数据是否服从某种分布(拟合优度检验); (2)检验某分类变量各类的出现概率是否等于指定概率; (3)检验两个分类变量是否相互独立(关联性检验); (4)检验控制某几个分类因素之后,其余两个分类变量是否相互独立;(5)检验两种方法的结果是否一致,例如两种方法对同一批人进行诊断,其结果是否一致。
(一)检验单样本某水平概率是否等于某指定概率一、单样本案例例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值);检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以前降低。
有数据文件:检验“性别”的男女比例是否相同(各占1/2)。
1. 【分析】——【非参数检验】——【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“自动比较观察数据和假设数据”2.【字段】界面,勾选“使用定制字段分配”,将变量“性别”选入【检验字段】框;注意:变量“性别”的度量标准必须改为“名义”类型。
3. 【设置】界面,选择“自定义检验”,勾选“比较观察可能性和假设可能性(卡方检验)”;4. 点【选项】,打开“卡方检验选项”子窗口,本例要检验男女概率都=0.5,勾选“所有类别概率相等”;注:若有类别概率不等,需要勾选“自定义期望概率”,在其表中设置各类别水平及相应概率。
统计学卡方检验
根据分析结果,为患者提供个体化的干预措施,提高生存质量。
06
卡方检验注意事项及局限 性讨论
样本量要求及抽样方法选择
样本量要求
卡方检验对样本量有一定的要求,通常建议每个单元格的期望频数不小于5,以确保检验结果的稳定性和可靠性 。当样本量不足时,可能会导致检验效能降低,增加第二类错误的概率。
抽样方法选择
在进行卡方检验时,应选择合适的抽样方法。简单随机抽样是最常用的方法,但在某些情况下,如分层抽样或整 群抽样可能更适合。选择合适的抽样方法有助于提高检验的准确性和可靠性。
期望频数过低时处理策略
合并类别
当某个单元格的期望频数过低时,可以考虑 合并相邻的类别,以增加期望频数。合并类 别时应注意保持类别的逻辑性和实际意义。
适用范围及条件
适用范围
卡方检验适用于多个分类变量之间的独立性或相关性检验,如医学、社会科学等领域的调查研究。
条件
使用卡方检验需要满足一些前提条件,如样本量足够大、每个单元格的期望频数不宜过小等。此外, 对于有序分类变量或存在空单元格的情况,需要采用相应的处理方法或选择其他适合的统计方法。
02
卡方检验方法
统计学卡方检验
目录
• 卡方检验基本概念 • 卡方检验方法 • 数据准备与预处理 • 卡方检验实施步骤 • 卡方检验在医学领域应用举例 • 卡方检验注意事项及局限性讨论
01
卡方检验基本概念
定义与原理
01
02
定义
原理
卡方检验是一种基于卡方分布的假设检验方法,用于推断两个或多个 分类变量之间是否独立或相关。
确定分组界限
在确定分组界限时,可以采用等距分组、等频分组或 基于数据分布的分组方法。选择合适的分组界限有助 于保持各组之间的均衡性,减少信息损失。
卡方检验的这点你千万不能忽视哦
方检验的这点,你千万不能忽视哦!方检验方检验有两种用途:1、拟合优度检验(goodness offit test ):用卡方统计量进行统计学检验,依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量的分布进行分析的目的。
2、拟合优度检验是对一个分类变量的检验,有时我们会遇到两个分类变量的问题(也就是列联表数据,横标目和纵标目各代表一个分类变量),看这两个分类变量是否存在联系。
现在,来个题考考大家!双向无序列联表资料什么时候能用卡方检验,什么时候要用精确概率法?传统的统计教材中般认为:对双向无序的RxC 列联表资料进行卡方检验中,当样本量小,存在单元格的理论频数(又叫期望计数)小于5 ,或这样的单元格数超过总单元格数的20% ,才需要选用精确概率法。
其实,这种说法已经过时了。
John H. McDonald 在Handbook of BiologicalStatistics (3rd ed.)一书中对卡方检验的适用条件进行了新的阐述。
完全颠覆了我的以往思路。
现总结归纳如下、只要样本量小于1000 的列联表资料,都应该使用精确概率法。
因为,1000 以下样本量的精确概率法在Excel 、SAS 、SPSS 等软件中都可以轻松实现。
、当样本量比1000 大很多时,即使在大型计算机上的强大软件(例如SAS )做精确概率法的运算都可能存在困难,所以对于样本量大于1000 时,应该使用卡方检验。
如果自由度只有1 ,可以使用Yates 连续性校正(但是对于如此大的样本量,Yates 连续性校正对P 值在准确性上的改进是微不足道。
)、为了便于操作,McDonald 将其经验法则建立在总样本量的基础上,而不是最小的期望计数;如果一个或多个期望计数是非常小(个位数),即使总样本量大于1000 ,也应该使用精确概率法,只是但愿你的计算机能够处理这样的运算量。
卡方检验-有序资料的卡方检验
在社会学研究中,卡方检验可用 于分析分类变量之间的关系,例 如性别与职业选择、婚姻状况与
教育程度等。
在市场营销中,卡方检验可用于 分析消费者偏好和行为,例如品
牌选择、产品购买决策等。
注意事项
卡方检验的前提假设是样本数 据相互独立,且每个单元格的
期望频数不能太小。
卡方检验的结果受到样本大小 和期望频数的影响,因此在使 用时需要谨慎选择样本和数据
卡方检验的定义和原理
• 有序卡方检验基于卡方检验的原理,通过比较实际观测频数与期望频数之间的 差异,来评估变量之间的关联性。它利用卡方统计量来衡量观测频数与期望频 数之间的偏离程度,通过计算卡方值和对应的概率值(p值),判断变量之间 的关联是否具有统计学显著性。
• 有序卡方检验通常使用列联表的形式呈现数据,其中行表示一个分类变量,列 表示另一个分类变量。在列联表中,每个单元格表示两个分类变量在特定水平 下的观测频数。通过比较期望频数与实际观测频数,可以计算每个单元格的卡 方值。
05
卡方检验的案例分析
案例一:不同年龄段人群的吸烟习惯
01
目的
比较不同年龄段人群的吸烟习惯是否存在显著差异。
02
数据
将年龄段分为5个等级,分别为18岁以下、18-25岁、26-35岁、36-45
岁、46岁以上。吸烟习惯分为不吸烟、偶尔吸烟、经常吸烟三个等级。
03
分析
使用卡方检验分析不同年龄段人群的吸烟习惯分布是否有显著差异。
对样本量要求较高
有序卡方检验对样本量有一定的要求,如果 样本量过小,可能会导致检验结果不准确。
对数据要求较高
有序卡方检验要求数据必须满足一定的假设条件, 如独立性、均匀分布等,否则可能会导致检验结果 偏差。
卡方检验分类变量事物相互独立临界值_解释说明
卡方检验分类变量事物相互独立临界值解释说明1. 引言1.1 概述本篇论文探讨了卡方检验在分类变量相互独立性判断中的应用,并重点关注了临界值的计算方法及其意义。
卡方检验是一种常用的统计方法,可用于确定两个分类变量之间是否存在相关性。
分类变量是指通过将样本分为不同类别或组别来描述数据的变量。
事物相互独立性是指两个分类变量之间没有任何关联或联系。
1.2 文章结构本文分为五个主要部分:引言、卡方检验与分类变量、事物相互独立的概念和判断方法、卡方检验的临界值计算方法与意义解释、结论。
在引言部分中,我们将简要介绍文章的背景和目标,以及各个章节的内容和结构。
1.3 目的本文旨在解释说明卡方检验在分类变量相互独立性判断中的作用,并深入讨论临界值计算方法与其意义。
通过对相关理论和实际案例进行分析,我们将提供一个具有实践价值和学术参考价值的综合指南,帮助读者更好地理解和应用卡方检验在统计分析中的作用。
同时,我们还将评估卡方检验在分类变量相互独立性判断中的应用价值,并展望未来可能的发展方向。
2. 卡方检验与分类变量2.1 卡方检验概述卡方检验是一种统计方法,用于确定两个或多个分类变量之间的相关性。
它基于观察到的频数与期望频数之间的差异来判断分类变量之间是否存在显著关系。
在实际应用中,卡方检验通常用于验证研究假设和分析数据。
2.2 分类变量的定义和特点分类变量指的是可被分配到有限数目类别中的自变量。
例如,性别、民族和教育程度等都是分类变量。
分类变量具有离散性,它们按照不同类别进行排序,并且各个类别之间没有固定顺序。
2.3 卡方检验在分类变量中的应用卡方检验可用于衡量两个或多个分类变量之间的相关性或独立性。
在进行卡方检验时,我们首先建立一个原假设(H0),即假设两个或多个分类变量是相互独立的。
然后,通过计算观察到的频数与期望频数之间的差异来评估原假设。
如果观察到的频数与期望频数之间没有显著差异,则说明两个或多个分类变量之间是相互独立的。
卡方检验
浙江大学医学院流行病与卫生统计学教研室
沈毅
卡方检验基础
2值的计算:
( A E) E
供了完整的支持,此处只涉及两分类变量间关联程度的指
标,更系统的相关程度指标见相关与回归一章。
浙江大学医学院流行病与卫生统计学教研室
沈毅
两分类变量间关联程度的度量
相对危险度RR:是一个概率的比值,指试验组人群反应阳性概率 与对照组人群反应阳性概率的比值。数值为1,表明试验因素与
反应阳性无关联;小于1时,表明试验因素导致反应阳性的发生
小 结
3.Kappa一致性检验对两种方法结果的一致
程度进行评价;配对检验则用于分析两种
分类方法的分类结果是否有差异。
浙江大学医学院流行病与卫生统计学教研室
沈毅
小 结 4.分层卡方检验是把研究对象分解成不同层次,按 各层对象来进行行变量与列变量的独立性研究。可 在去除分层因素下更准确地对行列变量的独立性进
浙江大学医学院流行病与卫生统计学教研室 沈毅
小 结
2.关联程度的测量:卡方检验从定性的角度分析是否存在 相关,而各种关联指标从定量的角度分析相关的程度大小。 不同的指标适合不同类型的变量。 RR值是一个概率的比值,是指试验组人群反应阳性概率与 对照组人群反应概率的比值。用于反映试验因素与反应阳 性的关联程度。 OR值是比值的比。是反应阳性人群中试验因素有无的比例 与反应阴性人群中试验因素有无的比例之比。在下列两个 条件均满足时,可用于估计RR值:①所关注的事件发生概 率比较小(<0.1),②所设计的研究是病例对照研究。 浙江大学医学院流行病与卫生统计学教研室 沈毅
SPSS学习系列24. 卡方检验
24. 卡方检验卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:实际观察频数f 0与理论频数f e (又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从2χ分布,即)(n f f f ee 2202~)(χχ∑-= 卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异,二者差异越小,2χ值越小。
卡方检验要求:(1)分类相互排斥,互不包容; (2)观察值相互独立;(3) 样本容量不宜太小,理论频数≥5,否则需要进行校正(合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值)。
卡方校正公式为:∑--=ee f f f 202)5.0(χ卡方检验的原假设H 0: 2χ= 0; 备择假设H 1: 2χ≠0; 卡方检验的用途:(1)检验某连续变量的数据是否服从某种分布(拟合优度检验); (2)检验某分类变量各类的出现概率是否等于指定概率; (3)检验两个分类变量是否相互独立(关联性检验); (4)检验控制某几个分类因素之后,其余两个分类变量是否相互独立;(5)检验两种方法的结果是否一致,例如两种方法对同一批人进行诊断,其结果是否一致。
(一)检验单样本某水平概率是否等于某指定概率一、单样本案例例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值);检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以前降低。
有数据文件:检验“性别”的男女比例是否相同(各占1/2)。
1. 【分析】——【非参数检验】——【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“自动比较观察数据和假设数据”2.【字段】界面,勾选“使用定制字段分配”,将变量“性别”选入【检验字段】框;注意:变量“性别”的度量标准必须改为“名义”类型。
3. 【设置】界面,选择“自定义检验”,勾选“比较观察可能性和假设可能性(卡方检验)”;4. 点【选项】,打开“卡方检验选项”子窗口,本例要检验男女概率都=0.5,勾选“所有类别概率相等”;注:若有类别概率不等,需要勾选“自定义期望概率”,在其表中设置各类别水平及相应概率。
卡方检验详述
卡方检验什么是卡方检验卡方检验是一种用途很广的计数资料的假设检验方法。
它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。
其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
卡方检验的基本原理卡方检验是以χ2分布为基础的一种常用假设检验方法,它的无效假设H0是:观察频数与期望频数没有差别。
该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。
根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。
如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。
卡方值的计算与意义χ2值表示观察值与理论值之问的偏离程度。
计算这种偏离程度的基本思路如下。
(1)设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差称为残差。
(2)显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。
因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和。
(3)另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1 000时20的残差就很小了。
考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。
进行上述操作之后,就得到了常用的χ2统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson χ2,其计算公式为:其中,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。
spss学习系列24.卡方检验
卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:实际观察频数f 0与理论频数f e (又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从2χ分布,即)(n f f f ee 2202~)(χχ∑-= 卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异,二者差异越小,2χ值越小。
卡方检验要求:(1)分类相互排斥,互不包容; (2)观察值相互独立;(3) 样本容量不宜太小,理论频数≥5,否则需要进行校正(合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值)。
卡方校正公式为:∑--=ee f f f 202)5.0(χ卡方检验的原假设H 0: 2χ= 0; 备择假设H 1: 2χ≠0; 卡方检验的用途:(1)检验某连续变量的数据是否服从某种分布(拟合优度检验); (2)检验某分类变量各类的出现概率是否等于指定概率; (3)检验两个分类变量是否相互独立(关联性检验); (4)检验控制某几个分类因素之后,其余两个分类变量是否相互独立;(5)检验两种方法的结果是否一致,例如两种方法对同一批人进行诊断,其结果是否一致。
(一)检验单样本某水平概率是否等于某指定概率一、单样本案例例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值);检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以前降低。
有数据文件:检验“性别”的男女比例是否相同(各占1/2)。
1. 【分析】——【非参数检验】——【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“自动比较观察数据和假设数据”2.【字段】界面,勾选“使用定制字段分配”,将变量“性别”选入【检验字段】框;注意:变量“性别”的度量标准必须改为“名义”类型。
3. 【设置】界面,选择“自定义检验”,勾选“比较观察可能性和假设可能性(卡方检验)”;4. 点【选项】,打开“卡方检验选项”子窗口,本例要检验男女概率都=,勾选“所有类别概率相等”;注:若有类别概率不等,需要勾选“自定义期望概率”,在其表中设置各类别水平及相应概率。
卡方检验1
表8-3 两种检验方法检验结果比较
乙
甲
+
-
合计
+
80(a) 10(b)
90
-
31 (c) 11(d)
42
合计
111
21
132
分析
本资料为配对计数资料,这种设计的结果会出现四 种情况: 甲+乙+ a 甲+乙- b 甲-乙+ c 甲-乙- d 两方法都为阳性与都为阴性不能说明两方法的 差别,两者的差别表现在b 和c的差别上。
组别 甲药 乙药 合计
阳性 182(a) 77(c)
259
阴性 135(b) 100(d) 235
合计 现患率(%)
317
57.4
177
43.5
494
52.4
182 135 77 100
ab cd
四个格子的数据a,b,c,d是表8-7中基本数据, 称为实际频数,简称A(actual frequency)
查χ2界值表:得P<0.005,按α =0.05水准, 拒绝H0 ,接受H1 ,可认为甲乙两法的阳性结果不 同,乙法的阳性率高于甲法。
T
(a b)(c d)(a c)(b d )
✓ 3. T<1或 N<40时,用Fisher精确概率法.
例
将病情相似的淋巴系肿瘤患者随机分成 两组,分别作单纯化疗和复合化疗,两组 的缓解率资料见下表,问两组的缓解率有 无差别?
表8-2 两组疗法的缓解率比较
组别 单纯化疗
属 缓解
性 未缓解
第四章 卡方检验
4.1 适合度检验
③根据D理P论S比3:1,结果给出了理论值为1201.5与400.5。 立结值果为刻中0.得0卡00方到0值,结为小果3于0:01..0612,63说(明即实Pe际ar观so测n卡值方与值孟,德对尔应理的论p
分离比3:1是有非常显著差异的。
.
4.1 适合度检验
④ SPSS 定义变量,输入数据,点击菜单数据→加 权个案,弹出对话框,选择加权个案,将 数量选择到频率变量下面:
.
4.2.1.1 需要校正的四格表资料的χ2检验
① DPS 在DPS中输入数据,选择数据,点击菜单分类
数据统计→四格表→四格表(2×2表)分析:
.
4.2.1.1 需要校正的四格表资料的χ2检验
① DPS 立刻得到结果:
.
4.2.1.1 需要校正的四格表资料的χ2检验
①由于D理PS论值小于5,因此要看校正的卡方值3.1448,对应 立的p刻为得0.0到76结17果>0:.05,尚不能认为两种药物治疗脑血管疾
② SPSS 点击菜单数据→加权个案,弹出对话框:
.
4.2.1.2 配对四格表资料的χ2检验
② SPSS 将数量选择到频数变量中,点击确定。点击菜单 分析→描述统计→交叉表:
.
4.2.1.2 配对四格表资料的χ2检验
② SPSS 弹出对话框,将乳胶凝集选择到行,将免疫荧光 选择到列:
.
4.2.1.2 配对四格表资料的χ2检验
.
4.2.1.1 需要校正的四格表资料的χ2检验
② SPSS 点击菜单分析→描述统计→交叉表:
.
4.2.1.1 需要校正的四格表资料的χ2检验
② SPSS 弹出对话框,将人群选择到行,将病况选择到列:
卡方检验的变量类型
卡方检验的变量类型引言:一、二项变量的卡方检验二项变量是指只有两种可能取值的变量,如男性与女性、对与错等。
卡方检验可用于判断两个二项变量之间是否存在关联。
例如,我们想要研究吸烟与患肺癌之间的关系,我们可以将吸烟与患癌分别定义为二项变量,然后利用卡方检验来判断二者之间是否存在显著性关联。
二、多项变量的卡方检验多项变量是指具有多个可能取值的变量,如教育程度(小学、初中、高中、大学)等。
卡方检验可用于判断多个多项变量之间是否存在关联。
例如,我们想要研究教育程度与职业之间的关系,我们可以将教育程度和职业分别定义为多项变量,然后利用卡方检验来判断二者之间是否存在显著性关联。
三、列联表的卡方检验列联表是一种用于展示两个或多个分类变量之间关系的表格。
卡方检验可用于判断列联表中的行和列之间是否存在关联。
例如,我们想要研究性别对喜好运动的影响,我们可以将性别和喜好运动分别定义为两个分类变量,然后构建一个二维列联表,再利用卡方检验来判断性别和喜好运动之间是否存在显著性关联。
四、卡方检验的原理卡方检验的原理是通过比较实际观察值与理论期望值之间的差异,来判断两个或多个分类变量之间是否存在显著性关联。
卡方值越大,差异越大,说明两个变量之间的关联性越强。
卡方检验的结果通常以p值的形式呈现,p值越小,表示差异越显著,即两个变量之间的关联性越强。
五、卡方检验的应用注意事项在使用卡方检验时,需要注意以下几点:1. 样本量要足够大,以确保卡方检验的结果具有统计意义;2. 卡方检验只能检验变量之间的关联性,不能说明因果关系;3. 当样本量较小时,应使用Fisher精确检验代替卡方检验,以获得更准确的结果;4. 当列联表中的某些单元格中的频数过低时,应合并这些单元格,以保证检验结果的可靠性。
结论:卡方检验是一种常用的统计方法,可用于判断两个或多个分类变量之间是否存在显著性关联。
通过对不同类型的变量进行卡方检验,我们可以了解到不同变量之间的关系,从而为后续的数据分析和决策提供依据。
SPSS学习系列24. 卡方检验
24. 卡方检验卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:实际观察频数f 0与理论频数f e (又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从2χ分布,即)(n f f f ee 2202~)(χχ∑-= 卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异,二者差异越小,2χ值越小。
卡方检验要求:(1)分类相互排斥,互不包容; (2)观察值相互独立;(3) 样本容量不宜太小,理论频数≥5,否则需要进行校正(合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值)。
卡方校正公式为:∑--=ee f f f 202)5.0(χ卡方检验的原假设H 0: 2χ= 0; 备择假设H 1: 2χ≠0; 卡方检验的用途:(1)检验某连续变量的数据是否服从某种分布(拟合优度检验); (2)检验某分类变量各类的出现概率是否等于指定概率; (3)检验两个分类变量是否相互独立(关联性检验); (4)检验控制某几个分类因素之后,其余两个分类变量是否相互独立;(5)检验两种方法的结果是否一致,例如两种方法对同一批人进行诊断,其结果是否一致。
(一)检验单样本某水平概率是否等于某指定概率一、单样本案例例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值);检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以前降低。
有数据文件:检验“性别”的男女比例是否相同(各占1/2)。
1. 【分析】——【非参数检验】——【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“自动比较观察数据和假设数据”2.【字段】界面,勾选“使用定制字段分配”,将变量“性别”选入【检验字段】框;注意:变量“性别”的度量标准必须改为“名义”类型。
3. 【设置】界面,选择“自定义检验”,勾选“比较观察可能性和假设可能性(卡方检验)”;4. 点【选项】,打开“卡方检验选项”子窗口,本例要检验男女概率都=0.5,勾选“所有类别概率相等”;注:若有类别概率不等,需要勾选“自定义期望概率”,在其表中设置各类别水平及相应概率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
0.233
0.1423
2
0.067
3
0.100
4
4
0
11
10
0.267
0.000
0.267
0.1079
极端情况的概率: P=P(0)+P(1)+P(4)=0.0166+0.1423+0.1079=0.2668
按=0.05水准不拒绝H0,尚不能认为两型布氏病患者PHA反应阳性率有差别。
设两样本的差值 | P1-P2| =D,双侧检验取 | P1-P2| D 的各种组合的累计概率为双侧P值;单侧检验取 P1-P2 D或 P1-P2 - D的各种组合的累计概率为单侧P值。若两样本例数 相等,则 P1-P2 D和 P1-P2 - D的P值相等,可先计算一侧 P值,再乘以2得双侧检验的概率。
地方性甲状腺肿患者的年龄与疗效的关系
年龄/岁 11-20 21-30 治愈 35(19.9) 32(25.4) 显效 1(8.4) 8(10.7) 好转 1(9.6) 9(12.3) 无效 3(2.5) 2(3.3) 总和 40 51
31-40
如何计算理论频数T?
处理 洛赛克 雷尼替丁 合计
愈合 64 (57.84) 51 (57.16) 115
未愈合 21 (27.16) 33 (26.84) 54
合计 85 84 169
愈合率(%) 75.29 60.71 68.05
合计愈合率:115/169
115 169 115 ×84, T12 = 54 169 169
'
0.05 0.025 3 1
合计
40 32 72
(1)复方哌唑嗪与安慰剂的比较 组别 有效 无效
复方哌唑嗪 安 合 同 慰 剂 计 35 7 42 5 25 30
H0:复方哌唑嗪与安慰剂的有效率相同;
2
H1:复方哌唑嗪与安慰剂的有效率不
(35 25 5 7)2 72 31.500 40 32 42 30
三. Fisher确切概率法 (Fisher’s exact probabilities)
适用于n 40或有T 1时。
基本思想:在四格表周边合计不变的条件下,获得某个四格表 的概率为
(a b)!(c d )!(a c)!(b d )! P a !b !c !d !n !
例
病人分型 活动型 稳定型 合计
T11=
×85, T21=
×85,
T22 = 54
169
×84,
TRC=
nRnC n
2 =
(64- T11)2
T11
(21- T12)2 (51- T21)2 + + + T21 T12
(33- T22)2 T22
=4.13 =(R-1)(C-1)=(2-1)(2-1)=1 2 1,0.05 =3.84, 2 >2 1,0.05 , P<0.05, 拒绝H0。
第四章 分类变量资料的2检验 (Chi-square test)
用于: – 对多个独立样本率的比较,也适用于两个率 的比较; – 对多组构成比的比较; – 对按照两个变量分组的资料,检验此两变量 的关系; – 对频数分布做拟合优度检验。
第一节 四格表(fourfold 2 table)资料的 检验
两法检出结果的比较
甲 + 合计
2
法
乙
法
+
56 21 77
35 28 63
合 计 91 49 140
(35 21) 2 3.500 35 21
按=0.05查表,得2
ห้องสมุดไป่ตู้0.05,1
=3.841, 2
< 2
0.05,1
,故不能拒绝H0 ,
不能认为两法的检出率有差异。
第三节
0.05 0.0167 3
2 =12.636,按´=0.0167都应拒绝H0,结论同前。
在多组间的两两比较中,还需进行复方哌唑嗪与复方降压片的比较。
组别
复方哌唑嗪 复方降压片 合 计
有效
35 20
无效
5 10 15
合计
40 30 70
55
H0:复方哌唑嗪与复方降压片的有效率相同; H1:复方哌唑嗪与复方降压片的有效率不同。
一.普通2检验
例 6.2
处理 洛赛克 雷尼替丁 合计
表6.2 两种药物治疗消化道溃疡效果
愈合 64 51 115 未愈合 21 33 54 合计 85 84 169 愈合率(%) 75.29 60.71 68.05
解 H0:1= 2;
H1:1 2;
=0.05
A:实际频数(actural frequency)
乙 法
+
80(a) 31(c) 111
10(b) 11(d) 21
合 90 42 132
计
解:H0:两法总体阳性检出率无差别,即B=C;
H1:两法总体阳性检出率不同,即BC; =0.05
Tb=Tc=(b+c)/2,
则
2 ( b c ) 2 bc
2 ( b c 1) 2 bc
15!10!4!21! p 0.1423 1!14!3!7!25!
将该表分解成若干种不同的情况,使得周边数不变:
确切概率法计算表(四格表周边合计数不变)
序号(i) 阳性 阴性 P1 P2 0 0 4 1 3 2 2 3 1 15 6 14 7 13 8 12 9 0.000 0.400 0.067 0.300 0.133 0.200 0.200 0.100 0.400 0.0166 | P1-P2| P ( i)
0.1079
1
0.1
2
0.067
3
0.233
4
0
4
15
6
0
0.4
0.4
0.0166
极端情况的概率: P=P(0)+ P(4)= 0.1079+0.0166=0.1245
按=0.05水准不拒绝H0,尚不能认为两组发癌率有差别。
第二节 配对四格表资料的 2 检验
例6.8 甲
+ 合 计
两种血清学检验结果比较 法
处理 有效 无效 合计 有效率(%)
复方哌唑嗪
复方降压片 安慰剂 合计
35
20 7 62
5
10 25 40
40
30 32 102
87.50
66.67 21.88 60.78
解:H0:三种处理方法的有效率相等; 全相等; =0.05。
H1:三种处理方法的有效率不
2 =102[352/(40 62) +202/(30 62)+ 72/(32 62)+ 52/(40 40)
2 (20 25 10 7) 62 2 12.636 30 32 27 35
查表得P 0.005,按=0.025水准拒绝H0,接受H1,可以认为复方降压片的有效率显
著地高于安慰剂。
2.多组间的两两比较
'
'
C
2 k
例 对前例资料进行两两比较
复方哌唑嗪与安慰剂比较的2 =31.500,复方降压片与安慰剂比较的
补充题: 用某种化学物质进行诱发肿瘤实验,实验组15只小白鼠中 4只发生癌变,对照组10只无1只发生癌变,问两组发癌率 有无差别?
确切概率法计算表(四格表周边合计数不变)
序号(i) 阳性 阴性 P1 P2 0 4 0 3 1 2 2 1 3 11 10 12 9 13 8 14 7 0.267 0 0.2 0.1 0.133 0.2 0.067 0.3 0.267 | P1-P2| P ( i)
T:理论频数(theoretical frequency)
2 ( A T ) 2 T
(通用公式)
2 分布的性质
2 分布为连续型分布, 2 自0至,永远大 于0 。 2 分布同t分布、F分布一样,也是随自由度 的不同而形成簇状分布。 2 分布的形态随自 由度而变化,自由度越小,偏态越甚;自由度 越大,其分布越趋近于正态分布。 2 具有可加性。
两型慢性布氏病的PHA皮试反应
阳性数 1(2.4) 3(1.6) 4 阴性数 14(12.6) 7(8.4) 21 合计 15 10 25 阳性率(%) 6.67 30.00 16.00
解 H0:1= 2;
H1:1 2;
=0.05
表中活动型的阳性率 P1 =0.067,稳定型的阳性率 P2=0.300, 两者差别 | P1-P2| =0.233,该表出现的概率为
查表得P 0.005,按=0.05水准,拒绝H0,接受H1,可以认为血栓形成患者与正常 妇女血型分布构成比不同。
四. 两种属性间的关联性 (association)检验
P67例6.6. 若需进一步说明相关的密切程度,可计算列联系数: Pearson列联系数 ( p)
2 2 n
P值在0~1之间,0表示完全无关,1表示完全相关。
五.条件不满足时的处理方法
增大样本例数使理论频数变大; 删去理论频数太小的行或列; 将理论频数过小的格子所在的行或列与性质相 近的邻行或邻列合并,使重新计算的理论频数 增大; 精确概率法。
例 某地防疫站用碘剂局部治疗219例地方性甲状腺肿,结果列 于下表,试分析年龄与疗效有无关联?
查表得P 0.005,按=0.025水准拒绝H0,接受H1,可以认为复方哌唑嗪的有效率
显著地高于安慰剂。
(2)复方降压片与安慰剂的比较 组别