统计学--第十二章卡方检验1

合集下载

统计学--第十二章卡方检验

(a b)(c d )(a c)(b d )
统计学--第十二章卡方检验
第二节行×列表的2检验
• 当行或列超过2组时通称为行×列表，或 R×C表，亦称列联表contingency table。可用于
• 1、多个率的比较 • 可用以下简化公式(无相应校正公式)
2 n( O2 1) nrnc 统计学--第十二章卡方检验
• 4、理论数：
– 一般溃疡患者80，按理论治愈率应治愈80×52.51%=42.01,称theoretical value, theoretical frequency. 记为T。同理可得
统计学--第十二章卡方检验
其余理论数。亦可由减法求得
– Trc=(nrnc)/n:理论数为行合计乘列合计除总合计
好转为2，显效为3，痊愈为4，计算其均数，称行平均分row mean score
统计学--第十二章卡方检验
• aj为各疗效得分，n1j为第一行各疗效的频数，n1+ 为第一行合计
• 同理计算第二行平均分
• 再进行行平均得分差检验—χs2
f1
4 j1
ajn1j n1
s2
( f1 )2
(n n1 ) /[n1 (n 1)]}
特殊类型 31(51.99) 68(47.01) 99
合计
94
85
179
统计学--第十二章卡方检验
– 为检验是否为第二种情况，无效假设为两种治愈率本无不同，差别仅由抽样误差所致。
• 3、理论治愈率：
– 根据两组治愈率相同的假设，合计治疗179人，总治愈94人，得理论治愈率为 94/179=52.51%
– HO：1＝2，即两总体阳性率相等 – H1：12，即两总体阳性率不等 – ＝0.05

医学统计学课件-卡方检验

联合治疗 39 34.44 8 12.56 47 73.3 单纯治疗 57 61.56 27 22.44 84 73.3
合计
96
35
131 73.3
Trc
nr nc n
理论频数＝ 84 73.3%
χ2检验的基本思想(1)
通过构造A与T吻合程度的统计量来反映两样本率的差别!
实际数A
39
8
57
27
污染率 (%)
甲
6
23
29
79.3
乙
30
14
44
31.8
丙
8
3
11
27.3
合计
44
40
84
47.6
理论数的计算
实际数A
6
23
29
30
14
44
8
3
11
44
40
84
(52.4%) (47.6%)
理论数T
15.2 13.8
23.0 21.0
5.8
5.2
T
nR
nC N
nR nC N
2值的计算
实际数A
χ2检验相关问题－应用条件
某矿石粉厂当生产一种矿石粉石时，在数天内即有部分工人患职业性皮肤炎，在生产季节开始，随机抽取15名车间工人穿上新防护服，其余仍穿原用的防护服，生产进行一个月后，检查两组工人的皮肤炎患病率，结果如表，问两组工人的皮肤炎患病率有无差别？
χ2检验相关问题－应用条件
Total
When the variables are independent, the proportion in
both groups is close to the same size as the proportion

统计学-第十二章卡方检验

总体分布形态已知或可假定，通常假设观察频数服从多项分布。
避免误用与误判的建议
充分理解卡方检验的原理和适用条件，避免在不满足条件的情况下使用。
结合专业知识判断观察频数与期望频数的差异是否具有实际意义，避免过度解读统计结果。
ABCD
在进行卡方检验前，对数据进行充分的描述性统计分析，了解数据的分布特点。
统计学-第十二章卡方检验
目录
• 第十二章概述 • 卡方检验的基本原理 • 卡方检验的应用场景 • 卡方检验的步骤与实现 • 卡方检验的优缺点及注意事项 • 实例分析与操作演示
01
第十二章概述
章节内容与目标
01
掌握卡方检验的基本原理和假设检验流程
02
了解卡方检验在不同类型数据中的应用
能够运用卡方检验进行实际问题的分析和解决
THANK YOU
卡方分布及其性质
卡方分布的定义
若$n$个相互独立的随机变量$X_1, X_2, ldots, X_n$均服从标准正态分布$N(0,1)$，则它们的平方和$X^2 = sum_{i=1}^{n}X_i^2$服从自由度为$n$的卡方分布，记为$chi^2(n)$。
期望和方差
$E(X) = n$，$D(X) = 2n$，其中$X sim chi^2(n)$。
运行分析
点击“确定”按钮，运行卡方检验分析。
结果解读与报告撰写
结果解读
根据卡方检验的结果，判断各组分类数据的分布是否存在差异，以及差异的显著性水平。
报告撰写
将分析结果以文字、表格和图表的形式呈现出来，包括研究目的、数据收集与整理过程、卡方检验结果和结论等部分。同时，需要
注意报告的规范性和可读性。

统计学卡方检验

个体化干预
根据分析结果，为患者提供个体化的干预措施，提高生存质量。
06
卡方检验注意事项及局限性讨论
样本量要求及抽样方法选择
样本量要求
卡方检验对样本量有一定的要求，通常建议每个单元格的期望频数不小于5，以确保检验结果的稳定性和可靠性。当样本量不足时，可能会导致检验效能降低，增加第二类错误的概率。
抽样方法选择
在进行卡方检验时，应选择合适的抽样方法。简单随机抽样是最常用的方法，但在某些情况下，如分层抽样或整群抽样可能更适合。选择合适的抽样方法有助于提高检验的准确性和可靠性。
期望频数过低时处理策略
合并类别
当某个单元格的期望频数过低时，可以考虑合并相邻的类别，以增加期望频数。合并类别时应注意保持类别的逻辑性和实际意义。
适用范围及条件
适用范围
卡方检验适用于多个分类变量之间的独立性或相关性检验，如医学、社会科学等领域的调查研究。
条件
使用卡方检验需要满足一些前提条件，如样本量足够大、每个单元格的期望频数不宜过小等。此外，对于有序分类变量或存在空单元格的情况，需要采用相应的处理方法或选择其他适合的统计方法。
02
卡方检验方法
统计学卡方检验
目录
• 卡方检验基本概念 • 卡方检验方法 • 数据准备与预处理 • 卡方检验实施步骤 • 卡方检验在医学领域应用举例 • 卡方检验注意事项及局限性讨论
01
卡方检验基本概念
定义与原理
01
02
定义
原理
卡方检验是一种基于卡方分布的假设检验方法，用于推断两个或多个分类变量之间是否独立或相关。
确定分组界限
在确定分组界限时，可以采用等距分组、等频分组或基于数据分布的分组方法。选择合适的分组界限有助于保持各组之间的均衡性，减少信息损失。

9 第十二章卡方检验(一)

确切概率法计算公式
在四格表的周边合计不变的条件下 , 用下式直接计算表内四个数据的各种组合之概率。的各种组合之概率。式中a、b、c、d为四格表的实际频数
(a+b)!(c+d)!(a+c)!(b+d)! P= a!b c!d!n ! !
四格表资料的精确检验法基本步骤
1、建立假设 Ho：假设差别是由抽样误差引起的 H1：假设差别是本质上存在的确定显著性水准：２、确定显著性水准：α＝0.05 ３、计算确切概率P 周边合计不变，列出各种组合的四格表；（1）周边合计不变，列出各种组合的四格表；计算各个四格表的| （2）计算各个四格表的|A-T|值；样本| （3）求|A-T|值≥样本|A-T|值的所有四格表的Pi 值； Pi=(a+b)!(c+d)!(a+c)!(b+d)!/[a!b!c!d!n!] （4）求出确切概率P：P＝ΣPi 结果判断：４、结果判断：在事先确定的显著性水准α下作出专业结论。出专业结论。
行×列表资料χ2检验时的注意事项
1、行×列表资料χ2检验对资料的要求是：不宜有1／5以上检验对资料的要求是：不宜有1 格子的理论数小于5 且理论数应大于1 格子的理论数小于 5 ，且理论数应大于 1 ，若发生上述情可选用下述三种处理方法三种处理方法：况，可选用下述三种处理方法： ① 适当增大样本含量以增大理论频数；增大理论频数； ② 将理论数过小的格子所在的行或列与性质相近的行或列中的实际数合并，性质相近的行或列中的实际数合并，使重新计算的理论数增大；删去理论数过小的行或列。数增大； ③ 删去理论数过小的行或列。后两种处理方法有可能损失资料信息，且可能破坏样本随机性，有可能损失资料信息，且可能破坏样本随机性，故不宜常规使用。常规使用。 2、当试验效应按照强弱分为若干个级别，试验结果可整理当试验效应按照强弱分为若干个级别，为单向有序行×列表资料，为单向有序行 × 列表资料，在比较各处理组间的效应有无差别时，宜选用秩和检验、Ridit分析趋势检验等，分析、无差别时，宜选用秩和检验、Ridit分析、趋势检验等，检验只能说明各组构成比的差别有无显著性。如作χ2检验只能说明各组构成比的差别有无显著性。 3、多个样本率或多个构成比的χ2检验，结果有显著性意义检验，只能认为总体率或总体构成之间总的来说有差别，时，只能认为总体率或总体构成之间总的来说有差别，不能说明两两之间皆有差别，不能说明两两之间皆有差别，若要对每两个率或每两个构成比进行比较，应采用行× 构成比进行比较，应采用行×列表的χ2分割法或者采用其它率或构成比的多重比较。其它率或构成比的多重比较。

卡方检验-适合性检验

本科学生实验报告学号姓名学院生命科学学院专业、班级生物科学15C班实验课程名称生物统计学<实验>指导教师及职称孟丽华开课时间2016 至2017 学年下学期填报时间2017 年 5 月26 日云南师范大学教务处编印的检验，而是对总体分布的假设检验。

适合性检验（吻合度检验）：是指对样本的理论数先通过一定的理论分布推算出来，然后用实际观测值与理论数相比较，从而得出实际观测值与理论数之间是否吻合。

因此又叫吻合度检验。

实验流程：（1）听老师讲解理论知识；（2）结合书上习题5.4进行练习，加强对知识的掌握：设置变量输入各组数据进行加权进行适合性检验4、实验方法步骤及注意事项：实验方法步骤：1、打开SPSS页面。

2、设置变量，将变量名分别设置为“类型”和“数量”，将Decimals改为0，在“类型”变量中，点击Values进行赋值，将“钩芒”赋值为1，“长芒”赋值为2，“短芒”赋值为3，设置好变量后，输入各组数据。

3、点击Date——Weight Cases…进行加权，在跳出的Weight Cases框中点二、输入各组数据三、进行加权四、进行适合性检验2、对实验现象、数据及观察结果的分析与讨论：（1）假设H0：大麦F2代芒性状表型的比率符合9：3：4的理论比率；H A：其比率不符合9：3：4的理论比率。

（2）选取显著水平为α=0.05。

（3）计算统计数χ2：采用χ2值计算简式可得χ2=1/n∑O i2/Pi－n=1/(348+115+157)×[3482/(9/16)+1152/(3/16)+1572/(4/16)]－(348+115+157)=0.041或利用SPSS软件进行计算。

（4）查χ2值表，df=2时，χ20.05=5.99，χ2<χ20.05,所以，接受H0，认为大麦F2代芒性状表型比率符合9：3：4的理论比例。

或由SPSS的计算结果可知：Asymp.sig.=0.980，因为0.980>0.05，所以接受H0，认为大麦F2代芒性状表型比率符合9：3：4的理论比例。

《卡方检验》课件

制作交叉表
确定交叉表的行列变量
根据研究目的和内容，选择合适的行列变量，构建交叉表。
制作交叉表
将分组后的数据按照行列变量制作成交叉表，以便于进行卡方检验。
计算理论频数
确定期望频数
根据交叉表中的数据，结合各组的概率计算期望频数。
计算理论频数
根据期望频数和实际频数计算理论频数，为后续的卡方检验提供依据。
计算卡方值
计算卡方值
使用卡方检验的公式计算卡方值，该值反映了实际频数与理论频数的差异程度。
自由度的确定
在计算卡方值时，需要确定自由度，自由度通常为行数与列数的减一。
显著性水平的确定
选择显著性水平
显著性水平是衡量卡方值是否显著的指标，通常选择0.05或0.01作为显著性水平。
判断显著性
根据卡方值和自由度，结合显著性水平判断卡方检验的结果是否显著，从而得出结论。
3.84、6.63等），可以确定观测频数与期望频数之间的差异是否具有统
计学显著性。
02
卡方检验的步骤
收集数据
确定研究目的
制定调查问卷或收集程序
在开始收集数据之前，需要明确研究的目的和假设，以便有针对性地收集相关数据。
根据研究目的和内容，制定合适的调查问卷或建立数据收集程序，确保数据的完整性和准确性。
详细描述
例如，在市场调研中，我们可以通过卡方检验来分析不同年龄段、性别、职业等人群对于某产品的态度或购买意愿是否有显著差异，从而为产品定位和营销策略提供依据。
实际案例二：医学研究中的应用
总结词
在医学研究中，卡方检验常用于病例对照研究和队列研究中的分类变量关联性分析。
详细描述
例如，在病例对照研究中，我们可以通过卡方检验来比较病例组和对照组在某些基因型、生活方式或暴露因素上的分布是否有统计学差异，从而探讨病因或危险因素。

卡方检验实例1

463人手术患者，预测并发症人数为169位，实际并发症人数201位，该如何用卡方检验判断有无统计学意义？是配对X2检验吗？该如何将数据列表？如何用Spss得出结果呢？方法一：把数据转化成四格表，然后你就明白了。

然后用卡方检验。

发病不发病实际（fo）201 262 共463人期望(fe) 169 294 共463人X2=4.789由于df=1,查表得，P<0.05显著，说明这个预测是具有统计学意义的。

方法二：用spss做，是列联表分析。

数据录入格式为：建立两个变量，变量1是实际和期望，实际用数据1表示，那期望就用数据2表示；变量2是发病情况，发病用1表示，不发病用2表示，也就是说，你的变量1中应该数据463个1，然后输入463个2，变量2中，先输入201个1，再输入262个2，再输入169个1，再输入294个2，建议你用EXCL来数据方便的多。

直接可以复制。

数据录入完成后，点analyze-descriptive statistics-crosstabs-把变量1选到rows里，把变量2选到column里，然后点击下面的statistics，打开对话框，勾选chi-squares，然后点continue，再点ok，出来结果的第3个表就是你要的卡方检验，第一行第一个数是卡方值，后面是自由度，然后是P值。

我算过了，卡方值应该是4.609，df=1，P值=0.032，P<0.05，所以显著。

预测是有统计学意义的。

如果按照你叙述的来看，其实是按照“teng7925 |”这位说的去做，只不过在SPSS输入数据的时候，不需要按照他说的那样，只需要设计三个变量，第一个变量输入：1 1 2 2；第二个变量输入：1 2 1 2；第三个变量输入：201 262 169 294。

输入完，按照他说的步骤，可以得到他说的同样的结果，得到的结果说明预测与实际的发症人数有显著差异。

但是我仔细想了下，你书上说的思路可能不是上面那种想法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• • • •
二、行为名义变量列为顺序变量的行×列表 1、行平均分的计算行平均分可采用：整数给分法 2、行平均分差别统计意义检验
( n 1) n1 ( Fi )
s
2
s
2 2
i 1
n
s 值服从自由度为行数 1 的卡方分布
第六节行列变量的相关检验
• 行与列变量都是顺序变量时可检验两者是否相关：P166例12-12 • 行c与列a都给予得分 • 用a和c计算线性函数f • 再分别计算行平均分和列平均分 • f的期望E(f)=行平均分×列平均分 • 计算f的方差var(f) • 计算卡方值，自由度为1
• 基本思想：在四格表周边合计不变的情况下，获得某个四格表的概率为
P ( a b )! ( c d )! ( a c )! ( b d )! a ! b! c! d ! n!
• a!表示factorial a 或a factorial • 0!=1; 3!=3×2×1＝6 • 该方法计算出的概率为分布中单侧的概率，故双侧时应以0.025为显著性水平。结合实际确定采用单侧还是双侧
两种类型胃溃疡病内科疗法治疗结果
组别治愈未愈合计
一般类型
6 3 (4 2 .0 1 ) 1 7 (3 7 .9 9 )
80
特殊类型
3 1 (5 1 .9 9 ) 6 8 (4 7 .0 1 )
99
合计
94
85
179
– 为检验是否为第二种情况，无效假设为两种治愈率本无不同，差别仅由抽样误差所致。 • 3、理论治愈率： – 根据两组治愈率相同的假设，合计治疗179人，总治愈94人，得理论治愈率为 94/179=52.51% • 4、理论数： – 一般溃疡患者80，按理论治愈率应治愈80×52.51%=42.01,称theoretical value, theoretical frequency. 记为T。同理可得其余理论数。亦可由减法求得
＝
2
( ad bc ) n
2
( a b )( c d )( a c )( b d )
校正公式为：
＝
2
( ad bc － n / 2 ) n
2
( a b )( c d )( a c )( b d )
组别甲乙合计
阳性 a c a+c
阴性 b d b+d
合计 a+b c+d a+b+c+d= n
第二节行×列表的2检验
• 当行或列超过2组时通称为行×列表，或 R×C表，亦称列联表contingency table。可用于 • 1、多个率的比较 • 可用以下简化公式(无相应校正公式)

2
n (
O
2
1)
nr nc
• 适用条件：不能有理论数小于1，并且1T5
• 2检验条件：(四格表) – 1、当n40且所有T5时，用普通的2 检验；若所得P ，改用确切概率法。 – 2、当n40但有1T<5时，用校正2检验 – 3、当n<40或有T<1时，不能用2检验，改用确切概率法。
（ O － T － 0 .5 ) ＝ T
2 2
• 8、四格表专用公式 • 为方便起见，当基本格子的实际数命名为a,b,c,d；行合计写为a+b、c+d，列合计写为a+c、b+d，n为总观察数

2

(O T ) T
– 2值是以理论数为基数的相对误差，它反映了实际数与理论数吻合的程度 (差别的程度)。若检验假设成立，则实际数与理论数的差别不会很大，出现大的2值的概率是很小的，若P，就怀疑假设，因而拒绝它；若P>，则尚无理由拒绝它 – 2值的大小随着格子数的增加而变大，即2分布与自由度有关。因而考虑2值大小的意义时，要考虑到格子数。当周边合计数固定的情况下，四个基本数据当中只有一个可以自由取值，即自由度为1。
• 二、两种以上处理方法的比较 • 见P170～171例12－15 • 仅供了解
第五节列变量为顺序变量的列联表—行平均分差检验
• 一、2×C表 • P163 例12-10 • Pearson 卡方只能得出两组构成是否相同的结论，不能得出哪组疗效较好的结论 • 人为地给各疗效一个分数，如无效为1，好转为2，显效为3，痊愈为4，计算其均数，称行平均分row mean score
• 1、有实际数为0的情况下，只需代入公式计算P值即可 • 2、没有实际数为0的情况时，要把更加极端的情况都算入。 – 更加极端的情况是指：原来治愈率高的治愈人数更要加多，治愈率低的治愈人数更要减少，直至出现0为止，但保持合计及总合计数字不变。见P157 例12－4 – 最后将几情况的概率相加得P值(单侧) – 可用查表法或计算机直接给出
• 1)实际数与理论数之间的差别等价于两样本率的差别 • 2)检验假设H0：四格表的构成比相同，等价于H0：两总体率相等 • 3)对实际数与理论数差值的假设检验，等价于对两样本率差值的假设检验
• 6、2检验的基本思想(及计算步骤) • 1)假设两总体率相等(构成比相同) – HO：1＝2，即两总体阳性率相等 – H1：12，即两总体阳性率不等 – ＝0.05 – 不妨把H0看作：1＝2＝两样本合并的阳性率 • 2)实际数与理论数的差值服从2分布,又称pearson 2 ： 2
– P<0.001, 按＝0.05水准，拒绝H0接受 H1，因而认为两总体的阳性率有差别 (统计学推论)。结果说明，两组胃溃疡病人治愈率的差别有高度统计意义， • 7、 2值的校正、四格表2检验的条件 • 实际上2值是根据正态分布中2 ＝[(xi) /]2的定义计算出来的，用前述公式算得的值只能说近似于2分布，在自由度大于1，理论数皆大于5时，这种近似较好；自由度为1，当有理论数小于5时，需进行(连续性)校正
第十二章卡方检验(一)
用于检验： 1)两组或几组率或构成比的差异有无显著性 2)各行的平均分间有无差异 3)行与列两个顺序分类变量之间是否相关 4)拟合优度检验
第一节四格表资料的2检验
• 以P153例12－1为例 • 1、四格表：将资料列成表格，表格中四个数字是基本的：63、17、31、68，称四格表fourfold table • 2、实际数：表内各格数字为实际资料的数字，称observed value, actual frequency，记为O或A – 两样本率不同的原因：抽样误差、总体率确实不同
• ＝(R-1)(C-1) – R行C列时，R行中有一行数据受到列合计的限制而不能自由变动，C列中亦有一列数据在行合计的限制下不能自由取值 • 3)查2分布界值表确定P值并作出推论 – 2 ＝39.93,自由度为1，查附表6－7 – 2 0.05(1)=3.84; 2 0.01(1) =6.63; 2 0.001(1) =10.83 – 一般类型的治愈率高于特殊类型(结合样本率作实际推论)
• 2、多个构成比比较 • 3、双向有序分类资料的关联性检验 – 表格是按两个变量从小到大顺序分类整理出来的，目的是研究两变量间有无关联性。从左上角往右下角看，频数有无集中在此对角线上的趋势，即两变量有关联。若频数在这些格子均匀分布，或各行分布(构成比)相同，且各列分布(构成比)相同，则表示两个变量无关联性了。
a

j 1 r
r
j
n j
各疗效得分各疗效合计人数
总例数
2
n
(a j ) (n j )

2 j 1
n
s 近似服从自由度为1 的卡方分布
• 平均得分统计量的样本大小较容易达到：只要主观确定一个分割点，把列分为１ ~J和J+1~r两部分，变成四格表，把新的四格中各部分实际数相加，只要四格表中大部分超过５即可
– Trc=(nrnc)/n:理论数为行合计乘列合计除总合计 – 理论数有两个特征：1)理论频数表的构成比相同，即不但各行构成比相同，而且各列亦相同；2)各个基本格子实际数与理论数的差别(绝对值)相同 • 5、样本率的差别演绎为实际数与理论数的差别： – 两样本率相差愈大，则实际数与理论数的差别就愈大。若无效假设成立，实际数与理论数之差就不会很大。
• 如果把数据排成等级rank，而不用整数评分法则卡方检验与Spearman等级相关结果极为接近。可任选其一
cs rs ( N 1)
2 2
第七节多层列联表的分析
• 一、多层2C表 • 采用扩展的Mantel-Haenszel 平均得分统计量—χ2SMH • 各层间效应的方向一致时，检验效果较好。
• 双侧检验时： • 1)单侧概率加倍 • 2)加上对侧<当前四格表的概率的所有概率。 • 这两种方法的结果有时可能会有所不同，教科书建议以第二种方法为准
第四节配对计数资料的2检验
• 一、两种处理方法的比较，P169
乙培养基生长不生长合计甲培养基生长 3 6 (a ) 0 (c ) 36 不生长 3 4 (b ) 1 3 5 (d ) 169 70 135 205 合计
• R×C表2检验注意事项 – 若表格有一个方向按多个等级分类，则称为单向有序行列表，当等级数大于3时，一般用秩和检验分析更为合适。
似然比卡方统计量
• Likelihood ratio chi-square • 自由度的确定及临界值与Pearson卡方一致
L 2 Ai ln(
的格子数不超过总格子数1/5。
• 条件不足时的三种处理方法： – 1)增大样本例数使理论数变大 – 2)删除理论数太小的行或列 – 3)将理论数太小的行或列与性质相近的邻行或邻列合并，使重新计算的理论数增大。但是此处理可能损失信息，也会损害样本的随机性，不同的合并方式所得的结果也不一样，因而在不得已时慎用