统计学--第十二章卡方检验1共35页
合集下载
统计学--第十二章卡方检验
(a b)(c d )(a c)(b d )
统计学--第十二章卡方检验
第二节 行×列表的2检验
• 当行或列超过2组时通称为行×列表,或 R×C表,亦称列联表contingency table。 可用于
• 1、多个率的比较 • 可用以下简化公式(无相应校正公式)
2 n( O2 1) nrnc 统计学--第十二章卡方检验
• 4、理论数:
– 一般溃疡患者80,按理论治愈率应治 愈80×52.51%=42.01,称theoretical value, theoretical frequency. 记为T。同理可得
统计学--第十二章卡方检验
其余理论数。亦可由减法求得
– Trc=(nrnc)/n:理论数为行合计乘列合计 除总合计
好转为2,显效为3,痊愈为4,计算其均 数,称行平均分row mean score
统计学--第十二章卡方检验
• aj为各疗效得分,n1j为第一行各疗效的频数,n1+ 为第一行合计
• 同理计算第二行平均分
• 再进行行平均得分差检验—χs2
f1
4 j1
ajn1j n1
s2
( f1 )2
(n n1 ) /[n1 (n 1)]}
特 殊 类 型 31(51.99) 68(47.01) 99
合计
94
85
179
统计学--第十二章卡方检验
– 为检验是否为第二种情况,无效假设 为两种治愈率本无不同,差别仅由抽 样误差所致。
• 3、理论治愈率:
– 根据两组治愈率相同的假设,合计治 疗179人,总治愈94人,得理论治愈率 为 94/179=52.51%
– HO:1=2,即两总体阳性率相等 – H1:12,即两总体阳性率不等 – =0.05
统计学--第十二章卡方检验
第二节 行×列表的2检验
• 当行或列超过2组时通称为行×列表,或 R×C表,亦称列联表contingency table。 可用于
• 1、多个率的比较 • 可用以下简化公式(无相应校正公式)
2 n( O2 1) nrnc 统计学--第十二章卡方检验
• 4、理论数:
– 一般溃疡患者80,按理论治愈率应治 愈80×52.51%=42.01,称theoretical value, theoretical frequency. 记为T。同理可得
统计学--第十二章卡方检验
其余理论数。亦可由减法求得
– Trc=(nrnc)/n:理论数为行合计乘列合计 除总合计
好转为2,显效为3,痊愈为4,计算其均 数,称行平均分row mean score
统计学--第十二章卡方检验
• aj为各疗效得分,n1j为第一行各疗效的频数,n1+ 为第一行合计
• 同理计算第二行平均分
• 再进行行平均得分差检验—χs2
f1
4 j1
ajn1j n1
s2
( f1 )2
(n n1 ) /[n1 (n 1)]}
特 殊 类 型 31(51.99) 68(47.01) 99
合计
94
85
179
统计学--第十二章卡方检验
– 为检验是否为第二种情况,无效假设 为两种治愈率本无不同,差别仅由抽 样误差所致。
• 3、理论治愈率:
– 根据两组治愈率相同的假设,合计治 疗179人,总治愈94人,得理论治愈率 为 94/179=52.51%
– HO:1=2,即两总体阳性率相等 – H1:12,即两总体阳性率不等 – =0.05
生物统计学—卡方检验PPT课件
0.5 2 301.63
Ei
(4)推断:由CHIDIST(301.63, 1)=1.45E-67,即P c 2 301.63 0.01
故应否定H0,接受HA,认为鲤鱼体色F2性状比不符合3:1比率
(4)推断:由CHIINV(0.025,
1)=5.02,
即
cc2
c2 0.05(1)
,即P
0.05
c2 1
和c
2
c
2
2
2
第10页/共31页
例:已知某农田受到重金属污染,经抽样测定铅浓度分别为:
4.2, 4.5, 3.6, 4.7, 4.0, 3.8, 3.7, 4.2 (ug/g),方差为0.150, 试检验受到
污染的农田铅浓度的方差是不是和正常浓度铅浓度的方差
(0.065)相同
分析:1)一个样本方差同质性检验
论值记为:Ei,即 k c2
Oi Ei 2 , (df k 1)
i1
Ei
第12页/共31页
卡方检验的原理和方法
Pearson定理的基本含义: 如果样本确实是抽自由(P1,P2,…,Pk)代
表的总体,Oi和Ei之间的差异就只是随机误差, 则Pearson统计量可视为服从卡方分布
反之,如果样本不是抽自由(P1,P2,…,Pk) 代表的总体,Oi和Ei之间的差异就不只是是随机 误差,从而使计算出的统计量有偏大的趋势
解:(1)假设 H0 : 鲤鱼体色F2性状分离符合3:1 对 H A : 鲤鱼体色F2性状分离不符合3:1
(2)选取显著水平 0.05
第17页/共31页
(3)检验计算: 计算鲤鱼体色的理论值
体色 F2理论尾数
青灰色 1201.5
统计学-第十二章卡方检验
总体分布形态已知或可假 定,通常假设观察频数服 从多项分布。
避免误用与误判的建议
充分理解卡方检验的原理 和适用条件,避免在不满 足条件的情况下使用。
结合专业知识判断观察频数与 期望频数的差异是否具有实际 意义,避免过度解读统计结果 。
ABCD
在进行卡方检验前,对数据 进行充分的描述性统计分析 ,了解数据的分布特点。
统计学-第十二章卡方检验
目 录
• 第十二章概述 • 卡方检验的基本原理 • 卡方检验的应用场景 • 卡方检验的步骤与实现 • 卡方检验的优缺点及注意事项 • 实例分析与操作演示
01
第十二章概述
章节内容与目标
01
掌握卡方检验的基本原理和假设检验流程
02
了解卡方检验在不同类型数据中的应用
能够运用卡方检验进行实际问题的分析和解决
THANK YOU
卡方分布及其性质
卡方分布的定义
若$n$个相互独立的随机变量$X_1, X_2, ldots, X_n$均服从标准正态分布$N(0,1)$,则它们的 平方和$X^2 = sum_{i=1}^{n}X_i^2$服从自 由度为$n$的卡方分布,记为$chi^2(n)$。
期望和方差
$E(X) = n$,$D(X) = 2n$,其中$X sim chi^2(n)$。
运行分析
点击“确定”按钮,运行卡方检验分 析。
结果解读与报告撰写
结果解读
根据卡方检验的结果,判断各组分类数据的 分布是否存在差异,以及差异的显著性水平 。
报告撰写
将分析结果以文字、表格和图表的形式呈现 出来,包括研究目的、数据收集与整理过程 、卡方检验结果和结论等部分。同时,需要
注意报告的规范性和可读性。
避免误用与误判的建议
充分理解卡方检验的原理 和适用条件,避免在不满 足条件的情况下使用。
结合专业知识判断观察频数与 期望频数的差异是否具有实际 意义,避免过度解读统计结果 。
ABCD
在进行卡方检验前,对数据 进行充分的描述性统计分析 ,了解数据的分布特点。
统计学-第十二章卡方检验
目 录
• 第十二章概述 • 卡方检验的基本原理 • 卡方检验的应用场景 • 卡方检验的步骤与实现 • 卡方检验的优缺点及注意事项 • 实例分析与操作演示
01
第十二章概述
章节内容与目标
01
掌握卡方检验的基本原理和假设检验流程
02
了解卡方检验在不同类型数据中的应用
能够运用卡方检验进行实际问题的分析和解决
THANK YOU
卡方分布及其性质
卡方分布的定义
若$n$个相互独立的随机变量$X_1, X_2, ldots, X_n$均服从标准正态分布$N(0,1)$,则它们的 平方和$X^2 = sum_{i=1}^{n}X_i^2$服从自 由度为$n$的卡方分布,记为$chi^2(n)$。
期望和方差
$E(X) = n$,$D(X) = 2n$,其中$X sim chi^2(n)$。
运行分析
点击“确定”按钮,运行卡方检验分 析。
结果解读与报告撰写
结果解读
根据卡方检验的结果,判断各组分类数据的 分布是否存在差异,以及差异的显著性水平 。
报告撰写
将分析结果以文字、表格和图表的形式呈现 出来,包括研究目的、数据收集与整理过程 、卡方检验结果和结论等部分。同时,需要
注意报告的规范性和可读性。
卫生统计学卡方检验
卫生统计学卡方检验
26/94
(一) 多个样本率比较
例3 某研究者欲比较A、B、C 三种方案治疗轻、中度 高血压疗效,将年纪在50~70岁240例轻、中度高血压患 者随机等分为3组,分别采取三种方案治疗。一个疗程 后观察疗效,结果见表11.4。问三种方案治疗轻、中度 高血压有效率有没有差异?
卫生统计学卡方检验
卫生统计学卡方检验
29/94
④ 确定P值
υ=(3-1)(2-1)=2,查 2 界值表得P<0.01。
⑤ 下结论
因为P<0.01,按α=0.05水准,拒绝H0,接收 H1,差异有统计学意义。即可认为三种方案治疗轻 、
中度高血压有效率不等或不全等
卫生统计学卡方检验
30/94
例 某市重污染区、普通污染区和农村出生婴儿致畸情 况以下表,问三个地域出生婴儿致畸率有没有差异?
① 建立假设 H0:π1=π2 H1:π1≠π2
② 确定检验水准
α=0.05
③ 计算统计量 2 值
2(2 62-73 6-7 1/2 )27 12 .7 5 3 33 86 29
④ 确定P值
υ=(2-1) (2-1)=1,查 2界值表得P>0.05。
卫生统计学卡方检验
24/94
⑤ 下结论 因为P>0.05,按α=0.05水准,不拒绝H0,差 异无统计学意义。尚不能认为甲、乙两疗法对小 儿单纯性消化不良治愈率不等。
9/94
TRC
nR nC n
n R 为对应行累计
n C 为对应列累计
n 为总例数。
卫生统计学卡方检验
10/94
表1 两药治疗消化道溃疡4周后疗效
卫生统计学卡方检验
11/94
统计学卡方检验
个体化干预
根据分析结果,为患者提供个体化的干预措施,提高生存质量。
06
卡方检验注意事项及局限 性讨论
样本量要求及抽样方法选择
样本量要求
卡方检验对样本量有一定的要求,通常建议每个单元格的期望频数不小于5,以确保检验结果的稳定性和可靠性 。当样本量不足时,可能会导致检验效能降低,增加第二类错误的概率。
抽样方法选择
在进行卡方检验时,应选择合适的抽样方法。简单随机抽样是最常用的方法,但在某些情况下,如分层抽样或整 群抽样可能更适合。选择合适的抽样方法有助于提高检验的准确性和可靠性。
期望频数过低时处理策略
合并类别
当某个单元格的期望频数过低时,可以考虑 合并相邻的类别,以增加期望频数。合并类 别时应注意保持类别的逻辑性和实际意义。
适用范围及条件
适用范围
卡方检验适用于多个分类变量之间的独立性或相关性检验,如医学、社会科学等领域的调查研究。
条件
使用卡方检验需要满足一些前提条件,如样本量足够大、每个单元格的期望频数不宜过小等。此外, 对于有序分类变量或存在空单元格的情况,需要采用相应的处理方法或选择其他适合的统计方法。
02
卡方检验方法
统计学卡方检验
目录
• 卡方检验基本概念 • 卡方检验方法 • 数据准备与预处理 • 卡方检验实施步骤 • 卡方检验在医学领域应用举例 • 卡方检验注意事项及局限性讨论
01
卡方检验基本概念
定义与原理
01
02
定义
原理
卡方检验是一种基于卡方分布的假设检验方法,用于推断两个或多个 分类变量之间是否独立或相关。
确定分组界限
在确定分组界限时,可以采用等距分组、等频分组或 基于数据分布的分组方法。选择合适的分组界限有助 于保持各组之间的均衡性,减少信息损失。
根据分析结果,为患者提供个体化的干预措施,提高生存质量。
06
卡方检验注意事项及局限 性讨论
样本量要求及抽样方法选择
样本量要求
卡方检验对样本量有一定的要求,通常建议每个单元格的期望频数不小于5,以确保检验结果的稳定性和可靠性 。当样本量不足时,可能会导致检验效能降低,增加第二类错误的概率。
抽样方法选择
在进行卡方检验时,应选择合适的抽样方法。简单随机抽样是最常用的方法,但在某些情况下,如分层抽样或整 群抽样可能更适合。选择合适的抽样方法有助于提高检验的准确性和可靠性。
期望频数过低时处理策略
合并类别
当某个单元格的期望频数过低时,可以考虑 合并相邻的类别,以增加期望频数。合并类 别时应注意保持类别的逻辑性和实际意义。
适用范围及条件
适用范围
卡方检验适用于多个分类变量之间的独立性或相关性检验,如医学、社会科学等领域的调查研究。
条件
使用卡方检验需要满足一些前提条件,如样本量足够大、每个单元格的期望频数不宜过小等。此外, 对于有序分类变量或存在空单元格的情况,需要采用相应的处理方法或选择其他适合的统计方法。
02
卡方检验方法
统计学卡方检验
目录
• 卡方检验基本概念 • 卡方检验方法 • 数据准备与预处理 • 卡方检验实施步骤 • 卡方检验在医学领域应用举例 • 卡方检验注意事项及局限性讨论
01
卡方检验基本概念
定义与原理
01
02
定义
原理
卡方检验是一种基于卡方分布的假设检验方法,用于推断两个或多个 分类变量之间是否独立或相关。
确定分组界限
在确定分组界限时,可以采用等距分组、等频分组或 基于数据分布的分组方法。选择合适的分组界限有助 于保持各组之间的均衡性,减少信息损失。
《卡方检验方法》ppt课件
在υ=1, 02.05,1u02.05/21.962
自在度一定时,P值越小, x2值越大, 反比关系。
当P 值一定时,自在度越大, x2越大。
=1时, P=0.05, x2 =3.84
P=0.01, x2 =6.63
P=0.05时, =1, x2 =3.84
=2, x2 =5.99
第一节 四格表资料χ2检验
2
0 2 , 1,2,3,...
2分布是一种延续型分布(Continuous
distribution),v 个相互独立的规范正态变量
(standard normal variable)
ui(i1,2, 的,)平
方和称为 2 变量,其分布即为 2 分布;自
在度(degree of freedom)为v 。
普通四格表的根本方式
B1
B2
合计
A1
a
b
a+b
A2
c
d
c+d
合计 a+c b+d n=a+b+c+d
表7-1 完全随机设计两样本率比较的四格表
处置组
属性
阳性
阴性
合计
1
A11 (T11) A12 (T12) n1(固定值)
2
A21 (T21) A22 (T22) n2(固定值)
合计
m1
m2
n
四格表2检验的公用公式
7
36
28
37
35
73
阳性率 〔%〕 80.56
24.32
52.05
2检验(Chi-square test)是现代统计学的 开创人之一,英国人K . Pearson〔 1857-1936〕于1900年提出的一种具有 广泛用途的统计方法。
卡方检验 ppt课件
2 (99 90.48)2 (5 13.52)2 (75 83.52)2 (21 12.48)2
其中参数 n 称为自由度,自由度不同就是不同的
2分布。
卡方分布是一种连续型分布:按分布的密度函 数可给出自由度=1,2,3……的一簇分布曲线
卡方分布的特征:
卡方分布形状依赖于自由度n; 当自由度n≤2时,曲线呈L型; 随着n的增加,曲线逐渐对称; 当自由度n→∞时,曲线逼近于正态曲线; 卡方分布曲线下右侧尾部的面积为时,横轴 上相应的卡方值,记为n,如果> n ,曲线下面积小于;反之则大于。
对例7-1进行假设检验
建立检验假设,确定检验水准。
H0:π1=π2 即试验组与对照组降低颅内压的总体有效率
相等;
H1:π1≠π2
不相等。
α=0.05。
即试验组与对照组降低颅内压的总体有效率
计算检验统计量值:
Ta 104 174 / 200 90.48 ,Tb 104 90.48 13.52 Tc 174 90.48 83.52 ,Td 26 13.52 12.48 。
甲药
27
18
45
60.00
乙药
40
5
45
88.89
合计
67
23
90
74.44
本章主要内容
第一节 χ2检验的基本思想 第二节 四格表资料的χ2检验 第二节 配对四格表资料的χ2检验 第四节 行×列表资料的χ2检验 第五节 行×列表资料的关联性分析
第六节 四格表的确切概率法
第七节 资料分布的拟合优度检验
例7-1 某院欲比较异梨醇口服液(试验组)和氢氯 噻嗪+地塞米松(对照组)降低颅内压的疗效。将200 例颅内压增高症患者随机分为两组,结果见表7-1。 问两组降低颅内压的总体有效率有无差别?
统计学教程-卡方检验
Lower
Upper
3.000
.992
9.068
2.500
.987
.833
.684
100
6.334 1.016
❖ 结果显示,OR=3.00,说明吃了该食物者发生食物中
毒的可能性是没有吃该食物者的3.00倍?
分层卡方检验
例4 某研究人员对3家医院的卫生服务情况进行 了调查,现希望分析寻求就诊和性别之间有无 联系。(数据见cmh.sav)
Exact Sig. (1-sided)
Likelihood Ratio
14.550
1
.000
Fisher's Exact Test
.000
.000
Linear-by-Linear Associ ati on
13.910
1
.000
McNemar Test
.013c
N of Valid Cases
58
poison
Yes 10
No 30
6.4
33.6
6
54
9.6
50.4
16
84
16.0
84.0
Total 40
40.0 60
60.0 100 100.0
❖ 这就是两变量的四格表。
两分类变量间关联程度的度量
结果分析
Chi-Square Tests
Pearson Chi-Square Continuity Correction a
a. Computed onlyfor a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 5. 16.
“医学统计课件-卡方检验”
适合度卡方检验用于判断观察频数与期望频数之间的差异是否显著。我们将探讨其原理、计算方法,并 分享一个医学研究的应用案例。
卡方检验中的显著性水平和p 值
显著性水平和p值是判断卡方检验结果是否显著的重要指标。我们将解释它们 的概念和计算方法,并讨论常用的显著性水平选择。
卡方检验的优缺点
卡方检验是一种简单有效的统计方法,但也有其局限性。我们将讨论卡方检 验的优点和不足之处,以及与其他统计方法的比较。
单样本卡方检验的原理和步骤
单样本卡方检验用于比较一个分类变量的观察频数与期望频数之间的差异。 我们将介绍其原理、计算方法和实际操作步骤。
独立性卡方检验的原理和步骤
独立性卡方检验用于判断两个分类变量之间是否存在相关性。我们将详细解 释它的原理、计算方法,并提供一个实际案例进行分析。
适合度卡方检验的原理和步骤
卡方检验的实际应用案例
通过实际案例,我们将展示卡方检验在医学和流行病学研究中的应用。这些 案例将帮助您更好地理解卡方检件——卡方 检验”
卡方检验是一种常用的统计方法,用于比较两个或多个分类变量之间的差异。 本课件将详细介绍卡方检验的原理、步骤、应用和优缺点,以及在医学研究 和流行病学中的实际案例。
卡方检验的分类及适用范围
卡方检验可以分为单样本卡方检验、独立性卡方检验和适合度卡方检验。每 种检验方法适用的情况略有不同,我们将详细探讨它们的应用领域和限制。
卡方检验中的显著性水平和p 值
显著性水平和p值是判断卡方检验结果是否显著的重要指标。我们将解释它们 的概念和计算方法,并讨论常用的显著性水平选择。
卡方检验的优缺点
卡方检验是一种简单有效的统计方法,但也有其局限性。我们将讨论卡方检 验的优点和不足之处,以及与其他统计方法的比较。
单样本卡方检验的原理和步骤
单样本卡方检验用于比较一个分类变量的观察频数与期望频数之间的差异。 我们将介绍其原理、计算方法和实际操作步骤。
独立性卡方检验的原理和步骤
独立性卡方检验用于判断两个分类变量之间是否存在相关性。我们将详细解 释它的原理、计算方法,并提供一个实际案例进行分析。
适合度卡方检验的原理和步骤
卡方检验的实际应用案例
通过实际案例,我们将展示卡方检验在医学和流行病学研究中的应用。这些 案例将帮助您更好地理解卡方检件——卡方 检验”
卡方检验是一种常用的统计方法,用于比较两个或多个分类变量之间的差异。 本课件将详细介绍卡方检验的原理、步骤、应用和优缺点,以及在医学研究 和流行病学中的实际案例。
卡方检验的分类及适用范围
卡方检验可以分为单样本卡方检验、独立性卡方检验和适合度卡方检验。每 种检验方法适用的情况略有不同,我们将详细探讨它们的应用领域和限制。
医学统计学课件卡方检验
队列研究中的卡方检验
总结词
在队列研究中,卡方检验用于比较不同暴露 水平或不同分组在某个分类变量上的分布差 异,以评估暴露因素与疾病发生之间的关系 。
详细描述
队列研究是一种前瞻性研究方法,按照暴露 因素的不同将参与者分为不同的组,追踪各 组的疾病发生情况。通过卡方检验,可以比 较不同暴露水平或不同分组在分类变量上的 分布差异,如分析不同饮食习惯的人群中患
卡方检验与相关性分析的区别
卡方检验主要用于比较实际观测频数与期望频数之间的差异,而相关性分析则用于研究 两个或多个变量之间的关联程度。
卡方检验与相关性分析的联系
在某些情况下,卡方检验的结果可以为相关性分析提供参考,帮助了解变量之间的关联 程度。
05
卡方检验的应用实例
病例对照研究中的卡方检验
总结词
02
公式
卡方检验的公式为 $chi^{2} = sum frac{(O_{ij} - E_{ij})^{2}}{E_{ij}}$,
其中 $O_{ij}$ 表示实际观测频数,$E_{ij}$ 表示期望频数。
03
适用范围
卡方检验适用于两个分类变量的比较,可以用于分析病例对照研究、队
列研究等类型的研究。
卡方检验的用途
如比较不同年龄组、性别组等人群中某种疾病的患病率。
卡方检验的基本假设
每个单元格中的期望 频数应该大于5。
卡方检验对于样本量 较小的情况可能不适 用。
观察频数与期望频数 应该服从相同的概率 分布。
02
卡方检验的步骤
收集数据
01
02
03
确定研究目的
在开始卡方检验之前,需 要明确研究的目的和假设 ,以便有针对性地收集数 据。
卡方检验
卡方检验
假设检验方法
01 基本原理
03 检验方法 05 代码实现
目录
02 步骤 04 资料检验
卡方检验,是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括两个率或两个构成比 比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
基本原理
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程 度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡 方值就为0,表明理论值完全符合。
卡方检验要求:最好是大样本数据。一般每个个案最好出现一次,四分之一的个案至少出现五次。如果数据 不符合要求,就要应用校正卡方。
谢谢观看
注意:卡方检验针对分类变量。
步骤
(1)提出原假设: H0:总体X的分布函数为F(x). 如果总体分布为离散型,则假设具体为 H0:总体X的分布律为P{X=xi}=pi, i=1,2,... (2)将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取 A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak), 其中a0可取-∞,ak可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5, 而区间个数k不要太大也不要太小。 (3)把落入第i个小区间的Ai的样本值的个数记作fi,成为组频数(真实值),所有组频数之和 f1+f2+...+fk等于样本容量n。 (4)当H0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i个小区间Ai的概率pi,于是,npi 就是落入第i个小区间Ai的样本值的理论频数(理论值)。
检验方法
假设检验方法
01 基本原理
03 检验方法 05 代码实现
目录
02 步骤 04 资料检验
卡方检验,是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括两个率或两个构成比 比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
基本原理
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程 度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡 方值就为0,表明理论值完全符合。
卡方检验要求:最好是大样本数据。一般每个个案最好出现一次,四分之一的个案至少出现五次。如果数据 不符合要求,就要应用校正卡方。
谢谢观看
注意:卡方检验针对分类变量。
步骤
(1)提出原假设: H0:总体X的分布函数为F(x). 如果总体分布为离散型,则假设具体为 H0:总体X的分布律为P{X=xi}=pi, i=1,2,... (2)将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取 A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak), 其中a0可取-∞,ak可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5, 而区间个数k不要太大也不要太小。 (3)把落入第i个小区间的Ai的样本值的个数记作fi,成为组频数(真实值),所有组频数之和 f1+f2+...+fk等于样本容量n。 (4)当H0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i个小区间Ai的概率pi,于是,npi 就是落入第i个小区间Ai的样本值的理论频数(理论值)。
检验方法
(医统)卡方检验
2
观测值的自由度(vi>2),Si为第i组观测值的标 准差 2 • 拒绝原假设的条件为: 2 ,
F检验
• 检验两组观测值的方差的齐性 • 原假设: 2 2
1 2
• 检验统计量:
2 2 2 S1 F 2 2 ~ F( 1 , 2 ) 1 S2
• 拒绝条件: F F /2 (1, 2 )或F F1 /2 (1, 2 )
2.拟合优度检验
• B.表征实验分布,即用卡方统计量检验实验分布 是否服从某一理论分布(正态、二项等) • 步骤:1.将总体X的取值范围分成k个互不重迭的 小区间 • 2.计算落入第i个小区间的样本值的观测频数 • 3. 根据所假设的理论分布, 算出总体X的值落入每 个小区间的概率p,于是np就是落入该区间的样本 值的理论频数 • 4.计算卡方统计量 • 5.与临界值进行比较,进行决策
χ2 检验 数据资料 总体 检验对象
离散型资料 总体分布是未知的
连续型资料假设检验
连续型资料 正态分布 对总体参数或几个总体 参数之差
不是对总体参数的检 验,而是对总体分布 的假设检验
三、χ2 检验的用途
适合性检验
是指对样本的理论数先通过一定的理
论分布推算出来,然后用实际观测值与理论
数相比较,从而得出实际观测值与理论数之
理论值(E)
696.75 232.25 929
O-E
+8.25 -8.25 0
由于差数之和正负相消,并不能反映实 际观测值与理论值相差的大小。
为了避免正、负相抵消的问题,可将实际 观测值与理论值的差数平方后再相加,也就是 计算:
∑(O-E)2
O--实际观察的频数 E--无效假设下的期望频数
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 1)实际数与理论数之间的差别等价于两 样本率的差别
• 2)检验假设H0:四格表的构成比相同, 等价于H0:两总体率相等
• 3)对实际数与理论数差值的假设检验, 等价于对两样本率差值的假设检验
• 6、2检验的基本思想(及计算步骤)
• 1)假设两总体率相等(构成比相同)
– HO:1=2,即两总体阳性率相等 – H1:12,即两总体阳性率不等 – =0.05
• 2、多个构成比比较
• 3、双向有序分类资料的关联性检验
– 表格是按两个变量从小性。从左上角往右下角看,频 数有无集中在此对角线上的趋势,即 两变量有关联。若频数在这些格子均 匀分布,或各行分布(构成比)相同,且 各列分布(构成比)相同,则表示两个变 量无关联性了。
• 3)查2分布界值表确定P值并作出推论
– 2 =39.93,自由度为1,查附表6-7
– 2 0.05(1)=3.84; 2 0.01(1) =6.63; 2 0.001(1) =10.83
– 一般类型的治愈率高于特殊类型(结合 样本率作实际推论)
– P<0.001, 按=0.05水准,拒绝H0接受 H1,因而认为两总体的阳性率有差别 (统计学推论)。结果说明,两组胃溃疡 病人治愈率的差别有高度统计意义,
2= (O-T-0.5)2
T
• 8、四格表专用公式
• 为方便起见,当基本格子的实际数命名 为a,b,c,d;行合计写为a+b、c+d,列合计
写为a+c、b+d,n为总观察数
2=
(ad bc)2 n
(a b)(c d )(a c)(b d )
校正公式为:
2= ( ad bc -n / 2)2 n
2 n( O2 1) nrnc
• 适用条件:不能有理论数小于1,并且1T5
的格子数不超过总格子数1/5。
• 条件不足时的三种处理方法:
– 1)增大样本例数使理论数变大
– 2)删除理论数太小的行或列
– 3)将理论数太小的行或列与性质相近的 邻行或邻列合并,使重新计算的理论 数增大。但是此处理可能损失信息, 也会损害样本的随机性,不同的合并 方式所得的结果也不一样,因而在不 得已时慎用
(a b)(c d )(a c)(b d )
组别
阳性
阴性
合计
甲
a
b
a+b
乙
c
d
c+d
合计
a+c
b+d a+b+c+d= n
第二节 行×列表的2检验
• 当行或列超过2组时通称为行×列表,或 R×C表,亦称列联表contingency table。 可用于
• 1、多个率的比较 • 可用以下简化公式(无相应校正公式)
• 3、理论治愈率:
– 根据两组治愈率相同的假设,合计治 疗179人,总治愈94人,得理论治愈率 为 94/179=52.51%
• 4、理论数:
– 一般溃疡患者80,按理论治愈率应治 愈80×52.51%=42.01,称theoretical value, theoretical frequency. 记为T。同理可得 其余理论数。亦可由减法求得
• 7、 2值的校正、四格表2检验的条件
• 实际上2值是根据正态分布中2 =[(xi) /]2的定义计算出来的,用前述公式算 得的值只能说近似于2分布,在自由度 大于1,理论数皆大于5时,这种近似较 好;自由度为1,当有理论数小于5时, 需进行(连续性)校正
• 2检验条件:(四格表) – 1、当n40且所有T5时,用普通的2 检验;若所得P ,改用确切概率法。 – 2、当n40但有1T<5时,用校正2检 验 – 3、当n<40或有T<1时,不能用2检验, 改用确切概率法。
• R×C表2检验注意事项
– 若表格有一个方向按多个等级分类, 则称为单向有序行列表,当等级数大 于3时,一般用秩和检验分析更为合适。
似然比卡方统计量
• Likelihood ratio chi-square
• 自由度的确定及临界值与Pearson卡方一致
L2
k
2
i1
Ai ln(TAii )
• 理论上当样本量相当大时,Pearson卡方和似然比 卡方都接近卡方分布;样本不够大时都偏离卡方
– 不妨把H0看作:1=2=两样本合并的 阳性率
• 2)实际数与理论数的差值服从2分布,又 称pearson 2 :
2 (OT)2 T
– 2值是以理论数为基数的相对误差, 它反映了实际数与理论数吻合的程度 (差别的程度)。若检验假设成立,则实 际数与理论数的差别不会很大,出现 大的2值的概率是很小的,若P,就 怀疑假设,因而拒绝它;若P>,则尚 无理由拒绝它
– Trc=(nrnc)/n:理论数为行合计乘列合计 除总合计
– 理论数有两个特征:1)理论频数表的构 成比相同,即不但各行构成比相同, 而且各列亦相同;2)各个基本格子实际 数与理论数的差别(绝对值)相同
• 5、样本率的差别演绎为实际数与理论数 的差别:
– 两样本率相差愈大,则实际数与理论 数的差别就愈大。若无效假设成立, 实际数与理论数之差就不会很大。
第一节 四格表资料的2检验
• 以P153例12-1为例
• 1、四格表:将资料列成表格,表格中四 个数字是基本的:63、17、31、68,称 四格表fourfold table
• 2、实际数:表内各格数字为实际资料的 数字,称observed value, actual frequency, 记为O或A
– 两样本率不同的原因:抽样误差、总 体率确实不同
两种类型胃溃疡病内科疗法治疗结果
组别
治愈
未愈
合计
一 般 类 型 63(42.01) 17(37.99) 80
特 殊 类 型 31(51.99) 68(47.01) 99
合计
94
85
179
– 为检验是否为第二种情况,无效假设 为两种治愈率本无不同,差别仅由抽 样误差所致。
– 2值的大小随着格子数的增加而变大, 即2分布与自由度有关。因而考虑2值 大小的意义时,要考虑到格子数。当 周边合计数固定的情况下,四个基本 数据当中只有一个可以自由取值,即 自由度为1。
• =(R-1)(C-1)
– R行C列时,R行中有一行数据受到列 合计的限制而不能自由变动,C列中亦 有一列数据在行合计的限制下不能自 由取值