第十二章卡方检验
统计学-第十二章卡方检验
避免误用与误判的建议
充分理解卡方检验的原理 和适用条件,避免在不满 足条件的情况下使用。
结合专业知识判断观察频数与 期望频数的差异是否具有实际 意义,避免过度解读统计结果 。
ABCD
在进行卡方检验前,对数据 进行充分的描述性统计分析 ,了解数据的分布特点。
统计学-第十二章卡方检验
目 录
• 第十二章概述 • 卡方检验的基本原理 • 卡方检验的应用场景 • 卡方检验的步骤与实现 • 卡方检验的优缺点及注意事项 • 实例分析与操作演示
01
第十二章概述
章节内容与目标
01
掌握卡方检验的基本原理和假设检验流程
02
了解卡方检验在不同类型数据中的应用
能够运用卡方检验进行实际问题的分析和解决
THANK YOU
卡方分布及其性质
卡方分布的定义
若$n$个相互独立的随机变量$X_1, X_2, ldots, X_n$均服从标准正态分布$N(0,1)$,则它们的 平方和$X^2 = sum_{i=1}^{n}X_i^2$服从自 由度为$n$的卡方分布,记为$chi^2(n)$。
期望和方差
$E(X) = n$,$D(X) = 2n$,其中$X sim chi^2(n)$。
运行分析
点击“确定”按钮,运行卡方检验分 析。
结果解读与报告撰写
结果解读
根据卡方检验的结果,判断各组分类数据的 分布是否存在差异,以及差异的显著性水平 。
报告撰写
将分析结果以文字、表格和图表的形式呈现 出来,包括研究目的、数据收集与整理过程 、卡方检验结果和结论等部分。同时,需要
注意报告的规范性和可读性。
卫生统计学卡方检验
卫生统计学卡方检验
26/94
(一) 多个样本率比较
例3 某研究者欲比较A、B、C 三种方案治疗轻、中度 高血压疗效,将年纪在50~70岁240例轻、中度高血压患 者随机等分为3组,分别采取三种方案治疗。一个疗程 后观察疗效,结果见表11.4。问三种方案治疗轻、中度 高血压有效率有没有差异?
卫生统计学卡方检验
卫生统计学卡方检验
29/94
④ 确定P值
υ=(3-1)(2-1)=2,查 2 界值表得P<0.01。
⑤ 下结论
因为P<0.01,按α=0.05水准,拒绝H0,接收 H1,差异有统计学意义。即可认为三种方案治疗轻 、
中度高血压有效率不等或不全等
卫生统计学卡方检验
30/94
例 某市重污染区、普通污染区和农村出生婴儿致畸情 况以下表,问三个地域出生婴儿致畸率有没有差异?
① 建立假设 H0:π1=π2 H1:π1≠π2
② 确定检验水准
α=0.05
③ 计算统计量 2 值
2(2 62-73 6-7 1/2 )27 12 .7 5 3 33 86 29
④ 确定P值
υ=(2-1) (2-1)=1,查 2界值表得P>0.05。
卫生统计学卡方检验
24/94
⑤ 下结论 因为P>0.05,按α=0.05水准,不拒绝H0,差 异无统计学意义。尚不能认为甲、乙两疗法对小 儿单纯性消化不良治愈率不等。
9/94
TRC
nR nC n
n R 为对应行累计
n C 为对应列累计
n 为总例数。
卫生统计学卡方检验
10/94
表1 两药治疗消化道溃疡4周后疗效
卫生统计学卡方检验
11/94
统计学卡方检验
根据分析结果,为患者提供个体化的干预措施,提高生存质量。
06
卡方检验注意事项及局限 性讨论
样本量要求及抽样方法选择
样本量要求
卡方检验对样本量有一定的要求,通常建议每个单元格的期望频数不小于5,以确保检验结果的稳定性和可靠性 。当样本量不足时,可能会导致检验效能降低,增加第二类错误的概率。
抽样方法选择
在进行卡方检验时,应选择合适的抽样方法。简单随机抽样是最常用的方法,但在某些情况下,如分层抽样或整 群抽样可能更适合。选择合适的抽样方法有助于提高检验的准确性和可靠性。
期望频数过低时处理策略
合并类别
当某个单元格的期望频数过低时,可以考虑 合并相邻的类别,以增加期望频数。合并类 别时应注意保持类别的逻辑性和实际意义。
适用范围及条件
适用范围
卡方检验适用于多个分类变量之间的独立性或相关性检验,如医学、社会科学等领域的调查研究。
条件
使用卡方检验需要满足一些前提条件,如样本量足够大、每个单元格的期望频数不宜过小等。此外, 对于有序分类变量或存在空单元格的情况,需要采用相应的处理方法或选择其他适合的统计方法。
02
卡方检验方法
统计学卡方检验
目录
• 卡方检验基本概念 • 卡方检验方法 • 数据准备与预处理 • 卡方检验实施步骤 • 卡方检验在医学领域应用举例 • 卡方检验注意事项及局限性讨论
01
卡方检验基本概念
定义与原理
01
02
定义
原理
卡方检验是一种基于卡方分布的假设检验方法,用于推断两个或多个 分类变量之间是否独立或相关。
确定分组界限
在确定分组界限时,可以采用等距分组、等频分组或 基于数据分布的分组方法。选择合适的分组界限有助 于保持各组之间的均衡性,减少信息损失。
9 第十二章 卡方检验(一)
确切概率法计算公式
在四格表的周边合计不变的条件 下 , 用下式直接计算表内四个数据 的各种组合之概率。 的各种组合之概率。 式中a、b、c、d为四格表的实际 频数
(a+b)!(c+d)!(a+c)!(b+d)! P= a!b c!d!n ! !
四格表资料的精确检验法基本步骤
1、建立假设 Ho:假设差别是由抽样误差引起的 H1:假设差别是本质上存在的 确定显著性水准: 2、确定显著性水准:α=0.05 3、计算确切概率P 周边合计不变,列出各种组合的四格表; (1)周边合计不变,列出各种组合的四格表; 计算各个四格表的| (2)计算各个四格表的|A-T|值; 样本| (3)求|A-T|值≥样本|A-T|值的所有四格表的Pi 值; Pi=(a+b)!(c+d)!(a+c)!(b+d)!/[a!b!c!d!n!] (4)求出确切概率P:P=ΣPi 结果判断: 4、结果判断:在事先确定的显著性水准α下作 出专业结论。 出专业结论。
行×列表资料χ2检验时的注意事项
1、行×列表资料χ2检验对资料的要求是:不宜有1/5以上 检验对资料的要求是:不宜有1 格子的理论数小于5 且理论数应大于1 格子的理论数小于 5 , 且理论数应大于 1 , 若发生上述情 可选用下述三种处理方法 三种处理方法: 况 , 可选用下述 三种处理方法 : ① 适当增大样本含量以 增大理论频数; 增大理论频数 ; ② 将理论数过小的格子所在的行或列与 性质相近的行或列中的实际数合并, 性质相近的行或列中的实际数合并 , 使重新计算的理论 数增大; 删去理论数过小的行或列。 数增大 ; ③ 删去理论数过小的行或列 。 后两种处理方法 有可能损失资料信息, 且可能破坏样本随机性, 有可能损失资料信息 , 且可能破坏样本随机性 , 故不宜 常规使用。 常规使用。 2、当试验效应按照强弱分为若干个级别,试验结果可整理 当试验效应按照强弱分为若干个级别, 为单向有序行×列表资料, 为单向有序行 × 列表资料 , 在比较各处理组间的效应有 无差别时,宜选用秩和检验、Ridit分析 趋势检验等, 分析、 无差别时,宜选用秩和检验、Ridit分析、趋势检验等, 检验只能说明各组构成比的差别有无显著性。 如作χ2检验只能说明各组构成比的差别有无显著性。 3、多个样本率或多个构成比的χ2检验,结果有显著性意义 检验, 只能认为总体率或总体构成之间总的来说有差别, 时,只能认为总体率或总体构成之间总的来说有差别, 不能说明两两之间皆有差别, 不能说明两两之间皆有差别,若要对每两个率或每两个 构成比进行比较,应采用行× 构成比进行比较,应采用行×列表的χ2分割法或者采用 其它率或构成比的多重比较。 其它率或构成比的多重比较。
医学统计方法之卡方检验PPT课件
3、查界值表,确定P值,做出推断结论
查χ2界值表,υ=6,χ20.05(6)=12.59, χ2 > χ20.05(1) ,则 P<0.05,在α=0.05的水准下,拒绝H0,认为三个不同地区 的人群血型分布总体构成比有差别。
.
38
二、多个样本率间多重比较
行×列表χ2检验的结果说明差异有统计学意义,需作两 两比较时,先调整α值,再进行率的两两比较。
配对检验公式推导:
bc
(+,)和(,+)两个格子中的理论频数均为
2
b c 40时
2
(AT)2(b b c )2 2(c b c)22
T
bc
bc
2
2
(b c)2
bc
~ 2 分布
同理可得b c 40时
1
校正公式: 2 (| A T | 0.5)2 (| b c | 1)2
表8-5 两种培养基的培养结果
B培养基
A培养基
+
-
合计
+
48
24
72
-
20
106
126
合计
68
130
198
A 培养基 B培养基
痰标本 1 2 3 4 5 6 7 8 9 10 11 12 13 14
结果统计
A培养基 + + + + + + + + + + -
B培养基 + + + + + + + -
合计
145 109 254 57.09
1.建立检验假设并确定检验水准
第十二章卡方检验
果是:优8名、良20 良 20 21.5 2.25 0.10
名,中18名,差4名。中 18 21.5 12.25
试检验其评定的分布
差 ∑
4 50
3.5 50
0.25 —
与正态分布所期待的
2(3)0.05=7.81
结果有无显著差别?
0.57 0.07 6.53
例12-7:测得 551名学生的身高 如下表。试问学 生的实际身高是 否符合正态分布?
148-150 80 149 –1.21 .21540 .12746 70
145-147 25 146 –1.70 .09400 .05562 31
142-144 139-141
8 143 –2.29 .02890 .01710 9 4 140 –2.88 .00670 .00396 121
∑ 551 - -
551
身高 f0 ft
2
169-171 0.125
2
18
166-168 7 7
163-165 22 23 0.043
160-162 57 60 0.150
157-159 110 104 0.471
154-156 124 130 0.277 151-153 112 114 11 0.035
148-150 80 70
求2
df=k-3 =9-
3=6 2(6)0.05=12.6
第三节 独立性检验
• 定义:检验两个变量是独立的,还是相关 的 性。 质:二元分类资料的χ 2检验。 方法
r×c列联表的χ 2检验 2×2列联表的χ 2检验
一、r×c列联表的χ 2检验
例12-7:某小学三、四年级独立概括某种 教
nr nc
卡方检验
三、 独立性检验
独立性检验就是检验两个特征或两个分类标准是 互相独立的还是互有联系的。用于独立性检验的 数据一般整理成“列联表”的形式,即一个分类 标准把数据分为若干列,另一个分类标准把数据 分为若干行,行列交叉形成一个个的方格。每一 行和每一列都有一个总计,书写在一行或一列的 末尾,称为“边际总和”。所有边际总和加起来 就是全部数据的个数或样本容量 ( N) 。
例如上表中的第一格A的期望次数为(A+B+C) ×(A+D)/N;第二格B的期望次数为(A+B+C) ×(B+E) /N;第四格的期望次数为(D+E+F) ×(A+D) /N,等等。按惯例,期望次数一般放 在括号内,置于实际次数之后。 第四步:用公式 (12.1)计算χ2 ,即先计算每一 格的 ,然后再把各格的结果累加。 第五步:确定自由度: 即行 的数目减1乘以列的数目减1。 第六步:在卡方分布表中查对应于α和df的临界值。 如果χ2 大于临界值,就推翻零假设。
第四节
亚茨校正法2ຫໍສະໝຸດ 在独立性假设成立时, χ 接近卡方分布,如果期 2 望次数较大,而且列联表大于2×2 ,χ 就十分接 近卡方分布,卡方检验就比较可靠。否则,如果 期望次数过小(低于 5),列联表为 2×2 (自由 2 度为 1) χ 就会偏大,其分布就会偏离卡方分布, 卡方检验也就不太可靠。在这种情况下,最好使 用 “连续性校正” , 即通常所说的 “亚茨校正 法” 。 其实, 对于2×2列联表,当期望次数不 是很大时,最好都进行校正。
例如,在一个关于高考标准化试验的问卷调查中, 有这样一个问题: 大量采用客观选择题不利于考察学生的创造思维 能力,我对这种观点: A.同意 B.一般 C.反对 在所调查的500人中,有250人选在所A,150人选 B,100人选C(实际次数),那么选择三个答案 的人数有没有显著差异呢? 假如它们之间没有差异,那么500个被调查者在 三个答案上的次数分布就应是一样的,即 500/3=166.7, 这是期望次数。实际观察到的次 数与根据假设所期望的次数是否吻合呢?
第10章--卡方检验-(Chi-PPT课件
例题:某学校对学生的课外活动内容进行调查,结果 整理成下表:
-
18
应用举例一
女性 男性 总和
自我知觉
总和
过轻
过重
419
1995
2414
(786.78)(1627.22)
959
855
1814
(591.22)(1222.78)
1378
1995 1938.67
56.33 3173.41
1.37
5816 5816
0
2297.1 3
df=3-1=2 查表,0.05水平上临界值为5.99,故……
df=3-1=2 查表, 0.01水平上临界值为9.21
-
15
三、卡方独立性检验
(一)适用材料 主要用于两个或两个以上因素多项分类的计数资料
分析。如果要研究的两个自变量之间是否具有独 立性或有无关联或有无“交互作用”的存在,就 要应用卡方独立性检验。 如果两个子变量是独立的,无关联的,就意味着对 其中一个自变量来说,另一个自变量的多项分类 次数上的变化是在取样误差的范围之内。假如两 个因素是非独立,则称两变量有交互作用。
第十二章 非参数检验
-
1
一、参数与非参数检验
参数检验 用于等比/等距型数据 参数检验的前提:正态分布和方差同质
非参数检验 不用对参数进行假设 对分布较少有要求,也叫distributionfree tests 用于名义/顺序型数据
-
2
参数统计和非参数统计优缺点
• 参数统计 优点:
对资料的分析利用充分 统计分析的效率高
于等与临界值才显著),使用9或3均可 • 接受虚无假设
卡方检验的构造原理_解释说明以及概述
卡方检验的构造原理解释说明以及概述1. 引言1.1 概述卡方检验,也称为卡方拟合度检验,是一种常用的统计方法,用于判断观察数据与期望数据之间是否存在显著差异。
它是由1880年代英国统计学家皮尔逊(Karl Pearson)提出的,并成为统计学中一项重要的假设检验工具。
1.2 文章结构本文将首先介绍卡方检验的构造原理,包括该方法的背景与发展历程、假设检验基本概念以及构造原理及假设条件。
接着,文章会详细解释说明卡方检验的相关内容,包括检验统计量及其分布、P值的计算方法与判断标准,以及常见误差类型与校正方法。
然后,我们将对卡方检验在不同领域中的应用进行概述:生物医学研究、社会科学和工程技术。
最后,在结论部分总结了卡方检验的重要性和优缺点,并展望了未来在该研究领域可能出现的发展趋势。
1.3 目的本文旨在深入探讨卡方检验这一统计学方法,全面阐述其构造原理、解释说明以及应用领域概述。
希望通过本文的阐述,读者能够更好地理解和运用卡方检验,为相关领域的研究提供参考,并促进该方法在未来的发展与应用。
2. 卡方检验的构造原理2.1 背景与发展历程在统计学中,卡方检验是一种常用的假设检验方法,用于判断观察值与期望值之间的差异是否显著。
卡方检验最早由卡尔·皮尔逊(Karl Pearson)在19世纪末提出,并受到了罗纳德·费舍尔(Ronald Fisher)等人的进一步发展和推广。
2.2 假设检验基本概念在进行卡方检验时,我们需要建立一个原假设(Null Hypothesis,H0)和一个备择假设(Alternative Hypothesis,H1)。
原假设通常表示无关性、随机性或相等性的假设,而备择假设则表明存在相关性、差异或不相等性。
2.3 构造原理及假设条件卡方检验基于观察频数与期望频数之间的差异来判断数据是否遵循某种分布或相互独立。
其构造原理可以简单描述如下:步骤1:收集数据并得到数据表格。
统计学卡方检验
• 实际上2值是根据正态分布中2 =[(xi) /]2的定义计算出来的,用前述公式算 得的值只能说近似于2分布,在自由度 大于1,理论数皆大于5时,这种近似较 好;自由度为1,当有理论数小于5时, 需进行(连续性)校正
• 2检验条件:(四格表) – 1、当n40且所有T5时,用普通的2 检验;若所得P ,改用确切概率法。 – 2、当n40但有1T<5时,用校正2检 验 – 3、当n<40或有T<1时,不能用2检验, 改用确切概率法。
– 2值的大小随着格子数的增加而变大, 即2分布与自由度有关。因而考虑2值 大小的意义时,要考虑到格子数。当 周边合计数固定的情况下,四个基本 数据当中只有一个可以自由取值,即 自由度为1。
• =(R-1)(C-1)
– R行C列时,R行中有一行数据受到列 合计的限制而不能自由变动,C列中亦 有一列数据在行合计的限制下不能自 由取值
• 2、实际数:表内各格数字为实际资料的 数字,称observed value, actual frequency, 记为O或A
– 两样本率不同的原因:抽样误差、总 体率确实不同
两种类型胃溃疡病内科疗法治疗结果组别 Nhomakorabea治愈
未愈
合计
一般类型 63(42.01) 17(37.99) 80
特殊类型 31(51.99) 68(47.01) 99
2 n( O2 1) nr nc
• 适用条件:不能有理论数小于1,并且1T5
的格子数不超过总格子数1/5。
• 条件不足时的三种处理方法:
– 1)增大样本例数使理论数变大
– 2)删除理论数太小的行或列
– 3)将理论数太小的行或列与性质相近的 邻行或邻列合并,使重新计算的理论 数增大。但是此处理可能损失信息, 也会损害样本的随机性,不同的合并 方式所得的结果也不一样,因而在不 得已时慎用
卡方检验
>χ <χ
2
α
P < α
2
2
α
P >α
给药方式与给药效果的2×2列联表 给药方式
口服 注射
有效
58 64
无效
40 31
总数
98(R1) 95(R2)
有效率
59.2% 67.4%
总数
122(C1)
71(C2)
193(T)
1.H0 :给药方式与给药效果相互独立。
HA :给药方式与给药效果有关联。
2.给出显著水平α =0.05
第六章
一、χ2检验的定义
2检验 χ
二、χ2检验与连续型资料假设检验的区别
三、χ2检验的用途
2检验的定义 一、χ
χ2 检验(Chi-square test)
对样本的频数分布所来自的总体分布是
否服从某种理论分布或某种假设分布所作的
假设检验,即根据样本的频数分布来推断总
体的分布。
二、χ2检验与连续型资料假设检验的区别
3.根据H0,运用概率乘法法则:事件A与事件B同时
出现的概率为:P(AB)=P(A)P(B)
口服与有效同时出现的理论频率=口服频率×有
效频率,即P(AB)=P(A)P(B)=98/193 ×122/193
理论频数Ei=理论频率×总数
= (98/193 ×122/193) ×193
=(98 × 122)/193=61.95
(1) H0 :豌豆F2分离符合9:3:3:1的自由组合规律;
HA :豌豆F2分离不符合9:3:3:1的自由组合规律;
(2)取显著水平α =0.05
(3)计算统计数χ2值:
χ2 =0.016+0.101+0.135+0.218=0.470
(医统)卡方检验
2
观测值的自由度(vi>2),Si为第i组观测值的标 准差 2 • 拒绝原假设的条件为: 2 ,
F检验
• 检验两组观测值的方差的齐性 • 原假设: 2 2
1 2
• 检验统计量:
2 2 2 S1 F 2 2 ~ F( 1 , 2 ) 1 S2
• 拒绝条件: F F /2 (1, 2 )或F F1 /2 (1, 2 )
2.拟合优度检验
• B.表征实验分布,即用卡方统计量检验实验分布 是否服从某一理论分布(正态、二项等) • 步骤:1.将总体X的取值范围分成k个互不重迭的 小区间 • 2.计算落入第i个小区间的样本值的观测频数 • 3. 根据所假设的理论分布, 算出总体X的值落入每 个小区间的概率p,于是np就是落入该区间的样本 值的理论频数 • 4.计算卡方统计量 • 5.与临界值进行比较,进行决策
χ2 检验 数据资料 总体 检验对象
离散型资料 总体分布是未知的
连续型资料假设检验
连续型资料 正态分布 对总体参数或几个总体 参数之差
不是对总体参数的检 验,而是对总体分布 的假设检验
三、χ2 检验的用途
适合性检验
是指对样本的理论数先通过一定的理
论分布推算出来,然后用实际观测值与理论
数相比较,从而得出实际观测值与理论数之
理论值(E)
696.75 232.25 929
O-E
+8.25 -8.25 0
由于差数之和正负相消,并不能反映实 际观测值与理论值相差的大小。
为了避免正、负相抵消的问题,可将实际 观测值与理论值的差数平方后再相加,也就是 计算:
∑(O-E)2
O--实际观察的频数 E--无效假设下的期望频数
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 2.校正公式:当有一格的理论次数小于5且 n>40时。
χ =
2
N ( ad − bc − N / 2)
2
•
(a + b)(c + d )(a + c)(b + d )
(二)相关四格表的χ2检验 相关四格表的χ
• 1一般计算公式为: 一般计算公式为:
( A − D )2 χ2 =
A+ D A、D为前后两次实验或调查 中
N 理论次数: f e = k N 为总数, k 为分类数或组数
χ =∑
2
k
( f0 − fe )
fe
2
例题10-1(P302) 10-2 10-4
• 2.与正态分布有无差异的配合度检验 2.与正态分布有无差异的配合度检验
• (1)非连续变量的配合度检验 ) • 理论次数的计算步骤 理论次数的计算步骤: • 假设6个标准差包括了全体,每个等级所占的 标准差为:6σ÷k(k为等级数); • 依据各等级所占的标准差,查正态分布表,即 得各个等级所占的概率;(例题10-3P303)
四、χ2检验所隐含的假设 χ
• • • • 1.不同的分类应具有独立性; 不同的分类应具有独立性; 不同的分类应具有独立性 2.观测数据相互独立; 观测数据相互独立; 观测数据相互独立 3.期望次数应尽量大; 期望次数应尽量大; 期望次数应尽量大 有些认为应大于5,有些认为应大于10; 有些认为应大于 ,有些认为应大于 ; 当理论次数过小时,应尽量避免使用χ 当理论次数过小时,应尽量避免使用χ2 检验。 检验。
f e = p * N ( p 各等级所占的概率
)
(2)连续变量分布的假设检验
• 对于连续随机变量分布的假设检验,其 关键步骤是:计算理论次数 计算理论次数(fe)与确定 计算理论次数 自由度(df)。 自由பைடு நூலகம் • 计算理论次数 计算理论次数是根据所选理论分布函数, 按实际分布的统计量带入函数式计算各 分组区间的理论频率,然后乘以总数即 为各分组区间的理论次数。 • 确定自由度 确定自由度是将分组的数目减去计算理 论次数时所用统计量的数目。
fe = p × N
(1) − X
(1) (2) (3)
(1) − X
S
根据Z查正态分布表
(4)
(5)
(6)
(7)
(8)
?
• 3.比率或百分数的配合度检验(例题10-6P307) 3.比率或百分数的配合度检验
理论次数 ( 率 ): f e = k 为分类数或组数 100 k
χ =
2
∑
k
( f0 − fe )
• 3.确定自由度 3.确定自由度 • df=(R-1)(C-1) • 4.选择检验方法 4.选择检验方法
χ2 =
∑
( f0 −
fe
fe )
2
简便计算公式为:
χ2
f 02i ∑ = N − 1 f xi f yi
5.结果与解释 5.结果与解释
通过比较两个卡方值的大小作出决断 χ2值与 值的对应关系,通过查附表 χ2α,υ界值表 值与P值的对应关系 通过查附表12 值的对应关系, 得到,详见教材 得到,详见教材474页。 页
fe
2
三、二项分类的配合度检验与比 率显著性检验的一致性
假设p = q, x = f 0 , µ = f e , 当np > 5时,比率显著性检验的 公式为: p − pe x−µ f0 − fe Z= = = p0 q0 np0 q0 1 fe • 2 n 而χ 2 = Z 2 = ∑ x−µ =∑ σ
第十二 章χ2检验
• 掌握 • 卡方检验的基本公式 • 理论次数的计算技巧
本章考研知识点(2011)
• • 1.拟合度检验 2.独立性检验
• • • • •
第一节χ 第一节χ2检验概述 第二节 配合度检验 第三节独立性检验 第四节同质性检验与数据合并 第五节 相关源分析
第一节χ 第一节χ2检验概述
方法一
• 根据概率计算的方法和乘法定理可以算出a、 b、c、d四格的理论次数 理论次数 • fa=(a+b)(a+c)/N fb=(a+b)(b+d)/N • fc=(a+c)(c+d)/N fd=(c+d)(b+d)/N • 确定自由度df=(2-1)*(2-1)=1,因为 计算理论次数涉及总数 总数
六、应用χ2检验应注意抽样设计 应用χ
统计分析在依据样本的信息对总体进行推论时, 统计分析在依据样本的信息对总体进行推论时, 样本的代表性和对 最根本的一个环节是确保样本的代表性和对实验的 最根本的一个环节是确保样本的代表性和对实验的 良好的控制。 良好的控制 • 在心理与教育研究中,所收集到的数据有些是属于 定性的。获得这些数据的方式是通过调查访问和问 定性 卷,所收集到的数据仅仅是回顾性研究,多数情况 下难于对被试进行控制。又由于各种限制可能会遇 到有严重缺陷的样本,所以一定要注意取样的代表 性尽量避免出现有偏样本,在进行统计推论时要特 别小心。 •
• 关于本书(P306)例题的说明 说明
• (1)为了计算理论次数必须根据正态曲 线下某一组别所占的概率,然后用概率乘 以总数(P×N)才能求得各组的理论次数。 • (2)计算步骤是:确定组上限,计算离 差,利用公式(Z=X-X/S)求出标准分数, 根据标准分数求概率,用概率乘以总数得 理论次数。 • (3)自由度df=11-3(是因为求理论次 数时用到了总数、标准差和平均数这三个 约束条件)
计算得到的 查表得到的
χ ≥ χα ,υ
2
2
;P ≤α ;P >α
χ < χα ,υ
2
2
三、四格表(2×2列联表)的独立性检验 四格表( 列联表)
因素B B1
因 素 B
边缘小计
A1 a A2 c a+c
B2 b d
a+b c+d
边缘小计
b+d N=a+b+c+d
• (一)独立样本的四格表的χ2检验 • 1.有三种计算方法(例题10-10P316)
三、χ2检验的类型 χ
• 配合度检验 配合度检验:检验一个因素 一个因素多项分类的实际观 一个因素 察数与某理论次数是否一致的问题。当对连续 数据的正态检验时,亦称正态吻合性检验 • 独立性检验 独立性检验:检验两个或两个以上因素 两个以上因素的多项 两个以上因素 分类之间是否有关联 是否具有独立性 是否有关联 是否具有独立性 是否有关联或是否具有独立性的问题。 • 同质性检验 同质性检验:检验不同的总体 不同的总体在某一变量上的 不同的总体 反应是否有差异。无差异则表明两总体同质; 有差异则表明两总体异质。
χ =∑
2
k
( f0 − fe )
fe
2
方法二
• 直接用实计数计算卡方值
N(ad−bc) χ = (a +b)(c + d)(a + c)(b + d)
2 2
• 方法三
Z=
ˆ ˆ p1 − p2 ˆ ˆ ˆ ˆ (n1 p1 + n2 p2 )(n1q1 + n2 q2 ) n1n2 (n1 + n2 )
二、 χ2检验的基本公式
χ =∑
2 k
( f0 − fe )
fe
2
• 即实计次数与理论次数的差的平方和除以理论次数 是与χ2分布非常近似的次数分布。 χ • 式中k为组数,f0为实际观察数(实计数),fe为理 论次数。 • 该公式是根据皮尔逊的配合度的理论公式推导而来, 该分布属于近似卡方分布,近似程度随自由度而变 化。
• (3)理论次数的计算:根据概率和经验计算 • (4)计算χ2值
• (5)作出推断
χ =∑
2
k
( f0 − f e )
fe
2
• 注意: χ2检验的概率是双侧概率,当计算的χ2> 注意: χ2.05或χ2.01时拒绝0假设。
二、配合度检验的应用
• 1.与常规有无差异的配合度检验 与常规有无差异的配合度检验
五、期望次数的计算
• 期望次数 期望次数:无差假设成立时的数值或者 使某一理论假设成立时的数值。
• 如:男女的性别比的期望值为:1:1; • 调查时的同意与不同意的期望值为:1:1; • 调查时的同意与不同意与不置可否的期望值为: 1:1:1; • 正态分布的期望值与正态分布的概率相同。
• • • • • • •
p = b (x , p 0 , n n 为总的个案数 x 为较少的个案数 p 0 为无差比率
)
• 2.Yates校正公式(计算简单) 2.Yates校正公式 计算简单) 校正公式(
χ =∑
2
(f
0
− f e − 1 / 2) fe
2
• 根据卡方值和自由度查表求概率
第三节独立性检验
• 一、概念 • 独立性检验主要是检验指两个或两个以上因 独立性检验 两个或两个以上因 计数资料是独立还是相关的问 素多项分类的计数 素多项分类 计数 题。 • 其零假设 其零假设为:两项或多项分类是独立无关的 (分类无显著性差异) • 研究假设 研究假设为:两项或多项分类是有关联的 (分类存在显著性差异) • 独立性检验一般的数据资料采用2*2或2*k, 及R*C的表格形式呈现。
改变了或不一致的实计 数
2
( f 0 − f e )2
1 fe • 2
= 2•∑
( f 0 − f e )2
fe
若p ≠ q, 则χ 2 = ∑
( f0 − fe )
fe
2
四、 χ2的连续性校正