第十章卡方检验

合集下载

《卡方检验正式》课件

《卡方检验正式》课件

卡方检验的结果可以直接解释为实际意义 ,例如,如果卡方值较大,则说明观察频 数与期望频数存在显著差异。
缺点
对数据要求高
卡方检验要求数据量较大,且各分类的期望频数不能太小,否则可能 导致结果不准确。
对离群值敏感
卡方检验对离群值比较敏感,离群值可能会对结果产生较大的影响。
无法处理缺失值
卡方检验无法处理含有缺失值的数据,如果数据中存在缺失值,需要 进行适当的处理。
案例二:市场研究中的卡方检验
总结词
市场研究中,卡方检验用于评估不同市 场细分或产品特征与消费者行为之间的 关联。
VS
详细描述
在市场研究中,卡方检验可以帮助研究者 了解消费者对不同品牌、产品或服务的偏 好。例如,通过比较不同年龄段消费者对 某品牌的选择比例,企业可以更好地制定 市场策略和产品定位。
案例三:社会调查中的卡方检验
小,表示两者之间的差异越小。通常根据卡方值的概率水平来判断差异
是否具有统计学显著性。
02
卡方检验的步骤
建立假设
假设1
观察频数与期望频数无显著差异
假设2
观察频数与期望频数有显著差异
收集数据
从样本数据中获取观察频数 确定期望频数,可以使用理论值或预期频数
制作交叉表
将收集到的数据整理成二维表格形式,行和列分别表示分类变量
卡方检验的基本思想
01
基于假设检验原理
卡方检验基于假设检验的原理,通过构建原假设和备择假设,利用观测
频数与期望频数的差异来评估原假设是否成立。
02
比较实际观测频数与期望频数
卡方检验的核心是比较实际观测频数与期望频数,通过卡方值的大小来
评估两者之间的差异程度。
03

卡方检验医学统计学

卡方检验医学统计学

卡方检验医学统计学卡方检验是医学统计学中最常用的检验方法之一,它可用于测量两组数据之间的关联性。

在研究中,我们常常需要探究二者之间是否存在某种关联,卡方检验就是我们解决这个问题的利器。

卡方检验的原理卡方检验的原理是基于期望频数和实际频数的差异来检验两个变量之间的关系。

期望频数指的是在假设两个变量独立的情况下,我们可以根据样本量和其他条件,计算出不同组之间的理论值。

而实际频数则是实验中观察到的实际结果。

卡方检验的步骤如下:1.建立零假设和备择假设。

零假设指的是假设两个变量之间不存在任何关系,备择假设则是反之。

2.确定显著性水平 alpha,通常取值为0.05。

3.构建卡方检验统计量。

计算方法为将所有观察值与期望值的差平方后,再除以期望值的总和。

4.根据自由度和显著性水平,查卡方分布表得到 P 值。

5.如果 P 值小于显著性水平,拒绝零假设;否则无法拒绝零假设。

卡方检验的应用卡方检验可以应用于多个领域,其中医学统计学是最为常见的一个。

卡方检验可以用来分析两个疾病之间的相关性或者测量一种治疗方法的效果。

举个例子,某药厂要研发一种新的药物来治疗心脏病。

为了验证该药的疗效,实验组和对照组各50 人。

在 6 个月的治疗后,实验组和对照组中分别有 10 人和 15 人痊愈了。

卡方检验的作用就在于此时可以用来检验两组之间的差异是否具有统计学意义。

除了医学统计学之外,卡方检验在社会学、心理学、市场营销、物理等领域也都有广泛应用。

卡方检验的限制虽然卡方检验被广泛应用于各种实验和研究中,但它也有着自己的限制。

其中比较明显的一点就是对样本量有一定的要求。

当样本量较小的时候,期望频数的计算就会出现一定的误差,进而导致检验结果不准确。

此外,在面对非常态分布数据时,卡方检验也会出现问题。

当数据呈现正态分布时,卡方检验的准确性最高。

然而,实际上,很多数据都呈现出非正态分布,这时需要使用一些修正方法来解决。

卡方检验是医学统计学中最常用的统计方法之一,它可以用来测量两个变量之间的关联性。

卡方检验

卡方检验

独立性检验一般多采用列联表的形式记录观察结果, 所以又称列联表分析,种类有2×2表或四格表、2×k表、 R×C表和多维列联表。
基础知识→配合度检验→独立性检验→同质性检验
统计假设 ↓ 理论次数的计算 ↓ 自由度的确定 ↓ 统计方法的选择 ↓ 结果及解释 多用文字表述
df=(R -1)(C -1) 独立样本还是相关样本
基础知识→配合度检验→独立性检验→同质性检验
【例六】对四所幼儿园的幼儿颜色命名能力进行了调查, 调查材料是15种颜色的彩色铅笔。凡能正确命名8种颜 色及其以上者为达标,低于8种颜色则未达标。调查对 象分4岁组,6岁组。问这四所幼儿园儿童颜色命名能力 调查结果是否同质?
基础知识→配合度检验→独立性检验→同质性检验
卡方检验的类别
㈠配合度检验
㈡独立性检验
㈢同质性检验
基础知识→配合度检验→独立性检验→同质性检验
配合度检验(goodness of fit test)主要用于检验单 一变量的实际观察次数分布与某理论次数是否有差别。 检验的内容仅涉及一个因素多项分类的计数资料,是一 种单因素检验,又称单向表的卡方检验 配合度检验的研究假设是实际观察数与某理论次数 之间差异显著;自由度的计算一般为资料的分类或分组 的数目减去计算理论次数时所用统计量的个数;理论次 数的计算依据实际情况而定。
基础知识→配合度检验→独立性检验→同质性检验
期望频数服从某一经典分布 【例三】某班有学生50人,体检结果按一定标准划分为 甲乙丙三类,其中甲类16人,乙类24人,丙类10人,问 该班学生的身体状况是否符合正太分布?
基础知识→配合度检验→独立性检验→同质性检验
独立性检验(test of independence)主要用于两个 或两个以上因素多项分类的计数资料分析,其目的在于 检验从样本得到的两个变量的观测值是否具有特殊的关 联。

第十章卡方检验

第十章卡方检验

2 检验的基本公式,
表,确定其差异是否显著。(常用的方法)
其关键步骤是计算理论次数与确定自由度。 (1)将实际次数分布的统计量代入所选的理论分布函数方程,求各分组 区间的理论频率,然后乘以总数得各分组区间的理论次数;
16 (2)将分组的数目减去计算理论次数时所用统计量的数目即自由度。
[例10-5] 表10-2所列资料是 552 名中学生的身高次数分布,问这些学生的 身高分布是否符合正态分布?
3、去除样本法; 4、使用校正公式。
7
第二节
察次数分布与某理论次数是否有差别。
配合度检验
配合度检验(goodness of fit test)主要用于检验单一变量的实际观
它检验的内容仅涉及一个因素多项分类的计数资料,是一种单因素检验 (one-way test)。
一、配合度检验的问题
(一)统计假设
2、根据各组的理论次数与实际次数计算
2 值,得 2 3.905
3、确定自由度。本题共分 11 组,在计算理论次数时,对最高组和最低
组两极端次数进行了合并,合并后为 9 组。在计算理论次数的过程中共用到
平均数、标准差、总数 3 个统计量,故本题的自由度 df=9-3=6 。 4、查
2 表,得 02.05 12.6, 02.01 16.8
表10-2
身高 分组 169 ~ 166 ~ 163 ~ 160 ~ 157 ~ 154 ~ 151 ~ 148 ~ Xe 170 167 164 161 158 155 152 149 fo 2 7 22 57 110 124 112 80
书中数字错!
552 名学生身高的理论次数分布及卡方检验
x 15.38 12.38 9.38 6.38 3.38 0.38 -2.62 -5.62 Z 3.03 2.44 1.85 1.26 0.67 0.07 -0.52 -1.11 y 0.0040 0.0203 0.0720 0.1840 0.3187 0.3979 0.3484 0.2154 p 0.0023 0.0120 0.0426 0.1088 0.1885 0.2354 0.2061 0.1274 fe 1 7 24 60 104 130 114 70

统计心理-第十章 卡方检验-PPT精选文档

统计心理-第十章 卡方检验-PPT精选文档
第十章 检验
2

2

2
单因素因果关系研究
自变量 数据类型 类别(2水平) 因变量 数据类型 连续
统计方法 平均数差异检验(t, Z) 点二列相关,二列相关 方差分析(F检验) 多列相关
类别(≥3水平)
类别 连续
连续
类别 连续
2 检验
积差相关 一元回归
第十章
检验
2
心理学研究中,有时研究变量是按一定的性质划分为 不同类别,然后统计各类别中的人数或个数,即需要用到 计数资料。例如,将人按照性别划分为“男”、“女”; 将学习成绩划分为“优”、“良”、“中”、“差”四个 等级等,然后对各类别分别有多少、占多大比例等问题进 行分析。 对这些计数资料的统计分析,不能用前几章的统计方法, 2 检验 2 检验 则需要使用本章所介绍的 。应用 分析计数数 2 检验 据时,对计数数据总体的分布形态不作任何假设,因此 被视为是非参数检验方法的一种。
解:
1建 立 假:设 H0 : f0 fe 30 ;H1 : f0 fe 2 2 2 f0 fe 39 30 21 30 2 2 2计 算 值 : 5.4
fe 60 0.5 30

2 3统 计 决:断 df 211 ;查 表 得 : 2 3 . 84 , 1.01 6.63 1.05
第一节 检验 概述
2
2 2 一、 和 检验的意义 2 检验方法能处理一个因素两项或多项分类的实际
观察频数与理论频数分布是否相一致问题,或者说有无显 著差异问题。 所谓实际频数简称实计数或实际数,是指在实验或 调查中得到的计数资料,又称为观察频数。 理论次数是指根据概率原理、某种理论、某种理论 次数分布或经验次数分布计算出来的次数,又称为期望次 数。 2

第十章统计卡方检验.ppt

第十章统计卡方检验.ppt

二、单因素的2检验(配合度检验)(P297)
赞成 39
反对 21
解: (1)提出假设: H0:fo= fe H1: fo fe
(2)计算检验统计量
2 fo fe 2 (39 30)2 (21 30)2 5.4
fe
30
30
(3)查2分布表,确定临界值:
• 已经统计出小学生识字的优秀率为0.2,及 格率为0.7(不包括优秀在内),不及格率 为0.1,现在进行识字教学的改革实验,实 验后随机抽取了500名学生进行测试,结果 有123人达到优秀水平,有346人达到及格 水平,有31人没有及格。问识字教学的改 革实验是否有显著性效果?
第二节 独立性检验(二因素的2检验)
值表中找到临界值 。
(五)做出接受虚无假设或拒绝虚无假设的统计决策。其原 则是:
• 1.当公式(10.1)所确定的实得 值大于临界 时,可拒绝 虚无假设(H 0),并接受备择假设。
• 2.当公式(8.1)所确定的实得 值小于临界值 时,便没有 充分理由拒绝虚无假设(H 0),故暂认为虚无假设是成立 的,把虚无假设先接受下来。
2 0.05(1)

3.84
2 0.01(1)

6.63
(4)统计决断:02.05(1)

2

2 0.01(1)
0.01 p 0.05
故拒绝虚无假设,接受备择假设,即高中生对文 理分科的意见差异显著。

2
检验的假设(p293)
– 分类相互独立,互不包容
– 观测值相互独立
– 期望次数的大小
自学能力
实际观察次数(f0) 15
理论次数(fe又称
18

《卡方检验》课件

《卡方检验》课件

制作交叉表
确定交叉表的行列变量
根据研究目的和内容,选择合适的行列变量,构建交叉表。
制作交叉表
将分组后的数据按照行列变量制作成交叉表,以便于进行卡 方检验。
计算理论频数
确定期望频数
根据交叉表中的数据,结合各组 的概率计算期望频数。
计算理论频数
根据期望频数和实际频数计算理 论频数,为后续的卡方检验提供 依据。
计算卡方值
计算卡方值
使用卡方检验的公式计算卡方值,该 值反映了实际频数与理论频数的差异 程度。
自由度的确定
在计算卡方值时,需要确定自由度, 自由度通常为行数与列数的减一。
显著性水平的确定
选择显著性水平
显著性水平是衡量卡方值是否显著的指标,通常选择0.05或0.01作为显著性水 平。
判断显著性
根据卡方值和自由度,结合显著性水平判断卡方检验的结果是否显著,从而得 出结论。
3.84、6.63等),可以确定观测频数与期望频数之间的差异是否具有统
计学显著性。
02
卡方检验的步骤
收集数据
确定研究目的
制定调查问卷或收集程序
在开始收集数据之前,需要明确研究 的目的和假设,以便有针对性地收集 相关数据。
根据研究目的和内容,制定合适的调 查问卷或建立数据收集程序,确保数 据的完整性和准确性。
详细描述
例如,在市场调研中,我们可以通过卡方检验来分析不同年龄段、性别、职业等 人群对于某产品的态度或购买意愿是否有显著差异,从而为产品定位和营销策略 提供依据。
实际案例二:医学研究中的应用
总结词
在医学研究中,卡方检验常用于病例 对照研究和队列研究中的分类变量关 联性分析。
详细描述
例如,在病例对照研究中,我们可以 通过卡方检验来比较病例组和对照组 在某些基因型、生活方式或暴露因素 上的分布是否有统计学差异,从而探 讨病因或危险因素。

卡方检验1011ppt课件

卡方检验1011ppt课件
n R nC
多个样本率的比较
例11.3 某研究者欲比较A、B、C 三种方案治疗轻、中度高血压 的疗效,将年龄在50~70岁的240例轻、中度高血压患者随机等 分为3组,分别采用三种方案治疗。一个疗程后观察疗效,结果 见表11.4。问三种方案治疗轻、中度高血压的有效率有无差别?
表11.4 三种方案治疗轻、中度高血压的效果
编号
组别
编号
1
乙药
67
2
甲药
68
3
乙药
69
4
甲药
70
5
乙药
71
6
甲药
72
7
甲药
73
8
乙药
74
9
甲药
75
10
乙药
76
11
甲药
77
组别 甲药 乙药 乙药 甲药 乙药 甲药 甲药 甲药 乙药 乙药 甲药
患儿编号 1 2 3 4 5
.
.
Table. 结果记录表 处理 乙药 甲药 乙药 甲药 乙药
. .
疗效 有效 有效 无效 有效 无效
对子 2
C
随机
T
对子 3
C
配对设计
✓ 自身配对 a. 同一对象给予两种不同处理 b. 同一对象处理前后
例11.6 某研究者欲比较心电图和生化测定 诊断低钾血症的价值,分别采用两种方法 对79名临床确诊的低钾血症患者进行检查 ,结果见表11.9。问两种方法的检测结果是 否不同?
患者编号 1 2 3 4 5
表11.9 两种方法诊断低血钾的结果
心电图
+ - 合计
生化测定


45
25
4
5
49

第十章 卡方检验

第十章 卡方检验

率,也有理论概率,如二项分布、正态分布等。
二、配合度检验的应用
(一)检验无差假说
无差假说,是指各项分类的实计数之间没有差异, 也就是假设各项分类之间的机会相等,或概率相 等,因此理论次数完全按概率相等的条件计算。 即:
1 理论次数=总数× 分类项数
例10-1:随机抽取60名学生,询问他们在高中是 否需要文理分科,赞成分科的39人,反对分科的 21人,问他们对分科的意见是否有显著差异? (p298)
去除样本法
使用校正公式
第二节 配合度检验
配合度检验(goodness of fit test)主要用于 检验单一变量的实际观察次数分布与某理论次数
是否有差别。由于它检验的内容仅涉及一个因素
多项分类的计数资料,故可以说是一种单因素检 验(One-way test)。
一、配合度检验的一般问题
(一)统计假设 统计假设如下:
有的人因此用t检验检验两者的差异,这样做行吗?
第一节
2

2
检验的原理
一、 检验的假设
(一)分类相互排斥,互不包容
检验中的分类必须相互排斥,这样每一
2
个观测值就会被划分到一个类别或另一个类别 之中。此外,分类必须互不包容,这样,就不 会出现某一观测值同时划分到更多的类别当中 去的情况。
(二)观测值相互独立
3)统计决策
查 值表,当df 1时,
2 2 2 0.05
3.84,
2 0.01
6.63 ,
算得 值在两者之间,所以, p 0.05或 0.01

2 0.05
2 2 0.01
答:可以推论说,学生 们对高中文理分科的态 度 有显著差异,做这一结 论犯错误的概率在 .05至 0 0.01之间。

第十 章 卡方检验

第十    章  卡方检验

1.2967
0.4338 0.0960
步骤四
2
fo fe 2 2.3293
fe

自由度 = (R-1)×(C-1)=(2-1)×(4-1)= 3 α = 0.05,查表得:χ²α (3) = 7.815 由于 χ² < χ²α (3),所以我们不能拒绝虚无假设,即认为四个专业的 学生对宿舍管理改革的赞成是一致的,调查数据中的差异是由于抽样 的随机性造成的。
Ho:阅读习惯与学历没有关系
Ha:阅读习惯与学历有关系

我们需要利用 χ² 检验来进行独立性检验,这时候需要计算 χ² 统 计量,而 χ² 统计量是根据观察值和期望值计算得出来的。 因而,首先,我们需要计算期望值。根据列联表中任一单元格频数的 RT CT RT CT 期望值公式来求期望值:f e n n n n 其中,RT 是给定单元格所在行的合计;CT 是给定单元格所在列的 合计;n 为观察值的总个数,即样本容量。


只有列数,行数均相同时,我们才可以进行比较,而且要采用同种系 数才具有可比性。





克拉默 V 系数

φ 系数没有上限,克拉默 (Gramer) 以 φ 系数为基础提出了 V 相 关系数。其计算公式为:
V
n minR 1, C 1
2

其中,min [ (R-1), (C-1) ] 表示取 (R-1) 和 (C-1) 中较小的一个; V 的取值范围 0 ~ 1;
fe
28.8 34.04 10.75 16.46 19.7 23.29 10.75 11.26
( fo - fe)
9.2 5.96 0.25 - 10.46 1.3 - 1.29 - 1.75 1.74

第10章--卡方检验-(Chi-PPT课件

第10章--卡方检验-(Chi-PPT课件
备择假设:两变量之间有关联或差异显著,一般用文 字叙述,不用统计符号。
例题:某学校对学生的课外活动内容进行调查,结果 整理成下表:
-
18
应用举例一
女性 男性 总和
自我知觉
总和
过轻
过重
419
1995
2414
(786.78)(1627.22)
959
855
1814
(591.22)(1222.78)
1378
1995 1938.67
56.33 3173.41
1.37
5816 5816
0
2297.1 3
df=3-1=2 查表,0.05水平上临界值为5.99,故……
df=3-1=2 查表, 0.01水平上临界值为9.21
-
15
三、卡方独立性检验
(一)适用材料 主要用于两个或两个以上因素多项分类的计数资料
分析。如果要研究的两个自变量之间是否具有独 立性或有无关联或有无“交互作用”的存在,就 要应用卡方独立性检验。 如果两个子变量是独立的,无关联的,就意味着对 其中一个自变量来说,另一个自变量的多项分类 次数上的变化是在取样误差的范围之内。假如两 个因素是非独立,则称两变量有交互作用。
第十二章 非参数检验
-
1
一、参数与非参数检验
参数检验 用于等比/等距型数据 参数检验的前提:正态分布和方差同质
非参数检验 不用对参数进行假设 对分布较少有要求,也叫distributionfree tests 用于名义/顺序型数据
-
2
参数统计和非参数统计优缺点
• 参数统计 优点:
对资料的分析利用充分 统计分析的效率高
于等与临界值才显著),使用9或3均可 • 接受虚无假设

医学统计学课件卡方检验

医学统计学课件卡方检验

队列研究中的卡方检验
总结词
在队列研究中,卡方检验用于比较不同暴露 水平或不同分组在某个分类变量上的分布差 异,以评估暴露因素与疾病发生之间的关系 。
详细描述
队列研究是一种前瞻性研究方法,按照暴露 因素的不同将参与者分为不同的组,追踪各 组的疾病发生情况。通过卡方检验,可以比 较不同暴露水平或不同分组在分类变量上的 分布差异,如分析不同饮食习惯的人群中患
卡方检验与相关性分析的区别
卡方检验主要用于比较实际观测频数与期望频数之间的差异,而相关性分析则用于研究 两个或多个变量之间的关联程度。
卡方检验与相关性分析的联系
在某些情况下,卡方检验的结果可以为相关性分析提供参考,帮助了解变量之间的关联 程度。
05
卡方检验的应用实例
病例对照研究中的卡方检验
总结词
02
公式
卡方检验的公式为 $chi^{2} = sum frac{(O_{ij} - E_{ij})^{2}}{E_{ij}}$,
其中 $O_{ij}$ 表示实际观测频数,$E_{ij}$ 表示期望频数。
03
适用范围
卡方检验适用于两个分类变量的比较,可以用于分析病例对照研究、队
列研究等类型的研究。
卡方检验的用途
如比较不同年龄组、性别组等人群中某种疾病的患病率。
卡方检验的基本假设
每个单元格中的期望 频数应该大于5。
卡方检验对于样本量 较小的情况可能不适 用。
观察频数与期望频数 应该服从相同的概率 分布。
02
卡方检验的步骤
收集数据
01
02
03
确定研究目的
在开始卡方检验之前,需 要明确研究的目的和假设 ,以便有针对性地收集数 据。

练习题解答第十章 交互分类与卡方检验

练习题解答第十章 交互分类与卡方检验

第十章 交互分类与2χ检验练习题:1. 为了研究婆媳分居对于婆媳关系的影响,在某地随机抽取了180个家庭,调查结果如下表所示:(1) 计算变量X 与Y 的边际和(即边缘和)X F 和Y F 并填入上表。

(2) 请根据表10-26的数据完成下面的联合分布的交互分类表。

10-27(4) 根据表10-27指出关于X 的条件分布和关于Y 的条件分布。

解:(1)Y F (从上到下):50;30;100.X F (从左到右):115;65.(2)P 11=15/180;P 21=35/180;1Y F N =50/180;P 12=20/180;P 22=10/180;2Y F N =30/180; P 13=80/180;P 23=20/180;3Y F N =100/180;1X F N =115/180;2X F N =65/180.(3)关于X 的边缘分布:x 分居 不分居 P(x)115/18065/180关于Y 的边缘分布: y 紧张 一般 和睦 P(y)50/18030/180100/180(4)关于X 的条件分布有三个:y=“紧张” x 分居 不分居 P(x) 15/5035/50y=“一般” x 分居 不分居 P(x) 20/3010/30y=“和睦” x 分居 不分居 P(x) 80/10020/100关于y 的条件分布有两个: X=“分居”y紧张 一般 和睦 P(y)15/11520/11580/115X=“不分居”y紧张 一般 和睦 P(y)35/6510/6520/652. 一名社会学家关于“利他主义”的研究中,对被调查者的宗教信仰情况进行 了分析,得到的结果如下表所示:10-29。

(2)根据表10-28和表10-29计算2χ,计算公式为2()2o e ef f f χ-=∑。

(3)若要对有无宗教信仰的人的利他主义程度有无显著性差异进行检验,请陈 述研究假设1H 和虚无假设0H 。

第十章 卡方检验

第十章 卡方检验
第十章 卡方检验
双变量关系的假设检验
变量关系的显著性检验类型
定类 定类 定序 定距
卡方类测量 (卡方检验)
定序
卡方类测量 (卡方检验) Spearman 相 关系数 (Z 检验)
定距
方差分析 (F 检验) Spearman 相关 系数 (Z 检验) Pearson 相关 (F 检验) 回归系数 (T 检验)
相关样本四格表的独立性检验
• 124个学生1000 米长跑,训练 一个月前后两 次测验达标情 况如下表所示, 问一个月的训 练是否有显著 效果?
第二次测验 达标 未达标
第 一 次 测 验
达 标
未 达 标
a=61
b=19
c=33
d=11
1.缩减公式卡方值的计算
b c
2
家长所属的阶 层 高级知 识分子 职员 工人 总和 对某种学制的态度 赞成 14 22 12 48 反对 18 10 7 35 不定 20 12 10 42 总和
52 44 29 125
R×C表的独立性检验
f xi f yi ( f 0i f ei ) , 式中f ei f ei N

31 4
X 71.4; S 11.7
• 统计假设:
H 0 : 观测数据的次数分布与正态分布没有显著差异; H1 : 观测数据的次数分布与正态分布具有显著差异。
• 确定理论次数
• 计算卡方值
• 确定α水平,并查卡方临界值
• 统计决断
组别
f0
组上限
离差x
标准 分Z
Z点左 尾面积 比例
当组面 积比例
• 卡方检验是对样本的频数分布所来自的总 体分布是否服从某种理论分布所作的假设 检验,即根据样本的频数分布来推断总体 的分布。 • 卡方检验处理的是一个因素分为多种类别, 或多种因素各有多种类别的资料。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十章χ2检验χ检验的原理第一节2χ检验的假设一、2(一)分类相互排斥,互不包容2χ检验中的分类必须相互排斥,这样每一个观测值就会被划分到一个类别或另一个类别之中。

此外,分类必须互不包容,这样,就不会出现某一观测值同时划分到更多的类别当中去的情况。

(二)观测值相互独立各个被试的观测值之间彼此独立,这是最基本的一个假定。

如一个被试对某一品牌的选择对另一个被试的选择没有影响。

当同一被试被划分到一个以上的类别中时,常常会违反这个假定。

当讨论列联表时,独立性假定是指变量之间的相互独立。

这种情况下,这种变量的独立性正在被检测。

而观测值的独立性则是预先的一个假定。

(三)期望次数的大小每一个单元格中的期望次数应该至少在5以上。

一些更加谨慎的统计学家提出了更严格χ检验时,每一个单元格的期望次数至少不应低于的标准,当自由度等于1时,在进行210,这样才能保证检验的准确性。

另外,在许多分类研究中会存在这样一种情况,如自由度很大,有几个类别的理论次数虽然很小,但在给以接受的标准范围内,只有一个类别的理论次数低于1。

此时,一个简单的处理原则是设法使每一个类别的理论次数都不要低于1,分类中不超过20%的类别的理论次数可以小于5。

在理论次数较小的特殊的四格表中,应运用一个精确的多项检验来避免使χ检验。

用近似的2χ检验的类别二、2(一)配合度检验配合度检验主要用来检验一个因素多项分类的实际观察数与某理论次数是否接近,这种2χ检验方法有时也称为无差假说检验。

当对连续数据的正态性进行检验时,这种检验又可称为正态吻合性检验。

(二)独立性检验独立性检验是用来检验两个或两个以上因素各种分类之间是否有关联或是否具有独立χ检验适用于探讨两个变量之间是否具有关联(非独立)或无关(独性的问题。

这种类型的2立),如果再加入另一个变量的影响,即探讨三个变量之间关系时,就必须使用多维列联表分析方法。

(三)同质性检验同质性检验的主要目的在于检定不同人群母总体在某一个变量的反应是否具有显著差异。

当用同质性检验检测双样本在单一变量的分布情形,如果两样本没有差异,就可以说两个母总体是同质的,反之,则说这两个母总体是异质的。

三、2χ检验的基本公式2χ是表示实测次数与理论次数(即期望次数)之间差异程度的指标,其基本数学定义是实测次数与期望次数之差的平方与期望次数的比率。

2χ检验就是检验实测次数与期望次数是否一致的统计方法。

基本公式如下:2)(∑-=ee f f f χ 其中 0f 表示实际观察次数,e f 表示某理论次数。

要求:≥e f 5四、小期望次数的连续性校正第一,单元格合并法。

若有一格或多个单元格的期望次数小于5时,在配合研究目的情况下,可适当调整变量的分类方式,将部分单元格予以合并。

第二,增加样本数。

如果研究者无法改变变量的分类方式,又想获得有效样本,最佳的方法是直接增加样本数来提高期望次数。

第三,去除样本法。

如果样本无法增加,次数偏低的类别又不具有分析与研究价值时,可以将该类被试除去,但研究的结论不能推论到这些被除去的母总体中。

第四,使用校正公式。

在2×2的列联表检验中,若单元格的期望次数低于10但高于5,可使用耶茨校正(Yates ’ correction for continuity)公式来加以校正。

若期望次数低于5时,或样本总人数低于20时,则应使用费舍精确概率检验法(Fisher ’s exact probability test)。

当单元格内容牵涉到重复测量设计时(例如前后测设计),则可使用麦内玛检验(McNemar test)。

第二节 配合度检验配合度检验(goodness of fit test )主要用于检验单一变量的实际观察次数分布与某理论次数是否有差别。

由于它检验的内容仅涉及一个因素多项分类的计数资料,故可以说是一种单因素检验(One-way test)。

一、配合度检验的一般问题1.建立假设0H :e f f =0 a H :e f f =0在2χ检验中,理论(或期望)次数的确定就取决于这种比例的假设。

2χ的临界值是在0H 成立的条件下导出理论分布,并由2χ公式计算出来的。

若实际计算出的2χ值大于理论上的临界值()205.0df χ,即2χ>()205.0df χ则说在05.0=α的显著水平上拒绝0H 。

2.自由度的确定原则自由度确定的一般原则是:以相互独立的类别数k (或C )减去所受的限制数M ,即M k df -=在各种适合性检验中,如果理论次数只受到总和的限制,即受∑∑=ef f的限制,则自由度为1-=k df在正态分布的适合性检验,因其除了受∑∑=ef f的限制以外,还受理论分布的均数和标准差两个未知参数的限制,即受到三个条件的限制,其自由度为3-=k df3.理论次数的计算规则一是数据分布有其理论概率为依据,这时的理论次数()e f 等于总次数乘以某种属性出现的概率(p ),即Np f e =理论次数的计算,一般是根据某种理论,按一定的概率通过样本即实际观察次数计算。

某种理论有经验概率,也有理论概率,如二项分布、正态分布等理论概率。

二、配合度检验的应用 (一)检验无差假说这里讲的无差假说,是指各项分类的实计数之间没有差异,也就是假设,各项分类之间的几会相等,或概率相等,因此理论次数完全按概率相等的条件计算。

即:理论次数=总数×例10-1:随机抽取60名学生,询问他们在高中是否需要文理分科,赞成分科的39人,反对分科的21人,问他们对分科的意见是否有显著差异?解:1)建立假设分类项数1(赞成与反对的人数相等)(赞成与反对的人数不相等)2)计算统计量302160=⨯=e f 30)3021(30)3039()(2222-+-=-=∑fff eeχ 4.530)9(922=-+=3)进行统计决策查2χ表,当1=df 时,,,63.684.3201.0205.0==χχ因为4.52=χ,201.02205.0χχχ<<,所以,05.001.0<<p 。

达到显著性水平,拒绝原假设。

说明两种态度有显著差异。

例10-2:某项民意测验,答案有同意、不置可否、不同意三种。

调查了48人,结果同意的24人,不置可否的12人,不同意的12人。

问持这三种意见的人数是否有显著不同?解:此题为检验无差假说,已知分类的项数为三,故各项分类假设实计数相等。

所以1)建立假设ffH e=:ff H e≠1:2)计算统计量616)1612(16)1612(16)1624(2222=-+-+-=χ 3)进行统计决策查2χ表,当213=-=df 时,99.5205.0=χ,因为205.026χχ〉=,所以05.0<p 。

达到显著性水平,拒绝原假设。

说明三种态度有显著差异。

(二)检验假设分布的概率假设某因素各项分类的次数分布为正态,检验实计数与理论上期望的结果之间是否有差f f H e=00:f f H e ≠01:163148,48,31=⨯===feN p异。

因为已假定所观察的资料是按正态分布的,故其理论次数的计算应按正态分布概率,分别计算各项分类的理论次数。

具体方法是先按正态分布理论计算各项分类应有的概率再乘以总数,便得到各项分类的理论次数。

如果不是事先假定所观察的资料为正态分布而是其他分布,如二项分布、泊松分布等,其概率应按各所假定的分布计算。

事先假定的分布不是理论分布而是经验分布,亦可按此经验分布计算概率,在乘以总数便可得到理论次数,从而进一步检验假设分布与实计数的分布之间,亦即实计数与理论次数之间差异是否显著。

例10-3:某班有学生50人,体检结果按一定标准划分为甲乙丙三类,其中甲类16人,乙类24人,丙类10人,问该班学生的身体状况是否符合正态分布?解:该题中的理论次数应按假设的正态分布概率计算。

按正态分布,就可以认为 σ3± 包括了全体,各等级所占的横坐标应该相同(σσ236=÷),故各类人数应占的比率为:甲级:σσ1~3之间,曲线下的面积应为1587.03413.050.0=- 乙级:σσ1~1-之间,曲线下的面积应为6826.023413.0=⨯ 丙级:σσ3~1--之间,曲线下的面积应为1587.03413.050.0=- 各等级的理论次数为:8501587.0≈⨯=甲e f1)建立假设H 0:学生的身体状况符合正态分布 H 1:学生的身体状况不符合正态分布 2)计算统计量44.11881034342488162222=-+-+-=)()()(χ3)进行统计决策 当213=-=df 时,6.10205.0=χ,χχ205.02>,所以达到显著性水平,拒绝原假设。

说明学生身体状况不符合正态分布。

例10-4:根据以往的经验,某校长认为高中生升学的男女比例为2 :1,今年的升学情况是男生85人,女生35人,问今年升学的男女比例是否符合该校长的经验?解:此题是假设男女生升学的人数分布与校长的经验分布相同,故理论次数应按经验分34506826.0=⨯=fe 乙8501587.0≈⨯=fe 丙布的概率计算理论次数为:8032)3585(=⨯+=fe 男40313585=⨯+=)(女fe1) 建立假设H 0:男女升学比例符合校长经验 H 1:男女升学比例不符合校长经验 2)计算统计量94.04040-358080-85222=+=)()(χ3)进行统计决策 当12-=df 时,84.3205.0=χ,因为χχ205.02<,故差异不显著。

接受原假设。

说明男女升学比例符合校长经验。

三、连续变量分布的吻合性检验(自学)对于连续性数据总体分布的检验,一种方法是将测量数据整理成次数分布表,画出次数分布曲线图,根据次数分布曲线,判断选择恰当的理论分布。

有时可选择某一直线或曲线的理论分布函数方程式计算理论次数,然后把实际分组次数(0f )和理论次数(e f )代入检验的基本公式,计算2χ 值查2χ表,确定其差异是否显著。

若差异显著,说明实际次数分布于所选择的理论次数分布不吻合,这时可另选择理论分布函数,再次比较,直至吻合,这个理论分布函数就是该实际测量的次数分布函数。

若差异不显著则说明所选的理论次数分布于实际次数分布吻合。

对连续随机变量分布的吻合性检验,关键的步骤是计算理论次数与确定自由度。

理论次数的计算是把实际次数分布的统计量代入所选的理论分布函数方程,计算各分组区间的理论频率,然后乘以总数得到各分组区间的理论次数。

确定自由度时是将分组的数目减去计算理论次数是所用统计量的数目。

下面以正态分布吻合性检验为例,说明理论次数的计算与自由度的确定。

例10-5:表10-1所列资料是552名中学生的身高次数分布,问这些学生的身高分布是否符合正态分布。

相关文档
最新文档