第九讲 卡方检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
e
■注
-如果实际观察次数与理论次数的差异越
大,卡方检验的结果就越可能拒绝无差
虚无)假设接受备择假设。
-理论次数 f e 越大( f e 5)拟合效果 越
好。
1、卡方检验基本公式
2
K
f o f e
f
e
2
■注 K 为类别的数目; f o 是实际观察值; f e是理论(期待)次数;
f
.1
f
.2
f
.j
f
.R
N
3、独立性检验的一般问题与步骤
⑴统计假设
H : 二因素或多因素之间是独立;(数据)
0
⑵理论次数的计算
fe
f i. f
N
.j
ij
⑶自由度的确定
df R 1K 1
⑷卡方检验
2
f o f e
f
e
2
………(公式1)
⑸统计推断
2 N
X 154.62
理论次数
1 7 24 60 104 130 114 70 31 9 2
f o f e
f
e
2
3.03 2.44 1.85 1.26 0.67 0.07 -0.52 -1.11 -1.70 -2.29 -2.88
0.00237 0.01201 0.04260 0.10888 0.18858 0.23544 0.20615 0.12746 0.05562 0.01710 0.00396
绿色字母 17 12 20 25
蓝色字母 19 9 14 28
二、 检验的基本原理
2
理论基础是1899年皮尔逊的工作:在分
布拟合优度检验中,实际观察次数 f 与理 论次数 f 之差的平方除以理论次数近似服
o e
从 分布,即:
2
2 K
f o f e ~
2
2
f
df
经 济 低 手机品牌 甲 性 男 13 乙 2 丙 3
水 甲 4
平 高 乙 12 丙 4
别
女 9
3
7
8
5
2
四、同质性检验与数据的合并
1、同质性检验(test for homogeneity)
◆几个不同的因素之间是否有实质差异 ◆判断几次重复实验的结果是否同质 ⑴单因素分类数据的同质性检验 ①样例
2
ห้องสมุดไป่ตู้
49 64
e
即:实际观察次数与某分布理论次数 之间无差异;
H:f
1
o
f
e
⑵数理基础
H0:
f
0
f
e
2 K 2
f o f e ~
2
2
f
df
e
⑶依统计检验公式,计算实得卡方值
2
K
f o f e
f
e
f
e
N
p
e
⑷作出统计决断
2
N:总数 Pe:具体类别理论概率
⑵ 检验校正公式
2
2
A B C D A C B D
N N AD BC 2
2
6、多重列联表分析 ⑴适用范围 分类变量数目多于2个
■例:讨论性别(男、女)、婚姻(未
婚、已婚)及生活满意状况(刺
激、规律、无聊)之间的关系。
⑵多重列联表的分析 ①确定控制变量(分层变量) [例]性别 ②分别对在控制变量的每一水平下的另两个 变量形成的列联表进行分析; [例] *男性婚姻状况与生活满意状态关联分析 *女性婚姻状况与生活满意状态关联分析
f o f e 2
2
2
f
~
2 df 1
e
■结论:Z检验与卡方检验一致 (样本比率p的真正分布是二项分布)
■例 某班有100名学生,男生的有42人,问男生
的比率是否与0.5有显著差异? ①比率显著性检验
Z p
p pq
0
e
1.6
0
②用卡方检验(配合度)
2
n
4250 5850 2.56
M :是约束条件数或利用观察数据时使
用的样本统计量的数目;
2、卡方检验的假设
⑴分类相互排斥,互不包容;
⑵观察值相互独立; ⑶期望次数的大小应大于或等于5(较好趋 近卡方分布的前提);
■注
①自由度小时,必须 f 5 ,否则利用卡方 检验需要进行较正或用精确的分布 进行 检验; ②自由度大时,可以有少许类别的理论次 数少于5; ③应用卡方检验时,应注意取样设计,保 证取样的代表性,否则依据卡方检验的 结果难以保证结论的科学性;
⑶同质性检验
主要用于检验不同人群母总体在某一个变
量上的反应是否有显著差异。 [例]从四所幼儿园分别随机抽出6 岁儿童若 干,各自组成一个实验组,进行识记测 验。测验材料是红、绿、蓝三种颜色书
写的字母,以单位时间内的识记数量为
指标,结果如下。问四组数据是否可以 合并分析。
分组 1 2 3 4
红色字母 24 15 20 10
2
3.905
2 .05 93
12.6
5、二项分类的配合度检验与比率显著检验 ⑴设总体比率为 p 0 , p0 q0 且n p0 5时
Z p
p pq
0
e
~ N 0,1
0
n Z p
p pq
0
e
np n
0
p np q
0
e
f
o
e
f
e
0
f
n
1 2
Z
2
2
比率差异的显著性检验。
■例 随机抽取90名学生,将学生按性别与学习
成绩进行分类,结果如下表,问男女大学生 在学业成绩上是否有关联?或男女学生在成 绩中等以上的比率是否存在显著差异?
学 业 水 平
中等以上 中等以下
性 男 别 女
23 28
17 22
5、四格表中若有单元格理论次数<5 ⑴Fisher精确概率检验(略)
自由度是各样本组累计自由度与合并后总
数据的自由度之差。
◆异质性 值大于临界值,样本组间数据
2
异质; ◆不显著,则同质;
■例 从四所幼儿园分别随机抽出6 岁儿童若干 ,各自组成一个实验组,进行识记测验。测 验材料是红、绿、蓝三种颜色书写的字母, 以单位时间内的识记数量为指标,结果:
分组 1 2 3 4 红色字母 24 15 20 10 绿色字母 17 12 20 25 蓝色字母 19 9 14 28
名与年龄是否有关联?
年龄组
4岁组
A幼儿园 11 18
B幼儿园 10 15
C幼儿园 15 20
D幼儿园 13 17
达标 未达标 达标 未达标 达标 未达标 达标 未达标
6岁组
14
9
17
10
16
9
17
2
11
合 并 4岁组 数 据 6岁组 表 小计
年龄组
颜色命名能力 达标 未达标
小计 110 103
变异原因 自由 P 合并 9.705 1 <.05
0.125 0.167 0.150 0.471 0.277 0.035 1.429 1.161 0.09
N 552
S 5.07
■分析
其一、分组数据第1组理论次数的计算
f
e1
N
p
e1
i pe1 y Z X S C1
i 注: S
=组上限的Z值-组下限的Z值
其二、拟合指标卡方值的计算
2 2
男 生
1.6
2
女 生 58 50
50
50
f 42 f 50
o e
⑵当 p q 且 n p0 5时卡方检验公式
0 0
2
f o f e
f
e
2
⑶ 的连续性校正(二项分类数据或比率)
2
当期望次数小于5时,卡方检验需要校正,
Yates建议的校正公式为:
2
f
o
信息判断其是否服从某种确定的连续性分布。 ⑴检验方法 ①将连续性的测量数据整理成次数分布表 ②画出相应的次数分布曲线;
③选择恰当的理论分布;
④进行拟合检验;
■例:下表是552名学生的身高次数分布,问这 些学生的身高分布是否符合正态分布?
身高 组中值 次数 离均差 Z分数 P
169~ 166~ 163~ 160~ 157~ 154~ 151~ 148~ 145~ 142~ 139~ 170 167 164 161 158 155 152 149 146 143 140 2 7 22 57 110 124 112 80 25 8 4 15.38 12.38 9.38 6.38 3.38 0.38 -2.62 -5.62 -8.62 -11.62 -14.62
f e 12 f
e
2
■注:校正后的结果与二项分布的结果一致
四、独立性检验(test of independence) 1、功能(例)
主要通过对两个或两个以上因素多项分
类的计数资料的分析,以研究两变量或多
个变量之间的关联性与依存性。
2、一个术语-列联表
独立性检验一般多采用表格的形式记录
观察结果的计数资料,这种表格即列联表。
4、独立样本四格表 检验(列联表特例)
2
⑴检验公式(各单元格理论次数>5)
2
N
A B C D A C B D
因 素 A 分类1 分类2 因
分 类 1
AD BC
2
⑵自由度
df 2 12 1
A C
B D
素 分 类 B 2
■注:独立样本四格表 检验相当于独立样本
③对于控制变量的不同水平所进行的单个列联
表分析 ⅰ、如果 值不显著,此时可以将各个水
2
平下的 值相加,以推测列联表中两
2
个变量总的 值,并进行关联性检定。
2
ⅱ、当控制变量各水平不一致时,必须单独就 个别关联表进行分析。
■例
某通讯公司想了解大学生最喜欢的手机品
牌,随机抽取了72名大学生,调查性别、 家庭经济水平以及最喜欢的手机品牌,来 探讨这三个变量之间的关系,调查结果如 下表。
f ij f i. f
2
1 .j
2
实际
2
2
df
2
拒绝假设
实际
df
接受假设
■注 ◆R×C的卡方检验,允许有的格内的实计数
为0,最小的理论次数为0.5; ◆R×C 的卡方检验中最小的理论次数小于 0.5 或1(2 ×C列联表),一般采用合并 项目的方法,而不用连续性校正公式;
(df )
3、离散型分布的拟合检验 ■例
某项民意测验,答案有同意、不臵可否、 不同意3种。调查了48人,结果同意的24人 ,不臵可否的人12人,不同意的12人,问持 这3种意见的人数是否存在显著差异?
4、连续型分布拟合检验(例)
对于连续随机变量的测量数据,有时不知
道其总体分布,需要根据样本的次数分布的
②检验过程
ⅰ、计算各个样本组的 值和自由度;
2
ⅱ、累加各样本组 值,计算其总和及自由
2
度的总和; ⅲ、将各个样本组原始数据按相应类合并, 产生一个总的数据表,并计算这个总数
据表的 值和自由度;
2
iv、计算各样本组的累计 值与总测试次数合
2
并获得的 值之差(异质性 值),其
2 2
问四组数据是否可以合并分析?
⑵列联表形式的同质性检验
[例]对四所幼儿圆的幼儿颜色命名能力进行
了调查,调查材料是15种颜色的彩色铅
笔。凡能正确命名8种及8种以上颜色者 为达标,低于8 种颜色则未达标。调查 对象分4岁组、6岁组。四所幼儿园调查 的数据见下表。问这四所幼儿园儿童颜
色命名能力调查结果是否同质?颜色命
节目1 节目2 节目3 节目4 节目5 节目6
85
80
55
10
40
30
问:就调查的300人而言,他们对6个节目的 偏好(体现在人数)是否存在显著的差 异?
⑵变量间的独立性检验 在对一批观察数据进行双向多项分类之 后,这两个分类特征是独立无关的还是具 有连带相关的关系?
■例
某师范大学为了了解广大师生对实行“中 期选拨”制度的态度。曾以问卷调查的形式 对977名低年级学生、790名高年级学生和 764名教师进行随机调查,调查结果:
第九讲 卡方检验
一、 检验的功能
2
1、适用资料─计数数据
计数数据的统计分析,测量数据的统计
方法并不适用,卡方检验是较为常用的一
种方法。
2、卡方检验的功能 ⑴拟合优度检验[例]
即通过实际调查与观察所得到的一批 数据,其次数分布是否服从理论上所假 定的某一概率分布;
■例 某广播电视台为了了解广大儿童对其提供 的6种儿童节目的偏好(态度),随机抽取 了300名儿童,问他们最喜欢哪一种节目( 每人只能选一种),得到的数据如下表:
R×K 型列联表(二个因素:一个因素有
R个分类,另一有K个分类)
R×K 型列联表一般数据结构示意图
因素A 因素B
A1
A2
…….. Aj
12
……
1j
AR
B1 B2
f f
11
f f f f
f
f
1R
f
1.
21
22
f f
f
2j
f
f
2R
f
f f
2.
…
Bi … Bk
f
f
i1
i2
ij
iR
i.
k1
k2
kj
f
kR
k.
e
三、卡方检验应用一——总体分布的拟合检 验(goodness of fit test 配合度检验) 由于检验内容仅涉及一个变量多项分类 的计数资料,也称one-way test)
1、配合度检验的一般问题
即检验实际观察数据的分布与某理
论分布是否有显著的差别。
2、检验过程
⑴统计假设
H :f
0
0
f