【优选推荐】统计学第9章分类数据分析

合集下载

贾俊平《统计学》(第7版)考研真题与典型题详解第9章~第10章【圣才出品】

表 9-1 关于餐厅改革的调查结果
这个表格是（）。 A．4×3 列联表 B．3×2 列联表 C．2×3 列联表 D．3×4 列联表【答案】B 【解析】表中的行是态度变量，这里划分为三类，即赞成、中立和反对；表中的列是单位变量，这里划分为两类，即男同学和女同学，因此这个表格是 3×2 列联表。
2 / 60
圣才电子书

十万种考研考证电子书、题库视频学习平台
第 9 章分类数据分析
一、单项选择题 1．列联分析是利用列联表来研究（）。 A．两个数值型变量的关系 B．两个分类变量的关系 C．两个数值型变量的分布 D．一个分类变量和一个数值型变量的关系【答案】B 【解析】列联表是由两个或以上的变量进行交叉分类的频数分布表，列联分析是利用列联表来研究两个分类变量之间的关系。
10．某大学为了解男女毕业生对开设《职业规划》这门课程的看法，分别抽取了 500 名男学生和 500 名女学生进行调查，得到的结果如表 9-7 所示。
表 9-7 关于开设《职业规划》课子书、题库视频学习平台

如果要检验男女毕业生对开设《职业规划》这门课程的看法是否相同，即检验假设 H0： π1＝π2＝850/1000＝0.85，χ2 检验统计量的自由度是（）。
表 9-5
根据这个列联表计算的χ2 统计量的值为（）。 A．0.6176 B．1.2352 C．2.6176 D．3.2352 【答案】B 【解析】非参数检验中的χ2 拟合优度检验和可以应用于列联表的独立性检验来测定两个分类变量之间的相关程度。用 fo 表示观察值频数，用 fe 表示期望值频数，则χ2 统计量为：
4 / 60
圣才电子书十万种考研考证电子书、题库视频学习平台

【解析】赞成研究生奖学金制度改革的行百分比分别为：（90/174）×100%＝51.7%；（84/174）×100%＝48.3%。

贾俊平《统计学》配套题库【课后习题】详解第9章~第10章【圣才出品】

第9章分类数据分析一、思考题1．简述列联表的构造与列联表的分布。

答：列联表是由两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看，一个是观察值的分布，又称为条件分布，每个具体的观察值就是条件频数；一个是期望值的分布。

2．用一张报纸、一份杂志或你周围的例子构造一个列联表，说明这个调查中两个分类变量的关系，并提出进行检验的问题。

答：对三个生产厂甲、乙、丙提供的学习机的A、B、C 三种性能进行质量检验，欲了解生产厂家同学习机性能的质量差异是否有关系。

抽查了450部学习机次品，整理成为如表9-2所示的3×3列联表。

表9-2A B C 总计甲乙丙204015459065357070100200150总计75200175450根据抽查检验的数据表明：次品类型与厂家（即哪一个厂）生产是无关的（即是相互独立的）。

建立假设：H 0：次品类型与厂家生产是独立的，H 1：次品类型与厂家生产不是独立的。

次品类型生产厂可以计算各组的期望值，如表9-3所示（表中括号内的数值为期望值）。

表9-3各组的期望值计算表A B C 总计甲乙丙20（17）40（33）15（25）45（44）90（89）65（67）35（39）70（78）70（58）100200150总计75200175450所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。

而自由度等于（R －1）（C －1）=（3－1）×（3－1）=4，若以0.01的显著性水平进行检验，查χ2分布表得20.01(4)13.277χ=。

由于220.019.821(4)13.277χχ=<=，故接受原假设H 0，即次品类型与厂家生产是独立的。

3．说明计算2χ统计量的步骤。

答：计算2χ统计量的步骤：（1）用观察值o f 减去期望值e f ；（2）将（o f －e f ）之差平方；（3）将平方结果2)(e o f f -除以e f ；（4）将步骤（3）的结果加总，即得：22()o e ef f f χ-=∑。

《分类数据分析》PPT课件 (2)

精选课件ppt
2
分类数据分析的应用范围
政治学领域：研究政治立场是否影响政治派别。社会学和心理学领域：分析不同类别的人不同的心理
特征。公共政策分析领域：研究不同政策在不同地区产生的
效果。文化传播领域：研究人们对媒体的看法。分类数据分析是社会科学中最重要的课题之一。一方
面因为它的用途广泛，另一方面因为它解决的是基本问题
PRE是不对称的，即需要区分自变量和因变量。
在样本高度不均匀时，会出现不独立但是结果为0的情况。
精选课件ppt
31
Goodman and Kruskal’s Lambda
Lambda方法是PRE方法的一种，原理是分别计算在两种情况下预测错误的比例，然后进行比较。
X
c
d
Totals
Y
a
0.3 0.1 0.4
民主党
X：党派独立党
共和党
革命的
Y:
场立
中立的
保守的
33% （193）
41% （241）
26% （153）
100% （587）
30% （161）
37% （199）
34% （182）
100% （542）
11% （46）
33% （134）
56% （229）
100% （409）
400 574 564 1538
y
j1
(1Pm)
j1 (1Pm)
J
J
(1Pm)(1 Pim ) 1 (1Pm)
J
( nmj ) nm
ˆy
j 1
(n nm )
精选课件ppt
33
Lambda的方差
J

统计学第9章相关分析和回归分析

回归模型的类型
回归模型
一元回归
线性回归
10 - 28
多元回归
线性回归非线性回归
非线性回归
统计学
STATISTICS (第二版)
一元线性回归模型
10 - 29
统计学
STATISTICS (第二版)
一元线性回归
1. 涉及一个自变量的回归 2. 因变量y与自变量x之间为线性关系

被预测或被解释的变量称为因变量 (dependent variable)，用y表示用来预测或用来解释因变量的一个或多个变量称为自变量 (independent variable) ，用 x 表示
统计学
STATISTICS (第二版)
3.相关分析主要是描述两个变量之间线性关系的密切程度；回归分析不仅可以揭示变量 x 对变量 y 的影响大小，还可以由回归方程进行预测和控制 4.回归系数与相关系数的符号是一样的，但是回归系数是有单位的，相关系数是没有单位的。
10 - 27
统计学
STATISTICS (第二版)
10 - 19
统计学
STATISTICS (第二版)
相关系数的经验解释
1. 2. 3. 4.
|r|0.8时，可视为两个变量之间高度相关 0.5|r|<0.8时，可视为中度相关 0.3|r|<0.5时，视为低度相关 |r|<0.3时，说明两个变量之间的相关程度极弱，可视为不相关
10 - 20
10 - 6
统计学
STATISTICS (第二版)
函数关系
(几个例子)

某种商品的销售额 y 与销售量 x 之间的关系可表示为 y = px (p 为单价)

贾俊平《统计学》(第5版)课后习题-第9章分类数据分析【圣才出品】

第9章　分类数据分析一、思考题1．简述列联表的构造与列联表的分布。

答：列联表是由两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看，一个是观察值的分布，又称为条件分布，每个具体的观察值就是条件频数；一个是期望值的分布。

2．用一张报纸、一份杂志或你周围的例子构造一个列联表，说明这个调查中两个分类变量的关系，并提出进行检验的问题。

答：对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验，欲了解生产厂家同学习机性能的质量差异是否有关系。

抽查了450部学习机次品，整理成为如表9-2所示的3×3列联表。

表9-2根据抽查检验的数据表明：次品类型与厂家（即哪一个厂）生产是无关的（即是相互独立的）。

建立假设：H0：次品类型与厂家生产是独立的，H1：次品类型与厂家生产不是独立的。

可以计算各组的期望值，如表9-3所示（表中括号内的数值为期望值）。

表9-3 各组的期望值计算表所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。

而自由度等于（R －1）（C －1）=（3－1）×（3－1）=4，若以0.01的显著性水平进行检验，查χ2分布表得20.01(4)13.277χ=。

由于220.019.821(4)13.277χχ=<=，故接受原假设H 0，即次品类型与厂家生产是独立的。

3．说明计算2χ统计量的步骤。

4．简述ϕ系数、c 系数、V 系数的各自特点。

答：（1）ϕ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数。

它的计算公式为：ϕ，式中，∑-=ee of f f 22)(χ；n 为列联表中的总频数，也即样本量。

统计学(第六版)第九章分类数据分析(课后习题答案)

H 0 : 1 2 3 4 0.3 H1: 1 , 2 , 3 , 4不全相等
（2）计算样本统计量 χ2 fo 25 40 47 46 69 51 74 57 36 fe 39 35 42 42 62 56 67 67 29 fo-fe -14 5 5 4 7 -5 7 -10 7 (fo-fe)2 196 25 25 16 49 25 49 100 49 (fo-fe)2/fe 5.025641026 0.714285714 0.595238095 0.380952381 0.790322581 0.446428571 0.731343284 1.492537313 1.689655172
9.2 从总体中随机抽取了 n=200 的样本，调查后按不同属性归类，得到如下结果： n1=28，n2=56，n3=48，n4=36，n5=32 依据经验数据，各类别在总体中的比例分别为： π1=0.1，π2=0.2，π3=0.3，π4=0.2，π5=0.2 以 α=0.1 的显著性水平进行检验，说明现在的情况与经验数据相比是否发生了变化（用 P 值）解：虚拟假设 H0：样本数据的各类数据的比例与总体中各类数据的比例相同 H1：样本数据的各类数据的比例与总体中各类数据的比例不同计算样本统计量 χ2 fo 28 56 48 36 32 fe 20 40 60 40 40 fo-fe 8 16 -12 -4 -8 (fo-fe)2 64 256 144 16 64 (fo-fe)2/fe 3.2 6.4 2.4 0.4 1.6 14 χ2 的自由度为（5-1）=4，P=0.007 远小于显著性水平 α=0.1，故拒绝 H0，现在的情况与经验数据相比已经发生了变化（显著差异）。
26 19 37

贾俊平《统计学》(第五版)考研真题(含复试)与典型习题详解分类数据分析

合计
赞成
35
30
65
反对
15
20
35
合计
50
50
100
如果要检验男女教师对教师体制改革的看法是否相同，提出的原假设为（）。
A．H0：π1=π2=35 B．H0：π1=π2=50 C．H0：π1=π2=65
6 / 19
圣才电子书

D．H0：π1=π2=0.65
十万种考研考证电子书、题库视频学习平台
156 162
圣才电子书

A．0.6176
十万种考研考证电子书、题库视频学习平台
B．1.2352
C．2.6176
D．3.2352
【答案】B
【解析】 2 检验可以用于变量间拟合优度检验和独立性检验，可以用于测定两个分类变量之间的相关程度。用 fo 表示观察值频数，用 fe 表示期望值频数，则 2 统计量为：
圣才电子书

十万种考研考证电子书、题库视频学习平台
第 9 章分类数据分析
一、单项选择题
1．列联分析是利用列联表来研究（）。
A．两个数值型变量的关系
B．两个分类变量的关系
C．两个数值型变量的分布
D．一个分类变量和一个数值型变量的关系
【答案】B
【解析】列联表是由两个以上的变量进行交叉分类的频数分布表，列联分析是利用列联
【解析】表中的行是态度变量，这里划分为三类，即赞成，中立和反对；表中的列是单位变量，这里划分为两类，即男同学和女同学，即 3×2 列联表。
5．一所大学为了解男女学生对后勤服务质量的评价，分别抽取了 300 名男学生和 240
名女学生进行调查，得到的结果如表 9-2 所示。
表 9-2 关于后勤服务质量评价的调查结果

分类数据分析

赞成反对
合计
男学生 45 105 150
女学生 42 78 120
合计 87 183 270
9 - 18
c 统计量
统计学
STATISTICS (第四版)
概述
c2检验(Chi-square test)是现代统计学的创始人之一，英国人K . Pearson（ 1857-1936）于1900年提出的一种具有广泛用途的统计方法，因此又称为Pearson c2检验。可用于两个或多个率或构成比间的比较，定性资料的关联度分析，拟合优度检验等等。
一分公司
二分公司三分公司四分公司
赞成该方案
反对该方案
实际频数期望频数实际频数期望频数
68
75
57
79
100*66.4%=66
150*66.4%=80
90*66.4%=6 0
110*66.4%=73
32
75
33
31
100*33.6%=34
150*33.6%=40
90*33.6%=3 0
110*33.6%=37
n
9 -9
统计学
STATISTICS (第四版)
列联表的结构
(r c 列联表的一般表示)
列(cj)
列(cj)
行(ri)
j =1
j =2
…
i =1
f11
f12
…
i=2
f21
f22
…
:
:
:
:
合计
c1
c2
…
fij 表示第 i 行第 j 列的观察频数
合计
r1 r2
:
n
9 - 10

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1. 测度2?2列联表中数据相关程度
2. 对于2?2 列联表，? 系数的值在0～1之间 3. ? 相关系数计算公式为
? ? c2
n
式中：c 2 ?
r ?
c ?
（fij
?
eij）2
i?1j?1 e
ij
n为实际频数的总个数即，样本容量
9 - 21
作者：贾俊平，中国人民大学统计学院
9.1.1 分类数据 9.1.2 c 2统计量
9 -4
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
分类数据
9 -5
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
分类数据
1. 分类变量的结果表现为类别
? 例如：性别 (男, 女)
2. 各类别用符号或数字代码来测度
3. 使用分类或顺序尺度
? 你吸烟吗?
? 1.是；2.否
? 你赞成还是反对这一改革方案?
? 1.赞成；2.反对
4. 对分类数据的描述和分析通常使用列联表
5. 可使用?c?检验
9 -6
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
c ? 统计量
9 -7
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
9.2 拟合优度检验
9 - 10
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
拟合优度检验
(例题分析)
【例】 1912年4月15日，豪华巨轮泰坦尼
克号与冰山相撞沉没。当时船上共有共 2208人，其中男性 1738人，女性 470人。海难发生后，幸存者为 718人，其中男性 374人，女性 344人，以的显著性水平检验存活状况与性别是否有关。 (? ?0.05)
11
i=2
f
21
:
:
列(c ) j
j=2
f
12
f
22:合计cc1
2
f 表示第 i 行第 j 列的观察频数
ij
9 - 16
合计 …
…
r
1
…
r
2
:
:
…
n
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
独立性检验
(例题分析)
【例】一种原料来自三个不同的地区，原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验，结果如表9-3 所示，要求检验各个地区和原料质量之间是否存在依赖关系？ (? ?0.05)
9 - 11
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
拟合优度检验
(例题分析)
解：要回答观察频数与期望频数是否一致，检验如下假设：
H0：观察频数与期望频数一致 H ：观察频数与期望频数不一致
1
9 - 12
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
ij
5. 表中列出了行变量和列变量的所有可能的组合，所以称为列联表
6. 一个 r 行 c 列的列联表称为 r ? c 列联表
9 - 15
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
列联表的结构
(r ? c 列联表的一般表示)
列(c ) j
行(r )
j =1
i
i =1
f
1. 品质相关
? 对品质数据 (分类和顺序数据 )之间相关程度的测度
2. 列联表变量的相关属于品质相关
3. 列联表相关测量的统计量主要有
? ? 相关系数
? 列联相关系数 ? V 相关系数
9 - 20
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
? 相关系数
(correlation coefficient)
统计学第 9 章分类数据分析
STATISTICS (第五版)
9 -1
作者：中国人民大学统计学院贾俊平
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
第 9 章分类数据分析
9.1 分类数据与c 2统计量 9.2 拟合优度检验 9.3 列联分析：独立性检验 9.4 列联分析中应注意的问题
独立性检验
(例题分析)
9 - 18
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
9.4 列联表中的相关测量
9.4.1 ? 相关系数
9.4.2 列联相关系数 9.4.3 V 相关系数
9 - 19
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
列联表中的相关测量
9 -2
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
学习目标
1. 理解分类数据与c 2 统计量
2. 掌握拟合优度检验及其应用 3. 掌握独立性检验及其应用 4. 掌握测度列联表中的相关性
9 -3
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
9.1 分类数据与列联表
拟合优度检验
(例题分析)
自由度的计算为 df=R-1，R为分类变量类型的
个数。在本例中，分类变量是性别，有男女两个类别，故 R=2 ，于是自由度 df=2-
1=1，经查分布表， c ?（0.1）(1)=2.706，故
拒绝H0，说明存活状况与性别显著相关
9 - 13
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
c ? 统计量
1. 用于检验分类变量拟合优度 2. 计算公式为
? c 2 ?
( f ? f )2
o
e
f
e
9 -8
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
c ? 统计量
分布与自由度的关系
9 -9
作者：贾俊平，中国人民大学统计学院
统计学 9.3 列联分析：独立性检验
STATISTICS (第五版)
9.3.1 列联表
9.3.2 独立性检验
9 - 14
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)
列联表
(contingency table)
1. 由两个以上的变量交叉分类的频数分布表
2. 行变量的类别用 r 表示， ri 表示第 i 个类别 3. 列变量的类别用 c 表示， cj 表示第 j 个类别 4. 每种组合的观察频数用 f 表示
解：H0：地区和原料等级之间是独立的（不存在依赖关系） H ：地区和原料等级之间不独立（存在依赖关系）
1
c? 0.05(4)=9.488故拒绝H0，接受H1 ，即地区和原料等级之间存在依赖关系，原料的质量受地区的影响
9 - 17
作者：贾俊平，中国人民大学统计学院
统计学
STATISTICS (第五版)

【优选推荐】统计学第9章分类数据分析

贾俊平《统计学》(第7版)考研真题与典型题详解 第9章~第10章【圣才出品】

贾俊平《统计学》配套题库 【课后习题】详解 第9章~第10章【圣才出品】