第6讲-列联分析与方差分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第6讲 列联分析与方差分析
数据、模型与决策
一、列联分析
数据、模型与决策
现实中的相关性分析
你感觉幸福吗?
数据、模型与决策
现实中的相关性分析
你感觉幸福吗?
数据、模型与决策
现实中的相关性分析
数据、模型与决策
现实中的相关性分析
换言之:
上海青年的幸福感与职 业、性别、年龄、是否 独生子女等因素显著相 关。
数据、模型与决策
(二)、列联表检验的原理
将数据做成列联表:
凶手
白人 黑人 总计
死刑判决


19
141
17
149
36
290
总计
160 166 326
数据、模型与决策
(二)、列联表检验的原理
计算检验的P值: 当原假设为真时,出现像此次样本这样极端甚至更极端的概率
凶手
白人 黑人 总计
死刑判决 是否 19 141 17 149 36 290
数据、模型与决策
定性数据的相关性分析: 列联表(contingency table)检验
(一)、什么是列联表? (二)、列联表检验的原理 (三)、列联表检验的应用 (四)、结果的解读
数据、模型与决策
(三)、列联表检验的应用
1、列联表使用的前提条件: 当每一格子中的频数大于等于5时,检验结果才比
较可靠!
性 别
频数
男5
女2
男8
女7
男 10
女9
男 20
女 25
男 10
女 15
男5
女7
此表记录了123个人对某项政策的 观点,并根据他们的收入程度和 性别进行了分类,共12类。
这样的列联表更直观,而且行 和列都有很明确的意义
收入程度 性别 观点 低 中等 高 总计
收入 收入 收入
反对 5
8
10 23

赞成 20
分析变量之间的相关性, 可采用统计学中相关性 分析方法。
数据、模型与决策
相关性分析方法
定性变量之间的相关性分析: 用列联表检验、相应分析等方法
定性与定量变量之间的相关性分析: 用方Βιβλιοθήκη Baidu分析、多重比较等方法
定量变量之间的相关性分析: 用相关系数、回归分析等方法
数据、模型与决策
定性数据的相关性分析: 列联表(contingency table)检验
(一)、什么是列联表? (二)、列联表检验的原理 (三)、列联表检验的应用 (四)、结果的解读
数据、模型与决策
(一)、什么是列联表
类别 序号
1 2 3 4 5 6 7 8 9 10 11 12
对政策 的观点 反对 反对 反对 反对 反对 反对 赞成 赞成 赞成 赞成 赞成 赞成
收入程度
低收入 低收入 中等收入 中等收入 高收入 高收入 低收入 低收入 中等收入 中等收入 高收入 高收入
1、分层
性别 男 女
观点
反对 赞成 反对 赞成
收入程度
低 中等 高 收入 收入 收入
5
8
10
20
10
5
2
7
9
25
15
7
男性层:
收入程度
观点 低 中等 高 总计 收入 收入 收入
反对 5
8
10 23
赞成 20
10
5 35
总计 25
18
15 58
女性层:
观点
反对 赞成 总计
收入程度
低 中等 高 总计 收入 收入 收入
2
7
9 18
25
15
7 47
27 数据22、模型1与6 决策65
(三)、列联表检验的应用
2、压缩
性别 男 女
观点
反对 赞成 反对 赞成
小计
160 166
期望频
数326
死刑判决
凶手
小计
是否
白人 17.7 142.3 160
黑人 18.3 147.7 166
小计 36 290 326
χ2
(19 − 17.7)2 17.7
++
期望频
(149 − 147.7)2 147.7
≈ 0.22
度量样本与原假 设情况的差异
数据、模型与决策

(二)、列联表检验的原理
10
5 35
反对 2
7

赞成 25
15
9 18 7 47
总计
52
40
31 123
数据、模型与决策
定性数据的相关性分析: 列联表(contingency table)检验
(一)、什么是列联表? (二)、列联表检验的原理 (三)、列联表检验的应用 (四)、结果的解读
数据、模型与决策
(二)、列联表检验的原理
例: 美国司法中是否存在种族歧视
下表是1976年至1977年美国佛罗里达州29个地区凶杀案件中凶 手的肤色和是否被判死刑的326个犯人的情况。
凶手
白人 黑人
死刑判决


19
141
17
149
死刑判决的比例
0.119 0.102
数据、模型与决策
(二)、列联表检验的原理
如何进行列联表检验?
设置假设检验问题: 原假设:凶手肤色与是否被判死刑独立 备择假设:凶手肤色与是否被判死刑不独立(相关)
总计
160 166 326
实际频数
当原假设为真,即凶手肤色与 是否被判死刑独立时,
凶手为白人且被判死刑的人数 应该有多少人?
160 × 36 × 326 ≈ 17.67 326 326
数据、模型与决策
期望频数
(二)、列联表检验的原理
实际观测值
凶手
白人 黑人 总计
死刑判决 是否 19 141 17 149 36 290
小计
160 166 326
原假设为真时的期望值
死刑判决
凶手
总计
是否
白人 17.7 142.3 160
黑人 18.3 147.7 166
小计 36 290 326
数据、模型与决策
(二)、列联表检验的原理
实际观测值
原假设为真时的期望值
凶手
白人 黑人
实际
频数小计
死刑判决 是否 19 141 17 149 36 290
真相是这样吗?我们是否遗漏了什么?
数据、模型与决策
(二)、列联表检验的原理
列联表检验的步骤:
设置假设检验问题 原假设:两个变量独立
备择假设:两个变量不独立
将数据做成列联表
计算检验的P值
作出判断 若P值小于等于显著性水平,应拒绝原假设,认为两个变 量不独立;若P值大于显著性水平,不能拒绝原假设,认 为两个变量独立。
检验的P值: 当原假设为真时,出现像此次样本这样
极端甚至更极端的概率
P值 = P(χ 2 ≥ 0.22) ≈ 0.6379
数据、模型与决策
(二)、列联表检验的原理
作出判断 若取显著性水平为0.05,检验的结论是?
由于P值大于0.05,故不应拒绝原假设,即认为凶手肤 色与是否被判死刑独立,也即说不存在种族歧视。
若某些格子中的频数小于5如何解决?
1、增加样本量 2、合并某些行或列 3、采用其他方法(Fisher精确检验)
数据、模型与决策
(三)、列联表检验的应用
2、列联表检验的适用范围: 检验两个变量之间的相关性
若列联表中含有两个以上的变量怎么办? 1、分层 2、压缩
数据、模型与决策
(三)、列联表检验的应用
相关文档
最新文档