统计学课件第9章类数据分析配套讲义
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
fo
例9.1 男性 乘客数 1738 期望频数 565
例9.2
52 64 24 60 59
fe
45.36 52.64 42.00 55.40 64.30 51.30 61.24 71.06 56.70
女性
470
153
52 50 65 74
本章小结
1. 拟合优度检验 2. 独立性检验 3. 列联分析中应注意的问题
c (R-1)(C-1)
自由度为(R-1)(C-1)的c
c
独立性检验
(例题分析)
【例】一种原料来自三个不同的地区,原料质量被分成三个不同等
级。从这批原料中随机抽取 500件进行检验,结果如表9-3所示,要 求检验各个地区和原料质量之间是否存在依赖关系? ( 0.05) 解:H0:地区和原料等级之间是独立的(不存在依赖关系) H1:地区和原料等级之间不独立 (存在依赖关系)
• H0: = 14.7% • H1: 14.7% • 见excel操作
9.3 列联分析:独立性检验
9.3.1 列联表
9.3.2 独立性检验
wk.baidu.com 列联表
(contingency table)
由两个以上的变量交叉分类的频数分布表 行变量的类别用 r 表示, ri 表示第 i 个类别 列变量的类别用 c 表示, cj 表示第 j 个类别 每种组合的观察频数用 fij 表示 表中列出了行变量和列变量的所有可能的组 合,所以称为列联表 6. 一个 r 行 c 列的列联表称为 r c 列联表 1. 2. 3. 4. 5.
c 统计量
c 统计量
1. 2. 用于检验分类变量拟合优度 计算公式为
( fo fe ) c fe
2
2
(图示)
R:分类变量类型的个数
1 的置信区间
c 1 (R1)
自由度为R-1的c
c (R-1)
c
(图示)
R:分类变量类型的个数
1 的置信区间
c (R-1)
自由度为R-1的c
c
9.2 拟合优度检验
• 例题9.1:P222、excel操作 • 例题8.8:P223、excel操作
拟合优度检验
(例题分析)
• 【例9.1 】1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉 没。当时船上共有2208人,其中男性1738人,女性470人。海难发 生后,幸存者为718人,其中男性374人,女性344人,以的显著性 水平检验存活状况与性别是否有关。 ( 0.05)
总体分布 抽取比例 样本分布 来自于完整家庭 犯罪 150 50% 75 来自于离异家庭 37 38
来自于完整家庭
未犯罪 10000 1% 100 来自于离异家庭
92
8
9.5.1 条件百分比的方向
完整家庭 犯罪 未犯罪 合计 38 92 130 29% 71% 100% 离异家庭 37 8 45 82% 18% 100% 合计 75 100
列联表的结构
(r c 列联表的一般表示)
列(cj) 行(ri)
列(cj)
j =1
j=2
…
… … : …
合计
i =1 i=2 : 合计
f11 f21
:
f12 f22
:
r1 r2
:
c1
c2
n
fij 表示第 i 行第 j 列的观察频数
(图示)
R:行变量类型的个数 C:列变量类型的个数
1 的置信区间
拟合优度检验
(例题分析)
•
• •
解:要回答观察频数与期望频数是否一致,检 验如下假设: H0:观察频数与期望频数一致 H1:观察频数与期望频数不一致
拟合优度检验
(例题分析)
• 自由度的计算为df=R-1,R为分类变量类型的个数。在本例中,分 类变量是性别,有男女两个类别,故R=2,于是自由度df=2-1=1, 经查分布表, 显著相关
第 9 章 分类数据分析
第 9 章 分类数据分析
9.1 9.2 9.3 9.4 分类数据与c2统计量 拟合优度 检验 列联分析:独立性检验 列联分析中应注意的问题
学习目标
• 1. 理解分类数据与c2 统计量
2. 掌握拟合优度检验及其应用
3. 掌握独立性检验及其应用
4. 掌握测度列联表中的相关性
9.1 分类数据与列联表
9.1.1 分类数据 9.1.2 c2统计量
分类数据
分类数据
1. 分类变量的结果表现为类别
• 例如:性别 (男, 女)
2. 各类别用符号或数字代码来测度 3. 使用分类或顺序尺度
•
•
你吸烟吗?
1.是;2.否
•
•
你赞成还是反对这一改革方案?
1.赞成;2.反对
4. 对分类数据的描述和分析通常使用列联表 5. 可使用c检验
结
束
c
(0.05)(1)=3.84,故拒绝H0,说明存活状况与性别
拟合优度检验 (例题分析8.8)
【例】 一项统计结果声称,某市老年人口(年龄在 65
岁以上)的比重为14.7%,为了检验该项统计是否可靠, 现随机抽选了400名居民,其中有57人年龄在65岁以上。 调查结果是否支持该市老年人口比重为 14.7%的看法? (= 0.05)
价值取向 Y
物资报酬 人情关系 合计
职业X 制造业(比例%) 服务业(比例%)
105(72) 40(28) 145(100)
45(56) 35(44) 80(100)
9.5.1 条件百分比的方向
例外情况:因变量在样本内的分布不能代表其在总体内的分布时 例: 家庭状况对青少年行为的影响。家庭状况X-青少年行为Y
c0.05(4)=9.488 故拒绝 H0,接受 H1 ,即地区和原料等级 之间存在依赖关系,原料的质量受地区的影响
独立性检验
(例题分析)
9.5 列联分析中应注意的问题
9.5.1 条件百分比的方向 9.5.2 卡方分布的期望值准则
9.5.1 条件百分比的方向
一般的做法:将自变量 X放在列的位置,条件百分比也多按自变 量的方向计算。 例。不同职业的人价值取向有什么不同。职业X-价值取向Y
犯罪 完整家庭 离异家庭 合计 38 37 75 51% 49% 100%
未犯罪 92 8 100 92% 8% 100%
合计 130 45
9.5.2 卡方分布的期望值准则
准则 1:如果只有两个单元,每个单元的期望频数必须大于等于 5. 准则 2 :若有两个以上的单元,如果 20%的单元期望频数小于 5 , 则不能应用卡方检验。