(09)第9章 分类数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
列联表
(contingency table)
由两个以上的变量交叉分类的频数分布表 行变量的类别用 r 表示, ri 表示第 i 个类别 列变量的类别用 c 表示, cj 表示第 j 个类别 每种组合的观察频数用 fij 表示 表中列出了行变量和列变量的所有可能的组 合,所以称为列联表 6. 一个 r 行 c 列的列联表称为 r c 列联表 1. 2. 3. 4. 5.
一个总体比例的检验
(例题分析)
H0: = 14.7% H1: 14.7% = 0.05 n = 400 临界值(s):
拒绝 H0
.025
检验统计量:
z 0.1425 0.147 0.147 (1 0.147) 400 0.254
拒绝 H0
.025
决策:
在 = 0.05的水平上不拒绝H0
自由度为:分类变量类型的个数-1=1
α=0.1
拒绝域
2.705
c
决策:拒绝H0
结论:有证据表明存活状况与性别显著相关
同样的方法还可以对泰坦尼克号例 子中的年龄、舱位情况进行检验。结果 表明,儿童存活率高于成人,一等舱、 二等舱存活率高于船员舱。 对这些结果的深层次分析,有助于 我们认识当海难发生时,人们对待死亡 的态度。
解: H
: 在售出的所有电视中,小、中、大屏幕所占的比例 分别为40%、40%、20% H1 :比例发生变化
0
所以拒绝H0,即比例发生了变化,小增加,大减少了。
【例】斯考特市场调查公司进行的市场份额研究。在过去 的一年中,公司A的市场份额稳定于30%,公司B为 50%,公司C为20%。最近公司C开发了一种“新型 改进的”产品,该产品已经取代了其当前占有市场的 产品。斯考特市场调查公司受雇于公司C,为它判断 新产品是否使市场份额发生了改变。 =0.05 假定市场调查公司用一组200名顾客的群体进行研究。
19.82
0
9.488 19.82
c
3. 根据显著性水平=0.05和自由度(3-1)(3-1)=4 查出相应的临界值c2=9.488。由于 c2=19.82>c2=9.448,拒绝H0
独立性检验
(例题分析)
独立性检验:列联表
【例】阿尔伯特生产三种类型的啤酒:淡 啤酒、普通啤酒和黑啤酒。市场研究小 组提出了男女饮酒者对于三种啤酒的偏 好是否有差异的问题。该独立性检验的 假设为:
地区
甲地区
乙地区 丙地区
一级
二级
三级
合计
52
60 50
64
59 65
24
52 74
140
171 189
合计
162
188
150
500
1. 提出假设
– – H0:地区与原料等级之间独立 H1:地区与原料等级之间不独立
=0.05
r c
2. 计算检验的统计量
c 2
i 1 j 1
( f ij eij ) 2 eij
c 统计量
分布与自由度的关系
利用c 统计量,可以对分类数据进行拟合优度 检验和独立性检验。
9.2 拟合优度检验
拟合优度检验
(goodness of fit test)
拟合优度检验是用c 统计量进行统计 显著性检验的重要内容之一。 它是依据总体分布状况,计算出分类 变量中各类别的期望频数,与分布的观察 频数进行对比,判断期望频数与观察频数 是否有显著差异,从而达到对分类变量进 行分析的目的。
独立性检验:列联表
假定已经抽取了一个由150名饮酒者组成的 随机样本。品尝每种啤酒之后,让样本中 每个人陈述其偏好或第一选择。
独立性检验:列联表
当啤酒偏好与饮酒者性别独立时的期望频数
独立性检验:列联表
独立性检验统计量
式中fij —列联表中第i行第j列类别的观察频数; eij —列联表中第i行第j列类别的期望频数。 对于n行m列的列联表,检验统计量服从c2值分 布,自由度为(n-1 )×(m-1 ),其中所有类 别的期望频数都大于或等于5。
拒绝法则:
练习
用c2拟合优度检验对下列假设进行检验。
0.40
0.40
0.40 0.40
容量为200的样本中有60个个体属于类别 A,120个个体属于类别B,20个个体属于类 别C。取α = 0.01,检验比率是否为H0中 所述。
练习
电视季节的前13周中,周六晚8点到9点, 收视率记录为ABC 29%、CBS 28%、NBC25%、 独立电台18%。周六晚节目单修订两周后, 300个家庭所组成的样本产生下列电视收视 率数据:ABC 95个家庭、CBS 70个家庭、 NBC 89个家庭、独立电台4 6个家庭。取α = 0.05,检验电视收视率是否已经发生了 变化。
独立性检验:列联表
独立性检验:小结
建立零假设与对立假设。
H0:列变量与行变量独立 H1:列变量与行变量不独立
选择随机样本并记录列联表中每个单元格的频数。 计算每个单元格的期望频数。
计算检验统计量的值。
拒绝法则:
独立性检验 (例题分析)
检验服装店顾客的性别和年龄是否是独立的。 = 0.01
解 :
在第八章我们用Z统计量对(一个、两个)总 体例进行检验。对总体比例的检验,也可以用拟 合优度的方法进行检验。 在第八章所讲的总体比例检验是针对二项分 布问题。 c 统计量的特点是既可以分析二项分 布,也可以分析多项分布,即对多个比例的假设 进行检验。
【例】 一项统计结果声称,某市老年人口 (年龄在65岁以上)所占比例为14.7% ,该市老年人口研究会为了检验该项统 计是否可靠,随机抽选了400名居民, 发现其中有57人老年人。调查结果是否 支持14.7%的看法?
拟合优度检验
(例题分析)
解:要回答观察频数与期望频数是否一致,检验 如下假设: H0:观察频数与期望频数一致 H1:观察频数与期望频数不一致
拟合优度检验
(例题分析)
自由度的计算为df=R-1,R为分类变量类型的 个数。在本例中,分类变量是性别,有男女两 个类别,故R=2,于是自由度df=2-1=1,经查 分布表, c0.1(1)=2.706,故拒绝H0,说明 存活状况与性别显著相关
拟合优度检验
(例题分析)
【例】1912 年 4 月 15 日,豪华巨轮泰坦尼 克号与冰山相撞沉没。当时船上共有共 2208 人,其中男性 1738 人,女性 470 人。 海难发生后,幸存者为 718 人,其中男性 374人,女性 344人,以 0.1 的显著性水 平检验存活状况与性别是否有关。
H1:观察频数与期望频数不一致
本例中
,因为是双侧检验,故取 ,自由度为1,检验的临界值为 。因为 < ,故不能拒 绝原假设。这与前面采用Z检验的结果 相同。
自由度为:分类变量类型的个数-1=1
α=0.025
拒绝域
5.024
c
决策:接受H0
结论:调查结果支持该项统计结论
【例】 为了提高市场占有率, A 公司和B公司同时开展了广告
9.1 分类数据与列联表
9.1.1 分类数据 9.1.2 c2统计量
分类数据 categorical data
分类数据
1. 分类变量(categorical variable)的结果表现 为类别
例如:性别 (男, 女)
2. 各类别用符号或数字代码来测度 3. 使用名目(nominal)尺度或顺序(ordinal)尺度
列(cj)
j =1
j=2
…
… … : …
合计
i =1 i=2 : 合计
f11 f21
:
f12 f22
:
r1 r2
:
c1
c2
n
fij 表示第 i 行第 j 列的观察频数
独立性检验
(例题分析)
独立性检验就是分析列联表中行变量和列变量是否相互独立。
【例】 一种原料来自三个不同的地区,原料质量被分成三个 不同等级。从这批原料中随机抽取500件进行检验,结果如表 9-3所示,要求检验各个地区和原料质量之间是否存在依赖关 系? ( 0.05)
公司A的产品 公司B的产品 公司C的产品 48 98 54
拟合优度的检验统计量
式中fi —类别i的观察频数; ei —假设H0为真时,类别i的期望频数; k —类别总数。
当所有种类的期望频数均大于或等于5时, 检验统计量服从自由度为k-1的c2分布
多项总体的拟合优度检验: 小结
建立零假设和对立假设。 H0:总体服从其中所有k 类中每类都有指定的概率的多项 概率分布 H1:总体不服从其中所有k 类中每类都有指定的概率的多 项概率分布 选择随机样本,记录每个种类的观察频数 fi 。 假定零假设为真,用样本容量乘以类别概率得到每个类别的 期望频数ei。 计算检验统计量的值:
结论:
-1.96
0
1.96
Z
该市老年人口比重为14.7%
若用c拟合优度检验,需要先确定期望值。如果原假设成立, 那么在调查的400居民中65岁以上老年人的频数应该为 400×14.7%=59,65岁以下的人口数为400-59=341。
H0:观察频数与期望频数一致
观测值 老年人 非老年人 57 343 期望值 59 341 -2 2 4 4 0.0678 0.0117
数据的类型与据)
定性数据
(分类型数据)
离散数据
连续数据
列联分析
c2检验
本章主要介绍卡方检验的两个应用:拟合 性检验和独立性检验。拟合性检验是用于 分析实际次数与理论次数是否相同,适用 于单个因素分类的计数数据。独立性检验 用于分析各有多项分类的两个或两个以上 的因素之间是否有关联或是否独立的问题。
第 9 章 分类数据分析
第 9 章 分类数据分析
9.1 9.2 9.3 9.4 9.5 分类数据与c2统计量 拟合优度 检验 独立性检验 列联表中的相关测量 列联分析中应注意的问题
学习目标
1. 理解分类数据与c2 统计量
2. 掌握拟合优度检验及其应用
3. 掌握独立性检验及其应用
4. 掌握测度列联表中的相关性
(2 列联表)
列联表的结构
一个2 列联表
列(cj) 行 (ri) i =1 i =2 j =1 列( cj ) j =1 合计
f11 f21
f12 f22
f11+ f12 f21+ f22
合计
f11+ f21
f12+ f22
n
列联表的结构
(r c 列联表的一般表示)
列(cj) 行(ri)
解:
原假设中至少有一个不成立 当原假设成立时,则
由公式得
由自由度
. 取
时,查表得
=0.05
由于 0 从而拒绝 5.99 8.18
c
,即认为可以认为广告后各公司产品市场占有率发
生显著变化 .
【例】从历史数据可知,创维电视的销售量中,有40% 是小屏幕电视(小于21寸),40%是中等屏幕的电视( 21—29),还有20%是大屏幕(超过29寸),为了指定下 个月适合的生产计划,从现在的购买者中随机抽取了100 人的一个样本,发现购买的电视中有55台是小屏幕的, 35台是中等屏幕的,还有10台是大屏幕的。在 =0.01的 显著性水平下,检验销售量的历史模式是否成立。
H0 :服装店顾客的性别和年龄是独立的 H1 :服装店顾客的性别和年龄是相关变量
你吸烟吗?
1.是;2.否
1.赞成;2.反对
你赞成还是反对这一改革方案?
4. 对分类数据的描述和分析通常使用列联表 5. 可使用c检验
c 统计量
1900年,皮尔逊发表了一个著名的统计量 ,称之为卡方(χ2),用来检验实际值的 分布数列与理论数列是否在合理范围内相 符合,即用以测定观察值与期望值之间的 差异显著性。“卡方检验法” 提出后得到 了 广泛的应用,在现代统计理论中占有重要 地位。
9.3 列联分析:独立性检验
9.3.1 列联表
9.3.2 独立性检验
拟合优度检验是对一个分类变量的检验 ,有时会遇到两个分类变量的问题,看这两 个分类变量是否存在联系。例如原料有不同 的等级,原料又产自不同的地区。原料等级 和原料生产地就是两个分类变量。我们关心 这两者是否有关联,是不是某些地区生产的 原料有更好的质量。对于两个分类变量的分 析,称为独立性检验,分析过程可以通过列 联表的方式呈现,故把这种分析称为列联分 析。
宣传. 在广告宣传战之前,A公司的市场占有率为0.45,B公司
的市场占有率为0.40,其他公司的市场占有率为 0.15. 为了了 解广告战之后A、B和其他公司的市场占有率是否发生变化,随
机抽取了200名消费者.其中102人表示准备购买A公司产品,82
人表示准备购买B公司产品,另外16人表示准备购买其他公司产 品 . 检验广告战前后各公司的市场占有率是否发生了变化 .( 0.05)