(09)第9章 分类数据分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

独立性检验:列联表
独立性检验:小结
建立零假设与对立假设。
H0:列变量与行变量独立 H1:列变量与行变量不独立
选择随机样本并记录列联表中每个单元格的频数。 计算每个单元格的期望频数。
计算检验统计量的值。
拒绝法则:
独立性检验 (例题分析)
检验服装店顾客的性别和年龄是否是独立的。 = 0.01
解 :
列(cj)
j =1
j=2

… … : …
合计
i =1 i=2 : 合计
f11 f21
:
f12 f22
:
r1 r2
:
c1
c2
n
fij 表示第 i 行第 j 列的观察频数
独立性检验
(例题分析)
独立性检验就是分析列联表中行变量和列变量是否相互独立。
【例】 一种原料来自三个不同的地区,原料质量被分成三个 不同等级。从这批原料中随机抽取500件进行检验,结果如表 9-3所示,要求检验各个地区和原料质量之间是否存在依赖关 系? ( 0.05)
解: H
: 在售出的所有电视中,小、中、大屏幕所占的比例 分别为40%、40%、20% H1 :比例发生变化
0
所以拒绝H0,即比例发生了变化,小增加,大减少了。
【例】斯考特市场调查公司进行的市场份额研究。在过去 的一年中,公司A的市场份额稳定于30%,公司B为 50%,公司C为20%。最近公司C开发了一种“新型 改进的”产品,该产品已经取代了其当前占有市场的 产品。斯考特市场调查公司受雇于公司C,为它判断 新产品是否使市场份额发生了改变。 =0.05 假定市场调查公司用一组200名顾客的群体进行研究。
19.82
0
9.488 19.82
c
3. 根据显著性水平=0.05和自由度(3-1)(3-1)=4 查出相应的临界值c2=9.488。由于 c2=19.82>c2=9.448,拒绝H0
独立性检验
(例题分析)
独立性检验:列联表
【例】阿尔伯特生产三种类型的啤酒:淡 啤酒、普通啤酒和黑啤酒。市场研究小 组提出了男女饮酒者对于三种啤酒的偏 好是否有差异的问题。该独立性检验的 假设为:
公司A的产品 公司B的产品 公司C的产品 48 98 54
拟合优度的检验统计量
式中fi —类别i的观察频数; ei —假设H0为真时,类别i的期望频数; k —类别总数。
当所有种类的期望频数均大于或等于5时, 检验统计量服从自由度为k-1的c2分布
多项总体的拟合优度检验: 小结
建立零假设和对立假设。 H0:总体服从其中所有k 类中每类都有指定的概率的多项 概率分布 H1:总体不服从其中所有k 类中每类都有指定的概率的多 项概率分布 选择随机样本,记录每个种类的观察频数 fi 。 假定零假设为真,用样本容量乘以类别概率得到每个类别的 期望频数ei。 计算检验统计量的值:
(2 列联表)
列联表的结构
一个2 列联表
列(cj) 行 (ri) i =1 i =2 j =1 列( cj ) j =1 合计
f11 f21
f12 f22
f11+ f12 f21+ f22
合计
f11+ f21
f12+ f22
n
列联表的结构
(r c 列联表的一般表示)
列(cj) 行(ri)
一个总体比例的检验
(例题分析)
H0: = 14.7% H1: 14.7% = 0.05 n = 400 临界值(s):
拒绝 H0
.025
检验统计量:
z 0.1425 0.147 0.147 (1 0.147) 400 0.254
拒绝 H0
.025
决策:
在 = 0.05的水平上不拒绝H0
解:
原假设中至少有一个不成立 当原假设成立时,则
由公式得
由自由度
. 取
时,查表得
=0.05
由于 0 从而拒绝 5.99 8.18
c
,即认为可以认为广告后各公司产品市场占有率发
生显著变化 .
【例】从历史数据可知,创维电视的销售量中,有40% 是小屏幕电视(小于21寸),40%是中等屏幕的电视( 21—29),还有20%是大屏幕(超过29寸),为了指定下 个月适合的生产计划,从现在的购买者中随机抽取了100 人的一个样本,发现购买的电视中有55台是小屏幕的, 35台是中等屏幕的,还有10台是大屏幕的。在 =0.01的 显著性水平下,检验销售量的历史模式是否成立。
结论:
-1.96
0
1.96
Z
该市老年人口比重为14.7%
若用c拟合优度检验,需要先确定期望值。如果原假设成立, 那么在调查的400居民中65岁以上老年人的频数应该为 400×14.7%=59,65岁以下的人口数为400-59=341。
H0:观察频数与期望频数一致
观测值 老年人 非老年人 57 343 期望值 59 341 -2 2 4 4 0.0678 0.0117
地区
甲地区
乙地区 丙地区
一级
二级
三级
合计
52
60 50
64
5Fra Baidu bibliotek 65
24
52 74
140
171 189
合计
162
188
150
500
1. 提出假设
– – H0:地区与原料等级之间独立 H1:地区与原料等级之间不独立
=0.05
r c
2. 计算检验的统计量
c 2
i 1 j 1
( f ij eij ) 2 eij
列联表
(contingency table)
由两个以上的变量交叉分类的频数分布表 行变量的类别用 r 表示, ri 表示第 i 个类别 列变量的类别用 c 表示, cj 表示第 j 个类别 每种组合的观察频数用 fij 表示 表中列出了行变量和列变量的所有可能的组 合,所以称为列联表 6. 一个 r 行 c 列的列联表称为 r c 列联表 1. 2. 3. 4. 5.
数据的类型与列联分析
数据
定量数据
(数值型数据)
定性数据
(分类型数据)
离散数据
连续数据
列联分析
c2检验
本章主要介绍卡方检验的两个应用:拟合 性检验和独立性检验。拟合性检验是用于 分析实际次数与理论次数是否相同,适用 于单个因素分类的计数数据。独立性检验 用于分析各有多项分类的两个或两个以上 的因素之间是否有关联或是否独立的问题。
宣传. 在广告宣传战之前,A公司的市场占有率为0.45,B公司
的市场占有率为0.40,其他公司的市场占有率为 0.15. 为了了 解广告战之后A、B和其他公司的市场占有率是否发生变化,随
机抽取了200名消费者.其中102人表示准备购买A公司产品,82
人表示准备购买B公司产品,另外16人表示准备购买其他公司产 品 . 检验广告战前后各公司的市场占有率是否发生了变化 .( 0.05)
拒绝法则:
练习
用c2拟合优度检验对下列假设进行检验。
0.40
0.40
0.40 0.40
容量为200的样本中有60个个体属于类别 A,120个个体属于类别B,20个个体属于类 别C。取α = 0.01,检验比率是否为H0中 所述。
练习
电视季节的前13周中,周六晚8点到9点, 收视率记录为ABC 29%、CBS 28%、NBC25%、 独立电台18%。周六晚节目单修订两周后, 300个家庭所组成的样本产生下列电视收视 率数据:ABC 95个家庭、CBS 70个家庭、 NBC 89个家庭、独立电台4 6个家庭。取α = 0.05,检验电视收视率是否已经发生了 变化。
自由度为:分类变量类型的个数-1=1
α=0.1
拒绝域
2.705
c
决策:拒绝H0
结论:有证据表明存活状况与性别显著相关
同样的方法还可以对泰坦尼克号例 子中的年龄、舱位情况进行检验。结果 表明,儿童存活率高于成人,一等舱、 二等舱存活率高于船员舱。 对这些结果的深层次分析,有助于 我们认识当海难发生时,人们对待死亡 的态度。
9.3 列联分析:独立性检验
9.3.1 列联表
9.3.2 独立性检验
拟合优度检验是对一个分类变量的检验 ,有时会遇到两个分类变量的问题,看这两 个分类变量是否存在联系。例如原料有不同 的等级,原料又产自不同的地区。原料等级 和原料生产地就是两个分类变量。我们关心 这两者是否有关联,是不是某些地区生产的 原料有更好的质量。对于两个分类变量的分 析,称为独立性检验,分析过程可以通过列 联表的方式呈现,故把这种分析称为列联分 析。

你吸烟吗?

1.是;2.否
1.赞成;2.反对

你赞成还是反对这一改革方案?

4. 对分类数据的描述和分析通常使用列联表 5. 可使用c检验
c 统计量
1900年,皮尔逊发表了一个著名的统计量 ,称之为卡方(χ2),用来检验实际值的 分布数列与理论数列是否在合理范围内相 符合,即用以测定观察值与期望值之间的 差异显著性。“卡方检验法” 提出后得到 了 广泛的应用,在现代统计理论中占有重要 地位。
拟合优度检验
(例题分析)
解:要回答观察频数与期望频数是否一致,检验 如下假设: H0:观察频数与期望频数一致 H1:观察频数与期望频数不一致
拟合优度检验
(例题分析)
自由度的计算为df=R-1,R为分类变量类型的 个数。在本例中,分类变量是性别,有男女两 个类别,故R=2,于是自由度df=2-1=1,经查 分布表, c0.1(1)=2.706,故拒绝H0,说明 存活状况与性别显著相关
第 9 章 分类数据分析
第 9 章 分类数据分析
9.1 9.2 9.3 9.4 9.5 分类数据与c2统计量 拟合优度 检验 独立性检验 列联表中的相关测量 列联分析中应注意的问题
学习目标
1. 理解分类数据与c2 统计量
2. 掌握拟合优度检验及其应用
3. 掌握独立性检验及其应用
4. 掌握测度列联表中的相关性
独立性检验:列联表
假定已经抽取了一个由150名饮酒者组成的 随机样本。品尝每种啤酒之后,让样本中 每个人陈述其偏好或第一选择。
独立性检验:列联表
当啤酒偏好与饮酒者性别独立时的期望频数
独立性检验:列联表
独立性检验统计量
式中fij —列联表中第i行第j列类别的观察频数; eij —列联表中第i行第j列类别的期望频数。 对于n行m列的列联表,检验统计量服从c2值分 布,自由度为(n-1 )×(m-1 ),其中所有类 别的期望频数都大于或等于5。
H1:观察频数与期望频数不一致
本例中
,因为是双侧检验,故取 ,自由度为1,检验的临界值为 。因为 < ,故不能拒 绝原假设。这与前面采用Z检验的结果 相同。
自由度为:分类变量类型的个数-1=1
α=0.025
拒绝域
5.024
c
决策:接受H0
结论:调查结果支持该项统计结论
【例】 为了提高市场占有率, A 公司和B公司同时开展了广告
拟合优度检验
(例题分析)
【例】1912 年 4 月 15 日,豪华巨轮泰坦尼 克号与冰山相撞沉没。当时船上共有共 2208 人,其中男性 1738 人,女性 470 人。 海难发生后,幸存者为 718 人,其中男性 374人,女性 344人,以 0.1 的显著性水 平检验存活状况与性别是否有关。
9.1 分类数据与列联表
9.1.1 分类数据 9.1.2 c2统计量
分类数据 categorical data
分类数据
1. 分类变量(categorical variable)的结果表现 为类别

例如:性别 (男, 女)
2. 各类别用符号或数字代码来测度 3. 使用名目(nominal)尺度或顺序(ordinal)尺度
c 统计量
分布与自由度的关系
利用c 统计量,可以对分类数据进行拟合优度 检验和独立性检验。
9.2 拟合优度检验
拟合优度检验
(goodness of fit test)
拟合优度检验是用c 统计量进行统计 显著性检验的重要内容之一。 它是依据总体分布状况,计算出分类 变量中各类别的期望频数,与分布的观察 频数进行对比,判断期望频数与观察频数 是否有显著差异,从而达到对分类变量进 行分析的目的。
在第八章我们用Z统计量对(一个、两个)总 体例进行检验。对总体比例的检验,也可以用拟 合优度的方法进行检验。 在第八章所讲的总体比例检验是针对二项分 布问题。 c 统计量的特点是既可以分析二项分 布,也可以分析多项分布,即对多个比例的假设 进行检验。
【例】 一项统计结果声称,某市老年人口 (年龄在65岁以上)所占比例为14.7% ,该市老年人口研究会为了检验该项统 计是否可靠,随机抽选了400名居民, 发现其中有57人老年人。调查结果是否 支持14.7%的看法?
H0 :服装店顾客的性别和年龄是独立的 H1 :服装店顾客的性别和年龄是相关变量
相关文档
最新文档