数据分析方法3方差分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

检验),以判断该自变量的不同水平是否对因
销售数据(sales.sav)
?
研究这个数目的主要目的是看销售额(
因变量)是否受到促销方式、售后服务和奖
金这三个自变量的影响(头两个是定性变量
,亦称为因子,分别有 3个和2个水平;而定量
变量奖金是协变量)以及怎样的影响。
什么是方差分析(ANOVA)?
1. 检验多个总体均值是否相等
的饲料,该因素就有三个水平。而如果水温有四
种水平,则水温和饲料就有 12种可能的搭配(组
合)。
? 试验设计模型可以说就是回归模型的一种, 自变量有定性变量的情况的处理和试验设计数据
方差分析
?
方差分析( analysis of variance ,ANOVA)
是分析各个自变量对因变量影响的一种方法。
? 这种差异也可能是由于抽样的随机性所造成的
2. 需要有更准确的方法来检验这种差异是否显 著,也就是进行方差分析
? 所以叫方差分析,因为虽然我们感兴趣的是均 值,但在判断均值之间是否有差异时则需要借 助于方差
? 这个名字也表示:它是通过对数据Байду номын сангаас差来源的 分析判断不同总体的均值是否相等。因此,进 行方差分析时,需要考察数据误差的来源
方差分析中的有关术语
1. 试验
? 这里只涉及一个因素,因此称为单因素
四水平的试验 2. 总体
? 因素的每一个水平可以看作是一个总体 ? 比如零售业、旅游业、航空公司、家电
制造业可以看作是四个总体
3. 样本数据 ? 被投诉次数可以看作是从这四个总体中
抽取的样本数据
方差分析的基本思想和原 理(图形分析 )
58
6
53
51
什么是方差分析 ?
1. 分析四个行业之间的服务质量是否有显著 差异,也就是要判断“行业”对“投诉次 数”是否有显著影响
2. 作出这种判断最终被归结为检验这四个行 业被投诉次数的均值是否相等
3. 若它们的均值相等,则意味着“行业”对 投诉次数是没有影响的,即它们之间的服 务质量没有显著差异;若均值不全相等, 则意味着“行业”对投诉次数是有影响的 ,它们之间的服务质量有显著差异
方差分析中的有关术语
1. 因素或因子 (factor)
? 所要检验的对象 ? 要分析行业对投诉次数是否有影响,行业是要
检验的因素或因子
2. 水平或处理 (treatment)
? 因子的不同表现 ? 零售业、旅游业、航空公司、家电制造业就是
因子的水平
3. 观察值
? 在每个因素水平下得到的样本数据 ? 每个行业被投诉的次数就是观察值
? 因素的同一水平(总体)下,样本各观察值之间
的差异
? 比如,同一行业下不同企业被投诉次数是不
同的
? 这种差异可以看成是随机因素的影响,称为
随机误差
2. 系统误差
? 因素的不同水平(不同总体)下,各观察值之间
的差异
? 比如,不同行业之间的被投诉次数之间的差

方差分析的基本思想和原理 ( 误差平方和 )
的平方和
? 比如,四个行业被投诉次数之间的误差平
方差分析的基本思想和原理 ( 误差的比较 )
1. 若原假设成立,组间平方和与组内平方和 经过平均后的数值就应该很接近,它们的 比值就会接近 1

? 家电制造被投诉的次数较高,航空公司被投 诉的次数较低
2. 行业与被投诉次数之间有一定的关系
? 如果行业与被投诉次数之间没有关系,那么它 们被投诉的次数应该差不多相同,在散点图上 所呈现的模式也就应该很接近
方差分析的基本思想和原理
1. 仅从散点图上观察还不能提供充分的证据证 明不同行业被投诉的次数之间有显著差异
试验设计数据的方差分
试验设计
?
一个养蟹户要遇到许多影响生产的因素或因
子( factor ),比如水温,饲料,水质等各种问题
。要想稳定高产,就要进行各种因素的不同水平
(level)的搭配(组合)试验。这里的“水平”就
是一个因素可能取的值。比如对于饲料这个因素
,每个水平就是一种饲料;如果有三种可供选择
? 通过分析数据的误差判断各总体均值是否相等
2. 研究分类型自变量对数值型因变量的影响
? 一个或多个分类型自变量 ? 两个或多个 (k 个) 处理水平或分类
? 一个数值型因变量
3. 有单因素方差分析和多因素方差分析 ? 单因素方差分析:涉及一个分类的自变 量 ? 多因素方差分析:涉及多个分类的自变
什么是方差分析 ?
80
60
êy ′? ? 40 í? ±?
20
0
0
1
2
3
4
5
零售业 旅游业 航空公司
家电制2?造í? D òμ± ? í? ? ′? êy μ? é¢μ? í?
D òμ
方差分析的基本思想和原理 (图形分 析)
1. 从散点图上可以看出
? 不同行业被投诉的次数是有明显差异的 ? 同一个行业,不同企业被投诉的次数也明显不
例题分析:为了对几个行业的服务质量进行评价,消 费者协会在四个行业分别抽取了不同的企业作为样本。 最近一年中消费者对总共23家企业投诉的次数如下表
消费者对四个行业的投诉次数
观测值 零售业
行业
旅游业
航空公司
家电制造 业
1
57
68
31
44
2
66
39
49
51
3
49
29
21
65
4
40
45
34
77
5
34
56
40
1. 数据的误差用平方和 (sum of squares) 表 示
2. 组内平方和 (within groups)
? 因素的同一水平 (同一个总体 )下样本数据
的平方和
? 比如,零售业被投诉次数的误差平方和 ? 组内平方和只包含随机误差
3. 组间平方和 (between groups)
? 因素的不同水平 (不同总体 )下各样本之间
这里的自变量就是定性变量的因子及可能出现
的称为协变量( covariate)的定量变量。分析
结果是由一个方差分析表表示的。原理为:因
变量的值随着自变量的不同取值而变化。我们
把这些变化按照自变量进行分解,使得每一个
自变量都有一份贡献,最后剩下无法用已知的
因素解释的则看成随机误差的贡献。然后用各
自变量的贡献和随机误差的贡献进行比较( F
方差分析的基本思想和原理
? 1. 比较两类误差,以检验均值是否相等 ? 2. 比较的基础是方差比 ? 3. 如果系统 (处理)误差明显地不同于随机误
差,则均值就是不相等的;反之,均值就是 相等的 ? 4. 误差是由各部分的误差占总误差的比例 来测度的
方差分析的基本思想和原理 (
两类误差)
1. 随机误差
相关文档
最新文档