数据分析方法3(方差分析)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
消费者对四个行业的投诉次数
行业
观测值
零售业
旅游业
航空公司 家电制造业
1
57
68
31
44
2
66
39
49
51
3
49
29
21
65
4
40
45
34
77
5
34
56
40
58
6
53
51
7
44
什么是方差分析?
1. 分析四个行业之间的服务质量是否有显著差异,也就是要判 断“行业”对“投诉次数”是否有显著影响
2. 作出这种判断最终被归结为检验这四个行业被投诉次数的均 值是否相等
2. 组内平方和(within groups) ▪ 因素的同一水平(同一个总体)下样本数据的平方和 ▪ 比如,零售业被投诉次数的误差平方和 ▪ 组内平方和只包含随机误差
3. 组间平方和(between groups) ▪ 因素的不同水平(不同总体)下各样本之间的平方和 ▪ 比如,四个行业被投诉次数之间的误差平方和 ▪ 组间平方和既包括随机误差,也包括系统误差
试验设计数据的方差分析
试验设计
一个养蟹户要遇到许多影响生产的因素或因子(factor),比如 水温,饲料,水质等各种问题。要想稳定高产,就要进行各种因素的 不同水平(level)的搭配(组合)试验。这里的“水平”就是一个因素 可能取的值。比如对于饲料这个因素,每个水平就是一种饲料;如果 有三种可供选择的饲料,该因素就有三个水平。而如果水温有四种水 平,则水温和饲料就有12种可能的搭配(组合)。
2. 水平或处理(treatment)
▪ 因子的不同表现 ▪ 零售业、旅游业、航空公司、家电制造业就是因子的水平
3. 观察值
▪ 在每个因素水平下得到的样本数据 ▪ 每个行业被投诉的次数就是观察值
方差分析中的有关术语
1. 试验
▪ 这里只涉及一个因素,因此称为单因素四水平的试验
2. 总体
▪ 因素的每一个水平可以看作是一个总体 ▪ 比如零售业、旅游业、航空公司、家电制造业可以看作
◦ 家电制造被投诉的次数较高,航空公司被投诉的次数较低
2.行业与被投诉次数之间有一定的关系
• 如果行业与被投诉次数之间没有关系,那么它们被投诉的次数应该 差不多相同,在散点图上所呈现的模式也就应该很接近
方差分析的基本思想和原理
1.仅从散点图上观察还不能提供充分的证据证明不同行业被投诉 的次数之间有显著差异
2. 系统误差
▪ 因素的不同水平(不同总体)下,各观察值之间的差异 ▪ 比如,不同行业之间的被投诉次数之间的差异 ▪ 这种差异可能是由于抽样的随机性所造成的,也可能是由于行业
本身所造成的,后者所形成的误差是由系统性因素造成的,称为 系统误差
方差分析的基本思想和原理(误差平方和)
1. 数据的误差用平方和(sum of squares)表示
◦ 这种差异也可能是由于抽样的随机性所造成的
2.需要有更准确的方法来检验这种差异是否显著,也就是进行方 差分析
◦ 所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值 之间是否有差异时则需要借助于方差
◦ 这个名字也表示:它是通过对数据误差来源的分析判断不同总体 的均值是否相等。因此,进行方差分析时,需要考察数据误差的 来源
方差分析的基本思想和原理
1. 比较两类误差,以检验均值是否相等 2. 比较的基础是方差比 3. 如果系统(处理)误差明显地不同于随机误差,则均值就是 不相等的;反之,均值就是相等的
4. 误差是由各部分的误差占总误差的比例来测度的
方差分析的基本思想和原理(两类误差)
1. 随机误差
▪ 因素的同一水平(总体)下,样本各观察值之间的差异 ▪ 比如,同一行业下不同企业被投诉次数是不同的 ▪ 这种差异可以看成是随机因素的影响,称为随机误差
2. 研究分类型自变量对数值型因变量的影响
• 一个或多个分类型自变量 ◦ 两个或多个 (k 个) 处理水平或分类
• 一个数值型因变量
3. 有单因素方差分析和多因素方差分析 • 单因素方差分析:涉及一个分类的自变量 • 多因素方差分析:涉及多个分类的自变量
什么是方差分析?
例题分析:为了对几个行业的服务质量进行评价,消费者协会在四个行 业分别抽取了不同的企业作为样本。最近一年中消费者对总共23家企业 投诉的次数如下表
3. 若它们的均值相等,则意味着“行业”对投诉次数是没有影 响的,即它们之间的服务质量没有显著差异;若均值不全相 等,则意味着“行业”对投诉次数是有影响的,它们之间的 服务质量有显著差异
方差分析中的有关术语
1. 因素或因子(factor) ▪ 所要检验的对象 ▪ 要分析行业对投诉次数是否有影响,行业是要检验的因素或因子
试验设计模型可以说就是回归模型的一种,自变量有定性变量的 情况的处理和试验设计数据处理是一样的。但试验设计问题本身有很 大一部分是如何设计试验,使得人们有可能用最少的资源得到最好的 结果。当然,我们不打算详细讨论如何设计试验,而把主要精力放在 试验设计数据的方差分析上。
方差分析
方差分析(analysis of variance,ANOVA)是分析各个自变量 对因变量影响的一种方法。这里的自变量就是定性变量的因子及 可能出现的称为协变量(covariate)的定量变量。分析结果是由一 个方差分析表表示的。原理为:因变量的值随着自变量的不同取 值而变化。我们把这些变化按照自变量进行分解,使得每一个自 变量都有一份贡献,最后剩下无法用已知的因素解释的则看成随 机误差的贡献。然后用各自变量的贡献和随机误差的贡献进行比 较(F检验),以判断该自变量的不同水平是否对因变量的变化有 显著贡献。输出就是F-值和检验的一些p-值。下面看一个例子。
是四个总体
3. 样本数据 ▪ 被投诉次数可以看作是从这四个总体中抽取的样本数据
方差分析的基本思想和原理(图形分
析)
80
60
被投诉次数
40
20
0
0
1
2源自文库
3
4
5
零售业 旅游业 航空公司 家电制造
不同行业被投诉次数的散点图
行业
方差分析的基本思想和原理(图形分析)
1.从散点图上可以看出
• 不同行业被投诉的次数是有明显差异的 • 同一个行业,不同企业被投诉的次数也明显不同
销售数据(sales.sav)
研究这个数目的主要目的是看销售额(因变量)是否受到促 销方式、售后服务和奖金这三个自变量的影响(头两个是定性变 量,亦称为因子,分别有3个和2个水平;而定量变量奖金是协变 量)以及怎样的影响。
什么是方差分析(ANOVA)?
1. 检验多个总体均值是否相等 • 通过分析数据的误差判断各总体均值是否相等