[社会学]《统计学:思想、方法与应用》第7章 方差分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
h
12
误差度量
(均方—MS)
用均方(mean square)表示误差大小,以消除观测数 据的多少对平方和的影响
用平方和除以相应的自由度 均方也称方差(variance)
组 间 均 方 也 称 组 间 方 差 (between-groups variance),反映各因子间误差的大小
MSA=SSA÷自由度(因子个数-1)
组内均方也称组内方差(within-groups variance) , 反映随机误差的大小
MSE=SSE÷自由度(数据个数-因子个数) 总平方和(SST)的自由度为n-1
6 - 13
h
13
方差分析的基本原理
(误差分析)
1. 判断原假设是否成立,就是判断组间方差与组内 方差是否有显著差异
2. 若原假设成立,组间均方与组内均方的数值就应 该很接近,它们的比值就会接近1
检验。
如果显著性水平设为0.05,那么正确判断的概率 为0.95。因为我们分别进行3次独立的检验,任 何一次检验都不做错误判断的概率为:P(都正 确)=0.953=0.8574
因此,至少一次错误的概率为10.8574=0.1426。总之,如果我们用t分布分别 做3次独立的检验,至少有一样本错误发生的概率 从0.05上升到了0.1426。
1. 设1为化肥品牌A下产量的均值,2为化肥品牌 B下产量的均值,3为化肥品牌C下产量的
2. 提出的假设为
▪ H0 : 1 2 3 ▪ H1 : 1 , 2 , 3 不全相等
3. 计算检验统计量
因子均方 F 残差均方 ~ F(k 1, n k)
3. 若原假设不成立,组间均方会大于组内均方,它 们之间的比值就会大于1
4. 当这个比值大到某种程度时,就可以说不同水平 之间存在着显著差异,即自变量对因变量有影响
6 - 14
h
14
误差分析
(F-检验)
1. 将组间均方与组内均方进行比较,分析差异是 否显著
F=(MSA÷MSE)~F(因子自由度,残差自由度)
▪ 可能是随机误差,也可能是超市位置本身所造成的系统性
系统误差
3. 总误差(total)
▪ 全部观测数据的误差大小
6 - 11
h
11
方差分析的基本原理
(误差分解)
• 误差平方和的分解及其关系
总误差 = 随机误差 + 处理误差
总平方和
组内平方和
组间平方和
=
+
(SST)
(SSE)
(SSA)
6 - 12
6 -2
h
2
学习目标
了解方差分析的一般思想; 明白单因素方差分析能解决什么问题; 了解为什么要介绍双因素方差分析; 相关理论在统计学软件中的应用。 相应统计分析结果的解读。
6 -3
h
3
为什么我们要学习方差分析
【 例 】研究员想挑选出能使小麦亩产量最大的化肥,选
了三个品牌的化肥:A,B和C。
如果品牌与产量之间没有关系,那么它们的产量应该 差不多相同,在散点图上所呈现的模式也就应该很接 近
6 -8
h
8
方差分析的基本原理
为了更容易的找出各化肥品牌的小麦平均产量的不同,我 们对每个化肥品牌做一个箱线图。
750
700
650
小麦产量
600
550
500
6 -9
品牌A
品牌B
品牌C
h
9
化肥
方差分析的基本思想和原理
作出这种判断最终被归结为检验这三个品牌的产量的均 值是否相等 若它们的均值相等,则意味着“品牌”对产量是没有 影响的;若均值不全相等,则意味着“品牌”对产量 是有影响的。
6 -5
h
5
为什么我们要学习方差分析
可以用假设检验吗? 两两比较三种品牌的产量均值是否存在差异。 用t分布比较3组总体均值,需要进行3次不同的t
观测 值
因子 A
品牌 B
C
水
1
570
660
540
平
2
560
760
580
3
610
670
530
4
580
710
550
5
590
630
520
6
580
730
560
7 6-4 8
630
640
h
600
680
510
4
530
为什么我们要学习方差分析
研究分类自变量(因子factor)对数值因变量(观测结果) 的影响 例如:“化肥品牌”是一个分类自变量 两个或多个 水平(level)或分类。例如:3个化肥品 牌 一个数值型因变量,产量 分析三个品牌的化肥的产量是否有显著差异,也就 是要判断“品牌”对“产量”是否有显著影响
6 -6
h
6
方差分析基本原理
小麦产量 500 550 600 650 700 750
1.0
1.5
2.0
2.5
3.0
6 -7
化h肥
7
方差分析的基本思想和原理
(图形分析)
1. 从散点图上可以看出
不同品牌的产量是有明显差异的 同一个品牌,不同地块的产量也明显不同
B较高,C较低
2. 品牌与产量之间有一定的关系
怎样解决下面的问题?
来自不同地区的大学生每个月的平均生活 费支出是否不同呢?
家电的品牌对它们的销售量是否有显著影 响呢?
不同的路段和不同的时段对行车时间有影 响吗?
超市的位置和它的销售额有关系吗? 不同的小麦品种产量有差异吗?
6 -1
h
1
第7章 方差分析
7.1 单因素方差分析 7.2 方差分析回顾 7.3 双因素方差分析
• 仅从散点图上观察还不能提供充分的证据证明化肥 品牌与小麦产量之间有显著差异
这种差异也可能是由于抽样的随机性所造成的
• 需要有更准确的方法来检验这种差异是否显著,也 就是进行方差分析
所以叫方差分析,因为虽然我们感兴趣的是均值,但在 判断均值之间是否有差异时则需要借助于方差
这个名字也表示:它是通过对数据误差来源的分析判断 不同总体的均值是否相等。因此,进行方差分析时,需 要考察数据误差的来源
6 - 10
h
10
误差分解
1. 组内误差(within groups)
▪ 样本数据内部各观察值之间的差异
比如,同一位置下不同超市之间销售额的差异的差异
▪ 反映随机因素的影响,称为随机误差
2. 组间误差(between groups)
▪ 不同样本之间观察值的差异
比如,不同位置超市之间销售额的差异
2. 用F分布作出决策,给定的显著性水平
若F>F(或P<) ,则拒绝原假设H0 ,表明均 值之间的差异显著,因素对观察值有显著影响
6 - Biblioteka Baidu5
h
15
误差分析
(F分布与拒绝域)
如果均值相等, F= MSA/ MSE1
F 分布
0
6 - 16
拒绝H0
不拒绝H0
F
F(k-1,n-k)
h
16
单因素方差分析