数据、模型与决策 教学课件作者 李连友 第6章 方差分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6.1.1 方差分析的基本概念
• 方差分析就是分析推断各种因素状态对所观测变量的影响效应的一 种统计分析方法。其主要目的是通过对方差的比较来检验多个均值 之间差异的显著性。①
• ①方差分析方法是20世纪20年代由英国统计学家费希尔(R. A. Fisher)最早提出的,开始应用于生物和农业田间试验,以后在许 多学科领域得到了广泛应用。
方差分析中的决策规则可以用两种方式来表述。一种方法是根据事先确定的显著性水平
和自由度计算F检验的临界值,当实际值大于临界值时拒绝零假设。二是根据样本统计量
计算p值,当p<α值时拒绝零假设。
1.各个水平下样本容量都相同时的方差分析 例:不同最低生活保证金政策对就业人数影响
在样本的数据中,最低生活保证金档次这一因子共有 3 个水平,即 k 3 ;每个水平下的样 本容量为 n j 6 ;样本总容量为 nT n j k 6 3 18
(1)写出零假设和备择假设:H0:μ1=μ2=μ3,H1:μ1、μ2和μ3不全相等。
(2)计算F检验值和 p 值:
F的值为:
F MSA 67.484 1.28 MSE 52.744
利用Excel计算,与F值1.28对应的 p 值为0.307。
(3)列方差分析表
方差来源
离差平方和 SS
组间
134.967
第6章 方差分析
学习目标
1、掌握方差分析中的基本概念; 2、掌握方差分析的基本思想和原理; 3、掌握单因子方差分析的方法及应用; 4、初步了解多重比较方法的应用; 5、掌握双因子方差分析的方法及应用。
方差分析
6.1 方差分析的基本问题 6.2 单因子方差分析 6.3 双因子方差分析
Fisher的最小显著差异方法:
(1)建立检验的零假设和备择假设
H0 : i j , H : i j
(2) 计算检验统计量
t
xi x j
MSE( 1 1 )
ni n j
(6.14)
(3)决策规则:如果 t t / 2 或 t t / 2 则拒绝H0。
或者,计算 xi x j 的置信区间:
6.2.5方差分析中的多重比较
探明哪些均值之间有显著差异还需要采用多重比较的方法进行分析。这在 方差分析中称为事后检验。
多重比较是对各个总体均值进行的两两比较。统计中有很多种方法可以用 来进行多重比较,如Fisher最小显著差异(LSD)方法、Tukey的诚实显著差 异(HSD)方法或Bonferroni的方法等。
2.14 0.0001 5.31 14.03
8 年前采伐过 7.97
2.31 0.0017 3.26 12.68
1 年前采伐过 从未采伐过 -9.67
2.14 0.0001 -14.03 -5.31
8 年前采伐过 -1.69
2.31 0.4682 -6.40 3.02
8 年前采伐过 从未采伐过 -7.97
(xi x j ) t / 2
MSE( 1 1 ) ni n j
(6.15)
如果0包含在根据公式(6.15)计算的置信区间内则不能拒绝H0,否则拒绝H0。
SPSS对雨林采伐研究的输出结果
(I) 采伐类型 (J) 采伐类型 均值差 (I-J) 标准误 p-值
95% 置信区间 下限 上限
从未采伐过 1 年前采伐过 9.67
定。
2.各个水平下样本容量不都相同时的方差分析
一份研究伐木业对热带雨林影响的统计研究报告指出,“环保主义者对于林木采伐、开
垦和焚烧导致的热带雨林的破坏几近绝望”。这项研究比较了类似地块上树木的数量,这些
地块有的从未采伐过,有的1年前采伐过,有的8年前采伐过。根据表6-5中的数据,采伐对
树木数量有显著影响吗?显著性水平 0.05。
均值; i :代表第i组的均值; i :代表第 i 组的均值与总均值的差; ij :代表随机误差
项, ij ~ N(0, 2 ) 。
随机误差 ij 必须满足下列几点要求:
(1)随机误差ij 相互独立。
(2)随机误差 ij 的数学期望为 0
(3)随机误差 ij 具有固定的方差 2
(4)随机误差 ij 服从正态分布,则必须有 ij 服从于正态 N(0, 2 )分布。
定因子的各个不同水平对响应变量的作用进行考察分析。
假设在单因子方差分析中所研究的因子为因子 A,共有 k 个水平,每个水平的样本容量为
nj j 1,2,, k,共有 nT k n 个观察值。
在单因子方差分析模型中,任何一个样本数据都包含了 三部分因素的影响:总体平均水平的影响;因子水平的
影响;以及随机因素的影响。单因子方差分析模型可以
写成公式:
Xij i ij
i ij
(6.2)
式中,X ij :代表响应变量的数值;i :代表同一因子水平的不同观测值( i 1,2,,n j );
j:代表不同因子水平下的不同观测值( j 1,2,,k ); :代表根据所有数据计算的总
均值。
k nj
xij
x j 1 i 1 nT
(6.4)
式中, nT :代表所有样本容量, nT n1 n2 nk
总离差平方和可以分解成组间离差平方和与组内离差平 方和两个组成部分。
组间离差平方和(SSA)也称为解释的变差,它是各组 (不同水平)均值与所有样本总均值离差平方之和。
2.31 0.0017 -12.68 -3.26
1 年前采伐过 1.69
2.31 0.4682 -3.02 6.40
6.3 双因子方差分析
方差分析可以同时分析多个因子对响应变量的影响。 如果同时考察的因子有两个,那么就称为双因子方差分析,也称为
两向分类的方差分析或两种方式分组的方差分析。 如果同时考察的因素有三个,那么就称为三因子方差分析,等等。 两个和两个以上因子的方差分析,可统称为多因子方差分析。
两个均值不相等,即 H : 1 , 2 ,, k 不全相等。
2.根据样本计算F统计量的值和 p 值;
3.列方差分析表
• 单因子方差分析表
方差来源 组间
离差平方和 SS SSA
组内
SSE
总离差
SST
自由度 df
k 1 nT k
nT 1
均方 MS MSA
MSE
F值
P值
MSA/MSE
4.确定决策规则并得出检验结论。
(6.10)
SSA、SSE分别被它们的自由度相除便得到组间方差(MSA)和组内方差(MSE),在方
差分析中分别称MSA为处理均方,MSE为误差均方。
MSA SSA k 1
MSE SSE nT k
(6.11) (6.12)
在零假设成立时组间方差与组内方差的比值服从F分布。因此可以设定一个显著性水平
从未采伐过 1年前采伐过 8年前采伐过
27
12
18
22
12
4
29
15
22
21
9
15
19
20
18
33
18
19
16
17
22
20
14
12
24
14
12
27
2
28
17
19
19
方差分析的程序如下: (1)对方差分析的基本假设进行检验 正态性假设、等方差的检验 (2)零假设:雨林采伐对林木数量没有显著影响; 备择假设:雨林采伐对林木数量有显著影响。
,通过对这个F统计量的检验做出拒绝或不能拒绝零假设(各个总体的均值相等)的决策。
F MSA MSE
(6.13)
6.2.3 单因子方差分析的程序 一个完整的方差分析过程需要经过以下程序: 1. 建立零假设和备择假设;
各总体的均值之间没有显著差异,即 H0 : 1 2 k ;备择假设也相同:至少有
6.2.2单因子方差分析的基本方法
为了计算组内方差和组间方差,需要讨论有关总离差平 方和(SST)的分解问题。
总离差平方和也称为总变差,它是所有数据中每个数据 与总平均数离差平方之和。
其计算公式为:
k nj
2
SST xij x
j1 i1
(6.3)
式中, SST :代表总离差平方和; xij :代表每个具体数据; x :代表所有数据的总
要以下三个假设条件: • (1)对于每个总体,响应变量都服从正态分布 (2)所有总体响应变量的方差都相等 (3)各个观测值之间都相互独立
6.1.3方差分析的基本原理
方差分析的目的是检验各个水平的均值 1 、2 、……、k 是否相等,实现这个目的的手段
则是进行方差比较。
通过分析发现,观测值之间的差异来自于两个方面:一方面是由因子中不同水平造成的,
可以称之为系统性差异;另一方面是由于选择样本的随机性所产生的差异,
可以称之为随机性差异。 把反映不同水平之间差异的方差称为组间方差,它既包括系统性差异,也包括随机性差异。
只反映同种水平下不同样本单位之间差异的方差称为组内方差,它仅包括随机性差异。
方差分析就是通过不同方差的比较,做出拒绝或者不能 拒绝零假设(不同水平的均值相等)的判断.
• 在方差分析中,实际测量的、作为结果的变量称为响应变量或因变 量,而作为原因的、把观测结果分成几个组以进行比较的变量称为 因子或自变量
• 方差分析可以研究一个定量响应变量与一个或多个定性因子的关系, 复杂的方差分析模型甚至可以分析多个定量响应变量与多个定性和 定量因子之间的关系。
方差分析可以用于对观察数据或者实验数据的分析,但 用于实验数据的情况更多一些.
零假设。
**利用Excel进行最低生活保证金案例的方差分析
第1步:进入Excel表格界面,把三个最低生活保证金水平下的就业人数数据分别输入到
ABC三列中。 第 2 步:选择【数据】下的【数据分析】,在“分析工具”中选择“方差分析:单因素方差
分析”,在“输入区域”中输入数据,分组方式选中“列”,显著性水平 中输入“0.05”,确
方差来源 组间 组内 总计
SS
df
625.16
2
820.72
30
1445.88
32
MS 312.58 27.36
F 11.43
P-value 0.0002
F crit 3.32
结果表明,F值=11.43远远大于临界值3.32,p值=0.0002远远小于0.05,因此检验的结论 是拒绝零假设,这就意味着采伐对林木数量有显著影响。
在多因子方差分析中,不仅要考察各个因子单独对响应变量的影响, 而且还要考察几个因子的不同搭配对响应变量是否有综合影响,这 种几个因子的不同水平搭配所产生的影响称为交互作用。
分析两因子间的交互作用,就必须至少对各因子的不同水平组合实 验观测两次以上。
• 6.3.1 无交互作用的双因子方差分析模型
计算公式为:
k
SSA n j (x j x )2
j 1
(6.6)
式中, SSA:代表组间离差平方和; n j :代表第 j 个水平的样本容量; x j :代表第
j 个水平下观测数值的均值。
nj
xij
x j i 1 nj
(6.7)
组内离差平方和(SSE),是由不可控因素(例如不可控 制的个体差异,随机因素,测量误差等)引起的与自变 量无关的变差,
计算公式为:
k nj
SSE
(xij ቤተ መጻሕፍቲ ባይዱx j )2
j 1 i1
(6.8)
SST、SSA和SSE之间有以下关系:
SST=SSA+SSE
(6.9)
还需要分别对组间离差平方和与组内离差平方和进行平 均,即分别用两种平方和除以它们的自由度.
SST、SSA、SSE的自由度及关系:
nT 1 k 1 nT k
组内
791.153
总离差
926.120
自由度 df 2 15 17
均方 F值
MS
67.484
1.28
52.744
P值 0.307
(4)确定决策规则并得出检验结论。
当 0.05 ,分子自由度为2,分母自由度为15时,查附录A表6—F分布表得:
F0.05 2,15 =3.68
由于 F 1.2795 F0.052,15 3.68 ,或,由于 p 值=0.307> 0.05 ,所以不能拒绝
在方差分析中,组间方差和组内方差之比是一个统计量。数理统计已经证明,这个统计 量服从F分布。即
组间方差 F 组内方差
(6.1)
方差分析的基本方法就是利用F分布进行假设检验。
6.2 单因子方差分析
6.2.1 单因子方差分析的数据结构和模型 单因子方差分析就是在假设其他条件不变的情况下,对某个特
在方差分析中,因子的不同表现,也就是每个因子的不 同取值称为因子水平(简称水平)。
只有一个因子的方差分析称为单因子方差分析;
如果要同时研究多个因子对响应变量的影响,则称为多 因子方差分析。
其中最简单的情况是双因子方差分析。
6.1.2 方差分析中的基本假设 • 方差分析是对多个总体均值是否相等的比较。比较中需