方差分析简介
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
方差分析简介
1. 引言
方差分析(analysis of variance,简称ANOV A)是一种假设检验方法,即基本思想可概述为:把全部数据的总方差分解成几部分,每一部分表示某一影响因素或各影响因素之间的交互作用所产生的效应,将各部分方差与随机误差的方差相比较,依据F分布作出统计推断,从而确定各因素或交互作用的效应是否显著。
因为分析是通过计算方差的估计值进行的,所以称为方差分析。
方差分析的主要目标是检验均值间的差别是否在统计意义上显著。
如果只比较两个均值,事实上方差分析的结果和t检验完全相同。
只所以很多情况下采用方差分析,是因为它具有如下两个优点:(1)方差分析可以在一次分析中同时考察多个因素的显著性,比t检验所需的观测值少;(2)方差分析可以考察多个因素的交互作用。
方差分析的缺点是条件有些苛刻,需要满足如下条件:(1)各样本是相互独立的;(2)各样本数据来自正态总体(正态性:normality);(3)各处理组总体方差相等(方差齐性:homogeneity of variance)。
因此在作方差分析之前,要作正态性检验和方差齐性检验,如不满足上述要求,可考虑作变量变换。
常用的变量变换方法有平方根变换,平方根反正弦变换、对数变换及倒数变换等。
方差分析在医药、制造业、农业等领域有重要应用,多用于试验优化和效果分析中。
2. 单因素方差分析
2.1 基本概念
(1)试验指标:在一项试验中,用来衡量试验效果的特征量称为试验指标,有时简称指标,也称试验结果,通常用y表示。
它类似于数学中的因变量或目标函数。
试验指标用数量表示称为定量指标,如速度、温度、压力、重量、尺寸、寿命、硬度、强度、产量和成本等。
不能直接用数量表示的指标称为定性指标。
如颜色,人的性别等。
定性指标也可以转化为定量指标,方法是用不同的数表示不同的指标值。
(2)试验因素:试验中,凡对试验指标可能产生影响的原因都称为因素(factor),也称因子或元,类似于数学中的自变量。
需要在试验中考察研究的因素,称为试验因素,有时也称为因素,通常用大写字母A、B、C、……表示。
在试验中,有些因素能严格控制,称为可控因素;有些因素难以控制,称为不可控因素。
试验因素是试验中的已知条件,能严格控制,所以是可控因素。
通常把未被选作试验因素的可控因素和不可控因素都称为条件因素,统称为试验条件。
(3)因素水平:因素在试验中所处的各种状态或所取的不同值,称为该因素的水平(level),也简称为水平或位级,通常用下标1、2、3、……表示。
若一个因素取K种状态或K个值,就称该因素为K水平因素。
因素的水平,有的可以取得具体值,如6Kg、10cm;有的只能取大致范围或某个模糊概念,如软、硬、大、小、好、较好等;但
也有无法用数值表征的,如履带的不同形式,轮胎花纹的不同种类,机器的不同操作方式,大豆的不同品种等。
(4) 处理组:所有试验因素的水平组合所形成的试验点称为处理组(treatment group),也
称组合处理。
三因素试验中,A 1B 2C 3是一个组合处理,它表示由A 因素1水平、B 因素2水平和C 因素3水平组合而形成的一个试验点。
2.2 主要步骤
假设我们在实验中只考虑因素A ,该因素有p 个水平,每个水平做r 次重复试验,设第i 个水平的第j 次重复试验的数据为ij y ,如表1所示。
表1 试验数据
1A 2A … i A … p A 1 11y 21y … 1i y … 1p y 2 12y
22y
… 2i y
… 2p y
… …
…
… …
… …
j 1j y
2j y
… ij y
… pj y
… …
…
… …
… …
r 1r y 2r y …
ir y …
pr y
根据这些数据,可以计算全体数据的均值y 和和各水平对应数据的均值.i y :
111p r ij i j y y rp ===∑∑,.1
1r
i ij j y y r ==∑,i=1, 2, …, p
进一步,可以计算全体数据的偏差平方和T S 、因素A 对应的偏差平方和A S ,以及误差的偏差平方和e S :
211
()p
r
T ij i j S y y ===-∑∑
2.1()p
A i i S r y y ==-∑
2.11
()p
r
e ij i i j S y y ===-∑∑
下一步,需要计算这三个偏差平方和所对应的自由度。
之所以要计算自由度,是因为如
果用偏差平方和除以对应的数据项数,得到的统计量并不是方差的无偏估计。
而偏差平方和与对应的自由度的商才是方差的无偏估计。
设有n 个数据x 1, x 2, …, x n ,它们的平方和2
1n i
i S x
==
∑的自由度取决于{x i }之间有多少个
线性约束关系。
设X=(x 1, x 2, …, x n )T ,若存在秩为m 的矩阵A ,满足
0AX =
则S 的自由度是n-m 。
下面来求S T 的自由度。
令k ij x y y =-,1,2,...,i p =,1,2,...,j r =,(1)k i r j =-+,
则{x i }之间存在一个线性约束
1
11
11
()0rp
p
p
r
r
i ij
ij i i j i j x y
y y rpy ======-=-=∑∑∑∑∑
即m=1,A=(1, 1, …, 1),故1T f rp =-。
同理可得1A f p =-,e f rp p =-。
可以证明(证明本文从略),对于偏差平方和与其对应的自由度,如下关系成立:
T A e S S S =+,T A e f f f =+
这就是Fisher 偏差平方和加性原理,它是全部方差分析的基础。
在得到偏差平方和及其对应的自由度后,就可以得到因素A 和误差e 对应的平均偏差平方和
/A A A S S f =,/e e e S S f =
平均偏差平方和是反映数据波动大小的一个测度,比较A S 和e S 的大小可以看出因素A 的不同水平带来的试验指标的波动是否与随机误差相同,所以,可以由此判断因素A 对试验指标是否有显著影响。
判断A S 和e S 是否相同的方法采用F 检验(基于F 分布的假设检验),令
/A e F S S =
则可认为F 服从自由度为A f 和e f 的F 分布。
用求出的F 值查F 分布表可得到对应的P 值,一般取置信水平α=0.05,即当P 值小于0.05时拒绝原假设,认为因素A 对试验指标的影响显著,否则维持原假设,认为影响不显著。
2.3 数学模型
设因素A 取了p 个水平,每个水平重复了r 次试验,在水平A i 下的第i 次实验结果y ij
可以分解为
ij i ij y με=+
其中,i μ表示在水平Ai 下的理论指标值,ij ε是试验误差。
我们把试验误差ij ε认为是相互独立的随机变量,且服从正态分布2
(0,)N σ,这是方差的基本假设之一。
为了看出因素各水平的影响大小,将i μ再进行分解,令
1
1p
i i p μμ==∑
i i a μμ=-,i=1, 2, …, p
则
ij i ij y a με=++,i=1, 2, …, p; j=1, 2, …, r
显然{a i }之间有关系
1
0p
i
i a
==∑
a i 表示水平A i 对试验结果产生的影响,它称作水平A i 的效应。
方差分析的数学模型就是建立在这么几条假定的基础上的: (1)ij i ij y a με=++,i=1, 2, …, p; j=1, 2, …, r (2)10p
i i a ==∑
(3)ij ε相互独立且都服从分布2
(0,)N σ 由这三条建立的模型叫做线性模型。
建立模型以后,统计分析需要解决下列问题:
1. 参数估计。
即通过试验估计μ和{a i },它们的估计量用ˆμ
和{ˆi a }表示。
11
1ˆp r
i i j y y rp μ
====∑∑ .111
11ˆp r r
i i i ij i i j a
y y y y r rp ====-=-∑∑∑ 可以证明(本文从略),ˆμ
和{ˆi a }是μ和{a i }的无偏估计。
2. 假设检验。
如果因素A 对指标有影响,效应{a i }不全为0,如果因素A 对指标没有
影响,则效应{a i }全为0。
因此,要检验因素A 对指标影响是否显著就是检验假设
012: ...0p H a a a ====
这需要选择一个合适的统计量。
令
.11r i ij j r εε==∑,11
1p r
ij i j rp εε===∑∑
则
..1111()r r
i ij i ij i i j j y y a a r r μεμε====++=++∑∑
11
1()p r
i ij i j y a n μεμε===++=+∑∑
故
2
2
..1
1
22
..1
1
1
()()2()()p p
A i i i i i p p p
i i i i i i i S r y y r a r a r a r εεεεεε======-=+-=+-+-∑∑∑∑∑
2
2..11
11
()()p p r
r
e ij
i i i j i j S y
y εε=====
-=-∑∑∑∑
如果原假设H 0成立,则12...0p a a a ====,有
2.1
()p
A i i S r εε==-∑
因为ij ε相互独立且都服从分布2
(0,)N σ,由统计理论推知2A S σ服从自由度为
(1)A f p =-的2χ分布,2e S σ服从自由度为()e f n p =-的2χ分布,而且两者独立,
从而
A A A
e e e
S S f F S S f =
=
服从自由度为A f ,e f 的F 分布。
所以可以采用F 统计量作为假设检验的统计量(这种
假设检验称为F 检验),通过查F 分布表确定拒绝域或P 值,从而作出推断结论。
3. 多因素方差分析
所谓多因素方差分析,就是同时检验多个因素影响是否显著的方差分析方法。
多因素方差分析。
方差分析的一大优势就是可以同时考虑多个试验因素对试验指标的影响,这样,既节省了试验次数,试验误差也比进行多次单因素方差分析要小。
在多因素方差分析中,有一个很重要的问题,就是试验设计(DOE: Design of Experiment)。
其主要目的是通过设计每次试验中因素水平的搭配,用尽可能少的试验次数和试验数据满足方差分析的要求,获得较好的分析结果。
最常用的试验设计有析因设计和正交设计。
前者是对所有因素的所有水平组合都进行试验,因此又称交叉分组设计;后者是按照某种正交表设计试验,以较少的试验次数即可接近析因设计的效果。
因此,析因设计一般用于两个因素且水平数较少的情况,而因素和水平较多时则多采用正交设计。
除正交设计外,还有其它许多实验设计方法,如系统分组设计(嵌套设计)、正交拉丁方设计、裂区设计等,它们一般用在并非任意组合都可以实现或找不到合适的正交表的情况。
实验设计确定的一个水平组合,如A 1B 2A 3,称作一个处理组。
如果在一个处理组内做多次重复试验得到多个试验数据,则称为有重复试验的设计,否则称无重复试验的设计。
在方差分析中,一般要求各处理组内的重复试验数相等。
对于不相等的情况,方差分析也可以计算,但公式略有差别,而且可靠性差,所以一般采用其它方法如通用线性模型(GLM: General Linear Model )来计算。
在多因素方差分析中,还有一个重要的概念,这就是因素间的交互作用(interaction ),它是指几个因素的某些水平互相增强或互相削弱的现象。
表2中,当A 从A 1变化到A 2时,指标都增加,与B 取B 1或B 2无关;同样,B 从B 1变到B 2时,指标都增加,与A 的水平无关,此时,我们说A 和B 之间没有交互作用。
而在表3中,因素A 对指标的影响与B 的水平有关,此时我们说A 和B 之间存在交互作用,记作A ×B 。
表2 无交互作用的试验数据 A 1 A 2 B 1 2 5 A 2
7
10
表3 有交互作用的试验数据
A 1 A 2
B 1 2 5 A 2
7
3 3.1 析因设计的方差分析
由于析因设计主要用于因素和水平数较少的情形,所以本文以双因素试验为例,介绍析因设计的方差分析的主要步骤。
设考虑两个试验因素A 和B ,A 有p 个水平,B 有q 个水平,每个处理组内做r 次重复试验,在A i B j 条件下的第k 次实验的数据记作y ijk ;在A i B j 条件下做的全部试验数据之和记作Y ij ,显然
11,2,..., 1,2,...,r
ij ijk k i p Y x j q ==⎛⎫
= ⎪=⎝⎭
∑
令A i K 表示在i A 条件下试验数据之和,B
j K 表示在j B 条件下试验数据之和,即
1
1, (1,2,...,),, (1,2,...,)
q
A i ij j q
B j ij i K Y i p K Y i p ==⎧==⎪⎪⎨⎪==⎪⎩
∑∑ 它们的平均值记为A
i k 和B
j k
11, A A B B
i i j j k K k K qr pr
=
= 整个试验的总平均
11
p q r
ijk i j k
y y ===∑∑∑
则总偏差平方和T S ,因素A 和B 的偏差平方和A S ,B S ,误差的偏差平方和e S ,交互作用
的偏差平方和A B S ⨯分别计算如下
2111
()p q r
T ijk i j k S y y ====-∑∑∑
2
1()p
A
A i
i S qr k y ==-∑,2
1
()q
B B j
j S pr k y ==-∑ 2..111
1
(), p
q r
e ijk ij ij ij i j k S y y y Y r ====-=∑∑∑
2
.11()p
q
A B A B T A B e ij i j
i j S S S S S r y k k y ⨯===---=--+∑∑ 它们的自由度分别为
1, 1, 1A B T f p f q f pqr =-=-=- (1)(1), (1)A B e f p q f pq r ⨯=--=-
需要注意的是:如果各处理组中没有重复试验,即r=1,那么按上式计算出的e S =0,这
将导致后续步骤无法开展。
因此,在无重复试验的情形,应该用下式计算e S 和e f
2
.11()p
q
A B e T A B ij i j i j S S S S y k k y ===--=--+∑∑
(1)(1)e f p q =--
此时,将无法计算A B S ⨯。
因此,无重复试验的设计无法考察交互作用。
然后,计算平均偏差平方和
/, /, /, / A A A B B B A B A B A B e e e S S f S S f S S f S S f ⨯⨯⨯====
和F 值
/ , /, /A A e B B e A B A B e F S S F S S F S S ⨯⨯===
把这些F 值查F 表求得拒绝域或P 值,即可做出统计推断。
类似于2.3节,也可以得到双因素方差分析的数学模型:
(), 1,2,...,, 1,2,...,, 1,2,...,ijk i j ij ijk y a b ab i p j q k r με=++++===
其中,{i a },{j b },{()ij ab }分别为因素A ,B 的主效应以及A 与B 的交互效应,满足
1
1
0p q
i j
i j a b
====∑∑,1
1
()()0p q
ij ij i j ab ab ====∑∑
{ijk ε}为实验的随机误差,它们相互独立且都服从正态分布2
(0,)N σ。
由这一模型,可以与2.3节类似地得出各参数的估计,以及采用F 检验的原因。
3.2 正交设计的方差分析
正交设计是利用一系列规格化的正交表来科学地安排多因素试验的一种十分有效的设计方法。
其原理是从各因素各水平的全搭配中选择一部分必不可少的搭配进行试验,从而大大减少试验次数,又基本不降低研究效率。
正交表是已经制作好的规格化的表,可分为同水平的和混合水平的2大类。
等水平表一般记作形如()c a L b ,其中a 表示正交表的行数,即试验的次数;b 表示因素的水平数,即每个因素有b 个水平;c 表示正交表的列数即因素数。
所以,正交表()c a L b 用于c 个因素,每个因素b 个水平的情形,按该表设计共需做a 次试验。
表4所示为等水平表3
4(2)L 。
表5
所示为一个混合正交表13
9(23)L ⨯,这表示可以安排4个因素,其中一个因素有2水平,另
外3个因素有3水平,共需9次试验。
表4 正交表3
4(2)L
试验号 列号 1 2 3 1 1 1 1 2 1 2 2 3 2 1 2 4 2 2 1 列名 A
B
A ×B
表5 正交表13
9(23)
L ⨯
试验号 列号 1 2 3 4 1 1 1 1 1 2 1 2 2 2 3 1 3 3 3 4 1 1 2 3 5 1 2 3 1 6 1 3 1 2 7 2 1 3 2 8 2 2 1 3 9
2
3
2
1
之所以选用正交表,是因为它具有如下性质:在任何一列中各水平都出现且出现的次数相等,在任意两列之间各种不同水平的所有可能组合都出现,且出现的次数相等。
这就使得部分试验中所有因素的所有水平信息即两两因素间的所有组合信息无一遗漏,且任一因素各水平的试验条件相同,从而能最大限度的反映该因素不同水平对试验指标的影响。
在3.1节中讨论了双因素情况下的交互作用,事实上,当有多个因素时,还存在多个因素的交互作用,称为高级交互作用,记作A ×B ×C 。
在正交试验设计中,交互作用一律当
作因素看待,这是处理交互作用问题的一条总的原则。
在正交表中,一般都为交互作用安排了相应的列,如表4中的3
4(2)L 的第3列即用于安排交互作用A ×B ,这意味着使用这一正交表时,如果要考察交互作用,则只能考虑两个因素,因为第3列已经被占用了。
但和因素不同的是,用于考虑交互作用的列并不影响试验方案及其实施,也就是说不必在试验中刻意安排交互作用,只需计算时按第3列计算即可,而且一个交互作用不一定只占1列,也可能占有多列。
因为正交设计中把交互作用看作因素安排到正交表的列中,因此使得方差分析的计算过程更加简单了。
设选用正交表()c a L b 进行正交试验,即有c 列,每列b 个水平,共a 个处理组,设每个处理组有r 个数据,第i 个处理组的第t 个数据记为it y ,则全体的均值y 和第j 列第k 个水平的均值jk y 为
11
1a r
it i t y y ar ===∑∑,(,)11(,)r
jk it g i j k t y y r c j k ===⋅∑∑ 其中,(,)c j k 表示第j 列中第k 个水平出现的次数,(,)g i j k =表示第i 个处理组中第j 列的水平是k 。
由此,总偏差平方和T S ,各列的偏差平方和j S 为
2
11
()a r
T ik i k S y y ===-∑∑,21()b
j jk k ar S y y b ==-∑
其对应的自由度分别为
1T f ar =-,1j f b =-
注意,第j 列的偏差平方和j S 可能是因素的偏差平方和,可能是交互作用的偏差平方和,也可能是空列的偏差平方和。
如果正交表中留有空列,则令
1e j c S S =∑空
,1e j c f f =∑空
其中C 空表示空列。
在无重复实验的情况下,可把1e S 看作是误差的偏差平方和,即1e e S S =,1e e f f =。
在有重复实验的情况下,令
1
1r
i it t y y r ==∑
2211()a
r
e it i i t S y y ===-∑∑,2(1)e
f a r =-
即2e S 表示各处理组内随机误差的偏差平方和的总和。
则在有重复实验时,总体试验误差的
偏差平方和
12e e e S S S =+,12e e e f f f =+
可见,当正交表无空列时,2e e S S =,2e e f f =,即直接计算各处理组内误差的偏差平方和,将其总和作为总体试验误差的偏差平方和。
另外,也可以看出,若正交表无空列,且无重复试验,则方差分析无法开展,因此试验设计时必须保证两者有其一。
在计算出偏差平方和与自由度后,即可由各因素和交互作用的平均偏差平方和与误差的平均偏差平方和的比值计算F 统计量,从而进行F 检验。
4. 总结
本文主要介绍了方差分析的特点、原理、计算步骤和数学模型。
方差分析的主要目的是检验均值间的差别在统计意义上是否显著。
这是通过对方差进行分析而完成的,其方法是把总体方差分析成随机误差导致的方差(处理组内的方差)和均值的差别导致的方差,然后用F 检验比较这两类方差,以决定是否拒绝 “均值相等”的原假设。
和方差分析相关的另一个重要问题是试验设计,本文主要介绍了析因设计和正交设计。
前者主要用于因素和水平较少的情况,而后者是效率更高的方法,能够在因素和水平较多时达到较好的分析效果。