方差分析简介
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
方差分析简介
1. 引言
方差分析(analysis of variance,简称ANOV A)是一种假设检验方法,即基本思想可概述为:把全部数据的总方差分解成几部分,每一部分表示某一影响因素或各影响因素之间的交互作用所产生的效应,将各部分方差与随机误差的方差相比较,依据F分布作出统计推断,从而确定各因素或交互作用的效应是否显著。因为分析是通过计算方差的估计值进行的,所以称为方差分析。
方差分析的主要目标是检验均值间的差别是否在统计意义上显著。如果只比较两个均值,事实上方差分析的结果和t检验完全相同。只所以很多情况下采用方差分析,是因为它具有如下两个优点:(1)方差分析可以在一次分析中同时考察多个因素的显著性,比t检验所需的观测值少;(2)方差分析可以考察多个因素的交互作用。
方差分析的缺点是条件有些苛刻,需要满足如下条件:(1)各样本是相互独立的;(2)各样本数据来自正态总体(正态性:normality);(3)各处理组总体方差相等(方差齐性:homogeneity of variance)。因此在作方差分析之前,要作正态性检验和方差齐性检验,如不满足上述要求,可考虑作变量变换。常用的变量变换方法有平方根变换,平方根反正弦变换、对数变换及倒数变换等。
方差分析在医药、制造业、农业等领域有重要应用,多用于试验优化和效果分析中。
2. 单因素方差分析
2.1 基本概念
(1)试验指标:在一项试验中,用来衡量试验效果的特征量称为试验指标,有时简称指标,也称试验结果,通常用y表示。它类似于数学中的因变量或目标函数。试验指标用数量表示称为定量指标,如速度、温度、压力、重量、尺寸、寿命、硬度、强度、产量和成本等。不能直接用数量表示的指标称为定性指标。
如颜色,人的性别等。定性指标也可以转化为定量指标,方法是用不同的数表示不同的指标值。
(2)试验因素:试验中,凡对试验指标可能产生影响的原因都称为因素(factor),也称因子或元,类似于数学中的自变量。需要在试验中考察研究的因素,称为试验因素,有时也称为因素,通常用大写字母A、B、
C、……表示。在试验中,有些因素能严格控制,称为可控因素;有些因素难以控制,称为不可控因素。
试验因素是试验中的已知条件,能严格控制,所以是可控因素。通常把未被选作试验因素的可控因素和不可控因素都称为条件因素,统称为试验条件。
(3)因素水平:因素在试验中所处的各种状态或所取的不同值,称为该因素的水平(level),也简称为水平或位级,通常用下标1、2、3、……表示。若一个因素取K种状态或K个值,就称该因素为K水平因素。因素的水平,有的可以取得具体值,如6Kg、10cm;有的只能取大致范围或某个模糊概念,如软、硬、大、小、好、较好等;但也有无法用数值表征的,如履带的不同形式,轮胎花纹的不同种类,机器的不同操作方式,大豆的不同品种等。
(4)处理组:所有试验因素的水平组合所形成的试验点称为处理组(treatment group),也称组合处理。三因素试验中,A1B2C3是一个组合处理,它表示由A因素1水平、B因素2水平和C因素3水平组合而形成的一个试验点。
2.2 主要步骤
假设我们在实验中只考虑因素A,该因素有p个水平,每个水平做r次重复试验,设第i个水平的第j次重
复试验的数据为ij y ,如表1所示。 表1 试验数据
... ... 1 ... (2)
…
…
… …
…
… …
… …
j
…
…
… …
… … … … … r
…
…
根据这些数据,可以计算全体数据的均值y 和和各水平对应数据的均值.i y :
111p r ij i j y y rp ===∑∑,.1
1r
i ij j y y r ==∑,i=1, 2, …, p
进一步,可以计算全体数据的偏差平方和T S 、因素A 对应的偏差平方和A S ,以及误差的偏差平方和e S :
下一步,需要计算这三个偏差平方和所对应的自由度。之所以要计算自由度,是因为如果用偏差平方和除以对应的数据项数,得到的统计量并不是方差的无偏估计。而偏差平方和与对应的自由度的商才是方差的无偏估计。
设有n 个数据x 1, x 2, …, x n ,它们的平方和2
1
n i
i S x
==∑的自由度取决于{x i }之间有多少个线性约束关系。 设
X=(x 1, x 2, …, x n )T ,若存在秩为m 的矩阵A ,满足 则S 的自由度是n-m 。
下面来求S T 的自由度。令k ij x y y =-,1,2,...,i p =,1,2,...,j r =,(1)k i r j =-+,则{x i }之间存在一个线性约束
即m=1,A=(1, 1, …, 1),故1T f rp =-。同理可得1A f p =-,e f rp p =-。
可以证明(证明本文从略),对于偏差平方和与其对应的自由度,如下关系成立:
T A e S S S =+,T A e f f f =+
这就是Fisher 偏差平方和加性原理,它是全部方差分析的基础。
在得到偏差平方和及其对应的自由度后,就可以得到因素A 和误差e 对应的平均偏差平方和
/A A A S S f =,/e e e S S f =
平均偏差平方和是反映数据波动大小的一个测度,比较A S 和e S 的大小可以看出因素A 的不同水平带来的试验指标的波动是否与随机误差相同,所以,可以由此判断因素A 对试验指标是否有显著影响。判断A S 和e S 是否相同的方法采用F 检验(基于F 分布的假设检验),令
则可认为F 服从自由度为A f 和e f 的F 分布。用求出的F 值查F 分布表可得到对应的P 值,一般取置信水平α=0.05,即当P 值小于0.05时拒绝原假设,认为因素A 对试验指标的影响显著,否则维持原假设,认为影响不显著。
2.3 数学模型
设因素A 取了p 个水平,每个水平重复了r 次试验,在水平A i 下的第i 次实验结果y ij 可以分解为
其中,i μ表示在水平Ai 下的理论指标值,ij ε是试验误差。我们把试验误差ij ε认为是相互独立的随机变量,且服从正态分布2
(0,)N σ,这是方差的基本假设之一。
为了看出因素各水平的影响大小,将i μ再进行分解,令