第12章单因素方差分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第12章方差分析(Analysis of V ariance)
方差分析是鉴别各因素效应的一种有效统计方法,它是通过实验观察某一种或多种因素的变化对实验结果是否带来显著影响,从而选取最优方案的一种统计方法。
在科学实验和生产实践中,影响一件事物的因素往往很多,每一个因素的改变都有可能影响产品产量和质量特征。有的影响大些,有的影响小些。为了使生产过程稳定,保证优质高产,就有必要找出对产品质量有显著影响的那些因素及因素所处等级。方差分析就是处理这类问题,从中找出最佳方案。
方差分析开始于本世纪20年代。1923年英国统计学家R.A. Fisher 首先提出这个概念,(ANOV A)。因当时他在Rothamsted农业实验场工作,所以首先把方差分析应用于农业实验上,通过分析提高农作物产量的主要因素。Fisher1926年在澳大利亚去世。现在方差分析方法已广泛应用于科学实验,医学,化工,管理学等各个领域,范围广阔。
在方差分析中,把可控制的条件称为“因素”(factor),把因素变化的各个等级称为“水平”或“处理”(treatment)。
若是试验中只有一个可控因素在变化,其它可控因素不变,称之为单因素试验,否则是多因素试验。下面分别介绍单因素和双因素试验结果的方差分析。
1.1 单因素方差分析(One Way Analysis of Variance)
1.一般表达形式
2.方差分析的假定前提
3.数学模形
4.统计假设
5.方差分析:(1)总平方和的分解;(2)自由度分解;(3)F检验
6.举例
7.多重比较
1.1.1 一般表达形式
首先通过一个例子引出单因素方差分析方法。某农业科研所新培养了四种水稻品种,分别用A1,A2,A3,A4表示。每个品种随机选种在四块试验田中,共16块试验田。除水稻品种之外,尽量保持其它条件相同(如面积,水分,日照,肥量等),收获后计算各试验田中产量如下表:
通过这些数据要考察四个不同品种的单位产量,是否有显著性差异。类似的例子很多,如劳动生产率差异,汽车燃油消耗,金属材料淬火温度等问题。上述问题可控实验条件是“种子”。所以种子是因素。把不同的品种A1,A2,A3,A4称为“水平”。1,2,3,4表示试验
批号,即每次随机的选取某个地块种某个品种的种子。称此种问题为单因素试验。
单因素试验通常分多个试验批号,目的是平衡一些不可控因素带来的影响。如土地的基本条件不一样。如各品种只试验一次,必然在试验结果中含有不可控因素带来的影响。
在众多的数据中,怎样判别不同品种的水稻产量是否存在显著性差异?初步观察A 1品种的产量可能低一些,A 3,A 4的产量可能高一些。这是从平均数上观察。若按前面介绍的两个总体的比较,需要作C 24= 6次检验。比较麻烦,所以需要方差分析方法。
首先从数学上给出这类问题的一般形式(单因素)
这表明该可控因素共有k 个水平,每个水平都进行m 次试验,某个水平上的m 次试验可当作一个样本看待。X i j 表示第i 个水平上第j 次试验的结果。
很容易看出当水平只有2个时,这相当于两个总体的均值的显著性检验问题。现在的目的是要分析各个水平上的均值是否有显著性差异。
1.1.2 方差分析的假定前题 (1)每个水平(A i )上的随机变量X i 的分布都是正态的,即服从N(μi , σ2)。但μi ,(i = 1, …, m ),σ2未知。每个水平上的一系列观测值,看作是取自该水平正态总体的一个容量为m 的样本。
(2)认为k 个水平上的k 个总体方差相等,都是σ2(方差齐性)。 (3)观测值X i j 相互独立。
这三个假定在实际中一般都能得到满足。
1.1.3 数学模型
因为X i j ~ N (μi , σ2),(i = 1, …, k )所以可以把观测值X i j 分解为两部分,即
X i j = μi + e i j , (i = 1, …, k ),(j = 1, 2, …, m )
其中e i j 表示X i j 对μi 的随机偏差。为便于比较水平不同对X i j 造成的影响,可以把μi 也分解成两部分
μi = μ + αi (i = 1, …, k )
其中μ = ∑=k
i i k 1
1μ,称为总平均(Grand mean ),αi 称为A i 水平上的效应,它满足∑αi = 0 把
μi 代入上式则有:
X i j = μ + αi + e i j , ∑αi = 0, (i =1, 2, …, k ),(j =1, 2, …, m )
e i j 表示随机变量,αi 表示水平变量。这就是单因素方差分析的数学模型。
1.1.4 统计假设:
若可控因素的不同水平对试验结果无显著性影响,那么观测值X i j 应该来自同一正态总体,X i j ~ N(μ, σ2)。所以对应的零假设是
H 0:μ1 = …, μi ….= μk = μ 或 α1 =, …, = αk = 0 H 1:μi 不全相等或αi 不全为零。
当H 0成立时,样本的行平均数i X 必然差异不大,差异表现为随机误差,当H 1为真时,
i X 间必存在较大差异,这时差异表现为系统误差。
1.1.5 方差分析方法
为判别不同水平对试验结果有无显著性影响,关键是把观测值变量中的随机误差和系统误差分开,并能进行比较,问题就解决了。
(1) 分解总离差平方和(Total Sum of Squares ),
S T =∑∑==-k
i m
j ij X X 112)(
方法是在S T 公式中加入行平均数i X 。
S T =∑∑==-k
i m
j ij X X 11
2
)(=∑∑==-+-k
i m
j i i ij X X X X 11
2
)]()[(
=∑∑==-k i m j i ij X X 11
2
)(+∑∑==-k i m j i X X 11
2
)(+∑∑==--k i m
j i i ij X X X X 11
))((2
因为 ∑∑==--K i m j i i ij X 11
))((= ∑∑==--k i m
j i ij i X X X X 1
1
)]()[(= 0
所以
S T =∑∑==-K
i m
j ij X X 11
2
)(=∑∑∑∑====-+-K
i m
j k
i m
j i i ij X X X X 11
11
22
)()(
令
S E =∑∑-2)(i ij X X
S A =∑∑==-k
i m
j i X X 112
)(=∑=-k
i i X X m 1
2)(