第2章单因素方差分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第12章方差分析(Analysis of V ariance)
方差分析是鉴别各因素效应的一种有效统计方法,它是通过实验观察某一种或多种因素的变化对实验结果是否带来显著影响,从而选取最优方案的一种统计方法。
在科学实验和生产实践中,影响一件事物的因素往往很多,每一个因素的改变都有可能影响产品产量和质量特征。
有的影响大些,有的影响小些。
为了使生产过程稳定,保证优质高产,就有必要找出对产品质量有显著影响的那些因素及因素所处等级。
方差分析就是处理这类问题,从中找出最佳方案。
方差分析开始于本世纪20年代。
1923年英国统计学家R.A. Fisher 首先提出这个概念,(ANOV A)。
因当时他在Rothamsted农业实验场工作,所以首先把方差分析应用于农业实验上,通过分析提高农作物产量的主要因素。
Fisher1926年在澳大利亚去世。
现在方差分析方法已广泛应用于科学实验,医学,化工,管理学等各个领域,范围广阔。
在方差分析中,把可控制的条件称为“因素”(factor),把因素变化的各个等级称为“水平”或“处理”(treatment)。
若是试验中只有一个可控因素在变化,其它可控因素不变,称之为单因素试验,否则是多因素试验。
下面分别介绍单因素和双因素试验结果的方差分析。
1.1 单因素方差分析(One Way Analysis of Variance)
1.一般表达形式
2.方差分析的假定前提
3.数学模形
4.统计假设
5.方差分析:(1)总平方和的分解;(2)自由度分解;(3)F检验
6.举例
7.多重比较
1.1.1 一般表达形式
首先通过一个例子引出单因素方差分析方法。
某农业科研所新培养了四种水稻品种,分别用A1,A2,A3,A4表示。
每个品种随机选种在四块试验田中,共16块试验田。
除水稻品种之外,尽量保持其它条件相同(如面积,水分,日照,肥量等),收获后计算各试验田中产量如下表:
通过这些数据要考察四个不同品种的单位产量,是否有显著性差异。
类似的例子很多,如劳动生产率差异,汽车燃油消耗,金属材料淬火温度等问题。
上述问题可控实验条件是“种子”。
所以种子是因素。
把不同的品种A1,A2,A3,A4称为“水平”。
1,2,3,4表示试验
批号,即每次随机的选取某个地块种某个品种的种子。
称此种问题为单因素试验。
单因素试验通常分多个试验批号,目的是平衡一些不可控因素带来的影响。
如土地的基本条件不一样。
如各品种只试验一次,必然在试验结果中含有不可控因素带来的影响。
在众多的数据中,怎样判别不同品种的水稻产量是否存在显著性差异?初步观察A 1品种的产量可能低一些,A 3,A 4的产量可能高一些。
这是从平均数上观察。
若按前面介绍的两个总体的比较,需要作C 24= 6次检验。
比较麻烦,所以需要方差分析方法。
首先从数学上给出这类问题的一般形式(单因素)
这表明该可控因素共有k 个水平,每个水平都进行m 次试验,某个水平上的m 次试验可当作一个样本看待。
X i j 表示第i 个水平上第j 次试验的结果。
很容易看出当水平只有2个时,这相当于两个总体的均值的显著性检验问题。
现在的目的是要分析各个水平上的均值是否有显著性差异。
1.1.2 方差分析的假定前题 (1)每个水平(A i )上的随机变量X i 的分布都是正态的,即服从N(μi , σ2)。
但μi ,(i = 1, …, m ),σ2未知。
每个水平上的一系列观测值,看作是取自该水平正态总体的一个容量为m 的样本。
(2)认为k 个水平上的k 个总体方差相等,都是σ2(方差齐性)。
(3)观测值X i j 相互独立。
这三个假定在实际中一般都能得到满足。
1.1.3 数学模型
因为X i j ~ N (μi , σ2),(i = 1, …, k )所以可以把观测值X i j 分解为两部分,即
X i j = μi + e i j , (i = 1, …, k ),(j = 1, 2, …, m )
其中e i j 表示X i j 对μi 的随机偏差。
为便于比较水平不同对X i j 造成的影响,可以把μi 也分解成两部分
μi = μ + αi (i = 1, …, k )
其中μ = ∑=k
i i k 1
1μ,称为总平均(Grand mean ),αi 称为A i 水平上的效应,它满足∑αi = 0 把
μi 代入上式则有:
X i j = μ + αi + e i j , ∑αi = 0, (i =1, 2, …, k ),(j =1, 2, …, m )
e i j 表示随机变量,αi 表示水平变量。
这就是单因素方差分析的数学模型。
1.1.4 统计假设:
若可控因素的不同水平对试验结果无显著性影响,那么观测值X i j 应该来自同一正态总体,X i j ~ N(μ, σ2)。
所以对应的零假设是
H 0:μ1 = …, μi ….= μk = μ 或 α1 =, …, = αk = 0 H 1:μi 不全相等或αi 不全为零。
当H 0成立时,样本的行平均数i X 必然差异不大,差异表现为随机误差,当H 1为真时,
i X 间必存在较大差异,这时差异表现为系统误差。
1.1.5 方差分析方法
为判别不同水平对试验结果有无显著性影响,关键是把观测值变量中的随机误差和系统误差分开,并能进行比较,问题就解决了。
(1) 分解总离差平方和(Total Sum of Squares ),
S T =∑∑==-k
i m
j ij X X 112)(
方法是在S T 公式中加入行平均数i X 。
S T =∑∑==-k
i m
j ij X X 112
)(=∑∑==-+-k
i m
j i i ij X X X X 112
)]()[(
=∑∑==-k
i m
j i ij X X 11
2
)(+∑∑==-k
i m
j i X X 11
2
)(+∑∑==--k
i m
j i i ij X X X X 11
))((2
因为 ∑∑==--K i m j i i ij X X X X 11
))((= ∑∑==--k i m
j i ij i X X X X 1
1
)]()[(= 0
所以
S T =∑∑==-K
i m
j ij X X 11
2
)(=∑∑∑∑====-+-K
i m
j k
i m
j i i ij X X X X 11
11
22
)()(
令
S E =∑∑-2)(i ij X X
S A =∑∑==-k
i m
j i X X 112
)(=∑=-k
i i X X m 1
2)(
则
S T = S E + S A ,
其中S T 称总离差平方和,总变差。
S E 称样本组内离差平方和。
它测量同一水平上因重复实验而产生的误差。
这是由于不可控因素引起的,故S E 反映的是随机误差。
S A 称样本组间离差平方和。
它表示各个水平上的样本平均数i X 与样本总平均数X 之间离差的加权平方和。
可见不同水平上的样本差异越大,S A 的值就越大。
它反映的是系统误差。
(2).求各离差平方和S T ,S A ,S E 的自由度(Degrees of freedom ),f T ,f A ,f E 。
S T =∑∑==-K
i m
j ij X X 112)(的自由度。
因随机变量X ij 的个数是N 个,相互独立,但受一个约
束条件。
∑∑===
m i n
j ij X N
X 11
1约束,所以自由度为 N – 1,即f T = N – 1。
S A =∑∑==-k
i m
j i X X 11
2
)(=∑=-k
i i X X m 1
2)(的自由度。
因i X 的个数是k 个,但受条件
∑==
K
i i X m N
X 11约束,所以自由度为f A = k -1。
S E =∑∑==-K
i m
j i ij X X 11
2
)(的自由度。
因X ij 的个数为N ,但受条件i X =∑=m
j ij X 1
,(i = 1, …, k )
约束,所以自由度为f E = N – k 。
三个自由度之间也有这样的关系。
f T = f A + f E , N – 1=(N – k )+(k – 1)
(3)F 检验
在H 0成立条件下,X ij 服从正态分布N (μ, σ 2),又知X ij 相互独立,所以有
2
σ
T
S =
2
11
2
)(σ
∑∑==-K i m
j ij X X ~ χ2(N – 1)
2
σ
A
S =
2
11
2
)(σ
∑∑==-K
i m
j i X X ~ χ2(k – 1)
2
σ
E
S =
2
11
2
)(σ
∑∑==-K
i m
j i ij X X ~ χ2(N –k )
且S A , S E 相互独立(证明从略)。
由抽样分布一章知,若x ~ χ2(n 1),y ~ χ2(n 2), 且x 与y 相互独立,则
F =
2
1
//n y n x ~),(21n n F 当已知S A ,S E 相互独立且分别服从(k – 1)和(N – k )个自由度的χ2分布时,则有
F =)
()
1(2
2
k N S k S E
A
--σ
σ
=
)
/()
1/(k N S k S E A --~ F [(k –1) , ( N – k )]
有了统计量F 就可以做假设检验。
怎样制定判别规则?分析如下:
在H 0成立条件下,有
E(
1
-k S A ) = E(
1)(2
--∑∑k X X i ) = E(
1
)(1
2
--∑=k X X m k
i i )
= m E(
1
)(1
2
--∑=k X X k
i i ) = m Var )(i X = m
m
2
σ= σ 2
E(k N S E -) = E(k km S E -) = E[
]1
)
(1
2
--∑∑m X X k i j i =∑∑==--k
i m
j i ij m X X E k 1
1
2
1
)([1
]
= ∑=k i k 1
2
1σ= σ 2
可见
1-k S A 和k
N S E
-都是σ2的无偏估计量。
所以在H 0成立条件下,F =)/()1/(k N S k S E A --应接
近1。
当F 值很大时,说明组间均方误差,大于组内均方误差,则不能认为k 个总体服从同
一个正态分布,即拒绝H 0,否则接受H 0。
这是一个单端检验问题。
临界值由检验水平α 确定。
P{F > F α,(k – 1)(N - k )} = α 检验步骤是:
(1)建立假设H :μ1 = μ2 = … = μk = μ
(2)选统计量F ,H 0成立条件下F ~ F (k – 1),(N – k ) (3)由α 计算临界值F α(k – 1,N- k )
(4)判别规则:若F *≤ F α(k – 1,N – k )接受H 0 若F * > F α(k – 1,N – k )拒绝H 0
(5)由样本计算F *值,按判别规则给出检验结果。
通常使用方差分析表来完成F 检验。
用Eviews进行方差分析
案例1 国家统计局城市社会经济调查总队1996年在辽宁、河北、山西3省的城市中分别调查了5个样本地区,得城镇居民人均年消费额(人民币元)数据如下表。
省 1 2 3 4 5 LN(辽宁)3493.02 3657.12 3329.56 3578.54 3712.43
HB(河北)3424.35 3856.64 3568.32 3235.69 3647.25
SX(山西)3035.59 3465.07 2989.63 3356.53 3201.06
用方差分析方法检验3省城镇居民的人均年消费额是否有显著性差异。
EViews数据窗口如下(file:ANOV A02):
点击transpose键,得到与数据表格一致的表达形式。
从View选Tests of Equality。
Test Equality of中的缺省选择是Mean,即均值单因素方差分析。
点击OK,
常用格式是,
方差来源离差平方和自由度均方 F F0.05 (2, 12)
S A组间387105.6 2 193552.8 4.90 3.89
S E组内474357.3 12 39529.78
S T总和86146.29 15
图示如下:
1
0.8
0.6
0.4
0.2
123456
12.7 方差分析的简便算法。
当试验的观测值X ij的数字太大,不便计算时,可以对X ij作如下线性变换。
X ij ’ =
b
a X ij -,(i = 1,2,…k ),(j = 1,2,…m ) 。
其中a ,b 是任意两个实数(b ≠ 0)。
a ,b 选择适当就可以减少计算量。
这样计算出的结果
与原来结果相同。
因为
S A ’ =∑=-k
i i X X m 12//
)(=2])()[(∑---a X a X m i =∑-2)(X X m i
即使b ≠ 1时,也会在
F =
)
/()
1/(K N S k S E A --
中约掉。
这是一种古老的简易算法,当有了计算器和计算机之后,这种简化已没有多大必要。