第四讲 方差分析内容1
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.2 方差分析的基本步骤
1.2.1 偏差平方和与自由度的分解 在方差分析中是用样本方差即均方(mean squares)来度量数据资料的变异程度。 将总变异分解为处理间变异和处理内变异,就是要 将总均方分解为处理间均方和处理内均方。
总偏差平方和:分解为处理间偏差平方
和与处理内偏差平方和两部分;
总自由度:分解为处理间自由度与处理
小推断两个总体方差是否相等的方法称为 F 检验(F-test)。
在单因素试验结果的方差分析中,无效假设
为H0:μ1=μ2=…=μk,备择假设为 HA:各
μi不全相等 F=MSt/MSe,也就是要判断处理间均方是
否显著大于处理内(误差)均方。
如果结论是肯定的,否定H0;反之,接受
H0。
实际进行F检验时 ,是将由试验资料所算得
SSe SST SSt 138.1975 128.4750 9.7225
dfT nk 1 4 5 1 19 处理间自由度 df k 1 5 1 4 t 处理内自由度 df e dfT df t 19 4 15
总自由度
内自由度两部分来。
(1)总偏差平方和的分解 在表4-1中,反映全部观测值总变异的 总偏差平方和是各观测值xij与总平均数 x .. 的离均差平方和,记为SST。即
SST ( xij x.. )
i 1 j 1
k
n
2
( x
i 1 j 1 k n
k
n
ij
x..) ( xi . x..) ( xij xi .)
1 方差分析的基本原理与步骤
1.1 线性模型与基本假定
假设某单因素试验有k个处理,每个处理有n 次重复,共有nk个观测值。试验资料的数据模式 如表4-1所示。
表4-1 k个处理每个处理有n个观测值的数据模式
表中 x ij表示第i个处理的第j个观测值 i=1,2,…,k; j=1,2,…,n);
x i.
2 F S t2 / S e ~F(df1,df2)
df1 df t k 1, df 2 df e k (n 1)
(2) F 检验
若实际计算的F值大于 F0.05( df1 , df 2 ) ,则 F
值在α=0.05的水平上显著,我们以95%
的 可靠性推断 S t2 代 表 的总体方差大于 S 2 e 代表的总体方差。这种用F值出现概率的大
(4-4)
其中μ表示所有试验观测值(nk个)总体的平均数;
ai 是 第 i 个 处理的效应 (treatment effects)表示处理i对试验结果产生的影响。 εij是试验误差,相互独立,且服从 正态分 布N(0,σ2)。
xij i ij 叫做单因素试验的线性模型 (linear model)亦称数学模型。
到总均方、处理间均方和处理内均方, 分别记
2 为 MST(或 S T )、MSt(或 S 2 )和MSe t
(或 S e2)。
即
2 MST ST SST / df T 2 MSt S t SSt / df t
(4-12)
MSe
2 Se
SS e / df e
【例】以淀粉为原料生产葡萄糖过程中,残留的许 多糖蜜可用于酱色生产。生产酱色之前应尽可能彻 底除杂,以保证酱色质量。今选用5中除杂方法, 每种方法做4次试验,试验结果见表4-2,试分析 不同除杂方法的除杂效果有无差异?
k n 2 i 1 j 1 2
2
( xi . x..) 2( xi . x..)( xij xi .) ( xij xi .)
i 1 j 1 k k n k 2
2
2
n ( xi . x..) 2 [( xi . x..) ( xij xi .)] ( xij xi .)
(4-7)
i 1
k
( x i . x..) 2 为各处理平均数与总平均数的离均差平
方和与重复数n的乘积 ,反映了重复n次的处理间变 异 ,称为处理间偏差平方和,记为SSt,即
SS t n
( xi . x..)
i 1
k
2
( x ij x i. ) 2
i 1 j 1
n
因为
nk 1 (k 1) (nk k ) (k 1) k (n 1)
wenku.baidu.com所以
df T df t df e
(4-10)
综合以上分析:
df T kn 1 df t k 1 df e df T df t
(4-11)
各部分偏差平方和除以各自的自由度便可得
k
n
表示全部观测值的总平均数;
x ij
可以分解为: xij i ij
(4-1)
i 表示第i个处理n个观测值的总体平均数。
为了比较各处理的影响大小,将 i 再进行 分解,令 1 k (4-2) i
k
i 1
i i
则
(4-3)
xij i ij
用SSt、SSe分别除以dft和dfe便可得到处 理间均方MSt及处理内均方MSe。
MSt SSt / dft 128.475 / 4 32.12 MSe SSe / dfe 9.7225 / 15 0.65
1.2.2 构造F统计量,进行F检验
(1) F统计量构造 假设各处理没有真实差异,那么 S t2 和 S e2 都是误差方差 2 的估计量。以 S e2 为分母, t2 S 为分子,求其比值。统计学上把两个均方之 比值称为F值。即
第四讲 方差分析
t检验法适用于样本平均数与总体平均数以及 两个样本平均数间的差异显著性检验,但在生产和 科学研究中经常会遇到比较多个处理优劣的问题, 即需进行多个平均数间的差异显著性检验。
多个样本平均数间的差异显著性检验, t检验法是不适宜的,原因有三:
1、检验过程烦琐
例如,一试验包含5个处理,如采用t检验法进行检验,需作
观察值xij表示为总平均数μ、处理效应αi、 试验误差εij之和。
若将表3-1中的观测值 xij、的数据结构 (模型)用样本符号来表示,则
xij x.. ( xi. x.. ) ( xij xi. ) x.. t i e(4-6) ij x 与(3-4)式比较可知, .. 、( xi. x.. ) ti 、
i 1 i 1 j 1 i 1 j 1
n
说明:k,试验处理个数; n,每个处理的重复数
其中
(x
j 1
k n i 1 j 1
n
ij
xi. ) 0
2 k
离均差和为零
2 k n i 1 i 1 j 1
所以
n
( xij x.. )
n ( xi. x.. ) ( xij xi. )2
2 .. 2
总偏差平方和
SST x C
2 ij
25.6 24.4 21.2 13390.3125 =138.1975
2 2 2
处理间(不同除杂方法间)的偏差平方和
1 2 SSt xi . C n 1 2 2 2 2 (100.9 109.8 108.1 113.7 ) C 4 13518.7875 13390.3125 128.4750 处理内(误差)的偏差平方和
的F值与根据df1=dft
(大均方 ,即分子均方的自由
度)、df2=dfe(小均方,即分母均方的自由度)查附表
所得的临界F值 F0.05( df1 , df 2 ) ,F0.01( df1 , df 2 )相比较作出 统计推断。 若F< F0.05( df , df ) ,即P>0.05, 不能否定 H0,统计学上,把这一检验结果表述为:各处 理间差异不显著,在F值的右上方标记“ns”, 或 不标记符号;
表4-2 不同除杂方法的除杂量 g/kg
除杂方法(Ai) A1 A2 A3 A4 25.6 27.8 27.0 29.0
除杂量(xij) 24.4 27.0 27.7 27.3 25.0 27.0 27.5 27.5 25.9 28.0 25.9 29.9
合计(xi.) 100.9 109.8 108.1 113.7
性降低,从而降低检验的灵敏性。
例如,试验有5个处理 ,每个处理 重复 6次,共有30个 观测值。进行t检验时,每次只能利用两个处理共12个观 测值估计试验误差 ,误差自由度为 2(6-1)=10 ;若利 用整个试验的30个观测值估计试验误差 ,显然估计的精
确性高,且误差自由度为5(6-1)=25。
k
n
为各处理内离均差偏差平方和之
和,反映了各处理内的变异即误差,称为处理内
偏差平方和或误差偏差平方和,记为SSe,即
SS e ( x ij x i. ) 2
k n i 1 j 1
于是有
SST =SSt+SSe 所以
(4-8)
总偏差平方和=处理间偏差平方和+处理内偏差平方和
或
=因素偏差平方和+误差偏差平方和
xij
j 1
n
表示第i个处理n个观测值之和;
x..
xij xi .
i 1 j 1 n j 1 i 1
k
n
k
表示全部观测值的总和; 表示第i个处理的平均数;
xi . xij / n xi . / n
x..
xij / kn x.. / kn
i 1 j 1
各偏差平方和计算公式:
2 SS T xij C i 1 j 1
k
n
1 k 2 SS t xi. C n i 1
(4-9)
SS e SST SS t
其中,C= x /kn称为矫正数或修正项。
2
(2)总自由度的分解
在计算总偏差平方和时,资料中的各个观测值要 受 ( xij x..) 0 这一条件的约束,总自由度记为dfT
次两两平均数的差异显著性检验;若有k个处理,则要作 次类
似的检验。
2、无统一的试验误差,试验误差估计的精确 性和检验的灵敏性低
对同一试验的多个处理进行比较时,应该有一个统一的试
验误差的估计值。若用 t 检验法作两两比较,由于每次比
较需估计一个 同时没有充分利用资料所提供的信息而使误差估计的精确
S xi xj ,使得各次比较误差的估计不统一,
平均 xi. 方差Si2 25.2 27.5 27.0 28.4 0.442 0.277 0.649 1.543
A5
20.6
21.2
22.0
21.2
85.0
x..=517.5
21.3
0.330
单因素试验,处理数k=5,重复数n=4。
各项偏差平方和及自由度计算如下:
矫正数
C x / nk 517.5 /( 4 5) 13390.3125
R.A.Fisher于1923年提出的。
方差分析是将k个处理的观测值作为一个整体 看待,把观测值总变异的偏差平方和及自由度分解 为相应于不同变异来源的偏差平方和及自由度,进 而获得不同变异来源的总体方差估计值;由总体方 差估计值构造F统计量,计算F值,检验各样本所属 总体平均数是否相等。
方差分析实质上是关于观测值变异原因的数量分析。
分 别是μ、(μi-μ)= (xij- i ) = ij 的估计值。
( xij xi. ) eij
由(4-4)、(4-6)两式可以看出: 每 个 观 测 值 都包含处理效应(μi - μ 或 ),与误差( 或 ),故kn 个观测值的总变异可分解为处理间的变异和处理内的 变异两部分。
、 i
3、推断的可靠性低,犯 错误的概率增大
即使利用资料所提供的全部信息估计了试验误差,若用t 检验法进行多个处理平均数间的差异显著性检验,由于没 有考虑相互比较的两个平均数的秩次问题,因而会增大犯 I型错误的概率,降低推断的可靠性。
方差分析
(analysis of variance) 是由英国统计学家
i 1 j 1 k n
dfT=kn-1
在计算处理间平方和时,各处理均数 x i. 要 k 受 ( xi. x.. ) 0 这一条件的约束,处理间自由度记 为dft, dft=k-1
i 1
在计算处理内平方和时,要受k个条件的约
束,即 ( xij xi. ) 0 (i=1,2,…,k。处理内自由度 j 1 记为dfe, dfe=kn-k=k(n-1)