方差分析及MATLAB实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
fr n 1 f A r 1 fE n r
,
其中n ni为试验的总次数, X i. X ij , T.. X ij .
i 1 j 1 i 1 j 1
2012年
r
ni
中国石油大学(华东)理学院数学
方差分析表(ANOVA TABLE) 方差来源 平方和 自由度 均方和 F 值 显著性 因子影响 SA r-1 SA /(r-1) 随机误差 SE n-r SE /(n-r) F 总和 ST n-1
方差分析
• 在工农业生产和科学研究中,经常遇到这样 的问题:影响产品产量、质量的因素很多,我们 需要了解在这众多的因素中,哪些因素对影响 产品产量、质量有显著影响.为此,要先做试验 ,然后对测试的结果进行分析.方差分析就是分 析测试结果的一种方法. • 在方差分析中,把在试验中变化的因素称为 因子,用A、B、C、...表示;因子在试验中所取 的不同状态称为水平,因子A的r个不同水平用 A1、A2、...、Ar表示.
2012年
中国石油大学(华东)理学院数学
设试验结果如下表:
水平 A1 A2 … Ar
2012年
观测值 x11 x21 … xr1 x12 x22 … xr2 ... … … … x1n1 x2n2 … xrnr
中国石油大学(华东)理学院数学
• 由于Xij~N(μi,σ2) ,故Xij与μi的差可以看成一个 随机误差εij~N(0,σ2) .这样一来,可以假定Xij具有下 述数据结构式:
故
2
ST
(n 1) S 2
2
~ 2 (n 1)
2012年
中国石油大学(华东)理学院数学
对于各组样本有
2 2 ( X X ) ( n 1 ) S ij i. i i j 1
ni
其中ni是第i组样本的样本容量 S i 是第i组样本的样本方差
因此
2 2 且各组样本方差 S12 , S2 ,, Sr2相互独立 .
x12 x22 … xr2
... … … …
x1n1 x2n2 … xrnr
中国石油大学(华东)理学院数学
• 例:为寻求适应本地区的高产油菜品种,今选 了五种不同品种进行试验,每一品种在四块试验 田上得到在每一块田上的亩产量如下:
品种 A1 A2 A3 A4 A5 田块 1 256 244 250 288 206 2 222 300 277 280 212 3 280 290 230 315 220 4 298 275 322 259 212
F1 (r 1, n r )时, 拒绝假设H 0 , 认为因子各水平间在显 著性水平下有显著差异 .否则接受H 0 , 认为因子各水平 间在显著性水平 下无显著差异 . • 一般,当F>F0.01时,称因子的影响高度显著,记为 “**”;当F0.01>F≥F0.05时,称因子的影响显著,记为 “*”; 当F<F0.05时,称因子无显著影响,即认为因 子各水平间无差异.
第1章 方差分析(analysis of variance)
§1 单因素方差分析
1.1 1.2 1.3 1.4 数学模型 统计分析 方差分析表 Matlab实现
§2 双因素方差分析
2.1 2.2 2.3 2.4 数学模型 无交互影响的双因素方差分析 有交互影响的双因素方差分析 Matlab实现
第 1章
1 Xi. ni
X 是从第i个总体中抽得的样本平均值, 称
j 1 ij
ni
为组平均值.
2012年
中国石油大学(华东)理学院数学
ST ( X ij X ) 2 表示所有数据与总平均值
i 1 j 1
r
ni
的离差平方和, 是描述全部数据离散程度的一个 指标, 称为总偏差平方和(总离差平方和).
Xij= μi+ εij,i=1,2,...,r;j=1,2,...,ni 其中诸εij~N(0,σ2),且相互独立.要检验的假设是 H0:μ1=μ2=…=μr • 为了今后方便起见,把参数的形式改变一下,并 r 1 r 记 ni i n ni n i 1 i 1 i i , i 1,2,...,r , 称μ为一般平均,αi为因子A的第i 个水平的效应.
• 我们要研究的问题是诸不同品种的平均亩 产量是否有显著差异.
2012年
中国石油大学(华东)理学院数学
• 在本例中只考虑品种这一因子对亩产量的影响 ,五个不同品种就是该因子的五个不同水平.由于 同一品种在不同田块上的亩产量不同,我们可以认 为一个品种的亩产量就是一个总体,在方差分析中 总假定各总体独立地服从同方差正态分布,即第i 个品种的亩产量是一个随机变量,它服从分布 N(μi,σ2), i=1,2,3,4,5. • 试验的目的就是要检验假设 H0:μ1=μ2=μ3=μ4=μ5 是否成立.若是拒绝 ,那么我们就认为这五种品 种的平均亩产量之间有显著差异;反之,就认为各 品种间产量的不同是由随机因素引起的.方差分 析就是检验假设的一种方法.
2012年
中国石油大学(华东)理学院数学
• 实际上,方差分析是检验同方差的若干正态总体 均值是否相等的一种统计方法.
• 在实际问题中影响总体均值的因素可能不止一 个.我们按试验中因子的个数,可以有单因子方差 分析,双因子分析,多因子分析等.例中是一个单因 子方差分析问题. • 设在某试验中,因子A有r个不同水平 A1,A2,...,Ar,在Ai水平下的试验结果Xi服从正态 分布N(μi,σ2),i=1,2,...,r,且X1,X2,...,Xr间 相互独立.现在水平Ai下做了ni次试验,获得了ni 个试验结果Xij,j=1,2,...,ni这可以看成是取自 Xi的一个容量为ni的样本,i=1,2,...,r.
反映X ij之间的波动 .令
ST ( X ij X ) 2
i 1 j 1 r ni
1 r ni 其中X X ij n i 1 j 1
2012年
中国石油大学(华东)理学院数学
令
r ni
1 Xi. ni
r
X
j 1
ni
ni
ij
则ST ( X ij X ) 2 ( X ij X i . X i . X ) 2
由n r (ni 1)及 2分布的可加性知
i 1 r
2
(ni 1) Si2
~ 2 (ni 1), i 1,2,, r
2
2012年
SE
i 1
rLeabharlann Baidu
(ni 1)Si2
2
~ 2 (n r )
中国石油大学(华东)理学院数学
柯赫伦(Cochran)分解定理 : 设X 1 , X 2 ,..., X n为n个 相互独立的N (0,1)随机变量, Q j 是某些X 1 , X 2 ,..., X n的 线性组合的平方和, 其自由度分别为f j , 如果 Q1 Q2 ... Qk ~ 2 (n) 且 则 f1 f 2 ... f k n Q j ~ 2 ( f j ), j 1, 2,..., k
i 1 j 1 i 1 j 1
( X ij X i .)2 ( X i . X ) 2 2 ( X ij X i .)( X i . X )
i 1 j 1 i 1 j 1 i 1 j 1
r
ni
r
ni
r
ni
( X ij X i .) ni ( X i . X ) 2
2 i 1 j 1 i 1
r
ni
r
其中交叉乘积项
2 ( X ij X i .)( X i . X ) 2 ( X i . X ) ( X ij X i .)
2 ( X i . X )( X i . tX i .) 0
i 1
2012年
r
ni
r
ni
i 1 j 1 r
异程度, 故当假设H 0 : 1 2 ... r 0为真时, S A的值不应太大 , 从而 S A /(r 1) F S E /(n r ) 也不应太大, 当F值过大时, 可以认为假设 H 0不真.
2012年
中国石油大学(华东)理学院数学
检验过程:
由此可知,当H 0 : 1 2 ... n 0为真时, S A /(r 1) F ~ F (r 1, n r ) S E /(n r ) 按照显著性检验程序 , 对给定的显著性水平 ,当F
2012年
中国石油大学(华东)理学院数学
§1.3
方差分析表
若因子的每一水平所进行的试验次数不等, 设在 第i个水平下试验了ni次, 则在具体计算时, 可用下式
ni ni r r 1 2 2 2 2 ST X ij nX X ij T.. n i 1 j 1 i 1 j 1 2 r r X i2 X 1 2 2 . i. nX T.. S A n i 1 ni i 1 ni S S S T A E S A / (r 1) F S E / (n r ) r ni
2012年
中国石油大学(华东)理学院数学
检验统计量的构造:
当H 0 : 1 2 ... n 0为真时, 一切X ij ~ N ( , 2 ), 且相互独立 .
ST ( X ij X ) 2 (n 1)S 2
i 1 j 1
r
ni
其中S 2是全体样本的样本方差 .
• 为了导出检验假设的统计量,下面我们分析一 下什么是引起诸Xij 波动的原因.
2012年
中国石油大学(华东)理学院数学
§1.2 统计分析
• 平方和分解公式:引起诸Xij 波动的原因有两个 :一个是假设H0为真时,诸Xij的波动纯粹是随机性 引起的;另一个可能是假设H0不真而引起的.因而我 们就想用一个量来刻划诸Xij之间的波动,并把引起 波动的两个原因用另两个量表示出来,这就是方差 分析中常用的平方和分解法. 通常用X ij与样本总平均 X之间的偏差平方和来
2012年
中国石油大学(华东)理学院数学
§1
§1.1
单因子方差分析
基本概念与数学模型
为了考察某个因素 A 对试验指标(即随机变量 X) 的影响,在试验时,保持其他因素不变,而仅让因素 A 改变,这种试验称为单因子(单因素)试验. 设试验结 果如下表:
水平 A1 A2 … Ar
2012年
观测值
x11 x21 … xr1
S E ( X ij X i .) 表示每个数据与其组平均值
2 i 1 j 1 r ni
的离差平方和, 反映了试验中的随机误差, 称为误差 偏差平方和 (组内离差平方和). r S A ni ( X i . X )2表示组平均值与总平均值的离差
i 1
平方和, 反映了各总体(因子A的不同水平)均值之间的 差异程度, 称为因子偏差平方和(组间离差平方和).
2012年
中国石油大学(华东)理学院数学
• 在这样的改变下,单因子方差分析模型中的数 据结构式可以写成:
X ij i ij , i 1,2,...,r; j 1,2,...,ni
n
i 1 i
r
i
0
所要检验的假设可以写成:
H0 : 1 2 ... r 0
i 1
j 1
中国石油大学(华东)理学院数学
记 S E ( X ij X i .) 2
i 1 j 1
r
ni
S A ni ( X i . X ) 2
i 1
r
则 ST S E S A 为一个平方和分解式.
下面我们来看各式的意义
1 r ni X X ij是所有数据的平均值, 称为总平均值. n i 1 j 1
且Q1 , Q2 ,..., Qk 相互独立.
2012年
中国石油大学(华东)理学院数学
由于
ST
2
SA
2
SE
2
及n 1 (r 1) (n r )
可知柯赫伦分解定理的 条件全部满足, 故有 SA 2 ~ (r 1) 2
且S A与S E 相互独立. 由于S A反映的是因子不同水平 均值之间的差