方差分析(2)
第十讲 第五章 方差分析2
B与C比:23-18=5<5.07,不显著
D与C比:24-18=6>5.23,显著
结论:只有处理D和C的差异在a=0.05水平显著, 其余皆不显著。
2.q检验:
q检验与SSR检验相似,其区别仅在a,而是查qa。
查qa值后,即有:
LSR= s x ×qa
3.各方法的异同
课堂练习:完全随机试验设计试验结果的统计分析
.
[例4] 研究6种氮肥施用方法(K=6)对小麦的效应,每种施 肥方法种5盆小麦(n=5),完全随机设计,最后测定它们的含 氮量,其结果如下表.试作方差分析
表 6种施肥法小麦植株含氮量
处理
施 12
氮法 34 5
6 总和
2.9 4 2.6 0.5 4.6 4
第五章 方差分析2 三、多重比较
F检验是一个整体的概念。仅能测出不同处理效应的平均 数的显著差异性。但是,是否各个平均数间都有显著差异性? 还是仅有部分平均数间有显著差异而另一部分平均数间没有 显著差异?它不曾提供任何信息。
要明确各个平均数间的差异显著性,还必须对各平均数 进行多重比较。
多重比较的方法主要有两大类: (一)LSD法:t检验法 (二)LSR法:分为SSR法、q检验法
表8 新复极差检验的LSR值
p
2
3
4
5
SSR0.05 SSR0.01 LSR0.05 LSR0.01
2.92 3.96 0.304 0.412
3.07 4.14 0.319 0.431
3.15 4.24 0.328 0.441
3.22 4.33 0.335 0.450
6 3.28 4.39 0.341 0.457
(二)平方和分解
方差分析(1)(2)(1)
如果实验条件不能人为控制,那么这个样本对所属
总体作出推断就属于随机模型。
2021/3/11
25
二、数学模型
随机模型
在随机模型中,水平确定之后其处理所产生的 效应并不是固定的,试验重复时也很难得到相 同的结果
方差分析所得到的结论,可以推广到这个因素 的所有水平上
2021/3/11
26
二、数学模型
固定模型与随机模型的比较
用A、B、C、D4种不同的配合饲料饲养30日龄 的小鸡,10天后计算平均日增重,得到下表的数据, 问4种饲料的效果是否相同?
饲料
日增重(g)
A
55 49 62 45 51
B
61 58 52 68 70
C
71 65 56 73 59
D
85 90 76 78 69
2021/3/11
1
第六章 方差分析
2021/3/11
2
x12 x22 … xi2 … xk2
… … … … ………
j
x1j x2j … xij … xkj
… … … … ………
n
x1n x2n … xin … xkn
总和 T1 T2 … Ti … Tk T=∑xij
平均 x1
x2
…
xi
… xk
x
n
2021/3/11
2(xi x) (x xi ) 0
3. 对于单因素方差分析来说,两者并无多大区别
2021/3/11
27
二、数学模型
(三)混合模型(mixed model) 指多因素试验中既有固定因素又有随机因素
时所用的模型.
在实际应用中,固定模型应用最多,随 机模型和混合模型相对较少
第六章方差分析(二)
1.46
1.03
1.62
1.27
31.50
28.97
合计
2.08 2.97
2.08 2.49
2.06 2.91
2.30 3.08
2.24 2.58
SST SSA SSB
2.自由度的分解
总自由度:dfT ab 1
A的自由度:dfA a 1 B的自由度:dfB b 1
组内自由度:dfe (a 1)(b 1)
3. 方差计算:
s
2 A
SS A df A
sB2
SSB df B
se2
SSe dfe
方差分析表
变异来源 df A因素 a-1 B因素 b-1
SSR值与LSR值(dfe = 27)
M SSR0.05 SSR0.01 LSR0.05 LSR0.01
2 2.905 3.925 9.267 12.521
3 3.055 4.095 9.745 13.063
光照(A)
5h/d 10h/d 15h/d
平均数
Tij
90 -9 -17
差异显著性
α=0.05 α=0.01
…
Xabn
T•b
T
x•b
x
线性数学模型:
A、B的交互作用
随机误差,独立,正态分布
xijk i i ( )ij+ ijk
A因素的效应
B因素的效应
1. 总变异
自由度 平方和
2. A因素引起的变异
自由度 平方和
3. B因素引起的变异
自由度 平方和
4. A、B因素的交互作用引起的变异
自由度 平方和
1. 平方和的分解
矫正数:C T 2 ab
方差分析2(双因素方差分析、多元方差分析、可视化)
⽅差分析2(双因素⽅差分析、多元⽅差分析、可视化)1 双因素⽅差分析1.1 双因素⽅差分析的实战dat<-ToothGrowthdatattach(dat)table(dat$supp,dat$dose)aggregate(len,by=list(dat$supp,dat$dose),FUN=mean)解释:根据投⽅式(橙汁OJ,维C素VC)supp和剂量dose来对⽛齿的长度len进⾏求均值dose<-factor(dose)解释:为了避免把dose变量认为是数值变量,⽽是把dose认为成分组变量,所以设置成因⼦类型factorfit<-aov(dat$len~dat$supp*dat$dose)解释:aov()做⽅差分析,把 + 换成了 * ,这两项dat$supp和dat$dosee就变成了交互项summary(fit)结果分析:可以看出P值很⼩,三个P值都⼩于0.05,说明不同的投喂⽅式supp对⽛齿的⽣长长度len是有显著影响的;说明不同的剂量dose对⽛齿的⽣长长度len是有显著影响的;说明在两种投喂⽅式下,不同的投喂⽅式supp和剂量dose的交互效应对⽛齿的⽣长长度len是有显著影响的1.2 可视化⽅法1interaction.plot(dat$dose,dat$supp,dat$len,type = "b",col=c("red","blue"),pch=c(16,18),main="XX")1.3 可视化⽅法2library(gplots)plotmeans(dat$len~interaction(dat$supp,dat$dose,sep=" "),connect=list(c(1,3,5),c(2,4,6)),col=c("red","blue"),main="XX",xlab="xlab")1.4 可视化⽅法3library(HH)interaction2wt(dat$len~dat$supp*dat$dose)2 重复测量⽅差分析dat<-CO2CO2$conc<-factor(CO2$conc)w1b1<-subset(CO2,Treatment=="chilled")uptake是植物光合作⽤对⼆氧化碳的吸收量,是因变量y,type是组间因⼦,是互斥的,表⽰的是两个不同地区的植物类型,要么是加拿⼤的植物,要么是美国的植物,不可能两个地⽅都是,conc是不同的⼆氧化碳的浓度,每⼀种植物都在所有的⼆氧化碳浓度下,所以conc是组内因⼦研究不同地区的植物作⽤,在某种⼆氧化碳的浓度作⽤下,对植物的光合作⽤效果有没有影响2.1 含有单个组内因⼦w和单个组间因⼦B的重复测量ANOVAfit<-aov(uptake~conc*Type+Error(Plant/(conc)),w1b1)summary(fit)结果分析:⼆氧化碳浓度和类型对植物光合作⽤都有显著影响2.2 可视化图形呈现(1)⽅式⼀par(las=2)par(mar=c(10,4,4,2))with(w1b1,interaction.plot(conc,Type,uptake,type = "b",col=c("red","blue"),pch=c(16,18)))(2)⽅式⼆boxplot(uptake~Type*conc,data=w1b1,col=c("red","blue"))3 多元⽅差分析library(MASS)attach(UScereal)dat<-UScerealshelf<-factor(shelf)y<-cbind(calories,fat,sugars)fit<-manova(y~shelf)summary(fit)结果分析:不同的货架shelf上,⾷物的热量calories,脂肪含量fat和含糖量sugars是⾮常显著不同的3.1 多元正态性center<-colMeans(y)n<-nrow(y) #⾏数p<-ncol(y) #列数cov<-cov(y) #计算⽅差d<-mahalanobis(y,center,cov)coord<-qqplot(qchisq(ppoints(n),df=p),d) #画图abline(a=0,b=1) #画参考线identify(coord$x,coord$y,labels = s(UScereal)) #给出交互式标出离群点3.2 稳健多元⽅差分析install.packages("rrcov")library(rrcov)wilks.test(y,shelf,method="mcd")结果分析:P值⼩于0.05,说明结果是显著性的,即不同货架上⾷物的热量calories,脂肪含量fat和含糖量sugars是⾮常显著不同的4 ⽤回归来做ANOVAlibrary(multcomp)dat<-cholesterollevels(dat$trt)fit.aov<-aov(response~trt,data=dat)summary(fit.aov)结果分析:aov⽅差分析,trt对response的影响⾮常显著fit.lm<-lm(response~trt,data=dat)summary(fit.lm)结果分析:lm回归分析,trt对response的影响⾮常显著,并且trt的每⼀项都显⽰出来了。
第5章_方差分析(第2节)
1、三角形法 此法是将多重比较结果直接标记在平均数 多重比较表上,如表5-4、表5-5所示。由于 在多重比较表中各个平均数差数构成一个三角 形阵列,故称为三角形法。此法的优点是简便 直观,缺点是占的篇幅较大。
2、标记字母法
先将各处理平均数由大到小自上而下 排列;然后在最大平均数后标记字母a,并 将该平均数与以下各平均数依次相比 ,凡 差异不显著标记同一 字母a,直到某一与 其差异显著的平均数标记字母 b 为止;
在利用字母标记法表示多重比较结果时, 常在三角形法的基础上进行。此法的优点是占 篇幅小,在科技文献中常见。 对于【例5·1】,根据表5-4所表示的用
SSR法进行的多重比较结果,用字母标记如表
5-8所示。
表5-8 表5-4多重比较结果的字母标记 (SSR测验)
处 理 平均产量 (克/盆) 31.5 28.5
上一张 下一张 主 页
退 出
式中 μ为总平均数; αi,βj分别为Ai、Bj的效应: αi=μi-μ,βj=μj-μ μi、μj分别为Ai、Bj观测值总体平均数, 且Σαi=0,Σβj=0; εij为随机误差 ,相互独立 , 且服从N (0,σ2)。
上一张 下一张 主 页 退 出
交叉分组两因素单个观测值的试验,A因
4
5
3.18
3.25
4.33
4.40
1.988
2.031
2.706
2.750
表5-19 5个玉米品种平均穗长多重比较表(SSR法)
品种 平均数
B1
B4
20.2
19.6
3.6**
3.0**
3.0**
2.4*
1.9
1.3
单因素方差分析 (2)
单因素方差分析1. 引言•单因素方差分析(One-way ANOVA)是一种常用的统计方法,用于比较两个或多个组之间的均值是否存在显著差异。
•在实际研究中,我们经常需要比较不同组之间某个变量的均值差异,例如不同教育水平对收入的影响,不同药物对疾病的治疗效果等。
•单因素方差分析提供了一种统计方法,可以判断不同组之间均值差异是否由随机因素引起,还是由于真正的因素差异引起。
2. 基本概念•因素(Factor):需要比较不同组之间的变量,也称为自变量或分类因素。
•水平(Level):每个因素具有的不同取值或组别,也称为处理或条件。
•观测值(Observation):每个组内的单个实验结果或数据点。
•总平均(Grand Mean):所有组的观测值的平均值。
•组内平均(Group Mean):每个组的观测值的平均值。
•组间平均(Between-group Mean):所有组的观测值的平均值。
3. 假设检验•零假设(H0):不同组的均值之间没有显著差异。
•备择假设(H1):不同组的均值之间存在显著差异。
4. 单因素方差分析的步骤1.收集数据:按照分类因素进行分组,获得每个组的观测值。
2.计算总平均:计算所有观测值的平均值。
3.计算组内平均:计算每个组的观测值的平均值。
4.计算组间平均:计算所有组的观测值的平均值。
5.构造统计模型:建立协方差矩阵和方差矩阵之间的关系。
6.计算平方和:计算组内平方和和组间平方和。
7.计算均方差:计算组内均方差和组间均方差。
8.计算F值:计算F统计量,用于检验组间均值差异是否显著。
9.假设检验:比较F值与临界值,确定是否拒绝零假设。
5. F分布与p值•在单因素方差分析中,我们使用F分布来进行假设检验。
•F分布是一种连续概率分布,取值范围大于等于0,且分布形状根据自由度的不同而变化。
•在单因素方差分析中,我们计算出的F值可以与F分布表中的临界值进行比较,以确定是否拒绝零假设。
•p值是统计假设检验中的一个重要指标,表示在零假设成立的情况下,观察到的样本数据或更极端结果出现的概率。
方差分析(2次)
它除了推断k个样本所代表的总体均数µ1 ,µ2 , µ3 ,…是否相等外,还要推断b个区组所代表 的总体均数是否相等。由于从总变异中分离出 配伍组变异,考虑了个体变异对处理的影响, 使误差更能反映随机误差的大小,因而提高了 研究效率。
SS总 = SS处理 + SS配伍 + SS误差 df总 = df处理 + df配伍 + df误差
第一节
完全随机设计的方差分析
试验设计时,将受试对象随机分配到两组或 多组中进行实验观察,这里只涉及一个因素, 该因素的各个水平就是各个处理组。
单因素方差分析
或称单向方差分析(one way analysis of variance)或 成组设计(完全随机设计)方差分析,是指试验研究 的处理因素,或调查研究资料的分类方式只有一种。 这个处理因素(或分类方式)包含有多个离散的水平, 分析在不同水平上应变量的平均值是否来自相同总体
Xi = ∑ Xij ni
j =1
ni
X = ∑∑ Xij N = ∑ni Xi N
i =1 j =1 i =1
k
ni
k
SS总 = ∑∑ Xij − X
i=1 j =1
k
ni
(
)
2
ν总 = N −1
2、组间变异 、
SS组间 = ∑ni Xi − X
k
ν组间 = k −1
3、组内变异
i =1
(
)
2
MS组间 = SS组间 ν组间
一、基本思想
*
Xij表示第i个处理组的第j个观察值,i=1,2,…k, j=1,2,…ni
方差分析基本思想示意图
变异原因
医学统计学方差分析 (2)
湿重,例2为抑菌圈的直径;
因素:影响试验指标的条件称为因素----例1为组别,
例2为药物(及剂量)、菌株来源;
水平:因素所处的状态称为该因素的水平----例1组别
这个因素有3个不同的水平;例2药物(及剂量) 因素有4个水平,菌株来源有7个水平。
在一项试验中,如果影响试验指标的因素只有 一个,则称该试验为单因素试验(例1);如果影响试 验指标的因素有多个,则称该试验为多因素试验(例 2)。
…
μg
数
22
假定处理组各水平Aj均为正态总体N(μj,σ2),区组 各水平Bk均为正态总体N(βk,σ2),方差分析的任务是:
对假设:
进行检验。
H0:μ1= μ2= …=μg H0:β1= β2 =…= βn
与完全随机设计的情形类似,我们将总平方和
分解为:
S S 总 S S 处 理 组 S S 区 组 + S S 误 差
方差分析----
多个样本均数比较的假设检验
1. 基本概念 t检验解决了推断两个总体均数是否相等的问题,
但实际工作中还会遇到需要推断多个总体均数是否相 等的问题。如:
Ex1 为研究煤矿粉尘作业环境对尘肺的影响,将18只
大鼠随机分到甲、乙、丙三个组,每组6只,分别在
地面办公楼、煤碳仓库和矿井下染尘,12周后测量大
s nj
SS总 (xij x)26.5628 j1 i1
s
SS组 间 nj(x•j x)22.5278 j1
S S 组 内 S S 总 S S 组 间 6 . 5 6 2 8 2 . 5 2 7 8 4 . 0 3 5 0
16
M S组 间 SsS 组 1 间2.3 5 27 181.264 M S组 内 S nS 组 内 s4 1.8 03 5 3 00.269
7医学统计--方差分析2(重复测量)课件
统计量
组数
q 界值
q
a
0.05
0.01
5.42
3
3.58
4.64
0.96
2
2.95
4.02
4.46
2
2.95
4.02
P值
<0.01 >0.05 <0.01
按照=0.05水准,甲厂与乙厂、乙厂与丙厂比较时均 拒绝H0,接受H1,可认为灭蚊效果上,甲厂、丙厂均 低于乙厂,但不能认为甲厂与丙厂间有差别。
二、 LSD-t 检验
总
n 1
处理组间 区组间 误差
MS处理组间
SS处理组间
处理组间
MS误差
SS误差
误差
MS区组间
SS区组间
区组间
随机区组设计方差分析的计算公式
变异来 源
SS
df
MS
F
处理组
k-1
区组 误差
b-1
N-k-b+1或 (k-1)(b-1)
总
N-1
➢处理组间变异(处理因素的影响) 用MS处理表示
➢区组间变异(配伍因素的影响) 用MS区组表示
第四节 多个样本均数间的多重比较
2020/4/5
医学统计学
24
• 多个总体均数不全相同,即多个总体均 数中至少有两个不同。
• 要了解哪些组均数间有差别,哪些组均 数间没有差别,需进一步作两两比较。
• t检验多次利用,会增大犯Ⅰ类错误的概 率。
• 探索性研究:在研究设计阶段未预料到多个 总体不全相等时,常用SNK-q检验,它用于 多个样本均数间的任两组比较。
表 7.3 甲厂
3.34 3.63 3.70 4.29 5.07 2.51 3.03 5.12 4.69 5.18 4.54 11 4.10 0.91
方差分析(二)
3.计算离均差平方和及自由度 关数据计算如下:
利用式(9-3)及表9-3有
SS总=2733.6,v总=60-1=59 SSA=1580.93,vA=4-1=3 SSB=264.90,v总=3-1=2 SSAB=356.97,vAB=(4-1)(3-1)=6 SS误差=530.80,v误差=4×3×(5-1)=48 4.计算各种均方及F值并列出方差分析表 见表9-4。有三 种假设,故需计算三个F值。各F值均以MS误差为分母进行计 算。
ij
ij
(Y i Y )2
(Y j Y )2
(Yij Y i Y j Y )2
即:SS总=SSi 处j理+SS区组+i SSj 误差
ij
(9 1)
式(9-1)中 和 分别表示对i从1到a求和与j从1到n求和。
i
j
式中各符号的意义及简化计算公式为:
22析因设计模型
a1
设:因素A有二个水平
a2
b1 因素B有二个水平
b2
因素B
因素A
a1
a2
b1
a1b1
a2b1
b2
a1b2
a2b2
一、两因素析因实验的方差分析模型
处理因素A及B分别有a及b个水平,总共有a×b种组合。在每一种组 合下即每一个格子中配有n个受试对象。全部实验受试对象总数N= n×a×b。用i(i=l,2…,a)表示因素A的水平号,j(j=l,2,…b) 表示因素B的水平号,k(k=l,2,…,n)表示在ab每一水平组合的受 试对象号与表示应变量的观察值
j
Tj2
T2 N
方差分析(二)
M 误 = 4 1 4, X24h =12.76, X0 = 8 04, n h = n =10 S 差 . 8 . 24 0
1 1 SXi −Xj = M 误 ( + ) = S 差 ni nj
LSDLSD- t =
1 1 41 ( + ) = 09 5 . 84 . 1 1 0 10
泸州医学院流行病与卫生统计教研室
一、SNK-q检验 SNK-
SNK(Student-Newman-Keuls)检验,亦称q检验
Xi − Xj SXi−X j
M误 1 1 S 差 , ν= ν 误 差 , SX −X = + i j 2 n nj i
q=
Xi , ni 和 Xj , nj 为两对比组的样本均数和样本例数。
泸州医学院流行病与卫生统计教研室
例 4 -3 续例 4 -1 试比较三个组两两之间的差别。 解:1 . 建立假设并确定检验水准 α ; 2. 计算 q 值 H0 : µi = µj H : µi ≠ µj ; α = 0.05 1 将三个样本均数从小到大排列,并赋予秩次 均数 8.04 9.25 12.76 组别 A 组 C 组 B 组 SXi −Xj = 4.184( 1 + 1 ) = 0.647 2 10 10 秩次 1 2 3 表 4-7 多个均数两两比较 q 值表 比较组秩次 (1 ) 1 , 2 1 , 3 2 , 3
①建立假设并确定检验水准 α ;
H0 : µ24h = µ96h ; H : µ24h ≠ µ96h ; α = 0.05 1
LSD②求 LSD- t 值
M 误 = 4.184, X24h =12.76, X96h = 9.25, n24h = n =10 S 差 96
方差分析(Version2)
( yij yi yi y ) 2
i 1 j 1 r m
r
( yij yi ) 2 ( yi y ) 2
i 1 j 1 i 1 j 1
r
m
Se S A
其中 ( yij yi )( yi y ) 0
i 1 j 1 r m
总偏差平方和 ST:
ST ( yij y )2
i 1 j 1
r
m
因子A偏差平方和 r m r 2 2 S ( y y ) m ( y y ) (组间偏差平方和) SA : A i i
i 1 j 1 i 1
随机偏差平方和 r m (组内偏差平方和) Se : Se ( yij yi )2
SPSS ANALYZE Compare Means One-way ANOVA
两因子方差分析(无交互作用)
分析两个因子单独对指标的影响问题 一个因子水平下的好坏及其程度不受另一 个因子不同水平影响的情况,称为两因子 间无交互作用
品牌和销售地区对电脑销售量影响的分析
1、模型与假设的提出
考虑因子A取r个水平,因子B取s个水平, 分析这r×s个水平组合(A i ,B j)对指标 yij的影响 在每个(A i ,B j)下,只做 1 次试验, 一般情况,假定在(A i ,B j)水平组合下 的指标 y i j ~ N(μi j,σ2), i=1,2,…,r; j=1,2,…,s 其中要求y i j 的方差σ2是相同的
检验假设H0的拒绝域为
F SA f A F (r 1, r (m 1)) Se f e
其中 为显著性水平, F (r 1, r (m 1)) 是自由度为 r 1, r (m 1) 的F分布 上侧分位数。 越小,拒绝H0的把握越大,因子A的显著性越高。
实验设计与数据处理:2方差分析(09级温淑平修正均值为μ)
实验设计与数据处理:2⽅差分析(09级温淑平修正均值为µ)第2章⽅差分析2.1 概述⽅差分析(analysis of variance)是数理统计的基本⽅法之⼀,是分析试验数据的⼀种有效⼯具。
⽅差分析是在20世纪20年代初由英国统计学家费歇尔(R.A.Fisher)所创,最早⽤于⽣物学和农业实验,后在⼯业⽣产和科学研究中的许多领域⼴泛应⽤,取得良好的效果。
⼀、⽅差分析的必要性在第1章中,我们已经讨论了两个正态总体均值相等的假设检验问题。
但在实际⽣产中,经常遇到检验多个正态总体均值是否相等的问题。
例2-1 以淀粉为原料⽣产葡萄糖的过程中,残留有许多糖蜜,可作为⽣产酱⾊的原料。
在⽣产酱⾊之前应尽可能彻底除杂,以保证酱⾊质量。
为此,对除杂⽅法进⾏选择。
在试验中选⽤五种不同的除杂⽅法,每种⽅法做四次试验,即重复四次,结果见表2-1。
表2-1 不同除杂⽅法的除杂量(g/kg)本试验的⽬的是判断不同的除杂⽅法对除杂量是否有显著影响,以便确定最佳除杂⽅法。
我们可以认为,同⼀除杂⽅法重复试验得到的4个数据的差异是由随机误差造成的,⽽随机误差常常是服从正态分布的,这时除杂量应该有⼀个理论上的均值。
⽽对不同的除杂⽅法,除杂量应该有不同的均值。
这种均值之间的差异是由于除杂⽅法的不同造成的。
于是我们可以认为,五种除杂⽅法所得数据是来⾃五个均值不同的五个正态总体,且由于试验中其它条件相对稳定,因⽽可以认为每个总体的⽅差是相等的,即五个总体具有⽅差齐性。
这样,判断除杂⽅法对除杂效果是否有显著影响的问题,就转化为检验五个具有相同⽅差的正态总体均值是否相同的问题了,即检验假设H0: µ1=µ2=µ3=µ4=µ5对于这种多个总体样本均值的假设检验,第1章介绍的⽅法不再适⽤,须采⽤⽅差分析⽅法。
⼆、⽅差分析的基本思想⽅差分析的实质就是检验多个正态总体均值是否相等。
那么,如何检验呢?从表2-1可见,20个试验数据(除杂量)是参差不齐的。
9方差分析(二)
F 2= MS种系/MS误差 F 3= MS体重/MS误差
t×t 拉丁方设计的方差分析表
SS1 = t 1 SS2 = t 1 SS3 = t 1 SS E = (t 1)(t 2)
P82
方差来源 DF SS MS F值 P值 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 处理组间 行 列 误 间 间 t-1 t-1 t-1 SS 组间 MS 组间 F 组间=MS 组间/MSE F 行间=MS 行间/MSE F 列间=MS 列间/MSE p 组间
方差分析的步骤
(1)建立假设 H0: μ1=μ2=…=μG , H1: μi不全相等。 取显著水平α=0.05
(2) 变异的分解
每个数据关于总均数的变异(离均差)分解成为 两部分: Xij- X=(Xij- Xj ) + (Xj- X ) ∑(Xij- X)2 =∑(Xij- Xj) 2 +∑ nj (Xj - X) 2
重要的关系式
① SS总=SS处理组+SS区组 +SS误差
② df总=df处理组+df区组 +df误差
MS处理组 = SS处理组/ df处理组 MS区组 = SS区组 / df区组 MS误差 = SS误差/ df误差
F值及F分布
MS处理 F = MS误差
MS区组
F = MS误差
F分布
0.70.60.50.40.30.20.1υ1=2, υ2=9
处理 区组 误差 总
F值
MS处理/MS误差
P值
处理
区组
MS区组 /MS误差
Hale Waihona Puke 误差六、随机区组设计的优缺点
优点: 随机区组设计的优点是每个区组内的k个实验 对象(单位)有较好的同质性,减少个体间差异 对研究结果的影响,比完全随机组分设计更容 易发现处理组间的差别,提高了研究效率。 缺点: 要求高,各区组内例数与试验因素水平数相同.
第5章方差分析2
除杂方法(Ai)
A1 A2 A3 A4 A5
表5-2 不同除杂方法的除杂量
除杂量(xij)
(1)总偏差平方和的分解 在表5-1中,反映全部观测值总变异的
总偏差平方和是各观测值xij与总平均数 x..
的离均差平方和,记为SST。即
kn
SST
( xij x.. )2
i1 j1
上一张 下一张 主 页 退 出
k n
kn
(xij x..)2
(xi. x..) (xij xi.) 2
(xij xi. ) 2
i1 j1
SST =SSt+SSe
(5-8)
所以
总偏差平方和=处理间偏差平方和+处理内偏差平方和
或 =因素偏差平方和+误差偏差平方和
上一张 下一张 主 页 退 出
各偏差平方和计算公式:
kn
SST
xi2j C
i1 j 1
SS t
1 n
k i 1
xi2.
C
(5-9)
来表示,则
xij x.. (xi. x.. ) (xij xi. ) x.. ti e(ij 5-6) 与(5-4)式比较可知, x.. 、(xi. x.. ) ti 、
(xij xi. ) eij 分 别是μ、(μi-μ)= 、i
(xij- i ) = ij 的估计值。
13518.7875 13390.3125 128.4750
方差分析二:双向方差分析
Yijk
ik
S j
Yij2k
ik
20 557
20 596
20 659
16613
18000
22843
华中科技大学同济医学院 宇传华制作,2004,9
60 1812
57456
21
两因素析因分析的方差分析步骤
1.整理数据:求出处理因素 A、B 及其交互项 AB 的观
察值之和,一个因素的观察值平方和、总和、总平方和等。
110447.5 6
变异分解
(1) 总变异: 所有观察值之间的变异
(2) 处理间变异:处理因素+随机误差
(3) 区组间变异:区组因素+随机误差
(4) 误差变异:
随机误差
S S 总 S S 处 理 S S 区 组 S S 误 差
总 处 理 区 组 误 差
华中科技大学同济医学院 宇传华制作,2004,9
双向方差分析前面内容回顾析因设计factorialdesignanova所关心的问题析因设计的4个实例析因设计的特点2个或以上处理因素factor分类变量本节只考虑两个因素每个因素有2个或以上水平level每一组合涉及全部因素每一因素只有一个水平参与几个因素的组合中至少有2个或以上的观察值观测值为定量数据需满足随机独立正态等方差的anova条件三交互作用三交互作用图第三节两因素析因设计方差分析中的多重比较第四节裂区设计splitplotdesign资料的方差分析裂区设计资料的特点一级单位大区间主区家庭学校二级单位小区内即裂区家庭成员学生两因素裂区设计资料的方差分析方法先按随机区组析因设计的方法分析因素a家庭拥挤程度区组家庭的主效应及其交互作用
变异来源 处理 区组 误差 总
离均差平方和 SS 283.83
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ST = S1 + S2
上式表明, 上式表明,总的偏差平方和可以分解为组间偏差平方和 与组内偏差平方和之和。 与组内偏差平方和之和。前者表征了由于因素水平的改变而 引起的数据波动, 引起的数据波动,后者则表征了由于试验存在随机误差而引 起的数据波动。 起的数据波动。
列数据计算表
水 平 重 复 数 1 2… x12… x22… j… x1j… x2j… k 合 计 平均值
f2 = fT − f 1
(5)显著性 ) 为分析条件误差的显著性,常使用 检验 试验的F值 检验。 为分析条件误差的显著性,常使用F检验。 试验的 值 因素方差(组间) 因素方差(组间) 误差方差(组内) 误差方差(组内)
V S1 / f1 F= 1 = V2 S2 / f2
根据F值的大小及给定的显著度 α ,就可判断因素对 根据 值的大小及给定的显著度 值的大小及给定的 试验指标的影响相对于试验误差对试验指标的影响是否显 值越大, 著。F值越大,因素的影响越显著。 值越大 因素的影响越显著。 可从F分布表中查得 根据自由度 f 1 、 f 2 及显著水平α ,可从 分布表中查得 在这些条件下的临界F值 若实际的F值大于此临 在这些条件下的临界 值—— F 。若实际的 值大于此临 α 界值 Fα ,则可认为有 (1 − α ) 的把握说因素对试验指标有显 著影响。 著影响。
计算表中的数据按以下公式计算: 计算表中的数据按以下公式计算:
Ti = ∑xij
j=1
k
1 1 k xi = T = ∑xij i k k j=1 T = ∑Ti = ∑∑xij
i=1 i=1 j=1 m m k
1 1 m 1 m k 1m k x= T = ∑xi = ∑∑xij = n∑∑xij m k m i=1 m i=1 j=1 k i=1 j=1
则
ST = Q −CT T S1 = Q − CT 1 S = Q − Q 或 = S − S) ( S2 2 T 1 T 1
此外,当 xij 的数值 此外, 较大时,可对全部数据 较大时, 进行相同的加、减、乘、 进行相同的加、 除运算,从而将它们转 除运算, 换成较小的,这样可以 换成较小的, 简化计算而不影响方差 分析的结果(左侧的CT 分析的结果(左侧的 称为校正系数)。 称为校正系数)。
水平 试验号 1 2 3 4 5 平均值
A1(30℃) ℃ 75 78 60 61 83 71.4
A2(40℃) ℃ 89 62 93 71 85 80.0
组间偏差平方和S ◆ 组间偏差平方和 1 将各组(各水平下) 将各组(各水平下)的组内平均值对总平均值的偏差平 方并求和后再乘以n,所得到的结果。 方并求和后再乘以 ,所得到的结果。 组间偏差平方和反映 i=1 了条件误差的大小, 了条件误差的大小, 本例中, 本例中, 是条件误差的定量估 S1 = 5( µ1 − µ )2 + 5( µ 2 − µ )2 = 184.90。 计。
水平 试验号 1 2 3 4 5 平均值 A1(30℃) ℃ 75 78 60 61 83 71.4 A2(40℃) ℃ 89 62 93 71 85 80.0
水平(i) 水平 试验号(j) 试验号 1 2 3 4 5 平均值
A1(30℃) ℃ 75 78 60 61 83 71.4
A2(40℃) ℃ 89 62 93 71 85 80.0
µ = 75.7
为表征试验误差、条件误差,引入以下几种偏差平方和。 为表征试验误差、条件误差,引入以下几种偏差平方和。
水平 试验号 1 2 3 4 5 平均值
A1(30℃) ℃ 75 78 60 61 83 71.4
A2(40℃) ℃ 89 62 93 71 85 80.0
◆ 组内偏差平方和 S2 将各水平下的偏差平方并求和, 将各水平下的偏差平方并求和,最后再将各水平下的偏 差平方和相加后所得到的结果。 差平方和相加后所得到的结果。 组内偏差平方和反映 m k 了试验误差的大小, 了试验误差的大小, 2 S2 = ∑∑(xij − µi ) 是试验误差的定量估 i=1 j= 1 计。 本例中, 本例中,S 2 = 429.20 + 680 = 1109.20 。
A1(30℃) ℃ 75 78 60 61 83 71.4
A2(40℃) ℃ 89 62 93 71 85 80.0
(1)组内平均值 µi ) 某一因素水平A 下所有试验数据的平均值。 某一因素水平 i下所有试验数据的平均值。
1 k µi = ∑xij (i = 1,2,⋯, m) k j=1
组内平均值用作该水平下试验结果真值的估计值, 组内平均值用作该水平下试验结果真值的估计值,因 组内偏差反映的是第 此水平A 所对应的组内偏差 组内偏差可表示成 此水平 i所对应的组内偏差可表示成
2
S1 = ∑ k(µi − µ)
m
[
]
总的偏差平方和S ◆ 总的偏差平方和 T 全部试验数据对总平均值的偏差的平方和。 全部试验数据对总平均值的偏差的平方和。
m k
ST = ∑∑ xij − µ)2 (
i= j = 1 1
本例中, 本例中,ST = 1294 .10 。 三个偏差平方和之间的关系: 三个偏差平方和之间的关系:
A1 A2 … Ai … Am
总 和
x11 x21 … xi1 … xm1
x1k x2k … xik … xmk
T1 T2 … Ti … Tm T
x1
x2
…
xi2…
…
xij… … xmj…
…
xi
…
xm2…
…
xm
x
单因素A有 个水平 个水平A 每个水平下重复试验k次 单因素 有m个水平 1~Am,每个水平下重复试验 次, 试验中第i个水平下的第 次重复试验的结果为x 个水平下的第j次重复试验的结果为 试验中第 个水平下的第 次重复试验的结果为 ij。
0.05 1 2 0.10 1 2
改变对试验指标的影响比较显著,称“该因素较显著”, 改变对试验指标的影响比较显著, 该因素较显著” 记作“ 记作“(*)”; ) ★ 若 F .10( f1, f2 ) ≥ F > F .25( f1, f2 ) ,表示试验因素水平的 0 0 改变对试验指标的影响比较小, 改变对试验指标的影响比较小,称“该因素不显著但有影 记作“ 响”,记作“[*]”; ; ★ 若 F ≤ F .25( f1, f2 ) ,表示试验因素水平的改变对试验指 0 标基本无影响, 该因素无影响” 不作标记。 标基本无影响,称“该因素无影响”,不作标记。
F分布表(临界值 F 表) 分布表( 分布表 α (α = 0.25)
F分布表(临界值 F 表) 分布表( 分布表 α (α = 0.10)
F分布表(临界值 F 表) 分布表( 分布表 α (α = 0.05)
F分布表(临界值 F 表) 分布表( 分布表 α (α = 0.01)
★ 若 F > F .01( f1, f2 ),表示试验因素水平的改变对试验指 0 标的影响特别显著, 该因素高度显著” 记作“ ” 标的影响特别显著,称“该因素高度显著”,记作“**”; ★ 若 F .01( f1, f2 ) ≥ F > F .05( f1, f2 ) ,表示试验因素水平的 0 0 改变对试验指标的影响显著,称“该因素显著”,记作 改变对试验指标的影响显著, 该因素显著” “*”F ( f , f ) ≥ F > F ( f , f ) ,表示试验因素水平的 ” ★若;
V = S1 / f1 1
总的偏差平方和的自由度 fT = mk −1= n −1 (有一个总平均值的约束) 有一个总平均值的约束) 组间偏差平方和(因素) 组间偏差平方和(因素)的 自由度
f1 = m−1
(有一个总平均值的约束) 有一个总平均值的约束) 组内偏差平方和(误差) 组内偏差平方和(误差)的 自由度
(4)方差 V (variance)(也可表示为均方MS(mean squares)) ) ) 偏差平方和虽然可用来表征条件误差、试验误差的大小, 偏差平方和虽然可用来表征条件误差、试验误差的大小, 但由于其中包括了求和项数(自由度)的影响, 但由于其中包括了求和项数(自由度)的影响,常随样本容 量大小而改变,为便于比较, 量大小而改变,为便于比较,用求和项数即自由度来除偏差 平方和,得到了方差 方差。 平方和,得到了方差。 ◆ 组内方差 2 组内方差V 组内偏差平方和除以其自由度所得到的结果。 组内偏差平方和除以其自由度所得到的结果。 V2 = S2 / f2 组间方差V ◆ 组间方差 1 组间偏差平方和除以其自由度所得到的结果。 组间偏差平方和除以其自由度所得到的结果。
n = mk ——总的试验数据个数 总的试验数据个数
偏差平方和的分解也可采用下面的简便计算方法: 偏差平方和的分解也可采用下面的简便计算方法: 令
m k 2 Q = ∑∑xij T i=1 j=1 T2 T2 = CT = m k n 2 m k 1 1 Q = k ∑ ∑xij i=1 j=1
xij − µi
( j =1 2,⋯ k) , ,
(i = 1,2,⋯ m) ,
i个水平条件下的试 个水平条件下的试 验误差。 验误差。
水平 试验号 1 2 3 பைடு நூலகம் 5 平均值
A1(30℃) ℃ 75 78 60 61 83 71.4
A2(40℃) ℃ 89 62 93 71 85 80.0
(2)总平均值 µ ) 所有水平下的全部试验数据的平均值。 所有水平下的全部试验数据的平均值。 1 m k µ= ∑∑xij (i =1,2,⋯, m; j =1,2,⋯, k) mk i=1 j=1 本例中, 本例中,µ = 75.7 。 (3)偏差平方和(平均值不能反应样本的总变异程度) )偏差平方和(