01 第一节 单因素试验的方差分析
单因素试验的方差分析——概率论与数理统计(李长青版)
其次, 同一品种下数据表现出来的差异称为试验(随
机)误差, 这是由客观条件的偶然干扰造成, 与因素(品种) 无直接联系.
方差分析正是分析两类误差的有效工具.
本问题只考虑品种一种因素,故是单因素试验,即只有
一个因子,记为 A, 5个不同的品种就是该因子的5个不同 的水平,分别记为 A1 , A2 , A3 , A4 , A5 , 由于同一品种在不 同的田块上的亩产量不同,故可以认为一个品种的亩产 量 就是一个母体,在方差分析中,总是假定各母体相互独 立地服从同方差的正态分布,即第 j 个品种的亩产量是 一个随机变量,它服从正态分布:
nj
ns , 称为总平均,
它是从 s 个总体中抽得的样本的样本均值.
用样本值 xij 与总平均
x 之间的偏差平方和来反映
种子品种代 号 (水平)
重复试验序号及作物实测产量 1 128 125 148 2 126 137 132 3 139 125 139 4 130 117 125 5 142 106 151 133 122 139
A1 A2
A3
这里试验的指标是作物产量, 作物是因素, 三种种 子品种代表三个不同的水平. 首先,形成数据差异的直接原因是种子的不同品 种.因此, 每个品种下产量的均值差异检验是我们的主 要任务.这种由因素(种子品种)造成的差异称为条件(系 统)误差.
H 0 : 1 2 s 0, H1 : 1 , 2 , , s 不全为零.
(二) 离差平方和分解 引入记号
nj
1 xj nj
s
x
i 1
ij
( j 1, 2,
, s) 水平Aj下的样本均值,
称为组内平均(或列平均)
25.单因素试验的方差分析
数学模型
j 与 2 均未知.
14
需要解决的问题
1.检验假设
H0 : 12 s , H1 : 1, 2 , , s不全相等.
2.估计未知参数1, 2 , , s , 2.
15
数学模型的等价形式
s
记n nj ,
j 1
1 n
s j 1
njj.
总平均
水平Aj的效 应, 表示水平 Aj下的总体 平均值与总 平均的差异.
i 1 nj
( Xij X• j )2
i 1
2
~ 2(nj 1).
23
又由于各 Xij 独立, 所以由 2 分布的可加性知
S E
2
~ 2
s
(nj
j 1
1),
即
S
E2~
2
(n
s),
s
其中n nj .
j1
根据 2 分布的性质可以得到,
SE 的自由度为n s; E(SE ) (n s) 2.
铝合金板的厚度
机器Ⅱ 0.257 0.253
机器Ⅲ 0.258 0.264
0.255 0.254
0.259 0.267
0.261
0.262
4
试验指标: 薄板的厚度 因素: 机器
水平:不同的三台机器是因素的三个不同的水平. 假定除机器这一因素外, 其他条件相同,
属于单因素试验. 试验目的: 考察各台机器所生产的薄板的厚度有 无显著的差异. 即考察机器这一因素对厚度有无 显著的影响. 结论: 如果厚度有显著差异, 表明机器这一因素对厚度的影响是显著的.
H0 : 1 23 ,
H1 : 1, 2 , 3不全相等.
进一步假设各总体均为正态变量, 且各总体的
单因素方差分析(1)
H
0:
2 1
2 2
2 r
vs
H1:诸
2 i
不全相等
感谢下 载
第六章 方差分析
第一节 单因素方差分析 第二节 双因素方差分析
第一节 方差分析
一、问题的提出
方差分析(analysis of variance)就是采用数理 统计方法对数据进行分析,以鉴别各种因素及因素间 的交互作用对研究对象某些试验指标的影响大小的一 种有效方法. 注:方差分析简记为ANOVA.
水平 A1
A2
…
Ar 合计
重复数
m1 m2
mr n
试验数据 y11, y12 ,…., y1m1
y21, y22 ,…., y2m2
…….
yr1, yr2 ,…., yrmr
T
和
平均
T1
y1
T2
y2
……
Tr
yr
T
y
2. 基本假定、平方和分解、方差分析及判断准则相
同
计算公式稍有不同。特别注意 SA 的计算公式!
( yij
y)2,
fT
n 1
它反映了观测数据 总的变异程度
i1 j1
组间(因子A的)偏 差平方和:
r
SA m ( yi y)2, fA r 1 i1
r
m (i i )2
反映因子A的不同水平效 应间的差异
i1
rm
组和内: (误差)偏差平方Se
i 1
( yij yi
j 1
)2 ,
例2(第一节中例1续)检验不同饲料对鸡增重 的效应中,饲料因子显著.试进行多重比较.
补充:方差齐性检验
(齐性,即相等)
单因素试验的方差分析
其中
r n i
2r
2
S S A X iX n i ii
i 1j 1
i 1
组间平方和(系
如果H0 成立,则SSA 较小。 统离差平方和)
反映的是各水平平均值偏离总平均值的偏离程度。
其中
1 r ni
ni1 j1
ij,
ni
i ij
j1
r ni
2 r ni
2
由P106定理5.1可推得:
S S 2 T~2 n 1 ,S S 2 A ~2 r 1 ,S S 2 E ~2 n r
将 分别SS记2T 作, SS2A
,
SSE
2
的自d由fT度,dfA,dfE
则 FSSA dfA~Fr1,nr
SSE dfE
(,称记作均S S 方A 和d f)A M S A ,S S Ed fE M S E
j1
i1
同一水平 下观测值 之和
所以观测 值之和
例2 P195 2 以 A、B、C 三种饲料喂猪,得一个月后每猪 所增体重(单位:500g)于下表,试作方差分析。
饲料
增重
A
51
40
43
48
B
23
ቤተ መጻሕፍቲ ባይዱ25
26
C
23
28
解:T1 51404348182, T2 232526 74, T3 232851
F0.012,610.92
1 5 .0 3
总和 1024.89 8
不同的饲料对猪的体重的影响极有统计意义。
例2的上机实现步骤
输入原始数 据列,并存 到A,B,C 列;
各水平数据放同一列
各水平数据 放在不同列
单因素试验的方差分析
=
2 2
=
2 s
2
;
(3)从每个总体中抽取的样本相互独立.
那么,要从已知数据中推断 s 个总体是否具有显著 的差异,就要比较各个总体的均值是否相等.设第 j 个总
体的均值为 j ,则要检验的假设为
H0 : 1 2 s , H1 : 1, 2 , , s不全相等.
(8-1)
单 因 素 A 具 有 s 个 水 平 A1, A2 , , As , 在 每 个 水 平
推进器 B
A1
B1
58.2 52.6
B2
56.2 41.2
B3
65.3 60.8
燃料 A
49.1 54.1 51.6 A2 42.8 50.5 48.4
60.1 70.9 39.2 A3 58.3 73.2 40.7
75.8 58.2 48.7 A4 71.5 51.0 41.4
这里的试验指标是射程,推进器和燃料是因素, 它们分别有 3 个、 4 个水平.这是一个双因素试验.试 验的目的在于考察在各种因素的各个水平下射程有 无显著的差异,即考察推进器和燃料这两个因素对射 程是否有显著的影响.
H1 : 1,2 ,
,
不全为0.
s
1.3 偏差平方和及其分解
定义 8.2 方和,其中
s nj
称 ST (Xij X )2 为样本的总偏差平 j 1 i1
称为样本的总均值.
1 s nj
X n j1 i1 X ij
s nj
定义 8.3 称 SE =
( Xij X .j )2 为样本的误差平方
差. SA 体现了各水平 Aj 的样本均值 X j 与总均值 X 之间
的差异,反映了样本之间的不同,它是由因素 A 的不同水 平效应的差异以及随机误差引起的.
01-单因素方差分析PDF
ni
2
4.计算均方误差MS
1)各误差平方和的大小与观察值的多少有关,为
消除观察值多少对误差平方和大小的影响,需要将
其平均,这就是均方,也称为方差
2)由误差平方和除以相应的自由度求得(也是一
种平均值)
3)三个平方和对应的自由度分别是
▪ SST 的自由度为n-1,其中n为全部观察值的个数
▪ SSA的自由度为k-1,其中k为因素水平(总体)的个数
(3)组内平方和 SSE
1)每个水平或组的各样本数据与其组平均值的离差
平方和
2)反映每个样本各观察值的离散状况
3)该平方和反映的是随机误差的大小
k ni
2
4)计算公式为 SSE =
x −x
(
i =1 j =1
ij
▪ 引例的计算结果: SSE = 2708
i
)
三个误差平方和的关系
总 离 差 平 方 和 (SST) 、 误 差 项 离 差 平 方 和
三、提出假设
1. 一般提法
▪
▪
H0 :m1 = m2 =…= mk
•
自变量对因变量没有显著影响
H1 :m1 ,m2 ,… ,mk不全相等
•
自变量对因变量有显著影响
2. 注意:拒绝原假设,只表明至少有两个总
体的均值不相等,并ቤተ መጻሕፍቲ ባይዱ意味着所有的均值
都不相等
四、构造检验的统计量
• 构造统计量需要计算:
水平的均值
▪ SSE 的自由度为n-k
均方 MS
1. 组间方差:SSA的均方,记为MSA,计算公
式为
SSA
MSA =
1456.608696
引例计算结果:
单因子试验的设计与分析(新课件)
单因素试验结果数据
水平 试验数据
Y11 , Y12 , , Y1m
Y21 , Y22 ,, Y2 m
和
均值
A1
A2
…
T1
T2
Y1
Y2
…
Yr
……
Yr1 , Yr 2 , , Yr m
…
Ar
Tr
第一节 单因素试验的方差分析
方差 来源 因素 A 误差e 总和 T 偏差平方 和 自由度 均方和
F值
T2 n
S e ST S A
第一节 单因子方差分析
生产线 1 86.5 92.0 断 裂 强 度 85.2 87.9 86.0 2 93.4 87.9 90.6 85.5 88.4 3 88.6 93.2 88.8 92.7 90.9 4 94.3 93.3 92.0 89.2 92.5
质量工程师试题
若检验统计量F= 近似等于1,说明( A 组间方差中不包含系统因素的响 B 组内方差中不包含系统因素的影响 C 组间方差中包含系统因素的影响 D 方差分析中应拒绝原假设 E 方差分析中应接受原假设
)
质量工程师试题
对于单因素方差分析的组内误差,下面哪种说 法是对的?( ) A 其自由度为r-1 B 反映的是随机因素的影响 C 反映的是随机因素和系统因素的影响 D 组内误差一定小于组间误差 E 其自由度为n-r
2 布 N ( i , ; )
• (2)在不同水平下,各方差相等; • (3)样本相互独立。
质量工程师试题
在单因子实验中,假定因子A有r个水平,可 以看成有r个总体,若符合用单因子方差分 析方法分析数据的假定时,所检验的原假设 是( )。 A、各总体分布为正态。 B、各总体的均值相等。 C、各总体的方差相等。 D、各总体的变异系数相等。
第七章方差分析第一节单因素)
一、各处理重复数相等的方差分析
【例1】 某水产研究所为了比较四种不同 配合饲料对鱼的饲喂效果, 配合饲料对鱼的饲喂效果,选取了条件基 本相同的鱼20尾,随机分成四组, 随机分成四组,投喂不 同饲料, 同饲料,经一个月试验以后, 经一个月试验以后,各组鱼的增 重结果列于下表。 重结果列于下表。
上一张 下一张 主 页
型。在这个模型中表示为总平均数μ、处理效 应αi、试验误差εij之和。尽管各总体的均数可 以不等或相等,σ2则必须是相等的。 所以,单因素试验的数学模型可归纳为: 效应的可加性(additivity)、分布的正态性 (normality)、方差的同质性 (homogeneity)。这也是进行其它类型方差分
F=MSt/MSe =46.5×20/38.84×4=5.99**
3.统计推断: 统计推断: F0.05(4,20) =2.87,F0.01(4,20) =4.43,F> F0.01(4,20),P<0.01,表明品种间差异极显著。 表明品种间差异极显著。
上一张 下一张 主 页
退 出
SS MS e = e = df e =
t
t
1 = n
∑
T
∑
e
= SS
ni ≠ n
Ti2 − C ni
j
总自由度的剖分
总自由度
dfT = kn −1 = N −1
处理自由度 dft = k −1 误差自由度 dfe = dfT − dft = kn − k = N − K
MSt = SSt / df t MSe = SS e / df e MSt F= MS e
析的前提或基本假定。
xij = µ + α i + ε ij = µ + ( µi − µ ) + ( xij − µi )
(4)方差分析
x
xi• — —因素 A 在第 i 个水平下的样本均值
x• j — —因素 B 在第 j 个水平下的样本均值
第三节: 第三节:双因素方差分析
完 全 设 计 试 验 下 的 数 据 结 构
xi.是行因素的第 个水平下各观察值的平均值 是行因素的第i个水平下各观察值的平均值
r
∑x
xi. =
j =1
(或组间平方和)
第一节: 第一节:方差分析的基本概念与原理
2 S E — —它是同一水平内部观测值之间的差异状况。
方 差 分 析 的 概 念
2 SE 因此, 将 称为组内方差, 它反映了由随 n−r 机因素引起的变差。
2 S A — —它是各水平的平均值与总平均值的差异状况, 2 SA 即各水平之间的差异。 因此, 将 称为组间 r −1 方差, 它既包括系统因素引起的变差, 又包括
第三节: 第三节:双因素方差分析
B
完 全 设 计 试 验 下 的 数 据 结 构
A
B1
x11 x21 M M xt1 x•1
B2
x12 x22 M M xt 2 x•2
LHale Waihona Puke L L M M L L均值
Bs
x1s x2 s M M xts x• s
x1• x2• M M xt •
A1 A2 M M At
第二节: 第二节:单因素的方差分析
单因素方差分析——如果试验中只有一个可变 如果试验中只有一个可变 单因素方差分析 化的因素, 化的因素,针对一个可变因素变化而进行的方 差分析。 第一节中的引例,就是一个单因素4水平 差分析。(第一节中的引例,就是一个单因素 水平
的方差分析) 的方差分析)
第八章_单因素方差分析(1)
a
如果我们只研究这 a个不同处理,则有
i 0,
且每个
是常数。
i
i 1
i i为第i个处理的平均数。
ij
是y
的试验的随机误差(也
ij
称为噪声)。固定效应模型
我们假定ij相互独立且服从正态分布N(0, 2)。
因此,方差分析假定yij~N( i , 2 ),这是方差分析的条件。
❖ (三)因素处理效应和实验模型的分类
因此,两两 t检验的精确性有待提高 。
正确答案:
进行关于 a(a 3)个样本平均数差异的假 设检验, 应使用一种更为合理的 统计分析方法-方差分 析。
❖ 二、方差分析的几个概念
1、方差分析(analysis of variance):将试验数据的总变异分 解成不同来源的变异,从而评定不同来源的变异相对重要性 的一种统计方法。
2、试验指标(experiment index):为衡量试验结果的好坏或 处理效应的高低,在试验中具体测定的性状或观测的项目。
3、试验因素(experiment factor):试验中所研究的影响试验 指标的因素:单因素、双因素或多因素试验。
4、因素水平(level of factor):因素的具体表现或数量等级。
答:常采用第五章里讲的t检验法。
现在,如何进行a 个样本的平均数差异的假设检验(a 3)?
某人答:两两进行t检验。
评论:这种方法是不行的。
主要原因有三:
原因(1):检验的工作量大
当有a个样本平均数,两两组合,就有a(a 1) 个平均数的差。 2
例如,a 10时,就有109=45个平均数的差。 2
yi•
1 n
yi•表示第i个处理所有数据的平均值
关于单因素的方差分析
鸡重(g) 1001 1002 1109 1090 1021 1022
1012 1074
1032
1009 1122
1029
1028 1001
1048
二、单因素方差分析的统计模型
考虑的因素记为 A,假定它有 r 个水平,记为 A1, A2, …, Ar . 在每一水平下考察的指标可看成一个总体,共 有 r 个总体. 作如下假定:
H 0:12 )
单因子方差分析的统计模型可改写为:
yij i ij ,i 1,2,...,r ; j 1,2,...,m
r
i
0
i1
各ij相互独立且服从N(0,2)
H 0:12r可改写为
H 0:12r0
方差分析是通过对误差的分析研究来检验具有相同 方差的多个正态总体均值是否相等的一种统计方法.
(1)每一总体服从正态分布 N(i , i2), i=1, 2,…, r ;
(2)各总体同方差, 即 12 =22=……=r2= 2;
(3)从每个总体中抽取的样本是相互独立的, 即所有试验 结果 yij 都独立.
因为各总体方差相同,所以要判断因素对指标是否 有显著影响,就化为比较各水平下的均值是否相同.即 检验
方差来源 平方和 自由度 均方和
因素 误差 总和
SA f A = r - 1 MSA=SA / fA Se f e= n - r MSe=Se / fe ST f T= n - 1
F比
F=MSA / MSe
判断:
若 F F 1 ( r 1 , n r ) , 则 认 为 因 子 A 显 著 , 各 正 态 均 值 间 有 显 著 差 异
偏差平方和:
i1
r
第六章 方差分析1
这意味着三个样本分别来自均值不全相等的三个 正态总体 :
1
2
3
5-23
Statistics
单因素方差分析的步骤
• 提出假设 • 构造检验的统计量 • 给定检验的显著性水平 • 计算检验统计量的观测值(或P值) • 统计决策(结论)
5-24
H1: 1 , 2 , 3 不全相等
3. 检验上述假设就需要采用方差分析。
5-4
Statistics
(例题分析)
【 例 】为了对几个行业的服务质量进行评价,消费者协会 在四个行业分别抽取了不同的企业作为样本。最近一年中消 费者对总共23家企业投诉的次数如下表
消费者对四个行业的投诉次数 行业 观测值 零售业 旅游业 航空公司 家电制造业
(例题分析)
5-29
Statistics
构造检验的统计量
(计算总误差平方和 SST)
1. 1.全部观察值 xij 与总平均值 x 的离差平方和
2. 2.反映全部观察值的离散状况 3. 3.其计算公式为
SST xij x
k i 1 j 1
ni
2
前例的计算结果:
SST = (57-47.869565)2+…+(58-47.869565)2 =115.9295
5-2
Statistics
一个例子
例,某工厂实行早、中、晚三班工作制。工厂管理部 门想了解不同班次工人劳动效率是否存在明显的差异。 每个班次随机抽出了7个工人,得工人的劳动效率资料 (件/人)如表5—3。分析不同班次工人的劳动效率是 否有显著性差异。
序号 1 早班 34 中班 49 晚班 39
第一节 单因素试验的方差分析
第九章方差分析在生产过程和科学实验中,我们经常遇到这样的问题:影响产品产量、质量的因素很多.例如,在化工生产中,影响结果的因素有:配方、设备、温度、压力、催化剂、操作人员等.我们需要通过观察或试验来判断哪些因素对产品的产量、质量有显著的影响.方差分析(Analysis of variance)就是用来解决这类问题的一种有效方法.它是在20世纪20年代由英国统计学家费舍尔首先使用到农业试验上去的.后来发现这种方法的应用范围十分广阔,可以成功地应用在试验工作的很多方面.第一节单因素试验的方差分析在试验中,我们将要考察的指标称为试验指标,影响试验指标的条件称为因素.因素可分为两类,一类是人们可以控制的;一类是人们不能控制的.例如,原料成分、反应温度、溶液浓度等是可以控制的,而测量误差、气象条件等一般是难以控制的.以下我们所说的因素都是可控因素,因素所处的状态称为该因素的水平.如果在一项试验中只有一个因素在改变,这样的试验称为单因素试验,如果多于一个因素在改变,就称为多因素试验.本节通过实例来讨论单因素试验.1.数学模型例9.1某试验室对钢锭模进行选材试验.其方法是将试件加热到700℃后,投入到20℃的水中急冷,这样反复进行到试件断裂为止,试验次数越多,试件质量越好.试验结果如表9-1.表9-1试验的目的是确定4种生铁试件的抗热疲劳性能是否有显著差异.这里,试验的指标是钢锭模的热疲劳值,钢锭模的材质是因素,4种不同的材质表示钢锭模的4个水平,这项试验叫做4水平单因素试验.例9.2考察一种人造纤维在不同温度的水中浸泡后的缩水率,在40℃,50℃, (90)的水中分别进行4次试验.得到该种纤维在每次试验中的缩水率如表92.试问浸泡水的温度对缩水率有无显著的影响?表9-2 (%)单因素试验的一般数学模型为:因素A 有s 个水平A 1,A 2,…,A s ,在水平A j (j =1,2,…,s )下进行n j (n j ≥2)次独立试验,得到如表9-3的结果:表9-3假定:各水平A j (j =1,2,…,s )下的样本x ij ~N (μj ,ζ),i =1,2,…,n j ,j =1,2,…,s ,且相互独立.故x ij -μj 可看成随机误差,它们是试验中无法控制的各种因素所引起的,记x ij -μj =εij ,则⎪⎩⎪⎨⎧==+=.,),0(~,,,2,1;,,2,1,2相互独立各ij ij j ij j ij N s j n i x εσεεμ (9.1) 其中μj 与ζ2均为未知参数.(9.1)式称为单因素试验方差分析的数学模型.方差分析的任务是对于模型(9.1),检验s 个总体N (μ1,ζ2),…,N (μs ,ζ2)的均值是否相等, 即检验假设012112:;:,,,s s H H μμμσσσ===⎧⎨⎩ 不全相等. (9.2) 为将问题(9.2)写成便于讨论的形式,采用记号μ=11sj j j n nμ=∑,其中n =1sj j n =∑,μ表示μ1,μ2,…,μs 的加权平均,μ称为总平均.δj =μj -μ, j =1,2,…,s ,δj 表示水平Aj 下的总体平均值与总平均的差异.习惯上将δj 称为水平A j 的效应.利用这些记号,模型(9.1)可改写成:x ij =μ+δj +εij ,x ij 可分解成总平均、水平A j 的效应及随机误差三部分之和120,~(0,),.1,2,,;1,2,,.sj j j ijij j n N i n j s δεσε=⎧=⎪⎨⎪==⎩∑ 各相互独立 (9.1)′ 假设(9.2)等价于假设012112:0;:,,,s s H H δδδδδδ====⎧⎨⎩ 不全零.(9.2)′ 2.平方和分解我们寻找适当的统计量,对参数作假设检验.下面从平方和的分解着手,导出假设检验(9.2)′的检验统计量.记S T =211()jn sijj i xx ==-∑∑, (9.3)这里111jn sij j i x x n===∑∑,S T 能反应全部试验数据之间的差异.又称为总变差.A j 下的样本均值 11jn j ij i jx x n ∙==∑. (9.4)注意到2222()()()()2()()ij ij j j ij j j ij j j x x x x x x x x x x x x x x ∙∙∙∙∙∙-=-+-=-+-+--,而1111()()()()jj n nssijj j jij j j i j i xx x x xx x x ∙∙∙∙====⎡⎤--=--⎢⎥⎣⎦∑∑∑∑=11()0.jnsjij j jj i x x x n x ∙∙==⎛⎫--= ⎪ ⎪⎝⎭∑∑记 S E =211()jn sijj j i xx ∙==-∑∑, (9.5)S E 称为误差平方和;记 S A =22111()()jn ssjjj j i j xx nx x ∙∙===-=-∑∑∑, (9.6)S A 称为因素A 的效应平方和.于是S T =S E +S A . (9.7)利用εij 可更清楚地看到S E ,S A 的含义,记111jn sijj i nεε===∑∑为随机误差的总平均,11jn j iji jn εε∙==∑, j =1,2,…,s .于是S E =221111()()jjn n ssijj ijj j i j i xx εε∙∙====-=-∑∑∑∑; (9.8)S A =2211()()ssj j jj j j j n x x nδεε∙∙==-=+-∑∑. (9.9)平方和的分解公式(9.7)说明.总平方和分解成误差平方和与因素A 的效应平方和.(9.8)式说明S E 完全是由随机波动引起的.而(9.9)式说明S A 除随机误差外还含有各水平的效应δj ,当δj 不全为零时,S A 主要反映了这些效应的差异.若H 0成立,各水平的效应为零,S A 中也只含随机误差,因而S A 与S E 相比较相对于某一显著性水平来说不应太大.方差分析的目的是研究S A 相对于S E 有多大,若S A 比S E 显著地大,这表明各水平对指标的影响有显著差异.故需研究与S A /S E 有关的统计量.3.假设检验问题当H 0成立时,设x ij ~N (μ,ζ2)(i =1,2,…,n j ;j =1,2,…,s )且相互独立,利用抽样分布的有关定理,我们有22~(1)AS s χσ-, (9.10) 22~()ES n s χσ-, (9.11) F =()(1)A En s S s S -- ~F (s -1,n -s ). (9.12)于是,对于给定的显著性水平α(0<α<1),由于P {F ≥F α(s -1,n -s )}=α, (9.13)由此得检验问题(9.2)′的拒绝域为F ≥F α(s -1,n -s ).(9.14)由样本值计算F 的值,若F ≥F α,则拒绝H 0,即认为水平的改变对指标有显著性的影响;若F <F α,则接受原假设H 0,即认为水平的改变对指标无显著影响. 上面的分析结果可排成表9-4的形式,称为方差分析表.当F ≥F 0.05(s -1,n -s )时,称为显著, 当F ≥F 0.01(s -1,n -s )时,称为高度显著.在实际中,我们可以按以下较简便的公式来计算S T ,S A 和S E .记T ·j =1jn ij i x =∑, j =1,2,…,s ,T ··=11jn sij j i x ==∑∑,即有22221111222211,,.j j n ns sT ij ij j i j i s sj A j j j j j E T AT S x n x x n T T S n x n x n n S S S ∙∙====∙∙∙∙==⎧=-=-⎪⎪⎪⎪=-=-⎨⎪⎪=-⎪⎪⎩∑∑∑∑∑∑(9.15) 例9.3 如上所述,在例9.1中需检验假设H 0:μ1=μ2=μ3=μ4;H 1:μ1,μ2,μ3,μ4不全相等.给定α=0.05,完成这一假设检验.解 s =4,n 1=7,n 2=5,n 3=8,n 4=6,n =26.S T =22211(4257)69895926jn sij j i T x n∙∙==-=-∑∑=1957.12,S A =2221(4257)697445.4926sj j jT T n n∙∙∙=-=-∑=443.61,S E =S T -S A =1513.51.得方差分析表9-5.表9-5因 F (3,22)=2.15<F 0.05(3,22)=3.05. 则接受H 0,即认为4种生铁试样的热疲劳性无显著差异.例9.4 如上所述,在例9.2中需检验假设H 0:μ1=μ2=…=μ6; H 1:μ1,μ2,…,μ6不全相等.试取α=0.05,α=0.01,完成这一假设检验.解 s =6, n 1=n 2=…=n 6=4,n =24.S T =2211jn sij j i T x n∙∙==-∑∑=112.27,S A =221sj j jT T n n∙∙∙=-∑=56,S E=S T-S A=56.27.得方差分析表9-6.0.050.01由于 4.25=F0.01(5,18)>F A=3.583>F0.05(5,18)=2.77,故浸泡水的温度对缩水率有显著影响,但不能说有高度显著的影响.本节的方差分析是在这两项假设下,检验各个正态总体均值是否相等.一是正态性假设,假定数据服从正态分布;二是等方差性假设,假定各正态总体方差相等.由大数定律及中心极限定理,以及多年来的方差分析应用,知正态性和等方差性这两项假设是合理的.。
第一章单因素实验的方差分析
第八章 方差分析与回归分析第一节 单因素实验的方差分析在科学实验、生产实践和社会生活中,阻碍一个事件的因素往往很多。
例如,在工业生产中,产品的质量往往受到原材料、设备、技术及员工素养等因素的阻碍;又如,在工作中,阻碍个人收入的因素也是多方面的,除学历、专业、工作时刻、性别等方面外,还受到个人能力、经历及机缘等偶然因素的阻碍. 尽管在这众多因素中,每一个因素的改变都可能阻碍最终的结果,但有些因素阻碍较大,有些因素阻碍较小. 故在实际问题中,就有必要找出对事件最终结果有显著阻碍的那些因素. 方差分析确实是依如实验的结果进行分析,通过成立数学模型,辨别各个因素阻碍效应的一种有效方式.散布图示★ 引言★ 大体概念 ★ 例1★ 例2★ 假设前提 ★ 方差分析的任务★ 误差平方和及其分解 ★ E S 和A S 的统计特性 ★ 查验方式★ 例3★ 例4★ 习题8-1内容要点一、大体概念在方差分析中,咱们将要考察的对象的某种特点称为实验指标. 阻碍实验指标的条件称为因素. 因素可分为两类,一类是人们能够操纵的(如上例的原材料、设备、学历、专业等因素);另一类人们无法操纵的(如上例中员工素养与机缘等因素).尔后,咱们所讨论的因素都是指可操纵因素。
因素所处的状态,称为该因素的水平. 若是在一项实验中只有一个因素在改变,那么称为单因素实验;若是多于一个因素在改变,那么称为多因素实验. 为方便起见,尔后用大写字母,,,C B A 等表示因素,用大写字母加下标表示该因素的水平,如 ,,21A A 等.二、假设前提设单因素A 具有r 个水平,别离记为,,,,21r A A A 在每一个水平),,2,1(r i A i =下,要考察的指标能够看成一个整体,故有r 个整体,并假设:(1) 每一个整体均服从正态散布; (2) 每一个整体的方差相同;(3) 从每一个整体中抽取的样本彼此独立.那么,要比较各个整体的均值是不是一致,确实是要查验各个整体的均值是不是相等,设第i 个整体的均值为i μ,那么假设查验为 .:210r H μμμ=== 备择假设为 .,,,:211不全相等r H μμμ 通常备择假设能够不写.在水平),,2,1(r i A i =下,进行i n 次独立实验,取得实验数据为,,,,21i in i i X X X 记数据的总个数为n =.1∑=ri i n由假设有 ~ij X ),(2σμi N (i μ和2σ未知),即有-ij X i μ~),,0(2σN 故-ij X i μ可视为随机误差.记-ij X i μ=ij ε,从而取得如下数学模型:⎩⎨⎧==+=未知和相互独立各个2i 2, ),,0(~,,2,1,,,2,1,σμεσεεμij ijiij i ij N n j r i X (1) 方差分析的任务:1) 查验该模型中r 个整体),(2σμi N ),,2,1(r i =的均值是不是相等; 2) 作出未知参数r μμμ,,,21 , 2σ的估量.为了更认真地描述数据,常在方差分析中引入总平均和效应的概念. 称各均值的加权平均,11∑==ri ii n nμμ为总平均. 其中n =.1∑=ri i n 再引入,μμδ-=i i ,,,2,1r i =i δ表示在水平i A 下整体的均值i μ与总平均μ的不同,称其为因子A 的第i 个水平i A 的效应.易见,效应间有如下关系式:,0)(11=-=∑∑==ri iir i ii n n μμδ利用上述记号,前述数学模型可改写为⎪⎪⎩⎪⎪⎨⎧===++=∑=未知和相互独立各个2i 21,),,0(~0,,2,1,,,2,1,σμεσεδεδμij ijr i i i r ij i ij N n n j r i X (2) 而前述查验假设那么等价于:.,,,:.:211210不全为零r r H H δδδδδδ ===三、误差平方和及其分解为了使造成各ij X 之间的不同的大小能定量表示出来,咱们先引入:记在水平i A 下数据和记为: ∑==in j ij i X X 1.,其样本均值为.i X =,11∑=in j ij iXn 因素A 下的所有水平的样本总均值为X =∑∑==ri n j ij iX n111=∑=ri i Xr 1.1,为了通过度析对照产生样本ij X , r i ,,2,1 =,k j ,,2,1 =之间不同性的缘故,从而确信因素A 的阻碍是不是显著,咱们引入误差平方和来气宇各个体间的不同程度:=T S ∑∑==-ri n j ij iX X 112)( (3)T S 能反映全数实验数据之间的不同,又称为总误差平方和.若是0H 成立,那么r 个整体间无显著不同,也确实是说因素A 对指标没有显著阻碍,所有的ij X 能够以为来自同一个整体),(2σμN ,各个ij X 间的不同只是由随机因素引发的。
单因素试验的方差分析
j
μ 各个随机误差 ε ij 相互独立, 1 , μ 2 , , μ s 和 σ
未知.
单因素试验表 部分总体 样 本 A1 A2 … As
X11
X21
· · ·
X12 …
X22 … Xn22 … T.2 …
X 2
· · ·
X1s
X2s
· · ·
…
Xn11 样本和T.j 样本均值 X j T.1
是 σ 的无偏估计
.
结合定理(1)(2)(3),有
F S A /( s 1 ) S E /( n s ) ~ F ( s 1, n s )
ST ,SA ,SE 的计算方法
n
j
记 T j 化简得
i1
X
ij
, T
j1 i1
s
2
s
n
j
X
ij
T
j1
s
j
j1 i1
s
n
j
(X
ij
X
j )
2
说明:
SE 表示在每个水平下的样本值与该水平下的样本 均值的差异,它是由随机误差引起的,所以,称SE是 误差(组内)平方和.
平方和分解公式:
ST S A S E
证明:S
i1
s
n
j
(X
ij
X)
2
( X
j1 i1
2
都是未知参数。
在水平Aj下进行nj次独立试验,得样本
X 1 j, X
2 j
, ,X
nj j
,
则
记
X
ij
方差分析 - 第七章方差分析
L A
X ij2
X ij2
n i
N
X ij2 c n i
(3)组内离差平方和
LELTLA
3、计算自由度
(1)总自由度 (2)组间自由度 (3)组内自由度 4、计算方差 (1)组间方差
nT N1
nA k1
n EN kn T n A
MS
A
LA n A
(2)组内方差
MS E
LE n E
FF0.0(1n1 ,n2 )
p0.01 因素对试验 显 结 著 果 性 有
对[例1]进行单因素方差分析
H 0:1234
方方方方 法法法法 一二三四 1 3.3 3.0 0.4 3.6
2 1.2 2.3 1.7 4.5
3 0 2.4 2.3 4.2
4 2.7 1.1 4.5 4.4
5 3.0 4.0 3.6 3.7
二、单因素方差分析的基本原理
[例1]为考查不同训练方法对磷酸肌酸增长的 影响,我们采用了四种不同的训练方法。每 种方法选取条件相仿的6名运动员,通过三个 月的训练以后,其磷酸肌酸的增长值(单 位:mg/100ml)如下表。试检验训练方法对 运动员磷酸肌酸增长值有无显著性影响?即 四种训练方法运动员磷酸肌酸平均增长值差
xij23
xi2j 493
C232 29.389
18
LT 49329.38946.6311
LA
302 352
57
182
6
2
9.3
893
7.691
1
LE 46.631137.691184.000
n T 1 1 1 8n 7 A 3 1 2n E 1 3 1 85
MAS372.691118.8905
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章 方差分析与回归分析第一节 单因素试验的方差分析在科学试验、生产实践和社会生活中,影响一个事件的因素往往很多。
例如,在工业生产中,产品的质量往往受到原材料、设备、技术及员工素质等因素的影响;又如,在工作中,影响个人收入的因素也是多方面的,除了学历、专业、工作时间、性别等方面外,还受到个人能力、经历及机遇等偶然因素的影响. 虽然在这众多因素中,每一个因素的改变都可能影响最终的结果,但有些因素影响较大,有些因素影响较小. 故在实际问题中,就有必要找出对事件最终结果有显著影响的那些因素. 方差分析就是根据试验的结果进行分析,通过建立数学模型,鉴别各个因素影响效应的一种有效方法.内容分布图示★ 引言★ 基本概念 ★ 例1★ 例2★ 假设前提 ★ 方差分析的任务★ 偏差平方和及其分解 ★ E S 和A S 的统计特性 ★ 检验方法★ 例3★ 例4★ 习题8-1 ★ 返回内容要点:一、基本概念在方差分析中,我们将要考察的对象的某种特征称为试验指标. 影响试验指标的条件称为因素. 因素可分为两类,一类是人们可以控制的(如上例的原材料、设备、学历、专业等因素);另一类人们无法控制的(如上例中员工素质与机遇等因素).今后,我们所讨论的因素都是指可控制因素。
因素所处的状态,称为该因素的水平. 如果在一项试验中只有一个因素在改变,则称为单因素试验;如果多于一个因素在改变,则称为多因素试验. 为方便起见,今后用大写字母,,,C B A 等表示因素,用大写字母加下标表示该因素的水平,如 ,,21A A 等.二、假设前提设单因素A 具有r 个水平,分别记为,,,,21r A A A 在每个水平),,2,1(r i A i 下,要考察的指标可以看成一个总体,故有r 个总体,并假设:(1) 每个总体均服从正态分布; (2) 每个总体的方差相同;(3) 从每个总体中抽取的样本相互独立.那么,要比较各个总体的均值是否一致,就是要检验各个总体的均值是否相等,设第i 个总体的均值为i μ,则假设检验为 .:210r H μμμ=== 备择假设为 .,,,:211不全相等r H μμμ 通常备择假设可以不写.在水平),,2,1(r i A i =下,进行i n 次独立试验,得到试验数据为,,,,21i in i i X X X 记数据的总个数为n =.1∑=ri i n由假设有 ~ij X ),(2σμi N (i μ和2σ未知),即有-ij X i μ~),,0(2σN 故-ij X i μ可视为随机误差.记-ij X i μ=ij ε,从而得到如下数学模型:⎩⎨⎧==+=未知和相互独立各个2i 2, ),,0(~,,2,1,,,2,1,σμεσεεμij ij iij i ij N n j r i X (1) 方差分析的任务:1) 检验该模型中r 个总体),(2σμi N ),,2,1(r i =的均值是否相等; 2) 作出未知参数r μμμ,,,21 , 2σ的估计.为了更仔细地描述数据,常在方差分析中引入总平均和效应的概念. 称各均值的加权平均,11∑==ri ii n nμμ为总平均. 其中n =.1∑=ri i n 再引入,μμδ-=i i ,,,2,1r i =i δ表示在水平i A 下总体的均值i μ与总平均μ的差异,称其为因子A 的第i 个水平i A 的效应.易见,效应间有如下关系式:,0)(11=-=∑∑==ri iir i ii n n μμδ利用上述记号,前述数学模型可改写为⎪⎪⎩⎪⎪⎨⎧===++=∑=未知和相互独立各个2i 21,),,0(~0,,2,1,,,2,1,σμεσεδεδμij ijr i i i r ij i ij N n n j r i X (2) 而前述检验假设则等价于:.,,,:.:211210不全为零r r H H δδδδδδ ===三、偏差平方和及其分解为了使造成各ij X 之间的差异的大小能定量表示出来,我们先引入:记在水平i A 下数据和记为: ∑==in j ij i X X 1.,其样本均值为.i X =,11∑=in j ij iXn 因素A 下的所有水平的样本总均值为X =∑∑==ri n j ij iX n111=∑=ri i Xr 1.1,为了通过分析对比产生样本ij X , r i ,,2,1 =,k j ,,2,1 =之间差异性的原因,从而确定因素A 的影响是否显著,我们引入偏差平方和来度量各个体间的差异程度:=T S ∑∑==-ri n j ij iX X 112)( (3)T S 能反映全部试验数据之间的差异,又称为总偏差平方和.如果0H 成立,则r 个总体间无显著差异,也就是说因素A 对指标没有显著影响,所有的ij X 可以认为来自同一个总体),(2σμN ,各个ij X 间的差异只是由随机因素引起的。
若0H 不成立,则在总偏差中,除随机因素引起的差异外,还包括由因素A 的不同水平的作用而产生的差异,如果不同水平作用产生的差异比随机因素引起的差异大的多,就认为因素A 对指标有显著影响,否则,认为无显著影响. 为此,可将总偏差中的这两种差异分开,然后进行比较。
记=T S E A S S + (4)其中=A S ,)(12.∑=-ri i i X X n =E S .)(112.∑∑==-ri n j i ij iX XA S 反映在每个水平下的样本均值与样本总均值的差异,它是由因素A 取不同水平引起的,称为组间(偏差)平方和,也称为因素A 的偏差平方和.E S 表示在水平i A 下样本值与该水平下的样本均值之间的差异,它是由随机误差引起的,称为误差(偏差)平方和,也称为组内(偏差)平方和.等式=T S E A S S +称为平方和分解式. 事实上T S =∑∑==-ri n j ij iX X 112)(=∑∑==-+-ri n j i i ij iX X X X 112..)]()[(=∑∑==-ri n j i ij iX X 112.)(+)()(2.11.X X X X i ri n j i ij i--∑∑==,)(2.1X X n i ri i -+∑=根据.i X 和X 的定义知0)()(.11.=--∑∑==X X X Xi r i n j i iji,所以T S =∑∑==-r i n j i ijiX X112.)(2.1)(X Xn i ri i -+∑==.A E S S +四、E S 与A S 的统计特性如果0H 成立,则所有的ij X 都服从正态分布),(2σμN ,且相互独立,由第五章第三节的定理,可以证明:1) );1(~22-n S T χσ2) 2/σE S ~)(2r n -χ,且 =)(E S E ∑∑==s j tk ijkXst111.2σ 所以)( /r n S E -为2σ的无不偏估计.3) 2/σA S ~)1(2-r χ,且2)1()(σ-=r S E A ,因此)1(-r S A 为2σ的无偏估计. 4) A E S S 与相互独立.五、检验方法如果组间差异比组内差异大的多,即说明因素的各水平间有显著差异,r 个总体不能认为是同一个正态总体,应认为0H 不成立,此时,比值EAS r S r n )1()(--有偏大的趋势. 为此,选用统计量)()1(r n S r S F E A --==EAS r S r n )1()(--在0H 为真时,有F =EAS r S r n )1()(--~ F ).,1(r n r --对给定的检验水平a ,查a F ),1(r n r --的值,由样本观察值计算E S ,A S ,从而计算出统计量F 的观察值. 由于0H 不真时,A S 值偏大,导致F 值偏大. 因此,1) 若F >a F ),1(r n r --时,拒绝0H ,表示因素A 的各水平下的效应有显著差异; 2) 若F <a F ),1(r n r --时,则接受0H ,表示因素A 的各水平下的效应无显著差异. 实际分析中,常采用如下简便算法和记号:=⋅i T ∑=in j ijX1,,,,2,1r i = =T ∑∑==ri n j ijiX 11=.1∑=ri iXT S =∑∑==ri n j ijiX112nT 2-, A S =∑=ri ii n T 12.n T 2-, E S =A T S S - 为表达的方便和直观,将上面的分析过程和结果制成一个表格,称这个表为单因素方差分析表:表8-1B 单因素方差分析表111--=-=-=-n S Trn SMS r n S E MS MS F r SMS r S A F TEE E EA AA A 总和误差因素值均方和自由度平方和方差来源例题选讲:例1 (讲义例1) 设有三台机器, 用来生产规格相同的铝合金薄板.取样, 测量薄板的厚度精确至千分之一厘米. 得结果如下表所示.这里,同的水平. 如果假定除机器这一因素外, 材料的规格、操作人员的水平等其它条件都相同,这就是单因素试验. 试验的目的是为了考察各台机器所生产的薄板的厚度有无显著的差异, 即考察机器这一因素对厚度有无显著的影响. 如果厚度有显著差异, 就表明机器这一因素对厚度的影响是显著的.例2 (讲义例2) 某食品公司对一种食品设计了四种新包装. 为了考察哪种包装最受欢迎, 选了十个有近似相同销售量的商店作试验, 其中两种包装各指定两个商店销售, 另两种包装各指定三个商店销售. 在试验期中各商店的货架排放位置、空间都尽量一致, 营业员的促销方法也基本相同. 观察在一定时期的销售量, 数据如表7.1.1所示:在本例中, 子, 记为因子A , 它有四种不同的包装, 就看成是因子A 的四个水平, 记为4321,,,A A A A .一般将第i 种包装在第j 个商店的销售量记为i ij m j i x ,,2,1;4,3,2,1, == (在本例中,2,3,3,24321====m m m m ).由于商店间的差异已被控制在最小的范围内, 因此一种包装在不同商店里的销售量被看作为一种包装的若干次重复观察, 所以可以把一种包装看作一个总体. 为比较四种包装的销售量是否相同, 相当于要比较的四个总体的均值是否一致. 简化起见,需要给出若干假定,把所要回答的问题归结为下个统计问题, 然后设法解决它. 例3 (讲义例3) 在例1 中,检验假设(05.0=α)32113210,,:,:μμμμμμH H ==不全相等. 例4 (讲义例4) 在例2 中,检验假设(05.0=α)4321143210,,,:,:μμμμμμμμH H ===不全相等.。