第五章 方差分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
yij, i=1, 2,…, r , j=1, 2, …, m,
其中r为水平数,m为重复数,i为水平编号, j 为重复编号。
在水平Ai下的试验结果yij与该水平下的指标
均值 i 一般总是有差距的,记 ij = yiji,
ij 称为随机误差。于是有
yij = i +ij
(2)
(2)式称为试验结果 yij 的数据结构式。
m
ij
j 1
由于
yij yi. (i ij ) (i i ) ij i (7)
所以yij – yi仅反映组内数据与组内平均的随机误差,称为组内 偏差;而
yi. y (i i.) ( ) ai i. (8)
yi. y 除了反映随机误差外,还反映了第i个水平的效应,称为
➢ 各yij间总的差异大小可用总偏差平方和 rm
ST
( yij y )2
i1 j 1
表示,其自由度为fT=n1;
➢ 仅由随机误差引起的数据间的差异可以用
rm
组内偏差平方和
Se
( yij
2
yi. )
表示,
i1 j 1
也称为误差偏差平方和,其自由度为 fe=nr ;
➢ 由于组间差异除了随机误差外,还反映了
第五章 方差分析
在实际问题中,影响一事物的因素往往是很 多的。例如,在化工生产中,有原料成分、原料 剂量、催化剂、反应温度、压力、反映时间等因素, 每一因素的改变都有可能影响产品的质量,有些因素 影响较大,有些影响较小.
方差分析就是根据试验的结果进行分析,鉴别 各有关因素对试验结果影响的有效方法。
什么是方差分析(ANOVA)?
一 、 单因子方差分析的统计模型
在例1中我们只考察了一个因子,称其为单 因子试验。
通常,在单因子试验中,记因子为 A, 设其 有r个水平,记为A1, A2,…, Ar,在每一水平 下考察的指标可以看成一个总体 ,现有 r 个水平,故有 r 个总体, 假定:
1) 每一总体均为正态总体,记为 N(i , i 2),
yi2j
j 1源自文库
A1 73 9 60 1 2 12 9 28 194 37636 10024
A2 107 92 -10 109 90 74 122 1 585 342225 60355
A3 93 29 80 21 22 32 29 48 354 125316 20984 1133 505177 91363
模型(3)可以改写为
yij
ai
ij ,
r
ai 0
i 1, 2,..., r, j 1, 2,..., m
(4)
i1
ij相互独立,且都服从N(0, 2 )
假设(1)可改写为 H0 :a1 =a2 =…=ar =0
(5)
二、平方和分解
1、试验数据
通常在单因子方差分析中可将试验数据列成 如下页表格形式。
把上述诸平方和及其自由度填入方差分析表
表5 例2的方差分析表
来源 平方和 自由度 均方和
因子 9660.0833 2 4830.0417
F比 3.5948
误差 28215.9584 21 1343.6171
总和 37876.0417 23
若取=0.05,则F0.95 (2 ,21)=3.47 ,由于
利用(10),可算得各偏差平方和为:
11332 ST 91363 24 37876.0417,
505177 11332
SA
8
9660.0833, 24
Se ST SA 37876.0417 9660.0833 28215.9584,
fT 24 1 23
fA 31 2 fe 3(8 1) 21
F=3.5948>3.47,故认为因子A(饲料)是显著的,
即三种饲料对鸡的增肥作用有明显的差别。
练习 某灯泡厂分别用四种不同材料制成灯丝,生产了四批
灯泡,它们除灯丝不同外,其他生产材料和生产工艺完 全相同。今由这四批灯泡中各随机抽取6只灯泡进行寿命 试验,结果如下表所示。根据这些数据,推断不同的灯 丝材料对灯泡的使用寿命是否有显著性影响(取显著性 水平为0.05)?
2. 作出这种判断最终被归结为检验这四个行业 被投诉次数的均值是否相等
3. 如果它们的均值相等,就意味着“行业”对 投诉次数是没有影响的,即它们之间的服务 质量没有显著差异;如果均值不全相等,则 意味着“行业”对投诉次数是有影响的,它 们之间的服务质量有显著差异
MBA的起薪与专业有关吗?
一家关于MBA报考、学习、就业指导的网站 希望了解国内MBA毕业生的起薪是否与各自所学 的专业有关,为此,他们在已经在国内商学院毕 业并且获得学位的MBA学生中按照专业分别随机 抽取了10人,调查了他们的起薪情况,数据如下 表所示(单位: 万元),根据这些数据他们能否 得出专业对MBA起薪有影响的结论?
表2中的最后二列的和与平均的含义如下:
m
Ti yij j 1
yi.
Ti m
r
T Ti i 1
y T T rm n
n r m 总试验次数
i 1, 2,L , r
表2 单因子方差分析试验数据
因子水平 A1 A2 ┆ Ar
试验数据 y11 y12 … y1m y21 y22 … y2m
┆ yr1 yr2 … yrm
➢ 在构成偏差平方和Q的k个偏差y1 y , …, yk y 间
有一个恒等式
k
( yi y ) 0
,这说明在Q中独立
i 1
的偏差只有k1个。
➢ 在统计学中把平方和中独立偏差个数称为该平 方和的自由度,常记为f,如Q的自由度为 fQ=k1。自由度是偏差平方和的一个重要参数。
4、总平方和分解公式
§5.1 单因子方差分析
例1 在饲料养鸡增肥的研究中,某研究所提 出三种饲料配方:A1是以鱼粉为主的饲料, A2是以槐树粉为主的饲料,A3是以苜蓿粉 为主的饲料。为比较三种饲料的效果,特 选 24 只相似的雏鸡随机均分为三组,每 组各喂一种饲料,60天后观察它们的重量。 试验结果如下表所示:
表1 鸡饲料试验数据
和 平均
T1
y1
T2
y2
┆┆
Tr
yr
Ty
2、组内偏差与组间偏差
数据间是有差异的。数据yij与总平均 y 间 的偏差可用yij y 表示,它可分解为二个 偏差之和
yij y ( yij yi.) ( yi. y ) (6)
记
i.
1 m
m
ij ,
j 1
1 r
r i 1
i.
1 n
r i 1
效应间的差异,故由效应不同引起的数据
r
差异可用组间偏差平方和 SA m ( yi. y)2 i 1
表示,也称为因子A的偏差平方和,其自
由度为 fA=r1;
定理1 在上述符号下,总平方和ST可以分解 为因子平方和SA与误差平方和Se之和,其自 由度也有相应分解公式,具体为:
ST =SA +Se , fT =fA +fe
观测值
1 2 3 4 5 6 7
消费者对四个行业的投诉次数
行业
零售业
旅游业
航空公司
57
68
31
66
39
49
49
29
21
40
45
34
34
56
40
53
51
44
家电制造业
44 51 65 77 58
什么是方差分析?
1. 分析四个行业之间的服务质量是否有显著差 异,也就是要判断“行业”对“投诉次数” 是否有显著影响
饲料A
鸡 重(克)
A1 1073 1009 1060 1001 1002 1012 1009 1028 A2 1107 1092 990 1109 1090 1074 1122 1001
A3 1093 1029 1080 1021 1022 1032 1029 1048
本例中,我们要比较的是三种饲料对鸡的增肥 作用是否相同。为此,把饲料称为因子,记为A, 三种不同的配方称为因子A的三个水平,记为A1, A2, A3,使用配方Ai下第 j 只鸡60天后的重量用yij 表示,i=1, 2, 3, j=1, 2,, 10。我们的目的是比 较三种饲料配方下鸡的平均重量是否相等,为 此,需要做一些基本假定,把所研究的问题归 结为一个统计问题,然后用方差分析的方法进 行解决。
行比较,用其均方和 MSA= SA /fA , MSe= Se /fe 进
行比较更为合理,故可用 F MSA SA / fA 作为
检验H0的统计量。
MSe Se / fe
定理2 在单因子方差分析模型 (3) 及前述符号 下,有
(1) Se / 2 ~ 2(nr) ,从而E(Se ) =(nr) 2
r
E(SA ) (r 1) 2 m ai2,进一步,若H0成 i 1 立,则有SA/ 2 ~ 2(r1)
(2) SA与Se独立。
由定理2,若H0成立,则检验统计量F服从自由度为fA 和fe的F分布,因此拒绝域为W={FF 1- (fA ,fe)},通常 将上述计算过程列成一张表格,称为方差分析表。
常用的各偏差平方和的计算公式如下:
ST
r i 1
m j 1
yi2j
T2 n
SA
1 m
r i 1
Ti 2
T2 n
Se ST SA
(10)
一般可将计算过程列表进行。
例2 采用例1的数据,将原始数据减去1000,
列表给出计算过程:
表4 例2的计算表
水 平
数据(原始数据-1000)
m
Ti
2
Ti
表3 单因子方差分析表
来源 平方和 自由度 均方和
F比
因子 SA fA=r1 MSA= SA/fA F= MSA/ MSe
误差 Se fe=nr MSe= Se/fe
总和 ST fT=n1
对给定的,可作如下判断:
➢ 如果 F >F1- (fA ,fe),则认为因子A显著; ➢ 若F F1- (fA ,fe) ,则说明因子A不显著。
在不会引起误解的情况下, H1 通常可省略不写。 如果H0成立,因子A的r个水平均值相同,称因子A的r 个水平间没有显著差异,简称因子A不显著;反之, 当H0不成立时,因子A的r个水平均值不全相同,这时 称因子A的不同水平间有显著差异,简称因子A显著。
为对假设(1)进行检验,需要从每一水平下 的总体抽取样本,设从第i个水平下的总体获 得m个试验结果,记 yij 表示第i个总体的第j次 重复试验结果。共得如下n=rm个试验结果:
(9)
(9)式通常称为总平方和分解式。
三、 检验方法
偏差平方和Q的大小与自由度有关,为了便于在 偏差平方和间进行比较,统计上引入了均方和 的概念,它定义为MS=Q/fQ ,其意为平均每个 自由度上有多少平方和,它比较好地度量了一 组数据的离散程度。
如今要对因子平方和 SA 与误差平方和 Se 之间进
i=1, 2,…, r ;
2)
各总体的方差相同:
1
2=
22=…=
2 r
=
2
;
3) 从每一总体中抽取的样本是相互独立的,
即所有的试验结果 yij 都相互独立。
我们要比较各水平下的均值是否相同, 即要对如下的一个假设进行检验:
H0 :1 =2 =…=r
备择假设为
H1 :1, 2, …, r 不全相等
(1)
(analysis of variance)
1. 检验多个总体均值是否相等
▪ 通过分析察数据的误差判断各总体均值是否相
等
2. 研究分类型自变量对数值型因变量的影响
3. 有单因素方差分析和双因素方差分析
单因素方差分析:涉及一个分类的自变量 双因素方差分析:涉及两个分类的自变量
什么是方差分析?
【例】为了对几个行业的服务质量进行评价,消费者协会在四个行业分别抽取了 不同的企业作为样本。最近一年中消费者对总共23家企业投诉的次数如下表
单因子方差分析的统计模型:
yij i ij , i 1, 2,..., r, j 1, 2,..., m 诸ij相互独立,且都服从N (0, 2 )
(3)
总均值与效应:
称诸
i 的平均
1 r
(1
... r )
1
r
r i 1
i
为总均值.
称第 i 水平下的均值 i 与总均值 的差:
ai=i - 为 Ai 的效应。
灯泡种类
A1
1600
A2
1580
A3
1550
A4
1510
1610 1640 1600 1520
使用寿命 1680 1700 1640 1700 1620 1640 1530 1600
1720 1750 1660 1570
1800 1750 1820 1680
和 10116 10060 9890 9410
组间偏差。
3、偏差平方和及其自由度
➢ 在统计学中,把k个数据y1 , y2 , …, yk分别对其均
值 y =(y1+ …+ yk )/k 的偏差平方和
k
Q ( y1 y)2 L ( yk y)2 ( yi y )2 i 1
称为k个数据的偏差平方和,它常用来度量若干 个数据分散的程度。
其中r为水平数,m为重复数,i为水平编号, j 为重复编号。
在水平Ai下的试验结果yij与该水平下的指标
均值 i 一般总是有差距的,记 ij = yiji,
ij 称为随机误差。于是有
yij = i +ij
(2)
(2)式称为试验结果 yij 的数据结构式。
m
ij
j 1
由于
yij yi. (i ij ) (i i ) ij i (7)
所以yij – yi仅反映组内数据与组内平均的随机误差,称为组内 偏差;而
yi. y (i i.) ( ) ai i. (8)
yi. y 除了反映随机误差外,还反映了第i个水平的效应,称为
➢ 各yij间总的差异大小可用总偏差平方和 rm
ST
( yij y )2
i1 j 1
表示,其自由度为fT=n1;
➢ 仅由随机误差引起的数据间的差异可以用
rm
组内偏差平方和
Se
( yij
2
yi. )
表示,
i1 j 1
也称为误差偏差平方和,其自由度为 fe=nr ;
➢ 由于组间差异除了随机误差外,还反映了
第五章 方差分析
在实际问题中,影响一事物的因素往往是很 多的。例如,在化工生产中,有原料成分、原料 剂量、催化剂、反应温度、压力、反映时间等因素, 每一因素的改变都有可能影响产品的质量,有些因素 影响较大,有些影响较小.
方差分析就是根据试验的结果进行分析,鉴别 各有关因素对试验结果影响的有效方法。
什么是方差分析(ANOVA)?
一 、 单因子方差分析的统计模型
在例1中我们只考察了一个因子,称其为单 因子试验。
通常,在单因子试验中,记因子为 A, 设其 有r个水平,记为A1, A2,…, Ar,在每一水平 下考察的指标可以看成一个总体 ,现有 r 个水平,故有 r 个总体, 假定:
1) 每一总体均为正态总体,记为 N(i , i 2),
yi2j
j 1源自文库
A1 73 9 60 1 2 12 9 28 194 37636 10024
A2 107 92 -10 109 90 74 122 1 585 342225 60355
A3 93 29 80 21 22 32 29 48 354 125316 20984 1133 505177 91363
模型(3)可以改写为
yij
ai
ij ,
r
ai 0
i 1, 2,..., r, j 1, 2,..., m
(4)
i1
ij相互独立,且都服从N(0, 2 )
假设(1)可改写为 H0 :a1 =a2 =…=ar =0
(5)
二、平方和分解
1、试验数据
通常在单因子方差分析中可将试验数据列成 如下页表格形式。
把上述诸平方和及其自由度填入方差分析表
表5 例2的方差分析表
来源 平方和 自由度 均方和
因子 9660.0833 2 4830.0417
F比 3.5948
误差 28215.9584 21 1343.6171
总和 37876.0417 23
若取=0.05,则F0.95 (2 ,21)=3.47 ,由于
利用(10),可算得各偏差平方和为:
11332 ST 91363 24 37876.0417,
505177 11332
SA
8
9660.0833, 24
Se ST SA 37876.0417 9660.0833 28215.9584,
fT 24 1 23
fA 31 2 fe 3(8 1) 21
F=3.5948>3.47,故认为因子A(饲料)是显著的,
即三种饲料对鸡的增肥作用有明显的差别。
练习 某灯泡厂分别用四种不同材料制成灯丝,生产了四批
灯泡,它们除灯丝不同外,其他生产材料和生产工艺完 全相同。今由这四批灯泡中各随机抽取6只灯泡进行寿命 试验,结果如下表所示。根据这些数据,推断不同的灯 丝材料对灯泡的使用寿命是否有显著性影响(取显著性 水平为0.05)?
2. 作出这种判断最终被归结为检验这四个行业 被投诉次数的均值是否相等
3. 如果它们的均值相等,就意味着“行业”对 投诉次数是没有影响的,即它们之间的服务 质量没有显著差异;如果均值不全相等,则 意味着“行业”对投诉次数是有影响的,它 们之间的服务质量有显著差异
MBA的起薪与专业有关吗?
一家关于MBA报考、学习、就业指导的网站 希望了解国内MBA毕业生的起薪是否与各自所学 的专业有关,为此,他们在已经在国内商学院毕 业并且获得学位的MBA学生中按照专业分别随机 抽取了10人,调查了他们的起薪情况,数据如下 表所示(单位: 万元),根据这些数据他们能否 得出专业对MBA起薪有影响的结论?
表2中的最后二列的和与平均的含义如下:
m
Ti yij j 1
yi.
Ti m
r
T Ti i 1
y T T rm n
n r m 总试验次数
i 1, 2,L , r
表2 单因子方差分析试验数据
因子水平 A1 A2 ┆ Ar
试验数据 y11 y12 … y1m y21 y22 … y2m
┆ yr1 yr2 … yrm
➢ 在构成偏差平方和Q的k个偏差y1 y , …, yk y 间
有一个恒等式
k
( yi y ) 0
,这说明在Q中独立
i 1
的偏差只有k1个。
➢ 在统计学中把平方和中独立偏差个数称为该平 方和的自由度,常记为f,如Q的自由度为 fQ=k1。自由度是偏差平方和的一个重要参数。
4、总平方和分解公式
§5.1 单因子方差分析
例1 在饲料养鸡增肥的研究中,某研究所提 出三种饲料配方:A1是以鱼粉为主的饲料, A2是以槐树粉为主的饲料,A3是以苜蓿粉 为主的饲料。为比较三种饲料的效果,特 选 24 只相似的雏鸡随机均分为三组,每 组各喂一种饲料,60天后观察它们的重量。 试验结果如下表所示:
表1 鸡饲料试验数据
和 平均
T1
y1
T2
y2
┆┆
Tr
yr
Ty
2、组内偏差与组间偏差
数据间是有差异的。数据yij与总平均 y 间 的偏差可用yij y 表示,它可分解为二个 偏差之和
yij y ( yij yi.) ( yi. y ) (6)
记
i.
1 m
m
ij ,
j 1
1 r
r i 1
i.
1 n
r i 1
效应间的差异,故由效应不同引起的数据
r
差异可用组间偏差平方和 SA m ( yi. y)2 i 1
表示,也称为因子A的偏差平方和,其自
由度为 fA=r1;
定理1 在上述符号下,总平方和ST可以分解 为因子平方和SA与误差平方和Se之和,其自 由度也有相应分解公式,具体为:
ST =SA +Se , fT =fA +fe
观测值
1 2 3 4 5 6 7
消费者对四个行业的投诉次数
行业
零售业
旅游业
航空公司
57
68
31
66
39
49
49
29
21
40
45
34
34
56
40
53
51
44
家电制造业
44 51 65 77 58
什么是方差分析?
1. 分析四个行业之间的服务质量是否有显著差 异,也就是要判断“行业”对“投诉次数” 是否有显著影响
饲料A
鸡 重(克)
A1 1073 1009 1060 1001 1002 1012 1009 1028 A2 1107 1092 990 1109 1090 1074 1122 1001
A3 1093 1029 1080 1021 1022 1032 1029 1048
本例中,我们要比较的是三种饲料对鸡的增肥 作用是否相同。为此,把饲料称为因子,记为A, 三种不同的配方称为因子A的三个水平,记为A1, A2, A3,使用配方Ai下第 j 只鸡60天后的重量用yij 表示,i=1, 2, 3, j=1, 2,, 10。我们的目的是比 较三种饲料配方下鸡的平均重量是否相等,为 此,需要做一些基本假定,把所研究的问题归 结为一个统计问题,然后用方差分析的方法进 行解决。
行比较,用其均方和 MSA= SA /fA , MSe= Se /fe 进
行比较更为合理,故可用 F MSA SA / fA 作为
检验H0的统计量。
MSe Se / fe
定理2 在单因子方差分析模型 (3) 及前述符号 下,有
(1) Se / 2 ~ 2(nr) ,从而E(Se ) =(nr) 2
r
E(SA ) (r 1) 2 m ai2,进一步,若H0成 i 1 立,则有SA/ 2 ~ 2(r1)
(2) SA与Se独立。
由定理2,若H0成立,则检验统计量F服从自由度为fA 和fe的F分布,因此拒绝域为W={FF 1- (fA ,fe)},通常 将上述计算过程列成一张表格,称为方差分析表。
常用的各偏差平方和的计算公式如下:
ST
r i 1
m j 1
yi2j
T2 n
SA
1 m
r i 1
Ti 2
T2 n
Se ST SA
(10)
一般可将计算过程列表进行。
例2 采用例1的数据,将原始数据减去1000,
列表给出计算过程:
表4 例2的计算表
水 平
数据(原始数据-1000)
m
Ti
2
Ti
表3 单因子方差分析表
来源 平方和 自由度 均方和
F比
因子 SA fA=r1 MSA= SA/fA F= MSA/ MSe
误差 Se fe=nr MSe= Se/fe
总和 ST fT=n1
对给定的,可作如下判断:
➢ 如果 F >F1- (fA ,fe),则认为因子A显著; ➢ 若F F1- (fA ,fe) ,则说明因子A不显著。
在不会引起误解的情况下, H1 通常可省略不写。 如果H0成立,因子A的r个水平均值相同,称因子A的r 个水平间没有显著差异,简称因子A不显著;反之, 当H0不成立时,因子A的r个水平均值不全相同,这时 称因子A的不同水平间有显著差异,简称因子A显著。
为对假设(1)进行检验,需要从每一水平下 的总体抽取样本,设从第i个水平下的总体获 得m个试验结果,记 yij 表示第i个总体的第j次 重复试验结果。共得如下n=rm个试验结果:
(9)
(9)式通常称为总平方和分解式。
三、 检验方法
偏差平方和Q的大小与自由度有关,为了便于在 偏差平方和间进行比较,统计上引入了均方和 的概念,它定义为MS=Q/fQ ,其意为平均每个 自由度上有多少平方和,它比较好地度量了一 组数据的离散程度。
如今要对因子平方和 SA 与误差平方和 Se 之间进
i=1, 2,…, r ;
2)
各总体的方差相同:
1
2=
22=…=
2 r
=
2
;
3) 从每一总体中抽取的样本是相互独立的,
即所有的试验结果 yij 都相互独立。
我们要比较各水平下的均值是否相同, 即要对如下的一个假设进行检验:
H0 :1 =2 =…=r
备择假设为
H1 :1, 2, …, r 不全相等
(1)
(analysis of variance)
1. 检验多个总体均值是否相等
▪ 通过分析察数据的误差判断各总体均值是否相
等
2. 研究分类型自变量对数值型因变量的影响
3. 有单因素方差分析和双因素方差分析
单因素方差分析:涉及一个分类的自变量 双因素方差分析:涉及两个分类的自变量
什么是方差分析?
【例】为了对几个行业的服务质量进行评价,消费者协会在四个行业分别抽取了 不同的企业作为样本。最近一年中消费者对总共23家企业投诉的次数如下表
单因子方差分析的统计模型:
yij i ij , i 1, 2,..., r, j 1, 2,..., m 诸ij相互独立,且都服从N (0, 2 )
(3)
总均值与效应:
称诸
i 的平均
1 r
(1
... r )
1
r
r i 1
i
为总均值.
称第 i 水平下的均值 i 与总均值 的差:
ai=i - 为 Ai 的效应。
灯泡种类
A1
1600
A2
1580
A3
1550
A4
1510
1610 1640 1600 1520
使用寿命 1680 1700 1640 1700 1620 1640 1530 1600
1720 1750 1660 1570
1800 1750 1820 1680
和 10116 10060 9890 9410
组间偏差。
3、偏差平方和及其自由度
➢ 在统计学中,把k个数据y1 , y2 , …, yk分别对其均
值 y =(y1+ …+ yk )/k 的偏差平方和
k
Q ( y1 y)2 L ( yk y)2 ( yi y )2 i 1
称为k个数据的偏差平方和,它常用来度量若干 个数据分散的程度。