方差分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
方差分析
方差分析
方差分析是比较多个总体的均值是否相等,但本质上它所研究的是变量之间的关系。
在研究一个(或多个)分类型自变量与一个数值型因变量之间的关系时,方差分析就是其中的只要方法之一。
一、方差分析引论
假设需要检验4个总体的均值分别为4321,,,μμμμ,如果用一般假设检验方法,如t 检验,一次只能研究两个样本,要检验4个总体的均值是否相等,需要做6次检验,如果在0.05的置信水平下检验,每次检验犯第Ⅰ类错误的概率都是0.05,检验完成时,犯第Ⅰ类错误的概率会大于0.05,即连续作6次检验第Ⅰ类错误的概率为6)1(1α--=0.265,而置信水平则会降低到0.735(即
695.0)。
随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加
(并非均值真的存在差别)。
而方差分析方法则是同时考虑所有的样本,因此排除了错误累计的概率,从而避免拒绝一个真实的原假设。
1、方差分析及其有关术语
方差分析:就是通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
例1:为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业作为样本。
其中零售业7家,旅游业抽取6家,航空公司抽取5家,家电制造业抽取5家。
最后统计出最近一年中消费者对总共23家企业投诉的次数。
如下表所示。
消费者对四个行业的投诉次数
行业
零售业 旅游业 航空业 家电制造业
57 68 31 44 66 39 49 51 49 29 21 65 40 45 34 77 34 56 40 58 53 51 44
要分析四个行业之间的服务质量是否有显著差异,实际上就是要判断“行业”对“投诉次数”是否有显著影响,做出这种判断最终被归结为检验这四个行业被投诉次数的均值是否相等。
在方差分析中,要检验的对象称为因素或因子。
因素不同的表现称为水平或处理。
每个因子水平下得到的样本数据称为观测值。
在例1中,“行业”是要检验的对象,称为“因素”或“因子”;零售业,旅游业,航空公司,家电制造业是行业这一因素的具体表现,称为“水平”或“处理”;在每个行业下得到的样本数据(被投诉次数)称为观测值。
由于这里只涉及“行业”一个因素,因此称为单因素4水平的试验。
在只有一个因素的方差分析(称为单因素方差分析)中,涉及两个变量:一个是分类型自变量,一个是数值型因变量。
在例1中,要研究“行业”对投诉次数是否有显著影响,这里“行业”是自变量,它是一个分类变量。
零售业,旅游业,航空公司,家电制造业就是“行业”这个自变量的具体取值。
“投诉次数”是因变量,它是一个数值型变量,不同的投诉次数
就是因变量的取值。
方差分析要研究的就是“行业”对“投诉次数”是否存在显著影响。
二、方差分析的基本思想和原理
为了分析分类自变量对数值型因变量的影响,需要从数据误差来源的分析入手。
1、图形描述
90
80
70
60
50
40
30
20
10
012345
从散点图可以看出,不同行业被投诉的次数是有明显差异的,而且即使在同一个行业,不同企业被投诉的次数也明显不同。
从图中可以看出,4被投诉的次数较高,而3被投诉的次数较低。
这表明行业与被投诉的次数之间有一定的关系。
如果行业与被投诉次数之间没有关系,那么它们被投诉的次数的均值应该差不多相同,在散点图上所呈现的模式也就应该很接近。
2、误差分解
通过对数据误差来源分析判断不同总体的均值是否相等,进而分析自变量对因变量是否有显著影响。
来自水平内部的数据误差称为组内误差。
在例1中,零售业中所抽取的7家企业被投诉次数之间的误差就是组内误差,它反映了一个样本内部数据的离散程度。
显然,组内误差只含有随机误差项。
来自不同的水平间的数据误差称为组间误差。
这种误差可能由于抽样本身形成的随机误差,也可能是由于行业本身的系统性误差因素造成的系统误差。
因此,组间误差是随机误差和系统误差的总和。
在例1中,四个行业被投诉次数之间的误差就是组间误差,它反映了不同样本之间数据的离散程度。
在方差分析中,数据的误差是用平方和来表示的。
反映全部数据误差大小的平方和称为总平方和,记为SST,在例1中,所抽取的全部23家企业被投诉次数之间的误差就是总平方和。
它反映了全部观测值的离散情况。
反映组内误差大小的平方和称为组内平方和,也称为误差平方和,或残差平方和,记为SSE,在例1中,每个样本内部的数据平方和加在一起就是组内平方和,它反映了每个样本内各观测值的总离散状况。
反映组间误差大小的平方和称为组间平方和,也称为因素平方和,记为SSA,在例1中,四个行业被投诉次数之间的误差平方和就是组间平方和,它反映了样本均值之间的差异程度。
3、误差分析
如果不同行业对投诉次数没有影响,那么在组间误差中只包含随机误差,而没有系统误差,这时,组间误差与组内误差经过平均后的数值(称为均方或方差)就应该很接近,它们的比值就会接近1;如果有影响,则比值就会显著大于1。
因此,判断行业对投诉次数是否有显著影响这一问题,实际上也就是检验被
投诉次数的差异主要是由于什么原因所引起的。
如果这种差异主要是系统误差,就认为不同行业对投诉次数有显著影响。
三、方差分析中的基本假定
1、每个总体都应该服从正态分布。
在例1中,要求每个行业被投诉的次数必须服从正态分布。
2、各个总体的方差2σ必须相同。
在例1中,要求每个行业被投诉的次数的2σ必须相同。
3、观测值是独立的。
在例1中,要求每个被抽中的企业被投诉的次数都与其他企业被投诉的次数独立。
在上诉假设成立的条件下,要分析自变量对因变量是否有影响,形式上也就转化为检验自变量的各个水平(总体)的均值是否相等。
尽管不知道4个总体的均值,但可以用样本数据来检验它们是否相等。
如果4个总体的均值相等,可以期望4个样本的均值也会很接近。
事实上,4个样本的均值越接近,推断4个总体均值相等的证据也就越充分;反之,样本均值越不同,推断总体均值不同的证据就越充分。
换句话说,样本均值变动越小,越支持原假设;样本均值变动越大,越支持备择假设。
三、单因素方差分析
当方差分析中只涉及一个分类型自变量时称为单因素方差分析。
观测值 因素(i)
(j) 1A 2A … k A 1 11x 21x … 1k x 2 12x
21x
… 2k x
… …
…
… …
n n x 1
n x 2
…
kn x
在单因素方差中,用A 表示因素,因素的k 个水平(总体)分别用1A ,2A ,…,k A 表示,每个观测值用ij x (n j k i ,...,2,1;,...,2,1==)表示,即ij x 表示第i 个水平(总体)的第j 个观测值。
2、分析步骤
方差分析包括提出假设、构造检验的统计量、统计决策等 (1)提出假设
检验因素的k 个水平(总体)均值是否相等,需要提出假设:
k i H μμμμ=====......:210 自变量对因变量没有显著影响 i H μ:1(k i ,...,2,1=)不全相等 自变量对因变量有显著影响
(注意:拒绝0H 时,只是表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等)
(2)构造检验的统计量
①计算各样本的均值
假定从第i 个总体中抽取一个容量为i n 的简单随机样本,令i x 为第i 个总体的样本均值。
计算公式:
i
n j ij
i n x
x i
∑==
1
(k i ,...,2,1=)
②计算全部观测值的总均值
n
x
n n
x
x k
i i
i k
i n j ij
i
∑∑∑====
=
1
11
③计算各误差平方和
总平方和,SST 。
它是全部观测值ij x 与总平均值x 的误差平方和,计算公式
:
∑∑==-=k i n j ij i
x x SST 11
2)(
组间平方和,SSA 。
它是各组平均值i x (k i ,...,2,1=)与总平均值x 的误差平方和,反映了样本均值之间的差异程度。
计算公式:
21)(x x n SSA k
i i i -=∑=
组内平方和,SSE 。
它是每个水平或者组的各样本数据与其平均值误差的平方和,反映了每个样本各观测值的离散状况。
计算公式:
∑∑==-=k i n j i ij i
x x SSE 11
2)(
总平方和(SST )=组间平方和(SSA )+组内平方和(SSE )
从上述三个误差平方和可以看出,SSA 是对随机误差和系统误差大小的度量,它反映了自变量(行业)对因变量(投诉次数)的影响,也称为自变量效应或因子效应;SSE 是对随机误差的大小的度量,它反映了除自变量对因变量的影响之外,其他因素对因变量的总影响,因此SSE 也被称为残差变量,它所引起的误差也称为误差效应。
在例1中有:
消费者对四个行业的投诉次数
行业
零售业 旅游业 航空业 家电制造业 57 68 31 44 66 39 49 51 49 29 21 65 40 45 34 77 34 56 40 58 53 51 44
1x =49 2x =48 3x =35 4x =59 1n =7
2n =6
3n =5
4n =5
869565.4723
58
77...6657=++++=
x
608696.4164)869565.4758(...)869565.4757(22=-++-=SST 608696.1456)869565.4759(5...)869565.4749(722=-⨯++-⨯=SSA
零售业:700)4944(...)4957(22=-++-=SSE 旅游业:924)4851(...)4868(22=-++-=SSE 航空公司:434)3540(...)3531(22=-++-=SSE 家电制造业:650)5958(...)5944(22=-++-=SSE
2708650434924700=+++=SSE
④计算统计量
由于各误差平方和的大小与观测值的多少有关,为了消除观测值多少对误差平方和大小的影响,需要用各平方和除以它们所对应的自由度,这一结果称为均方或者方差。
三个平方和所对应的自由度分别为: SST 的自由度为n-1,其中n 为全部观测值的个数
SSA 的自由度为k-1,其中k 为因素水平(总体)的个数 SSE 的自由度为n-k
由于要比较的是组间均方和组内均方之间的差异,所以通常只计算SSA 均方和SSE 的均方。
SSA 的均方也称为组间均方或者组间方差,记为MSA 。
MSA=
1
-=k SSA
自由度组间平方和
根据例1:MSA=
536232.4851
4608696
.14561=-=-k SSA SSE 的均方,记为MSE, MSE=k
SSE
-=n 自由度组内平方和
根据例1:MSE=
526316.1424
-232708
n ==-k SSE 构造检验统计量F ,MSE
MSA
F =~F(k-1,n-k)
根据例1:406643.3526316
.142536232
.485===
MSE MSA F (3)统计决策
当αF F >时,拒绝原假设。
当αF F <时,不能拒绝原假设。
四、方差分析表
方差分析表的一般形式
方差分析 平方和 自由度 均方 F 值 P 值 F 临界值 差异源 SS df MS F P-value F crit 组间(因素影响) SSA k-1 MSA MSA/SME 组内(误差) SSE n-k MSE
总和 SST n-1
对例1进行单因素方差分析,EXCEL 的输出结果如下所示: SUMMARY
组 观测数 求和 平均 方差 列 1 7 343 49 116.6667 列 2 6 288 48 184.8 列 3 5 175 35 108.5 列 4 5 295 59 162.5
例1 四个行业被投诉次数的方差分析表 方差分析 差异源 SS df MS F P-value F crit 组间 1456.609 3 485.5362 3.406643 0.038765 3.12735 组内 2708 19 142.5263 总计 4164.609 22
SUMMARY 是有关样本的一些描述统计量,p 值可以用于统计决策。
P>显著性性水平,不能拒绝原假设。
五、关系强度的测量
在方差分析表中,组间平方和,度量了自变量(行业)对因变量(投诉次数)的影响效应,实际上,只要组间平方和不等于0,就表明两个变了之间有关系,(只是是否显著的问题)。
当组间平方和比组内平方和大,而且达到一定程度时,就意味着两个变量之间的关系显著,大得越多,表明它们之间的关系越强。
所以可以用组间平方和(SSA )占总平方和(SST )的比例大小来反映,这一比例记
为
:
2
R ,即
)
()(2总组间SST SSA R =
,在例1中,
%9759.34349759.0608696.4146608696
.14562===
R
这表明,行业(自变量)对投诉次数(因变量)的影响效应占总效应的34.9759%,而残差效应占65.0241%。
也就是说,行业对投诉次数差异解释的比例达到近35%,而其他因素(残差变量)所解释的比例达65%以上。
六、方差分析中的多重比较
例1的结论分析出来是:不同的行业被投诉次数的均值不完全相同。
但不知道是那一个哪个不同,为了进一步分析,这里就需要使用多重比较方法。
它是通过对总体均值之间的配对比较来进一步检验到底那些均值之间存在差异。
简称:LSD 。
使用该方法进行检验的具体步骤: 1、提出假设:j i H μμ=:0,j i H μμ≠:1
2、计算检验统计量:j i x x -
3、计算LSD :LSD=)1
1(
2
j
i n n MSE t +α
(其中t 的自由度为n-k ) 4、根据显著性水平α做出决策。
如果LSD x x j i >-,则拒绝原假设。
如果
LSD x x j i <-,则不拒绝原假设。
如例1中: 1、提出假设
检验1:211210:,:μμμμ≠=H H 检验2:311310:,:μμμμ≠=H H 检验3:411410:,:μμμμ≠=H H 检验4:321320:,:μμμμ≠=H H 检验5:421420:,:μμμμ≠=H H 检验6:431430:,:μμμμ≠=H H 2、计算检验统计量:
检验1:1484921=-=-x x 检验2:14354931=-=-x x 检验3:10594941=-=-x x 检验4:13354832=-=-x x 检验5:11594842=-=-x x 检验6:24593543=-=-x x
3、计算LSD 。
根据方差分析结果可知,MSE=142.526316。
自由度=23-4=19。
所以093.2)19(2
=αt 。
检验1:9.13)6
1
71(526316.142093.21=+⨯⨯=LSD 检验2:63.142=LSD
检验3:63.143=LSD 检验4:13.154=LSD 检验5:13.155=LSD 检验6: 8.156=LSD 4、做决策。
检验1:9.13121<=-x x
检验2:63.141431<=-x x 检验3:63.141041<=-x x
检验4:13.151332<=-x x
检验5:13.151142<=-x x 检验6:8.152443>=-x x
所以检验1,2,3,4,5均不能拒绝原假设。
检验6拒绝原假设,航空公司与家电制造业的投诉次数之间有显著差异。
LSD 检验也可以直接有SPSS 获得,结果如下表:
Multiple Comparisons
LSD
(I)
VAR00001 (J)
VAR00001 Mean
Difference Std. Error
Sig.
95% Confidence
Interval
(I-J)
Lower Bound
Upper Bound 1
2 1 6.6419
3 0.882 -12.9017 14.9017 3 1
4 6.99043 0.06 -0.6311 28.6311 4
-10 6.99043 0.169 -24.6311 4.6311 2
1 -1 6.64193 0.88
2 -14.9017 12.9017
3 13 7.22908 0.088 -2.1306 28.1306 4
-11 7.22908 0.145 -26.1306 4.1306 3
1 -14 6.99043 0.06 -28.6311 0.6311
2 -1
3 7.22908 0.088 -28.1306 2.1306 4
-24.0000*
7.55053 0.005 -39.8034 -8.1966 4
1 10 6.99043 0.169 -4.6311 24.6311
2 11 7.22908 0.145 -4.1306 26.1306 3
24.0000*
7.55053
0.005
8.1966
39.8034
*. The mean difference is significant at the 0.05 level.
七、双因素方差分析
当方差分析中设计两个分类型自变量时,称为双因素方差分析。
例2:有4个品牌的彩电在5个地区销售,为分析彩电的品牌(“品牌”因素)和销售地区(“地区”因素)对销售量的影响,对每个品牌在各地区的销售量取得以下数据,如下表所示。
试分析品牌和销售地区对彩电的销售量是否有显著影响。
(α=0.05)
地区因素
地区1 地区2 地区3 地区4 地区5 品
质因素
品牌1 365 350 343 340 323 品牌2 345 368 363 330 333 品牌3 358 323 353 343 308 品牌4 288 280 298 260 298
在上面这个例子中,品牌和地区是两个分类型自变量,销售量是一个数值型因变量。
同时分析品牌和销售地区对销售量的影响,分许究竟是一个因素在起作用,还是两个因素都起作用,还是两个因素都不起作用,这就是一个双因素方差分析问题。
如果“品牌”和“地区”对销售量的影响是相互独立的,分别判断“品牌”和“地区”对销售量的影响,这时的双因素方差分析称为无交互作用的双因素方差分析,或称为无重复双因素分析。
如果除了“品牌”和“地区”对销售量的单独影响外,两个因素搭配还会对销售量产生一种新的影响效应,例如,某个地区对某种品牌的彩电有特殊偏好,这就是两个因素结合后产生的新效应,这时的双因素方差分析称为有交互作用的双因素方差分析,或称为可重复双因素分析。
八、无交互作用的双因素方差分析
列因素(j) 平均值
•i x 列1 列2 … 列r
行 因 素 (i)
行1
11x 12x … r x 1 •1x 行2 21x
22x
… r x 2
•2x
… …
…
… …
…
行k 1k x
2k x
… kr x
•k x
平均值
j x •
1•x 2•x …
r x •
x
在无交互作用的双因素方差分析中,分为行因素和列因素。
行因素有k 个水平,列因素有r 个水平。
行因素和列因素的每个水平都可以搭配成一组,观察它们对试验数据的影响,共抽取kr 个观察数据。
表中:
•i x 是行因素的第i 个水平下各观察值的平均值,•i x =
r
x
r
j ij
∑=1
(i=1,2,…,k )
j x •是列因素的第j 个水平下各观察值的平均值,j x •=
k
x
k
i ij
∑=1
(j=1,2,…,r )
x 是全部kr 个样本数据的总平均值,x =
kr
x
k
i r
j ij
∑∑==1
1
2、分析步骤
(1)提出假设,需要对两个因素分别提出假设。
对行因素提出假设:
k i H μμμμ===== 210: 行因素(自变量)对因变量没有显著影响 i H μ:1(i=1,2,…,k )不完全相等 行因素(自变量)对因变量有显著影响
对列因素提出假设:
r j H μμμμ===== 210: 列因素(自变量)对因变量没有显著影响 j H μ:1(j=1,2,…,r )不完全相等 列因素(自变量)对因变量有显著影响
(2)构造检验统计量
总误差平方和:∑∑==-=k
i r
j ij x x SST 112)(,自由度为kr-1
行因素误差平方和:∑∑==•-=k i r
j i x x SSR 11
2)(,自由度为k-1
列因素误差平方和:∑∑==•-=k i r
j j x x SSC 112)(,自由度为r-1
随机误差平方和:∑∑==••---=k
i r
j j i ij x x x x SSE 11
2)(,自由度为(k-1)×(r-1)
四者关系为:SST=SSR+SSC+SSE
行因素均方:1-=k MSR MSR ;列因素均方:1-=r MSC
MSC ;
随机误差均方:)
1)(1(--=r k MSE
MSE
检验行因素对因变量的影响是否显著,构造))1)(1(,1(---=
r k k F MSE MSR
F R ~ 检验列因素对因变量的影响是否显著,构造))1)(1(,1(---=r k r F MSE
MSC
F C ~
(3)统计决策
将R F ,C F 与αF 进行比较。
(4)双因素方差分析表的一般格式
误差平方和 自由度 均方 F 值 P 值 F 临界值 差异源 SS df MS F
P-value F crit
行 SSR k-1 MSR R F 列 SSC r-1 MSC C F
误差 SSE (k-1)(r-1)
MSE 总计
SST
Kr-1
(5)用EXCLE 计算例2结果如下所示 方差分析:无重复双因素分析
SUMMARY 观测数 求和 平均 方差
行 1 5 1721 344.2 233.7 行 2 5 1739 347.8 295.7 行 3 5 1685 337 442.5 行 4 5 1424 284.8 249.2 列 1 4 1356 339 1224.667 列 2 4 1321 330.25 1464.25 列 3 4 1357 339.25 822.9167 列 4 4 1273 318.25 1538.917 列 5 4 1262 315.5 241.6667
方差分析
差异源 SS df MS F P-value F crit 行 13004.55 3 4334.85 18.10777 9.46E-05
3.490295
列 2011.7 4 502.925 2.100846 0.143665 3.259167 误差 2872.7 12 239.3917 总计 17888.95 19
从表中可以看出行因素对销售量有显著影响,即品牌对销售量有显著影响。
3、关系强度的测量
行平方和度量了品牌这个自变量对因变量(销售量)的影响效应;列平方和度量了地区这个自变量对因变量(销售量)的影响效应;这两个平方和度量了两个自变量对因变量的联合效应,联合效应与总平方和的比值定义为2R ,其平方根
R 则反映了这两个自变量与因变量之间的关系强度。
SST
SSC
SSR R +==
总效应联合效应2
根据例2的计算结果:%94.8395
.178887
.201155.130042=+=
R ,%62.91=R 。
这表明,品牌因素和地区因素合起来总共解释了销售差异的83.94%,其他因素(残差变量)只解释了销售量差异的16.06%。
而R=0.9162,这表明品牌和地区两个因素合起来与销售量之间有较强的关系。
在双因素方差分析中,误差平方和不包括两个自变量中的任何一个,因而减少了残差效应。
而在分别做单因素方差分析时,将行因素(品牌)作为自变量时,列因素(地区)被包括在残差中,同样,将列因素作为自变量时,行因素被包括在残差中。
因此,对于两个变量而言,进行双因素方差分析要优于分别对两个因素进行单因素方差分析。
参考下面两个结果:
品牌与销售量的单因素方差分析结果
差异源 SS df MS F P-value F crit 组间 13004.55 3 4334.85 14.19982 8.97E-05 3.238872 组内 4884.4 16 305.275 总计 17888.95 19
地区与销售量的单因素方差分析结果
差异源 SS df MS F P-value F crit 组间 2011.7 4 502.925 0.475137 0.753443 3.055568 组内 15877.25 15 1058.483 总计 17888.95 19
九、有交互作用的双因素方差分析
假定两个因素对因变量的影响是独立的,但如果两个因素搭配在一起会对因变量产生一种新的效应,就需要考虑交互作用对因变量的影响,这就是有交互作用的双因素方差分析。
例3:城市道路交通管理部门为研究不同的路段和不同的时间段对行车时间的影响,让一名交通警察分别在两个路段的高峰期与非高峰期亲自驾车进行试验,通过试验共获得20个行车时间的数据,如下表所示,试分析路段、时间段以及
路段(列变量) 路段1 路段2
时段(行
变
量)
高
峰
期
26 19 24 20 27 23 25 22 25 21 非高峰
期
20 18 17 17 22 13 21 16 17 12
设行变量有k m ,观察数据的总数为n 。
在例3中,行变量(时段)有2个水平,列变量(路段)有2个水平,行变量中每一个水平的行数为5行;观察数据总数为20;
有交互作用的双因素方差分析表的结构如下表所示: 误差平方和 自由度 均方 F 值 P 值 F 临界值 差异源 SS df MS F P-value F crit
行因素 SSR k-1 MSR R F 列因素 SSC r-1 MSC C F 交互作用 SSRC (k-1)(r-1) MSRC RC F
误差 SSE Kr(m-1) MSE 总和
SST
n-1
设•i x 为行因素的第i 个水平的样本平均值
j x •为列因素的第j 个水平的样本平均值
x 为全部n 个样本数据的总平均值
ij x 为对应于行因素的第i 个水平和列因素的第j 个水平组合的样本均值 ijl x 为对应于行因素的第i 个水平和列因素的第j 个水平的第l 行的观察值 总误差平方和:∑∑∑===-=k
i r
j ijl m
l x x SST 1121)(
行变量误差平方和:∑=•-=k
i i x x rm SSR 1
2)(
列变量误差平方和:∑
=•
-
=
r
j
j
x x
km SSC
1
2
) (
交互作用平方和:∑∑
==
•
•
+
-
-
=
k
i
r
j
j
i
ij
x
x
x
x
m SSRC
11
2
) (
误差平方和:SSRC
SSC
SSR
SST
SSE-
-
-
=
用EXCEL对例3进行可重复双因素分析结果如下所示。
方差分析:可重复双因素分析
SUMMARY 路段1 路段2 总计
求和127 105 232
平均25.4 21 23.2
方差 1.3 2.5 7.066667
非高峰期
观测数 5 5 10
求和97 76 173
平均19.4 15.2 17.3
方差 5.3 6.7 10.23333
总计
观测数10 10
求和224 181
平均22.4 18.1
方差12.93333 13.43333
方差分析
差异源SS df MS F P-value F crit 样本174.05 1 174.05 44.06329 5.7E-06 4.493998 列92.45 1 92.45 23.40506 0.000182 4.493998 交互0.05 1 0.05 0.012658 0.911819 4.493998 内部63.2 16 3.95
总计329.75 19
由上表可知,不同时段的行车时间有显著差异,不同路段的行车时间有显著差异,交互作用反映时段因素和路段因素联合产的对行车时间的附加效应,没有证据表明时段和路段的交互作用对行车时间有显著影响。
还可以用各平方和占总平方和(SST)的比例R^2来反映时段因素、路段因素、交互作用以及残差等对行车时间的关系强度。
十、试验设计
试验是指收集样本数据的过程。
试验设计是指收集样本数据的计划,是通过科学地安排试验,以便用尽可能少的试验获得尽可能多的信息。
1、完全随机化设计(单因素方差分析)
完全随机化设计是将k种“处理”随机地指派给试验单元的设计。
“处理”是指可控制的因素的各个水平;接受“处理”的对象或实体称为试验单元。
例4:一家种业开发股份公司研究出3个信的小麦品种:品种1,品种2,品种3。
公司需要分析不同品种对产量的影响。
为此需要选择一些地块,在每个地块
种上不同的品种,然后获得产量数据,进而分析小麦品种对产量的影响是否显著。
这一过程称为试验设计。
这里的“小麦品种”就是试验因子或者因素,品种1,品种2,品种3就是因子的3个水平,称为处理。
假定选取3个面积相同的地块,这里的“地块”就是接受处理的对象,称为试验单元。
然后将每个品种随机地指派给其中的一个地块。
这一过程就是随机化设计过程。
2、随机化区组设计(无重复双因素方差分析)
完全随机化试验设计看起来似乎很公平,但不同的地块土壤的好坏是不同的。
在随机指派不同的品种时,如果对某一个品种是有利的,例如,抽到了土壤好的地块,这就不公平了。
为了消除这种不公平,就需要随机区组化设计。
随机区组化设计是先按一定规则将试验单元划分为若干同质组,称为区组。
然后将各种处理随机地指派给各个区组,在例4中,首相根据土壤的好坏分成几个区组,假定分成4个区组:区组1,区组2,区组3,区组4,每个区组有3个地块。
在每个区组内3个地块以抽签方式决定所种的小麦品种。
这种分组后再将每个品种(处理)随机地指派给每一个区组的设计就是随机化区组设计。
3、因子设计(可重复双因素方差分析)
假定除了关系小麦品种对产量的影响外,还关心施肥方式对产量的影响,这时感兴趣的因素有两个:小麦品种和施肥方式。
假定有甲、乙两种施肥方式,这样3个小麦品种和两种施肥方式的搭配共有6种(3×2)。
如果选择30个地块进行实验,每一种搭配可以做5次试验,也就是每个品种(处理)的样本量为5,相当于每个品种重复做了5次试验,这种考虑两个因素(或多个因素)搭配的试验设计称为因子设计。