生物统计学(第3版)杜荣骞 课后习题答案 第十二章 实验设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十二章实验设计
12.1一项关于在干旱地区生长的一种杨树(Populus euphratica),在土壤中的水分逐渐丧失后,其基因表达、蛋白谱、生态生理学及生长性能等方面产生可逆性改变的研究。
作者在本实验的5个时间点上(H5为对照),用qPCR方法度量了该杨树叶子中的三个基因的转录丰度比[83],表中给出的为阵列数据:
GenBank ID 基因H1H2H3H4H5
AJ 780 423 半胱氨酸蛋白酶0.7 1.0 2.3 13.1 1.9
AJ 780 698 环核苷酸和钙调节的离子通道 1.5 1.2 3.0 4.3 1.5
AJ 777 362 核糖体蛋白 1.1 1.1 1.0 0.9 1.2
借用上述数据,以三个基因作为三个区组,计算在5个时间点上转录丰度比差异是否显著?
答:随机化完全区组实验设计方差分析的程序,类似于两因素交叉分组实验设计。
以下是本题的程序和结果:
options linesize=76 nodate;
data poplar;
do block=1 to 3;
do time=1 to 5;
input trans @@;
output;
end;
end;
cards;
0.7 1.0 2.3 13.1 1.9
1.5 1.2 3.0 4.3 1.5
1.1 1.1 1.0 0.9 1.2
;
proc anova;
class block time;
model trans=block time;
run;
The SAS System
The ANOVA Procedure
Class Level Information
Class Levels Values
block 3 1 2 3
time 5 1 2 3 4 5
Number of observations 15
The SAS System
The ANOVA Procedure
Dependent Variable: trans
Sum of
Source DF Squares Mean Square F Value Pr > F Model 6 72.5560000 12.0926667 1.53 0.2809
Error 8 63.1013333 7.8876667
Corrected Total 14 135.6573333
R-Square Coeff Var Root MSE trans Mean
0.534848 117.6745 2.808499 2.386667
Source DF Anova SS Mean Square F Value Pr > F block 2 18.82533333 9.41266667 1.19 0.3519 time 4 53.73066667 13.43266667 1.70 0.2416
从上表中的结果可以看出,如果按随机化完全区组设计进行分析,不同时间点之间的差异不显著。
归纳成一般格式的方差分析表如下:
变差来源平方和自由度均方 F P
区组18.825 333 33 2 9.412 666 67 1.19 0.351 9
时间点53.730 666 67 4 13.432 666 67 1.70 0.241 6
误差63.101 333 33 8 7.887 666 7
总和135.657 333 3 14
12.2测定了新疆维吾尔、哈萨克、柯尔克孜族乡村不同年龄的男生(n =100),50米跑的平均成绩(s),结果如下[10]:
年龄/a 7 8 9 10 11 12 13 14 15 16 17 18 维吾尔10.54 10.16 9.58 9.41 9.11 8.83 8.65 8.24 7.89 7.85 7.70 7.41 哈萨克10.27 9.70 9.38 9.21 8.84 8.74 8.32 7.92 7.69 7.48 7.40 7.40 柯尔克孜11.19 10.66 10.12 9.84 9.48 9.24 8.94 8.50 8.27 7.91 7.76 7.63 该试验的目的,是为了推断不同民族间,男生50米跑的平均成绩差异是否显著。
首先判断该试验属于一种什么设计,然后再计算。
答:该试验为随机化完全区组设计,年龄为区组。
程序不再给出,下面只给出结果。
The SAS System
The ANOVA Procedure
Class Level Information
Class Levels Values
block 12 1 2 3 4 5 6 7 8 9 10 11 12
people 3 1 2 3
Number of observations 36
The SAS System
The ANOVA Procedure
Dependent Variable: second
Sum of
Source DF Squares Mean Square F Value Pr > F Model 13 38.51329167 2.96256090 193.30 <.0001 Error 22 0.33718333 0.01532652
Corrected Total 35 38.85047500
R-Square Coeff Var Root MSE second Mean
0.991321 1.404826 0.123800 8.812500
Source DF Anova SS Mean Square F Value Pr > F block 11 36.34027500 3.30366136 215.55 <.0001 people 2 2.17301667 1.08650833 70.89 <.0001
从方差分析可知,不同民族间,男生50米跑的平均成绩差异极显著。
归纳成一般格式的方差分析表如下:
变差来源平方和自由度均方 F P
区组36.340 275 00 11 3.303 661 36 215.5
5
<0.000 1
民族间2.173 016 67 2 1.086 508 33 70.8
9
<0.000 1
误差0.337 183 33 22 0.015 326 52
总和38.850 475 00 35
12.3测试了新疆维吾尔、哈萨克、柯尔克孜族乡村不同年龄男生(n =100)立位体前屈的平均次数,结果如下[10]:
年龄/a 7 8 9 10 11 12 13 14 15 16 17 18 维吾尔 6.65 7.28 7.65 7.63 7.72 7.79 9.12 9.27 12.87 12.83 14.91 16.30 哈萨克 6.94 7.31 6.03 6.50 7.23 6.36 7.52 7.47 10.31 11.91 12.89 13.08 柯尔克
孜
5.15 5.56 5.83
6.38 6.80
7.12
8.16 10.77 12.03 15.74 16.89 17.65 与上题类似,请推断三个不同民族间,男生立位体前屈平均次数差异是否显著?
答:与上题类似,以下只给出结果。
The SAS System
The ANOVA Procedure
Class Level Information
Class Levels Values
block 12 1 2 3 4 5 6 7 8 9 10 11 12
people 3 1 2 3
Number of observations 36
The SAS System
The ANOVA Procedure
Dependent Variable: number
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 13 418.8897361 32.2222874 22.21 <.0001
Error 22 31.9233611 1.4510619
Corrected Total 35 450.8130972
R-Square Coeff Var Root MSE number Mean
0.929187 12.69299 1.204600 9.490278
Source DF Anova SS Mean Square F Value Pr > F block 11 405.3856972 36.8532452 25.40 <.0001 people 2 13.5040389 6.7520194 4.65 0.0206
从上述计算结果可以看出,不同民族间,男生立位体前屈平均次数,在α=0.05水平上差异显著。
归纳成一般格式的方差分析表如下:
变差来源平方和自由度均方 F P
区组405.385 697 2 11 36.853 245 2 25.40 <0.000 1
民族间13.504 038 9 2 6.7520 194 4.65 0.020 6
误差31.923 361 1 22 1.4510 619
总和450.813 097 2 35
12.4一项促进刺五加苗木木质化试验[84],选择4种生长刺激剂各选择3种浓度,设计方案见下表:
刺激剂多效唑(A)比久(B)矮壮素(C)富尔655(D)稀释倍数500 600 700 100 200 300 500 700 1000 500 600 700 重复数 3 3 3 3 3 3 3 3 3 3 3 3 按上述方案,每重复调查30株,记录木质化的株数,试验结果如下:
刺激剂多效唑(A)比久(B)矮壮素(C)富尔655(D)稀释倍数500 600 700 100 200 300 500 700 1000 500 600 700
重复23 29 20 28 20 9 11 10 11 8 16 19 22 26 12 26 19 26 18 16 20 15 21 13 16 22 19 15 18 26 18 9 21 14 20 17
先考虑这是哪一种试验设计?根据实验设计的要求做方差分析并解释所得结果。
答:这是一个套设计,所得结果是服从二项分布的随机变量,需做反正弦变换。
options linesize=76 nodate;
data nested;
do reagent=1 to 4;
do multiple=1 to 3;
do rep=1 to 3;
infile 'e:\data\er12-4e.dat';
input num @@;
number=arsin(sqrt(num/30))*180/3.14159265;
output;
end;
end;
end;
proc anova;
class reagent multiple;
model number=reagent multiple(reagent);
test h=reagent e=multiple(reagent);
run;
The SAS System
The ANOVA Procedure
Class Level Information
Class Levels Values
reagent 4 1 2 3 4
multiple 3 1 2 3
Number of observations 36
The SAS System
The ANOVA Procedure
Dependent Variable: number
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 11 2535.035123 230.457738 2.20 0.0513
Error 24 2511.056137 104.627339
Corrected Total 35 5046.091260
R-Square Coeff Var Root MSE number Mean
0.502376 19.78509 10.22875 51.69928
Source DF Anova SS Mean Square F Value Pr > F
reagent 3 1295.597384 431.865795 4.13 0.0171
multiple(reagent) 8 1239.437739 154.929717 1.48 0.2160
Tests of Hypotheses Using the Anova MS
for multiple(reagent) as an Error Term
Source DF Anova SS Mean Square F Value Pr > F
reagent 3 1295.597384 431.865795 2.79 0.1095
从方程分析结果可知,不同刺激剂(reagent)的显著水平P=0.109 5,套在刺激剂下之稀释倍数(multiple)的显著水平P=0.216 0。
两者都是不显著的。
套设计,归纳成一般格式的方差分析表如下:
变差来源平方和自由度均方 F P
刺激剂 1 295.597 384 3 431.865 795 2.79 0.109 5 倍数(刺激剂) 1 239.437 739 8 154.929 717 1.48 0.216 0 误差 2 511.056 137 24 104.627 339
12.5为了研究不同稀释剂对活菌数的影响,设计了下述实验[85]:吸取制备好的菌液,分别加入8种稀释剂中,每种1 mL,控制各稀释剂中含菌量约为50 cfu/mL。
在0,1,2,3,4,5小时,从每一稀释剂中取1 mL倾入一个平皿内,再取1 mL倾入另一个平皿内。
加入45℃营养琼脂培养基20 mL,于34℃培养48 h,计数。
请同学们分析一下,这是哪一种实验设计?有没有更好的设计方法?
答:根据作者的初衷,本实验应当是一个裂区设计,目的是研究不同稀释剂对活菌数的影响。
根据裂区实验设计的特点,放在次区的因素检验效率更高,故主因素应当放在次区。
根据裂区设计的这个特点,更理想的设计是把时间放在主区,在每一时间下,配制8种稀释剂。
这样安排虽然增加了实验工作量,但得到的信息更可靠。
12.6试验采用六种密度(A,B,C,D,E,F)和四个年份(1996-1999)观察湿地
松树高(cm)生长情况[86]。
以下是引用的部分原文内容:
A市密度试验,采用随机区组排列,设6个密度处理,即1 m×1.5 m,1.5 m×2 m,2 m×2 m,2 m×2.5 m,2 m×3 m,2.5 m×3 m分别用A,B,C,D,E,F表示,4次重复,小区面积600 m2。
A市B镇C村6个不同密度处理的试验林4年的树高调查观测资料见下表。
A市密度试验林树高生长情况表
区组年度
小区
A B C D E F
I 1996 39.03 43.54 41.96 45.96 43.27 41.75 1997 83.5 90.5 99.5 81.5 85.2 84.8 1998 1.34 1.29 1.93 1.42 1.25 1.16 1999 2.20 2.10 2.0 2.0 1.4 1.9
II 1996 43.64 40.90 40.25 49.33 41.87 45.80 1997 83.8 95.0 90.0 104.5 87.5 94.2 1998 1.51 1.37 1.51 1.56 1.25 1.35 1999 1.7 2.0 2.2 2.3 1.4 1.7
III 1996 42.84 42.13 46.31 43.41 41.44 47.83 1997 81.1 82.3 92.2 90.1 77.3 99.2 1998 1.66 1.42 1.25 1.32 1.45 1.26 1999 2.1 2.3 2.2 2.1 1.9 2.1
IV 1996 39.24 38.22 43.28 38.36 37.39 39.55 1997 74.9 67.2 78.3 75.9 63.8 86.2 1998 1.31 1.41 1.34 1.30 1.05 1.44 1999 2.1 2.2 1.9 1.9 1.9 2.1
平均1996 41.19 41.20 42.95 44.27 40.99 43.73 1997 80.83 83.75 90.0 88.0 78.45 91.1 1998 1.46 1.37 1.51 1.40 1.25 1.30 1999 2.03 2.15 2.08 2.08 1.05 1.95
注:1996-1998年单位为cm,1999年单位为m。
“ A市密度试验林树高方差分析表
年度
方差分析结果
离差来源平方和自由度均方均方比(F) 组间41.794 61 5 8.358 92
0.845 9
1996 组内177.862 67 18 9.881 26
总的219.657 29 23
注:另三个年度与1996年的分析方法完全一样,这里只引用了1996年一个年度的分析结果。
请读者考虑对于以上数据,是否有更好的处理方法。
答:1.试验采用随机区组设计,但没有给出区组的排列,仅仅给出了4次重复。
2.在第1个表中将4个年度作为1个区组是不合适的。
根据区组的定义,区组内的条件应当是尽量一致的,不同年份间的条件差别是很大的,不能作为一个区组。
3.第1个表的“注”里1998年的单位也应当是“m”。
4.第2个方差分析表,并未采用随机区组方差分析方法处理数据,在方差分析表中未出现“区组”项。
5.表4是按完全随机化设计方法处理的数据,但不知在设计试验时是否在7个密度和4次重复间进行了完全随机化。
作为一个随机化完全区组设计,以年度作为区组会更合理一些。
因为在一个年度内的自然条件是一致的(前提是土壤条件一致),符合区组的要求。
虽然在年度间不能将密度进行随机化,但只要土壤条件一致,这点还是允许的。
每一个年度内有4次重复,由于增加了
重复次数,即增加了误差自由度,使密度间的差异更容易检验出来。
下表是按年度整理出的结果,表中的数据为树的(cm)。
年度重复
密度/(株·600m-2)
A B C D E F
1996 1 39.03 43.54 41.96 45.96 43.27 41.75
2 43.64 40.90 40.25 49.3
3 41.87 45.80
3 高度
42.84 42.13 46.31 43.41 41.44 47.83
4 39.24 38.22 43.28 38.36 37.39 39.55
1997 1 83.5 90.5 99.5 81.5 85.2 84.8
2 83.8 95.0 90.0 104.5 87.5 94.2
3 81.1 82.3 92.2 90.1 77.3 99.2
4 74.9 67.2 78.3 75.9 63.8 86.2 1998 1 134 129 193 142 12
5 116
2 151 137 151 156 125 135
3 166 142 125 132 145 126
4 131 141 134 130 10
5 144
1999 1 220 210 200 200 140 190
2 170 200 220 230 140 170
3 210 230 220 210 190 210
4 210 220 190 190 190 210 以年度作为区组进行方差分析的程序和结果如下:
options linesize=76 nodate;
data nested;
do block=1 to 4;
do density=1 to 6;
do rep=1 to 4;
infile 'e:\data\er12-6e.dat';
input height @@;
output;
end;
end;
end;
proc anova;
class block density;
model height=block density;
run;
The SAS System
The ANOVA Procedure
Class Level Information
Class Levels Values
block 4 1 2 3 4
density 6 1 2 3 4 5 6
Number of observations 96
The SAS System
The ANOVA Procedure
Dependent Variable: height
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 8 332867.0928 41608.3866 192.60 <.0001
Error 87 18794.9323 216.0337
Corrected Total 95 351662.0251
R-Square Coeff Var Root MSE height Mean
0.946554 12.65395 14.69809 116.1542
Source DF Anova SS Mean Square F Value Pr > F
block 3 328678.8075 109559.6025 507.14 <.0001
density 5 4188.2853 837.6571 3.88 0.0032
从方差分析结果可以得知,密度间F值的显著性概率P=0.003 2,P<0.01。
因此,不同密度的株高差异极显著。
归纳成一般格式的方差分析表如下:
变差来源平方和自由度均方 F P
区组328 678.807 5 3 109 559.602 5 507.14 <0.000 1
密度 4 188.285 3 5 837.657 1 3.88 0.003 2
误差18 794.932 3 87 216.033 7
总和351 662.025 1 95
12.7为了研究喷洒生物有机肥“垦易”对人参地上部分生长的影响,设计了以下试验[87](摘录原文):
试验地点:A研究所试验基地,六年生人参地块。
试验方法:小区面积10m2,随机排列三次重复。
设喷洒生物有机肥“垦易”200倍(A),400倍(B),800倍(C),和喷清水对照(D)四个处理。
不同处理对人参茎粗(cm)的影响
重复
处理
A B C D
1 0.713
2 0.807 2 0.694 6 0.632 4
2 0.705 0 0.784 8 0.681 9 0.647 2
3 0.686 0 0.766 8 0.656 2 0.638 2
人参茎粗方差分析表
变异来源df SS MS F F0.05 F0.01 重复 2 0.001 4 0.000 7 7 5.14 10.92 处理 3 0.035 0 0.011 7 117 4.96 9.78 误差 6 0.000 6 0.000 1
总变异11
首先分析这是一个什么试验设计,重复可以作为区组吗?区组可以作为重复吗?为什么?如果以重复作为一个因素与重复仅仅是一个简单的重复试验,对方差分析结果会有什么不同?列出相应的两种方差分析表。
答:从试验方法的叙述,“随机排列三次重复”,很明显这是一个完全随机化设计。
完全随机化设计方差分析的变差来源,只有“处理”(组间)和“误差”(组内)。
然而,在第2个
表中,除上述两项外还有“重复”项。
在完全随机化设计中,误差就是由重复得到的,这两项应是同一个变差来源,不能分成两项。
如果“重复”是由区组引起的,还可以接受(严格来说应称为“区组”)。
但试验并未设置区组,使人茫然不知“重复”所云为何。
完全随机化设计要求全部试验材料(a×n个)都是同质的,如果同质性不能得到满足,至少每一组处理(a个)也必须是同质的,构成一个区组。
n个重复构成n个区组。
这样做的目的是为了在不具同质性的情况下,从总的平方和中分解出一部分可控的平方和(区组平方和),减少误差平方和,提高试验的有效性。
本例,试验设计中并未安排区组,武断地从从误差平方和中分出一个区组平方和是没有根据的,应将区组平方和归还给误差平方和,也就是将两个平方和合并,作为误差平方和。
下面将武断得出的“随机化完全区组”设计的方差分析表和完全随机化设计的方差分析表列出,比较两者的异同。
下表(1)是按“随机化完全区组”设计计算的。
根据上面第1个表所给出的数据,以A1B1C1D1为一区组,A2B2C2D2为1区组,依此类推。
由于重复的三个水平是可以随机组合的,故下述结果不是唯一的。
(表1)按“随机化完全区组”设计计算:
The SAS System
The SAS System
The ANOVA Procedure
Dependent Variable: height
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 5 0.03622465 0.00724493 57.76 <.0001
Error 6 0.00075258 0.00012543
Corrected Total 11 0.03697722
R-Square Coeff Var Root MSE height Mean
0.979648 1.597364 0.011200 0.701125
Source DF Anova SS Mean Square F Value Pr > F
block 2 0.00133276 0.00066638 5.31 0.0470
treat 3 0.03489188 0.01163063 92.73 <.0001
显然,题干的方差分析表是按随机区组计算的,表中的“重复”即区组项。
在该表之前已经说过,由于试验并未设置区组,只是简单的三次重复。
因此,三次重复间是可以随机组合的,区组的排列不是唯一的,方差分析表也不是唯一的。
这样随意搞出一个区组是绝对不允许的,其结果没有意义。
(2)按完全随机化设计计算:
The SAS System
The ANOVA Procedure
Dependent Variable: thick
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 3 0.03489188 0.01163063 44.62 <.0001
Error 8 0.00208534 0.00026067
Corrected Total 11 0.03697722
R-Square Coeff Var Root MSE thick Mean
0.943605 2.302756 0.016145 0.701125
Source DF Anova SS Mean Square F Value Pr > F
treat 3 0.03489188 0.01163063 44.62 <.0001
由以上数据可知(2)与(1)的处理项的平方和SS处理(1)=SS处理(2)=0.034 891 88,但误差平方和不同。
SS E(2)=0.00208534,而SS E(1)=0.000 752 58。
SS E(1)< SS E(2)。
究其原因是,(1)的误差项从(2)的误差项中分出一个区组项,即:SS E(2)=SS E(1)+SS区组。
如果试验设置了区组这样是很好的,减小了误差平方和,提高了F值,使处理更容易达到显著。
但本试验并未设置区组,这样做便没有道理了。
应采用完全随机化设计。
归纳成一般格式的方差分析表如下:
变差来源平方和自由度均方 F P
处理0.034 891 88 3 0.011 630 63 44.62 <0.000 1
误差0.002 085 34 8 0.000 260 67
总和0.036 977 22 11
12.8为了研究生物菌肥对西洋参生长的功效,选择了三个处理。
处理1为液体菌肥,处理2 为固体菌肥,处理3为空白对照。
采用单因素随机区组设计,小区面积为3 m2。
西洋参地上部分调查结果[88]/cm
区组
叶长叶宽株高
处理1 处理2 处理3 处理1 处理2 处理3 处理1 处理2 处理3
Ⅰ9.9 9.6 9.3 5.8 5.7 5.5 11.7 11.5 11.4 Ⅱ9.7 9.5 9.0 5.9 5.7 5.3 11.8 11.6 11.2 Ⅲ9.5 9.7 9.1 5.7 5.6 5.2 11.9 11.7 11.5
对叶长、叶宽和株高分别做方差分析,若处理间的差异显著还要做多重比较。
答:结果如下:
options linesize=76 nodate;
data incw;
do block=1 to 3;
do treat=1 to 3;
input length @@;
output;
end;
end;
cards;
;
run;
proc anova;
class block treat;
model length = block treat;
means length / duncan;
run;
(1)叶长:
The SAS System
The ANOVA Procedure
Dependent Variable: length
Sum of
Source DF Squares Mean Square F Value Pr > F Model 4 0.61777778 0.15444444 7.94 0.0347 Error 4 0.07777778 0.01944444
Corrected Total 8 0.69555556
R-Square Coeff Var Root MSE length Mean
0.888179 1.471266 0.139443 9.477778
Source DF Anova SS Mean Square F Value Pr > F block 2 0.06888889 0.03444444 1.77 0.2812 treat 2 0.54888889 0.27444444 14.11 0.0154 The SAS System
The ANOVA Procedure
Duncan's Multiple Range Test for length
NOTE: This test controls the Type I comparisonwise error rate, not the
experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 4
Error Mean Square 0.019444
Number of Means 2 3
Critical Range .3161 .3230
Means with the same letter are not significantly different.
Duncan Grouping Mean N treat
A 9.7000 3 1
A
A 9.6000 3 2
B 9.1333 3 3
方差分析表明,叶长在α=0.05水平上显著。
多重比较指出,在α=0.05水平上,处理1和处理2之间差异不显著;处理3分别与处理1和处理2之间差异显著。
(2)叶宽:
The SAS System
The ANOVA Procedure
Dependent Variable: wide
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 4 0.39333333 0.09833333 14.75 0.0116 Error 4 0.02666667 0.00666667
Corrected Total 8 0.42000000
R-Square Coeff Var Root MSE wide Mean
0.936508 1.458030 0.081650 5.600000
Source DF Anova SS Mean Square F Value Pr > F block 2 0.04666667 0.02333333 3.50 0.1322 treat 2 0.34666667 0.17333333 26.00 0.0051 The SAS System
The ANOVA Procedure
Duncan's Multiple Range Test for length
NOTE: This test controls the Type I comparisonwise error rate, not the
experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 4
Error Mean Square 0.006667
Number of Means 2 3
Critical Range .1851 .1891
Means with the same letter are not significantly different.
Duncan Grouping Mean N treat
A 5.80000 3 1
A
A 5.66667 3 2
B 5.33333 3 3
方差分析表明,叶宽在α=0.01水平上显著。
多重比较指出,在α=0.05水平上,处理1和处理2之间差异不显著;处理3分别与处理1和处理2之间差异显著。
(3)株高:
The SAS System
The ANOVA Procedure
Dependent Variable: height
Sum of
Source DF Squares Mean Square F Value Pr > F Model 4 0.33777778 0.08444444 10.86 0.0201 Error 4 0.03111111 0.00777778
Corrected Total 8 0.36888889
R-Square Coeff Var Root MSE height Mean
0.915663 0.761002 0.088192 11.58889
Source DF Anova SS Mean Square F Value Pr > F block 2 0.05555556 0.02777778 3.57 0.1289
treat 2 0.28222222 0.14111111 18.14 0.0099 The SAS System
The ANOVA Procedure
Duncan's Multiple Range Test for length
NOTE: This test controls the Type I comparisonwise error rate, not the
experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 4
Error Mean Square 0.007778
Number of Means 2 3
Critical Range .1999 .2043
Means with the same letter are not significantly different.
Duncan Grouping Mean N treat
A 11.80000 3 1
B 11.60000 3 2
C 11.36667 3 3
方差分析表明,株高在α=0.01水平上显著。
多重比较指出,在α=0.05水平上,处理1和处理2分别与处理3之间差异均显著。
12.9用9种药物喷洒甘薯,期望从中选出一种杀灭小象甲的最佳药物[89]。
下面引用部分原文说明试验设计方法:
……共10个处理,重复3次,共30个小区,随机排列,每小区面积45 m2(3m×15m),小区间设1m 保护行
……关于数据分析的原文如下:
甘薯收获时(2005年1月11-12日)调查各小区薯块被害数,计算薯块被害率及防效,防效(% )=(对照组受害率−处理组受害率) /对照组受害率,调查数据采用Excel 97自带分析,工具库进行方差分析并用Duncans'法进行差异显著性测定。
得到的防效(%)如下:
重复
处理
ⅠII ⅢⅣⅤⅥⅦⅧⅨ
1 85.00 90.48 86.76 72.53 81.57 65.90 89.40 86.2
2 87.41
2 80.15 79.62 69.05 65.18 86.11 62.57 88.21 82.31 80.79
3 82.35 67.89 57.83 85.29 93.46 51.09 84.50 89.93 89.69 原文方差分析表如下:
方差分析表
变异来源df(自由度) SS(平方和) MS(均方) F值
显著水平0.05 0.01
处理间8 2 086.21 260.78 4.14 2.59 3.89
重复间 2 168.85 84.43 1.34 3.63 6.23 误差16 1 006.99 62.94
总计26 3 262.05
在这项研究中,重复可以作为一个因素吗?为什么?在上面的处理中有些重复之间的差距很大,在重复之间为什么会有这么大的差距,是什么原因造成的?重复间差距过大的后果是什么?如果把重复作为一个因素会对方差分析的结果产生什么影响?同学们可以分别按完全随机化设计和两因素交叉分组设计做方差分析,然后比较两个方差分析表,并对表中的结果做解释。
答:关于“重复”的问题,本题与第7题情况类似。
试验没有设置区组,但在处理数据时却出现了“重复”这样一个因素,这是没有道理的。
关于这个问题已经讲了很多,不再重复。
重复间的数据差距过大,多数是由于条件的不一致或操作的不严格造成的。
在完全随机化试验中,误差是由重复估计的,重复间的差距过大,会使误差均方加大,在用误差均方检验处理效应时,由于过大的误差均方,有可能使本来存在的效应检验不出来。
在上面引用的方差分析表中,作者可能是将重复作为区组对待的,也可能是作为一个因素对待的,将重复作为一个区组对待和作为一个因素对待,在实验设计上是截然不同的。
但在数据处理的方法上是一样的。
下面就本题所给出的数据,经反正弦变换后,分别按两因素交叉分组设计和完全随机化设计处理数据。
(1)按两因素交叉分组设计计算:
options linesize=76 nodate;
data spotato;
do repetit=1 to 3;
do treat=1 to 9;
infile 'e:\data\er12-9e.dat';
input y @@;
efficy=arsin(sqrt(y/100))*180/3.14159265;
output;
end;
end;
run;
proc anova;
class repetit treat;
model efficy = repetit treat;
run;
(1)
The SAS System
The ANOVA Procedure
Class Level Information
Class Levels Values
repetit 3 1 2 3
treat 9 1 2 3 4 5 6 7 8 9
Number of observations 27
The SAS System
The ANOVA Procedure
Dependent Variable: efficy
Sum of
Source DF Squares Mean Square F Value Pr > F Model 10 1039.382838 103.938284 3.29 0.0166 Error 16 504.906144 31.556634
Corrected Total 26 1544.288982
R-Square Coeff Var Root MSE efficy Mean
0.673049 8.829797 5.617529 63.62014
Source DF Anova SS Mean Square F Value Pr > F repetit 2 81.1431435 40.5715718 1.29 0.3035 treat 8 958.2396941 119.7799618 3.80 0.0111
(2)按完全随机化设计计算:
options linesize=76 nodate;
data spotato;
do repetit=1 to 3;
do treat=1 to 9;
infile 'e:\data\er12-9e.dat';
input y @@;
efficy=arsin(sqrt(y/100))*180/3.14159265;
output;
end;
end;
run;
proc print; run;
proc anova;
class treat;
model efficy = treat;
run;
(2)
The SAS System
The ANOVA Procedure
Class Level Information
Class Levels Values
treat 9 1 2 3 4 5 6 7 8 9
Number of observations 27
The SAS System
The ANOVA Procedure
Dependent Variable: efficy
Sum of
Source DF Squares Mean Square F Value Pr > F Model 8 958.239694 119.779962 3.68 0.0103 Error 18 586.049288 32.558294
Corrected Total 26 1544.288982
R-Square Coeff Var Root MSE efficy Mean
0.620505 8.968839 5.705988 63.62014
Source DF Anova SS Mean Square F Value Pr > F
treat 8 958.2396941 119.7799618 3.68 0.0103
比较表1和表2,可以看出,SS误差(1)<SS误差(2),所少的部分刚好是SS重复的部分。
换句话说,表1无缘由地从误差平方和中拿出一部分,构成了重复平方和。
这样减少了误差平方和,使处理效应容易达到显著,但这样做是没有道理的。
究竟如何处理数据,是由实验设计决定的,采用哪一种方式设计的实验,一定要用与实验设计相应的数据处理方法分析数据。
表1与作者的结果不同的原因,是由于原作者没有进行平方根变换造成的。
应采用完全随机化设计,归纳成一般格式的方差分析表如下:
变差来源平方和自由度均方 F P
处理958.239 694 8 119.779 961 8 3.68 0.010 3
误差586.049 288 18 32.558 294
总和1 544.288 982 26
12.10研究不同处理对毛竹株数增长率的影响,采用3×3拉丁方设计,三个处理分别为:A:对照;B:每公顷穴施N,P混合肥150 kg;C:每株施“富神”毛竹营养液5 mL。
各处理的株数增长率如下表[90]:
列
1 2 3
1 70.6(C)28.4(A)39.5(B)
行 2 50.8(B)66.1(C)49.2(A)
3 31.8(A)48.7(B)54.1(C)
对上述结果进行方差分析。
答:程序和结果如下:
options linesize=76 nodate;
data bamboo;
infile 'e:\data\er12-10e.dat';
input row column treat increase @@;
run;
proc anova;
class row column treat;
model increase=row column treat;
run;
The SAS System
The ANOVA Procedure
Class Level Information
Class Levels Values
row 3 1 2 3
column 3 1 2 3
treat 3 1 2 3
Number of observations 9
The SAS System
The ANOVA Procedure
Dependent Variable: increase
Sum of
Source DF Squares Mean Square F Value Pr > F Model 6 1351.433333 225.238889 1.82 0.3956 Error 2 247.006667 123.503333
Corrected Total 8 1598.440000
R-Square Coeff Var Root MSE increase Mean
0.845470 22.77296 11.11321 48.80000
Source DF Anova SS Mean Square F Value Pr > F row 2 196.580000 98.290000 0.80 0.5568 column 2 23.146667 11.573333 0.09 0.9143 treat 2 1131.706667 565.853333 4.58 0.1792
从方差分析结果看,行、列和处理均不显著。
归纳成一般格式的方差分析表如下:
变差来源平方和自由度均方 F P 行196.580 000 2 98.290 000 0.80 0.556 8
列23.146 667 2 11.573 333 0.09 0.914 3 处理 1 131.706 667 2 565.853 333 4.58 0.179 2
误差247.006 667 2 123.503 333
总和1 598.440 000 8
12.11研究黄芪水煎工艺,设计了三个因素,每因素三个水平,见下表:
水平提取次数(A) 加溶媒倍数(B) 提取时间/h(C)
1 2 4.5 0.5
2 3 9.0 1.0
3 4 13.5 2.0
选用L18(37)正交表,A因素排在第一列,B因素排在第二列,C因素排在第五列。
实验结果是黄芪甲甙含量(mg),按实验号列在下表中[91]:
实验号 1 2 3 4 5 6 7 8 9
结果18.71 23.42 16.99 29.25 17.42 22.54 22.52 26.20 30.27
实验号10 11 12 13 14 15 16 17 18
结果12.89 21.23 23.88 18.44 21.31 15.84 19.52 19.54 18.11
对上述正交实验结果进行方差分析。
答:首先根据L18(37)正交表的第1,2,5列的水平组合建立外部数据文件,或在CARDS 语句后输入数据行。
为了直观起见,我们采用在作业流中输入。
程序和结果如下:options linesize=76 nodate;
data tech;
input A B C content @@;
cards;
1 1 1 18.71 1
2 2 23.42 1
3 3 16.99 2 1 2 29.25 2 2 3 17.42
2 3 1 22.54 3 1 3 22.52 3 2 1 26.20 3 3 2 30.27 1 1 2 12.89
1 2 3 21.23 1 3 1 23.88 2 1 1 18.44 2 2 2 21.31 2 3 3 15.84
3 1 3 19.52 3 2 1 19.5
4 3 3 2 18.11
;
run;
proc anova;
class A B C;
model content=A B C;
run;
The SAS System
The ANOVA Procedure
Class Level Information
Class Levels Values
A 3 1 2 3
B 3 1 2 3
C 3 1 2 3
Number of observations 18
The SAS System
The ANOVA Procedure
Dependent Variable: content
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 6 78.3304667 13.0550778 0.54 0.7701
Error 11 267.4523778 24.3138525
Corrected Total 17 345.7828444
R-Square Coeff Var Root MSE content Mean
0.226531 23.47555 4.930908 21.00444
Source DF Anova SS Mean Square F Value Pr > F
A 2 30.58631111 15.29315556 0.63 0.5513
B 2 5.69967778 2.84983889 0.12 0.8905
C 2 42.04447778 21.02223889 0.86 0.4480
从F的显著水平可以得知,A,B,C三个因素都是不显著因素。
归纳成一般格式的方差分析表如下:
变差来源平方和自由度均方 F P
A 30.586 311 11 2 15.293 155 56 0.63 0.551 3
B 5.699 677 78 2 2.849 838 89 0.12 0.890 5
C 42.044 477 78 2 21.022 238 89 0.86 0.448 0
误差267.452 377 8 11 24.313 852 5
总和345.782 844 4 17
12.12研究除草剂“果尔”不同浓度的除草效果,设计一随机区组试验。
共设三个区组,每一区组内含三个处理,处理为“果尔”不同浓度的药土:A:0 mL/亩,B:30 mL/亩和C:70 mL/亩。
(注:1亩=666.7 m2)试验排列为:
区组处理
Ⅰ A B C
Ⅱ C A B
Ⅲ B C A 调查每一小区的杂草株数,结果如下[92]:
处理
区组ⅠⅡⅢ
A 9 34 56
B 3 7 5
C 3 5 3
分析上述结果,小区内的杂草株数是服从泊松分布的随机变量。
答:与第7题和第9题不同,本试验设置了区组,必须按随机化完全区组处理。
因为观测值是服从泊松分布的随机变量,所以对数据要做平方根变换。
程序不再给出,结果如下:
The SAS System
The ANOVA Procedure
Class Level Information
Class Levels Values
block 3 1 2 3
treat 3 1 2 3
Number of observations 9
The SAS System
The ANOVA Procedure
Dependent Variable: number
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 4 27.89576601 6.97394150 4.62 0.0838
Error 4 6.03979789 1.50994947
Corrected Total 8 33.93556390
R-Square Coeff Var Root MSE number Mean
0.822022 38.63030 1.228800 3.180923
Source DF Anova SS Mean Square F Value Pr > F
block 2 4.83003279 2.41501640 1.60 0.3087
treat 2 23.06573322 11.53286661 7.64 0.0431
从上述方差分析结果可以得知,处理的效应是显著的。
如果未做平方根变换,则处理效应不显著(结果没有给出),可见对数据进行变换的重要性。
归纳成一般格式的方差分析表如下:
变差来源平方和自由度均方 F P
区组 4.830 032 79 2 2.415 016 40 1.60 0.3087
处理23.065 733 22 2 11.532 866 61 7.64 0.0431
误差 6.039 797 89 4 1.509 949 47
总和33.935 563 90 8
12.13下面是从一项研究中摘录的部分叙述及数据[93]。
试验设计本试验采用随机区组设计…… 1992年春盆栽,选择规格一致的花盆,每树种草种各种40株,出苗后3.5个月开始试验工作,各随机选择30盆参试,按设计要求,以2株为小区进行排列,放入各自的试验区……耐阴试验:把参试材料放在三个光照环境中,即无光照(光照强度450 lx)、半光照(光照强度4 500~8 000 lx)和全光照(光照强度8 000~12 000 lx);实验结果与分析…… 12个草种树种耐阴特性分析通过试验研究,获得了12个树种草种的耐阴极限值,即树种草种的耐阴时间列入表中。
根据上述统计方法同样得方差分析表9……
12个树种草种耐阴极限值试验结果 /d
种类 1 2 3
刺槐68.0 68.0 56.0
黄荆87.0 79.0 85.0
枣树89.0 93.0 87.0
黄栀子128.0 129.0 128.0
银杏115.0 111.0 119.0
木荷105.0 107.0 100.0
黄豆75.0 79.0 77.0
油茶109.0 105.0 108.0
樟树98.0 101.0 99.0
生姜112.0 112.0 111.0
板栗74.0 70.0 69.0
湿地松95.0 90.0 92.0
耐阴方差分析表
因子自由度离差平方和均方值 /×10临界值检验结果
A 2 24.000 12.00 1.701 4 3.44 *
B 11 19 868.75 1806.25 1.701 4 2.26 *
剩余22 0.000 000 0.00000
总和35 19 892.75
注:α=0.05。
请同学们分析一下,该试验设计和对数据的处理上存在哪些问题?并请同学们根据文中所给出的试验数据,按文中的设计重新进行方差分析,检验误差平方和是否为0。
答:该试验问题有:(1)试验设计描述不清。
①试验采用随机区组设计,区组是怎样安排的?怎样随机化的?在随后的叙述中得知,三个光照环境是三个区组,这样设置区组是不合理的,三个光照环境应当是光照这一因素的三个水平。
②1992年春盆栽……每树种草种各种40株……各随机选择30盆参试,每盆种几株?每盆种1株还是种40株?
③以两株为小区进行排列,放入各自的试验区,两株是几盆?排列什么?各自的试验区在哪里?
④把参试材料放在三个光照环境中,怎么放?每一种材料放多少株?
⑤即树种草种的耐阴时间,耐阴时间的终止指标是什么?植株死亡?叶绿素含量降到阈值以下?还是其它什么?
(2)即使三个光照条件算三个区组,一眼看上去便发现,方差分析也是错误的。
方差分析表中的“剩余”项应当是“误差”,误差均方为0(不太可能!)。
A因素和B因素都是用误差检验的,误差为0,0能作分母吗?它的商无意义。
然而表中却给出了F值。
本题的程序和结果如下:
options linesize=76 nodate;
data incw;
infile 'e:\data\er12-13e.dat';
do B=1 to 12;
do A=1 to 3;
input days @@;
output;
end;
end;
run;
proc anova;
class A B;
model days=A B ;
run;
The SAS System
The ANOVA Procedure
Class Level Information
Class Levels Values
A 3 1 2 3
B 12 1 2 3 4 5 6 7 8 9 10 11 12
Number of observations 36
The SAS System
The ANOVA Procedure
Dependent Variable: days
Sum of
Source DF Squares Mean Square F Value Pr > F Model 13 12218.61111 939.89316 88.89 <.0001 Error 22 232.61111 10.57323
Corrected Total 35 12451.22222
R-Square Coeff Var Root MSE days Mean
0.981318 3.412811 3.251651 95.27778
Source DF Anova SS Mean Square F Value Pr > F
A 2 24.05556 12.02778 1.14 0.3387
B 11 12194.55556 1108.59596 104.85 <.0001
归纳成一般格式的方差分析表如下:
变差来源平方和自由度均方 F P
A 24.055 56 2 12.027 78 1.14 0.338 7
B 12 194.555 56 11 1 108.595 96 104.85 <0.000 1
误差232.611 11 22 10.573 23
总 和 12 451.222 22 35
从该方差分析表可以得出:A 因素是不显著的,B 因素是极显著的。
根据自由度可以判断:A 因素是三种光照环境,B 因素是12个物种。
误差均方不等于0,F 值也没有那么高。
12.14 测定纤维比强度,传统方法称为A 方法,(对照),改进的方法称为B 方法。
为判断B 方法是否可以替代A 方法,设计一成组比较实验,所测得的数据如下:
A :74
B :77,60,84,74,68,79,93,66,83
请对以上数据做推断。
答:因为A 方法的样本含量为1,其方差无意义。
(或方法A 无重复,不符合实验设计的基本要求。
) 故本实验设计错误,无法做推断。
12.15 从一未知的总体中随机抽出两个样本,已知:
2.651=x 5.642=x
05.1021=s 29.112
2=s 101=n 202=n
问:用哪一个样本平均数估计总体平均数更可靠?为什么?
答:由题意:002.11=x s 75
.02=x s ,所以用第二个更可靠,因为它的标准误差较小。
( 使用置信区间亦可,置信区间较小者更可靠。
)
12.16 一个有重复的两因素实验方差分析表如下:
变差来源 平方和 自由度
均方 F A 因素 352 8 44 44** B 因素 240 6 40 40** A ×B 192 48 4 4** 误 差 126 126 1 总 和
910
188
注:α=0.05。
根据上述方差分析表得到的结论是:A 因素的9个水平间,B 因素的7个水平间以及A ×B 交互作用的63个水平间的差异是显著的。
可以通过多重比较,选出A ,B 及A ×B 的最优水平。
上述结论是否正确,为什么?
答:正确。
因为由F 值的计算可以得知,该实验为一固定效应模型,根据固定效应模型的特点,可以从显著因素中选出最优水平。
12.17 选择出生后5,6,…,14周的实验动物,每一年龄组内选择3只条件类似的个体,分别注射3种药物 (i =1,2,3),10个年龄组记为:j =1,2,…,10,注射药物后,测定一种可能与年龄有关的蛋白含量的差异是否显著。
得到以下结果:
三种药物平均数的方差 10个年龄组平均数的方差 30个观测值的方差
2⋅i y
s =1.0
2j
y s ⋅=220
2ij
y s =207
这是哪一种实验设计?对该结果做方差分析,列出方差分析表。
答:这是一个随机化完全区组设计,年龄为区组(B ),共10个水平;药物为因素(A ),共3个水平。
误差分别为:
SS A = 1×2×10 = 20
SS B = 220×9×3 = 5 940 SS T = 207×29 = 6 003 SS E = 6 003-5 940-20 = 43
方差分析表
变差来源 平方和 自由度 均方 F 药物(A ) 20 2 10 4.18 区组(B ) 5 940 9 660 误 差 43 18 2.39 总 和 6 003 29 2,9,0.05
12.18 以下是一裂区实验的均方期望,其中区组(因素A )为随机型,主处理(因素B )和次处理(因素C )为固定型,它们的行分量分别以_ i 、_ j 和_ k 表示。
因 素
R F F R 均方期望
a b c l
i j k l 主区 αι
1 b c 1 σ2+bc σ2α
βj
a 0 c 1 σ2+cσ2αβ+acη2β (αβ)i j 1 0 c 1 σ2+cσ2αβ
次区 γκ a b 0 1 σ2+bσ2αγ+acη2γ (αγ)i k
1 b 0 1 σ2+bσ2αγ
(βγ)j k
a 0 0 1 σ2+σ2αβγ+aη2βγ (αβγ)i j k 1 0 0 1 σ2+σ2αβγ
ε(i j k)l
1
1
1
1
σ2(无法估计)
因实验无重复,因而σ2无法估计。
上述哪些因素找不到检验统计量,哪些因素可以找到检
验统计量,怎样检验?
答:因素B ,因素C 和B×C 有检验统计量,其余因素找不到检验统计量。
F 分别为:
ABC BC BC AC
C C AB
B B MS MS F MS MS F MS MS F =
=
=
12.19 我们一再强调,误差是由重复实验估计的。
在无重复两因素交叉分组实验设计中,每一水平组合都没有设置重复。
请解释,对于这样的实验设计,为什么在方差分析表中还能得出误差平方和?
答:虽然每一个水平组合没有重复,但整个实验还是有重复的,只不过重复与水平组合的变换同时进行,表面上看起来似乎没有重复。
例如一个实验有a ×b 个水平组合,实际上它就重复进行了a ×b 次。
从这a ×b 次实验便能估计出实验误差。