双因素无重复试验设计方差分析 (1)
方差分析补充资料2018.5.13 (1)
【方差分析小结】一、 方差分析:方差分析是检验同方差的若干正态母体均值是否相等的一种统计分析方法。
多个正态总体均值之间的比较不宜用t 检验。
二、 方差分析的适用条件:1、 独立性: 观察对象是来自于所研究的各个水平之下的独立随机抽样。
2、 正态性: 每个水平下的总体应服从正态分布。
3、方差齐性:各个水平的总体方差齐。
(说明各组数据波动控制在同一个水平)。
三、 方差分析的原理:将总变异分解为研究因素所造成的部分(组间)和由抽样误差(组内)所造成的部分,即 单因素方差分析:A e SS SS SS +=总. 两因素无重复试验: B A e SS SS SS SS ++=总 两因素有重复试验: B A B A e SS SS SS SS SS ⨯+++=总通过比较来自于不同部分的变异,借助F 分布作出统计推断。
22eS S F 因素=四、单因素方差分析的基本步骤 SPSS 软件操作流程(见视频)1.方差齐性检验: ==22210:σσH若 05.0>p 则方差齐,进行下一步 ; 【注意】若方差不齐(1)请控制试验误差,做好试验数据筛选,适当补充试验数据,再判断方差是否齐; (2)方差不齐时,方差分析结论参看:1)布朗—福赛斯近似方差分析(B-F 法); 2)韦尔奇近似方差分析(W 法);(方差齐性检验下面两个窗口,见视频操作)(3)可以通过数据转换 (平方根转换,对数转换,平方根反正弦转换,平方转换,倒数转换等等,根据具体问题确定转换方法),使转换后数据满足方差齐性;(请慎用 !) (4)选用相应的非参数检验。
2. 方差分析:列方差分析表(三线格,七列). ==210:μμH方差来源 离差平方和 自由度 方差 F 值 显著性 结论 组间 * 组内*:05.0<p ,各水平之间有显著差异,则进行下一步;3.两两比较:按样本均值 由好到差排序,根据试验目的做两两比较,得到目标结果。
j i H μμ=:0【注意】关于两两比较方法的选择 (1).探索性研究:1)各组重复次数相等:Tukey 法(图基法) (q 检验) 2)各组重复次数不相等:Scheffe 法(雪费法)( S 检验) (2).与对照组比较为主的研究:1)Dunnett 法(邓尼特法) (推荐使用)2)Bonferront 法(邦弗仑尼法)(校正的LSD 法) 3)LSD 法 (类似于两两T 检验,假阳性错误较大) (3).其它常用方法:S-N-K 法:(类似于两两T 检验,假阳性错误较大。
双因素试验的方差分析
i 1
j 1
要判断因素A,B及交互作用AB对试验结果是否 有显著影响,即为检验如下假设是否成立:
H01 :1 2 a 0
H02 : 1 2 b 0
H03 : ij 0 i 1, 2, , a; j 1, 2, ,b
➢ 总离差平方和的分解定理 仿单因素方差分析的方法,考察总离差平方和
a
Ti.2
b,
i1
p T 2 ab ,
DB
b
T.
2 j
a,
j1
ab
R
X
2 ij
i1 j1
例1 设甲、乙、丙、丁四个工人操作机器Ⅰ、Ⅱ、Ⅲ各一天, 其产品产量如下表,问工人和机器对产品产量是否有显著 影响?
机器 B 工人 A
ⅠⅡ
Ⅲ
甲
50 63 52
乙
47 54 42
丙
47 57 41
F值
F 值临介值
因素A 因素B
SS A SSB
df A
MS A
SS A df A
FA
MS A MSE
df B
MSB
Байду номын сангаас
SSB df B
FB
MSB MSE
F (a 1 ,
ab n 1) F (b 1 ,
ab n 1)
A B
误差 总和
SS AB
SSE SST
df AB df E dfT
MS AB SS AB
F0.01 3,6 9.78 F0.05 3,6 4.76 F0.01 2,6 10.92
FB F0.01 2,6
结论:工人对产品的产量有显著影响, 机器对产品的产量有极显著影响。
两因素设计
2,4列对调
A B C D
D A B C
C D A B
B C 1,3行对调 D A
C B A D
B A D C
A D C B
D C B A
规定方阵中字母表示某因素的各个水平,定 义行因素和列因素
一般3个因素中有一个最重要的称之为处理因素, 用字母表示 其它两个是需要加以控制的因素,分别用行和列 表示
概念
将三个因素按水平数r排列成一个r×r随机方阵
用r个拉丁字母排成r行r列 每行每列中,每个拉丁字母只出现一次
特点
三个因素 各个因素间无交互作用(或交互作用可忽略不计) 水平数相等,均为r
基本拉丁方
ABC BCA CAB
ABCD BCDA CDAB DABC
ABCDE BCDEA CDEAB DEABC EABCD
1.0
0.7
析因设计factorial desig实验因素的各水平进行组合,对各种 可能的组合都进行实验,探讨各实验因素的主效应 (main effect),以及各因素间的交互作用( interaction)的研究设计类型 不仅要考虑某一种或几种因素的效应,同时经常要 考虑多种因素的联合效应
FB=90.75,P值<0.05,B药的主效应也有统 计意义。
协同作用和拮抗作用
如果有交互作用,则
两个药都用的均数>A药的均数+B药的均数- 两个药都未用的均数(本例即:22>12+21- 11),则称协同作用。 两个药都用的均数<A药的均数+B药的均数- 两个药都未用的均数(本例即:22<12+21- 11),则称拮抗作用。
清华大学 杨虎 应用数理统计课后习题参考答案3
习题五1试检验不同日期生产的钢锭的平均重量有无显著差异?(α=0.05) 解 根据问题,因素A 表示日期,试验指标为钢锭重量,水平为5.假设样本观测值(1,2,3,4)ij y j =来源于正态总体2~(,),1,2,...,5i i Y N i μσ= .检验的问题:01251:,:i H H μμμμ===L 不全相等 .计算结果:表5.1 单因素方差分析表注释: 当=0.001表示非常显著,标记为 ‘***’,类似地,= 0.01,0.05,分别标记为 ‘**’ ,‘*’ .查表0.95(4,15) 3.06F =,因为0.953.9496(4,15)F F =>,或p = 0.02199<0.05, 所以拒绝0H ,认为不同日期生产的钢锭的平均重量有显著差异.2 考察四种不同催化剂对某一化工产品的得率的影响,在四种不同催化剂下分别做试验 试检验在四种不同催化剂下平均得率有无显著差异?(α=0.05)解根据问题,设因素A 表示催化剂,试验指标为化工产品的得率,水平为4 .假设样本观测值(1,2,...,)ij i y j n =来源于正态总体2~(,),1,2,...,5i i Y N i μσ= .其中样本容量不等,i n 分别取值为6,5,3,4 .检验的问题:012341:,:i H H μμμμμ===不全相等 .计算结果:表5.2 单因素方差分析表查表0.95(3,14) 3.34F =,因为0.952.4264(3,14)F F =<,或p = 0.1089 > 0.05,所以接受0H ,认为在四种不同催化剂下平均得率无显著差异 .3 试验某种钢的冲击值(kg ×m/cm2),影响该指标的因素有两个,一是含铜量A ,另试检验含铜量和试验温度是否会对钢的冲击值产生显著差异?(α=0.05) 解 根据问题,这是一个双因素无重复试验的问题,不考虑交互作用.设因素,A B 分别表示为含铜量和温度,试验指标为钢的冲击力,水平为12.假设样本观测值(1,2,3,1,2,3,4)ij y ij ==来源于正态总体2~(,),1,2,3,ij ij Y N i μσ=1,2,3,4j = .记i α⋅为对应于i A 的主效应;记j β⋅为对应于j B 的主效应;检验的问题:(1)10:i H α⋅全部等于零,11:i H α⋅不全等于零;(2)20:j H β⋅全部等于零,21:j H β⋅不全等于零; 计算结果:表5.3 双因素无重复试验的方差分析表查表0.95(2,6) 5.143F =,0.95(3,6) 4.757F =,显然计算值,A B F F 分别大于查表值,或p = 0.0005,0.0009 均显著小于0.05,所以拒绝1020,H H ,认为含铜量和试验温度都会对钢的冲击值产生显著影响作用.设每个工人在每台机器上的日产量都服从正态分布且方差相同 .试检验:(α=0.05)1)操作工之间的差异是否显著? 2)机器之间的差异是否显著?3)它们的交互作用是否显著?解 根据问题,这是一个双因素等重复(3次)试验的问题,要考虑交互作用.设因素,A B 分别表示为机器和操作,试验指标为日产量,水平为12. 假设样本观测值(1,2,3,1,2,3,4)ijk y i j ==来源于正态总体2~(,),1,2,3,ij ij Y N i μσ= 1,2,3,4j =,1,2,3k = .记i α⋅为对应于i A 的主效应;记j β⋅为对应于j B 的主效应;记ij γ为对应于交互作用A B ⨯的主效应; 检验的问题:(1)10:i H α⋅全部等于零,11:i H α⋅不全等于零; (2)20:j H β⋅全部等于零,21:j H β⋅不全等于零; (3)30:ij H γ全部等于零,31:ij H γ不全等于零;计算结果:表5.4 双因素无重复试验的方差分析表查表0.95(3,24) 3.01F =,0.95(2,24) 3.4F =,0.95(6,24) 2.51F =,计算值 3.01,A F <3.4, 2.51B A B F F ⨯>>,或0.05A p >>,而,B A B p p ⨯均显著小于0.05,所以拒绝2030,H H ,接受10H ,认为操作工之间的差异显著,机器之间的差异不显著,它们之间的交互作用显著 . 5 某轴承厂为了提高轴承圈退火的质量,制定因素水平分级如下表所示因素 上升温度℃ 保温时间(h)出炉温度℃水平1 800 6 400 水平28208500试填好正交试验结果分析表并对试验结果进行直观分析和方差分析 .解 根据题意,这是一个3因素2水平的试验问题 .试验指标为硬度的合格率 .应选择正交表44(2)L 来安排试验,随机生成正交试验表如下:方差来源 自由度 平方和 均方 F 值 P 值 因素A 因素B 相互效应A ×B误差 总和3 2 6 24 352.750 27.167 73.5 41.333 144.750.917 13.583 12.250 1.7220.5323 7.8871 7.11290.6645 0.00233** 0.00192**由此可见第三号试验条件为:上升温度800℃、保温时间6h 、出炉温度500℃ . 直观分析需要计算K 值,计算结果如下:表5.6 计算表直观分析 由计算的K 值知,因素A 、B 、C 的极差分别为70,40,40,因此主次关系为A B C >=,B ,C 相当 .由于试验指标为硬度的合格率,应该是越大越好,所以各确定因素的水平分别是121,,A B C ,即最佳的水平组合是121A B C ,即最佳搭配为:上升温度800℃、保温时间8h 、出炉温度400℃.采用方差分析法,计算得下表:表5.7 方差分析表方差来源平方和 自由度均方差 F 值 A 1225 1 1225 1 B 400 1 400 0.33 C 400 1 400 0.33 误差 1225 1 1225 总和32504如果显著性检验水平取0.1α=,则查表得0.9(1,1)39.9F =,显然计算的F 值1,0.33A B C F F F ===均小于查表值,所以认为三个因素对结果影响都显著 .6问应选用哪张正交表安排试验,并写出第8号试验的条件;如果9组试验结果为(单位:kg/100m 2):62.925,57.075,51.6,55.05,58.05,56.55,63.225,50.7,54.45,试对该正交试验结果进行直观分析和方差分析.解 该问题属于3因素3水平的试验问题,试验指标为水稻产量 .根据题意应选择正交表49(3)L 来安排试验,随机生成正交表如下:由表可知,第8号试验的条件:品种(A 3)珍珠矮11号,插值密度(B 2)3.75棵/100m 2 ,施肥量(C 1)0.75kg/100m 2纯氨; 直观分析需要计算K 值,计算结果如下:表5.9 计算表同上题进行直观分析,得出K 值的大小关系为:111312212223333132,,K K K K K K K K K >>>>>>由直观分析看出:本例较好的水平搭配是:113A B C 采用方差分析法,计算得下表:表5.10 方差分析表方差来源平方和自由度 均方差F 值A 1.759 2 0.879 0.0223B 65.861 2 32.931 0.8361C 6.660 2 3.330 0.0845 误差78.776 239.388 39.3880.9(2,2)9F =,所以认为三个因素对结果影响都不显著.7 在阿魏酸的合成工艺考察中,为了提高产量,选取了原料配比A ,吡啶量B 和反应时间C 三个因素,它们各取了7个水平如下:原料配比A :1.0,1.4,1.8,2.2,2.6,3.0,3.4 吡啶量B :10,13,16,19,22,25,28 反应时间C :0.5,1.0,1.5,2.0,2.5,3.0,3.5试选用合适的均匀设计表安排试验,并写出第7号试验的条件;如果7组试验的结果(收率)为:0.33,0.336,0.294,0.476,0.209,0.451,0.482,试对该均匀试验结果进行直观分析并通过回归分析发现可能更好的工艺条件.解 根据题意选择均匀设计表47(7)U 来安排试验,有3个因素,根据使用表,实验安排如:表5.11 试验安排表6 6 5 4 0.4517 7 7 7 0.482 所以第7号实验的条件为:原配料比3.4,吡啶量28ml,反应时间3.5h.通过直观分析,最好的实验条件是:原配料比3.4,吡啶量28ml,反应时间3.5h. 通过回归分析,最合适的实验条件是:原配料比2.6,吡啶量16ml,反应时间0.5h.习题六1 从某中学高二女生中随机选取8名,测得其升高、体重如下:1 2 3 4 5 6 78身高(cm)160 159 160 157 169 162 165 154体重(kg)49 46 53 41 49 50 48 43在绝对距离下,试用最短距离法和离差平方和法对其进行聚类分析.解由R软件,用最短距离(左)和差离平方和法(右)对题目进行聚类分析如下图6.1,表6.1和表6.2:最短距离法离差平方和法图6.1 聚类树形图表6.1 聚类附表(最短距离法)步骤聚类合并系数首次出现的阶段类别下一步组1 组2 组1 组21 1 6 5.000 0 0 22 1 2 10.000 1 0 43 4 8 13.000 0 0 74 1 7 13.000 2 0 55 1 3 13.000 4 0 66 1 5 17.000 5 0 7表6.2 聚类附表(离差平方和法)2 已知五个变量的距离矩阵为03674012340444401592343331).;2);3)036034022020401000⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭试用最短距离法和最长距离法对这些变量进行聚类,并画出聚类图和二分树.解 针对距离矩阵1),采用两种方法计算如下. ①最短距离法的聚类步骤如下:12345036740159036020w w w w w ⎛⎫ ⎪⎪ ⎪ ⎪⎪⎪⎝⎭a )将()236,1w w f h =合并为一类,,{}11456,,,,H w w w h =距离矩阵如下0743023060⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭{}()457457),,,2b w w h w w f h ==合并为一类,{}2167,,,H w h h =距离矩阵如下:034030⎛⎫ ⎪⎪ ⎪⎝⎭{}()()1681689),,3,3c w h h w h f h f h ===合并为一类,最后,,聚类图和树状图如图6.2:图6.2 聚类图(左)与树状图(右)②最长距离法与最短距离法类似,步骤如下: a )()236,1w w f h =合并为一类,{}11456,,,,H w w w h =距离矩阵如下0746025090⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭ {}(){}4574572167),,,2,,,b w w h w w f h H w h h ===合并为一类,距离矩阵如下:067090⎛⎫⎪⎪ ⎪⎝⎭{}()()1681689),,69c w h h w h f h f h ===合并为一类,最后,,,聚类图和树状图如图6.3:图6.3 聚类图(左)与树状图(右)(2)针对距离矩阵2)012340234034040⎛⎫ ⎪⎪ ⎪ ⎪⎪⎪⎝⎭①最短距离法的聚类步骤如下 a )()216,1w w f h =合并为一类,{}13456,,,,0342043040H w w w h =⎛⎫⎪⎪ ⎪ ⎪⎝⎭距离矩阵如下{}()367367),,,2b w h h w h f h ==合并为一类,{}24567,,,,H w w h h =聚类矩阵如下:043040⎛⎫⎪⎪ ⎪⎝⎭{}(){}()4784789879),,3,,4c w h h w h f h h w h f h ====合并为一类,最后,,聚类图和树状图如图6.4:图6.4 聚类图(左)与树状图(右)②由于本题数据的特殊性,最长距离法与最短距离法结果相同(略). (3)044440333022010⎛⎫ ⎪⎪ ⎪ ⎪⎪⎪⎝⎭最短距离法的聚类步骤如下a ) ()456,1w w f h =合并为一类,{}11236,,,,H w w w h =距离矩阵如下0444033020⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭{}(){}36736724567),,,2,,,,b w h h w h f h H w w h h ===合并为一类,距离矩阵如下:044030⎛⎫⎪⎪ ⎪⎝⎭{}(){}()4784789879),,3,,4c w h h w h f h h w h f h ====合并为一类,最后,,,聚类图和树状图如图6.5:图6.5 聚类图(左)与树状图(右)由于本题数据的特殊性,最长距离法与最短距离法结果相同(略).3 在一项关于作物对土壤营养的反应的研究中,要测定土壤的总磷量和总氮量(占干物质重的百分比),今对10份土样测得数据如下:总氮量(%)0.63 1.19 2.30 1.29 0.73 0.52 0.33 0.61 0.47 0.66在绝对距离下,试用重心法对其进行聚类分析.解由R软件得到重心法聚类分析的结果如图6.6与表6.3:图6.6 聚类树形图表6.3 聚类过程记录表步骤聚类合并系数首次出现的阶段类别下一步组 1 组 2 组 1 组 21 1 8 .001 0 0 22 1 10 .002 1 0 43 6 9 .005 0 0 64 15 .010 2 0 75 2 4 .010 0 0 86 67 .027 3 0 77 1 6 .048 4 6 88 1 2 .459 7 5 99 1 3 2.572 8 0 04 1975年Dagnelie收集了11年的气象数据资料如下表变量年序x1x2x3x4其中:x 1—前一年11月12日的降水量;x 2—7月均温;x 3—7月降雨量;x 4—月日辐射,试对这四个气象因子进行主成分分析. 解 由R 软件分析得到如下表6.4,6.5:表6.4 各主成分的重要性:主成分1 主成分2 主成分3 主成分4 标准差 1.6103349 0.9890848 0.53407741 0.37854199 方差贡献率 0.6482947 0.2445722 0.07130967 0.03582351 累积贡献率0.64829470.89286680.964176491.00000000表6.5 因子荷载:主成分1 主成分2 主成分3 主成分4 X1 0.291 0.871 0.332 -0.214 X2 -0.506 0.425 -0.742 -0.111 X3 0.577 0.136 -0.418 0.688 X4-0.5710.2050.4040.685由于前两个主成分对应的累积贡献率已经达到89.287,因此选取主成分的数目为2.5 对某初中12岁的女生进行体检,测量其身高x 1、体重x 2、胸围x 3和坐高x 4,共测得58个样本,并算得1234(,,,)x x x x x ='的样本协方差为19.9410.5023.566.5919.7120.958.637.97 3.937.55S ⎛⎫ ⎪⎪= ⎪ ⎪ ⎪⎝⎭ 试进行样本主成分分析.解 首先计算样本的相关系数矩阵:10.484410.32240.887210.70330.59760.31251⎛⎫ ⎪ ⎪ ⎪ ⎪⎝⎭设相关系数矩阵的特征值和特征向量分别为d 和v 阵,计算得到0.0546000 0 0.312600= 000.96470 000 2.6681d ⎛⎫ ⎪ ⎪ ⎪ ⎪⎝⎭即四个特征值依次为:2.6681,0.9647,0.3126,0.0546,前两个主成分的累计贡献率为:90.8471%,因此提取主成分为2.四个特征根相应的特征向量为0.06000.70600.5333 0.4620 0.7317 0.17430.34040.5642=0.60570.19320.60400.48060.30690.65870.48460.4870v -⎛⎫ ⎪-⎪ ⎪--- ⎪-⎝⎭ 因此,两个主成分的表达式为:112340.060.73170.60570.3069z x x x x =+-- 212340.7060.17430.19320.6587z x x x x =-+-+6 比较因子分析和主成分分析模型的异同,阐明两者的关系. 解(1)提取公因子的方法主要有主成分法和公因子法.若采取主成分法,则主成分分析和因子分析基本等价,该法从解释变量的变异的角度出发,尽量使变量的方差能被主成分解释;而公因子法主要从解释变量的相关性角度,尽量使变量的相关程度能被公因子解释,当因子分析目的重在确定结构时则用到该法.(2)主成分分析和因子分析都是在多个原始变量中通过他们之间的内部相关性来获得新的变量,达到既减少分析指标个数,又能概括原始指标主要信息的目的.但他们各有其特点:主成分分析是将n 个原始变量提取m 个支配原始变量的公因子,和1个特殊因子,各因子之间可以相关或不相关.(3)统用降维的方法,但差异也很明显:主成分分析把方差划分为不同的正交成分,而因子分析则把方差化分为不同的起因因子;因子分析中的特征值的计算只能从相关系数矩阵出发,且必须把主成分划分为因子.(4)因子分析提取的公因子比主成分分析提取的主成分更具有可解释性.(5)两者分析的实质及重点不同.主成分的数学模型为Y AX =,因子分析的数学模型为X AF ε=+.因而可知主成分分析是实际上是线性变换,无假设检验,而因子分析是统计模型,某些因子模型是可以得到假设检验的;主成分分析主要综合原始数据的信息,而因子分析重在解释原始变量之间的关系.(6)SPSS 数据的实现:两者都通过“analyze data reduction Factor···”过程实现,但主成分分析主要使用“descriptires ”,“extraction ”,“stores ”对话框,而因子分析处使用这些外,还可使用“rotaction ”对话框进行因子旋转.7 试对第4题的变量作因子分析,并将结果和上面的结果进行比较. 解 用SPSS 分析,计算结果如下表6.6-6.8:表6.6 反应压缩比情况表 提取方法: 主成分法计算的相关系数矩阵的特征值和方差贡献率:表6.7 方差解释度提取方法: 主成分法表6.8 主成分矩阵8 为研究某一树种的叶片形态,选取50片叶测量其长度x 1(mm )和宽度x 2(mm ),按样本数据求得其平均值和协方差矩阵为:129048134,92,4845x x S ⎛⎫=== ⎪⎝⎭求出相关系数阵R ,并由R 出发作因子分析;解1)求相关系数矩阵:904810.7303,48900.73031S R ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭ 2)用R 软件求R 的特征根及其相应的特征向量,软件输出结果如下:$values[1] 2.99393809 0.07273809 $vectors[,1] [,2] [1,] 0.7071068 -0.7071068 [2,] 0.7071068 0.7071068122.9939,0.0727,λλ∴==12(),()0.7071,0.7071-0.7071,0.7071T Tηη==3) 求载荷矩阵A :1.22350.19071.22350.1907A -⎛⎫= ⎪⎝⎭4)22121.5333, 1.5333,h h == 0.98810.154*0.98810.154A -⎛⎫= ⎪⎝⎭12121,1,0.3043,0.3043u u v v ===-=,222222000011112,0,()0.9074,20i i iii i i i i i A u B v C u v D u v =========-===∑∑∑∑9 1981年,生物学家Grogan 和Wirth 对两种蠓虫Af 和Apf 根据其触角长度x 1和翼长x 2进行了分类,分类的数据资料如下:Af 1 2 3 4 5 6 7 8 x 1 1.24 1.36 1.38 1.38 1.38 1.40 1.48 1.54 x 2 1.27 1.74 1.64 1.82 1.90 1.70 1.82 1.82 Apf 1 2 3 4 5 6 x 1 1.14 1.18 1.20 1.26 1.28 1.30 x 2 1.78 1.96 1.86 2.00 2.00 1.96 (1)试建立Af 和Apf 的Fisher 判别模型;(2)对样本(1.24,1.80),(1.28,1.84),(1.40,2.04)进行判别分类. 解 (1)建立Fisher 判别模型991122121111(,)(1.42,1.75),(,)(1.23,1.93)99T TT T i i i i i i x x y y μμ======∑∑120.08480.1490.01980.0218,0.1490.39120.02180.039A A ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭12120.0080.0130.0130.0332A A n n ⎛⎫+== ⎪+-⎝⎭∑()120.19,0.18Tμμ-=-,()()121 1.325,1.842T μμ+= 1345.05135.42135.4283.33--⎛⎫= ⎪-⎝⎭∑, 带入Fisher 判别函数 ()12345.05135.42[(,)(1.325,1.84)]0.19,0.18135.4283.33Tx x -⎛⎫-- ⎪-⎝⎭1291.301741.336944.534x x =--(2)把三个样本(1.24,1.80),(1.28,1.84),(1.4,2.04)带入模型,得到结果:三个样本均属于Apf 类.10 在两个玉米品种之间进行判别:137玉米G 1和甜玉米G 2,选取的两个变量是:x 1—玉米果穗长;x 2—玉米果穗直径,两个类的样本容量为n 1=n 2=40,实际算得两个类的样本均值和样本协方差为:121218.5625.348.120 4.4589.661 3.720,,,5.98 4.12 4.458 4.350 3.720 3.410x x S S ⎛⎫⎛⎫⎛⎫⎛⎫==== ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭试建立G 1,G 2的Bayes 类线性判别函数.解 因为已知两类的样本均值和样本协方差为:12(18.56,5.98),(25.34,4.12)T T x x ==,128.120 4.4589.661 3.720,4.458 4.350 3.720 3.410S S ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭可计算得到修正的公共协方差矩阵和逆矩阵12120.2280.1450.1450.0992A A n n ⎛⎫+== ⎪+-⎝⎭∑,15.6393.738.25147.38--⎛⎫= ⎪-⎝⎭∑()()()121216.78,1.86,21.95,5.052TTμμμμ-=-+= 带入Fisher 判别函数()112121(())()2T W x x μμμμ-=-+-∑ ()()12 5.6393.73[(,)21.95,5.05] 6.78,1.868.25147.38Tx x -⎛⎫=-- ⎪-⎝⎭1274.396.951141.29x x =-+-。
进行无重复双因素方差分析
3. 无重复试验的方差分析 例1-3 有交互作用正交试验极差分析结果(P31)
3. 无重复试验的方差分析
3.1 计算偏差平方和及其自由度 (1)保留K值,并计算总平方和。
3. 无重复试验的方差分析 3.1 计算偏差平方和及其自由度 (2)计算
和。
(3)计算偏差平方和及其自由度
(3)计算偏差平方和及其自由度
返回经过定数据点的线性回归拟合线方程的斜率。
调用Excel内部函数slope
调用Excel内部函数intercept
于是得到回归直线方程:
yˆ 2.7393939 0.4830303xˆ
2、利用一个函数求解 LINEST函数的用法:
LINEST(known_y’s, known_x’s, const, stats) 返回一线性回归方程的参数。
(4)为简明起见,将方差分析过程与结果列成方差分析表。 方差分析的目的在于区别不同方差,计算其值并进而寻求它
们间的关系与规律。
2 方差分析方法
2.2 方差分析作用
将方差分析应用于正交设计,主要为了解决如下问题: ①估计试验误差并分析其影响; ②判断试验因素及其交互作用的主次与显著性; ③给出所作结论的置信度; ④确定最优组合及其置信区间。 正交设计的方差分析可以在正交表上直接进行,不必另列方差分
1、使用函数进行求解 2、趋势线法 3、使用“回归分析”分析工具
《概率论与数理统计》—浙江大学第265页例1:
为研究某一化学反应过程中,温度x (℃)对产品得率y (%)的影响,测得数据如下:
温度x(℃ ) 100 得率y(%) 45
110 120 130 140 150 160 170 180 190 51 54 61 66 70 74 78 85 89
应用数理统计课后习题参考答案
习题五1试检验不同日期生产的钢锭的平均重量有无显著差异?(α=0.05) 解 根据问题,因素A 表示日期,试验指标为钢锭重量,水平为5.假设样本观测值(1,2,3,4)ij y j =来源于正态总体2~(,),1,2,...,5i i Y N i μσ= .检验的问题:01251:,:i H H μμμμ===L 不全相等 .计算结果:表5.1 单因素方差分析表注释: 当=0.001表示非常显著,标记为 ‘***’,类似地,= 0.01,0.05,分别标记为 ‘**’ ,‘*’ .查表0.95(4,15) 3.06F =,因为0.953.9496(4,15)F F =>,或p = 0.02199<0.05, 所以拒绝0H ,认为不同日期生产的钢锭的平均重量有显著差异.2 考察四种不同催化剂对某一化工产品的得率的影响,在四种不同催化剂下分别做试验 试检验在四种不同催化剂下平均得率有无显著差异?(α=0.05)解根据问题,设因素A 表示催化剂,试验指标为化工产品的得率,水平为4 .假设样本观测值(1,2,...,)ij i y j n =来源于正态总体2~(,),1,2,...,5i i Y N i μσ= .其中样本容量不等,i n 分别取值为6,5,3,4 .检验的问题:012341:,:i H H μμμμμ===不全相等 .计算结果:表5.2 单因素方差分析表查表0.95(3,14) 3.34F =,因为0.952.4264(3,14)F F =<,或p = 0.1089 > 0.05,所以接受0H ,认为在四种不同催化剂下平均得率无显著差异 .3 试验某种钢的冲击值(kg ×m/cm2),影响该指标的因素有两个,一是含铜量A ,另试检验含铜量和试验温度是否会对钢的冲击值产生显著差异?(α=0.05) 解 根据问题,这是一个双因素无重复试验的问题,不考虑交互作用.设因素,A B 分别表示为含铜量和温度,试验指标为钢的冲击力,水平为12.假设样本观测值(1,2,3,1,2,3,4)ij yi j ==来源于正态总体2~(,),1,2,3,ij ij Y N i μσ=1,2,3,4j = .记i α⋅为对应于i A 的主效应;记j β⋅为对应于j B 的主效应;检验的问题:(1)10:i H α⋅全部等于零,11:i H α⋅不全等于零;(2)20:j H β⋅全部等于零,21:j H β⋅不全等于零; 计算结果:表5.3 双因素无重复试验的方差分析表查表0.95(2,6) 5.143F =,0.95(3,6) 4.757F =,显然计算值,A B F F 分别大于查表值,或p = 0.0005,0.0009 均显著小于0.05,所以拒绝1020,H H ,认为含铜量和试验温度都会对钢的冲击值产生显著影响作用.设每个工人在每台机器上的日产量都服从正态分布且方差相同 .试检验:(α=0.05)1) 操作工之间的差异是否显著? 2) 机器之间的差异是否显著?3) 它们的交互作用是否显著?解 根据问题,这是一个双因素等重复(3次)试验的问题,要考虑交互作用.设因素,A B 分别表示为机器和操作,试验指标为日产量,水平为12. 假设样本观测值(1,2,3,1,2,3,4)ijk y i j ==来源于正态总体2~(,),1,2,3,ij ij Y N i μσ= 1,2,3,4j =,1,2,3k = .记i α⋅为对应于i A 的主效应;记j β⋅为对应于j B 的主效应;记ij γ为对应于交互作用A B ⨯的主效应; 检验的问题:(1)10:i H α⋅全部等于零,11:i H α⋅不全等于零; (2)20:j H β⋅全部等于零,21:j H β⋅不全等于零; (3)30:ij H γ全部等于零,31:ij H γ不全等于零;计算结果:表5.4 双因素无重复试验的方差分析表查表0.95(3,24) 3.01F =,0.95(2,24) 3.4F =,0.95(6,24) 2.51F =,计算值 3.01,A F <3.4, 2.51B A B F F ⨯>>,或0.05A p >>,而,B A B p p ⨯均显著小于0.05,所以拒绝2030,H H ,接受10H ,认为操作工之间的差异显著,机器之间的差异不显著,它们之间的交互作用显著 . 5 某轴承厂为了提高轴承圈退火的质量,制定因素水平分级如下表所示因素 上升温度℃ 保温时间(h)出炉温度℃水平1 800 6 400 水平28208500试填好正交试验结果分析表并对试验结果进行直观分析和方差分析 .解 根据题意,这是一个3因素2水平的试验问题 .试验指标为硬度的合格率 .应选择正交表44(2)L 来安排试验,随机生成正交试验表如下:方差来源 自由度 平方和 均方 F 值 P 值 因素A 因素B 相互效应A ×B误差 总和3 2 6 24 352.750 27.167 73.5 41.333 144.750.917 13.583 12.250 1.7220.5323 7.8871 7.11290.6645 0.00233** 0.00192**由此可见第三号试验条件为:上升温度800℃、保温时间6h 、出炉温度500℃ . 直观分析需要计算K 值,计算结果如下:直观分析 由计算的K 值知,因素A 、B 、C 的极差分别为70,40,40,因此主次关系为A B C >=,B ,C 相当 .由于试验指标为硬度的合格率,应该是越大越好,所以各确定因素的水平分别是121,,A B C ,即最佳的水平组合是121A B C ,即最佳搭配为:上升温度800℃、保温时间8h 、出炉温度400℃.采用方差分析法,计算得下表:表5.7 方差分析表方差来源平方和 自由度 均方差 F 值 A 1225 1 1225 1 B 400 1 400 0.33 C 400 1 400 0.33 误差 1225 1 1225 总和32504如果显著性检验水平取0.1α=,则查表得0.9(1,1)39.9F =,显然计算的F 值1,0.33A B C F F F ===均小于查表值,所以认为三个因素对结果影响都显著 .6问应选用哪张正交表安排试验,并写出第8号试验的条件;如果9组试验结果为(单位:kg/100m 2):62.925,57.075,51.6,55.05,58.05,56.55,63.225,50.7,54.45,试对该正交试验结果进行直观分析和方差分析.解 该问题属于3因素3水平的试验问题,试验指标为水稻产量 .根据题意应选择正交表49(3)L 来安排试验,随机生成正交表如下:由表可知,第8号试验的条件:品种(A 3)珍珠矮11号,插值密度(B 2)3.75棵/100m 2,施肥量(C 1)0.75kg/100m 2纯氨; 直观分析需要计算K 值,计算结果如下:同上题进行直观分析,得出K 值的大小关系为:111312212223333132,,K K K K K K K K K >>>>>>由直观分析看出:本例较好的水平搭配是:113A B C 采用方差分析法,计算得下表:表5.10 方差分析表方差来源平方和自由度 均方差F 值A 1.759 2 0.879 0.0223B 65.861 2 32.931 0.8361C 6.660 2 3.330 0.0845 误差78.776 239.388 39.3880.9(2,2)9F =,所以认为三个因素对结果影响都不显著.7 在阿魏酸的合成工艺考察中,为了提高产量,选取了原料配比A ,吡啶量B 和反应时间C 三个因素,它们各取了7个水平如下:原料配比A :1.0,1.4,1.8,2.2,2.6,3.0,3.4 吡啶量B :10,13,16,19,22,25,28 反应时间C :0.5,1.0,1.5,2.0,2.5,3.0,3.5试选用合适的均匀设计表安排试验,并写出第7号试验的条件;如果7组试验的结果(收率)为:0.33,0.336,0.294,0.476,0.209,0.451,0.482,试对该均匀试验结果进行直观分析并通过回归分析发现可能更好的工艺条件.解 根据题意选择均匀设计表47(7)U 来安排试验,有3个因素,根据使用表,实验安排如:表5.11 试验安排表6 6 5 4 0.4517 7 7 7 0.482 所以第7号实验的条件为:原配料比3.4,吡啶量28ml,反应时间3.5h.通过直观分析,最好的实验条件是:原配料比3.4,吡啶量28ml,反应时间3.5h. 通过回归分析,最合适的实验条件是:原配料比2.6,吡啶量16ml,反应时间0.5h.习题六1 从某中学高二女生中随机选取8名,测得其升高、体重如下:1 2 3 4 5 6 78身高(cm)160 159 160 157 169 162 165 154体重(kg)49 46 53 41 49 50 48 43在绝对距离下,试用最短距离法和离差平方和法对其进行聚类分析.解由R软件,用最短距离(左)和差离平方和法(右)对题目进行聚类分析如下图6.1,表6.1和表6.2:最短距离法离差平方和法图6.1 聚类树形图表6.1 聚类附表(最短距离法)步骤聚类合并系数首次出现的阶段类别下一步组1 组2 组1 组21 1 6 5.000 0 0 22 1 2 10.000 1 0 43 4 8 13.000 0 0 74 1 7 13.000 2 0 55 1 3 13.000 4 0 66 1 5 17.000 5 0 7表6.2 聚类附表(离差平方和法)2 已知五个变量的距离矩阵为03674012340444401592343331).;2);3)036034022020401000⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭试用最短距离法和最长距离法对这些变量进行聚类,并画出聚类图和二分树.解 针对距离矩阵1),采用两种方法计算如下. ①最短距离法的聚类步骤如下:12345036740159036020w w w w w ⎛⎫ ⎪⎪ ⎪ ⎪⎪⎪⎝⎭a )将()236,1w w f h =合并为一类,,{}11456,,,,H w w w h =距离矩阵如下0743023060⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭{}()457457),,,2b w w h w w f h ==合并为一类,{}2167,,,H w h h =距离矩阵如下:034030⎛⎫ ⎪⎪ ⎪⎝⎭{}()()1681689),,3,3c w h h w h f h f h ===合并为一类,最后,,聚类图和树状图如图6.2:图6.2 聚类图(左)与树状图(右)②最长距离法与最短距离法类似,步骤如下: a )()236,1w w f h =合并为一类,{}11456,,,,H w w w h =距离矩阵如下0746025090⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭ {}(){}4574572167),,,2,,,b w w h w w f h H w h h ===合并为一类,距离矩阵如下:067090⎛⎫⎪⎪ ⎪⎝⎭{}()()1681689),,69c w h h w h f h f h ===合并为一类,最后,,,聚类图和树状图如图6.3:图6.3 聚类图(左)与树状图(右)(2)针对距离矩阵2)012340234034040⎛⎫ ⎪⎪ ⎪ ⎪⎪⎪⎝⎭①最短距离法的聚类步骤如下 a )()216,1w w f h =合并为一类,{}13456,,,,0342043040H w w w h =⎛⎫⎪⎪ ⎪ ⎪⎝⎭距离矩阵如下{}()367367),,,2b w h h w h f h ==合并为一类,{}24567,,,,H w w h h =聚类矩阵如下:043040⎛⎫⎪⎪ ⎪⎝⎭{}(){}()4784789879),,3,,4c w h h w h f h h w h f h ====合并为一类,最后,,聚类图和树状图如图6.4:图6.4 聚类图(左)与树状图(右)②由于本题数据的特殊性,最长距离法与最短距离法结果相同(略). (3)044440333022010⎛⎫ ⎪⎪ ⎪ ⎪⎪⎪⎝⎭最短距离法的聚类步骤如下a ) ()456,1w w f h =合并为一类,{}11236,,,,H w w w h =距离矩阵如下0444033020⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭{}(){}36736724567),,,2,,,,b w h h w h f h H w w h h ===合并为一类,距离矩阵如下:044030⎛⎫⎪⎪ ⎪⎝⎭{}(){}()4784789879),,3,,4c w h h w h f h h w h f h ====合并为一类,最后,,,聚类图和树状图如图6.5:图6.5 聚类图(左)与树状图(右)由于本题数据的特殊性,最长距离法与最短距离法结果相同(略).3 在一项关于作物对土壤营养的反应的研究中,要测定土壤的总磷量和总氮量(占干物质重的百分比),今对10份土样测得数据如下:总氮量(%)0.120.63 1.19 2.30 1.29 0.73 0.52 0.33 0.61 0.470.66在绝对距离下,试用重心法对其进行聚类分析.解由R软件得到重心法聚类分析的结果如图6.6与表6.3:图6.6 聚类树形图表6.3 聚类过程记录表步骤聚类合并系数首次出现的阶段类别下一步组1 组2 组1 组21 1 8 .001 0 0 22 1 10 .002 1 0 43 6 9 .005 0 0 64 15 .010 2 0 75 2 4 .010 0 0 86 67 .027 3 0 77 1 6 .048 4 6 88 1 2 .459 7 5 99 1 3 2.572 8 0 04 1975年Dagnelie收集了11年的气象数据资料如下表变量年序x1x2x3x4其中:x 1—前一年11月12日的降水量;x 2—7月均温;x 3—7月降雨量;x 4—月日辐射,试对这四个气象因子进行主成分分析. 解 由R 软件分析得到如下表6.4,6.5:表6.4 各主成分的重要性:主成分1 主成分2 主成分3 主成分4 标准差 1.6103349 0.9890848 0.53407741 0.37854199 方差贡献率 0.6482947 0.2445722 0.07130967 0.03582351 累积贡献率0.64829470.89286680.964176491.00000000表6.5 因子荷载:主成分1 主成分2 主成分3 主成分4 X1 0.291 0.871 0.332 -0.214 X2 -0.506 0.425 -0.742 -0.111 X3 0.577 0.136 -0.418 0.688 X4-0.5710.2050.4040.685由于前两个主成分对应的累积贡献率已经达到89.287,因此选取主成分的数目为2.5 对某初中12岁的女生进行体检,测量其身高x 1、体重x 2、胸围x 3和坐高x 4,共测得58个样本,并算得1234(,,,)x x x x x ='的样本协方差为19.9410.5023.566.5919.7120.958.637.97 3.937.55S ⎛⎫ ⎪⎪= ⎪ ⎪ ⎪⎝⎭ 试进行样本主成分分析.解 首先计算样本的相关系数矩阵:10.484410.32240.887210.70330.59760.31251⎛⎫ ⎪ ⎪ ⎪ ⎪⎝⎭设相关系数矩阵的特征值和特征向量分别为d 和v 阵,计算得到0.0546000 0 0.312600= 000.96470 000 2.6681d ⎛⎫ ⎪ ⎪ ⎪ ⎪⎝⎭即四个特征值依次为:2.6681,0.9647,0.3126,0.0546,前两个主成分的累计贡献率为:90.8471%,因此提取主成分为2.四个特征根相应的特征向量为0.06000.70600.5333 0.4620 0.7317 0.17430.34040.5642=0.60570.19320.60400.48060.30690.65870.48460.4870v -⎛⎫ ⎪-⎪ ⎪--- ⎪-⎝⎭ 因此,两个主成分的表达式为:112340.060.73170.60570.3069z x x x x =+-- 212340.7060.17430.19320.6587z x x x x =-+-+6 比较因子分析和主成分分析模型的异同,阐明两者的关系. 解(1)提取公因子的方法主要有主成分法和公因子法.若采取主成分法,则主成分分析和因子分析基本等价,该法从解释变量的变异的角度出发,尽量使变量的方差能被主成分解释;而公因子法主要从解释变量的相关性角度,尽量使变量的相关程度能被公因子解释,当因子分析目的重在确定结构时则用到该法.(2)主成分分析和因子分析都是在多个原始变量中通过他们之间的内部相关性来获得新的变量,达到既减少分析指标个数,又能概括原始指标主要信息的目的.但他们各有其特点:主成分分析是将n 个原始变量提取m 个支配原始变量的公因子,和1个特殊因子,各因子之间可以相关或不相关.(3)统用降维的方法,但差异也很明显:主成分分析把方差划分为不同的正交成分,而因子分析则把方差化分为不同的起因因子;因子分析中的特征值的计算只能从相关系数矩阵出发,且必须把主成分划分为因子.(4)因子分析提取的公因子比主成分分析提取的主成分更具有可解释性.(5)两者分析的实质及重点不同.主成分的数学模型为Y AX =,因子分析的数学模型为X AF ε=+.因而可知主成分分析是实际上是线性变换,无假设检验,而因子分析是统计模型,某些因子模型是可以得到假设检验的;主成分分析主要综合原始数据的信息,而因子分析重在解释原始变量之间的关系.(6)SPSS 数据的实现:两者都通过“analyzedata reduction Factor ···”过程实现,但主成分分析主要使用“descriptires ”,“extraction ”,“stores ”对话框,而因子分析处使用这些外,还可使用“rotaction ”对话框进行因子旋转.7 试对第4题的变量作因子分析,并将结果和上面的结果进行比较. 解 用SPSS 分析,计算结果如下表6.6-6.8:表6.6 反应压缩比情况表 提取方法: 主成分法计算的相关系数矩阵的特征值和方差贡献率:表6.7 方差解释度提取方法: 主成分法表6.8 主成分矩阵8 为研究某一树种的叶片形态,选取50片叶测量其长度x 1(mm )和宽度x 2(mm ),按样本数据求得其平均值和协方差矩阵为:129048134,92,4845x x S ⎛⎫=== ⎪⎝⎭求出相关系数阵R ,并由R 出发作因子分析;解1)求相关系数矩阵:904810.7303,48900.73031S R ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭ 2)用R 软件求R 的特征根及其相应的特征向量,软件输出结果如下:$values[1] 2.99393809 0.07273809 $vectors[,1] [,2] [1,] 0.7071068 -0.7071068 [2,] 0.7071068 0.7071068122.9939,0.0727,λλ∴==12(),()0.7071,0.7071-0.7071,0.7071T Tηη==3) 求载荷矩阵A :1.22350.19071.22350.1907A -⎛⎫= ⎪⎝⎭4)22121.5333, 1.5333,h h == 0.98810.154*0.98810.154A -⎛⎫= ⎪⎝⎭12121,1,0.3043,0.3043u u v v ===-=,222222000011112,0,()0.9074,20i i iii i i i i i A u B v C u v D u v =========-===∑∑∑∑9 1981年,生物学家Grogan 和Wirth 对两种蠓虫Af 和Apf 根据其触角长度x 1和翼长x 2进行了分类,分类的数据资料如下:Af 1 2 3 4 5 6 7 8 x 1 1.24 1.36 1.38 1.38 1.38 1.40 1.48 1.54 x 2 1.27 1.74 1.64 1.82 1.90 1.70 1.82 1.82 Apf 1 2 3 4 5 6 x 1 1.14 1.18 1.20 1.26 1.28 1.30 x 2 1.78 1.96 1.86 2.00 2.00 1.96 (1)试建立Af 和Apf 的Fisher 判别模型;(2)对样本(1.24,1.80),(1.28,1.84),(1.40,2.04)进行判别分类. 解 (1)建立Fisher 判别模型991122121111(,)(1.42,1.75),(,)(1.23,1.93)99T TT T i i i i i i x x y y μμ======∑∑120.08480.1490.01980.0218,0.1490.39120.02180.039A A ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭12120.0080.0130.0130.0332A A n n ⎛⎫+== ⎪+-⎝⎭∑()120.19,0.18Tμμ-=-,()()121 1.325,1.842T μμ+= 1345.05135.42135.4283.33--⎛⎫= ⎪-⎝⎭∑, 带入Fisher 判别函数 ()12345.05135.42[(,)(1.325,1.84)]0.19,0.18135.4283.33Tx x -⎛⎫-- ⎪-⎝⎭1291.301741.336944.534x x =--(2)把三个样本(1.24,1.80),(1.28,1.84),(1.4,2.04)带入模型,得到结果:三个样本均属于Apf 类.10 在两个玉米品种之间进行判别:137玉米G 1和甜玉米G 2,选取的两个变量是:x 1—玉米果穗长;x 2—玉米果穗直径,两个类的样本容量为n 1=n 2=40,实际算得两个类的样本均值和样本协方差为:121218.5625.348.120 4.4589.661 3.720,,,5.98 4.12 4.458 4.350 3.720 3.410x x S S ⎛⎫⎛⎫⎛⎫⎛⎫==== ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭试建立G 1,G 2的Bayes 类线性判别函数.解 因为已知两类的样本均值和样本协方差为:12(18.56,5.98),(25.34,4.12)T T x x ==,128.120 4.4589.661 3.720,4.458 4.350 3.720 3.410S S ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭可计算得到修正的公共协方差矩阵和逆矩阵12120.2280.1450.1450.0992A A n n ⎛⎫+== ⎪+-⎝⎭∑,15.6393.738.25147.38--⎛⎫= ⎪-⎝⎭∑()()()121216.78,1.86,21.95,5.052TTμμμμ-=-+= 带入Fisher 判别函数()112121(())()2T W x x μμμμ-=-+-∑ ()()12 5.6393.73[(,)21.95,5.05] 6.78,1.868.25147.38Tx x -⎛⎫=-- ⎪-⎝⎭1274.396.951141.29x x =-+-。
试验设计与数据处理(第三版)李云雁 第3章 试验的方差分析知识讲解
方差分析(analysis of variance,简称ANOVA) 检验试验中有关因素对试验结果影响的显著性
试验指标(experimental index) 衡量或考核试验效果的参数
因素(experimental factor) 影响试验指标的条件 可控因素(controllable factor)
④计算均方
MS A
SS A df A
SS A r 1
MSB
SSB df B
SSB s 1
MSe
SSe dfe
(r
SSe 1)(s 1)
⑤F检验
FA
MS A MSe
FB
MSB MSe
FA服从自由度为(dfA,dfe)的F分布;
FB服从自由度为(dfB,dfe)的F分布;
对于给定的显著性水平 ,查F分布表:
下的试验结果服从正态分布 在各水平下分别做了ni(i=1,2,…,r)次试验 判断因素A对试验结果是否有显著影响
(3) 单因素试验数据表
试验次数 A1
A2
…
1
x11
x21
…
2
x12
x22
…
…
…
…
…jBiblioteka x1jx2j…
…
…
…
…
ni
x1n1
x2n2
…
Ai
…
Ar
xi1
…
xr1
xi2
…
xr2
… ……
xij
1 r s
x rs
i 1
xij
j 1
Ai水平时 :
xi•
1 s
s
xij
j 1
1273医学统计学双因素方差分析
8
F处 理
MS处 理 MS 误 差
F区 组
MS区 组 MS 误 差
如果处理(或区组)因素无作用的话,则 F 1 如果处理(或区组)因素有作用的话,则 F 1
F值越大,P值越小,越有理由认为处理(区组)因 素对实验效应(指标)产生影响。
9
案例:为研究比较甲、乙和丙3个厂家生产的某种灭蚊剂 的灭蚊效果,某市疾病预防控制中心以该市11个不同地区 的蚊群进行了室内灭蚊实验,测试了不同厂家灭蚊剂对蚊 的半数击倒时间(KT50),资料如表7.3,
问题:试分析3个厂家灭蚊剂的灭蚊效果(处理因素), 不同蚊群(区组因素)之间有没有差别。
10
11
四、分析步骤
1. 建立假设,确定检验水准 处理间:
H0: 3个厂家灭蚊剂的灭蚊效果相同。 H1: 3个厂家灭蚊剂的灭蚊效果相同不同或不全相同。 区组间:
H0: 11个蚊群(区组)灭蚊效果相同相等 H1:11个蚊群(区组)灭蚊效果不同或不全相同。
均取a =0.05
12
2. 选方法并计算检验统计量F: 求基础数据:见原始表下部分 按公式求各部分SS、、 MS、F
13
1)总变异SS总及其ν总、处理组间变异SS处理及 其ν处理可按前述方法计算。
2)区组间变异反映了蚊群地区间的差异,也 包括随机误差。其计算方法类似于前述处理组间变 异,即各区组的均数(3.82、4.56、…、4.74)与 总均数(4.45)的离差的平方和。
v总 33 -1 32
15
k
∑ (2)SS处理 ni(X i - X )2 , i 1
处理 k - 1
SS处理 11 (4.10 4.45)2 11 (5.00 4.45)2
11 (4.26 4.45)2 5.06
用dps进行方差分析
实验目的:熟 练掌握运用 DPS进行方差 分析。
实验材料:计 算机,DPS软 件
实验地点:机 房
实验内容:
一.单向分组资料的方差分析
此类资料由完全随机试验获得
步骤:
输入数据(以行为样本或处理,一行一个处 理)-------定义数据块-------从菜单中找到 “试验统计”------- 选择“完全随机设计” -------“单因素试验统计分析”-------点 击确定,得到结果。
练习:课本 119页 例 6.13。
二.有重复的双因素方差分析
例:为了了解3种改革方案(因素B)在3个 不同地区(因素A)促使经济效益提高的状况, 现抽样调查,得到数据如表22-3所示(假定 数据来自方差相等的正态分布)。试方差分 析
地区A 方案B B1
A1
354 336
B2
385 392
B3
B课程
3339 2777 3020 2437 3067
C组
2228 2578 1227 2044 1681
练习: 课本111页,例6.10; 课本113页,例6.11
双因素方 差分析
1 无重复双因素方差分析
例:按土质将一块耕地等分为5个地块,每个 地块又等分成4个小块,有4个品种的小麦,在 每一地块内随机地分种在4小块上,每一小块 种同样多种子的任意一种小麦,今测得收获量如 表所示,进行方差分析。
地块A 品种B
B1
A1 32.3
B2
33.2
B3 34.0 33.6 34.4 26.2
A3 34.7 36.8 32.3 28.1
A4 36.0 34.3 35.8 28.5
A5 35.5 36.1 32.8 29.4
双因素方差分析的类型
f(X)
X
m1 m2 m3 m4
方差分析中基本假定
若备择假设成立,即H1: mi (i=1,2,3,4)不全 相等
至少有一个总体的均值是不同的
四个样本分别来自均值不同的四个正态总体
f(X)
X
m3 m1 m2 m4
二、方差分析的原理
方差分析的目的是要检验各个水平的均值μ1, μ2……μr 是否相等,实现这个目的的手段是通过方 差的比较。
两个因素的搭配还会对结果产生一种新的影响,这
时的双因素方差分析称为有交互作用的双因素方差 分 析 或 可 重 复 双 因 素 方 差 分 析 (Two-factor with
replication )
二、数据结构
(一)双因素方差分析的假定条件 (一)数据结构 (二)分析步骤
(一)双因素方差分析的基本假定
H0:μ1=μ2=μ3=μ4 颜色对销售量没有影响 H1:μ1,μ2,μ3,μ4 不全相等,颜色对销售量有影
响。 注意:拒绝原假设,只表明至少有两个总体的均值
不相等,并不意味着所有的均值都不相等。
二、计算水平均值
令 xj 表示第j种水平的样本均值,则
nj
x输出区域
用Excel进行方差分析
第三节 双因素方差分析
一、双因素方差分析的类型 二、数据结构 三、实例
一、双因素方差分析的类型
(two-way analysis of variance)
1. 分析两个因素(行因素Row和列因素Column)对试验 结果的影响
r不全相等分析步骤构造检验的统计量?计算平方和ss?总误差平方和?行因素误差平方和?列因素误差平方和?随机误差项平方和分析步骤构造检验的统计量?总离差平方和sst水平项离差平方和ssr和ssc误差项离差平方和sse之间的关系sstssrsscsse分析步骤构造检验的统计量?计算均方ms?误差平方和除以相应的自由度?三个平方和的自由度分别是?总离差平方和sst的自由度为kr1?行因素的离差平方和ssr的自由度为k1?列因素的离差平方和ssc的自由度为r1?随机误差平方和sse的自由度为k1r1分析步骤构造检验的统计量?计算均方ms?行因素的均方记为msr计算公式为?列因素的均方记为msc计算公式为?随机误差项的均方记为mse计算公式为分析步骤构造检验的统计量?计算检验统计量f?检验行因素的统计量?检验列因素的统计量分析步骤统计决策?将统计量的值f与给定的显著性水平a的临界值fa进行比较作出对原假设h0的决策?根据给定的显著性水平a在f分布表中查找相应的临界值fa?若frfaa则拒绝原假设h0表明均值之间的差异是显著的即所检验的行因素对观察值有显著影响?若fcfaa则拒绝原假设h0表明均值之间有显著差异即所检验的列因素对观察值有显著影响双因素方差分析表基本结构表表74无交互作用的双方差分析表方差来源离差平方和df均方msf因素assar1msassar1msamse因素bssbs1msbssenrmsbmse误差sser1s1msesser1s1总方差sstn1三实例不同品牌的彩电在各地区的销售量数据品牌因素地区因素地区1地区2地区3地区4地区5品牌1品牌2品牌3品牌4365345358288350368323280343363353298340330343260323333308298例例73有四个品牌的彩电在五个地区销售为分析彩电牌的品牌品牌因素和销售地区地区因素对销售量是否有影响对每个品牌在各地区的销售量取得以下数据
双因素方差分析方法
(
)
dfT , df A , df B , df E ,则
SS A df A MS A = ~ F ( ( a 1) , ( a 1)( b 1) ) FA = SS E df E MS E
SS B df B MS B = ~ F ( ( b 1) , ( a 1)( b 1) ) FB = SS E df E MS E
结论:工人对产品的产量有显著影响, 结论:工人对产品的产量有显著影响, 机器对产品的产量有极显著影响. 机器对产品的产量有极显著影响.
例1的上机操作 的上机操作
原始数据,行因素水平, 原始数据,行因素水平,列因素水平
对应例1 对应例 的数据输入方式
工人对产品产量有显著影响,而机器对产品产量的影响极显著. 工人对产品产量有显著影响,而机器对产品产量的影响极显著.
1 b 水平A α i = ∑ ij = i i 水平 i对试验结果的效应 a j =1 1 a 水平 β j = ∑ ij = i j 水平Bj对试验结果的效应 b i =1 试验误差 ε ij = X ij ij
特性: 特性:
∑ α i = 0;
i =1
a
β j = 0; ε ij ~ N ( 0, σ 2 ) ∑
SST = ∑∑ X ij X
i =1 j =1
a
b
(
)
2
可分解为: 可分解为:SST = SS A + SS B + SS E
SS A = b∑ X i. X
SS B = a ∑ X . j X
j =1 a b
a
i =1 b
(
)
2
称为因素A的离差平方和, 称为因素 的离差平方和, 的离差平方和 对试验指标的影响. 反映因素 A 对试验指标的影响. 称为因素B的离差平方和, 称为因素 的离差平方和, 的离差平方和 对试验指标的影响. 反映因素 B 对试验指标的影响.
生物统计学之二因素方差分析
二因素具有重复观测值的方差分析用下面线性模型
来描述:
总平均 值
B因素第j水 平的效应
xijk = μ +αi +β j+(αβ)ij +εijk
αi 和β j的
交互作用
A因素第i 水 平,B因素第j 水平和第k次 重复的观测值
A因素第i水 平的效应
随机误差
模型中εijk彼此独立且服从标准正态分布( 0 ,σ2)
在两因素单独观察值试验情况下,因为A因素(pH值)每一水平的重复数 恰为B因素的水平数。故A因素的标准误
不同硫酸铜浓度下平均数间的比较
在两因素单独观察值试验情况下,B因素(硫酸铜浓度)每一水平的重复数恰 为A因素的水平数,故B因素的标准误
查SSR值表,当dfe=6,M=2,3,4时的SSR值 及由此计算的LSR值列于下表
i=1,2,…,a;
j=1,2, …,b
αi 和βj 是A因素和B因素的效应,可以是
固定的,也可以是随机的,且
,εij是随
机误差,彼此独立且服从N(0,σ2)。
(1)平方和的分解为:
(2)与平方和相应的自由度的分解为
(3)各项的方差分别为 (4)F值的计算:
【例】为了考察蒸馏水的pH 值和硫酸铜溶液浓度对化验血
平均
472
2
471
512
32
496
40
25
492
17
显而易见,A的效应随着B因素水平的不同而不同,反之
亦然。我们说A、B两因素间存在交互作用,记为A×B。
互作效应可由 (A1B1+A2B2-A1B2-A2B1)/2来估计。 上表中的互作效应为: (470+512-480-472)/2=15
《试验设计与数据处理》第3章_试验的方差分析
(4)计算均方—— 离差平方和/自由度
因素A的均方
MS A
SS A r 1
误差的均方:
因素B的均方
A×B的均方
MSB
SSB s 1
MS AB
(r
SS AB 1)(s 1)
MSe
SSe rs(c 1)
22
(5) F检验
FA
MS A MSe
xij
i 表示因素A对应的水平
j 表示因素B对应的水12 平
双因素无重复试验的方差分析的基本步骤:
(l)计算平均值 • Ai水平时所有试验值的算术平均值:
1 s
xi
s
xij
j 1
• Bj水平时所有试验值的算术平均值:
x j
1 r
r j 1
xij
• 所有试验值的总平均值:
1 r s
1r
1s
11
3.2 双因素试验的方差分析 ——讨论两个因素对试验结果有无显著性影响的问题
3.2.1 双因素无重复试验的方差分析 • 设在某试验中,有两个因素A和B在变化:
A有r 种水平A1,A2,…,Ar B有s 种水平B1,B2,…,Bs • 在每一种组合水平(Ai,Bj)上做1次试验; • 试验结果为xij(i=1,2,…,r;j = 1,2,…,s); • 所有xij相互独立,且服从正态分布。
(4) 计算平均平方 • 用离差平方和除以自由度得平均平方,简称均方 • 组间均方:MSA SSA / dfA • 组内均方(又称为误差均方): MSe SSe / dfe
9
(5) F检验
• 组间均方和组内均方之比F是一个统计量:
实验设计与数据处理:2方差分析(09级温淑平修正均值为μ)
实验设计与数据处理:2⽅差分析(09级温淑平修正均值为µ)第2章⽅差分析2.1 概述⽅差分析(analysis of variance)是数理统计的基本⽅法之⼀,是分析试验数据的⼀种有效⼯具。
⽅差分析是在20世纪20年代初由英国统计学家费歇尔(R.A.Fisher)所创,最早⽤于⽣物学和农业实验,后在⼯业⽣产和科学研究中的许多领域⼴泛应⽤,取得良好的效果。
⼀、⽅差分析的必要性在第1章中,我们已经讨论了两个正态总体均值相等的假设检验问题。
但在实际⽣产中,经常遇到检验多个正态总体均值是否相等的问题。
例2-1 以淀粉为原料⽣产葡萄糖的过程中,残留有许多糖蜜,可作为⽣产酱⾊的原料。
在⽣产酱⾊之前应尽可能彻底除杂,以保证酱⾊质量。
为此,对除杂⽅法进⾏选择。
在试验中选⽤五种不同的除杂⽅法,每种⽅法做四次试验,即重复四次,结果见表2-1。
表2-1 不同除杂⽅法的除杂量(g/kg)本试验的⽬的是判断不同的除杂⽅法对除杂量是否有显著影响,以便确定最佳除杂⽅法。
我们可以认为,同⼀除杂⽅法重复试验得到的4个数据的差异是由随机误差造成的,⽽随机误差常常是服从正态分布的,这时除杂量应该有⼀个理论上的均值。
⽽对不同的除杂⽅法,除杂量应该有不同的均值。
这种均值之间的差异是由于除杂⽅法的不同造成的。
于是我们可以认为,五种除杂⽅法所得数据是来⾃五个均值不同的五个正态总体,且由于试验中其它条件相对稳定,因⽽可以认为每个总体的⽅差是相等的,即五个总体具有⽅差齐性。
这样,判断除杂⽅法对除杂效果是否有显著影响的问题,就转化为检验五个具有相同⽅差的正态总体均值是否相同的问题了,即检验假设H0: µ1=µ2=µ3=µ4=µ5对于这种多个总体样本均值的假设检验,第1章介绍的⽅法不再适⽤,须采⽤⽅差分析⽅法。
⼆、⽅差分析的基本思想⽅差分析的实质就是检验多个正态总体均值是否相等。
那么,如何检验呢?从表2-1可见,20个试验数据(除杂量)是参差不齐的。
单因素及双因素方差分析及检验的原理及统计应用
单因素及双因素方差分析及检验的原理及统计应用一、本文概述本文将全面探讨单因素及双因素方差分析及检验的原理及其在统计中的应用。
方差分析是一种在多个样本均数间进行比较的统计方法,其基本原理是通过分析不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果的影响。
单因素方差分析适用于只有一个独立变量影响研究结果的情况,而双因素方差分析则适用于存在两个独立变量的情况。
这两种方法在科学研究、经济分析、医学实验等众多领域具有广泛的应用价值。
本文将首先介绍单因素及双因素方差分析的基本概念和原理,包括方差分析的前提假设、模型的构建以及检验的步骤。
随后,通过实例演示如何进行单因素及双因素方差分析,并解释分析结果的意义。
本文还将讨论方差分析的局限性,以及在实际应用中需要注意的问题。
通过本文的学习,读者将能够掌握单因素及双因素方差分析及检验的基本原理和方法,了解其在不同领域的统计应用,提高数据分析和处理的能力。
本文还将为研究者提供有益的参考,帮助他们在实践中更好地运用方差分析解决实际问题。
二、单因素方差分析(One-Way ANOVA)单因素方差分析(One-Way ANOVA)是一种统计方法,用于比较三个或更多独立组之间的均值差异。
这种方法的前提假设是各组间的方差相等,且数据服从正态分布。
在进行单因素方差分析时,首先需要对数据进行正态性和方差齐性的检验。
如果数据满足这些前提条件,那么可以进行单因素方差分析。
该分析的基本思想是,如果各组之间的均值没有显著差异,那么各组内的变异应该主要来自随机误差。
如果有显著差异,那么各组间的变异将大于组内的变异。
单因素方差分析通过计算F统计量来检验各组均值是否相等。
F 统计量是组间均方误差与组内均方误差的比值。
如果F统计量的值大于某个显著性水平(如05)下的临界值,那么我们可以拒绝零假设,认为各组间的均值存在显著差异。
单因素方差分析在许多领域都有广泛的应用,如医学、生物学、社会科学等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
双因素无重复试验设计方差分析:
1.为了考察高温合金中碳的含量(因子A)和锑与铝的含量之和(因子B)对合金强度的影响,因子A取三个水平0.03,0.04,0.05(上述数字表示碳的含量占合金总量的百分比),因子B取4个水平3.3,3.4,3.5,3.6(数字的意义同上)。
试对表中数据作方差分析来回答:不同材质对延伸率有显著影响吗,不同温度对延伸率有显著影响吗?
2.使用四种燃料,三种推进器做火箭射程试验,每一种组合情况做一次试验,所得火箭射程如下表,试分析各种燃料(A)与各种推进器(B)对火箭射程有
3.
A4代替前三种方法,需要通过实验考察。
观察的对象是果汁B,不同的果汁当做不同的水平,即B1苹果葡萄汁,B2葡萄汁,B3西红柿汁,B4苹果饮料,B5橘子汁,B6菠萝柠檬汁。
进行双因素实验,将其检验结果记录与表中。
4.原来检验果汁中含铅量有三种方A1,A2,A3,现研究出另一种快速检验法A4,能否用A4代替前三种方法,需要通过实验考查。
观察的对象是果汁B,不同的果汁当做不同的水平,即B1苹果葡萄汁,B2葡萄汁,B3西红柿汁,B4苹果饮料,B5桔子汁,B6菠萝柠檬汁.
进行双因素交错搭配实验,即用四种方法同时检验每一种果汁,将其检验结果记录于表
5.六个水稻品种(A1、A2、A3、A4、A5和A6)种在四种不同的土壤类型(B1、B2、
B 3和B 4)中,产量数据如表7.26所示,如果品种和土壤类型都是固定效应,试对资料进行适当的分析。
表7.26 例7.9的产量资料及数据整理
6.B )对
合金强度的影响,因子A 取3个水平0.03,0.04,0.05(上述数字表示碳的含量占合金总量的百分比),因子B 取4个水平3.3,3.4,3.5,3.6(数字的意义
7. 将落叶松苗木栽在4块不同苗床上,每块苗床上苗木又分别使用3种不同的肥料以观察
肥效差异,一年后于每一苗床的各施肥小区内用重复抽样方式各取苗木若干株测其平均高,8. 某企业需采购大宗原材料,共有4家企业生产这些原材料,每家均有、、、四种类型的原材料,
该企业决策机构对每个企业的每种样品进行试验,的数据如下:
9.A 1:0.34~0.74,A 2:0.48~0.52,A 3:0.53~0.56及三种不同的加荷速度(单位:10-1N/cm 3·min )
B 1:600,B 2:2400,B 3:4200. 10.将土质基本相同的一块耕地,分成均等大小的5个地块,没每个地块又分成均等的四个小区;有四个品种的小麦,在每一地块内,随机地分种在四个小区上,每一小区种任一种小麦同样多的用种量。
今测得其收获量如表所示。
试以显11.某工厂生产某种产品使用了3种不同的催化剂和4种不同的原料,各种搭配都做
一次试验,测得成品压强数据如表5-15:
试检验不同催化剂及不同原材料对压强有无显著影响(05.0=α)
12.为了考察pH 值和硫酸铜溶液对化验血清中白蛋白与球蛋白的影响,对蒸馏水
中的pH 值(A )取四个不同水平,对硫酸铜溶液浓度(B )取3个不同水平,再把不同水平组合下各册一次白蛋白与球蛋白,之比数据如下: 试检验两个因素对化验结果有无显著影响。