第九章(方差分析)200900
第九章 方差分析

2, ,r ) (i 1, (2)计算所有因素水平下全部样本的总均值 1 r 1 r m 1 r m x xi xij xij r i 1 rm i 1 j 1 n i 1 j 1 i 1, 2, ,r;j 1 , 2, ,m) ( 其中: xij表示第i个水平下的第j个样本观测值; m为该水平下的样本观测值个数; r为所有因素水平个数,且 n rm 。
MSA SSA 55 18.333 r 1 3
df1 3
df 2 36
MSE
F
SSE 189 5.25 n r 36
MSA 18.333 3.492 MSE 5.25
根据事先设定的显著性水平 0.05 ,在F分布表中查找分子自由度为
36在 2.84 ~ 2.92 df1 3、分母自由度为 df 2 36 所对应的临界值F0.05 3, 之间,显然, F F0.05 3, 36 ,因此拒绝原假设,即 1 2 3 4
通过比较检验统计量的样本值和理论值(临界值)的大小 判断原假设的拒绝情况。
具体判断原则为: 如果 F F r 1,n r,则拒绝原假设; 如果 F F r 1,n r ,则不能拒绝原假设。
25
§2.2 分析步骤
这个分析步骤可以用表格9—3表示,通常称该表格为方差分 析表,具体格式如下:
• 如果因素(自变量)对因变量没有影响,那么在组间误差中 只包含随机误差,而没有系统误差,这时组间均方与组内均 方之比就会接近1; • 如果因素(自变量)对因变量有影响,则组间误差中除包含 随机误差外,还会包含系统误差,这时组间均方就会大于组 内均方,二者的比值就会大于1。当比值大至某种程度时, 就认为因素的不同水平之间存在着显著差异,也就是自变量 对因变量有显著影响。
概率论与数理统计第九章 方差分析

第九章方差分析在生产过程和科学实验中,我们经常遇到这样的问题:影响产品产量、质量的因素很多.例如,在化工生产中,影响结果的因素有:配方、设备、温度、压力、催化剂、操作人员等.我们需要通过观察或试验来判断哪些因素对产品的产量、质量有显著的影响.方差分析(Analysis of variance)就是用来解决这类问题的一种有效方法.它是在20世纪20年代由英国统计学家费舍尔首先使用到农业试验上去的.后来发现这种方法的应用范围十分广阔,可以成功地应用在试验工作的很多方面.第一节单因素试验的方差分析在试验中,我们将要考察的指标称为试验指标,影响试验指标的条件称为因素.因素可分为两类,一类是人们可以控制的;一类是人们不能控制的.例如,原料成分、反应温度、溶液浓度等是可以控制的,而测量误差、气象条件等一般是难以控制的.以下我们所说的因素都是可控因素,因素所处的状态称为该因素的水平.如果在一项试验中只有一个因素在改变,这样的试验称为单因素试验,如果多于一个因素在改变,就称为多因素试验.本节通过实例来讨论单因素试验.1.数学模型例9.1某试验室对钢锭模进行选材试验.其方法是将试件加热到700℃后,投入到20℃的水中急冷,这样反复进行到试件断裂为止,试验次数越多,试件质量越好.试验结果如表9-1.表9-1试验的目的是确定4种生铁试件的抗热疲劳性能是否有显著差异.这里,试验的指标是钢锭模的热疲劳值,钢锭模的材质是因素,4种不同的材质表示钢锭模的4个水平,这项试验叫做4水平单因素试验.例9.2考察一种人造纤维在不同温度的水中浸泡后的缩水率,在40℃,50℃, (90)的水中分别进行4次试验.得到该种纤维在每次试验中的缩水率如表92.试问浸泡水的温度对缩水率有无显著的影响?表9-2 (%)单因素试验的一般数学模型为:因素A 有s 个水平A 1,A 2,…,A s ,在水平A j (j =1,2,…,s )下进行n j (n j ≥2)次独立试验,得到如表9-3的结果:表9-3x 11 x 12 … x 1s x 21 x 22 … x 2s … … … … 11n x 22n x … s n s xT ·1 T ·2 … T ·s1x • 2x • … s x •μ1 μ2 … μs假定:各水平A j (j =1,2,…,s )下的样本x ij ~N (j ,),i =1,2,…,n j ,j =1,2,…,s ,且相互独立. 故x ij -μj 可看成随机误差,它们是试验中无法控制的各种因素所引起的,记x ij -μj =εij ,则⎪⎩⎪⎨⎧==+=.,),0(~,,,2,1;,,2,1,2相互独立各ij ij j ij j ij N s j n i x εσεεμ (9.1) 其中μj 与σ2均为未知参数.(9.1)式称为单因素试验方差分析的数学模型.方差分析的任务是对于模型(9.1),检验s 个总体N (μ1,σ2),…,N (μs ,σ2)的均值是否相等, 即检验假设012112:;:,,,s s H H μμμσσσ===⎧⎨⎩不全相等. (9.2) 为将问题(9.2)写成便于讨论的形式,采用记号μ=11sj j j n n μ=∑,其中n =1sjj n=∑,μ表示μ1,μ2,…,μs 的加权平均,μ称为总平均.δj =μj -μ, j =1,2,…,s ,δj 表示水平Aj 下的总体平均值与总平均的差异.习惯上将δj 称为水平A j 的效应.利用这些记号,模型(9.1)可改写成:x ij =μ+δj +εij ,x ij 可分解成总平均、水平A j 的效应及随机误差三部分之和120,~(0,),.1,2,,;1,2,,.sj j j ijij j n N i n j s δεσε=⎧=⎪⎨⎪==⎩∑各相互独立 (9.1)′假设(9.2)等价于假设012112:0;:,,,s s H H δδδδδδ====⎧⎨⎩不全零.(9.2)′ 2.平方和分解我们寻找适当的统计量,对参数作假设检验.下面从平方和的分解着手,导出假设检验(9.2)′的检验统计量.记S T =211()jn sijj i xx ==-∑∑, (9.3)这里111jns ij j i x x n ===∑∑,S T 能反应全部试验数据之间的差异.又称为总变差.A j 下的样本均值 11jn j iji jx xn •==∑. (9.4)注意到2222()()()()2()()ij ij j j ij j j ij j j x x x x x x x x x x x x x x ••••••-=-+-=-+-+--,而 1111()()()()jj n n ssij j j j ij j j i j i x x x x x x x x ••••====⎡⎤--=--⎢⎥⎣⎦∑∑∑∑=11()0.j n sj ij j j j i x x x n x ••==⎛⎫--= ⎪ ⎪⎝⎭∑∑记 S E =211()jn sijj j i xx •==-∑∑, (9.5)S E 称为误差平方和;记 S A =22111()()jn ssjj j j i j xx n x x ••===-=-∑∑∑, (9.6)S A 称为因素A 的效应平方和.于是S T =S E +S A . (9.7)利用εij 可更清楚地看到S E ,S A 的含义,记111jns ij j i n εε===∑∑为随机误差的总平均,11jn j iji jn εε•==∑, j =1,2,…,s .于是S E =221111()()jjn n ssijj ij j j i j i xx εε••====-=-∑∑∑∑; (9.8)S A =2211()()ssj jj j j j j n xx n δεε••==-=+-∑∑. (9.9)平方和的分解公式(9.7)说明.总平方和分解成误差平方和与因素A 的效应平方和.(9.8)式说明S E 完全是由随机波动引起的.而(9.9)式说明S A 除随机误差外还含有各水平的效应δj ,当δj 不全为零时,S A 主要反映了这些效应的差异.若H 0成立,各水平的效应为零,S A 中也只含随机误差,因而S A 与S E 相比较相对于某一显著性水平来说不应太大.方差分析的目的是研究S A 相对于S E 有多大,若S A 比S E 显著地大,这表明各水平对指标的影响有显著差异.故需研究与S A /S E 有关的统计量.3.假设检验问题当H 0成立时,设x ij ~N (μ,σ2)(i =1,2,…,n j ;j =1,2,…,s )且相互独立,利用抽样分布的有关定理,我们有22~(1)AS s χσ-, (9.10) 22~()ES n s χσ-, (9.11)F =()(1)AEn s S s S -- ~F (s -1,n -s ). (9.12)于是,对于给定的显著性水平α(0<α<1),由于P {F ≥F α(s -1,n -s )}=α, (9.13)由此得检验问题(9.2)′的拒绝域为F ≥F α(s -1,n -s ).(9.14)由样本值计算F 的值,若F ≥F α,则拒绝H 0,即认为水平的改变对指标有显著性的影响;若F <F α,则接受原假设H 0,即认为水平的改变对指标无显著影响. 上面的分析结果可排成表9-4的形式,称为方差分析表.当F ≥F 0.05(s -1,n -s )时,称为显著, 当F ≥F 0.01(s -1,n -s )时,称为高度显著.在实际中,我们可以按以下较简便的公式来计算S T ,S A 和S E .记T ·j =1jn iji x=∑, j =1,2,…,s ,T ··=11jn sijj i x==∑∑,即有22221111222211,,.j jn n s s T ij ij j i j i s s j A j j j j j E T AT S x nx x n T T S n x nx n n S S S ••====••••==⎧=-=-⎪⎪⎪⎪=-=-⎨⎪⎪=-⎪⎪⎩∑∑∑∑∑∑ (9.15) 例9.3 如上所述,在例9.1中需检验假设H 0:μ1=μ2=μ3=μ4;H 1:μ1,μ2,μ3,μ4不全相等.给定α=0.05,完成这一假设检验.解 s =4,n 1=7,n 2=5,n 3=8,n 4=6,n =26.S T =22211(4257)69895926jn sij j i T x n ••==-=-∑∑=1957.12, S A =2221(4257)697445.4926sj j j T T n n •••=-=-∑=443.61, S E =S T -S A =1513.51.得方差分析表9-5.表9-5因 F (3,22)=2.15<F 0.05(3,22)=3.05. 则接受H 0,即认为4种生铁试样的热疲劳性无显著差异.例9.4 如上所述,在例9.2中需检验假设H 0:μ1=μ2=…=μ6; H 1:μ1,μ2,…,μ6不全相等.试取α=0.05,α=0.01,完成这一假设检验.解 s =6, n 1=n 2=…=n 6=4,n =24.S T =2211jn sij j i T x n ••==-∑∑=112.27,S A =221sj j j T T n n•••=-∑=56,S E=S T-S A=56.27.得方差分析表9-6.0.050.01由于 4.25=F0.01(5,18)>F A=3.583>F0.05(5,18)=2.77,故浸泡水的温度对缩水率有显著影响,但不能说有高度显著的影响.本节的方差分析是在这两项假设下,检验各个正态总体均值是否相等.一是正态性假设,假定数据服从正态分布;二是等方差性假设,假定各正态总体方差相等.由大数定律及中心极限定理,以及多年来的方差分析应用,知正态性和等方差性这两项假设是合理的.第二节双因素试验的方差分析进行某一项试验,当影响指标的因素不是一个而是多个时,要分析各因素的作用是否显著,就要用到多因素的方差分析.本节就两个因素的方差分析作一简介.当有两个因素时,除每个因素的影响之外,还有这两个因素的搭配问题.如表9-7中的两组试验结果,都有两个因素A和B,每个因素取两个水平.表9-7(b)表9-7(a)中,无论B在什么水平(B1还是B2),水平A2下的结果总比A1下的高20;同样地,无论A是什么水平,B2下的结果总比B1下的高40.这说明A和B单独地各自影响结果,互相之间没有作用.表9-7(b)中,当B为B1时,A2下的结果比A1的高,而且当B为B2时,A1下的结果比A2的高;类似地,当A为A1时,B2下的结果比B1的高70,而A为A2时,B2下的结果比B1的高30.这表明A的作用与B所取的水平有关,而B的作用也与A所取的水平有关.即A 和B不仅各自对结果有影响,而且它们的搭配方式也有影响.我们把这种影响称作因素A和B的交互作用,记作A×B.在双因素试验的方差分析中,我们不仅要检验水平A和B的作用,还要检验它们的交互作用.1.双因素等重复试验的方差分析设有两个因素A,B作用于试验的指标,因素A有r个水平A1,A2,…,Ar,因素B有s个水平B1,B2,…,B s,现对因素A,B的水平的每对组合(A i,B j),i=1,2,…,r;j=1,2,…,s都作t(t≥2)次试验(称为等重复试验),得到如表9-8的结果:表9-8设x ijk ~N (ij ,), i =1,2,…,r ; j =1,2,…,s ; k =1,2,…,t ,各x ijk 独立.这里ij ,均为未知参数.或写为⎪⎩⎪⎨⎧===+=.,,,2,1),,0(~,,,2,1;,,2,1,2相互独立各ijkijk ijk ij ijk t k N s j r j x εσεεμ (9.16) 记μ=111,r s ij i j rs μ==∑∑, 11si ij j s μμ•==∑, i =1,2,…,r ,11rj ij i r μμ•==∑, j =1,2,…,s ,,i i αμμ•=-, i =1,2,…,r , j j βμμ•=-, j =1,2,…,s ,ij ij i j γμμμμ••=--+.于是 μij =μ+αi +βj +γij . (9.17)称μ为总平均,αi 为水平A i 的效应,βj 为水平B j 的效应,γij 为水平A i 和水平B j 的交互效应,这是由A i ,B j 搭配起来联合作用而引起的.易知1rii α=∑=0,1sjj β=∑=0,1riji γ=∑=0, j =1,2,…,s ,1sijj γ=∑=0, i =1,2,…,r ,这样(9.16)式可写成⎪⎪⎪⎩⎪⎪⎪⎨⎧=======++++=∑∑∑∑====.,,,2,1;,,2,1;,,2,1),,0(~,0,0,0,0,21111相互独立各ijkijk s j ij r i ij s j j r i i ijk ij j i ijk t k s j r i N x εσεγγβαεγβαμ (9.18) 其中μ,αi ,βj ,γij 及σ2都为未知参数.(9.18)式就是我们所要研究的双因素试验方差分析的数学模型.我们要检验因素A ,B 及交互作用A ×B 是否显著.要检验以下3个假设:⎩⎨⎧=====.,,:,0:21112101不全为零r r H H αααααα ⎩⎨⎧=====.,,:,0:21122102不全为零s s H H ββββββ ⎩⎨⎧=====.,,:,0:121113121103不全为零rs rs H H γγγγγγ 类似于单因素情况,对这些问题的检验方法也是建立在平方和分解上的.记1111r s tijk i j k x x rst ====∑∑∑, 11tij ijk k x x t •==∑, i =1,2,…,r ; j =1,2,…,s ,111s ti ijk j k x x st ••===∑∑, i =1,2,…,r , 111r tj ijk i k x x rt ••===∑∑, j =1,2,…,s , S T =2111()rstijk i j k x x ===-∑∑∑. 不难验证,,,i j ij x x x x •••••分别是μ,μi ·,μ·j ,μij 的无偏估计.由 ()()()()ijk ijk ij i j ij i j x x x x x x x x x x x x ••••••••••-=-+-+-+--+,1≤i ≤r ,1≤j ≤s ,1≤k ≤t得平方和的分解式:S T =S E +S A +S B +S A ×B , (9.19)其中S E =2111()rstijkij i j k xx •===-∑∑∑,S A =1()2ri i stxx ••=-∑,S B =21()sj j rtxx ••=-∑,S A ×B =211()rsij i j i j txx x x •••••==--+∑∑.S E 称为误差平方和,S A ,S B 分别称为因素A ,B 的效应平方和,SA ×B 称为A ,B 交互效应平方和.当H 01:α1=α2=…=αr =0为真时,F A =[](1)(1)A ES S r rs t -- ~F (r -1,rs (t -1));当假设H 02为真时,F B =[](1)(1)BES S s rs t --~F (s -1,rs (t -1));当假设H 03为真时,F A ×B =[](1)(1)(1)A BES S r s rs t ⨯--- ~F ((r -1)(s -1),rs (t -1)).当给定显著性水平α后,假设H 01,H 02,H 03的拒绝域分别为:(1,(1));(1,(1));(1)(1),(1)).A B A BF F r rs t F F s rs t F F r s rs t ααα⨯≥--⎧⎪≥--⎨⎪≥---⎩ (9.20) 经过上面的分析和计算,可得出双因素试验的方差分析表9-9.在实际中,与单因素方差分析类似可按以下较简便的公式来计算S T ,S A ,S B ,S A ×B ,S E . 记 T ···=111r s tijki j k x===∑∑∑,T ij ·=1tijkk x=∑, i =1,2,…,r ; j =1,2,…,s ,T i ··=11stijkj k x==∑∑, i =1,2,…,r ,T ·j ·=11r tijki k x==∑∑, j =1,2,…,s ,即有221112212212211,1,1,1,.r s tT ijk i j k r A i i s B j j r s A B ij A B i j E T A B A B T S x rst T S T st rst T S T rt rst T S T S S t rst S S S S S •••===•••••=•••••=•••⨯•==⨯⎧=-⎪⎪⎪=-⎪⎪⎪⎨=-⎪⎪⎪=---⎪⎪⎪=---⎩∑∑∑∑∑∑∑ (9.21) 例9.5 用不同的生产方法(不同的硫化时间和不同的加速剂)制造的硬橡胶的抗牵拉强度(以kg ·cm -2为单位)的观察数据如表9-10所示.试在显著水平0.10下分析不同的硫化时间(A ),加速剂(B )以及它们的交互作用(A ×B )对抗牵拉强度有无显著影响.表9-10010203r =s =3, t =2, T ···,T ij ·,T i ··,T ·j ·的计算如表9-11.表9-11S T =22111,r s tijki j k T xrst•••===-∑∑∑=178.44, S A =2211r i i T T st rst•••••=-∑=15.44,S B =2211s j j T T rt rst •••••=-∑=30.11,S A ×B =22111r s ij A B i j T T S S t rst••••==---∑∑ =2.89,S E =S T -S A -S B -S A ×B =130,得方差分析表9-12.由于F 0.10(2,9)=3.01>F A ,F 0.10(2,9)>F B ,F 0.10(4,9)=2.69>F A ×B ,因而接受假设H 01,H 02,H 03,即硫化时间、加速剂以及它们的交互作用对硬橡胶的抗牵拉强度的影响不显著.2.双因素无重复试验的方差分析在双因素试验中,如果对每一对水平的组合(A i ,B j )只做一次试验,即不重复试验,所得结果如表9-13.这时ij x •=x ijk ,S E =0,S E 的自由度为0,故不能利用双因素等重复试验中的公式进行方差分析.但是,如果我们认为A ,B 两因素无交互作用,或已知交互作用对试验指标影响很小,则可将S A ×B 取作S E ,仍可利用等重复的双因素试验对因素A ,B 进行方差分析.对这种情况下的数学模型及统计分析表示如下:由(9.18)式,112,0,0,~(0,),1,2,,;1,2,,,.ij i j ij r si j i j ij ijk x N i r j s μαβεαβεσε===+++⎧⎪⎪==⎪⎨⎪==⎪⎪⎩∑∑各相互独立 (9.22)要检验的假设有以下两个:⎩⎨⎧=====.,,:,0:21112101不全为零r r H H αααααα ⎩⎨⎧=====.,,:,0:21122102不全为零s s H H ββββββ 记 1111111,,,r s s rij i ij j ij i j j i x x x x x x rs s r ••=======∑∑∑∑平方和分解公式为:S T =S A +S B +S E , (9.23)其中 22111(),(),rssT ijA i i j j S xx S s x x •====-=-∑∑∑22111(),(),srsB j E ij i j j i j S r x x S x x x x •••====-=--+∑∑∑分别为总平方和、因素A ,B 的效应平方和和误差平方和.取显著性水平为α,当H 01成立时,F A =(1)AEs S S - ~F ((r -1),(r -1)(s -1)), H 01拒绝域为F A ≥F α((r -1),(r -1)(s -1)). (9.24)当H 02成立时,F B =(1)BEr S S - ~F ((s -1),(r -1)(s -1)), H 02拒绝域为F B ≥F α((s -1),(r -1)(s -1)). (9.25)得方差分析表9-14.例9.6 测试某种钢不同含铜量在各种温度下的冲击值(单位:kg ·m ·cm ),表9-15列出了试验的数据(冲击值),问试验温度、含铜量对钢的冲击值的影响是否显著?(α=0.01)解 由已知,r =4,s =3,需检验假设H 01,H 02,经计算得方差分析表9-16.0.01A 01F 0.01(2,6)=10.92<F B ,拒绝H 02.检验结果表明,试验温度、含铜量对钢冲击值的影响是显著的.第三节 正交试验设计及其方差分析在工农业生产和科学实验中,为改革旧工艺,寻求最优生产条件等,经常要做许多试验,而影响这些试验结果的因素很多,我们把含有两个以上因素的试验称为多因素试验.前两节讨论的单因素试验和双因素试验均属于全面试验(即每一个因素的各种水平的相互搭配都要进行试验),多因素试验由于要考虑的因素较多,当每个因素的水平数较大时,若进行全面试验,则试验次数将会更大.因此,对于多因素试验,存在一个如何安排好试验的问题.正交试验设计是研究和处理多因素试验的一种科学方法,它利用一套现存规格化的表——正交表,来安排试验,通过少量的试验,获得满意的试验结果.1.正交试验设计的基本方法正交试验设计包含两个内容:(1)怎样安排试验方案;(2)如何分析试验结果.先介绍正交表.正交表是预先编制好的一种表格.比如表9-17即为正交表L4(23),其中字母L表示正交,它的3个数字有3种不同的含义:(1) L4(23)表的结构:有4行、3列,表中出现2个反映水平的数码1,2.列数↓L4 (23)↑↑行数水平数(2)L4(23)表的用法:做4次试验,最多可安排2水平的因素3个.最多能安排的因素数↓L4(23)↑↑试验次数水平数(3) L4(23)表的效率:3个2水平的因素.它的全面试验数为23=8次,使用正交表只需从8次试验中选出4次来做试验,效率是高的.L4(23)↑↑实际试验数理论上的试验数正交表的特点:(1)表中任一列,不同数字出现的次数相同.如正交表L4(23)中,数字1,2在每列中均出现2次.(2)表中任两列,其横向形成的有序数对出现的次数相同.如表L4(23)中任意两列,数字1,2间的搭配是均衡的.凡满足上述两性质的表都称为正交表(Orthogonal table).常用的正交表有L9(34),L8(27),L16(45)等,见附表.用正交表来安排试验的方法,就叫正交试验设计.一般正交表L p(n m)中,p=m(n-1)+1.下面通过实例来说明如何用正交表来安排试验.例9.7 提高某化工产品转化率的试验.某种化工产品的转化率可能与反应温度A,反应时间B,某两种原料之配比C和真空度D有关.为了寻找最优的生产条件,因此考虑对A,B,C,D这4个因素进行试验.根据以往的经验,确定各个因素的3个不同水平,如表9-18所示.表9-18分析各因素对产品的转化率是否产生显著影响,并指出最好生产条件.解本题是4因素3水平,选用正交表L9(34).将各因素的诸水平所表示的实际状态或条件代入正交表中,得到9个试验方案,如表9-20所示.表9-20从表9-20看出,第一行是1号试验,其试验条件是:反应温度为60℃,反应时间为2.5小时,原料配比为1.1∶1,真空度为500毫米汞柱,记作A1B1C1D1.依此类推,第9号试验条件是A3B3C2D1.由此可见,因素和水平可以任意排,但一经排定,试验条件也就完全确定.按正交试验表9-20安排试验,试验的结果依次记于试验方案右侧,见表9-21.2.试验结果的直观分析正交试验设计的直观分析就是要通过计算,将各因素、水平对试验结果指标的影响大小,通过极差分析,综合比较,以确定最优化试验方案的方法.有时也称为极差分析法.例9.7中试验结果转化率列在表9-21中,在9次试验中,以第9次试验的指标86为最高,其生产条件是A 3B 3C 2D 1.由于全面搭配试验有81种,现只做了9次.9次试验中最好的结果是否一定是全面搭配试验中最好的结果呢?还需进一步分析. (1) 极差计算在代表因素A 的表9-21的第1列中,将与水平“1”相对应的第1,2,3号3个试验结果相加,记作T 11,求得T 11=151.同样,将第1列中与水平“2”对应的第4,5,6号试验结果相加,记作T 21,求得T 21=183.一般地,定义T ij 为表9-21的第j 列中,与水平i 对应的各次试验结果之和(i =1,2,3; j =1,2,3,4).记T 为9次试验结果的总和,R j 为第j 列的3个T ij 中最大值与最小值之差,称为极差.显然T =31iji T=∑,j =1,2,3,4.此处T 11大致反映了A 1对试验结果的影响,T 21大致反映了A 2对试验结果的影响, T 31大致反映了A 3对试验结果的影响,T 12,T 22和T 32分别反映了B 1,B 2,B 3对试验结果的影响, T 13,T 23和T 33分别反映了C 1,C 2,C 3对试验结果的影响, T 14,T 24和T 34分别反映了D 1,D 2,D 3对试验结果的影响.R j 反映了第j 列因素的水平改变对试验结果的影响大小,R j 越大反映第j 列因素影响越大.上述结果列表9-22.(2) 极差分析(Analysis of range)由极差大小顺序排出因素的主次顺序:主→次 B ;A 、D ;C这里,R j 值相近的两因素间用“、”号隔开,而R j 值相差较大的两因素间用“;”号隔开.由此看出,特别要求在生产过程中控制好因素B ,即反应时间.其次是要考虑因素A 和D ,即要控制好反应温度和真空度.至于原料配比就不那么重要了.选择较好的因素水平搭配与所要求的指标有关.若要求指标越大越好,则应选取指标大的水平.反之,若希望指标越小越好,应选取指标小的水平.例9.7中,希望转化率越高越好,所以应在第1列选最大的T 31=185;即取水平A 3,同理可选B 3C 1D 3.故例9.7中较好的因素水平搭配是A 3B 3C 1D 3.例9.8 某试验被考察的因素有5个:A ,B ,C ,D ,E .每个因素有两个水平.选用正交表L 8(27),现分别把A ,B ,C ,D ,E 安排在表L 8(27)的第1,2,4,5,7列上,空出第3,6列仿例9.7做法,按方案试验.记下试验结果,进行极差计算,得表9-23.试验目的要找出试验结果最小的工艺条件及因素影响的主次顺序.从表9-23的极差R j的大小顺序排出因素的主次顺序为主 → 次 A 、B ;D ;C 、E最优工艺条件为A 2B 1C 1D 2E 1.表9-23中因没有安排因素而空出了第3,6列.从理论上说,这两列的极差R j 应为0,但因存有随机误差,这两个空列的极差值实际上是相当小的.3.方差分析正交试验设计的极差分析简便易行,计算量小,也较直观,但极差分析精度较差,判断因素的作用时缺乏一个定量的标准.这些问题要用方差分析解决.设有一试验,使用正交表L p (n m ),试验的p 个结果为y 1,y 2,…,y p ,记T =1pi i y =∑, y =11p i i Ty p p ==∑,S T =21()pii yy =-∑为试验的p 个结果的总变差;S j =222111nn ij ij i i T T T r T r p r p ==⎛⎫-=- ⎪⎝⎭∑∑ 为第j 列上安排因素的变差平方和,其中r =p/n .可证明S T =1mij S=∑即总变差为各列变差平方和之和,且S T 的自由度为p -1,S j 的自由度为n -1.当正交表的所有列没被排满因素时,即有空列时,所有空列的S j 之和就是误差的变差平方和S e ,这时S e 的自由度f e 也为这些空列自由度之和.当正交表的所有列都排有因素时,即无空列时,取S j 中的最小值作为误差的变差平方和S e .从以上分析知,在使用正交表L p (n m )的正交试验方差分析中,对正交表所安排的因素选用的统计量为:F =1jeeS S n f -.当因素作用不显著时,F ~F (n -1,f e ),其中第j 列安排的是被检因素.在实际应用时,先求出各列的S j /(n -1)及S e /f e ,若某个S j /(n -1)比S e /f e 还小时,则这第j 列就可当作误差列并入S e 中去,这样使误差S e 的自由度增大,在作F 检验时会更灵敏,将所有可当作误差列的S j 全并入S e 后得新的误差变差平方和,记为S e Δ,其相应的自由度为f e Δ,这时选用统计量F =1je eS S n f - ~F (n -1,f e Δ).例9.9 对例9.8的表9-23作方差分析.解 由表9-23的最后一行的极差值R j ,利用公式S j =2211n ij i T T r p=-∑,得表9-24.表9-24表9-24中第3,6列为空列,因此S e =S 3+S 6=1.250,其中f e =1+1=2,所以S e /f e =0.625,而第7列的S 7=0.125,S 7/f 7=0.1251=0.125比S e /f e 小,故将它并入误差. S e Δ=S e +S 7=1.375,f e Δ=3.整理成方差分析表9-25.eeS fC 3.125 1 3.125 6.818D 6.125 1 6.125 13.364E Δ 0.125 1 0.125 e 1.1250 2 0.625 e Δ 1.37530.458由于F 0.05(1,3)=10.13, F 0.01(1,3)=34.12,故因素A ,B 作用高度显著,因素C 作用不显著,因素D 作用显著,这与前面极差分析的结果是一致的.F 检验法要求选取S e ,且希望f e 要大,故在安排试验时,适当留出些空列会有好处的.前面的方差分析中,讨论因素A 和B 的交互作用A ×B .这类交互作用在正交试验设计中同样有表现,即一个因素A 的水平对试验结果指标的影响同另一个因素B 的水平选取有关.当试验考虑交互作用时,也可用前面讲的基本方法来处理.本章就不再介绍了.小 结本章介绍了数理统计的基本方法之一:方差分析.在生产实践中,试验结果往往要受到一种或多种因素的影响.方差分析就是通过对试验数据进行分析,检验方差相同的多个正态总体的均值是否相等,用以判断各因素对试验结果的影响是否显著.方差分析按影响试验结果的因素的个数分为单因素方差分析、双因素方差分析和多因素方差分析.1. 单因素方差分析的情况.试验数据总是参差不齐,我们用总偏差平方和S T =211()jn sijj i xx ==-∑∑来度量数据间的离散程度.将S T 分解为试验随机误差的平方和(S E )与因素A 的偏差平方和(S A )之和.若S A 比S E 大得较多,则有理由认为因素的各个水平对应的试验结果有显著差异,从而拒绝因素各水平对应的正态总体的均值相等这一原假设.这就是单因素方差分析法的基本思想.2. 双因素方差分析的基本思想类似于单因素方差分析.但双因素试验的方差分析中,我们不仅要检验因素A 和B 各自的作用,还要检验它们之间的交互作用.3. 正交试验设计及其方差分析.根据因素的个数及各个因素的水平个数,选取适当的正交表并按表进行试验.我们通过对这少数的试验数据进行分析,推断出各因素对试验结果影响的大小.对正交试验结果的分析,通常采用两种方法,一种是直观分析法(极差分析法),它通过对各因素极差R j 的排序来确定各因素对试验结果影响的大小.一种是方差分析法,它的基本思想类似于双因素的方差分析. 重要术语及主题单因素试验方差分析的数学模型 S T =S E +S A单因素方差分析表 双因素方差分析表 正交试验表极 差分析表习题九1.灯泡厂用4种不同的材料制成灯丝,检验灯线材料这一因素对灯泡寿命的影响.若灯泡寿命服从正态分布,不同材料的灯丝制成的灯泡寿命的方差相同,试根据表中试验结果记录,在显著性水平0.05下检验灯泡寿命是否因灯丝材料不同而有显著差异?2.一个年级有三个小班,他们进行了一次数学考试,现从各个班级随机地抽取了一些学生,试在显著性水平0.05下检验各班级的平均分数有无显著差异.设各个总体服从正态分布,且方差相等.4.为了解3种不同配比的饲料对仔猪生长影响的差异,对3种不同品种的猪各选3头进行试验,分别测得其3个月间体重增加量如下表所示,取显著性水平α=0.05,试分析不同饲料与不同品种对猪的生长有无显著影响?假定其体重增长量服从正态分布,且各种配比的方5.研究氯乙醇胶在各种硫化系统下的性能(油体膨胀绝对值越小越好)需要考察补强剂(A)、防老剂(B)、硫化系统(C)3个因素(各取3个水平),根据专业理论经验,交互4(2) 给定α=0.05,作方差分析与(1)比较.6.某农科站进行早稻品种试验(产量越高越好),需考察品种(A),施氮肥量(B),氮、磷、钾肥比例(C),插植规格(D)4个因素,根据专业理论和经验,交互作用全忽略,早(1) 试作出最优生产条件的直观分析,并对4因素排出主次关系.(2) 给定α=0.05,作方差分析,与(1)比较.。
第九章 方差分析

二、随机区组设Βιβλιοθήκη 的方差分析◦ 考虑到个体差异对结果的影响,根据已有数据或经验,
把被试按视觉反应的快慢分成不同的组,这每组被试也 称之为一个“区组”。同一区组中的被试随机地接受某一 种色光的反应时实验。这种实验设计叫做随机区组设计 (randomized block design)
该实验设计采用随机区组是成功的、必要的〈相对
于完全随机设计〉。若区组效应不显著时 , 说明主试 在划分区组时没有成功或者所取的被试本来就基本 同质没必要再划分区组。
作业:
让4名被试先后做3套认识率相同而汉字不同的组词 测验,其结果如下表,问3套测验是不是平均数相等的 复本测验?
从小学新生中随机抽取20人,并随机地分为四组进行 识字教学法的实验,每组分别用一种方法。学期结束 时对学习效果进行统一测试,结果如下。试问四种识
例:
2. 自由度的计算
3、方差(均方)的计算
(三)F检验
(四)制作方差分析表
四、方差分析的基本条件
正态性 同质性
可加性
五、方差齐性检验 (一)意义
定义:检验各总体方差是否一致的统计方法。 目的:保证样本组的同质性 假设:
Ho: σ12=σ22 =…=σk2 H1:至少两个总体方差有显著差异。
区组内:同质 区组间:异质 每一区组的被试数目
◦ 一个个体:X
◦ 实验处理数的整倍数:X
◦ 团体单位: X
(一)方差分析
1. 原理
2. 分析过程
应该指出无论区组效应显著还是不显著 ,对实验目的 而言,并没有什么重要意义,也就是说,区组变异与 组间变异是彼此独立的。当区组效应显著时,说明
华西统计第九章(方差分析)2009

三种方案治疗后血红蛋白增加量( 三种方案治疗后血红蛋白增加量(g/L)
方案 A B C
X 24 36 25 14 26 34 23 20 18 17 10 19 24 20 11 6 3 0 -1 4 5
9.1 方差分析(ANOVA) 方差分析( (analysis of variance)
• 用途:
四种温度下测量家兔的血糖浓度值(mmol/L) 四种温度下测量家兔的血糖浓度值(mmol/L)
温度 15 82.22 110.10 100.15 74.20 80.57 102.77 20 82.30 83.17 110.30 82.43 97.90 81.20 25 90.14 100.78 120.55 100.66 115.76 90.30 30 112.76 140.62 120.49 110.31 103.56 138.54
2 (∑Xij ) 2 2 SS组 = ∑∑ Xij − Xi = ∑ ∑Xij − 内 ni i j i j
(
)
ν组内 = n−k
组内变异:各处理组内部的观察值也大 小不等,这种变异称为组内变异。它包 含随机误差(个体差异,测量误差等)。
2 (∑Xij ) 2 2 SS组内 = ∑∑ Xij − Xi = ∑∑Xij − ni i j i j
方案 A B
X 24 36 25 14 26 34 23 20 18 17 10 19 24
例 2
某医师用A、B和C三种方案治疗婴儿贫 血患者,A方案为每公斤体重每天口服 2.5%的硫酸亚铁1ml,B 方案为口服2.5% 的硫酸亚铁0.5ml,C方案为口服鸡肝粉 1g。治疗一个月后,记录血红蛋白的增 加克数(g/L),资料下表。
医学统计学第九章方差分析课件PPT

17.40
25.61 19.12
21.36
19.53 15.31
21.75
12.65
19.47
18.48
15.51
19.83
10.86
23.12
27.81
19.22
21.65
19.22
16.32
16.72
20.75
27.90
22.11
11.74
13.17
24.66
17.55
14.18
19.26
16.52
SS组间 SS B ni ( X i X )
i 1
k
2
组间 k 1
2.组间变异:各组均数与总均数的离均差平方和,反
映处理因素的作用和随机误差的影响
SS组间 21(9.1952 6.8650)2 19(5.8000 6.8650)2 20(5.4300 6.850)2 176.7612
MS 909.8723 / 57 15.9627
三种变异的关系:
SS总 SS组间 SS组内
总 组间 组内
检验统计量:
MS组间 F , 1 组间 , 2 组内 MS组内 如果 1 2 k ,则 MS 组间 ,MS 组内 都为
进行多次(k)假设检验,犯第一类错误的概率: 1-(1-)k 组数为4, k=6, 1-(1-0.05)k=0.2649 组数为5, k=10, 1-(1-0.05)k=0.4013 组数为6, k=15, 1-(1-0.05)k=0.5400
第九章 方差分析
analysis of variance, ANOVA
1412ff100806040200?1?1?2?5?1?5?2?5?1?10?2?1012f34f分布曲线0变异分解c??xn2完全随机设计资料的方差分析表变异来源总变异自由度n1k1ssms2f?x?c2组间?nixi?xiss组间?组间ss组内ms组间ms组内组内nkss总?ss组间?组内引例某医生为研究一种四类降糖新药的疗效以统一的纳入标准和排除标准选择了60名2型糖尿病患者按完全随机设计方案将患者分为三组进行双盲临床试验
第九章 方差分析ppt课件

(3)计算F值。
精选PPT课件
18
(4) 确定显著性水平和F临界值 取α=0.05,查F分布表得 F0.05(3,14) 3.34。由于计
算的F=3.52> F0.05(3,14) 3.34,P<0.05,所以拒绝原假
设,接受备择假设,认为各组平均数中至少有一对不
精选PPT课件
25
计算自由度: dBfk 14 13;
dW fk n k4 5 4 1;6
df T df B df W =16+3=19
求均方:
MS B
SS B df B
370122.3 3
,
MSW
SSW dfW
35622.25 16
(3)计算F值:
FMBS12.325.50 MW S 22.25
1、提出假设 2、计算平方和与自由度 3、计算F值 4、确定显著性水平并查F临界值表 5、列方差分析总表
精选PPT课件
3
一、方差分析的逻辑思想
1、方差分析是一种综合的检验方法
方差分析是对引起方差变化的各种因 素进行统计分析,检验引起各样本差异 的主要原因(或因素),并与理论值比 较,以判断其显著性。
首先将总体变异分解成样本组间变异 和由抽样误差等其它原因产生的组内变 异,然后分析变异各组成部分的关系。
如果样本组间变异比抽样误差等其它 原因产生的变异显著地大,则认为样本 组间有本质性的差异,否则,认为样本 组间无本质差异。
精选PPT课件
6
在方差分析中,观测值之间的差异情 况用离差平方和表示,符号为SS。方差分析首先 是把总体平方和分解为组间平方和和组内平方和, 即:
PPT教学课件方差分析

现实主义诗人
现实主义诗人:杜甫
杜甫生活在安史之乱前后由盛转衰的时代,一生贫困失 意,颠沛流离,因而他的诗揭露了统治阶级政治昏庸、生活 腐朽,反映了下层人民在战乱前后的悲惨境遇,表现了对劳 动人民的同情和对国事的关怀。他的诗风深沉浓郁,跌宕有 致;语言上的功力非常深厚,“为人性僻耽佳句,语不惊人 死不休”,后人称他为“诗圣”。
– 政治:开明的政治及文化政策和科举“以诗取士”, 不仅使文人思想开放、活跃,直接刺激了诗歌创作 的迅猛发展。
– 经济:国家的统一和国力的强盛,为诗歌的发展准 备了必要的物质条件;
– 文化:南北、中外的文化交流也提供了深厚的文化 基础
时期 初唐 盛唐
中唐 晚唐
唐诗
代表人物
王勃 陈子昂
(边塞诗人) 高适 岑参 (山水诗人) 孟浩然 王维
4. 将处理平均数由大到小排序,并依次求出各处理之间的差值,将各 差值与相应秩次距下的Rα相比较,作出差异显著性判断。同样有:
相应秩次距的 R0.01 > 平均数差值 ≥ 相应秩次距的R0.05,则两处理平均 数间差异为显著;
平均数差值 ≥相应秩次距的 R0.01 ,则两处理平均数间差异为极显著; 相应秩次距的R0.05 > 平均数差值 ,则两处理平均数间差异为不显著。 可将此方法求出的Rα以表表示更为清楚方便,见表9-2。
代表作:“三吏” “三别” 石壕吏 杜甫
暮投石壕村,有吏夜捉人。老翁逾墙走,老妇出门看。
吏呼一何怒,妇啼一何苦。听妇前致词:“三男邺城戍。
一男附书至,二男新战死。存者且偷生,死者长已矣。
室中更无人,惟有乳下孙。有孙母未去,出入无完裙。
老妪力虽衰,请从吏夜归。急应河阳役,犹得备晨炊。
夜久语声绝,如闻泣幽咽。天明登前途,独与老翁别。
第九章----方差分析

若组间变异明显大于组内变异, 则不能认为组 间变异仅反映随机误差的大小, 处理因素也在起 作用。根据计算出的检验统计量F值, 查界值表 得到相应的P值, 按所取检验水准α作出统计推断 结论。
检验统计量F值服从F分布。
F<Fα,(ν组间, ν组内),则P > α, 不拒绝H0, 还不能认 为各样本所来自的总体均数不同;
1、各样本是相互独立的随机样本, 且来自 正态分布的总体;
2、相互比较的各样本的总体方差相等, 即 具有方差齐性。 独立性、随机性、正态性、方差齐性
五、方差分析的用途
1、用于进行两个或多个样本均数的比较; 2、分析两因素或多因素间的交互作用; 3、用于回归方程的线性假设检验。
六、方差分析的优点
1、不受比较组数的限制,可比较多组均数; 2、可同时分析多个因素的作用; 3、可分析因素间的交互作用.
一、多个样本均数间的比较能否用 t 检 验或 u 检验?为什么?
原因:
五个样本均数进行比较, 每次两个均数作一次 t 检验, 共需作10(C52=10)次 t 检验。若每次比 较的检验水准α=0.05, 则每次比较不犯Ⅰ型错误 的概率为(1-α)=0.95。当这些检验独立进行 时, 则10次比较均不犯Ⅰ型错误的概率为0.9510= 0.5987, 此时犯Ⅰ型错误的概率, 即总的检验水准 α变为1-0.5987=0.4013比0.05大的多。犯Ⅰ型错 误的概率增大, 可能将原本无差别的两个总体推 断为有差别, 误判为有统计意义。因此多重比较 不宜用的 t 检验或 u检验作两两比较。
已知各组均数、标准差和样本含量时F值 的简便计算方法。
当原始数据未知, 只知各组均数、标准差和 样本含量时, 可进行如下计算, 分两种情况: 1、各组样本含量ni相等; 2、各组样本含量ni不等。
第章_方差分析PPT资料

要进展方差分析,前提条件是被检验的样本为服从正态 分布总体中的随机样本,各个总体的规范差相等,并且 样本的选择是独立的。
北通常用两个方差来衡量,一个是基于样本 均值之间差别的要素程度间方差,另一个是基于样本内 部差别的要素程度内方差。假设这两个方差的比值近似 为1,方差分析的结果可以得到总体均值一样。假设这 两个方差的比值偏离1,方差分析的结果可以得到总体 均值不一样。
因素水平间方差 以针不对一 两致个。要素进展的。
〔在2单〕要确素定方显差著分性析程中度,;有三个平方和〔SS〕:总离差平方和SST、要素程度间离差平方和 研讨SSA、要素程度内离差平方和SSE。 这当三方个 差平分方析和检之验间的存结在果以回下绝关原系假式设。时,只能得到各程度间的样本均值不完全一样的结论。
北京理工大学管理与经济学院
在单要素方差分析中,有三个平方和〔SS〕:总离差平方和SST、要素程度间离差平方和 研讨SSA、要素程度内离差平方和SSE。 实 〔践1〕中建对立某原个假结设果和的备影择响假要设素;能够有多个而不是独一的,这时就需求进展双要素甚至于多要素方差分析。 这单三要个 素平方方差和分之析间〔存On在e-W以a下y 关an系aly式sis。of variance〕是针对一个要素所进展的,而双要素方差分析〔Two-Way analysis of variance〕那么是
方差分析中所用到的概率分布是 分布,该分布是为留 方针差对分 两析个的要对素象进称展为的要。素〔Factor〕,要素的内容称为要素程度〔Factor level〕。
F 实践中对某个结果的影响要素能够有多个而不是独一的,这时就需求进展双要素甚至于多要素方差分析。
念 著 名 统 计 学 家 R.A.Fisher〔1890 - 1962〕 而 得 名 。 要 假这设三这 个两平个方方和差之的间比存值在偏以离下关1,系方式差。分析的结果可以得到总体均值不一样。
第九章方差分析-PPT精选文档60页

§1 单因子方差分析
§1.1 基本概念
为了考察某个因素 A 对试验指标(即随机变量 X)
的影响,在试验时,保持其他因素不变,而仅让因素 A
改变,这种试验称为单因子(单因素)试验. 设试验结
果如下表:
水平
观测值
A1
x11
x12
...
x1n1
A2
x21
x22
…
x2n2
…
…
…
…
…
Ar
xr1
xr2
…
xrnr
• 为了今后方便起见,把参数的形式改变一下,并
记
1 n
r i1
nii
r
nni i1
i i , i 1,2,...,r,
称μ为一般平均,αi为因子A的第i 个水平的效应.
• 在这样的改变下,单因子方差分析模型中的数 据结构式可以写成:
X i j i i,j i 1 ,2 ,.r ;.j .1 ,2 ,,.n i..,
SA
2
~
2(r 1)
且SA与SE相互独立.
由于SA反映的是因子不同水均平值之间的差
异程度,故当假设H0 :1 2 ...r 0为真时,
SA的值不应太大 ,从而
F SA /(r 1) SE /(nr)
也不应太大,当F值过大时,可以认为假设 H0不真.
§1.4 检验过程
由此,可 当H0知 :12...n0为真 , 时
(X i jX i.2 ) (X i. X ) 2 2 (X i jX i.(X )i. X )
i 1j 1
i 1j 1
i 1j 1
r ni
概率统计(第九章 方差分析)

第九章方差分析◆本章要点(1)方差分析的概念;(2)单因素试验的方差分析原理与方法;(3)双因素无重复试验的方差分析原理与方法;(4)双因素等重复试验的方差分析原理与方法。
◆基本要求(1)理解方差分析的概念;了解方差分析的原理(2)掌握单因素试验的方差分析原理与方法;(3)了解双因素无重复试验的方差分析方法;(4)了解双因素等重复试验的方差分析方法。
主要学习内容9.1 单因素试验的方差分析9.2 双因素无重复试验的方差分析9.3 双因素等重复试验的方差分析9.1单因素试验的方差分析●方差分析在科学实验或生产实践中,任何事物总是受很多因素影响的.例如,工业产品的质量受原料、机器、人工等因素的影响。
农作物的产量受种子、肥料、土壤、水分、天气等因素的影响.利用试验数据,分析各个因素对该事物的影响是否显著,数理统计中所采用的一种有效方法就是方差分析.●单因素试验的概念为了分析某一个因素A对所考察的随机变量ξ的影响,我们可以在试验时让其它因素保持不变,而只让因素A改变,这样的试验叫做单因素试验,因素A所处的状态叫做水平.●单因素试验的方差分析原理设因素A有不同水平,各水平对应的总体服从正态分布,i=1,2,...,l; 这里,我们假定各有相同的标准差σ,但各总体均值可能不同.例如,可以是用l种不同工艺生产的电灯泡的使用寿命,或者是l个不同品种的小麦的单位面积产量,等等.在水平进行n i次试验,i=1,2,...,l;我们假定所有的试验都是独立的.设得到样本观测值x ij如下表:因为在水平下的样本观测值与总体服从相同的分布,所以有,(i=1,2,...,l) (9.1)我们的任务就是根据这l组观测值来检验因素A对试验结果的影响是否显著.如果因素A的影响不显著,则所有样本观测值就可以看作是来自同一总体,因此要检验的原假设是; (9.2)令.当(9.2)成立时,各则原假设(9.2)等价于.方差分析问题实质上是一个假设检验问题,下面探讨如何构造合适的统计量.●方差分析统计量的构造(1)定义组内平均值总平均值,总离差平方和,组间平方和误差平方和S A反映各组样本之间的差异程度,即由于因素A的不同水平所引起的系统差异;S e反映各种随机因素引起的试验误差.(2)几个重要结论我们可以导出如下结论:1) ; 证明2) S A与S e是相互独立的;3) ;4) 若H0成立,则,.总离差平方和分解式的证明即定义了现要证明:证明因为又因为所以(3)构造F统计量利用以上结论,定义:组间平均平方和;误差平均平方和考察统计量,它服从什么分布?因为,利用上面的结论及F分布的定义可知F~F(l-1,n-l)● 方差分析的方法如果因素A 的各个水平对总体的影响差不多,则组间平方和S A 较小,因而F 也较小;反之,如果因素A 的各个水平对总体的影响显著不同,则组间平方和S A 较大,因而F 也较大.由此可见,我们可以根据F 值的大小来检验上述原假设H 0.对于给定的显著性水平α,由F 分布表5查得相应的分位数.如果由样本观测值计算得到的F 的值大于,则在水平α下拒绝原假设H 0,即认为因素A 的不同水平对总体有显著影响;如果F 的值不大于,则接受H 0,即认为因素A 的不同水平对总体无显著影响.通常分别取α=0.05和α=0.01,按F 所满足的不同条件作出不同的判断:通常还根据计算结果,列出如下方差分析表:例1 例2注:有时为了简化计算,可把全部观察值x ij 减去或加上一个常数C,并不影响离差平方和的计算结果. ● 例1用四种不同的工艺生产电灯泡. 从各种工艺生产的电灯泡中分别抽取样品,并测得样品的寿命(小时)如下:3试检验这四种工艺生产的电灯泡寿命是否有显著差异.解 为了化简计算,把全部观察值减去常数1500,再计算各离差平方和后可得方差分析表:其中n 1=5, n 2=4, n 3=3, n 4=4, l =4, n =16. 因为F =4.06介于F 0.05(3,12)和F 0.01(3,12)之间,故可认为不同工艺生产的电灯泡寿命是有显著差异的. 第一种工艺生产的电灯泡平均寿命为1708小时,明显比其它工艺生产的电灯泡平均寿命大,故应采纳此工艺.● 例2对于高压电的电路网络,需要使用抗张强度较大而且均匀性较好的电缆.每一条电缆是由同样长度的导线12根合并而成. 现在为了检验一批电缆所用导线的抗张强度是否来自同一正态总体, 抽查了9条电缆的每一根导线的抗张强度, 测试值(kg )如下表所示(为了化简计算,全部测试值都减去了340)3试检验这9条电缆的抗张强度是否有显著差异.解把9条电缆看作9个不同水平,同一条电缆中的12条导线的测试值可认为是在同一水平下作12次测试. 此时,l=9, n i=12 (i=1,2,…,l), n=108. 计算得S A=1924.3, S e=2626.9再列出方差分析表:因为F=9.07>2.70=F0.01(8,99), 故可认为这9条电缆的抗张强度有显著差异.9.2双因素无重复试验的方差分析双因素试验的方差分析原理如果我们要同时考虑两个因素A与B对所考察的随机变量ξ是否有影响的问题,则应讨论双因素试验的方差分析.设因素A 有不同水平,因素B 有不同水平,在它们的每一种搭配(A i,B j)下的总体服从正态分布,i=1,2,...,l;j=1,2,…,m.这里,我们假定各有相同的标准差σ,但各总体均值可能不同. 所谓无重复试验就是因素A和B的每一种水平搭配(A i,B j)下仅取一个观察值x ij. 我们假定所有的试验都是独立的. 全部样本观测值x ij可用下表表示:因为观测值与总体服从相同的分布,所以有,(i=1,2,...,l,j=1,2,…,m) (9.24)我们的任务就是根据这些观测值来检验因素A和B对试验结果的影响是否显著. 令显然有,,因此可表示为若因素A或B的影响不显著,则其各水平的效应为零.要检验的原假设可分别设为,(9.33),(9.34)●方差分析统计量的构造(1)定义第i行平均值第j列平均值总平均值,总离差平方和,因素A的离差平方和,因素B的离差平方和,误差平方和.S A与S B分别反映因素A和B的不同水平所引起的系统差异;而S e则反映各种随机因素引起的试验误差.(2)几个重要结论我们可以导出如下结论:1) ;2) S A、S B、S e是相互独立的;3) ;4) 若H01成立,则,5) 若H02成立,则.(3)构造F统计量利用以上结论,定义:因素A的平均平方和;因素B的平均平方和;误差平均平方和.考察统计量,利用上面的结论及F分布的定义可知当H01成立时,F A~F(l-1,(l-1)(m-1)),当H02成立时,F B~F(m-1,(l-1)(m-1)).●方差分析的方法与单因素试验方差分析方法相仿,我们可以根据F A与F B的值的大小来检验上述原假设H01与H02。
方差分析(ANOVA)又称F检验,其目的是推断多组资料的总体均数.

可见,方差分析的基本思想就是根据实验设计
的类型,将全部测量值总的变异分解成两个或多个
部分,每个部分的变异可由某个因素的作用(或某
几个因素的作用)加以解释,通过比较各部分的均
方与随机误差项均方的大小,借助 F 分布来推断各 研究因素对实验结果有无影响。
二、方差分析的应用条件
(1)各观测值相互独立,并且服从正态分布;
(2)各组总体方差相等,即方差齐性。
第二节
完全随机设计资料的方差分析
一、完全随机设计 完全随机设计是采用完全随机化的分组方法, 将全部试验对象分配到g个处理组,各处理组分别 接受不同的处理,试验结束后比较各组均数之间差 别有无统计学意义,以推断处理因素的效应。
二、变异分解
完全随机设计资料的方差分析表
MS 的大小就反映了各部分变异的平均大小。
方差分析就是通过比较组内均方 MS组内和组间 均方 MS组间 的大小关系来判断处理因素有无效应。
如果各组的总体均数相等,即无处
检验统计量:
F
MS 组间 MS 组内
理因素的作用,则组内变异和组间 变异都只反映随机误差的大小,此
组间 和组内均方 MS 时组间均方MS 组内 组间
各种变异之间的关系是:
SS总 SS处理 SS区组 SS误差
其中:
v总 v处理 v区组 v误差
v区组 n 1
v误差 (n 1)(g 1)
v总 N 1 v处理 g 1
(1)总变异:反映全部试验数据间大小不等的状况,
SS总 X 2 C
SS区组 B2 j (2022 1662 2182 1252 1732 1282 C 56896.89 2377.111 g 3
第九章回归分析与方差分析

i =1
i =1
由公式(8)得
bˆ = lxy
=
10
∑ xi
i =1
yi
−
1 10
10
∑
i =1
xi
10
∑
i =1
yi
l xx
10
∑
xi2
i =1
−
1 10
10
∑
i =1
xi
2
43130000 − 1 × 20700 ×19900
=
10 45690000 − 1 ( 20700 )2
但是我们无法从一个变量确切知道另一个变量,它们之间是一种非确定性关系。又如,任一
家庭的年支出 Y 与该家庭的年收入 X 之间存在密切的关系,但是我们无法从一个变量确切知 道另一个变量,它们之间是一种非确定性关系。再如广告费 X 与销售量 Y 之间存在密切的关
系,但是我们也无法从一个变量确切知道另一个变量,它们之间也是一种非确定性关系。这 一种非确定性关系,我们称之为相关关系。
n
Q(a,b) = ∑ ( yi − a − bxi )2 i =1
(2.4)
所谓 a, b 的最小二乘估计,就是选择 aˆ, bˆ ,使得
Q ( aˆ, bˆ ) = min Q ( a, b )
(2.5)
将 Q = Q ( a, b ) 分别对 a, b 求偏导数:
∂Q ∂a
=
n
−2 ∑ ( yi
在研究相关变量之间的关系时,我们常常可以把变量分成两类,一类变量带有“原因” 的性质,称为自变量或回归变量;另一类变量带有“结果”的性质,称为因变量或响应变量。 研究这种带有因果关系变量之间的相关关系的一个有力工具是回归分析,它是数理统计的一
第九章方差分析实习指导(定)

第九章方差分析[教学要求]了解:方差齐性检验和变量变换。
熟悉:方差分析的前提条件;多个样本均数的两两比较。
掌握:方差分析的基本思想;各种设计方案(完全随机设计、随机区组设计、析因设计、重复测量设计等)变异和自由度的分解方法。
[重点难点]第一节完全随机设计资料的方差分析一、方差分析的基本思想方差分析的基本思想就是把全部观察值间的变异——总变异按设计和需要分解成两个或多个组成部分,总自由度也分解成相应的几个部分,再作分析。
分解的每一部分代表不同的含义,其中至少有一部分代表各均数间的变异情况,另一部分代表误差。
全部试验数据大小不同,这种变异称为总变异,该变异既包括了随机误差(含个体差异和测量误差),也包括了处理效应的作用。
各处理组样本均数各不相同,与总均数也不相同,这种变异称为组间变异(variation between groups),它反映了处理的影响,同时也包括了随机误差(含个体差异和测量误差)。
各处理组内部观察值大小不同,这种变异称为组内变异(variation within groups),组内变异仅反映随机误差(含个体差异和测量误差)。
一般地,S S S S S S =+总组间组内ννν=+总组间组内(9-1)二、完全随机设计资料方差分析的基本步骤完全随机设计资料的方差分析用于成组设计多个样本均数的比较,属单向(因素)方差分析(one-way ANOV A),它将数据按一个方向(即同一处理的不同水平或不同处理)进行分组整理。
方差分析的基本步骤同其它假设检验,也分为三步。
(1)建立检验假设,确定检验水准H0:多个总体均数全相等;H 1:多个总体均数不全相等,即至少有两个总体均数不等。
α=0.05(2) 计算检验统计量表9-1 完全随机设计方差分析的计算公式变异来源 SS df MSF组间(处理组间)2()iiin XX -∑k –1 1SS k -组间MS MS 组间组内组内(误差)2(1)i i in S -∑N –kSS N k-组内总22()X XN-∑∑N –11SS N -总(3) 确定P 值,作出推断结论以求F 值时分子的自由度ν1=ν组间、分母的自由度ν2=ν组内查F 界值表得P 值,P 和α比较得出推断结论。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
100.15 110.30 74.20 82.43 80.57 97.90
102.77
81.20
138.54
ss总 ss组间 ss组内
SS区组 区组变异 SS误差 测量误差等
变异的分解
总 处理 区组 误差
( N 1) (k 1) (b 1) (k 1)(b 1)
3.98
4.04 3.44
4.44
6.16 5.99
7.28
7.51 7.51
3.77
3.65 4.91 4.79 5.31 4.05 5.16
6.67
5.29 4.70 5.05 6.01 5.67 4.68
7.74
8.19 7.15 8.18 5.53 7.79 8.03
SS总
SS组间
SS误差
C
20
11
6
3
0
-1
4
5
9.1 方差分析(ANOVA) (analysis of variance)
用途:
比较k个总体均数间差别有无统 计学意义
基本思想:
将总变异按设计和需要分解成两 个或多个部分
例9.1
为研究大豆对缺铁性贫血的恢复作用, 某研究者进行了如下实验:
选取已做成贫血模型的大鼠36只,随机等 分为3组,每组12只,分别用三种不同的饲 料喂养:不含大豆的普通饲料、含10%大 豆饲料和含15%大豆饲料。喂养一周后, 测定大鼠红细胞数(×1012/L),见表9.1。
变异的分解
ss总 ss组间 ss组内
总 组间 组内
总变异
SS总 X ij X
i j
2
X X ij / n i j i j
2 ij
2
全部试验数据大小不等,这种变异 称为总变异,其大小可用观察值与 总均数的离均差平方和表示,记为 SS总
120.55 100.66 115.7 6 90.30
120.49 110.31 103.56
6
102.77
81.20
138.54
四种温度下测量家兔的血糖浓度值(mmol/L)
温度 15 82.22 110.10 20 82.30 83.17 25 90.14 100.78 120.55 100.66 115.7 6 90.30 30 112.76 140.62 120.49 110.31 103.56
SS总= SS处理+ SS区组+ SS误差
配伍组设计方差分析具体步骤
表9.4 四种温度下测量家兔的血糖浓度值 (mmol/L)
窝别 1 2 3 4 5 6 温度(℃) 15 82.22 110.10 100.15 74.20 80.57 102.77 20 82.30 83.17 110.30 82.43 97.90 81.20 6 537.30 89.55 25 90.14 100.78 120.55 100.66 115.76 90.30 6 618.19 103.03 30 112.76 140.62 120.49 110.31 103.56 138.54 6 726.28 121.05 4 4 4 4 4 4
方
差
分 析
朱 彩 蓉
例 1
某医师用A、B两种方案治疗婴儿 贫血患者,A方案为每公斤体重每 天口服2.5%的硫酸亚铁1ml,B 方 案为口服2.5%的硫酸亚铁0.5ml。 治疗一个月后,记录血红蛋白的增 加克数(g/L),资料下表。
两种方案治疗后血红蛋白增加量(g/L)
方案 A B 24 20 36 18 25 17 14 10 X 26 19 34 24 23
SS组内
i j
2 X ij 2 2 X ij X i X ij ni i j
组内变异:各处理组内部的观察值 也大小不等,这种变异称为组内变 异。它包含随机误差(个体差异, 测量误差等)。
组内 n k
H0:1 2 3 方差分析思路
H 0: ,即喂养三种不 同饲料的大鼠红细胞数相同 H 1: 不等或不全相等, 即喂养三种不同饲料c= (206.38)2/36 =1183.1307
SS总=ΣX2-C=1255.2946 – 1183.1307=72.1639
SS组间 =
例 2
某医师用A、B和C三种方案治疗婴 儿贫血患者,A方案为每公斤体重 每天口服2.5%的硫酸亚铁1ml,B 方案为口服2.5%的硫酸亚铁0.5ml, C方案为口服鸡肝粉1g。治疗一个 月后,记录血红蛋白的增加克数 (g/L),资料下表。
三种方案治疗后血红蛋白增加量(g/L)
方案 A B 24 20 36 18 25 17 14 10 X 26 19 34 24 23
F0.01(2,32) 5.34
9.3 随机区组设计方差分析 (randomized block design)
随机区组设计的优点是每个
区组内的k个实验单位有较好的均
衡性,比完全随机设计更容易觉察
到处理间的差别。
例9.2 利用随机区组设计研究不 同温度对家兔血糖浓度的影响,某 研究者进行了如下实验:将24只家 兔按窝别配成6个区组,每组4只, 分别随机分配到温度15℃、20℃、 25℃、30℃的4个处理组中,测量 家兔的血糖浓度值(mmol/L),结果 如下表9.4所示,分析4种温度下测 量家兔的血糖浓度值是否不同?
在正态总体方差齐的假定之下,当 H0成立时,检验统计量F服从自由 度
组间 =k-1, 组内 =N-k的F分布, 可根据附表4, F 界值表确定P值。
MS组间 F MS组内
服从自由度为(组间,组内 )的F分布。 若 F F ( 组间, 组内) , 则 P ,不 拒绝H0,尚不能认为各组总体均数 的差别有统计学意义。 若 F F ( 组间, 组内) , 则 P ,拒绝 H0 ,可以认为总体均数间有差别。
i
X ij / ni C j
2
C X ij / n i j
2
52.532 66.232 87.622 ( ) 1183.1307 12 12 12
=52.1258
SS 组 内 = SS 总 - SS 52.1258=20.0381
SS总
拒绝
SS组间
MS组间 P较小
F=MS组间/MS误差 F较大
F 1
SS误差
MS误差
不拒绝H0
9.2 完全随机设计方差分析
(completely randomized design)
单因素方差分析(one-way ANOVA)
例9.1
为研究大豆对缺铁性贫血的恢复作用,某研究 者进行了如下实验:选取已做成贫血模型的大 鼠36只,随机等分为3组,每组12只,分别用 三种不同的饲料喂养:不含大豆的普通饲料、 含10%大豆饲料和含15%大豆饲料。喂养一周 后,测定大鼠红细胞数(×1012/L),见表9.1.试 分析喂养三种不同饲料的大鼠贫血恢复情况是 否不同?
X A, X B , X C
SS组间 ni X i X
i
2
2 X ij j X ij / n ni i i j
2
组间 k - 1
组间变异: 三种喂养方式的样本 均数也大小不等,这种变异称为组 间变异。它含有处理效应和随机误 差效应两部分内容。
7.51
7.74 8.19 7.15 8.18
5.31
4.05 5.16 12 52.53 234.2783
6.01
5.67 4.68 12 66.23 373.2851
5.53
7.79 8.03 12 87.62 647.7312 36 206.38 1255.294
一、建立假设检验,确定检验水准
MS组间
MS组间 F MS 误差
MS误差
处理效应和随
MS组间 F MS组内
机误差效应
随机误差
检验统计量F的确定
如果各样本均数来自同一总体,即 各组之间无差别,则组间变异与组 内变异均只反映随机误差,这时若 计算组间均方与组内均方的比值F 值应接近于1 。
MS组间 F MS组内
确定P值下结论
试分析喂养三种不同饲料的大鼠贫血恢 复情况是否不同?
表9.1 喂养三种不同饲料的大鼠红细胞数(1012/L)
普通饲料 10%大豆饲料 15%大豆饲料
4.78
4.65 3.98 4.04 3.44 3.77 3.65
4.65
6.92 4.44 6.16 5.99 6.67 5.29
6.80
5.91 7.28 7.51 7.51 7.74 8.19
组 间
=
72.1639 –
ν总= n-1=36-1=35 ν组间=k-1=3-1=2 ν组内= n-k=36-3=33
MS组间=SS组间/ν组间= 52.1258 /2=26.0629
MS组内=SS组内/ν组内= 20.0381/33=0.6072
F=MS 组 间 / MS 组 内 = 26.0629 / 0.6072 =42.9231
SS组间 ni X i X
i
2
2 X ij j X ij / n ni i i j
2
各处理组的样本均数也大小不等, 这种变异称为组间变异,其大小可 用各组均数与总均数的离均差平方 和表示,记为SS组间 。
组间 k - 1
总 n -1
SS总 X ij X
i j 2