第9章 方差分析
第9章 方差分析
第九章方差分析➢学习目标◆了解方差分析的一般原理◆掌握方差分析的步骤◆掌握事后检验方法➢学习内容◆方差分析的一般原理◆完全随机设计方差分析◆多因素方差分析◆随机区组方差分析◆事后检验➢方差分析的基本原理及步骤方差分析又称变异分析,其主要功能在于分析实验数据中不同来源的变异对总变异贡献的大小,从而确定实验中自变量是否对因变量有重要影响。
◆方差分析的基本原理:综合的F检验(1)综合虚无假设和部分虚无假设主要处理两个以上的平均数之间的差异检验问题。
研究为多组实验设计,需要检验的虚无假设是“任何一对平均数”之间是否有显著性差异。
设定虚无假设为,样本归属的所有总体平均数都相等,一般把这一假设称为“综合的虚无假设”(方差分析)。
组间的虚无假设相应的就称为“部分虚无假设”(事后检验)。
◆方差分析的基本原理:综合的F检验(2)方差的可分解性方差分析依据的基本原理就是方差(或变异)的可加性原则。
确切的说应该是方差的可分别性。
方差分析把实验数据的总变异分解为若干个不同来源的分量。
不同强度噪音下解数学题犯错误频数由于被试分组是随机分派,个体差异及实验误差带有随机性质,因而组内变异与组间变异相互独立,可以分解。
方差分析中组间均方和组内均方分别表示为:平方和的大小与项目数有关(即k 或n )。
方差分析中组间变异与组内变异的比较不能直接比较各自的平方和,必须将项目数的影响去掉求均方。
比较组间均方与组内均方要用F检验。
方差分析关心的是组间均方是否显著大于组内均方。
如果组间均方小于组内均方,无须检验其是否小到显著性水平,因而总是将组间均方放在分子位置,进行单侧检验。
即F> 1 且落入F分布的临界区域说明数据的总变异基本上由不同的实验处理所造成,或者说不同的实验处理之间存在着显著差异。
◆方差分析的过程(1)求平方和为了简便,一般直接从原始数据计算平方和:◆方差分析的过程(2)计算自由度(3)计算均方◆方差分析的过程(4)计算F值(5)查F值表进行F检验并作出决策(6)陈列方差分析表◆方差分析的基本假定进行方差分析时,数据必须满足几个假定条件,否则得出的结论可能产生错误。
第9章-方差分析与线性回归
Xij X E
s nj
ST s
n
E
j
j 1
i 1
X ij X
j1 i1
s nj
X ij2 nX
j1 i1
X ij 2
2
2
s nj
X
EE(X
)j
s11ninj1jEs1Xinj1ijjE21(Xiinj1)X
1 n
s
nj ( j )
j 1
s nj
E( Xij2 ) nE( X 2 )
X12 X 22
As : N s , 2
X1s X 2s
X n11
X n2 2
X nss
每个总体相互独立. 因此, 可写成如 下的 数学模型:
ij
~
X ij j ij N (0, 2 ), 各ij独立
i 1, 2, , nj,j 1, 2, , s
方差分析的目的就是要比较因素A 的r 个水平下试验指标理论均值的 差异, 问题可归结为比较这r个总体 的均值差异.
i
ij (0, 2 ),各ij独立
1, 2, , nj,j 1, 2, , s
n11 n22 ... nss 0
假设等价于 H0 :1 2 s 0
H1 :1,2,
,
不全为零。
s
为给出上面的检验,主要采用的方法是平方和 分解。即
假设数据总的差异用总离差平方和 ST 分解为
第九章 回归分析和方差分析
关键词: 单因素试验 一元线性回归
方差分析(Analysis of variance, 简 称:ANOVA),是由英国统计学家费歇尔 (Fisher)在20世纪20年代提出的,可用于推 断两个或两个以上总体均值是否有差异 的显著性检验.
第9章 方差分析
Dependent List:weight Factor:fodder Contrasts选项: 多项式比较(AD与BC比较和AC与BD比较) Post Hoc选项: 均值多重比较LSD和Tamhane’s T2 ,一致性子集 检验Duncan(各种方法的使用条件-方差齐或不齐) Options选项:Descriptive描述统计量,Homogeneity-ofvariance方差齐次性检验,Means plot均值分布图 结果除了方差分析表,还有很多选项相应的结果 结论:四种饲料对猪体重增加的作用有显著性差异,还可得知 ABCD四种饲料对猪平均体重增加多少(越来越多)。
9.3.2 单因变量多因素方差分析的菜单和选择项
菜单:Analyze->General Linear Model-> Univariate 选项:
选择分析模型Model: 默认全模型Full Factorial:包括所有因素变量的主效应、所有 协变量的主效应、所有因素与因素的交互效应,不包括协变量与 其他因素的交互效应。 自定义模型Custom:主效应(Main effects及其因素变量)、交 互变量(有交互效应维数之分) 选择分解平方和的方法(默认为TYPE III) Include Intercept in model:系统默认截距包括在回归模型中。 选择对照方法Contrasts 选择分布图形Plots 选择多重比较分析Post Hoc 保存运算结果的选择项Save 选择输出项Options
零假设H0:组间均值无显著性差异(即四种饲料对 猪体重增加的平均值无显著性差异);
9.2.2--9.2.3 单因素方差分析的选择项和例子
使用选择项的单因素方差分析:
第九章 方差分析
第九章方差分析前面介绍了两个样本均数比较的t检验,那么多个样本均数的比较应该采用什么方法?方差分析(analysis of variance, ANOV A)是20世纪20年代发展起来的一种统计方法,由英国著名统计学家R.A.Fisher提出,又称F检验,是通过对数据变异的分析来推断两个或多个样本均数所代表总体均数是否有差别的一种统计学方法。
本章首先介绍方差分析的基本思想和应用条件,然后结合研究设计类型分别介绍各类方差分析方法。
第一节方差分析的基本思想和应用条件一、方差分析的基本思想方差分析的基本思想是把全部观察值间的变异按设计类型的不同,分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义。
例9.1 为研究大豆对缺铁性贫血的恢复作用,某研究者进行了如下实验:选取已做成贫血模型的大鼠36只,随机等分为3组,每组12只,分别用三种不同的饲料喂养:不含大豆的普通饲料、含10%大豆饲料和含15%大豆饲料。
喂养一周后,测定大鼠红细胞数(×1012/L),试分析喂养三种不同饲料的大鼠贫血恢复情况是否不同?表9.1 喂养三种不同饲料的大鼠红细胞数(×1012/L)普通饲料10%大豆饲料15%大豆饲料合计X 4.78 4.65 6.80 4.65 6.92 5.913.984.447.284.04 6.167.51 3.445.997.51 3.776.677.743.65 5.298.194.91 4.707.154.795.058.185.316.01 5.534.055.677.795.16 4.688.03in12 12 12 36 (n)i X ∑ 52.53 66.23 87.62 206.38(X ∑)i X4.385.52 7.30 5.73 (X ) 2i X ∑ 234.2783373.2851647.73121255.2946(2X ∑)表9.1按完全随机设计获得的36个数据(X )中包含以下三种变异: 1. 总变异 36只大鼠喂养一周后测定红细胞数X 各不相同,即X 与总均数X 不同,这种变异称为总变异(total variation)。
第九章 方差分析
第九章方差分析方差分析是从方差的角度,研究各有关因素对试验结果影响大小的有效方法.从数理统计的角度来看,方差分析是通过比较总体方差的各种估计量之间的差异,来分析等方差的正态总体是否具有相同的均值.称之为方差分析的原因,是在显著性检验中所用统计量的分子、分母都是总体方差的估计量.试验中,将要考察的指标称为试验指标或响应值,试验指标值的全体构成我们所关注的总体;影响试验指标的条件称为因素,因素所处的状态称为该因素的水平.如果试验仅考虑一个因素,则称为单因素试验,否则称为多因素试验.可能有多个因素影响试验指标,但总是取少数重要因素进行研究.在方差分析中,通常取1-3个因素进行研究.因素的水平可以是数量化的,也可以是定性的.例如要研究几个不同的小麦品种间产量的差异时,考虑的因素是品种,而每个水平便是一个小麦品种,是定性的水平;而在研究氮肥施用量对小麦产量的影响时,水平(氮肥施用量)则是数量化的.方差分析只研究各个水平对试验指标的影响是否显著,并不给出各水平的影响程度.因此,方差分析是定量地估计各因素对试验指标的影响的工具.9.1 单因素方差分析先看一个实例.例1 在饲养条件尽可能相同的条件下,检验某种激素对羊羔增重的效应.选用3个剂量进行试验,加上对照(不用激素)在内,每次试验要用4只羊羔,若进行4次重复试验,则共需要16只羊羔.一种常用的试验方法,是将16只羊羔随机分配到16个试验单元.这种方法被称为完全随机设计,在试验单元间的试验条件很一致的情况下,这种设计最为有效.经过200天的饲养后,各羊羔的增重数量(单位:kg)见表9.1.表9.1 各羊羔的增重数量(kg/每头/每200d)- 204 -- 205 -本例中,试验指标是羊羔的增重数量,只有1个因素——激素,为单因素试验.激素的4个剂量(含对照)构成因素的4个水平.单因素方差分析用于分析单因素试验中,各个水平对试验指标的影响是否显著.为叙述单因素方差分析问题,再看一个实例.例 2 一批由同种原料织成的同一种布,用不同染整工艺处理,然后进行缩水率试验,考察染整工艺对缩水率的影响,在其它条件尽可能相同时,测得缩水率(%)如表9.2所示.的染整工艺处理后,缩水率的全体构成的集合,假定2~(,)X N μσ.所考察的因素是染整工艺A ,5种不同的染整工艺A 1,A 2,…A 5为因素的5个水平,假定水平i A 下的样本来自相互独立且等方差的正态总体2~(,)(1,2,5)i i X N i μσ= ,它们都是总体X 的特款.就该批布中的任意4块分别考察5个水平上的缩水率,看作是4次重复试验.令i i αμμ=-,则αi 反映了水平A i 对缩水率的影响.由于x ij 是来自2~(,)i i X N μσ的样本,于是i j i i j i i j x μεμαε=+=++ (i =1,2,…,5;j =1,2,…,4).这里,εij 表示观测过程中各种随机影响引起的随机误差;εij 相互独立,服从均值为0,方差为σ2(未知)的正态分布.考察五个水平对缩水率的影响是否差异显著,即要检验假设012345:0H ααααα===== (9.1)一般地,设总体2~(,)X N μσ,因素A 有k 个水平A 1,A 2,…,A k .今对第i 个总体进行n i 次重复观测(i =1,2,…,k ),得到表9.3中的观测数据.- 206 - 表9.3 单因素方差分析数据表假定水平i A 下的样本来自相互独立、方差相同的正态总体2~(,)i i X N μσ(1,2,)i k = .令i i αμμ=-,则αi 反映了水平A i 对试验指标的影响.于是有i j i i j i i j x μεμαε=+=++(1,2,,;1,2,,)j i k j n == (9.2)其中,εij 表示试验观测过程中各种随机影响引起的误差;εij 相互独立,服从均值为0,方差为σ2(未知)的正态分布.称(9.2)为单因素方差分析的数学模型.令n = n 1 + n 2 + … + n k , (9.3)表示观测数据总数,不难证明111,0.kki i ii i n n μμα====∑∑单因素方差分析是要考察各个水平对试验指标影响的差异是否显著.因此,要检验的统计假设为012:0k H ααα==== (9.4)即检验观测数据x ij 是否来自k 个相同的总体.记11,in i ij i i j ix x x x n ⋅⋅⋅===∑, (9.5) 1111,in kkij i i j i x x x x x n⋅⋅⋅⋅⋅======∑∑∑, (9.6) 则i x ⋅为总体A i 的样本均值,x 为总样本的均值.(9.5)式与(9.6)式中的圆点表示已经求过和的指标,下同.令211()in k t ij i j S x x ===-∑∑, (9.7)211()in ke ij i i j S x x ⋅===-∑∑, (9.8)- 207 -21()kA i i i S n x x ⋅==-∑. (9.9)称S t 为总离差平方和,它反映了观测数据总的变异程度;显然,i x ⋅是i μ的无偏估计,又ij ij i x εμ=- ,于是ij ij i e x x ⋅=-是误差εij 的无偏估计.因此,称S e 为误差平方和或组内平方和,它反映了随机误差εij 对试验指标影响的总和;S A 是水平i A 的平均i x ⋅与总平均x 的离差平方和,其中系数i n 是对水平i A 上观测次数的体现.因此,A S 反映了因素A 的各水平i A 的均值间的差异程度,称A S 为因素平方和或组间平方和.由于2112112211111122111111()[()()]()2()()()()()2()()(ii ii iiiin kt ij i j n kij i i i j n n n kk k ij i ij i i i i j i j i j n n n kk kij i i i ij i i j i j i j i S x x x x x x x x x x x x x x x x x x x x x x x ==⋅⋅==⋅⋅⋅⋅======⋅⋅⋅⋅=======-=-+-=-+--+-=-+-+--=∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑221111)()iin n kkj i i i j i j x x x ⋅⋅====-+-∑∑∑∑于是有平方和分解公式:S t =S A +S e . (9.10) 其意义在于将因素平方和S A 与误差平方和S e 从总平方和S t 中分解出来.在各ij ε相互独立地服从N (0,σ2)分布的前提下,当假设(9.3)成立时,模型(9.2)变为i j i j x με=+(1,2,,;1,2,,)i i k j n == (9.11)即所有观测数据来自同一正态总体N (μ, σ2) ,于是由第六章(6.10)式知22/~(1)t S n σχ-.令21(),1,2,,in i ij i j S x x i k ⋅==-=∑- 208 -则/(1)i i S n -是来自总体i X 的样本方差,于是2/i S σ服从自由度为1i n -的χ2分布.而S e /σ2 =(S 1 + S 2 + …+S k ) /σ2,由12,,,k X X X 的独立性假定,知S 1,S 2,…,S k 相互独立.由χ2分布的可加性,知22/~()e S n k σχ- (9.12)至于A S 的分布性质,我们不假证明地给出如下定理: 定理1 (1) A S 与e S 相互独立;(2) 当假设(9.4)成立时,22/~(1)A S k σχ-.若用t f ,A f ,e f 分别表示t S ,A S ,e S 的自由度,由上述讨论得到t A e f f f =+ (9.13)称(9.13)为自由度分解公式.为了检验假设(9.4),取)/()1/(k n S k S F e A --=(9.14)当假设(9.4)成立时,由(9.12)及定理1,有~(1,)F F k n k -- (9.15)给定显著性水平α(0<α<1),查F 分布表得到自由度为(k -1, n -k )的F 分布临界值F α(k -1, n -k ),从样本算出F 统计量的值F 0,据F 0的大小作如下推断:若F 0 >F α(k -1, n -k )则拒绝假设(9.4),认为某些水平(并非全部)对试验指标的影响有显著差异;若F 0 ≤F α(k -1, n -k )则接受假设(9.4),认为各水平对试验指标的影响无显著差异.通常将单因素方差分析过程归结为如表9.4所示的单因素方差分析表. 为简化计算,还可以对所有观测数据同时加、减或同时乘、除一个非零常数.不难证明,对所有观测数据x ij 同时加、减一个任意常数不影响各平方和的值,同时乘、除以一个非零常数不影响F 统计量的值.即对原始数据x ij 做变换,0ijij x ax b a '=+≠后再进行方差分析,其结果不变.1 23 4计算得到:S A = =208,S e = 646,S t = S A + S e = 854.S A的自由度为k―1=3,S e的自由度为n―k =12.据此,列方差分析表如表9.5.由(9.13)式算出的F值为1.2879,查表得临界值F0.05(3,12)=3.49,从样本算出的F值1.2879远比5%显著水平要求的F值3.49小,因此认为各个处理间没有显著差异.值得注意的是,这并不证明4个处理间没有差异,可能存在真实的差异,但是在所选取的概率水平上,试验没有足够的灵敏度,未能检测出差异.单因素方差分析可在表(9.3)上计算.现对例2进行表格化计算.为便于计算,将表9.2中的各观测数据同减去5,在表9.6中表格化计算(9.14)和(9.15)式右端各项.注意到k i- 209 -- 210 -55.54,34.37,A e S S ==89.91.t A e S S S =+= 据此得到如表9.7所示的方差分析表.0.01F =6.07>4.89,故拒绝假设(9.1),认为染整工艺对缩水率的影响极显著.在方差分析中,仍用* *表示极显著(a≤0.01时显著),用*表示0.01<a≤0.05时显著.在单因素方差分析中,各水平上观测次数n 1,n 2,…,n k 可以不相等.但在实际问题中,多取n 1 = n 2 =…n k ,因为选择同样大小的样本有如下优点:(1)与方差相等的假设的偏离不会过大,方差相等的检验比较容易;(2)F 检验时出现的第二类错误变小;(3)均值的其它比较(参阅§9.3)较为简单.9.2 双因素方差分析在双因素方差分析中,假定试验指标受两个变异因素A 、B 的影响,并假定行因素A 有m 个水平A 1,A 2,…,A m ,列因素B 有r 个水平B 1,B 2,…,B r .在每对组合水平(A i , B j )上做一次试验,得到m ×r 个试验结果x ij (i =1,2,…,m ; j =1,2,…,r ).所有ij x 独立,实验数据见表9.8.假定总体2~(,)X N μσ,2~(,)ij ij x N μσ,则11m rij i jmr μμ==∑∑ (9.16) 再假定组合水平(A i , B j )下的效应可以用A i 下的效应i α和B j 下的效应j β之和来表示,即ij i j μμαβ=++其中- 211 -110,0mriii j αβ====∑∑(正负效应相互抵消). 表9.8 双因素方差分析观测数据表1111,,r m A Biij j ij j i r m μμμμ====∑∑则A i μ和B j μ分别表示水平i A和j B 上的总体均值,且有 ,A i i αμμ=-.B j j βμμ=-类似于单因素方差分析,可将双因素方差分析的线性模型表示为(1,2,,;1,2,,)ij i j ij x i m j r μαβε=+++== . (9.17)这里,εij 表示其它随机因素引起的随机误差,εij 相互独立,服从均值为0,方差为σ2(未知)的正态分布.双因素方差分析的检验假设为01120212:0(9.18):0(9.19)m r H H αααβββ====⎧⎨====⎩仍用n = m ×r 表示观测数据总数,记11,(1,2,,)ri ij i i j x x x x i m r ⋅⋅⋅====∑ (9.20)11,(1,2,,)mj ij j j i x x x x i r m⋅⋅⋅====∑ (9.21) 111,m rij i j x x x x n⋅⋅⋅⋅====∑∑ (9.22)- 212 - 21()mA i i S r x x ⋅==-∑ (9.23)21()rB j j S m x x ⋅==-∑ (9.24)211()mre ij i j i j S x x x x ⋅⋅===--+∑∑ (9.25)211()mrt ij i j S x x ===-∑∑ (9.26)则i x ⋅为水平A i 上的样本平均,j x ⋅为水平B j 上的样本平均,x 为总体平均.S A 是因素A 的水平A i 上的样本平均i x ⋅与总体平均x 的离差平方和,若因素A 对响应值影响显著,则至少有一个离差平方(i x ⋅-x )2 较大,从而S A 较大;而当因素A 的影响不显著时S A 较小.因此,S A 反映了因素A 对试验结果的影响.同样,S B 反映因素B 对试验结果的影响.将模型(9.17)写成μμμμμμμμε+--=-+-+-=Bj A i ij B j A i ij ij x x )]()([于是,ij ij i j e x x x x ⋅⋅=--+是εij 的估计值.因此,S e 为误差平方和,它反映了其它随机因素对试验结果的影响.通过简单的推导可以证明下列平方和分解公式:S t = S A + S B + S e , (9.27)定理 2 (1) A S ,B S ,e S 相互独立,且()22/~(1)(1)e S m r σχ--,()22/~1t S mr σχ-;(2) 当假设01H 成立时,22/~(1)A S m σχ-; (3) 当假设01H 成立时,22/~(1)A S m σχ-; 证明略.若用t f ,A f ,B f ,e f 分别表示t S ,A S ,B S ,e S 的自由度,则由定理2得到- 213 -t A B e f f f f =++ (9.28)称(9.28)为自由度分解公式.由定理2,有()/(1)~1,(1)(1)/(1)(1)A A e S m F F m m r S m r -=----- (9.29)显然,F A 越大说明因素A 对试验结果的影响越大.对给定的显著性水平α,查F 分布表得自由度为(m ―1, (m ―1)(r ―1))的F 分布临界值F α,若从样本由(9.29)式算出F A >F α,则拒绝假设H 01,认为因素A 对试验结果有显著影响;否则认为因素A 的影响不显著.类似地,可使用统计量()/(1)~1,(1)(1)/(1)(1)B B e S r F F r m r S m r -=----- (9.30)对因素B 进行显著性检验.若从样本由(9.30)式算出F A >F α,则拒绝假设H 02,认为因素B 对试验结果有显著影响;否则认为因素B 的影响不显著.上述讨论可归结为如表9.9所示的方差分析表.表9.9 双因素方差分析表例3 将土质基本相同的一块耕地分成均等的五个地块,每块又分成均等的四个小区.有四个品种的小麦,在每一地块内随机分种在四个区上,每小区的播种量相同,测得收获量如下表(单位:kg ),试以显著性水平α1=0.05, α2=0.01考察品种和地块对收获量的影响是否显著.解 为计算简单起见,每一收获量均减去32,列表计算.- 214 -注意到m =4,r =5,n =20,经计算得到S A = 134.65, S B = 14.10, S t = 175.03, S e = 26.28,查表得临界值F 0.05(4, 12)=3.26,F 0.01(3, 12)=5.95.由于F B <F 0.05(4, 12),故认为地块不同对收获量无显著影响.由于F A >F 0.01(3, 12),故认为品种不同对收获量影响极显著.9.3 多重比较当假设(9.4)被拒绝后,只能表明在显著水平α下,至少有两个子体的均值间差异显著,并不表示k 个均值之间两两的差异都显著.通常要进一步检验该因素在各水平上的均值两两之间的差异是否显著,以确定哪些水平对响应值有重要影响.我们称这种差异性检验为多重比较.多重比较的方法很多,而且每种方法都有各自的优、缺点.这里,我们介绍适用范围较广的两种方法.一种是Scheffe 方法(S 法),另一种是Tukey 方法(T 法).在进行所有两个均值的同时比较时,如果每次比较的冒险率(犯第一类错误的概率)为α,则S 法和T 法全体冒险率均为α.如果用t 检验进行所有两个均值的同时比较,当均值个数大于2时,尽管每拒绝1个假设所犯的错误都是α,但同时拒绝2个假设所犯的错误是221(1).ααααα+-=-->如果对7个均值进行两两比较,要比较2721C =次.给定拒绝每个假设(i j μμ=,- 215 -1≤i <j ≤7)的冒险率0.10α=,要拒绝所有21个假设,即判明7个均值互不相等所犯的错误将是211(1)0.89α--≈!显然,在使用t 检验进行所有两个均值的同时比较时,全体的冒险率随均值个数的增加而增加.因此,t 检验只能适用于随机抽出的两个均值的比较,并不适用于所有的两个均值的同时比较. 9.3.1 S 法仍用e f 表示误差平方和S e 的自由度,/e e e MS S f =表示均方误差,假定观测数据满足方差分析的基本要求.在单因素方差分析中,Scheffe (1953)给出用于检验假设H 0:μi = μj (1≤i <j ≤k )的统计量i j D S α= (9.31)其中),1()1(e f k F k S --=αα.当||i j i j x x D ->时,则拒绝假设H 0 :μi =μj ,认为水平A i 与水平A j 在显著水平α下差异显著;否则认为A i 与A j 差异不显著.对于双因素方差分析,我们可以分别对每个因素作单因素方差分析,进而进行多重比较.也可以按下述步骤进行近似的S 检验:1 若检验假设A j A i H μμ=:0,则使用统计量ij D S = (9.32) 其中),1()1(e a f m F m S --=α.当||i j ij x x D ⋅⋅->时,则拒绝A j A i H μμ=:0,否则接受H 0.2 若检验假设B j B i H μμ=:0,则使用统计量ij D S α= (9.33) 其中),1()1(e f r F r S --=αα.- 216 - 当||i j ij x x D ⋅⋅->时,则拒绝B j B i H μμ=:0,否则接受H 0.比如在例2中,k = 5, n 1 = n 2 = … = n 5 = 4, f e = 15, MS e = 2.29.取α=0.05,查表得F 0.05(4,15)=3.06.于是由(9.32)及(9.33)得24.1206.34205.0=⨯=S ,)51(74.3)4141(29.224.12≤<≤=+⨯⨯=j i D ij .12||0.025 3.74x x -=<,故μ1与μ2差异不显著. 15|| 3.925 3.74x x -=>,故μ1与μ5差异不显著.14|| 3.35 3.74x x -=<,但与临界值3.74较接近,虽在显著水平0.05下认为μ1与μ4差异不显著,却能看出二者间存在真实的差异.类似地,可对其中任二均值进行比较. 9.3.2 T 法在用T 法进行k 个水平上的均值μ1,μ2,…,μk 之间的两两比较时,要求各水平上的重复数相同,即n 1 = n 2 = … = n k ,并且还要求2cov(,),,1,2,,;i j x x b i j k i j σ==≠ .即i x 与j x 的协方差不依赖于i 和j .T 法所使用的统计量是(,e T q k f α= (9.34) 其中(,)e q k f α是自由度为(,)e k f 的t 化极差分布的上侧α分位点.(,)e q k f α可以从“多重比较的q 表”中查到.S 法无论水平重复数是否相同都适用,T 法只适用于水平重复数相同的情况;在进行所有均值间的两两比较时,T 法比S 法灵敏度高,能检出较小的差异.因此,在水平重复数相同时应当用T 法.9.4 双因素等重复试验的方差分析在双因素试验中,除考察因素A 和B 对试验结果的影响外,还应考虑A 、B- 217 -的各水平的搭配情况对试验结果的影响,称此为A 与B 的交互作用,并把它设想为某一因素,记为A B ⨯.为考虑交互作用A B ⨯,对因素A 、B 的各水平的每一搭配(A i ,B j )都进行l (l ≥2)次重复观测,得到表9.10中的观测数据.表9.10 双因素等重复试验数据记n mrl =,1111m r lijk i j k x x n ====∑∑∑11,,1,2,,;1,2,,.lij ijk ij ij k x x x x i m j r l ⋅⋅⋅=====∑111,,1,2,,.r li ijk i i j k x x x x i m rl⋅⋅⋅⋅⋅⋅=====∑∑ 111,,1,2,,.mlj ijk j j i k x x x x j r ml⋅⋅⋅⋅⋅⋅=====∑∑双因素等重复试验的方差分析计算量较大.其基本原理也是将总的偏差平方和作如下分解:- 218 - 211122111122111()()()()()m r lt ijk i j k mrlmijk ij i i j k i rm rj ij i j j i j e A B A BS x x x x rl x x ml x x k x x x x S S S S ===⋅⋅⋅====⋅⋅⋅⋅⋅⋅⋅===⨯=-=-+-+-+--+=+++∑∑∑∑∑∑∑∑∑∑ (9.35)其中各偏差平方和的表达式如下:2111()m r le ijk ij i j k S x x ⋅====-∑∑∑21()mA i i S rl x x ⋅⋅==-∑21()rB j j S ml x x ⋅⋅==-∑211()m rA B ij i j i j S k x x x x ⨯⋅⋅⋅⋅⋅===--+∑∑e S 为误差平方和,反映了随机误差对试验指标的影响;A S 和B S 分别为因素A 和B 的偏差平方和,分别反映了因素A 和B 对试验结果的影响程度,A B S ⨯为A 与B 的交互作用A B ⨯的偏差平方和.当假设“H A :因素A 对试验结果无显著影响”成立时()/(1)~1,(1)/[(1)]A A e S m F F m mr l S mr l -=---当假设“H B :因素B 对试验结果无显著影响”成立时()/(1)~1,(1)/[(1)]B B e S r F F r mr l S mr l -=---当假设“H AB :交互因素AB 对试验结果无显著影响”成立时()/[(1)(1)]~(1)(1),(1)/[(1)]A B B e S m r F F m r mr l S mr l ⨯--=----检验过程可归纳在如表9.11所示的方差分析表中.立性和等方差性.从理论上讲对上述假定都要通过样本进行统计检验.有关独立性问题,通常是通过试验设计来解决.至于正态性和等方差性,可以根据第八章进行拟合优度检验和Bartlett 检验,还可以对原始数据进行适当的变换,使之满足正态性和等方差性.习 题 九1. 某灯泡厂用四种不同配料方案制成的灯丝,生产了四批灯泡.在每批灯泡中随机地其中(1,2,3,4)i t i =表示第i 批灯泡的寿命.试问(1) 四种灯丝生产的灯泡的使用寿命有无显著差异(0.05α=)? (2) 用S 法比较任意两批灯泡平均寿命之间的差异性(0.05α=).2. 设有三种型号的设备制造同一产品,对每种型号的设备各观测其5天的日产量,数x i 表示第i种型号的设备的日产量.问不同型号的设备生产能力之间是否其中(1,2,3)i有显著差异?3. 为了解3种不同饲料对猪生长影响的差异,用3个品种的猪进行全面搭配试验,3个月后测得9头猪的体重增加量(单位:kg)如下表:试分析饲料之间及猪的品种之间对猪的体重增加有无显著差异.4. 一种火箭使用了四种燃料、三种推进器作射程试验,对于燃料与推进器的每一种搭试检验燃料和推进器对火箭射程是否有显著影响,以及两个因素的交互作用对火箭射程是否有显著影响.- 220 -。
统计学第九章 双因素和多因素方差分析
2、平方和的分解
与平方和相应的自由度分别为: 总自由度:df =abn-1
T
A因素处理间自由度:df =a-1
A
B因素处理间自由度:df =b-1
B
交互作用自由度:df =(a-1)(b-1)
AB
处理内自由度:dfe=ab(n-1) df =df +df +df +dfe
a b i=1 j =1
n
2
SSe= ∑∑∑yijk
i=1 j =1 k =1
a
b
2
1 a b 2 − ∑∑yij• = SST − SSA − SSB − SSAB n i=1 j=1
(五)各项均方的计算
MS
T
SS T SS T = = df T abn − 1
MS
A
SS A SS A = = a -1 df A
x9
x1 x2 x3 x4 x5 x6 x7 x8 33.5** 30.5** 29.75** 22** 19** 11.5 2.75 2.5
x8
31** 28** 27.25** 19.5** 16.5** 9 0.25
x7
30.75** 27.75** 27** 19.25** 16.25** 8.75
A因素误差平方和
SSA = bn∑(yi•• − y••• )
i=1
a
2
B因素误差平方和 SSB = an∑(y• j• − y••• )
b j=1
2
AB交互作用误差平方和
SSAB = n∑∑(yij• − yi•• − y• j• + y••• )
第9章 方差分析
方差分析简称 ANOVA(analysis of variance),就是利用试验观测值总偏差的可分解性,
将不同条件所引起的偏差与随机误差分解开来,按照一定的规则进行比较,以确定各种偏差 的影响程度和相对大小。当已确定某几种因素对试验结果有显著影响时,可使用方差分析检
验确定哪种因素对试验结果的影响最为显著及估计影响程度。
第 9 章 方差分析
学习目标
1、理解方差分析的基本思想; 2、熟练掌握单因素方差分析的基本原理及其实际应用; 3、熟练掌握双因素方差分析的基本原理及其实际应用。
基本概念
总离差平方和 组间离差平方和 组内离差平方和 检验统计量 自由度 单因素方 差分析 双因素方差分析
9.1 方差分析的基本认识
9.1.1 问题的提出
由于爽肤水是同一公司生产的,它们的成分、价格等可能影响销售量的因素全部相同,我们
把四种不同颜色的爽肤水的销售量均值分别记为 m1 , m2 , m3 , m4 ,由题意知,要检验假设
H0 : m1 = m2 = m3 = m4 ;
H1 : m1 , m2 , m3 , m4 不全相等
如果检验结果为 m1 , m2 , m3 , m4 不全相等,则表明爽肤水颜色对销售量产生影响。反之, 如果检验结果为 m1, m2 , m3 不存在显著影响,则可以认为爽肤水颜色对销售量没有影响,他
ST = SA + SB + SE
(9-11)
5
其中,
å å å ì
r
ïSA =
s
r
( Xi× - X )2 = s ( Xi× - X )2
ï
i=1 j=1
双因素方差分析有两种类型:一个是无交互作用的双因素方差分析,它假定因素 A 和因 素 B 的效应之间是相互独立的,不存在相互关系;另一个是有交互作用的双因素方差分析, 它假定因素 A 和 B 的结合会产生出一种新的效应。例如,若假定不同地区的消费者对某种颜 色有与其他地区消费者不同的特殊偏爱,这就是两个因素结合后产生的新效应,属于有交互 作用的背景,否则就是无交互作用的背景。下面我们将分别介绍无交互作用的双因素方差分 析和有交互作用的双因素方差分析。
第九章----方差分析
若组间变异明显大于组内变异, 则不能认为组 间变异仅反映随机误差的大小, 处理因素也在起 作用。根据计算出的检验统计量F值, 查界值表 得到相应的P值, 按所取检验水准α作出统计推断 结论。
检验统计量F值服从F分布。
F<Fα,(ν组间, ν组内),则P > α, 不拒绝H0, 还不能认 为各样本所来自的总体均数不同;
1、各样本是相互独立的随机样本, 且来自 正态分布的总体;
2、相互比较的各样本的总体方差相等, 即 具有方差齐性。 独立性、随机性、正态性、方差齐性
五、方差分析的用途
1、用于进行两个或多个样本均数的比较; 2、分析两因素或多因素间的交互作用; 3、用于回归方程的线性假设检验。
六、方差分析的优点
1、不受比较组数的限制,可比较多组均数; 2、可同时分析多个因素的作用; 3、可分析因素间的交互作用.
一、多个样本均数间的比较能否用 t 检 验或 u 检验?为什么?
原因:
五个样本均数进行比较, 每次两个均数作一次 t 检验, 共需作10(C52=10)次 t 检验。若每次比 较的检验水准α=0.05, 则每次比较不犯Ⅰ型错误 的概率为(1-α)=0.95。当这些检验独立进行 时, 则10次比较均不犯Ⅰ型错误的概率为0.9510= 0.5987, 此时犯Ⅰ型错误的概率, 即总的检验水准 α变为1-0.5987=0.4013比0.05大的多。犯Ⅰ型错 误的概率增大, 可能将原本无差别的两个总体推 断为有差别, 误判为有统计意义。因此多重比较 不宜用的 t 检验或 u检验作两两比较。
已知各组均数、标准差和样本含量时F值 的简便计算方法。
当原始数据未知, 只知各组均数、标准差和 样本含量时, 可进行如下计算, 分两种情况: 1、各组样本含量ni相等; 2、各组样本含量ni不等。
现代心理与教育统计学第九章:方差分析
(五)查F分布临界值做出判断 当dfB=2, dfW=9,设定p=0.01, 查表F0.01(2,9)=8.02,检验值是F=48.44>8.02,p<0.01。
F0.01(2,9)=8.02
(六)陈列方差分析表
变异来变源异来平源方和平方自和由度自由度均方 均方 F F p 组间 组间258.67258.672 2 129.34129.3448.4448.44*0*.01 组内 组内 24 24 9 9 2.67 2.67
组内变异区组变异msr误差变异mse由此总变异的构成由原来的两个部分演变为三个部分总变异组间或处理变异区组变异误差变异组间设计下自变量各水平下被试随机区分而在单因素组内把每个水平下被试进行了等级划分形成了组内效应区组效应
第九章 方差分析
第一节 方差分析基本原理及步骤 第二节 完全随机设计的方差分析
目 录
第三节 随机区组设计的方差分析
第四节 事后检验
第一节 方差分析基本原理及步骤
➢ 补充: 自变量(前因变量);自变量水平 因变量(后果变量) 组间(被试间)实验设计(自:男,女。因:红色反应时) 组内(被试内)实验设计(自:红,绿。因:男红绿反应时) 混合实验设计(自:男,女;红,绿。因:男女红绿反应时) 实验组、对照组
SB S n X2 nX k2(2470 444 0 6 4 0)4 (5 3 2 2 4 0 8)2
79 6240 20 5 .68 7 12
SW S X 2 n X 2 8 1 76 9 22 4
(二)自由度的分解 总自由度为总容量减去1。本例有12个数据,所以:
思考: 1.如果想要分析A总体和B总体平均数的差异,可以用什么方法
第九章方差分析
二、F测验
F =
s s
2 t 2 e
F测验分析的目的是判断各个处理平均数 之间是否存在显著差异,即可测验:
Ho: 1 2 k HA: 1、 2、 k 不相等
三、多重比较
如果F测验的结果为各处理间的差异 不显著,则分析结束,否则将进行多重
比较。多重比较分析的目的是进一步判
df e1 ( r 1)( a 1) df ab ( a 1)( b 1)
(一)单因素资料的方差分析 此资料为两向分组资料(交叉分组资料),其行为 处理,列为区组,为 k 行 r 列的两向表,即可看作是 试验因素具有 k 个水平和区组因素具有 r 个水平的两 因素试验。
注意:这样的模式要求行与列间不存在交互作用,
即处理效应不因区组不同而显著不同,否则,F 测验将
丧失有效性,需采用二因素随机区组试验。一般的随机
Se2的EMS是σe2;
St2的EMS是 e2 n 2 ∴ F =
s s
2 t 2 e
n
2 e
2
2 e
F测验有效性的保证条件之一是分子均方 s12 的EMS仅比分母均方 s
2 的EMS多一个分量(线性 2
组成部分)。
(三)固定模型和随机模型 固定模型是指试验的各处理都抽自其特定的处 理总体,这些总体遵循N(μi, σe2),因而处理效应 τi =(μi - μ)是固定的。我们分析的目的就在于 研究τi ,如果重复做试验,处理不变,而所要测验 的假设则是:H0:τi =0或 H0:μi=μ对HA: 1, 2, k 不等。故我们的推断也仅限于供试处理范围之内。
或 SS T SS m SS b SS ab
第九章方差分析报告与实验设计
3. 四个样本的均值越接近,推断四个总体均值相 等的证据也就越充分
4. 样本均值越不同,推断总体均值不同的证据就 越充分
如果原假设成立,即H0: m1 = m2 = m3 = m4 四个行业被投诉次数的均值都相等 意味着每个样本都来自均值为、差为2的
同一正态总体
f(X)
X
1 2 3 4
若备择假设成立,即H1: mi (i=1,2,3,4)不全 相等
至少有一个总体的均值是不同的 四个样本分别来自均值不同的四个正态总体
f(X)
X
3 1 2 4
四、问题的一般提法
1. 设因素有k个水平,每个水平的均值分别用 1、 2、 、 k 表示
第1步:选择【工具】下拉菜单,并选择【数据分析】选项,
第2步:在分析工具中选择【单因素方差分析】,然后单击 【确定】 ,
第3步:当对话框出现时, 在【输入区域】方框内输入数据单元格区域A3:D9。 在【a】方框内输入0.05(可根据需要确定。 在【输出选项】中选择优输出区域。
结果如图9-6
图9-6 用XExcel 进行方差分析的步骤
i1
组 内 平
旅游业:
6
(x2i x2)2 924
i1
SSE=700+924 +434+650
=2708
方
和
5
航空公司: (x3i x3)2 434
i1
家电制造业: 5 (x4i x4)2 650
i1
于是: ST=SSE+SSA
(4)计算统计量
SST的自由度为n-1; SSA的自由度为k-1; SSE的自由度为n-k。
第9章——方差分析
第9章 方差分析 章
9.1 方差分析的基本概念和原理
9.1.1 方差分析的基本概念 1,因素(Factor)是指方差分析所要检验的对象,也称 因素(Factor)是指方差分析所要检验的对象, 所要检验的对象 因子,影响因素,是影响试验结果(因变量)的自变量. 因子,影响因素,是影响试验结果(因变量)的自变量. 2,水平(Level)是指方差分析因素的具体表现,也称 水平(Level)是指方差分析因素的具体表现, 因素的具体表现 为处理(Treatment),是因素的不同等级或不同取值, ),是因素的不同等级或不同取值 为处理(Treatment),是因素的不同等级或不同取值, 因素的每一个水平都可以看作一个总体. 因素的每一个水平都可以看作一个总体. 3,观察值(Observational Value)是指在具体的因素 观察值( Value) 水平下的样本数据. 水平下的样本数据. 方差分析可以理解为依据具体的因素水平下的观察 对因素进行显著性假设检验的方法和过程. 值,对因素进行显著性假设检验的方法和过程.
12,组内离差:同一水平下观察值之间的差异,通常用组内离 12,组内离差:同一水平下观察值之间的差异, 差平方和(SSE)来表示,即由随机性因素引起的离差, 差平方和(SSE)来表示,即由随机性因素引起的离差,可视为 k n 随机性误差. 随机性误差. SSE = ∑∑ (xij x j )2
j
第9章 方差分析 章
在第7 在第7章中我们讨论了如何对一个总体及两个总体的均 值进行检验, 值进行检验,例如我们要确定两种销售方式的效果是否 相同, 检验. 相同,可以对原假设 H 0 : 1 = 2 检验. 但有时候销售方式有很多种, 但有时候销售方式有很多种,这就是多个总体均值是否 相等的假设检验问题了,如果仍然采用第7 相等的假设检验问题了,如果仍然采用第7章的方法进 行多次检验,这显然工作效率低. 行多次检验,这显然工作效率低.这就需要采用新的方 方差分析. 法——方差分析. 方差分析
L2-第九章 方差分析
总 N 1 24 1 23
SS处理 ni X i X X i ni C
2 2 i
550.012 537.30 2 618.19 2 726.282 246398.0820 6 6 6 6 3742.5521
在实际运用中,往往将上述过程总结为如下的方差分析
表。
二、方差分析的应用条件 进行方差分析时,数据应满足以下两个应用条件: 1. 各样本是相互独立的随机样本,均服从正态分布。 当样本含量较小时,资料是否来自正态分布的总体难 于进行直观判断和检验,常常根据过去的经验;当样 本含量较大时,无论资料是否来自正态分布总体,数
变异、区组的变异和随机误差三个部分。
数理统计可以证明它们有如下的数量关系。
SS总 SS处理 SS区组 SS误差
总 处理 区组 误差
具体计算公式见下表:
二、随机区组设计资料方差分析的基本步骤 随机区组设计资料的方差分析步骤概括如下: ①. 建立假设 对于处理组 H0:4个总体均数全相等 H1:4个总体均数不等或不全相等 对于区组 H0:6个总体均数全相等 H1:6个总体均数不等或不全相等
bk个格子中,每个格子仅有一个数据Xij(i=1,2,3,,k; j=1,2,3,,b), 而无重复,因此其方差分析属无重复数据 的双向(因素)方差分析(two-way ANOVA)。
一、离均差平方和与自由度的分解 从该例数据表可以看出,随机区组设计资料的总变异 可以分解为:除处理的变异、随机误差外,还可分离 出区组变异。 区组变异 为6个不同窝别家兔血糖浓度值的样本均数
X j 各不相同,即 X j 与总均数 X 的不同。它既包含6个
区组的差异,也包含随机误差,其大小可用区组均方
第九章 方差分析506312261
第九章 方差分析第一节 方差分析的基本原理及步骤一、方差分析的基本原理假设从一个实验中抽取了9名被试的学习成绩,如表9-1所示。
随后又抽取了9名被试的学习成绩,如表9-2所示。
你能从这些数据发现什么问题吗?首先,从数据可知,不仅组与组之间存在不同,而且同一组内部也存在着不同。
前者称组间变异,后者称组内变异。
其次,从组间变异看,表9-1组间变异大于表9-2。
表9-1 第1次抽取结果表9-2 第2次抽取结果 方法 学生实验成绩 Xt X方法 学生实验成绩 Xt XA 6 5 7 6A 1 7 4 4B 11 9 10 10 7B 6 2 8 6 5C5465C3655再次,从看组内变异看,表9-1比 9-2差异小。
综上所述,表10-1组间变异较大而组内变异较小,表10-2组间变异较小而组内变异较大,组间变异大小与组内变异大小并非正比关系。
这表明,若组间变异与组内变异的比率越大,各组平均数的差异越大。
因此,通过组间变异和组内变异比率大小来推论几个相应平均数差异显著性的思想就是方差分析的逻辑依据或基本原理。
所以说,方差分析是将实验中的总变异分解为组间变异和组内变异,并通过组间变异和组内变异比率的比较来确定影响实验结果因素的数学方法,其实质是以方差来表示变异的程度。
总变异组间变异实验条件随机误差组内变异个体差异随机误差实验误差图10-1 总变异的分解图二、方差分析的基本过程(一)综合虚无假设与部分虚无假设方差分析主要处理多于两个的平均数之间的差异检验问题,需要检验的虚无假设就是“任何一对平均数”之间是否有显著性差异。
综合虚无假设:样本所归属的所有总体的平均数都相等 备择假设:至少有两个总体的平均数不相等(二)方差的可分解性总变异 = 组间变异 + 组内变异变异(V ariance ,用V 表示)即方差(S 2),又称均方差或均方(M ean S quare ,MS ),其公式为()df SS n X X MS V S =--=∑1),(22或或其中,分子为离均差平方和,简称平方和,记为SS ;分母为自由度,记为df ,所以总变异及各变异源记为w b t MS MS MS +=总变异的数学意义是每一原始分数(X )与总平均数(t X )的离差,记为()tX X -组间变异的数学意义是每一组的平均数(i X )与总平均数的离差,记为()t iX X-组内变异的数学意义是每一组内部的原始分数与其组平均数(i X )的离差,记为()iX X -(二)总变异的分解及各部分的计算 1.平方和的分解与计算 1)平方和的定义式根据变异的可加性,任何一个原始分数都有()()()i t itX X X XX X -+-=-对容量为n 的某一小组而言,则有()()()[]∑∑-+-=-i t it X X X XX X为了使平方和不为0,须做代数的处理,即有()()()[]22∑∑-+-=-i t itX X X XX X对k 组页言,则有()()()[]∑∑∑∑-+-=-22ititX X X X X X()()()()∑∑∑∑∑∑-+--+-=222iititiX X X X X X X X ∵ ()()0=--∑∑i t iX X X X∴ ()∑∑-2tX X ()()∑∑∑∑-+-=22itiX X X X即 总平方和 = 组间平方和 + 组内平方和 或 w b t SS SS SS += 2)平方和的计算式()()nX XX X 222∑∑∑-=-总平方和:()()∑∑∑∑∑∑∑-=-=nX X X X SS t t 222组间平方和:()()()∑∑∑∑∑∑∑-=-=n X n X X X SS tib222组内平方和:()∑∑-=2i wX X SS ()∑∑-=2i w X X SS b tSS SS-=例9-1:要探讨噪音对解决数学问题的影响。
概率论与数理统计第九章方差分析与回归分析
版权所有 BY 张学毅
10
方差分析的基本思想
7.若不同水平对试验指标值没有影响,则组间误差中只 包含随机误差,没有系统误差。这时,组间误差与 组内误差经过平均后的数值就应该很接近,它们的 比值就会接近1;
8.若不同水平对试验指标值有影响,则在组间误差中除 了包含随机误差外,还会包含有系统误差,这时组 间误差平均后的数值就会大于组内误差平均后的数 值,它们之间的比值就会大于1;
3)该平方和反映的是随机误差的大小。
计算公式为 :
nj s
2
SE
Xij X.j
i1 j1
三个离差平方和的关系
nj s
2s
2 kn
2
XijX nj X.jX XijX.j
i1j1
j1
i1j1
STSASE
总离差平方和=组间平方和+组内平方和
即 EMSE2
2) M S A 是否是总体方差 2 的无偏估计量,与原假设 成立与否有关 。当且仅当原假设成立时,M S A 才是 总体方差 2 的无偏估计量。
EMSA2s1 1js1njj2
2020/3/1
版权所有 BY 张学毅
17
八、方差分析表
通常将上述计算过程列成一张表格,称为方差分析表。
9.当这个比值大到某种程度时,就可以说不同水平之间 存在着显著差异,也就是自变量对因变量有影响。
2020/3/1
版权所有 BY 张学毅
11
六、离差平方和与自由度的分解
总离差平方和 S T ( sum of squares for total)
1)全部观察值 X
与总均值
ij
X
的离差平方和;
第9章方差分析与一元回归分析
第九章 方差分析与一元线性回归分析
[系统(条件)误差]:
概率统计
在方差分析中,凡是由于试验因素的变异而引起的 试验结果的差异,称为“系统误差”或“条件误差”.
[随机(试验)误差]:
在试验中,当我们把所有能控制的试验条件都控 制在固定的状态下,进行多次重复试验,所得的的试 验结果也不会完全一致,仍存在一定程度的差异.
r ni
ST
( Xij X )2
i1 j1
r ni
SE
( Xij Xi )2
i1 j1
r ni
r
SA
( Xi X )2 ni (Xi X )2
i1 j1
i1
ST反映了样本的总变动幅度. SE反映了为从r个总体中选取一个容量为ni的样本所进行的 重复试验而产生的误差. S A反映了从各不同水平总体中取出的各个样本之间的差异.
r i1
1 ni
(
ni j 1
X ij
)2
1 n
(
r i1
ni
Xij )2
j 1
概率统计
第九章 方差分析与一元线性回归分析
概率统计
(3) 若令Y aX b (a 0),有Y aX b SY2 a2SX2
Y
1 n
n i 1
Yi
1 n
n i 1
(aX i
b)
1 n
n
aX i
i 1
第九章 方差分析与一元线性回归分析
教学要求
1.掌握单因素试验的方差分析 2.掌握一元线性回归分析 学时 4- 6
概率统计
第九章 方差分析与一元线性回归分析
第一节、方差分析
一、方差分析的基本原理 二、单因素方差分析的方法 三、单因素方差分析的步骤 四、双因素方差分析的方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第九章 方差分析教学目的:理解方差分析的一般原理;掌握完全随机设计和随机区组设计方差分析的步骤;熟悉事后检验方法。
教学重点:完全随机化设计和随机区组设计类型的方差分析,事后检验。
教学时数:8学时Z 、t 检验用于两组样本平均差异的显著性检验,是通过检验两组样本平均值间的差异来推论各自代表的两总体均值的差异。
但在实际工作中,我们有时需要同时对多于两个的总体平均数有无显著性差异作出检验,如下例:例:某研究者设计了三种不同的教学方法,为比较三种方法有无优劣之分,他随机抽取了三组被试,每组6人,各组分别接受一种教法的教学,学习同一种材料,学完之后进行统一测试,测得结果如下,问这样的结果是否支持三种教学方法有无优劣之分。
对于这样一种多个总体平均数差异的显著性检验问题,似乎可用Z 、t 检验分别两两成对比较,但是我们不能忘记统计决策是有犯错误的风险的,在对两个总体平均数作检验时,犯弃真错误(Ho 为真,拒绝)的概率为α,结论正确的概率为1-α,比较次数会随着总体的增多而迅速增大,如此例,323==C n ,那第连续三次都正确的概率为3)1(α-,结论出错的概率为3)1(1α--,这个值>α,不符合我们希望在一次检验中犯弃真错误的概率为α的要求了。
因此,在对多个总体平均数作显著性检验时,采用Z 、t 检验两两逐对比较并不是一种理想的方法,另外,从检验工作量来说,平均数个数增多,两两比较次数迅速增多,工作量增大。
本章所介绍的方差分析,又称作变异数分析(Analysis of Variance ,缩写为ANOV A ),就是一种用于多个总体平均数差异显著性检验,既不增加犯错误的概率,又不加大工作量的一次性通盘检验方法。
因对平均数的检验是通过对方差的分析比较进行的,故称方差分析。
方差分析是统计学中一种独特的假设检验方法,多个总体平均数差异显著性检验是其基本功能,但其功能不仅仅如此,还可以用于两种以上实验处理的数据分析(包括同时在多个不同方向上分别进行各向内多个平均数之间的比较,还可侦查不同方向因素之间有无交互作用)。
如为研究学习动机(A)和练习方法(B)对学生学习成绩的影响,某校从一年级中随机抽取30名学生,把他们分成6组(按智力水平、识字量多少、家庭辅导力量等),按交叉分组的方式进行实验,结果如下:不同的实验设计,所需方差分析的具体过程存在着区别,本章主要讨论完全随机和随机区组两种最基本的实验设计的方差分析,并简要介绍多因素方差分析。
第一节 方差分析的原理及其基本过程一、几个基本概念 (一) 因素(factor)指实验因素,即实验中的自变量。
举出前面所述实例中的实验因素。
如教材改革实验,准备考察几种教材效果,则教材就是实验因素。
如教法改革,教学方法就是实验因素。
这种只有一个自变量的,称单因素实验。
如学习动机与练习方法对学习成绩的影响,二者都是实验因素。
这种有两个或两个以上的自变量的实验,称多因素实验。
实验因素又称实验因子。
(二) 水平(level)是指实验因素的水平,即每一个实验因素的不同情况。
实际上也就是实验因素这个变量所取的值。
如教法改革,教法分为A,B,C三种,即有三种水平。
如研究学习动机与练习方法对成绩的影响,则学习动机有三种水平,练习方法有二个水平。
注意:因素的水平与一个实验中因素的个数之间的区别。
不能把教学的三个水平当成实验中的三个因素。
(三) 实验处理(treatment)是指各种实验因素的不同水平的组合。
对于单因素实验来说,一个水平就是一种处理。
对于多因素实验来说,如每一种学习动机和每一种练习方法的组合就是一种实验处理。
即共有2×3=6种实验处理。
用方差分析检验某一因素对因变量的作用,称单因素方差分析。
用方差分析检验某几个因素对因变量的作用,称多因素方差分析。
二、方差分析的逻辑基础例:为研究三种不同教材的质量,抽取三个实验班分别使用其中一种教材,而对其他因素加以控制。
经过一段实验后进行测试,取得三种实验处理的数据如下,(共有j=1……k组处理,每组处理有i=1……n个被试)从上表可知,三种不同实验教材的教学效果不完全一致,表现在三个不同实验处理组的平均数之间存在差异;同时,同一实验组内部的5名样本的反应变量也存在差异。
从而我们将三个实验组的所有15名样本分数的差异分成两部分:实验组间的差异(称为组间差异)和实验组内的差异(称为组内差异)。
组间差异是由于不同实验组的实验处理不同造成的,组内差异是由于实验中一些未被有效控制的未知因素造成的,它们统统被认为是误差因素。
如果实验数据的总变异主要是由实验因素造成的,那么在总差异中组间差异将占较大比例,组内差异只占较小比例,这时有充分的理由认为不同教材的教学效果不同;反之,如果总变异主要是由误差因素造成的,那么就只能认为三种教材的教学效果无显著性差异。
表述数据离散趋势的差异量中只有方差具有可加性。
由此可见,方差分析作为一种统计方法,就是把引起实验数据变化的各种因素进行分析和比较,从而找出形成各样本之间差异的主要因素。
它所依据的基本原理是变异的可加性,根据这一原理可将总变异分解为不同来源的变异,并根据不同来源的变异在总变异中所占的比重对造成数据变异的原因作出解释。
在方差分析中,是以实验数据与平均数的离差平方和(简称平方和,以符号SS 表示)(Sum of Square),作为变异的统计量。
数据模式记: Xj 为第 j 个处理下的 n 个数据的平均数;Xt 为 nk 个数据的总平均数。
则对每个数据有:)()()(t j j ij t ij X X X x X x -+-=-从而第 j 组中n 个数据的离差平方和为22121212121)()( )()()(2)( )]()[()(t j ni j ij t j ni j ij t j ni j ij ni t j j ij ni t ijX X n X x X X n X x X X X x X X X x X x-⋅+-=-⋅+--+-=-+-=-∑∑∑∑∑=====将k 组平方和连加∑∑∑∑∑=====-⋅+-=-k j k j kj t j ni j ij ni t ijX X n X x X x11122121)()()(式中: 总离差平方和 =t SS ∑∑==-k j ni t ijX x121)( t 为total 的缩写组间离差平方和 =b SS ∑=-⋅kj t jX Xn 12)( b 为between groups 的缩写组内离差平方和 ∑∑==-=kj ni j ijw X xSS 121)( w 为within groups 的缩写w b t SS SS SS +=这里我们以离差平方和表示实验数据变异,并将总变异分为组间变异和组内变异两部分。
从上所述我们知道,组内变异是由实验误差造成的,因而又可记为SSE ,(error ),组间变异是由实验处理造成的,因而又可记为SSA ,(affect )。
在方差分析中,比较组间差异与组内差异,不能直接比较各自的离差平方和,因离差平方和是若干项的平方和,其大小与项数有关(k 或n),需要把项数的影响消掉,所以平方和必须除以各自的自由度,称为均方,以MS 表示,它实际上也就是总体方差的无偏估计量。
组间均方 bbb df SS MSA MS == 1-=k df b 组内均方 www df SS MSE MS == k N n k df w -=-=)1( 总均方 ttt df SS MS =11-=-=N nk df t w b t df df df +=方差分析要检验的原假设是H 0:μ1=μ2=……=μk ,相应的备择假设H 1:至少有一对μ是不等的。
原假设即无实验处理效应,也即MS b ≤MS w 。
若在水平Aj 下,总体),(~2σμj j N X ,则有kj N ni X ij ij j ij ,2,1 ),0(~,2,1 2==+=σεεμ其中各组方差未知但都相同,称各总体间具有方差齐性。
若设k j k j j kj j ,,1,2 11=-==∑=μμδμμ j δ反映了因素的第j 个水平的影响。
称为处理效应。
故ij j ij εδμ++=X 。
故原假设也即0=j δ,在原假设成立的情况下,有),(~2σμN X ij 所以),(~w b wbdf df MS MS F ={ )1()(122--=∑=k X XSE Kj t jXnSE X22σ=)1()(ˆ122--⋅=∑=k X X n Kj t j σ即组间均方是总体方差的一个估计式。
另若K 组样本均来自同一总体,也即μ相等,2σ相等,此时可用K 组样本方差的加权平均作总体方差的估计值。
即组内均方是总体方差的第二个估计式。
}故检验两方差之间的差异要用F 检验。
),(~w b wbdf df MS MS F =,采用右单侧检验。
F 反映了组间均方与组内圴方的比率数,如F ≤1,说明数据的总变异中组间均方(即处理效应引起的变异)所占比例小于或等于组内变异(即实验误差引起的变异),不能拒绝原假设。
当F>1且落入F 分布的否定域,即F>),(w b df df F α时,表明变异主要由处理效应造成,从而拒绝原假设。
上例:k=3 n=5=t SS ∑∑==-k j ni t ijX x121)(=192 =b SS ∑=-⋅kj t j X X n 12)(=70∑∑==-=kj ni j ijw X xSS 121)(=122 w b t SS SS SS +=1-=k df b =2 bbb df SS MSA MS ===35 k N n k df w -=-=)1(=12 w w w df SS MSE MS ===10.167 11-=-=N nk df t =14 ttt df SS MS ==13.714 wbMS MS F ==3.44 88.3)12,2(05.0=F 接受Ho三、方差分析的步骤利用方差分析来检验K 个平均数差异的显著性,其进行的步骤如下:1、建立Ho :μ1=μ2=……=μk ,即各组的平均数所来自的总体平均数相等,它们之间的差异是由抽样误差所致,也即不存在处理效应H1:至少有两个总体的平均数不同,即处理效应不全为0 2、求F 值:(1)求平方和:进行方差分析时最关键的问题 (2)计算自由度 (3)求均方 (4)计算F 值3、判断结果:将计算出来的F 值与F 表中的临界值相比较,作出K 个平均数之间的差异是否达到某种显著性水平的最后结论4、作方差分析表:一般包括变异来源、平方和、自由度、均方、F 值、F 临界值和检验结果等项四、方差分析的基本条件 (一)方差分析的基本假定与其他统计方法一样,应用方差分析也有一定的条件限制。