数理统计-方差分析

合集下载

第5章方差分析

第5章方差分析

5.1.4 方差分析中的基本假定
(基本前提:独立、同分布、同方差)
一、因素中的k个水平相当于r个正态总体。 每个水平下的n个观察数据(试验结果)相当 于从正态总体中抽取的容量为n的随机样本。 (同分布) 二、r个正态总体的方差是相同。 即:σ12=σ22…….=σr2=σ2 (同方差) 三、从不同的正态总体中抽取的各个随机样 本是相互独立的。(独立)
SSE
j1 i1
r
nj
xijxj
(续前)
方差分析的优点之二:增加了稳定性 由于方差分析将所有的样本资料结合在一起, 故而增加了分析结论的稳定性。 例如:30个样本,每一个样本中包括10个观 察单位(n=10)。如果采用t检验法,则在两 两检验中,一次只能研究2个样本和20个观察 单位,而在方差分析中,则可以把30个样本 和300个样本观察单位同时放在一起、结合进 行研究。 所以,方差分析是一种实用、有效的分析方 法。
r
2

j1 i r
xij xj 2 x
j1 i1 2 r
nj
ij
xj
x
2
j
x
j1 i1

r
nj
x j x
2

j1 i1
nj
xij xj xj x SSE SSA
nj
j1 i1
2、随机误差项离差平方和(SSE)的计算 SSE反映的是水平内部或组内观察值的离散状 况。它实质上反映了除所考察因素以外的其 他随机因素的影响,反映样本数据( x i j ) 与水平均值 ( x j )之间的差异,故而称之 为随机误差项离差平方和或组内误差。计算 公式如下:

数理统计 单因素方差分析

数理统计 单因素方差分析

表1 试验数据的形式
总体
观测值
样本容量
1 2 s
y11 , y12 , y1 n1 y 21 , y 22 , y 2 n2 y s 1 , y s 2 , y sn s
n1 n2 ns
1、方差分析的任务是: (1) 检验s 个总体均值是否相等,即
H 0 : 1 2 s H 1 : 1 , 2 , , s 不全相等

1 s ni i ,称为总平均, n i 1
i i 称为水平 Ai 的效应。
从而模型可以写为:
yij i ij 2 ~ N ( 0 , ) ij ni i 0 i
(i 1,2,, s; j 1,2,, ni )
来源
因子 误差 总和
平方和
318 .98
395 .46
714 .44
自由度
3
均方
106 .33 28.25
F 3.76
14
17
3.76 F0.05 (3,14) 3.34
拒绝H 0
例3
例4
5、未知参数的估计
不管 H 0 是否为真,
2
SE ˆ 因此 为 2 的无偏估计。 n s
因此,给定检验水平 时,拒绝域为:
F F ( s 1, n s )
表2 方差分析表 来源 因子 误差 总和 平方和
S A ni y ny
i 1 2 i s 2
自由度 均方
s 1
SA s1
SE n s
F
S A ( s 1) S E (n s)
S E ST S A

【数理统计基础】06-相关分析和方差分析

【数理统计基础】06-相关分析和方差分析

【数理统计基础】06-相关分析和⽅差分析1. 相关分析1.1 相关系数 在⼀堆变量中,找到并分析它们之间的关系,是复杂环境和模型中的重要任务。

由于线性关系的特殊、常见和简单,数学上往往采⽤线性关系来逼近实际关系。

上篇的线性回归以及概率论中的线性回归,更关注的是线性函数的参数估计。

如果想单纯地度量随机变量的线性关系,直接讨论相关系数即可,请先复习斜⽅差的相关概念。

两个变量之间的线性关系,就是之前学过的协⽅差的概念\text{Cov}(X,Y)。

在得到n个样本(X_i,Y_i)后,容易得到式(1)的⽆偏估计,注意其中降低了⼀个⾃由度,继⽽还可以有式(2)的样本相关系数。

相关系数是线性关系的直接度量,它可以作为相关假设的检验条件,最常⽤的就是当|r|\leqslant C时认为X,Y是不相关的。

\dfrac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})\approx\text{Cov}(X,Y)\tag{1}r=\dfrac{1}{S_XS_Y}\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y}),\;\;S_X^2=\sum_{i=1}^n(X_i-\bar{X})^2\tag{2} 为了能找到关于r的枢轴变量,这⾥还是要做⼀些假设,即(X,Y)是⼀个⼆元正态分布。

回顾⼆元正态分布的知识(《初等概率论》第5篇公式(27)),可知X,Y完全符合⼀元线性回归的模型。

为此这⾥暂且取定X_i,⽽把Y_i看成随机变量,并对它们进⾏⼀元回归分析。

⽐较发现系数估计满⾜\alpha_1=r\cdot\dfrac{S_Y}{S_X},在假设\rho=0(即系数a_1=0)的情况下,把这个等式代⼊上篇公式(12)右的枢轴变量,整理后得到式(3)。

由于该结论与X_i的取值⽆关,因此它对于变量X_i也成⽴,它就是我们要找的枢轴变量。

\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}\sim t_{n-2}\tag{3}1.2 复相关系数 相关系数度量了两个随机变量之间的线性关系,当系统中的变量很多时,关系也会变得复杂,这时需要引⼊更多的关系分析。

第九章 方差分析

第九章  方差分析

第九章方差分析前面介绍了两个样本均数比较的t检验,那么多个样本均数的比较应该采用什么方法?方差分析(analysis of variance, ANOV A)是20世纪20年代发展起来的一种统计方法,由英国著名统计学家R.A.Fisher提出,又称F检验,是通过对数据变异的分析来推断两个或多个样本均数所代表总体均数是否有差别的一种统计学方法。

本章首先介绍方差分析的基本思想和应用条件,然后结合研究设计类型分别介绍各类方差分析方法。

第一节方差分析的基本思想和应用条件一、方差分析的基本思想方差分析的基本思想是把全部观察值间的变异按设计类型的不同,分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义。

例9.1 为研究大豆对缺铁性贫血的恢复作用,某研究者进行了如下实验:选取已做成贫血模型的大鼠36只,随机等分为3组,每组12只,分别用三种不同的饲料喂养:不含大豆的普通饲料、含10%大豆饲料和含15%大豆饲料。

喂养一周后,测定大鼠红细胞数(×1012/L),试分析喂养三种不同饲料的大鼠贫血恢复情况是否不同?表9.1 喂养三种不同饲料的大鼠红细胞数(×1012/L)普通饲料10%大豆饲料15%大豆饲料合计X 4.78 4.65 6.80 4.65 6.92 5.913.984.447.284.04 6.167.51 3.445.997.51 3.776.677.743.65 5.298.194.91 4.707.154.795.058.185.316.01 5.534.055.677.795.16 4.688.03in12 12 12 36 (n)i X ∑ 52.53 66.23 87.62 206.38(X ∑)i X4.385.52 7.30 5.73 (X ) 2i X ∑ 234.2783373.2851647.73121255.2946(2X ∑)表9.1按完全随机设计获得的36个数据(X )中包含以下三种变异: 1. 总变异 36只大鼠喂养一周后测定红细胞数X 各不相同,即X 与总均数X 不同,这种变异称为总变异(total variation)。

数理统计实验3A_方差分析和线性回归

数理统计实验3A_方差分析和线性回归

Error 125.0 11 11.3636
Total 295.7143 13
MSA MSE 7.5114 F0.052,11 3.9823
2019/6/19
统计实验3:方差分析和线性回归
9
实验3.1 方差分析
(5)方差分析结论
H0 : 1 2 3 H1 : 1, 2, 3不全相等
2019/6/19
试完成下面的任务: (1)绘散点图并描述散布特征 (2)回归方程估计 (3)回归方程显著性检验 (4)月收入17百元时支出的点预 测和区间预测
统计实验3:方差分析和线性回归
16
实验3.2 线性回归
(2)散点图和散布特征
x-家庭月收入 y-家庭月支出
xy
20 18 15 14 20 17 25 20 16 14 20 19 18 17 19 18 22 20 16 13
2019/6/19
统计实验3:方差分析和线性回归
19
实验3.2 线性回归
(5)参数估计与平方和计算
bˆ SP SSx 63 82.9 0.75995 aˆ y bˆx 17.0 0.7599519.1 2.48495 SST SSy 2948 1702 /10 58.0 SSR SP2 SSx 632 82.9 47.87696 SSE SSy SP2 SSx 58 632 82.9 10.12304
2019/6/19
统计实验3:方差分析和线性回归
17
实验3.2 线性回归
(3)数据的表格计算
x-家庭月收入 y-家庭月支出
xy
20 18 15 14 20 17 n=10 25 20 16 14 Ʃxy=3310 20 19 18 17 19 18 22 20 16 13 191 170 3731 2948

第九章 方差分析

第九章  方差分析

第九章方差分析方差分析是从方差的角度,研究各有关因素对试验结果影响大小的有效方法.从数理统计的角度来看,方差分析是通过比较总体方差的各种估计量之间的差异,来分析等方差的正态总体是否具有相同的均值.称之为方差分析的原因,是在显著性检验中所用统计量的分子、分母都是总体方差的估计量.试验中,将要考察的指标称为试验指标或响应值,试验指标值的全体构成我们所关注的总体;影响试验指标的条件称为因素,因素所处的状态称为该因素的水平.如果试验仅考虑一个因素,则称为单因素试验,否则称为多因素试验.可能有多个因素影响试验指标,但总是取少数重要因素进行研究.在方差分析中,通常取1-3个因素进行研究.因素的水平可以是数量化的,也可以是定性的.例如要研究几个不同的小麦品种间产量的差异时,考虑的因素是品种,而每个水平便是一个小麦品种,是定性的水平;而在研究氮肥施用量对小麦产量的影响时,水平(氮肥施用量)则是数量化的.方差分析只研究各个水平对试验指标的影响是否显著,并不给出各水平的影响程度.因此,方差分析是定量地估计各因素对试验指标的影响的工具.9.1 单因素方差分析先看一个实例.例1 在饲养条件尽可能相同的条件下,检验某种激素对羊羔增重的效应.选用3个剂量进行试验,加上对照(不用激素)在内,每次试验要用4只羊羔,若进行4次重复试验,则共需要16只羊羔.一种常用的试验方法,是将16只羊羔随机分配到16个试验单元.这种方法被称为完全随机设计,在试验单元间的试验条件很一致的情况下,这种设计最为有效.经过200天的饲养后,各羊羔的增重数量(单位:kg)见表9.1.表9.1 各羊羔的增重数量(kg/每头/每200d)- 204 -- 205 -本例中,试验指标是羊羔的增重数量,只有1个因素——激素,为单因素试验.激素的4个剂量(含对照)构成因素的4个水平.单因素方差分析用于分析单因素试验中,各个水平对试验指标的影响是否显著.为叙述单因素方差分析问题,再看一个实例.例 2 一批由同种原料织成的同一种布,用不同染整工艺处理,然后进行缩水率试验,考察染整工艺对缩水率的影响,在其它条件尽可能相同时,测得缩水率(%)如表9.2所示.的染整工艺处理后,缩水率的全体构成的集合,假定2~(,)X N μσ.所考察的因素是染整工艺A ,5种不同的染整工艺A 1,A 2,…A 5为因素的5个水平,假定水平i A 下的样本来自相互独立且等方差的正态总体2~(,)(1,2,5)i i X N i μσ= ,它们都是总体X 的特款.就该批布中的任意4块分别考察5个水平上的缩水率,看作是4次重复试验.令i i αμμ=-,则αi 反映了水平A i 对缩水率的影响.由于x ij 是来自2~(,)i i X N μσ的样本,于是i j i i j i i j x μεμαε=+=++ (i =1,2,…,5;j =1,2,…,4).这里,εij 表示观测过程中各种随机影响引起的随机误差;εij 相互独立,服从均值为0,方差为σ2(未知)的正态分布.考察五个水平对缩水率的影响是否差异显著,即要检验假设012345:0H ααααα===== (9.1)一般地,设总体2~(,)X N μσ,因素A 有k 个水平A 1,A 2,…,A k .今对第i 个总体进行n i 次重复观测(i =1,2,…,k ),得到表9.3中的观测数据.- 206 - 表9.3 单因素方差分析数据表假定水平i A 下的样本来自相互独立、方差相同的正态总体2~(,)i i X N μσ(1,2,)i k = .令i i αμμ=-,则αi 反映了水平A i 对试验指标的影响.于是有i j i i j i i j x μεμαε=+=++(1,2,,;1,2,,)j i k j n == (9.2)其中,εij 表示试验观测过程中各种随机影响引起的误差;εij 相互独立,服从均值为0,方差为σ2(未知)的正态分布.称(9.2)为单因素方差分析的数学模型.令n = n 1 + n 2 + … + n k , (9.3)表示观测数据总数,不难证明111,0.kki i ii i n n μμα====∑∑单因素方差分析是要考察各个水平对试验指标影响的差异是否显著.因此,要检验的统计假设为012:0k H ααα==== (9.4)即检验观测数据x ij 是否来自k 个相同的总体.记11,in i ij i i j ix x x x n ⋅⋅⋅===∑, (9.5) 1111,in kkij i i j i x x x x x n⋅⋅⋅⋅⋅======∑∑∑, (9.6) 则i x ⋅为总体A i 的样本均值,x 为总样本的均值.(9.5)式与(9.6)式中的圆点表示已经求过和的指标,下同.令211()in k t ij i j S x x ===-∑∑, (9.7)211()in ke ij i i j S x x ⋅===-∑∑, (9.8)- 207 -21()kA i i i S n x x ⋅==-∑. (9.9)称S t 为总离差平方和,它反映了观测数据总的变异程度;显然,i x ⋅是i μ的无偏估计,又ij ij i x εμ=- ,于是ij ij i e x x ⋅=-是误差εij 的无偏估计.因此,称S e 为误差平方和或组内平方和,它反映了随机误差εij 对试验指标影响的总和;S A 是水平i A 的平均i x ⋅与总平均x 的离差平方和,其中系数i n 是对水平i A 上观测次数的体现.因此,A S 反映了因素A 的各水平i A 的均值间的差异程度,称A S 为因素平方和或组间平方和.由于2112112211111122111111()[()()]()2()()()()()2()()(ii ii iiiin kt ij i j n kij i i i j n n n kk k ij i ij i i i i j i j i j n n n kk kij i i i ij i i j i j i j i S x x x x x x x x x x x x x x x x x x x x x x x ==⋅⋅==⋅⋅⋅⋅======⋅⋅⋅⋅=======-=-+-=-+--+-=-+-+--=∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑221111)()iin n kkj i i i j i j x x x ⋅⋅====-+-∑∑∑∑于是有平方和分解公式:S t =S A +S e . (9.10) 其意义在于将因素平方和S A 与误差平方和S e 从总平方和S t 中分解出来.在各ij ε相互独立地服从N (0,σ2)分布的前提下,当假设(9.3)成立时,模型(9.2)变为i j i j x με=+(1,2,,;1,2,,)i i k j n == (9.11)即所有观测数据来自同一正态总体N (μ, σ2) ,于是由第六章(6.10)式知22/~(1)t S n σχ-.令21(),1,2,,in i ij i j S x x i k ⋅==-=∑- 208 -则/(1)i i S n -是来自总体i X 的样本方差,于是2/i S σ服从自由度为1i n -的χ2分布.而S e /σ2 =(S 1 + S 2 + …+S k ) /σ2,由12,,,k X X X 的独立性假定,知S 1,S 2,…,S k 相互独立.由χ2分布的可加性,知22/~()e S n k σχ- (9.12)至于A S 的分布性质,我们不假证明地给出如下定理: 定理1 (1) A S 与e S 相互独立;(2) 当假设(9.4)成立时,22/~(1)A S k σχ-.若用t f ,A f ,e f 分别表示t S ,A S ,e S 的自由度,由上述讨论得到t A e f f f =+ (9.13)称(9.13)为自由度分解公式.为了检验假设(9.4),取)/()1/(k n S k S F e A --=(9.14)当假设(9.4)成立时,由(9.12)及定理1,有~(1,)F F k n k -- (9.15)给定显著性水平α(0<α<1),查F 分布表得到自由度为(k -1, n -k )的F 分布临界值F α(k -1, n -k ),从样本算出F 统计量的值F 0,据F 0的大小作如下推断:若F 0 >F α(k -1, n -k )则拒绝假设(9.4),认为某些水平(并非全部)对试验指标的影响有显著差异;若F 0 ≤F α(k -1, n -k )则接受假设(9.4),认为各水平对试验指标的影响无显著差异.通常将单因素方差分析过程归结为如表9.4所示的单因素方差分析表. 为简化计算,还可以对所有观测数据同时加、减或同时乘、除一个非零常数.不难证明,对所有观测数据x ij 同时加、减一个任意常数不影响各平方和的值,同时乘、除以一个非零常数不影响F 统计量的值.即对原始数据x ij 做变换,0ijij x ax b a '=+≠后再进行方差分析,其结果不变.1 23 4计算得到:S A = =208,S e = 646,S t = S A + S e = 854.S A的自由度为k―1=3,S e的自由度为n―k =12.据此,列方差分析表如表9.5.由(9.13)式算出的F值为1.2879,查表得临界值F0.05(3,12)=3.49,从样本算出的F值1.2879远比5%显著水平要求的F值3.49小,因此认为各个处理间没有显著差异.值得注意的是,这并不证明4个处理间没有差异,可能存在真实的差异,但是在所选取的概率水平上,试验没有足够的灵敏度,未能检测出差异.单因素方差分析可在表(9.3)上计算.现对例2进行表格化计算.为便于计算,将表9.2中的各观测数据同减去5,在表9.6中表格化计算(9.14)和(9.15)式右端各项.注意到k i- 209 -- 210 -55.54,34.37,A e S S ==89.91.t A e S S S =+= 据此得到如表9.7所示的方差分析表.0.01F =6.07>4.89,故拒绝假设(9.1),认为染整工艺对缩水率的影响极显著.在方差分析中,仍用* *表示极显著(a≤0.01时显著),用*表示0.01<a≤0.05时显著.在单因素方差分析中,各水平上观测次数n 1,n 2,…,n k 可以不相等.但在实际问题中,多取n 1 = n 2 =…n k ,因为选择同样大小的样本有如下优点:(1)与方差相等的假设的偏离不会过大,方差相等的检验比较容易;(2)F 检验时出现的第二类错误变小;(3)均值的其它比较(参阅§9.3)较为简单.9.2 双因素方差分析在双因素方差分析中,假定试验指标受两个变异因素A 、B 的影响,并假定行因素A 有m 个水平A 1,A 2,…,A m ,列因素B 有r 个水平B 1,B 2,…,B r .在每对组合水平(A i , B j )上做一次试验,得到m ×r 个试验结果x ij (i =1,2,…,m ; j =1,2,…,r ).所有ij x 独立,实验数据见表9.8.假定总体2~(,)X N μσ,2~(,)ij ij x N μσ,则11m rij i jmr μμ==∑∑ (9.16) 再假定组合水平(A i , B j )下的效应可以用A i 下的效应i α和B j 下的效应j β之和来表示,即ij i j μμαβ=++其中- 211 -110,0mriii j αβ====∑∑(正负效应相互抵消). 表9.8 双因素方差分析观测数据表1111,,r m A Biij j ij j i r m μμμμ====∑∑则A i μ和B j μ分别表示水平i A和j B 上的总体均值,且有 ,A i i αμμ=-.B j j βμμ=-类似于单因素方差分析,可将双因素方差分析的线性模型表示为(1,2,,;1,2,,)ij i j ij x i m j r μαβε=+++== . (9.17)这里,εij 表示其它随机因素引起的随机误差,εij 相互独立,服从均值为0,方差为σ2(未知)的正态分布.双因素方差分析的检验假设为01120212:0(9.18):0(9.19)m r H H αααβββ====⎧⎨====⎩仍用n = m ×r 表示观测数据总数,记11,(1,2,,)ri ij i i j x x x x i m r ⋅⋅⋅====∑ (9.20)11,(1,2,,)mj ij j j i x x x x i r m⋅⋅⋅====∑ (9.21) 111,m rij i j x x x x n⋅⋅⋅⋅====∑∑ (9.22)- 212 - 21()mA i i S r x x ⋅==-∑ (9.23)21()rB j j S m x x ⋅==-∑ (9.24)211()mre ij i j i j S x x x x ⋅⋅===--+∑∑ (9.25)211()mrt ij i j S x x ===-∑∑ (9.26)则i x ⋅为水平A i 上的样本平均,j x ⋅为水平B j 上的样本平均,x 为总体平均.S A 是因素A 的水平A i 上的样本平均i x ⋅与总体平均x 的离差平方和,若因素A 对响应值影响显著,则至少有一个离差平方(i x ⋅-x )2 较大,从而S A 较大;而当因素A 的影响不显著时S A 较小.因此,S A 反映了因素A 对试验结果的影响.同样,S B 反映因素B 对试验结果的影响.将模型(9.17)写成μμμμμμμμε+--=-+-+-=Bj A i ij B j A i ij ij x x )]()([于是,ij ij i j e x x x x ⋅⋅=--+是εij 的估计值.因此,S e 为误差平方和,它反映了其它随机因素对试验结果的影响.通过简单的推导可以证明下列平方和分解公式:S t = S A + S B + S e , (9.27)定理 2 (1) A S ,B S ,e S 相互独立,且()22/~(1)(1)e S m r σχ--,()22/~1t S mr σχ-;(2) 当假设01H 成立时,22/~(1)A S m σχ-; (3) 当假设01H 成立时,22/~(1)A S m σχ-; 证明略.若用t f ,A f ,B f ,e f 分别表示t S ,A S ,B S ,e S 的自由度,则由定理2得到- 213 -t A B e f f f f =++ (9.28)称(9.28)为自由度分解公式.由定理2,有()/(1)~1,(1)(1)/(1)(1)A A e S m F F m m r S m r -=----- (9.29)显然,F A 越大说明因素A 对试验结果的影响越大.对给定的显著性水平α,查F 分布表得自由度为(m ―1, (m ―1)(r ―1))的F 分布临界值F α,若从样本由(9.29)式算出F A >F α,则拒绝假设H 01,认为因素A 对试验结果有显著影响;否则认为因素A 的影响不显著.类似地,可使用统计量()/(1)~1,(1)(1)/(1)(1)B B e S r F F r m r S m r -=----- (9.30)对因素B 进行显著性检验.若从样本由(9.30)式算出F A >F α,则拒绝假设H 02,认为因素B 对试验结果有显著影响;否则认为因素B 的影响不显著.上述讨论可归结为如表9.9所示的方差分析表.表9.9 双因素方差分析表例3 将土质基本相同的一块耕地分成均等的五个地块,每块又分成均等的四个小区.有四个品种的小麦,在每一地块内随机分种在四个区上,每小区的播种量相同,测得收获量如下表(单位:kg ),试以显著性水平α1=0.05, α2=0.01考察品种和地块对收获量的影响是否显著.解 为计算简单起见,每一收获量均减去32,列表计算.- 214 -注意到m =4,r =5,n =20,经计算得到S A = 134.65, S B = 14.10, S t = 175.03, S e = 26.28,查表得临界值F 0.05(4, 12)=3.26,F 0.01(3, 12)=5.95.由于F B <F 0.05(4, 12),故认为地块不同对收获量无显著影响.由于F A >F 0.01(3, 12),故认为品种不同对收获量影响极显著.9.3 多重比较当假设(9.4)被拒绝后,只能表明在显著水平α下,至少有两个子体的均值间差异显著,并不表示k 个均值之间两两的差异都显著.通常要进一步检验该因素在各水平上的均值两两之间的差异是否显著,以确定哪些水平对响应值有重要影响.我们称这种差异性检验为多重比较.多重比较的方法很多,而且每种方法都有各自的优、缺点.这里,我们介绍适用范围较广的两种方法.一种是Scheffe 方法(S 法),另一种是Tukey 方法(T 法).在进行所有两个均值的同时比较时,如果每次比较的冒险率(犯第一类错误的概率)为α,则S 法和T 法全体冒险率均为α.如果用t 检验进行所有两个均值的同时比较,当均值个数大于2时,尽管每拒绝1个假设所犯的错误都是α,但同时拒绝2个假设所犯的错误是221(1).ααααα+-=-->如果对7个均值进行两两比较,要比较2721C =次.给定拒绝每个假设(i j μμ=,- 215 -1≤i <j ≤7)的冒险率0.10α=,要拒绝所有21个假设,即判明7个均值互不相等所犯的错误将是211(1)0.89α--≈!显然,在使用t 检验进行所有两个均值的同时比较时,全体的冒险率随均值个数的增加而增加.因此,t 检验只能适用于随机抽出的两个均值的比较,并不适用于所有的两个均值的同时比较. 9.3.1 S 法仍用e f 表示误差平方和S e 的自由度,/e e e MS S f =表示均方误差,假定观测数据满足方差分析的基本要求.在单因素方差分析中,Scheffe (1953)给出用于检验假设H 0:μi = μj (1≤i <j ≤k )的统计量i j D S α= (9.31)其中),1()1(e f k F k S --=αα.当||i j i j x x D ->时,则拒绝假设H 0 :μi =μj ,认为水平A i 与水平A j 在显著水平α下差异显著;否则认为A i 与A j 差异不显著.对于双因素方差分析,我们可以分别对每个因素作单因素方差分析,进而进行多重比较.也可以按下述步骤进行近似的S 检验:1 若检验假设A j A i H μμ=:0,则使用统计量ij D S = (9.32) 其中),1()1(e a f m F m S --=α.当||i j ij x x D ⋅⋅->时,则拒绝A j A i H μμ=:0,否则接受H 0.2 若检验假设B j B i H μμ=:0,则使用统计量ij D S α= (9.33) 其中),1()1(e f r F r S --=αα.- 216 - 当||i j ij x x D ⋅⋅->时,则拒绝B j B i H μμ=:0,否则接受H 0.比如在例2中,k = 5, n 1 = n 2 = … = n 5 = 4, f e = 15, MS e = 2.29.取α=0.05,查表得F 0.05(4,15)=3.06.于是由(9.32)及(9.33)得24.1206.34205.0=⨯=S ,)51(74.3)4141(29.224.12≤<≤=+⨯⨯=j i D ij .12||0.025 3.74x x -=<,故μ1与μ2差异不显著. 15|| 3.925 3.74x x -=>,故μ1与μ5差异不显著.14|| 3.35 3.74x x -=<,但与临界值3.74较接近,虽在显著水平0.05下认为μ1与μ4差异不显著,却能看出二者间存在真实的差异.类似地,可对其中任二均值进行比较. 9.3.2 T 法在用T 法进行k 个水平上的均值μ1,μ2,…,μk 之间的两两比较时,要求各水平上的重复数相同,即n 1 = n 2 = … = n k ,并且还要求2cov(,),,1,2,,;i j x x b i j k i j σ==≠ .即i x 与j x 的协方差不依赖于i 和j .T 法所使用的统计量是(,e T q k f α= (9.34) 其中(,)e q k f α是自由度为(,)e k f 的t 化极差分布的上侧α分位点.(,)e q k f α可以从“多重比较的q 表”中查到.S 法无论水平重复数是否相同都适用,T 法只适用于水平重复数相同的情况;在进行所有均值间的两两比较时,T 法比S 法灵敏度高,能检出较小的差异.因此,在水平重复数相同时应当用T 法.9.4 双因素等重复试验的方差分析在双因素试验中,除考察因素A 和B 对试验结果的影响外,还应考虑A 、B- 217 -的各水平的搭配情况对试验结果的影响,称此为A 与B 的交互作用,并把它设想为某一因素,记为A B ⨯.为考虑交互作用A B ⨯,对因素A 、B 的各水平的每一搭配(A i ,B j )都进行l (l ≥2)次重复观测,得到表9.10中的观测数据.表9.10 双因素等重复试验数据记n mrl =,1111m r lijk i j k x x n ====∑∑∑11,,1,2,,;1,2,,.lij ijk ij ij k x x x x i m j r l ⋅⋅⋅=====∑111,,1,2,,.r li ijk i i j k x x x x i m rl⋅⋅⋅⋅⋅⋅=====∑∑ 111,,1,2,,.mlj ijk j j i k x x x x j r ml⋅⋅⋅⋅⋅⋅=====∑∑双因素等重复试验的方差分析计算量较大.其基本原理也是将总的偏差平方和作如下分解:- 218 - 211122111122111()()()()()m r lt ijk i j k mrlmijk ij i i j k i rm rj ij i j j i j e A B A BS x x x x rl x x ml x x k x x x x S S S S ===⋅⋅⋅====⋅⋅⋅⋅⋅⋅⋅===⨯=-=-+-+-+--+=+++∑∑∑∑∑∑∑∑∑∑ (9.35)其中各偏差平方和的表达式如下:2111()m r le ijk ij i j k S x x ⋅====-∑∑∑21()mA i i S rl x x ⋅⋅==-∑21()rB j j S ml x x ⋅⋅==-∑211()m rA B ij i j i j S k x x x x ⨯⋅⋅⋅⋅⋅===--+∑∑e S 为误差平方和,反映了随机误差对试验指标的影响;A S 和B S 分别为因素A 和B 的偏差平方和,分别反映了因素A 和B 对试验结果的影响程度,A B S ⨯为A 与B 的交互作用A B ⨯的偏差平方和.当假设“H A :因素A 对试验结果无显著影响”成立时()/(1)~1,(1)/[(1)]A A e S m F F m mr l S mr l -=---当假设“H B :因素B 对试验结果无显著影响”成立时()/(1)~1,(1)/[(1)]B B e S r F F r mr l S mr l -=---当假设“H AB :交互因素AB 对试验结果无显著影响”成立时()/[(1)(1)]~(1)(1),(1)/[(1)]A B B e S m r F F m r mr l S mr l ⨯--=----检验过程可归纳在如表9.11所示的方差分析表中.立性和等方差性.从理论上讲对上述假定都要通过样本进行统计检验.有关独立性问题,通常是通过试验设计来解决.至于正态性和等方差性,可以根据第八章进行拟合优度检验和Bartlett 检验,还可以对原始数据进行适当的变换,使之满足正态性和等方差性.习 题 九1. 某灯泡厂用四种不同配料方案制成的灯丝,生产了四批灯泡.在每批灯泡中随机地其中(1,2,3,4)i t i =表示第i 批灯泡的寿命.试问(1) 四种灯丝生产的灯泡的使用寿命有无显著差异(0.05α=)? (2) 用S 法比较任意两批灯泡平均寿命之间的差异性(0.05α=).2. 设有三种型号的设备制造同一产品,对每种型号的设备各观测其5天的日产量,数x i 表示第i种型号的设备的日产量.问不同型号的设备生产能力之间是否其中(1,2,3)i有显著差异?3. 为了解3种不同饲料对猪生长影响的差异,用3个品种的猪进行全面搭配试验,3个月后测得9头猪的体重增加量(单位:kg)如下表:试分析饲料之间及猪的品种之间对猪的体重增加有无显著差异.4. 一种火箭使用了四种燃料、三种推进器作射程试验,对于燃料与推进器的每一种搭试检验燃料和推进器对火箭射程是否有显著影响,以及两个因素的交互作用对火箭射程是否有显著影响.- 220 -。

数理统计14(方差分析)

数理统计14(方差分析)
组间变异 组内变异
总变异
统计量
其中
称为组间均方 (mean square between groups) 或因素均方 (mean square factor),
MSE

SSE nk
称为组内均方 (mean square within groups)
或误差均方 (mean square error),
第一节 单因素方差分析
一、方差分析的原理和方法
效应 (effect): 在试验中的试验结果。 因素 (factor): 影响试验结果的条件。 水平 (lever): 因素所处的不同状态或内部分类。 方差分析的目的:是探讨不同因素、不同水平
之间效应的差异,从而考察各因素对试 验结果是否有显著影响。
试验中只有一个因素取不同的水平进行试 验,而其他因素保持不变,这样的试验称为 单因素试验 (one factor trial), 相应的方差分 析就是单因素方差分析。
表8-5 例8-1的方差分析表
方差 离差
来源 平方和
Source 组间
(因素)
组内 (误差)
总和 (总变差)
SS 442.7
160.5 603.2
自由 度 df 4
15
19
均方
MS 110.68
10.7
F值 MSA MSE
10.34
P值 P<0.05
临界值 F
F0.05(4,15) =3.06
第二节 多重比较
温度(℃) 60 65 70 75 80 合计 86 80 83 76 96
xi j
89 83 90 81 93
91 88 94 84 95
90 84 85 82 94

数理统计CH方差分析pt课件

数理统计CH方差分析pt课件

i1 j1 k 1 ab
原因AB旳互作效应
nij (xij xi x j x )2
i1 j1
ab
MSAB
SSAB
nij (xij xi x j x )2
i1 j1
(a 1)(b 1)
(a 1)(b 1)
2024/9/30
26
6.2 两向分组数据方差分析
平方和代表效应
(12)总离差平方和分解
x1b1

x1b,n1b

x2b1

x2b,n2b


A单向分组 …
xab1

xab,nab
2024/9/30
6
6.2 两向分组数据方差分析
(2)数据模式
➢各个处理(原因A与B旳水平组合)分别独立试
验,第i×j处理反复试验nij次取得nij个观察, 这nij个观察视作第i×j正态总体旳一种样本; ➢全部观察(整个样本)由a×b个独立正态总
互作效应假设 H13 : ij i j 不全为零
2024/9/30
14
6.2 两向分组数据方差分析
(6)统计假设
总效应分解成 各个原因效应
原因A效应假设 H01 :1 2 a 0
H11 : 1,2 ,
,
不全为零
a
原因B效应假设 H02 : 1 2 b 0 H12 : 1, 2 , , b不全为零
23
6.2 两向分组数据方差分析
(10)计算原因B平方和SSB
Var
x j
1
a
nij
Var
n2 j i1 k 1
xijk
2
n j
b
EH0 SSB

方差分析(共66张PPT)

方差分析(共66张PPT)

18~岁 21.65 20.66
… … 18.82 16 22.07 8.97
30~岁 27.15 28.58
… … 23.93 16 25.94 8.11
45~60岁 20.28 22.88 … … 26.49 16 25.49 7.19
基本步骤
(1)建立假设,确定检验水准
H0:三个总体均数相等,即三组工作人员的 体重指数总体均数相等
单因素方差分析
例1 在肾缺血再灌注过程的研究中,将36只雄性大鼠随机等分成三组, 分别为正常对照组、肾缺血60分组和肾缺血60分再灌注组,测得 各个体的NO数据见数据文件,试问各组的NO平均水平是否相同?
单因素方差分析
分析:
对于单因素方差分析,其资料在SPSS中的数据结构应当由两 列数据构成,其中一列是观察指标的变量值,另一列是用以表 示分组变量。实际上,几乎所有的统计分析软件,包括SAS, STATA等,都要求方差分析采用这种数据输入形式,这一点也暗 示了方差分析与线性模型间千丝万缕的联系。
H1:三个总体均数不等或不全相等
(2)计算检验统计量F值
变异来源
SS 自由度(df)
MS
F
组间 组内 总变异
143.406 363.86 507.36
2
71.703
8.87
45
8.09
47
(3)确定p值,作出统计推断
,本次F值处于F界值之外,说明组间均方组内 均方比值属于小概率事件,因此拒绝H0,接受 H1,三个总体均数不等或不全相等
分凝血活酶时间有无不同?
方差分析步骤 :
(1)提出检验假设,确定检验水准
H0:μ1=μ2=μ3 H1:μ1,μ2,μ3不全相同 a=

数理统计--参数估计、假设检验、方差分析(李志强) (3)讲解

数理统计--参数估计、假设检验、方差分析(李志强) (3)讲解

教学单元案例: 参数估计与假设检验北京化工大学 李志强教学内容:统计量、抽样分布及其基本性质、点估计、区间估计、假设检验、方差分析 教学目的:统计概念及统计推断方法的引入和应用(1)理解总体、样本和统计量等基本概念;了解常用的抽样分布;(2)熟练掌握矩估计和极大似然估计等方法; (3)掌握求区间估计的基本方法; (4)掌握进行假设检验的基本方法; (5) 掌握进行方差分析的基本方法;(6)了解求区间估计、假设检验和方差分析的MA TLAB 命令。

教学难点:区间估计、假设检验、方差分析的性质和求法 教学时间:150分钟教学对象:大一各专业皆可用一、统计问题 引例例1 已知小麦亩产服从正态分布,传统小麦品种平均亩产800斤,现有新品种产量未知,试种10块,每块一亩,产量为:775,816,834,836,858,863,873,877,885,901问:新产品亩产是否超过了800斤?例2 设有一组来自正态总体),(2σμN 的样本0.497, 0.506, 0.518, 0.524, 0.488, 0.510, 0.510, 0.512. (i) 已知2σ=0.012,求μ的95%置信区间; (ii) 未知2σ,求μ的95%置信区间; (iii)求2σ的95%置信区间。

例3现有某型号的电池三批, 分别为甲乙丙3个厂生产的, 为评比其质量, 各随机抽取5只电池进行寿命测试, 数据如下表示, 这里假设第i 种电池的寿命),(.~2σμi i N X .(1) 试在检验水平下,检验电池的平均寿命有无显著差异? (2) 利用区间估计或假设检验比较哪个寿命最短.二 统计的基本概念: 总体、个体和样本(1)总体与样本总体 在数理统计中,我们将研究对象的某项数量指标的值的全体称为总体,总体中的每个元素称为个体比如,对电子元件我们主要关心的是其使用寿命.而该厂生产的所有电子元件的使用寿命取值的全体,就构成了研究对象的全体,即总体,显然它是一个随机变量,常用X 表示 为方便起见,今后我们把总体与随机变量X 等同起来看,即总体就是某随机变量X 可能取值的全体.它客观上存在一个分布,但我们对其分布一无所知,或部分未知,正因为如此,才有必要对总体进行研究.简单随机样本对总体进行研究,首先需要获取总体的有关信息. 一般采用两种方法:一是全面调查.如人口普查,该方法常要消耗大量的人力、物力、财力.有时甚至是不可能的,如测试某厂生产的所有电子元件的使用寿命. 二是抽样调查. 抽样调查是按照一定的方法,从总体X 中抽取n 个个体.这是我们对总体掌握的信息.数理统计就是要利用这一信息,对总体进行分析、估计、推断.因此,要求抽取的这n 个个体应具有很好的代表性.按机会均等的原则随机地从客观存在的总体中抽取一些个体进行观察或测试的过程称为随机抽样.从总体中抽出的部分个体,叫做总体的一个样本.从总体中抽取样本时,不仅要求每一个个体被抽到的机会均等,同时还要求每次的抽取是独立的,即每次抽样的结果不影响其他各次的抽样结果,同时也不受其他各次抽样结果的影响.这种抽样方法称为简单随机抽样.由简单随机抽样得到的样本叫做简单随机样本.往后如不作特别说明,提到“样本”总是指简单随机样本.从总体X 中抽取一个个体,就是对随机变量X 进行一次试验.抽取n 个个体就是对随机变量X 进行n 次试验,分别记为X1,X2,…,Xn.则样本就是n 维随机变量(X1,X2,…,Xn).在一次抽样以后, (X1,X2,…,Xn)就有了一组确定的值(x1,x2,…,xn),称为样本观测值.样本观测值(x1,x2,…,xn)可以看着一个随机试验的一个结果,它的一切可能结果的全体构成一个样本空间,称为子样空间.(2)样本函数与统计量设n x x x ,,,21 为总体的一个样本,称ϕϕ= (n x x x ,,,21 )为样本函数,其中ϕ为一个连续函数。

数理统计中的回归分析与ANOVA

数理统计中的回归分析与ANOVA

数理统计中的回归分析与ANOVA 在数理统计学中,回归分析与ANOVA(Analysis of Variance,方差分析)是两个重要的统计方法。

回归分析用于研究自变量与因变量之间的关系,ANOVA则用于比较两个或多个样本均值之间的差异。

本文将分别介绍这两个方法及其在数理统计学中的应用。

回归分析是一种用于探究自变量与因变量之间关系的统计方法。

它试图通过建立一个数学模型来描述自变量与因变量之间的函数关系。

可根据自变量的数量和类型的不同,分为简单回归和多元回归。

简单回归分析只包含一个自变量,多元回归则包含两个或两个以上的自变量。

简单回归分析的数学模型可以表示为:Y = β0 + β1X + ε,其中Y为因变量,X为自变量,β0和β1为回归系数,ε为误差。

通过最小二乘法估计回归系数,可以得到拟合的直线方程。

此外,还可以计算回归系数的显著性,利用相关系数判断回归模型的拟合程度。

多元回归分析的模型为:Y = β0 + β1X1 + β2X2 + ... + βkXk+ ε。

与简单回归相比,多元回归包含了多个自变量,可以更全面地考虑自变量对因变量的影响。

同样,可以通过最小二乘法估计回归系数,并进行显著性检验和模型拟合度评估。

回归分析在实际应用中有很多用途。

例如,可以利用回归分析预测未来销售额、研究疾病发病率与环境因素的关系、评估股市指数与经济数据的相关性等。

回归分析提供了一种量化的方法,可以揭示自变量与因变量之间的关系,从而进行决策和预测。

ANOVA是一种用于比较两个或多个样本均值之间差异的方法。

它将总体方差分解为组内方差和组间方差,并通过比较组间方差与组内方差的大小来判断样本均值是否存在显著差异。

在ANOVA中,组间方差与组内方差的比值称为F值,可以进行假设检验。

在单因素ANOVA中,只有一个自变量(因素),例如,考察不同教育水平对收入的影响。

多因素或双因素ANOVA则考虑两个或多个自变量对因变量的影响,例如,同时考察教育水平和工作经验对收入的影响。

数理统计实验3A方差分析和线性回归

数理统计实验3A方差分析和线性回归

02
拓展应用领域
本实验主要针对某一具体问题 展开研究,但方差分析和线性 回归方法具有广泛的应用前景 。未来可以将这些方法应用于 其他领域,如金融、医疗、环 境等,以解决实际问题。
03
考虑更多影响因素 04
在本次实验中,我们只考虑了几 个主要因素对目标变量的影响。 然而,实际情况中可能存在更多 影响因素。未来可以尝试引入更 多的自变量,以更全面地探究目 标变量与其他因素之间的关系。
线性回归
通过最小化预测误差平方和来找到最佳拟合直线或曲线的过程。
回归方程
描述因变量与自变量之间关系的数学表达式,形式为 (Y = beta_0 + beta_1X_1 + beta_2X_2 + ... + beta_pX_p)
回归系数
回归方程中的系数,表示自变量对因变量的影响程度。
线性回归的假设条件
数理统计实验3a方差分析和 线性回归
目录
• 方差分析 • 线性回归 • 实验设计和数据分析 • 案例分析 • 结论与展望
01
方差分析
方差分析的基本概念
方差分析(ANOVA)是一种统计技 术,用于比较两个或多个组之间的平 均值差异是否显著。
它通过分析数据的方差来检验各组均 值是否相等,从而判断各组之间的差 异是否具有统计意义。
多元线性回归用于探索因变量与 多个自变量之间的关系,并预测 因变量的值。
多元线性回归的参数估计也使用 最小二乘法。
03
实验设计和数据分析
实验设计
实验目的
通过方差分析和线性回归,探究不同因素对某一指标 的影响,并预测未来趋势。
实验假设
假设不同因素对指标有显著影响,且存在线性关系。

数理统计方差分析

数理统计方差分析
F SSA(k1) ~F(k1,nk). SSE(nk)
证明:对每个X总i(体 i 1,2,,k)的样本均X值i与样本方差
ni
(Xij Xi)2
Si2 j1 ni 1 相互独立;又全体相样互本独立,于是
n1
n2
nk
(X1, (X1j X1)2),(X2, (X2j X2)2),,(Xk, (Xkj Xk)2)
记:
Xi
1 n
ni j 1
Xij
将Q进行分解:
1 k ni
X n i1
Xij
j1
k ni
SST(Xij X)2 i1 j1
k n i
S S T
(X ijX i) (X i X )2
i 1j 1
kn i
kn i
kn i
(X ij X i)2 (X i X )2 2 (X ij X i)X ( i X )
这意味着四个样本分别来自均值不同的四个正态总体
f(X)
X
m3 m1 m2 m4
第二节 单因素方差分析
一、数据结构 二、单因素方差分析的步骤 三、单因素方差分析中的其它问题
f(X)
X
m1 m2 m3 m4
一、数据结构
观察值 ( j )
1 2 : : n
水平A1
x11 x21 : : xn1
j1
j1
j1
相互独立,从(而 X1, X2,,, Xk )与SSE相互独立,由此推出
SSA与SSE独立。ni
由于(ni 1)Si2 j1
2
(Xij
2
Xi
)2
~ 2(ni
1),i
1,2,,k且相互独立。于
ni

概率论与数理统计_浙大四版_习题解_第9章_方差分析

概率论与数理统计_浙大四版_习题解_第9章_方差分析

概率论与数理统计(浙大四版)习题解 第9章 方差分析约定:以下各个习题所涉及的方差分析问题均满足方差分析模型所要求的条件。

【习题9.1】今有某种型号的电池三批,它们分别是C B A ,,三个工厂所生产的。

为评比其质量,各随机抽取5只电池为样品,经试验得其寿命(小时)如下表。

三批电池样品的寿命检测结果 A B C 40 42 26 28 39 50 48 45 34 32 40 50 383043(1)试在显著性水平0.05下检验电池的平均寿命有无显著的差异。

(2)若差异显著,试求B A μμ-、C A μμ-及C B μμ-的置信水平为0.95的置信区间。

〖解(1)〗设,,A B C μμμ分别表C B A ,,三厂所产电池的寿命均值,则问题(1)归结为检验下面的假设(单因素方差分析)01::,,不全相等A B CA B C H H μμμμμμ==设A 表因素(工厂),设,,,T R A CR 分别表样本和、样本平方和、因素A 计算数、矫正数,其值的计算过程和结果如下表。

样本数据预处理表A B C 预处理结果40 42 26 28 39 50 n=15 48 45 34 32 40 50 a=338 30 43 CR=22815 j T 213 150 222 T=585 2j j T n9073.8 4500 9856.8 A=23430.6 2ijx∑913745409970R=23647112221121158558522815152364723430.6jjj n aij j i n aijj i n a ij j j i T x T CR n R x A x n =============⎛⎫== ⎪ ⎪⎝⎭∑∑∑∑∑∑计算平方和及自由度如下23647228158321151142364723430.6216.41531223430.622815615.61312T E A SST R CR df n SSE R A df n a SSA A CR df a =-=-==-=-==-=-==-=-==-=-==-=-= 方差分析表方差来源 平方和 自由度 均方 F 值()0.052,12F因素A 615.6 2 307.8 17.07 3.89 误差 216.4 12 18.0333总和83214因17.07 3.89值F =>在拒绝域内,故在0.05水平上拒绝0H ,即认定各厂生产的电池寿命有显著的差异。

方差分析

方差分析
i 2
2
2. 组间变异
3. 组内变异
SS组内 (ni - 1 )Si
i
2
11
均方差,均方(mean square,MS)
变异程度除与离均差平方和的大小有关 外,还与其自由度有关,由于各部分自由度 不相等,因此各部分离均差平方和不能直接 比较,须将各部分离均差平方和除以相应自 由度,其比值称为均方差,简称均方(mean square,MS)。组间均方和组内均方的计算 公式为:
因变量 (Dependent variable)
24
完全随机设计(单因素)方差分析

在评价某药物耐受性及安全性的I期临床试
验中,对符合纳入标准的30名健康自愿者 随机分为3组每组10名,各组注射剂量分别 为0.5U、1U、2U,观察48小时部分凝血活 酶时间(s)试问不同剂量的部分凝血活酶 时间有无不同?
17
例题:比较不同人种的肝体比值
Table Comparison of liver/body proportion (%) A B C D 2.62 2.82 2.91 3.92 2.76 3.02 3.00 Y 2.23 2.36 2.43 3.28 3.32 2.40 2.73 3.18 3.04
32
如果多组样本均数的比较用t检验会怎样?
当有k个均数需作两两比较时,比较的次数共有 c= k = k!/(2!(k-2)!)=k(k-1)/2
2
设每次检验所用Ⅰ类错误的概率水准为α,累积Ⅰ类 错误的概率为α’,则在对同一实验资料进行c次检验时 ,在样本彼此独立的条件下,根据概率乘法原理,其累 积Ⅰ类错误概率α’与c有下列关系: α’=1-(1-α)c
X
Y 2. 组间变异( between group variation ):各 组的均数 X i 与全部观察值的均数 X 间的差
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

例1
H 1 : 1 , 2 , 3不全相等.
检验假设
H 0 : 1 2 3 , H 1 : 1 , 2 , 3不全相等.
进一步假设各总体均为正态变量,且各总体的 方差相等,但参数均未知. 问 题——检验同方差的多个正态总体均 值是否相等.
解决方法——方差分析法,一种统计方法.
2 SA /( r 1) 在检验水平 下, 由p F 2 k 得 S E /( n r ) k F1 ( r 1, n r )
H0的拒绝域为 :
2 SA /( r 1) F1 ( r 1, n r ) F 2 S E /( n r )
自由度 2
12 14


F

素A 0.00105333
0.00052667 32.92
0.000016
随机误差 0.000192 总 和 0.00124533
F 32.92 F0.05 ( 2,12) 3.89.在水平0.05下拒绝 H 0 . 各机器生产的薄板厚度有显著差异.
在MATLAB中的求解 函数:anova1 格式:p=anova1(x) 说明:对样本X中的多列数据进行单因素方差分析, 比较各列的均值,返回“零假设”成立的概率值,如果 概率值接近于零,则零假设值得怀疑,表明各列的均 值事实上是不同的. 源程序: x=[0.236,0.238,0.248,0.245,0.243; 0.257,0.253,0.255,0.254,0.261; 0.258,0.264,0.259,0.267,0.262]; p=anova1(x’) 助 程序运行结果 方差分析表 Box 图检验 帮
1. 各水平效应 i 的点估计
Yi .是i的无偏估计量 , Y是的无偏估计量
ˆ i Yi . Y 是 i i 的无偏估计
2. 各水平下均值 i 的区间估计
Yi . i ~ N (0,1) /2 ni T S E ~ 2 (n r ) 2 Yi . i / ni S Yi . i S ni ( n r )
单因素试验方差分析的数学模型 需要解决的问题 1.检验假设
H 0 : 1 2 s , H 1 : 1 , 2 ,, s 不全相等.
2
2.估计未知参数1 , 2 ,, s , .
数学模型的等价形式
1 记n ni , ni i n i 1 i 1
Y21
Y22
Y2 s
Ar

Yr1
Y.1

Yr 2

Yrs
Y.s
Y.2
假设
Yij~N ( ij , 2 ), i 1,, r; j 1,, s
各Yij 独立, ij , 2均为未知参数 .
Yij ij eij , 2 eij~N (0, ), 各eij独立, i 1,2,, r , j 1,2,, s,
水 平Ai的 效 应, 表 示 水 平 Ai 下 的 总 体 平均值与总 平均的差异 .
r r
总平均
i i , j 1,2,, r
n1 1 n2 2 nr r 0
原数学模型:
Yij i e ij , (i 1, r ; j 1, ni ) 2 e ~ N ( 0 , ) , 各 e ij 独立 ij

y2n2

...yini ...
... yi . ...

yrn r
样本均值
样本容量 总体分布
y1.
n1
y2.
n2
yr .
nr
...ni ...
...i ...
r
1
2
2
r
其 中Yi ~ N ( i , ), n ni
i 1
假设
1.各 个 水 平 Ai ( i 1,2,, r )下 的 样 本 来 自 具 有 相 方 同 差 2 , 均 值 分别为 i ( i 1,, r )的 正 态 总 体 Yi ~ N ( i , 2 ), i 与 2均 未 知 ;
统计分析:
若因素的各水平对试验结果没有显著性影响, 则选择成本较低的那一种水平来实施方案; 若因素的各水平对试验结果有显著影响,则一 般选取最大或最小的那一种水平来实施方案。 1. 求出各水平效应 i i 的估计值,并进行 比较,选出最优的实施方案。
2. 估计各水平下总体的均值 i的范围。
2 E

2 E 2
~ t (n r )
/( n r )
在置信度为 1 - 下
i的 置 信 区 间 为 :
2 SE Yi . t1 / 2 ( n r ) ni ( n r )
§5.2
双因素方差分析
一、无交互作用的双因素方差分析 二、有交互作用的双因素方差分析
不同因素的不同水平的搭配有可能
§5.1
单因素方差分析
例1 设有三台机器,用来生产规格相同的铝合金薄 板.取样,测量薄板的厚度精确至千分之一厘米.得结 果如下表所示. 表5.1 铝合金板的厚度 机器Ⅰ 机器Ⅱ 机器Ⅲ 0.236 0.257 0.258 0.238 0.253 0.264 0.248 0.255 0.259 0.245 0.254 0.267 0.243 0.261 0.262 试验指标: 薄板的厚度 因素: 机器
等价于 检验假设
H 0 : 1 2 r 0, H 1 : 1 , 2 ,, r 不全为零.
方差分析法:平方和分解式
1 Y Yij — 数据的总平均值 n i 1 i 1
1 Yi . ni
r ni
Y
j 1
ni
ij
— 水平Ai 下第i组的样本平均值
第五章 方差分析
回归分析: -------研究变量之间是否存在相关关系
方差分析: ------研究变量对变量是否有显著性影响
在实际中,方差分析就是对数据进行分析 处理,分清各种实验条件及状态对结果的影响, 以便指导生产实践.
机器设备 原料成分 原料剂量
反应时间
化工产品的 数量和质量
溶液浓度
操作水平
ห้องสมุดไป่ตู้
ni Y nY
i 1 2 i.
r
2
——是由于因素的各水平不同效应而引起的
S S S
2 T 2 E
2 A
检验统计量:

2 SA 2 SE
2 S A 比较大,表明在整个误差中 占主要部分,
因此可认为因素的各水平对试验结果的影响显著,从
H0 而拒绝
H0 ,因此
的拒绝域形式为
2 SA 2 k SE
单因素试验方差分析表 方差来源 平方和 自由度 均 方 因 素A
S
2 A
F

r 1
2 SA SA r 1
2 SE SE nr
F S A SE
随机误差 总 和
S
2 E
nr
n 1
2 ST
例1 设有三台机器,用来生产规格相同的铝合金薄 板.取样,测量薄板的厚度精确至千分之一厘米.得结 果如下表所示. 表5.1 铝合金板的厚度 机器Ⅰ 机器Ⅱ 机器Ⅲ 0.236 0.257 0.258 0.238 0.253 0.264 0.248 0.255 0.259 0.245 0.254 0.267 0.243 0.261 0.262 取 0.05, 检验假设
2 ST 2 ~ ( n 1) 2 2 2 SA /( r 1) SE 2 在H 0 成 立 时 , 2 ~ (n r ) F 2 ~ F ( r 1, n r ) S E /( n r ) 2 S A ~ 2 ( r 1) 2
反应温度


方差分析——根据试验的结果进行分析,鉴别 各个有关因素对试验结果的影响程度.
试验指标——试验中要考察的指标. 因 素——影响试验指标的条件. 因 素 水 可控因素 不可控因素
平——因素所处的状态.
单因素试验——在一项试验中只有一个因素改变. 多因素试验——在一项试验中有多个因素在改变.
2.不同水平 Ai 下的样本之间相互独立 .
且Yij~N (i , 2 ),(i 1,, r; j 1,, ni )
记Yij i eij , 表示随机误差 , 且eij ~ N (0, 2 )
Yij i e ij , (i 1, r ; j 1, ni ) 2 e ~ N ( 0 , ) , 各 e ij 独立 ij
记号
1 r s ij rs i 1 j 1
总平均
1 r j ij , j 1,, s r i 1
1 s i ij , i 1,, r s j 1
数学模型
设因素 A有r个水平 A1 , A2 ,, Ar , 在水平 Ai ( i 1.. p)进行 ni 次独立试验 , 得到如下结果:
观察结果 水平
A1
y11
y12
表 5.2 A2
y 21
...Ai ...
... yi1 ...
Ar
yr1
yr 2
y 22
... yi 2 ...

y1n1
2 e ~ N ( 0 , ) , 各 e 独立 , ij ij 改写为: i 1, 2, , r ; j 1,2 n j r n i i 0. i 1
Yij i e ij ,
原检验假设
H 0 : 1 2 r , H 1 : 1 , 2 ,, r 不全相等.
相关文档
最新文档