第八章方差分析与回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SST SSA SSE 11497 10472.11 1024.89
MSA 934.73 2 467.36 MSE 90.17 6 15.03
* * F MSA 467.36 31.10 MSE 15.03
F0.01 2,6 10.92 F0.05 2,6 5.14
方差分析表
方差来源 平方和 自由度 均方和 F 值
F 值临介值
组间
934.73 2
467.36
F0.05 2,6 5.14
31.10**
F0.01 2,6 10.92
组内 90.17 6
15.03
总和 1024.89 8
不同的饲料对猪的体重的影响极有统计意义。
定理 在单因素方差分析模型中,有
r
E(SSA ) (r 1) 2
dfA 2, dfE 6, dfT 8
SSA
r i1
Ti 2 ni
T2
n
1822
4
742
3
512
2
3072
9
11406.8310472.11 934.72
SSE
r i1
ni
X
2 ij
j 1
r Ti2 n i1 i
512 402 ... 282 11406.83
11497 11406.83
基本概念
试验指标——试验结果。
可控因素——在影响试验结果的众多因素中,可人为 控制的因素。
水平——可控因素所处的各种不同的状态。每个 水平又称为试验的一个处理。
单因素试验——如果在一项试验中只有一个因素改变, 其它的可控因素不变,则该类试验称 为单因素试验。
引例
例1 (灯丝的配料方案优选)某灯泡厂用四种配料方案制成的灯 丝生产了四批灯泡,在每批灯泡中作随机抽样,测量其使用寿 命(单位:小时),数据如下:
i1 j 1
纵向个体间的差异称为随机误差(组内差异),由试验造 成;横向个体间的差异称为系统误差(组间差异),由因素的 不同水平造成。
单因素试验的方差分析的数学模型
首先,我们作如下假设:
1. Xi ~ N i , 2 , i 1, 2,...r 具有方差齐性。
2. X1, X 2,...X r 相互独立,从而各子样也相互独立。
LSR q (a, fe )SE SE MSe / m 其中a表示与比较的两个均值之间的跨度。
以LSR为两均值比较的最小显著差。 如果xi , x j (i, j 1,2, , r,i j)表示两个样本均值。 当 xi x j LSR时,就认为第i, j水平间均值差异显著; 当 xi x j LSR时,就认为第i, j水平间均值差异不显著。
SSE dfE
MSE
(记 SSA dfA MSA, SSE dfE MSE ,称作均方和)
对给定的检验水平 ,由 PF F r 1, n r
得H0 的拒绝域为:F F r 1, n r F 单侧检验
结论:方差分析实质上是假设检验,从分析离差 平方和入手,找到F统计量,对同方差的多个正态总体 的均值是否相等进行假设检验。单因素试验中两个水 平的均值检验可用第七章的T检验法。
当 xi x j HSD时,就认为第i, j水平间均值差异不显著。
Bonferroni法
Bonferroni法是根据所比较的两个处理平均数的个数k,
将检验水平 缩小k倍做为真实比较水平 ,确定是几
个平均数间的极差分别确定最小显著差数LSDα值的。
LSD t (r(m 1))Sxi x j
S xi x j
i1 j1
组间平方和(系 如果H0 成立,则SSA 较小。 统离差平方和)
反映的是各水平平均值偏离总平均值的偏离程度。
r ni
2
SSE
Xij X i
i1 j1
组内平方和
反映的是重复试验种随机误差的大小。误差平方和
若假设 H0 : a1 a2 ... ar 0 成立,则
Xij ~ N , 2 (各子样同分布)
Tukey法(又称honestly significant difference,简称HSD )
HSD q (r, r(m 1))Sxi x j
S xi x j
2MSe m
以HSD为两均值比较的最小显著差。 如果xi , x j (i, j 1,2, , r,i j)表示两个样本均值。
当 xi x j HSD时,就认为第i, j水平间均值差异显著;
2MSe m
以LSD为两均值比较的最小显著差。 如果xi , x j (i, j 1,2, , r,i j)表示两个样本均值。
当 xi x j LSD时,就认为第i, j水平间均值差异显著;
当 xi x j LSD时,就认为第i, j水平间均值差异不显著。
多重比较法选择
1.试验事先确定比较的标准,凡是与对照相比较,或与 预定要比较的对象比较,一般可选用最小显著差数法 LSDa法;
由于同一水平下重复试验的个体差异是随机误差, 所以设:
Xij i ij , j 1, 2,...ni , i 1, 2,...r 方差分析的线性
模型
其中 ij 为试验误差,相互独立且服从正态分布
即
ij ~ N 0, 2
整个试验的均值
令
1 n
r
ni i
i 1
, (其中 n
r
ni
引例
试验指标——灯泡的使用寿命
可控因素(唯一的一个) ——灯丝的配料方案
四个水平——四种配料方案(甲乙丙丁)
因此,本例是一个四水平的单因素试验。
用X1,X2,X3,X4分别表示四种灯泡的使用寿命,即为 四个总体。假设X1,X2,X3,X4相互独立,且服从方差 相同的正态分布,即Xi~N(i,2)(i=1ຫໍສະໝຸດ Baidu2,3,4)
简便计算公式:
SSA
r i1
Ti 2 ni
T2 n
SSE
r i1
ni
T 2 X ij n j 1
r2 i
i1 i
ni
r
其中 Ti Xij , T Ti
j 1
i 1
同一水平 下观测值 之和
所以观测 值之和
例2 以 A、B、C 三种饲料喂猪,得一个月后每猪 所增体重(单位:500g)于下表,试作方差分析。
SST
2
~ 2 n 1,
SSA
2
~ 2 r 1,
SSE
2
~ 2 nr
将
SST
2
,
SS A
2
,
SSE
2
的自由度分别记作 dfT , df A , dfE
则 F SSA dfA ~ F r 1, n r
SSE dfE
(记 SSA dfA MSA, SSE dfE MSE ,称作均方和)
则 F SSA dfA ~ F r 1, n r MSA
ni
2 i
E(SSE
)
(n
r) r
2
i 1
如果H0不成立,则
nii2 0
i 1
所以,E
SS A r 1
E
SSE nr
即H0不成立时,SSSSEA
r 1 nr
有大于1的趋势。
所以H0为真时的小概率事件应取在F值较大的一侧。
多重比较法
方差分析结果
不拒绝H0,表示拒绝总体均数相等的证据不足,
i 1
)称为一般平均值。
i i , 称为因素A的第 i 个水平 Ai 的效应。
r
r
r
显然有: nii ni i nii n 0
i 1
i 1
i 1
则线性统计模型变成
Xij i ij , j 1, 2,...ni , i 1, 2,...r
于是检验假设: H0 : 1 2 ... r
灯泡
寿命
1 2 3 4 5 678
灯丝
甲 1600 1610 1650 1680 1700 1720 1800
乙 1580 1640 1640 1700 1750
丙 1460 1550 1600 1620 1640 1740 1660 1820
丁 1510 1520 1530 1570 1680 1600
饲料 A
增重
51
40
43
48
B
23
25
26
C
23
28
解:T1 51 40 43 48 182,
T2 23 25 26 74,
T 182 74 51 307
T3 23 28 51
dfA r 1 2, dfE n r 9 3 6,
dfT n 1 8
解:T1 182, T2 74, T3 51, T 307
2.根据否定一个正确的H0和接受一个不正确的H0的相对重
要性来决定。 参考以下观点:
根据试验的侧重点选择。三种方法的显著尺度不相同, LSD法最低,HSD法次之,SNK法最高。故对于试验结 论事关重大或有严格要求时,用SNK法,一般试验可采 用HSD法。当比较次数不多时,Bonferroni法的效果较好; 但当比较次数较多(例如在10次以上)时,则由于其检验 水准选择得过低,结论偏于保守。
————>分析终止。
拒绝H0,接受H1, 表示总体均数不全相等
哪两两均数之间相等? 哪两两均数之间不等? ————>需要进一步作多重比较。
常用多重比较法
最小显著差数法(Least significant difference,简称 LSD法)
LSD t (r(m 1))Sxi x j
S xi x j
约定
注意:在方差分析表中,习惯于作如下规定:
(1)若 F F0.01,则称因素的差异极显著(极有统计意
** 义),或称因素A的影响高度显著,这时作标记
;
(2)若 F0.05 F F0.01 ,则称因素的差异显著(差异
* 有统计意义),或称因素A的影响显著,作标记 ;
(3)若 F0.1 F F0.05 ,则称因素A有一定影响,作
的一个样本:X i1, X i2 ,...X ini .
因此, X i1, X i2 ,...X ini 相互独立,且与 X i 同分布。
单因素方差分析的目的:通过试验数据来判断因 素 A 的不同水平对试验指标是否有影响。
单因素试验资料表
水平
重复 试验结果 A1 A2 ... Ar
1
X11 X 21 ... X r1
* 标记( );
(4)若 F F0.10 ,则称因素A无显著影响(差异无
统计意义)。
单因素试验方差分析表
方差来源 平方和 自由度 均方和
组间 组内 总和
SS A
df A
MS A
SS A df A
SSE dfE
MSE
SSE df E
SST dfT
F值 F MSA
MSE
F 值临介值
F r 1, n r
...
... ... ... ...
ni
X 1n1
X 2n2
... X rnr
ni
列和Ti Xij
T1
j 1
列平均Xi Ti ni X 1
(水平组内平均值)
T2 ... X 2 ...
r
Tr 总和 Ti i 1
Xr
X
1 n
r i 1
ni X i
(总平均值)
r
其中诸 ni 可以不一样,n ni i 1
例:五个水稻品种单位产量的观测值
品种 重复
A1 A2 A3 A4 A5
1 2 3
3
xij
j 1
xi
41 33 38 37 31 39 37 35 39 34 40 35 35 38 34
120 105 108 114 99
40 35 36 38 33
53
xij 546
i1 j 1
53
xij 15 36.4
第八章 方差分析与回归分析 • 方差分析的概念与基本思想 • 单因素方差分析 • 回归分析的基本概念 • 一元线性回归模型的建立与检验
引言
在工农业生产和科研活动中,我们经常遇到这样 的问题:影响产品产量、质量的因素很多,例如影 响农作物的单位面积产量有品种、施肥种类、施肥 量等许多因素。我们要了解这些因素中哪些因素对 产量有显著影响,就要先做试验,然后对测试结果 进行分析,作出判断。方差分析就是分析测试结果 的一种方法。
本例问题归结为检验假设 H0:1= 2= 3= 4 是否成立。
单因素试验的方差分析
设 A 表示欲考察的因素,它的 r个不同水平,对 应的指标视作 r 个总体 X1, X 2,...X r . 每个水平下,我 们作若干次重复试验:n1, n2 ,...nr .(可等重复也可不 等重复),同一水平的 ni 个结果,就是这个总体 X i
等价于检验假设: H0 :1 2 ... r 0
若H0成立,则 X ij ij , j 1, 2,...ni , i 1, 2,...r
r
考察统计量 SST
ni
2
Xij X
总离差平方和
i1 j1
经恒等变形,可分解为: SST SSA SSE
其中
r ni
2
SSA
Xi X
2MSe m
以LSD为两均值比较的最小显著差。 如果xi , x j (i, j 1,2, , r,i j)表示两个样本均值。 当 xi x j LSD时,就认为第i, j水平间均值差异显著; 当 xi x j LSD时,就认为第i, j水平间均值差异不显著。
q法(又称SNK (student-Newman-Keuls)检验法) q测验方法是将r个平均数由大到小排列后,根据所比较 的两个处理平均数的差数是几个平均数间的极差分别确 定最小显著极差LSRα值的。