第八章方差分析与回归分析

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

SST SSA SSE 11497 10472.11 1024.89
MSA 934.73 2 467.36 MSE 90.17 6 15.03
* * F MSA 467.36 31.10 MSE 15.03
F0.01 2,6 10.92 F0.05 2,6 5.14
方差分析表
方差来源平方和自由度均方和 F 值
F 值临介值
组间
934.73 2
467.36
F0.05 2,6 5.14
31.10**
F0.01 2,6 10.92
组内 90.17 6
15.03
总和 1024.89 8
不同的饲料对猪的体重的影响极有统计意义。
定理在单因素方差分析模型中，有
r
E(SSA ) (r 1) 2
dfA 2, dfE 6, dfT 8
SSA
r i1
Ti 2 ni
T2
n
1822
4
742
3
512
2
3072
9
11406.8310472.11 934.72
SSE
r i1
ni
X
2 ij
j 1
r Ti2 n i1 i
512 402 ... 282 11406.83
11497 11406.83
基本概念
试验指标——试验结果。
可控因素——在影响试验结果的众多因素中，可人为控制的因素。
水平——可控因素所处的各种不同的状态。每个水平又称为试验的一个处理。
单因素试验——如果在一项试验中只有一个因素改变，其它的可控因素不变，则该类试验称为单因素试验。
引例
例1 （灯丝的配料方案优选）某灯泡厂用四种配料方案制成的灯丝生产了四批灯泡，在每批灯泡中作随机抽样，测量其使用寿命（单位：小时），数据如下：
i1 j 1
纵向个体间的差异称为随机误差（组内差异），由试验造成；横向个体间的差异称为系统误差（组间差异），由因素的不同水平造成。
单因素试验的方差分析的数学模型
首先，我们作如下假设：
1. Xi ~ N i , 2 , i 1, 2,...r 具有方差齐性。
2. X1, X 2,...X r 相互独立，从而各子样也相互独立。
LSR q (a, fe )SE SE MSe / m 其中a表示与比较的两个均值之间的跨度。
以LSR为两均值比较的最小显著差。如果xi , x j (i, j 1,2, , r,i j)表示两个样本均值。当 xi x j LSR时，就认为第i, j水平间均值差异显著；当 xi x j LSR时，就认为第i, j水平间均值差异不显著。
SSE dfE
MSE
（记 SSA dfA MSA, SSE dfE MSE ，称作均方和）
对给定的检验水平，由 PF F r 1, n r
得H0 的拒绝域为：F F r 1, n r F 单侧检验
结论：方差分析实质上是假设检验，从分析离差平方和入手，找到F统计量，对同方差的多个正态总体的均值是否相等进行假设检验。单因素试验中两个水平的均值检验可用第七章的T检验法。
当 xi x j HSD时，就认为第i, j水平间均值差异不显著。
Bonferroni法
Bonferroni法是根据所比较的两个处理平均数的个数k，
将检验水平缩小k倍做为真实比较水平，确定是几
个平均数间的极差分别确定最小显著差数LSDα值的。
LSD t (r(m 1))Sxi x j
S xi x j
i1 j1
组间平方和（系如果H0 成立，则SSA 较小。统离差平方和）
反映的是各水平平均值偏离总平均值的偏离程度。
r ni
2
SSE
Xij X i
i1 j1
组内平方和
反映的是重复试验种随机误差的大小。误差平方和
若假设 H0 : a1 a2 ... ar 0 成立，则
Xij ~ N , 2 （各子样同分布）
Tukey法(又称honestly significant difference，简称HSD )
HSD q (r, r(m 1))Sxi x j
S xi x j
2MSe m
以HSD为两均值比较的最小显著差。如果xi , x j (i, j 1,2, , r,i j)表示两个样本均值。
当 xi x j HSD时，就认为第i, j水平间均值差异显著；
2MSe m
以LSD为两均值比较的最小显著差。如果xi , x j (i, j 1,2, , r,i j)表示两个样本均值。
当 xi x j LSD时，就认为第i, j水平间均值差异显著；
当 xi x j LSD时，就认为第i, j水平间均值差异不显著。
多重比较法选择
1.试验事先确定比较的标准，凡是与对照相比较，或与预定要比较的对象比较，一般可选用最小显著差数法 LSDa法；
由于同一水平下重复试验的个体差异是随机误差，所以设：
Xij i ij , j 1, 2,...ni , i 1, 2,...r 方差分析的线性
模型
其中 ij 为试验误差，相互独立且服从正态分布
即
ij ~ N 0, 2
整个试验的均值
令
1 n
r
ni i
i 1
, （其中 n
r
ni
引例
试验指标——灯泡的使用寿命
可控因素（唯一的一个） ——灯丝的配料方案
四个水平——四种配料方案（甲乙丙丁）
因此，本例是一个四水平的单因素试验。
用X1，X2，X3，X4分别表示四种灯泡的使用寿命，即为四个总体。假设X1，X2，X3，X4相互独立，且服从方差相同的正态分布，即Xi~N（i，2）（i=1ຫໍສະໝຸດ Baidu2，3，4）
简便计算公式：
SSA
r i1
Ti 2 ni
T2 n
SSE
r i1
ni
T 2 X ij n j 1
r2 i
i1 i
ni
r
其中 Ti Xij , T Ti
j 1
i 1
同一水平下观测值之和
所以观测值之和
例2 以 A、B、C 三种饲料喂猪，得一个月后每猪所增体重（单位：500g）于下表，试作方差分析。
SST
2
~ 2 n 1,
SSA
2
~ 2 r 1,
SSE
2
~ 2 nr
将
SST
2
,
SS A
2
,
SSE
2
的自由度分别记作 dfT , df A , dfE
则 F SSA dfA ~ F r 1, n r
SSE dfE
（记 SSA dfA MSA, SSE dfE MSE ，称作均方和）
则 F SSA dfA ~ F r 1, n r MSA
ni
2 i
E(SSE
)
(n
r) r
2
i 1
如果H0不成立，则
nii2 0
i 1
所以，E
SS A r 1
E
SSE nr
即H0不成立时，SSSSEA
r 1 nr
有大于1的趋势。
所以H0为真时的小概率事件应取在F值较大的一侧。
多重比较法
方差分析结果
不拒绝H0，表示拒绝总体均数相等的证据不足，
i 1
）称为一般平均值。
i i , 称为因素A的第 i 个水平 Ai 的效应。
r
r
r
显然有： nii ni i nii n 0
i 1
i 1
i 1
则线性统计模型变成
Xij i ij , j 1, 2,...ni , i 1, 2,...r
于是检验假设： H0 : 1 2 ... r
灯泡
寿命
1 2 3 4 5 678
灯丝
甲 1600 1610 1650 1680 1700 1720 1800
乙 1580 1640 1640 1700 1750
丙 1460 1550 1600 1620 1640 1740 1660 1820
丁 1510 1520 1530 1570 1680 1600
饲料 A
增重
51
40
43
48
B
23
25
26
C
23
28
解：T1 51 40 43 48 182,
T2 23 25 26 74,
T 182 74 51 307
T3 23 28 51
dfA r 1 2, dfE n r 9 3 6,
dfT n 1 8
解：T1 182, T2 74, T3 51, T 307
2.根据否定一个正确的H0和接受一个不正确的H0的相对重
要性来决定。参考以下观点：
根据试验的侧重点选择。三种方法的显著尺度不相同， LSD法最低，HSD法次之，SNK法最高。故对于试验结论事关重大或有严格要求时，用SNK法，一般试验可采用HSD法。当比较次数不多时，Bonferroni法的效果较好；但当比较次数较多(例如在10次以上)时，则由于其检验水准选择得过低，结论偏于保守。
————>分析终止。
拒绝H0，接受H1, 表示总体均数不全相等
哪两两均数之间相等？哪两两均数之间不等？ ————>需要进一步作多重比较。
常用多重比较法
最小显著差数法(Least significant difference，简称 LSD法)
LSD t (r(m 1))Sxi x j
S xi x j
约定
注意：在方差分析表中，习惯于作如下规定：
（1）若 F F0.01，则称因素的差异极显著（极有统计意
** 义），或称因素A的影响高度显著，这时作标记
；
（2）若 F0.05 F F0.01 ，则称因素的差异显著（差异
* 有统计意义），或称因素A的影响显著，作标记；
（3）若 F0.1 F F0.05 ，则称因素A有一定影响，作
的一个样本：X i1, X i2 ,...X ini .
因此， X i1, X i2 ,...X ini 相互独立，且与 X i 同分布。
单因素方差分析的目的：通过试验数据来判断因素 A 的不同水平对试验指标是否有影响。
单因素试验资料表
水平
重复试验结果 A1 A2 ... Ar
1
X11 X 21 ... X r1
* 标记（）；
（4）若 F F0.10 ，则称因素A无显著影响（差异无
统计意义）。
单因素试验方差分析表
方差来源平方和自由度均方和
组间组内总和
SS A
df A
MS A
SS A df A
SSE dfE
MSE
SSE df E
SST dfT
F值 F MSA
MSE
F 值临介值
F r 1, n r
...
... ... ... ...
ni
X 1n1
X 2n2
... X rnr
ni
列和Ti Xij
T1
j 1
列平均Xi Ti ni X 1
（水平组内平均值）
T2 ... X 2 ...
r
Tr 总和 Ti i 1
Xr
X
1 n
r i 1
ni X i
（总平均值）
r
其中诸 ni 可以不一样，n ni i 1
例：五个水稻品种单位产量的观测值
品种重复
A1 A2 A3 A4 A5
1 2 3
3
xij
j 1
xi
41 33 38 37 31 39 37 35 39 34 40 35 35 38 34
120 105 108 114 99
40 35 36 38 33
53
xij 546
i1 j 1
53
xij 15 36.4
第八章方差分析与回归分析 • 方差分析的概念与基本思想 • 单因素方差分析 • 回归分析的基本概念 • 一元线性回归模型的建立与检验
引言
在工农业生产和科研活动中，我们经常遇到这样的问题：影响产品产量、质量的因素很多，例如影响农作物的单位面积产量有品种、施肥种类、施肥量等许多因素。我们要了解这些因素中哪些因素对产量有显著影响，就要先做试验，然后对测试结果进行分析，作出判断。方差分析就是分析测试结果的一种方法。
本例问题归结为检验假设 H0：1= 2= 3= 4 是否成立。
单因素试验的方差分析
设 A 表示欲考察的因素，它的 r个不同水平，对应的指标视作 r 个总体 X1, X 2,...X r . 每个水平下,我们作若干次重复试验：n1, n2 ,...nr .（可等重复也可不等重复），同一水平的 ni 个结果，就是这个总体 X i
等价于检验假设： H0 :1 2 ... r 0
若H0成立，则 X ij ij , j 1, 2,...ni , i 1, 2,...r
r
考察统计量 SST
ni
2
Xij X
总离差平方和
i1 j1
经恒等变形，可分解为： SST SSA SSE
其中
r ni
2
SSA
Xi X
2MSe m
以LSD为两均值比较的最小显著差。如果xi , x j (i, j 1,2, , r,i j)表示两个样本均值。当 xi x j LSD时，就认为第i, j水平间均值差异显著；当 xi x j LSD时，就认为第i, j水平间均值差异不显著。
q法(又称SNK (student-Newman-Keuls)检验法) q测验方法是将r个平均数由大到小排列后，根据所比较的两个处理平均数的差数是几个平均数间的极差分别确定最小显著极差LSRα值的。