双因子方差分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
∑ j βˆj = 0 ,因此 SSB 的自由度为
f SSB = J − 1
yijk , k = 1,L,K,i = 1,L,I,j = 1,L,J
这些观测数据可以列入表 2.2.1 中。
表 2.2.1 双因子交叉分组试验数据表
AB
1
…
j
…
J
1
y111,y112,…,y11K … y1j1,y1j2,…,y1jK … y1J1,y1J2,…,y1JK
…
…
…
…
…
…
i
yi11,yi12,…,yi1K
不难验证,这些参数的估计也满足约束(2.2.3)。为表示数据的总变化、由主效 应和交互效应引起的变化、以及由随机误差引起的变化,我们定义以下的平方和:
总平方和:
∑ SST = ( yijk − y ••• )2 i , j,k
∑ A 因子主效应平方和: SSA = JK αˆi2 i
∑ B 因子主效应平方和: SSB = IK βˆj2 j
2.2 双因子均衡有重复试验的方差分析
设 A 为一个因子,有 I 个水平:Ai , i =1,L, I ; B 为另一个因子,有 J 个水 平:B j , j = 1,L, J 。将 A 因子的任一水平 A i 与 B 因子的任一水平 B j 搭配,则总 共有 I J 种组合:
(A i ,B j ), i =1,L, I ; j = 1,L, J . 在所有这 I J 种组合上各作 K 次试验,当 K > 1 时,就是均衡有重复试验。设在水平 组合(A i ,B j )下所得到的响应变量观测值记为
yijk = µ ij + eijk , k = 1,L, K; i = 1,L, I; j = 1,L, J .
(2.2.1)
其中 eijk , k = 1,L, K; i = 1,L, I; j =1,L, J 为独立的随机误差,服从相同的正态分布 N (0,σ 2 ) 。在模型(2.2.1)中,两个因子不同水平的组合对响应变量的影响的差异表 现在分布的理论均值 µij 之间的差异上。为了更清楚地看清 µij 之间差异的含义,我 们将它们作变换,重新表为
∑ ∑ ∑ i j k ( yijk − y••• ) = 0
因此,SST 的自由度,即 SST 中独立平方项的个数为
f SST = N −1 = IJK −1
(2.2.13)
∑ 对 SSA,由(2.2.9), 有 SSA = JK iαˆi2 , 其中αˆi 为α i 的无偏估计, 从而 SSA 可
(2.2.12)
交互效应平方和:
∑ SSAB = K γˆi2j ij
随机误差平方和:
∑ SSE = ( yijk − yij• )2 i, j,k
由上述平方和的定义不难解释它们的含义。需要指出,在计算平方和时,不要
忘记前面的系数。此系数与相应的水平或水平组合上的试验次数有关。对每个水平
组合,重复试验次数为 K ,因此在 SSAB 的定义中前面有系数 K 。对于 A 因子的每 个水平,在其上的试验次数为 JK (对应 B 因子的 J 个水平各重复 K 次),因此在 SSAB 的定义中前面有系数 JK ,等等。我们不难对上述的平方和给出解释,并计算 自由度。首先看总平方和 SST,它刻划合样本对于样本总均值 y••• 的总离散程度, 共有 N=IJK 个平方项,满足一个约束条件:
以解释为 A 因子主效应的总体效果。SSA 中有 I 个平方项,满足一个约束条件:
∑iαˆi = 0 ,因此 SSA 的自由度为
f SSA = I − 1
(2.2.14)
∑ 定义 SSA 的均方为 MSSA=SSA/(I-1)。类似地,由(2.2.10), SSB = IK j βˆj2 , 其中
βˆj 为 β j 的无偏估计。因此 SSB 可以解释为 B 因子主效应的总体效果。由于
µˆij = yij• , i =1,L, I ; j = 1,L, J
(2.2ຫໍສະໝຸດ Baidu7)
利用约束(2.2.3),对(2.2.2)式两端关于下标 (i, j, k) 求和,得到总均值 µ 的估计为
∑ ∑ µˆ= 1 IJ
I i =1
J
µˆij
j =1
= y•••
(2.2.8)
固定 i ,对(2.2.2)式两端关于下标 ( j, k) 求和,并根据约束(2.2.3),得到 A 因子的第 i 个主效应α i 的估计为
∑ αˆi =
1 J
J
µˆij - µˆ= yi•• - y•••
j=1
(2.2.9)
类似地,固定 j,对(2.2.2)式两端关于下标 (i, k) 求和,并根据约束(2.2.3),可以得到 B 因子的第 j 个主效应 β j 的估计为
∑ βˆj
=
1 I
I i=1
µˆij
- µˆ=
y• j • - y•••
(2.2.5)
H0 : γ 11 = γ 12 = L, = γ IJ = 0
(2.2.6)
双因子方差分析主要解决对上述三个假设的检验问题。对上述假设的检验方法 与在单因子试验数据的方差分析中所采用的方法类似,就是将数据的总平方和分成 若干平方和,其中一个表示随机误差的影响,其它的平方和,有的表示主效应的影 响,有的表示交互效应的影响,然后用适当的 F 统计量进行检验。我们首先来给 出参数的估计。记
yijk
=
1 IJ
I i =1
J j =1
yij•
=
1 I
I i=1
yi••
,=
1 J
J
y• j•
j=1
它们分别是:水平组合上的样本均值 ( yij• )、单个因子水平上的数据平均值 ( yi•• 和 y• j• )以及数据的总平均值( y••• )。根据模型(2.2.1),在同一水平组合上 的试验数据可以看成是来自同一总体的简单样本,因此 yij• 为 µij 的估计:
…
yij1,yij2,…,yijK
…
yiJ1 , yiJ2 ,…, yiJK
…
…
…
…
…
…
I
yI11,yI12,…,yI1K
…
yIj1,yIj2,…, yIjK
…
yIJ1 ,yIJ2 ,…, yIJK
在双因子试验中得到的数据称为“按两种方式”(two-way)分组的数据。
对这样的数据,最一般的假定是:在同一水平组合下的数据可以看成是取自同 一总体的简单样本,相当于在一个理论均值上加上独立同分布的随机误差;而不同 水平组合下的数据的理论均值是不同的。因此可以建立如下的模型:
= IJ )。
在双因子试验的模型中,我们所关心的是:
1) A 因子的主效应是否显著。对此可以检验假设:
H0 : α1 = α 2 = L, = α I = 0 2) B 因子的主效应是否显著。对此可以检验假设:
(2.2.4)
H0 : β1 = β2 = L , = β J = 0 3) AB 因子的交互效应是否显著。这时我们检验假设:
(2.2.3)的约束只有在均衡的试验中才是有效的。在(2.2.3)中共有 I + J + 2 个约束,但 是在后面的 I + J 个约束中,由任意 I + J −1 个可以推出另一个,因此实际上只有 I + J + 1个独立的约束。这样独立参数的个数仍然是 IJ 个( (I + 1)(J + 1) − (I + J + 1)
I
∑αi = 0 ,
i=1
J
∑βj =0,
j=1
I
J
∑ ∑ γ ij = 0 , j = 1,L, J ; γ ij = 0 , i =1,L, I
i=1
j=1
(2.2.3)
这些约束的实际含义是很清楚的。以第一个约束为例,它的含义是:A 因子的 主效应有正有负,但从总体上看是正负相抵的。若某个α i 为正,则表明 A 因子的 第 i 个水平对响应变量的影响为正效应;反之,若 α i 为负,则表明 A 因子的第 i个 水平对响应变量的影响为负效应。对其它约束也有相同解释。这里需要说明:
将 A 因子的任一水平 A i 与 B 因子的任一水平 B j 搭配,则总共有 I J 种组 合:
(A i ,B j ), i =1,L, I ; j = 1,L, J .
在所有这 I J 种组合上至少各作一次试验。例如,假定要在一些试验小区内试验三 个小麦品种(分别记为 A1、A2 和 A3)和两种肥料(分别记为 B1、B2),在同一 个小区上只种一个品种,同时只施一种肥料。这样,“品种”和“肥料”就构成两 个因子,前者有三个水平,后者有两个水平。这两个因子的所有可能的水平组合共 有 3 × 2 = 6 种:(A1,B1), (A1,B2), (A2,B1), (A2,B2), (A3,B1), (A3,B2)。如果在每 种水平组合上作相同次数的试验(run),则整个试验方案称为是“均衡的”。与 单因子试验的情况不同,在双因子交叉分组试验中,若试验方案不均衡,则方差分 析会变得比较困难,我们在以后的章节中再来讨论这个问题。对于均衡的试验,为 保证能分析随机误差,在每个水平组合上应作多于一次的试验,称为“有重复” 的。如果在每个水平组合上只作一次的试验,则称为“无重复”的。对于无重复的 交叉分组试验,只有在模型简化之后,才能留有“自由度”来分析误差。
∑ yij• =
1 K
K k =1
yijk
,
∑ ∑ ∑ ∑ ∑ ∑ yi••
=
1 IK
I i=1
K k =1
yijk
=
1 I
I i=1
yij• ,
y•
j
•
=
1 JK
J j =1
K k =1
y ijk
=
1 J
J
yij• ,
j=1
∑∑ ∑ ∑∑ ∑ ∑ y•••
=
1 IJK
I i=1
J j=1
K k =1
2 双因子方差分析
2.1 双因子试验
当试验条件中涉及到两个因子时,就称为双因子试验。设 A 为一个因子,有 I 个水平:A i , i =1,L, I ; B 为另一个因子,有 J 个水平:B j , j = 1,L, J 。在设计试 验方案时,一个重要问题是如何将两个因子的水平搭配起来。首先,可以考虑每个 因子(A 或 B)的不同水平对试验结果分别会有影响。其次,两个因子不同的水平 组合会有特殊的影响(并不是两个因子水平分别影响的简单叠加)。在这种情况 下,为对各种可能的结果作全面考察,应该对两个因子所有可能的水平组合作试 验。这样的试验就是双因子交叉分组试验。交叉分组试验是最常见的一种双因子试 验。
(2.2.10)
最后,固定 (i, j) ,对(2.2.2)式两端关于下标 k 求和,并根据约束(2.2.3),可以得到
AB 因子的第 (i, j) 交互效应 γ ij 的估计为
γˆij = µˆij - µˆ-αˆi - βˆj = yij• - yi•• - y• j • + y•••
(2.2.11)
子的主效应, γ ij 表示 A 因子的第 i 水平和 B 因子的第 j 水平在主效应之外,对 y 所 产生的额外的联合效果,称为“交互效应”(intersection)。这样,利用(2.2.2)的 形式,我们可以将因子对响应变量 y 的各种影响表示得很清楚。问题是,在(2.2.2)
中的参数共有 1 + I + J + IJ = (I + 1)(J + 1) 个,已经超出原来参数 µij 的个数( IJ )。 为方便分析起见,我们对因子各种效应的参数施加以下约束:
µij = µ + α i + β j + γ ij ,
(2.2.2)
在上述表达式中, µ 表示响应变量 y 在“标准”状态下的理论均值,称为“总均 值”(grand mean), α i 表示 A 因子的第 i 水平对 y 的单独效果,称为 A 因子的 “主效应”(main effect), β j 表示 B 因子的第 j 水平对 y 的单独效果,称为 B 因
另一种双因子试验的水平组合方式是“嵌套分组”,有时也会遇到。假定因子 A 和因子 B 如上所述,且 I ≤ J ,可以将因子 B 的水平“嵌套”到因子 A 的水平中 去:将因子 B 的 J 个水平分成 I 组,因子 A 的每个水平只和因子 B 的一组水平搭 配。例如,假定有三种类型的机器,每类 4 台。要通过试验来比较不同类型机器的 性能的优劣,安排 12 个工人,每人在试验中操作一台机器。这里机器的类型是一 个(主要的)因子,有三个水平。假定工人的技术水平(或熟练程度)有差别,则 工人是另一个(次要的)因子,有 12 个水平(工人)。这 12 个水平分成 3 组,每 组 4 个水平。机器的每个水平只和工人中的一组进行搭配。这是一个“嵌套分组” 的水平组合模式。嵌套分组的试验在实际中较为少见。
f SSB = J − 1
yijk , k = 1,L,K,i = 1,L,I,j = 1,L,J
这些观测数据可以列入表 2.2.1 中。
表 2.2.1 双因子交叉分组试验数据表
AB
1
…
j
…
J
1
y111,y112,…,y11K … y1j1,y1j2,…,y1jK … y1J1,y1J2,…,y1JK
…
…
…
…
…
…
i
yi11,yi12,…,yi1K
不难验证,这些参数的估计也满足约束(2.2.3)。为表示数据的总变化、由主效 应和交互效应引起的变化、以及由随机误差引起的变化,我们定义以下的平方和:
总平方和:
∑ SST = ( yijk − y ••• )2 i , j,k
∑ A 因子主效应平方和: SSA = JK αˆi2 i
∑ B 因子主效应平方和: SSB = IK βˆj2 j
2.2 双因子均衡有重复试验的方差分析
设 A 为一个因子,有 I 个水平:Ai , i =1,L, I ; B 为另一个因子,有 J 个水 平:B j , j = 1,L, J 。将 A 因子的任一水平 A i 与 B 因子的任一水平 B j 搭配,则总 共有 I J 种组合:
(A i ,B j ), i =1,L, I ; j = 1,L, J . 在所有这 I J 种组合上各作 K 次试验,当 K > 1 时,就是均衡有重复试验。设在水平 组合(A i ,B j )下所得到的响应变量观测值记为
yijk = µ ij + eijk , k = 1,L, K; i = 1,L, I; j = 1,L, J .
(2.2.1)
其中 eijk , k = 1,L, K; i = 1,L, I; j =1,L, J 为独立的随机误差,服从相同的正态分布 N (0,σ 2 ) 。在模型(2.2.1)中,两个因子不同水平的组合对响应变量的影响的差异表 现在分布的理论均值 µij 之间的差异上。为了更清楚地看清 µij 之间差异的含义,我 们将它们作变换,重新表为
∑ ∑ ∑ i j k ( yijk − y••• ) = 0
因此,SST 的自由度,即 SST 中独立平方项的个数为
f SST = N −1 = IJK −1
(2.2.13)
∑ 对 SSA,由(2.2.9), 有 SSA = JK iαˆi2 , 其中αˆi 为α i 的无偏估计, 从而 SSA 可
(2.2.12)
交互效应平方和:
∑ SSAB = K γˆi2j ij
随机误差平方和:
∑ SSE = ( yijk − yij• )2 i, j,k
由上述平方和的定义不难解释它们的含义。需要指出,在计算平方和时,不要
忘记前面的系数。此系数与相应的水平或水平组合上的试验次数有关。对每个水平
组合,重复试验次数为 K ,因此在 SSAB 的定义中前面有系数 K 。对于 A 因子的每 个水平,在其上的试验次数为 JK (对应 B 因子的 J 个水平各重复 K 次),因此在 SSAB 的定义中前面有系数 JK ,等等。我们不难对上述的平方和给出解释,并计算 自由度。首先看总平方和 SST,它刻划合样本对于样本总均值 y••• 的总离散程度, 共有 N=IJK 个平方项,满足一个约束条件:
以解释为 A 因子主效应的总体效果。SSA 中有 I 个平方项,满足一个约束条件:
∑iαˆi = 0 ,因此 SSA 的自由度为
f SSA = I − 1
(2.2.14)
∑ 定义 SSA 的均方为 MSSA=SSA/(I-1)。类似地,由(2.2.10), SSB = IK j βˆj2 , 其中
βˆj 为 β j 的无偏估计。因此 SSB 可以解释为 B 因子主效应的总体效果。由于
µˆij = yij• , i =1,L, I ; j = 1,L, J
(2.2ຫໍສະໝຸດ Baidu7)
利用约束(2.2.3),对(2.2.2)式两端关于下标 (i, j, k) 求和,得到总均值 µ 的估计为
∑ ∑ µˆ= 1 IJ
I i =1
J
µˆij
j =1
= y•••
(2.2.8)
固定 i ,对(2.2.2)式两端关于下标 ( j, k) 求和,并根据约束(2.2.3),得到 A 因子的第 i 个主效应α i 的估计为
∑ αˆi =
1 J
J
µˆij - µˆ= yi•• - y•••
j=1
(2.2.9)
类似地,固定 j,对(2.2.2)式两端关于下标 (i, k) 求和,并根据约束(2.2.3),可以得到 B 因子的第 j 个主效应 β j 的估计为
∑ βˆj
=
1 I
I i=1
µˆij
- µˆ=
y• j • - y•••
(2.2.5)
H0 : γ 11 = γ 12 = L, = γ IJ = 0
(2.2.6)
双因子方差分析主要解决对上述三个假设的检验问题。对上述假设的检验方法 与在单因子试验数据的方差分析中所采用的方法类似,就是将数据的总平方和分成 若干平方和,其中一个表示随机误差的影响,其它的平方和,有的表示主效应的影 响,有的表示交互效应的影响,然后用适当的 F 统计量进行检验。我们首先来给 出参数的估计。记
yijk
=
1 IJ
I i =1
J j =1
yij•
=
1 I
I i=1
yi••
,=
1 J
J
y• j•
j=1
它们分别是:水平组合上的样本均值 ( yij• )、单个因子水平上的数据平均值 ( yi•• 和 y• j• )以及数据的总平均值( y••• )。根据模型(2.2.1),在同一水平组合上 的试验数据可以看成是来自同一总体的简单样本,因此 yij• 为 µij 的估计:
…
yij1,yij2,…,yijK
…
yiJ1 , yiJ2 ,…, yiJK
…
…
…
…
…
…
I
yI11,yI12,…,yI1K
…
yIj1,yIj2,…, yIjK
…
yIJ1 ,yIJ2 ,…, yIJK
在双因子试验中得到的数据称为“按两种方式”(two-way)分组的数据。
对这样的数据,最一般的假定是:在同一水平组合下的数据可以看成是取自同 一总体的简单样本,相当于在一个理论均值上加上独立同分布的随机误差;而不同 水平组合下的数据的理论均值是不同的。因此可以建立如下的模型:
= IJ )。
在双因子试验的模型中,我们所关心的是:
1) A 因子的主效应是否显著。对此可以检验假设:
H0 : α1 = α 2 = L, = α I = 0 2) B 因子的主效应是否显著。对此可以检验假设:
(2.2.4)
H0 : β1 = β2 = L , = β J = 0 3) AB 因子的交互效应是否显著。这时我们检验假设:
(2.2.3)的约束只有在均衡的试验中才是有效的。在(2.2.3)中共有 I + J + 2 个约束,但 是在后面的 I + J 个约束中,由任意 I + J −1 个可以推出另一个,因此实际上只有 I + J + 1个独立的约束。这样独立参数的个数仍然是 IJ 个( (I + 1)(J + 1) − (I + J + 1)
I
∑αi = 0 ,
i=1
J
∑βj =0,
j=1
I
J
∑ ∑ γ ij = 0 , j = 1,L, J ; γ ij = 0 , i =1,L, I
i=1
j=1
(2.2.3)
这些约束的实际含义是很清楚的。以第一个约束为例,它的含义是:A 因子的 主效应有正有负,但从总体上看是正负相抵的。若某个α i 为正,则表明 A 因子的 第 i 个水平对响应变量的影响为正效应;反之,若 α i 为负,则表明 A 因子的第 i个 水平对响应变量的影响为负效应。对其它约束也有相同解释。这里需要说明:
将 A 因子的任一水平 A i 与 B 因子的任一水平 B j 搭配,则总共有 I J 种组 合:
(A i ,B j ), i =1,L, I ; j = 1,L, J .
在所有这 I J 种组合上至少各作一次试验。例如,假定要在一些试验小区内试验三 个小麦品种(分别记为 A1、A2 和 A3)和两种肥料(分别记为 B1、B2),在同一 个小区上只种一个品种,同时只施一种肥料。这样,“品种”和“肥料”就构成两 个因子,前者有三个水平,后者有两个水平。这两个因子的所有可能的水平组合共 有 3 × 2 = 6 种:(A1,B1), (A1,B2), (A2,B1), (A2,B2), (A3,B1), (A3,B2)。如果在每 种水平组合上作相同次数的试验(run),则整个试验方案称为是“均衡的”。与 单因子试验的情况不同,在双因子交叉分组试验中,若试验方案不均衡,则方差分 析会变得比较困难,我们在以后的章节中再来讨论这个问题。对于均衡的试验,为 保证能分析随机误差,在每个水平组合上应作多于一次的试验,称为“有重复” 的。如果在每个水平组合上只作一次的试验,则称为“无重复”的。对于无重复的 交叉分组试验,只有在模型简化之后,才能留有“自由度”来分析误差。
∑ yij• =
1 K
K k =1
yijk
,
∑ ∑ ∑ ∑ ∑ ∑ yi••
=
1 IK
I i=1
K k =1
yijk
=
1 I
I i=1
yij• ,
y•
j
•
=
1 JK
J j =1
K k =1
y ijk
=
1 J
J
yij• ,
j=1
∑∑ ∑ ∑∑ ∑ ∑ y•••
=
1 IJK
I i=1
J j=1
K k =1
2 双因子方差分析
2.1 双因子试验
当试验条件中涉及到两个因子时,就称为双因子试验。设 A 为一个因子,有 I 个水平:A i , i =1,L, I ; B 为另一个因子,有 J 个水平:B j , j = 1,L, J 。在设计试 验方案时,一个重要问题是如何将两个因子的水平搭配起来。首先,可以考虑每个 因子(A 或 B)的不同水平对试验结果分别会有影响。其次,两个因子不同的水平 组合会有特殊的影响(并不是两个因子水平分别影响的简单叠加)。在这种情况 下,为对各种可能的结果作全面考察,应该对两个因子所有可能的水平组合作试 验。这样的试验就是双因子交叉分组试验。交叉分组试验是最常见的一种双因子试 验。
(2.2.10)
最后,固定 (i, j) ,对(2.2.2)式两端关于下标 k 求和,并根据约束(2.2.3),可以得到
AB 因子的第 (i, j) 交互效应 γ ij 的估计为
γˆij = µˆij - µˆ-αˆi - βˆj = yij• - yi•• - y• j • + y•••
(2.2.11)
子的主效应, γ ij 表示 A 因子的第 i 水平和 B 因子的第 j 水平在主效应之外,对 y 所 产生的额外的联合效果,称为“交互效应”(intersection)。这样,利用(2.2.2)的 形式,我们可以将因子对响应变量 y 的各种影响表示得很清楚。问题是,在(2.2.2)
中的参数共有 1 + I + J + IJ = (I + 1)(J + 1) 个,已经超出原来参数 µij 的个数( IJ )。 为方便分析起见,我们对因子各种效应的参数施加以下约束:
µij = µ + α i + β j + γ ij ,
(2.2.2)
在上述表达式中, µ 表示响应变量 y 在“标准”状态下的理论均值,称为“总均 值”(grand mean), α i 表示 A 因子的第 i 水平对 y 的单独效果,称为 A 因子的 “主效应”(main effect), β j 表示 B 因子的第 j 水平对 y 的单独效果,称为 B 因
另一种双因子试验的水平组合方式是“嵌套分组”,有时也会遇到。假定因子 A 和因子 B 如上所述,且 I ≤ J ,可以将因子 B 的水平“嵌套”到因子 A 的水平中 去:将因子 B 的 J 个水平分成 I 组,因子 A 的每个水平只和因子 B 的一组水平搭 配。例如,假定有三种类型的机器,每类 4 台。要通过试验来比较不同类型机器的 性能的优劣,安排 12 个工人,每人在试验中操作一台机器。这里机器的类型是一 个(主要的)因子,有三个水平。假定工人的技术水平(或熟练程度)有差别,则 工人是另一个(次要的)因子,有 12 个水平(工人)。这 12 个水平分成 3 组,每 组 4 个水平。机器的每个水平只和工人中的一组进行搭配。这是一个“嵌套分组” 的水平组合模式。嵌套分组的试验在实际中较为少见。