4.4 区组设计数据分析回顾

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

用数学语言来说, BIBD k , b, r , t , 的这些参数满足 1. kr bt; 2. k 1 r t 1; 3. b k 或 r t .
如果 t k , r b,则为完全区组设计.
例 4.3 比较四种材料(k 4)在四个部位(b 4)的磨损. 数据可写成下面两种形式:
当处理组非常大,而同一区组的所有样本数又不允许太大时, 在一个区组中可能不能包含所有的处理, 此时只能在同一区组内安排部分处理. 即 不是所有的处理都被用于各区组的试验中,这种区组设计称为 不完全区组设计(incomplete block ).
在不完全区组设计中,最易处理的是平衡的不完全区组设计 (Balanced Incomplete Block Design, BIBD). 简称 BIB 随机区组设计.
.ห้องสมุดไป่ตู้
统计量 F 在 H0 下的分布为自由度为 b 1, k 1b 1 的 F 分布.
若 F F b 1, k 1b 1 ,则考虑拒绝零假设 H0 .
随机化完全区组设计的基本使用条件
(1) 试验材料为异质,试验者根据需要将其分为几组,几个性质 相近的试验单位为一区组 (如一个人的血液分成四份,此人即为 同一区组,不同人为不同区组),使区组内试验个体之间的差异 相对较小,而区组之间的差异较大;
即: 对于随机化完全区组试验,正态总体条件下, 若检验“区组之间是否有显著性差异”问题,则检验统计量为 MSB F MSE
k x
j 1
b
j
x
2
b 1
2
x
i 1 j 1
k
b
ij
xi x j x
b 1 k 1
4.4
区组设计数据分析回顾
• 前面的 Kruskal Wallis 检验和 Jonckheere Terpstra 检验都是 针对完全随机试验数据的分析方法.
• 当各处理的样本重复数据存在区组之间的差异时,就必须考虑
在没有区组影响的单因子试验设计的分析中,假定在每一个 样本中的观测值是相互独立的,样本之间也是独立的. 每一个样本代表了一个变量或因素,习惯上称为 “处理(treatment )”.
i 1 i 1 j 1
k
b
统计量 F 在 H0 下的分布为自由度为 k 1, k 1b 1 的 F 分布.
若 F F k 1, k 1b 1 ,则考虑拒绝零假设 H0 .
——“不同处理是否有显著性差异”问题 是进行区组设计试验的主要目的.
当然,如果要检验区组之间是否有区别,只要把上面公式中的 i 和 j 交换、 k 和 b 交换,并考虑对称的问题即可.
对于随机化完全区组试验,在正态总体条件下
因素 区组 处理 误差 合计 自由度 b 1 k 1 平方和 SSB SSt SSE SST 均方 MSB MSt MSE
b 1 k 1
n 1
对于随机化完全区组试验,正态总体条件下, 对于假设检验问题,即“不同处理是否有显著性差异”问题, 则检验统计量为 F MSt MSE
b x
i 1
k
i
x
2
k 1
2
x
i 1 j 1 k i 1
k
b
ij
xi x j x
k
k 1 b 1

其中 xi xij b ,x j xij k ,x xij n ,n kb.
区组(职业)
处理(城市)
I 80
II 100
III 51
IV 65
A
B
C
52
40
76
52
52
34
53
35
这里,每一个处理在每一个区组中出现并仅出现一次. 这是一个完全区组设计,每个处理和区组的组合都有一个 观测值.
不完全区组设计
完全随机区组设计要求每一个处理都出现在每一个区组中.
但在实际问题中,并不一定能够保证每一个区组都能有对应的 样本出现(即不一定把每一个处理分配到每一个区组中), 这样就产生了不完全区组设计.
区组数据的影响,这时非参数检验情形适用于多个相关样本情形.
然而,在实践中,除了处理之外,往往还有别的因素起作用, 这种因素习惯上称为 “区组(Block ) ”.
试验目的主要是看这些处理的效果是否一样.
完全区组设计
例如:在关于肥料(处理)效能的农业试验中,不同条件的土壤 就构成了另一个因素. 而土壤条件的差异并不是我们关心的,我们只关心不同化肥的 影响如何.
这里仅考虑对于每对 i, j 只有一个观测值的情况.
假设检验问题为 H 0 : 1 2 k H1 : i, j,i j .
如果随机地把所有处理分配到所有的区组中, 使得总的变异可以分解为: (1). 处理造成的不同; (2). 区组内的变异; (3). 区组之间的变异.
具体而言,每个区组安排相等处理数的不完全区组设计.
BIBD 通常有五个参数:处理数 k,区组数 b, 每一区组的处理数 t,每一处理的区组数 r, 每两个处理在一个区组中的相遇次数 . 记作 BIBD k , b, r , t , .
平衡的不完全区组设计 BIBD k , b, r , t , 满足下面条件: (1). 每个处理在同一区组中最多出现一次; (2). t k ( t 为每个区组设计的样本量, t 小于处理个数 k ); (3). 每个处理都出现在相同多的 r 个区组中; (4). 每两个处理在一个区组中相遇次数一样 次 .
xij i j ij , i 1, 2, , k (处理数),j 1, 2, , b (区组数)
其中 xij 表示第 i 个处理在第 j 个区组的观测值, 区组数 b 表示每个处理的观测量, 处理数 k 表示每个区组的观测量,
i 是第 i 个处理的效应, j 是第 j 个区组的效应.
(2) 每一个区组内的试验个体按照随机安排全部参加试验的 各种处理;
(3) 每个区组内的试验数等于处理数.

在没有正态总体的假定时,检验统计量的构造思路
和 F 统计量类似,只不过是用秩来代替观测值.
例 4.2 在不同的城市对不同的人群进行血液中铅含量的测试, 一共有 A, B, C 三个城市,代表着三种不同的处理 (k 3). 对试验者按职业分成四组 (b 4) 取血. 他们血铅含量如下表所示:
再比如,假设需要对 A, B, C , D 四种处理血液凝固时间设计比较 试验. 每种处理方法重复观测 5 次. 现只取 5 位正常人的血液,不同条件的人构成了另一个因素, 称为区组. 这就是完全随机区组设计,其中人为区组.
如果将 5 位正常人的血液,每人分成 4 份随机分配 4 种处理方法,
影响结果的因素有各处理效应和区组两个.
为此我们要利用一种称为“区组”的实验设计方案, 来消除不同土壤这个因素对不同化肥的效能的分析的影响.
设计的主要做法是把不同条件的土壤,分成不同的组(blocks), 条件相同的土壤分在一组.
如果完全随机地把所有处理都分配到所有区组中, 这就是随机化完全区组设计(Randomized Complete Block Design).
区组
I
处理
II 28
III 36
IV
I
II
III 48(C)
IV 59(D)
A
34
34(A) 30(B)
B
C D
36
40
30
48 44 54
45
60 59
36(B) 28(A) 54(D)
40(C) 44(D) 36(A)
60(C)
45(B)
从右边表中,可以很容易看出 BIB 的平衡性质. 这里 BIBD k , b, r , t , BIBD 4, 4,3,3, 2 .
区组 处理 1 2
1
x11 x21
2
x12 x22

… …
b
X1b X2b
k
xk1
xk2

xkb
当区组存在时,表示 处理的样本的独立性就不再成立了.
为进行和前两节类似的检验,就需要应用不同的检验统计量.
在传统的统计中,正态总体条件下,通常需要用 两因子方差分析模型表示. 为简单起见,这里只给出主效应的表示模型, 这表示处理因素与区组之间不考虑交互作用,模型如下所示:
在正态总体的假定下,对于平衡的不完全区组试验, 由于并不是对每组下标 i, j 都存在观测值,检验统计量的公式 比完全区组试验时要稍微复杂一些,但基本思想都是一样的.
在没有正态总体的假定时,检验统计量的构造思路 和 F 统计量类似,只不过是用秩来代替观测值.
相关文档
最新文档