8第八章 回归正交试验设计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章 回归正交试验设计
§7.1 §7.2 §7.3 §7.4 §7.5
回归设计的基本概念 一次回归正交设计 二次回归的中心组合设计 二次回归正交设计 二次回归旋转设计
2013-7-12
试验设计与数据处理
2
§7.1 回归设计的基本概念 回归设计 目的是寻找试验指标与各因子间的定量规律, 考察的因子都是定量的 。 它是在多元线性回归的基础上用主动收集数据的方法获 得具有较好性质的回归方程的一种试验设计方法。
( xi1 , xi 2 ,, xip , yi ), i 1,2,, n
假定回归模型为:
yi 0 1 xi1 p xip i,i 1,2,, n 各 i iid ~ N (0, 2 ) (7.1.5)
2013-7-12
试验设计与数据处理
1 2 n
结构矩阵
那么上述模型可以表示为: Y X 或 Y ~ N n ( X , 2 I n ) ~ N n (0, 2 I n )
2013-7-12 试验设计与数据处理 8
2.回归系数的最小二乘估计 估计回归模型中回归系数的方法是最小二乘法。 记回归系数的最小二乘估计(LSE)为 b (b0 , b1 ,, bp ), 应满足如下正规方程组: X Xb X Y 当 X X 1 存在时,最小二乘估计为 1 b X X X Y 在求得了最小二乘估计后,可以写出回归方程:
1 yi mi
y
j 1
mi
ij
ˆ S Lf mi ( yi yi ) 2
i 1
f Lf n p 1
检验统计量为
Se / f e F 在H0为真时, Lf ~ F ( f Lf , f e ) ,对于给定的显著性水平 , 拒绝域为
FLf
S Lf / f Lf
F
i 1 i
( xi1 , xi 2 ,, xip , yij ),j 1,2,, mi , i 1,2,, n n
S E S e S Lf
2013-7-12 试验设计与数据处理 13
其中
S e ( yij yi )
i 1 j 1
n
n
mi
2
, , ,
f e (mi 1) N n ,
7
记随机变量的观察向量为
0 1 p
y1 y Y 2 y n
未知参数向量为
不可观察的随机误差向量为
1 x11 1 x 21 X 1 x n1 x1 p x2 p x np
2013-7-12
试验设计与数据处理
17
为此,要求摆脱古典回归分析的被动局面,主动把试验的 安排、数据的处理和回归方程的精度统一起来考虑,即根据 试验目的和数据分析的要求来选择试验点,不仅使得在每一 个试验点上获得的数据含有最大的信息,从而减少试验次数, 而且使数据的统计分析具有一些较好的性质。 这就是二十世纪五十年代发展起来的“回归设计”所研究 的问题。 回归设计的分类: 根据建立的回归方程的次数不同,回归设计有一次回归设 计、二次回归设计、三次回归设计等; 根据设计的性质又有正交设计、旋转设计等。 本章仅介绍一次回归的正交设计与二次回归的组合设计 (包括正交设计与旋转设计)。
y b0 b j z j b jj z 2 bij zi z j j
j j i j
为y关于 z1 , z 2 ,, z p 的多项式回归方程。
2013-7-12 试验设计与数据处理 5
在实际中常用的是如下的一次与二次回归方程(也称一阶 与二阶模型):
ˆ y b0 b j z j
Lfபைடு நூலகம்
F1 ( f Lf , f e )
当拒绝H0时,需要寻找原因,改变模型,否则认为线性回归 模型合适,可以将Se与SLf合并作为SE检验方程是否显著。
2013-7-12 试验设计与数据处理 14
5.对回归系数的显著性检验 当回归方程显著时,可进一步检验某个回归系数是否为0, 也即检验如下假设:
SE / f E
f E n p 1
fR p
当H0为真时,有 S / f R R
F
~ F ( f R , f E ) F ( p, n p 1)
对于给定的显著性水平 ,拒绝域为 F F1 ( p, n p 1) 。
2013-7-12 试验设计与数据处理 11
ˆ y b0 b1 x1 bp x p 今后称 A X 为正规方程组的系数矩阵, B X Y 为正规 X 方程组的常数项向量,C X 1 为相关矩阵。 X 在模型(7.1.5)下,有
b ~ N ( , 2 ( X X ) 1 )
2013-7-12 试验设计与数据处理 9
若记p+1维向量 X Y B ( B j ) ,那么
ˆ S E ( yi yi ) 2 yi2 b0 B0 b1 B1 b p B p
i i 1
n
ˆ S R ( yi y) 2 ST S E
2013-7-12
试验设计与数据处理
12
j
ˆ y b0 b j z j b jj z 2 bij zi z j j
j j i j
pd 一般p个自变量的d次回归方程的系数个数为 d
2013-7-12
试验设计与数据处理
6
7.1.2 多元线性回归 (7.1.1)是一个多项式回归模型,在对变量作了变换并重新 命名后也可以看成是一个多元线性回归模型。 1.回归模型 设所收集到的n组数据为
2013-7-12 试验设计与数据处理 15
当H0j为真时,有 Fj ~ F (1, f E ) 。 给定的显著性水平 ,当 Fj F1 (1, f E ) 时拒绝假设H0j,即认 为 j 显著不为零,否则可以将对应的变量从回归方程中删除。 注:当有不显著的系数时,一般情况下一次只能删除一个F 值最小的变量,重新计算回归系数,再重新检验。通常要到余 下的系数都显著时为止。
2013-7-12
试验设计与数据处理
3
7.1.1 多项式回归模型 在一些试验中希望建立指标y与各定量因子 z1 , z 2 ,, z p (又称变量) 间相关关系的定量表达式,即回归方程, 以便通过该回归方程找出使指标满足要求的各因子的范 围。 可以假定 y与 z1 , z 2 ,, z p 间有如下关系: y f ( z1 , z2 ,, z p ) 这里f ( z1 , z2 ,, z p ) 是 z1 , z 2 ,, z p 的一个函数,常称为响应函 数,其图形也称为响应曲面; 是随机误差,通常假定它服从均值为0,方差为 2 的 正态分布。 在上述假定下, ( z1 , z2 ,, z p )可以看作为在给定z1 , z 2 ,, z p 后 f 指标的均值,即
y 0 j z j jj z 2 ij zi z j j
j j i j
(7.1.1)
这里各 0 , j , jj , ij , 为未知参数,也称为回归系数,通 常需要通过收集到的数据对它们进行估计。 若用 b0 , b j , b jj , bij , 表示相应的估计,则称
2013-7-12 试验设计与数据处理 18
7.1.4 因子水平的编码 在回归问题中各因子的量纲不同,其取值的范围也不同, 为了数据处理的方便,对所有的因子作一个线性变换,使 所有因子的取值范围都转化为中心在原点的一个“立方体” 中,这一变换称为对因子水平的编码。 方法如下: 设因子 z j 的取值范围为: z1 j z j z 2 j , j 1,2,, p z1 j 与 z2 j 分别称为因子 z j 的下水平与上水平。 其中心也称为零水平: z0 j ( z1 j z 2 j ) / 2 , j 1,2,, p 因子的变化半径为 j ( z 2 j z1 j ) / 2 , j 1,2,, p 令 z j z0 j xj , j 1,2,, p j 此变换式就称为“编码式”。 2013-7-12 19 试验设计与数据处理
2013-7-12
试验设计与数据处理
16
7.1.3 回归分析对数据的处理由被动变主动 古典的回归分析方法只是被动地处理已有的试验数据,对 试验的安排不提任何要求,对如何提高回归方程的精度研究 很少。 后果: (1)盲目增加试验次数,而这些试验结果还不能提供充分 的信息,以致在许多多因子试验问题中达不到试验目的。 (2)对模型的合适性有时无法检验,因为在被动处理数据 时在同一试验点上不一定存在重复试验数据。 为了适应寻求最佳工艺、最佳配方、建立生产过程的数学 模型等的需要,人们就要求以较少的试验次数建立精度较高 的回归方程。
i 1 i 1 i 1
ˆ ˆ ST ( yi y ) 2 ( yi yi ) 2 ( yi y ) 2 S E S R
其中
ˆ S E ( yi yi ) 2
ˆ S R ( yi y ) 2
i
为残差平方和,自由度为 为回归平方和,自由度为
E( y) f ( z1 , z2 ,, z p )
2013-7-12 试验设计与数据处理 4
称z ( z1 , z2 ,, z p ) 的可能取值的空间为因子空间。我们的 0 任务便是从因子空间中寻找一个点z0( z10 , z2 ,, z 0 ) 使E(y) p 满足质量要求。 当 f 的函数形式已知时,可以通过最优化的方法去寻找 z0 。在许多情况下f的形式并不知道,这时常常用一个多项 式去逼近它,即假定:
4.失拟检验 当在某些点有重复试验数据的话,可以在检验回归方程显 著性之前,先对y 的期望是否是 x1 , x2 ,, x 的线性函数进行检 p 验,这种检验称为失拟检验,它要检验如下假设: H0: Ey 0 1 x1 p x p H1: Ey 0 1x1 p x p 当在 ( xi1 , xi 2 ,, xip )上有重复试验或观察时,将数据记为 其中至少有一个 mi 2 ,记 N m 。此时残差平方和可进一 步分解为组内平方和与组间平方和,其中组内平方和就是误 差平方和,记为 S e,组间平方和称为失拟平方和,记为 S Lf , 即:
H 0 j: j 0,H1 j: j 0
此种检验应对j=1,2,…, p逐一进行。 常用的检验方法是t检验或等价的F检验,F检验统计量为: b 2 / c jj j Fj t 2 j ˆ 2 1 其中 c jj是 ( X X ) 中的第j+1个对角元。 2 记分子为 S j ,即 S j b j / c jj ,它是因子 x j的偏回归平方和 分母是模型中 2 的无偏估计。 ˆ ˆ S E / f E , c jj 也称为 b j 的标准误,即其标准差的估 计。
若记 C X X 1 (cij ) ,那么
bj ~ N ( j , c jj 2 ), j 0,1,2,, p
在通常的回归分析中,由于C非对角阵,所以各回归系数间 是相关的:
Cov(bi , bj ) cij 2
2013-7-12
试验设计与数据处理
10
3.对回归方程的显著性检验 对回归方程的显著性检验是指检验如下假设: H0: 1 2 p 0 H1:1 , 2 ,, p 不全为0 检验方法是作方差分析。 ˆ 记 yi b0 b1 xi1 bp xip,i 1,2,, n 则有平方和分解式 n n n
§7.1 §7.2 §7.3 §7.4 §7.5
回归设计的基本概念 一次回归正交设计 二次回归的中心组合设计 二次回归正交设计 二次回归旋转设计
2013-7-12
试验设计与数据处理
2
§7.1 回归设计的基本概念 回归设计 目的是寻找试验指标与各因子间的定量规律, 考察的因子都是定量的 。 它是在多元线性回归的基础上用主动收集数据的方法获 得具有较好性质的回归方程的一种试验设计方法。
( xi1 , xi 2 ,, xip , yi ), i 1,2,, n
假定回归模型为:
yi 0 1 xi1 p xip i,i 1,2,, n 各 i iid ~ N (0, 2 ) (7.1.5)
2013-7-12
试验设计与数据处理
1 2 n
结构矩阵
那么上述模型可以表示为: Y X 或 Y ~ N n ( X , 2 I n ) ~ N n (0, 2 I n )
2013-7-12 试验设计与数据处理 8
2.回归系数的最小二乘估计 估计回归模型中回归系数的方法是最小二乘法。 记回归系数的最小二乘估计(LSE)为 b (b0 , b1 ,, bp ), 应满足如下正规方程组: X Xb X Y 当 X X 1 存在时,最小二乘估计为 1 b X X X Y 在求得了最小二乘估计后,可以写出回归方程:
1 yi mi
y
j 1
mi
ij
ˆ S Lf mi ( yi yi ) 2
i 1
f Lf n p 1
检验统计量为
Se / f e F 在H0为真时, Lf ~ F ( f Lf , f e ) ,对于给定的显著性水平 , 拒绝域为
FLf
S Lf / f Lf
F
i 1 i
( xi1 , xi 2 ,, xip , yij ),j 1,2,, mi , i 1,2,, n n
S E S e S Lf
2013-7-12 试验设计与数据处理 13
其中
S e ( yij yi )
i 1 j 1
n
n
mi
2
, , ,
f e (mi 1) N n ,
7
记随机变量的观察向量为
0 1 p
y1 y Y 2 y n
未知参数向量为
不可观察的随机误差向量为
1 x11 1 x 21 X 1 x n1 x1 p x2 p x np
2013-7-12
试验设计与数据处理
17
为此,要求摆脱古典回归分析的被动局面,主动把试验的 安排、数据的处理和回归方程的精度统一起来考虑,即根据 试验目的和数据分析的要求来选择试验点,不仅使得在每一 个试验点上获得的数据含有最大的信息,从而减少试验次数, 而且使数据的统计分析具有一些较好的性质。 这就是二十世纪五十年代发展起来的“回归设计”所研究 的问题。 回归设计的分类: 根据建立的回归方程的次数不同,回归设计有一次回归设 计、二次回归设计、三次回归设计等; 根据设计的性质又有正交设计、旋转设计等。 本章仅介绍一次回归的正交设计与二次回归的组合设计 (包括正交设计与旋转设计)。
y b0 b j z j b jj z 2 bij zi z j j
j j i j
为y关于 z1 , z 2 ,, z p 的多项式回归方程。
2013-7-12 试验设计与数据处理 5
在实际中常用的是如下的一次与二次回归方程(也称一阶 与二阶模型):
ˆ y b0 b j z j
Lfபைடு நூலகம்
F1 ( f Lf , f e )
当拒绝H0时,需要寻找原因,改变模型,否则认为线性回归 模型合适,可以将Se与SLf合并作为SE检验方程是否显著。
2013-7-12 试验设计与数据处理 14
5.对回归系数的显著性检验 当回归方程显著时,可进一步检验某个回归系数是否为0, 也即检验如下假设:
SE / f E
f E n p 1
fR p
当H0为真时,有 S / f R R
F
~ F ( f R , f E ) F ( p, n p 1)
对于给定的显著性水平 ,拒绝域为 F F1 ( p, n p 1) 。
2013-7-12 试验设计与数据处理 11
ˆ y b0 b1 x1 bp x p 今后称 A X 为正规方程组的系数矩阵, B X Y 为正规 X 方程组的常数项向量,C X 1 为相关矩阵。 X 在模型(7.1.5)下,有
b ~ N ( , 2 ( X X ) 1 )
2013-7-12 试验设计与数据处理 9
若记p+1维向量 X Y B ( B j ) ,那么
ˆ S E ( yi yi ) 2 yi2 b0 B0 b1 B1 b p B p
i i 1
n
ˆ S R ( yi y) 2 ST S E
2013-7-12
试验设计与数据处理
12
j
ˆ y b0 b j z j b jj z 2 bij zi z j j
j j i j
pd 一般p个自变量的d次回归方程的系数个数为 d
2013-7-12
试验设计与数据处理
6
7.1.2 多元线性回归 (7.1.1)是一个多项式回归模型,在对变量作了变换并重新 命名后也可以看成是一个多元线性回归模型。 1.回归模型 设所收集到的n组数据为
2013-7-12 试验设计与数据处理 15
当H0j为真时,有 Fj ~ F (1, f E ) 。 给定的显著性水平 ,当 Fj F1 (1, f E ) 时拒绝假设H0j,即认 为 j 显著不为零,否则可以将对应的变量从回归方程中删除。 注:当有不显著的系数时,一般情况下一次只能删除一个F 值最小的变量,重新计算回归系数,再重新检验。通常要到余 下的系数都显著时为止。
2013-7-12
试验设计与数据处理
3
7.1.1 多项式回归模型 在一些试验中希望建立指标y与各定量因子 z1 , z 2 ,, z p (又称变量) 间相关关系的定量表达式,即回归方程, 以便通过该回归方程找出使指标满足要求的各因子的范 围。 可以假定 y与 z1 , z 2 ,, z p 间有如下关系: y f ( z1 , z2 ,, z p ) 这里f ( z1 , z2 ,, z p ) 是 z1 , z 2 ,, z p 的一个函数,常称为响应函 数,其图形也称为响应曲面; 是随机误差,通常假定它服从均值为0,方差为 2 的 正态分布。 在上述假定下, ( z1 , z2 ,, z p )可以看作为在给定z1 , z 2 ,, z p 后 f 指标的均值,即
y 0 j z j jj z 2 ij zi z j j
j j i j
(7.1.1)
这里各 0 , j , jj , ij , 为未知参数,也称为回归系数,通 常需要通过收集到的数据对它们进行估计。 若用 b0 , b j , b jj , bij , 表示相应的估计,则称
2013-7-12 试验设计与数据处理 18
7.1.4 因子水平的编码 在回归问题中各因子的量纲不同,其取值的范围也不同, 为了数据处理的方便,对所有的因子作一个线性变换,使 所有因子的取值范围都转化为中心在原点的一个“立方体” 中,这一变换称为对因子水平的编码。 方法如下: 设因子 z j 的取值范围为: z1 j z j z 2 j , j 1,2,, p z1 j 与 z2 j 分别称为因子 z j 的下水平与上水平。 其中心也称为零水平: z0 j ( z1 j z 2 j ) / 2 , j 1,2,, p 因子的变化半径为 j ( z 2 j z1 j ) / 2 , j 1,2,, p 令 z j z0 j xj , j 1,2,, p j 此变换式就称为“编码式”。 2013-7-12 19 试验设计与数据处理
2013-7-12
试验设计与数据处理
16
7.1.3 回归分析对数据的处理由被动变主动 古典的回归分析方法只是被动地处理已有的试验数据,对 试验的安排不提任何要求,对如何提高回归方程的精度研究 很少。 后果: (1)盲目增加试验次数,而这些试验结果还不能提供充分 的信息,以致在许多多因子试验问题中达不到试验目的。 (2)对模型的合适性有时无法检验,因为在被动处理数据 时在同一试验点上不一定存在重复试验数据。 为了适应寻求最佳工艺、最佳配方、建立生产过程的数学 模型等的需要,人们就要求以较少的试验次数建立精度较高 的回归方程。
i 1 i 1 i 1
ˆ ˆ ST ( yi y ) 2 ( yi yi ) 2 ( yi y ) 2 S E S R
其中
ˆ S E ( yi yi ) 2
ˆ S R ( yi y ) 2
i
为残差平方和,自由度为 为回归平方和,自由度为
E( y) f ( z1 , z2 ,, z p )
2013-7-12 试验设计与数据处理 4
称z ( z1 , z2 ,, z p ) 的可能取值的空间为因子空间。我们的 0 任务便是从因子空间中寻找一个点z0( z10 , z2 ,, z 0 ) 使E(y) p 满足质量要求。 当 f 的函数形式已知时,可以通过最优化的方法去寻找 z0 。在许多情况下f的形式并不知道,这时常常用一个多项 式去逼近它,即假定:
4.失拟检验 当在某些点有重复试验数据的话,可以在检验回归方程显 著性之前,先对y 的期望是否是 x1 , x2 ,, x 的线性函数进行检 p 验,这种检验称为失拟检验,它要检验如下假设: H0: Ey 0 1 x1 p x p H1: Ey 0 1x1 p x p 当在 ( xi1 , xi 2 ,, xip )上有重复试验或观察时,将数据记为 其中至少有一个 mi 2 ,记 N m 。此时残差平方和可进一 步分解为组内平方和与组间平方和,其中组内平方和就是误 差平方和,记为 S e,组间平方和称为失拟平方和,记为 S Lf , 即:
H 0 j: j 0,H1 j: j 0
此种检验应对j=1,2,…, p逐一进行。 常用的检验方法是t检验或等价的F检验,F检验统计量为: b 2 / c jj j Fj t 2 j ˆ 2 1 其中 c jj是 ( X X ) 中的第j+1个对角元。 2 记分子为 S j ,即 S j b j / c jj ,它是因子 x j的偏回归平方和 分母是模型中 2 的无偏估计。 ˆ ˆ S E / f E , c jj 也称为 b j 的标准误,即其标准差的估 计。
若记 C X X 1 (cij ) ,那么
bj ~ N ( j , c jj 2 ), j 0,1,2,, p
在通常的回归分析中,由于C非对角阵,所以各回归系数间 是相关的:
Cov(bi , bj ) cij 2
2013-7-12
试验设计与数据处理
10
3.对回归方程的显著性检验 对回归方程的显著性检验是指检验如下假设: H0: 1 2 p 0 H1:1 , 2 ,, p 不全为0 检验方法是作方差分析。 ˆ 记 yi b0 b1 xi1 bp xip,i 1,2,, n 则有平方和分解式 n n n