食品实验设计与数据分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大于2。
今后称x (x1, x2 ,, xp ) 的可能取值的空间为编码空间。我们可以 先在编码空间中寻找一个点x0使E(y)满足质量要求,然后通过 编码式寻找到z0。
12.2 一次回归正交设计 12.2.1 一次回归正交设计
建立一次回归方程的回归设计方法有多种,这里介绍一种常
用的方法,它是利用二水平正交表来安排试验的设计方法。
其中心也称为零水平:
, z0 j (z1 j z2 j ) / 2
j 1,2,, p
因子的变化半径为
, j (z2 j z1 j ) / 2 j 1,2,, p 令此变换式就x称j 为z j “ jz编0 j 码,式”j 。 1,2,, p
例12.1.1 为提高某橡胶制品的撕裂强度,考察橡胶中某成分
i 1
i 1
i 1
其中
SE ( yi yˆi )2 为残差平方和,自由度为 fE n p 1 i SR (yˆi y)2 为回归平方和,自由度为 fR p
当H0为真时,有
F
SR / SE /
fR fE
~ F ( f R , f E ) F ( p, n p 1)
对于给定的显著性水平 ,拒绝域为 F F1 ( p, n p 1) 。
这就是二十世纪五十年代发展起来的“回归设计”所研究 的问题。
回归设计的分类: 根据建立的回归方程的次数不同,回归设计有一次回归设 计、二次回归设计、三次回归设计等; 根据设计的性质又有正交设计、旋转设计等。 本章仅介绍一次回归的正交设计与二次回归的组合设计 (包括正交设计与旋转设计)。
12.1.4 因子水平的编码
或 Y ~ N n ( X , 2 I n )
2.回归系数的最小二乘估计 估计回归模型中回归系数的方法是最小二乘法。
记回归系数的最小二乘估计(LSE)为 b (b0 ,b1,,bp ), 应满足如下正规方程组:
X Xb X Y
当 X X 1 存在时,最小二乘估计为
b X X 1 X Y
在求得了最小二乘估计后,可以写出回归方程: yˆ b0 b1x1 bp x p
的百分比、树脂成分的百分比及改良剂的百分比三个因子对
其的影响,这三个因子的取值范围分别为:
0 z1 20, 10 z2 30, 0.1 z3 0.3
对其作编码,令
x1
z1
10 10
,x2
z
2
20 10
,x3
z3 0.2 0.1
通过上述变换后,编码空间为中心在原点的立方体,其边
长为2。 在后面我们将会看到,在编码时,有时立方体的边长可以
p
d
d
12.1.2 多元线性回归 (12.1.1)是一个多项式回归模型,在对变量作了变换并重新
命名后也可以看成是一个多元线性回归模型。 1.回归模型 设所收集到的n组数据为
(xi1, xi2 ,, xip , yi ), i 1,2,, n
假定回归模型为:
各yi iiid0
~
1xi1 N (0, 2 )
在回归问题中各因子的量纲不同,其取值的范围也不同,
为了数据处理的方便,对所有的因子作一个线性变换,使
所有因子的取值范围都转化为中心在原点的一个“立方体”
中,这一变换称为对因子水平的编码。
方法如下:
设因子 z j 的取值范围为:
, z1 j z j z2 j j 1,2,, p
与 z1 j z2 j 分别称为因子 z j 的下水平与上水平。
验,这种检验称为失拟检验,它要检验如下假设:
当在
H0: Ey 0 1x1 p x p H1: Ey 0 1x1 p xp (xi1, xi2 ,, xip )上有重复试验或观察时,将数据记为
(xi1 ,
xi2 ,,
xip
,
yij
),j
1,2,, n
mi
,i
1,2,,
n
其中至少有一个 mi 2 ,记
p xip
i,i
1,2,,
n
(7.1.5)
y1
记随机变量的观察向量为
Y
y2
0
yn
未知参数向量为
1
p
1
不可观察的随机误差向量为
2
结构矩阵Biblioteka 1X1 x11
x21
x1p x2p
n
1 xn1 xnp
那么上述模型可以表示为:
Y X ~ Nn (0, 2 I n )
逼近它,即假定:
y 0
jzj
jj
z
2 j
ij zi z j
(7.1.1)
j
j
i j
这里各0 , j , jj , ij , 为未知参数,也称为回归系数,通
常需要通过收集到的数据对它们进行估计。
若用b0 , b j , b jj , bij , 表示相应的估计,则称
y b0
Cov(bi ,bj ) cij 2
3.对回归方程的显著性检验
对回归方程的显著性检验是指检验如下假设:
HH01::11, 22, ,
p
p 0
不全为0
检验方法是作方差分析。
记 yˆi b0 b1xi1 bp xip,i 1,2,, n 则有平方和分解式
n
n
n
ST ( yi y)2 ( yi yˆi )2 ( yˆi y)2 S E SR
今后称 A X X 为正规方程组的系数矩阵, B X Y 为正规
方程组的常数项向量,C X X 1 为相关矩阵。
在模型(12.1.5)下,有
b ~ N ( , 2 ( X X )1)
若记 C X X 1 (cij ) ,那么
bj ~ N( j ,cjj 2), j 0,1,2,, p
在通常的回归分析中,由于C非对角阵,所以各回归系数间 是相关的:
可以假定 y与 z1, z2 ,, z p 间有如下关系:
y f (z1, z2 ,, z p )
这里f (z1, z2 ,, z p ) 是 z1, z2 ,, z p 的一个函数,常称为响应函 数,其图形也称为响应曲面;
是随机误差,通常假定它服从均值为0,方差为 2 的
正态分布。 在上述假定下,f (z1, z2 ,, z p )可以看作为在给定z1, z2 ,, z p 后
为了适应寻求最佳工艺、最佳配方、建立生产过程的数学 模型等的需要,人们就要求以较少的试验次数建立精度较高 的回归方程。
为此,要求摆脱古典回归分析的被动局面,主动把试验的 安排、数据的处理和回归方程的精度统一起来考虑,即根据 试验目的和数据分析的要求来选择试验点,不仅使得在每一 个试验点上获得的数据含有最大的信息,从而减少试验次数, 而且使数据的统计分析具有一些较好的性质。
N mi 。此时残差平方和可进一 i 1
步分解为组内平方和与组间平方和,其中组内平方和就是误
差平方和,记为 S e,组间平方和称为失拟平方和,记为 S Lf ,
即:
S E Se S Lf
其中
,, , n mi
Se
( yij yi )2
fe (mi 1) N n
i1 j1
yi
第十二章 回归设计
12.1 回归设计的基本概念 12.2 一次回归正交设计 12.3 二次回归的中心组合设计 12.4 二次回归正交设计 12.5 二次回归旋转设计
12.1 回归设计的基本概念 回归设计(也称为响应曲面设计) 目的是寻找试验指标与各因子间的定量规律, 考察的因子都是定量的 。
它是在多元线性回归的基础上用主动收集数据的方法获 得具有较好性质的回归方程的一种试验设计方法。
1 mi
mi
yij
j 1
n
, S Lf mi ( yi yˆi )2 i 1
f Lf n p 1
检验统计量为
FLf
S Lf / f Lf Se / fe
在H0为真时,FLf ~ F ( f Lf , fe ),对于给定的显著性水平 ,
拒绝域为
FLf F1 ( f Lf , f e )
常用的检验方法是t检验或等价的F检验,F检验统计量为:
Fj
t
2 j
b
2 j
/
c
jj
ˆ 2
其中 c jj是 (X X )1中的第j+1个对角元。
记分子为
Sj
,即
Sj
b
2 j
/ c jj
,它是因子
x j的偏回归平方和
分母是模型中 2 的无偏估计。
ˆ SE / fE , c jj ˆ 也称为 b j的标准误,即其标准差的估 计。
若记p+1维向量 X Y B (B j ) ,那么
n
S E ( yi yˆi )2 yi2 b0 B0 b1B1 bp Bp
i
i 1
SR ( yˆi y)2 ST SE
4.失拟检验
当在某些点有重复试验数据的话,可以在检验回归方程显
著性之前,先对y 的期望是否是 x1, x2 ,, x p的线性函数进行检
表的选择仍然同正交设计一样,既要考虑因子的个数, 有时还要考虑交互作用的个数。
在改造后的正交表中,若用 xij 表示第i号试验第j个因子xj的 取值,那么
交表中的“2”,以适应因子水平编码的需要。这样一来,正 交表中的“1”与“-1”不仅表示因子水平的不同状态,也表示 了因子水平的数量大小。经过这样的代换后,正交表的交互
作用列可以由表中相应列的对应元素相乘得到,从而交互作 用列表也不需要了。
表12.2.2就是一张代换后的L8(27),与原来的正交表没有本 质区别,仍然用L8(27)表示。
指标的均值,即
E( y) f (z1, z2 ,, z p )
称z (z1, z2 ,, z p ) 的可能取值的空间为因子空间。我们的
任务便是从因子空间中寻找一个点z0
(z10
,
z20
,,
z
0 p
)
使E(y)
满足质量要求。
当f的函数形式已知时,可以通过最优化的方法去寻找z0 。
在许多情况下f的形式并不知道,这时常常用一个多项式去
本章主要介绍Box的回归设计方法及其应用,并假定读 者已具有多元线性回归分析的基础知识。为了符号上的统 一 ,在12.1.2中列出了回归分析中的主要公式。
12.1.1 多项式回归模型 在一些试验中希望建立指标y与各定量因子z1, z2 ,, z p
(又称变量) 间相关关系的定量表达式,即回归方程, 以便通过该回归方程找出使指标满足要求的各因子的范 围。
2.对每一因子的水平进行编码 记因子z j 的零水平为
z0 j (z1 j z2 j ) / 2
其变化半径为
j (z2 j z1 j ) / 2
那么采用如下编码式,即
xj
z j z0 j j
, j 1,2,, p
对因子的水平进行编码,常列成如下的因子水平编码表:
3.选择适当的二水平正交表安排试验 在用二水平正交安排试验时,要用“-1”代换通常二水平正
其主要步骤如下:
1.确定因子水平的变化范围
设影响指标y的因子有p个 z1, z2 ,, z p ,希望通过试验建立y
关于 z1, z2 ,, z p的一次回归方程,那么首先要确定每个因子的变
化范围,设因子 的取值范围为:
z1 j z j z2 j , j 1,2,, p 这里 z1 j 与 z2 j 分别是因子 z j 的下水平与上水平。
当拒绝H0时,需要寻找原因,改变模型,否则认为线性回归 模型合适,可以将Se与SLf合并作为SE检验方程是否显著。
5.对回归系数的显著性检验 当回归方程显著时,可进一步检验某个回归系数是否为0,
也即检验如下假设:
H 0 j: j 0,H1 j: j 0
此种检验应对j=1,2,…, p逐一进行。
当H0j为真时,有 Fj ~ F (1, f E ) 。
给定的显著性水平 ,当 Fj F1 (1, fE ) 时拒绝假设H0j,即认
为 j 显著不为零,否则可以将对应的变量从回归方程中删除。 注:当有不显著的系数时,一般情况下一次只能删除一个F
值最小的变量,重新计算回归系数,再重新检验。通常要到余
bjzj
b
jj
z
2 j
bij zi z j
j
j
i j
为y关于 z1, z2 ,, z p 的多项式回归方程。
在实际中常用的是如下的一次与二次回归方程(也称一阶 与二阶模型):
yˆ b0 bj z j
j
yˆ b0
bjzj
b jj
z
2 j
bij zi z j
j
j
i j
一般p个自变量的d次回归方程的系数个数为
下的系数都显著时为止。
12.1.3 回归分析对数据的处理由被动变主动 古典的回归分析方法只是被动地处理已有的试验数据,对
试验的安排不提任何要求,对如何提高回归方程的精度研究 很少。
后果: (1)盲目增加试验次数,而这些试验结果还不能提供充分 的信息,以致在许多多因子试验问题中达不到试验目的。 (2)对模型的合适性有时无法检验,因为在被动处理数据 时在同一试验点上不一定存在重复试验数据。
相关文档
最新文档