最新《试验设计与数据处理》讲稿第4章试验数据的回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《试验设计与数据处理》 讲稿第4章试验数据的回归
分析
4.2 一元线性回归分析—最简单的线性回归分析
4.2.1 一元线性回归方程的建立 设有一组试验数据xi,yi (i = 1, 2,…,n),其中x 是
自变量,y 是因变量。若x,y 符合线性关系,或已 知经验公式为直线形式,即:
yˆi abxi
称为变量x,y 的一元线性回归方程。
和为:
n
n
Q (y i y ˆi)2(y i a b 1 x 1 b 2 x 2 b m x m )2
i 1
i 1
13
偏回归系数的确定:
根据最小二乘法原理, 要使Q达到最小, 应满足以下条件:
Q0,Q0,j1,2, ,m a bj
由此可以得到如下的正规方程组:
n
n
n
n
na b1 x1i b2 x2i bm xmi yi
或 Sˆ MSe
如果试验的随机误差服从正态分布,则:
试验值 yi 落在 yˆ i 2 s 之内的概率为95%;
试验值 yi 落在 yˆ i 3 s 之内的概率为99%。
可见,残差标准差 s 越小,说明曲线拟合得越好。
12
4.3 多元线性回归分析—多个变量的线性回归分析
4.3.1 多元线性回归方程
残差平方和—试验值yi与回归值 yˆ i 的偏差 n SSe (yi yˆi)2 i1
三种平方和之间有下述关系: SST=SSR+SSe
SSR还可以用更简单的公式计算:
SSRb2Lxx
bLxy Lxx
Lxx
bLxy
9
(2) 计算自由度
1. 总离差平方和SST的自由度为: dfT = n-1 2. 回归平方和SSR的自由度为: dfR = 1 3. 残差平方和SSe的自由度为: dfe = n-2 显然,三种自由度之间的关系为:dfT = dfR + dfe
• a, b 称为回归系数;
• yˆ i 是由xi代入回归方程的计算值,称为回归值。
2
4.2.2.2 F 检验—方差分析 法
(1) 计算离差平方和
总离差平方和—n试验值yi与其算术平均值 y 的偏差
SST (yi y)2 Lyy i1
回归平方和—回归值 yˆ i 与算术平均值 y 的偏差 n SSR (yˆi y)2 i1
3. 若F < F0.05 (dfR, dfe ),则称 x与y 没有明显著的线性 关系,回归方程不可信 。
11
4.2.2.3 残差分析 ——用残差来估算试验值的范围
试验值yi与回归值 yˆ i 的偏差称为残差: ei yi yˆi
残差的标准误差 s 可按下式计算:
s n12SSe n12in1ei2
i 1
i 1
i 1
i 1
n
n
n
a x1i b1 x12i b2 x1i x2i
n
n
bm x1i xmi x1i yi
i 1
i 1
i 1
n
n
n
a x2i b1 x1i x2i b2
x22i
i 1
i 1
n
n
bm x2i xmi x2i yi
i1
i 1
i 1
i 1
16
4.3.2.2 相关系数检验法
• 一元线性回归: 相关系数 r —反映变量y 与x的线性相关程度
• 多元线性回归: 复相关系数 R
—反映变量y与多个变量xj之间的线性相关程度
• 复相关系数R 的定义式:
n
(yi y)(yˆi y)
R
i1
n
n
(yi y)2 (yˆi y)2
i1
i1
• 多元线性回归方程的决定系数:复相关系数的平方R2。 —反映了回归平方和SSR在总离差平方和SST中所占的 比重。
设试验指标(因变量) y 与多个试验因素(自变量)xj , ( j = 1, 2,…,m)之间的近似函数关系式为:
y ˆ a b 1 x 1 b 2 x 2 b m x m
则上式称为因变量y 关于自变量x1,x2,…,xm的多元 线性回归方程,其中b1,b2,…,bm称为偏回归系数
设y 有n组试验数据x1i, x2i, …, xmi, yi ( i =1, 2,…, n), 如就果可将以自 得变 到量 对应x1i的,函x2i数,计…算,值xm,i ,即代回入归上值述回yˆ i 。归残方差程平,方
(3) 计算均方—— 离差平方和/自由度
回归平方和的均方
残差平方和的均方
MSR
SSR dfR
(4) F检验
F MSR M Se
M Se
SSe dfe
服从自由度为(dfR, dfe)的F 分布10
表4-3 一元线性回归方差分析表
差异源 SS 回归 SSR 误差 SSe 总和 SST
df
MS
F
显著性
总平方和: 回归平方和:
n
SST (yi y)2 i1
n
SSR (yi y)2 i1
残Leabharlann Baidu平方和:
n
SSe (yi yˆi)2SSTSSR
i1
15
表4-8 多元线性回归方差分析表
差异源 SS 回归 SSR 误差 SSe 总和 SST
df
MS
F
显著性
m n-m-1
n-1
MSR=SSR / m MSR / MSe MSe=SSe / (n -m -1)
1. 若F >F0.01(dfR, dfe),称 y与x1,x2,…,xm有非常 显著的线性关系,用两个 “* *”号表示
2. 若F0.05 (dfR, dfe)<F<F0.01 (dfR, dfe),称y与x1,x2,…, xm有显著的线性关系,用一个“*”号表示;
3. 若F < F0.05 (dfR, dfe ),则称y与x1,x2,…,xm没有 明显著的线性关系,回归方程不可信 。
1
MSR=SSR
MSR / MSe
n-2 MSe=SSe / (n-2)
n-1
1. 若F >F0.01(dfR, dfe),称 x与y有非常显著的线性关系, 用两个 “* *”号表示
2. 若F0.05 (dfR, dfe)<F <F0.01 (dfR, dfe),称 x与y有显著 的线性关系,用一个“*”号表示;
i 1
n
n
n
a
i 1
xmi
b1
i 1
x1i xmi
b2
i 1
x2i xmi
n
n
bm x1i xm2i xmi yi
i 1
i 1
14
方程组的解就是偏回归系数
注意:为了使正规方程组有解,要求n ≥ m ,即试验次 数应大于自变量的个数。
4.3.2 多元线性回归方程的显著性检验
4.3.2.1 F 检验法
分析
4.2 一元线性回归分析—最简单的线性回归分析
4.2.1 一元线性回归方程的建立 设有一组试验数据xi,yi (i = 1, 2,…,n),其中x 是
自变量,y 是因变量。若x,y 符合线性关系,或已 知经验公式为直线形式,即:
yˆi abxi
称为变量x,y 的一元线性回归方程。
和为:
n
n
Q (y i y ˆi)2(y i a b 1 x 1 b 2 x 2 b m x m )2
i 1
i 1
13
偏回归系数的确定:
根据最小二乘法原理, 要使Q达到最小, 应满足以下条件:
Q0,Q0,j1,2, ,m a bj
由此可以得到如下的正规方程组:
n
n
n
n
na b1 x1i b2 x2i bm xmi yi
或 Sˆ MSe
如果试验的随机误差服从正态分布,则:
试验值 yi 落在 yˆ i 2 s 之内的概率为95%;
试验值 yi 落在 yˆ i 3 s 之内的概率为99%。
可见,残差标准差 s 越小,说明曲线拟合得越好。
12
4.3 多元线性回归分析—多个变量的线性回归分析
4.3.1 多元线性回归方程
残差平方和—试验值yi与回归值 yˆ i 的偏差 n SSe (yi yˆi)2 i1
三种平方和之间有下述关系: SST=SSR+SSe
SSR还可以用更简单的公式计算:
SSRb2Lxx
bLxy Lxx
Lxx
bLxy
9
(2) 计算自由度
1. 总离差平方和SST的自由度为: dfT = n-1 2. 回归平方和SSR的自由度为: dfR = 1 3. 残差平方和SSe的自由度为: dfe = n-2 显然,三种自由度之间的关系为:dfT = dfR + dfe
• a, b 称为回归系数;
• yˆ i 是由xi代入回归方程的计算值,称为回归值。
2
4.2.2.2 F 检验—方差分析 法
(1) 计算离差平方和
总离差平方和—n试验值yi与其算术平均值 y 的偏差
SST (yi y)2 Lyy i1
回归平方和—回归值 yˆ i 与算术平均值 y 的偏差 n SSR (yˆi y)2 i1
3. 若F < F0.05 (dfR, dfe ),则称 x与y 没有明显著的线性 关系,回归方程不可信 。
11
4.2.2.3 残差分析 ——用残差来估算试验值的范围
试验值yi与回归值 yˆ i 的偏差称为残差: ei yi yˆi
残差的标准误差 s 可按下式计算:
s n12SSe n12in1ei2
i 1
i 1
i 1
i 1
n
n
n
a x1i b1 x12i b2 x1i x2i
n
n
bm x1i xmi x1i yi
i 1
i 1
i 1
n
n
n
a x2i b1 x1i x2i b2
x22i
i 1
i 1
n
n
bm x2i xmi x2i yi
i1
i 1
i 1
i 1
16
4.3.2.2 相关系数检验法
• 一元线性回归: 相关系数 r —反映变量y 与x的线性相关程度
• 多元线性回归: 复相关系数 R
—反映变量y与多个变量xj之间的线性相关程度
• 复相关系数R 的定义式:
n
(yi y)(yˆi y)
R
i1
n
n
(yi y)2 (yˆi y)2
i1
i1
• 多元线性回归方程的决定系数:复相关系数的平方R2。 —反映了回归平方和SSR在总离差平方和SST中所占的 比重。
设试验指标(因变量) y 与多个试验因素(自变量)xj , ( j = 1, 2,…,m)之间的近似函数关系式为:
y ˆ a b 1 x 1 b 2 x 2 b m x m
则上式称为因变量y 关于自变量x1,x2,…,xm的多元 线性回归方程,其中b1,b2,…,bm称为偏回归系数
设y 有n组试验数据x1i, x2i, …, xmi, yi ( i =1, 2,…, n), 如就果可将以自 得变 到量 对应x1i的,函x2i数,计…算,值xm,i ,即代回入归上值述回yˆ i 。归残方差程平,方
(3) 计算均方—— 离差平方和/自由度
回归平方和的均方
残差平方和的均方
MSR
SSR dfR
(4) F检验
F MSR M Se
M Se
SSe dfe
服从自由度为(dfR, dfe)的F 分布10
表4-3 一元线性回归方差分析表
差异源 SS 回归 SSR 误差 SSe 总和 SST
df
MS
F
显著性
总平方和: 回归平方和:
n
SST (yi y)2 i1
n
SSR (yi y)2 i1
残Leabharlann Baidu平方和:
n
SSe (yi yˆi)2SSTSSR
i1
15
表4-8 多元线性回归方差分析表
差异源 SS 回归 SSR 误差 SSe 总和 SST
df
MS
F
显著性
m n-m-1
n-1
MSR=SSR / m MSR / MSe MSe=SSe / (n -m -1)
1. 若F >F0.01(dfR, dfe),称 y与x1,x2,…,xm有非常 显著的线性关系,用两个 “* *”号表示
2. 若F0.05 (dfR, dfe)<F<F0.01 (dfR, dfe),称y与x1,x2,…, xm有显著的线性关系,用一个“*”号表示;
3. 若F < F0.05 (dfR, dfe ),则称y与x1,x2,…,xm没有 明显著的线性关系,回归方程不可信 。
1
MSR=SSR
MSR / MSe
n-2 MSe=SSe / (n-2)
n-1
1. 若F >F0.01(dfR, dfe),称 x与y有非常显著的线性关系, 用两个 “* *”号表示
2. 若F0.05 (dfR, dfe)<F <F0.01 (dfR, dfe),称 x与y有显著 的线性关系,用一个“*”号表示;
i 1
n
n
n
a
i 1
xmi
b1
i 1
x1i xmi
b2
i 1
x2i xmi
n
n
bm x1i xm2i xmi yi
i 1
i 1
14
方程组的解就是偏回归系数
注意:为了使正规方程组有解,要求n ≥ m ,即试验次 数应大于自变量的个数。
4.3.2 多元线性回归方程的显著性检验
4.3.2.1 F 检验法