《试验设计与数据处理》讲稿第4章试验数据的回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
试验值 yi 落在 yˆi 3s$之内的概率为99%。
可见,残差标准差 s$ 越小,说明曲线拟合得越好。
12
4.3 多元线性回归分析—多个变量的线性回归分析
4.3.1 多元线性回归方程
设试验指标(因变量) y 与多个试验因素(自变量)xj , ( j = 1, 2,…,m)之间的近似函数关系式为:
• 复相关系数R 的定义式:
n
( yi y)( yˆi y)
R
i 1
n
n
( yi y)2 ( yˆi y)2
i 1
i 1
• 多元线性回归方程的决定系数:复相关系数的平方R2。 —反映了回归平方和SSR在总离差平方和SST中所占的 比重。
R SSR / SST 17
复相关系数R 的特点: 0≤R≤1 (与一元线性回归类似) • 当R=1时,y与x1,x2,…,xm存在严格的线性关系; • 当R=0时,y与x1,x2,…,xm不存在任何线性相关关 系,但可能存在其他非线性关系; • 当0<R<1时,变量间存在一定程度的线性相关关系。 • 当m = 1,复相关系数R与一元线性相关系数r相等。
残差平方值(考虑到残差有正有负)之和为:
n
n
n
SSe Q ei2 ( yi yˆi )2 [ yi (a bxi )]2
i 1
i 1
i 1
• 显然,只有残差平方和最小时,回归方程与试验值的 拟合程度最好。
• 残差平方和SSe为a, b的函数,即: SSe=f (a, b)
为使SSe值到达极小,根据极值原理,只要对上式分 别对a,b求偏导数,并令其等于零,求解方程组即可 求得a,b之值————最小二乘法原理。
和为:
n
n
Q ( yi yˆi )2 ( yi a b1x1 b2x2 L bm xm )2
i 1
i 1
13
偏回归系数的确定:
根据最小二乘法原理, 要使Q达到最小, 应满足以下条件:
Q 0, Q 0, j 1,2, , m a b j
由此可以得到如下的正规方程组:
n
n
n
n
n
n
x22i L bm x2i xmi x2i yi
i1
i 1
i 1
i 1
i 1
LL
n
n
n
n
n
a
i 1
xmi
b1
i 1
x1i xmi
b2
i 1
x2i xmi
L
bm x1i xm2i
i 1
xmi yi
i 1
14
方程组的解就是偏回归系数
注意:为了使正规方程组有解,要求n ≥ m ,即试验次 数应大于自变量的个数。
i 1
i 1
n
n
Lxy (xi x)( yi y) xi yi nx y
i 1
i 1
于是:
b Lxy Lxx
4.2.2 一元线性回归效果的检验 —— 检验回归方程的可靠性或可信性
相关系数检验法 、F检验即方差分析 法、残差分析法
5
4.2.2.1 相关系数检验法
• 相关系数用于描述变量x与y的线性相关程度的系数:
自变量,y 是因变量。若x,y 符合线性关系,或已 知经验公式为直线形式,即:
yˆi a bxi
称为变量x,y 的一元线性回归方程。
• a, b 称为回归系数;
• yˆi 是由xi代入回归方程的计算值,称为回归值。
2
一元线性回归方程的建立(续)
yˆi 与yi 之间的偏差称为残差,用ei 表示,则有: ei yi yˆi
na b1 x1i b2 x2i L bm xmi yi
i 1
i 1
i 1
i 1
n
n
n
n
n
a x1i b1 x12i b2 x1i x2i L bm x1i xmi x1i yi
i 1
i 1
i 1
n
n
n
a x2i b1 x1i x2i b2
i 1
i 1
②根据散点图,推测y与x之间的函数关系;
③选择适当的变换,使之变成线性关系; ④用线性回归方法求出线性回归方程; ⑤返回到原来的函数关系,得到要求的回归方程。
——转化为一元线性回归
21
常用非线性函数的线性化变换
22
4.4.2 一元多项式回归 ——转化为多元线性回归
a y bx
n
n
n
n
n xi yi ( xi )( yi )
xi yi nx y
b
i 1 n
i 1
i 1
n
i1 n
n xi2 ( xi )2
xi2 n(x)2
i 1
i 1
i 1
4
一元线性回归方程的建立(续)
为了方便计算,令:
n
n
Lxx (xi x)2 xi2 n(x)2
df
MS
F
显著性
m n-m-1
n-1
MSR=SSR / m MSR / MSe MSe=SSe / (n -m -1)
1. 若F >F0.01(dfR, dfe),称 y与x1,x2,…,xm有非常 显著的线性关系,用两个 “* *”号表示
2. 若F0.05 (dfR, dfe)<F<F0.01 (dfR, dfe),称y与x1,x2,…, xm有显著的线性关系,用一个“*”号表示;
18
4.3.3 偏回归系数的显著性检验——因素主次的判断方法
“最优”回归方程的条件: (1) 回归方程的残差平方和最小; (2) 对y有显著影响的变量不能遗漏; (3) 回归方程中含有变量应尽可能少。
用偏回归平方和SSj 来判断:
(1) 计算偏回归平方和SSj : SS j bj Ljy
SSj愈大,表示xj对y影响程度就愈大。
• 一元回归分析——研究单因素与试验指标间相关关系 • 多元回归分析——研究多因素与试验指标间相关关系 • 线性回归、非线性回归——相关关系为线性或非线1 性
4.2 一元线性回归分析—最简单的线性回归分析
4.2.1 一元线性回归方程的建立 设有一组试验数据xi,yi (i = 1, 2,…,n),其中x 是
3
一元线性回归方程的建立(续)
根据最小二乘法,可以得到:
Q a
n
2 ( yi a bxi ) 0
i 1
Q b
n
2
i 1
( yi
a
bxi )xi
0
n
n
xi i1
正规方程组
n
i1
n
xi xi2
a b
n
yi
i1
n
xi yi
i1
i1
对方程组求解,即可得到回归系数a, b的计算式:
“非线性回归分析 ” 转化 “线性回归分析”
要解决两个问题: 一、如何确定非线性函数的具体形式?
不同的非线性函数有不同的线性化形式 二、如何估计函数中的参数?
“线性回归分析”已经解决——仍然是最小二乘法
关键:将非线性问题线性化处理
20
4.4.1 一元非线性回归分析
转化为一元线性回归问题的具体做法: ①根据试验数据,在直角坐标中画出散点图;
(2) F检验:
Fj
MS ຫໍສະໝຸດ Baidu MSe
SS j MSe
服从自由度为(1, dfe)的F 分布
n
n
式中:Ljy (x ji x j )( yi y) ( x ji yi ) nx j y
i 1
i 1
j 1, 2,L , m
19
4.4 非线性回归分析
已经学过“线性回归分析”方法:一元、多元线性回 归
表中,m为自变量的个数:一元回归 m=1 ; 二元回归 m=2
(2)显著性检验: 如果 | r |≥rmin 线性相关显著; 如果 | r |<rmin 线性相关不显著。
更确切地检验:如果 | r |≥ rmin(0.01)
线性相关非常显著;
如果 rmin(0.05) ≤ | r |<rmin(0.01)
4.3.2 多元线性回归方程的显著性检验
4.3.2.1 F 检验法
总平方和: 回归平方和:
n
SST ( yi y)2 i 1
n
SSR ( yi y )2 i 1
残差平方和:
n
SSe ( yi yˆi )2 SST SSR
i 1
15
表4-8 多元线性回归方差分析表
差异源 SS 回归 SSR 误差 SSe 总和 SST
r Lxy
Lxx Lxy
n
n
Lyy ( yi y)2 yi2 n( y)2
i 1
i 1
• 回归系数b 与相关系数r 的关系为:
r Lxy Lxy Lxx b Lxx
Lxx Lxy Lxx Lyy
Lyy
• b 与r 有相同的符号
• 决定系数——相关系数的平方r2
6
相关系数的特点: 0≤| r |≤1
MSR / MSe
n-2 MSe=SSe / (n-2)
n-1
1. 若F >F0.01(dfR, dfe),称 x与y有非常显著的线性关系, 用两个 “* *”号表示
2. 若F0.05 (dfR, dfe)<F <F0.01 (dfR, dfe),称 x与y有显著 的线性关系,用一个“*”号表示;
3. 若F < F0.05 (dfR, dfe ),则称 x与y 没有明显著的线性 关系,回归方程不可信 。
完全线性相关
有一定的线性关系 完全线性相关
有一定的线性关系
无线性关系
无线性关系
7
相关系数检验:
相关系数r 越接近1,x与y 的线性相关程度越高,然而r 的 大小未能回答其值达到多大时,x 与y 之间才存在线性相关, 所以须对相关系数r 进行显著性检验:
(1)根据给定的显著性水平a 和试验数据组数n (n>2),从 附录5(P. 208)查取相关系数临界值rmin。
(3) 计算均方—— 离差平方和/自由度
回归平方和的均方
残差平方和的均方
MSR
SSR dfR
(4) F检验
F MSR MSe
MSe
SSe dfe
服从自由度为(dfR, dfe)的F 分布10
表4-3 一元线性回归方差分析表
差异源 SS 回归 SSR 误差 SSe 总和 SST
df
MS
F
显著性
1
MSR=SSR
修正自由度的决定系数 R2 1 n 1 (1 R2 )
n m 1
显著性检验:
如果 | r |≥ rmin(0.01) y与x1,x2,…,xm有非常显著的线性关系;
如果 rmin(0.05) ≤ | r |<rmin(0.01)
有显著的线性关系;
如果 | r |<rmin(0.05)
线性相关不显著。
11
4.2.2.3 残差分析 ——用残差来估算试验值的范围
试验值yi与回归值 yˆi 的偏差称为残差: ei yi yˆi
残差的标准误差 s$ 可按下式计算:
s$
1 n 2 SSe
1 n2
n i 1
ei2
或 Sˆ MSe
如果试验的随机误差服从正态分布,则:
试验值 yi 落在 yˆi 2s$ 之内的概率为95%;
残差平方和—试验值yi与回归值 yˆi 的偏差 n SSe ( yi yˆi )2 i 1
三种平方和之间有下述关系: SST=SSR+SSe
SSR还可以用更简单的公式计算:
SSR
b2Lxx
b
Lxy Lxx
Lxx
bLxy
9
(2) 计算自由度
1. 总离差平方和SST的自由度为: dfT = n-1 2. 回归平方和SSR的自由度为: dfR = 1 3. 残差平方和SSe的自由度为: dfe = n-2 显然,三种自由度之间的关系为:dfT = dfR + dfe
第4章 试验数据的回归分析
4.1基本概念
– 方差分析研究两个变量间的显著性问题 – 回归分析处理变量之间相关关系的问题
——由试验结果建立数学模型 (1) 确定性关系—对应关系、函数关系。其变量称确定性
变量。
(2) 相关关系—对应的变量称随机变量。没有一一对应的 函数关系,但有统计规律—散点图、回归方程
yˆ a b1x1 b2 x2 L bm xm
则上式称为因变量y 关于自变量x1,x2,…,xm的多元 线性回归方程,其中b1,b2,…,bm称为偏回归系数
设y 有n组试验数据x1i, x2i, …, xmi, yi ( i =1, 2,…, n),
如就果可将以自 得变 到量 对应x1i的,函x2i数,计…算,值xm,i ,即代回入归上值述回yˆi 。归残方差程平,方
线性相关显著;
如果 | r |<rmin(0.05)
线性相关不显著。
8
4.2.2.2 F 检验—方差分析 法
(1) 计算离差平方和
总离差平方和—n试验值yi与其算术平均值 y 的偏差
SST ( yi y )2 Lyy i 1
回归平方和—回归值 yˆi 与算术平均值 y 的偏差 n SSR ( yˆi y )2 i 1
3. 若F < F0.05 (dfR, dfe ),则称y与x1,x2,…,xm没有 明显著的线性关系,回归方程不可信 。
16
4.3.2.2 相关系数检验法
• 一元线性回归: 相关系数 r —反映变量y 与x的线性相关程度
• 多元线性回归: 复相关系数 R
—反映变量y与多个变量xj之间的线性相关程度