第6章 线性回归与曲线拟合讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Lxx (xi x)2 , i 1
n
Lyy ( yi y)2 , i 1
n
Lxy (xi x)( yi y) 。 i 1
b Lxy , Lxx
a y bx 。
Y=a+bx
这就是说回归直线一定通过(x, y )这一点,
即由各数据的平均值组成的点,这一点对作图是很重要的。
每个实验点(xi,yi)相对于回归直线存在着误差 yi Yi yi (a bxi ) ,
求误差平方和的最小值
令 Q 代表各实验点误差的平方和,则有:
n
n
Q ( yi Yi2 ) = ( yi a bxi )2 ,
i 1
i 1
使 Q 值最小,只需将上式对 a,b 求偏微分,并令其为零,
则 y Yi b(x xi ) ,
yi Yi ( yi y) b(xi x) ,
n
n
2
( yi Yi )2 ( yi y) b(xi x) ,
i 1
i 1
经变换、化简,
n
n
n
( yi Yi )2 ( yi y)2 b2 (xi x)2 ,
求回归方程的方法,通常是用最小二乘法,其基本思想 就是从并不完全成一条直线的各点中用数理统计的方法 找出一条直线,使各数据点到该直线的距离的总和相对 其他任何线来说最小,即各点到回归线的差分和为最小, 简称最小二乘法。
2
6.1 散点图
要研究两个变量之间是否存在相关
关系,自然要先作实验,拥有一批实验
L2xy
。
n
(yi y)2
n
(yi y)2
Lxx Lyy
i 1
i 1
由上式可知,当 y 与 x 之间存在严格的线性关系时,所有的数据点应落在回归线上,则有
yi=Yi,r2=1,当 y 与 x 之间存在相关关系时,r 值在 0 与 1 之间,r 是表示 y 与 x 相关程度的
一个系数,它的符号取决于回归系数 b 的符号,若 r>0,则称 x 与 y 正相关,y 随着 x 的增加
15
5
从散点图中看出,这些点虽然散乱,但大体上散布 在某直线的周围,也就是说,拉伸倍数与强度之间 大致成线性关系。其关系可用下式表示:
Y=a+bx Y 是 y 的计算值,与实际值不完全相同。 Y 与 x 之间不具有确定的函数关系,而是相关关系。 确定回归方程 Y=a+bx 中的回归系数 a、b。 y 随 x 增大,称为正相关; y 随 x 减小,称为负相关。
肉眼判断,杂乱无章,不存在直线关系。
6
¿Ç ȶ y
10 8 6 4 2 0
0
5
10
À Éì ± ¶ Êý x
15
7
6.2 一元回归方程的求法和配线过程
Y=a+bx; a--截距,b--斜率。
8
求计算值与实验值的误差
当 x 为 x1,x2,…,xn 时,则相应有 Y1=a+bx1, Y2=a+bx2,
Q a
n
2 ( yi
i 1
a
bxi )
0
,
Q b
n
2 ( yi
i 1
a
bxi )xi
0
。
将上二式求解并简化即可求出 a,b。
n
( xi x)( yi y)
b i1 n
,
(xi x)2
i 1
a y bx 。
若以 L 代表离差,
n
± à ºÅ À Éì ¶±Êý
x
13
5
14
5.2
15
6
16
6.3
17
6.5
18
7.1
19
8
20
8
21
8.9
22
9
23
9.5
24
10
Ç¿ ¶È y
kgf/cm2 5.5 5 5.5 6.4 6 5.3 6.5 7 8.5 8 8.1 8.1
4
¿Ç ȶ y
10 8 6 4 2 0 0
5
10
À Éì ± ¶ Êý x
6.3 回归方程的相关系数
因变量y与自变量x之间是否存在相关关系,在 求回归方程的过程中并不能回答,因为对任何 无规律的试验点,均可配出一条线,使该线离 各点的误差最小。为检查所配出的回归方程有 无实际意义,可以用相关关系,或称相关系数 检验法。
12
由于 Yi a bxi , y a bx ,
i 1
i 1
i 1
n
n
( yi Yi )2
(xi x)2
i 1
1 b 2 i1
,
n
n
(yi y)2
(yi y)2
i 1
i 1
令相关系数 r 等于下式,
n
n
(xi x)2
( yi Yi )2
r 2 b 2 i1
1 i1
而增加;若 r<0,则称 x 与 y 负相关,y 随 x 的增加而减小。R 的绝对值越接近于 1,x 与 y
的线性关系越好,当 x 与 y 之间没有任何依赖关系时,r=0。
相关关系的检验标准
在实际应用中,判断r值与1接近到何程度 时,才认为x与y是相关的,或者说,所配出的 回归方程才是有意义的,需要对照相关系数临 界值表来判断,当计算的相关系数r的绝对值 大于表中显著性水平为 0.05和相应的自由度 f=n-2下的临界值r0.05,f时,则表示y与x是显著相 关的。如显著性水平取0.01,r计算>r0.01,f时, 则表示y与x有非常显著的相关关系。
…
Yn=a+bxn。 这些 Y1,Y2,…,Yn 是回归方程计算值,
由于在实际测定过程中存在着实验误差
,因此,相应于 x1,x2,…,xn 就有实际测定值 y1,y2…,yn,y1,y2…,yn 与 Y1,Y2,…,Yn 是不等同的, 即实验点(x1,y1),(x2,y2),…,(xn,yn)
并不一定落在回归直线上。
数据,然后,作散点图,以便直观地观
察两个变量之间的关系。
合成纤维强度与拉伸倍数的关系, 24组实验。
3
某合成纤维拉伸倍数和强度的关系
± à ºÅ À Éì ± ¶ Êý
x
1
1.9
2
2
3
2.1
4
2.5
5
2.7
6
2.7
7
3.5
8
3.5
9
4
104114 Nhomakorabea512
4.6
Ç¿ ¶È y
kgf/cm2 1.4 1.3 1.8 2.5 2.8 2.5 3 2.7 4 3.5 4.2 3.5
第6章 线性回归与曲线拟合
1
线性回归
y与x之间是一种相关关系,即当自变量x变化时,因变 量y大体按某规律变化,两者之间的关系不能直观地看出 来,需要用统计学的办法加以确定,回归分析就是研究 随机现象中变量间关系的一种数理统计方法,相关关系 存在着某种程度的不确定性。 身高与体重;矿物中A组 分含量与B组分含量间的关系;分析化学制备标准工作曲 线,浓度与吸光度间的关系。
n
Lyy ( yi y)2 , i 1
n
Lxy (xi x)( yi y) 。 i 1
b Lxy , Lxx
a y bx 。
Y=a+bx
这就是说回归直线一定通过(x, y )这一点,
即由各数据的平均值组成的点,这一点对作图是很重要的。
每个实验点(xi,yi)相对于回归直线存在着误差 yi Yi yi (a bxi ) ,
求误差平方和的最小值
令 Q 代表各实验点误差的平方和,则有:
n
n
Q ( yi Yi2 ) = ( yi a bxi )2 ,
i 1
i 1
使 Q 值最小,只需将上式对 a,b 求偏微分,并令其为零,
则 y Yi b(x xi ) ,
yi Yi ( yi y) b(xi x) ,
n
n
2
( yi Yi )2 ( yi y) b(xi x) ,
i 1
i 1
经变换、化简,
n
n
n
( yi Yi )2 ( yi y)2 b2 (xi x)2 ,
求回归方程的方法,通常是用最小二乘法,其基本思想 就是从并不完全成一条直线的各点中用数理统计的方法 找出一条直线,使各数据点到该直线的距离的总和相对 其他任何线来说最小,即各点到回归线的差分和为最小, 简称最小二乘法。
2
6.1 散点图
要研究两个变量之间是否存在相关
关系,自然要先作实验,拥有一批实验
L2xy
。
n
(yi y)2
n
(yi y)2
Lxx Lyy
i 1
i 1
由上式可知,当 y 与 x 之间存在严格的线性关系时,所有的数据点应落在回归线上,则有
yi=Yi,r2=1,当 y 与 x 之间存在相关关系时,r 值在 0 与 1 之间,r 是表示 y 与 x 相关程度的
一个系数,它的符号取决于回归系数 b 的符号,若 r>0,则称 x 与 y 正相关,y 随着 x 的增加
15
5
从散点图中看出,这些点虽然散乱,但大体上散布 在某直线的周围,也就是说,拉伸倍数与强度之间 大致成线性关系。其关系可用下式表示:
Y=a+bx Y 是 y 的计算值,与实际值不完全相同。 Y 与 x 之间不具有确定的函数关系,而是相关关系。 确定回归方程 Y=a+bx 中的回归系数 a、b。 y 随 x 增大,称为正相关; y 随 x 减小,称为负相关。
肉眼判断,杂乱无章,不存在直线关系。
6
¿Ç ȶ y
10 8 6 4 2 0
0
5
10
À Éì ± ¶ Êý x
15
7
6.2 一元回归方程的求法和配线过程
Y=a+bx; a--截距,b--斜率。
8
求计算值与实验值的误差
当 x 为 x1,x2,…,xn 时,则相应有 Y1=a+bx1, Y2=a+bx2,
Q a
n
2 ( yi
i 1
a
bxi )
0
,
Q b
n
2 ( yi
i 1
a
bxi )xi
0
。
将上二式求解并简化即可求出 a,b。
n
( xi x)( yi y)
b i1 n
,
(xi x)2
i 1
a y bx 。
若以 L 代表离差,
n
± à ºÅ À Éì ¶±Êý
x
13
5
14
5.2
15
6
16
6.3
17
6.5
18
7.1
19
8
20
8
21
8.9
22
9
23
9.5
24
10
Ç¿ ¶È y
kgf/cm2 5.5 5 5.5 6.4 6 5.3 6.5 7 8.5 8 8.1 8.1
4
¿Ç ȶ y
10 8 6 4 2 0 0
5
10
À Éì ± ¶ Êý x
6.3 回归方程的相关系数
因变量y与自变量x之间是否存在相关关系,在 求回归方程的过程中并不能回答,因为对任何 无规律的试验点,均可配出一条线,使该线离 各点的误差最小。为检查所配出的回归方程有 无实际意义,可以用相关关系,或称相关系数 检验法。
12
由于 Yi a bxi , y a bx ,
i 1
i 1
i 1
n
n
( yi Yi )2
(xi x)2
i 1
1 b 2 i1
,
n
n
(yi y)2
(yi y)2
i 1
i 1
令相关系数 r 等于下式,
n
n
(xi x)2
( yi Yi )2
r 2 b 2 i1
1 i1
而增加;若 r<0,则称 x 与 y 负相关,y 随 x 的增加而减小。R 的绝对值越接近于 1,x 与 y
的线性关系越好,当 x 与 y 之间没有任何依赖关系时,r=0。
相关关系的检验标准
在实际应用中,判断r值与1接近到何程度 时,才认为x与y是相关的,或者说,所配出的 回归方程才是有意义的,需要对照相关系数临 界值表来判断,当计算的相关系数r的绝对值 大于表中显著性水平为 0.05和相应的自由度 f=n-2下的临界值r0.05,f时,则表示y与x是显著相 关的。如显著性水平取0.01,r计算>r0.01,f时, 则表示y与x有非常显著的相关关系。
…
Yn=a+bxn。 这些 Y1,Y2,…,Yn 是回归方程计算值,
由于在实际测定过程中存在着实验误差
,因此,相应于 x1,x2,…,xn 就有实际测定值 y1,y2…,yn,y1,y2…,yn 与 Y1,Y2,…,Yn 是不等同的, 即实验点(x1,y1),(x2,y2),…,(xn,yn)
并不一定落在回归直线上。
数据,然后,作散点图,以便直观地观
察两个变量之间的关系。
合成纤维强度与拉伸倍数的关系, 24组实验。
3
某合成纤维拉伸倍数和强度的关系
± à ºÅ À Éì ± ¶ Êý
x
1
1.9
2
2
3
2.1
4
2.5
5
2.7
6
2.7
7
3.5
8
3.5
9
4
104114 Nhomakorabea512
4.6
Ç¿ ¶È y
kgf/cm2 1.4 1.3 1.8 2.5 2.8 2.5 3 2.7 4 3.5 4.2 3.5
第6章 线性回归与曲线拟合
1
线性回归
y与x之间是一种相关关系,即当自变量x变化时,因变 量y大体按某规律变化,两者之间的关系不能直观地看出 来,需要用统计学的办法加以确定,回归分析就是研究 随机现象中变量间关系的一种数理统计方法,相关关系 存在着某种程度的不确定性。 身高与体重;矿物中A组 分含量与B组分含量间的关系;分析化学制备标准工作曲 线,浓度与吸光度间的关系。