第五章 回归分析和曲线拟合

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

n-2 0.05 0.01
11 0.553 0.684 12 0.532 0.661 13 0.514 0.641 14 0.479 0.623 15 0.482 0.606 16 0.468 0.590 17 0.456 0.575 18 0.444 0.561 19 0.433 0.549 20 0.413 0.537
_
_
a y b x
b Lxy Lxx
(6 19)
r lxy
(6 20) U Lxy2
(6 21)
lxx l yy
Lxx
33
序号
x
y
x2
y2
1
5
4
25
16
2
5
6
25
36
3
10
8
100
64
4
20
13
400
169
5
30
16
900
256
6
40
17
1600
289
7
50
19
2500
361
8
60
25
i 1
i 1
Q反映了全部观测值yi (i 1,2,..., N )对直线的偏离程度,显
然,离差平方和Q越小,愈能较好地表示x, y之间的关系。
用最小二乘法原理,通过选择合适的系数a,b,使Q最小 9
Q
N
a
2 ( yi
i 1
a bxi ) 0
Q
b
N
2
i 1
( yi
a
bxi )xi
0
联合求解得:
12
设(xi , yi )(i 1, 2,..., N )为变量x,y间的一组观测数据,xi
^
为观测点,yi为xi处的观测之,y a bx 为这组观测数据 求得的变量x,y间的回归方程,在回归问题中,观测数
_
据总的波动情况,用各观测值yi与总平均y 之间的平方和 即总变动平方和表示
N
_
N
^
^_
n-2 0.05 0.01
21 0.413 0.526 22 0.404 0.515 23 0.396 0.505 24 0.388 0.496 25 0.381 0.487 26 0.374 0.478 27 0.367 0.470 28 0.364 0.463 29 0.355 0.456 30 0.349 0.449
28
进行预报和控制,通常也采用图解法。其作法是:在
散点图上作两条平行与回归直线的直线
y a bx1 2Sy
(6 17)
y a bx2 2Sy
y
y a bx 2Sy
y
y2
^
y a bx
y2
(6 18) y a bx 2Sy
^
y1
y a bx 2Sy
x y1
x1 x2
腐蚀时间x(秒) 5 5 10 20 30 40 50 60 65 90 120 腐蚀深度y(μ) 4 6 8 13 16 17 19 25 25 29 46
31
作散点图,即(xi,yi)图
y
40
30
20
10
10 20 30 40 50 60 70 80 90 100 110 120
x
可见x与y之间无确定的函数关系,而表现为相关关系
y
^
y0落在
y0
S
范围内的可能性为68%
y
利用此关系,对于指定的x0,我们有95%的把握说,在x x0
^
^
处的实际观测值y0介于
y0
2S

y
y0
2S
y
之间
即:
^
^
y0 2Sy y0 y0 2Sy
这样,预报问题就得到了解决
量S
y
称为剩余标准差。S
用来衡量预报的精确度
y
27
(二)控制问题 控制问题只不过是预报的反问题。若要求观测值y0 在y1 y0 y2范围内取值,则可从 a 2Sy bx1 y(1 或a 3Sy bx1 y1) 及 a 2Sy bx2 y(2 或a 3S2 bx2 y2) 中分别解出x1、x2,只要将x的取值控制在x1与x2之间, 我们就能以95%(或99.7%)的把握保证,y0在y1与 y2范围内取值。
‹#›
‹#›
变量S的值随t而定,这就是说,如果t去了固定 值,那么S的值就完全确定了
这种关系就是所谓的函数关系或确定性关系
回归分析方法是处理变量之间相关关系的有理 工具,它不仅提供建立变量间关系的数学表达式— —经验公式,而且利用概率统计知识进行了分析讨 论,从而判断经验公式的正确性
3
二、回归分析所能解决的问题
b0
y a bx
y a bx 2Sy x
x1
x2
b0
29
可以预测在x附近的一系列观测值中,95%将落在这两条 直线所夹成的带行趋于中,若要求在y1与y2范围内取值, 则只需要图中虚线所示的对于关系,可在x轴上找到x 值的控制范围。
30
五、应用举例
例6-1 在某产品表明腐蚀刻线,下表是试 验活得的腐蚀时间(x)与腐蚀深度(y)间的 一组数据。试研究两变量(x,y)之间的关系。
y
1 r 0
y
0 r 1
x
x
21
检验y与x是否相关的步骤: (1)按下式计算r:
r b
N
_
(xi x)2
i=1 N

_
( yi y)2
i=1
lxy lxx l yy
N
_
_
(xi x)( yi y)
i 1
N
_N
_
(xi x)2 ( yi y)2
i 1
i 1
22
(2)给定显著行水平,按自由度f=n-2,由相关系数
3600
625
9
65
25
4225
625
10
90
29
8100
841
11 120
46
14400
2116
495
208
35875
5398
xy
20 30 80 260 480 680 950 1500 1625 2610 5520 13755
34
具体计算格式如下:
N
N
N
N
N
列表计算xi2、yi2、xi yi以及 xi, yi, xi2, yi2, xi yi
的取值
5
二、一元线性回归方程的确定
数学上判定直线合理的原则: 如果直线与全部观测数据yi (i 1, 2,..., N )的离差平方和, 比任何其它直线与全部观测数据的离差平方和更小,该 直线就是代表x与y之间关系较为合理的一条直线,这条 直线就是x和y之间的回归直线。
6
设y* a bx是平面上的一条任意直线,(xi , yi )(i 1,2, ..., N)是变量x,y的一组观测数据。 那么,对于每一个xi,在直线y* a bx上确可以确定一 个yi* a bxi的值,yi*与xi处实际观测值yi的差:
Lyy ( yi y)2 [( yi yi ) ( yi y)]2
i=1
i=1
N
^
N^ _
N
^ ^_
( yi yi )2 ( yi y)2 2 ( yi yi )( yi y)
i=1
i=1
i=1
13
N
^
第一项 Q ( yi yi )2
i=1
Q是观测值与回归直线的离差平方和,反映了误差的大小
N i 1
yi
求得a,b后,回归方程为:
^
y a bx
便可以确定,b称为回归系数
(6 5) (6 6)
11
三、回归方程检验方法
(一)方差分析法
回顾方差分析的基本特点:
把所给数据的总波动分解为两部分,一部分反映水平
变化引起的波动,另一部分反映由于存在试验误差而引起
的波动。然后把各因素水平变化引起的波动与试验误差引 起的波动大小进行比较,而达到检验因素显著性的目的.
回归分析主要解决以下几方面的问题: (1)确定几个特定变量之间是否存在相关关系,
如果存在的话,找出她们之间合适的数学表达式 (2)根据一个或几个变量的值,预报或控制另一
个变量的取值,并且要知道这种预报或控制的精确 度 (3)进行因素分析,确定因素的主次以及因素之 间的相互关系等等
4
一元线性回归分析,只要解决: (1)求变量x与y之间的回归直线方程 (2)判断变量x和y之间是否确为线性关系 (3)根据一个变量的值,预测或控制另一变量
N^ _
第二项 U ( yi y)2 i=1
(6 8)
U反映了总变动中,由于x与y的线性关系而引起y变化的
一部分,称为回归平方和
第三项为零
Lyy U Q
(6 9)
14
每一个变动平方和(即Lyy、U、Q)都有一个“自由度”
和它们对应,Lyy自由度称为总自由度,记做f总。
f总=观测值个数-1=N-1
24
四、预报与控制
当我们求得变量x、y之间的回归直线方程后, 往往通过回归方程回答这样两方面的问题:
(1)对任何一个给定的观测点x0,推断y0大致落的范围 (2)若要求观测值y在一定的范围y1<y<y2内取值,应将
变量控制在什么地方 前者就是所谓的预报问题,后者称为控制问题。
25
(一)预报问题
f
=1
U
fQ=N-2
三者之间仍然有:f总 fU fQ
15
可用F检验考察回归直线的显著性:
(1)计算F= U/fu Q/fQ
(N
2) U Q
(2)对于选定的显著性水平a=0.0(5 或0.01),从F分布
上找出临界值Fa (1, N 2) (3)比较F与Fa的大小。
若F>Fa,则回归方程有意义,反之则说明方程意义不大
临界表中查处临界值ra, f。 (3)比较 | r | 与ra, f的大小。
若 | r | ra, f,认为x与y之间存在线性相关关系; 若 | r | ra, f,认为x与y之间不存在线性相关关系。
23
相关系数临界值表
n-2 0.05 0.01
1 0.997 1.000 2 0.950 0.990 3 0.878 0.959 4 0.811 0.917 5 0.754 0.874 6 0.707 0.834 7 0.666 0.798 8 0.632 0.765 9 0.602 0.735 10 0.576 0.708
i1 i1 i1
i 1
i 1
_
x
495
11
_
y
208
11
Lxy
13755 1 495 208 11
48345 11
Lxx
35875
1 11
4952
149600 11
35
b Lxy 48345 0.328 Lxx 149600
_ _ 208
495
a y b x 0.323 4.37
yi yi* yi (a bx) 就刻画了yi与直线偏离度
7
y (xi , yi )
^
y a bx
^
(xi , yi )
x x1
8
全部观测值yi (i 1,2,..., N )与直线上对于的yi*(i 1,2,..., N) 的离差平方和则为:
N
N
Q ( yi yi*)2 ( yi a bxi )2
32
(1)求回归直线

Lxx
N i 1
( xi
_
x)2
N i 1
xi 2
1 N
N
(
i 1
xi )2
Lyy
N i 1
( yi
_
y)2
N i 1
yi 2
1 N
N
(
i 1
yi )2
Lxy
N i 1
( xi
_
x)( yi
_
y)
N i 1
xi yi
1 N
N
(
i 1
N
xi )(
i 1
yi )
i=1 N
_
1 b2
i=1 N
_
(6 11)
( yi y)2
( yi y)2
17
i=1
i=1
N
_
N
^
(xi x)2
( yi yi )2

r2 b2
i=1 N
_
1
i=1 N
_
( yi y)2
( yi y)2
i=1
i=1
N
_
(xi x)2
r b
i=1 N
_
( yi y)2
11
11
回归方程为: y 4.37 .323x
(2)显著性检验
相关系数
(6 1) (6 2)
b=
N
_
_
(xi x)( yi y)
i 1 N
_
(xi x)2
i=1
N i 1
xi
yi
1 N
N
N
xi yi
i1 i1
N i 1
xi 2
1 N
(
N i 1
xi )2
_
_
a yb x
(6 3) (6 4)
10
此处
_
x
1 N
N
_
xi , y
i 1
1 N
^
一般来说,对于固定x0处的观测值y0,其取值是以 y0 为
^
中心而对称分布的。愈靠近 y0 的地方,出现的机会愈大,
^
离 y0 愈元的地方,出现的机会少,而且y0的取值范围与量
Sy
Q N 2
有下述关系: 26
^
y0落在
y0
3S
范围内的可能性为99.7%
y
^
y0落在
y0
2S
范围内的可能性为95%
i=1
(6 12)
18
y
r 1
下面存在三种情形:
(1)y与x有严格函数关系时
N
_
^
( yi y)2
x
yi yi , r 1,b
i=1 N
_
y
r 1
(xi x)2
i=1
x19
(2)y与x无任何依赖关系时
^_
y y, r 0,b 0
y
r0
y
r0
x
x
20
(3)y与x存在相关关系时 0<|r|<1
16
(二)相关系数检验法
N^ _
N
_
由U ( yi y)2 U [(a bxi ) (a b x)]2
i=1
i=1
N
_
b2 (xi x)2
Biblioteka Baidui=1
N
^
^_
代入 Lyy [( yi yi ) ( yi y)]2整理后可得
i=1
N
_
N
_
( yi yi )2
(xi x)2
相关文档
最新文档