第五章回归分析和曲线拟合
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2)对于选定的显著性水平a=0.0( 5 或0.01),从F分布
上找出临界值Fa(1, N 2) (3)比较F与Fa的大小。
若F>Fa,则回归方程有意义,反之则说明方程意义不大
16
(二)相关系数检验法
N^ _
N
_
由 U ( y i y ) 2 U [( a b xi ) ( a b x )]2
31
作 散 点 图 , 即 ( x i , y i ) 图
y
40
30
20
10
10 20 30 40 50 60 70 80 90 100 110 120
x
可 见 x 与 y 之 间 无 确 定 的 函 数 关 系 , 而 表 现 为 相 关 关 系
32
( 1) 求 回 归 直 线
记
L xx
yi yi* yi (abx) 就刻画了yi与直线偏离度
7
y (xi , yi )
^
y a bx
^
(xi, yi)
x
x1
8
全部观测值yi (i 1,2,..., N)与直线上对于的yi*(i 1,2,..., N) 的离差平方和则为:
N
N
Q (yi yi*)2 (yi a bxi )2
11 0.553 0.684 12 0.532 0.661 13 0.514 0.641 14 0.479 0.623 15 0.482 0.606 16 0.468 0.590 17 0.456 0.575 18 0.444 0.561 19 0.433 0.549 20 0.413 0.537
的取值
5
二、一元线性回归方程的确定
数学上判定直线合理的原则: 如果直线与全部观测数据yi(i1,2,...,N)的离差平方和, 比任何其它直线与全部观测数据的离差平方和更小,该 直线就是代表x与y之间关系较为合理的一条直线,这条 直线就是x和y之间的回归直线。
6
设y* abx是平面上的一条任意直线,(xi,yi)(i 1,2, ...,N)是变量x,y的一组观测数据。 那么,对于每一个xi,在直线y* abx上确可以确定一 个yi* abxi的值,yi*与xi处实际观测值yi的差:
第五章 回归分析和曲线拟合
回归分析方法
1
§5-1 一元线性回归
一、什么叫回归分析
(一)两种不同类型的变量关系、函数与相关
简单的说,回归分析就是一种处理变量与变量之间关系
的数学方法。
例:自由落体运动中,物体下落的举例S与所需时间t之间, 有如下关系
S1gt2 (0tT) 2
2
变量S的值随t而定,这就是说,如果t去了固定 值,那么S的值就完全确定了
范
y
围
内
的
可
能
性
为95%
^
y0落
在
y0
S
范
y
围
内
的
可
能
性为68%
利 用 此 关 系 , 对 于 指 定 的 x0, 我 们 有 95% 的 把 握 说 , 在 x x0
^
^
处的实际观
测
值
y0介
于
y0
2S
与
y
y0
2S
之间
y
即:
^
^
y0 2S y y0 y0 2S y
这样,预报问题就得到了解决
量Sy称为剩余标准差。Sy用来衡量预报的精确度
27
(二)控制问题
控制问题只不过是预报的反问题。若要求观测值y0
在 y1
y0
y
范
2
围
内
取
值
,
则
可
从
a 2S y bx1 y(1 或a 3S y bx1 y1)
及
a
2Sy
bx2
y(2 或a
3S2
bx2
y
)
2
中 分 别 解 出 x1、 x2, 只 要 将 x的 取 值 控 制 在 x1与 x2 之 间 ,
_
据总的波动情况,用各观测值yi与总平均 y 之间的平方和 即总变动平方和表示
N
_
N
^
^_
Lyy ( yi y)2 [( yi yi ) ( yi y)]2
i=1
i=1
N
^
N^ _
N
^ ^_
( yi yi )2 ( yi y)2 2 ( yi yi )( yi y)
变化引起的波动,另一部分反映由于存在试验误差而引起
的波动。然后把各因素水平变化引起的波动与试验误差引 起的波动大小进行比较,而达到检验因素显著性的目的.
12
设( xi , yi )(i 1, 2,..., N )为变量x,y间的一组观测数据,xi
^
为观测点,yi为xi处的观测之,y a bx 为这组观测数据 求 得 的 变 量 x, y间 的 回 归 方 程 , 在 回 归 问 题 中 , 观 测 数
n-2 0.05 0.01
21 0.413 0.526 22 0.404 0.515 23 0.396 0.505 24 0.388 0.496 25 0.381 0.487 26 0.374 0.478 27 0.367 0.470 28 0.364 0.463 29 0.355 0.456 30 0.349 0.449
(618) yabx2Sy
^
y1
yabx2Sy x y 1
y a bx yabx2Sy x
x1 x2 b0
x1
x2
b0
29
可 以 预 测 在 x附 近 的 一 系 列 观 测 值 中 , 95% 将 落 在 这 两 条 直 线 所 夹 成 的 带 行 趋 于 中 , 若 要 求 在 y1与 y2范 围 内 取 值 , 则 只 需 要 图 中 虚 线 所 示 的 对 于 关 系 , 可 在 x轴 上 找 到 x 值 的 控 制 范 围 。
1 0.997 1.000 2 0.950 0.990 3 0.878 0.959 4 0.811 0.917 5 0.754 0.874 6 0.707 0.834 7 0.666 0.798 8 0.632 0.765 9 0.602 0.735 10 0.576 0.708
n-2 0.05 0.01
这种关系就是所谓的函数关系或确定性关系
回归分析方法是处理变量之间相关关系的有理 工具,它不仅提供建立变量间关系的数学表达式— —经验公式,而且利用概率统计知识进行了分析讨 论,从而判断经验公式的正确性
3
二、回归分析所能解决的问题
回归分析主要解决以下几方面的问题: (1)确定几个特定变量之间是否存在相关关系,
( yi y)2
17
i=1
i=1
N
_
N
^
(xi x)2
( yi yi )2
令
r2
b2
i=1 N
_
1
i=1 N
_
( yi y)2
( yi y)2
i=1
i=1
N
_
(xi x)2
r b
i=1 N
_
( yi y)2
i=1
(6 12)
18
y
r 1
下面存在三种情形:
(1) y 与 x 有 严 格 函 数 关 系 时
N
_
^
( yi y)2
x
yi yi , r 1, b
i=1 N
_
y
r 1
(xi x)2
i=1
x19
(2)y与x无任何依赖关系时
^_
yy,r0,b0
y
r0
y
r0
x
x
20
( 3)y与x存在相关关系时 0<|r|<1
y
1r0
y
0r1
x
x
21
检 验 y与 x是 否 相 关 的 步 骤 : ( 1) 按 下 式 计 算 r:
rb
N
_
(xi x)2
i=1 N
=
_
( yi y)2
i=1
lxy l xx l yy
N
_
_
(xi x)( yi y)
i 1
N
_N
_
( xi x ) 2 ( yi y ) 2
(6 9)
14
每一个变动平方和(即Lyy、U、Q)都有一个“自由度” 和它们对应,Lyy自由度称为总自由度,记做f总。
f总=观测值个数-1=N-1 fU=1 fQ=N-2 三者之间仍然有:f总 fU fQ
15
可用F检验考察回归直线的显著性:
(1)计算F= U/fu Q/fQ
(N 2)U Q
i1
i1
Q反映了全部观测值yi (i 1,2,..., N)对直线的偏离程度,显
然,离差平方和Q越小,愈能较好地表示x, y之间的关系。
用最小二乘法原理,通过选择合适的系数a,b,使Q最小 9
Q
N
a
2 ( yi a bxi ) 0
i1
Q
b
N
2 ( yi
30
五、应用举例
例6-1 在某产品表明腐蚀刻线,下表是试 验活得的腐蚀时间(x) 与腐蚀深度(y)间的 一组数据。试研究两变量(x,y)之间的关系。
腐蚀时间x(秒) 5 5 10 20 30 40 50 60 65 90 120 腐蚀深度y(μ) 4 6 8 13 16 17 19 25 25 29 46
i 1
i 1
22
(2)给定显著行水平,按自由度f=n-2,由相关系数
临界表中查处临界值ra,
。
f
(3)比较| r|与ra,
的大小。
f
若| r|ra, f,认为x与y之间存在线性相关关系;
若| r|ra, f,认为x与y之间不存在线性相关关系。
23
相关系数临界值表
n-2 0.05 0.01
如果存在的话,找出她们之间合适的数学表达式 (2)根据一个或几个变量的值,预报或控制另一
个变量的取值,并且要知道这种预报或控制的精确 度 (3)进行因素分析,确定因素的主次以及因素之 间的相互关系等等
4
一元线性回归分析,只要解决: (1)求变量x与y之间的回归直线方程 (2)判断变量x和y之间是否确为线性关系 (3)根据一个变量的值,预测或控制另一变量
i=1
i=1
i=1
13
N
^
第一项 Q ( yi yi )2
i=1
Q是观测值与回归直线的离差平方和,反映了误差的大小
N^ _
第二项 U ( yi y)2 i=1
(6 8)
U反映了总变动中,由于x与y的线性关系而引起y变化的
一部分,称为回归平方和
第三项为零
Lyy U Q
24
四、预报与控制
当我们求得变量x、y之间的回归直线方程后, 往往通过回归方程回答这样两方面的问题:
(1)对任何一个给定的观测点x0,推断y0大致落的范围 (2)若要求观测值y在一定的范围y1<y<y2内取值,应将
变量控制在什么地方 前者就是所谓的预报问题,后者称为控制问题。
25
i1
a
bxi )xi
0
联合求解得:
(6 1) (6 2)
b=
N
_
_
(xi x)( yi y)
i 1 N
_
(xi x)2
i=1
N i 1
xi yi
1 N
N
N
xi yi
i1 i1
N i 1
xi2
1 N
N
(
i 1
xi )2
_
_
a y b x
(6 3) (6 4)
10
此处
_
x
1 N
N i1
xi
,
_
y
1 N
N i1
yi
求得a,b后,回归方程为:
^
yabx
便可以确定,b称为回归系数
(65) (66)
11
三、回归方程检验方法
(一)方差分析法
回顾方差分析的基本特点:
把所给数据的总波动分解为两部分,一部分反映水平
我 们 就 能 以 95% ( 或 99.7% ) 的 把 握 保 证 , y0在 y1与
y2范围内取值。
28
进行预报和控制,通常也采用图解法。其作法是:在
散点图上作两条平行与回归直线的直线
yabx12Sy
(617)
yabx22Sy
y
yabx2Sy
y
y2
^
y a bx
y2
(一)预报问题
^
一般来说,对于固定x0处的观测值y0,其取值是以y0 为
^
中心而对称分布的。愈靠近 y0的地方,出现的机会愈大,
^
离 y0 愈元的地方,出现的机会少,而且y0的取值范围与量
Q Sy N 2 有下述关系:
26
^
y0落
在
y0
3S
范
y
围
内
的
可
能
性为99.7%
^
y0落
在
y0
2S
N
(xi
i1
_
x)2
N
xi2
i1
1 N
N
( xi)2
i1
L yy
N
( yi
i1
_
y)2
N i1
yi2
1 N
N
(
i1
yi )2
L xy
N
(xi
i=1
i=1
N
_
b 2 ( x i x ) 2
i=1
N
^
^_
代 入 L yy [( y i y i ) ( y i y )]2 整 理 后 可 得
i=1
N
_
N
_
( yi yi)2
(xi x)2
i=1 N
_
1 b2
i