第五章回归分析和曲线拟合

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(6 9)
14
每一个变动平方和(即Lyy、U、Q)都有一个“自由度” 和它们对应,Lyy自由度称为总自由度,记做f总。
f总=观测值个数-1=N-1 fU=1 fQ=N-2 三者之间仍然有:f总 fU fQ
15
可用F检验考察回归直线的显著性:
(1)计算F= U/fu Q/fQ
(N 2)U Q
i=1
i=1
i=1
13
N
^
第一项 Q ( yi yi )2
i=1
Q是观测值与回归直线的离差平方和,反映了误差的大小
N^ _
第二项 U ( yi y)2 i=1
(6 8)
U反映了总变动中,由于x与y的线性关系而引起y变化的
一部分,称为回归平方和
第三项为零
Lyy U Q
i1

a
bxi )xi

0
联合求解得:
(6 1) (6 2)
b=
N
_
_
(xi x)( yi y)
i 1 N

_
(xi x)2
i=1
N i 1
xi yi

1 N
N
N
xi yi
i1 i1
N i 1
xi2

1 N
N
(
i 1
xi )2
_
_
a y b x
下面存在三种情形:
(1) y 与 x 有 严 格 函 数 关 系 时
N
_
^
( yi y)2
x
yi yi , r 1, b
i=1 N
_
y
r 1
(xi x)2
i=1
x19
(2)y与x无任何依赖关系时
^_
yy,r0,b0
y
r0
y
r0
x
x
20
( 3)y与x存在相关关系时 0<|r|<1
i=1
i=1
N
_
b 2 ( x i x ) 2
i=1
N
^
^_
代 入 L yy [( y i y i ) ( y i y )]2 整 理 后 可 得
i=1
N
_
N
_
( yi yi)2
(xi x)2
i=1 N
_
1 b2
i=1 N
_
(6 11)
( yi y)2
(6 3) (6 4)
10
此处
_
x
1 N
N i1
xi
,
_
y

1 N
N i1
yi
求得a,b后,回归方程为:
^
yabx
便可以确定,b称为回归系数
(65) (66)
11
三、回归方程检验方法
(一)方差分析法

回顾方差分析的基本特点:

把所给数据的总波动分解为两部分,一部分反映水平
如果存在的话,找出她们之间合适的数学表达式 (2)根据一个或几个变量的值,预报或控制另一
个变量的取值,并且要知道这种预报或控制的精确 度 (3)进行因素分析,确定因素的主次以及因素之 间的相互关系等等
4
一元线性回归分析,只要解决: (1)求变量x与y之间的回归直线方程 (2)判断变量x和y之间是否确为线性关系 (3)根据一个变量的值,预测或控制另一变量
31
作 散 点 图 , 即 ( x i , y i ) 图
y
40
30
20
10
10 20 30 40 50 60 70 80 90 100 110 120
x
可 见 x 与 y 之 间 无 确 定 的 函 数 关 系 , 而 表 现 为 相 关 关 系
32
( 1) 求 回 归 直 线

L xx

y






为95%
^
y0落

y0

S

y





性为68%
利 用 此 关 系 , 对 于 指 定 的 x0, 我 们 有 95% 的 把 握 说 , 在 x x0
^
^
处的实际观


y0介

y0

2S

y
y0

2S
之间
y
即:
^
^
y0 2S y y0 y0 2S y
这样,预报问题就得到了解决
(2)对于选定的显著性水平a=0.0( 5 或0.01),从F分布
上找出临界值Fa(1, N 2) (3)比较F与Fa的大小。
若F>Fa,则回归方程有意义,反之则说明方程意义不大
16
(二)相关系数检验法
N^ _
N
_
由 U ( y i y ) 2 U [( a b xi ) ( a b x )]2
的取值
5
二、一元线性回归方程的确定
数学上判定直线合理的原则: 如果直线与全部观测数据yi(i1,2,...,N)的离差平方和, 比任何其它直线与全部观测数据的离差平方和更小,该 直线就是代表x与y之间关系较为合理的一条直线,这条 直线就是x和y之间的回归直线。
6
设y* abx是平面上的一条任意直线,(xi,yi)(i 1,2, ...,N)是变量x,y的一组观测数据。 那么,对于每一个xi,在直线y* abx上确可以确定一 个yi* abxi的值,yi*与xi处实际观测值yi的差:
第五章 回归分析和曲线拟合
回归分析方法
1
§5-1 一元线性回归
一、什么叫回归分析
(一)两种不同类型的变量关系、函数与相关

简单的说,回归分析就是一种处理变量与变量之间关系
的数学方法。
例:自由落体运动中,物体下落的举例S与所需时间t之间, 有如下关系
S1gt2 (0tT) 2
2
变量S的值随t而定,这就是说,如果t去了固定 值,那么S的值就完全确定了
这种关系就是所谓的函数关系或确定性关系
回归分析方法是处理变量之间相关关系的有理 工具,它不仅提供建立变量间关系的数学表达式— —经验公式,而且利用概率统计知识进行了分析讨 论,从而判断经验公式的正确性
3
二、回归分析所能解决的问题
回归分析主要解决以下几方面的问题: (1)确定几个特定变量之间是否存在相关关系,
i1
i1
Q反映了全部观测值yi (i 1,2,..., N)对直线的偏离程度,显
然,离差平方和Q越小,愈能较好地表示x, y之间的关系。
用最小二乘法原理,通过选择合适的系数a,b,使Q最小 9
Q
N
a
2 ( yi a bxi ) 0
i1
Q
b

N
2 ( yi
量Sy称为剩余标准差。Sy用来衡量预报的精确度
27
(二)控制问题
控制问题只不过是预报的反问题。若要求观测值y0
在 y1

y0

y

2








a 2S y bx1 y(1 或a 3S y bx1 y1)

a

2Sy

bx2

y(2 或a

3S2

bx2
ห้องสมุดไป่ตู้

y

2
中 分 别 解 出 x1、 x2, 只 要 将 x的 取 值 控 制 在 x1与 x2 之 间 ,
24
四、预报与控制
当我们求得变量x、y之间的回归直线方程后, 往往通过回归方程回答这样两方面的问题:
(1)对任何一个给定的观测点x0,推断y0大致落的范围 (2)若要求观测值y在一定的范围y1<y<y2内取值,应将
变量控制在什么地方 前者就是所谓的预报问题,后者称为控制问题。
25
_
据总的波动情况,用各观测值yi与总平均 y 之间的平方和 即总变动平方和表示
N
_
N
^
^_
Lyy ( yi y)2 [( yi yi ) ( yi y)]2
i=1
i=1
N
^
N^ _
N
^ ^_
( yi yi )2 ( yi y)2 2 ( yi yi )( yi y)
y
1r0
y
0r1
x
x
21
检 验 y与 x是 否 相 关 的 步 骤 : ( 1) 按 下 式 计 算 r:
rb
N
_
(xi x)2
i=1 N

_
( yi y)2
i=1
lxy l xx l yy
N
_
_
(xi x)( yi y)
i 1
N
_N
_
( xi x ) 2 ( yi y ) 2
yi yi* yi (abx) 就刻画了yi与直线偏离度
7
y (xi , yi )
^
y a bx
^
(xi, yi)
x
x1
8
全部观测值yi (i 1,2,..., N)与直线上对于的yi*(i 1,2,..., N) 的离差平方和则为:
N
N
Q (yi yi*)2 (yi a bxi )2
(618) yabx2Sy
^
y1
yabx2Sy x y 1
y a bx yabx2Sy x
x1 x2 b0
x1
x2
b0
29
可 以 预 测 在 x附 近 的 一 系 列 观 测 值 中 , 95% 将 落 在 这 两 条 直 线 所 夹 成 的 带 行 趋 于 中 , 若 要 求 在 y1与 y2范 围 内 取 值 , 则 只 需 要 图 中 虚 线 所 示 的 对 于 关 系 , 可 在 x轴 上 找 到 x 值 的 控 制 范 围 。
变化引起的波动,另一部分反映由于存在试验误差而引起
的波动。然后把各因素水平变化引起的波动与试验误差引 起的波动大小进行比较,而达到检验因素显著性的目的.
12
设( xi , yi )(i 1, 2,..., N )为变量x,y间的一组观测数据,xi
^
为观测点,yi为xi处的观测之,y a bx 为这组观测数据 求 得 的 变 量 x, y间 的 回 归 方 程 , 在 回 归 问 题 中 , 观 测 数
i 1
i 1
22
(2)给定显著行水平,按自由度f=n-2,由相关系数
临界表中查处临界值ra,

f
(3)比较| r|与ra,
的大小。
f
若| r|ra, f,认为x与y之间存在线性相关关系;
若| r|ra, f,认为x与y之间不存在线性相关关系。
23
相关系数临界值表

n-2 0.05 0.01
11 0.553 0.684 12 0.532 0.661 13 0.514 0.641 14 0.479 0.623 15 0.482 0.606 16 0.468 0.590 17 0.456 0.575 18 0.444 0.561 19 0.433 0.549 20 0.413 0.537


N
(xi
i1
_
x)2

N
xi2
i1
1 N
N
( xi)2
i1
L yy

N
( yi
i1
_
y)2

N i1
yi2

1 N
N
(
i1
yi )2
L xy

N
(xi
1 0.997 1.000 2 0.950 0.990 3 0.878 0.959 4 0.811 0.917 5 0.754 0.874 6 0.707 0.834 7 0.666 0.798 8 0.632 0.765 9 0.602 0.735 10 0.576 0.708

n-2 0.05 0.01
n-2 0.05 0.01
21 0.413 0.526 22 0.404 0.515 23 0.396 0.505 24 0.388 0.496 25 0.381 0.487 26 0.374 0.478 27 0.367 0.470 28 0.364 0.463 29 0.355 0.456 30 0.349 0.449
(一)预报问题
^
一般来说,对于固定x0处的观测值y0,其取值是以y0 为
^
中心而对称分布的。愈靠近 y0的地方,出现的机会愈大,
^
离 y0 愈元的地方,出现的机会少,而且y0的取值范围与量
Q Sy N 2 有下述关系:
26
^
y0落

y0

3S

y





性为99.7%
^
y0落

y0

2S
我 们 就 能 以 95% ( 或 99.7% ) 的 把 握 保 证 , y0在 y1与
y2范围内取值。
28
进行预报和控制,通常也采用图解法。其作法是:在
散点图上作两条平行与回归直线的直线
yabx12Sy
(617)
yabx22Sy
y
yabx2Sy
y
y2
^
y a bx
y2
( yi y)2
17
i=1
i=1
N
_
N
^
(xi x)2
( yi yi )2

r2
b2
i=1 N
_
1
i=1 N
_
( yi y)2
( yi y)2
i=1
i=1
N
_
(xi x)2

r b
i=1 N
_
( yi y)2
i=1
(6 12)
18
y
r 1
30
五、应用举例
例6-1 在某产品表明腐蚀刻线,下表是试 验活得的腐蚀时间(x) 与腐蚀深度(y)间的 一组数据。试研究两变量(x,y)之间的关系。
腐蚀时间x(秒) 5 5 10 20 30 40 50 60 65 90 120 腐蚀深度y(μ) 4 6 8 13 16 17 19 25 25 29 46
相关文档
最新文档