回归分析法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章 回归分析方法
1
§5-1 一元线性回归
一、什么叫回归分析
(一)两种不同类型的变量关系、函数与相关
简单的说,回归分析就是一种处理变量与变量之间关系的 数学方法。 例:自由落体运动中,物体下落的距离S与所需时间t之间,有 如下关系
S
1 2 gt 2
(0 t T )
2
变量S的值随t而定,这就是说,如果t给了固定值, 那么S的值就完全确定了 这种关系就是所谓的函数关系或确定性关系
(二)相关系数检验法
由U ( yi y ) U [(a bxi ) (a b x )]2
2 i=1 N i=1 N ^ _ N _
b ( xi x) 2
2 i=1
_
代入 Lyy [( yi yi ) ( yi y )]2整理后可得
i=1
23
相关系数临界值表 n-2 0.05
1 2 3 4 5 6 7 8 9 10
0.01
1.000 0.990 0.959 0.917 0.874 0.834 0.798 0.765 0.735 0.708
n-2 0.05
11 12 13 14 15 16 17 18 19 20
0.01
0.684 0.661 0.641 0.623 0.606 0.590 0.575 0.561 0.549 0.537
6
设y* a bx是平面上的一条任意直线,(xi , yi )(i 1,2, ..., N )是变量x,y的一组观测数据。 那么,对于每一个xi,在直线y* a bx上确可以确定一 个yi a bxi的值,yi 与xi处实际观测值yi的差: yi yi yi (a bx) 就刻画了yi与直线偏离度
(1)对任何一个给定的观测点x0,推断y0大致落的范围 (2)若要求观测值y在一定的范围y1<y<y2内取值,应将变 量控制在什么地方 前者就是所谓的预报问题,后者称为控制问题。
25
(一)预报问题 一般来说,对于固定x0处的观测值y0,其取值是以 y0 为 中心而对称分布的。愈靠近 y0 的地方,出现的机会愈大, 离 y0 愈元的地方,出现的机会少,而且y0的取值范围与量 Q Sy N 2 有下述关系:
2 i=1 i=1 N N _ N ^ ^ _ _ ^
( yi yi ) ( yi y ) 2 ( yi yi )( yi y )
2 2 i=1 i=1 i=1
N
^
^
_
N
^
^
_
13
第一项 Q ( yi yi ) 2
i=1
N
^
Q是观测值与回归直线的离差平方和,反映了误差的大小 第二项 U ( yi y ) 2
30
五、应用举例
例6-1 在某产品表明腐蚀刻线,下表是试验活 得的腐蚀时间(x)与腐蚀深度(y)间的一组数 据。试研究两变量(x,y )之间的关系。
腐蚀时间x(秒) 5 5 10 20 30 40 50 60 65 90 120 腐蚀深度y(μ) 4 6 8 13 16 17 19 25 25 29 46
* 2 i 1 i 1 N N
*
Q反映了全部观测值yi (i 1,2,..., N )对直线的偏离程度,显 然,离差平方和Q越小,愈能较好地表示x, y之间的关系。 用最小二乘法原理,通过选择合适的系数a,b,使Q最小
9
N Q 2 ( yi a bxi ) 0 a i 1 N Q 2 ( yi a bxi ) xi 0 b i 1 联合求解得: N 1 N ( xi x)( yi y ) xi yi xi yi N i 1 i 1 i 1 b= i 1 N N _ 1 N 2 2 2 ( x x ) x ( x ) i i i N i=1 i 1 i 1 _ _ N N
28
进行预报和控制,通常也采用图解法。其作法是:在 散点图上作两条平行与回归直线的直线 y a bx1 2S y (6 17) (6 18) y a bx2 2S y y a bx 2S y y ^ y a bx y2
y y2
y a bx 2S y
(6 1) (6 2)
(6 3)
a y b x
_
_
(6 4)
10
_ 1 N 1 N 此处 x xi , y yi N i 1 N i 1 求得a,b后,回归方程为: _
(6 5)
y a bx 便可以确定,b称为回归系数
^
(6 6)
11
31
作散点图,即(xi ,yi)图
y
40 30 20 10 10 20 30 40 50 60 70 80 90 100 110 120
x
可见x与y之间无确定的函数关系,而表现为相关关系
三、回归方程检验方法
(一)方差分析法
回归方差分析的基本特点: 把所给数据的总波动分解为两部分,一部分反映水平变化 引起的波动,另一部分反映由于存在试验误差而引起的波动。 然后把各因素水平变化引起的波动与试验误差引起的波动大小 进行比较,而达到检验因素显著性的目的.
12
设( xi , yi )(i 1, 2,..., N )为变量x,y间的一组观测数据,xi 为观测点,yi为xi 处的观测之, y a bx 为这组观测数据 求得的变量x,y间的回归方程,在回归问题中,观测数 据总的波动情况,用各观测值yi 与总平均y之间的平方和 即总变动平方和表示 Lyy ( yi y ) [( yi yi ) ( yi y )]2
7
* * *
y
( xi , yi )
( xi , yi )
^
y a bx
^
x1
x
8
全部观测值yi (i 1,2,..., N )与直线上对于的yi (i 1,2,..., N ) 的离差平方和则为: Q ( yi yi ) ( yi a bxi ) 2
(x (y
i=1 i=1 N
N
iபைடு நூலகம்
x)
_
_
2
=
2
(x
i 1 N i 1
N
i
x)( yi y )
_ 2 2 ( y y ) i i 1 N _
_
_
i
y)
( xi x)
lxy lxx l yy
22
(2)给定显著行水平,按自由度f=n-2,由相关系数 临界表中查处临界值ra , f 。 (3)比较 | r | 与ra , f 的大小。 若 | r | ra , f ,认为x与y之间存在线性相关关系; 若 | r | ra , f ,认为x与y之间不存在线性相关关系。
26
^ ^ ^
y0落在 y0 3S y 范围内的可能性为99.7% y0落在 y0 2S y 范围内的可能性为95% y0落在 y0 S y 范围内的可能性为68% 利用此关系,对于指定的x0,我们有95%的把握说,在x x0 处的实际观测值y0介于 y0 2S y 与 y0 2S y 之间 即: y0 2S y y0 y0 2S y
4
一元线性回归分析,只要解决: (1)求变量x与y之间的回归直线方程 (2)判断变量x和y之间是否确为线性关系 (3)根据一个变量的值,预测或控制另一变量的 取值
5
二、一元线性回归方程的确定
数学上判定直线合理的原则: 如果直线与全部观测数据yi (i 1, 2,..., N )的离差平方和, 比任何其它直线与全部观测数据的离差平方和更小,该 直线就是代表x与y之间关系较为合理的一条直线,这条 直线就是x和y之间的回归直线。
^ ^ ^ ^ ^ ^
^
这样,预报问题就得到了解决 量S y 称为剩余标准差。S y 用来衡量预报的精确度
27
(二)控制问题 控制问题只不过是预报的反问题。若要求观测值y0 在y1 y0 y2范围内取值,则可从 a 2 S y bx1 y (或 a 3S y bx1 y1) 1 及 a 2 S y bx2 y (或 a 3S 2 bx2 y2) 2 中分别解出x1、x2,只要将x的取值控制在x1与x2之间, 我们就能以95%(或99.7%)的把握保证,y0在y1与 y2范围内取值。
(x
i=1
i=1 N
i
x)
_
2
19 x
(2)y与x无任何依赖关系时 y y, r 0, b 0
^ _
y
r 0
y
r 0
x
x
20
(3)y与x存在相关关系时 0<|r|<1
y
1 r 0
y
0 r 1
x
x
21
检验y与x是否相关的步骤: (1)按下式计算r:
r b
15
可用F检验考察回归直线的显著性: U/fu U (1)计算F= ( N 2) Q/fQ Q (2)对于选定的显著性水平a=0.05 (或0.01 ),从F分布 上找出临界值Fa (1, N 2) (3)比较F与Fa的大小。 若F>Fa,则回归方程有意义,反之则说明方程意义不大
16
n-2 0.05
21 22 23 24 25 26 27 28 29 30
0.01
0.526 0.515 0.505 0.496 0.487 0.478 0.470 0.463 0.456 0.449
0.997 0.950 0.878 0.811 0.754 0.707 0.666 0.632 0.602 0.576
0.553 0.532 0.514 0.479 0.482 0.468 0.456 0.444 0.433 0.413
0.413 0.404 0.396 0.388 0.381 0.374 0.367 0.364 0.355 0.349
24
四、预报与控制
当我们求得变量x、y之间的回归直线方程后, 往往通过回归方程回答这样两方面的问题:
N
^
^
_
( yi yi )
i=1 N
N
_
2
(y
i=1
i
y)2
_
1 b2
2 ( x x ) i
N
_
(y
i=1
i=1 N
i
y)2
_
(6 11)
17
令 r 2 b2
( xi x) (y
i=1 i=1 N _ i
N
_
2
1
2 ( y y ) i i i=1 N
N
^
y)2
N
(y
i=1 _
i
y)2
_
(6 12)
r b
2 ( x x ) i
(y
i=1
i=1 N
i
y)2
_
18
y
下面存在三种情形: () 1 y与x有严格函数关系时
^ 2 ( y y ) i N _
r 1
x
y
r 1
yi yi , r 1, b
i=1 N ^ _
(6 8)
U反映了总变动中,由于x与y的线性关系而引起y变化的 一部分,称为回归平方和 第三项为零 Lyy U Q (6 9)
14
每一个变动平方和(即Lyy、U、Q)都有一个“自由度” 和它们对应,Lyy自由度称为总自由度,记做f总。 f总=观测值个数-1=N-1 f U=1 f Q=N-2 三者之间仍然有:f总 f U f Q
回归分析方法是处理变量之间相关关系的有效工具, 它不仅提供建立变量间关系的数学表达式——经验公 式,而且利用概率统计知识进行了分析讨论,从而判 断经验公式的正确性
3
二、回归分析所能解决的问题
回归分析主要解决以下几方面的问题: (1)确定几个特定变量之间是否存在相关关系,如果 存在的话,找出她们之间合适的数学表达式 (2)根据一个或几个变量的值,预报或控制另一个变 量的取值,并且要知道这种预报或控制的精确度 (3)进行因素分析,确定因素的主次以及因素之间的 相互关系等等
y1
y a bx 2S y x1 x2 b0
x
y1
y a bx
^
y a bx 2S y x1 x2 b0
x 29
可以预测在x附近的一系列观测值中, 95%将落在这两条 直线所夹成的带行趋于中,若要求在y1与y2范围内取值, 则只需要图中虚线所示的对于关系,可在x轴上找到x 值的控制范围。
1
§5-1 一元线性回归
一、什么叫回归分析
(一)两种不同类型的变量关系、函数与相关
简单的说,回归分析就是一种处理变量与变量之间关系的 数学方法。 例:自由落体运动中,物体下落的距离S与所需时间t之间,有 如下关系
S
1 2 gt 2
(0 t T )
2
变量S的值随t而定,这就是说,如果t给了固定值, 那么S的值就完全确定了 这种关系就是所谓的函数关系或确定性关系
(二)相关系数检验法
由U ( yi y ) U [(a bxi ) (a b x )]2
2 i=1 N i=1 N ^ _ N _
b ( xi x) 2
2 i=1
_
代入 Lyy [( yi yi ) ( yi y )]2整理后可得
i=1
23
相关系数临界值表 n-2 0.05
1 2 3 4 5 6 7 8 9 10
0.01
1.000 0.990 0.959 0.917 0.874 0.834 0.798 0.765 0.735 0.708
n-2 0.05
11 12 13 14 15 16 17 18 19 20
0.01
0.684 0.661 0.641 0.623 0.606 0.590 0.575 0.561 0.549 0.537
6
设y* a bx是平面上的一条任意直线,(xi , yi )(i 1,2, ..., N )是变量x,y的一组观测数据。 那么,对于每一个xi,在直线y* a bx上确可以确定一 个yi a bxi的值,yi 与xi处实际观测值yi的差: yi yi yi (a bx) 就刻画了yi与直线偏离度
(1)对任何一个给定的观测点x0,推断y0大致落的范围 (2)若要求观测值y在一定的范围y1<y<y2内取值,应将变 量控制在什么地方 前者就是所谓的预报问题,后者称为控制问题。
25
(一)预报问题 一般来说,对于固定x0处的观测值y0,其取值是以 y0 为 中心而对称分布的。愈靠近 y0 的地方,出现的机会愈大, 离 y0 愈元的地方,出现的机会少,而且y0的取值范围与量 Q Sy N 2 有下述关系:
2 i=1 i=1 N N _ N ^ ^ _ _ ^
( yi yi ) ( yi y ) 2 ( yi yi )( yi y )
2 2 i=1 i=1 i=1
N
^
^
_
N
^
^
_
13
第一项 Q ( yi yi ) 2
i=1
N
^
Q是观测值与回归直线的离差平方和,反映了误差的大小 第二项 U ( yi y ) 2
30
五、应用举例
例6-1 在某产品表明腐蚀刻线,下表是试验活 得的腐蚀时间(x)与腐蚀深度(y)间的一组数 据。试研究两变量(x,y )之间的关系。
腐蚀时间x(秒) 5 5 10 20 30 40 50 60 65 90 120 腐蚀深度y(μ) 4 6 8 13 16 17 19 25 25 29 46
* 2 i 1 i 1 N N
*
Q反映了全部观测值yi (i 1,2,..., N )对直线的偏离程度,显 然,离差平方和Q越小,愈能较好地表示x, y之间的关系。 用最小二乘法原理,通过选择合适的系数a,b,使Q最小
9
N Q 2 ( yi a bxi ) 0 a i 1 N Q 2 ( yi a bxi ) xi 0 b i 1 联合求解得: N 1 N ( xi x)( yi y ) xi yi xi yi N i 1 i 1 i 1 b= i 1 N N _ 1 N 2 2 2 ( x x ) x ( x ) i i i N i=1 i 1 i 1 _ _ N N
28
进行预报和控制,通常也采用图解法。其作法是:在 散点图上作两条平行与回归直线的直线 y a bx1 2S y (6 17) (6 18) y a bx2 2S y y a bx 2S y y ^ y a bx y2
y y2
y a bx 2S y
(6 1) (6 2)
(6 3)
a y b x
_
_
(6 4)
10
_ 1 N 1 N 此处 x xi , y yi N i 1 N i 1 求得a,b后,回归方程为: _
(6 5)
y a bx 便可以确定,b称为回归系数
^
(6 6)
11
31
作散点图,即(xi ,yi)图
y
40 30 20 10 10 20 30 40 50 60 70 80 90 100 110 120
x
可见x与y之间无确定的函数关系,而表现为相关关系
三、回归方程检验方法
(一)方差分析法
回归方差分析的基本特点: 把所给数据的总波动分解为两部分,一部分反映水平变化 引起的波动,另一部分反映由于存在试验误差而引起的波动。 然后把各因素水平变化引起的波动与试验误差引起的波动大小 进行比较,而达到检验因素显著性的目的.
12
设( xi , yi )(i 1, 2,..., N )为变量x,y间的一组观测数据,xi 为观测点,yi为xi 处的观测之, y a bx 为这组观测数据 求得的变量x,y间的回归方程,在回归问题中,观测数 据总的波动情况,用各观测值yi 与总平均y之间的平方和 即总变动平方和表示 Lyy ( yi y ) [( yi yi ) ( yi y )]2
7
* * *
y
( xi , yi )
( xi , yi )
^
y a bx
^
x1
x
8
全部观测值yi (i 1,2,..., N )与直线上对于的yi (i 1,2,..., N ) 的离差平方和则为: Q ( yi yi ) ( yi a bxi ) 2
(x (y
i=1 i=1 N
N
iபைடு நூலகம்
x)
_
_
2
=
2
(x
i 1 N i 1
N
i
x)( yi y )
_ 2 2 ( y y ) i i 1 N _
_
_
i
y)
( xi x)
lxy lxx l yy
22
(2)给定显著行水平,按自由度f=n-2,由相关系数 临界表中查处临界值ra , f 。 (3)比较 | r | 与ra , f 的大小。 若 | r | ra , f ,认为x与y之间存在线性相关关系; 若 | r | ra , f ,认为x与y之间不存在线性相关关系。
26
^ ^ ^
y0落在 y0 3S y 范围内的可能性为99.7% y0落在 y0 2S y 范围内的可能性为95% y0落在 y0 S y 范围内的可能性为68% 利用此关系,对于指定的x0,我们有95%的把握说,在x x0 处的实际观测值y0介于 y0 2S y 与 y0 2S y 之间 即: y0 2S y y0 y0 2S y
4
一元线性回归分析,只要解决: (1)求变量x与y之间的回归直线方程 (2)判断变量x和y之间是否确为线性关系 (3)根据一个变量的值,预测或控制另一变量的 取值
5
二、一元线性回归方程的确定
数学上判定直线合理的原则: 如果直线与全部观测数据yi (i 1, 2,..., N )的离差平方和, 比任何其它直线与全部观测数据的离差平方和更小,该 直线就是代表x与y之间关系较为合理的一条直线,这条 直线就是x和y之间的回归直线。
^ ^ ^ ^ ^ ^
^
这样,预报问题就得到了解决 量S y 称为剩余标准差。S y 用来衡量预报的精确度
27
(二)控制问题 控制问题只不过是预报的反问题。若要求观测值y0 在y1 y0 y2范围内取值,则可从 a 2 S y bx1 y (或 a 3S y bx1 y1) 1 及 a 2 S y bx2 y (或 a 3S 2 bx2 y2) 2 中分别解出x1、x2,只要将x的取值控制在x1与x2之间, 我们就能以95%(或99.7%)的把握保证,y0在y1与 y2范围内取值。
(x
i=1
i=1 N
i
x)
_
2
19 x
(2)y与x无任何依赖关系时 y y, r 0, b 0
^ _
y
r 0
y
r 0
x
x
20
(3)y与x存在相关关系时 0<|r|<1
y
1 r 0
y
0 r 1
x
x
21
检验y与x是否相关的步骤: (1)按下式计算r:
r b
15
可用F检验考察回归直线的显著性: U/fu U (1)计算F= ( N 2) Q/fQ Q (2)对于选定的显著性水平a=0.05 (或0.01 ),从F分布 上找出临界值Fa (1, N 2) (3)比较F与Fa的大小。 若F>Fa,则回归方程有意义,反之则说明方程意义不大
16
n-2 0.05
21 22 23 24 25 26 27 28 29 30
0.01
0.526 0.515 0.505 0.496 0.487 0.478 0.470 0.463 0.456 0.449
0.997 0.950 0.878 0.811 0.754 0.707 0.666 0.632 0.602 0.576
0.553 0.532 0.514 0.479 0.482 0.468 0.456 0.444 0.433 0.413
0.413 0.404 0.396 0.388 0.381 0.374 0.367 0.364 0.355 0.349
24
四、预报与控制
当我们求得变量x、y之间的回归直线方程后, 往往通过回归方程回答这样两方面的问题:
N
^
^
_
( yi yi )
i=1 N
N
_
2
(y
i=1
i
y)2
_
1 b2
2 ( x x ) i
N
_
(y
i=1
i=1 N
i
y)2
_
(6 11)
17
令 r 2 b2
( xi x) (y
i=1 i=1 N _ i
N
_
2
1
2 ( y y ) i i i=1 N
N
^
y)2
N
(y
i=1 _
i
y)2
_
(6 12)
r b
2 ( x x ) i
(y
i=1
i=1 N
i
y)2
_
18
y
下面存在三种情形: () 1 y与x有严格函数关系时
^ 2 ( y y ) i N _
r 1
x
y
r 1
yi yi , r 1, b
i=1 N ^ _
(6 8)
U反映了总变动中,由于x与y的线性关系而引起y变化的 一部分,称为回归平方和 第三项为零 Lyy U Q (6 9)
14
每一个变动平方和(即Lyy、U、Q)都有一个“自由度” 和它们对应,Lyy自由度称为总自由度,记做f总。 f总=观测值个数-1=N-1 f U=1 f Q=N-2 三者之间仍然有:f总 f U f Q
回归分析方法是处理变量之间相关关系的有效工具, 它不仅提供建立变量间关系的数学表达式——经验公 式,而且利用概率统计知识进行了分析讨论,从而判 断经验公式的正确性
3
二、回归分析所能解决的问题
回归分析主要解决以下几方面的问题: (1)确定几个特定变量之间是否存在相关关系,如果 存在的话,找出她们之间合适的数学表达式 (2)根据一个或几个变量的值,预报或控制另一个变 量的取值,并且要知道这种预报或控制的精确度 (3)进行因素分析,确定因素的主次以及因素之间的 相互关系等等
y1
y a bx 2S y x1 x2 b0
x
y1
y a bx
^
y a bx 2S y x1 x2 b0
x 29
可以预测在x附近的一系列观测值中, 95%将落在这两条 直线所夹成的带行趋于中,若要求在y1与y2范围内取值, 则只需要图中虚线所示的对于关系,可在x轴上找到x 值的控制范围。