应用统计方法课件 3-1

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.理解可线性化的非线性回归的基本思想、解 决问题的方法和步骤;
4.了解逐步回归的基本思想方法和实现步骤.
回 归 分析
一元线性回归 多元线性回归 逐步回归 非线性回归与回归诊断
一元线性回归
建立模型
参数估计
显著性检验
预测预报
一.建立模型
modeling
引例 1.一个作匀速直线运动的质点,在时刻t 的位置是 S ,则 S a bt ,其中a 为质点在t 0时刻
y a bx
(3-6)
由上分析看出, yi a bxi 反映了 yi 中受 x 影响的 那一部分; 而 yi yi 则反映了 yi 中扣除 x 的影响 后其它种种因素影响的部分,故称为残差。
F
S
2 残
S
2 回
/ (n
2)

F
(1,
n
2)
(
H0
成立时)
(3-16)
对给定水平( 较小),由 P{F } 查
预测
当回归方程有意义时,则可用 x0 处的回归值 y0 来作为 y0 的估计值,或称为预测值。
所谓区间预测,是指构造两个统计量 , 使对
于给定的0 1,满足 P{ } 1 ,则称随
机区间( , )是 的置信度为1 的预测区间。
13
取样本函数
T
y0 y0
~ t(n 2)
S 1 1 (x0 x)2
近于 1)特别是回归的显著性不便于进行严格检验时,
也有用它来说明回归效果的。
在回归方程无意义时,有如下几种可能:
(1) x 对 y 确实无影响;
(2) x 对 y 有影响,但无线性影响;
(3)除 x 外,还有另外不可忽略的因素对 y 有
影响,这时需作进一步研究。
forecasting
四.回归方程的应用
关系。
在计算
F
统计量时,常用下列公式计算
S
2 回

S回2
n
(
yi
y)2
blxy
i 1
(3-17)
事实上: S回2
n
(
yi
y )2
n
(a
bxi
a
bx )2
i 1
i 1
b
2
n
(
xi
i 1
x)2
(
lxy lxx
)
2
lxx
blxy
2.相关系数检验法
对于线性回归中的变量 x 与 y ,其样本相关系数
n
r
问题:如何利用观测
120 100
值来估计参数a 、b ,从而
80 60
确定 y 与 x 的近似线性关
40 20
系。
0
0
20
40
60
80
图 3-1
一元线性回归模型
设变量 y 与 x有下述关系 Linear regression
y a bx
(3-3)
其中 是零均值的 r.v , x 是可控制变量,a 、b 为
F 分布表可求得 。
若 F ,则否定 H0,说明 x 与 y 存在线性关
系,否则回归方程无意义。
进一步当 =0.05 时,若 F 0.05 ,则 x 与 y 无线性关系;当 =0.01 时,若 F 0.01,则 x
与 y 存在十分显著的线性关系;若
0.05 F 0.01,则称 x 与 y 存在显著的线性
n
(yi
y)2
in1
( yi
yi )2
n
(
yi
y)2
S残2
S回2
(3-13)
i 1
i 1
其中,
n
( yi
yi
)( yi
y)
n
( yi
yˆi )(aˆ
bˆxi
y)
i 1
i1
(a
n
y) ( yi
yi )
n
( yi
yi )bxi
i 1
i 1
通常称( 3b-iQan113()yi 为2iny平1i()y方xi i和=a0分(解bx由i,) 其3-0中9 式) (3-8)
i1
i1
i1

n Qyi i 1a
xi
2nnx
i 1
(yyi
n
banxb2 xi )bi10xi2
0
(3-8)
n配yQbi方xi整n2理xin1(yyi
an bxi
yi xi
)xi
nx
0
y
(3-9)
nx y nx
y
i 1
in1
( yi xi xi y xyi x y)
in1
(xi x)( yi y)
回归方程是否有意义,即 x 对 y 是否有所影响,而
且是线性的,这就需要进行检验。
三、回归方程的显著性检验( H0:b 0)
1. F 检验法
Significance tests
由 x 的 n 个不全相同的值 x1,x2 ,,xn 得到
相应观测值 y1,y2 ,,yn。 y 值的差异现象称为 变差。 对 每 次 观 测 值 来 说 , 变 差 的 大 小 可 用
学习目的
学习本章时,要密切联系实际,着重 理解回归分析的基本思想,力求掌握利用 回归分析解决实际问题的一般步骤和方法, 提高分析问题、解决问题的能力.
4
frist
基本要求
1.理解一元线性回归分析的基本思想、掌握一 元线性回归分析的方法及一般步骤.并能解决简单的 实际问题;
2.理解多元线性回归分析的基本思想、解决问 题的方法和步骤;
份数 y数据见下表:
xi 0 4
10 15 21 29 36 51 68
yi 66.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125
Hale Waihona Puke Baidu
求:(1)x 与 y 的线性回归方程;(2)在水平 0.05
下,检验所建立的回归方程是否有意义;(3)x 25
时 y的置信度为 95%的预测区间。
的初始位置,b 为平均速度。
观测到的数据是 y s ,其中 是随机误差
(测量误差)。于是我们有
y s a bt
(3-1)
其中t 是非随机的, 是随机的,通常认为 E 0,显然 y 也是随机的。
问题:如何利用 X、Y 的观测值来估计参数
a 、 b ,进一步预测未来时刻t 质点的位置。
n
(xi
x)2
n
xi2
nx 2
i 1
分别称为下曲线与上曲线。 y
由图(3-2)及(3-17)
可知当 x0的取值愈靠近 X
时,预测区间愈窄,从而
o
用 y0 近似 y0 时,预测精度
愈高;远离 X 时预测精度愈低。
y a bx
x
x
图 3-2
例 3-1 在硝酸钠( NaNO3 )的溶解度试验中,测 得在不同温度 X 0C 下溶解于 100 份水中的硝酸钠
对 Q 求关于 a、b 的偏导数,得如下方程
Q
n
a
2 ( yi i 1
a bxi ) 0
(3-8)
Q
n
b
2 ( yi i 1
a bxi )xi
0
(3-9)
n
n
由(3-8)式得 yi na b xi 即 a y xb,代入
i 1
i 1
(3-9)式
n
yi xi
n
a
xi
n
b
xi2
0
Q b
n
2 ( yi i 1
a bxi )xi
0
(3-9)
S回2
n
(
yi
y)2
i 1
(3-14)
S残2
n
( yi
yi
)2
i 1
(3-15)
分别称为回归平方和、残差平方和。
由(3-11)及(3-6)可以证明 y y ,即
y
1 n
n
i 1
yi
a bx
y
于是回ab归平S回y2l方xyl和bixnx1x又( yi可表y)示2 -成---回归值的总(变3-差1。1)
解:由引例 2 的讨论知,x 与 y 之间存在线性
关系,计算所需数据见表 3-2。
在计算 F 统计量时,常用下列公式计算 S回2 :
S
2 回
n
(
yi
y)2
blxy
i 1
(3-17)
n
n
S总2 lyy ( yi y)2 yi2 ny 2
i 1
i 1
a y bx
b
lxy
lxx
lxx
Regression equation
二.参数估计 (最小二乘估计)

Parameter estimate
n
n
Q
( yi
a
bxi )2
2 i
(3-7)
i 1
i 1
我们取使 Q 达最小的 a、b 作为未知参数 a、b
的估计,这种方法称为最小二乘估计法,所得的估
计称为最小二乘估计, Q 称为残差平方和。
得在不同温度 X 0C 下溶解于 100 份水中的硝酸钠份
数 y 数据见下表:
xi 0 4 10 15 21 29
yi 66.7 71.0 76.3 80.6 85.7 92.9 试找出 X 与Y 之间的关系。
y = a bx +
36 51 68
99.4 113.6 125
(3-2)
Y X 140
(xi x)( yi y)
i 1
lxy
n
n
(xi x)2 ( yi y)2
lxxl yy
i 1
i 1
S残2
lyy
S回2
lyy
bˆlxy
lyy
lxy lxx
lxy
l yy
(1
l
2 xy
lxxl yy
)
l yy
(1
r
2
)
0
利用相关系数检验法对线性回归进行显著性检验: 对于给定的显著水平 ,由样本算得 r lxy ,
为了估计a 、b ,现在n个不同时刻作观察,
得n组观察值(ti,yi ) i 1,2,,n 。即 yi a bti i (i 1,2,,n )
用向量矩阵形式表示如下:
Y X
y1
1
1
其中,Y
y2

2

X
1
yn
n
1
t1
t2
tn

a 。 b
引例 2.在硝酸钠( NaNO3 )的溶解度试验中,测
n
lxx
(3-19)
其中 S
S
2 残
/
(n
2)
。因此对给定水平

由 P{T } / 2,查 T ~ t(n 2) 分布表可求得
。从而得 y0 的置信度为1 的置信区间(或称
预测区间)为
( yˆ0 S
1 1 (x0 x)2 )
n
l xx
(3-20)
由 x0 的任意性,y0 的预测区间的左边界与 右边界可视为 x0的函数,如图(3-2)
i 1
n
n
lxy (xi x )( yi y) xi yi nx y
i 1
i 1
即得
a y bx
lxxb
lxy
(3-10)
解上述方程组得a 、b 的最小二乘估计为
a y bx
b
lxy
lxx
(3-11)
根据上述推导可看出,对于任意一组观测数
据 (xi ,yi ) ( i 1,2,,n ) , 当 lxx 0 时 , 由 (3-11)总可建立回归方程(3-6)。这样建立的
lxxl yy
若 r r (n 2) ,则认为线性回归效果显著;若 r r (n 2) ,则认为 x 与 y 之间不存在线性相关 关系。
注意:在一元线性回归中,容易证明, F 检验法与相 关系数检验法其实质是相同的,两者检验的结果也是一致 的。因此,在线性回归的显著性检验中,选择 F 检验法与 相关系数检验法中的任意一种方法进行检验就可以了。
未知参数,则称(3-3)为一元线性回归模型。
假设对 x 、 y 进行n次观察,得n组观察值
(xi ,yi ) (i 1,2,,n )。即
yi a bxi i (i 1,2,,n ) (3-4)
通常假定 1, 2 ,, n 独立同分布 N (0, 2 )
(记为 i.i.d N (0, 2 ) ). 即
Y X
(3-5)
Independent identical distribution
一元线性回归直线
在(3-3)中若能用某种方法获得未知参数
a 、b 的估计a、b,那么用a bx作为 y 的估计,

y a bx
(3-6)
称(3-6)为一元线性回归直线(或回归方程), 对于任意的 x x0,称 y0 a bx0为回归值。
i1
bnx 2
n
b
xi2
bnx 2
n
b
xi2
nbx 2
nbx 2
i1
i1
n
b(xi2 xi x xi x x 2 )
i1
n

b(xi x)2
i1
n
n
(xi x)( yi y) b (xi x)2 0
i 1
i 1
n
n

lxx ( xi x )2 xi2 nx 2
i 1
yi y(称为离差)来表示,而 n次观测值的总变
差可由这些离差的平方和表示,记为
S
2 总
,即
n
S总2 ( yi y)2
(3-12)
S
2 总
n
i 1
(yi
y)2
n
( yi
yˆi
yˆi
y)2
i 1
i1
n
( yi
yi )2
n
(
yi
y)2
n
2 ( yi
yi
)( yi
y)
i 1
i 1
i 1
S
2 总
第三章 回归分析
回归分析是研究变量间相关关系的一个统计分 支,它主要解决以下面几个问题:
(1)确定几个特定的变量之间是否存在相关关 系,如果存在,找出它们之间合适的数学表达式;
(2)根据一个或几个变量的值,预测或控制 另一个变量的取值,并且要知道这种预测或控制可 达到什么样的精确度;
(3)进行因素分析,在共同影响一个变量的 许多变量(因素)之间找出哪些因素重要,哪些因素 次要,这些因素之间有什么关系等。
这里顺便指出,在实际应用中,若对具有某种关
系的变量进行拟合,有时也用相关系数的平方
r2
l
2 xy
bˆlxy S回2
lxxl yy l yy l yy
(3-18)
对拟合效果进行度量,并称 r 2 为决定系数或相关指 数。由(3-18)式可见,决定系数表示了回归平方和
在总离差平方和中所占的比例。当这种比值较大(接
相关文档
最新文档