误差理论和数据处理第9章回归分析

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

y
y_y
y_y
y_y
y= y
y= a+ b x
0
xຫໍສະໝຸດ Baidu
三个平方和的关系
y iy (y i y ˆi) (y ˆiy)
两端平方后求和得到
n
n
n
yiy2 yiy ˆi2 y ˆiy2
{i 1
{i 1
{i 1
总偏差平方和残余平方和回归平方和
总
残
回
总残回
三个平方和的意义
总偏差平方和回归平方和
反映因变量
❖如以速度v作匀速运动的物体，走过的距离s与时间t之间，有如下的函数关系 s=vt
变量间的相关关系
1、变量间关系不能用函数关系精确表达 2、一个变量的取值不能由另一个变量惟一确定 3、当变量x取某个数值时，变量y的值可能有几个
❖如人的身高(y)与体重(x )之间的关系
什么是回归分析？
一种处理变量间相关关系的数理统计方法。
差分析与显著性检验、重复实验判断回归方程拟合性、回归直线的简便求法。 3．一元非线性回归：回归曲线类型的选取和检验、化非线性回归为线性回归、回归曲线效果与不确定度评定。 4．多元线性回归：二元线性回归方程的求法、多元线性回归、多元线性回归的显著性检验与不确定度评定。 5. 线性递推回归：回归系数的递推计算公式、计算步骤。
1、当只涉及一个自变量时称为一元回归，
若因变量 y 与自变量 x 之间为线性关系时称
为一元线性回归 2、对于具有线性关系的两个变量，可以用一个线性方程来表示它们之间的关系
3、描述因变量 y 如何依赖于自变量 x 和误
差项的方程称为回归模型。
一元线性回归模型概念
由实验获得两个变量 x 和 y 的一组样本数
s 残 n2
方差分析表
置信限 F 1,n2
偏离平方和自由度标准差统计量
0.1 0.05 0.01
回归回 bˆlxy １
残余残总回 n 2
s 残 n2
F
回 s2
总和总 lyy n 1
显著否显著否显著否
三、回归系数的不确定度与回归方程的稳定性
回归系数的不确定度
1、回归系数的不确定度是描述回归系数的分散性
140
100
100 120 140 160 180 200
x
第三节一元非线性回归
非线性回归分析
1、因变量 y 与自变量 x 之间不是线性关系
2、选择回归模型。根据实验数据散点图分布的特点以及所掌握的物理规律，选择可线化函数的模型。 3、作线性化变量变换后，按一元线性回归问题计算待定的系数、原的剩余平方和。４、如果对拟合结果不满意，再选择其它模型，重复以上步骤。 5、比较不同模型拟合所得的原剩余平方和，选最小者即为所求。
3、一元线性回归的经验的回归方程
yˆ aˆ bˆx
▪ aˆ 是回归直线在 y 轴上的截距
▪ b ˆ 是直线的斜率，它表示对于给定的 x 的值， yˆ 是 y 的估计值，也表示当 x 每变动一个单位时， y 的平
均变动值
aˆ 和 b ˆ 的计算公式
根据最小二乘法的要求，可得
bˆ
n( xy n(x2
yˆ aˆ bˆx
u(yˆ) s 1xx2 n2
n
lxx
yˆ 的扩展不确定度来表述
yˆ aˆbˆxUp
p1, n2
例题
试对下表所列实验数据做直线拟合，并作方差分析和预测。
xi
yi
xi
yi
xi
yi
xi
yi
180 200 145 165 123 110 191 205
104 100 141 135 151 180 190 220
l y y y i y 2 5 0 0 9 4 , b ˆ l x yl x x 1 . 2 7
aˆybˆx32.3
故有 y ˆ32.31.270x
方差分析
总lyy 50094
回lx2y lxx41037
残总回9057
s
282.516.8
F 回 145.0 s2
偏离平方和自由度标准差统计量置信限 F 1,32 0.01
第一节基本概念
变量间的关系可分为函数关系和相关关系。本节介绍这两种关系，并对回归分析的一些基本概念作一个简要的介绍。
变量间的函数关系
1、是一一对应的确定关系 2、设有两个变量x 和y，变量x 随变量y 一起变化，并完全依赖于x ，当变量x 取某个数值时, y 依确定的关系取相应的值，则称y 是x 的函数，记为y =f(x)，其中x 称为自变量，称y 为因变量
几种常见的非线性模型
指数函数
1、基本形式：y aebx
2、线性化方法
▪两端取对数得 lnylnabx
▪令 y ln y
ylnabx
３、图像
b＜ 0 b＞ 0
几种常见的非线性模型
指数函数
1、基本形式： y aeb x
2、线性化方法
▪两端取对数得 lnylnabx
意的n个观测
义
值与其均值的总偏差
计算公式
总 lyy
自由
度总 n 1
在总的偏差中
因 x 和 y 的线
性关系而引起
y 变化的大小
回
l
2 xy
lxx
bˆlxy
回 1
残余平方和
在总的偏离中除
了 x 对 y 线性影
响之外的其它因
素而引起 y 变化
的大小
残总回
残总回
n2
回归方程的显著性检验
相互独立。即i ~ N(0,2)
▪独立性意味着对于一个特定的 x
与其它 x j 值所对应 j的不相关
i 值，它所对应的
i
▪对于一个特定的 x i 值，它所对应的 y i 值与其它 x j
值所对应 y j 的不相关
回归方程概念要点
1、描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程
2、简单线性回归方程的形式如下 E(y)abx
x x
y) x)
lxy lxx
式中
aˆ y b x
x
1 n
n i1
xi,
y
1 n
n i1
yi,x2
1 n
n i1
xi2,xy1n
n i1
xi yi
lxx
n
(xi
x)2
nx2 nx2
n
lyy (yi y)2 ny2 ny2
i1
i1
n
lxy (xi x)(yi y)nxynxy
i1
y ˆ 3 2 . 3 0 1 . 2 7 0 x 5 . 8 8( p 0 . 9 5 , 3 2 )
y ˆ 3 2 . 3 0 1 . 2 7 0 x 4 . 8 7( p 0 . 9 0 , 3 2 )
回归直线及预测区间
y
240 220
y = 3 2 .3 0 + 1 .2 7 x 180
四、回归预测值及其不确定度
回归预测值及其不确定度
１、利用估计的回归方程，对于自变量 x 的一个给定值x 0 ，求出因变量 y 的一个估计值 yˆ 0 ，就是回归
的预测值
2、预测值 yˆ 0 与实际值 y 之间存在偏差，因此给出预测值时，还必须给出其不确定度。有以下两种
表示方式
yˆ 的标准不确定度来表述
▪是不能由 x 和 y 之间的线性关系所解释的变异性
❖ a 和 b 称为模型的参数
一元线性回归模型基本假定
1、误差项是一个期望值为０的随机变量，
即 E() 0
。对于一个给定的 x i 值， y i 的期望值
为 E(yi)abxi
2、对所有的 x i 值， i 的方差 2 都相同
3、误差项 i 是一个服从正态分布的随机变量，且
2、回归系数aˆ 和 b ˆ 的标准不确定度的计算公式
U (aˆ) s
1 n
x2 lxx
U (bˆ) s 1 lxx
3、回归系数 aˆ 和 b ˆ 的协方差的计算公式
s aˆbˆ
x lxx
s2
式中， s 是残余标准差
回归方程的稳定性
1、回归值 yˆ 的波动大小，波动愈小，回归方程的稳定性愈好。
二、回归效果F检验
偏差平方和的分解
测量值 y1, y2,L , yn 之间的差异来源于两个方面
▪由于自变量 x 取值的不同造成的 ▪除x 以外的其它因素(如 x 对 y 的非线
性影响、测量误差等)的影响
对一个具体的观测值来说，变异的大小可以通过该实际观测值与其均值之
差来表示 yi y
偏差平方和的分解图示
第9章回归分析
4- 1
教学目的和要求：
通过本章内容的教学，使学生掌握一元线性回归方程的求法、回归方程的方差分析与显著性检验方法；了解一元非线性回归方程的求解思路及回归曲线效果和不确定度评定；了解多元线性回归方程的求法和显著性检验与不确定度评定方法。
主要内容：
1．回归分析的基本概念：概念、回归分析的主要内容。 2．一元线性回归：一元线性回归方程的求法、回归方程的方
134 135 144 160 110 130 153 145
141 125 190 190 108 110 155 160
204 235 190 210 158 130 177 185
150 170 161 145 107 115 177 205
121 125 165 195 180 240 143 160
据 ( x1 , y1 ) ， ( x2 , y2 ) ，( xn , y n ) …，构造如下一元线性
回归模型
yi abxi i
❖模型中， y 是 x 的线性函数部分加上误差项
❖线性部分反映了由于 x 的变化而引起 y 的变化
❖误差项是随机变量
▪反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响
他主要解决以下几个问题
❖1、从一组样本数据出发，确定变量之间的数学关系式 ❖2、对这些关系式的可信程度进行各种统计检验，并从影响某一特定变量的诸多变量中找出哪些变量的影响显著，哪些不显著 ❖3、利用所求的关系式，根据一个或几个变量的值，预测或控制另一个变量的值，并要知道这种预测或控制可达到的精密度。
1、检验自变量和因变量之间的线性关系是否显著 2、具体方法是将回归平方和和残余平方和加以比较，应用F检验来分析二者之间的差别是否显著
▪如果是显著的，两个变量之间存在线性关系 ▪如果不显著，两个变量之间不存在线性关系
检验步骤
1、提出假设
▪ H 0 : 线性关系不显著
2、计算检验统计量
F 回回剩剩
即
F 回 1
剩 n 2
3、在给定显著性水平下，由分布表查得临界
值F 1,n。2
4、作出决策。若FF1,n2，拒绝 H 0 ，则认为该回归效果显著。反之，则不显著。
估计残余标准误差
1、表征除了x 与 y 线性关系之外其它因素影响 y
值偏离的大小 2、反映实际观测值在回归直线周围的分散状况 3、从另一个角度说明了回归直线的拟合程度 4、残余标准差的计算公式
回归模型的类型
一个自变量
回归模型
两个及两个以上自变量
一元回归
多元回归
线性非线性线性非线性回归回归回归回归
回归模型
1、回答“变量之间是什么样的关系？” 2、方程中运用
1个数字的因变量 1个或多个数字的或分类的因变量
3、主要用于预测或估计
第二节一元线性回归
一元线性回归模型概念
151 135 154 150 127 135 147 155 116 100 115 120
直线拟合
【解】
直线拟合计算 x 3 1 4 x i 1 5 0 .0 9 , y 3 1 4 y i 1 5 8 .2 8
lxx xix225453 lx yx i x y i y 3 2 3 2 5
▪方程的图示是一条直线，因此也称为直线回归方程
▪ a 是回归直线在 y 轴上的截距，是当 x 0 时的期望
值
▪ b 是直线的斜率，表示当 x 每变动一个单位时，y
的平均变动值
经验的回归方程
1、总体回归参数 a 和 b 是未知的，必须利用样本数据去估计他们 2、用样本统计量 aˆ 和 b ˆ 代替回归方程中的未知参数 a 和 b ，这时就得到了经验的回归方程
回归 41037 １
残余 9057 总和 50094
32 16.8 145.0 33
7.50 高度显著
预测
对于n232，查分布表得
t0.01(32)2.74
t0.05(32)2.04 t0.10(32)1.69
u(yˆ)s 1xx2 s 2.88
n lxx
n
Up t()u(yˆ)
故有 y ˆ 3 2 . 3 0 1 . 2 7 0 x 7 . 8 9( p 0 . 9 9 , 3 2 )
2、回归值 yˆ 的波动大小的计算公式
yˆ 标准不确定度U ( yˆ ) 来表示。
U(yˆ) s 1xx2
n
lxx
回归值的波动大小不仅与剩余标准差s有关，而且还取决于试验次数n及自变量取值范围。
提高回归方程中各估计量稳定性的方法
(1) 提高观察数据本身的准确度 (2) 尽可能增大观测数据中自变量的取值范围 (3) 增加观测次数 (4) 减小残余误差，即拟定合适回归方程使其尽可能合乎实际数据的变化规律

误差理论和数据处理 第9章回归分析

误差理论和数据处理第9章回归分析