回归分析的基本思想及其初步应用》PPT课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
函数模型:因变量y完全由自变量x确定 回归模型: 预报变量y完全由解释变量x和随机误差e确
定
思考:产生随机误差项e的原
因是什么?
e 产生的主要原因: (1)所用确定性函数不恰当; (2)忽略了某些因素的影响; (3)观测误差。
问题二:在线性回归模型中,e是用bx+a预报真实值y的随机误差, 它是一个不可观测的量,那么应如何研究随机误差呢?
1.1回归分析的基本 思想及其初步应用
复习:两个变量之间关系
问题1:正方形的面积y与正方形的边长x之间
的函数关系是 y = x2
确定性关系
问题2: 在 7 块并排、形状大小相同的试验 田上 进行施肥量对水稻产量影响的试验,得 到如下所示的一组数据:
施化肥量x 15 20 25 30 35 40 45 水稻产量y 330 345 365 405 445 450 455
这种方法称为回归分析. 回归分析是对具有相关关系的两个变量进行统 计分析的一种常用方法.
对于线性相关的两个变量用什么方法来刻划之 间的关系呢?
最小二乘估计 最小二乘估计下的线性回归方程:
yˆ bˆx aˆ
n
(xi X )( yi Y )
bˆ i1 n
(Xi X )2
i1
编号
身高 /cm
体重 /kg
残差
1
2
3
4
5
6
7
8
165 165 157 170 175 165 155 170
48 57 50 54 64 61 43 59
- 2.627 2.419 - 1.137 6.627 - 0.382
6.373
4.618
2.883
几点说明:
残人为差的图错第误一的。个制如样果本作数点及据和采第作集6个有用样错本。误点,的就残予差以比纠较正大,,然需后要再确重认新在利采用集线过性程回中归是模否型有拟 合数•据另;外坐如,果残标数差据纵点采比轴集较没为均有匀残错地误差落,在变则水需量平要的,寻带找横状其区他轴域的中可原,因以说。明有选不用的同模的型计选较择合适;, 这样•的带若状区模域的型宽选度越择窄的,说正明确模型,拟残合精差度越图高中,回的归点方程应的该预报分精布度越在高以。
e=y-(bx+a)
残差:一般的对于样本点(x1,y1),(x2,y2),...,(xn,yn ),它们的随机误差为
ei yi bxi a,i 1, 2,...n,其估计值为ei yi yi yi b xi a,i 1, 2,...n
ei 称为相应于点(xi,yi)的残差。
样本点:( x1 , y1 ),( x2 , y2 ), ... ,( xn , yn )
相应的随机误差为:
ei yi yi yi bxi a, i 1, 2,..., n
随机误差的估计值为:
eˆi yi yˆi yi bˆxi aˆ, i 1, 2,..., n
预报一名身高为172cm的女大学生的体重。 解:选取身高为自变量x,体重为因变量y,作散点图:
求回归方程:
yˆ 0.849x 85.712
身高172cm女大学生体重 yˆ = 0.849×172 - 85.712 = 60.316(kg)
探究:身高为172cm的女大学生的体重一定是60.316kg吗? 如果不是,你能解析一下原因吗?
aˆ Y bˆX
例1 从某大学中随机选取8名女大学生,其身高和体重数据 如表1-1所示。
编号 身高/cm
1
2
345
6
78
165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程,并
现实生活中两个变量间的关系有哪些呢?
不相关
两个变量的关系 函数关系 线性相关
相关关系 非线性相关
相关关系:对于两个变量,当自变量取值一定 时,因变量的取值带有一定随机性的两个变量 之间的关系。
相关关系与函数关系有怎样的不同?
函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系
函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一般的情况
答:用这个回归方程不能给出每个身高为172cm的女大学生的体重的预测值, 只能给出她们平均体重的估计值。
由于所有的样本点不共线,而只是散布在某一直线的附近, 所以身高和体重的关系可以用线性回归模型来表示:
y bx a e
其中a和b为模型的未知参数,e称为随机 误差.
函数模型与“回归模型”的关系
yˆ bˆx aˆ
n
xi yi n x y
b^ i1
n
2
xi2 n x
i 1
x
1 n
n i 1
xi
y
1 n
n i 1
yi
a^ y b^ x
回归直线必过样本点的中 (x, y)
心
回归分析的基本步骤:
画散点图
求回归方程
预报、决策
eˆi 称为相应于点 ( xi , yi ) 的残差.
ˆ
2
n
1
2
n i 1
eˆi2
ห้องสมุดไป่ตู้
n
1
2
Q(aˆ , bˆ )(n
2)
为
2
的估计量
Q(aˆ, bˆ) 称为残差平方和.
问题三:如何发现数据中的错误?如何衡量随机模型的拟合 效果?
(1)我们可以通过分析发现原始数据中的可疑数据,判断建立模型的拟合效果。
结合例1除了身高影响体重外的其他因素是不可测量的,不能希望有某种 方法获取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量 观测值中所包含的随机误差,这对我们查找样本数据中的错误和模型的评价 极为有用,因此在此我们引入残差概念。
随机误差 e y y e的估计量 eˆ y yˆ
残差分析
(( 12))计画算残差ei 图 yi
b
xi
a(i=1,2,...n)
( 3)分析残差图((水12))平查残方找差向异点散常分点样布的本在分数以布据O规为律中相心同的。水平带状区域,并沿
残差图的制作和作用:
制作:坐标纵轴为残差变量,横轴可以有不同的选择.
横轴为编号:可以考察残差与编号次序之间的关系, 常用于调查数据错误.
横轴为解释变量:可以考察残差与解释变量的关系, 常用于研究模型是否有改进的余地.
作用:判断模型的适用性若模型选择的正确,残差图中的 点应该分布在以横轴为中心的带形区域.
下面表格列出了女大学生身高和体重的原始数据以及相应的残差数据。
定
思考:产生随机误差项e的原
因是什么?
e 产生的主要原因: (1)所用确定性函数不恰当; (2)忽略了某些因素的影响; (3)观测误差。
问题二:在线性回归模型中,e是用bx+a预报真实值y的随机误差, 它是一个不可观测的量,那么应如何研究随机误差呢?
1.1回归分析的基本 思想及其初步应用
复习:两个变量之间关系
问题1:正方形的面积y与正方形的边长x之间
的函数关系是 y = x2
确定性关系
问题2: 在 7 块并排、形状大小相同的试验 田上 进行施肥量对水稻产量影响的试验,得 到如下所示的一组数据:
施化肥量x 15 20 25 30 35 40 45 水稻产量y 330 345 365 405 445 450 455
这种方法称为回归分析. 回归分析是对具有相关关系的两个变量进行统 计分析的一种常用方法.
对于线性相关的两个变量用什么方法来刻划之 间的关系呢?
最小二乘估计 最小二乘估计下的线性回归方程:
yˆ bˆx aˆ
n
(xi X )( yi Y )
bˆ i1 n
(Xi X )2
i1
编号
身高 /cm
体重 /kg
残差
1
2
3
4
5
6
7
8
165 165 157 170 175 165 155 170
48 57 50 54 64 61 43 59
- 2.627 2.419 - 1.137 6.627 - 0.382
6.373
4.618
2.883
几点说明:
残人为差的图错第误一的。个制如样果本作数点及据和采第作集6个有用样错本。误点,的就残予差以比纠较正大,,然需后要再确重认新在利采用集线过性程回中归是模否型有拟 合数•据另;外坐如,果残标数差据纵点采比轴集较没为均有匀残错地误差落,在变则水需量平要的,寻带找横状其区他轴域的中可原,因以说。明有选不用的同模的型计选较择合适;, 这样•的带若状区模域的型宽选度越择窄的,说正明确模型,拟残合精差度越图高中,回的归点方程应的该预报分精布度越在高以。
e=y-(bx+a)
残差:一般的对于样本点(x1,y1),(x2,y2),...,(xn,yn ),它们的随机误差为
ei yi bxi a,i 1, 2,...n,其估计值为ei yi yi yi b xi a,i 1, 2,...n
ei 称为相应于点(xi,yi)的残差。
样本点:( x1 , y1 ),( x2 , y2 ), ... ,( xn , yn )
相应的随机误差为:
ei yi yi yi bxi a, i 1, 2,..., n
随机误差的估计值为:
eˆi yi yˆi yi bˆxi aˆ, i 1, 2,..., n
预报一名身高为172cm的女大学生的体重。 解:选取身高为自变量x,体重为因变量y,作散点图:
求回归方程:
yˆ 0.849x 85.712
身高172cm女大学生体重 yˆ = 0.849×172 - 85.712 = 60.316(kg)
探究:身高为172cm的女大学生的体重一定是60.316kg吗? 如果不是,你能解析一下原因吗?
aˆ Y bˆX
例1 从某大学中随机选取8名女大学生,其身高和体重数据 如表1-1所示。
编号 身高/cm
1
2
345
6
78
165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程,并
现实生活中两个变量间的关系有哪些呢?
不相关
两个变量的关系 函数关系 线性相关
相关关系 非线性相关
相关关系:对于两个变量,当自变量取值一定 时,因变量的取值带有一定随机性的两个变量 之间的关系。
相关关系与函数关系有怎样的不同?
函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系
函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一般的情况
答:用这个回归方程不能给出每个身高为172cm的女大学生的体重的预测值, 只能给出她们平均体重的估计值。
由于所有的样本点不共线,而只是散布在某一直线的附近, 所以身高和体重的关系可以用线性回归模型来表示:
y bx a e
其中a和b为模型的未知参数,e称为随机 误差.
函数模型与“回归模型”的关系
yˆ bˆx aˆ
n
xi yi n x y
b^ i1
n
2
xi2 n x
i 1
x
1 n
n i 1
xi
y
1 n
n i 1
yi
a^ y b^ x
回归直线必过样本点的中 (x, y)
心
回归分析的基本步骤:
画散点图
求回归方程
预报、决策
eˆi 称为相应于点 ( xi , yi ) 的残差.
ˆ
2
n
1
2
n i 1
eˆi2
ห้องสมุดไป่ตู้
n
1
2
Q(aˆ , bˆ )(n
2)
为
2
的估计量
Q(aˆ, bˆ) 称为残差平方和.
问题三:如何发现数据中的错误?如何衡量随机模型的拟合 效果?
(1)我们可以通过分析发现原始数据中的可疑数据,判断建立模型的拟合效果。
结合例1除了身高影响体重外的其他因素是不可测量的,不能希望有某种 方法获取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量 观测值中所包含的随机误差,这对我们查找样本数据中的错误和模型的评价 极为有用,因此在此我们引入残差概念。
随机误差 e y y e的估计量 eˆ y yˆ
残差分析
(( 12))计画算残差ei 图 yi
b
xi
a(i=1,2,...n)
( 3)分析残差图((水12))平查残方找差向异点散常分点样布的本在分数以布据O规为律中相心同的。水平带状区域,并沿
残差图的制作和作用:
制作:坐标纵轴为残差变量,横轴可以有不同的选择.
横轴为编号:可以考察残差与编号次序之间的关系, 常用于调查数据错误.
横轴为解释变量:可以考察残差与解释变量的关系, 常用于研究模型是否有改进的余地.
作用:判断模型的适用性若模型选择的正确,残差图中的 点应该分布在以横轴为中心的带形区域.
下面表格列出了女大学生身高和体重的原始数据以及相应的残差数据。