3.1回归分析的基本思想及其初步应用
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
线性回归模型与一次函数模型的不同之处是增加 了随机误差项e,因变量y由 自变量x 和 随机误差e 共同 确定,即自变量x只解释部分y的变化,在统计中, 我们也把自变量x称为解释变量,因变量y称为预 报变量.
问题2:对于线性相关的两个变量用什么方法来刻 划之间的关系呢?
2、最小二乘估计 最小二乘估计下的线性回归方程:
【例1】 为研究重量x(单位:克)对弹簧长度y(单位: 厘米)的影响,对不同重量的6个物体进行测量, 数据如下表所示:
x 5 10 15 20 25 30 y 7.25 8.12 8.95 9.90 10.9 11.8
(1)作出散点图并求线性回归方程; (2)求出R2; (3)进行残差分析. [思路探索] 作残差分析时,一般从以下几个方面 予以说明:(1)散点图;(2)相关指数;(3)残差图中 的异常点和样本点的带状分布区域的宽窄.
yˆ bˆx aˆ
n
(xi X )( yi Y )
bˆ i1 n
(Xi X )2
i1
aˆ Y bˆX
yˆ bˆx aˆ
n
xi yi n x y
b^ i1
n
2
xi2 n x
i 1
a^ y b^ x
x
1 n
n i 1
xi
回归直线必过样本点的中心 (x, y)
y
1 n
n i 1
yi
3、回归分析的基本步骤:
画散点图 求回归方程 预报、决策
这种方法称为回归分析.
回归分析是对具有相关关系的两个变量进行统计 分析的一种常用方法.
3.刻画回归效果的方式
^
数据点和它在回归直线上相应位置的差异(yi-yi)是随
(统计)知识结构
收集数据
(随机抽样)
整理、分析数据估 计、推断
用样本估计总体 变量间的相关关系
简 分 系 用样本
用样本
线
单层 统 随抽 抽 机样 样 抽
的频率 分布估 计总体
数字特 征估计 总体数
性 回 归 分
样
分布
字特征
析
问题1:现实生活中两个变量间的关系有哪些呢? 不相关
1、两个变量的关系
函数关系
[规律方法] 1.在研究两个变量间的关系时,首先要根据散
点图来粗略判断它们是否线性相关,是否可以用线性回归模
^^
^
型来拟合数据.然后,通过残差e1,e2,…,en 来判断模型拟
残
^
^
^
机误差.称ei=yi-yi 为残差,ei 称为相应于点(xi,yi)的
差
n
残差.
(yi-y^ i)2
称为残差平方和
i=1
残 利用图形来分析残差特性,作图时纵坐标为 残差 ,横 差 坐标可以选为样本编号 ,或 身高数据 ,或 体重估计值 图 等,这样作出的图形称为残差图
残差 图法
残差点比较均匀地落在水平的带状区域内,说明选用 的模型比较适合,这样的带状区域的宽度越窄,说明 模型拟合精度越高
残差平 方和
残差平方和为 拟合效果越好
n
^
i=1
(yi-y)2,残差平方和
越小
,模型
n
yi-y^ i2
Байду номын сангаас
相关指
i=1
R2=1-
,R2 表示 解释 变量对 预报 变量变
数 R2
n
yi- y 2
i=1
化的贡献率,R2 越接近于 1,表示回归的效果越好
4.线性回归分析 (1)由线性回归方程给出的是一个预报值而非精确值. (2)随机误差的主要来源 ①线性回归模型与真实情况引起的误差; ②省略了一些因素的影响产生的误差; ③观测与计算产生的误差. (3)残差分析是回归分析的一种方法. (4)用相关指数 R2 来刻画回归效果. R2 越大,意味着残差平方和越小,即模型的拟合效果越好; R2 越小,残差平方和越大,即模型的拟合效果越差.
线性相关 相关关
系 非线性相关
相关关系:对于两个变量,当自变量取值一定时, 因变量的取值带有一定随机性的两个变量之间的关 系。
思考:相关关系与函数关系有怎样的不同?
函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系
函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一般 的情况
(2)列表如下:
^
yi-yi
0.05 0.005 -0.08 -0.045 0.04 0.025
yi- y -2.24 -1.37 -0.54 0.41 1.41 2.31
6
所以
(yi-y^ i)2≈0.013
6
18,
(yi- y )2=14.678 4.
i=1
i=1
所以,R2=1-01.40.16378184≈0.999 1, 回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第 3 个样本点的残差比较大, 需要确认在采集这个数据的时候是否有人为的错误,如果有 的话,需要纠正数据,重新建立回归模型;由表中数据可以 看出残差点比较均匀地落在不超过 0.15 的狭窄的水平带状 区域中,说明选用的线性回归模型的精度较高,由以上分析 可知,弹簧长度与拉力成线性关系.
[自主解答] (1)散点图如图
x =61(5+10+15+20+25+30)=17.5, y =61(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
6
6
x2i =2 275,xiyi=1 076.2
i=1
i=1
^
^
计算得,b≈0.183,a≈6.285,
^
所求回归直线方程为y=0.183x+6.285.
5.建立回归模型的基本步骤 (1)确定研究对象,明确哪个变量是解释变量,哪个变量是预 报变量. (2)画出确定好的解释变量和预报变量的散点图,观察它们之 间的关系(如是否存在线性关系等). (3)由经验确定回归方程的类型(如我们观察到数据呈线性关 系,则选用线性回归方程). (4)按一定规则(如最小二乘法)估计回归方程中的参数. (5)得出结果后分析残差图是否有异常(如个别数据对应残差 过大,或残差呈现不随机的规律性等).若存在异常,则检查 数据是否有误,或模型是否合适等.
2.回归分析
回归分析是对具有 相关关系 的两个变量进行统计 分析的一种常用方法.
3.线性回归模型
(1)由散点图易发现,样本点散布在某一条直线附 近,而不是一条直线上,不能用一次函数y=bx+ a描述它们之间的关系,因此用线性回归模型y= bx+a+e来表示,其中a、b为未知参数,e为 随机.误差
(2)解释变量和预报变量
问题2:对于线性相关的两个变量用什么方法来刻 划之间的关系呢?
2、最小二乘估计 最小二乘估计下的线性回归方程:
【例1】 为研究重量x(单位:克)对弹簧长度y(单位: 厘米)的影响,对不同重量的6个物体进行测量, 数据如下表所示:
x 5 10 15 20 25 30 y 7.25 8.12 8.95 9.90 10.9 11.8
(1)作出散点图并求线性回归方程; (2)求出R2; (3)进行残差分析. [思路探索] 作残差分析时,一般从以下几个方面 予以说明:(1)散点图;(2)相关指数;(3)残差图中 的异常点和样本点的带状分布区域的宽窄.
yˆ bˆx aˆ
n
(xi X )( yi Y )
bˆ i1 n
(Xi X )2
i1
aˆ Y bˆX
yˆ bˆx aˆ
n
xi yi n x y
b^ i1
n
2
xi2 n x
i 1
a^ y b^ x
x
1 n
n i 1
xi
回归直线必过样本点的中心 (x, y)
y
1 n
n i 1
yi
3、回归分析的基本步骤:
画散点图 求回归方程 预报、决策
这种方法称为回归分析.
回归分析是对具有相关关系的两个变量进行统计 分析的一种常用方法.
3.刻画回归效果的方式
^
数据点和它在回归直线上相应位置的差异(yi-yi)是随
(统计)知识结构
收集数据
(随机抽样)
整理、分析数据估 计、推断
用样本估计总体 变量间的相关关系
简 分 系 用样本
用样本
线
单层 统 随抽 抽 机样 样 抽
的频率 分布估 计总体
数字特 征估计 总体数
性 回 归 分
样
分布
字特征
析
问题1:现实生活中两个变量间的关系有哪些呢? 不相关
1、两个变量的关系
函数关系
[规律方法] 1.在研究两个变量间的关系时,首先要根据散
点图来粗略判断它们是否线性相关,是否可以用线性回归模
^^
^
型来拟合数据.然后,通过残差e1,e2,…,en 来判断模型拟
残
^
^
^
机误差.称ei=yi-yi 为残差,ei 称为相应于点(xi,yi)的
差
n
残差.
(yi-y^ i)2
称为残差平方和
i=1
残 利用图形来分析残差特性,作图时纵坐标为 残差 ,横 差 坐标可以选为样本编号 ,或 身高数据 ,或 体重估计值 图 等,这样作出的图形称为残差图
残差 图法
残差点比较均匀地落在水平的带状区域内,说明选用 的模型比较适合,这样的带状区域的宽度越窄,说明 模型拟合精度越高
残差平 方和
残差平方和为 拟合效果越好
n
^
i=1
(yi-y)2,残差平方和
越小
,模型
n
yi-y^ i2
Байду номын сангаас
相关指
i=1
R2=1-
,R2 表示 解释 变量对 预报 变量变
数 R2
n
yi- y 2
i=1
化的贡献率,R2 越接近于 1,表示回归的效果越好
4.线性回归分析 (1)由线性回归方程给出的是一个预报值而非精确值. (2)随机误差的主要来源 ①线性回归模型与真实情况引起的误差; ②省略了一些因素的影响产生的误差; ③观测与计算产生的误差. (3)残差分析是回归分析的一种方法. (4)用相关指数 R2 来刻画回归效果. R2 越大,意味着残差平方和越小,即模型的拟合效果越好; R2 越小,残差平方和越大,即模型的拟合效果越差.
线性相关 相关关
系 非线性相关
相关关系:对于两个变量,当自变量取值一定时, 因变量的取值带有一定随机性的两个变量之间的关 系。
思考:相关关系与函数关系有怎样的不同?
函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系
函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一般 的情况
(2)列表如下:
^
yi-yi
0.05 0.005 -0.08 -0.045 0.04 0.025
yi- y -2.24 -1.37 -0.54 0.41 1.41 2.31
6
所以
(yi-y^ i)2≈0.013
6
18,
(yi- y )2=14.678 4.
i=1
i=1
所以,R2=1-01.40.16378184≈0.999 1, 回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第 3 个样本点的残差比较大, 需要确认在采集这个数据的时候是否有人为的错误,如果有 的话,需要纠正数据,重新建立回归模型;由表中数据可以 看出残差点比较均匀地落在不超过 0.15 的狭窄的水平带状 区域中,说明选用的线性回归模型的精度较高,由以上分析 可知,弹簧长度与拉力成线性关系.
[自主解答] (1)散点图如图
x =61(5+10+15+20+25+30)=17.5, y =61(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
6
6
x2i =2 275,xiyi=1 076.2
i=1
i=1
^
^
计算得,b≈0.183,a≈6.285,
^
所求回归直线方程为y=0.183x+6.285.
5.建立回归模型的基本步骤 (1)确定研究对象,明确哪个变量是解释变量,哪个变量是预 报变量. (2)画出确定好的解释变量和预报变量的散点图,观察它们之 间的关系(如是否存在线性关系等). (3)由经验确定回归方程的类型(如我们观察到数据呈线性关 系,则选用线性回归方程). (4)按一定规则(如最小二乘法)估计回归方程中的参数. (5)得出结果后分析残差图是否有异常(如个别数据对应残差 过大,或残差呈现不随机的规律性等).若存在异常,则检查 数据是否有误,或模型是否合适等.
2.回归分析
回归分析是对具有 相关关系 的两个变量进行统计 分析的一种常用方法.
3.线性回归模型
(1)由散点图易发现,样本点散布在某一条直线附 近,而不是一条直线上,不能用一次函数y=bx+ a描述它们之间的关系,因此用线性回归模型y= bx+a+e来表示,其中a、b为未知参数,e为 随机.误差
(2)解释变量和预报变量