回归分析的基本思想及其应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分析: 分析:由于问题中 要求根据身高预报 体重, 体重,因此选取身 高为自变量, 高为自变量,体重 为因变量. 为因变量.
1. 散点图; 散点图; 2.回归方程: 2.回归方程: 回归方程 ˆ y = 0.849 x − 85.172
172cm cm女 身高172cm女大学生体重 ˆ 0.849×172 y = 0.849×172 - 85.712 = 60.316(kg)
∧ ∧
ei = yi − yi
的残差。 称为相应与点 ( x i , yi ) 的残差。
∧
∧
思考: 思考 产生随机误差项e的原因是什么 的原因是什么? 产生随机误差项 的原因是什么? 随机误差e的来源(可以推广到一般): 随机误差e的来源(可以推广到一般):
1、忽略了其它因素的影响:影响身高 y 的因素不只 、忽略了其它因素的影响: 是体重 x,可能还包括遗传基因、饮食习惯、生 ,可能还包括遗传基因、饮食习惯、 长环境等因素; 长环境等因素; 2、用线性回归模型近似真实模型所引起的误差; 、用线性回归模型近似真实模型所引起的误差; 3、身高 y 的观测误差。 的观测误差。 、 以上三项误差越小, 以上三项误差越小,说明我们的回归模型的拟合 效果越好。 效果越好。
函数模型与回归模型之间的差别
函数模型: y = bx + a 回归模型: y = bx + a + e
线性回归模型y=bx+a+e增加了随机误差项 ,因变量 的值由自变量 和 增加了随机误差项e,因变量y的值由自变量 的值由自变量x和 线性回归模型 增加了随机误差项 随机误差项e共同确定 共同确定, 自变量x只能解析部分 的变化。 只能解析部分y的变化 随机误差项 共同确定,即自变量 只能解析部分 的变化。 在统计中,我们也把自变量 称为解析变量,因变量y称为预报变量。 称为解析变量 称为预报变量 在统计中,我们也把自变量x称为解析变量,因变量 称为预报变量。
一般地,建立回归模型的基本步骤为: 一般地,建立回归模型的基本步骤为: (1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。 )确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。 (2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系 )画出确定好的解析变量和预报变量的散点图, 如是否存在线性关系等)。 (如是否存在线性关系等)。 (3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则 )由经验确定回归方程的类型(如我们观察到数据呈线性关系, 选用线性回归方程y=bx+a). 选用线性回归方程 ) 4)按一定规则估计回归方程中的参数(如最小二乘法)。 (4)按一定规则估计回归方程中的参数(如最小二乘法)。 (5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残 )得出结果后分析残差图是否有异常(个别数据对应残差过大, 差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误, ),过存在异常 差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或 模型是否合适等。 模型是否合适等。
选修1-2 高二数学 选修
1.1回归分析的基 回归分析的基 本思想及其初步 应用
2011-3-21
郑平正 制作
定义: 1、定义: 自变量取值一定时, 自变量取值一定时,因变量的取值带有一定随 机性的两个变量之间的关系叫做相关关系 相关关系。 机性的两个变量之间的关系叫做相关关系。 注 1):相关关系是一种不确定性关系; ):相关关系是一种不确定性关系; 相关关系是一种不确定性关系 2):对具有相关关系的两个变量进行 统计分析的方法叫回归分析 回归分析。 统计分析的方法叫回归分析。
问题呈现: 例 2 现收集了一只红铃虫的产卵数 y 和温度
xoC之间的7组观测数据列于下表: 之间的7组观测数据列于下表:
3 、相关系数
r=
∑ x y − nx ⋅ y
i =1 i i
n
(∑ x − nx )(∑ y − ny )
i =1 2 i i =1 2 i
n
2
n
2
Байду номын сангаас
当r ∈[0.75, 表明两个变量正相关很强; 1], 当r ∈[−1, −0.75], 表明两个变量负相关很强; 当r ∈[−0. 25,0.25], 表明两个变量相关性较弱。
体重/kg 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程, 求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。 的女大学生的体重。 的女大学生的体重
解:1、选取身高为自变量x,体重为因变量y,作散点图: 、选取身高为自变量 ,体重为因变量 ,作散点图: 2、由散点图知道身高和体重有比较 、 好的线性相关关系, 好的线性相关关系,因此可以用线性 回归方程刻画它们之间的关系。 回归方程刻画它们之间的关系。 3、从散点图还看到,样本点散布在 、从散点图还看到, 某一条直线的附近, 某一条直线的附近,而不是在一条 直线上, 直线上,所以不能用一次函数 y=bx+a描述它们关系。 描述它们关系。 描述它们关系
2、回归直线方程: 回归直线方程: 1、所求直线方程 y = bx + a 叫做回归直 ˆ 叫做回归直 ˆ ˆ ---线方程 线方程; ---线方程;其中
ˆ b=
∑x y
i i=1 n
n
i
- nxy
2
,
∑x
i=1
2 i
- nx
ˆ ˆ a = y - bx
2.相应的直线叫做回归直线。 2.相应的直线叫做回归直线。 相应的直线叫做回归直线 对两个变量进行的线性分析叫做线性 3、对两个变量进行的线性分析叫做线性 回归分析。 回归分析。
身 高 与 体 重 残 差 图
2011-3-21
异 常 点
• 错误数据 • 模型问题
我们可以用相关指数 来刻画回归的效果, 我们可以用相关指数R2来刻画回归的效果,其计算公式是 相关指数
R = 1−
2
( yi − $i ) 2 y ∑ ( yi − y ) 2 ∑
i =1 i =1 n
n
残差平方和 = 1− 。 总偏差平方和
显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。 显然, 的值越大,说明残差平方和越小,也就是说模型拟合效果越好。 在线性回归模型中, 表示解释变量对预报变量变化的贡献率。 在线性回归模型中,R2表示解释变量对预报变量变化的贡献率。 R2越接近 ,表示回归的效果越好(因为 2越接近 ,表示解析变量和预报变量的 越接近1,表示回归的效果越好(因为R 越接近1, 线性相关性越强) 线性相关性越强)。 如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较 如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值 来做出选择,即选取R 较大的模型作为这组数据的模型。 来做出选择,即选取 2较大的模型作为这组数据的模型。
所以,对于身高为 的女大学生, 所以,对于身高为172cm的女大学生,由回归方程可以预报其体重为 的女大学生
$ = 0.849 × 72 − 85.712 = 60.316(kg ) y
残差分析与残差图的定义: 残差分析与残差图的定义:
在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关, 在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关, 是否可以用回归模型来拟合数据。 是否可以用回归模型来拟合数据。
残差图的制作及作用。 残差图的制作及作用。 • 坐标纵轴为残差变量,横轴可以有不同的选择; 坐标纵轴为残差变量,横轴可以有不同的选择; 几点说明: 几点说明: 第一个样本点和第6个样本点的残差比较大 个样本点的残差比较大, 第一个样本点和第 个样本点的残差比较大,需要确认在采集过程中是否有人为 • 。若模型选择的正确,残差图中的点应该分布在以 若模型选择的正确, ,然后再重新利用线性回归模型拟合数 的错误。如果数据采集有错误,就予以纠正, 的错误 如果数据采集有错误,就予以纠正 如果数据采集没有错误,则需要寻找其他的原因。 据;如果数据采集没有错误,则需要寻找其他的原因。 横轴为心的带形区域; 横轴为心的带形区域; 另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适, 另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这 • 对于远离横轴的点,要特别注意。 对于远离横轴的点,要特别注意。 带状区域的宽度越窄, 回归方程的预报精度越高。 样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。
案例1: 案例 :女大学生的身高与体重
从某大学中随机选取8名女大学生 其身高和体重数据如表1-1所示 名女大学生, 所示。 例1 从某大学中随机选取 名女大学生,其身高和体重数据如表 所示。
1 2 3 4 5 6 7 8 编号 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 61 43 59
$ $ $ 来判断模型拟合的效果, 然后, 然后,我们可以通过残差 e1 , e 2 ,L , e n 来判断模型拟合的效果,判断原始 数据中是否存在可疑数据,这方面的分析工作称为残差分析。 数据中是否存在可疑数据,这方面的分析工作称为残差分析。
表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。 列出了女大学生身高和体重的原始数据以及相应的残差数据。 列出了女大学生身高和体重的原始数据以及相应的残差数据 编号 身高/cm 身高 体重/kg 体重 残差 1 165 48
求根据一名女大学生的身高预报她的体重的回归方程, 求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。 的女大学生的体重。 的女大学生的体重
解:1、选取身高为自变量x,体重为因变量y,作散点图: 、选取身高为自变量 ,体重为因变量 ,作散点图: 2、由散点图知道身高和体重有比较 、 好的线性相关关系, 好的线性相关关系,因此可以用线性 回归方程刻画它们之间的关系。 回归方程刻画它们之间的关系。
我们可以用下面的线性回归模型来表示: 我们可以用下面的线性回归模型来表示: y=bx+a+e,其中 和b为模型的未知参数,e称为随 其中a和 为模型的未知参数 为模型的未知参数, 称为随 机误差。 机误差。 由于e=y-(bx+a),所以e = y − y 是e的估计量。对于 所以 的估计量。 由于 的估计量 样本点( 样本点( x i , y i )它们的估计值为
案例1: 案例 :女大学生的身高与体重
从某大学中随机选取8名女大学生 其身高和体重数据如表1-1所示 名女大学生, 所示。 例1 从某大学中随机选取 名女大学生,其身高和体重数据如表 所示。
探究: 探究: 1 2 3 4 5 6 7 8 编号 身高为172cm的女大学生的体重一定是 155 170 的女大学生的体重一定是60.316kg 身高为 的女大学生的体重一定是 身高/cm 165 165 157 170 175 165 如果不是,你能解析一下原因吗? 吗?如果不是,你能解析一下原因吗?
从表3-1中可以看出,解释变量对总效应约贡献了 从表 中可以看出,解释变量对总效应约贡献了64%,即R2 0.64,可以叙述为 中可以看出 , , 身高解析了64%的体重变化”,而随机误差贡献了剩余的 的体重变化” 而随机误差贡献了剩余的36%。 “身高解析了 的体重变化 。 所以,身高对体重的效应比随机误差的效应大得多。 所以,身高对体重的效应比随机误差的效应大得多。
-6.373
2 165 57
2.627
3 157 50
2.419
4 170 54
-4.618
5 175 64
1.137
6 165 61
6.627
7 155 43
-2.883
8 170 59
0.382
我们可以利用图形来分析残差特性,作图时纵坐标为残差, 我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本 编号,或身高数据,或体重估计值等,这样作出的图形称为残差图 残差图。 编号,或身高数据,或体重估计值等,这样作出的图形称为残差图。