高中数学《回归分析》
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
为研究重量x(单位:克)对弹簧长度y(单位: 厘米)的影响,对不同重量的6个物体进行测量,数 据如下表所示:
x
y
5
7.25
10
8.12
15
8.95
20
9.90
25
10.9
30
11.8
(1)作出散点图并求线性回归方程; (2)求出R2; (3)进行残差分析. 作残差分析时,一般从以下几个方面予以说明: (1)散点图;(2)相关指数;(3)残差图中的异常点 和样本点的带状分布区域的宽窄.
报一名身高为172 cm的女大学生的体重?
根据必修3 2.3变量相关关系解决这个问题的方法: 1.先判断是两个变量是否具有线性相关关系 (1)作散点图,如图所示(见课本P82:图3.1-1)
(2)计算相关系数 具有较好的线性相关关系
2.根据线性回归的系数公式, 求回归直线方程 =0.849x-85.712 3.由线性回归方程可以估计其位 置值为 =60.316(千克)左右。
产卵数的对数
由表1 4中的数据得 到线性回归方程 ˆ 0.272x 3.843. z
7 6 5 4 3 2 1 0 20 22 24 26 28 30 32 34 36
ˆ (1) e0.272x-3.843 y
(6)
温度
图1.1 5
另一方面,可以认为图11-4中样本点集中在某二次曲线
系.
规律方法
当资料点较少时,也可以利用残差表进行残
差分析,注意计算数据要认真细心,残差分析要全面.
判一判(正确的打“√”,错误的打“×”)
(1)残差平方和越小,线性回归方程拟合效果越好.( √ ) (2)在画两个变量的散点图时,预报变量在x轴上,解释变 量在y轴上. ( × )
源自文库
(3)R2越接近于1,线性回归方程的拟合效果越好.( √ )
预报 变量. 解释 变量,y称为_____ x称为_____
线性回归模型中随机误差的主要来源
①线性回归模型中的预报值 引起的误差; ②观测与计算(用 与真实情况y
代替b a)产生的误差;
③省略了一些因素的影响(如生活习惯等) 产生的误差.
在线性回归模型中,e为用bx+a的预报真实值y的随机 误差,它是一个不可观测的量,那么应该怎样研究随 机误差?
型7的拟合效果好. 模型7的残差的绝对值小,因此模型6 的拟合效果比模
测的准确性,残差越大表示预测越不准确.
(2)R2与原来学过的相关系数r有区别吗?
提示:它们都是刻画两个变量之间的的相关关系的,区
别是 R2 表示解释变量对预报变量变化的贡献率 , 其表 达式为R2=1相关系数r是检验两个变量相关性的强弱程度, 其表达式为
线性相关系数的具体计算公式为: r=
n ∑ =1 (xi-x)(yi-y) i n 2 n 2 ∑ =1 (xi-x) ∑ i i=1 (yi-y)
3.1
回归分析的基本思想 及其初步应用
从某大学中随机选取 8名女大学生,其身高和体重数 据如下表所示:
编号 身高/cm 体重/kg 1 165 48 2 165 57 3 157 50 4 170 54 5 175 64 6 165 61 7 155 43 8 170 59
怎样根据一名女大学生的身高预报她的体重,并预
解答 (1)散点图如图
1 - x = (5+10+15+20+25+30)=17.5, 6 1 - y = (7.25+ 8.12+ 8.95+9.90+10.9+11.8)≈9.487, 6
x2 i = 2 275, xiyi= 1 076.2
i=1 i=1
6
6
计算得,^ b ≈0.183,^ a ≈6.285, 所求回归直线方程为^ y =0.183x+ 6.285. (2)列表如下:
温度的平方
图1.1 6
二次曲线y c3 x 2 c4来拟合y与x之间的关系 .这个结论 还可以通过残差分析得 到.下面介绍具体方法 .
为比较两个不同模型的 残差, 需要建立两个相应的回 归 方程.前面已经建立了 y关于x的指数回归方程 , 下面建立 y关于x的二次回归方程 .用线性回归模型拟合表 1 5中
来精确该模型拟合效果
是 ,
对于己获取的样本数据,在上式子中 定 值
2 越大,说明模型拟合效果越 越小, R 引入例中参数 R2计算得约为 0.64说明女大学生体重差 好。 异有百分之六十四是由身高引起的 .
知识点 线性回归分析 1.对线性回归模型的三点说明 (1) 非确定性关系:线性回归模型 y=bx+a+e 与确 定性函数y=bx+a相比,它表示y与x之间是统计相
7 的残差计算公式分别为
ˆ i1 yi y ˆ i1 yi e0.272 x3.843 ,i 1 e ,2, ,7; ˆ i2 yi y ˆ i2 yi 0.367xi2 202.54,i 1 e ,2, ,7. 表1 6给出了原始数据及相应的两个回归方程的 残差. 从表中的数据可以看出模型6 的残差的绝对值显然比
yi-^ yi
0.05 -2.24 0.005 -1.37 -0.08 -0.54
6
-0.045 0.41
0.04 1.41
0.025 2.31
yi- - y
6
所以 (yi-^ y i)2≈0.013 18, (yi-- y )2=14.678 4.
i=1 i=1
0.013 18 所以,R =1- ≈0.999 1, 14.678 4
625 21
729 24
841 1024 1225 66 115 325
从图 1.1 6中 可以看出 , y与 t 的散点图并 不分布在一条 直线的周围 ,因 此不宜用线性 回归方程来拟 合它, 即不宜用
350 300 250
产 200 卵 150 数 100
50 0 400 500 600 700 800 900 1000 1100 1200 1300
的数据, 得到 y 关于 t 的线性回归方程 ˆ 2 0.367t 202.54,即 y 关于 x 的二次回归方程为 y ˆ 2 0.367x 2 202.54. 7 y 可以通过残差来比较两 个回归方程6和7 的拟合效果 .
用xi 表示表1 5第1行第i 1列的数据, 则回归方程6和
型的拟合效果.残差平方和越小的模型,拟合的效果越
好.
(3)R2法:R2的值越大,说明残差平方和越小 ,也就是说
模型拟合的效果越好.
【微思考】
(1)残差与我们平时说的误差是一回事儿吗?
提示 : 这两个概念在某程度上具有很大的相似性 , 都 是衡量不确定性的指标 , 二者的区别是 : 误差与测量 有关 , 误差可以衡量测量的准确性 , 误差越大表示测 量越不准确 ; 残差与预测有关 , 残差大小可以衡量预
身 高 与 体 重 残 差 图
异 常 点 •错误数据 •模型问题
残差 6000 4000 2000 0 -2000 -4000 0 2 4 6 8 10 12 残差
通过残差 来判断模型拟合的 效果这种分析工作称为残差分析
通过残差表或残差图判断模型拟合的效果是直观判 断,如何精确判断模型拟合的效果? 引入参数R2
性质:回归直线一定过样本中心点
这些点并不都在同一条直线上,上述直线并不能精确 地反映x与y之间的关系,y 的值不能完全由x 确定, 它们之间是统计相关关系,y 的实际值与估计值之间 存在着误差.
因此,在统计学中设它们的线性回归模型为: 其中a,b为模型的未知参数 ,e为y与bx+a之间的误差, 称它为随机误差,它是随机变量。
关关系(非确定性关系),其中的随机误差 e提供了
选择模型的准则以及在模型合理的情况下探求最
佳估计值a,b的工具.
(2)线性回归方程
x每增加1个单位,y相应地平均增加
中
个单位.
(3)线性回归模型中随机误差的主要来源
①线性回归模型与真实情况引起的误差; ②观测与计算产生的误差; ③省略了一些因素的影响产生的误差.
画出确定好的解释变量 和预报变量的散点图, 观察它们之间的关系.
(1)是否存在线性关系? 非线性关系
温度
图1.1 4
(2)散点图具有哪种函数特征? 指数函数、二次函数、三次函数 (3)以指数函数模型为例,如何设模型函数?
非线性回归模型
c1其中 c2 设指数函数曲线 y c1ec x 和 是待 定参数。 c2 ? 现在问题变为如何估计待定参数 c1 和
2.线性回归模型的模拟效果 (1)残差图法:观察残差图,如果残差点比较均匀 地落在水平的带状区域中,说明选用的模型比较 合适,这样的带状区域的宽度越窄,说明模型拟合
精度越高,回归方程的预报精度越高.
(2)残差的平方和法 :一般情况下 ,比较两个模型的残 差比较困难 ( 某些样本点上一个模型的残差的绝对值 比另一个模型的小 , 而另一些样本点的情况则相反 ), 故通过比较两个模型的残差的平方和的大小来判断模
.
当 r>0 时,表明两个变量正相关;当 r<0 时,表明两个变量负 相关;|r|越接近于 1,表明两个变量的线性相关性越强;|r |越 接近于 0, 表明两个变量之间几乎不存在线性相关关系. 通常, 当 r 的绝对值大于 0.75 时,我们认为两个变量存在着很强的 线性相关关系.
建立回归模型的基本步骤 (1)确定研究对象,明确哪个变量是解释变量,哪个变量 是预报变量. (2)画出确定好的解释变量和预报变量的散点图,观察它 们之间的关系(如是否存在线性关系等). (3)由经验确定回归方程的类型 (如我们观察到数据呈线 性关系,则选用线性回归方程). (4)按一定规则(如最小二乘法)估计回归方程中的参数. (5)得出结果后分析残差图是否有异常 (如个别数据对应 残差过大,或残差呈现不随机的规律性等 ) .若存在异 常,则检查数据是否有误,或模型是否合适等.
在实际应用中,我们用 所以 的估计量为 估计 bx+a
对于样本点
它们的随机误差为
估计值为
称相应于点 的残差
残差的作用
1.通过残差表或残差图发现原始数据中的可疑数据 坐标纵轴为残差变量,横轴可以有不同的选择; 若模型选择的正确,残差图中的点应该分布在以横轴 为中心的带形区域; 对于远离横轴的点,要特别注意。
2
我们可以通过对数变换把指数关系变为线性关系
令 z ln y 则变换后样本点分布在直线的周围。 z bx a(a ln c1,b c 2 )
这样就可以利用线性回归模型来建立z 与x回归模 型,进而找到y与x的非线性回归方程 。
当回归方程不是形如 y bx a时,我们称之为非
2
回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第3个样本点的残差比较
大,需要确认在采集这个数据的时候是否有人为的错
误,如果有的话,需要纠正数据,重新建立回归模型;
由表中数据可以看出残差点比较均匀地落在不超过0.15
的狭窄的水平带状区域中,说明选用的线性回归模型的
精度较高,由以上分析可知,弹簧长度与拉力成线性关
非线性回归方程
例:一只红铃虫产卵数y和温度x有关,现收集到的一 组数据如下表1-3表,试建立y与x之间的回归方程。
表1 3
温度 / 0 C 21 23 25 27 29 32 35 产卵数 y / 个 7 11 21 24 66 115 325
产卵数
350 300 250 200 150 100 50 0 20 22 24 26 28 30 32 34 36
y c3 x 2 c4 的附近,其中 c3 和 c4为待定参数.
2 , 然后建立y与t x t 因此可以对温度变量做变换,即令
之间的线性回归方程,从而得到 y与 x之间的排线性回
归方程。
表 1-5 是红铃虫的产卵数和对应的温度的平方,图 1.1-6是相应的散点图.
表1 5
t 441 529 y 7 11
线性回归方程.
由表 1 3的数据可以得到变换后 的样本数据表 1 4,图 1.1 5给出了表 1 4中数据的散点图 .从图 1.1 5中可以
看出, 变换后的样本点分布在 一条直线的附近 ,因此可以 用线性回归方程来拟合 .
表1 4
x 21 23 25 27 29 32 35 z 1.946 2.398 3.045 3.178 4.190 4.745 5.784