2016-2017学年高中数学 第三章 统计案例 3.1 第2课时 残差分析及回归模型的选择学案 新
残差分析课程设计案例
残差分析课程设计案例一、教学目标本节课的教学目标是使学生掌握残差分析的基本概念、方法和应用。
知识目标包括:理解残差的定义和性质,掌握残差分析的基本方法和步骤,了解残差分析在实际应用中的重要性。
技能目标包括:能够运用残差分析方法解决实际问题,能够正确地进行残差分析并解释分析结果。
情感态度价值观目标包括:培养学生对数据分析的兴趣和热情,培养学生勇于探索、严谨求实的科学态度。
二、教学内容本节课的教学内容主要包括残差分析的基本概念、方法和应用。
首先,介绍残差的概念和性质,让学生了解残差分析的基本对象。
其次,讲解残差分析的方法和步骤,包括残差的计算、残差图的绘制和残差分析的判断标准。
最后,通过实际案例介绍残差分析在实际应用中的重要性,如线性回归模型的评价和修正。
三、教学方法为了达到本节课的教学目标,将采用多种教学方法进行教学。
首先,采用讲授法,系统地讲解残差分析的基本概念、方法和应用。
其次,采用案例分析法,通过分析实际案例使学生更好地理解和掌握残差分析的方法和步骤。
此外,还采用讨论法,鼓励学生积极参与课堂讨论,培养学生的思考能力和团队协作精神。
四、教学资源为了支持本节课的教学内容和教学方法的实施,将准备以下教学资源。
教材:《统计学原理》,其中涉及残差分析的相关内容。
参考书:《线性回归分析与应用》,供学生课后进一步学习残差分析的详细知识。
多媒体资料:制作课件和残差图的演示,帮助学生更好地理解和掌握残差分析的方法和步骤。
实验设备:计算机和投影仪,用于展示多媒体资料和进行课堂讨论。
五、教学评估本节课的评估方式将包括平时表现、作业和考试三个部分。
平时表现主要评估学生在课堂上的参与程度、提问和回答问题的积极性等。
作业主要评估学生对课堂所学知识的掌握程度,包括残差分析的计算和案例分析等。
考试则是对学生全面掌握残差分析知识的评估,包括理论知识和实际应用能力的考察。
评估方式将力求客观、公正,全面反映学生的学习成果。
六、教学安排本节课的教学安排将分为五个课时,每个课时45分钟。
(教学课件)残差分析
2.8 2.4
2 1.6 1.2 0.8 0.4
0 0
z
36
x
9 12 15 18 21 24 27 30 33 36 39
变化
最好的模型是哪个?
产卵数
400 300 200 100
0 0
-100
5
10 15 20 25 30
35
40
线性模型
产卵数
400
300
200
100
气
0
温
-40 -30 -20 -10 0 10 20 30 40
在例1中,残差平方和约为128.361。
残差分析与残差图的定义:
在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线 性相关,是否可以用回归模型来拟合数据。
然后,我们可以通过残差 e1, e2, , en 来判断模型拟合的效果,判断原始
数据中是否存在可疑数据,这方面的分析工作称为残差分析。
i1
^
a y bx,......(1)
(4)写出直线方程为y^=bx+a,即为所求的回归直线方程。
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。
编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 61 43 59
案例2 一只红铃虫的产卵数y和温度x有关。现
收集了7组观测数据列于表中:
温度xoC 21 23 25 27 29 32 35 产卵数y/个 7 11 21 24 66 115 325
(1)试建立产卵数y与温度x之间的回归方程;并 预测温度为28oC时产卵数目。 (2)你所建立的模型中温度在多大程度上解释了 产卵数的变化?
高中数学 第三章 统计案例 3.1 回归分析的基本思想及其初步应用 残差分析的相关概念辨析及应用素材
残差分析的相关概念辨析及应用在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差^^2^1,,,n e e e 来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.残差分析一般有两种方法:(1)作残差图;(2)利用相关指数R 2来刻画回归效果..,,2,1,^^^^n i a x b y y y e i i i i i =--=-= ^i e 称为相应于点(x i ,y i )的残差.类比样本方差估计总体方差的思想,可以用)2)(,(2121^^1^2^2>-=-=∑=n b a Q n e n n i i σ 作为σ2的估计量,其中^a 和^b 由公式x b y a ^^-=, ∑∑==---=ni ini i ix xy y x xb 121^)())((给出,Q(^a ,^b )称为残差平方和.可以用^2σ衡量回归方程的预报精度.通常,^2σ越小,预报精度越高.例1.设变量x,y 具有线性相关关系,试验采集了5组数据,下列几个点对应数据的采集可能有错误的是( )A 点A B.点B C.点C D.点E思路与技巧 由散点图判断出,点A,B,C,D,F 呈线性分布,E 点远离这个区域,说明点E 数据有问题. 解答D评析 可以用Excel 画散点图,样本的散点图可以形象的展示两个变量的关系,画散点图的目的是用来确定回归模型的形式,若散点图呈条状分布,则x 与y 有较好的线性相关关系,散点图除了条状分布,还有其他形状的分布.例2.为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6根弹簧进行测量,得如下数据:(1)画出散点图.(2)如果散点图中的各点大致分布在一条直线的附近,求y 与x 之间的回归直线方程. (3)求出残差,进行残差分析.思路与技巧 可以用Excel 画散点图,由散点图发现x 与y 是否呈线性分布,由此判断x 与y 之间是否有较好的线性相关关系,若有,求出线性回归方程,再画出残差图,进行残差分析.解答 (1)由Excel表格画散点图如图(2)设yˆ=bx+a是线性回归直线方程,以重量为横坐标,以残差为纵坐标画残差图如图由残差图看出,这些样本点的残差对应点均匀地落在水平带状区域内,宽度越窄,说明模型拟合精度越高,回归方程预报精度越高.评析回归模型中,残差变量不能被直接观测到,必须通过模型拟合后计算得到.画残差散点图的目的就是直观观测残差图,发现观测数据中可能出现的错误及所用模型是否恰当,若样本点残差较大,需确认这个点在采集过程中是否存在错误,若有,需重新采集数据,重新利用数据拟合.若采集数据没有错误,就另找原因.若残差点比较均匀地落在水平带状区域内,说明选用模型较合适,带状区域宽度越窄,模型拟合精度越高,回归方程预报精度越高.同学们学习残差时应明确以下几点:(1)误差e受许多条件的影响,也受所选用的线性模型的影响,因此线性模型往往只是一种近似的模型.(2)作残差图有时不够精确,也难于认定拟合程度的好坏,因而多数情况下,选用计算相关指数R2来说明拟合效果.(3)可以对某组数据采用几种不同的回归方程进行分析,也可以比较几个R2的值,选择R2大的模型作为这组数据的回归模型.(4)回归方程只适用于我们所研究的样本的总体;建立的回归方程一般都有时间性;样本取值的范围会影响回归方程的适用范围,一般不能超过这个范围,否则没有实用价值;不能期望回归方程得到的预报值就是预报变量的精确值,它是预报变量的可能取值的平均值。
高中数学第3章统计案例3.1回归分析课件北师大版选修2-3
设 y=kx,令 t=1x,则 y=kt.由 y 与 x 的数据表可得 y 与 t 的数据表:
t
4
2 1 0.5 0.25
y 16 12 5
2
1
作出 y 与 t 的散点图如图所示.
1.下列结论正确的是( ) ①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归
分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对
2.利用相关系数 r 来检验线性相关显著性水平时,通常与 0.75 作比较,若 r>0.75,则线性相关较为显著,否则为不显著.
求线性回归方程 (2016·九江高二检测)某服装商场为了了解毛衣的月销售量 y(件)与月
平均气温 x(℃)之间的关系,随机统计了某 4 个月的月销售量与当月平均气温,
其数据如下表:
阶
阶
析
1.1 回归分析
学
阶 段 二
1.2 相关系数
业 分
层
1.3 可线性化的回归分析
测 评
1.了解回归分析的思想和方法.(重点) 2.掌握相关系数的计算和判断线性相关的方法.(重点) 3.了解常见的非线性回归模型转化为线性回归模型的方法.(难点)
[基础·初探]
教材整理 1 回归分析
下列数据 x,y 符合哪一种函数模型( )
x 1 2 3 4 5 6 7 8 9 10
y 2 2.69 3 3.38 3.6 3.8 4 4.08 4.2 4.3
A.y=2+13x
B.y=2ex
C.y=2e1x
D.y=2+ln x
【解析】 分别将 x 的值代入解析式判断知满足 y=2+ln x.
【答案】 D
n
xiyi-n x y
高中数学 第三章 统计案例 3.1 回归分析课件 北师大版选修2-3
题型二 相关系数的问题 [例 2] 关于两个变量 x 和 y 的 7 组数据如下表所示:
x 21 23 25 27 29 32 35 y 7 11 21 24 66 115 325 试判断 x 与 y 之间是否有线性相关关系. [思路探究] 首先求出 r 的值,再判断相关关系.
[解] x =17×(21+23+25+27+29+32+35)≈27.4, y =17×(7+11+21+24+66+115+325)≈81.3,
9≈0.019
7,
c= u -b x =2.961 9-0.019 7×115=0.696 4,
∴u=0.696 4+0.019 7x,y=e0.696 4·e0.019 7x.
规律方法 函数模型为指数型,可两边取对数转化为线性函 数关系,再求出回归直线方程.
电容器充电后,电压达到 100 V,然后开始放电.由经验知
解:(1)列表如下:
5
xiyi-5 x y
i=1
于是 b=
5
=1129.03--55××442×5=1.23,
x2i -5 x 2
i=1
a= y -b x =5-1.23×4=0.08. ∴线性回归方程为 y=1.23x+0.08. (2)当 x=10 时,y=1.23×10+0.08=12.38(万元). 估计该设备使用 10 年时,维修费用是 12.38 万元.
某厂的生产原料耗费 x(单位:百万元)与销售额 y(单位:百
万元)之间有如下的对应关系:
x2
4
6
8
y 30 40 50
70
判断 x 与 y 之间是否存在线性相关关系.
解:画出(x,y)的散点图,如图所示.
4
4
广东省佛山市高明区高中数学 第三章 统计案例 3.1 回归分析的基本思想及其初步应用(2)学案(无答
3.1回归分析的基本思想及其初步应用第2课时 残差分析【学习目标】1.了解残差平方和、相关指数2R 的概念;2.了解回归分析的基本步骤;3.会用残差平方和与相关指数对回归模型拟合度进行评判; 【重点难点】重点:了解残差平方和、相关指数2R 的概念,会用残差平方和与相关指数对回归模型拟合度进行评判。
难点:了解回归分析的基本步骤, 【学习过程】 一.课前预习阅读课本P 82—86,记下困惑处并完成下列问题1、`线性回归模型,e )b a e a bx y 中为模型的未知参数和(++=是y (真实值)与a bx +之间的误差。
通常e 是随机变量,称为。
2.残差对于样本点11(,)x y ,22(,)x y ,…,(,)n n x y ,它们的随机误差i i i e y bx a =--,1i =,2,…,n ,其估计值为i e =i i y bx a =--,i e 称为相应于点(,)i i x y 的.温馨提示:正确理解随机误差:随机误差是客观存在的,主要原因是:(1)所用的函数不恰当引起误差;(2)除了两个变量之间的影响之外,还会受到其他因素的影响;(3)由于观测方面的原因出现的误差. 3.残差图及相关指数(1)残差图:我们可以利用图形来分析残差特征,作图时纵坐标为,横坐标可以选为,或解释变量或预报变量等,这样作出的图形称为.(2)相关指数:计算公式是2R =,其中残差平方和为,总偏差平方和为.2R 越大说明残差平方和越小,也就是说模型的拟合效果越好,2R 表示解释变量对于预报变量变化的,2R越接近于,表示回归的效果越好.温馨提示:相关指数的计算公式中,分子是残差平方和,分母是总偏差平方和,计算时不要弄错,同时要清楚2R的大小与拟合效果的关系.二.课堂学习与研讨类型1 线性回归分析【典例1】为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:(2)求相关指数2R,并判断模型的拟合效果;(3)进行残差分析.(6212275iix==∑,611076.2i yix y==∑)【归纳升华】一般地,求出回归直线方程后,通常可以计算处残差的平方和以及相关指数2R 的值来对回归模型的好坏作出评判,由2R的计算公式知,残差平方和越小,2R就越大,拟合效果就越好;残差平方和越大,2R就越小,拟合效果就越差..假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下表的统计资料:试求:(1)线性回归方程y bx a=+的回归系数a、b;(2)求残差平方和;(3)求相关指数2R类型2线性回归模型拟合的效果 例2、关于x 与y 有如下数据:为了对x 、y 两个变量进行统计分析,现有以下两种线性模型:5.175.6ˆ+=x y , 177ˆ+=x y,试比较哪一个模型拟合的效果更好。
人教版高中数学选修23练习:第三章3.1第2课时残差分析 Word版含解析
第三章统计案例3.1 回归分析的基本思想及其初步应用第2课时残差分析A级基础巩固一、选择题1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做实验,并用回归分析方法分别求得相关系数r与残差平方和m如下表所示:()A.甲B.乙C.丙D.丁解析:r越接近1,相关性越强,残差平方和m越小,相关性越强,所以选D正确.答案:D2.为了表示n个点与相应直线在整体上的接近程度,我们常用的表示法为()解析:由回归直线方程可知,为一个量的估计值,而y i 为它的实际值,在最小二乘估计中(y i-a-bx i)2,即(y i-)2.答案:C3.甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和如下表所示:高()A.甲B.乙C.丙D.丁解析:根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2的表达式中为确定的数,则残差平方和越小,R2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些.答案:D4.通过残差图我们发现在采集样本点过程中,样本点数据不准确的是()A.第四个B.第五个C.第六个D.第八个解析:由题图可知,第六个的数据偏差最大,所以第六个数据不准确.答案:C5.如图所示,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是()A.相关系数r变大B.残差平方和变大C.相关指数R2变大D.解释变量x与预报变量y的相关性变强解析:由散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.答案:B二、填空题6.若一组观测值(x1,y1),(x2,y2),…,(x n,y n)之间满足y i=bx i +a+e i(i=1,2,…,n),且e i恒为0,则R2为________.解析:由e i 恒为0,知y i =y ^i ,即y i -y ^i =0,答案:17.x ,y 满足如下表的关系:解析:通过数据发现y 的值与x 的平方值比较接近,所以x ,y 之间的函数模型为y =x 2.答案:y =x 28.关于x 与y ,有如下数据:有如下的两个模型:(1)y =6.5x +17.5;(2)y =7x +17.通过残差分析发现第(1)个线性回归模型比第(2)个拟合效果好.则R 21________R 22,Q 1________Q 2(用大于,小于号填空,R ,Q 分别是相关指数和残差平方和).解析:根据相关指数和残差平方和的意义知R 21>R 22,Q 1<Q 2.答案:> < 三、解答题9.在实验中得到变量y 与x 的数据如下表所示:由经验知,y 与1x 之间具有线性相关关系,试求y 与x 之间的回归曲线方程,并预测x 0=0.038时,y 0的值.解:令u =1x ,由题目所给数据可得下表所示的数据:计算得b =0.29,a =34.32. 所以y ^=34.32+0.29u .所以试求回归曲线方程为y ^=34.32+0.29x .当x 0=0.038时,y 0=34.32+0.290.38 ≈41.95.10.关于x 与y 有以下数据:已知x 与y 线性相关,由最小二乘法得b =6.5. (1)求y 与x 的线性回归方程;。
高中数学 第三章 统计案例 3.1 回归分析的基本思想及其初步应用教学设计1 新人教A版选修2-3
江苏省苏州市高中数学第三章统计案例3.1 回归分析的基本思想及其初步应用教学设计1 新人教A版选修2-3编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(江苏省苏州市高中数学第三章统计案例3.1 回归分析的基本思想及其初步应用教学设计1 新人教A版选修2-3)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为江苏省苏州市高中数学第三章统计案例3.1 回归分析的基本思想及其初步应用教学设计1 新人教A版选修2-3的全部内容。
回归分析的基本思想及其初步应用【教学目标】在《数学③(必修)》之后,学生已经学习了两个变量之间的相关关系,包括画散点图,最小二乘法求回归直线方程等内容。
在人教A版选修1-2第一章第一节“回归分析的基本思想及其初步应用”这一节中进一步介绍回归分析的基本思想及其初步应用。
这部分内容《教师用书》共计4课时,第一课时:介绍线性回归模型的数学表达式,解释随机误差项产生的原因,使学生能正确理解回归方程的预报结果,并能从残差分析角度讨论回归模型的拟合效果;第二课时:从相关系数、相关指数角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;第三课时:介绍两个变量非线性相关关系;第四课时:回归分析的应用。
本节课是第一课时的内容。
1、知识目标认识随机误差;认识残差2、能力目标(1)会使用电脑画散点图、求回归直线方程;(2)能正确理解回归方程的预报结果.3、情感目标通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,理解处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神。
培养学生运用所学知识,解决实际问题的能力。
高中数学 第三章 统计案例 3.2 回归分析学案 苏教版选修2-3(2021年最新整理)
2016-2017学年高中数学第三章统计案例3.2 回归分析学案苏教版选修2-3编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2016-2017学年高中数学第三章统计案例3.2 回归分析学案苏教版选修2-3)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2016-2017学年高中数学第三章统计案例3.2 回归分析学案苏教版选修2-3的全部内容。
3。
2 回归分析1.会作出两个有关联变量的散点图,并利用散点图认识变量间的相关关系.2.了解线性回归模型,能根据给出的线性回归方程系数公式建立线性回归方程.(重点、难点)3.了解回归分析的基本思想、方法及简单应用.[基础·初探]教材整理1 线性回归模型阅读教材P100~P103“例1”以上部分,完成下列问题.1.线性回归模型的概念:将y=a+bx+ε称为线性回归模型,其中a+bx是确定性函数,ε称为随机误差.2.线性回归方程:直线错误!=错误!+错误!x称为线性回归方程,其中错误!称为回归截距,错误!称为回归系数,错误!称为回归值,其中错误!其中错误!=错误!错误!x i,错误!=错误!错误!y i.设某大学生的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为错误!=0。
85x-85。
71,则下列结论中正确的是________(填序号).(1)y与x具有正的线性相关关系;(2)回归直线过样本点的中心(错误!,错误!);(3)若该大学某女生身高增加1 cm,则其体重约增加0.85 kg;(4)若该大学某女生身高为170 cm,则可断定其体重必为58。
高中数学第三章统计案例3_2回归分析课堂导学苏教版选修23
高中数学 第三章 统计案例 回归分析课堂导学 苏教版选修2-3三点剖析一、线性回归 【例1】 一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下: 零件数x (个) 10 20 30 40 50 60 70 80 90 100 加工时间y (分)626875818995102108115122(1)y 与x 是否具有线性相关关系?(2)如果y 与x 具有线性相关关系,求回归直线方程. 解析:(1)列出下表: i1 2 3 4 5 6 7 8 9 10 x i 10 20 30 40 50 60 70 80 90 100 y i 62 6875818995102108115122x i y i6201 3602 2503 2404 4505 700 7 140 8 640 10 350 12 200∴x =55,y =,∑=ni ix12=38 500,∑=ni iy12=87 777,∑=ni ii yx 1=55 950.因此,r =∑∑∑===---ni ni i i ni ii y y x yx yx 112221)10)(10(10=)7.911087777()551038500(7.9155105595022⨯-⨯⨯-⨯⨯-≈ 8.由于r = 8^,因此x 与y 之间具有很强的线性相关关系,因而可求回归直线方程. (2)设所求的回归直线方程为y ^=b ^x +a ^,则有b ^=212215510385007.915510559501010⨯-⨯⨯-=--∑∑==ni i ni iixx yx yx ≈,a ^=y -b ^x =因此,所求的回归直线方程为y ^=+. 二、非线性回归【例2】 在彩色显像中,根据经验,形成染料光学密度y 与析出银的光学密度x 之间有下面类型的关系式:y =xb aey -=,其中b ^0.现对y 及x 同时作11次观察,获得11组数据如下表: 编 号 x iy i1 2 3 4 5 6 7 8 9 10 11求出y 与x 之间的回归方程.解析:令y ′=l ny ,x ′=x1,则x bae y -=变换为y ′=l na -bx ′, 设a ^′=l na ,b ^′=-b ,将观察的数据(x i ,y i )转化为(x i ′,y i ′)如下表:编号 x i ′y i ′x i ′2x i ′y i ′1 20 40023 -214 10 10056 5 257 4 0 16 089 10 11 ∑1∴x '=∑='111111i i x =1x i ′≈,y ' = ∑='111111i i y =,b ^′=∑∑=='-'''-''111221111111i i i i ix x y x y x≈.40632.59-=,a ^′=y ' -b ^′x '≈.∴线性回归方程为y ^′=由于b ^=-b ^′=,a ^=a e '=,∴y 与x 之间的回归曲线方程为y ^=xe146.073.1-.三、相关检验【例3】 一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列成下表,试建立y 与x 之间的回归方程. 温度x /℃ 21 23 25 27 29 32 35 产卵数y /个711212466115325解析:根据收集的数据,作散点图,如图.从图中可以看出,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系,根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y =c 1e c 2x的附近,其中c 1、c 2为待定的参数.我们可以通过对数变换把指数关系变为线性关系,令z=l n y ,则变换后样本点分布在直线z=bx +a (a =l n c 1,b =c 2)的附近,这样可以利用线性回归建立y 与x 的非线性回归方程了.变换的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合. 由上表中的数据可得到变换的样本数据表,如下表:x21 23 25 27 29 32 35 z可以求得线性回归直线方程为z^=因此红铃虫的产卵数对温度的非线性回归方程为y ^=另一方面,可以认为图中的样本点集中在某二次曲线y =c 3x 2+c 4的附近,其中c 3,c 4为待定参数,因此可以对温度变量进行变换,即令t=x 2,然后建立y 与t 之间的线性回归方程,从而得到y 与x 之间的非线性回归方程.下表是红铃虫的产卵数和对应的温度的平方的线性回归模型拟合表,作出相应的散点图,如图:t 441 529 625 729 841 1 024 1 225 y711212466115325从图中可以看出,y 与t 的散点图并不分布在一条直线的周围,因此不宜用线性回归方程来拟合它,即不宜用二次函数y=c3x2+c4来拟合x与y之间的关系,因此利用y^=来拟合效果较好. 各个击破类题演练 1弹簧长度y(c m)随所挂物体质量x(g)不同而变化的情况如下:物体质量x 5 10 15 20 25 30弹簧长度y(1)画出散点图;(2)求y对x的回归直线方程.解析:(1)(2)采用列表的方法计算a与回归系数b.序号x y x2x y1234565101520253025100225400625900198274354 ∑105 2 275 1x=61×105=,y=61×≈,b^=25.176227550.95.1761077⨯-⨯⨯-≈,a^=对x的回归直线方程为y^=+ x.类题演练 2某种图书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下: x 1 2 3 5 10 20 30 50 100 200 y检验每册书的成本费y与印刷册数的倒数x1之间是否具有线性相关关系?如有,求出y对x 的回归方程.思路分析:本题与前面的问题有所不同,y与x之间不具有线性回归关系,因而是非线性回归分析问题,不妨设变量u=x1,题意要求对u与y作相关性检验,如果它们具有线性相关关系,就可以进一步求出y对u的回归直线方程,这时再回代u=x1,就得到了y对x的回归曲线方程.解:首先作变量置换u=x1,题目所给数据变成如下表所示的数据:u i 1 y iu i y i可以求得r=∑∑∑===----ni ni i ini i iy y x xy y x x11221)()())(( = 8,由r= 8>,因此,变量y 与u 之间具有较强的线性相关关系,并且b ^=,a ^=y-b ^x =,最后回代a =x 1可得y^=+x973.8, 因此y 与x 的回归方程为y^=+x973.8.类题演练 3为了研究三月下旬的平均气温x (单位:℃)与四月二十号前棉花害虫化蛹高峰日y 的关系,某地区观察了2000年至2005年间的情况,得到下面的数据表: 年份 2000 2001 2002 2003 2004 2005x y19611018(1)根据规律推断,该地区2006年三月下旬平均气温为27℃,试估计2006年四月化蛹高峰日为哪一天?(2)对变量x 、y 进行相关性检验. 解析:(1)x =61++…+≈, y=61(19+6+…+8)=, ∑x i 2=+…+=5 ,∑y i 2=192+…+82=563,∑x i y i =×19+…+×8=1 222, ∴b ^=212.29601.512512.295.761222⨯-⨯⨯-≈,a ^=y -b x =+×=.回归直线方程为y^=+. 当x =27时,y^=×27+=.据此估计该地区2006年4月12日或13日为化蛹高峰日.(2)r=∑∑∑===---6161222261)6)(6(6i i i i i iiy y x x yx yx = 3,由于|r|接近于1,故变量y 与x 存在很强的线性相关关系.变式提升在钢线碳含量对于电阻的效应研究中,得到如下数据表: 碳含量 (x /%) 20℃时电阻(y /Ω)1518192126求y 对x 的线性回归方程,并检验回归方程中的显著性.解析:由已知数据x =71∑=71i i x ≈,y=71×≈,∑=712i i x =,∑=712i i y = 3 ,∑=71i i i y x =, ∴b ^≈2)543.0(7595.274.20543.0745.85⨯-⨯⨯-≈. ∴a ^=回归直线方程为y^=+. 利用相关系数检验是否显著,∑=71i ii yx -7x y =××≈,∑=712i ix-5x 2=×2≈,∑=712i i y -5y 2=3 ×2=,∴r=982.943121.162.6⨯≈.由于r 接近于0,故钢线碳含量对电阻的效应线性相关关系不显著.。
2016-2017学年高中数学 第三章 统计案例 3.2 回归分析学业分层测评 苏教版选修2-3
【课堂新坐标】2016-2017学年高中数学 第三章 统计案例 3.2 回归分析学业分层测评 苏教版选修2-3(建议用时:45分钟)学业达标]一、填空题1.如图322所示,对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图(1);对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图(2).由这两个散点图可以判断________.图322①变量x 与y 正相关,u 与v 正相关; ②变量x 与y 正相关,u 与v 负相关; ③变量x 与y 负相关,u 与v 正相关; ④变量x 与y 负相关,u 与v 负相关.【解析】 由图(1)知,x 与y 是负相关,由图(2)知,u 与v 是正相关,故③正确. 【答案】 ③2.已知对一组观测值(x i ,y i )(i =1,2,…,n )作出散点图后,确定具有线性相关关系,若对于y ^=a ^+b ^x ,求得b ^=0.51,x =61.75,y =38.14,则线性回归方程为________.【解析】 ∵a ^=y -b ^x =38.14-0.51×61.75=6.647 5≈6.65. ∴y ^=0.51x +6.65. 【答案】 y ^=0.51x +6.653.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型,预报广告费用为6万元时销售额为______万元.【解析】 样本中心点是(3.5,42),则a ^=y --b ^x -=42-9.4×3.5=9.1,所以回归直线方程是y ^=9.4x +9.1,把x =6代入得y ^=65.5.【答案】 65.54.对两个具有线性相关关系的变量进行回归分析时,得到一个回归方程y ^=1.5x +45,x ∈{1,5,7,13,14},则y -=________.【解析】 由x -=8,得y -=1.5×8+45=57. 【答案】 575.已知x ,y 的取值如下表:画出散点图,从所得的散点图分析,y 与x 线性相关,且y =0.95x +a ^,则a ^=________. 【导学号:29440070】【解析】 因为回归方程必过样本点的中心(x -,y -),解得x -=2,y -=4.5,将(2,4.5)代入y ^=0.95x +a ^,可得a ^=2.6.【答案】 2.66.一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:由表中数据算出线性回归方程y =b x +a 中的b ≈-2.气象部门预测下个月的平均气温约为6 ℃,据此估计,该商场下个月羽绒服的销售量的件数约为________.【解析】 ∵样本点的中心为(10,38), ∴38=-2×10+a ^. ∴a ^=58,即y ^=-2x +58. ∴当x =6时,y =46. 【答案】 467.对具有线性相关关系的变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),它们之间的线性回归方程是y =3x +20,若∑i =110x i =18,则∑i =110y i =________.【解析】 由于∑i =110x i =18,则x -=1.8,∵(x -,y -)在回归方程上, ∴y -=3×1.8+20=25.4, ∴ i =110y i =10y -=254.【答案】 2548.已知回归直线的斜率的估计值为 1.23,样本点的中心为(4,5),则回归直线方程是________.【解析】 由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y ^-5=1.23(x -4),即y ^=1.23x +0.08.【答案】 y ^=1.23x +0.08 二、解答题 9.对于数据组:(1)(2)求线性回归方程.【解】 (1)作图略.x ,y 具有很好的线性相关性. (2)设y ^=a ^+b ^x ,因为x -=2.5,y -=5,∑4i =1x i y i =60, ∑4i =1x 2i =30, 故b ^=60-4×2.5×530-4×2.52=2,a ^=y --b ^x -=5-2×2.5=0,故所求的回归直线方程为y ^=2x .10.下表为某地近几年机动车辆数与交通事故的统计资料,求出y 关于x 的线性回归方程.【解】 ∑8i =1x i =1 031,∑8i =1y i =71.6,∑8i =1x 2i =137 835,∑8i =1x i y i =9 611.7,x -=128.875,y -=8.95,将它们代入⎩⎪⎨⎪⎧b ^=∑ni =1x i y i -n x - y -∑ni =1x 2i-n x-2,a ^=y --b ^x -,计算得b ^≈0.077 4.a ^=-1.025,所以,所求线性回归方程为y ^=0.077 4x -1.025.能力提升]1.对具有线性相关关系的变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),它们之间的线性回归方程是y ^=3x +20,若∑10i =1x i =18,则∑10i =1y i =________. 【解析】 由∑10i =1x i =18,得x =1.8. 因为点(x ,y )在直线y ^=3x +20上,则y =25.4.所以∑10i =1y i =25.4×10=254. 【答案】 2542.(2016·徐州月考)已知对一组观测值(x i ,y i )(i =1,2,…,n )作出散点图后,确定具有线性相关关系,若对于y ^=a ^+b ^x ,求得b ^=0.51,x -=61.75,y -=38.14,则线性回归方程为________.【解析】 ∵a ^=y --b ^x -=38.14-0.51×61.75 =6.647 5≈6.65.∴y ^=0.51x +6.65. 【答案】 y =0.51x +6.653.(2016·南京检测)若线性回归方程中的回归系数b ^=0,则相关系数r =________.【解析】 b ^=∑i =1nx i -x-y i -y-∑i =1nx i -x-2,r=∑i =1nx i -x-y i -y-∑i =1nx i -x-2∑i =1ny i -y-2.由计算公式知,若b =0,则r =0. 【答案】 04.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100棵种子中的发芽数,得到如下资料:剩下的2组数据用于回归方程检验.(1)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?(3)请预测温差为14 ℃的发芽数.【解】 (1)由数据求得,x =12,y =27, 由公式求得,b ^=52,a ^=y -b ^x =-3.所以y 关于x 的线性回归方程为y ^=52x -3.(2)当x =10时,y ^=52×10-3=22,|22-23|<2;当x =8时,y ^=52×8-3=17,|17-16|<2.所以该研究所得到的线性回归方程是可靠的. (3)当x =14时,有y ^=52×14-3=35-3=32,所以当温差为14 ℃时的发芽数约为32颗.。
高中数学 第三章 统计案例 3.1 回归分析的基本思想及
3.1 回归分析的基本思想及其初步应用第二课时教学目标知识与技能从相关指数和残差分析角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤.过程与方法在发现直接求回归直线方程存在缺陷的基础上,引导学生去发现解决问题的新思路——进行回归分析,进而介绍残差分析的方法和利用R2来表示解释变量对于预报变量变化的贡献率.情感、态度与价值观通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,掌握处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识解决实际问题的能力.教学中适当地利用学生的合作与交流,使学生在学习的同时,体会与他人合作的重要性.重点难点教学重点:从残差分析、相关指数角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;教学难点:了解评价回归效果的两个统计量:相关指数、残差和残差平方和.教学过程引入新课上表是上一节课我们从某大学选取8名女大学生其身高和体重数据组成的数据表,在上一节课中我们通过数据建立了回归直线方程,并根据方程预测了身高为172 cm的女大学生的体重.当时,我们提到根据回归直线方程求得的体重数据,仅是一个估计值,其与真实值之间存在着误差,为了综合分析身高和体重的关系,我们引入了线性回归模型y=bx+a+e 来表示两变量之间的关系,其中e为随机变量,又称随机误差.线性回归模型y=bx+a+e 增加了随机误差项e,因变量y的值由自变量x和随机误差e共同确定.假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上.但是,在图中,数据点并没有完全落在回归直线上.这些点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上“推”开了,即自变量x只能解释部分y的变化.同学们考虑一下,随机变量e的均值是多少?方差又是多少?活动设计:学生思考回答问题.学情预测:学生回答E(e)=0,D(e)=σ2>0.教师提问:能否通过D(e)来刻画线性回归模型的拟合程度?学情预测:随机误差e的方差越小,通过回归直线预报真实值y的精度越高.随机误差是引起预报值与真实值y之间的误差的原因之一,其大小取决于随机误差的方差.设计意图:说明研究随机误差e的必要性,通过研究随机误差e可以分析预报值的可信度.提出问题:既然可以用随机变量e的方差来衡量随机误差的大小,即通过方差σ2来刻画预报变量(体重)的变化在多大程度上与随机误差有关,那么如何获得方差σ2呢?学生活动:学生独立思考,小组合作交流讨论.活动结果:可以采用抽样统计的思想,通过随机变量e 的样本来估计σ2的大小. 设计目的:复习抽样统计思想,以便通过随机变量e 的样本来估计总体. 探究新知 提出问题:既然e 表示了除解释变量以外其他各种影响预报值的因素带来的误差,那么如何获得e 的样本来计算σ2呢?学生活动:分组合作讨论交流.学情预测:由函数模型y ^=b ^x +a ^和回归模型y =bx +a +e 可知e =y -y ^,这样根据图表中女大学生的身高求出预报值,再与真实值作差,即可求得e 的一个估计值.教师:由于在计算回归直线方程时,利用公式求得的b ^和a ^为斜率和截距的估计值,它们与真实值a 和b 之间存在误差,因此y ^是估计值,所以e ^=y -y ^也是一个估计值.由上可知,对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i =y i -bx i -a ,i =1,2,…n,称其估计值e ^i =y i -y ^i 为相应于点(x i ,y i )的残差.将所有残差的平方加起来,即∑i =1ne ^ 2i ,这个和称作残差平方和.类比样本方差估计总体方差的思想,可以用σ^2=1n -2∑i =1n e ^ 2i =1n -2∑i =1n (y i -y ^i )2(n>2) 作为σ2的估计量,通常,σ^2越小,预报精度越高.这样,当我们求得回归直线方程后,可以通过残差来判断模型拟合程度的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.设计目的:通过问题诱思,引入残差概念. 理解新知提出问题:对照女大学生的身高和体重的原始数据,结合求出的回归直线方程,求出相应的残差数据.学生活动:独立完成. 活动结果:提出问题:根据表格中的数据,以样本编号为横坐标,残差值为纵坐标,做出散点图(这样的散点图称作残差图).学生活动:分组合作,共同完成.活动结果:残差图提出问题:观察上面的残差图,你认为哪几个样本点在采集时可能存在人为的错误?为什么?学生活动:分组讨论. 活动结果:第一个和第六个样本点在采集过程中可能存在错误,因为其他的样本点基本都集中在一个区域内,只有这两个样本点的残差比较大,相对其他样本点来说,分布得较为分散.提出问题:如何从残差图来判断模型的拟合程度? 学生活动:独立思考也可相互讨论.活动结果:因为σ^2越小,预报精度越高,即模型的拟合程度越高,而σ^2越小,e ^的取值越集中,故若残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,且带状区域的宽度越窄,说明拟合精度越高,回归直线的预报精度越高.教师:在统计学上,人们经常用相关指数R 2来刻画回归的效果,其计算公式是:R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y)2提出问题:分析上面计算相关指数R 2的公式,如何根据R 2来判断模型的拟合效果? 学生活动:独立思考也可相互讨论,教师加以适当的引导提示.活动结果:因为对于确定的样本数据而言,∑i =1n(y i -y )2是一个定值,故R 2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.提出问题:在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,R 2越接近1,表示回归的效果越好,即解释变量和预报变量的线性相关性越强,试计算关于女大学生身高与体重问题中的相关指数R 2.学生活动:学生独立计算获得数据.活动结果:R 2≈0.64.根据R 2≈0.64就可得出“女大学生的身高解释了64%的体重变化”,或者说“女大学生的体重差异有64%是由身高引起的”.由此就不难理解为什么预报体重和真实值之间有差距了.设计目的:结合图象,让学生直观感受残差图在刻画回归模型拟合效果方面的应用,体会残差分析和相关指数的意义.提出问题:根据前面得到的回归方程,能否预测一名美国女大学生的体重?建立回归模型后能否一劳永逸,在若干年后还可以使用,或者适用于多年以前的女大学生体重预测?学生活动:讨论交流总结发言.活动结果:在使用回归方程进行预报时要注意: (1)回归方程只适用于我们所研究的样本的总体; (2)我们建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值.提出问题:结合我们刚学习的概念,现在能否将建立回归模型的步骤补充完整? 学生活动:讨论交流,合作完成.活动结果:一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量. (2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程). (4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性,等等).若存在异常,则检查数据是否有误,或模型是否合适等.设计意图:设计问题,让学生讨论分析,得出使用回归方程进行预报需注意的问题,并让学生完善建立回归模型的步骤.在这个过程中,教师不宜做太多引导,要放手给学生,让学生讨论,充分参与进来.运用新知例1一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差; (2)你认为这个模型能较好地刻画零件数和加工时间的关系吗? 分析:首先根据散点图粗略判断变量是否具有线性相关性,判断是否可以用线性回归模型来拟合数据,然后通过残差e ^1,e ^2,…,e ^n 来判断模型拟合的效果,判断原始数据是否存在可疑数据.解:(1)根据表中数据作出散点图如下:散点图由散点图可知变量之间具有线性相关关系,可以通过求线性回归方程来拟合数据.根据公式可求得加工时间对零件数的线性回归方程为y ^=0.668x +54.96. 残差数据如下表:(2)画出残差图残差图由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好,但需注意,由残差图也可以看出,第4个样本点和第5个样本点残差较大,需要确认在采集这两个样本点的过程中是否有人为的错误.点评:由散点图判断两个变量的线性相关关系,误差较大,利用残差图可以较好地评价模型的拟合程度,并能发现样本点中的可疑数据.【变练演编】例2在一段时间内,某种商品的价格x(元)和需求量y(件)之间的一组数据为:求出y 对x 的回归方程,并说明拟合效果的好坏.思路分析:先根据散点图判断两个变量是否线性相关,若相关,求出回归直线方程,然后通过相关指数的大小来评价拟合效果的好坏.解:作出散点图:从作出的散点图可以看出,这些点在一条直线附近,可用线性回归模型来拟合数据.由数据可得x =18,y =45.4,由计算公式得b ^=-2.35,a ^=y -b ^x =87.7.故y 对x 的回归方程为y ^=-2.35x +87.7,列表:所以∑i =15 (y i -y ^i )2=8.3,∑i =15(y i -y )2=229.2.相关指数R 2=1-∑i =15 (y i -y ^i )2∑i =15(y i -y)2≈0.946.因为0.964很接近1,所以该模型的拟合效果很好.变式1:若要分析是否在上述样本的采集过程中存在可疑数据,应如何分析? 活动设计:学生分组讨论,回顾课本解答问题. 活动成果:可以画出残差图来进行分析.变式2:既然利用残差图和相关指数都能够评价回归模型的拟合效果,能否总结一下两种方法各自的特点?活动成果:利用残差图可以直观展示拟合的效果,而且还可以发现样本数据中的可疑数据;而相关指数是把对拟合效果的评价转换为数值大小的判断,易于量化处理,并能在数量上表现解释变量对于预报变量变化的贡献率.设计意图:进一步熟悉判断拟合效果的方法以及各自的特点. 【达标检测】1.分析下列残差图,所选用的回归模型效果最好的是()ABC D 2.下列说法正确的是( )①回归直线方程适用于一切样本和总体;②回归直线方程一般都有时间性;③样本的取值范围会影响回归直线方程的适用范围;④根据回归直线方程得到的预测值是预测变量的精确值.A .①③④B .②③C .①②D .③④3.在研究气温和热茶销售杯数的关系时,若求得相关指数R 2≈__________,表明“气温解释了85%的热茶销售杯数变化”或者说“热茶销售杯数差异有85%是由气温引起的”.答案:1.D 2.B 3.0.85. 课堂小结学生回顾本节课学习的内容,尝试总结,然后不充分的地方由学生相互补充,最后在老师的引导下,用精炼的语言进行概括:1.判断变量是否线性相关的方法以及各自的特点; 2.在运用回归模型时需注意的事项; 3.建立回归模型的基本步骤. 设计意图:让学生自己小结,这是一个多维整合的过程,是一个高层次的自我认识过程. 补充练习 【基础练习】1.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②用相关指数R 2来刻画回归的效果,R 2值越接近于1,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( )A .①②B .②③C .①③D .①②③2.甲、乙、丙、丁四位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和∑i =1n(y i -y ^i )2如下表115106124103哪位同学的实验结果体现拟合A ,B 两变量关系的模型拟合精度高?( ) A .甲 B .乙 C .丙 D .丁 3.关于x 与y 有如下数据:为了对x ,y 两个变量进行统计分析,现有以下两种线性模型:甲:y ^=6.6x +17.5,乙:y ^=7x +17.试比较哪一个模型拟合效果更好.答案或提示:1.D 2.D3.解析:设甲模型的相关指数为R 21,则R 21=1-∑i =15(y i -y ^i )2∑i =15(y i -y)2=1-1551 000=0.845;设乙模型的相关指数为R 22,则可求得R 22=0.82,因为R 21>R 22,所以甲模型的拟合效果更好.【拓展练习】 4.5组数据如下:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗数. (3)计算各组残差;(4)求R 2,并说明随机误差对有效穗数的影响占百分之几? 解:(1)散点图如图:(2)由图可以看出,样本点呈条状分布,有比较好的线性相关关系,因此可用线性回归方程来建立两个变量之间的关系.设线性回归方程为y ^=b ^x +a ^,由数据可以求得:b ^≈0.291,a ^=y -b ^x =34.67.故所求的线性回归方程为y ^=0.291x +34.67.当x =56.7时,y ^=0.291×56.7+34.67=51.169 7. 估计有效穗数为51.169 7.(3)各组数据的残差分别是e ^1≈0.37,e ^2≈0.72,e ^3≈-0.5,e ^4≈-2.22,e ^5≈1.61.(4)残差平方和:∑i =15(y i -y ^i )2=8.425 8,又∑i =15(y i -y )2=50.18,∴R 2=1-∑i =15 (y i -y ^i )2∑i =15(y i -y)2=1-8.425 850.18≈0.832.即解释变量(农作物基本苗数)对有效穗数的影响约占了83.2%,所以随机误差对有效穗数的影响约占1-83.2%=16.8%.设计说明 本课时从上一节课的案例出发,通过分析随机误差产生的原因,引入随机变量、残差、残差平方和、相关指数的有关概念,从相关指数和残差分析等角度探讨回归模型拟合的效果,并通过案例说明利用所建立的回归模型进行预报时需要注意的问题,然后总结建立回归模型的基本步骤.在教学过程中以问题为引导思考的动机,注重对学生合作意识的培养,通过对案例的分析,培养学生对数据的处理能力,让学生初步了解回归分析思想在实际生活中的运用.备课资料有关总偏差平方和、回归平方和、残差平方和以及相关指数等概念的说明1.总偏差平方和:SST =∑i =1n(y i -y )2,刻画了预报变量y 的变化剧烈程度.2.回归平方和:SSR =∑i =1n (y ^i -y )2,公式中所有预测值的平均值也等于y ,故1n ∑i =1n y ^ i =1n ∑i =1n (b ^x i +a ^ )=b ^ x +a ^ =b ^ x +y -b ^x =y , 因此回归平方和又可以写成.从而回归平方和刻画了估计量y ^=a ^+b ^x 的变化程度.由于估计量由解释变量x 所决定,所以,回归平方和刻画了预报变量的变化中由解释变量通过线性回归模型引起的那一部分的变化程度.3.残差平方和:SSE =∑i =1n(y i -y ^i )2,刻画了残差变量变化的程度.4.偏差平方和分解:即指公式∑i =1n(y i -y )2=∑i =1n(y ^i -y )2+∑i =1n(y i -y ^i )2,称为平方和分解公式,用文字表示为: 总偏差平方和=回归平方和+残差平方和. 公式证明如下:假设观测数据为(x i ,y i ),i =1,2,…,n ,则∑i =1n(y i -y )2=∑i =1n(y i -y ^i +y ^i -y )2=∑i =1n(y i -y )2+∑i =1n (y i -y ^i )2+2∑i =1n (y ^ i -y )(y i -y ^i ).而∑i =1n (y ^ i -y )(y i -y ^ i )=∑i =1n (b ^ x i -b ^ x )(y i -a ^ -b ^x i )=∑i =1n b ^ (x i -x )⎣⎡⎦⎤y i -a ^ -b ^x -b(x i -x )=b ^ ∑i =1n(x i -x )⎣⎡⎦⎤(y i -y )-b ^(x i -x ) =b ^⎣⎢⎢⎡⎦⎥⎥⎤∑i =1n (x i -x )(y i -y )-b ^ ∑i =1n (x i -x )2=0,代入上式即可证得平方和分解公式. 这样,可以把平方和分解公式解释为:预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量引起的变化程度之和.由平方和分解公式得1=∑i =1n(y ^i -y)2∑i =1n(y i -y)2+∑i =1n(y i -y ^i )2∑i =1n(y i -y)2这意味着在线性回归模型中,预报变量的1个单位的变化,需要由解释变量贡献∑i =1n(y ^i -y)2∑i =1n(y i -y)2,由残差变量贡献∑i =1n(y i -y ^i )2∑i =1n(y i -y)2,因此在线性回归模型中,我们说预报变量y的变化中的100×∑i =1n(y ^i -y)2∑i =1n(y i -y)2%是由解释变量x 所引起的,或者说解释变量x 可以解释预报变量y 的100×∑i =1n(y ^i -y)2∑i =1n(y i -y)2%的变化.又∑i =1n(y ^i -y)2∑i =1n(y i -y)2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y)2=R 2,即R 2=∑i =1n (y ^i -y)2∑i =1n(y i -y)2,这说明“预报变量y 的变化中的百分之100R 2是由解释变量x 所引起的,或者说解释变量x 可以解释预报变量y 的百分之100R 2的变化.因此,R 2越大拟合效果越好,反之越小.。
2016-2017年数学·选修2-3课件:第三章3.1第2课时残差分析
类型 3 弄不清回归模型的类型致误(误区警示) [典例 3] 在一次抽样调查中测得样本的 5 个样本点 数值如下表所示:
x 0.25 0.5 1 2 4 y 16 12 5 2 1 试建立 y 与 x 之间的回归方程.
第三十一页,编辑于星期五:十七点 四十九分。
A.模型 1 B.模型 2 C.模型 3 D.模型 4
第十一页,编辑于星期五:十七点 四十九分。
解析: R2 能够刻画用回归模型拟合数据的效果,R2 的值越接近于 1,说明回归模型拟合数据的效果越好.
答案:A
第十二页,编辑于星期五:十七点 四十九分。
4. 若一个样本的总偏差平方和为 80,残差平方和为 60,则相关指数 R2 为________ .
2.下列关于残差的叙述正确的是( ) A.残差就是随机误差 B.残差就是方差 C.残差都是正数 D.残差可用来判断模型拟合的效果 解析:由残差的相关知识可知选项 D 正确. 答案:D
第十页,编辑于星期五:十七点 四十九分。
3.在判断两个变量 y 与 x 是否相关时,选择了 4 个 不同的模型,它们的 R2 分别为:模型 1 的 R2 为 0.98,模 型 2 的 R2 为 0.80,模型 3 的 R2 为 0.50,模型 4 的 R2 为 0.25.其中拟合效果最好的模型是( )
第六页,编辑于星期五:十七点 四十九分。
温馨提示 相关指数的计算公式中,分子是残差平方 和,分母是总偏差平方和,计算时不要弄错,同时要清楚 R2 的大小与拟合效果的关系.
第七页,编辑于星期五:十七点 四十九分。
[思考尝试·夯基]
1.思考判断(正确的打“√”,错误的打“×”).
(1)在残差图中,纵坐标为残差,横坐标可以作为样
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.1 第二课时 残差分析及回归模型的选择一、课前准备 1.课时目标(1) 了解残差分析回归效果; (2) 了解相关指数2R 分析回归效果;(3) 了解常见的非线性回归转化为线性回归的方法. 2.基础预探1.在线性回归模型y bx a e =++中,a b 和为模型的未知参数,e y 是与y bx a =+之间的误差,通常e为随机变量,称为_______.它的均值E(e)=0,方差2()0D e σ=>.线性回归模型的完整表达形式为2()0,()y bx a eE e D e σ=++⎧⎨==⎩.在此模型中,随机误差r的方差2σ越小,通过回归直线y bx a =+预报真实值y的精度越高. 2.对于样本点1122(,),(,),,(,)n n x y x y x y 而言,相应于它们的随机误差为(1,2,,)i i i i e y y y bx a i n =-=--=,其估计值为(1,2,,)i i i i i e y y y bx a i n =-=--=,i e 称为相应于点(,)i i x y 的______.类比样本方差估计总体方差的思想,可以用21(,)2Q a b n σ=-(n>2)作为2σ的估计量,其中a b 和由公式给出,()Q a b ,称为残差平方和.可以用2σ衡量回归直线方程的预报精度.通常2σ越小,预报精度越高.3.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差12,,n e e e 来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为_______.4.用相关指数2R 来刻画回归的效果,其计算公式是:22121()1()nii nii y y R y y ==-=--∑∑.显然2R 取值越大,意味着残差平方和_______,也就是说模型的拟合效果________. 二、学习引领1. 进行回归分析的步骤是什么?(1)确定研究对象,明确是哪两个变量之间的相关关系.(2)画出散点图,观察它们之间的关系是否存在线性关系,也可计算变量间的线性相关系数的值来精确判断它们之间是否存在相关关系.如果不存在线性相关关系,判断散点图是否存在非线性相关关系.(3)若存在相关关系,则由经验确定回归方程的类型:如观察到数据呈线性关系,则选用线性回归方程ˆy=bx+a ;否则可选择指数模型、对数模型或二次函数模型等. (4)利用残差图或者相关指数2R 对回归效果进行判断2.随机误差e的产生及估计的方法(1)在实际中,随机变量y除了受随机变量x的影响之外,还受其它变量的影响;(2)由于前面相关关系公式中的a b 和为截距和斜率的估计值,它们与真实值a b 和之间也存在误差.(3)因为随机误差是随机变量,因此可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机变量的均值为0,因此可以用方差2来衡量随机误差的大小. 3.如何利用2R 判断回归效果在线性回归模型中,2R 表示解释变量对于预报变量变化的贡献率. 2R 越接近于1,表示回归的效果越好(因为2R 越接近于1,表示解释变量和预报变量的相关性越强).如果对某组数据可能采取几种不同的回归方程进行回归分析.也可以通过比较几个2R ,选择其值大的模型.4.常见的可线性化的回归模型(1)幂函数曲线y=ax b(如图所示), 作变换u=lny ,v=lnx,c=lna,得线性函数u=c+bv.(2)指数函数y=ae bx(如图所示) 作变换u=lny, c= lna,得线性函数u=c+bx.(3)倒指数曲线y=a b xe (如图所示).(4)对数曲线y=a+blnx(如图所示)三、典例导析题型一相关系数的应用例1 下表为某地近几年机动车辆数与交通事故数的统计资料,请判断交通事故数与机动车r,由此判断交通事故数y与机动车辆数x是否线性相关.解析:将数据列成下表由此可知x=128.875 y=8.95,进而求得0.9927≈.因为|r|接近1 ,所以可得交通事故数y和机动车辆数x有较强的线性相关关系.规律总结:进行回归分析时,通常先进行相关性检验,若能确定两个变量具有线性相关关系,再去求其线性回归方程,否则所求的方程无意义.两个变量正(负)相关时,它们就有相同(反)的变化趋势,即当由小变大时,相应的有由小(大)变大(小)的趋势.变式训练:某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系?从这个工完成下列要求:(1)计算x 与y 的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验。
题型二 残差分析某城区为研究城镇居民月家庭人均生活费支出和月人均收人的相关关系.随机抽取10户进思路导析:列表计算出相关系数所需数据,代入公式即可求出相关系数r ,初步判断两个变量之间是否具备相关性,然后做出残差图判断选用的模型是否合适.解析:作出散点分布图,由图可知月人均生活费与人均收人之间具有线性相关关系.由题意可知:639,480.4x y ==,101010221114610300,2540526,3417560,ii i i i i i xy x y ======∑∑∑计算相关系数可得 r=0.99316,因为|r|接近1 ,所以可得两个变量有较强的线性相关关系.代入公式可知b =101102211010i ii ii x y xyxx ==--∑∑=0.6599 , a =y -b x =58.751.故回归直线方程为ˆy=0.6599x+58.751. 作残差如图所示,由图可知,残差点比较均匀地分布在水平的带状区域中,说明选用的模型比较合适.计算相关指数R2=0.986 3,说明城镇居民的月人均生活费的差异有98.63%是由人均收人引起的.由以上分析可知.我们可以利用回归方程ˆy=0.6599x-58.751来作月生活费的预报值.将x=1100代人得,ˆy=784.64(元);将x=1200代人得,ˆy=850.63(元).故预测月人均收人分别为1100元和l200元的两家庭的月人均生活费分别为784.64元和850.63元归律总结:如果作出的残差图中的残差点比较均匀地分布在水平的带状区域中,带状区域宽度越窄,说明模型拟合程度越高,回归方程的预报精度越高.若利用相关指数R2来刻画拟合效果的好坏,R2的取值越接近1,说明残差的平方和越小,即说明模型的拟合效果越好.变式训练:在一段时间内,某种商品的价格x(元)与需求量y(件)之间的数据为求出y对x的回归直线方程,并说明拟合效果的好坏.题型三:非线性回归分析例3现代经济学证明,工厂生产产品的成本与其产量有关,产量越大,其成本越低.某饰品工艺厂在生产某种民族特色艺术品时,得到了每件饰品的成本费y(元)与产量x(百件)之间检验每件饰品的成本费y与产量x之间是否具有线性相关关系,若有,求出y对x的回归方程;若没有,你能求出y与x的一个关系式吗?思路导析:通过散点图观察两个变量具备怎样的相关关系,根据相关关系的特征选择合适的模型,将非线性相关的关系通过置换变为线性相关关系,然后求出成本与产量之间的关系. 解析:画出x和y的散点图,如图.图中的点的分布不在一条直线附近,故每件饰品的成本费y 与产量x 间不具有线性相关关系,又图中的点的分布近似于反比例函数中的一支,故可把x1置换为u ,检验y 与u 之间的相关关系,则有u =x1,从而u 与y 的数据为经计算得r=0.9998,因为|r|接近于1,所以可以认为两个变量y 与u 之间具有较强线性相关关系;由公式得a =1.125, b =8.973,所以ˆy =1.125+8.973u , 最后回代u=x 1,可得8.973ˆ 1.125y x=+.答:y 对x 的回归方程为8.973ˆ 1.125y x=+.方法规律:非线性回归问题要先根据已知的数据画出散点图,并把散点图与已经学习过的各种函数,如幂函数、指数函数、对数函数、二次函数等作比较,挑选出跟这些散点拟合最好的函数,然后再采用变量的置换,把问题转化为线性回归分析问题解决.变式训练:在兰新化工厂生产某种化学药品的生产车间内,技术人员测得如下表所示的6组数据,其中x ()min 表示化学反应进行的时间,y ()mg 表示未转化物质的量.(1)设y 与x 之间具有关系xcd y =,试根据测量数据估计c 和d 的值.(2)估计化学反应进行到min 10时未转化的物质的量.四、随堂练习1.变量x 、y 的散点图如图所示,那么x 、y 之间的样本相关系数r 的最接近的值为( )A.1B.-0.5C.0D.0.52.为了考察两个变量x和y之间的线性相关性.甲、乙两位同学各自独立地做10次和15次试验,并且利用线性回归方程,求得回归直线分别为12l l 和.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都为t,那么下列说法正确的是( )A. 12l l 与相交点为(s,t);B.12l l 与相交,相交点不一定是(s,t);C. 12l l 与必关于点(s,t)对称;D. 12l l 与必定重合. 3.对于相关系数r ,下列说法中正确的是( )A.||r 越大,相关程度越大B.||r 越小,相关程度越大C.||r 越大,相关程度越小;||r 越小,相关程度越大D.1||≤r 且||r 越接近1,相关程度越大;||r 越接近0,相关程度越小4.如图所示,有5组数据(x ,y),去掉_____组数据后,剩下的4组数据的线性相关系数最大.5. 已知回归直线的斜率的估计值是 1.23,样本点的中心为(4,5),则回归直线的方程是______。
6. 某产品的广告费用支出x与销售额y(单位:百万元)之间有如下统计数据:请对上述变量x、y进行相关性检验.五、课后作业1. 某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是 ( ) A. ^10200y x =-+ B. ^10200y x =+ C. ^10200y x =-- D. ^10200y x =- 2.对两个变量x 与y 进行回归分析,分别选择了4个不同模型,它们的相关系数r 如下,其中拟合效果最好的模型是( ) A .模型1的相关系数r 为0.98 B .模型2的相关系数r 为0.80 C .模型3的相关系数r 为0.50 D .模型4的相关系数r 为0.253.线性相关的四个样本点(,3.5),(2.5,6.2),(4.4,),(5.2,11.3)x y 的中心是(3.4,7.75),则___,___x y ==4.已知一系列样本点(,)(1,2,3,,)i i x y i n =的回归直线方程为ˆ23yx =-,若117ni i x ==∑,则1nii y==∑5.某矿脉中设有9个样本点,某种金属的含量y 与样本点到原点的距离x 有如下表的测量值:请按y a x=+建立y 对x 的回归方程,并预测当样本点到原点的距离20x =时,该种金属的含量.6.(1)求y与x之间的回归方程,对于基本苗数56.7预报有效穗. (2)计算各组残差,并计算残差平方和.(3)求2R ,并说明残差变量对有效穗的影响占百分之几?参考答案3.1 第二课时 选择回归模型2.基础预探1.随机误差2.残差3. 残差分析4. 越小 越好 三、典例导析 例1 变式训练解析:由题意可知:77.7,165.7x y ==,1010102211170903,277119,132938ii i i i i i xy x y ======∑∑∑.0.808≈.因为|r|接近1,所以可得两个变量有较强的线性相关关系. 例2 变式训练解析:由题意可知:18,45.4x y ==,552111600,3992,ii i i i xx y ====∑∑代入公式可知b =51522155i ii ii x y xyxx ==--∑∑=-2.35, a =y -b x =87.7 ,故所求回归直线方程为ˆy=-2.35x+87.7. 列出残差表为:所以,255211()8.3,()229.2,iii i i y y y y ==-=-=∑∑代入公式可知R 2=1-251521()()iii ii y y y y ==--∑∑≈0.964.因为0.964接近于1,所以该模型的拟合效果好. 例3 变式训练解析:(1)在xcd y =的两边取自然对数,可以得到d x c y ln ln ln +=.设z y =ln ,由公式计算得ˆ 3.926a≈,ˆ0.2244b ≈-, 线性回归方程为9055.3ˆ≈z x 2119.0-, 即9055.3ln ≈c ,2219.0ln -≈d ,所以675.49≈c ,8010.0≈d ,根据测量数据估计675.49=c ,8010.0=d .(2)由(1)知y 与x 之间的关系为ˆ49.6750.8010xy=⨯, 当10=x 时,ˆy=4.58010.0675.4910≈⨯.所以估计化学反应进行到min 10时未转化物质的量为mg 4.5.四、随堂练习 1. 答案:C解析:从散点图可以看出,x 与y 没有线性相关关系,因而r 的值接近于0. 2.答案:A解析:设回归直线方程为y bx a =+,则a y bx =-,即 a t bs =-,可得出t bs a =+.所以点(s,t)在回归直线上,所以直线12l l 与一定有公共点(s,t). 3.答案:D解析:由两个变量的相关系数公式可知,相关程度的强弱||r 与1的接近程度有关,||r 越接近1,相关程度越大;||r 越接近0,相关程度越小.4.答案:D解析:当各点分布在一条直线附近时,相关系数最大,由图中可知,A 、B 、C 、E 四点分布在一条直线附近,而D 点远离这条直线,故去掉D 点后,相关性最强,相关系数最大.5.ˆ 1.230.08yx =+ 解析:设回归直线方程为a x b y+=ˆˆ,依题意可知,23.1=b ,又样本点的中心(4,5)在直线上,即5 1.234a =⨯+即0.08a =,所以回归直线的方程为ˆ 1.230.08yx =+. 6.解:由题意可以列表如下:由上代入公式可得0.92r =≈,因为|r|接近于1,说明广告费用和销售额之间具有显著线性关系. 五、课后作业 1. 答案:A解:因为销量与价格负相关,由函数关系考虑为减函数可排除B 、D ,根据回归直线方程y a bx =+中b 的统计学意义知不能为负数,再排除C 选项,所以选A.2.答案:A解析:r 越接近于1,拟合效果越好。