回归分析的基本思想及其初步应用(一)
回归分析的基本思想及其初步应用
、回归分析的基本思想及其初步应用————————————————————————————————作者:————————————————————————————————日期:新课标数学选修1-21.1回归分析的基本思想及其初步应用(教师用书独具)●三维目标1.知识与技能通过典型案例的探究,了解回归分析的基本思想,会对两个变量进行回归分析,明确解决回归模型的基本步骤,并对具体问题进行回归分析以解决实际应用问题.了解最小二乘法的推导,解释残差变量的含义,了解偏差平方和分解的思想,了解判断刻画模型拟合效果的方法——相关指数和残差分析.掌握利用计算器求线性回归直线方程参数及相关系数的方法.2.过程与方法通过收集数据作散点图,分析散点图,求回归直线方程,分析回归效果,利用方程进行预报.3.情感、态度与价值观培养学生利用整体的观点和互相联系的观点来分析问题,进一步加强数学的应用意识,培养学生学好数学、用好数学的信心,加强与现实生活的联系,以科学的态度评价两个变量的相互关系.●重点难点重点:回归分析的基本方法、随机误差e的认识、残差图的概念、用残差及R2来刻画线性回归模型的拟合效果.难点:回归分析的基本方法、残差概念的理解及拟合效果的判定、非线性回归向线性回归的转化.教学时要以残差分析为重点,突出残差表和R2的计算,通过举例说明相关关系与确定性关系的区别,说明回归分析的必要性及其方法.借助例题使学生掌握作散点图、求回归直线方程的方法,通过作残差图、计算R2让学生掌握拟合效果的判断方法.对于非线性回归问题重点在如何转换,引导学生分析总结转化方法和技巧,从而化解难点.(教师用书独具)●教学建议本节课建议教师采取探究式教学,把“关注知识”转向“关注学生”,在教学过程中,把“给出知识”的过程转变为“引起活动,让学生探究知识的过程”,把“完成教学任务”转向“促进学生发展”,让学生成为课堂上的真正主人.在教学中,知识点可由学生通过探索“发现”,让学生充分经历探索与发现的过程,并引导学生积极解决探索过程中发现的问题.教学中不要以练习为主,而是定位在知识形成过程的探索,例题的解答也要由学生探讨、教师点拨,共同完成.要注重数学的思想性,如统计思想、随机观念、函数思想、数形结合的思想方法等,引导学生体验数学中的理性精神,加强数学形式下的思考和推理能力.●教学流程创设问题情境,引出问题,引导学生探讨,从而引出回归分析、线性回归模型、刻画回归效果的有关概念及解决方法.利用填一填的形式,使学生自主学习本节基础知识,并反馈了解,对理解有困难的概念加以讲解.引导学生在学习基础知识的基础上分析回答例题1的问题,并总结规律方法,完成变式训练.引导学生分析例题2,根据图中的数据计算系数,求出回归方程,列出残差表,求出R2并判断拟合效果,完成变式训练.完成当堂双基达标,巩固所学知识及应用方法,并进行反馈矫正.归纳整理,进行课堂小结,整体认识本节所学知识,强调重点内容和规律方法.通过老师启发引导,完成例题3,并要求学生借鉴例题3的解法完成变式训练.引导学生分析例题3,让学生作出散点图,观察相关性,引出问题,即如何使问题转化为相关关系并用线性回归分析二者关系.课标解读1.会用散点图分析两个变量是否存在相关关系.(重点) 2.会求回归方程,掌握建立回归模型的步骤,会选择回归模型.(重点、难点)线性回归模型【问题导思】一台机器由于使用时间较长,生产的零件有一些会有缺陷.按不同转速生产出有缺陷的零件的统计数据如下:转速x(转/秒)1614128每小时生产有缺陷的零件数y(件)119851.在平面直角坐标系中作出散点图.【提示】2.从散点图中判断x和y之间是否具有相关关系?【提示】有.3.若转速为10转/秒,能否预测机器每小时生产缺陷的零件件数?【提示】可以.根据散点图作出一条直线,求出直线方程后可预测.(1)回归直线方程:y^=b^x+a^,其中:b^=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2,a^=y-b^x,x=1n∑i=1nx i,y=1n∑i=1ny i.(2)变量样本点中心:(x,y),回归直线过样本点的中心.(3)线性回归模型:y=bx+a+e,其中e称为随机误差,a和b是模型的未知参数,自变量x称为解释变量,因变量y称为预报变量.刻画回归效果的方式残差对于样本点(x i,y i)(i=1,2,…,n)的随机误差的估计值e^i=y i-y^i,称为相应于点(x i,y i)的残差残差图利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图残差图法残差点比较均匀地落在水平的带状区域内,说明选用的模型比较适合,这样的带状区域的宽度越窄,说明模型拟合精度越高残差平方和残差平方和为∑i=1n(y i-y^i)2,残差平方和越小,模型拟合效果越好相关指数R2R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y)2,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归的效果越好回归分析的有关概念有下列说法:①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系^=b^x+a^,可以估计和观测变量的取值和变化趋势;④因表示;③通过回归方程y为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确命题的个数是()A.1B.2C.3D.4【思路探究】可借助于线性相关概念及性质逐一作出判断.【自主解答】①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程y^=b^x+a^的作用,故也正确.④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.【答案】 C1.解答例1中④时,必须明确具有线性相关关系的两个变量间才能求得一个线性回归方程,否则求得的方程无实际意义.因此必须先进行线性相关性判断,后求线性回归方程.2.回归分析的过程:(1)随机抽取样本,确定数据,形成样本点;(2)由样本点形成散点图,判断是否具有线性相关关系;(3)由最小二乘法确定线性回归方程; (4)由回归方程观察变量的取值及变化趋势.关于变量y 与x 之间的回归直线方程叙述正确的是( ) A .表示y 与x 之间的一种确定性关系 B .表示y 与x 之间的相关关系 C .表示y 与x 之间的最真实的关系D .表示y 与x 之间真实关系的一种效果最好的拟合【解析】 回归直线方程能最大可能地反映y 与x 之间的真实关系,故选项D 正确.【答案】 D线性回归分析已知某种商品的价格x (元)与需求量y (件)之间的关系有如下一组数据:x 14 16 18 20 22 y1210753求y 关于x 的回归直线方程,并说明回归模型拟合效果的好坏.【思路探究】 回归模型拟合效果的好坏可以通过计算R 2来判断,其值越大,说明模型的拟合效果越好.【自主解答】 x =15(14+16+18+20+22)=18, y =15(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660,∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b^=∑i=15x i y i-5x y∑i=15x2i-5x2=620-5×18×7.41 660-5×182=-1.15,a^=7.4+1.15×18=28.1,所以所求回归直线方程是y^=-1.15x+28.1.列出残差表:y i-y^i00.3-0.4-0.10.2y i-y 4.6 2.6-0.4-2.4-4.4所以∑i=15(y i-y^i)2=0.3,∑i=15(y i-y)2=53.2,R2=1-∑i=15(y i-y^i)2∑i=15(y i-y)2≈0.994,所以回归模型的拟合效果很好.1.回归直线方程能定量地描述两个变量的关系,系数a^,b^刻画了两个变量之间的变化趋势,其中b^表示x变化一个单位时,y的平均变化量.利用回归直线可以对问题进行预测,由一个变量的变化去推测另一个变量的变化.2.线性回归分析中:(1)残差平方和越小,预报精确度越高.(2)相关指数R2取值越大,说明模型的拟合效果越好.某运动员训练次数与运动成绩之间的数据关系如下:次数(x)34650成绩(y)34851(1)作出散点图;(2)求出线性回归方程;(3)作出残差图,并说明模型的拟合效果;(4)计算R2,并说明其含义.【解】(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示.(2)可求得x=39.25,y=40.875,∑i=18x2i=12 656,∑i=18y2i=13 731,∑i=18x i y i=13 180,∴b^=∑i=18(x i-x)(y i-y)∑i=18(x i-x)2=∑i=18x i y i-8x y∑i=18x2i-8x2≈1.041 5,a^=y-b^x=-0.003 875,∴线性回归方程为y^=1.041 5x-0.003 875.(3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.(4)相关指数R2=0.985 5.说明了该运动员的成绩的差异有98.55%的可能性是由训练次数引起的.非线性回归分析下表为收集到的一组数据:x 21232527293235y 711212466115325(1)作出x与y的散点图,并猜测x与y之间的关系;(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x=40时y的值.【思路探究】(1)画出散点图或进行相关性检验,确定两变量x、y是否线性相关.由散点图得x、y之间的回归模型.(2)进行拟合,预报回归模型,求回归方程.【自主解答】(1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=c1e c2x的周围,其中c1、c2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z=bx+a,a=ln c1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为:x 21232527293235z 1.946 2.398 3.045 3.178 4.190 4.745 5.784 求得回归直线方程为z^=0.272x-3.849,∴y^=e0.272x-3.849.残差如下表:y i711212466115325y^i 6.44311.10119.12532.95056.770128.381290.325 e^i0.557-0.101 1.875-8.9509.23-13.38134.675(3)当x=40时,y=e0.272x-3.849≈1 131.两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y=c1e c2x,我们可以通过对数变换把指数关系变为线性关系,令z=ln y,则变换后样本点应该分布在直线z =bx+a(a=ln c1,b=c2)的周围.有一个测量水流量的实验装置,测得试验数据如下表:i 1234567水高h(厘米)0.7 1.1 2.5 4.98.110.213.5 流量Q(升/分钟)0.0820.25 1.811.237.566.5134根据表中数据,建立Q与h之间的回归方程.【解】由表中测得的数据可以作出散点图,如图.观察散点图中样本点的分布规律,可以判断样本点分布在某一条曲线附近,表示该曲线的函数模型是Q=m·h n(m,n是正的常数).两边取常用对数,则lg Q=lg m+n·lg h.令y=lg Q,x=lg h,那么y=nx+lg m,即为线性函数模型y=bx+a的形式(其中b=n,a=lg m).由下面的数据表,用最小二乘法可求得b^≈2.509 7,a^=-0.707 7,所以n≈2.51,m≈0.196.i h i Q i x i=lg h i y i=lg Q i x2i x i y i10.70.082-0.154 9-1.086 20.0240.168 32 1.10.250.041 4-0.602 10.001 7-0.024 93 2.5 1.80.397 90.255 30.158 30.101 64 4.911.20.690 2 1.049 20.476 40.724 2 58.137.50.9085 1.574 00.825 4 1.430 0 610.266.5 1.0086 1.822 8 1.017 3 1.838 5 713.5134 1.130 3 2.127 1 1.277 6 2.404 3∑ 4.022 5.140 1 3.780 7 6.642 于是所求得的回归方程为Q=0.196·h2.51.没有理解相关指数R 2的意义而致误关于x 与y 有如下数据:x 2 4 5 6 8 y3040605070为了对x 、y 两个变量进行统计分析,现有以下两种线性模型:甲模型y ^=6.5x +17.5,乙模型y ^=7x +17,试比较哪一个模型拟合的效果更好.【错解】 ∵R 21=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1551 000=0.845.R 22=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1801 000=0.82.又∵84.5%>82%,∴乙选用的模型拟合的效果更好.【错因分析】 没有理解R 2的意义是致错的根源,用相关指数R 2来比较模型的拟合效果,R 2越大,模型的拟合效果越好,并不是R 2越小拟合效果更好.【防范措施】 R 2=1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2,R 2越大,残差平方和越小,从而回归模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,R2越接近1,表示回归的效果越好(因为R2越接近1,表示解释变量和预报变量的线性相关性越强).从根本上理解R2的意义和作用,就可防止此类错误的出现.【正解】R21=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-1551 000=0.845,R22=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-1801 000=0.82,84.5%>82%,所以甲模型拟合效果更好.1.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差e^1,e^2,…,e ^n 来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.2.我们还可以用相关指数R 2来反映回归的效果,其计算公式是:R 2=1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2.显然,R 2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率.1.已知x 和y 之间的一组数据x 0 1 2 3 y1357则y 与x 的线性回归方程y ^=b ^x +a ^必过点( ) A .(2,2) B .(32,0) C .(1,2)D .(32,4)【解析】 ∵x =14(0+1+2+3)=32,y =14(1+3+5+7)=4, ∴回归方程y ^=b^x +a ^必过点(32,4).【答案】 D2.(2013·青岛高二检测)在下列各组量中:①正方体的体积与棱长;②一块农田的水稻产量与施肥量;③人的身高与年龄;④家庭的支出与收入;⑤某户家庭的用电量与电价.其中量与量之间的关系是相关关系的是( )A .①②B .②④C .③④D .②③④【解析】①是函数关系V=a3;⑤电价是统一规定的,与用电量有一定的关系,但这种关系是确定的关系.②③④中的两个量之间的关系都是相关关系,因为水稻的产量与施肥量在一定范围内是正比、反比或其他关系,并不确定;人的身高一开始随着年龄的增加而增大,之后则不变化或降低,在身高增大时,也不是均匀增大的;家庭的支出与收入有一定的关系,在一开始,会随着收入的增加而支出也增加,而当收入增大到一定的值后,家庭支出趋向于一个常数值,也不是确定关系.【答案】 D3.下列命题正确的有________.①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量;②残差平方和越小的模型,拟合的效果越好;③用R2来刻画回归方程,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,若带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.【解析】对于①随机误差e是一个不可观测的量,③R2越趋于1,拟合效果越好,故①③错误.对于②残差平方和越小,拟合效果越好,同理当残差点比较均匀地落在水平的带状区域时,拟合效果越好,故②④正确.【答案】②④4.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x 345 6y 2.534 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测技改后生产100吨甲产品比技改前少消耗多少吨标准煤.(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 【解】 (1)如下图.(2)∑i =14x i y i =3×2.5+4×3+5×4+6×4.5=66.5,x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5,∑i =14x 2i =32+42+52+62=86.b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7, a^=y -b ^x =3.5-0.7×4.5=0.35, 因此,所求的线性回归方程为y ^=0.7x +0.35.(3)根据回归方程预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35(吨),故耗能减少了90-70.35=19.65(吨标准煤).一、选择题1.在画两个变量的散点图时,下面叙述正确的是( ) A .预报变量在x 轴上,解释变量在y 轴上 B .解释变量在x 轴上,预报变量在y 轴上C .可以选择两个变量中任意一个变量在x 轴上D .可以选择两个变量中任意一个变量在y 轴上【解析】 结合线性回归模型y =bx +a +e 可知,解释变量在x 轴上,预报变量在y 轴上,故选B.【答案】 B2.(2013·泰安高二检测)在回归分析中,相关指数R 2的值越大,说明残差平方和( )A .越大B .越小C .可能大也可能小D .以上均错【解析】 ∵R 2=1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2,∴当R 2越大时,∑i =1n(y i -y ^i )2越小,即残差平方和越小. 【答案】 B3.设变量y 对x 的线性回归方程为y ^=2-2.5x ,则变量x 每增加一个单位时,y 平均( )A .增加2.5个单位B .增加2个单位C .减少2.5个单位D .减少2个单位【解析】 回归直线的斜率b ^=-2.5,表示x 每增加一个单位,y 平均减少2.5个单位.【答案】 C4.(2012·湖南高考)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( ) A .y 与x 具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg【解析】由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本中心点(x,y),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.【答案】 D5.在判断两个变量y与x是否相关时,选择了4个不同的模型,它们的相关指数R2分别为:模型1的相关指数R2为0.98,模型2的相关指数R2为0.80,模型3的相关指数R2为0.50,模型4的相关指数R2为0.25.其中拟合效果最好的模型是()A.模型1 B.模型2C.模型3 D.模型4【解析】相关指数R2能够刻画用回归模型拟合数据的效果,相关指数R2的值越接近于1,说明回归模型拟合数据的效果越好.【答案】 A二、填空题6.在研究身高和体重的关系时,求得相关指数R2≈________,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.【解析】结合相关指数的计算公式R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y)2可知,当R2=0.64时,身高解释了64%的体重变化.【答案】0.647.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y^=0.254x+0.321.由回归直线方程可知,家庭年收入每增对x的回归直线方程:y加1万元,年饮食支出平均增加________万元.^=0.254(x+1)+0.321,与y^=0.254x+0.321相【解析】以x+1代x,得y减可得,年饮食支出平均增加0.254万元.【答案】0.2548.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________.【解析】由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y^-5=1.23(x-4),即y^=1.23x+0.08.^=1.23x+0.08【答案】y三、解答题9.某省2013年的阅卷现场有一位质检老师随机抽取5名学生的总成绩和数学成绩(单位:分)如下表所示:学生 A B C D E总成绩(x)482383421364362数学成绩(y)7865716461(1)作出散点图;(2)对x与y作回归分析;(3)求数学成绩y对总成绩x的回归直线方程;(4)如果一个学生的总成绩为500分,试预测这个学生的数学成绩.【解】(1)散点图如图所示:(2)x =2 0125,y =3395,∑5i =1x 2i =819 794,∑5i =1y 2i =23 167,∑5i =1x i y i =137 760. ∴r =错误! ·错误!)=错误!≈0.989.因此可以认为y 与x 有很强的线性相关关系. (3)回归系数b^=∑5i =1x i y i -5 x y ∑5i =1x 2i -5x2=0.132 452,a^=y -b ^x =14.501 315.∴回归方程为y ^=0.132 452x +14.501 315.(4)当x =500时,y ^≈81.即当一个学生的总成绩为500分时,他的数学成绩约为81分.10.(2012·福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)9(1)求回归直线方程y ^=bx +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【解】 (1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y=16(90+84+83+80+75+68)=80,又b=-20,所以a=y-b x=80+20×8.5=250,从而回归直线方程为y^=-20x+250.(2)设工厂获得的利润为L元,依题意得L=x(-20x+250)-4(-20x+250)=-20x2+330x-1 000=-20(x-8.25)2+361.25.当且仅当x=8.25时,L取得最大值.故当单价定为8.25元时,工厂可获得最大利润.11.在关于人的脂肪含量(百分比)和年龄的关系的研究中,研究人员获得了一组数据如下表:年龄x23273945657586061脂肪含量y 9.517.821.225.927.526.328.229.630.231.430.833.535.234.6 (1)作出散点图,并判断y与x是否线性相关.若线性相关,求线性回归方程;(2)求相关指数R2,并说明其含义;(3)给出37岁时人的脂肪含量的预测值.【解】(1)散点图如图所示.由散点图可知样本点呈条状分布,脂肪含量与年龄有比较好的线性相关关系,因此可以用线性回归方程来刻画它们之间的关系.设线性回归方程为y ^=b^x +a ^,则由计算器算得b^≈0.576,a ^≈=-0.448, 所以线性回归方程为y ^=0.576x -0.448. (2)残差平方和: ∑i =114e ^2i =∑i =114(y i -y ^i )2≈37.78.总偏差平方和:∑i =114(y i -y -)2≈644.99.R 2=1-37.78644.99≈0.941.R 2≈0.941,表明年龄解释了94.1%的脂肪含量变化.(3)当x =37时,y ^=0.576×37-0.448≈20.9,故37岁时人的脂肪含量约为20.9%.(教师用书独具)为研究重量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:x 51015202530y 7.258.128.959.9010.911.8(1)作出散点图并求回归方程;(2)求出R2;(3)进行残差分析.【思路探究】(1)由表作出散点图,求出系数值,即可写出回归方程.(2)列出残差表,计算R2,由R2的值判断拟合效果.(3)由(2)中残差表中数值,进行回归分析.【自主解答】(1)散点图如图.x=16(5+10+15+20+25+30)=17.5,y=16(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑i=16x2i=2 275,∑i=16x i y i=1 076.2.计算得,b^≈0.183,a^≈6.285,所求线性回归方程为y^=6.285+0.183x.(2)列表如下:y i-y^i0.050.005-0.08-0.0450.040.025y i-y-2.24-1.37-0.540.41 1.41 2.31所以∑i =16 (y i -y ^i )2≈0.013 18,∑i =16(y i -y )2=14.678 4.所以,R 2=1-0.013 1814.678 4≈0.999 1,回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.建立回归模型的基本步骤: (1)确定解释变量和预报变量;(2)画散点图,观察是否存在线性相关关系; (3)确定回归方程的类型,如y =bx +a ; (4)按最小二乘法估计回归方程中的参数;(5)得结果后分析残差图是否异常,若存在异常,则检查数据是否有误,或模型是否合适.假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有关的统计资料如下表所示.使用年限x 2 3 4 5 6 维修费用y2.23.85.56.57.0若由资料知y 对x 呈线性相关关系.试求: (1)线性回归方程y ^=b^x +a ^的回归系数a ^、b ^;(2)求相关指数R2;(3)估计使用年限为10年时,维修费用是多少?【解】(1)由已知数据制成下表.i 12345合计x i2345620y i 2.2 3.8 5.5 6.57.025 由此可得x=4,y=5,b^=∑i=15(x i-x)(y i-y)∑i=15(x i-x)2=1.23,a^=y-b^x=5-1.23×4=0.08,∴y^=1.23x+0.08.(2)R2=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-0.65115.78≈0.958 7.(3)回归直线方程为y^=1.23x+0.08,当x=10(年)时,y^=1.23×10+0.08=12.38(万元),即估计使用10年时维修费用是12.38万元.。
3.1回归分析的基本思想及其初步应用
35
40
45Leabharlann 水稻产量y330 345
365
405 445
450 455
施化肥量x
水稻产量y
15
20
25
365
30
35
40
45
330 345
405 445
450 455
y
500 450
水稻产量
400
350
·
· ·
·
·· ·
施化肥量
40 50
30010
20
30
x
2013-6-4
1、定义:
5
1
3
5
4
3
2
7
1
9
求两变量间的回归方程. 解:列表:
i xi 1 -1 2 -2 3 -3 4 -4 5 -5 6 5 7 3 8 4 9 2 10 1
yi
xiyi
-9
9
-7
14
-5
15
-3
12
-1
5
1
5
5
15
3
12
7
14
9
9
x 0, y 0,
2013-6-4
x
i 1
10
2 i
110,
高二数学 选修2-3
3.1回归分析的基 本思想及其初步 应用(一)
2013-6-4
数学3——统计内容 1. 画散点图
2. 了解最小二乘法的思想
3. 求回归直线方程 y=bx+a 4. 用回归直线方程解决应用问题
2013-6-4
复习 变量之间的两种关系
问题1:正方形的面积y与正方形的边长x之间 的函数关系是 y = x2 确定性关系 问题2:某水田水稻产量y与施肥量x之间是否 有一个确定性的关系? 例如:在 7 块并排、形状大小相同的试验田上 进行施肥量对水稻产量影响的试验,得 到如下所示的一组数据: 施化肥量x 15 20 25 30
回归分析的基本思想及初步应用
回归分析的基本思想及初步应用回归分析是一种用于研究变量之间关系的统计方法。
其基本思想是通过建立一个数学模型来描述自变量(独立变量)和因变量(依赖变量)之间的关系,并根据已有数据对模型进行拟合和估计,以了解两个变量之间的关系程度。
回归分析最早是由英国统计学家弗朗西斯·高尔顿在19世纪中叶提出的。
他注意到,人口增长与时间之间似乎存在其中一种关系,于是使用统计方法将时间作为自变量,人口数量作为因变量,建立了一个数学模型。
这个数学模型称为“回归方程”,后来成为了回归分析的基础。
在建模阶段,我们首先要确定自变量和因变量,并根据问题目标和已有数据选取适当的变量。
然后,我们需要选择一个适当的回归模型来描述自变量和因变量之间的关系。
常见的回归模型包括线性回归模型、多项式回归模型、指数回归模型等。
模型的选择通常基于对自变量和因变量之间关系的推测和理论的支持。
同时,还需要根据数据特点和拟合效果选择回归模型的阶数和形式。
在推断阶段,我们需要对模型进行估计和检验。
首先,我们使用已有数据对回归模型进行拟合,根据最小二乘法估计出回归系数的值,并计算出模型预测的因变量值。
然后,通过各种统计方法对模型的拟合程度进行评估。
常用的评估指标有残差分析、R平方和调整R平方等。
此外,还可以进行t检验和F检验来检验回归系数和模型整体的显著性。
这些检验能够帮助我们判断回归模型是否能够很好地描述自变量和因变量之间的关系,并对未来值进行预测和推断。
回归分析的应用非常广泛。
它在社会科学、经济学、医学、生态学等领域都有着重要的应用。
在经济学中,回归分析可以用于预测和解释宏观经济变量之间的关系,如GDP与就业率之间的关系。
在医学中,回归分析可以用于研究因素对疾病发生的影响,如吸烟与肺癌之间的关系。
此外,回归分析还可以用于分析市场需求、产品定价、销售预测等问题,为决策提供科学依据。
总而言之,回归分析是一种用于研究变量关系的重要统计方法。
通过建立数学模型,估计和检验回归系数,可以帮助我们了解变量之间的关系程度,并利用这种关系进行预测和推断。
3.1回归分析的基本思想及其初步应用(一)
对数变换后的样本数据为:
x z
21 23 25 27 29 32 35
1.946 2.398 3.045 3.178 4.190 4.745 5.784
得到的线性回归方程是
z 0.272x 3.849
探究2:在这些点附近可画不止一条直线,哪条
直线最能代表x与y之间的关系呢?
对于一组具有线性相关的数据
( x1, y1 ),( x2 , y2 ),...,( xn , yn )
其回归直线方程为
n
y bx a
n
ˆ b
( x x)( y y) x y nx y
i 1 i i
解答步骤:
1.确定变量; 2.作散点图,判断相关关系; 3.设回归方程;
4.求回归方程;
5.根据回归方程作出预报.
对于一组具有线性相关的数据
( x1, y1 ),( x2 , y2 ),...,( xn , yn )
其回归直线方程为
y bx a
y bx a e
——线性回归模型
从散点图看出,两个变量没有线性相关关系,可 以认为样本点集中在某一条二次曲线的附近.
设此曲线的方程为
y c3 x c4 ——非线性回归方程 其中 c3 和 c 4 是待定参数.
2
令
tx
2
则
——平方变换
y c3t c4
平方变换后的样本数据为:
t y
350 y 300 250 200 150 100 50 0 400 500 600 700 800 900 t 1000 1100 1200 1300
回归分析的基本思想及其初步应用(1)
2.开关按键和塑胶按键设计间隙建议 留0.05~0.1mm,以防按键死键。 3.要考虑成型工艺,合理计算累积公 差,以防按键手感不良。
2.求回归直线(同学们完成)
编号1 2 3
4
5
6
7
8
身高/cm 165 165 157 170 175 165 155 170
回归分析的基本思想 及其初步应用(一)
1
提问:“严师出高徒”这句彦语的意思 是 什么?严厉的老师就一定能教出厉害 的学生吗?这两者之间是否有关? 函数关系是一种确定性关系,而相关关 系是一种非确定性关系. 回归分析是对 具有相关关系的两个变量进行统计分析 的一种常用方法
其步骤:收集数据 利用方程进行预报.
相关系数
n
(xi x)(yi y)
r
i 1
n
n
(xi x)2 ( yi y)2
i 1
i 1
9
体重/kg 48 57 50 54 64 61 43 59
y 0.849x 85.712
3.当x=172时,y=60.316(kg)
思考:身高为172cm的女大学生的体重
一定是60.316kg吗?
6
通过探讨发现: 体重与身高之间的关系不能用一次函数 y=bx+a来严格的刻画.
如:身高为165cm,体重分别为48kg, 57kg,61kg
体重/kg
80
60
40
20
0 150
155
160
165
170
175
180
身高/cm
7
由此可以说明:体重不仅受身高影响, 还受其他因素的影响,我们把这种影
人教A版高二数学选修 回归分析的基本思想及其初步应用(1)-2PPT
知识概要
1. 下列变量之间的关系哪些是函数关系?哪些是相关关系?
(1)正方体的体积与边长之间的关系;
(2)某人骑行了1km,他骑车的平均速度与骑行时间之间的 关系;
(3)商品销售收入与广告支出经费之间的关系; (4)人体内的脂肪含量与年龄之间的关系. (1)、(2)是函数关系.
知识概要
1. 下列变量之间的关系哪些是函数关系?哪些是相关关系?
bx a 预报真实值y的精度越高; 另一方面,由于用最小二乘法得出的 bˆ 和 aˆ 为斜率和截距
的估计值,它们与真实值a和b之间也存在误差,这种误差是引
起预报值 yˆ 与真实值y之间存在误差的另一个原因.
思考 在前面的案例中,产生随机误差项e的原因是什么? 1. 一个人的体重值除了受身高的影响外,还受遗传基因、
yˆ 0.849x 85.712
问题2 用一次函数模型y bx a 求出的y值与真实的y值之间的
误差是常数还是随机变量? 随机变量
问题3 如果我们将上述误差用字母e来表示,可以如何完善身高 与体重的线性回归模型?
y=bx+a+e
问题4 在函数关系中,y的值由哪些量确定?在回归模型中,y的
yi ,
(x,
y) 称为样本点的中心.
5. 回归分析是对具有相关关系的两个变量进行统计分析的一种常 用方法,其具体步骤是什么?
步骤为:画散点图 进行预报.
求回归直线方程
利用回归直线方程
案例分析
例 从某大学中随机选取8名女大学生,其身高和体重数据如表 所示
编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 61 43 59
回归分析的基本思想及其应用(一)
第40课时 回归分析基本思想及其初步应用(一)学习目标:1、了解相关关系的概念及其与函数关系的区别;2、掌握线性回归方程的求法及其步骤;3、了解线性回归模型及随机误差的含义。
教学重点; 线性回归方程 教学难点: 线性回归模型 教学工具: Powerpoint 教学过程:(一) 复习引入1、相关关系:对于两个变量,当自变量的取值一定时,因变量的取值带有一定随机性的两个变量之间的关系。
2、函数关系:两个变量之间是一种确定性关系;3、两个具有线性相关关系的变量的统计分析步骤(板书): 设样本点(x 1,y 1),(x 2,y 2),……,(x n ,y n ) (1) 画出散点图; (2) 求回归直线方程abx y+=∧,其中∑∑∑∑====∧--=---=ni i ni i i ni i ni i i xn x yx n y x x x y y x x b 1221121)())((………①xb y a ∧∧-= ………②(3) 利用线性回归方程进行预报 这种方法叫做回归分析,是对具有相关关系的两个变量进行统计分析的一种常用方法。
板书:(y x ,)叫做样本点的中心,回归直线过样本点的中心。
(二)推进新课60.316kg 的女大学生的身高(精确到1cm )。
解:由于问题中要求根据体重预报身高,因此选取体重为自变量x ,身高为因变量y.作出散点图如下:从图中可以看出,样本点呈条状分布,体重和身高有比较好的线必相关关系,因此可以用回归直线y=bx+a 来近似刻画它们之间的关系。
又据表中数据计算得:5.54=x ,25.165=y,24116812=∑=i i x ,218774812=∑=i i y ,7231581=∑=i i i y x于是根据前面的公式①②,可以得∧b=7514.05.54102411625.1655.5410723152=⨯-⨯⨯-xb y a ∧∧-==165.25-0.7514×54.5=124.3于是得到回归方程:124.30.7514x y+=∧∧b=0.7514是回归直线的斜率的估计值,说明体重每增加1单位时,身高就增加0.7514个单位,这表明身高y 和体重x 具有正的线性相关关系.因此,对于体重为60.316kg 的女大学生,由回归方程可以预报其身高为:cm17062.169124.360.3160.7514y ≈=+⨯=∧探究(1)体重60.316kg 的女大学生的身高一定是170cm 吗?如果不是,其原因是什么? 显然,体重60.316kg 的女大学生的身高不一定是170cm ,但一般可以认为她的身高在170cm 左右。
1.1回归分析的基本思想及其初步应用(1)
1
165 48
2
165 57
3
157 50
4
170 54
5
175 64
6
165 61
7
155 43
8
170 59
(1)画散点图,从图中发现身高与体重之间的关系; (2)求根据女大学生的身高预报她的体重的回归方程; (3)并预报一名身高为172cm的女大学生的体重; (4)计算相关系数r。
例1 从某大学中随机选出8名女大学生,其身高 和体重数据如下表:
编号 1 2 3 4 5 6 7 8
身高 体重
165 48
165 57
157 50
170 54
175 64
165 61
155 43
170 59
(1)画散点图,从图中发现身高与体重之间的关系; (2)求根据女大学生的身高预报她的体重的回归方程; (3)并预报一名身高为172cm的女大学生的体重。
n
x
i 1
nx
2
,
1 n x xi n i 1
1 n y yi n i 1
a y b x
y bxa 从而得到回归直线:
不能用一次函数 y=bx+a严格的刻画它 们之间的关系。
用线性回归模型 y=bx+a+e来描述身高和 体重的关系:其中a和b为模型的未知参数。 e:称为随机误差 x(身高):解释变量 y(体重):预报变量 产生随机误差项e的原因是什么?
原因:饮食习惯、运动影响,没有人知道身高和体重 之间的真正关系是什么,现在只是利用线性回归方程 来近似这种关系。
解释变量x(身高) 预报变量y(体重) 随机误差e e是一个随机变量,一般假定它的均值为0,也就 是y的期望值是x的一次函数。在实际问题中,线 性回归模型适用的范围要比一次函数大得多。
25-3.1回归分析的基本思想及其初步应用(1)
3.1回归分析的基本思想及其应用教材分析本节内容是数学选修2-3 第三章 统计案例 的起始课,是在《数学③(必修)》之后,学生已经学习了两个变量之间的相关关系,包括画散点图,最小二乘法求回归直线方程等内容.在这一节中进一步介绍回归分析的基本思想及其初步应用.这部分内容《教师用书》共计4课时,第一课时:介绍线性回归模型的数学表达式,解释随机误差项产生的原因,使学生能正确理解回归方程的预报结果,并能从残差分析角度讨论回归模型的拟合效果;第二课时:从相关系数、相关指数角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;第三课时:介绍两个变量非线性相关关系;第四课时:回归分析的应用. 本节课是第一课时的内容.本节课的重点是回归分析的基本方法、随机误差e 的认识、残差,难点是回归分析的基本方法.课时分配本节内容用1课时的时间完成,主要介绍线性回归模型的数学表达式,解释随机误差项产生的原因,使学生能正确理解回归方程的预报结果,并能从残差分析角度讨论回归模型的拟合效果.教学目标重点: 回归分析的基本方法、随机误差e 的认识、残差. 难点:回归分析的基本方法.知识点:回归分析的基本方法、随机误差e 、残差.能力点:如何探寻回归分析的基本方法,数形结合的数学思想的运用.教育点:经历由特殊到一般的研究数学问题的过程,体会探究的乐趣,激发学生的学习热情. 自主探究点:如何运用最小二乘法求回归直线方程.考试点:求解线性回归方程,从残差的角度讨论回归模型的拟合效果. 易错易混点:随机误差e 与残差之间的区别与联系.拓展点:从相关系数、相关指数角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤.教具准备 多媒体课件 课堂模式 学案导学 一、引入新课对于一组具有线性相关关系的数据112233(,),(,),(,),,(,).n n x y x y x y x y 其回归直线方程的截距和斜率的最小二乘法估计公式分别为:a y bx =- 121()()()niii nii x x y y b x x ==--=-∑∑11n i i x x n ==∑ 11ni i y y n ==∑ (,)x y 称为样本点的中心. 如何推导这两个计算公式?【设计意图】由学生所熟悉的最小二乘法引入新课,消除了学生对新知的恐惧感,引出最小二乘法的中的系数,a b ∧∧的计算公式的推导过程.二、探究新知从已经学过的知识,截距a 和斜率b 分别是使21(,)()niii Q y x αββα==--∑取最小值时,αβ的值,由于212212211(,)[((]{[(2[([(][(]}[(2[([(](ni i i ni i i i i nni i i i i i Q y x y x y x y x y x y x y x y x y x y x y x y x y x y x n y x αββββαβββββαβαβββββαβα=====-----=---+---⋅--+--=---+---⋅--+--∑∑∑∑)+))])])))])]))因为1111[((([(([(]([(]0,nniiiii i n ni i i i y x y x y x y x y x y x y x y x n y x y x ny n x n y x βββαβαβββαβββαββ====-----=-----=-----=-----=∑∑∑∑)])))]))))所以2212222111222221122111[([(]()2()()()(()()[()()](()[]()()()ni i i n n ni i ii i i i nniii i ni i i i nni i iii i Q y x y x n y x x x x x y y y y n y x x x y y x x y y n y x x x y y x x x x αββββαβββαβαβ==========---+--=----+-+------=--+---+---∑∑∑∑∑∑∑∑∑(,))])))1n=∑在上式中,后两项和,αβ无关,而前两项为非负数,因此要使Q 取得最小值,当且仅当前两项的值均为0.,既有121()()()niii nii x x y y x x β==--=-∑∑y x αβ=-通过上式推导,可以训练学生的计算能力,观察分析能力,能够很好训练学生数学能力,必须在老师引导下让学生自己推出.所以:a y bx =- 121()()()niii nii x x y y b x x ==--=-∑∑这正是我们所要推导的公式.三、理解新知准确理解最小二乘法中系数,a b ∧∧的计算公式,以及回归方程的求解过程. 【设计意图】为准确地运用新知,作必要的铺垫.四、运用新知例1、 从某大学中随机选取8名女大学生,其身高和体重的数据如图所示:(1) 画出以身高为自变量x,体重为因变量y 的散点图;(2) 求根据女大学生的身高预报体重的回归方程;(3) 求预报一名身高为172cm 的女大学生的体重. 解:(1)由于问题中要求根据身高预报体重,因此选取身高为自变量x ,体重为因变量y 作散点图:(2)0.849,85.712:0.84985.712.b a y x ==-∴=-回归方程(3)对于身高172cm 的女大学生,由回归方程可以预报体重为:0.84917285.71260.316()y kg =⨯-=ˆ0.849b=是斜率的估计值,说明身高x 每增加1个单位时,体重y 就增加0.849 个单位,这表明体重与身高具有正的线性相关关系.如何描述它们之间线性相关关系的强弱?【设计意图】通过具体例子让学生感受回归分析思想的应用.最后的问题为接下来引入残差做了铺垫.在必修 3 中,我们介绍了用相关系数;来衡量两个变量之间线性相关关系的方法.本相关系数的具体计算公式为()()niix x y y r --=∑当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值接近于0时,表明两个变量之间几乎不存在线性相关关系.通常,当r 的绝对值大于0. 75 时认为两个变量有很强的线性相关关系.165在本例中,可以计算出r =0. 798.这表明体重与身高有很强的线性相关关系,从而也表明我们建立的回归模型是有意义的.显然,身高172cm 的女大学生的体重不一定是60. 316 kg ,但一般可以认为她的体重接近于60 . 316 kg .图3 . 1- 2 中的样本点和回归直线的相互位置说明了这一点.由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用下面的线性回归模型来表示:y bx a e =++, ( 3 )这里a 和b 为模型的未知参数,e 是y 与y bx a =+之间的误差.通常e 为随机变量,称为随机误差,它的均值 E (e )=0,方差D (e )=2()D e σ=>0 .这样线性回归模型的完整表达式为:2,()0,().y bx a e E e D e σ=++⎧⎨==⎩ (4) 在线性回归模型(4)中,随机误差e 的方差越小,通过回归直线y bx a =+ (5)预报真实值y 的精度越高.随机误差是引起预报值y 与真实值y 之间的误差的原因之一,大小取决于随机误差的方差.另一方面,由于公式(1)和(2)中a 和b 为截距和斜率的估计值,它们与真实值a 和b 之间也存在误差,这种误差是引起预报值y 与真实值y 之间误差的另一个原因.【设计意图】引入随机误差e 后,将回归方程推广到回归模型. 思考:产生随机误差项e 的原因是什么?一个人的体重值除了受身高的影响外,还受许多其他因素的影响.例如饮食习惯、是否喜欢运动、度量误差等.事实上,我们无法知道身高和体重之间的确切关系是什么,这里只是利用线性回归方程来近似这种关系.这种近似以及上面提到的影响因素都是产生随机误差 e 的原因.因为随机误差是随机变量,所以可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机误差的均值为0,因此可以用方差2σ来衡量随机误差的大小.为了衡量预报的精度,需要估计护的值.一个自然的想法是通过样本方差来估计总体方差.如何得到随机变量e 的样本呢?由于模型(3)或(4)中的e 隐含在预报变量y 中,我们无法精确地把它从y 中分离出来,因此也就无法得到随机变量e 的样本.解决问题的途径是通过样本的估计值来估计2σ.根据截距和斜率的估计公式(1)和(2 ) , 可以建立回归方程y bx a =+,因此y 是(5)中y 的估计量.由于随机误差e y y =-,所以e y y =-是e 的估计量.对于样本点(11,x y ) , (22,x y ) ,…, (,n n x y ) 而言,相应于它们的随机误差为,1,2,,i i i i i e y y y bx a i n =-=--=,其估计值为,1,2,,i i i i i e y y y b x a i n ∧∧∧∧=-=--=,i e ∧称为相应于点(,)i i x y 的残差(residual ).类比样本方差估计总体方差的思想,可以用22111(,)(2)22n i i e Q a b n n n σ∧∧∧∧===>--∑ 作为2σ的估计量, 其中a 和b 由公式(1) (2)给出,Q (a ,b )称为残差平方和(residual sum of squares ).可以用2σ∧衡量回归方程的预报精度.通常,2σ∧越小,预报精度越高.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差12,,,n e e e ∧∧∧来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析. 【设计意图】引入残差的概念,使学生会运用残差分析的思想分析模型的拟合效果. 表3- 2 列出了女大学生身高和体重的原始数据以及相应的残差数据.e -6.373 的估计值等,这样作出的图形称为残差图.【设计意图】通过例1的具体数据让学生感受残差分析的应用. 【变式练习】观察两相关变量得如下数据:求两个变量的回归方程. 解:10102110,0,110,110,i i i i i x y x x y ======∑∑10110221101101001,000.11010010i ii i i x y x yb a y b x b x x∧∧∧∧==--⨯∴====-=-⋅=-⨯-∑∑ 所以所求回归直线方程为y x =【设计意图】让学生自己动手解决求回归方程的问题,加深对回归分析思想的印象.五、课堂小结教师提问:本节课我们学习了哪些知识,涉及到哪些数学思想方法? 学生作答:1.回归直线方程,随机误差及残差.2.思想:回归分析的思想、数形结合的思想、残差分析的思想.教师总结: 公式的证明过程用到了前面两章学过的知识,提醒学生: 在学习新知时,也要经常复习前面学过的内容,“温故而知新”.在应用中增强对知识(如本节的随机误差和残差)的理解,及时查缺补漏,从而更好地运用知识,解题要有目的性,加强对数学知识、思想方法的认识与自觉运用. 【设计意图】 加强对学生学习方法的指导,做到“授人以渔”.六、布置作业1.阅读教材P80—84;2.书面作业 P89 习题3.1 1.(1)、(2)、(4).3.课外思考:如何运用回归分析的思想对未知量进行预报轨迹呢?【设计意图】设计作业1,2,是引导学生先复习,再作业,培养学生良好的学习习惯.书面作业的布置,是为了让学生能够运用回归分析的思想,解决简单的数学问题;课外思考的安排,是让学生理解回归分析的思想,从而让学生深刻地体会随机误差,残差分析的思想,培养学生回归分析的基本思想,起到承上启下的作用.七、教后反思1.由于各校的情况不同,建议教师在使用本教案时灵活掌握,但必须在公式的证明思路的探寻上下足功夫.2.本节课的弱项是由于整堂课课堂容量较大,在课堂上没有充分暴露学生的思维过程,并给予针对性地诊断与分析.八、板书设计1i nb ==∑bx。
回归分析的基本思想及其初步应用
3.1回归分析的基本思想及其初步应用(第一课时)班级: 姓名: 组别:学习目标1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;2. 了解线性回归模型与函数模型的差异,了解衡量两个变量之间线性相关关系得方法---相关系数.重点难点重点:通过典型案例的探究进一步了解回归分析的基本思想、方法。
难点:运用典型案例的探究回归分析的基本思想、方法。
一、了解感知请同学们阅读教材P 2~ P 4,完成下面的问题 问题1:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?问题2:函数关系是一种 关系,而相关关系是一种 关系.问题3:回归分析是对具有 关系的两个变量进行统计分析的一种常用方法,其步骤: → → → .二、深入学习实例问题为172cm 的女大学生的体重.解:由于问题中要求根据身高预报体重,因此 选 自变量x , 为因变量. (1)做散点图:从散点图可以看出 和 有比较好的 相关关系.(2) x = y =81i ii x y==∑821ii x==∑所以81822188i ii ii x yx y b xx==-==-∑∑ a y bx =-≈于是得到回归直线的方程为(3)身高为172cm 的女大学生,由回归方程可以预报其体重为 y =问题:身高为172cm 的女大学生,体重一定是上述预报值吗?思考:1.线性回归模型与一次函数有何不同?2.用相关系数r 可衡量两个变量之间 关系.计算公式为 r =r >0, 相关, r <0 相关;相关系数的绝对值越接近于1,两个变量的线性相关关系 ,它们的散点图越接近 ;r > ,两个变量有 关系.三、迁移运用1.某班5名学生的数学和物理成绩如下表:(2) 求物理成绩y 对数学成绩x 的回归直线方程;(3) 该班某学生数学成绩为96,试预测其物理成绩;小结:求线性回归方程的步骤: 2..(17广东卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据(1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出y关于x 的线性回归方程y bx a =+;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值3 2.543546 4.566.5⨯+⨯+⨯+⨯=) 的某机械零件有一些会有 下表为抽样试验的结果:(2)求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10 个,那么机器的运转速度应控制在什么范围内?四、本节课反思:3.1回归分析的基本思想及其初步应用跟踪训练(第一课时)班级: 姓名: 组别:1、散点图在回归分析中的作用是 ( ) A .查找个体数目 B .比较个体数据关系 C .探究个体分类D .粗略判断变量是否呈线性关系2、对于相关系数下列描述正确的是 ( ) A .r >0表明两个变量相关 B .r <0表明两个变量无关C .r 越接近1,表明两个变量线性相关性越强D .r 越小,表明两个变量线性相关性越弱3、预报变量的值与下列哪些因素有关 ( ) A .受解释变量影响与随机误差无关 B .受随机误差影响与解释变量无关 C .与总偏差平方和有关与残差无关 D .与解释变量和随机误差的总效应有关4、下列说法正确的是 ( ) A .任何两个变量都具有相关系 B .球的体积与球的半径具有相关关系 C .农作物的产量与施肥量是一种确定性关系 D .某商品的产量与销售价格之间是非确定性关系5、在画两个变量的散点图时,下面哪个叙述是正确的( )A . 预报变量在x 轴上,解释变量在 y 轴上B . 解释变量在x 轴上,预报变量在 y 轴上C . 可以选择两个变量中任意一个变量在x 轴上D . 可以选择两个变量中任意一个变量在 y 轴上6.柴静《穹顶之下》的播出,让大家对雾霾天气的危害有了更进一步的认识,对于雾霾天气的研究也渐渐活跃起来,某研究机构对春节燃放烟花爆竹的天数x 与雾霾天数y 进行统计分析,得出下表数据:(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试根据(2)求出的线性回归方程,预测燃放烟花爆竹的天数为9的雾霾天数. 7.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,根据试验数据得到如下图所示的散点图,其中x 表示零件的个数,y 表示加工时间,则y 关于x 的线性回归方程是________.8.(2017·四川遂宁三诊)某公司为了解广告投入对销售收益的影响,在若干地区共投入4万元广告费用,并将各地的销售收益绘制成频率分布直方图(如图所示).由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.(1)根据频率分布直方图计算图中各小矩形的宽度;(2)试估计该公司投入4万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:出y关于x的回归直线方程.。
3.1回归分析的基本思想及其初步应用(一)(用)
当r [0.75,1], 表明两个变量正线性相关很强; 当r [1, 0.75], 表明两个变量负线性相关很强; 当r [0.25, 0.25], 表明两个变量线性相关性较弱。
相关关系的测度
(相关系数取值及其意义)
完全负相关
无线性相关
完全正相关
-1.0 -0.5 0 +0.5 +1.0
r
负相关程度增加 正相关程度增加
样本点呈条状分布,身高和体重有较好的线性相关关 系,因此可以用线性回归方程来近似的刻画它们之间 的关系.
最小二乘法: yˆ bˆx aˆ
n
n
bˆ =
i=1(xi -x)(yi -y)
n
(xi -x)2iຫໍສະໝຸດ 1=i=1xi
yi
-n xy
n
xi2-nx 2
i=1
,
aˆ=y-bˆ x.
其中x=
(4)
其中a和b为模型的未知参数,e称为随机误差。
2、数据点和它在回归直线上相应位置的差异
是随机误差的效应,称 ei =yi yi为残差。
(yi
yi
)
2020/10/1
郑平正 制作
5、残差分析与残差图的定义:
在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是 否线性相关,是否可以用回归模型来拟合数据。
50 54
2.419 -4.618
5 175 64
1.137
6
7
8
165 155 170
61 43 59
6.627 -2.883 0.382
我们可以利用图形来分析残差特性,作图时纵坐标为残差, 横坐标可以选为样本编号,或身高数据,或体重估计值等,这 样作出的图形称为残差图。
31回归分析的基本思想及其初步应用(优质课)
i
- x )( yi - y )
n
2 2 ( x x ) ( y y ) i i i =1 i =1
2.相关系数的性质 (1)|r|≤1. (2)|r|越接近于1,相关程度越大;|r|越接近 于0,相关程度越小.
2015-5-24
郑平正 制作
负相关
正相关
2015-5-24
郑平正 制作
统计分析的方法叫回归分析.
2015-5-24
郑平正 制作
2、现实生活中存在着大量的相关关系. 如:人的身高与年龄; 产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入.等等
2015-5-24
郑平正 制作
ˆ a ˆ bx ˆ 回归直线方程:: y
n ( xi - x )( yi - y ) b= ˆ i=1 = n 2 ( x - x) i i=1 ˆ x. a= ˆ y -b
从散点图中还看到,样本点散布在某一条直 线的附近 ,而不是在一条直线上,所以不能用一次 函数 y = bx + a
来描述它们之间的关系 . 这时我们把身高和体重 的关系用下面的线性回归模型 y = bx + a + e ( 3) 来表示,这里a和b为模型的未知参数,e是y与bx + a 之间的误差.通常e为随机变量, 称为随机误差,它的
并预报一名身高为172cm的女大学生的体重。
解; 1.由于问题中要 求根据身高预报体重, 因此选取身高为解释 变量x,体重为预报变 量y.
2. 散点图;
3.回归方程:
ˆ 0.849 x 85.712 y
x y 72315
i 1 i i
回归分析的基本思想及其初步应用第
二次函数模型
指数函数模型
最好的模型是哪个?
函数模型 线性回归模型
相关指数R2 0.7464
比
二次函数模型
0.80
一
比
指数函数模型
0.98
作业: 在7块并排的、形状大小相同的实验田上进行施
肥量对水稻产量影响的试验,得到如下一组表所示 的数据(单位:kg)
施化肥量x 15 20 25 30 35 40 45
620 518 7.4 1660 5182 1.15.
i 1
aˆ 7.4 1.1518 28.1.
回归直线方程为:yˆ 1.15x 28.1.
练习1 在一段时间内,某中商品的价格x元和需求量Y件之
间的一组数据为:
价格x 14 16
18
20
22
需求量Y 12 10
7
5
3
求出Y对的回归直线方程,并说明拟合效果的好坏。 列出残差表为
i=1
显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效 果越好。
R2越接近1,表示回归的效果越好(因为R2越接近1,表示解析变 量和预报变量的线性相关性越强)。
总如的果来某说组:数据可能采取几种不同回归方程进行回归分析,
则可相以关通指过数比R2较是R度2的量值模来型做拟出合选效择果,的即一选种取指R标2较。大的模型作为这 组数在据线的性模模型型。中,它代表自变量刻画预报变量的能力。
(1)画出散点图
(2)根据女大学生的身高预报体重的回归方程,
(3)预报一名身高为172cm的女大学生的体重.
解:1、选取身高为自变量x,体重为因变量y,作散点图:
2、由散点图知道身高和体重有比较好的线性相关关系, 因此可以用线性回归方程刻画它们之间的关系。
回归分析的基本思想及其初步应用(1)
施化肥量
10 20 30 40 50
x
1、定义:
自变量取值一定时,因变量的取值带有一定 随机性的两个变量之间的关系叫做相关关系。
注 1):相关关系是一种不确定性关系; 2): 对具有相关关系的两个变量进行统计 分析的方法叫回归分析。
探索:水稻产量y与施肥量x之间大致有何规律?
施化肥量x 15 20 25 30 35 40 45
水稻产量y 330 345 365 405
பைடு நூலகம்
y
500 水稻产量
450
· ··
400
·
350 · · ·
300
445 450 455 散点图
施化肥量
10 20 30 40 50
x
发现:图中各点,大致分布在某条直线附近。
探索2:在这些点附近可画直线不止一条,哪条直线 最能代表x与y之间的关系呢?
y 水稻产量
n
y ^
(xi x)( yi y)
xi
nx y
i
b i1 n
(xi x)2
i 1 n
xi2
2
nx
,......(2)
i 1
i 1
其中x
1 n
n i 1
xi , y
1 n
n i 1
yi .
(x, y) 称为样本点的中心。
1、回归直线方程
1、所求直线方程叫做回归直线方程; 相应的直线叫做回归直线。
2、对两个变量进行的线性分析叫做线性回归分析。
n
n
y bˆ
(xi
i1 n
x)(yi y) (xi x)2
xi
i1
n
xi2
nx y
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
体重/kg
1.作散点图
80 60 40 20 0
150 155 160 165 170 175 180 身高/cm
2.求回归直线(同学们完成)
编号1 2 3
4
5
6
7
8
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
1 :从某大学中随机选取8名女大学生, 其身高和体重数据如下表所示
编号1 2 3
4
5
6
7
8
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重 的回归方程,并预报一名身高为172cm的 女大学生的体重.
回归分析的基本思想 及其初步应用(一)
提问:“严师出高徒”这句彦语的意思 是 什么?严厉的老师就一定能教出厉害 的学生吗?这两者之间是否有关? 函数关系是一种确定性关系,而相关关 系是一种非确定性关系. 回归分析是对 具有相关关系的两个变量进行统计分析 的一种常用方法
其步骤:收集数据
作散点图
利用方程进行预报. 求回归直线方程
r
i 1
n
n
(xi x)2 ( yi y)2
i 1
i 1
0 150
155
160
165
170
身高/cm
175Байду номын сангаас
180
由此可以说明:体重不仅受身高影响, 还受其他因素的影响,我们把这种影
响的结果e叫做随机误差.
得到线性回归模型为 y=bx+a+e
当e=0时,线性回归模型变成一次函数模型
样本点中心 (x , y)
回归直线经过样本点的中心
相关系数
n
(xi x)(yi y)
y 0.849x 85.712
3.当x=172时,y=60.316(kg)
思考:身高为172cm的女大学生的体重 一定是60.316kg吗?
通过探讨发现: 体重与身高之间的关系不能用一次函数 y=bx+a来严格的刻画.
如:身高为165cm,体重分别为48kg, 57kg,61kg
体重/kg
80 60 40 20