1、1回归分析的基本思想及其初步应用

合集下载

回归分析的基本思想及其初步应用

回归分析的基本思想及其初步应用

、回归分析的基本思想及其初步应用————————————————————————————————作者:————————————————————————————————日期:新课标数学选修1-21.1回归分析的基本思想及其初步应用(教师用书独具)●三维目标1.知识与技能通过典型案例的探究,了解回归分析的基本思想,会对两个变量进行回归分析,明确解决回归模型的基本步骤,并对具体问题进行回归分析以解决实际应用问题.了解最小二乘法的推导,解释残差变量的含义,了解偏差平方和分解的思想,了解判断刻画模型拟合效果的方法——相关指数和残差分析.掌握利用计算器求线性回归直线方程参数及相关系数的方法.2.过程与方法通过收集数据作散点图,分析散点图,求回归直线方程,分析回归效果,利用方程进行预报.3.情感、态度与价值观培养学生利用整体的观点和互相联系的观点来分析问题,进一步加强数学的应用意识,培养学生学好数学、用好数学的信心,加强与现实生活的联系,以科学的态度评价两个变量的相互关系.●重点难点重点:回归分析的基本方法、随机误差e的认识、残差图的概念、用残差及R2来刻画线性回归模型的拟合效果.难点:回归分析的基本方法、残差概念的理解及拟合效果的判定、非线性回归向线性回归的转化.教学时要以残差分析为重点,突出残差表和R2的计算,通过举例说明相关关系与确定性关系的区别,说明回归分析的必要性及其方法.借助例题使学生掌握作散点图、求回归直线方程的方法,通过作残差图、计算R2让学生掌握拟合效果的判断方法.对于非线性回归问题重点在如何转换,引导学生分析总结转化方法和技巧,从而化解难点.(教师用书独具)●教学建议本节课建议教师采取探究式教学,把“关注知识”转向“关注学生”,在教学过程中,把“给出知识”的过程转变为“引起活动,让学生探究知识的过程”,把“完成教学任务”转向“促进学生发展”,让学生成为课堂上的真正主人.在教学中,知识点可由学生通过探索“发现”,让学生充分经历探索与发现的过程,并引导学生积极解决探索过程中发现的问题.教学中不要以练习为主,而是定位在知识形成过程的探索,例题的解答也要由学生探讨、教师点拨,共同完成.要注重数学的思想性,如统计思想、随机观念、函数思想、数形结合的思想方法等,引导学生体验数学中的理性精神,加强数学形式下的思考和推理能力.●教学流程创设问题情境,引出问题,引导学生探讨,从而引出回归分析、线性回归模型、刻画回归效果的有关概念及解决方法.利用填一填的形式,使学生自主学习本节基础知识,并反馈了解,对理解有困难的概念加以讲解.引导学生在学习基础知识的基础上分析回答例题1的问题,并总结规律方法,完成变式训练.引导学生分析例题2,根据图中的数据计算系数,求出回归方程,列出残差表,求出R2并判断拟合效果,完成变式训练.完成当堂双基达标,巩固所学知识及应用方法,并进行反馈矫正.归纳整理,进行课堂小结,整体认识本节所学知识,强调重点内容和规律方法.通过老师启发引导,完成例题3,并要求学生借鉴例题3的解法完成变式训练.引导学生分析例题3,让学生作出散点图,观察相关性,引出问题,即如何使问题转化为相关关系并用线性回归分析二者关系.课标解读1.会用散点图分析两个变量是否存在相关关系.(重点) 2.会求回归方程,掌握建立回归模型的步骤,会选择回归模型.(重点、难点)线性回归模型【问题导思】一台机器由于使用时间较长,生产的零件有一些会有缺陷.按不同转速生产出有缺陷的零件的统计数据如下:转速x(转/秒)1614128每小时生产有缺陷的零件数y(件)119851.在平面直角坐标系中作出散点图.【提示】2.从散点图中判断x和y之间是否具有相关关系?【提示】有.3.若转速为10转/秒,能否预测机器每小时生产缺陷的零件件数?【提示】可以.根据散点图作出一条直线,求出直线方程后可预测.(1)回归直线方程:y^=b^x+a^,其中:b^=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2,a^=y-b^x,x=1n∑i=1nx i,y=1n∑i=1ny i.(2)变量样本点中心:(x,y),回归直线过样本点的中心.(3)线性回归模型:y=bx+a+e,其中e称为随机误差,a和b是模型的未知参数,自变量x称为解释变量,因变量y称为预报变量.刻画回归效果的方式残差对于样本点(x i,y i)(i=1,2,…,n)的随机误差的估计值e^i=y i-y^i,称为相应于点(x i,y i)的残差残差图利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图残差图法残差点比较均匀地落在水平的带状区域内,说明选用的模型比较适合,这样的带状区域的宽度越窄,说明模型拟合精度越高残差平方和残差平方和为∑i=1n(y i-y^i)2,残差平方和越小,模型拟合效果越好相关指数R2R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y)2,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归的效果越好回归分析的有关概念有下列说法:①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系^=b^x+a^,可以估计和观测变量的取值和变化趋势;④因表示;③通过回归方程y为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确命题的个数是()A.1B.2C.3D.4【思路探究】可借助于线性相关概念及性质逐一作出判断.【自主解答】①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程y^=b^x+a^的作用,故也正确.④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.【答案】 C1.解答例1中④时,必须明确具有线性相关关系的两个变量间才能求得一个线性回归方程,否则求得的方程无实际意义.因此必须先进行线性相关性判断,后求线性回归方程.2.回归分析的过程:(1)随机抽取样本,确定数据,形成样本点;(2)由样本点形成散点图,判断是否具有线性相关关系;(3)由最小二乘法确定线性回归方程; (4)由回归方程观察变量的取值及变化趋势.关于变量y 与x 之间的回归直线方程叙述正确的是( ) A .表示y 与x 之间的一种确定性关系 B .表示y 与x 之间的相关关系 C .表示y 与x 之间的最真实的关系D .表示y 与x 之间真实关系的一种效果最好的拟合【解析】 回归直线方程能最大可能地反映y 与x 之间的真实关系,故选项D 正确.【答案】 D线性回归分析已知某种商品的价格x (元)与需求量y (件)之间的关系有如下一组数据:x 14 16 18 20 22 y1210753求y 关于x 的回归直线方程,并说明回归模型拟合效果的好坏.【思路探究】 回归模型拟合效果的好坏可以通过计算R 2来判断,其值越大,说明模型的拟合效果越好.【自主解答】 x =15(14+16+18+20+22)=18, y =15(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660,∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b^=∑i=15x i y i-5x y∑i=15x2i-5x2=620-5×18×7.41 660-5×182=-1.15,a^=7.4+1.15×18=28.1,所以所求回归直线方程是y^=-1.15x+28.1.列出残差表:y i-y^i00.3-0.4-0.10.2y i-y 4.6 2.6-0.4-2.4-4.4所以∑i=15(y i-y^i)2=0.3,∑i=15(y i-y)2=53.2,R2=1-∑i=15(y i-y^i)2∑i=15(y i-y)2≈0.994,所以回归模型的拟合效果很好.1.回归直线方程能定量地描述两个变量的关系,系数a^,b^刻画了两个变量之间的变化趋势,其中b^表示x变化一个单位时,y的平均变化量.利用回归直线可以对问题进行预测,由一个变量的变化去推测另一个变量的变化.2.线性回归分析中:(1)残差平方和越小,预报精确度越高.(2)相关指数R2取值越大,说明模型的拟合效果越好.某运动员训练次数与运动成绩之间的数据关系如下:次数(x)34650成绩(y)34851(1)作出散点图;(2)求出线性回归方程;(3)作出残差图,并说明模型的拟合效果;(4)计算R2,并说明其含义.【解】(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示.(2)可求得x=39.25,y=40.875,∑i=18x2i=12 656,∑i=18y2i=13 731,∑i=18x i y i=13 180,∴b^=∑i=18(x i-x)(y i-y)∑i=18(x i-x)2=∑i=18x i y i-8x y∑i=18x2i-8x2≈1.041 5,a^=y-b^x=-0.003 875,∴线性回归方程为y^=1.041 5x-0.003 875.(3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.(4)相关指数R2=0.985 5.说明了该运动员的成绩的差异有98.55%的可能性是由训练次数引起的.非线性回归分析下表为收集到的一组数据:x 21232527293235y 711212466115325(1)作出x与y的散点图,并猜测x与y之间的关系;(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x=40时y的值.【思路探究】(1)画出散点图或进行相关性检验,确定两变量x、y是否线性相关.由散点图得x、y之间的回归模型.(2)进行拟合,预报回归模型,求回归方程.【自主解答】(1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=c1e c2x的周围,其中c1、c2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z=bx+a,a=ln c1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为:x 21232527293235z 1.946 2.398 3.045 3.178 4.190 4.745 5.784 求得回归直线方程为z^=0.272x-3.849,∴y^=e0.272x-3.849.残差如下表:y i711212466115325y^i 6.44311.10119.12532.95056.770128.381290.325 e^i0.557-0.101 1.875-8.9509.23-13.38134.675(3)当x=40时,y=e0.272x-3.849≈1 131.两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y=c1e c2x,我们可以通过对数变换把指数关系变为线性关系,令z=ln y,则变换后样本点应该分布在直线z =bx+a(a=ln c1,b=c2)的周围.有一个测量水流量的实验装置,测得试验数据如下表:i 1234567水高h(厘米)0.7 1.1 2.5 4.98.110.213.5 流量Q(升/分钟)0.0820.25 1.811.237.566.5134根据表中数据,建立Q与h之间的回归方程.【解】由表中测得的数据可以作出散点图,如图.观察散点图中样本点的分布规律,可以判断样本点分布在某一条曲线附近,表示该曲线的函数模型是Q=m·h n(m,n是正的常数).两边取常用对数,则lg Q=lg m+n·lg h.令y=lg Q,x=lg h,那么y=nx+lg m,即为线性函数模型y=bx+a的形式(其中b=n,a=lg m).由下面的数据表,用最小二乘法可求得b^≈2.509 7,a^=-0.707 7,所以n≈2.51,m≈0.196.i h i Q i x i=lg h i y i=lg Q i x2i x i y i10.70.082-0.154 9-1.086 20.0240.168 32 1.10.250.041 4-0.602 10.001 7-0.024 93 2.5 1.80.397 90.255 30.158 30.101 64 4.911.20.690 2 1.049 20.476 40.724 2 58.137.50.9085 1.574 00.825 4 1.430 0 610.266.5 1.0086 1.822 8 1.017 3 1.838 5 713.5134 1.130 3 2.127 1 1.277 6 2.404 3∑ 4.022 5.140 1 3.780 7 6.642 于是所求得的回归方程为Q=0.196·h2.51.没有理解相关指数R 2的意义而致误关于x 与y 有如下数据:x 2 4 5 6 8 y3040605070为了对x 、y 两个变量进行统计分析,现有以下两种线性模型:甲模型y ^=6.5x +17.5,乙模型y ^=7x +17,试比较哪一个模型拟合的效果更好.【错解】 ∵R 21=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1551 000=0.845.R 22=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1801 000=0.82.又∵84.5%>82%,∴乙选用的模型拟合的效果更好.【错因分析】 没有理解R 2的意义是致错的根源,用相关指数R 2来比较模型的拟合效果,R 2越大,模型的拟合效果越好,并不是R 2越小拟合效果更好.【防范措施】 R 2=1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2,R 2越大,残差平方和越小,从而回归模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,R2越接近1,表示回归的效果越好(因为R2越接近1,表示解释变量和预报变量的线性相关性越强).从根本上理解R2的意义和作用,就可防止此类错误的出现.【正解】R21=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-1551 000=0.845,R22=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-1801 000=0.82,84.5%>82%,所以甲模型拟合效果更好.1.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差e^1,e^2,…,e ^n 来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.2.我们还可以用相关指数R 2来反映回归的效果,其计算公式是:R 2=1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2.显然,R 2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率.1.已知x 和y 之间的一组数据x 0 1 2 3 y1357则y 与x 的线性回归方程y ^=b ^x +a ^必过点( ) A .(2,2) B .(32,0) C .(1,2)D .(32,4)【解析】 ∵x =14(0+1+2+3)=32,y =14(1+3+5+7)=4, ∴回归方程y ^=b^x +a ^必过点(32,4).【答案】 D2.(2013·青岛高二检测)在下列各组量中:①正方体的体积与棱长;②一块农田的水稻产量与施肥量;③人的身高与年龄;④家庭的支出与收入;⑤某户家庭的用电量与电价.其中量与量之间的关系是相关关系的是( )A .①②B .②④C .③④D .②③④【解析】①是函数关系V=a3;⑤电价是统一规定的,与用电量有一定的关系,但这种关系是确定的关系.②③④中的两个量之间的关系都是相关关系,因为水稻的产量与施肥量在一定范围内是正比、反比或其他关系,并不确定;人的身高一开始随着年龄的增加而增大,之后则不变化或降低,在身高增大时,也不是均匀增大的;家庭的支出与收入有一定的关系,在一开始,会随着收入的增加而支出也增加,而当收入增大到一定的值后,家庭支出趋向于一个常数值,也不是确定关系.【答案】 D3.下列命题正确的有________.①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量;②残差平方和越小的模型,拟合的效果越好;③用R2来刻画回归方程,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,若带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.【解析】对于①随机误差e是一个不可观测的量,③R2越趋于1,拟合效果越好,故①③错误.对于②残差平方和越小,拟合效果越好,同理当残差点比较均匀地落在水平的带状区域时,拟合效果越好,故②④正确.【答案】②④4.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x 345 6y 2.534 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测技改后生产100吨甲产品比技改前少消耗多少吨标准煤.(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 【解】 (1)如下图.(2)∑i =14x i y i =3×2.5+4×3+5×4+6×4.5=66.5,x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5,∑i =14x 2i =32+42+52+62=86.b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7, a^=y -b ^x =3.5-0.7×4.5=0.35, 因此,所求的线性回归方程为y ^=0.7x +0.35.(3)根据回归方程预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35(吨),故耗能减少了90-70.35=19.65(吨标准煤).一、选择题1.在画两个变量的散点图时,下面叙述正确的是( ) A .预报变量在x 轴上,解释变量在y 轴上 B .解释变量在x 轴上,预报变量在y 轴上C .可以选择两个变量中任意一个变量在x 轴上D .可以选择两个变量中任意一个变量在y 轴上【解析】 结合线性回归模型y =bx +a +e 可知,解释变量在x 轴上,预报变量在y 轴上,故选B.【答案】 B2.(2013·泰安高二检测)在回归分析中,相关指数R 2的值越大,说明残差平方和( )A .越大B .越小C .可能大也可能小D .以上均错【解析】 ∵R 2=1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2,∴当R 2越大时,∑i =1n(y i -y ^i )2越小,即残差平方和越小. 【答案】 B3.设变量y 对x 的线性回归方程为y ^=2-2.5x ,则变量x 每增加一个单位时,y 平均( )A .增加2.5个单位B .增加2个单位C .减少2.5个单位D .减少2个单位【解析】 回归直线的斜率b ^=-2.5,表示x 每增加一个单位,y 平均减少2.5个单位.【答案】 C4.(2012·湖南高考)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( ) A .y 与x 具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg【解析】由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本中心点(x,y),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.【答案】 D5.在判断两个变量y与x是否相关时,选择了4个不同的模型,它们的相关指数R2分别为:模型1的相关指数R2为0.98,模型2的相关指数R2为0.80,模型3的相关指数R2为0.50,模型4的相关指数R2为0.25.其中拟合效果最好的模型是()A.模型1 B.模型2C.模型3 D.模型4【解析】相关指数R2能够刻画用回归模型拟合数据的效果,相关指数R2的值越接近于1,说明回归模型拟合数据的效果越好.【答案】 A二、填空题6.在研究身高和体重的关系时,求得相关指数R2≈________,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.【解析】结合相关指数的计算公式R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y)2可知,当R2=0.64时,身高解释了64%的体重变化.【答案】0.647.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y^=0.254x+0.321.由回归直线方程可知,家庭年收入每增对x的回归直线方程:y加1万元,年饮食支出平均增加________万元.^=0.254(x+1)+0.321,与y^=0.254x+0.321相【解析】以x+1代x,得y减可得,年饮食支出平均增加0.254万元.【答案】0.2548.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________.【解析】由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y^-5=1.23(x-4),即y^=1.23x+0.08.^=1.23x+0.08【答案】y三、解答题9.某省2013年的阅卷现场有一位质检老师随机抽取5名学生的总成绩和数学成绩(单位:分)如下表所示:学生 A B C D E总成绩(x)482383421364362数学成绩(y)7865716461(1)作出散点图;(2)对x与y作回归分析;(3)求数学成绩y对总成绩x的回归直线方程;(4)如果一个学生的总成绩为500分,试预测这个学生的数学成绩.【解】(1)散点图如图所示:(2)x =2 0125,y =3395,∑5i =1x 2i =819 794,∑5i =1y 2i =23 167,∑5i =1x i y i =137 760. ∴r =错误! ·错误!)=错误!≈0.989.因此可以认为y 与x 有很强的线性相关关系. (3)回归系数b^=∑5i =1x i y i -5 x y ∑5i =1x 2i -5x2=0.132 452,a^=y -b ^x =14.501 315.∴回归方程为y ^=0.132 452x +14.501 315.(4)当x =500时,y ^≈81.即当一个学生的总成绩为500分时,他的数学成绩约为81分.10.(2012·福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)9(1)求回归直线方程y ^=bx +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【解】 (1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y=16(90+84+83+80+75+68)=80,又b=-20,所以a=y-b x=80+20×8.5=250,从而回归直线方程为y^=-20x+250.(2)设工厂获得的利润为L元,依题意得L=x(-20x+250)-4(-20x+250)=-20x2+330x-1 000=-20(x-8.25)2+361.25.当且仅当x=8.25时,L取得最大值.故当单价定为8.25元时,工厂可获得最大利润.11.在关于人的脂肪含量(百分比)和年龄的关系的研究中,研究人员获得了一组数据如下表:年龄x23273945657586061脂肪含量y 9.517.821.225.927.526.328.229.630.231.430.833.535.234.6 (1)作出散点图,并判断y与x是否线性相关.若线性相关,求线性回归方程;(2)求相关指数R2,并说明其含义;(3)给出37岁时人的脂肪含量的预测值.【解】(1)散点图如图所示.由散点图可知样本点呈条状分布,脂肪含量与年龄有比较好的线性相关关系,因此可以用线性回归方程来刻画它们之间的关系.设线性回归方程为y ^=b^x +a ^,则由计算器算得b^≈0.576,a ^≈=-0.448, 所以线性回归方程为y ^=0.576x -0.448. (2)残差平方和: ∑i =114e ^2i =∑i =114(y i -y ^i )2≈37.78.总偏差平方和:∑i =114(y i -y -)2≈644.99.R 2=1-37.78644.99≈0.941.R 2≈0.941,表明年龄解释了94.1%的脂肪含量变化.(3)当x =37时,y ^=0.576×37-0.448≈20.9,故37岁时人的脂肪含量约为20.9%.(教师用书独具)为研究重量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:x 51015202530y 7.258.128.959.9010.911.8(1)作出散点图并求回归方程;(2)求出R2;(3)进行残差分析.【思路探究】(1)由表作出散点图,求出系数值,即可写出回归方程.(2)列出残差表,计算R2,由R2的值判断拟合效果.(3)由(2)中残差表中数值,进行回归分析.【自主解答】(1)散点图如图.x=16(5+10+15+20+25+30)=17.5,y=16(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑i=16x2i=2 275,∑i=16x i y i=1 076.2.计算得,b^≈0.183,a^≈6.285,所求线性回归方程为y^=6.285+0.183x.(2)列表如下:y i-y^i0.050.005-0.08-0.0450.040.025y i-y-2.24-1.37-0.540.41 1.41 2.31所以∑i =16 (y i -y ^i )2≈0.013 18,∑i =16(y i -y )2=14.678 4.所以,R 2=1-0.013 1814.678 4≈0.999 1,回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.建立回归模型的基本步骤: (1)确定解释变量和预报变量;(2)画散点图,观察是否存在线性相关关系; (3)确定回归方程的类型,如y =bx +a ; (4)按最小二乘法估计回归方程中的参数;(5)得结果后分析残差图是否异常,若存在异常,则检查数据是否有误,或模型是否合适.假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有关的统计资料如下表所示.使用年限x 2 3 4 5 6 维修费用y2.23.85.56.57.0若由资料知y 对x 呈线性相关关系.试求: (1)线性回归方程y ^=b^x +a ^的回归系数a ^、b ^;(2)求相关指数R2;(3)估计使用年限为10年时,维修费用是多少?【解】(1)由已知数据制成下表.i 12345合计x i2345620y i 2.2 3.8 5.5 6.57.025 由此可得x=4,y=5,b^=∑i=15(x i-x)(y i-y)∑i=15(x i-x)2=1.23,a^=y-b^x=5-1.23×4=0.08,∴y^=1.23x+0.08.(2)R2=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-0.65115.78≈0.958 7.(3)回归直线方程为y^=1.23x+0.08,当x=10(年)时,y^=1.23×10+0.08=12.38(万元),即估计使用10年时维修费用是12.38万元.。

1[1].1回归分析的基本思想及其初步应用

1[1].1回归分析的基本思想及其初步应用
1 165 48 2 165 57 3 157 50 4 170 54 5 175 64 6 165 61 7 155 43 8 170 59
求根据女大学生的身高预报体重的回归方程,并 预报一名身高为172cm的女大学生的体重.
例1
从某大学中随机选出8名女大学生……
解:由于问题中要求根据身高预报体重,因此选取
61 (0.849 165 85.712) 6.627
0.849 x 85.712 y
编 号 身 高 体 重 1 165 48 2 165 57 3 157 50 4 170 54 5 175 64 6 165 61 7 155 43 8 170 59
残差平方和
把每一个残差所得的值平方后加起来,用数学符号表示为: n ( yi i ) 2 称为残差平方和 y
结合例1除了身高影响体重外的其他因素是不可测量的,不能希望有某种方法获 取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量观测值中所 包含的随机误差,这对我们查找样本数据中的错误和模型的评价极为有用,因此 在此我们引入残差概念。

残差
数据点和它在回归直线上相应位置的差异 ei =yi 称为 yi 相应于点(xi,yi ) 的残差。 例:编号为6的女大学生,计算随机误差的效应(残差)
身 高 与 体 重 残 差 图
异 常 点
• 错误数据 • 模型问题
误差与残差,这两个概念在某程度上具有很大的相似性, 都是衡量不确定性的指标,可是两者又存在区别。 误差与测量有关,误差大小可以衡量测量的准确性,误差 越大则表示测量越不准确。误差分为两类:系统误差与 随机误差。其中,系统误差与测量方案有关,通过改进测 量方案可以避免系统误差。随机误差与观测者,测量工具, 被观测物体的性质有关,只能尽量减小,却不能避免。 残差――与预测有关,残差大小可以衡量预测的准确性。 残差越大表示预测越不准确。残差与数据本身的分布特性, 回归方程的选择有关。

1.1回归分析的基本思想及初步应用

1.1回归分析的基本思想及初步应用

返回
[类题通法] 求线性回归方程的步骤
(1)列表表示 xi,yi,xiyi;
(2)计算-x
-y ,
n
x2i ,
n
xiyi;
i=1
i=1
(3)代入公式计算^a,^b的值; (4)写出回归直线方程.
返回
[活学活用] 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百 万元)之间有如下对应数据:
Hale Waihona Puke yi 100 200 210 185 155 135 170 205 235
36 39 32 22 18 25
47
xiyi 10 400
39 155
000 900 745 785 090 500
940
121 125
15 125
x =159.8, y =172,
10
10
x2i =265 448,xiyi=287 640
x
14
16
18
20
22
y
12
10
7
5
3
求y关于x的回归直线方程,并说明回归模型拟合效果的 好坏.
返回
解: x =15(14+16+18+20+22)=18, y =15(12+10+7+5+3)=7.4,
5
x2i =142+162+182+202+222=1 660,
i=1
5
xiyi=14×12+16×10+18×7+20×5+22×3=620,
返回
[类题通法] 残差分析应注意的问题
利用残差分析研究两个变量间的关系时,首先要根据 散点图来粗略判断它们是否线性相关,是否可以用线性回 归模型来拟合数据.然后通过图形来分析残差特性,用残 差^e1,^e2,…,^en 来判断原始数据中是否存在可疑数据,用 R2 来刻画模型拟合的效果.

1.1回归分析的基本思想及其初步应用

1.1回归分析的基本思想及其初步应用

ˆ y
160
(2)从散点图还可以看到,样本点散布在某一条 直线的附近,而不是一条直线上,所以不能用一次 函数y=bx+a来描述它们之间的关系。这时我 们用下面的线性回归模型来描述身高和体重的关系: y=bx+a+e其中a和b为模型的未知参数,e ˆ 是y与 y之间的误差,通常e称为随机误差。
图表标题 80 60 40 20 0 150 160 170 180
模 分 析 拟
y = f(x)
y = f(x)
1、定义: 自变量取值一定时,因变量的取值带有一定随
机性的两个变量之间的关系叫做相关关系。 1):相关关系是一种不确定性关系; 注 2):对具有相关关系的两个变量进行
统计分析的方法叫回归分析。 2、现实生活中存在着大量的相关关系。
如:人的身高与年龄;产品的成本与生产数量;
建立回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个变 量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察 它们之间的关系(是否存在线性关系); 是否存在线性关系
(3)由经验确定回归方程的类型(如观察到数据呈线性关 系,则选用线性回归方程y=bx+a); (4)按一定规则估计回归方程中的参数(如最小二乘 法); (5)得出结果后分析残差图是否异常(个别数据对应残 差过大,或残差呈现不随机的规律性等),若存在异常, 则检查数据是否有误,或模型是否合适等.
n (xi -x)(yi -y) b= i=1 ˆ = n 2 (xi -x) i=1 ˆ a=y-bx. ˆ
x y
i=1 n
n
i i 2
- nxy - nx
2
x
i=1

回归分析的基本思想及其初步应用(1)

回归分析的基本思想及其初步应用(1)
1.合理的选择按键的类型,尽量选择 平头类的按键,以防按键下陷。
2.开关按键和塑胶按键设计间隙建议 留0.05~0.1mm,以防按键死键。 3.要考虑成型工艺,合理计算累积公 差,以防按键手感不良。
2.求回归直线(同学们完成)
编号1 2 3
4
5
6
7
8
身高/cm 165 165 157 170 175 165 155 170
回归分析的基本思想 及其初步应用(一)
1
提问:“严师出高徒”这句彦语的意思 是 什么?严厉的老师就一定能教出厉害 的学生吗?这两者之间是否有关? 函数关系是一种确定性关系,而相关关 系是一种非确定性关系. 回归分析是对 具有相关关系的两个变量进行统计分析 的一种常用方法
其步骤:收集数据 利用方程进行预报.
相关系数
n
(xi x)(yi y)

r
i 1
n
n
(xi x)2 ( yi y)2
i 1
i 1
9
体重/kg 48 57 50 54 64 61 43 59
y 0.849x 85.712
3.当x=172时,y=60.316(kg)
思考:身高为172cm的女大学生的体重
一定是60.316kg吗?
6
通过探讨发现: 体重与身高之间的关系不能用一次函数 y=bx+a来严格的刻画.
如:身高为165cm,体重分别为48kg, 57kg,61kg
体重/kg
80
60
40
20
0 150
155
160
165
170
175
180
身高/cm
7
由此可以说明:体重不仅受身高影响, 还受其他因素的影响,我们把这种影

1.11 回归分析的基本思想及其初步应用(文、理)

1.11 回归分析的基本思想及其初步应用(文、理)

1.1 回归分析的基本思想及其初步应用【学习目标】1. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤。

2. 能作出散点图,能求其回归直线方程。

3. 会用所学的知识对简单的实际问题进行回归分析。

【要点梳理】要点一、变量间的相关关系1. 变量与变量间的两种关系:(1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S 与半径r 之间的关系S=πr 2为函数关系.(2)相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。

例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系. 2. 相关关系的分类:(1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量; (2)两个变量均为随机变量,如某学生的语文成绩与化学成绩. 3. 散点图:将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据. 4. 回归分析:与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。

要点二、线性回归方程:1.回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。

2.回归直线方程ˆˆˆybx a =+ 对于一组具有线性相关关系的数据11(,)x y ,22(,)x y ,……,(,)n n x y ,其回归直线ˆˆˆybx a =+的截距和斜率的最小二乘法估计公式分别为:121()()ˆ()niii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =- 其中x 表示数据x i (i=1,2,…,n )的均值,y 表示数据y i (i=1,2,…,n )的均值,xy 表示数据x i y i (i=1,2,…,n )的均值.a、b 的意义是:以 a 为基数,x 每增加一个单位,y 相应地平均变化b 个单位. 要点诠释:①回归系数121()()ˆ()niii nii x x y y bx x ==--=-∑∑,也可以表示为1221ˆni ii nii x y nx ybxnx==-=-∑∑,这样更便于实际计算。

1.1回归分析的基本思想及其初步应用

1.1回归分析的基本思想及其初步应用

1.1回归分析的基本思想及其初步应用(一)教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.教学重点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法-相关指数和残差分析.教学难点:解释残差变量的含义,了解偏差平方和分解的思想. 教学过程: 一、复习准备:1. 提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?2. 复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系. 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报.二、讲授新课: 1. 教学例题:① 例1 从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编 号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm 的女大学生的体重. (分析思路→教师演示→学生整理)第一步:作散点图第二步:求回归方程第三步:代值计算② 提问:身高为172cm 的女大学生的体重一定是60.316kg 吗? 不一定,但一般可以认为她的体重在60.316kg 左右. ③ 解释线性回归模型与一次函数的不同事实上,观察上述散点图,我们可以发现女大学生的体重y 和身高x 之间的关系并不能用一次函数10203040506070150155160165170175180身高/cm体重/k gy bx a =+来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系). 在数据表中身高为165cm 的3名女大学生的体重分别为48kg 、57kg 和61kg ,如果能用一次函数来描述体重与身高的关系,那么身高为165cm 的3名女在学生的体重应相同. 这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果e (即残差变量或随机变量)引入到线性函数模型中,得到线性回归模型y bx a e =++,其中残差变量e 中包含体重不能由身高的线性函数解释的所有部分. 当残差变量恒等于0时,线性回归模型就变成一次函数模型. 因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.2. 相关系数:相关系数的绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义.3. 小结:求线性回归方程的步骤、线性回归模型与一次函数的不同.1.1回归分析的基本思想及其初步应用(二)教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用. 教学重点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 教学难点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 教学过程: 一、复习准备:1.由例1知,预报变量(体重)的值受解释变量(身高)或随机误差的影响.2.为了刻画预报变量(体重)的变化在多大程度上与解释变量(身高)有关?在多大程度上与随机误差有关?我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 二、讲授新课:1. 教学总偏差平方和、残差平方和、回归平方和:(1)总偏差平方和:所有单个样本值与样本均值差的平方和,即21()ni i SST y y ==-∑.残差平方和:回归值与样本值差的平方和,即21()ni i i SSE y y ==-∑.回归平方和:相应回归值与样本均值差的平方和,即21()ni i SSR y y ==-∑.(2)学习要领:①注意i y 、i y 、y 的区别;②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和,即222111()()()nnni i i i i i i y y y y y y ===-=-+-∑∑∑;③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;④对于多个不同的模型,我们还可以引入相关指数22121()1()nii i n ii yy R yy ==-=--∑∑来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 2R 的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.2. 教学例题:例2 关于x 与Y 有如下数据: x 2 4 5 6 8 y3040605070为了对x 、Y 两个变量进行统计分析,现有以下两种线性模型: 6.517.5y x =+,717y x =+,试比较哪一个模型拟合的效果更好.分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论. (答案:52211521()155110.8451000()i i i ii y y R yy ==-=-=-=-∑∑,221R =-521521()18010.821000()ii i ii yy yy ==-=-=-∑∑,84.5%>82%,所以甲选用的模型拟合效果较好.)3. 小结:分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价两个不同模型拟合效果的好坏.1.1回归分析的基本思想及其初步应用(三)教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法.教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较. 教学过程: 一、复习准备:1. 给出例3:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中,试建立y 与x 之间的回归方程.温度/x C2123 25 27 29 32 35 产卵数/y 个 711212466115325(学生描述步骤,教师演示)2. 讨论:观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系. 二、讲授新课:1. 探究非线性回归方程的确定:① 如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模.② 根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y =2C 1e x C 的周围(其中12,c c是待定的参数),故可用指数函数模型来拟合这两个变量.③ 在上式两边取对数,得21ln ln y c x c =+,再令ln z y =,则21ln z c x c =+,而z 与x 间的关系如下:X 21 23 25 27 29 32 35z1.9462.3983.045 3.1784.190 4.7455.784观察z 与x 的散点图,可以发现变换后样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.④ 利用计算器算得 3.843,0.272a b =-=,z 与x 间的线性回归方程为0.272 3.843z x =-,因此红铃虫的产卵数对温度的非线性回归方程为0.272 3.843x y e -=.⑤ 利用回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行. 其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题. 2. 小结:用回归方程探究非线性回归问题的方法、步骤. 三、巩固练习:为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:(1(2)试求出预报变量对解释变量的回归方程.(答案:所求非线性回归方程为0.69 1.112ˆy=e x +.) 1.1回归分析的基本思想及其初步应用(四)教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法,了解可用残差分析的方法,比较两种模型的拟合效果. 教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较. 教学过程: 一、复习准备:1. 提问:在例3中,观察散点图,我们选择用指数函数模型来拟合红铃虫的产卵数y 和温度x 间的关系,还可用其它函数模型来拟合吗?t 441529 625 729 841 1024 12252. 讨论:能用二次函数模型234y c x c=+来拟合上述两个变量间的关系吗?(令2t x=,则34y c t c=+,此时y与t间的关系如下:观察y与t的散点图,可以发现样本点并不分布在一条直线的周围,因此不宜用线性回归方程来拟合它,即不宜用二次曲线234y c x c=+来拟合y与x之间的关系. )小结:也就是说,我们可以通过观察变换后的散点图来判断能否用此种模型来拟合. 事实上,除了观察散点图以外,我们也可先求出函数模型,然后利用残差分析的方法来比较模型的好坏.二、讲授新课:1. 教学残差分析:①残差:样本值与回归值的差叫残差,即i i ie y y=-.②残差分析:通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.③残差图:以残差为横坐标,以样本编号,或身高数据,或体重估计值等为横坐标,作出的图形称为残差图. 观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高.2. 例3中的残差分析:计算两种模型下的残差一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果. 残差平方和越小的模型,拟合的效果越好.由于两种模型下的残差平方和分别为1450.673和15448.432,故选用指数函数模型的拟合效果远远优于选用二次函数模型. (当然,还可用相关指数刻画回归效果)3. 小结:残差分析的步骤、作用三、巩固练习:y7 11 21 24 66 115 325 0100200300400050010001500ty。

1、1回归分析的基本思想及其初步应用

1、1回归分析的基本思想及其初步应用

1、1回归分析的基本思想及其初步应用新课标数学选修1-21.1回归分析的基本思想及其初步应用(教师用书独具)●三维目标1.知识与技能通过典型案例的探究,了解回归分析的基本思想,会对两个变量进行回归分析,明确解决回归模型的基本步骤,并对具体问题进行回归分析以解决实际应用问题.了解最小二乘法的推导,解释残差变量的含义,了解偏差平方和分解的思想,了解判断刻画模型拟合效果的方法——相关指数和残差分析.掌握利用计算器求线性回归直线方程参数及相关系数的方法.2.过程与方法通过收集数据作散点图,分析散点图,求回归直线方程,分析回归效果,利用方程进行预报.3.情感、态度与价值观培养学生利用整体的观点和互相联系的观点来分析问题,进一步加强数学的应用意识,培养学生学好数学、用好数学的信心,加强与现实生活的联系,以科学的态度评价两个变量的相互关系.●重点难点重点:回归分析的基本方法、随机误差e的认识、残差图的概念、用残差及R2来刻画线性回归模型的拟合效果.难点:回归分析的基本方法、残差概念的理解及拟合效果的判定、非线性回归向线性回归的转化.教学时要以残差分析为重点,突出残差表和R2的计算,通过举例说明相关关系与确定性关系的区别,说明回归分析的必要性及其方法.借助例题使学生掌握作散点图、求回归直线方程的方法,通过作残差图、计算R2让学生掌握拟合效果的判断方法.对于非线性回归问题重点在如何转换,引导学生分析总结转化方法和技巧,从而化解难点.(教师用书独具)●教学建议本节课建议教师采取探究式教学,把“关注知识”转向“关注学生”,在教学过程中,把“给出知识”的过程转变为“引起活动,让学生探究知识的过程”,把“完成教学任务”转向“促进学生发展”,让学生成为课堂上的真正主人.在教学中,知识点可由学生通过探索“发现”,让学生充分经历探索与发现的过程,并引导学生积极解决探索过程中发现的问题.教学中不要以练习为主,而是定位在知识形成过程的探索,例题的解答也要由学生探讨、教师点拨,共同完成.要注重数学的思想性,如统计思想、随机观念、函数思想、数形结合的思想方法等,引导学生体验数学中的理性精神,加强数学形式下的思考和推理能力.●教学流程创设问题情境,引出问题,引导学生探讨,从而引出回归分析、线性回归模型、刻画回归效果的有关概念及解决方法.利用填一填的形式,使学生自主学习本节基础知识,并反馈了解,对理解有困难的概念加以讲解.引导学生在学习基础知识的基础上分析回答例题1的问题,并总结规律方法,完成变式训练.引导学生分析例题2,根据图中的数据计算系数,求出回归方程,列出残差表,求出R2并判断拟合效果,完成变式训练.完成当堂双基达标,巩固所学知识及应用方法,并进行反馈矫正.归纳整理,进行课堂小结,整体认识本节所学知识,强调重点内容和规律方法.通过老师启发引导,完成例题3,并要求学生借鉴例题3的解法完成变式训练.引导学生分析例题3,让学生作出散点图,观察相关性,引出问题,即如何使问题转化为相关关系并用线性回归分析二者关系.课标解读1.会用散点图分析两个变量是否存在相关关系.(重点)2.会求回归方程,掌握建立回归模型的步骤,会选择回归模型.(重点、难点)线性回归模型一台机器由于使用时间较长,生产的零件有一些会有缺陷.按不同转速生产出有缺陷的零件的统计数据如下:转速x(转/秒)1614128每小时生产有缺陷的零件数y(件)11985 1.【提示】2.从散点图中判断x和y之间是否具有相关关系?【提示】有.3.若转速为10转/秒,能否预测机器每小时生产缺陷的零件件数?【提示】可以.根据散点图作出一条直线,求出直线方程后可预测.(1)回归直线方程:y^=b^x+a^,其中:b^=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2,a^=y-b^x,x=1n∑i=1nx i,y=1n∑i=1ny i.(2)变量样本点中心:(x,y),回归直线过样本点的中心.(3)线性回归模型:y=bx+a+e,其中e称为随机误差,a和b是模型的未知参数,自变量x称为解释变量,因变量y称为预报变量.刻画回归效果的方式残差对于样本点(x i,y i)(i=1,2,…,n)的随机误差的估计值e^i=y i-y^i,称为相应于点(x i,y i)的残差残差图利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图残差图法残差点比较均匀地落在水平的带状区域内,说明选用的模型比较适合,这样的带状区域的宽度越窄,说明模型拟合精度越高残差平方和残差平方和为∑i=1n(y i-y^i)2,残差平方和越小,模型拟合效果越好相关指数R2R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y)2,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归的效果越好回归分析的有关概念①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归方程y^=b^x+a^,可以估计和观测变量的取值和变化趋势;④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确命题的个数是()A.1B.2C.3D.4【思路探究】可借助于线性相关概念及性质逐一作出判断.【自主解答】①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程y^=b^x+a^的作用,故也正确.④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.【答案】 C1.解答例1中④时,必须明确具有线性相关关系的两个变量间才能求得一个线性回归方程,否则求得的方程无实际意义.因此必须先进行线性相关性判断,后求线性回归方程.2.回归分析的过程:(1)随机抽取样本,确定数据,形成样本点;(2)由样本点形成散点图,判断是否具有线性相关关系;(3)由最小二乘法确定线性回归方程;(4)由回归方程观察变量的取值及变化趋势.关于变量y与x之间的回归直线方程叙述正确的是()A.表示y与x之间的一种确定性关系B.表示y与x之间的相关关系C.表示y与x之间的最真实的关系D.表示y与x之间真实关系的一种效果最好的拟合【解析】回归直线方程能最大可能地反映y与x之间的真实关系,故选项D正确.【答案】 D线性回归分析数据:x 1416182022y 121075 3求y关于x【思路探究】回归模型拟合效果的好坏可以通过计算R2来判断,其值越大,说明模型的拟合效果越好.【自主解答】x=15(14+16+18+20+22)=18,y=15(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660, ∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=620-5×18×7.41 660-5×182=-1.15, a ^=7.4+1.15×18=28.1,所以所求回归直线方程是y ^=-1.15x +28.1.列出残差表:y i -y ^i 0 0.3 -0.4 -0.1 0.2 y i -y4.62.6-0.4-2.4-4.4所以∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y )2=53.2,R 2=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2≈0.994,所以回归模型的拟合效果很好.1.回归直线方程能定量地描述两个变量的关系,系数a ^,b ^刻画了两个变量之间的变化趋势,其中b ^表示x 变化一个单位时,y 的平均变化量.利用回归直线可以对问题进行预测,由一个变量的变化去推测另一个变量的变化.2.线性回归分析中:(1)残差平方和越小,预报精确度越高.(2)相关指数R2取值越大,说明模型的拟合效果越好.某运动员训练次数与运动成绩之间的数据关系如下:次数(x)3033353739444650成绩(y)3034373942464851(1)(2)求出线性回归方程;(3)作出残差图,并说明模型的拟合效果;(4)计算R2,并说明其含义.【解】(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示.(2)可求得x=39.25,y=40.875,∑i=18x2i=12 656,∑i=18y2i=13 731,∑i=18x i y i=13 180,∴b^=∑i=18(x i-x)(y i-y)∑i=18(x i-x)2=∑i=18x i y i-8x y∑i=18x2i-8x2≈1.041 5,a^=y-b^x=-0.003 875,∴线性回归方程为y^=1.041 5x-0.003 875.(3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.(4)相关指数R2=0.985 5.说明了该运动员的成绩的差异有98.55%的可能性是由训练次数引起的.非线性回归分析x 21232527293235y 711212466115325(1)作出(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x=40时y的值.【思路探究】(1)画出散点图或进行相关性检验,确定两变量x、y是否线性相关.由散点图得x、y之间的回归模型.(2)进行拟合,预报回归模型,求回归方程.【自主解答】(1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=c1e c2x 的周围,其中c1、c2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z=bx+a,a=ln c1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为:x 21232527293235z 1.946 2.398 3.045 3.178 4.190 4.745 5.784 求得回归直线方程为z^=0.272x-3.849,∴y^=e0.272x-3.849.残差如下表:y i711212466115325y^i 6.44311.10119.12532.95056.770128.381290.325 e^i0.557-0.101 1.875-8.9509.23-13.38134.6750.272x-3.849≈1 131.两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y=c1e c2x,我们可以通过对数变换把指数关系变为线性关系,令z=ln y,则变换后样本点应该分布在直线z =bx+a(a=ln c1,b=c2)的周围.有一个测量水流量的实验装置,测得试验数据如下表:i 1234567水高h(厘米)0.7 1.1 2.5 4.98.110.213.5 流量Q(升/分钟)0.0820.25 1.811.237.566.5134 【解】由表中测得的数据可以作出散点图,如图.观察散点图中样本点的分布规律,可以判断样本点分布在某一条曲线附近,表示该曲线的函数模型是Q=m·h n(m,n是正的常数).两边取常用对数,则lg Q=lg m+n·lg h.令y=lg Q,x=lg h,那么y=nx+lg m,即为线性函数模型y=bx+a的形式(其中b=n,a=lg m).由下面的数据表,用最小二乘法可求得b^≈2.509 7,a^=-0.707 7,所以n≈2.51,m≈0.196.i h i Q i x i=lg h i y i=lg Q i x2i x i y i10.70.082-0.154 9-1.086 20.0240.168 32 1.10.250.041 4-0.602 10.001 7-0.024 93 2.5 1.80.397 90.255 30.158 30.101 64 4.911.20.690 2 1.049 20.476 40.724 2 58.137.50.9085 1.574 00.825 4 1.430 0 610.266.5 1.0086 1.822 8 1.017 3 1.838 5 713.5134 1.130 3 2.127 1 1.277 6 2.404 3∑ 4.022 5.140 1 3.780 7 6.642 于是所求得的回归方程为Q=0.196·h2.51.没有理解相关指数R2的意义而致误关于x与y有如下数据:x 24568y 3040605070为了对x、y两个变量进行统计分析,现有以下两种线性模型:甲模型y^=6.5x+17.5,乙模型y^=7x+17,试比较哪一个模型拟合的效果更好.【错解】∵R21=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-1551 000=0.845.R22=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-1801 000=0.82.又∵84.5%>82%,∴乙选用的模型拟合的效果更好.【错因分析】没有理解R2的意义是致错的根源,用相关指数R2来比较模型的拟合效果,R2越大,模型的拟合效果越好,并不是R2越小拟合效果更好.【防范措施】R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y)2,R2越大,残差平方和越小,从而回归模型的拟合效果越好.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近1,表示回归的效果越好(因为R2越接近1,表示解释变量和预报变量的线性相关性越强).从根本上理解R2的意义和作用,就可防止此类错误的出现.【正解】R21=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-1551 000=0.845,R22=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-1801 000=0.82,84.5%>82%,所以甲模型拟合效果更好.1.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差e^1,e^2,…,e ^n 来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.2.我们还可以用相关指数R 2来反映回归的效果,其计算公式是:R 2=1-∑i=1n(y i -y ^i )2∑i =1n(y i -y )2.显然,R 2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率.1.已知x 和y 之间的一组数据x 0 1 2 3 y1357则y 与x 的线性回归方程y =b x +a 必过点( ) A .(2,2) B .(32,0)C .(1,2)D .(32,4)【解析】 ∵x =14(0+1+2+3)=32,y =14(1+3+5+7)=4,∴回归方程y ^=b ^x +a ^必过点(32,4).【答案】 D2.(2013·青岛高二检测)在下列各组量中:①正方体的体积与棱长;②一块农田的水稻产量与施肥量;③人的身高与年龄;④家庭的支出与收入;⑤某户家庭的用电量与电价.其中量与量之间的关系是相关关系的是( )A .①②B .②④C .③④D .②③④【解析】①是函数关系V=a3;⑤电价是统一规定的,与用电量有一定的关系,但这种关系是确定的关系.②③④中的两个量之间的关系都是相关关系,因为水稻的产量与施肥量在一定范围内是正比、反比或其他关系,并不确定;人的身高一开始随着年龄的增加而增大,之后则不变化或降低,在身高增大时,也不是均匀增大的;家庭的支出与收入有一定的关系,在一开始,会随着收入的增加而支出也增加,而当收入增大到一定的值后,家庭支出趋向于一个常数值,也不是确定关系.【答案】 D3.下列命题正确的有________.①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量;②残差平方和越小的模型,拟合的效果越好;③用R2来刻画回归方程,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,若带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.【解析】对于①随机误差e是一个不可观测的量,③R2越趋于1,拟合效果越好,故①③错误.对于②残差平方和越小,拟合效果越好,同理当残差点比较均匀地落在水平的带状区域时,拟合效果越好,故②④正确.【答案】②④4.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x 345 6y 2.534 4.5(1)(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测技改后生产100吨甲产品比技改前少消耗多少吨标准煤.(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 【解】 (1)如下图.(2)∑i =14x i y i =3×2.5+4×3+5×4+6×4.5=66.5,x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5,∑i =14x 2i =32+42+52+62=86. b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7, a ^=y -b ^x =3.5-0.7×4.5=0.35, 因此,所求的线性回归方程为y ^=0.7x +0.35.(3)根据回归方程预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35(吨),故耗能减少了90-70.35=19.65(吨标准煤).一、选择题1.在画两个变量的散点图时,下面叙述正确的是( ) A .预报变量在x 轴上,解释变量在y 轴上B .解释变量在x 轴上,预报变量在y 轴上C .可以选择两个变量中任意一个变量在x 轴上D .可以选择两个变量中任意一个变量在y 轴上【解析】 结合线性回归模型y =bx +a +e 可知,解释变量在x 轴上,预报变量在y 轴上,故选B.【答案】 B2.(2013·泰安高二检测)在回归分析中,相关指数R 2的值越大,说明残差平方和( )A .越大B .越小C .可能大也可能小D .以上均错【解析】 ∵R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2,∴当R 2越大时,∑i =1n(y i -y ^i )2越小,即残差平方和越小. 【答案】 B3.设变量y 对x 的线性回归方程为y ^=2-2.5x ,则变量x 每增加一个单位时,y 平均( )A .增加2.5个单位B .增加2个单位C .减少2.5个单位D .减少2个单位【解析】 回归直线的斜率b ^=-2.5,表示x 每增加一个单位,y 平均减少2.5个单位.【答案】 C4.(2012·湖南高考)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 【解析】 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.【答案】 D5.在判断两个变量y 与x 是否相关时,选择了4个不同的模型,它们的相关指数R 2分别为:模型1的相关指数R 2为0.98,模型2的相关指数R 2为0.80,模型3的相关指数R 2为0.50,模型4的相关指数R 2为0.25.其中拟合效果最好的模型是( )A .模型1B .模型2C .模型3D .模型4【解析】 相关指数R 2能够刻画用回归模型拟合数据的效果,相关指数R 2的值越接近于1,说明回归模型拟合数据的效果越好.【答案】 A 二、填空题6.在研究身高和体重的关系时,求得相关指数R 2≈________,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.【解析】结合相关指数的计算公式R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y)2可知,当R2=0.64时,身高解释了64%的体重变化.【答案】0.647.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y^=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】以x+1代x,得y^=0.254(x+1)+0.321,与y^=0.254x+0.321相减可得,年饮食支出平均增加0.254万元.【答案】0.2548.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________.【解析】由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y^-5=1.23(x-4),即y^=1.23x+0.08.【答案】y^=1.23x+0.08三、解答题9.某省2013年的阅卷现场有一位质检老师随机抽取5名学生的总成绩和数学成绩(单位:分)如下表所示:学生 A B C D E总成绩(x)482383421364362数学成绩(y)7865716461(1)作出散点图; (2)对x 与y 作回归分析;(3)求数学成绩y 对总成绩x 的回归直线方程;(4)如果一个学生的总成绩为500分,试预测这个学生的数学成绩. 【解】 (1)散点图如图所示:(2)x =2 0125,y =3395,∑5i =1x 2i =819 794,∑5i =1y 2i =23 167,∑5 i =1x i y i =137 760. ∴r =错误! ·错误!)=错误!≈0.989.因此可以认为y 与x 有很强的线性相关关系. (3)回归系数b ^=∑5i =1x i y i -5 x y ∑5i =1x 2i -5x2=0.132 452,a ^=y -b ^x =14.501 315.∴回归方程为y ^=0.132 452x +14.501 315.(4)当x =500时,y ^≈81.即当一个学生的总成绩为500分时,他的数学成绩约为81分.10.(2012·福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)908483807568(1)求回归直线方程y^=bx+a,其中b=-20,a=y-b x;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【解】(1)由于x=16(8+8.2+8.4+8.6+8.8+9)=8.5,y=16(90+84+83+80+75+68)=80,又b=-20,所以a=y-b x=80+20×8.5=250,从而回归直线方程为y^=-20x+250.(2)设工厂获得的利润为L元,依题意得L=x(-20x+250)-4(-20x+250)=-20x2+330x-1 000=-20(x-8.25)2+361.25.当且仅当x=8.25时,L取得最大值.故当单价定为8.25元时,工厂可获得最大利润.11.在关于人的脂肪含量(百分比)和年龄的关系的研究中,研究人员获得了一组数据如下表:年龄x2327394145495053545657586061脂肪含量y 9.517.821.225.927.526.328.229.630.231.430.833.535.234.6方程;(2)求相关指数R 2,并说明其含义; (3)给出37岁时人的脂肪含量的预测值.【解】 (1)散点图如图所示.由散点图可知样本点呈条状分布,脂肪含量与年龄有比较好的线性相关关系,因此可以用线性回归方程来刻画它们之间的关系.设线性回归方程为y ^=b ^x +a ^,则由计算器算得b ^≈0.576,a ^≈=-0.448, 所以线性回归方程为y ^=0.576x -0.448. (2)残差平方和: ∑i =114e ^2i =∑i =114(y i -y ^i )2≈37.78.总偏差平方和:∑i =114(y i -y -)2≈644.99.R 2=1-37.78644.99≈0.941.R 2≈0.941,表明年龄解释了94.1%的脂肪含量变化.(3)当x =37时,y ^=0.576×37-0.448≈20.9,故37岁时人的脂肪含量约为20.9%.(教师用书独具)为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:x 51015202530y 7.258.128.959.9010.911.8(1)(2)求出R2;(3)进行残差分析.【思路探究】(1)由表作出散点图,求出系数值,即可写出回归方程.(2)列出残差表,计算R2,由R2的值判断拟合效果.(3)由(2)中残差表中数值,进行回归分析.【自主解答】(1)散点图如图.x=16(5+10+15+20+25+30)=17.5,y=16(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑i=16x2i=2 275,∑i=16x i y i=1 076.2.计算得,b^≈0.183,a^≈6.285,所求线性回归方程为y^=6.285+0.183x.(2)列表如下:y i-y ^i 0.05 0.005 -0.08 -0.045 0.040.025 y i -y-2.24-1.37-0.540.411.412.31所以∑i =16(y i -y ^i )2≈0.013 18,∑i =16(y i -y )2=14.678 4.所以,R 2=1-0.013 1814.678 4≈0.999 1,回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.建立回归模型的基本步骤: (1)确定解释变量和预报变量;(2)画散点图,观察是否存在线性相关关系; (3)确定回归方程的类型,如y =bx +a ; (4)按最小二乘法估计回归方程中的参数;(5)得结果后分析残差图是否异常,若存在异常,则检查数据是否有误,或模型是否合适.假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有关的统计资料如下表所示.使用年限x 2345 6维修费用y 2.2 3.8 5.5 6.57.0 若由资料知(1)线性回归方程y^=b^x+a^的回归系数a^、b^;(2)求相关指数R2;(3)估计使用年限为10年时,维修费用是多少?【解】(1)由已知数据制成下表.i 12345合计x i2345620y i 2.2 3.8 5.5 6.57.025 由此可得x yb^=∑i=15(x i-x)(y i-y)∑i=15(x i-x)2=1.23,a^=y-b^x=5-1.23×4=0.08,∴y^=1.23x+0.08.(2)R2=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-0.65115.78≈0.958 7.(3)回归直线方程为y^=1.23x+0.08,当x=10(年)时,y^=1.23×10+0.08=12.38(万元),即估计使用10年时维修费用是12.38万元.。

回归分析的基本思想及其初步应用

回归分析的基本思想及其初步应用

1.1 回归分析的基本思想及其初步应用1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果. 3.掌握建立线性回归模型的步骤.1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报.2.线性回归模型(1)在线性回归方程y ^=a ^+b ^x 中,b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2,a ^=y --b ^x -,其中x -=1n ∑ni =1x i ,y -=1n ∑n i =1y i ,(x -,y -)称为样本点的中心,回归直线过样本点的中心.(2)线性回归模型y =bx +a +e ,其中e 称为随机误差,自变量x 称为解释变量,因变量y 称为预报变量.3.刻画回归效果的方式1.判断(正确的打“√”,错误的打“×”) (1)求线性回归方程前可以不进行相关性检验.( )(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( ) (3)利用线性回归方程求出的值是准确值.( )(4)用相关指数R 2来刻画回归的效果,R 2值越小,说明模型的拟合效果越好.( ) (5)比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.( )答案:(1)× (2)√ (3)× (4)× (5)√ 2.散点图在回归分析过程中的作用是( ) A .统计个体个数 B .比较个体数据的大小 C .研究个体分类D .粗略判断变量是否线性相关 答案:D3.在建立两个变量y 与x 的回归模型中,分别选择了4个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2=0.98B .模型2的相关指数R 2=0.80C .模型3的相关指数R 2=0.50D .模型4的相关指数R 2=0.25 答案:A4.已知样本点(x 1,y 1),(x 2,y 2),…,(x 5,y 5),若∑5i =1x i =10,∑5i =1y i =5,且回归直线为y ^=2x +a ^,则a ^=________.解析:样本中心为(2,1), 所以1=2×2+a ^, 所以a ^=-3. 答案:-3线性回归方程以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)(2)求线性回归方程;(3)根据(2)的结果估计当房屋面积为150 m 2时的销售价格. 【解】 (1)数据对应的散点图如图所示:(2)x -=15∑5i =1x i =15(110+90+80+100+120)=100,y -=15∑5i =1y i =15(33+31+28+34+39)=33.∑5i =1x 2i =1102+902+802+1002+1202=51 000, ∑5i =1x i y i =110×33+90×31+80×28+100×34+120×39=16 740.所以b ^=∑5i =1(x i -x -)(y i -y -)∑5i =1(x i -x -)2=∑5i =1x i y i -5x -y -∑5i =1x 2i -5x-2=16 740-5×100×3351 000-5×1002=0.24, a ^=y --b ^x -=33-0.24×100=9. 所以线性回归方程为y ^=b ^x +a ^=0.24x +9. (3)根据(2)可知,当x =150 m 2时,销售价格的估计值为: y ^=0.24×150+9=45(万元).(1)求线性回归方程的三个步骤①算:根据数据计算x -,y -,∑n i =1x 2i ,∑ni =1x i y i .②代:代入公式求b ^,a ^的具体数值. ③求:由上面的计算结果求方程y ^=b ^x +a ^. (2)求线性回归方程的三个关键点1.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^中的b ^的值为0.7,则记忆力为14的同学的判断力约为________.解析:由题意,x -=6+8+10+124=9,y -=2+3+5+64=4.因为线性回归方程y ^=b ^x +a ^中的b ^的值为0.7, y -=a ^+b ^x -.所以4=9×0.7+a ^,所以a ^=-2.3. 所以y ^=0.7x -2.3.当x =14时,y ^=9.8-2.3=7.5. 答案:7.52.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)x -=16(8+8.2+8.4+8.6+8.8+9)=8.5,y -=16(90+84+83+80+75+68)=80,因为b ^=-20,a ^=y --b ^x -, 所以a ^=80+20×8.5=250, 所以回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,则L =x (-20x +250)-4(-20x +250)=-20(x -334)2+361.25,所以该产品的单价应定为334元时,工厂获得的利润最大.线性回归分析为研究重量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:x 5 10 15 20 25 30 (1)(2)用相关指数R 2判断拟合效果; (3)进行残差分析. 【解】 (1)散点图如图.x -=16(5+10+15+20+25+30)=17.5,y -=16(7.25+8.12+8.95+9.9+10.9+11.8)≈9.487,∑6i =1x 2i =2 275,∑6i =1x i y i =1 076.2,计算得,b ^≈0.183,a ^≈6.285, 所求线性回归方程为y ^=0.183x +6.285. (2)列表如下:所以∑i =1(y i -y ^i )2≈0.013 18,∑i =1(y i -y -)2=14.678 4.所以R 2=1-0.013 1814.678 4≈0.999 1,回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与重量成线性关系.“相关指数R 2、残差图”在回归分析中的作用(1)相关指数R 2是用来刻画回归效果的,由R 2=1-∑ni =1(y i -y ^i )2∑n i =1(y i -y -)2可知,R 2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报的精度也越高.某运动员训练次数与运动成绩之间的数据关系如下:(1)作出散点图; (2)求出线性回归方程;(3)作出残差图,并说明模型的拟合效果.解:(1)作出该运动员训练次数(x )与成绩(y )之间的散点图,如图所示.(2)可求得x -=39.25,y -=40.875,∑8i =1x 2i =12 656,∑8i =1y 2i =13 731,∑8i =1x i y i =13 180, 所以b ^=∑8i =1 (x i -x -)(y i -y -)∑8i =1(x i -x -)2=∑8i =1x i y i -8x -y -∑8i =1x 2i -8x-2≈1.041 5,a ^=y --b ^x -≈-0.003 875,所以线性回归方程为y ^=1.041 5x -0.003 875. (3)作残差图如图所示:由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.非线性回归分析下表为收集到的一组数据:(1)作出x 与(2)建立x 与y 的关系,预报回归模型并计算残差; (3)利用所得模型,预报x =40时y ^的值.【解】 (1)作出散点图如图所示,从散点图中可以看出x 与y 不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数型曲线y =c 1e c 2x 的周围,其中c 1,c 2为待定的参数.(2)两边取对数把指数关系变为线性关系,令z =ln y ,则变换后的样本点应分布在直线z =bx +a (a =ln c 1,b =c 2)的周围,这样就可以利用线性回归模型建立y 与x 之间的非线性回归方程,数据可以转化为:求得回归直线方程为z =0.272x -3.849, 所以y ^=e 0.272x -3.849. 残差:(3)当x =40时,y =e -≈1 131.求非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)根据相应的变换,写出非线性回归方程.(5)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.在一次抽样调查中测得样本的5个样本点,数值如下表:(1)作出散点图;(2)根据散点图分布情况确定回归模型函数; (3)根据(2)试求出y 与x 之间的回归方程. 解:(1)由数值表可作散点图如图.(2)根据散点图知样本点分布在一条反比例函数曲线的周围,所以可以确定回归模型函数为y =kx.(3)由y =k x ,令t =1x 得y =kt ,则得变换后的数据表如下:由置换后的数值表作散点图如下:所以t -=1.55,y -=7.2. 所以b ^=∑5i =1t i y i -5t -y -∑5i =1t 2i -5t-2≈4.134 4,a ^=y --b ^t -≈0.8. 所以y ^=4.134 4t +0.8.所以y 与x 之间的回归方程是y ^=4.134 4x+0.8.1.随机误差e 产生的主要原因(1)所用的确定性函数不恰当引起的误差.(2)忽略了某些因素的影响.影响变量y 的因素不只是变量x ,可能还包括其他因素(例如,在描述身高和体重的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响).(3)存在观测误差.由于测量工具等原因,导致y 的观测值产生误差. 2.残差图中的可疑数据的特征表现(1)个别样本点的残差过大,即大多数的残差点比较均匀地落在水平的带状区域中,而个别残差点偏离该区域过于明显,需要确认在采集这些样本点的过程中是否有人为的错误,如果采集数据有错误,那么需要纠正,然后重新利用线性回归模型拟合数据;如果数据采集没有错误,那么需要寻找其他原因.(2)残差图有异常,即残差呈现不随机的规律性,此时需要考虑所采用的线性回归模型是否合适.1.下表是x 和y 之间的一组数据,则y 关于x 的回归直线必过( )A .点(2,3) C .点(2.5,4)D .点(2.5,5)解析:选C .回归直线必过样本点的中心(x -,y -),即(2.5,4). 2.从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:根据上表可得回归直线方程y =0.56x +a ,据此模型预报身高为172 cm 的高三男生的体重为( )A .70.09 kgB .70.12 kgC .70.55 kgD .71.05 kg解析:选B .x -=160+165+170+175+1805=170,y -=63+66+70+72+745=69.因为回归直线过点(x -,y -),所以将点(170,69)代入y -=0.56x -+a ^中得a ^=-26.2. 所以回归直线方程为y ^=0.56x -26.2. 将x =172代入,得y ^=70.12.3.如图是x 和y 的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.解析:经计算,去掉D (3,10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大.答案:D (3,10)4.在研究身高和体重的关系时,求得相关指数R 2≈________,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.解析:结合相关指数的计算公式可知, 当R 2≈0.64时,身高解释了64%的体重变化. 答案:0.64[A 基础达标]1.有关线性回归的说法,不正确的是( ) A .具有相关关系的两个变量是非确定性关系 B .散点图能直观地反映数据的相关程度C .回归直线最能代表线性相关的两个变量之间的关系D .散点图中的点越集中,两个变量的相关性越强 答案:D2.在画两个变量的散点图时,下列叙述正确的是( )A .预报变量在x 轴上,解释变量在y 轴上B .解释变量在x 轴上,预报变量在y 轴上C .可以选择两个变量中任意一个变量在x 轴上D .可以选择两个变量中任意一个变量在y 轴上解析:选B .结合线性回归模型y =bx +a +e 可知,解释变量在x 轴上,预报变量在y 轴上.3.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,求得回归直线方程,并分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④解析:选D .x 的系数符号决定变量x ,y 之间的正、负相关关系,x 的系数大于0为正相关,小于0为负相关,易知①④不正确.4.根据如下样本数据得到的回归方程为y =b x +a ,则( ) A .a ^>0,b ^>0 B .a ^>0,b ^<0 C .a ^<0,b ^>0D .a ^<0,b ^<0解析:选B .作出散点图如图所示.观察图象可知,回归直线y ^=b ^x +a ^的斜率b ^<0,x =0时,y ^=a ^>0.故a ^>0,b ^<0. 5.经统计,用于数学学习的时间(单位:小时)与成绩(单位:分)近似于线性相关关系,对每小组学生每周用于数学的学习时间x 与数学成绩y 进行数据收集如下:由表中样本数据求得回归方程为y =b x +a ,则点(a ,b )与直线x +18y =100的位置关系是( )A .点在直线左侧B .点在直线右侧C .点在直线上D .无法确定解析:选B .由题意,x -=15(15+16+18+19+22)=18,y -=15(102+98+115+115+120)=110,∑5i =1x i y i =9 993,5x -y -=9 900,∑5i =1x 2i =1 650,5x -2=1 620,所以b ^=9 993-9 9001 650-1 620=3.1.所以a ^=110-3.1×18=54.2. 因为54.2+18×3.1>100, 所以点(a ^,b ^)在直线右侧.6.已知某人加工零件的个数x 与花费时间y (h)之间的线性回归方程为y ^=0.01x +0.5,则加工600个零件大约需要________h.解析:由题意知,加工600个零件大约需要时间y =0.01×600+0.5=6.5(h). 答案:6.57.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________.解析:斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y ^-5=1.23(x -4),即y ^=1.23x +0.08.答案:y ^=1.23x +0.088.若对于变量y 与x 的10组统计数据的回归模型,R 2=0.95,又知残差平方和为120.53,那么∑i =110(y i -y -)2的值为________.解析:由R 2=1-∑10i =1(y i -y ^i )2∑10i =1(y i -y -)2得1-120.53∑10i =1(y i -y -)2=0.95,得∑i =110(y i -y -)2=2 410.6.答案:2 410.69.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y ^=b ^x +a ^; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. 解:(1)由题意知n =10,x -=1n ∑i =1nx i =8010=8,y -=1n ∑i =1ny i =2010=2,∑i =1n x又∑i =1nx 2i -n x -2=720-10×82=80,∑i =1nx i y i -n x -y -=184-10×8×2=24,b ^=∑ni =1x i y i -n x -y-∑n i =1x 2i-n x -2=2480=0.3,a ^=y --b ^x -=2-0.3×8=-0.4, 故所求线性回归方程为y ^=0.3x -0.4.(2)由于变量y 的值随x 值的增加而增加(b ^=0.3>0), 故x 与y 之间是正相关.(3)将x =7代入回归方程可以预测该家庭的月储蓄为y ^=0.3×7-0.4=1.7(千元). 10.已知某商品的价格x (元)与需求量y (件)之间的关系有如下一组数据:(1)画出y 关于x (2)求出回归直线方程;(3)计算R 2的值,并说明回归模型拟合程度的好坏.(参考数据:x -=18,y -=7.4,∑i =15x2i =1 660,∑i =15y 2i =327,∑i =15x i y i =620,∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y -)2=53.2.)解:(1)散点图如图所示:(2)因为x -=18,y -=7.4,∑i =15x 2i =1 660,∑i =15 y 2i =327,∑i =15x i y i =620,所以b ^=∑5i =1x i y i -5x -y-∑5i =1x 2i -5x-2=-1.15,a ^=y --b ^x -=28.1.即所求回归直线方程为:y ^=-1.15x+28.1.(3)因为∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y -)2=53.2所以R 2=1-∑5i =1 (y i -y ^i )2∑5i =1(y i -y -)2≈0.994,故回归模型的拟合效果较好.[B 能力提升]11.下列数据符合的函数模型为( )A .y =2+13xB .y =2e xC .y =2e 1xD .y =2+ln x解析:选D .分别将x 值代入解析式判断知满足y =2+ln x . 12.关于x 与y 有如下数据:为了对x ,y 两个变量进行统计分析,现有以下两种线性模型:甲:y ^=6.5x +17.5,乙:y ^=7x +17,则________(填“甲”或“乙”)模型拟合的效果更好.解析:设甲模型的相关指数为R 21,则R 21=1-∑5i =1 (y i -y ^i )2∑5i =1(y i -y -)2=1-1551 000=0.845;设乙模型的相关指数为R 22,则R 22=1-1801 000=0.82. 因为0.845>0.82,即R 21>R 22,所以甲模型拟合效果更好.答案:甲13.假定小麦基本苗数x 与成熟期有效穗数y 之间存在相关关系,今测得5组数据如下:(1)以x (2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗数; (3)计算各组残差,并计算残差平方和;(4)求相关指数R 2,并说明残差变量对有效穗数的影响占百分之几. 解:(1)散点图如下.(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.设回归方程为y ^=b ^x +a ^,x -=30.36,y -=43.5,∑i =15x 2i =5 101.56,x -y -=1 320.66,y 2-=1 892.25,x 2-=921.729 6,∑i =15x i y i =6 746.76.由b ^=∑5i =1x i y i -5x -y-∑5i =1x 2i -5x-2≈0.29,a ^=y --b ^x -=≈34.70.故所求的回归直线方程为y ^=34.70+0.29x . 当x =56.7时,y ^=34.70+0.29×56.7=51.143. 因此估计成熟期的有效穗数为51.143.(3)由e i =y i -y ^i ,,可分别求得e 1=0.35,e 2=0.718,e 3=-0.50,e 4=-2.214,e 5=1.624, 残差平方和:∑i =15(y i -y i -)2=8.427 196.(4)可得:∑i =15(y i -y -)2=50.18,所以R 2=1-8.427 19650.18≈0.832.所以解释变量(小麦基本苗数)对预报变量(成熟期有效穗数)约贡献了83.2%, 残差变量贡献了约1-83.2%=16.8%.14.(选做题)为了研究某种细菌随时间x 变化时,繁殖个数y 的变化,收集数据如下:(1)用天数x (2)描述解释变量x 与预报变量y 之间的关系; (3)计算R 2.解:(1)所作散点图如图所示.(2)由散点图看出样本点分布在一条指数函数y =c 1e c 2x 的周围,于是令z =ln y ,则由计算器得:z =0.69x +1.115,则有y =e 0.69x+1.115. (3)i =1ne ^2i =∑n i =1(y i -y ^i )2=4.816 1,∑ni =1(y i -y ^)2=24 642.8,R 2=1-4.816 124 642.8≈0.999 8,即解释变量天数对预报变量繁殖个数解释了99.98%.。

1.1回归分析的基本思想及其初步应用

1.1回归分析的基本思想及其初步应用

课题回归分析的基本思想课型新授二次修改意见教学目标知识与技能通过典型案例的探究,了解回归分析的基本思想、方法及初步应用;过程与方法引导学生自主完成自学任务,给出问题现有学生自己解决,再小组讨论后师生共同解决;情感态度价值观对生活中两个变量间的关系可以明确区分,解决生活中的实际问题。

教材分析重难点重点:通过研究学生体会有些非线性模型通过变化可以转化为线性回归模型,了解在解决实际问题的规程中寻找更好的模型的方法。

难点:理解数学模型的作用,以及统计学在建模时追求的目标。

教学设想教法引导探究学法合作交流教具多媒体导预习一、背景介绍:1.提问:“名师出高徒”这句彦语的意思是什么有名气的老师就一定能教出厉害的学生吗这两者之间是否有关2.复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报3.红铃虫喜高温高湿,适宜各虫态发育的温度为25一32C,相对湿度为80%一100%,低于20C和高于35C卵不能孵化,相对湿度60%以下成虫不产卵。

冬季月平均气温低于一4.8℃时,红铃虫就不能越冬而被冻死。

二、目标展示1.回归模型的选择,虽然两个变量的观测数据都可以用线性回归模型来拟合,但不能保证这种模型对数据的拟合效果良好。

为了更好的刻画两个变量之间的关系,要根据观测数据的特点来选择回归模型。

2.通过探究使学生体会,有些非线性模型通过变换可以转化为线性回归模型,即借助于线性回归模型研究呈非线性关系的两个变量之间的关系。

三、预习检测1.回归分析(1)函数关系是一种关系,而相关关系是一种关系,即自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫做.(2)回归分析是对具有关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是,,并用进行预报.2.线性回归模型(1)线性回归模型y=,其中和是模型的未知参数,称为随机误差.自变量x称为,因变量y 称为.3.一次函数模型与线性回归模型的区别及联系的公式是什么它是一个什么量有何作用如何用它来判断回归模型的拟合程度相关系数:相关系数的绝对值越接近于,两个变量的线性相关关系越强,它们的散点图越接近,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义.比较例2的三个模型。

1.1回归分析的基本思想及其初步应用

1.1回归分析的基本思想及其初步应用
(1)在含有一个解释变量的线性模型中, R2恰 好等于相关系数r的平方. (2)对于已经获取的样本数据, R2表达式中的
2 (y y ) i 为确定的数. i1 n
因此R2越大,意味着残差平方和
2 (y y ) i i 1
n
越小,即模型的拟合效果越好;反之,越差.
用身高预报体重时,需要注意以下问题
从某大学中随机选取8名女大学生,其身 高和体重数据如下表所示: 编 号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 61 43 59 求根据一名女大学生的身高预报她的体重 的回归方程,并预报一名身高为172cm的女大 学生的体重.
ˆ = 3.5 - 0.7 4.5 = 0.35 ˆ = Y - bX a
故线性回归方程为y=0.7x+0.35. (3)根据回归方程的预测,现在生产100吨产品 消耗的标准煤的数量为0.7×100+0.35=70.35.
课堂练习
1.选择
(1)下列说法中正确的有:( C ) ①若r>0,则x增大时,y也相应增大; ②若r<0,则x增大时,y也相应增大; ③若r=1或r=-1,则x与y的关系完全对应(由 函数关系),在散点图上各个点均在一条直线上 A. ① ② B. ② ③ C. ① ③ D. ① ② ③
解析:
若r>0,表示两个相关变量正相关,x增大
时,y也相应增大,故①正确. r<0,表示两个变
量负相关,x增大时,y也相应减小,故②错误.
|r|越接近1,表示两个变量相关性越高,|r|=1表 示两个变量有确定的关系(即函数关系),故 ③正确.

最新《1.1回归分析的基本思想及其初步应用》ppt课件课件PPT

最新《1.1回归分析的基本思想及其初步应用》ppt课件课件PPT

差.
n
(yi-y^ i)2
称为残差平方和
i=1
利用图形来分析残差特性,作图时纵坐标为 残差 ,横 残差图 坐标可以选为样本编号 ,或 身高数据 ,或体重估计值
等,这样作出的图形称为残差图
残差 图法
残差点比较均匀地落在水平的带状区域内,说明选 用的模型比较适合,这样的带状区域的宽度越窄, 说明模型拟合精度越高
(3)求线性回归方程的步骤: ①先把数据制成表,从表中计算出 x , y , x12+x22+…+x2n,x1y1+x2y2+…+xnyn 的值; ②计算未知参数a^,b^; ③写出线性回归方程^y=b^x+a^.
2.线性回归分析 (1)由线性回归方程给出的是一个预报值而非精确值. (2)随机误差的主要来源 ①线性回归模型与真实情况引起的误差; ②省略了一些因素的影响产生的误差; ③观测与计算产生的误差. (3)残差分析是回归分析的一种方法. (4)用相关指数R2来刻画回归效果. R2越大,意味着残差平方和越小,即模型的拟合效果越好;R2 越小,残差平方和越大,即模型的拟合效果越差.
e为
随机误.差
(2)对参数 a 和 b 的估计,由《数学必修 3》可知:最小二乘法估 计a^和b^就是未知参数 a、b 的最好估计,其计算公式为
n
n
xi- x yi- y xiyi-n x y
i=1
b^ =
i=1

,a^ = y -b^ x ,
n
xi- x 2
n
x2i -n x 2
i=1
i=1
3.建立回归模型的基本步骤 (1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报 变量. (2)画出确定好的解释变量和预报变量的散点图,观察它们之间 的关系(如是否存在线性关系等). (3)由经验确定回归方程的类型(如我们观察到数据呈线性关系, 则选用线性回归方程). (4)按一定规则(如最小二乘法)估计回归方程中的参数. (5)得出结果后分析残差图是否有异常(如个别数据对应残差过大 或残差呈现不随机的规律性等).若存在异常,则检查数据是否 有误,或模型是否合适等.

回归分析的基本思想及初步应用

回归分析的基本思想及初步应用

1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;2. 了解线性回归模型与函数模型的差异,了解衡量两个变量之间线性相关关系得方法---相关系数. 24 问题1:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?复习1:函数关系是一种 关系,而相关关系是一种 关系.复习2:回归分析是对具有 关系的两个变量进行统计分析的一种常用方法,其步骤: → → → .二、新课导学 ※ 学习探究实例问题:画出散点图,172cm 的女大学生的体重.解:由于问题中要求根据身高预报体重,因此 选 自变量x , 为因变量. (1)做散点图:从散点图可以看出 和 有比较好的 相关关系.(2) x = y =81i ii x y==∑821ii x==∑所以81822188i ii ii x yx y bxx==-==-∑∑ ay bx =-≈ 于是得到回归直线的方程为(3)身高为172cm 的女大学生,由回归方程可以预报其体重为 y =问题:身高为172cm 的女大学生,体重一定是上述预报值吗?思考:线性回归模型与一次函数有何不同?新知:用相关系数r 可衡量两个变量之间 关系.计算公式为r =r >0, 相关, r <0 相关;相关系数的绝对值越接近于1,两个变量的线性相关关系 ,它们的散点图越接近 ;r >,两个变量有 关系.※ 典型例题例1某班5名学生的数学和物理成绩如下表:(2)求物理成绩y对数学成绩x的回归直线方程;(3)该班某学生数学成绩为96,试预测其物理成绩;变式:该班某学生数学成绩为55,试预测其物理成绩;小结:求线性回归方程的步骤:※动手试试练.(07广东文科卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y bx a=+;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值3 2.543546 4.566.5⨯+⨯+⨯+⨯=)三、总结提升※学习小结1. 求线性回归方程的步骤:2. 线性回归模型与一次函数有何不同※知识拓展※自我评价你完成本节导学案的情况为().A. 很好B. 较好C. 一般D. 较差※当堂检测(时量:5分钟满分:10分)计分:1. 下列两个变量具有相关关系的是()A. 正方体的体积与边长B. 人的身高与视力C.人的身高与体重D.匀速直线运动中的位移与时间2. 在画两个变量的散点图时,下面哪个叙述是正确的()A. 预报变量在x 轴上,解释变量在y 轴上B. 解释变量在x 轴上,预报变量在y 轴上C. 可以选择两个变量中任意一个变量在x 轴上D. 可选择两个变量中任意一个变量在y 轴上3. 回归直线y bx a=+必过()A. (0,0)B. (,0)x C. (0,)y D. (,)x y4.r越接近于1,两个变量的线性相关关系.5. 已知回归直线方程 0.50.81y x=-,则25x=时,y的估计值为.一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有(2)求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10 个,那么机器的运转速度应控制在什么范围内?回归分析的基本思想及其初步应用(二)1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;2. 了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.3.会用相关指数,残差图评价回归效果.47复习1:用相关系数r可衡量两个变量之间关系.r>0, 相关,r<0 相关;r越接近于1,两个变量的线性相关关系,它们的散点图越接近;r>,两个变量有关系.复习2:评价回归效果的三个统计量:总偏差平方和;残差平方和;回归平方和.二、新课导学※学习探究探究任务:如何评价回归效果?新知:1、评价回归效果的三个统计量(1)总偏差平方和:(2)残差平方和:(3)回归平方和:2、相关指数:2R表示对的贡献,公式为:2R=2R的值越大,说明残差平方和,说明模型拟合效果.3、残差分析:通过来判断拟合效果.通常借助图实现.残差图:横坐标表示,纵坐标表示.残差点比较均匀地落在的区的区域中,说明选用的模型,带状区域的宽度越,说明拟合精度越,回归方程的预报精度越.※典型例题为了对x、y两个变量进行统计分析,现有以下两种线性模型: 6.517.5y x=+, 717y x=+,试比较哪一个模型拟合的效果更好?小结:分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价两个不同模型拟合效果的好坏.例2 假定小麦基本苗数x与成熟期有效苗穗y之间存在相关关系,今测得5组数据如下:(2)求回归方程并对于基本苗数56.7预报期有效穗数;(3)求2R,并说明残差变量对有效穗数的影响占百分之几.(参考数据:2115101.51,6746.76,n ni i ii ix x y====∑∑521()50.18iiy y=-=∑,521()9.117i iiy y=-=∑)※ 动手试试练1. 某班5名学生的数学和物理成绩如下表:(4)求学生A,B,C,D,E 的物理成绩的实际成绩和回归直线方程预报成绩的差 2i i e y y =-.并作出残差图评价拟合效果.小结:1. 评价回归效果的三个统计量:2. 相关指数评价拟合效果:3. 残差分析评价拟合效果:三、总结提升 ※ 学习小结一般地,建立回归模型的基本步骤:1、确定研究对象,明确解释、预报变量;2、画散点图;3、确定回归方程类型(用r 判定是否为线性);4、求回归方程;5、评价拟合效果. ※ 知识拓展在现行回归模型中,相关指数2R 表示解释变量对预报变量的贡献率,2R 越接近于1,表示回归效果越好.如果某组数据可以采取几种不同的回归方程进行回归分析,则可以通过比较2R 作出选2.※ 自我评价 你完成本节导学案的情况为( ). A. 很好 B. 较好 C. 一般 D. 较差※ 当堂检测(时量:5分钟 满分:10分)计分:1. 两个变量 y 与x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 2R 如下 ,其中拟合效果最好的模型是( ).A. 模型 1 的相关指数2R 为 0.98B. 模型 2 的相关指数2R 为 0.80C. 模型 3 的相关指数2R 为 0.50D. 模型 4 的相关指数2R 为 0.252. 在回归分析中,残差图中纵坐标为( ). A. 残差 B. 样本编号 C. x D. n e3. 通过12,,,n e e e 来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分工称为( ). A.回归分析 B.独立性检验分析 C.残差分析 D. 散点图分析 4.2R 越接近1,回归的效果 .5. 在研究身高与体重的关系时,求得相关指数2R = ,可以叙述为“身高解释了69%的体重变化,而随机误差贡献了剩余 ”所以身高对体重的效应比随机误差的 . 练.(07广东文科卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据 (1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y bx a =+;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值3 2.543546 4.566.5⨯+⨯+⨯+⨯=) (4)求相关指数评价模型.回归分析的基本思想及其初步应用(三)1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;2. 通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法.3. 了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较. 47 复习1:求线性回归方程的步骤复习2:作函数2x y =和20.25y x =+的图像二、新课导学 ※ 学习探究探究任务:如何建立非线性回归模型?实例一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中,试建立y 与x 之间(1)根据收集的数据,做散点图上图中,样本点的分布没有在某个 区域,因此两变量之间不呈 关系,所以不能直接用线性模型.由图,可以认为样本点分布在某一条指数函数曲线bx a y e +=的周围(,a b 为待定系数).对上式两边去对数,得ln y =令ln ,z y =,则变换后样本点应该分布在直线y 和x 的非线性回归方程.i i由上表中的数据得到回归直线方程z =因此红铃虫的产卵数y 和温度x 的非线性回归方程为※ 典型例题例1一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中,(散点图如由图,可以认为样本点集中于某二次曲线234y c x c =+的附近,其中12,c c 为待定参数)试建立y 与x 之间的回归方程.思考:评价这两个模型的拟合效果.小结:利用线性回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行. 其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题.三、总结提升 ※ 学习小结利用线性回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行.※ 知识拓展非线性回归问题的处理方法: 1、 指数函数型bx a y e +=① 函数bx a y e +=的图像:② 处理方法:两边取对数得ln ln()bx a y e +=,即ln y bx a =+.令ln ,z y =把原始数据(x,y )转化为(x,z ),再根据线性回归模型的方法求出,b a . 2、对数曲线型ln y b x a =+ ① 函数ln y b x a =+的图像② 处理方法:设ln x x '=,原方程可化为y bx a '=+ 再根据线性回归模型的方法求出,a b . 3、2y bx a =+型处理方法:设2x x '=,原方程可化为y bx a '=+,再根据线性回归模型的方法求出,a b .※ 自我评价 你完成本节导学案的情况为( ). A. 很好 B. 较好 C. 一般 D. 较差※ 当堂检测(时量:5分钟 满分:10分)计分:1. 两个变量 y 与x 的回归模型中,求得回归方程为0.232x y e -=,当预报变量10x =时( ).A. 解释变量30y e -=B. 解释变量y 大于30e -C. 解释变量y 小于30e -D. 解释变量y 在30e -左右2. 在回归分析中,求得相关指数20.89R =,则( ). A. 解释变量解对总效应的贡献是11% B. 解释变量解对总效应的贡献是89% C. 随机误差的贡献是89% D. 随机误差的贡献是0.89%3. 通过12,,,n e e e 来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分析称为( ). A .回归分析 B .独立性检验分析 C .残差分析 D. 散点图分析4.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线bx a y e +=的周围,令ln z y =,求得回归直线方程为0.25 2.58z x =- ,则该模型的回归方程为 .5. 已知回归方程 0.5ln ln 2y x =-,则100x =时,y 的估计值为 .为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图; (2)试求出预报变量对解释变量的回归方程.§1.2.1 独立性检验的基本思想及其初步应用1.通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检验的必要性;2.会根据22⨯列联表求统计量2K .1214复习1:回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析)、步骤.二、新课导学 ※ 学习探究 新知1:1.分类变量: .2. 22⨯列联表: .试试:你能列举出几个分类变量吗?探究任务:吸烟与患肺癌的关系1.由列联表可粗略的看出:(1)不吸烟者有 患肺癌; (2)不吸烟者有 患肺癌.因此,直观上课的结论: .2.用三维柱柱图和二维条形图直观反映: (1)根据列联表的数据,作出三维柱形图:由上图可以直观地看出, 吸烟与患肺癌.(2) 根据列联表的数据,作出二维条形图:由上图可以直观地看出, 吸烟与患肺癌.根据列联表的数据,作出等高条形图:由上图可以直观地看出, 吸烟与患肺癌 .反思:(独立性检验的必要性)通过数据和图形,我们得到的直观印象是患肺癌有关.那是否有一定的把握认为“吸烟与患肺癌有关”呢?新知2:统计量2K吸烟与患肺癌列联表假设0H :吸烟与患肺癌没关系,则在吸烟者和不吸烟者中患肺癌不患肺癌者的相应比例 .即因此, 越小,说明吸烟与患肺癌之间关系 ;反之, .2K =※ 典型例题例1 吸烟与患肺癌列联表 求2K .※ 动手试试求K .三、总结提升 ※ 学习小结1. 分类变量:. 2. 22⨯列联表: .3. 统计量2K : . ※ 知识拓展1. 分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”. 某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:求2K.§1.2.2 独立性检验的基本思想及其初步应用通过探究“秃顶是否与患心脏病有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示患心脏病的秃顶比例比患其它病的秃顶比例高,让学生亲身体验独立性检验的实施1416复习1:统计量2K:复习2:独立性检验的必要性:二、新课导学※学习探究新知1:独立性检验的基本思想:1、独立性检验的必要性:探究任务:吸烟与患肺癌的关系第一步:提出假设检验问题H:第二步:根据公式求2K观测值k=(它越小,原假设“H:吸烟与患肺癌没有关系”成立的可能性越;它越大,备择假设“H1:”成立的可能性越大.)第三步:查表得出结论※典型例题例1 在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175名秃顶. 分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?小结:用独立性检验的思想解决问题: 第一步: 第二步: 第三步:例2为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300由表中数据计算得到K 的观察值 4.513k ≈. 在多大程度上可以认为高中生的性别与是否数学课程之间有关系?为什么?※ 动手试试练1. 某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表: 请问有多大把握认为“高中生学习状况与生理健康有关”?三、总结提升 ※ 学习小结1. 独立性检验的原理:2. 独立性检验的步骤:※ 知识拓展.※ 自我评价 你完成本节导学案的情况为( ). A. 很好 B. 较好 C. 一般 D. 较差※ 当堂检测(时量:5分钟 满分:10分)计分:1. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 ( )A. 若k =6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B. 从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能性患肺病.C. 若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使推断出现错误.D. 以上三种说法都不对. 2. 下面是一个22⨯列联表 则表中a,b 的之分别是( ) A. 94,96 B. 52,50 C. 52,54 D. 54,52 3.某班主任对全班50名学生进行了作业量多少的调查,数据如下表: 则认为喜欢玩游戏与认为作业量多少有关系的把握大约为( ) A. 99% B. 95% C. 90% D.无充分依据4. 在独立性检验中,当统计量2K 满足时,我们有99%的把握认为这两个分类变量有关系.5. 在22⨯列联表中,统计量2K = .为考察某种药物预防疾病的效果,进行动物试验,得到如下列联表 能以97.5%的把握认为药物有效吗?为什么?统计案例检测题测试时间:90分钟 测试总分:100分一、选择题(本大题共12小题,每题4分) 1、散点图在回归分析中的作用是 ( ) A .查找个体数目 B .比较个体数据关系 C .探究个体分类D .粗略判断变量是否呈线性关系2、对于相关系数下列描述正确的是 ( ) A .r >0表明两个变量相关 B .r <0表明两个变量无关C .r 越接近1,表明两个变量线性相关性越强D .r 越小,表明两个变量线性相关性越弱3、预报变量的值与下列哪些因素有关 ( ) A .受解释变量影响与随机误差无关 B .受随机误差影响与解释变量无关 C .与总偏差平方和有关与残差无关 D .与解释变量和随机误差的总效应有关4、下列说法正确的是 ( ) A .任何两个变量都具有相关系 B .球的体积与球的半径具有相关关系 C .农作物的产量与施肥量是一种确定性关系 D .某商品的产量与销售价格之间是非确定性关系5、在画两个变量的散点图时,下面哪个叙述是正确的 ( ) A. 预报变量在x 轴上,解释变量在 y 轴上 B. 解释变量在x 轴上,预报变量在 y 轴上 C. 可以选择两个变量中任意一个变量在x 轴上 D. 可以选择两个变量中任意一个变量在 y 轴上6、回归直线 y bx a =+ 必过 ( ) A .(0,0) B .(,0)x C .(0,)y D .(,)x y7、三维柱形图中,主、副对角线上两个柱形高度的 相差越大,要推断的论述成立的可能性就越大( )A .和B .差C .积D .商 8、两个变量 y 与x 的回归模型中,求得回归方程为0.232x y e -=,当预报变量10x = ( )A. 解释变量30y e -=B. 解释变量y 大于30e -C. 解释变量y 小于30e -D. 解释变量y 在30e -左右 9、在回归分析中,求得相关指数20.89R =,则( ) A. 解释变量解对总效应的贡献是11% B. 解释变量解对总效应的贡献是89% C. 随机误差的贡献是89% C. 随机误差的贡献是0.89%10、在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 ( )A .若k =6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能 性患肺病.C .若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使得推断出现错误.D .以上三种说法都不对.11、3. 通过12,,,n e e e 来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分析称为( )A .回归分析B .独立性检验分析C .残差分析 D. 散点图分析12、在独立性检验时计算的2K 的观测值k =3.99,那么我们有 的把握认为这两个分类变量有关系 ( )A .90%B .95%C .99%D .以上都不对 二、填空题(本大题共4小题,每题4分)13、已知回归直线方程 0.50.81y x =-,则25x =时,y 的估计值为 . 14、如下表所示:22计算2K = . 15、下列关系中:(1)玉米产量与施肥量的关系; (2)等边三角形的边长和周长; (3)电脑的销售量和利润的关系;(4)日光灯的产量和单位生产成本的关系. 不是函数关系的是 .16、在一项打鼾与患心脏病的调查中,共调查1768人,经计算的2K =27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是 的.(填“有关”“无关”) 三、解答题(本大题共2小题,每题18分)18、为考察某种药物预防疾病的效果,进行动物试验,得到如下列联表能以97.5%的把握认为药物有效吗?为什么?18、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据 (1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y bx a =+;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值3 2.543546 4.566.5⨯+⨯+⨯+⨯=)。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

新课标数学选修1-21.1回归分析的基本思想及其初步应用(教师用书独具)●三维目标1.知识与技能通过典型案例的探究,了解回归分析的基本思想,会对两个变量进行回归分析,明确解决回归模型的基本步骤,并对具体问题进行回归分析以解决实际应用问题.了解最小二乘法的推导,解释残差变量的含义,了解偏差平方和分解的思想,了解判断刻画模型拟合效果的方法——相关指数和残差分析.掌握利用计算器求线性回归直线方程参数及相关系数的方法.2.过程与方法通过收集数据作散点图,分析散点图,求回归直线方程,分析回归效果,利用方程进行预报.3.情感、态度与价值观培养学生利用整体的观点和互相联系的观点来分析问题,进一步加强数学的应用意识,培养学生学好数学、用好数学的信心,加强与现实生活的联系,以科学的态度评价两个变量的相互关系.●重点难点重点:回归分析的基本方法、随机误差e的认识、残差图的概念、用残差及R2来刻画线性回归模型的拟合效果.难点:回归分析的基本方法、残差概念的理解及拟合效果的判定、非线性回归向线性回归的转化.教学时要以残差分析为重点,突出残差表和R2的计算,通过举例说明相关关系与确定性关系的区别,说明回归分析的必要性及其方法.借助例题使学生掌握作散点图、求回归直线方程的方法,通过作残差图、计算R2让学生掌握拟合效果的判断方法.对于非线性回归问题重点在如何转换,引导学生分析总结转化方法和技巧,从而化解难点.(教师用书独具)●教学建议本节课建议教师采取探究式教学,把“关注知识”转向“关注学生”,在教学过程中,把“给出知识”的过程转变为“引起活动,让学生探究知识的过程”,把“完成教学任务”转向“促进学生发展”,让学生成为课堂上的真正主人.在教学中,知识点可由学生通过探索“发现”,让学生充分经历探索与发现的过程,并引导学生积极解决探索过程中发现的问题.教学中不要以练习为主,而是定位在知识形成过程的探索,例题的解答也要由学生探讨、教师点拨,共同完成.要注重数学的思想性,如统计思想、随机观念、函数思想、数形结合的思想方法等,引导学生体验数学中的理性精神,加强数学形式下的思考和推理能力.●教学流程创设问题情境,引出问题,引导学生探讨,从而引出回归分析、线性回归模型、刻画回归效果的有关概念及解决方法.利用填一填的形式,使学生自主学习本节基础知识,并反馈了解,对理解有困难的概念加以讲解.引导学生在学习基础知识的基础上分析回答例题1的问题,并总结规律方法,完成变式训练.引导学生分析例题2,根据图中的数据计算系数,求出回归方程,列出残差表,求出R2并判断拟合效果,完成变式训练.完成当堂双基达标,巩固所学知识及应用方法,并进行反馈矫正.归纳整理,进行课堂小结,整体认识本节所学知识,强调重点容和规律方法.通过老师启发引导,完成例题3,并要求学生借鉴例题3的解法完成变式训练.引导学生分析例题3,让学生作出散点图,观察相关性,引出问题,即如何使问题转化为相关关系并用线性回归分析二者关系.课标解读1.会用散点图分析两个变量是否存在相关关系.(重点)2.会求回归方程,掌握建立回归模型的步骤,会选择回归模型.(重点、难点)线性回归模型一台机器由于使用时间较长,生产的零件有一些会有缺陷.按不同转速生产出有缺陷的零件的统计数据如下:转速x(转/秒)1614128每小时生产有缺陷的零件数y(件)11985 1.【提示】2.从散点图中判断x和y之间是否具有相关关系?【提示】有.3.若转速为10转/秒,能否预测机器每小时生产缺陷的零件件数?【提示】可以.根据散点图作出一条直线,求出直线方程后可预测.(1)回归直线方程:y^=b^x +a^,其中:b^=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2,a^=y-b^x,x=1n∑i=1nx i,y=1n∑i=1ny i.(2)变量样本点中心:(x,y),回归直线过样本点的中心.(3)线性回归模型:y=bx+a+e,其中e称为随机误差,a和b是模型的未知参数,自变量x称为解释变量,因变量y称为预报变量.刻画回归效果的方式残差对于样本点(x i,y i)(i=1,2,…,n)的随机误差的估计值e^i=y i-y^i,称为相应于点(x i,y i)的残差残差图利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图残差图法残差点比较均匀地落在水平的带状区域,说明选用的模型比较适合,这样的带状区域的宽度越窄,说明模型拟合精度越高残差平方和残差平方和为∑i=1n(y i-y^i)2,残差平方和越小,模型拟合效果越好相关指数R2R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y)2,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归的效果越好回归分析的有关概念①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系^=b^x+a^,可以估计和观测变量的取值和变化趋势;④因表示;③通过回归方程y为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确命题的个数是()A.1B.2C.3D.4【思路探究】可借助于线性相关概念及性质逐一作出判断.【自主解答】①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程y^=b^x+a^的作用,故也正确.④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.【答案】 C1.解答例1中④时,必须明确具有线性相关关系的两个变量间才能求得一个线性回归方程,否则求得的方程无实际意义.因此必须先进行线性相关性判断,后求线性回归方程.2.回归分析的过程:(1)随机抽取样本,确定数据,形成样本点;(2)由样本点形成散点图,判断是否具有线性相关关系;(3)由最小二乘法确定线性回归方程;(4)由回归方程观察变量的取值及变化趋势.关于变量y与x之间的回归直线方程叙述正确的是()A.表示y与x之间的一种确定性关系B.表示y与x之间的相关关系C.表示y与x之间的最真实的关系D.表示y与x之间真实关系的一种效果最好的拟合【解析】回归直线方程能最大可能地反映y与x之间的真实关系,故选项D正确.【答案】 D线性回归分析x 1416182022y 121075 3求y关于x【思路探究】回归模型拟合效果的好坏可以通过计算R2来判断,其值越大,说明模型的拟合效果越好.【自主解答】x=15(14+16+18+20+22)=18,y=15(12+10+7+5+3)=7.4,∑i=15x2i=142+162+182+202+222=1 660,∑i=15x i y i=14×12+16×10+18×7+20×5+22×3=620,所以b^=∑i=15x i y i-5x y∑i=15x2i-5x2=620-5×18×7.41 660-5×182=-1.15,a^=7.4+1.15×18=28.1,所以所求回归直线方程是y^=-1.15x+28.1.列出残差表:y i-y^i00.3-0.4-0.10.2y i-y 4.6 2.6-0.4-2.4-4.4所以∑i=15(y i-y^i)2=0.3,∑i=15(y i-y)2=53.2,R2=1-∑i=15(y i-y^i)2∑i=15(y i-y)2≈0.994,所以回归模型的拟合效果很好.1.回归直线方程能定量地描述两个变量的关系,系数a^,b^刻画了两个变量之间的变化趋势,其中b^表示x变化一个单位时,y的平均变化量.利用回归直线可以对问题进行预测,由一个变量的变化去推测另一个变量的变化.2.线性回归分析中:(1)残差平方和越小,预报精确度越高.(2)相关指数R2取值越大,说明模型的拟合效果越好.某运动员训练次数与运动成绩之间的数据关系如下:次数(x)3033353739444650成绩(y)3034373942464851(1)(2)求出线性回归方程;(3)作出残差图,并说明模型的拟合效果;(4)计算R2,并说明其含义.【解】(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示.(2)可求得x=39.25,y=40.875,∑i=18x2i=12 656,∑i=18y2i=13 731,∑i=18x i y i=13 180,∴b^=∑i=18(x i-x)(y i-y)∑i=18(x i-x)2=∑i=18x i y i-8x y∑i=18x2i-8x2≈1.041 5,a^=y-b^x=-0.003 875,∴线性回归方程为y^=1.041 5x-0.003 875.(3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.(4)相关指数R2=0.985 5.说明了该运动员的成绩的差异有98.55%的可能性是由训练次数引起的.非线性回归分析x 21232527293235y 711212466115325(1)作出(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x=40时y的值.【思路探究】(1)画出散点图或进行相关性检验,确定两变量x、y是否线性相关.由散点图得x、y之间的回归模型.(2)进行拟合,预报回归模型,求回归方程.【自主解答】(1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=c1e c2x的周围,其中c1、c2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z=bx+a,a=ln c1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为:x 21232527293235z 1.946 2.398 3.045 3.178 4.190 4.745 5.784 求得回归直线方程为z=0.272x-3.849,∴y^=e0.272x-3.849.残差如下表:y i711212466115325y^i 6.44311.10119.12532.95056.770128.381290.325 e^i0.557-0.101 1.875-8.9509.23-13.38134.6750.272x-3.849≈1 131.两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y=c1e c2x,我们可以通过对数变换把指数关系变为线性关系,令z=ln y,则变换后样本点应该分布在直线z =bx+a(a=ln c1,b=c2)的周围.有一个测量水流量的实验装置,测得试验数据如下表:i 1234567水高h(厘米)0.7 1.1 2.5 4.98.110.213.5 流量Q(升/分钟)0.0820.25 1.811.237.566.5134根据表中数据,建立Q与h之间的回归方程.【解】由表中测得的数据可以作出散点图,如图.观察散点图中样本点的分布规律,可以判断样本点分布在某一条曲线附近,表示该曲线的函数模型是Q=m·h n(m,n是正的常数).两边取常用对数,则lg Q=lg m+n·lg h.令y=lg Q,x=lg h,那么y=nx+lg m,即为线性函数模型y=bx+a的形式(其中b=n,a=lg m).由下面的数据表,用最小二乘法可求得b^≈2.509 7,a^=-0.707 7,所以n≈2.51,m≈0.196.i h i Q i x i=lg h i y i=lg Q i x2i x i y i10.70.082-0.154 9-1.086 20.0240.168 32 1.10.250.041 4-0.602 10.001 7-0.024 93 2.5 1.80.397 90.255 30.158 30.101 64 4.911.20.690 2 1.049 20.476 40.724 2 58.137.50.9085 1.574 00.825 4 1.430 0 610.266.5 1.0086 1.822 8 1.017 3 1.838 5 713.5134 1.130 3 2.127 1 1.277 6 2.404 3∑ 4.022 5.140 1 3.780 7 6.642 于是所求得的回归方程为Q=0.196·h2.51.没有理解相关指数R 2的意义而致误关于x 与y 有如下数据:x 2 4 5 6 8 y3040605070为了对x 、y 两个变量进行统计分析,现有以下两种线性模型:甲模型y ^=6.5x +17.5,乙模型y ^=7x +17,试比较哪一个模型拟合的效果更好.【错解】 ∵R 21=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1551 000=0.845.R 22=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1801 000=0.82.又∵84.5%>82%,∴乙选用的模型拟合的效果更好.【错因分析】 没有理解R 2的意义是致错的根源,用相关指数R 2来比较模型的拟合效果,R 2越大,模型的拟合效果越好,并不是R 2越小拟合效果更好.【防措施】 R 2=1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2,R 2越大,残差平方和越小,从而回归模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,R 2越接近1,表示回归的效果越好(因为R 2越接近1,表示解释变量和预报变量的线性相关性越强).从根本上理解R 2的意义和作用,就可防止此类错误的出现.【正解】 R 21=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1551 000=0.845,R 22=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1801 000=0.82,84.5%>82%,所以甲模型拟合效果更好.1.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差e ^1,e ^2,…,e^n来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.2.我们还可以用相关指数R2来反映回归的效果,其计算公式是:R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y)2.显然,R2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率.1.已知x和y之间的一组数据x 012 3y 1357则y与x的线性回归方程y=b x+a必过点()A.(2,2)B.(32,0)C.(1,2) D.(32,4) 【解析】∵x=14(0+1+2+3)=32,y=14(1+3+5+7)=4,∴回归方程y^=b^x+a^必过点(32,4).【答案】 D2.(2013·高二检测)在下列各组量中:①正方体的体积与棱长;②一块农田的水稻产量与施肥量;③人的身高与年龄;④家庭的支出与收入;⑤某户家庭的用电量与电价.其中量与量之间的关系是相关关系的是()A.①②B.②④C.③④D.②③④【解析】①是函数关系V=a3;⑤电价是统一规定的,与用电量有一定的关系,但这种关系是确定的关系.②③④中的两个量之间的关系都是相关关系,因为水稻的产量与施肥量在一定围是正比、反比或其他关系,并不确定;人的身高一开始随着年龄的增加而增大,之后则不变化或降低,在身高增大时,也不是均匀增大的;家庭的支出与收入有一定的关系,在一开始,会随着收入的增加而支出也增加,而当收入增大到一定的值后,家庭支出趋向于一个常数值,也不是确定关系.【答案】 D3.下列命题正确的有________.①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量;②残差平方和越小的模型,拟合的效果越好;③用R2来刻画回归方程,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,若带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.【解析】对于①随机误差e是一个不可观测的量,③R2越趋于1,拟合效果越好,故①③错误.对于②残差平方和越小,拟合效果越好,同理当残差点比较均匀地落在水平的带状区域时,拟合效果越好,故②④正确.【答案】②④4.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:(1)(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测技改后生产100吨甲产品比技改前少消耗多少吨标准煤.(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)【解】(1)如下图.(2)∑i=14x i y i=3×2.5+4×3+5×4+6×4.5=66.5,x=3+4+5+64=4.5,y=2.5+3+4+4.54=3.5,∑i=14x2i=32+42+52+62=86.b^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a^=y-b^x=3.5-0.7×4.5=0.35,因此,所求的线性回归方程为y^=0.7x+0.35.(3)根据回归方程预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35(吨),故耗能减少了90-70.35=19.65(吨标准煤).一、选择题1.在画两个变量的散点图时,下面叙述正确的是()A.预报变量在x轴上,解释变量在y轴上B.解释变量在x轴上,预报变量在y轴上C .可以选择两个变量中任意一个变量在x 轴上D .可以选择两个变量中任意一个变量在y 轴上【解析】 结合线性回归模型y =bx +a +e 可知,解释变量在x 轴上,预报变量在y 轴上,故选B.【答案】 B2.(2013·高二检测)在回归分析中,相关指数R 2的值越大,说明残差平方和( )A .越大B .越小C .可能大也可能小D .以上均错【解析】 ∵R 2=1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2,∴当R 2越大时,∑i =1n(y i -y ^i )2越小,即残差平方和越小. 【答案】 B3.设变量y 对x 的线性回归方程为y ^=2-2.5x ,则变量x 每增加一个单位时,y 平均( )A .增加2.5个单位B .增加2个单位C .减少2.5个单位D .减少2个单位【解析】 回归直线的斜率b ^=-2.5,表示x 每增加一个单位,y 平均减少2.5个单位.【答案】 C4.(2012·高考)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( ) A .y 与x 具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg【解析】由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本中心点(x,y),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.【答案】 D5.在判断两个变量y与x是否相关时,选择了4个不同的模型,它们的相关指数R2分别为:模型1的相关指数R2为0.98,模型2的相关指数R2为0.80,模型3的相关指数R2为0.50,模型4的相关指数R2为0.25.其中拟合效果最好的模型是()A.模型1 B.模型2C.模型3 D.模型4【解析】相关指数R2能够刻画用回归模型拟合数据的效果,相关指数R2的值越接近于1,说明回归模型拟合数据的效果越好.【答案】 A二、填空题6.在研究身高和体重的关系时,求得相关指数R2≈________,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.【解析】结合相关指数的计算公式R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y)2可知,当R2=0.64时,身高解释了64%的体重变化.【答案】0.647.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y^=0.254x+0.321.由回归直线方程可知,家庭年收入每增对x的回归直线方程:y加1万元,年饮食支出平均增加________万元.^=0.254(x+1)+0.321,与y^=0.254x+0.321相【解析】以x+1代x,得y减可得,年饮食支出平均增加0.254万元.【答案】0.2548.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________.【解析】由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y^-5=1.23(x-4),即y^=1.23x+0.08.^=1.23x+0.08【答案】y三、解答题9.某省2013年的阅卷现场有一位质检老师随机抽取5名学生的总成绩和数学成绩(单位:分)如下表所示:(1)(2)对x与y作回归分析;(3)求数学成绩y对总成绩x的回归直线方程;(4)如果一个学生的总成绩为500分,试预测这个学生的数学成绩.【解】(1)散点图如图所示:(2)x =2 0125,y =3395,∑5i =1x 2i =819 794,∑5i =1y 2i =23 167,∑5i =1x i y i =137 760. ∴r =错误! ·错误!)=错误!≈0.989.因此可以认为y 与x 有很强的线性相关关系. (3)回归系数b^=∑5i =1x i y i -5 x y ∑5 i =1x 2i -5x2=0.132 452,a^=y -b ^x =14.501 315.∴回归方程为y ^=0.132 452x +14.501 315.(4)当x =500时,y ^≈81.即当一个学生的总成绩为500分时,他的数学成绩约为81分.10.(2012·高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)908483807568(1)求回归直线方程y =bx +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【解】 (1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y=16(90+84+83+80+75+68)=80,又b=-20,所以a=y-b x=80+20×8.5=250,从而回归直线方程为y^=-20x+250.(2)设工厂获得的利润为L元,依题意得L=x(-20x+250)-4(-20x+250)=-20x2+330x-1 000=-20(x-8.25)2+361.25.当且仅当x=8.25时,L取得最大值.故当单价定为8.25元时,工厂可获得最大利润.11.在关于人的脂肪含量(百分比)和年龄的关系的研究中,研究人员获得了一组数据如下表:程;(2)求相关指数R2,并说明其含义;(3)给出37岁时人的脂肪含量的预测值.【解】(1)散点图如图所示.由散点图可知样本点呈条状分布,脂肪含量与年龄有比较好的线性相关关系,因此可以用线性回归方程来刻画它们之间的关系.设线性回归方程为y ^=b^x +a ^,则由计算器算得b^≈0.576,a ^≈=-0.448, 所以线性回归方程为y ^=0.576x -0.448. (2)残差平方和: ∑i =114e ^2i =∑i =114(y i -y ^i )2≈37.78.总偏差平方和:∑i =114(y i -y -)2≈644.99.R 2=1-37.78644.99≈0.941.R 2≈0.941,表明年龄解释了94.1%的脂肪含量变化.(3)当x =37时,y ^=0.576×37-0.448≈20.9,故37岁时人的脂肪含量约为20.9%.(教师用书独具)为研究重量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:x 51015202530y 7.258.128.959.9010.911.8(1)(2)求出R2;(3)进行残差分析.【思路探究】(1)由表作出散点图,求出系数值,即可写出回归方程.(2)列出残差表,计算R2,由R2的值判断拟合效果.(3)由(2)中残差表中数值,进行回归分析.【自主解答】(1)散点图如图.x=16(5+10+15+20+25+30)=17.5,y=16(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑i=16x2i=2 275,∑i=16x i y i=1 076.2.计算得,b^≈0.183,a^≈6.285,所求线性回归方程为y^=6.285+0.183x.(2)列表如下:y i-y^i0.050.005-0.08-0.0450.040.025y i-y-2.24-1.37-0.540.41 1.41 2.31所以∑i=16(y i-y^i)2≈0.013 18,∑i=16(y i-y)2=14.678 4.所以,R2=1-0.013 1814.678 4≈0.999 1,回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.建立回归模型的基本步骤:(1)确定解释变量和预报变量;(2)画散点图,观察是否存在线性相关关系;(3)确定回归方程的类型,如y=bx+a;(4)按最小二乘法估计回归方程中的参数;(5)得结果后分析残差图是否异常,若存在异常,则检查数据是否有误,或模型是否合适.假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有关的统计资料如下表所示.使用年限x 2345 6维修费用y 2.2 3.8 5.5 6.57.0若由资料知(1)线性回归方程y^=b^x+a^的回归系数a^、b^;(2)求相关指数R2;(3)估计使用年限为10年时,维修费用是多少?【解】(1)由已知数据制成下表.由此可得x yb^=∑i=15(x i-x)(y i-y)∑i=15(x i-x)2=1.23,a^=y-b^x=5-1.23×4=0.08,∴y^=1.23x+0.08.(2)R2=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-0.65115.78≈0.958 7.(3)回归直线方程为y^=1.23x+0.08,当x=10(年)时,y^=1.23×10+0.08=12.38(万元),即估计使用10年时维修费用是12.38万元.。

相关文档
最新文档