最新人教版高中数学选修2-3《回归分析的基本思想及其初步应用》预习导航
最新人教版高中数学选修2-3《回归分析》预习导航
预习导航课前预习1.回归直线方程对于一组具有线性相关关系的数据(x i ,y i )(i =1,2,…,n ),回归直线方程为y ^=a ^+b ^x ,其中b ^=∑i =1nx i y i -n x y∑i =1n x 2i -n x 2,a ^=y -b ^x .特别说明(1)回归直线方程只适用于所研究的样本总体.(2)建立的回归直线方程一般都有时间性,如不能用20世纪80年代的身高、体重数据所建立的回归直线方程来描述现在的身高和体重的关系.(3)样本取值的范围会影响回归直线方程的适用范围.(4)回归直线方程得到的预报值不一定就是预报变量的精确值,事实上,它是预报变量的可能取值的平均值.2.相关性检验对于变量x 与Y 随机抽取到的n 对数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),检验统计量是样本相关系数r =∑i =1n (x i -x )(y i -y )∑i =1n (x i -x )2∑i =1n(y i -y )2=∑i =1n x i y i -n x y (∑i =1n x 2i -n x 2)(∑i =1n y 2i -n y 2). r 具有以下性质:|r |≤1,并且|r |越接近1,线性相关程度越强;|r |越接近0,线性相关程度越弱.对变量x 与Y 进行相关性检验分四步:(1)作统计假设:x 与Y 不具有线性相关关系.(2)根据小概率0.05与n -2在附表中查出r 的一个临界值r 0.05.(3)根据样本相关系数计算公式算出r 的值.(4)作统计推断.如果|r|>r0.05,表明有95%的把握认为x与Y之间具有线性相关关系.如果|r|≤r0.05,我们没有理由拒绝原来的假设.这时寻找回归直线方程是毫无意义的.“回归”和“相关”含义是不同的:如果两个变量中的一个变量是人为可以控制、非随机的,另一变量的变化是随机的且随控制变量的变化而变化,则称这两变量间的关系为回归关系;若两个变量都是随机的,则称它们之间的关系为相关关系,在本教材中,两者不加区别.。
人教版高中数学理科选修2-3同步练习题、期中、期末复习资料、补习资料:21回归分析的基本思想及其初步应用
回归分析的基本思想及其初步应用【学习目标】1. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤。
2. 能作出散点图,能求其回归直线方程。
3. 会用所学的知识对简单的实际问题进行回归分析。
【要点梳理】要点一、变量间的相关关系1. 变量与变量间的两种关系:(1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S 与半径r 之间的关系S=πr 2为函数关系.(2)相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。
例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系. 2. 相关关系的分类:(1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量; (2)两个变量均为随机变量,如某学生的语文成绩与化学成绩. 3. 散点图:将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据.4. 回归分析:与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
要点二、线性回归方程:1.回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
2.回归直线方程 对于一组具有线性相关关系的数据,,……,,其回归直线的截距和斜率的最小二乘法估计公式分别为:, 其中表示数据x i (i=1,2,…,n )的均值,表示数据y i (i=1,2,…,n )的均值,表示数据x i y i (i=1,2,…,n )的均值.ˆˆˆybx a =+11(,)x y 22(,)x y (,)n n x y ˆˆˆybx a =+121()()ˆ()niii nii x x y y bx x ==--=-∑∑ˆˆay bx =-x y xy、的意义是:以为基数,x 每增加一个单位,y 相应地平均变化个单位.要点诠释:①回归系数,也可以表示为,这样更便于实际计算。
高中数学选修2-3-回归分析的基本思想及其初步应用
回归分析的基本思想及其初步应用知识集结知识元线性回归方程知识讲解1.线性回归方程【概念】线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛.分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析.变量的相关关系中最为简单的是线性相关关系,设随机变量与变量之间存在线性相关关系,则由试验数据得到的点将散布在某一直线周围.因此,可以认为关于的回归函数的类型为线性函数.【实例解析】例:对于线性回归方程,则=解:,因为回归直线必过样本中心(),所以.故答案为:58.5.方法就是根据线性回归直线必过样本中心(),求出,代入即可求.这里面可以看出线性规划这类题解题方法比较套路化,需要熟记公式.【考点点评】这类题记住公式就可以了,也是高考中一个比较重要的点.例题精讲线性回归方程例1.'为了增强消防意识,某部门从男职工中随机抽取了50人,从女职工中随机抽取了40人参加消防知识测试,按优秀程度制作了如下2×2列联表:(1)完成2×2列联表,并判断是否有99.9%的把握认为消防知识是否优秀与性别有关;(2)为参加市里举办的消防知识竞赛,该部门举行了预选赛,已知在消防知识测试中优秀的职工通过预选赛的概率为,现从消防知识测试中优秀的职工中选3人参加预选赛,设随机变量X表示这3人中通过预选赛的人数,求X的分布列与数学期望.附:'例2.'为了研究广大市民对共享单车的使用情况,某公司在我市随机抽取了100名用户进行调查,得到如下数据:认为每周使用超过3次的用户为“喜欢骑共享单车”.(1)分别估算男、女“喜欢骑共享单车”的概率;(2)请完成下面的2×2列联表,并判断能否有95%把握,认为是否“喜欢骑共享单车”与性别有关.附表及公式:,其中n=a+b+c+d.'例3.'新高考3+3最大的特点就是取消文理科,除语文、数学、外语之外,从物理、化学、生物、政治、历史、地理这6科中自由选择三门科目作为选考科目.某研究机构为了了解学生对全理(选择物理、化学、生物)的选择是否与性别有关决定从某学校高一年级的650名学生中随机抽取男生、女生各25人进行模拟选科经统计,选择全理的人数比不选全理的人数多10人(1)请完成下面的2×2列联表;(2)估计有多大把握认为选择全理与性别有关,并说明理由.附:,其中n=a+b+c+d'回归分析知识讲解1.回归分析【知识点的知识】1、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.记为:=x+.求回归直线方程的一般步骤:①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系;②求回归系数;③写出回归直线方程,并利用回归直线方程进行预测说明.2、回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法.建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,模型是否合适等.例题精讲回归分析例1.'为了增强消防意识,某部门从男职工中随机抽取了50人,从女职工中随机抽取了40人参加消防知识测试,按优秀程度制作了如下2×2列联表:(1)完成2×2列联表,并判断是否有99.9%的把握认为消防知识是否优秀与性别有关;(2)为参加市里举办的消防知识竞赛,该部门举行了预选赛,已知在消防知识测试中优秀的职工通过预选赛的概率为,现从消防知识测试中优秀的职工中选3人参加预选赛,设随机变量X表示这3人中通过预选赛的人数,求X的分布列与数学期望.附:'例2.'(2019春∙玉溪期末)为了研究广大市民对共享单车的使用情况,某公司在我市随机抽取了100名用户进行调查,得到如下数据:认为每周使用超过3次的用户为“喜欢骑共享单车”.(1)分别估算男、女“喜欢骑共享单车”的概率;(2)请完成下面的2×2列联表,并判断能否有95%把握,认为是否“喜欢骑共享单车”与性别有关.附表及公式:,其中n=a+b+c+d.'例3.'(2019春∙玉林期末)新高考3+3最大的特点就是取消文理科,除语文、数学、外语之外,从物理、化学、生物、政治、历史、地理这6科中自由选择三门科目作为选考科目.某研究机构为了了解学生对全理(选择物理、化学、生物)的选择是否与性别有关决定从某学校高一年级的650名学生中随机抽取男生、女生各25人进行模拟选科经统计,选择全理的人数比不选全理的人数多10人(1)请完成下面的2×2列联表;(2)估计有多大把握认为选择全理与性别有关,并说明理由.附:,其中n=a+b+c+d'相关系数知识讲解1.相关系数【知识点的知识】1、概念:相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度.于是,著名统计学家卡尔•皮尔逊设计了统计指标﹣﹣相关系数.相关系数是用以反映变量之间相关关系密切程度的统计指标.相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数.2、相关系数用r表示,计算公式为其中:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.3、残差:相关指数R2用来刻画回归的效果,其计算公式是在含有一个解释变量的线性模型中,R2恰好等于相关系数r的平方.显然,R2取值越大,意味着残差平方和越小,也就是模型的拟合效果越好.【解题方法点拨】建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个是预报变量;(2)画出解释变量和预报变量的散点图,观察它们之间的关系;(3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程:=x+);(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果分析残差图是否有异常,若存在异常,则检查数据是否有误,或模型是否适当.当回归方程不是形如:=x+时,我们称之为非线性回归方程.例题精讲相关系数例1.对于线性相关系数r,叙述正确的是___;①|r|∈(0,+∞),|r|越大,相关程度越强,反之,相关程度越弱;②r∈(-∞,+∞),r越大,相关程度越强,反之,相关程度越弱;③|r|≤1且|r|越接近于1,相关程度越强;|r|越接近于0,相关程度越弱;④以上说法都不对例2.下列说法中正确的是_____(填序号)。
最新人教版高中数学选修2-3《回归分析的基本思想及其初步应用》示范教案(第2课时)
第二课时教学目标知识与技能从相关指数和残差分析角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤.过程与方法在发现直接求回归直线方程存在缺陷的基础上,引导学生去发现解决问题的新思路——进行回归分析,进而介绍残差分析的方法和利用R2来表示解释变量对于预报变量变化的贡献率.情感、态度与价值观通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,掌握处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识解决实际问题的能力.教学中适当地利用学生的合作与交流,使学生在学习的同时,体会与他人合作的重要性.重点难点教学重点:从残差分析、相关指数角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;教学难点:了解评价回归效果的两个统计量:相关指数、残差和残差平方和.教学过程引入新课上表是上一节课我们从某大学选取8名女大学生其身高和体重数据组成的数据表,在上一节课中我们通过数据建立了回归直线方程,并根据方程预测了身高为172 cm的女大学生的体重.当时,我们提到根据回归直线方程求得的体重数据,仅是一个估计值,其与真实值之间存在着误差,为了综合分析身高和体重的关系,我们引入了线性回归模型y=bx+a+e 来表示两变量之间的关系,其中e为随机变量,又称随机误差.线性回归模型y=bx+a+e 增加了随机误差项e,因变量y的值由自变量x和随机误差e共同确定.假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上.但是,在图中,数据点并没有完全落在回归直线上.这些点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上“推”开了,即自变量x只能解释部分y的变化.同学们考虑一下,随机变量e的均值是多少?方差又是多少?活动设计:学生思考回答问题.学情预测:学生回答E(e)=0,D(e)=σ2>0.教师提问:能否通过D(e)来刻画线性回归模型的拟合程度?学情预测:随机误差e的方差越小,通过回归直线预报真实值y的精度越高.随机误差是引起预报值与真实值y之间的误差的原因之一,其大小取决于随机误差的方差.设计意图:说明研究随机误差e的必要性,通过研究随机误差e可以分析预报值的可信度.提出问题:既然可以用随机变量e的方差来衡量随机误差的大小,即通过方差σ2来刻画预报变量(体重)的变化在多大程度上与随机误差有关,那么如何获得方差σ2呢?学生活动:学生独立思考,小组合作交流讨论.活动结果:可以采用抽样统计的思想,通过随机变量e的样本来估计σ2的大小.设计目的:复习抽样统计思想,以便通过随机变量e 的样本来估计总体. 探究新知提出问题:既然e 表示了除解释变量以外其他各种影响预报值的因素带来的误差,那么如何获得e 的样本来计算σ2呢?学生活动:分组合作讨论交流.学情预测:由函数模型y ^=b ^x +a ^和回归模型y =bx +a +e 可知e =y -y ^,这样根据图表中女大学生的身高求出预报值,再与真实值作差,即可求得e 的一个估计值.教师:由于在计算回归直线方程时,利用公式求得的b ^和a ^为斜率和截距的估计值,它们与真实值a 和b 之间存在误差,因此y ^是估计值,所以e ^=y -y ^也是一个估计值.由上可知,对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i =y i -bx i -a ,i =1,2,…n ,称其估计值e ^i =y i -y ^i 为相应于点(x i ,y i )的残差.将所有残差的平方加起来,即∑i =1ne ^2i ,这个和称作残差平方和.类比样本方差估计总体方差的思想,可以用σ^2=1n -2∑i =1n e ^ 2i =1n -2∑i =1n(y i -y ^i )2(n>2) 作为σ2的估计量,通常,σ^2越小,预报精度越高.这样,当我们求得回归直线方程后,可以通过残差来判断模型拟合程度的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.设计目的:通过问题诱思,引入残差概念. 理解新知提出问题:对照女大学生的身高和体重的原始数据,结合求出的回归直线方程,求出相应的残差数据.学生活动:独立完成.样的散点图称作残差图).学生活动:分组合作,共同完成. 活动结果:残差图提出问题:观察上面的残差图,你认为哪几个样本点在采集时可能存在人为的错误?为什么?学生活动:分组讨论. 活动结果:第一个和第六个样本点在采集过程中可能存在错误,因为其他的样本点基本都集中在一个区域内,只有这两个样本点的残差比较大,相对其他样本点来说,分布得较为分散.提出问题:如何从残差图来判断模型的拟合程度? 学生活动:独立思考也可相互讨论.活动结果:因为σ^2越小,预报精度越高,即模型的拟合程度越高,而σ^2越小,e ^的取值越集中,故若残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,且带状区域的宽度越窄,说明拟合精度越高,回归直线的预报精度越高.教师:在统计学上,人们经常用相关指数R 2来刻画回归的效果,其计算公式是:R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2提出问题:分析上面计算相关指数R 2的公式,如何根据R 2来判断模型的拟合效果? 学生活动:独立思考也可相互讨论,教师加以适当的引导提示.活动结果:因为对于确定的样本数据而言,∑i =1n(y i -y )2是一个定值,故R 2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.提出问题:在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,R 2越接近1,表示回归的效果越好,即解释变量和预报变量的线性相关性越强,试计算关于女大学生身高与体重问题中的相关指数R 2.学生活动:学生独立计算获得数据. 活动结果:R 2≈0.64.根据R 2≈0.64就可得出“女大学生的身高解释了64%的体重变化”,或者说“女大学生的体重差异有64%是由身高引起的”.由此就不难理解为什么预报体重和真实值之间有差距了.设计目的:结合图象,让学生直观感受残差图在刻画回归模型拟合效果方面的应用,体会残差分析和相关指数的意义.提出问题:根据前面得到的回归方程,能否预测一名美国女大学生的体重?建立回归模型后能否一劳永逸,在若干年后还可以使用,或者适用于多年以前的女大学生体重预测?学生活动:讨论交流总结发言.活动结果:在使用回归方程进行预报时要注意: (1)回归方程只适用于我们所研究的样本的总体; (2)我们建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值.提出问题:结合我们刚学习的概念,现在能否将建立回归模型的步骤补充完整? 学生活动:讨论交流,合作完成.活动结果:一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程). (4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性,等等).若存在异常,则检查数据是否有误,或模型是否合适等.设计意图:设计问题,让学生讨论分析,得出使用回归方程进行预报需注意的问题,并让学生完善建立回归模型的步骤.在这个过程中,教师不宜做太多引导,要放手给学生,让学生讨论,充分参与进来.运用新知例1一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差; (2)你认为这个模型能较好地刻画零件数和加工时间的关系吗? 分析:首先根据散点图粗略判断变量是否具有线性相关性,判断是否可以用线性回归模型来拟合数据,然后通过残差e ^1,e ^2,…,e ^n 来判断模型拟合的效果,判断原始数据是否存在可疑数据.解:(1)根据表中数据作出散点图如下:散点图由散点图可知变量之间具有线性相关关系,可以通过求线性回归方程来拟合数据.根据公式可求得加工时间对零件数的线性回归方程为y ^=0.668x +54.96.残差数据如下表:残差图由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好,但需注意,由残差图也可以看出,第4个样本点和第5个样本点残差较大,需要确认在采集这两个样本点的过程中是否有人为的错误.点评:由散点图判断两个变量的线性相关关系,误差较大,利用残差图可以较好地评价模型的拟合程度,并能发现样本点中的可疑数据.【变练演编】例2求出y 对x 的回归方程,并说明拟合效果的好坏.思路分析:先根据散点图判断两个变量是否线性相关,若相关,求出回归直线方程,然后通过相关指数的大小来评价拟合效果的好坏.解:作出散点图:从作出的散点图可以看出,这些点在一条直线附近,可用线性回归模型来拟合数据.由数据可得x =18,y =45.4,由计算公式得b ^=-2.35,a ^=y -b ^x =87.7.故y 对x 的回归方程为y ^=-2.35x +87.7,列表:所以∑i =15(y i -y ^i )2=8.3,∑i =15(y i -y )2=229.2.相关指数R 2=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2≈0.946.因为0.964很接近1,所以该模型的拟合效果很好.变式1:若要分析是否在上述样本的采集过程中存在可疑数据,应如何分析? 活动设计:学生分组讨论,回顾课本解答问题. 活动成果:可以画出残差图来进行分析.变式2:既然利用残差图和相关指数都能够评价回归模型的拟合效果,能否总结一下两种方法各自的特点?活动成果:利用残差图可以直观展示拟合的效果,而且还可以发现样本数据中的可疑数据;而相关指数是把对拟合效果的评价转换为数值大小的判断,易于量化处理,并能在数量上表现解释变量对于预报变量变化的贡献率.设计意图:进一步熟悉判断拟合效果的方法以及各自的特点. 【达标检测】1.分析下列残差图,所选用的回归模型效果最好的是()ABC D 2.下列说法正确的是( )①回归直线方程适用于一切样本和总体;②回归直线方程一般都有时间性;③样本的取值范围会影响回归直线方程的适用范围;④根据回归直线方程得到的预测值是预测变量的精确值.A .①③④B .②③C .①②D .③④3.在研究气温和热茶销售杯数的关系时,若求得相关指数R 2≈__________,表明“气温解释了85%的热茶销售杯数变化”或者说“热茶销售杯数差异有85%是由气温引起的”.答案:1.D 2.B 3.0.85.课堂小结学生回顾本节课学习的内容,尝试总结,然后不充分的地方由学生相互补充,最后在老师的引导下,用精炼的语言进行概括:1.判断变量是否线性相关的方法以及各自的特点; 2.在运用回归模型时需注意的事项; 3.建立回归模型的基本步骤. 设计意图:让学生自己小结,这是一个多维整合的过程,是一个高层次的自我认识过程. 补充练习 【基础练习】1.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②用相关指数R 2来刻画回归的效果,R 2值越接近于1,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( )A .①②B .②③C .①③D .①②③2.甲、乙、丙、丁四位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和∑i =1n(y i -y ^i )2如下表115106124103哪位同学的实验结果体现拟合A ,B 两变量关系的模型拟合精度高?( ) A .甲 B .乙 C .丙D .丁 3.关于x 与y 为了对x ,y 两个变量进行统计分析,现有以下两种线性模型:甲:y ^=6.6x +17.5,乙:y ^=7x +17.试比较哪一个模型拟合效果更好.答案或提示:1.D 2.D3.解析:设甲模型的相关指数为R 21,则R 21=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1551 000=0.845;设乙模型的相关指数为R 22,则可求得R 22=0.82,因为R 21>R 22,所以甲模型的拟合效果更好.【拓展练习】 4.假设某种农作物基本苗数x 与有效穗数y 之间存在相关关系,今测得5组数据如下:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗数. (3)计算各组残差;(4)求R 2,并说明随机误差对有效穗数的影响占百分之几? 解:(1)散点图如图:(2)由图可以看出,样本点呈条状分布,有比较好的线性相关关系,因此可用线性回归方程来建立两个变量之间的关系.设线性回归方程为y ^=b ^x +a ^,由数据可以求得:b ^≈0.291,a ^=y -b ^x =34.67.故所求的线性回归方程为y ^=0.291x +34.67.当x =56.7时,y ^=0.291×56.7+34.67=51.169 7. 估计有效穗数为51.169 7.(3)各组数据的残差分别是e ^1≈0.37,e ^2≈0.72,e ^3≈-0.5,e ^4≈-2.22,e ^5≈1.61. (4)残差平方和:∑i =15(y i -y ^i )2=8.425 8,又∑i =15(y i -y )2=50.18,∴R 2=1-∑i =15(y i -y ^i )2∑i =15 (y i -y )2=1-8.425 850.18≈0.832.即解释变量(农作物基本苗数)对有效穗数的影响约占了83.2%,所以随机误差对有效穗数的影响约占1-83.2%=16.8%.设计说明 本课时从上一节课的案例出发,通过分析随机误差产生的原因,引入随机变量、残差、残差平方和、相关指数的有关概念,从相关指数和残差分析等角度探讨回归模型拟合的效果,并通过案例说明利用所建立的回归模型进行预报时需要注意的问题,然后总结建立回归模型的基本步骤.在教学过程中以问题为引导思考的动机,注重对学生合作意识的培养,通过对案例的分析,培养学生对数据的处理能力,让学生初步了解回归分析思想在实际生活中的运用.备课资料有关总偏差平方和、回归平方和、残差平方和以及相关指数等概念的说明 1.总偏差平方和:SST =∑i =1n(y i -y )2,刻画了预报变量y 的变化剧烈程度.2.回归平方和:SSR =∑i =1n(y ^i -y )2,公式中所有预测值的平均值也等于y ,故1n ∑i =1n y ^ i =1n ∑i =1n (b ^x i +a ^ )=b ^ x +a ^ =b ^ x +y -b ^x =y , 因此回归平方和又可以写成.从而回归平方和刻画了估计量y ^=a ^+b ^x 的变化程度.由于估计量由解释变量x 所决定,所以,回归平方和刻画了预报变量的变化中由解释变量通过线性回归模型引起的那一部分的变化程度.3.残差平方和:SSE =∑i =1n(y i -y ^i )2,刻画了残差变量变化的程度.4.偏差平方和分解:即指公式∑i =1n(y i -y )2=∑i =1n(y ^i -y )2+∑i =1n(y i -y ^i )2,称为平方和分解公式,用文字表示为: 总偏差平方和=回归平方和+残差平方和. 公式证明如下:假设观测数据为(x i ,y i ),i =1,2,…,n ,则∑i =1n(y i -y )2=∑i =1n(y i -y ^i +y ^i -y )2=∑i =1n(y i -y )2+∑i =1n(y i -y ^i )2+2∑i =1n(y ^ i -y )(y i -y ^i ).而∑i =1n(y ^ i -y )(y i -y ^i )=∑i =1n(b ^ x i -b ^ x )(y i -a ^ -b ^x i )=∑i =1nb ^(x i -x )[]y i -a ^ -b ^x -b(x i -x )=b ^∑i =1n(x i -x )[](y i -y )-b ^(x i -x )=b ^⎣⎢⎢⎡⎦⎥⎥⎤∑i =1n (x i-x )(y i -y )-b ^ ∑i =1n (x i -x )2=0, 代入上式即可证得平方和分解公式. 这样,可以把平方和分解公式解释为:预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量引起的变化程度之和.由平方和分解公式得1=∑i =1n(y ^i -y )2∑i =1n(y i -y )2+∑i =1n(y i -y ^i )2∑i =1n(y i -y )2这意味着在线性回归模型中,预报变量的1个单位的变化,需要由解释变量贡献∑i =1n(y ^i -y )2∑i =1n(y i -y )2,由残差变量贡献∑i =1n(y i -y ^i )2∑i =1n(y i -y )2,因此在线性回归模型中,我们说预报变量y的变化中的100×∑i =1n(y ^i -y )2∑i =1n(y i -y )2%是由解释变量x 所引起的,或者说解释变量x 可以解释预报变量y 的100×∑i =1n(y ^i -y )2∑i =1n(y i -y )2%的变化.又∑i =1n(y ^i -y )2∑i =1n(y i -y )2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2=R 2,即R 2=∑i =1n(y ^i -y )2∑i =1n(y i -y )2,这说明“预报变量y 的变化中的百分之100R 2是由解释变量x 所引起的,或者说解释变量x 可以解释预报变量y 的百分之100R 2的变化.因此,R 2越大拟合效果越好,反之越小.(设计者:杨雪峰)。
最新人教版高中数学选修2-3《回归分析的基本思想及其初步应用》教材梳理
庖丁巧解牛知识·巧学一、回归直线方程对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程的截距和斜率的最小二乘估计公式分别为:aˆ=x b y ˆ=, =∑∑==---ni i i ni ix x y y x x121)()()(.回归直线方程中的x =),(,1,111y x y n y x n ni i n i i ∑∑===称为样本点的中心.回归直线过样本点的中心.二、相关系数及相关检验给定(x i ,y i )(i=1,2,…,n),只要x 1,x 2,…,x n 不全相等,就能求出一条回归直线,因此它有无意义就是个大问题.由于根据散点图看数据是否大致在一直线附近主观性太强,可利用下面量化的检验法.当x i 不全相等,y i 也不全相等时,r=21121)()())((∑∑∑===----n i ni iini i iy yx xy y x x.叫做变量y与x之间的样本相关系数(简称相关数),|r|≤1.当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近0时,表明两个变量之间几乎不存在线性相关关系.通常,当r的绝对值大于0.75时认为两个变量有很强的线性相关关系.联想发散 注意此处空半格当|r|与1接近到什么程度才表明Y 与x之间具有线性相关关系呢?为明确这一点,常通过相关性检验的方法,其步骤如下: (1)作统计假设:x与Y 不具有线性相关关系;(2)根据小概率0.05与n-2在附表中查出r的一个临界值r 0.05; (3)根据样本相关系数计算公式算出r的值;(4)作统计推断,如果|r|>r 0.05,表明有95%的把握认为x与y 之间具有线性相关关系.如果|r|≤r 0.05,我们没有理由拒绝原来的假设,这时寻找回归直线方程是毫无意义的. 三、回归分析 1.随机误差在线性回归模型y=bx+a+e 中,a 和b 为模型的未知参数,e 是y 与yˆ=bx+a 之间的误差,通常e为随机变量,称为随机误差.它的均值E (e)=0,方差D(e)=σ2>0. 线性回归模型的完整表达形式为⎩⎨⎧==++=.)(,0)(,2σe D e E e a bx y 在此模型中,随机误差r的方差σ2越小,通过回归直线=bx+a 预报真实值y的精度越高. 深化升华 注意此处空半格引起随机误差e的原因:(1)在实际中,随机变量y除了受随机变量x的影响之外,还受其他变量的影响;(2)由于前面相关关系公式中的aˆ和b ˆ为截距和斜率的估计值,它们与真实值a 和b 之间也存在误差. 2.方差分析对于样本点(x 1,y 1),(x 2,y 2),…(x n ,y n )而言,相应于它们的随机误差为e i =y i -i yˆ=y i -bx i -a(i=1,2,…,n),其估计值为i e ˆ=y i -i y ˆ=y i -b ˆx i -a ˆ(i=1,2,…,n),i e ˆ称为相应于点(x i ,y i )的残差.类比样本方差估计总体方差的思想,可以用2=21-n Q(a ˆ,b ˆ)(n>2)作为2ˆσ的估计量,其中^a 和bˆ由公式给出,Q(a ˆ,b ˆ)称为残差平方和.可以用2ˆσ衡量回归直线方程的预报精度.通常2ˆσ越小,预报精度越高. 要点提示 注意此处空半格因为随机误差是随机变量,因此可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机变量的均值为0,因此可以用方差σ2来衡量随机误差的大小. 3.残差分析在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差n e e eˆˆˆ21 ,来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.其中残差i eˆ是数据点y i 和它在回归线上相应位置i yˆ之间的差异,即i e ˆ=y i -i y ˆ. 4.相关指数R 2用相关指数R 2来刻画回归的效果,其计算公式是:R 2=∑∑==---n i ini i iy yyy1212)()ˆ(1显然R 2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.深化升华 注意此处空半格在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率.R 2越接近于1,表示回归的效果越好(因为R 2越接近于1,表示解释变量和预报变量的相关性越强).如果对某组数据可能采取几种不同的回归方程进行回归分析.也可以通过比较几个R 2,选择其值大的模型. 四、建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a );(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误,或模型是否合适等. 问题·探究问题1两个变量具有线性相关关系和两个变量具有函数关系相同吗?你对二者关系是如何理解的?思路:相关关系与函数关系不同,因为函数关系是一种确定性的关系,而相关关系是一种非确定性关系.相关关系包括两种情况:一是两个变量中,一个变量为可控制变量,另一个变量为随机变量.二是两个变量均为随机变量.而函数关系可以看成是两个非随机变量之间的关系.另一方面,函数关系是一种因果关系,而相关关系不一定是因果关系,也可以是伴随关系.探究:对两个变量的关系来说,在相关关系中,例如,在水稻产量与施肥量的关系中,施肥量是可控制变量,而水稻的产量是随机变量;在研究一个学生的数学成绩与物理成绩的关系时,这两个变量都是不可控制的随机变量.而正方形的面积S 与边长x之间的关系是一种函数关系,这两个变量就不是随机变量.由于相关关系的不确定性,我们经常运用统计分析的方法,即回归分析法来进行研究.问题2 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.相关关系又分线性相关关系和非线性相关关系,如何利用回归分析的方法对两个具有线性相关关系的变量进行研究呢?思路:利用回归分析的方法对两个具有线性相关关系的变量进行研究可以按如下步骤进行:①画出两个变量的散点图;②求回归直线方程;③用回归直线方程进行预报.其中求回归直线方程是关键.而对于线性回归模型y=bx+a 来说,估计模型中的未知参数a 和b 最好的方法就是最小二乘法估计aˆ和b ˆ,其计算公式为a ˆ=y -b ˆx , =∑∑∑∑====--=---ni ini ii ni ini i ixn xy x n yx x xy y x x1221121)())((.探究:上述问题研究是具有线性相关关系的变量的线性回归.那么如何用回归分析的方法对非线性回归问题进行统计分析呢?我们可以对其分为两类.若问题中已给出经验公式,这时可以将解释变量进行交换(换元),将变量的非线性关系转化为线性关系,将问题化为线性回归分析问题来解决.若问题中没有给出经验公式,需要我们画出已知数据的散点图,通过与各种函数(如指数函数、对数函数、幂函数等)的图象作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量变换,将问题化为线性回归分析问题来解决. 典题·热题若由资料知y对x呈线性相关关系.(1)线性回归方程a x by ˆˆ+=的回归系数a ˆ,b ˆ; (2)预报使用年限为10年时的维修费用是多少?思路分析:因为y对x呈线性相关关系,所以可以用一元线性相关的方法解决问题.(1)利用公式aˆ=y -b ˆx ∑∑==--=ni ini ii xn xy x n yx b 1221ˆ,.来计算回归系数.有时为了方便常制表对应写出x i y i ,x i 2,以利于求和.(2)获得回归直线方程后,取x=10,即可求值. 解:(1)由题意求得x =4,y =5,∑=ni ix12=1x i 2=90,∑=ni ii yx 1=112.3,于是b ˆ=103.1245905453.1122=⨯-⨯⨯-=1.23,a ˆ=x b y ˆ-=5-1.23×4=0.08. (2)回归直线方程是y ˆ=1.23x+0.08,当x=10(年)时,y ˆ=1.23×10+0.08=12.38(万元),即估计使用10年时维修费用是12.38万元.深化升华 注意此处空半格知道x与y呈线性相关关系,就无需进行相关性检验,否则应首先进行相关性检验.如果本身两个变量不具有相关关系,或者说,它们之间相关关系不显著,即使求出了回归方程也是毫无意义的,而且估计和预测的量也是不可信的.例2为了了解某一地区母亲身高x与女儿身高Y 的相关关系,随机测得10对母女的身高如下表所示:试对x与y 进行一元线性回归分析,并预报当母亲身高为161 cm时女儿的身高为多少?图3-1-1思路分析:为了寻找两个随机变量间的线性关系,一般先做散点图.把这10对数据画出散点图,如图3-1-1所示,其中点(159,162)表示一对母女的身高数据.由图可以看出,x与y 之间有近似的线性相关关系,据此用回归直线方程解决问题. 解:由以上分析先对x与y 作相关性检验.(1)作统计假设:x与y 不具有线性相关关系.(2)由小概率0.05与n-2=8在附表中查得r 0.05=0.632. (3)x =101(159+160+…+157)=158.8, y =101(158+159+…+156)=159.1, 2210x x i -∑=(1592+1602+…+1572)-10×158.82=47.6,∑-y x yx ii10-10x y=(159×158+160×159+…+157×156)-10×158.8×159.1=37.2,∑y i 2-10y 2=(1582+1592+…+1562)-10×159.12=56.9, 所以r=9.566.472.37⨯≈0.71.(4)|r|=0.71>0.632,即|r|>r 0.05,从而有95%的把握认为x与y 之间具有线性相关关系,求回归直线方程是有意义的. 回归系数=6.472.37≈0.78,=159.1-0.782×158.8≈34.92.所以y 对x的回归直线方程是=34.92+0.78x.因此,当母亲身高为161 cm时,女儿的身高的预报值为=34.92+0.78×160=160.5 cm.这就是说,当母亲身高为161 cm时女儿的身高大致也接近161 cm.方法归纳 注意此处空半格线性回归分析的步骤方法为:①首先作出统计假设;②求出线性相关系数;③由相关系数确定回归直线方程是否有意义;④写出线性回归方程,解决有关问题.例3某工业部门进行了一项研究,分析该部门的产量与生产费用之间的关系,从这个工业部(1)计算x与y的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验;(3)设回归直线方程为yˆ=bx+a ,求系数a,b. 思路分析:(1)使用样本相关系数计算公式r=∑∑∑===----ni i ni ii ni iy y x xy y x x12121)()()()(即可完成;(2)由小概率0.05与r-2=8在附表中查得r 0.05的大小,以检验所得结果,来说明y与x之间的线性相关是否显著; (3)用公式代入即可求出.r=)7.16510277119)(7.771070903(7.1657.771013293822⨯-⨯-⨯⨯-≈0.808,即x与y的相关系数为0.808.(2)由小概率0.05与r-2=8在附表中查得r 0.05=0.632,因为r>r 0.05,所以可以认为x与y之间具有线性相关关系.(3)bˆ27.7710709037.1657.7710132938⨯-⨯⨯-=≈0.398,=165.7-0.398×77.7≈134.8.深化升华 注意此处空半格本题采用了制表来得出相关的一些值.目的是为了准确无误而且快速的得到r和b的值.数据较多时,运算量也很大,所以通常借助于科学计算器或电脑软件来求值.。
最新人教版高中数学选修2-3《回归分析的基本思想及其初步应用》知识讲解
3.1 回归分析的基本思想及其初步应用问题导学一、求线性回归方程活动与探究1(1)画出散点图;(2)y 与x 是否具有线性相关关系?若有,求出其回归方程.迁移与应用1.(2013海南海口模拟)在一次试验中,测得(x ,y )的四组值分别是A (1,2),B (2,3),C (3,4),D (4,5),则y 与x 之间的回归直线方程为( )A .y ^=x +1 B .y ^=x +2C .y ^=2x +1 D .y ^=x -12.某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x (x 取整数)元与日销售量y(1)y与x(方程的斜率精确到个位)(2)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润.(1)散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析.(2)求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.二、线性回归分析活动与探究2(1)(2)求出线性回归方程;(3)作出残差图,并说明模型的拟合效果;(4)计算R2,并说明其含义.迁移与应用1根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元2且知x 与y“相关指数R 2、残差图”在回归分析中的作用:(1)相关指数R 2是用来刻画回归效果的,由R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2可知R 2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.三、非线性回归分析活动与探究3(1)作出x与(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x=40时y的值.迁移与应用1.在彩色显影中,由经验知形成染料光学密度y与析出银的光学密度x由公式y=e b xA(b2试建立y 与x 之间的回归方程.非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决.答案: 课前·预习导学 【预习导引】1.(1)确定性 非确定性 (2)相关 (3)∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2=1221ni ii nii x y nx yxnx==--∑∑ y -b ^x样本点的中心 (4)随机误差 解释变量 预报变量预习交流1 D2.y i -bx i -a y i -y ^i y i -b ^x i -a ^3.1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2解释变量 预报变量 1预习交流2 提示:散点图可以说明变量间有无线性相关关系,只能粗略地说明两个变量之间关系的密切程度,而相关指数R 2能精确地描述两个变量之间的密切程度.预习交流3 提示:(1)回归方程只适用于所研究的样本的总体. (2)所建立的回归方程一般都有时间性.(3)样本的取值范围会影响回归方程的适用范围.(4)不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.课堂·合作探究 【问题导学】活动与探究1 思路分析:画出散点图,观察图形的形状得x 与y 是否具有线性相关关系.把数值代入回归系数公式求回归方程.解:(1)由表画出散点图,如图所示.(2)从上图可看出,这些点基本上散布在一条直线附近,可以认为x 和y 线性相关关系x =6.85,y =157.25.∴b ^=81822188i ii ii x yx yxx ==--∑∑=8 764.5-8×6.85×157.25382.02-8×6.852≈22.17, a ^=y -b ^x =157.25-22.17×6.85≈5.39, 故线性回归方程为y ^=22.17x +5.39.迁移与应用 1.A 解析:方法一:x =1+2+3+44=52,y =2+3+4+54=72.故b ^= ⎝⎛⎭⎫1-52⎝⎛⎭⎫2-72+⎝⎛⎭⎫2-52⎝⎛⎭⎫3-72+⎝⎛⎭⎫3-52⎝⎛⎭⎫4-72+⎝⎛⎭⎫4-52⎝⎛⎭⎫5-72⎝⎛⎭⎫1-522+⎝⎛⎭⎫2-522+⎝⎛⎭⎫3-522+⎝⎛⎭⎫4-522=⎝⎛⎭⎫322+⎝⎛⎭⎫122+⎝⎛⎭⎫122+⎝⎛⎭⎫322⎝⎛⎭⎫322+⎝⎛⎭⎫122+⎝⎛⎭⎫122+⎝⎛⎭⎫322=1, a ^=y -b ^x =72-52=1.因此,y ^=x +1,故选A .方法二:也可由回归直线方程一定过点(x ,y ),即⎝⎛⎭⎫52,72,代入验证可排除B ,C ,D .故应选A .2.解:(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.设回归直线为y ^=b ^x +a ^,由题知x =42.5,y =34, 则求得b ^=∑i =14(x i -x )(y i -y )∑i =14(x i -x )2=-370125≈-3. a ^=y -b ^x =34-(-3)×42.5=161.5.∴y ^=-3x +161.5. (2)依题意有P =(-3x +161.5)(x -30) =-3x 2+251.5x -4 845=-3⎝⎛⎭⎫x -251.562+251.5212-4 845.∴当x =251.56≈42时,P 有最大值,约为426.即预测销售单价为42元时,能获得最大日销售利润. 活动与探究2 思路分析:先画出散点图,确定是否具有线性相关关系,求出回归方程,再求出残差,确定模型的拟合的效果和R 2的含义.解:(1)作出该运动员训练次数(x )与成绩(y )之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.(2)x =39.25,y =40.875,∑i =18x 2i =12 656,∑i =18y 2i =13 731,∑i =18x i y i =13 180,∴b ^=∑i =18(x i -x )(y i -y )∑i =18(x i -x )2=∑i =18x i y i -8x y∑i =18x 2i -8x2≈1.041 5,a ^=y -b ^x =-0.003 875, ∴线性回归方程为 y ^=1.041 5x -0.003 875. (3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适. (4)计算得相关指数R 2≈0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.迁移与应用 1.B 解析:∵a ^=y -b ^x =49+26+39+544-9.4×4+2+3+54=9.1,∴回归方程为y ^=9.4x +9.1.令x =6,得y ^=9.4×6+9.1=65.5(万元).2.解:x =15×(14+16+18+20+22)=18,y =15×(12+10+7+5+3)=7.4,521ii x=∑=142+162+182+202+222=1 660, 521ii y=∑=122+102+72+52+32=327,∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,∴b ^=51522155i ii ii x y x yxx ==--∑∑=620-5×18×7.41 660-5×182=-4640 =-1.15.∴a ^=7.4+1.15×18=28.1,∴回归直线方程为y ^=-1.15x +28.1.∴∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y )2=53.2,R 2=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2≈0.994.故R 2≈0.994说明拟合效果较好.活动与探究3 思路分析:先由数值表作出散点图,然后根据散点的形状模拟出近似函数,进而转化为线性函数,由数值表求出回归函数.解:(1)作出散点图如图,从散点图可以看出x 与y 不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线21ec xy c =的周围,其中c 1,c 2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z =ln y ,则有变换后的样本点应分布在直线z =bx +a ,a =ln c 1,b =c 2的周围,这样就可以利用线性回归模型来建立y 与x 之间的求得回归直线方程为z =0.272x -3.849, ∴y ^=e 0.272x -3.849.迁移与应用 1.$0.151.73e xy -= 解析:由题给的经验公式y =e b xA ,两边取自然对数,便得ln y =ln A +b x .与线性回归直线方程相对照,只要取u =1x,v =ln y ,a =ln A ,就有v=a +bu ,这是v 对u 的线性回归方程.对此我们已经掌握了一套相关性检验,求a 与回归系数b 的方法.题目所给数据经变量置换u =1,v =ln y 变成如下表所示的数据:|r |故v 与u 之间具有很强的线性相关关系,求回归直线方程是有意义的.由表中数据可得b ^≈-0.15,a ^≈0.55, 即v ^=0.55-0.15u .把u 与v 换回原来的变量x 与y ,即u =1x ,v =ln y ,故ln y ^=0.55-0.15x ,即y ^=0.150.55ex-=e 0.550.15ex-≈0.151.73ex-.这就是y 对x 的回归曲线方程. 2.解:画出散点图如图所示.根据散点图可知y 与x 近似地呈反比例函数关系,设y =k x ,令t =1x,则y =kt所以t =1.55,y =7.2.所以b ^=∑i =15t i y i -5t y∑i =15t 2i -5t2≈4.134 4,a ^=y -b ^t ≈0.8.所以y ^=4.134 4t +0.8. 所以y 与x 的回归方程是y ^=4.134 4x+0.8. 当堂检测1.(2012湖南高考,理4)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg答案:D 解析:D 选项中,若该大学某女生身高为170 cm ,则可断定其体重约为0.85×170-85.71=58.79(kg).故D 不正确.2则y 对x A .y =x -1 B .y =x +1C .y =88+12x D .y =176 答案:C 解析:法一:由线性回归直线方程过样本中心(176,176),排除A ,B 答案,结合选项可得C 为正确答案.法二:将表中的五组数值分别代入选项验证,可知y =88+12x 最适合. 3.在两个变量y 与x 的回归模型中,分别选择了4个不同的模型.通过计算得R 2的值如下,其中拟合效果最好的模型是( )A .模型1的R 2为0.98B .模型2的R 2为0.80C .模型3的R 2为0.50D .模型4的R 2为0.25答案:A 解析:R 2越接近于1,则该模型的拟合效果就越好,精度越高.4.若对于变量y 与x 的10组统计数据的回归模型中,R 2=0.95,又知残差平方和为120.53,那么101i =∑(y i -y )2的值为______.答案:2 410.6 解析:依题意有0.95=1-1021120.53()ii y y =-∑,所以1021()ii yy =-∑=2 410.6.5)有如下的统计数据.若由此资料可知y (1)回归直线方程; 答案:解:于是51522215112.35451.2390545i ii ii x y x ybxx ==--⨯⨯===-⨯-∑∑$,$a=y -bx $=5-1.23×4=0.08, 所以回归直线方程为$y =bx$+$a =1.23x +0.08. (2)估计使用年限为10年时,维修费用为多少? 答案:当x =10时,$y =1.23×10+0.08=12.38(万元),估计使用10年时的维修费用为12.38万元.。
人教课标版高中数学选修2-3《回归分析基本思想及其初步应用(第2课时)》教案-新版
3.1 回归分析基本思想及其初步应用第二课时一、教学目标 1.核心素养:通过学习回归分析的基本思想及其初步应用,初步形成基本的数据分析能力. 2.学习目标(1)1.1.2.1 理解相关系数概念(2)1.1.2.2 判断刻画模型拟合效果的方法—相关指数和残差分析 (3)1.1.2.3 能用回归分析的方法对简单的案例进行分析. 3.学习重点判断刻画模型拟合效果的方法—相关系数、相关指数和残差分析 4.学习难点判断刻画模型拟合效果的方法—相关系数、相关指数和残差分析 二、教学设计 (一)课前设计 1.预习任务 任务1阅读教材P 4-P 6,思考在回归分析中,分析残差能够帮助我们解决那些问题?任务2刻画模型拟合效果的方法有哪些?2.预习自测1.下列说法正确的是 ( )A.在统计学中,回归分析是检验两个分类变量是否有关系的一种统计方法B.线性回归方程对应的直线a x b yˆˆˆ+=至少经过其样本数据点1122(,),(,),,(,)n n x y x y x y L 中的一个点C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D.在回归分析中,相关指数2R 为98.0的模型比相关指数2R 为80.0的模型拟合的效果差 【知识点:回归分析】解:C A.回归分析反映两个变量相关关系的数学方法,由建立回归方程来预报变量的情况.错误;B.线性回归方程对应的直线a x b yˆˆˆ+=,过其样本数据平均数点,错误;D.相关指数2R 越大,则相关性越强,模型的拟合效果越好. 错误;C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高. 正确.2.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2R 如下,其中拟合效果最好的模型是( ) A.模型1的相关指数2R 为0.99 B.模型2的相关指数2R 为0.88 C.模型3的相关指数2R 为0.50 D.模型4的相关指数2R 为0.20 【知识点:回归分析】解:A 由相关指数的意义知,2R 越大说明相关性越强,故选A. (二)课堂设计 1.知识回顾⑴对于一组具有线性相关关系的数据1122(,),(,),,(,)n n x y x y x y L ,1211,n n i i x x x x x n n =+++==∑L 121y y y 1y y ,nn i i n n=+++==∑L 则称点),y x (为样本点的中心. (2)线性回归方程:∧∧∧+=a x b y ,其中.1122211()()()n niii ii i nniii i x x y y x y nx yb x x xnx∧====---==--∑∑∑∑,a ∧=x b ∧-y(3)线性回归模型:y =bx +a +e 其中a 和b 为模型的未知参数,e 称为随机误差. 2.问题探究问题探究一 什么是相关系数?相关系数可以用来解释什么?●活动一 理论研究,概念学习—相关系数我们知道,两个变量x 和y 正(负)相关时,它们就有相同(反)的变化趋势,因此可以用回归直线来描述这种关系.与此相关的一个问题:如何描述x 和y 之间种线性关系的强弱?在统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值i x ,变量y 的观测值为i y (n i ≤≤1),则两个变量的相关系数r 的计算公式为∑∑∑===----=ni ni iini iiy yx x y yx x r 11221)()())((对于相关系数r ,当为正时,表明变量x 和y 正相关,当r 为负时,表明变量x 和y 负相关. 统计学认为,对于变量x,y ,如果[]75.0,1--∈r ,那么负相关很强;如果[]1,75.0∈r ,那么正相关很强;如果(]30.0,75.0--∈r 或[)75.0,3.0∈r ,那么相关性一般;若[]25.0,25.0-∈r ,那么相关性较弱.●活动二 学以致用,相关系数的应用例1 对下列各图中两个变量间的线性相关程度作出分析【知识点:相关系数】详解:图1,r =0.97相关性很强,而且是正相关;图2,r =-0.85相关性很强,而且是负相关 图3,r =0.24,不能用线性回归模型描述两个变量的关系;图4,r =-0.05乎没有什么关系,不能用线性回归模型描述两个变量的关系.点拨:当相关系数r 越接近1时,两个变量的线性相关程度越高,当相关系数r 越接近0时,两个变量的线性相关程度越低.问题探究二 什么是残差、及残差平方和、如何用残差判断拟合效果? ●活动一 残差的定义在线性回归模型中,e 是用bx +a 报真实值y 的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差呢?在实际应用中,我们用回归方程∧∧∧+=a x b y 中的∧y 估计回归模型y =bx +a +e 中的bx +a .由于随机误差e =y -(bx +a ),所以∧∧-=y y e 是e 的估计值.对于样本点1122(,),(,),,(,)n n x y x y x y L 而言,它们的随机误差为,1,2,,i i i e y bx a i n =--=L 其估计值为∧∧∧∧--=-=a x b y y y e i i i i i 1,2,,i n =L 称i e ∧是相对于点),i i y x (的残差. ●活动二 学以致用,残差的应用如何发现数据中的错误,如何衡量模型的拟合效果?通过残差可以发现原始数据中的可疑数据,判断所建立模型的拟合效果.下表是女大学生身高和体重的原始数据以及相应的残差数据.我们可以利用图形来分析残差.作图时纵坐标为残差,横坐标可以选为样本的编号或者解释变量的数值,这样作出的图形称为残差图.下表是以女大学生编号为横坐标的残差图从残差图中可以看到第1个样本点和第6个样本点的残差较大,需要确认是否出现人为的错误.残差所能说明的情况:① 样本点的残差比较大,确认采集数据时是否出现人为的错误或其他原因;②残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高.●活动三 多角度刻画拟合效果从残差图中我们可以大致判断模型的拟合效果,能否定性分析模型的拟合效果呢? 我们可以用2R 是刻画回归效果的量,除了表示回归模型的拟合效果,也表示解释变量和预报变量的线性相关关系(在线性回归模型中).其计算公式是22121ˆ()1()ni i nii y yR y y ==-=--∑∑对于已获取的样本数据,2R 表达式中的()∑=-ni i y y 12为确定的数.因此2R 越大,说明残差平方和()21ˆni i y y=-∑越小,模型的拟合效果越好;2R 越小,说明残差平方和()21ˆni i y y =-∑越大,模型的拟合效果越差.在线性回归模型中,2R 越接近于1,回归的效果越好(因为2R 越接近于1,表示解释变量和预报变量的线性相关性越强).在线性回归模型中,2R 同时也表示解释变量对预报变量变化的贡献率.()()64.0ˆ112122≈---=∑∑==ni ini i i y yy y R ,即解释变量对预报变量变化约贡献了64%,而随机误差贡献了剩余的36%. 问题探究三●活动一 学以致用例2.某运动员训练次数与运动成绩之间的数据关系如下:根据数据分别计算相关系数、残差、相关指数2R ,判断能否用线性回归模型,若能求出回归方程并试预测该运动员训练47次以及55次的成绩,若不能说明理由. 【知识点:线性回归,线性相关关系】详解:(1)作出该运动员训练次数x 与成绩y 之间的散点图,如图1所示,由散点图可知,它们之间具有线性相关关系.(2)列表计算:由上表可求得875.40,25.39==y x ,12656812=∑=i ix ,13731812=∑=i iy ,1318081=∑=ii i yx ,所以88118822211()()8 1.0415.()iii ii i iii i x x y y x y x yb x x xx====---==≈--∑∑∑∑00302.0-≈-=x b y a ,所以回归直线方程为.00302.00415.1^-=x y(3)计算相关系数将上述数据代入0.992704r r ==,查表可知707.005.0=r ,而05.0r r >,故y 与x 之间存在显著的相关关系. (4)残差分析:作残差图如图2,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.计算残差的方差得884113.02=σ,说明预报的精度较高. (5)计算相关指数2R计算相关指数2R =0.9855.说明该运动员的成绩的差异有98.55%是由训练次数引起的. (6)做出预报由上述分析可知,我们可用回归方程.00302.00415.1^-=x y 作为该运动员成绩的预报值.将x =47和x =55分别代入该方程可得y =49和y =57, 故预测运动员训练47次和55次的成绩分别为49和57.点拨:1.解答本类题目应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析. 2.在使用回归方程进行预报时要注意:(1)回归方程只适用于我们所研究的样本的总体; (2)我们所建立的回归方程一般都有时间性; (3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值. 3.课堂总结【知识梳理】(1)在统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值i x ,变量y 的观测值为i y (n i ≤≤1),则两个变量的相关系数r 的计算公式为∑∑∑===----=ni ni iini iiy yx x y yx x r 11221)()())(((2)数据点和它在回归直线上相应位置的差异是随机误差的效应,称(1,2,3,n)i i e y y i ∧∧=-=L ,为残差.由,y ∧∧∧+=a x b i i 得(1,2,3,,)i i i e y b x a i n ∧∧∧=--=L .【重难点突破】(1)残差图分析:若残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度就越高.若残差点分布在其他形状的区域,则说明所选用的回归模型不是最好的,有改进的空间.(2)2R 越大,说明残差平方和21)y (∑=-ni i y 越小,模型的拟合效果越好;2R 越小,说明残差平方和21)y (∑=-ni i y 越大,模型的拟合效果越差.在线性回归模型中,2R 越接近于1,回归的效果越好(因为2R 越接近于1,表示解释变量和预报变量的线性相关性越强).在线性回归模型中, 2R 同时也表示解释变量对预报变量变化的贡献率. 4.随堂检测1.下列各组变量之间具有线性相关关系的是( ) A.出租车费与行驶的里程 B.学习成绩与学生身高 C.身高与体重 D.铁的体积与质量【知识点:线性回归,线性相关关系】解: C2.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程y ^=b ^x +a ^,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( ) A.b ^>b ′,a ^>a ′B.b ^ >b ′,a ^ <a ′C.b ^<b ′,a ^>a ′ D.b ^ <b ′,a ^<a ′【知识点:线性回归,线性相关关系】解:C b ′=2,a ′=-2,b ^ =57,a ^ =y -b ^ x =136-57×72=-13, ∴b ^ <b ′,a ^>a ′.选C.3.四名同学根据各自的样本数据研究变量y x ,之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且1.63.2-=∧x y ; ②y 与x 负相关且1.537.3--=∧x y ; ③y 与x 正相关且27.3-=∧x y ; ④y 与x 正相关且17.656.4+-=∧x y . 其中一定不正确的结论的序号是( ) A.①② B.②③ C.③④ D.①④【知识点:线性回归,线性相关关系】解:D ①中y 与x 负相关而斜率为正,不正确;④中y 与x 正相关而斜率为负,不正确. 4.如果散点图中的所有的点都在一条斜率不为0的直线上,则残差为_____,相关指数2R =_____. 【知识点:线性回归,线性相关关系】解:0, 1 由题意知,ˆi i y y = ∴相应的残差ˆˆ0i i i ey y =-=. 相关指数22121ˆ()110 1.()niii nii y yR y y ==-=-=-=-∑∑(三)课后作业 基础型 自主突破1.对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( )相关系数为1r 相关系数为2r相关系数为3r 相关系数为4r A.24310r r r r <<<< B.31240r r r r <<<< C.13240r r r r <<<< D.31420r r r r <<<< 【知识点:相关系数】解:A2. 甲、乙、丙、丁四位同学在建立变量y x ,的回归模型时,分别选择了4中不同的模型,计算可得它们的相关指数2R 分别如下表,其中拟合效果最好的为( )A.甲B.乙C.丙D.丁 答案:A解析:【知识点:相关指数】3.已知变量x 与y 正相关,且由观测数据算得样本平均数x -=3,y -=3.5,则由该观测数据算得的线性回归方程可能是( ) A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4【知识点:回归方程,相关关系】解:A 因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项C 与D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标分别代入选项A 和B 中的直线方程进行检验,可以排除B ,只有A 可能.4.已知一组观测值1122,),(,),,(,)n n x y x y x y L (之间满足(1,2,,)y bx a e i n =++=L ,若e 恒为0,则2R 为 .【知识点:残差,相关指数】 答案:1.5.下表中给出了5组数据),(i i y x ,从中选出4组使其线性相关性最大,且保留第1组(-5,-3),那么应该去掉第_______组【知识点:残差分析】解: 3能力型 师生共研6.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归方程的回归系数是∧b ,回归截距是∧a ,那么必有( ) A .∧b 与r 的符号相同 B .∧a 与r 的符号相同 C .∧b 与r 的相反D .∧a 与r 的符号相反 【知识点:相关关系】解:.A ∧b 决定正相关还是负相关,与r 的符号相同.7.回归分析中,相关指数2R 的值越大,说明残差平方和( ) A.越小 B.越大C.可能大也可能小D.以上都不对【知识点:相关指数】解: A 由2R 和残差平方和公式易得.8. 若对于变量y 与x 的10组统计数据的回归模型中,相关指数95.02=R ,又知残差平方和为53.120,那么∑=-1012)(i iy y的值为( )A.241.06B.2410.6C.253.08D.2530.8【知识点:相关指数】解: B 由2R 和残差平方和公式易得. 9.已知x ,y 之间的一组数据如下表:对于表中数据,现给出如下拟合直线:①5457+=x y ;②12+=x y ;③52-58x y =;④x y 2=.根据最小二乘法的思想,其中拟合程度最好的直线是________.(填正确序号) 【知识点:样本点中心,回归方程】解:① 直线必过样本点中心(3,5),依次检验即可. 探究型 多维突破(一般为2道题,具体课时可相应灵活调整)10.假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,现测得5组数据如下表:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)球y 与x 间的回归方程,对于基本苗数56.7,预报其成熟期的有效穗;(3)求相关指数2R ,并说明残差变量对成熟期有效穗的影响占百分之几. 【知识点:散点图,回归方程,相关指数】 解:(1)略(2)由散点图可知,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.可求得线性回归方程为.291.0664.34x y +=∧当x =56.7时,.164.517.56291.0644.34≈⨯+=∧y 即估计其成熟期有效穗为51.164. (3)残差平方和为:,427.8512≈∑=i i e总偏差平方和:,18.50)512≈-∑=i i y y (故,832.018.50427.8-12≈=R 解释变量小麦基本苗数对成熟期有效穗的影响约占83.2%,残差变量的影响约占1-83.2%=16.8%.11.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得数据如下:(1)计算残差及残差和; (2)进行残差分析.【知识点:残差,残差分析,残差图】解:(1) 列出残差表(由已知可知7.91960.54668.0=+=∧y x y ,)如下所以残差平方和=2220.4-0.30.2 1.4+++=L ()()(),残差值如表中第四行的值.(2)残差分析:画出残差图,散点图(略),由散点图可以说明x 与y 有很强的相关性.可以观察到,第4个样本点和第5个样本点的残差比较大,需要纠正数据,重新利用线性回归模型拟合数据;残差图中的残差点比较均匀地落在水平的带状区域中,说明选用的线性回归模型较为合适,带状区域的宽度仅为1.3,比较狭窄,说明模型拟合精度较高. (四)自助餐1.从某大学随机抽取8名女大学生,其身高x (cm )和体重y (kg )的回归方程为712.85-849.0x y =∧,则身高172cm 的女大学生,由回归方程可以得知其体重( ) A.等于60.316kg B.约为60.316kg C.大于60.316kg D.小于60.316kg 【知识点:回归分析】 解:B2.在回归分析中,残差图的纵坐标为( ) A.残差 B.样本编号 C.等高条形图 D.独立性检验 【知识点:残差图】 解: A3.设1122(,)(,),,(,)n n x y x y x y L 是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是( )A.直线l 过点(,)x yB.x 与y 的相关系数为直线l 的斜率C.x 与y 的相关系数在0到1之间D.当n 为偶数时,分布在l 两侧的样本点的个数一定相同 【知识点:回归分析,相关系数】 解:A4.对两个变量x 和y 进行回归分析,得到一组样本数据: 1122(,)(,),,(,)n n x y x y x y L ,则下列说法中不正确的是( )A.由样本数据得到的回归方程ˆˆˆybx a =+必过样本点的中心(,)x y B.残差平方和越小的模型,拟合的效果越好C.用相关指数R 2来刻画回归效果,R 2的值越小,说明模型的拟合效果越好D.若变量y 和x 之间的相关系数r =-0.936 2,则变量y 和x 之间具有线性相关关系 【知识点:回归分析,相关系数】解: C 解析:R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好. 5.如图所示的是四个残差图,其中回归模型的拟合效果最好的是( )【知识点:残差图】解:B 残差图中,只有A 、B 是水平带状区域分布,且B 中残差点散点分布集中在更狭窄的范围内所以B 项中回归模型的拟合效果最好.6.变量x 与y 具有线性相关关系,当x 取值16,14,12,8时,通过观测得到y 的值为别为11,9,8.5.若在实际问题中,y 的最大取值是10,则x 的最大取值不能超过( ) A.16 B.17 C.15 D.12【知识点:回归方程】 解:C7.一家工厂对职工进行技能培训,收集数据如下:两变量的回归直线方程为__________,该函数模型的残差平方和为__________,相关指数为__________.【知识点:回归方程,残差,相关指数】 解:. 5.9817.0+=∧x y 34.126 957.0.8.若回归直线方程中的参数0=∧b ,则相关系数为 . 【知识点:相关系数】 解:0.9.关于x 与y 有如下数据为了对x ,y 两个变量进行统计分析,现有以下两种线性模型,甲:5.175.6+=∧x y ,乙:177+=∧x y ,则模型__________拟合效果更好.(填“甲”或“乙”) 【知识点:回归分析,样本点中心】 解:甲.10.关于x 与y 有以下数据:已知x 与y 线性相关,由最小二乘法得ˆb =6.5, (1)求y 关于x 的线性回归方程.(2)现有第二个线性模型:ˆy=7x +17,且相关指数R 2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好?请说明理由. 【知识点:回归分析,相关指数】解:(1)依题意设y 关于x 的线性回归方程为ˆˆ6.5yx a =+, 1(24568)=55x =⨯++++,1(3040605070)=505y =⨯++++∵ˆˆ6.5yx a =+经过样本点的中心(,)x y , ∴50=6.5×5+ˆa,∴ˆa =17.5, ∴y 与x 的线性回归方程为ˆy=6.5x +17.5. (2)由(1)的线性模型得ˆi i y y -与i y y -的关系如下表:所以52222221ˆ()(0.5)( 3.5)10( 6.5)0.5155i i i y y=-=-+-++-+=∑, 52222221()(20)(10)100201000ii y y =-=-+-+++=∑,所以52211521ˆ()155110.8451000()iii ii y yR y y ==-=-=-=-∑∑. 由于21R =0.845,R 2=0.82知21R >R 2, 所以(1)的线性模型拟合效果比较好.11.假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有关的统计资料如表所示.(1)求线性回归方程ˆˆˆybx a =+; (2)若相关指数R 2=0.9587,说明其含义; (3)估计使用年限为9年时,维修费用是多少? 【知识点:回归分析,相关指数】 解:(1)由已知数据制成表:由此可得x =4,y =5,121()()1.23()niii nii x x y y b x x ∧==--==-∑∑,ˆˆ0.08ay bx =-= ∴回归直线方程为ˆy=1.23x +0.08. (2)R 2=0.958 7,说明该设备的维修费用有95.87%由使用年限引起的.所以回归模型的拟合效果好.(3)回归直线方程为ˆy =1.23x +0.08,当x =9(年)时,ˆy =1.23×9+0.08=11.15(万元),即估计使用9年时维修费用是11.15万元.。
人教版高中数学选修2-3第三章3.1回归分析的基本思想及其初步应用
导入新课在《数学3》中,我们对两个具有线性相关关系的变量利用回归分析的方法进行了研究,其步骤为:画散点图求回归直线方程用直线方程进行预报提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?函数关系是一种确定性关系,而相关关系是一种非确定性关系.那么,这节课我们就学习对具有相关关系的两个变量进行统计分析的一种常用方法——回归分析.1.1回归分析的基本思想及其初步应用教学目标知识目标通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.了解回归模型和函数模型的区别.任何模型只能近似描述实际问题.了解残差分析和指标R2的含义.能力目标具有初步应用回归分析的能力.情感目标通过对回归分析的基本思想的学习,能够在现实生活中应用此思想.教学重难点(1)了解线性回归模型与函数模型的差异;(2)了解判断刻画模型拟合效果的方法-相关指数和残差分析.解释残差变量的含义,了解偏差平方和分解的思想.探究对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),我们知道回归直线y=bx+a 的斜率和截距的最小二乘估计分别为ˆˆˆn i i i=1n 2i i=1(x -x)(y -y)b =,(x-x)a=y -bx,∑∑其中n ni ii=1i=111x=x,y=y,(x,y) n n∑∑称为样本点的中心,你能推导出这两个计算公式吗?回归直线过样本点的中心从已经学过的知识我们知道,斜距和斜率分别是使aˆb ˆˆi i i i Q(α,β)=y -y=y -(βx +α)取最小时的值.由于α,β∑n 2i i i=1Q(α,β)=[y -βx -(y -βx)+(y -βx)-α]n 2i i i i i=12{[y -βx -(y -βx)]+2[y -βx -(y -βx)][(y -βx)-α]+[(y -βx)-α]}⨯=∑ni i i=1ni i i=1[y -βx -(y -βx)](y -βx -α) =(y -βx -α)[y -βx -(y -βx)]∑∑注意到n ni i i=1i=1=(y -βx -α)[y -βx -n(y -βx)]∑∑=(y -βx-α)[ny -n βx-n(y -βx)]=0,n n 2i i i i i=1i=12=[y -βx -(y -βx)]+2[y -βx -(y -βx)](y -βx-α)+n(y -βx-α),∑∑继续∑n22i i i=1Q(α,β)=[y -βx -(y -βx)]+n(y -βx -α),因此∑∑∑22nn n22i i i i i=1i=1i=1=β(x -x)-2β(x -x)(y -y)+(y -y)+n(y -βx-α)⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦∑∑∑∑∑∑2nn22i i i i n2i=1i=1i nn 22i=1i i i=1i=12ni i=1(x -x)(y -y)[(x -x)(y -y)]=n(y -βx -α)+(x -x)β--(x -x)(x -x) +(y -y)继续在上式中,后两项和无关,而前两项为非负数,因此要使Q 取得最小值,当且仅当前两项的值均为0,即有∑∑nii i=1n2ii=1(x-x)(y -y)β=(x-x)这正是我们所要推导的公式.α,β例题1从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重.解答第一步:画散点图020406080150155160165170175180身高/cm体重/k g第二步:求回归方程第三步:代值计算探究身高为172c m的女大学生的体重一定是60.316kg 吗?如果不是,其原因是什么?计算器得:故线性回归方程:当x=172时,0.849.b-85.712,a==ˆˆ85.712.-0.849x y=ˆˆy0.849172-85.712 60.316(kg)=⨯=020406080150155160165170175180身高/cm体重/k g显然,身高172cm 的女大学生的体重不一定是60.316kg ,但一般可以认为她的体重在60.316kg 左右,下图中的样本点和回归直线的相互位置说明了这一点.由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用线性回归模型y=bx+a+e来表示,这里a和b为模型的未知参数,e 是y与bx+a之间的误差.通常e为随机变量,称为随机误差.它的均值E(e)=0,方差D(e)=σ2>0,这样线性回归的完整表达式为y=bx+a+eE(e)=0,D(e)=σ2.注意存在误差的原因(1)随机误差,其大小取决于随机误差的方差. 在线性回归模型中,随机误差e 的方差 2越小,用bx+a 预报真实值y 的精度越高.(2)和为斜率和截距的估计值,它们与真实值a 和b 之间也存在误差.b ˆa ˆ要牢记!探究在线性回归模型中,e 是用bx+a 预报真实值y 的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差呢?在实际应用中,我们用回归方程a ˆxb ˆyˆ+=中的估计bx+a. 由于随机误差e=y-(bx+a),所以是e 的估计值. 对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )yˆy ˆ-y eˆ=而言,它们的随机误差为e i =y i -bx i -a ,i=1,2,…,n ,其估计值为n,1,,2,...,i a ˆx b ˆy y ˆy e ˆi i i i =--=-=i eˆ称为相应于点(x i ,y i )的残差(residual).要牢记!思考如何发现数据中的错误?如何衡量模型的拟合效果?(1)可以利用残差图来分析残差特性;(2)可以利用.ˆˆnn22i i i2i =1i =1nn 22i i i =1i =1(y -y )(y -y)R =1-=(y -y)(y -y)∑∑∑∑来刻画回归的效果.何为残差图?残差图作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.编号12345671020304050607080-10-20-30-40-50-6090100要牢记!对R 2的理解(1)在含有一个解释变量的线性模型中,R 2恰好等于相关系数r 的平方.(2)对于已经获取的样本数据,R 2表达式中的为确定的数.因此R 2越大,意味着残差平方和越小,即模型的拟合效果越好;反之,越差.∑=n1i 2i )y -(y ∑=n1i 2i)y -(y要牢记!用身高预报体重时,需要注意以下问题(1)回归方程只适用于我们所研究的样本总体;(2)我们所建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值.建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出解释变量和预报变量的散点图,观察它们之间的关系;(3)由经验确定回归方程的类型;(4)按一定规则估计回归方程中的参数;(5)得出结果后分析残差图是否有异常,若有异常,检查数据是否有误,或模型是否合适等.要牢记!为了对x 、Y 两个变量进行统计分析,现有以下两种线性模型和试比较哪一个模型拟合的效果更好.例题2关于X 与Y 有如下数据:x 24568y3040605070ˆy=6.5x +17.5ˆy =7x +17分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论.ˆ∑∑52i i 2i=1152ii=1(y -y )155R =1-=1-=0.8451000(y-y)22R =1-ˆ∑∑52i i i=152i i=1(y -y )180=1-=0.821000(y -y),84.5%>82%,所以甲选用的模型拟合效果较好.解答课堂小结1.数学知识(1)建立回归模型及残差图分析的基本步骤;(2)不同模型拟合效果的比较方法;(3)相关指数和残差的分析.2. 数学思想数形结合的思想,化归思想及整体思想.3.数学方法数形结合法,转化法,换元法.高考链接1. (2007年浙江)某校有学生2000人,其中高三学生500人,为了了解学生身体素质情况,采用按年级分层抽样的方法,从该学生中抽取一个200人的样本,则样本中高三学生的人数为_________.解析:本题考查抽样的方法. 由已知抽样比200/2000=1/10,故样本中高三学生数为500*(1/10)=50.2.(2007年广东)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.x3456y 2.534 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法y=bx+a .求出y关于x的线性回归方程ˆˆ(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?解析:(1)如下图01234567012345产量能耗66.54.5645342.53(2)y x in1i i =⨯+⨯+⨯+⨯=∑= 4.546543x =+++= 3.544.5432.5y =+++=866543i2222n1i 2x =+++=∑=ˆ266.5-4 4.5 3.566.5-63b ===0.786-4 4.586-81⨯⨯⨯ˆˆa=Y-bX =3.5-0.7 4.5=0.35⨯故线性回归方程为y=0.7x+0.35.(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35.课堂练习1.选择(1)下列说法中正确的有:()C①若r>0,则x增大时,y也相应增大;②若r<0,则x增大时,y也相应增大;③若r=1或r=-1,则x与y的关系完全对应(由函数关系),在散点图上各个点均在一条直线上A. ①②B. ②③C. ①③D. ①②③解析:若r>0,表示两个相关变量正相关,x增大时,y也相应增大,故①正确. r<0,表示两个变量负相关,x增大时,y也相应减小,故②错误. |r|越接近1,表示两个变量相关性越高,|r|=1表示两个变量有确定的关系(即函数关系),故③正确.(2)对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合A效果最好的模型是()A.模型Ⅰ的相关系数r为0.98B.模型Ⅱ的相关系数r为0.80C.模型Ⅲ的相关系数r为0.50D.模型Ⅳ的相关系数r为0.25解析:根据相关系数的定义和计算公式可知,|r|≦1,且|r|越接近于1,相关程度越大,拟合效果越好;|r|越接近于0,相关程度越小,拟合效果越弱.(3)对有线性相关关系的两个变量建立的回归直线方程中,回归系数()A.可以小于0 B.小于0 C.能等于0 D.只能等于0a xb y ˆˆˆ+=b ˆ解析: 时,得r=0,这时不具有线性相关性,但能大于0,也能小于0.ˆb0=ˆbA2.解答题(1)现随机抽取了我校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试中的数学成绩(y),数据如下:学生号12345678910 x12010811710410311010410599108 y84648468696869465771试问这10个学生的两次数学考试成绩是否具有显著性线性相关关系?查表得自由度为10-2=8相应的相关关系临界值由知,两次数学考试成绩有显著性的线性相关关系.∑==101i 2i116584x∑==101i 2i47384y107.8x =68y =73796yx 101i ii∑==易得则相关系数为解答227379610107.868r 0.7506(11658410107.8)(473841068)-⨯⨯=≈-⨯-⨯0.05r 0.6021 =0.05r r >(2)观察两相关量得如下数据:x-1-2-3-4-553421 y-9-7-5-3-115379求两变量间的回归方程.i 12345678910x i -1-2-3-4-553421y i -9-7-5-3-115379x i y i 9141512551512149解答列表:∑∑∑10101022ii iii=1i=1i=1x =0,y =0,=110,=330,=110.y y xx∑∑10i i i=11022i i=1-10x y 110-100b ===1110-100-10y x x x ⨯⨯⨯a =y -bx =0-b 0=0⨯ˆy=x .所求回归直线方程为习题解答1. 画散点图的目的是通过变量的散点图判断两个变量更近似于什么样的函数关系,以确定是否直接用线性回归模型来拟合原始数据.2. 分析残差可以帮助我们解决以下几个问题:(1)寻找异常点,就是残差特别大的点,考察相应的样本数据是否有错;(2)分析残差图可以发现模型选择是否合适.3.(1)解释变量和预报变量的关系是线性函数关系;(2)R2=1.。
新人教A版数学-选修2-3-教案:回归分析的基本思想及其初步应用知识梳理
回归分析的基本思想及其初步应用知识梳理一.线性回归方程的确定如果一组具有相关关系的数据1122(,),(,),,(,),n n x y x y x y 作出散点图大致分布在一条直线附近,那么我们称这样的变量之间的关系为线性相关关系(也称一元线性相关),这条直线就是回归直线,记为ˆybx a =+. 那么如何求得参数a b 和使得各点与此直线的距离的平方和为最小,即如何求得线性回归方程呢? [来源:]在所求回归直线方程ˆybx a =+中,当x 取i x 时,i i y bx a =+与实际收集到的数据i y 之间的偏差为()i i i i y y y bx a -=-+,偏差的平方为22()[()]i i i i y y y bx a -=-+(如图1).[来源:] 即21()niii Q y bx a ==--∑ 来刻画出n 个点与回归直线在整体上的偏差的平方和,显然Q 取最小值时的,a b 的值就是我们所求的:121()()()n iii nii x x y y b x x ==--=-∑∑1221ni ii nii x y nx yxnx==-=-∑∑a y bx =-其中(,)i i x y 为样本数据,11,n ni i i ix x y y n n ==∑∑为样本平均数,(,)x y 称为样本点中心,且所求线性回归直线经过样本点中心(如图2所示).当回归直线斜率0b >时,为线性正相关, 0b <时为线性负相关.应注意,这个最小距离不是通常所指的各数据的点(,)i i x y 到直线的距离,而是各数据点(,)i i x y 沿平行y 轴方向到直线的距离(如图1所示).⋅对于上面参数a b 和的求法原理及方法是简单的,但是运算量较大,需要将o⋅⋅y bx a=+y xyx图2 y bx a =+⋅iyyix xi y2()i i y y -o图121()ni i i Q y bx a ==--∑展开,再合并,然后配方整理,从而求得,a b . [来源:]例如,当,,,a b m n 取怎样实数时, 22()()a n b m k -+-+的值为最小,显然当,a m b n ==时最小值为k ,像这样配方求最值的方法是经常用到的, 线性回归方程ˆybx a =+中的参数,b a 就是这样求出的. 教材中用了添项法较为简捷的求出了截距a 和斜率b 分别是使21(,)()ni i i Q y x αββα==--∑取最小值时,αβ的值.求得121()()()niii nii x x y y x x β==--=-∑∑,y x αβ=-的值,请同学们体会其解法.线性回归方程的确定是进行回归分析的基础.二.回归分析:是对具有相关关系的两个变量进行统计分析的一种常用方法. 1.线性相关关系的强弱两个变量之间线性相关关系的样本相关系数12211()()()()niii n niii i x x y y r x x y y ===--=--∑∑∑衡量线性相性关系的强弱,由于分子与斜率b 的分子一样,因此,当0r >时,两个变量正相关;当0r <时两个变量负相关.当r 的绝对值接近1,表明两个变量的线性相关性很强;当r 的绝对值接近0,表明两个变量之间几乎不存在线性相关关系.规定当0.75r >时,我们认为两个变量有很强的线性相关关系.2.解释变量与随机误差对预报精度的影响以及残差分析 (1)有关概念线性回归模型2()0,()y bx a e E e D e σ=++⎧⎨==⎩其中a 和b 为模型的未知参数;[来源:] x 称为解释变量,y 称为预报变量;e 是y 与ˆy bx a =+之间的误差, e 叫随机误差。
最新人教版高中数学选修2-3《回归分析的基本思想及其初步应用》课前导引
3.1 回归分析的基本思想及其初步应用课前导引问题导入函数关系是一种确定性关系,而相关关系则是一种非确定性关系.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.本节我们将在数学3模块的基础上进一步讨论回归分析的基本思想及初步应用.知识预览1.样本点的中心对于一但具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),我们知道其回归方程的截距和斜率的最小二乘估计公式分别有:x b y aˆˆ-= b ˆ=∑∑==---n i i n i i i x xy y x x 121)())(( 其中∑==ni i x n x 11 ∑==ni i y n y 11 (y ,∞)称为____________注:回归直线过样本点的中心.2.线性回归模型y=bx+a+e这里a 和b 为模型的未知参数,e 是y 与y =bx+a 之间的误差.通常e 为随机变量,称为随机误差,它的均值E (e )=0,方差D (e )=σ2>0.这样线性回归模型的完整表达式为: ⎩⎨⎧==++=2)(,0)(σe D e E e a by y (3) 说明:在线性回归模型(3)中,随机误差e 的方差σ2越小,通过回归直线y =bx+a 预报真实值y 的精度越高.随机误差是引起预报值yˆ与真实值y 之间的误差的原因之一,其大小取决于随机误差的方差.另一方面,由于公式(1)和(2)中aˆ和b ˆ为截距和斜率的估计值,它们与真实值a 和b 之间也存在误差,这种误差是引起预报值yˆ与真实值y 之间误差的另一个原因. 3.残差(residual)i e ˆ=y i -i y ˆ=y i -i x b ˆ-a ˆ,i=1,2,…,n,i eˆ称为相应于点(x i ,y i )的残差.类比样本方差估计总体方差的思想,可以用2ˆσ= ∑=-=-n i i Q n e n 1221ˆ21(a ˆ,b ˆ)(n >2)作为σ2的估计量,其中a ˆ和b ˆ由公式(1)(2)给出,Q (a ˆ,b ˆ)称为残差平方和(residual sum of squares).可以用2ˆσ衡量回归方程的预报精度.通常,2ˆσ越小,预报精度越高. 4.残差分析在研究两个变量间的关系时,首先要根据散点图来精略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差 1ˆe,2ˆe ,…,n e ˆ 来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.5.残差图我们可以利用图形来分析残差特性.作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.下图是以样本编号为横坐标的残差图.从图中可以看出,第1个样本点和第6个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因.另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.另外,我们还可以用相关指数R 2来刻画回归的效果,其计算公式是:R 2=1-∑∑==--ni i n i i i y y y y 1212)()ˆ(. 显然,R 2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率.R 2越接近于1,表示回归的效果越好(因为R 2越接近于1,表示解释变量和预报变量的线性相关性越强).如果对某组数据可能采取几种不同的回归方程进行回归分析,也可以通过比较几个R 2,选择R 2大的模型作为这组数据的模型.6.建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量的散点图,观察它们之间的关系(如是否存在线性关系等);(2)画出确定好的解释变量和预报变量,哪个变量是预报变量;(3)由经验确定回归方程的类型(如我们观察到数据呈现线性关系,则选用线性回归方程y=bx+a);(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等);若存在异常,则检查数据是否有误,或模型是否合适等.7.比较拟合效果的基本步骤对于给定的样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),两个含有未知参数的模型)1(y =f(x,a)和)2(y =g(x,b),其中a 和b 都是未知参数.可以按如下的步骤来比较它们的拟合效果:(1)分别建立对应于两个模型的回归方程)1(ˆy=f(x,a ˆ)与)2(ˆy =g(x,b ˆ),其中a ˆ和b ˆ分别是参数a 和b 的估计值;(2)分别计算两个回归方程的残差平方和)ˆ(ˆ1)1()1(∑=-=n i i i y y Q 2与21)2()2()ˆ(ˆ∑=-=ni i i y y Q ;(3)若)2()1(ˆˆQ Q<,则)1(ˆy =f(x,a ˆ)的效果比)2(ˆy =g(x,b ˆ)的好;反之, )1(ˆy =f(x,a ˆ)的效果不如)2(ˆy=g(x, b ˆ)的好.。
最新人教版高中数学选修2-3《回归分析的基本思想及其初步应用》目标导引
3.1 回归分析的基本思想及其初步应用一览众山小三维目录1.通过收集现实问题中的两个有关联变量的数据作出散点图,并能利用散点图直观认识两变量的相关关系.通过对典型案例的探究,进一步了解回归的基本思想、方法及初步应用.2.通过对案例的分析,学会对数据的收集、整理和分析,增强社会实践能力,提高解决问题的能力.学法指导本节内容较为抽象,在学习前应先对抽样方法、数据的收集处理、回归直线方程、用样本估计总体等知识进行复习.本节的学习一定要注重对案例的分析,要通过一些具体的实例来理解分析的方法及应用,再应用到实际问题中.同时要理论联系实际,以起到加深理解,帮助接受的作用.诱学导入在实际问题中我们常常会遇到多个变量同处于一个过程之中,它们互相联系、互相制约.有的变量之间有完全确定的函数关系,例如电压U、电阻R与电流强度之间有关系式:U=IR,在圆面积S与半径R之间有关系式S=πR2.另外还有一些变量,它们之间也有一定的关系,然而这种关系并不完全确定,例如正常人的血压与年龄有一定关系,一般讲年龄大的人血压相对会高一些,但它们之间的关系就不能用一个确定的函数关系式表达出来.回归分析是对具有相关关系的两个变量统计分析的一种常用方法.相关关系又分线性相关关系和非线性相关关系.一般地,把两个变量分为解释变量x与预报变量y,作出散点图,从点的分布特征来判定是否线性相关.若线性相关,可能利用回归直线方程来解决相关的实际问题.问题:从上述材料知道,判断两个变量是否线性相关的关键是做散点图,并观察所给的数据列成的点是否在一条直线的附近来判定.那么,如果作图不准,出现误差怎么办?怎么样更好地判定两个变量相关关系的强弱?导入:通过散点图作相关性检验,由于它直观方便,所以对解决相关性检验问题比较常用,但在作图中,由于存在误差,有时很难说这些点是不是分布在一条直线的附近,这时就很难判定两个变量之间是否具有相关关系.因此单纯的由散点图判断主观性太强.出现这种情况时,我们通常在回归分析时用相关系数r来检验两个变量间相关关系的强弱.公式及公式的应用就是本节重要内容之一.。
最新人教版高中数学选修2-3《回归分析的基本思想及其初步应用》示范教案(第1课时)
第三章统计案例本章概览整体设计教材分析1.本章内容在学科知识中的地位与重要性在实际生活中,我们经常面临着一些需要作出推断的问题,例如研制出的一种新药,需要推断它是否有效;吸烟是否与患癌症有关等等,在对于类似的问题作出推断时,我们不能仅凭主观臆断作出结论,而是需要通过实验来收集数据,并对这些数据作出相应的分析,从而做出合理的判断.两个变量之间是否存在关系?又是何种关系?这些问题的解决,也是数学中一种重要的思想方法.本章是数学与生产、生活实际相结合、相联系的重要体现,是数学重要思想方法的应用,是数学与生产、生活相联系的桥梁之一.2.本章主要内容本章知识是新课标教材的新增内容,目的是通过案例介绍一些统计方法,体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用.本章的重点是:独立性检验和回归分析的基本思想与方法;难点是:独立性检验和回归分析的初步应用.主要内容具体有:(1)线性相关关系的判断;(2)残差分析;(3)建立回归模型的基本步骤;(4)拟合效果的比较;(5)等高条形图的应用;(6)独立性检验的基本思想.课标要求1.通过典型案例的探究,进一步了解回归分析的基本思想、方法及其初步应用.2.通过典型案例的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.教学建议本章在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用.在进行本章教学时,应注意以下几点:(1)通过对典型案例的讨论,了解回归分析的基本思路、方法及其初步应用.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.教学中应该通过生活中详实事例理解回归分析的方法,其步骤为通过散点图,直观地了解两个变量的关系,然后,通过最小二乘法建立回归模型,最后通过分析残差、相关指数等,评价模型的好坏.重点是了解回归分析的思想方法,对其理论基础不做要求,避免学生单纯记忆和机械套用公式进行计算.(2)通过对典型案例的分析,了解独立性检验的基本思想、方法及其初步应用.教学中应用实例分析总结得出独立性检验的意义,并且认真体会独立性检验的基本思路类似于反证法,会用类比的思想方法得出独立性检验的基本步骤.重点是了解独立性检验的思想方法,对其理论基础不做要求,避免学生单纯记忆和机械套用公式进行计算.(3)回归分析和独立性检验两种思想方法的学习重在使用.这部分内容是《必修3》统计内容的深化,反映了对已学知识的螺旋式上升的认识过程,也充分体现了两种思想的应用价值,在应用中不断提高对两种思想方法的认识.课时分配本章教学时间大约需10课时,具体分配如下(仅供参考)3.1回归分析的基本思想及其初步应用约4课时3.2独立性检验的基本思想及其初步应用约3课时实习作业约2课时本章复习约1课时3.1 回归分析的基本思想及其初步应用整体设计教材分析1.教材的地位和作用高中新课程中增加了有关统计学初步的内容,先后出现在必修3和选修12(文科)、选修23(理科)中.《数学3(必修)》中的“统计”一章,给出了运用统计的方法解决问题的思路.“线性回归分析”是其介绍的一种分析、整理数据的方法.在这一部分中,学习了如何画散点图、利用最小二乘法的思想、利用计算器求回归直线方程、利用回归直线方程进行预报等内容.然而在大量的实际问题中,两个变量不一定都呈线性相关关系,它们可能呈指数关系或对数关系等非线性关系,本节就是在学习了如何建立线性回归模型的基础上,探索如何建立非线性关系的回归模型.通过本节的学习,使学生了解回归分析的必要性和回归分析的基本思想,明确回归分析的基本方法和基本步骤,学会以科学的态度评价两个变量的相互关系,培养学生运用所学内容解决实际问题的能力.2.课时划分《回归分析的基本思想及其初步应用》的教学分四个课时完成.第一课时:介绍线性回归模型的数学表达式,解释随机误差项产生的原因,使学生能正确理解回归方程的预报结果;第二课时:从相关系数、相关指数和残差分析角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;第三课时:介绍两个变量非线性相关关系;第四课时:回归分析的应用.第一课时教学目标知识与技能通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.过程与方法让学生经历数据处理的过程,培养他们对数据的直观感觉,体会统计方法的特点,认识统计方法的应用;通过使用转化后的数据,利用计算器求相关指数,使学生体会使用计算器处理数据的方法.情感、态度与价值观从实际问题中发现已有知识的不足,激发好奇心、求知欲;通过寻求有效的数据处理方法,开阔学生的思路,培养学生的探索精神和转化能力;通过案例的分析,使学生了解回归分析在生活实际中的应用,增强数学“取之生活,用于生活”的意识,提高学习兴趣.重点难点教学重点:理解回归分析的基本思想,掌握求回归直线方程的步骤以及对随机误差e的认识.教学难点:掌握利用回归分析的基本思想处理实际问题的方法,理解随机误差的来源和对预报变量的影响.教学过程引入新课“名师出高徒”这句谚语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?活动设计:学生独立思考回答问题.学情预测:学生可能会说“有名气的老师不一定能教出厉害的学生”.教师提问:为什么?学情预测:两者之间有一定的关系,但不是必然关系,即名师也不一定出高徒,二者之间是相关关系.设计意图:复习两个变量之间的关系,为线性分析做好铺垫.提出问题:我们知道函数关系是一种确定性关系,而相关关系是一种非确定性关系.上面所提的“名师”与“高徒”之间的关系就是相关关系.那么,在一般情况下,人的身高与体重之间是什么关系?试设计一个方案,来分析某大学女大学生的身高与体重之间的关系,并以此为依据来预报身高172 cm的女大学生的体重.学生活动:学生独立思考,小组合作交流讨论.活动结果:可以采用统计的方法解决这一问题,先采用随机抽样的方法,从在校女大学生中抽取样本,记录其身高和体重,然后通过所得数据建立线性回归模型,并根据所得模型来预报身高为172 cm女生的体重.其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报.设计目的:合理设计问题,使学生进一步掌握用统计方法解决问题的基本步骤:提出问题、收集数据、分析整理数据、进行预测或决策.探究新知若从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:的女大学生的体重.学生活动:分组合作探究,查阅课本中的计算公式.活动结果:1.画散点图选取身高为自变量x,体重为因变量y,画出散点图形象展示两个变量之间的关系,并判断二者是否具有线性关系.由散点图可以发现,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用线性回归直线近似刻画它们之间的关系.2.建立回归方程由计算器可得a ^=-85.712,b ^=0.849.于是得到回归方程为y ^=0.849x -85.712. 3.预报和决策当x =172时,y ^=0.849×172-85.712=60.316(kg).即一名身高为172 cm 的女大学生的体重预报值为60.316 kg.设计目的:进一步熟悉线性回归分析的具体步骤.提高学生的数据处理能力,并让学生在应用中进一步掌握公式的应用.理解新知 提出问题:散点图可以直观地判断两个变量是否具有线性相关性,那么还有什么方法可以描述线性相关性的强弱?学生活动:独立思考或相互讨论. 活动结果:还可以通过必修3中的相关系数r 来衡量两个变量之间的线性相关关系的强弱.提出问题:如何根据相关系数r 描述线性相关性的强弱?相关系数的计算公式是什么? 学生活动:独立思考或相互讨论,查阅课本. 活动结果:其具体计算公式是r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑j =1n(y j -y )2当r>0时,表示两个变量正相关;当r<0时,表示两个变量负相关.r 的绝对值越接近1,表明两个变量的线性相关性越强,r 的绝对值越接近0,表明两个变量之间几乎不存在线性相关关系.通常,当|r|>0.75时,认为两个变量有很强的线性相关关系.提出问题:在本例中,身高和体重的线性相关系数是多少?我们建立的线性回归方程是否有实际意义?学生活动:独立计算,求解相关系数.活动结果:利用计算器可求得r =0.798,这表明体重与身高有很强的线性相关关系,从而表明我们建立的回归模型是有意义的.设计目的:复习判断变量线性相关的方法,进一步熟悉线性相关系数的计算公式. 提出问题:身高为172 cm 的女大学生的体重一定是60.316 kg 吗? 学生活动:独立思考也可相互讨论.学情预测:不一定,但一般可以认为她的体重在60.316 kg 左右. 提出问题:为什么根据得到的一次函数求出的结论不一定是实际值?产生误差的原因是什么?学生活动:独立思考也可相互讨论,教师加以适当的引导提示. 活动结果:观察上述散点图,我们可以发现女大学生的体重y 和身高x 之间的关系并不能用一次函数y =bx +a 来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系).在数据表中身高为165 cm 的3名女大学生的体重分别为48 kg 、57 kg和61 kg ,如果能用一次函数来描述体重与身高的关系,那么身高为165 cm 的3名女大学生的体重应相同.这就说明体重不仅受身高的影响还受其他因素的影响,如生理因素、饮食锻炼、测量工具等其他因素.为了更准确地刻画身高和体重的关系,可用下列线性回归模型来表示:y =bx +a +e.我们把自变量x 称作解释变量,因变量y 称作预报变量,e 称为随机误差.提出问题:函数模型y =bx +a 与线性回归模型y =bx +a +e 有什么关系? 学生活动:独立思考也可相互讨论,教师加以适当的引导提示.活动结果:线性回归模型:y =bx +a +e 当理想化时,即所有人的遗传因素都一样、所有人的生活方式都一样、所有测量都没有误差等等,此时e =0,线性回归模型就变成函数模型了.因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.设计目的:突破本节课的难点,充分认识随机误差e 的来源和对预报变量的影响. 运用新知例1假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下统计数据:若由此资料可知y 对x 呈线性相关关系,试求: (1)回归直线方程;(2)估计使用年限为10年时,维修费用为多少?分析:正确理解计算b ^,a ^的公式和准确的计算,是求线性回归方程的关键. 解:(1)故x =4,y=5,∑i =15x 2i =90,∑i =15x i y i =112.3,于是b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=112.3-5×4×590-5×42=1.23, a ^=y -b ^x =5-1.23×4=0.08,∴回归直线方程为y ^=b ^x +a ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38(万元),估计当使用10年时的维修费用为12.38万元.点评:由于本节课题目计算量大,公式较多,所以在求解时易出现公式乱用,数据出错等问题,对这一点,同学们在解题时尤为需要注意.【变练演编】例2其中x 为高一数学成绩,y 为高二数学成绩. (1)y 与x 是否具有线性相关关系;(2)如果y 与x 具有线性相关关系,求线性回归方程.思路分析:先根据数据计算相关系数,然后根据相关系数的大小,判断两个变量是否线性相关.解:(1)由已知表格中的数据,利用计算器进行计算得x =71,y=72.3,∑i =110x i y i =51 467,∑i =110x 2i =50 520,∑i =110y 2i =52 541,r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑j =1n(y j-y )2≈0.785 3>0.75,故两个变量有很强的线性相关关系.(2)y 与x 具有线性相关关系,可设线性回归方程为y ^=a ^+b ^x ,则b ^=∑i =110(x i -x )(y i -y )∑i =110(x i -x )2≈1.22,a ^=y -b ^ x =72.3-1.22×71=-14.32,所以y 关于x 的线性回归方程为y ^=1.22x -14.32.点评:本题通过计算相关系数,将两个变量相关性的判断转化为数据大小的比较.变式:在确定上题中y 与x 的线性相关关系中,是否还有别的方法?若有,请加以说明. 活动设计:学生分组讨论,回顾课本解答问题. 活动成果:还可以通过画散点图的方法来判断两个变量是否具有相关性.如选取x 的值作为自变量,y 的值作为因变量,画出散点图.由图可知两个变量有线性相关性,求其回归直线方程是有实际意义的. 设计意图:进一步熟悉判断变量线性相关的各种方法. 【达标检测】1.对于回归分析,下列说法错误的是( )A .在回归分析中,两个变量的关系若是非确定关系,那么其中一个变量不能由另一个变量唯一确定B .回归系数可以是正的,也可以是负的C .回归分析中,如果r 2=1或r =±1,说明变量x 与变量y 之间完全线性相关D .相关样本系数r ∈(-1,1)2.下列各组变量之间具有线性相关关系的是( )A .出租车费与行使的里程B .学习成绩与学生身高C .身高与体重D .铁的体积与质量3.若劳动生产率x(千元)与月工资y(元)之间的回归直线方程为y ^=50+80x ,则下列判断正确的是( )A .劳动生产率为1 000元时,月工资为130元B .劳动生产率提高1 000元时,月工资平均提高80元C .劳动生产率提高1 000元时,月工资平均提高130元D .月工资为210元时,劳动生产率为2 000元 答案:1.D 2.C 3.B 课堂小结(给学生1~2分钟的时间默写本节的主要基础知识、方法、例题、题目类型、解题规律等;然后用精炼的、准确的语言概括本节的知识脉络、思想方法、解题规律)1.知识收获:进一步学习回归分析的基本思想以及求回归直线方程的步骤,正确认识随机误差e 的产生原因、了解线性回归模型与函数的不同之处.2.方法收获:线性回归方程的求法、用样本估计总体的统计思想.3.思维收获:体会模型诊断的思想,提高利用回归方法解决实际问题的能力,培养探索和创新的精神.设计意图:让学生自己小结,这是一个多维整合的过程,是一个高层次的自我认识过程. 补充练习 【基础练习】1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图1;对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图2.由这两个散点图可以判断( )图1 图2A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关 2.实验测得四组(x ,y)的值是(1,2),(2,3),(3,4),(4,5),则y 对x 的回归直线方程是( )A.y ^ =x +1B.y ^ =x +2C.y ^ =2x +1D.y ^=x -1 3.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( )A.y ^=1.23x +4 B.y ^=1.23x +5C.y ^=1.23x +0.08 D.y ^=0.08x +1.234.若已知∑i =1n(x i -x )2是∑i =1n(y i -y )2的2倍,∑i =1n(x i -x )(y i -y )是∑i =1n(y i -y )2的1.2倍,则相关系数r =____________.答案:1.C 2.A 3.C 4.325【拓展练习】(1)对变量y 与x 进行相关性检验;(2)如果y 与x 之间具有线性相关关系,求线性回归方程; (3)如果父亲的身高为73英寸,估计儿子的身高.解:(1)x =66.8,y =67.01,∑i =110x 2i =44 794,∑i =110y 2i =44 941.93,x y =4 476.27,x 2=4 462.24,y 2=4 490.34,∑i =110x i y i =44 842.4.所以r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑j =1n(y j -y )2≈0.980 2>0.75.所以y 与x 之间具有线性相关关系.(2)设线性回归方程为y ^=b ^x +a ^.计算得b ^≈0.464 5,a ^=y -b ^x =67.01-0.464 5×66.8≈35.98.故所求的线性回归方程为y ^=0.464 5x +35.98.(3)当x =73时,y ^=0.464 5×73+35.98≈69.9,所以当父亲身高为73英寸时,估计儿子的身高约为69.9英寸.设计说明本设计通过不断提出问题,研究问题,解决问题,使学生在不断探索中体会发现与成功的快乐.本节课主要通过具体的实际例子,体会线性回归思想在处理实际问题中的应用,既是对必修3相关内容的延伸,更是对必修3相关内容的复习,通过解决具体实际案例,让学生掌握判断变量是否线性相关的方法和求线性回归方程的具体步骤.通过本节课的学习培养学生对数据的处理能力和应用数学解决实际问题的数学意识,同时在问题解决的过程中,让学生体会与他人合作的重要性.备课资料 1.在Excel 软件中做散点图的步骤如下:(1)进入Excel 软件操作界面,在A1,B1分别输入“身高”和“体重”,在A ,B 列输入相应的数据.(2)选中数据后点击“图表向导”图标,进入“图表类型”对话框,选择“标准类型”中的“XY 散点图”,单击“下一步”.(3)在“图表向导”中的“图表数据源”对话框中,选择“系列”选项,单击“添加”按钮添加“系列1”,在“X 值”栏中输入身高所在数据区域,在“Y 值”栏中输入体重所在数据区域,单击“下一步”.(4)进入“图表向导”中的“图表选项”对话框,对图表的一些属性进行设置. (5)单击“完成”按钮.(设计者:杨雪峰)。
人教高中数学选修2-3第三章3.1回归分析的基本思想及其初步应用课件
xiyi 9 14 15 12 5 5 15 12 14 9
所求回归直线方程为
70 65 60 55 50 45 40
150 155 160 165 170 175 180
图1.1 2
假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散 点图中所有的点将完全落在回归直线上。但是,在图中,数据点并没有完全落 在回归直线上。这些点散布在回归直线附近。
有如下的两个线性模型:
(1) yˆ 6.5x 17.5 ;(2) yˆ 7x 17.
试比较哪一个拟合效果更好。
7、一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解析变量,哪个变量是 预报变量。
(2)画出确定好的解析变量和预报变量的散点图,视察它们 之间的关系(如是否存在线性关系等)。
探索2:在这些点附近可画直线不止一条,哪条直 线最能代表x与y之间的关系呢?
探究
对于一组具有线性相关关系的数据 (x1, y1), (x2 , y2 ),..., (xn , yn ),
我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:
其中x
1 n
n i 1
xi ,
y
1 n
n i 1
yi .
aˆ y bˆx
2、求回归直线方程的步骤:
(1)求x
1 n
n i 1
xi , y
1 n
n i 1
yi
n
n
(2)求 xi2 , xi yi. n
n
i 1
i 1
y (xi x)(yi y)
xi
nxy
人教版数学高二新人教A版选修2-3 3.1《回归分析的基本思想及其应用研析》文字素材3
回归分析的基本思想及其应用研析回归分析是研究如何从样本的统计性质去推测相应总体的统计性质,即如何根据样本去探求有关总体的规律性,是统计学中一种重要的方法,体现了统计的基本思想。
回归分析,从所收集数据的特点,找出一条最接近的直线方程,即线性回归方程,而把其他一些不具有线性回归关系的数据用一种线性回归方程进行拟合,给出数据之间类似函数的一种关系,体现了从特殊到一般的基本思路,使对不确定关系的预报成为一种可能。
回归分析不仅体现了统计的基本思想,还提供了建立数学模型的一种基本方法,回归分析可以总结很多数学或者生产、生活中的规律,比如人的身高与体重的关系、水稻的产量与施肥量的关系等。
例1.高一·一班学生每周用于数学学习的时间x (单位:h)与数学成绩y (单位:分)之间有如下对应数据:如果y 与x 之间具有线性相关关系,求回归直线方程.分析:本题考查求回归直线方程的方法及回归直线的应用.可以直接代入相关公式得出回归直线方程。
解析:本题数据表中,自变量x 的取值没有按从小到大排列,这更接近实际,对结论没有任何影响。
从表中看出:同样是每周用16 h 学数学,一位同学成绩是64分,另一位却是68分,这反映了y 与x 只有相关关系,没有函数关系。
列出下表,并用科学计算器进行有关计算.设回归直线方程为yˆ=bx +a , 则b =53.34.1544.545101022101101≈=-∑-∑==xx yx y x i i i i i , a =5.134.1753.39.74≈⨯-=-x b y ,因此所求的回归直线方程是yˆ=3.53x +13.5. 评注:最小二乘估计是求回归直线方程的常用方法,通过本题的解答可以体会最小二乘估计的优越性。
为了计算方便,通常将有关数据列成表格,然后借助于计算器算出各个量,进而求得回归直线方程。
(备选例 1 )一个车间为了规定工时定额,需要确定加工零件所花费的时间。
为此进行了10次试验,测得数据如下:请判断y 与x 是否具有线性相关关系,如果y 与x 具有线性相关关系,求线性回归方程。
人教版高中数学选修2-3 3.1 回归分析的基本思想及其初步应用教案
小结与练习:
1、回归分析的基本思想是什么?
2、如何进行回归分析。
第一个问题由教师讲解,第二个问题由学生齐答。
1、整理本节课所学习到的知识.
2、体会随机数学的特点.
1、由小结再次明确了回归分析的步骤 以及每一步需要注意的地方。
2、注重数学教学中的思想性,它们是贯穿数学教学过程的“灵魂”.
3、后续问题的提出,给 学生留下思维发展的时空和探索余地,激发学生对知识的进一步渴望.
一、将前面1、2问题改为:
1、两个变量之间有哪几种关系?
2、进行线 性回归分析的一般步骤是什么。
二、学生回答完问题后,教师用计算机演示一遍操作。
1、在学生小组讨论的时候,教师适时参与讨论。
2、教师演示用计算机进行回归分析的方法。
学生小组讨论1、2两个问题。通过小组讨论,使得学困生也能对以前的知识有必要的了解。
例2教学:
提供期中考试400多名考生的成绩数据来进行回归分析,再次让学生体会回归分析的魅力。
提供期中考试4பைடு நூலகம்0多名考生的成绩,简单的部分让学生来操作。并让学生来分析回答。后面的部分教师操作。
认真思考,并感受当数据量很大的时候,残差图的特点。更加直观的理解,当残差点均匀分布在一条水平带状区域上时,模型选 取较合适。
必修三和选修1-2这两本书在教学时间上间隔很远,通过有效的复习让学生为后面新知识的讲授打下良好的基础。
问题呈现:
例1 、统计10名高三女生的身高体重数据,汇总后求出根据身高预报体重的回归方程,并随机调查一名高三女生的身高,然后预报体重。
1、要求学生小组讨论统计方案。并对学生提出的方案做出评价
2、找学生代表上台操作。
人教新课标版数学高二-选修2-3导学案 3.1回归分析的基本思想及其初步应用
3.1回归分析的基本思想及其初步应用导学案周;使用时间17 年 月 日 ;使用班级 ;姓名(配合配套课件、限时练使用效果更佳)【学习目标】1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果.3.掌握建立线性回归模型的步骤.【检查预习】预习相应课本,完成导学案“自主学习”部分,准备上课回答. 【自主学习】知识点一 线性回归模型思考 某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:1.函数关系是一种__________关系,而相关关系是一种____________关系. 2.回归分析是对具有________关系的两个变量进行统计分析的一种常用方法.3.对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计公式分别为b ^=____________=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=________,其中________称为样本点的中心.4.线性回归模型y =bx +a +e ,其中a 和b 是模型的未知参数,e 称为__________,自变量x 称为____________,因变量y 称为____________. 知识点二 线性回归分析具有相关关系的两个变量的回归直线方程y ^=b ^x +a ^. 思考1 预报变量y ^与真实值y 一样吗?思考2 预报值y ^与真实值y 之间误差大了好还是小了好?1.残差平方和法(1)e ^i =y i -y ^i =y i -b ^x i -a ^(i =1,2,…,n )称为相应于点(x i ,y i )的残差. (2)残差平方和 i =1n(y i -y ^i )2越小,模型拟合效果越好.2.残差图法残差点______________落在水平的带状区域内,说明选用的模型比较合适,其中这样的带状区域宽度________,说明模型的精确度越高. 3.利用相关指数R 2刻画回归效果其计算公式为:R 2=1-________________,其几何意义:________________,表示回归效果越好. 知识点三 建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性相关关系等). (3)由经验确定回归方程的类型(如观察到数据呈线性相关关系,则选用线性回归方程y ^=b ^x +a ^).(4)按一定规则估计回归方程中的参数(如最小二乘法).(5)得出结果后分析残差图是否有异常,若存在异常,则检查数据是否有误或模型是否合适等.【合作探究】类型一 求线性回归方程例1 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.(相关公式:b ^=∑i =1nx i y i -n x ·y∑i =1nx 2i -n x2,a ^=y -b ^x )类型二 线性回归分析例2 假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:(1)以x 为解释变量,(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;(4)求相关指数R 2,并说明残差变量对有效穗的影响占百分之几?类型三 非线性回归分析 例3 下表为收集到的一组数据:(1)作出x 与y (2)建立x 与y 的关系,预报回归模型并计算残差; (3)利用所得模型,预报x =40时y 的值.【学生展示】探究点一、二【教师点评】探究点三及【学生展示】出现的问题【当堂检测】1.关于回归分析,下列说法错误的是()A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定B.线性相关系数可以是正的也可以是负的C.在回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关D.样本相关系数r∈(-1,1)2.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是()A.①②B.①③C.②③D.③④3.下表是x和y之间的一组数据,则y关于x的回归直线必过()x 123 4y 1357A.点(2,3)C.点(2.5,4) D.点(2.5,5)4.已知x、y之间的一组数据如下表:x 012 3y 1357(1)分别计算:x、y、x1y1+x2y2+x3y3+x4y4、x21+x22+x33+x24;(2)已知变量x与y线性相关,求出回归方程.【小结作业】作业:本节限时练。
人教版数学高二A版选修2-3预习导航3.1回归分析的基本思想及其初步应用
预习导航1.回归分析(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系. (2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(3)对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),回归直线y =bx +a 的斜率和截距的最小二乘估计公式分别为b ^=∑ni =1 (x i -x )(y i -y )∑ni =1 (x i -x )2=∑ni =1x i y i -n x y ∑n i =1x 2i -n x 2,a ^=y -b ^x ,其中,(x ,y )称为样本点的中心.思考1 如果记录了x ,y 的几组数据分别为(0,1),(1,3),(2,5),(3,7),则y 关于x 的线性回归直线必过点( )A .(2,2)B .(1.5,2)C .(1,2)D .(1.5,4) 提示:∵x =0+1+2+34=1.5,y =1+3+5+74=4,∴样本点的中心为(1.5,4),而回归直线过样本点的中心. 2.随机误差(1)随机误差的均值E (e )=0,方差D (e )=σ2>0.(2)线性回归模型的完整表达式为⎩⎪⎨⎪⎧y =bx +a +e ,E (e )=0,D (e )=σ2.在线性回归模型中,随机误差e的方差σ2越小,用bx +a 预报真实值y 的精度越高.(3)对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e i ^=y i -y i ^=y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(4)以样本编号为横坐标,残差为纵坐标作出的图形称为残差图.(5)我们可以用相关指数R 2来刻画回归的效果,其计算公式是R 2=1-∑n i =1(y i -y i ^)2∑ni =1(y i -y )2.(6)R 2越大,意味着残差平方和∑ni =1(y i -y i ^)2越小,也就是说,模型拟合的效果越好.思考2 如何刻画回归模型拟合效果? 提示:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等). (3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程y =b ^x +a ^).(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.思考3 用回归方程求预报值应注意哪些问题? 提示:(1)回归方程只适用于所研究的样本的总体. (2)所建立的回归方程一般都有时间性. (3)样本的取值范围会影响回归方程的适用范围.(4)不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
预习导航
1.线性回归模型
(1)函数关系是一种______关系,而相关关系是一种________关系. (2)回归分析是对具有____关系的两个变量进行统计分析的一种常用方法.
(3)对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),回归直线的斜率和截距的最小二乘估计公式分别为__________________.
其中(x ,y )称为________.
(4)线性回归模型y =bx +a +e ,其中e 称为________,a 和b 是模型的未知参数,自变量x 称为________,因变量y 称为________.
预习交流1
如果记录了x ,y 的几组数据分别为(0,1),(1,4),(2,7),(3,10),则y 关于x 的线性回归直线必过点( ).
A .(2,2)
B .(1.5,2)
C .(1,2)
D .(1.5,5.5)
2.残差的概念
对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i =____,i =1,2,…,
n ,其估计值为e ^
i =__________=__________,
i =1,2,…,n ,e ^
i 称为相应于点(x i ,y i )的残差.
3.回归模型拟合效果的刻画
预习交流2
怎么理解散点图和相关指数的关系? 4.建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程y ^
=b ^
x
+a ^
).
(4)按一定规则(如最小二乘法)估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.
预习交流3
用回归方程求预报值应注意哪些问题? 答案:
1.(1)确定性 非确定性 (2)相关 (3)b ^
=∑i =1
n
(x i -x )(y i -y )
∑i =1
n
(x i -x )2
=
∑i =1
n
x i y i -n x y
∑i =1
n
x 2i -n x
2
,a ^
=y
-b ^
x 样本点的中心 (4)随机误差 解释变量 预报变量
预习交流1:提示:D
2.y i -bx i -a y i -y ^
i y i -b ^
x i -a ^
3.1-
∑i =1
n
(y i -y ^
i )2
∑i =1
n
(y i -y )2
解释变量 预报变量 1
预习交流2:提示:散点图可以说明变量间有无线性相关关系,只能粗略地说明两个变量之间关系的密切程度,而相关指数R 2能精确地描述两个变量之间的密切程度.
预习交流3:提示:(1)回归方程只适用于所研究的样本的总体. (2)所建立的回归方程一般都有时间性. (3)样本的取值范围会影响回归方程的适用范围.
(4)不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.。