回归分析的基本思想及其初步应用学案1新选修23
2019_2020年高中数学第三章统计案例3.1回归分析的基本思想及其初步应用学案新人教A版选修2_3
3.1 回归分析的基本思想及其初步应用[教材研读]预习教材P 80~88,思考以下问题 1.什么是回归分析?2.什么是线性回归模型? [要点梳理] 1.回归分析 (1)回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. (2)回归方程的相关计算对于两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ).设其回归直线方程为y ^=b ^x +a ^,其中a ^,b ^是待定参数,由最小二乘法得b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n xy∑i =1nx 2i -n x 2,a ^=y -b ^x .(3)线性回归模型线性回归模型⎩⎪⎨⎪⎧y =bx +a +e ,E e =0,D e =σ2,其中a ,b 为模型的未知参数,通常e 为随机变量,称为随机误差.x 称为解释变量,y 称为预报变量.2.线性回归分析(1)残差:对于样本点(x i ,y i )(i =1,2,…,n )的随机误差的估计值e ^i =y i -y ^i 称为相应于点(x i ,y i )的残差,∑i =1n(y i -y ^i )2称为残差平方和.(2)残差图:利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.(3)R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y2越接近1,表示回归的效果越好.[自我诊断]判断(正确的打“√”,错误的打“×”)1.残差平方和越小,线性回归方程的拟合效果越好.( )2.在画两个变量的散点图时,预报变量在x 轴上,解释变量在y 轴上.( ) 3.R 2越小,线性回归方程的拟合效果越好.( ) [答案] 1.√ 2.× 3.×题型一 求线性回归方程思考:求线性回归方程的步骤是什么? 提示:①列表表示x i ,y i ,x i y i ,x 2i ;②计算x ,y ,∑i =1nx 2i ,∑i =1nx i y i ;③代入公式计算a ^,b ^的值; ④写出线性回归方程.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.⎝ ⎛⎭⎪⎪⎫相关公式:b ^=∑i =1nx i y i -n x ·y∑i =1nx 2i-n x 2,a ^=y -b ^ x[思路导引] 先画散点图,再求回归系数a ^,b ^写出方程. [解] (1)如图:(2)∑i =1nx i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4, ∑i =1nx 2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7,a ^=y -b ^x =4-0.7×9=-2.3, 故线性回归方程为y ^=0.7x -2.3.(3)由(2)中线性回归方程当x =9时,y ^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系. (2)求回归系数:若存在线性相关关系,则求回归系数.(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明. 【温馨提示】 对回归直线的四点说明 (1)回归直线过点(x -,y -).(2)回归直线的截距a 和斜率b 都是通过样本估计而得的,存在着误差,这种误差可能导致预报结果的偏差.(3)线性回归方程y =a +bx 中的b 表示x 增加1个单位时,y 的平均变化量为b ,而a 表示y 不随x 的变化而变化的部分.(4)可以利用线性回归方程y =a +bx 预报在x 取某个值时,y 的估计值. [跟踪训练](链接教材P 81—例1)某种产品的广告费用支出x 与销售额y (单位:百万元)之间有如下的对应数据:(1)(2)求线性回归方程;(3)试预测广告费用支出为10百万元时的销售额. [解] (1)散点图如图所示:(2)列出下表,并用科学计算器进行有关计算:所以,x -=255=5,y -=2505=50,∑i =15x 2i =145,∑i =15x i y i =1380.于是可得b ^=∑i =15x i y i -5x -y-∑i =15x 2i -5x-2=1380-5×5×50145-5×52=6.5,a ^=y --b ^x -=50-6.5×5=17.5.所以所求的线性回归方程为y ^=6.5x +17.5.(3)根据(2)中求得的线性回归方程,当广告费用支出为10百万元时, y ^=6.5×10+17.5=82.5(百万元),即广告费用支出为10百万元时,销售额大约为82.5百万元. 题型二 线性回归分析思考:如何用残差图、残差平方和、相关指数R 2分析模型拟合效果?提示:残差图的带状区域的宽度越窄,模型拟合精度越高;残差平方和越小,模型拟合效果越好;R 2越接近于1,模型拟合效果越好.假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:(1)以x (2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;(4)求R 2,并说明残差变量对有效穗的影响占百分之几? [解] (1)散点图如下.(2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.设回归方程为y ^=b ^x +a ^,x -=30.36,y -=43.5,∑i =15x 2i =5101.56,∑i =15y 2i =9511.43.x -y -=1320.66,x -2=921.7296,∑i =15x i y i =6746.76.则b ^=∑i =15x i y i -5x -y -∑i =15x 2i -5x-2≈0.29,a ^=y --b ^x -≈34.70.故所求的回归直线方程为y ^=0.29x +34.70. 当x =56.7时,y ^=0.29×56.7+34.70=51.143. 估计成熟期有效穗为51.143.(3)由于y ^i =b ^x i +a ^,可以算得e ^i =y i -y ^i 分别为e ^1=0.35,e ^2=0.718,e ^3=-0.5,e ^4=-2.214,e ^5=1.624,残差平方和:∑i =15e ^2i ≈8.43.(4)∑i =15(y i -y -)2=50.18,故R 2=1-8.4350.18≈0.832.所以解释变量小麦基本苗数对总效应约贡献了83.2%,残差变量贡献了约1-83.2%=16.8%.(1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差e ^1,e ^2,…,e ^n 来判断模型拟合的效果.(2)若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.[跟踪训练]为研究质量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同质量的6个物体进行测量,数据如表所示:(1)(2)求出R 2. (3)进行残差分析.[解] (1)作出散点图如图所示:x -=16×(5+10+15+20+25+30)=17.5.y -=16×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑i =16x 2i =2275,∑i =16x i y i =1076.2,计算得,b ^≈0.183,a ^≈6.285, 所求回归直线方程为y ^=6.285+0.183x . (2)列表如下:所以∑i =16(y i -y ^i )2≈0.01318,∑i =16(y i -y -)2=14.6784.所以,R 2=1-0.0131814.6784≈0.9991.所以回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与质量具有线性关系.题型三 非线性回归分析(链接教材P 86—例2)某地区六年来轻工业产品利润总额y 与年次x 的试验数据如下表所示:0为正数,求y 关于x 的回归方程.[思路导引] 解答此题可根据散点图选择恰当的拟合函数,而本题已经给出,只需将其转化为线性函数,利用最小二乘法求得回归直线方程,再将其还原为非线性回归方程即可.[解] 对y =ab xe 0两边取自然对数,得ln y =ln ae 0+x ln b ,令z =ln y ,则z 与x 的数据如下表:由z 0ln b ≈0.0477,ln ae 0=2.378,即z ^=2.378+0.0477x ,故y ^=10.8×1.05x .非线性回归问题的处理方法一般地,有些非线性回归模型通过变换可以转化为线性回归模型,即借助于线性回归模型研究呈非线性回归关系的两个变量之间的关系:(1)如果散点图中的点分布在一个直线状带形区域,可以选用线性回归模型来建模; (2)如果散点图中的点分布在一个曲线状带形区域,要先对变量作适当的变换,再利用线性回归模型来建模.(3)非线性回归方程的求法: ①根据原始数据(x ,y )作出散点图; ②根据散点图,选择恰当的拟合函数;③作恰当的变换,将其转化成线性函数,求线性回归方程; ④在③的基础上通过相应的变换,即可得非线性回归方程. (4)非线性相关问题常见的几种线性变换:在实际问题中,常常要根据一批实验数据绘出曲线,当曲线类型不具备线性相关关系时,可以根据散点分布的形状与已知函数的图象进行比较,确定曲线的类型,再作变量替换,将曲线改为直线.下面是几种容易通过变量替换转化为直线的函数模型:①y =a +b x,令y ′=y ,x ′=1x,则有y ′=a +bx ′;②y =ax b,令y ′=ln y ,x ′=ln x ,a ′=ln a ,则有y ′=a ′+bx ′; ③y =a e bx ,令y ′=ln y ,x ′=x ,a ′=ln a ,则有y ′=a ′+bx ′; ④y =a e b x,令y ′=ln y ,x ′=1x,a ′=ln a ,则有y ′=a ′+bx ′;⑤y =a +b ln x ,令y ′=y ,x ′=ln x ,则有y ′=a +bx ′; ⑥y =bx 2+a ,令y ′=y ,x ′=x 2,则有y ′=bx ′+a .[跟踪训练]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w -=18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=∑i =1nu i -u-v i -v-∑i =1nu i -u-2,α^=v --β^u -.[解] (1)由散点图的变化趋势可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -w-y i -y-∑i =18w i -w-2=108.81.6=68, c ^=y --d ^w -=563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.11 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.1.本节课的重点是线性回归方程的求法及线性回归分析,难点是残差分析和非线性回归分析.2.本节课要重点掌握的规律方法(1)求线性回归方程,见典例1;(2)线性回归分析,见典例2;(3)非线性回归分析,见典例3.3.对线性回归模型的三点说明(1)线性回归模型y =bx +a +e 与确定性函数y =a +bx 相比,它表示y 与x 之间是统计相关关系(非确定性关系),其中的随机误差e 提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a ,b 的工具.(2)线性回归方程y ^=b ^x +a ^中a ^,b ^的意义是:以a ^为基数,x 每增加1个单位,y 相应地平均增加b ^个单位.(3)线性回归模型中随机误差的主要来源①线性回归模型与真实情况引起的误差;②省略了一些因素的影响产生的误差;③观测与计算产生的误差.。
高中数学 3.1 回归分析的基本思想及其初步应用学案 新人教A版选修2-3(2021年整理)
2016-2017学年高中数学3.1 回归分析的基本思想及其初步应用学案新人教A版选修2-3编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2016-2017学年高中数学3.1 回归分析的基本思想及其初步应用学案新人教A版选修2-3)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2016-2017学年高中数学3.1 回归分析的基本思想及其初步应用学案新人教A版选修2-3的全部内容。
3.1 回归分析的基本思想及其初步应用1.通过对典型案例的探究,了解回归分析的基本思想、方法及其初步应用.2.会求回归直线方程,并用回归直线方程进行预报.(重点)3.了解最小二乘法的思想方法,理解回归方程与一般函数的区别与联系.(难点)[基础·初探]教材整理1 回归直线方程阅读教材P80~P82探究上面倒数第一行,完成下列问题.1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.2.回归直线方程方程错误!=错误!x+错误!是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n)的回归方程,其中错误!,错误!是待定参数,其最小二乘估计分别为:错误!其中错误!=错误!错误!i,错误!=错误!错误!i,(错误!,错误!)称为样本点的中心.1.如图3。
1.1四个散点图中,适合用线性回归模型拟合其中两个变量的是________(填序号).图3。
1.1【解析】由图易知,①③两个图中的样本点在一条直线附近,因此适合用线性回归模型拟合.【答案】①③2.若y与x之间的一组数据为则y对x【解析】由表中数据得x=错误!=2,错误!=错误!=4.因回归直线必过样本中心点(x,错误!),所以y与x的回归直线一定经过的点是(2,4).【答案】(2,4)教材整理2 线性回归分析阅读教材P82探究~P89,完成下列问题.1.线性回归模型(1)表达式错误!(2)基本概念:①a和b为模型的未知参数.②e是y与bx+a之间的误差.通常e为随机变量,称为随机误差.③x称为解释变量,y称为预报变量.2.衡量回归方程的预报精度的方法(1)残差平方和法①错误!称为相应于点(x i,y i)的残差.②残差平方和错误!越小,模型的拟合效果越好.(2)残差图法残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型的拟合精度越高.(3)利用相关指数R2刻画回归效果其计算公式为:R2=1-错误!;其几何意义:R2越接近于1,表示回归的效果越好.3.建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).选修2-3|第三章统计案例(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.判断(正确的打“√”,错误的打“×”)(1)求线性回归方程前可以不进行相关性检验.()(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.()(3)利用线性回归方程求出的值是准确值.()(4)变量x与y之间的回归直线方程表示x与y之间的真实关系形式.( )(5)随机误差也就是残差.( )【解析】(1)×因为如果两个变量之间不具有线性相关关系,就不用求线性回归方程了,求出的回归直线方程当然也不能很好的反映两变量间的关系.(2)√因为由残差图的方法步骤可知,该说法正确.(3)×因为利用线性回归方程求出的值为估计值,而不是真实值.(4)×因为变量x与y之间的线性回归直线方程仅表示x与y之间近似的线性关系,x 与y之间满足y=bx+a+e,其中e为随机误差.(5)×因为随机误差e是真实值y与bx之间的误差,而残差错误!=y-错误!是随机误差e的估计量.【答案】(1)×(2)√(3)×(4)×(5)×[质疑·手记]预习完成后,请将你的疑问记录,并与“小伙伴们"探讨交流:疑问1:解惑:疑问2:解惑:疑问3:解惑:[小组合作型]求线性回归方程(2016·临沂高二检测)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x3456y 2.534 4.5(1)(2)请根据上表提供的数据,用最小二乘法求出y关于x的回归直线方程错误!=错误!x +错误!;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的回归直线方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4。
3.1《回归分析的基本思想及其初步应用》教案2(新人教选修2-3)
3.1《回归分析的基本思想及其初步应用》教案2(新人教选修2-3)3.1 回归剖析的基本思想及其初步应用(二)教课要求 :经过典型事例的研究,进一步认识回归剖析的基本思想、方法及初步应用 教课要点 :认识评论回归成效的三个统计量:总偏差平方和、残差平方和、回归平方和 教课难点 :认识评论回归成效的三个统计量:总偏差平方和、残差平方和、回归平方和 教课过程 :一、复习准备 :1.由例 1 知,预告变量(体重)的值受解说变量(身高)或随机偏差的影响....2.为了刻画预告变量(体重)的变化在多大程度上与解说变量(身高)有关?在多大程度上与随机偏差有关?我们引入了评论回归成效的三个统计量:总偏差平方和、残差平方和、回归平方和 .二、讲解新课:1. 教课 总偏差平方和、残差平方和、回归平方和:ny) 2 .(1)总偏差平方和 :全部单个样本值与样本均值差的平方和,即SST( y ii 1nμ 2残差平方和: 回归值与样本值差的平方和,即SSE( y i.i 1y i )n回归平方和: 相应回归值与样本均值差的平方和,即SSRμy) 2( y i.i1(2)学习要领: ①注意 y iμ、 y 的差别;②预告变量的变化程度能够分解为由解说变量、 y innμn惹起的变化程度与残差变量的变化程度之和,即( y i y) 2( y i2μy) 2;y i )( y ii 1i 1i1③当总偏差平方和相对固准时,残差平方和越小, 则回归平方和越大, 此时模型的拟合成效n ( y iμ 22y i )越好;④对于多个不一样的模型,我们还能够引入有关指数1i 1来刻画回归Rni1( y iy) 2的成效,它表示解说变量对预告变量变化的贡献率 . R 2的值越大,说明残差平方和越小,也就是说模型拟合的成效越好 .2. 教课例题: 例 2 对于 x 与 Y 有以下数据:x 24 56 8 y3040605070为了对 x 、 Y 两个变量进行统计剖析,现有以下两种线性模型:$ 6.5 x 17.5 ,y $ y 7 x 17 ,试比较哪一个模型拟合的成效更好. 剖析: 既可分别求出两种模型下的总偏差平方和、 残差平方和、回归平方和,也可分别求出两种模型下的有关指数,而后再进行比较,进而得出结论.5μ 25μ 2( y i( y i(答案:R 1 1y i )1550.845 , R 2 1y i )180 , 84.5%> 82% ,因此51510.822i 12i1( yy )21000( yy) 21000iii 1i1甲采用的模型拟合成效较好 . )3. 小结: 分清总偏差平方和、残差平方和、回归平方和,初步认识怎样评论两个不一样模型拟合成效的利害 .。
3.1《回归分析的基本思想及其初步应用》教案4(新人教选修2-3)
3.1《回归分析的基本思想及其初步应用》教案4(新人教选修2-3)3.1 回归剖析的基本思想及其初步应用(四)教课要求:经过典型事例的研究,进一步认识回归剖析的基本思想、方法及初步应用.教课要点:经过研究使学生领会有些非线性模型经过变换能够转变为线性回归模型,认识在解决实质问题的过程中找寻更好的模型的方法,认识可用残差剖析的方法,比较两种模型的拟合成效 .教课难点:认识常用函数的图象特色,选择不一样的模型建模,并经过比较有关指数对不一样的模型进行比较 .教课过程:一、复习准备:1.发问:在例3中,察看散点图,我们选择用指数函数模型来拟合红铃虫的产卵数y 和温度 x 间的关系,还可用其余函数模型来拟合吗?2.议论:能用二次函数模型y c3 x2c4来拟合上述两个变量间的关系吗?(令t x2,则y c3t c4,此时y与t间的关系如t44152962572984110241225y711212466115325 400下:300察看 y 与t的散点图,能够发现样本点其实不散布在一y200条直线的四周,所以不宜用线性回归方程来拟合它,100y c3 x2c4来拟合y与 x 之间的0即不宜用二次曲线050010001500关系 . )小结:也就是说,我们能够经过察看变换后t的散点图来判断可否用此种模型来拟合. 事实上,除了察看散点图之外,我们也可先求出函数模型,然后利用残差剖析的方法来比较模型的利害.二、讲解新课:1.教课残差剖析:①残差:样本值与回归值的差叫残差,即μμe i y i y i.②残差剖析:经过残差来判断模型拟合的成效,判断原始数据中能否存在可疑数据,这方面的剖析工作称为残差剖析 .③残差图:以残差为横坐标,以样本编号,或身高数据,或体重预计值等为横坐标,作出的图形称为残差图 . 察看残差图,假如残差点比较平均地落在水平的带状地区中,说明采用的模型比较适合,这样的带状地区的宽度越窄,模型拟合精度越高,回归方程的预告精度越高.2.例 3 中的残差剖析:计算两种模型下的残差一般状况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的状况则相反),故经过比较两个模型的残差的平方和的大小来判断模型的拟合成效. 残差平方和越小的模型,拟合的成效越好.因为两种模型下的残差平方和分别为 1450.673 和 15448.432,应采用指数函数模型的拟合成效远远优于采用二次函数模型 . (自然,还可用有关指数刻画回归成效)3.小结:残差剖析的步骤、作用三、稳固练习:练习:教材 P13 第 1 题。
回归分析的基本思想及其初步应用导学案
2017级人教版数学选修1-1 编号:1 编制时间: 2019.1.8 编制人:
1 第一章统计案例
1.1回归分析的基本思想及其初步应用
【学习目标】
1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;
2. 了解线性回归模型与函数模型的差异,了解衡量两个变量之间线性相关关系得方法---相关系数.
【重点难点】
重点:衡量两个变量之间线性相关关系得方法---相关系数
难点; 衡量两个变量之间线性相关关系得方法---相关系数
【预习案】
温故夯基
1.我们在《必修3》中已经学习了统计的知识,还记得抽样方法吗?三种随机抽样方法是____________、________和________.
2.我们还学习了用样本的频率分布估计________,用样本的数字特征估计____________
3. 回归分析是对具有 关系的两个变量进行统计分析的一种常用方法,其步骤: → →
→ .
【探究案】
一、线性回归分析:
例1、某班5名学生的数学和物理成绩如下表:。
3.1回归分析的基本思想及其初步应用(选修2-3)
残差平方和 总体偏差平方和
注意:1) 取值范围在 [ 0 , 1 ] 之间,即0≤ R2 ≤1.
2)在线性回归模型中,相关指数R2表示解析变量x对预报变量y变化的贡献率。
代表自变量刻画预报变量的能力。
R2反映回归直线的拟合程度,是度量模型拟合效果的一种指标。 3)R2的值越大,说明残差平方和越小,模型拟合效果越好 R2的值越小,说明残差平方和越大,模型拟合效果越好 4) R2 1,说明回归方程拟合的越好,表示解析变量x和预报变量y的线性相 关性越强。 R20,说明回归方程拟合的越差 5)如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过 比较R2的值来做出选择,即选取R2较大的模型作为这组数据的模型。 6)判定系数等于相关系数的平方,即R2=(r)2 注:本例中R2=0.64,表示解析变量x对预报变量y约贡献了64%,即,可以叙述为 “身高解析了64%的体重变化”,而随机误差贡献了剩余的36%。 所以,身高对体重的效应比随机误差的效应大得多。
我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本 编号,或身高数据,或体重估计值等,这样作出的图形称为残差图。
注意:1)残差分析步骤:
1)计算每组数据的残差,即样本值减预测值 (yi yi ) 2)画残差图。纵坐标为残差,横坐标为自变量。 3)分析残差图 4)找异常值
2)残差图的制作:
75 70 65
体重/kg
60 55 50 45 40 150 155 160 165 170 身高/cm 175 180 185
思考3:产生随机误差项e的原因是什么?
随机误差e的来源(可以推广到一般): 1、其它因素的影响:影响体重y 的因素不只是身高x,可能还包括 遗传基因、饮食习惯、生长环境等因素; 2、用线性回归模型近似真实模型所引起的误差; 3、身高 y 的观测误差。
36790_《回归分析的基本思想及其初步应用》教案2(新人教A版选修2-3)
1、1回归分析的基本思想及其初步应用。
(第1课时)教学目标:通过典型案例,掌握回归分析的基本步骤。
教学重点:熟练掌握回归分析的步骤。
教学难点:求回归系数a,b教学方法:讲练。
教学过程:一、复习引入:回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。
二、新课:1、回归分析的基本步骤:(1)画出两个变量的散点图。
(2)求回归直线方程。
(3)用回归直线方程进行预报。
2、举例:例1、题(略)用小黑板给出。
解:(1)作散点图,由于问题是根据身高预报体重,因此要求身高与体重的回归直线方程,取身高为自变量x。
体重为因变量y,作散点图(如图)(2)列表求回归直线方程y=0.849x-85.712对于身高172cm女大学生,由回归方程可以预报体重为y=0.849*172-85.712=60.316(kg)预测身高为172cm的女大学生的体重为约60。
316kg问题:身高为172cm的女大学生的体重一定是60。
316kg吗?(留下一节课学习)例2:(提示后做练习、作业)研究某灌溉渠道水的流速y与水深x之间的关系,测得一组数据如下:1.40 1.50 1.60 1.70 1.80 1.902.00 2.10 水深xm1.70 1.79 1.88 1.952.03 2.10 2.16 2.21 流速ym/s(1)求y对x的回归直线方程;(2)预测水深为1。
95m时水的流速是多少?解:(略)三、小结四、作业:例2、预习。
1-1回归分析的基本思想及其初步应用(第二课时)教学目标:1、会建立回归模型,进而学习相关指数(相关系数r、总偏差平方和、随机误差的效应即残差、残差平方和、回归平方和、相关指数R2、残差分析)2、会求上述的相关指数:3、从实际问题发现已有知识不足,激发好奇心、求知欲。
培养勇于求知的良好个性品质。
教学重点;各相关指数、建立回归模型的步骤。
教学难点:相关指数的计算、残差分析。
教学过程:1、引入:从上节课的例1提出的问题引入线性回归模型:Y=bx+a+e解释变量x预报变量y随机误差e2、新课:(1)相关指数:相关系数r(公式),r>0正相关.R<0负相关R绝对值接近于1相关性强接r绝对值近于0相关性几乎无3、用例1的数据算以上各相关指数。
3.1回归分析的基本思想及初步应用学案(人教A版选修2-3)
3.1.1回归分析的基本思想及其初步应用课前预习学案一、预习目标通过截距与斜率分别是使取最小值时,求的值。
二、预习内容:1.对于一组具有线性相关关系的数据其回归直线方程的截距和斜率的最小二乘法估计公式:= ,=2.= , =3.样本点的中心三、提出问题如何使值最小,通过观察分析式子进行试探推到课内探究学案一、学习目标1.了解回归分析的基本思想和方法2.培养学生观察分析计算的能力二、学习重难点学习重点:回归方程,学习难点:、公式的推到三、学习过程1.使值最小时,值的推到2.结论3.中和的含义是什么4. 一定通过回归方程吗?四、典型例题(1)求y与x的回归直线方程;(2)预测水深为1.95m时水的流速是多少?分析:(1)y与x的回归直线方程为(2)当水深为1.95m时,可以预测水的流速约为2.12m/s五、当堂练习1.对两个变量y和x进行回归分析,得到一组样本数据:则下列说法不正确的是()A.由样本数据得到的回归方程必过样本中心B.残差平方和越小的模型,拟合的效果越好C.用相关指数来刻画回归效果,越小,说明模型的拟合效果越好D.若变量y与x之间的相关系数,则变量y与x之间具有线性相关关系2.已知某地每单位面积菜地年平均使用氮肥量xkg与每单位面积蔬菜年平均产量yt之间的关系有如下数据:若x 与y 之间线性相关,求蔬菜年平均产量y 与使用氮肥量x 之间的回归直线方程,并估计每单位面积蔬菜的年平均产量.(已知)解:设所求的回归直线方程为,则1511522211516076.81510110.110.0937,10.110.093710101611251510115i i i i i x y x yb a y bx x x ==--⨯⨯∴==≈=-=-⨯≈-⨯-∑∑所以,回归直线方程为:当x=150kg 时,每单位面积蔬菜的年平均产量课后练习与提高1、 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y(吨标准煤)的几组对照数据:(1) (2) 请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程;(3) 已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:)解:(1)由题设所给数据,可得散点图如下图(2)由对照数据,计算得:已知所以,由最小二乘法确定的回归方程的系数为:4142221466.54 4.5 3.50.7, 3.50.7 4.50.35.864 4.54i ii i i x y x y b a y bx x x==--⨯⨯====-=-⨯=-⨯-∑∑ 因此,所求的线性回归方程为(4) 由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为 (吨标准煤)。
人教A版高中数学选修回归分析的基本思想及其初步应用教案新(2)
3.1回归分析的基本思想及其初步应用(二)教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用. 教学重点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 教学难点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 教学过程:一、复习准备:1.由例1知,预报变量(体重)的值受解释变量(身高)或随机误差的影响.2.为了刻画预报变量(体重)的变化在多大程度上与解释变量(身高)有关?在多大程度上与随机误差有关?我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 二、讲授新课:1. 教学总偏差平方和、残差平方和、回归平方和:(1)总偏差平方和:所有单个样本值与样本均值差的平方和,即21()ni i SST y y ==-∑.残差平方和:回归值与样本值差的平方和,即21()ni i i SSE y y ==-∑.回归平方和:相应回归值与样本均值差的平方和,即21()ni i SSR y y ==-∑.(2)学习要领:①注意i y 、i y 、y 的区别;②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和,即222111()()()nnni i i i i i i y y y y y y ===-=-+-∑∑∑;③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;④对于多个不同的模型,我们还可以引入相关指数22121()1()nii i n ii yy R yy ==-=--∑∑来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 2R 的值越大,说明残差平方和越小,也就是说模型拟合的效果越好. 2. 教学例题:为了对x 、Y 两个变量进行统计分析,现有以下两种线性模型: 6.517.5y x =+,717y x =+,试比较哪一个模型拟合的效果更好.分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论.(答案:52211521()155110.8451000()i i i ii y y R yy ==-=-=-=-∑∑,221R =-521521()18010.821000()ii i ii yy yy ==-=-=-∑∑,84.5%>82%,所以甲选用的模型拟合效果较好.)3. 小结:分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价两个不同模型拟合效果的好坏.。
31回归分析的基本思想及其初步应用(优质课)
i
- x )( yi - y )
n
2 2 ( x x ) ( y y ) i i i =1 i =1
2.相关系数的性质 (1)|r|≤1. (2)|r|越接近于1,相关程度越大;|r|越接近 于0,相关程度越小.
2015-5-24
郑平正 制作
负相关
正相关
2015-5-24
郑平正 制作
统计分析的方法叫回归分析.
2015-5-24
郑平正 制作
2、现实生活中存在着大量的相关关系. 如:人的身高与年龄; 产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入.等等
2015-5-24
郑平正 制作
ˆ a ˆ bx ˆ 回归直线方程:: y
n ( xi - x )( yi - y ) b= ˆ i=1 = n 2 ( x - x) i i=1 ˆ x. a= ˆ y -b
从散点图中还看到,样本点散布在某一条直 线的附近 ,而不是在一条直线上,所以不能用一次 函数 y = bx + a
来描述它们之间的关系 . 这时我们把身高和体重 的关系用下面的线性回归模型 y = bx + a + e ( 3) 来表示,这里a和b为模型的未知参数,e是y与bx + a 之间的误差.通常e为随机变量, 称为随机误差,它的
并预报一名身高为172cm的女大学生的体重。
解; 1.由于问题中要 求根据身高预报体重, 因此选取身高为解释 变量x,体重为预报变 量y.
2. 散点图;
3.回归方程:
ˆ 0.849 x 85.712 y
x y 72315
i 1 i i
高中数学《3.1.1 回归分析的基本思想及其初步运用》学案 新人教A版选修2
§3.1.1回归分析的基本思想及其初步运用学习目标 :1.了解随机误差、残差、残差图的概念. 2.会通过分析残差判断线性回归模型的拟合效果. 3.掌握建立线性回归模型的步骤. 学习重点:掌握建立线性回归模型的步骤. 学习难点:掌握建立线性回归模型的步骤. 课前预习案 教材助读:阅读教材的内容,思考并完成下列问题: 1.线性回归模型(1)函数关系是一种 关系,而相关关系是一种 关系. (2)回归分析是对具有 关系的两个变量进行统计分析的一种常用方法.(3)对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),回归直线的斜率和截距的最小二乘估计公式分别为b ^= =∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a ^= ,其中 称为样本点的中心.(4)线性回归模型y =bx +a +e ,其中a 和b 是模型的未知参数,e 称为 ,自变量x 称为 ,因变量y 称为 .2.残差的概念对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i = ,i =1,2,…,n ,其估计值为e ^i = = ,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的 .3.刻画回归效果的方式 (1)残差图法作图时 为残差, 可以选为的样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.在残差图中,残差点 地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度 ,说明模型拟合精度越高. (2)残差平方和法残差平方和∑ni =1(y i -y ^i )2,残差平方和 ,模型拟合效果越好. (3)利用R 2刻画回归效果R 2= ;R 2表示 变量对于 变量变化的贡献率.R 2越接近于 ,表示回归的效果越好.课内探究案 一、新课导学: 探究点一 线性回归方程问题1 两个变量之间的关系分几类?问题2:什么叫回归分析?问题3: 对具有线性相关关系的两个变量进行回归分析有哪几个步骤?探究点二 线性回归分析问题1 利用求得的回归方程进行预报,为什么得到的预报值和实际值并不相同?问题2: 给出两个变量的回归方程,怎样判断拟合效果的 好坏?问题3: 如果R2≈0.64,表示什么意义?二、合作探究例1:若从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:170例2:某运动员训练次数与运动成绩之间的数据关系如下:3(3)作出残差图; (4)计算相关指数R2;(5)试预测该运动员训练47次及55次的成绩.三、当堂检测1. 下列各组变量之间具有线性相关关系的是( )A .出租车费与行驶的里程B .学习成绩与学生身高C .身高与体重D .铁的体积与质量2.某班5名学生的数学和物理成绩如表:(2)求物理成绩y 对数学成绩x 的回归方程;(3)一名学生的数学成绩是96,试预测他的物理成绩.四、课后反思课后训练案1. 若劳动生产率x (千元)与月工资y (元)之间的线性回归方程为y ^=50+80x ,则下列判断正确的是( )A .劳动生产率为1 000元时,月工资为130元B .劳动生产率提高1 000元时,月工资平均提高80元C .劳动生产率提高1 000元时,月工资平均提高130元D .月工资为210元时,劳动生产率为2 000元2. 实验测得四组(x ,y )的值是(1,2),(2,3),(3,4),(4,5),则y 对x 的线性回归方程是( )A.y ^=x +1 B.y ^=x +2 C.y ^=2x +1 D.y ^=x -13. 已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是 ( )A.y ^=1.23x +4 B.y ^=1.23x +5 C.y ^=1.23x +0.08 D.y ^=0.08x +1.23。
高中数学 3.1 1回归分析的基本思想及其初步应用教案 新人教A版选修选修2-3
2013年高中数学 3.1 1回归分析的基本思想及其初步应用教案新人教A版选修选修2-3【教学目标】在《数学③(必修)》之后,学生已经学习了两个变量之间的相关关系,包括画散点图,最小二乘法求回归直线方程等内容.在人教A版选修1-2第一章第一节“回归分析的基本思想及其初步应用”这一节中进一步介绍回归分析的基本思想及其初步应用.这部分内容《教师用书》共计4课时,第一课时:介绍线性回归模型的数学表达式,解释随机误差项产生的原因,使学生能正确理解回归方程的预报结果;第二课时:从相关系数、相关指数和残差分析角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;第三课时:介绍两个变量非线性相关关系;第四课时:回归分析的应用. 本节课是第一课时的内容.1、知识目标认识随机误差;2、能力目标(1)会使用函数计算器求回归方程;(2)能正确理解回归方程的预报结果.3、情感目标通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,理解处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识,解决实际问题的能力.教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性.【教学重点】随机误差e的认识【教学难点】随机误差的来源和对预报变量的影响【教学方法】启发式教学法【教学手段】多媒体辅助教学【教学流程】【教学过程设计】【教学反思】通过本节课的教学实践,我再次体会到什么是由“关注知识”转向“关注学生”,在教学过程中,注意到了由“给出知识”转向“引起活动”,由“完成教学任务”转向“促进学生发展”,课堂上的真正主人应该是学生.一堂好课,师生一定会有共同的、积极的情感体验.本节课的教学中,知识点均是学生通过探索“发现”的,学生充分经历了探索与发现的过程.教学中没有以练习为主,而是定位在知识形成过程的探索,注重数学的思想性,如统计思想、随机观念、函数思想、数形结合的思想方法等,引导学生体验数学中的理性精神,加强数学形式下的思考和推理.几点注明:1、复习引入时教师做示范——提供5组身高与体重的数据,用Excel展示如何画散点图、用最小二乘法求线性回归方程.随机抽样并列表如下:2、计算机做散点图的步骤如下:(1)进入Excel软件操作界面,在A1,B1分别输入“身高”和“体重”,在A,B列输入相应的数据.(2)点击“图表向导”图标,进入“图表类型”对话框,选择“标准类型”中的“XY 散点图”,单击“下一步”.(3)在“图表向导”中的“图表数据源”对话框中,选择“系列”选项,单击“添加”按钮添加系列1,在“X值”栏中输入身高所在数据区域,在“Y值”栏中输入体重所在数据区域,单击“下一步”.(4)进入“图表向导”中的图表选项对话框,对图表的一些属性进行设置.(5)单击“完成”按钮.注:也可以直接使用我们提供的文件来给学生演示,相对节约课堂时间.3、学生使用函数计算器求回归方程的过程如下:(学生还会使用更先进的计算器)4、课堂使用的数据如下高二女生前15组数据列表:高二女生中间15组数据列表:高二女生后15组数据列表:课本P2例题1 女大学生8组数据列表:例1.1.1回归分析的基本思想及其初步应用(第1课时)教案说明教材:人民教育出版社A版选修1-2第2页至第4页授课教师:广东省惠州市第一中学刘健1、设计理念《数学课程标准》明确指出:有效的数学学习活动不能单纯地模仿与记忆,动手实践、自主探索与合作交流,可以促进学生自主、全面、可持续的发展,是学生学习数学的重要方式.为使教学真正做到以学生为本,我对教材P2—P3的知识进行了适当地重组和加工,力求给学生提供研究、探讨的时间与空间,让学生充分经历“做数学”的过程,促使学生在自主中求知,在合作中获取,在探究中发展.2、授课内容的数学本质与教学目标定位回归分析,是一种从事物因果关系出发进行预测的方法.操作中,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式),预测今后事物发展的趋势.然而,所建立的回归方程与样本点的分布之间还存在有差异,这一差异就是我们本节课学习的主要内容:随机变量.本课的教学目标为:①知识目标认识随机误差e;②能力目标(1)会使用函数计算器求回归方程;(2)能正确理解回归方程的预报结果.③情感目标通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,理解处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识,解决实际问题的能力.教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性.3、学习本课内容的基础以及应用本课内容安排在《数学3(必修)》之后,学生已经学习了两个变量之间的相关关系,包括画散点图,会利用最小二乘法求回归直线方程等内容.以此为基础,进一步讨论一元线性回归模型,分析产生模型中随机误差项的原因,从而让学生了解线性回归模型与函数模型之间的区别与联系,体会统计思维与确定性思维的区别与联系.通过本节课的学习,为后继课程了解偏差平方和分解思想和相关指数的含义、了解相关指数 R2和模型拟合的效果之间的关系、了解残差图的作用,体会什么是回归分析、回归分的必要性,都起到铺垫作用.在本节课的教学中,学生使用了函数计算器,教师则利用电脑Excel表格完成对数据的整理,需要学生有一定的动手能力.4、学习本课内容时容易了解与容易误解的地方由于学生对必修3中的线性回归知识已经熟悉,会抽取样本、会画散点图、会利用最小二乘法求出线性回归方程,所以本节课学生容易了解:(1)从散点图看出,样本点呈条状分布,体重与身高具有线性相关关系,因此可以用线性回归方程来近似刻画它们之间的关系.(2)可以发现样本点并不完全落在回归方程上,有随机误差存在.(3)容易理解由一条回归方程预测到的身高172cm的女生体重不是都一样,它只是一个平均值.在学习过程中,相对不易理解的地方有:(1)对于随机误差的来源,学生是能够从样本的个体差异上来理解的,但是对于由用线性回归模型近似真实模型所引起的误差,学生理解还是有一定困难的.(2)随机误差对预报变量的影响,学生从感性上很好理解,当然是随机误差越小越好.但是从理性上认识,怎样从数据上刻画出随机误差是否变小了呢?学生还有困难.5、本节课的教法特点以及预期效果分析5.1 改造创新教师通过分析教材和学生认知规律,创造性地使用教材,做到既重视教材,更重视学生.具体说来有以下改造:(1)创设生活情景.利用学生的“体检经验”设置问题,既没有脱离课本例题1的相关内容,又能激发学生对数学的亲切感,引发学生看个究竟的冲动,兴趣盎然地投入学习.(2)充分体现随机观念.课本上仅仅希望利用8组数据就要学生体会到统计的思想和后继课程中回归分析的必要性,实在是为难学生了.在本课教学设计学生操作时强调“增多数据,加强比较”. 帮助学生体会“不同事件(如课本例1女大学生和高二女生)”,则统计结果不同、“同一事件(如都是高二女生),采样不同结果也不同”的基本事实.(3)教师的作用. 在这节课里,教师在学生操作结束后,利用更多数据的操作,形成一个与学生结果的对比,这一操作与展示为学生创造了新的思维增长点,引领学生进入更深层领悟.5.2 问题性本课教学以问题引导学习活动,通过恰时恰点地提出问题,提好问题,给学生提问的示范,使他们领悟发现和提出问题的艺术,引导他们更加主动和有兴趣地学,逐步培养学生的问题意识,孕育创新精神.例如,在“结果的分析”中的问题4、“预测出的体重值都不同,那么它还有参考价值吗?”目的是让学生充分认识随机误差e 的来源和对预报变量的影响,而这一问题的提出,立刻吸引学生细细体会随机观念,同时激发出学生的好奇心,提升深入探求的欲望.5.3 合作、探究的学习方式本节课的合作学习体现在两个方面:除了体现在每个小组内部成员之间,还体现在整堂课的教学结构上.小组成员内部提倡“不同的人作不同的事”,面对不同分组,学生可以自主选择的不同工作,动手带动动脑,遇到小的问题,通过探讨和帮助,能做到“学生的问题由学生自己解决”,促进对某一问题更清晰的认识,还能感受到团结合作的好处与必要.同时,每个小组的劳动成果共同构成课堂教学需要的多条回归方程,组与组之间的合作推动整节课的比较与区分得以实现.5.4教学手段本课积极将数学课程与信息技术进行整合,采用多种技术手段,特点主要体现如下:(1)以PPT 为操作平台,界面活泼,操作简单,能有效支持多种其它技术;(2)教师用Excel图表展示,直观形象,节约时间,帮助学生顺利完成学习内容;(3)学生使用函数计算器动手操作,求出回归方程.本课预期:(1)学生可以很好地复习使用函数计算器求回归方程,虽然在要求学生自己操作前教师有一个示例,但是还是会有一少部分人不会使用,所以在教学前要有一定的思想准备,和必要措施.(2)在分析各个组的预测结果为什么有差异时,由于个体经验不同,对问题的挖掘深度产生不同,这时教师的启发引导可能会十分必要,不能完全由学生漫无目的的“讨论”,使学生活动流于形式.(3)“结果分析”前,由学生展示操作成果,这些结果已经够用来说明问题,教师不要急于参与.在“结果分析”的第4个问题中引入教师利用电脑求出的由45 组数据得到的回归方程,让学生再一次通过比较得到新的思考点——怎样知道自己模拟的回归方程身高变化对体重变化影响有多大呢?这样会使学生自然而然渴望进一步了解相关回归分析的知识,为后继课程做好伏笔.对于体现本节课承上启下的作用,可能更好一些.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归分析的基本思想及其初步应用知识梳理
一.线性回归方程的确定
如果一组具有相关关系的数据1122(,),(,),,(,),n n x y x y x y g
g g 作出散点图大致分布在一条直线附近,那么我们称这样的变量之间的关系为线性相关关系(也称一元线性相关),这条
直线就是回归直线,记为ˆy
bx a =+. 那么如何求得参数a b 和使得各点与此直线的距离的平方和为最小,即如何求得线性回归方
程呢? 在所求回归直线方程ˆy bx a =+中,当x 取i x 时,$i i y bx a =+与实际收集到的数据i y 之
间的偏差为$()i i i i y y y bx a -=-+,偏差的平方为$22()[()]i i i i y y y bx a -=-+(如图1). 即2
1
()
n
i
i
i Q y bx a ==
--∑ 来刻画出n 个点与回归直线在整体上的偏差的平方和,显
然Q 取最小值时的,a b 的值就是我们所求的:
1
2
1
()()()
n i
i
i n
i
i x x y y b
x x ==--=-∑∑$1
2
21
n
i i
i n
i
i x y nx y
x
nx
==-=
-∑∑
$a
y bx =-$ 其中(,)i i x y 为样本数据,11,n n
i i i i
x x y y n n ==∑∑为样本平均数,(,)x y 称为样本点
中心,且所求线性回归直线经过样本点中心(如图2所示).
当回归直线斜率0b >时,为线性正相关, 0b <时为线性负相关.
应注意,这个最小距离不是通常所指的各数据的点(,)i i x y 到直线的距离,而是各数据点(,)i i x y 沿平行y 轴方向到直线的距离(如图1所示).
⋅
对于上面参数a b 和的求法原理及方法是简单的,但是运算量较大,需要将a
+
x
图2
a +
y i
y 图1
21
()n
i i i Q y bx a ==--∑展开,再合并,然后配方整理,从而求得,a b .
例如,当,,,a b m n 取怎样实数时, 22
()()a n b m k -+-+的值为最小,显然当
,a m b n ==时最小值为k ,像这样配方求最值的方法是经常用到的, 线性回归方程ˆy
bx a =+中的参数,b a 就是这样求出的. 教材中用了添项法较为简捷的求出了截距$a 和斜率b $分别是使21(,)()n
i i i Q y x αββα==--∑取最小值时,αβ的值.
求得1
2
1
()()
()
n
i
i
i n
i
i x x y y x x β==--=
-∑∑,y x αβ=-的值,请同学们体会其解法.
线性回归方程的确定是进行回归分析的基础.
二.回归分析:是对具有相关关系的两个变量进行统计分析的一种常用方法. 1.线性相关关系的强弱
两个变量之间线性相关关系的样本相关系数()()
n
i
i
x x y y r --=
∑衡量线性相
性关系的强弱,由于分子与斜率b 的分子一样,因此,当0r >时,两个变量正相关;当0r <时两个变量负相关.当r 的绝对值接近1,表明两个变量的线性相关性很强;当r 的绝对值接近0,表明两个变量之间几乎不存在线性相关关系.规定当0.75r >时,我们认为两个变量有很强的线性相关关系.
2.解释变量与随机误差对预报精度的影响以及残差分析 (1)有关概念
线性回归模型2
()0,()y bx a e E e D e σ
=++⎧⎨
==⎩
其中a 和b 为模型的未知参数;
x 称为解释变量,y 称为预报变量;
e 是y 与ˆy bx a =+之间的误差, e 叫随机误差。
随机误差的估计值为
$$i i i i
i e y y y bx a =-=--$$ 图3
a +
y
y
i e $称为相应于样本点(,)i i
x y 的残差(如图3). (2)随机误差的方差估计值µ2
σ衡量回归方程的预报精度
由于随机误差的均值11()n
i i E e e n ==∑=0,
因此,可以用随机误差的方差估计值µ22112n i i e n σ
==-∑$=12
n -$(,)Q a b $ (其中2n >,
残差平方和为$$21
(,)()n
i i i Q a b y y ==-∑$)衡量回归方程的预报精度,显然µ2
σ越小,预报精度越高。
(3)通过残差分析判断模型拟合效果
由$$i i i i
i e y y y bx a =-=--$$计算出残差1e
$,2e $,…,n e $,然后选取横坐标为编号、或解释变量或预报变量,纵坐标为残差作出残差图.通过图形分析,如果样本
点的残差较大,就要分析样本数据的采集是否有错误;另一方面,可以通过残差点分布的水平带状区域的宽窄,说明模型拟合效果,反映回归方程的预报精度. 3.相关指数2R 反应模型的拟合效果
$
2
21
2
1
()1()
n
i i i n
i
i
i y y R y y ==-=-
-∑∑=
$
2
2
11
2
1
()()()
n n
i
i
i
i
i i n
i
i
i y y y y y y ===----∑∑∑
(1)变量理解:
2
1()
n
i
i
i y y =-∑为总偏差平方和,表示解释变量和随机误差产生的总的效应;
$
2
1()n
i
i
i y y =-∑为残差平方和,表示了随机误差效应;
$
2
2
1
1
()()n
n
i
i
i
i
i i y y y y ==---∑∑,表示了解释变量效应.
(2)模型拟合效果
$
2
1
2
1
()()
n
i
i
i n
i
i
i y y y y ==--∑∑,反映了随机误差对预报变量(总效应)的贡献率;
$
2
2
1
2
1
()1()
n
i
i
i n
i
i
i y y R y y ==-=-
-∑∑反映了解释变量对预报变量(总效应)的贡献率;
因此,2R 越接近1(即
$212
1
()()
n
i i
i n
i
i
i y y y y ==--∑∑越接近0),表示回归的效果越好,
即解释变量和预报变量的线性相关性越强.
三.非线性回归的问题转化为线性回归问题 (1)作散点图确定曲线模型
根据收集的数据作散点图(如图4),
可见两个变量不呈线性相关关系.而是
分布在某一条指数函数曲线21c x
y c e
=的
周围,也可以认为样本点集中在某二次
曲线2
34y c x c =+的附近.
(2)非线性转化为线性
这时通过对数变换把指数关系21c x
y c e
=
变为线性关系21ln z c x c =+;通过换元把二次函数2
34y c x c =+关系变换为
线性关系34y c t c =+. 在这两种情况下就可以利用线性回归模型,建立y 和x 之间的非线性回归方程了.
(3)比较两种模型的拟合效果
对于给定的样本点1122(,),(,),,(,),n n x y x y x y g
g g ⅰ可以通过转换后的对应数表作散点图来确定线性回归的拟合情况,判断选用
哪一种曲线模型较为合适;
ⅱ可以通过原始数据及y 和x 之间的非线性回归方程列出残差对比分析表,一 般通过残差平方和比较两种模型的拟合效果,显然残差平方和较小的拟合效果较好;
ⅲ还可以用2
R 来比较两个模型的拟合效果,2
R 越大(越接近1),拟合效果越好。
o
图4
g
g
⋅
g
⋅
g。