人教版高二数学选修2-3回归分析-
人教版高中选修2-3回归分析的基本思想及其初步应用课件
y=bx2+a 非线性关系
换元 t=x2 y=bt+a 线性关系
方案2解答
平方变换:令t=x2,产卵数y和温度x之间二次函数模型 y=bx2+a就转化为产卵数y和温度的平方t之间线性回归 模型y=bt+a
温度
21
23
25
27
29
32
35
温度的平方t
441
529
625
729
841
1024
1225
产卵数y/个
产卵数y/个
350 300 250 200 150 100
50 0 0
t 150 300 450 600 750 900 1050 1200 1350
得:y=0.367x2 -202.543
当x=28时,y=0.367×282-202.54≈85,
从散点图看,还 象什么函数图像 的一部分? 350
eˆi(2) yi yˆi(2) yi 0.367x2 202.543,i 1, 2,..., 7.
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115 325
eˆ(1) 0.557 -0.101 1.875 -8.950 9.230 -13.381 34.675 eˆ(2) 47.696 19.400 -5.832 -41.000 -40.104 -58.265 77.968
令:z = lny, a = lnc1,b = c2
则y = c1ec2x就转换为:z = bx +a
温度xoC z=lny 产卵数y/个
21
人教版高中数学选修(2-3)-3.1要点解析:回归分析
回归分析1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.求回归直线方程的一般步骤:作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法.建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.3.利用统计方法解决实际问题的基本步骤:①提出问题;②收集数据;③分析整理数据;④进行预测或决策.4.残差变量e 的主要来源:①用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差.可能存在非线性的函数能够更好地描述y 与x 之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差.这种由于模型近似所引起的误差包含在e 中.②忽略了某些因素的影响.影响变量y 的因素不只变量x 一个,可能还包含其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在e 中.③观测误差.由于测量工具等原因,得到的y 的观测值一般是有误差的(比如一个人的体重是确定的数,不同的秤可能会得到不同的观测值,它们与真实值之间存在误差),这样的误差也包含在e 中.上面三项误差越小,说明我们的回归模型的拟合效果越好.名师要点解析例1研究某灌溉渠道水的流速与水深之间的关系,测得一组数据如下:(1)求y对x的回归直线方程;(2)预测水深为1.95m时水的流速是多少?【分析】本题考查如何求回归直线的方程,可先把有关数据用散点图表示出来,若这些点大致分布在通过散点图中心的一条直线附近,说明这两个变量线性相关,从而可利用我们学过的最小二乘估计思想及计算公式求得线性回归直线方程.【解】(1)由于问题中要求根据水深预报水的流速,因此选取水深为解释变量,流速为预报变量,作散点图:由图容易看出,x与y之间有近似的线性关系,或者说,可以用一个回归直线方程来反映这种关系.由计算器求得.对x的回归直线方程为.(2)由(1)中求出的回归直线方程,把x=1.95代入,易得。
人教版高数选修2-3第7讲:独立性检验与回归分析(学生版)
独立性检验与回归分析__________________________________________________________________________________ __________________________________________________________________________________1.了解变量间的相关关系,能根据给出的线性回归方程系数建立线性回归方程.2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.3.了解回归分析的基本思想、方法及其简单应用.1.独立性检验(1)概念:用2χ统计量研究独立性问题的检验的方法称为独立性检验.(2)m×n列联表指有m行n列的列联表(3)必备公式2χ=2()()()()()n ad bca cb d a bc d-++++2.2χ统计量中的四个临界值经过对2χ统计量分布的研究,已经得到了四个经常用到的临界值:2.706、3.841、6.635、10.828.由2×2列联表计算出2χ,然后与相应的临界值进行比较,当2χ>2.706时,有______的把握说事件A与B有关.当2χ>3.841时,有______的把握说事件A与B有关.当2χ>6.635时,有______的把握说事件A与B有关.当2χ>10.828时,有______的把握说事件A与B有关.当2χ≤2.706时,认为事件A与B是无关的.3.回归分析(1)线性回归模型是指方程y a bxε=++,其中________称为确定性函数,____称为随机误差.(2)线性回归方程是指直线方程ˆˆˆya bx =+,其中回归截距ˆa 、回归系数ˆb 公式如下: ˆb=_______________________ˆa =_____________. (3)参数r 检验线性相关的程度,计算公式为r()()niix x yy --∑即ni ix ynx y-∑化简后r =x yxy x yS S -,其中y S 表示数据i y (i =1,2,…,n )的标准差,这个r 称为y 与x 的样本相关系数,简称相关系数,其中-1≤r ≤1.若r >0,则x 与y 是正相关,若r <0,则x 与y 是负相关,若r =0,则x 与y 不相关,r =1或r =-1时,x 与y 为完全线性相关.类型一.独立性检验例1:为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:判断性别与是否喜欢数学课程有关吗?用独立性检验方法判断父母吸烟对子女是否吸烟有影响.类型二.变量间的相关关系及线性回归方程例2:下列关系中,是带有随机性相关关系的是______. ①正方形的边长与面积之间的关系; ②水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④降雪量与交通事故的发生率之间的关系.例3:某工业部门进行一项研究,分析该部门的产量与生产费用的关系,从这个工业部门内随机抽选了10个企业作样本,资料如下表:练习1:下列两个变量之间的关系哪个不是函数关系( ) (A)角度和它的余弦值 (B)正方形边长和面积(C)正n 边形的边数和顶点角度之和 (D)人的年龄和身高 类型三.相关检验与回归分析例3:某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系.从这个工业部门内完成下列问题:(1)计算x 与y 的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验;(3)设线性回归方程为ˆˆˆ,ybx a =+求系数ˆˆ,.a b试预测该运动员训练47次以及55次的成绩.1.在调查中学生近视情况中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )A.期望与方差B.排列与组合C.独立性检验D.概率2.通过对2χ统计量的研究,得到了若干临界值,当2χ≤2.706时,我们认为事件A 与B ( ) A.有90%的把握认为A 与B 有关系 B.有95%的把握认为A 与B 有关系C.没有充分理由说明事件A 与B 有关系D.不能确定3.下列关于2χ的说法中正确的是( )A.2χ在任何相互独立问题中都可以用来检验有关还是无关 B.2χ的值越大,两个事件的相关性就越大C.2χ是用来判断两个分类变量是否有关系的随机变量,只对于两个分类变量适合D.2χ的观测值2χ的计算公式为2()()()()()n ad bc a b c d a c b d χ-=++++4.下列两个变量之间的关系是相关关系的是( ) A.角度和它的余弦值 B.正方形边长和面积 C.正n 边形的边数和顶点数 D.人的年龄和身高5.由一组样本数据1122(,),(,),,(,n x y x y x )n y 得到的回归方程为ˆˆˆ,ybx a =+下面说法不正确的是( )A.直线ˆˆˆybx a =+必经过点(,)x y B.直线ˆˆˆybx a =+至少经过点1122(,),(,),,(,)n n x y x y x y 中的一个点C.直线ˆˆˆybx a =+的斜率为1221()ni ii nii x y nxyxn x ==--∑∑D.直线ˆˆˆybx a =+和各点1122(,),(,),,(,)n n x y x y x y 的偏差平方和21ˆˆ[()]ni ii y bx a =-+∑是该坐标平面上所有直线与这些点的偏差平方和中最小的直线6.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.8.某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm._________________________________________________________________________________ _________________________________________________________________________________基础巩固1.(2014重庆卷)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3 B.y^=2x-2.4C.y^=-2x+9.5 D.y^=-0.3x+4.42.(2014湖北卷)根据如下样本数据:得到的回归方程为y=bx+a,则()A.a>0,b>0B.a>0,b<0C.a<0,b>0D.a<0,b<03.(2014江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()及格2032A.成绩B.视力C.智商D.阅读量4.下列两个变量之间的关系是相关关系的是()A.正方体的棱长和体积B.角的弧度数和它的正弦值C.单产为常数时,土地面积和总产量D.日照时间与水稻的亩产量5.(2015福建)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程ˆˆˆybx a =+,其中ˆˆˆ0.76,b a y bx ==-,据此估计,该社区一户收入为15万元家庭年支出为( )A.11.4万元B.11.8万元C.12.0万元D.12.2万元6.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,由高尔顿提出的.他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y 与父亲的身高x 的回归方程ˆˆˆya bx =+中,ˆb ( ) A.在(-1,0)内B.等于0C.在(0,1)内D.在[1,+∞)7.线性回归方程ˆˆˆya bx =+中,回归系数ˆb 的含义是________________. 8.在一项打鼾与患心脏病是否有关的调查中,共调查了1978人,经过计算2χ=28.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填“有关”、“无关”)能力提升1.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程y ^=3-5x ,变量x 增加1个单位时,y 平均增加5个单位;③设具有相关关系的两个变量x ,y 的相关系数为r ,则|r |越接近于0,x 和y 之间的线性相关程度越强;④在一个2×2列联表中,由计算得K 2的值,则K 2的值越大,判断两个变量间有关联的把握就越大.其中错误的个数是( ) A.0B.1C.2D.32.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′3.对相关系数r ,下列说法正确的是( ) A.||r 越大,相关程度越小B.||r 越小,相关程度越大C.||r 越大,相关程度越小,||r 越小,相关程度越大D.||r≤1且||r越接近1,相关程度越大,||r越接近0,相关程度越小4.若由资料知,y对x呈线性相关关系,试求:(1)线性回归方程;(2)估计设备的使用年限为10年时,维修费用约是多少?5.若由资料可知y对x呈线性相关关系,试求:(1)线性回归直线方程;(2)根据回归直线方程,估计使用年限为12年时,维修费用是多少?6.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为思心脏病而住院的男性病人中有175人秃顶,利用独立性检验方法判断秃顶与患心脏病是否有关系?课程顾问签字: 教学主管签字:。
高中数学人教课标版选修2-3《回归分析基本思想及其初步应用(第3课时)》课件
越接近于1,表示解释变量和预报
变量的线性相关性越强)
知识回顾
问题探究
课堂小结
随堂检测
探究一:建立回归模型的基本步骤是什么? ●活动一 归纳提升,总结一般方法 例1 某城区为研究城镇居民月家庭人均生活费支出和月人均收入的 相关关系,随机抽取10户进行调查,其结果如下:
月人均收入x/元 300 390 420 520 570 700 760 800 850 1080
知识回顾
问题探究
课堂小结
随堂检测
探究一:建立回归模型的基本步骤是什么? 点拨:建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量. (2)画出解释变量和预报变量的散点图,观察它们之间的关系(是否 存在线性关系等). (3)由经验确定回归方程的类型(如果我们观察到诗句呈线性关系, 则选用线性回归方程). (4)按一定的规则(如最小二乘法)估计回归方程中的参数. (5)得出结论后分析残差图是否有异常(如个别数据对应的残差绝对 值过大,残差呈现不随机的规律性等),若存在异常,则检查数据是否
编号
温度x/°C 产卵数y/个
1
21 7
2
23 11
3
25 21
4
27 24
5
29 66
6
32 115
7
35 325
知识回顾
问题探究
课堂小结
随堂检测
探究二:若两变量为非线性相关关系,如何建立回归模型? 重点、难点知识★▲ 详解:根据收集数据,作散点图:
知识回顾
问题探究
课堂小结
随堂检测
探究二:若两变量为非线性相关关系,如何建立回归模型? 重点、难点知识★▲ ●活动二 观察发现,寻找新模型 样本点并没有分布在某个带状区域内 , 因此两个变量不呈线性相 关关系,即不能直接用线性回归方程来建立两个变量之间的关系 .怎样
高中数学选修2-3-回归分析的基本思想及其初步应用
回归分析的基本思想及其初步应用知识集结知识元线性回归方程知识讲解1.线性回归方程【概念】线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛.分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析.变量的相关关系中最为简单的是线性相关关系,设随机变量与变量之间存在线性相关关系,则由试验数据得到的点将散布在某一直线周围.因此,可以认为关于的回归函数的类型为线性函数.【实例解析】例:对于线性回归方程,则=解:,因为回归直线必过样本中心(),所以.故答案为:58.5.方法就是根据线性回归直线必过样本中心(),求出,代入即可求.这里面可以看出线性规划这类题解题方法比较套路化,需要熟记公式.【考点点评】这类题记住公式就可以了,也是高考中一个比较重要的点.例题精讲线性回归方程例1.'为了增强消防意识,某部门从男职工中随机抽取了50人,从女职工中随机抽取了40人参加消防知识测试,按优秀程度制作了如下2×2列联表:(1)完成2×2列联表,并判断是否有99.9%的把握认为消防知识是否优秀与性别有关;(2)为参加市里举办的消防知识竞赛,该部门举行了预选赛,已知在消防知识测试中优秀的职工通过预选赛的概率为,现从消防知识测试中优秀的职工中选3人参加预选赛,设随机变量X表示这3人中通过预选赛的人数,求X的分布列与数学期望.附:'例2.'为了研究广大市民对共享单车的使用情况,某公司在我市随机抽取了100名用户进行调查,得到如下数据:认为每周使用超过3次的用户为“喜欢骑共享单车”.(1)分别估算男、女“喜欢骑共享单车”的概率;(2)请完成下面的2×2列联表,并判断能否有95%把握,认为是否“喜欢骑共享单车”与性别有关.附表及公式:,其中n=a+b+c+d.'例3.'新高考3+3最大的特点就是取消文理科,除语文、数学、外语之外,从物理、化学、生物、政治、历史、地理这6科中自由选择三门科目作为选考科目.某研究机构为了了解学生对全理(选择物理、化学、生物)的选择是否与性别有关决定从某学校高一年级的650名学生中随机抽取男生、女生各25人进行模拟选科经统计,选择全理的人数比不选全理的人数多10人(1)请完成下面的2×2列联表;(2)估计有多大把握认为选择全理与性别有关,并说明理由.附:,其中n=a+b+c+d'回归分析知识讲解1.回归分析【知识点的知识】1、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.记为:=x+.求回归直线方程的一般步骤:①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系;②求回归系数;③写出回归直线方程,并利用回归直线方程进行预测说明.2、回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法.建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,模型是否合适等.例题精讲回归分析例1.'为了增强消防意识,某部门从男职工中随机抽取了50人,从女职工中随机抽取了40人参加消防知识测试,按优秀程度制作了如下2×2列联表:(1)完成2×2列联表,并判断是否有99.9%的把握认为消防知识是否优秀与性别有关;(2)为参加市里举办的消防知识竞赛,该部门举行了预选赛,已知在消防知识测试中优秀的职工通过预选赛的概率为,现从消防知识测试中优秀的职工中选3人参加预选赛,设随机变量X表示这3人中通过预选赛的人数,求X的分布列与数学期望.附:'例2.'(2019春∙玉溪期末)为了研究广大市民对共享单车的使用情况,某公司在我市随机抽取了100名用户进行调查,得到如下数据:认为每周使用超过3次的用户为“喜欢骑共享单车”.(1)分别估算男、女“喜欢骑共享单车”的概率;(2)请完成下面的2×2列联表,并判断能否有95%把握,认为是否“喜欢骑共享单车”与性别有关.附表及公式:,其中n=a+b+c+d.'例3.'(2019春∙玉林期末)新高考3+3最大的特点就是取消文理科,除语文、数学、外语之外,从物理、化学、生物、政治、历史、地理这6科中自由选择三门科目作为选考科目.某研究机构为了了解学生对全理(选择物理、化学、生物)的选择是否与性别有关决定从某学校高一年级的650名学生中随机抽取男生、女生各25人进行模拟选科经统计,选择全理的人数比不选全理的人数多10人(1)请完成下面的2×2列联表;(2)估计有多大把握认为选择全理与性别有关,并说明理由.附:,其中n=a+b+c+d'相关系数知识讲解1.相关系数【知识点的知识】1、概念:相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度.于是,著名统计学家卡尔•皮尔逊设计了统计指标﹣﹣相关系数.相关系数是用以反映变量之间相关关系密切程度的统计指标.相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数.2、相关系数用r表示,计算公式为其中:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.3、残差:相关指数R2用来刻画回归的效果,其计算公式是在含有一个解释变量的线性模型中,R2恰好等于相关系数r的平方.显然,R2取值越大,意味着残差平方和越小,也就是模型的拟合效果越好.【解题方法点拨】建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个是预报变量;(2)画出解释变量和预报变量的散点图,观察它们之间的关系;(3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程:=x+);(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果分析残差图是否有异常,若存在异常,则检查数据是否有误,或模型是否适当.当回归方程不是形如:=x+时,我们称之为非线性回归方程.例题精讲相关系数例1.对于线性相关系数r,叙述正确的是___;①|r|∈(0,+∞),|r|越大,相关程度越强,反之,相关程度越弱;②r∈(-∞,+∞),r越大,相关程度越强,反之,相关程度越弱;③|r|≤1且|r|越接近于1,相关程度越强;|r|越接近于0,相关程度越弱;④以上说法都不对例2.下列说法中正确的是_____(填序号)。
人教版数学高二选修2-3讲义3.1回归分析的基本思想及其初步应用
3.1 回归分析的基本思想及其初步应用1.通过对典型案例的探究,了解回归分析的基本思想、方法及其初步应用. 2.会求回归直线方程,并用回归直线方程进行预报.(重点)3.了解最小二乘法的思想方法,理解回归方程与一般函数的区别与联系.了解判断模型拟合效果的方法(相关指数和残差分析).(难点)[基础·初探]教材整理1 回归直线方程阅读教材P 80~P 82探究上面倒数第一行,完成下列问题. 1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. 2.回归直线方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a^,b ^是待定参数,其最小二乘估计分别为: ⎩⎪⎨⎪⎧b ^=∑i =1n (x i -x -)(y i -y -)∑i =1n(x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x -2,a ^=y --b ^x -,其中x -=1n ∑i =1n x i ,y -=1n ∑i =1n y i ,(x -,y -)称为样本点的中心.1.在对两个变量x,y进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释;②收集数据(x i,y i),i=1,2,…,n;③求线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图.如果根据可行性要求能够作出变量x,y具有线性相关的结论,则在下列操作顺序中正确的是()A.①②⑤③④B.③②④⑤①C.②④③①⑤D.②⑤④③①【解析】对两个变量进行回归分析时,首先收集数据(x i,y i),i=1,2,…,n;根据所搜集的数据绘制散点图.观察散点图的形状,判断线性相关关系的强弱,求相关系数,写出线性回归方程,最后依据所求出的回归直线方程作出解释.故正确顺序是②⑤④③①.【答案】 D2.如图3-1-1四个散点图中,适合用线性回归模型拟合的两个变量的是________(填序号).图3-1-1【解析】由题图易知,①③两个图中的样本点在一条直线附近,因此适合用线性回归模型拟合.【答案】①③3.若y与x之间的一组数据为x 0123 4y 1355 6则y对x【解析】由表中数据得x=0+1+2+3+45=2,y=1+3+5+5+65=4.因回归直线必过样本中心点(x,y),所以y与x的回归直线一定经过的点是(2,4).【答案】(2,4)教材整理2线性回归分析阅读教材P82探究~P89,完成下列问题.1.线性回归模型(1)表达式y=bx+a+e.(2)基本概念:①a和b为模型的未知参数.②e是y与bx+a之间的误差.通常e为随机变量,称为随机误差.③x称为解释变量,y称为预报变量.2.衡量回归方程的预报精度的方法(1)残差平方和法:①e i^称为相应于点(x i,y i)的残差.②残差平方和∑i=1n(y i-y i^)2越小,模型的拟合效果越好.(2)残差图法:残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型的拟合精度越高.(3)利用相关指数R2刻画回归效果:其计算公式为:R2=1-∑i=1n(y i-y i^)2∑i=1n(y i-y)2;其几何意义:R2越接近于1,表示回归的效果越好.1.判断(正确的打“√”,错误的打“×”)(1)求线性回归方程前可以不进行相关性检验.()(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.()(3)利用线性回归方程求出的值是准确值.()(4)变量x与y之间的回归直线方程表示x与y之间的真实关系形式.()(5)随机误差也就是残差.()【解析】(1)×因为如果两个变量之间不具有线性相关关系,就不用求线性回归方程了,求出的回归直线方程当然也不能很好的反映两变量间的关系.(2)√因为由残差图的方法步骤可知,该说法正确.(3)×因为利用线性回归方程求出的值为估计值,而不是真实值.(4)×因为变量x与y之间的线性回归直线方程仅表示x与y之间近似的线性关系,x与y之间满足y=bx+a+e,其中e为随机误差.(5)×因为随机误差e是真实值y与bx之间的误差,而残差e^=y-y^是随机误差e的估计量.【答案】(1)×(2)√(3)×(4)×(5)×2.在判断两个变量y与x是否相关时,选择了4个不同的模型,它们的R2分别为:模型1的R2为0.98,模型2的R2为0.80,模型3的R2为0.50,模型4的R2为0.25.其中拟合效果最好的模型是()【导学号:29472081】A.模型1 B.模型2C.模型3 D.模型4【解析】R2能够刻画用回归模型拟合数据的效果,R2的值越接近于1,说明回归模型拟合数据的效果越好.【答案】 A[小组合作型]求线性回归方程下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x 345 6y 2.534 4.5(1)(2)请根据上表提供的数据,用最小二乘法求出y关于x的回归直线方程y^=b^ x+a^;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的回归直线方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)【精彩点拨】(1)按表中的数据在平面直角坐标系中描点即得散点图;(2)由公式求出a^,b^,写出回归直线方程;(3)利用回归方程分析.【自主解答】(1)由题设所给数据,可得散点图如图.(2)由数据,计算得:∑i=14x2i=86,x=3+4+5+64=4.5,y=2.5+3+4+4.54=3.5,又已知∑i=14x i y i=66.5.所以,由最小二乘法确定的回归方程的系数为:b^=∑i=14x i y i-4x y∑i=14x2i-4 x2=66.5-4×4.5×3.586-4×4.52=0.7,a ^=y --b ^x -=3.5-0.7×4.5=0.35,因此,所求的回归直线方程为y ^=0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7×100+0.35)=19.65吨标准煤.求回归直线方程的三个步骤1.画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系.2.求回归系数:若存在线性相关关系,则求回归系数.3.写方程:写出回归直线方程,并利用回归直线方程进行预测说明.[再练一题]1.已知x ,y 的取值如表所示:x 0 1 3 4 y2.24.34.86.7若从散点图分析,y 与x 线性相关,且y ^=0.95x +a^,则a ^的值等于( ) 【导学号:29472082】A .2.6B .6.3C .2D .4.5【解析】 x -=14(0+1+3+4)=2,y -=2.2+4.3+4.8+6.74=4.5,而回归直线方程过样本点的中心(2,4.5),所以a ^=y --0.95x -=4.5-0.95×2=2.6. 【答案】 A线性回归分析已知某种商品的价格x (元)与需求量y (件)之间的关系有如下一组数据:x (元) 14 16 18 20 22 y (件)1210753求y 对【精彩点拨】 先利用求线性回归直线方程的方法步骤求出回归直线方程,再利用相关指数R 2说明拟合效果.【自主解答】 x -=15×(14+16+18+20+22)=18, y -=15×(12+10+7+5+3)=7.4, ∑5i =1x 2i =142+162+182+202+222=1 660, ∑5 i =1y 2i =122+102+72+52+32=327,∑5 i =1x i y i =14×12+16×10+18×7+20×5+22×3=620, ∴b ^=∑5i =1x i y i -5x - y -∑5 i =1x 2i -5x -2=620-5×18×7.41 660-5×182=-1.15. a ^=y --b ^x -=7.4+1.15×18=28.1, ∴所求回归直线方程为y ^=-1.15x +28.1. 列出残差表: y i -y ^i 0 0.3 -0.4 -0.1 0.2 y i -y -4.62.6-0.4-2.4-4.4∴∑5i =1 (y i -y i )2=0.3,∑5i =1 (y i -y )2=53.2,R 2=1-∑5i =1 (y i -y ^i )2∑5 i =1 (y i -y -)2≈0.994,故回归模型的拟合效果很好.1.该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.2.刻画回归效果的三个方式(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.(2)残差平方和法:残差平方和∑ni=1(y i-y^i)2越小,模型的拟合效果越好.(3)相关指数法:R2=1-∑ni=1(y i-y^i)2∑ni=1(y i-y)2越接近1,表明回归的效果越好.[再练一题]2.假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下表的统计资料:使用年限x 2345 6维修费用y 2.2 3.8 5.5 6.57.0(1)求线性回归方程y^=b^x+a^;(2)求残差平方和;(3)求相关指数R2.【解】(1)由已知条件可得:x=4,y=5,∑i=1nx2i=90,∑i=1nx i y i=112.3.于是有b^=112.3-5×4×590-5×42=12.310=1.23,a^=y-b^x=5-1.23×4=0.08.所以y^=1.23x+0.08.(2)由公式y^i=1.23x i+0.08和e^i=y i-y^i,得下表1234 5 y^i 2.54 3.775 6.237.46e^i-0.340.030.50.27-0.4622222(3)R2=1-0.651∑i=15(y i-y)2≈0.958 7.[探究共研型]非线性回归分析探究1如果两个相关变量x,y满足回归方程y=c1x2+c2,那么x,y具有线性相关关系吗?如何把它化归为线性回归方程问题?【提示】x,y不具有线性相关关系,但是若令z=x2,则y=c1x2+c2可变换为y=c1z+c2,即化归为线性回归方程问题.探究2如果两个相关变量x,y满足非线性回归方程y=c1ec2x,如何转化为线性回归方程问题?如果两个变量呈非线性相关关系,怎样求回归方程?【提示】令z=ln y,则原回归方程可变换为z=bx+a(a=ln c1,b=c2).若两个变量呈非线性相关关系可以通过对解释变量进行变换,如对数变换或平方变换,先得到另外两个变量间的回归方程,再得到所求两个变量的回归方程.探究3若对同一个问题建立的两种不同回归模型,怎样比较它们的拟合效果?【提示】有两种比较方法:(1)计算残差平方和,残差平方和小的模型拟合效果好;(2)计算相关指数R2,R2越接近于1的模型拟合效果越好.下表为收集到的一组数据:x 21232527293235y 711212466115325(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x=40时y的值.【精彩点拨】画出散点图→确定是否线性相关→确定函数模型→转化为线性模型→求回归方程→进行拟合→进行预报【自主解答】(1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线y=c1e c2x 的周围,其中c1,c2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z=ln y,则变换后的样本点应分布在直线z=bx+a,a=ln c1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为:x 21232527293235z 1.946 2.398 3.045 3.178 4.190 4.745 5.784 求得回归直线方程为z=0.272x-3.849,^=e0.272x-3.849.∴y残差列表如下:y i711212466115325y^i 6.44311.10119.12532.95056.770128.381290.325 e^i0.557-0.101 1.875-8.9509.23-13.38134.6750.272×40-3.849非线性回归问题的处理方法1.指数函数型y=e bx+a(1)函数y=e bx+a的图象:(2)处理方法:两边取对数得ln y=ln e bx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.2.对数函数型y=b ln x+a(1)函数y=b ln x+a的图象:(2)处理方法:设x′=ln x,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.3.y=bx2+a型处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.[再练一题]3.在一次抽样调查中测得样本的5个样本点,数值如下表:x 0.250.512 4y 161252 1试建立y与【解】画出散点图如图所示.根据散点图可知y与x近似地呈反比例函数关系,设y=kx,令t=1x,则y=kt,原数据变为:t 4210.50.25y 161252 1由散点图可以看出y与t呈近似的线性相关关系.列表如下:序号t i y i t i y i t2i y2i141664162562212244144315512540.5210.25 450.2510.250.0625 1∑7.753694.2521.312 5430所以t=1.55,y=7.2.所以b^=∑i=15t i y i-5t y∑i=15t2i-5t2≈4.134 4,a^=y--b^t-≈0.8.所以y^=4.134 4t+0.8.所以y 与x 的回归方程是y ^=4.134 4x +0.8.1.关于回归分析,下列说法错误的是( ) A .回归分析是研究两个具有相关关系的变量的方法 B .散点图中,解释变量在x 轴,预报变量在y 轴 C .回归模型中一定存在随机误差 D .散点图能明确反映变量间的关系【解析】 用散点图反映两个变量间的关系时,存在误差. 【答案】 D2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:甲 乙 丙 丁 R 20.980.780.500.85A .甲B .乙C .丙D .丁【解析】 相关指数R 2越大,表示回归模型的拟合效果越好. 【答案】 A3.在研究气温和热茶销售杯数的关系时,若求得相关指数R 2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.【解析】 由相关指数R 2的意义可知,R 2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.【答案】 85% 15%4.已知某车间加工零件的个数x 与花费时间y (h)之间的线性回归直线方程为y ^=0.01x +0.5,则加工600个零件大约需要________h.【解析】 y ^=0.01×600+0.5=6.5,所以加工600个零件大约需要6.5 h.【答案】 6.55.在一段时间内,分5次测得某种商品的价格x (万元)和需求量y (t)之间的一组数据为:已知∑i =15x i y i =62,∑i =15x 2i =16.6,且y 与x 呈线性相关.(1)求出y 对x 的回归方程;(2)如价格定为1.9万元,预测需求量大约是多少?(精确到0.01 t).【导学号:29472083】【解】 (1)因为x -=15×9=1.8,y -=15×37=7.4,∑i =15x i y i =62,∑i =15x 2i =16.6,所以b^=∑i =15x i y i -5x -y -∑i =15x 2i -5x-2=62-5×1.8×7.416.6-5×1.82=-11.5,a ^=y --b ^x -=7.4+11.5×1.8=28.1,故y 对x 的回归方程为b ^=28.1-11.5x .(2)y ^=28.1-11.5×1.9=6.25(t).。
最新人教版高中数学选修2-3《回归分析的基本思想及其初步应用》教材梳理
庖丁巧解牛知识·巧学一、回归直线方程对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程的截距和斜率的最小二乘估计公式分别为:aˆ=x b y ˆ=, =∑∑==---ni i i ni ix x y y x x121)()()(.回归直线方程中的x =),(,1,111y x y n y x n ni i n i i ∑∑===称为样本点的中心.回归直线过样本点的中心.二、相关系数及相关检验给定(x i ,y i )(i=1,2,…,n),只要x 1,x 2,…,x n 不全相等,就能求出一条回归直线,因此它有无意义就是个大问题.由于根据散点图看数据是否大致在一直线附近主观性太强,可利用下面量化的检验法.当x i 不全相等,y i 也不全相等时,r=21121)()())((∑∑∑===----n i ni iini i iy yx xy y x x.叫做变量y与x之间的样本相关系数(简称相关数),|r|≤1.当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近0时,表明两个变量之间几乎不存在线性相关关系.通常,当r的绝对值大于0.75时认为两个变量有很强的线性相关关系.联想发散 注意此处空半格当|r|与1接近到什么程度才表明Y 与x之间具有线性相关关系呢?为明确这一点,常通过相关性检验的方法,其步骤如下: (1)作统计假设:x与Y 不具有线性相关关系;(2)根据小概率0.05与n-2在附表中查出r的一个临界值r 0.05; (3)根据样本相关系数计算公式算出r的值;(4)作统计推断,如果|r|>r 0.05,表明有95%的把握认为x与y 之间具有线性相关关系.如果|r|≤r 0.05,我们没有理由拒绝原来的假设,这时寻找回归直线方程是毫无意义的. 三、回归分析 1.随机误差在线性回归模型y=bx+a+e 中,a 和b 为模型的未知参数,e 是y 与yˆ=bx+a 之间的误差,通常e为随机变量,称为随机误差.它的均值E (e)=0,方差D(e)=σ2>0. 线性回归模型的完整表达形式为⎩⎨⎧==++=.)(,0)(,2σe D e E e a bx y 在此模型中,随机误差r的方差σ2越小,通过回归直线=bx+a 预报真实值y的精度越高. 深化升华 注意此处空半格引起随机误差e的原因:(1)在实际中,随机变量y除了受随机变量x的影响之外,还受其他变量的影响;(2)由于前面相关关系公式中的aˆ和b ˆ为截距和斜率的估计值,它们与真实值a 和b 之间也存在误差. 2.方差分析对于样本点(x 1,y 1),(x 2,y 2),…(x n ,y n )而言,相应于它们的随机误差为e i =y i -i yˆ=y i -bx i -a(i=1,2,…,n),其估计值为i e ˆ=y i -i y ˆ=y i -b ˆx i -a ˆ(i=1,2,…,n),i e ˆ称为相应于点(x i ,y i )的残差.类比样本方差估计总体方差的思想,可以用2=21-n Q(a ˆ,b ˆ)(n>2)作为2ˆσ的估计量,其中^a 和bˆ由公式给出,Q(a ˆ,b ˆ)称为残差平方和.可以用2ˆσ衡量回归直线方程的预报精度.通常2ˆσ越小,预报精度越高. 要点提示 注意此处空半格因为随机误差是随机变量,因此可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机变量的均值为0,因此可以用方差σ2来衡量随机误差的大小. 3.残差分析在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差n e e eˆˆˆ21 ,来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.其中残差i eˆ是数据点y i 和它在回归线上相应位置i yˆ之间的差异,即i e ˆ=y i -i y ˆ. 4.相关指数R 2用相关指数R 2来刻画回归的效果,其计算公式是:R 2=∑∑==---n i ini i iy yyy1212)()ˆ(1显然R 2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.深化升华 注意此处空半格在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率.R 2越接近于1,表示回归的效果越好(因为R 2越接近于1,表示解释变量和预报变量的相关性越强).如果对某组数据可能采取几种不同的回归方程进行回归分析.也可以通过比较几个R 2,选择其值大的模型. 四、建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a );(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误,或模型是否合适等. 问题·探究问题1两个变量具有线性相关关系和两个变量具有函数关系相同吗?你对二者关系是如何理解的?思路:相关关系与函数关系不同,因为函数关系是一种确定性的关系,而相关关系是一种非确定性关系.相关关系包括两种情况:一是两个变量中,一个变量为可控制变量,另一个变量为随机变量.二是两个变量均为随机变量.而函数关系可以看成是两个非随机变量之间的关系.另一方面,函数关系是一种因果关系,而相关关系不一定是因果关系,也可以是伴随关系.探究:对两个变量的关系来说,在相关关系中,例如,在水稻产量与施肥量的关系中,施肥量是可控制变量,而水稻的产量是随机变量;在研究一个学生的数学成绩与物理成绩的关系时,这两个变量都是不可控制的随机变量.而正方形的面积S 与边长x之间的关系是一种函数关系,这两个变量就不是随机变量.由于相关关系的不确定性,我们经常运用统计分析的方法,即回归分析法来进行研究.问题2 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.相关关系又分线性相关关系和非线性相关关系,如何利用回归分析的方法对两个具有线性相关关系的变量进行研究呢?思路:利用回归分析的方法对两个具有线性相关关系的变量进行研究可以按如下步骤进行:①画出两个变量的散点图;②求回归直线方程;③用回归直线方程进行预报.其中求回归直线方程是关键.而对于线性回归模型y=bx+a 来说,估计模型中的未知参数a 和b 最好的方法就是最小二乘法估计aˆ和b ˆ,其计算公式为a ˆ=y -b ˆx , =∑∑∑∑====--=---ni ini ii ni ini i ixn xy x n yx x xy y x x1221121)())((.探究:上述问题研究是具有线性相关关系的变量的线性回归.那么如何用回归分析的方法对非线性回归问题进行统计分析呢?我们可以对其分为两类.若问题中已给出经验公式,这时可以将解释变量进行交换(换元),将变量的非线性关系转化为线性关系,将问题化为线性回归分析问题来解决.若问题中没有给出经验公式,需要我们画出已知数据的散点图,通过与各种函数(如指数函数、对数函数、幂函数等)的图象作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量变换,将问题化为线性回归分析问题来解决. 典题·热题若由资料知y对x呈线性相关关系.(1)线性回归方程a x by ˆˆ+=的回归系数a ˆ,b ˆ; (2)预报使用年限为10年时的维修费用是多少?思路分析:因为y对x呈线性相关关系,所以可以用一元线性相关的方法解决问题.(1)利用公式aˆ=y -b ˆx ∑∑==--=ni ini ii xn xy x n yx b 1221ˆ,.来计算回归系数.有时为了方便常制表对应写出x i y i ,x i 2,以利于求和.(2)获得回归直线方程后,取x=10,即可求值. 解:(1)由题意求得x =4,y =5,∑=ni ix12=1x i 2=90,∑=ni ii yx 1=112.3,于是b ˆ=103.1245905453.1122=⨯-⨯⨯-=1.23,a ˆ=x b y ˆ-=5-1.23×4=0.08. (2)回归直线方程是y ˆ=1.23x+0.08,当x=10(年)时,y ˆ=1.23×10+0.08=12.38(万元),即估计使用10年时维修费用是12.38万元.深化升华 注意此处空半格知道x与y呈线性相关关系,就无需进行相关性检验,否则应首先进行相关性检验.如果本身两个变量不具有相关关系,或者说,它们之间相关关系不显著,即使求出了回归方程也是毫无意义的,而且估计和预测的量也是不可信的.例2为了了解某一地区母亲身高x与女儿身高Y 的相关关系,随机测得10对母女的身高如下表所示:试对x与y 进行一元线性回归分析,并预报当母亲身高为161 cm时女儿的身高为多少?图3-1-1思路分析:为了寻找两个随机变量间的线性关系,一般先做散点图.把这10对数据画出散点图,如图3-1-1所示,其中点(159,162)表示一对母女的身高数据.由图可以看出,x与y 之间有近似的线性相关关系,据此用回归直线方程解决问题. 解:由以上分析先对x与y 作相关性检验.(1)作统计假设:x与y 不具有线性相关关系.(2)由小概率0.05与n-2=8在附表中查得r 0.05=0.632. (3)x =101(159+160+…+157)=158.8, y =101(158+159+…+156)=159.1, 2210x x i -∑=(1592+1602+…+1572)-10×158.82=47.6,∑-y x yx ii10-10x y=(159×158+160×159+…+157×156)-10×158.8×159.1=37.2,∑y i 2-10y 2=(1582+1592+…+1562)-10×159.12=56.9, 所以r=9.566.472.37⨯≈0.71.(4)|r|=0.71>0.632,即|r|>r 0.05,从而有95%的把握认为x与y 之间具有线性相关关系,求回归直线方程是有意义的. 回归系数=6.472.37≈0.78,=159.1-0.782×158.8≈34.92.所以y 对x的回归直线方程是=34.92+0.78x.因此,当母亲身高为161 cm时,女儿的身高的预报值为=34.92+0.78×160=160.5 cm.这就是说,当母亲身高为161 cm时女儿的身高大致也接近161 cm.方法归纳 注意此处空半格线性回归分析的步骤方法为:①首先作出统计假设;②求出线性相关系数;③由相关系数确定回归直线方程是否有意义;④写出线性回归方程,解决有关问题.例3某工业部门进行了一项研究,分析该部门的产量与生产费用之间的关系,从这个工业部(1)计算x与y的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验;(3)设回归直线方程为yˆ=bx+a ,求系数a,b. 思路分析:(1)使用样本相关系数计算公式r=∑∑∑===----ni i ni ii ni iy y x xy y x x12121)()()()(即可完成;(2)由小概率0.05与r-2=8在附表中查得r 0.05的大小,以检验所得结果,来说明y与x之间的线性相关是否显著; (3)用公式代入即可求出.r=)7.16510277119)(7.771070903(7.1657.771013293822⨯-⨯-⨯⨯-≈0.808,即x与y的相关系数为0.808.(2)由小概率0.05与r-2=8在附表中查得r 0.05=0.632,因为r>r 0.05,所以可以认为x与y之间具有线性相关关系.(3)bˆ27.7710709037.1657.7710132938⨯-⨯⨯-=≈0.398,=165.7-0.398×77.7≈134.8.深化升华 注意此处空半格本题采用了制表来得出相关的一些值.目的是为了准确无误而且快速的得到r和b的值.数据较多时,运算量也很大,所以通常借助于科学计算器或电脑软件来求值.。
最新人教版高中数学选修2-3《回归分析的基本思想及其初步应用》知识讲解
3.1 回归分析的基本思想及其初步应用问题导学一、求线性回归方程活动与探究1(1)画出散点图;(2)y 与x 是否具有线性相关关系?若有,求出其回归方程.迁移与应用1.(2013海南海口模拟)在一次试验中,测得(x ,y )的四组值分别是A (1,2),B (2,3),C (3,4),D (4,5),则y 与x 之间的回归直线方程为( )A .y ^=x +1 B .y ^=x +2C .y ^=2x +1 D .y ^=x -12.某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x (x 取整数)元与日销售量y(1)y与x(方程的斜率精确到个位)(2)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润.(1)散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析.(2)求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.二、线性回归分析活动与探究2(1)(2)求出线性回归方程;(3)作出残差图,并说明模型的拟合效果;(4)计算R2,并说明其含义.迁移与应用1根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元2且知x 与y“相关指数R 2、残差图”在回归分析中的作用:(1)相关指数R 2是用来刻画回归效果的,由R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2可知R 2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.三、非线性回归分析活动与探究3(1)作出x与(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x=40时y的值.迁移与应用1.在彩色显影中,由经验知形成染料光学密度y与析出银的光学密度x由公式y=e b xA(b2试建立y 与x 之间的回归方程.非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决.答案: 课前·预习导学 【预习导引】1.(1)确定性 非确定性 (2)相关 (3)∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2=1221ni ii nii x y nx yxnx==--∑∑ y -b ^x样本点的中心 (4)随机误差 解释变量 预报变量预习交流1 D2.y i -bx i -a y i -y ^i y i -b ^x i -a ^3.1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2解释变量 预报变量 1预习交流2 提示:散点图可以说明变量间有无线性相关关系,只能粗略地说明两个变量之间关系的密切程度,而相关指数R 2能精确地描述两个变量之间的密切程度.预习交流3 提示:(1)回归方程只适用于所研究的样本的总体. (2)所建立的回归方程一般都有时间性.(3)样本的取值范围会影响回归方程的适用范围.(4)不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.课堂·合作探究 【问题导学】活动与探究1 思路分析:画出散点图,观察图形的形状得x 与y 是否具有线性相关关系.把数值代入回归系数公式求回归方程.解:(1)由表画出散点图,如图所示.(2)从上图可看出,这些点基本上散布在一条直线附近,可以认为x 和y 线性相关关系x =6.85,y =157.25.∴b ^=81822188i ii ii x yx yxx ==--∑∑=8 764.5-8×6.85×157.25382.02-8×6.852≈22.17, a ^=y -b ^x =157.25-22.17×6.85≈5.39, 故线性回归方程为y ^=22.17x +5.39.迁移与应用 1.A 解析:方法一:x =1+2+3+44=52,y =2+3+4+54=72.故b ^= ⎝⎛⎭⎫1-52⎝⎛⎭⎫2-72+⎝⎛⎭⎫2-52⎝⎛⎭⎫3-72+⎝⎛⎭⎫3-52⎝⎛⎭⎫4-72+⎝⎛⎭⎫4-52⎝⎛⎭⎫5-72⎝⎛⎭⎫1-522+⎝⎛⎭⎫2-522+⎝⎛⎭⎫3-522+⎝⎛⎭⎫4-522=⎝⎛⎭⎫322+⎝⎛⎭⎫122+⎝⎛⎭⎫122+⎝⎛⎭⎫322⎝⎛⎭⎫322+⎝⎛⎭⎫122+⎝⎛⎭⎫122+⎝⎛⎭⎫322=1, a ^=y -b ^x =72-52=1.因此,y ^=x +1,故选A .方法二:也可由回归直线方程一定过点(x ,y ),即⎝⎛⎭⎫52,72,代入验证可排除B ,C ,D .故应选A .2.解:(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.设回归直线为y ^=b ^x +a ^,由题知x =42.5,y =34, 则求得b ^=∑i =14(x i -x )(y i -y )∑i =14(x i -x )2=-370125≈-3. a ^=y -b ^x =34-(-3)×42.5=161.5.∴y ^=-3x +161.5. (2)依题意有P =(-3x +161.5)(x -30) =-3x 2+251.5x -4 845=-3⎝⎛⎭⎫x -251.562+251.5212-4 845.∴当x =251.56≈42时,P 有最大值,约为426.即预测销售单价为42元时,能获得最大日销售利润. 活动与探究2 思路分析:先画出散点图,确定是否具有线性相关关系,求出回归方程,再求出残差,确定模型的拟合的效果和R 2的含义.解:(1)作出该运动员训练次数(x )与成绩(y )之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.(2)x =39.25,y =40.875,∑i =18x 2i =12 656,∑i =18y 2i =13 731,∑i =18x i y i =13 180,∴b ^=∑i =18(x i -x )(y i -y )∑i =18(x i -x )2=∑i =18x i y i -8x y∑i =18x 2i -8x2≈1.041 5,a ^=y -b ^x =-0.003 875, ∴线性回归方程为 y ^=1.041 5x -0.003 875. (3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适. (4)计算得相关指数R 2≈0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.迁移与应用 1.B 解析:∵a ^=y -b ^x =49+26+39+544-9.4×4+2+3+54=9.1,∴回归方程为y ^=9.4x +9.1.令x =6,得y ^=9.4×6+9.1=65.5(万元).2.解:x =15×(14+16+18+20+22)=18,y =15×(12+10+7+5+3)=7.4,521ii x=∑=142+162+182+202+222=1 660, 521ii y=∑=122+102+72+52+32=327,∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,∴b ^=51522155i ii ii x y x yxx ==--∑∑=620-5×18×7.41 660-5×182=-4640 =-1.15.∴a ^=7.4+1.15×18=28.1,∴回归直线方程为y ^=-1.15x +28.1.∴∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y )2=53.2,R 2=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2≈0.994.故R 2≈0.994说明拟合效果较好.活动与探究3 思路分析:先由数值表作出散点图,然后根据散点的形状模拟出近似函数,进而转化为线性函数,由数值表求出回归函数.解:(1)作出散点图如图,从散点图可以看出x 与y 不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线21ec xy c =的周围,其中c 1,c 2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z =ln y ,则有变换后的样本点应分布在直线z =bx +a ,a =ln c 1,b =c 2的周围,这样就可以利用线性回归模型来建立y 与x 之间的求得回归直线方程为z =0.272x -3.849, ∴y ^=e 0.272x -3.849.迁移与应用 1.$0.151.73e xy -= 解析:由题给的经验公式y =e b xA ,两边取自然对数,便得ln y =ln A +b x .与线性回归直线方程相对照,只要取u =1x,v =ln y ,a =ln A ,就有v=a +bu ,这是v 对u 的线性回归方程.对此我们已经掌握了一套相关性检验,求a 与回归系数b 的方法.题目所给数据经变量置换u =1,v =ln y 变成如下表所示的数据:|r |故v 与u 之间具有很强的线性相关关系,求回归直线方程是有意义的.由表中数据可得b ^≈-0.15,a ^≈0.55, 即v ^=0.55-0.15u .把u 与v 换回原来的变量x 与y ,即u =1x ,v =ln y ,故ln y ^=0.55-0.15x ,即y ^=0.150.55ex-=e 0.550.15ex-≈0.151.73ex-.这就是y 对x 的回归曲线方程. 2.解:画出散点图如图所示.根据散点图可知y 与x 近似地呈反比例函数关系,设y =k x ,令t =1x,则y =kt所以t =1.55,y =7.2.所以b ^=∑i =15t i y i -5t y∑i =15t 2i -5t2≈4.134 4,a ^=y -b ^t ≈0.8.所以y ^=4.134 4t +0.8. 所以y 与x 的回归方程是y ^=4.134 4x+0.8. 当堂检测1.(2012湖南高考,理4)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg答案:D 解析:D 选项中,若该大学某女生身高为170 cm ,则可断定其体重约为0.85×170-85.71=58.79(kg).故D 不正确.2则y 对x A .y =x -1 B .y =x +1C .y =88+12x D .y =176 答案:C 解析:法一:由线性回归直线方程过样本中心(176,176),排除A ,B 答案,结合选项可得C 为正确答案.法二:将表中的五组数值分别代入选项验证,可知y =88+12x 最适合. 3.在两个变量y 与x 的回归模型中,分别选择了4个不同的模型.通过计算得R 2的值如下,其中拟合效果最好的模型是( )A .模型1的R 2为0.98B .模型2的R 2为0.80C .模型3的R 2为0.50D .模型4的R 2为0.25答案:A 解析:R 2越接近于1,则该模型的拟合效果就越好,精度越高.4.若对于变量y 与x 的10组统计数据的回归模型中,R 2=0.95,又知残差平方和为120.53,那么101i =∑(y i -y )2的值为______.答案:2 410.6 解析:依题意有0.95=1-1021120.53()ii y y =-∑,所以1021()ii yy =-∑=2 410.6.5)有如下的统计数据.若由此资料可知y (1)回归直线方程; 答案:解:于是51522215112.35451.2390545i ii ii x y x ybxx ==--⨯⨯===-⨯-∑∑$,$a=y -bx $=5-1.23×4=0.08, 所以回归直线方程为$y =bx$+$a =1.23x +0.08. (2)估计使用年限为10年时,维修费用为多少? 答案:当x =10时,$y =1.23×10+0.08=12.38(万元),估计使用10年时的维修费用为12.38万元.。
高二数学(选修2-3人教B版)-回归分析
672
705
807
909
975 1035 1107 1177 1246
探究一 回归直线方程
为了简化数据,先将年份减去1949,并将所得值用x表 示,对应的人口数用y表示,得到下面的数据表:
x 0 5 10 15 20 25 30 35 40 45 50 y 542 603 672 705 807 909 975 1035 1107 1177 1246
在统计学中,回归分析是一种统计方 法,它是通过分析判断来确定相关变量之 间的内在关系的,也就是寻找相关关系中 的非确定性关系的某种确定性.
复习回顾
4、回归直线方程的一般形式是什么? 设样本点为(x1,y1),(x2,y2),···, (xn,yn),
由最小二乘法求得的线性回归方程为 y a bx.
n
n
(xi - x)( yi - y)
xi yi - nx y
b i1 n
(xi - x)2
i 1 n
xi 2
-
2
nx
,
i 1
i 1
复习回顾
4、回归直线方程的一般形式是什么? 设样本点为(x1,y1),(x2,y2),···, (xn,yn),
由最小二乘法求得的线性回归方程为 y a bx.
反映出的是两变量线性相关关系的强弱不同.
◇[初始化] ◇[网格线] ◇[刻度线] ◇[等单位长] ◇[控制台]
y
6 5
◇[初始化] ◇[网格线] ◇[刻度线] ◇[等单位长] ◇[控制台]
4
3
2
1
x O 123456
y
6
5
4
3 2
1
x O 123456
高中数学人教A版选修2-3:回归分析的基本思想及其初步应用PPT全文课件
现实生活中存在着大量的相关关系:
如:人的身高与年龄; 产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入。等等
二、两个变量的线性相关 (1)散点图
正相关、 负相关。
(2)回归直线:观察散点图的特征,如果各点大 致分布在一条直线的附近,就称两个变量之间具 有线性相关的关系,这条直线叫做回归直线。
解析变量x(身高) 随机误差e
预报变量y(体重)
高中数学人教A版选修2-3:回归分析 的基本 思想及-3:回归分析 的基本 思想及 其初步 应用PPT 全文课 件【完 美课件 】
在线性回归模型中,e是用bx+a预报真实值y的 随机误差,即 e=y-(bx+a),它是一个不可观测 的量,那么应如何研究随机误差呢?
3.如果两个变量线性相关,则可以用线性回归模型 来表示:y=bx+a+e,其中a和b为模型的未知参数, e 称为随机误差。
4.线性回归模型y=bx+a+e中, 把自变量x称为解释变量, 把因变量y称为预报变量。
^
^
5.残差: ei yi yi
n
^
6.残差平方和:
( yi yi )2
i 1
第一步:列表(把数据整理成表格);
n
n
第二步:计算:x,
y,
xi
y , i
x2 ; i
i 1
i 1
第三步:代入公式计算b,a的值;
第四步:写出直线方程:
yˆ bˆx aˆ
高中数学人教A版选修2-3:回归分析 的基本 思想及 其初步 应用PPT 全文课 件【完 美课件 】
新课讲解
例 从某大学中随机选出8名女大学生,其 身高和体重数据如下表:
人教新课标版数学高二-选修2-3训练 回归分析的应用
数学·选修2-3(人教A版)3.1.2回归分析的应用一、选择题1. 下面两个变量间的关系不是函数关系的是()A.正方形的棱长与体积B.角的度数与它的余弦值C. 单产量为常数时,土地面积与粮食总产量D.日照时间与水稻亩产量解析:选项D为相关关系,其余均为函数关系.故选D.答案:D2.可用来分析身高与体重有关系的是()A.残差分析B.回归分析C.等高条形图D.独立检验解析:因为身高与体重是两个具有相关关系的变量,所以要用回统计案例归分析来解决.故选B.答案:B3.(2013·东北四市联考)已知x,y取值如下表:从所得的散点图分析可知:y与x线性相关,且y=0.95x+a,则a=()A.1.30 B.1.45 C.1.65 D.1.80-=4,y-=5.25,因线性回归方程通过样本点中心(x-,解析:易得x-),故有5.25=0.95×4+a,所以a=1.45.故选B.y答案:B4.(2013·湖北卷)四名同学根据各自的样本数据研究变量x、y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且y^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;③y与x正相关且y^=5.437x+8.493;④y与x正相关且y^=-4.326x-4.578.其中一定不正确的结论的序号是()A.①②B.②③ C.③④D.①④解析:x的系数大于0为正相关,小于0为负相关. 故选D.答案:D5.已知两个变量x和y之间具有线性相关性,甲、乙两个同学各自独立地做了10次和15次试验,并且利用线性回归的方法求得回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均数都为s,对变量y的观测数据的平均数都是t,则下列说法中正确的是()A.l1与l2可能有交点(s,t)B.l1与l2相交,但交点一定不是(s,t)C.l1与l2必定平行D.l1与l2必定重合答案:A二、填空题6.若一组观测值(x1,y1),(x2,y2),…,(xn,yn)之间满足y i=bx i+a+e i (i=1,2,…,n),e i恒为0,则R2为________.答案:17.已知两个变量x和y线性相关,5次试验的观测数据如下:那么变量y答案:y ^=0.575x -14.98.若某地财政收入x 与支出y 满足线性回归方程y ^=b ^x +a ^+ε(单位:亿元),其中b ^=0.8,a ^=2,|ε|≤0.5,如果今年该地区财政收入10亿元,则年支出预计不会超过________________亿元.解析:将x =10代入线性回归方程,得y ^=0.8×10+2+ε=10+ε,因为|ε|≤0.5,所以y ^=10+ε≤10.5.答案:10.5三、解答题9.在试验中得到变量y 与x 的数据(见下表):由经验知,y 与1x 之间具有线性相关关系,试求y 与x 之间的回归曲线方程; 当x 0=0.038时,预测y 0的值.分析:通过换元转化为线性回归问题.解析:令u =1x ,由题目所给数据可得下表所示的数据:计算得b=0.29,y=34.32.∴y^=34.32+0.29u.所求回归曲线方程为y^=34.32+0.29x.当x0=0.038时,y0=34.32+0.290.038≈41.95.10.在一段时间内,某种商品的价格x(元)和需求量y(件)之间的一组数据为:求出y对解析:x=15×(14+16+18+20+22)=18,y =15(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660, ∑i =15y 2i =122+102+72+52+32=327,∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=620-5×18×7.41 660-5×182=-2320=-1.15, 所以a ^=7.4+1.15×18=28.1,所以回归直线方程为y ^=-1. 15x +28.1, 列出残差表为:所以∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y )2=53.2,R2=1-∑i=15(y i-y^i)2∑i=15(y i-y)2≈0.994,因而拟合效果较好.。
人教高中数学选修2-3第三章3.1回归分析的基本思想及其初步应用课件
xiyi 9 14 15 12 5 5 15 12 14 9
所求回归直线方程为
70 65 60 55 50 45 40
150 155 160 165 170 175 180
图1.1 2
假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散 点图中所有的点将完全落在回归直线上。但是,在图中,数据点并没有完全落 在回归直线上。这些点散布在回归直线附近。
有如下的两个线性模型:
(1) yˆ 6.5x 17.5 ;(2) yˆ 7x 17.
试比较哪一个拟合效果更好。
7、一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解析变量,哪个变量是 预报变量。
(2)画出确定好的解析变量和预报变量的散点图,视察它们 之间的关系(如是否存在线性关系等)。
探索2:在这些点附近可画直线不止一条,哪条直 线最能代表x与y之间的关系呢?
探究
对于一组具有线性相关关系的数据 (x1, y1), (x2 , y2 ),..., (xn , yn ),
我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:
其中x
1 n
n i 1
xi ,
y
1 n
n i 1
yi .
aˆ y bˆx
2、求回归直线方程的步骤:
(1)求x
1 n
n i 1
xi , y
1 n
n i 1
yi
n
n
(2)求 xi2 , xi yi. n
n
i 1
i 1
y (xi x)(yi y)
xi
nxy
人教版高中数学【选修2-3】[知识点整理及重点题型梳理] 回归分析的基本思想及其初步应用(文、理)
人教版高中数学选修2-3知识点梳理重点题型(常考知识点)巩固练习回归分析的基本思想及其初步应用【学习目标】1. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤。
2. 能作出散点图,能求其回归直线方程。
3. 会用所学的知识对简单的实际问题进行回归分析。
【要点梳理】要点一、变量间的相关关系1. 变量与变量间的两种关系:(1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S 与半径r 之间的关系S=πr 2为函数关系.(2)相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。
例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系. 2. 相关关系的分类:(1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量; (2)两个变量均为随机变量,如某学生的语文成绩与化学成绩. 3. 散点图:将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据.4. 回归分析:与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
要点二、线性回归方程:1.回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
2.回归直线方程ˆˆˆybx a =+ 对于一组具有线性相关关系的数据11(,)x y ,22(,)x y ,……,(,)n n x y ,其回归直线ˆˆˆybx a =+的截距和斜率的最小二乘法估计公式分别为:121()()ˆ()niii nii x x y y bx x ==--=-∑∑,ˆˆay bx =- 其中x 表示数据x i (i=1,2,…,n )的均值,y 表示数据y i (i=1,2,…,n )的均值,xy 表示数据x i y i (i=1,2,…,n )的均值.a 、b 的意义是:以a 为基数,x 每增加一个单位,y 相应地平均变化b 个单位.要点诠释:①回归系数121()()ˆ()niii nii x x y y bx x ==--=-∑∑,也可以表示为1221ˆni ii nii x y nx ybxnx==-=-∑∑,这样更便于实际计算。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
就转换为z=bx+a
温度xoC z=lgy 产卵数y/个
21 0.85 7
23 1.04 11
25 1.32 21
27 1.38 24
29 1.82 66
32 2.06 115
35 2.51 325
由计算器得:z关于x的线性回归方程 为z=0.118x-1.665 ,y100.118x-1.665 相关指数R2=r2≈0.99252=0.985
2020/3/30
郑平正 制作
探索新知
选变量
一元线性模型
方案1
解:选取气温为解释变量x,产卵数
350
为预报变量y。
300
250
画散点图
200
150
100
选模型 估计参数
50
0 0 3 6 9 12 15 18 21 24 27 30 33 36 39
假设线性回归方程为 :ŷ=bx+a
由计算器得:线性回归方程为y=19.87x-463.73
7
5
3
求出Y对的回归直线方程,并说明拟合效果的好坏。 列出残差表为
y i yˆ i 0
0.3
-0.4
-0.1
0.2
yi y
4.6
2.6
-0.4 -2.4
-4.4
5
5
( yi yˆi )2 0 . 3 , ( yi y)2 5 3 . 2 ,
i1
5
i 1
( yi yˆi ) 2
R2
2. 了解最小二乘法 的思想
y=bx+a+e
6. 了解模型中随机误差项e产 生的原因
3. 求回归直线方程
y=bx+a
4. 用回归直线方程 解决应用问题
7. 了解相关指数 R2 和模型拟 合的效果之间的关系
8. 了解残差图的作用
9. 利用线性回归模型解决一类 非线性回归问题
2020/3/30
10. 正确理解分析方法与结果
2.419
4 170 54
-4.618
5 175 64
1.137
6 165 61
6.627
7 155 43
-2.883
8 170 59
0.382
我们可以利用图形来分析残差特性,作图时纵坐标为残差, 横坐标可以选为样本编号,或身高数据,或体重估计值等,这 样作出的图形称为残差图。
2020/3/30
郑平正 制作
去“数学广角” 喽!!!
2020/3/30
郑平正 制作郑平正 制 作
3.1回归分析的基 本思想及其初步
应用(三)
高二数学 选修2-3
第三章 统计案例
2020/3/30
郑平正 制作郑平正 制 作
比《数学3》中“回归”增加的内
数学3——统计
容 选修2-3——统计案例
5. 引入线性回归模型
1. 画散点图
郑平正 制作
6、注意回归模型的适用范围:
(1)回归方程只适用于我们所研究的样本的总体。样本数据 来自哪个总体的,预报时也仅适用于这个总体。
(2)模型的时效性。利用不同时间段的样本数据建立的模型, 只有用来对那段时间范围的数据进行预报。
(3)建立模型时自变量的取值范围决定了预报时模型的适用 范围,通常不能超出太多。
作散点图,并由计算器得:y和t之间的线性回归方程为 y=0.367t-202.54,相关指数R2=r2≈0.8962=0.802
将t=x2代入线性回归方程得: y=0.367x2 -202.54
当x=28时,y=0.367×282-
202.54≈85,且R2=0.802, 所以,二次函数模型中温度解 释了80.2%的产卵数变化。
事实上,它是预报变量的可能取值的平均值。
涉及到统计的一些思想:
模型适用的总体; 模型的时间性; 样本的取值范围对模型的影响; 模型预报结果的正确理解。
2020/3/30
郑平正 制作
什么是回归分析?
(内容)
1. 从一组样本数据出发,确定变量之间的数学关 系式
2. 对这些关系式的可信程度进行各种统计检验, 并从影响某一特定变量的诸多变量中找出哪些 变量的影响显著,哪些不显著
(4)在回归模型中,因变量的值不能由自变量的值完全确定。 正如前面已经指出的,某个女大学生的身高为172cm,我们 不能利用所建立的模型预测她的体重,只能给出身高为 172cm的女大学生的平均体重的预测值。
2020/3/30
郑平正 制作
7、一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解析变量,哪个变量是 预报变量。
5
10 15 20 25 30 35 40
方案3
问题1 问题2
如何选取指数函数的底?
y c110c2x 对数 变换
非线性关系
y=bx+a 线性关系
2020/3/30
郑平正 制作
方案3解答
对数变换:在 y c110c2x中两边取常用对数得
l g y l g ( c 1 1 0 c 2 x ) l g c 1 l g 1 0 c 2 x l g c 1 c 2 x l g 1 0 c 2 x l g c 1
3. 利用所求的关系式,根据一个或几个变量的取 值来预测或控制另一个特定变量的取值,并给 出这种预测或控制的精确程度
2020/3/30
郑平正 制作
回归分析与相关分析的区别
1. 相关分析中,变量 x 变量 y 处于平等的地位;回归 分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化
指数函数模型
2020/3/30
郑平正 制作
最好的模型是哪个?
比 一 比
2020/3/30
函数模型 线性回归模型
相关指数R2 0.7464
二次函数模型
0.802
指数函数模型
郑平正 制作
0.985
小结
用身高预报体重时,需要注意下列问题: ——这些问题也使用于其他问题。 1、回归方程只适用于我们所研究的样本的总体; 2、我们所建立的回归方程一般都有时间性; 3、样本采集的范围会影响回归方程的适用范围; 4、不能期望回归方程得到的预报值就是预报变量的精确值。
另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这
3样、的带对状于区域远的离宽度横越轴窄,的说明点模,型拟要合特精度别越注高,意回。归方程的预报精度越高。
身 高 与 体 重 残 差 图 2020/3/30
郑平正 制作
异 常 点
• 错误数据 • 模型问题
例1 在一段时间内,某中商品的价格x元和需求量Y件之
然后,我们可以通过残差 e$1, e$2,L , e$n 来判断模型拟合的效果,
判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析。
表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。
编号 身高/cm 体重/kg
残差
1 165 48
-6.373
2 165 57
2.627
3 157 50
当x=28oC 时,y ≈44 ,指数回归
模型中温度解释了98.5%的产卵数的
2.8 2.4
2 1.6 1.2 0.8 0.4
0 0
z
36
x
9 12 15 18 21 24 27 30 33 36 39
变化
2020/3/30
郑平正 制作
最好的模型是哪个?
产卵数
400 300 200 100
0 0
-100
5
10 15 20 25 30
35
40
线性模型
产卵数
400
300
200
100
气
0
温
-40 -30 -20 -10 0 10 20 30 40
-100
-200
产卵数
450
400
350
300
250
200 150
气
100
温
50
0
-10 -5-50 0 5 10 15 20 25 30 35 40
二次函数模型
(2)画出确定好的解析变量和预报变量的散点图,观察它们 之间的关系(如是否存在线性关系等)。
(3)由经验确定回归方程的类型(如我们观察到数据呈线性 关系,则选用线性回归方程y=bx+a).
(4)按一定规则估计回归方程中的参数(如最小二乘法)。
(5)得出结果后分析残差图是否有异常(个别数据对应残差 过大,或残差呈现不随机的规律性,等等),过存在异常,则 检查数据是否有误,或模型是否合适等。
i1
a ˆ 7 .4 1 .1 5 1 8 2 8 .1 .
2 020/回 3/30归 直 线 方 程 为 郑平: 正y ˆ 制 作 1 . 1 5 x 2 8 . 1 .
例1 在一段时间内,某中商品的价格x元和需求量Y件之
间的一组数据为:
价格x 14 16
18
20
22
需求量Y 12 10
郑平正 制作
合作探究
问题1 问题2 问题3
二次函数模型
方案2
选用y=bx2+a ,还是y=bx2+cx+a ?
如何求a、b ?
y=bx2+a 非线性关系
变换 t=x2
y=bt+a 线性关系
400 产卵数
300
200
100
气
-40
-30
-20
0
-10
0
10
20
30
温 40