高三数学第三章统计案例1.1回归分析导学案北师大版选修2_320171130311
高三数学第三章统计案例1.1回归分析导学案北师大版选修2_320171130311
1.1 回归分析自主整理假设样本点为(x1,y1),(x2,y2),…,(x n,y n),设线性回归方程为y=a+bx,使这n个点与直线y=a+bx的_____________最小,即使得Q(a,b)=_____________达到最小.利用最小二乘法的思想求得.当b=_____________,a=_____________时,Q(a,b)取最小值.高手笔记1.对具有相关关系的两个变量进行统计分析的方法叫回归分析.回归分析是寻找相关关系中非确定性关系的某种确定性.2.如果散点图中点的分布从整体上看大致在一条直线附近,我们称这两个变量之间具有线性相关关系,这条直线叫回归直线,从整体上看各点与此直线的距离平方之和最小,即最贴近已知的数据点,最能代表变量x与y之间的关系.名师解惑1.相关关系与函数关系有哪些相同点和不同点?剖析:相同点:两者均指两个变量的关系.不同点:(1)函数关系是一种确定的关系,相关关系是一种非确定的关系;(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.如何理解相关关系的不确定性?剖析:教材中利用始祖鸟的5个标本求出股骨长度x与肱骨长度y的回归直线方程为y=-3.660+1.197x,那么将第6个标本中股骨长度x=50代入回归直线方程,可以预测第6个标本中的肱骨长度的估计值约为56 cm.是不是当股骨长度x=50时,肱骨长度y一定为56呢?不一定.但如果有大量化石供研究时,股骨长度为50 cm的始祖鸟的肱骨的平均值应为56 cm.讲练互动【例】关于人体的脂肪含量(百分比)和年龄关系的研究中,研究人员获得了一组数据:(2)给出37岁人的脂肪含量的预测值.分析:两个变量呈现近似的线性关系,可通过公式计算出其线性回归方程,并根据方程求出其预测值.由表可得,14,14==y x b=2)14673(1434181147.38114673142.19403⨯-⨯⨯-≈0.5765, a=y -b x ≈-0.447 8.∴线性回归方程为y=0.576 5x-0.447 8. 当x=37时,y≈20.882 7.∴37岁人的脂肪含量的预测值为20.882 7.绿色通道:对于样本点较多时,可列表分项计算. 变式训练某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系.从这个工业部门内随求x 、y 之间的线性回归方程. 解:x 、y 成线性相关关系. 列表:∴x =10=77.7, 101657=y =165.7, b=27.7710709037.1657.7710132938⨯-⨯⨯-≈0.398, a=y -b x =165.7-0.398×77.7=134.8. ∴线性回归方程为y=134.8+0.398x.。
江西省九江市高中数学 第三章 统计案例 1 回归分析教案教案 北师大版选修23
1 回归分析一、教学目标:(1)通过实例引入线性回归模型,感受产生随机误差的原因;(2)通过对回归模型的合理性等问题的研究,渗透线性回归分析的思想和方法;(3)能求出简单实际问题的线性回归方程。
二、教学重点,难点:线性回归模型的建立和线性回归系数的最佳估计值的探求方法。
三、教学方法:讨论交流,探析归纳四、教学过程(一)、问题情境1、情境:对一作直线运动的质点的运动过程观测了8次,得到如下表所示的数据,试估计当x=9时的位置y的值.时刻x/s 2345678位置观测值y/cm 5.547.5210.0211.7315.6916.1216.9821.06根据《数学3(必修)》中的有关内容,解决这个问题的方法是:先作散点图,如下图所示:从散点图中可以看出,样本点呈直线趋势,时间x与位置观测值y之间有着较好的线性关系.因此可以用线性回归方程来刻画它们之间的关系.根据线性回归的系数公式,1221()ni iiniix y nx ybx n xa y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑可以得到线性回归方为$ 3.5361 2.1214y x=+,所以当9x=时,由线性回归方程可以估计其位置值为$22.6287y=2、问题:在时刻9x =时,质点的运动位置一定是22.6287cm 吗? (二)、学生活动思考,讨论:这些点并不都在同一条直线上,上述直线并不能精确地反映x 与y 之间的关系,y 的值不能由x 完全确定,它们之间是统计相关关系,y 的实际值与估计值之间存在着误差。
(三)、新课探析1、线性回归模型的定义:我们将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 说明:(1)产生随机误差的主要原因有:①所用的确定性函数不恰当引起的误差;②忽略了某些因素的影响;③存在观测误差.(2)对于线性回归模型,我们应该考虑下面两个问题: ①模型是否合理(这个问题在下一节课解决); ②在模型合理的情况下,如何估计a ,b ? 2、探求线性回归系数的最佳估计值:对于问题②,设有n 对观测数据(,)i i x y (1,2,3,,)i n =L ,根据线性回归模型,对于每一个i x ,对应的随机误差项()i i i y a bx ε=-+,我们希望总误差越小越好,即要使21ni i ε=∑越小越好.所以,只要求出使21(,)()niii Q y x αββα==--∑取得最小值时的α,β值作为a ,b 的估计值,记为$a,b $. 注:这里的i ε就是拟合直线上的点(),i i x a bx +到点(),i i i P x y 的距离.用什么方法求$a ,b$? 回忆《数学3(必修)》“2.4线性回归方程”P71“热茶问题”中求a ,b 的方法:最小二乘法.利用最小二乘法可以得到$a,b $的计算公式为 $1122211()()()()nni i i ii i n ni i i i x x y y x y nx yb x x x n x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑$$,其中11n i i x x n ==∑,11ni i y y n ==∑由此得到的直线$$y a bx =+$就称为这n 对数据的回归直线,此直线方程即为线性回归方程.其中$a ,b $分别为a ,b 的估计值,$a 称为回归截距,b $称为回归系数,$y 称为回归值. 在前面质点运动的线性回归方程$ 3.5361 2.1214y x =+中,$ 3.5361a=, 2.1214b =$. 3、线性回归方程$$y a bx =+$中$a ,b $的意义是:以$a 为基数,x 每增加1个单位,y 相应地平均增加b$个单位。
高中数学 第三章 统计案例章末复习课学案 北师大版选修23
第三章统计案例学习目标 1.能通过相关系数判断两变量间的线性相关性.2.掌握建立线性回归模型的步骤.3.理解条件概率的定义及计算方法.4.能利用相互独立事件同时发生的概率公式解决一些简单的实际问题.5.掌握利用独立性检验解决一些实际问题.知识点一线性回归分析1.线性回归方程在线性回归方程y=a+bx中,b=____________=____________,a=____________.其中x =____________,y=____________.2.相关系数(1)相关系数r的计算公式r=∑ni=1x i y i-n x y∑ni=1x2i-n x2∑ni=1y2i-n y2.(2)相关系数r的取值范围是________,|r|值越大,变量之间的线性相关程度越高.(3)当r>0时,b________0,称两个变量正相关;当r<0时,b________0,称两个变量负相关;当r=0时,称两个变量线性不相关.知识点二独立性检验1.2×2列联表设A、B为两个变量,每一变量都可以取两个值,得到表格其中,a表示变量A取 ________,且变量B取 ________时的数据,b表示变量A取 ______,且变量B取________时的数据;c表示变量A取 __________,且变量B取 ________时的数据;d表示变量A取________,且变量B取________时的数据.上表在统计中称为2×2列联表.2.统计量χ2=____________________.3.独立性检验当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;当χ2>2.706时,有________的把握判定变量A,B有关联;当χ2>3.841时,有________的把握判定变量A,B有关联;当χ2>6.635时,有________的把握判定变量A,B有关联.类型一线性回归分析例1 某城市理论预测2010年到2014年人口总数与年份的关系如表所示:(1)请画出上表数据的散点图;(2)请根据上表提供的数据,求出y关于x的线性回归方程y=bx+a;(3)据此估计2018年该城市人口总数.反思与感悟解决回归分析问题的一般步骤(1)画散点图.根据已知数据画出散点图.(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.(3)实际应用.依据求得的回归方程解决实际问题.跟踪训练1 在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:且知x与y具有线性相关关系,求出y关于x的线性回归方程.类型二 独立性检验思想与应用例2 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为23.(1)请将上面的2×2列联表补充完整;(不用写计算过程)(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由.反思与感悟 独立性检验问题的求解策略 χ2统计量法:通过公式 χ2=n ad -bc 2a+bc +d a +cb +d先计算统计量,再用以下结果对变量的独立性进行判断.(1)当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的.(2)当χ2>2.706时,有90%的把握判定变量A,B有关联.(3)当χ2>3.841时,有95%的把握判定变量A,B有关联.(4)当χ2>6.635时,有99%的把握判定变量A,B有关联.跟踪训练2 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯;(2)根据以上数据完成如下2×2列联表;(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?1.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时由高尔顿提出的,他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y与父亲的身高x的线性回归方程y=bx+a中,b( )A.在(-1,0)内B.等于0C.在(0,1)内D.在[1,+∞)内2.已知线性回归方程中斜率的估计值为1.23,回归方程过点(4,5),则线性回归方程为( ) A.y=1.23x+0.08 B.y=0.08x+1.23C.y=1.23x+4 D.y=1.23x+53.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到χ2≈9.643,则以下说法正确的是( )A.没有充足的理由认为课外阅读量大与作文成绩优秀有关B.有1%的把握认为课外阅读量大与作文成绩优秀有关C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关D.有99%的把握认为课外阅读量大与作文成绩优秀有关4.考察棉花种子经过处理与生病之间的关系,得到下表中的数据:根据以上数据可得出( )A.种子是否经过处理与是否生病有关B.种子是否经过处理与是否生病无关C.种子是否经过处理决定是否生病D.有90%的把握认为种子经过处理与生病有关5.对于线性回归方程y=bx+a,当x=3时,对应的y的估计值是17,当x=8时,对应的y的估计值是22,那么,该线性回归方程是________,根据线性回归方程判断当x=________时,y的估计值是38.1.建立回归模型的基本步骤(1)确定研究对象,明确变量.(2)画出散点图,观察它们之间的关系.(3)由经验确定回归方程的类型.(4)按照一定的规则估计回归方程中的参数.2.独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法.答案精析知识梳理 知识点一1.∑ni =1x i -xy i -y∑n i =1x i -x 2∑ni =1x i y i -n x y∑n i =1x 2i -n x2y -b x 1n ∑ni =1x i 1n ∑ni =1y i2.(2)[-1,1] (3)> < 知识点二1.a +b c +d a +c b +d a +b +c +d A 1 B 1 A 1 B 2 A 2 B 1 A 2 B 2 2.n ad -bc 2a+bc +d a +cb +d3.90% 95% 99% 题型探究例1 解 (1)散点图如图.(2)因为x =0+1+2+3+45=2,y =5+7+8+11+195=10,∑5i =1x i y i =0×5+1×7+2×8+3×11+4×19=132,∑5i =1x 2i =02+12+22+32+42=30, 所以b =132-5×2×1030-5×22=3.2, a =y -b x =3.6.所以线性回归方程为y =3.2x +3.6. (3)令x =8,则y =3.2×8+3.6=29.2, 故估计2018年该城市人口总数为292万人.跟踪训练1 解 x =15×(14+16+18+20+22)=18,y =15×(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660, ∑i =15y 2i =122+102+72+52+32=327, ∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b =∑i =15x i y i -5x y∑i =15x 2i -5x 2=620-5×18×7.41 660-5×182=-1.15,所以a =7.4+1.15×18=28.1,所以y 对x 的线性回归方程为y =-1.15x +28.1. 例2 解 (1)列联表补充如下:(2)由χ2=-228×20×32×16≈4.286.因为4.286>3.841,所以能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关. 跟踪训练2 解 (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.(2)2×2列联表如下:(3)χ2=-212×18×20×10=10>6.635,故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.当堂训练1.C 2.A 3.D 4.B5.y=x+14 24。
高中数学 3.1回归分析(二)教案 北师大选修2-3
3.1回归分析(教案)教学目标:1. 通过对统计案例的探究,会对两个随机变量进行线性回归分析.2. 理解相关系数的含义,会计算两个随机变量的线性相关系数,会通过线性相关系数判断它们之间的线性相关程度.3. 通过对数据之间散点图的观察,能够对两个随机变量进行可线性化的回归分析. 教学重点:散点图的画法,回归直线方程的求解方法;相关系数的求法与应用. 教学难点回归直线方程的求解方法; 相关系数的求法与应用; ;能够对两个随机变量进 行可线性化的回归分析. 教法:启发诱导式第一课时(回归分析)教学过程 一、问题情境客观事物是相互联系的过去研究的大多数是因果关系,但实际上更多存在的是一种非因果关系比如说:某某同学的数学成绩与物理成绩,彼此是互相联系的,但不能认为数学是“因”,物理是“果”,或者反过来说事实上数学和物理成绩都是“果”,而真正的“因”是学生的理科学习能力和努力程度所以说,函数关系存在着一种确定性关系但还存在着另一种非确定性关系——相关关系 二、新授在必修课程中,我们已经学习了最小二乘法,并会建立变量之间的线性回归方程.引导学生阅读教材,然后完成知识点的填充.(一) 知识讲解 1.相关关系的概念两个变量间的关系可分为确定关系和非确关系,前者又称为函数关系,后者又称为相关关系.2.回归方程设有n 对观测数据(,)i i x y (1,2,3,,)i n = ,根据线性回归模型,对于每一个i x ,对应的随机偏差项()i i i y a bx ε=-+,我们希望总偏差越小越好,即要使21nii ε=∑越小越好.所以,只要求出使21(,)()niii Q y x αββα==--∑取得最小值时的α,β值作为a ,b 的估计值,记为 a,b . 注:这里的i ε就是拟合直线上的点(),i i x a bx +到点(),i i i P x y 的距离.用什么方法求 a,b ? 回忆《数学3(必修)》“2.4线性回归方程”P71“热茶问题”中求a ,b 的方法:最小二乘法.利用最小二乘法可以得到 a,b 的计算公式为 1122211()()()()n ni i i i i i n ni ii i x x y y x y nx y b x x x n x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑ , 其中11n i i x x n ==∑,11ni i y y n ==∑由此得到的直线 y a bx =+ 就称为这n 对数据的回归直线,此直线方程即为线性回归方程.其中 a ,b 分别为a ,b 的估计值, a 称为回归截距,b 称为回归系数, y 称为回归值.(二) 举例应用 例1.下表给出了我国从1949年至1999年人口数据资料,试根据表中数据估计我国2004年的人口数.解:为了简化数据,先将年份减去1949,并将所得值用x 表示,对应人口数用y表示,得到下面的数据表:作出11个点(),x y 构成的散点图,由图可知,这些点在一条直线附近,可以用线性回归模型y a bx ε=++来表示它们之间的关系.根据公式(1)可得14.453,527.591.b a ⎧≈⎪⎨≈⎪⎩ 这里的 ,ab 分别为,a b 的估 计值,因此线性回归方程 为 527.59114.453y x =+由于2004年对应的55x =,代入线性回归方程 527.59114.453y x =+可得1322.506y =(百万),即2004年的人口总数估计为13.23亿. 对应练习:课本6P 练习小结:1.线性相关的概念;2.理解回归方程的系数来历;3.求回归方程的步骤. 作业:课本15P 习题1-1,1题的第二问第二节相关系数教学过程: 一.问题情境对任意给定的样本数据,由计算公式都可以求出相应的线性回归方程,但求得的线性回归方程未必有实际意义.左图中的散点明显不在一条直线附近,不能进行线性拟合,求得的线性回归方程是没有实际意义的;右图中的散点基本上在一条直线附近,我们可以粗略地估计两个变量间有线性相关关系,但它们线性相关的程度如何,如何较为精确地刻画线性相关关系呢?为了回答这个问题,我们需要对变量x 与y 的线性相关性进行检验(简称相关性检验),那么就需要学习相关系数来处理. 二、新授(一)知识点讲解1.相关系数的计算公式:对于x ,y 随机取到的n 对数据(,)i i x y (1,2,3,,)i n = ,样本相关系数r 的计算公式为()()nniii ix x y y x y nx yr ---==∑∑.()22.相关系数r 的性质: (1)||1r ≤;(2)||r 越接近与1,x ,y 的线性相关程度越强; (3)||r 越接近与0,x ,y 的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. (二) 应用举例要分析学生高中入学的数学成绩对高一年级数学学习的影响,在高一年级学生中随机抽取10名学生,分析他们入学的数学成绩和高一年级期末数学考试成绩如下表:(2)如果x 与y 之间具有线性相关关系,求线性回归方程;(3)若某学生入学数学成绩为80分,试估计他高一期末数学考试成绩.解:(1)因为()16367767010x =⨯+++= ,()16578757610y =⨯+++= , 101()()1894xy i i i L x x y y ==--=∑,2101()2474xx i i L x x ==-=∑,1021()2056yy i i L y y ==-=∑.因此求得相关系数为10()()0.840iix x y y L r --===∑.结果说明这两组数据的相关程度是比较高的;点评:解决这类问题的解题步骤:(1)作出散点图,直观判断散点是否在一条直线附近; (2)求相关系数r ;(3)计算 a,b ,写出线性回归方程. 对应练习:课本9P 练习五.回顾小结:1.相关系数的计算公式与回归系数b计算公式的比较; 2.相关系数的性质;3.探讨相关关系的基本步骤.六.课外作业:1516P -习题1-1第2题.第三节可线性化的回归分析教学过程: 一.问题情境前面我们学习的是利用线性回归方程与相关系数判断两个随机变量间的相关关系的,那么能否利用散点图将其他的常见函数拟合成线性关系呢?这也是我们本节课将要学习的可线性化的回归分析问题 二、新授(一)知识点讲解在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式. (1)b y a x =+,令'y y =,1'x x=,则有''y a bx =+. (2)by ax =,令'ln y y =,'ln x x =,'ln a a =,则有'''y a bx =+.(3)bx y ae =,令'ln y y =,'x x =,'ln a a =,则有'''y a bx =+. (4)b xy ae =,令'ln y y =,1'x x=,'ln a a =,则有'''y a bx =+. (5)ln y a b x =+,令'y y =,'ln x x =,则有''y a bx =+.(二)应用举例某地区对本地的企业进行了一次抽样调查,下表是这次抽查中所得到的各企业的人均资本x (万元)与人均产出y (万元)的数据:(1)设y 与x 之间具有近似关系b y ax ≈(,a b 为常数),试根据表中数据估计a 和b 的值; (2)估计企业人均资本为16万元时的人均产出(精确到0.01).分析:根据x ,y 所具有的关系可知,此问题不是线性回归问题,不能直接用线性回归方程处理.但由对数运算的性质可知,只要对b y ax ≈的两边取对数,就能将其转化为线性关系.解(1)在b y ax ≈的两边取常用对数,可得lg lg lg y a b x ≈+,设lg y z =,lg a A =,lg x X =,则z A bX ≈+.相关数据计算如图327--所示.仿照问题情境可得A ,b 的估计值 A ,b 分别为 0.2155,1.5677,A b ⎧=-⎪⎨=⎪⎩ 由 lg 0.2155a =-可得 0.6088a≈,即a ,b 的估计值分别为0.6088和1.5677.(2)由(1)知 1.56770.6088y x =.样本数据及回归曲线的图形如图328--(见书本102P页)当16x =时, 1.56770.60881647.01y =⨯≈(万元),故当企业人均资本为16万元时,人均产值约为47.01万元. 2.练习:13P 练习. 五.回顾小结:1. 线性回归模型y a bx ε=++与确定性函数y a bx =+相比,它表示y 与x 之间是统计相关关系(非确定性关系)其中的随机误差ε提供了选择模型的准则以及在模型合理的情况下探求最佳估计值 a,b 的工具; 2. 线性回归方程 y abx =+ 中 a ,b 的意义是:以 a 为基数,x 每增加1个单位,y 相应地平均增加b个单位; 3.求线性回归方程的基本步骤. 六.课外作业:16P 第4题.。
2019_2020学年高中数学第3章统计案例1回归分析学案北师大版选修2_3
1.1 回归分析1.2 相关系数1.3 可线性化的回归分析学习 目 标核 心 素 养1.了解回归分析的思想和方法.(重点)2.掌握相关系数的计算和判断线性相关的方法.(重点) 3.了解常见的非线性回归模型转化为线性回归模型的方法.(难点)通过对回归分析的学习,培养“逻辑推理”、“数学抽象”、“数学运算”的数学素养.1.回归分析设变量y 对x 的线性回归方程为y =a +bx ,由最小二乘法知系数的计算公式为:b =l xyl xx=∑i =1n(x i -x )(y i -y)∑i =1n(x i -x)2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a =y -b x .思考:在回归分析中,通过线性回归方程求出的函数值一定是实数值吗?为什么? [提示] 不一定是实数值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食情况,是否喜欢运动等.2.相关系数 (1)相关系数r 的计算假设两个随机变量的数据分别为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则变量间线性相关系数r =l xyl xx l yy=∑i =1n(x i -x )(y i -y)∑i =1n(x i -x)2∑i =1n(y i -y )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2∑i =1ny 2i -n y 2.(2)相关系数r 与线性相关程度的关系①r 的取值范围为[-1,1];②|r|值越大,误差Q越小,变量之间的线性相关程度越高;③|r|值越接近0,误差Q越大,变量之间的线性相关程度越低.3.相关性的分类①当r>0时,两个变量正相关;②当r<0时,两个变量负相关;③当r=0时,两个变量线性不相关.4.可线性化的回归分析(1)非线性回归分析对不具有线性相关关系的两个变量做统计分析,通过变量代换,转化为线性回归模型.(2)非线性回归方程曲线方程曲线图形变换公式变换后的线性函数y=ax b(a=1,b>0)(a=1,b<0)c=ln av=ln xu=ln yu=c+bvy=a e bx(a>0,b>0)(a>0,b<0)c=ln au=ln yu=c+bxy=a ebx(a>0,b>0)(a>0,b<0)c=ln av=1xu=ln yu=c+bvy=a+b ln x(b>0) (b<0)v=ln xu=yu=a+bv1.判断下列命题是否正确.(正确的打“√”,错误的打“×”)(1)两个变量的相关系数r>0,则两个变量正相关.( )(2)两个变量的相关系数越大,它们的相关程度越强.( )(3)若两个变量负相关,那么其回归直线的斜率为负.( )[答案] (1)√ (2)× (3)√ 2.相关系数r 的取值范围是( ) A .[-1,1] B .[-1,0] C .[0,1] D .(-1,1)[答案] A3.下列数据x ,y 符合哪一种函数模型( )x 1 2 3 4 5 6 7 8 9 10y 2 2.69 3 3.38 3.6 3.8 4 4.08 4.2 4.3A .y =2+3xB .y =2e xC .y =2e 1xD .y =2+ln xD [分别将x 的值代入解析式判断知满足y =2+ln x .]4.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得线性回归方程可能为( )A .y =0.4x +2.3B .y =2x -2.4C .y =-2x +9.5D .y =-0.3x +4.4A [本题考查了线性回归方程,由已知变量x 与y 正相关,排除C ,D 选项.将点(3,3.5)代入A 、B 选项的方程中可知,选项A 成立,所以选A.]变量间的相关关系及判断①若r >0,则x 增大时,y 也随之相应增大;②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上,其中正确的有( )A .①②B .②③C .①③D .①②③(2)有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和其身体健康情况;④正方形的边长和面积;⑤汽车的重量和百公里耗油量.其中两个变量成正相关的是( )A .①③B .②④C .②⑤D .④⑤[解] (1)根据两个变量的相关性与其相关系数r 之间的关系知,①③正确,②错误,故选C.(2)其中①③成负相关关系,②⑤成正相关关系,④成函数关系,故选C. [答案] (1)C (1)C (2)C1.线性相关系数是从数值上来判断变量间的线性相关程度,是定量的方法.与散点图相比较,线性相关系数要精细得多,需要注意的是线性相关系数r 的绝对值小,只是说明线性相关程度低,但不一定不相关,可能是非线性相关.2.利用相关系数r 来检验线性相关显著性水平时,通常与0.75作比较,若r >0.75,则线性相关较为显著,否则为不显著.1.下列两变量中具有相关关系的是( ) A .正方体的体积与边长 B .人的身高与体重C .匀速行驶车辆的行驶距离与时间D .球的半径与体积B [选项A 中正方体的体积为边长的立方,有固定的函数关系;选项C 中匀速行驶车辆的行驶距离与时间成正比,也是函数关系;选项D 中球的体积是43π与半径的立方相乘,有固定函数关系.只有选项B 中人的身高与体重具有相关关系.]线性回归方程学生学科ABCDE数学成绩(x ) 88 76 73 66 63 物理成绩(y )7865716461(1)(2)求物理成绩y 对数学成绩x 的线性回归方程; (3)一名学生的数学成绩是96,试预测他的物理成绩. [解] (1)散点图如图.(2)x =15×(88+76+73+66+63)=73.2,y =15×(78+65+71+64+61)=67.8.∑5i =1x i y i =88×78+76×65+73×71+66×64+63×61=25 054. ∑5i =1x 2i =882+762+732+662+632=27 174.所以b =∑5i =1x i y i -5x y∑5i =1x 2i -5x 2=25 054-5×73.2×67.827 174-5×73.22≈0.625. a =y -b x ≈67.8-0.625×73.2=22.05.所以y 对x 的回归直线方程是y =22.05+0.625x .(3)x =96,则y =0.625×96+22.05≈82,即可以预测他的物理成绩是82.求回归直线方程的基本步骤2.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑10i =1x i =80,∑10i =1y i =20,∑10i =1x i y i =184,∑10i =1x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. [解] (1)由题意知n =10,x =1n ∑n i =1x i =8010=8,y =1n ∑n i =1y i =2010=2.又∑ni =1x 2i -n x 2=720-10×82=80,∑n i =1x i y i -n x y =184-10×8×2=24,由此可得b =∑n i =1x i y i -n x y∑n i =1x 2i -n x2=2480=0.3, a =y -b x =2-0.3×8=-0.4,故所求回归方程为y =0.3x -0.4.(2)由于变量y 的值随x 的值增加而增加(b =0.3>0), 故x 与y 之间是正相关.(3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元).可线性化的回归分析1.如何解答非线性回归问题?[提示] 非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:2.已知x 和y 之间的一组数据,则下列四个函数中,模拟效果最好的为哪一个?x 1 2 3 y35.9912.01①x 2[提示] 观察散点图中样本点的分布规律可判断样本点分布在曲线y =3×2x -1附近,所以模拟效果最好的为①.【例3】 某地区不同身高的未成年男性的体重平均值如下表: 身高x (cm) 60 70 80 90 100 110 体重y (kg)6.137.90 9.99 12.15 15.02 17.50 身高x (cm) 120 130 140 150 160 170 体重y (kg)20.9226.8631.1138.8547.2555.05(1)试建立y 与x 之间的回归方程;(2)如果一名在校男生身高为168 cm ,预测他的体重约为多少?思路探究:先由散点图确定相应的拟合模型,再通过对数变换将非线性相关转化为线性相关的两个变量来求解.[解] (1)根据表中的数据画出散点图,如下:由图看出,这些点分布在某条指数型函数曲线y =c 1e c 2x 的周围,于是令z =ln y ,列表如下:x 60 70 80 90 100 110 z1.812.07 2.30 2.50 2.71 2.86x 120 130 140 150 160 170 z3.043.293.443.663.864.01由表中数据可求得z 与x 之间的回归直线方程为z ^=0.693+0.020x ,则有y =e 0.693+0.020x. (2)由(1)知,当x =168时,y =e 0.693+0.020×168≈57.57,所以在校男生身高为168 cm ,预测他的体重约为57.57 kg.两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y =c 1ec 2x,我们可以通过对数变换把指数关系变为线性关系,令z =ln y ,则变换后样本点应该分布在直线z =bx +a (a =ln c 1,b =c 2)的周围.3.在一次抽样调查中测得样本的5个样本点,数据如下表:x 0.25 0.51 2 4 y1612521试建立y 与x 之间的回归方程.[解] 作出变量y 与x 之间的散点图如图所示.由图可知变量y 与x 近似地呈反比例函数关系.设y =k x,令t =1x,则y =kt .由y 与x 的数据表可得y 与t 的数据表:t 4 2 1 0.5 0.25 y1612521由图可知y 与t 呈近似的线性相关关系.又t =1.55,y =7.2,∑i =15t i y i =94.25,∑i =15t 2i =21.312 5,b =∑i =15t i y i -5t y∑i =15t 2i -5t 2=94.25-5×1.55×7.221.312 5-5×1.552≈4.134 4,a =y -b t =7.2-4.134 4×1.55≈0.8,∴y =4.134 4t +0.8.所以y 与x 的回归方程是y =4.134 4x+0.8.1.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.2.判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就必须利用线性相关系数来判断.3.回归直线y =a +bx 过点(x ,y ),其中x =1n ∑ni =1x i ,y =1n∑n i =1y i . 4.相关系数r 可以定量地反映出变量间的相关程度,明确的给出有无必要建立两变量间的线性回归方程.1.下列结论正确的是( )①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A .①②B .①②③C .①②④D .①②③④C [函数关系和相关关系的区别是前者是确定性关系,后者是非确定性关系,故①②正确;回归分析是对具有相关关系的两个变量进行统计分析的一种方法,故③错误,④正确.]2.下表是x 和y 之间的一组数据,则y 关于x 的线性回归方程必过点( )x 1 2 3 4 y 1 3 5 7A .(2,3) C .(2.5,4)D .(2.5,5)C [线性回归方程必过样本点的中心(x ,y ), 即(2.5,4),故选C.]3.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程:y =0.254x +0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.0.254 [以x +1代x ,得y =0.254(x +1)+0.321,与y =0.254x +0.321相减可得,年饮食支出平均增加0.254万元.]4.部门所属的10个工业企业生产性固定资产价值与工业增加值资料如下表(单位:百万元): 固定资产价值 33566789910工业增加值15 17 25 28 30 36 37 42 40 450.991 8 [x =3+3+5+6+6+7+8+9+9+1010=6.6.y =15+17+25+28+30+36+37+42+40+4510=31.5.∴r =∑10i =1 (x i -x )(y i -y )∑10i =1(x i -x )2∑10i =1(y i -y )2=0.991 8.]5.关于两个变量x 与y 的6组数据如下表所示:x 1 1.5 3 4 5 6 y2.13.25.97.89.611.9[解] 散点图如下:从图中可以发现x 与y 有线性相关关系,当x 由小到大变化时,y 也由小变大.图中的数据点近似分布在一条直线的附近,因此,x 与y 近似成线性相关关系.。
高中数学 第三章 统计案例教案 北师大版选修23
第三章统计案例§1回归分析1.1 回归分析(教师用书独具)●三维目标1.知识与技能(1)了解回归分析的基本思想,会对两个变量进行回归分析.(2)明确建立回归模型的基本步骤,并对具体问题进行回归分析.(3)会解决实际问题.2.过程与方法(1)通过实际问题去理解回归分析的必要性,明确回归分析的基本思想.(2)从散点图中的点的分布上,发现直接求回归直线方程存在明显不足,从中引导学生去发现解决问题的新思路——进行回归分析.3.情感、态度与价值观(1)培养学生用整体的观点和互相联系的观点,来分析问题.(2)进一步加强数学的应用意识,培养学生学好数学、用好数学的信心.(3)加强与现实生活中的联系,以科学的态度评价两个变量的相关关系.●重点难点重点:掌握回归分析的步骤、相关系数、建立回归模型的步骤;体会有些非线性模型通过变换,可以转化为线性回归模型;在解决实际问题的过程中寻找更好的建型方法.难点:求线性回归方程的系数a,b;相关系数;选择不同的模型建模.回归分析主要是研究两个变量间的关系,是在必修三的基础上学习,教材的1.1回归分析是复习必修三的内容,为了使建立回归方程有意义,提出了相关系数,这与回归直线中b的系数有关联,教师可通过实例,让学生了解相关系数的大小与线性相关的关系;在现实中又有一种非线性的相关性,如何解决引导学生转化为线性关系,主要通过数形结合思想、函数思想,使问题化归为线性关系,教学中可通过提醒、猜想、练习等方法,使学生掌握本节的重点内容.(教师用书独具)●教学建议建议本节课用3课时讲解完成.教学中通过组织学生自己动手操作计算、观察、分析、交流、讨论、归纳让他们在探究学习中经历知识形成的全过程,从而形成“自主探究、合作交流”的数学学习方法.教师在课堂上可以用计算机软件进行参数的估计、相关系数的计数,让学生掌握利用计算器进行线性回归方程的求解和评价.●教学流程第1课时以实际问题作为课题引入.⇒回顾建立回归直线方程的基本步骤.⇒通过实例巩固、体验线性回归直线方程的求法及应用.⇒第2课时提出新问题,如何用其他方法刻画变量之间的线性相关.⇒师生共同探究,得出相关系的概念及相关系数的大小与线性相关之间的关系.⇒通过例题,巩固验证相关系数刻画变量之间的线性相关的特点.⇒第3课时引导学生探究如果不是线性回归模型,如何估计参数,能否利用线性回归模型.⇒对数据进行分析变换后,对新数据建立线性模型.⇒转化为原来变量模型,得出结论,总结建模思想,补充拓展.⇒课堂小结并完成当堂双基达标,巩固本节所学知识.课标解读 1.通过实例掌握回归分析的基本思想方法.2.利用最小二乘法会求线性回归直线方程,并能用线性回归直线方程进行预报.变量之间的相关关系【问题导思】1.正方形的面积S 与其边长a 是什么关系?圆的周长l 与半径r 是什么关系? 【提示】 ∵S =a 2,l =2πr , ∴它们都是确定的函数关系.2.父亲的身高与儿子的身高之间有何关系?耕种深度与水稻产量之间有何关系? 【提示】 非确定关系.1.变量之间有一定的联系,但不能完全用函数来表达.如人的体重y 与身高x .一般来说,身高越高,体重越重,但不能用一个函数来严格地表示身高与体重之间的关系.相关关系是非确定性关系,因变量的取值具有一定的随机性.2.在考虑两个变量的关系时,为了对变量之间的关系有一个大致的了解,人们通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常把这种图叫作变量之间的散点图.线性回归方程【问题导思】1.确定线性回归方程,只需得出哪两个量?【提示】 确定线性回归直线方程,只需确定a ,b 两个量即可.2.在线性回归方程y =a +bx 中,当一次项系数b 为正数时,说明两个变量有何相关关系?在散点图上如何反映? 【提示】 说明两个变量正相关,在散点图上自左向右看这些点呈上升趋势.假设样本点为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),设线性回归方程为y =a +bx ,要使这n 个点与直线y =a +bx 的“距离”平方之和最小,即使得Q (a ,b )=(y 1-a -bx 1)2+(y 2-a -bx 2)2+…+(y n -a -bx n )2达到最小,a ,b 需满足b =∑nb =1x i y i -n x y∑ni =1x 2i -n x2,a =y -b x .由数据求线性回归方程已知x ,y 之间一组数据:x 0 1 2 3 y1357(1)分别计算:x 、y 、x 1y 1+…+x 4y 4,x 21+x 22+…+x 24; (2)求出线性回归方程y =bx +a .【思路探究】 可利用表格的数直接计算,然后把这些结果代入线性回归方程系数公式,分别求得a ,b ,再求出线性回归方程. 【自主解答】 (1)x =0+1+2+34=1.5,y =1+3+5+74=4,x 1y 1+…+x 4y 4=0×1+1×3+2×5+3×7=34,x 21+x 22+…+x 24=02+12+22+32=14;(2)b =x 1y 1+x 2y 2+x 3y 3+x 4y 4-4x yx 21+x 22+x 23+x 24-4x 2=34-4×1.5×414-4×1.52=2;a =y -b x =4-2×1.5=1.故y =2x +1.答:(1)所求的值分别为:1.5,4,34,14; (2)所求的线性回归方程是:y =2x +1.求线性回归方程的步骤:(1)列表求出x ,y ,∑ni =1x 2i ,∑ni =1x i y i ;(2)利用公式b =∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a =y -b x ,求出b ,a ;(3)写出线性回归方程.观察两相关量得如下数据:x -1 -2 -3 -4 -5 5 3 4 2 1 y-9-7-5-3-115379求两变量间的回归方程. 【解】 列表i 12345678910 x i-1-2-3-4-55342 1 y i-9-7-5-3-115379 x2i1491625259164 1 x i y i9141512551512149由此可得x=0,y=0,∑10i=1x2i=110,∑10i=1x i y i=110,b=∑10i=1x i y i-10x y∑10 i=1x2i-10x2=110-10×0110-10×0=1,a=y-b x=0,∴所求回归方程为y=x.求实际问题的回归方程某企业想通过做广告来提高自己的知名度,经预测可知本企业产品的广告费支出x 与销售额y(单位:百万元)之间有如下对应数据:x 24568y 3040605070(1)判断y与x是否具有线性相关关系;(2)求回归直线方程.【思路探究】先画出散点图,即可判断y与x是否具有相关关系,如果y与x具有相关关系可将有关数据代入公式求得回归直线方程.【自主解答】(1)散点图如图所示:根据散点图可知,所给的数据点都在一条直线的附近,所以y与x具有线性相关关系.(2)列出下表,并且科学地的进行有关计算.i 1234 5x i24568y i3040605070x i y i60160300300560x=5,y=50,∑5 i=1x2i=145,∑5i=1y2i=135 000,∑5i=1x i y i=1 380于是可得,b=∑5i=1x i y i-5x y∑5 i=1x2i-5x2=1 380-5×5×50145-5×52=6.5,a=y-b x=50-6.5×5=17.5,于是所求的回归直线方程是y=6.5x+17.5.对一级数据进行线性回归分析时,应先画出其散点图,看其是否呈直线形,再依系数a、b的计算公式,算出a、b.由于计算量较大,所以在计算时应借助技术手段,认真细致,谨防计算中产生错误.某医院用光电比色计检验尿汞时,得尿汞含量(毫克/升)与消光系数如下表:汞含量x 2 4 6 8 10 消光系数y64138205285360(1)作散点图;(2)如果y 与x 之间具有线性相关关系,求线性回归方程. 【解】 (1)散点图如图.(2)由散点图可知,y 与x 呈相关关系,设线性回归方程为:y =bx +a .经计算:得x =6,y =210.4,∑5i =1x 2i =220,∑5i =1x i y i =7 790.∴b =7 790-5×6×210.4220-5×62=36.95, a =210.4-36.95×6=-11.3.∴线性回归方程为y =36.95x -11.3.利用回归直线方程进行统计某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x (x 取整数)元与日销售量y 台之间有如下关系:x 35 40 45 50 y 56 41 28 11(1)画出散点图,并判断y 与x 是否具有线性相关关系; (2)求日销售量y 对销售单价x 的线性回归方程;(3)设经营此商品的日销售利润为P 元,根据(2)写出P 关于x 的函数关系式,并预测当销售单价x 为多少元时,才能获得最大日销售利润.【思路探究】 两个变量呈现近似的线性关系,可通过公式计算出其线性回归方程,并根据方程求出其预测值.【自主解答】 (1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.(2)∵x =14×(35+40+45+50)=42.5,y =14×(56+41+28+11)=34,∑4i=1x i y i=35×56+40×41+45×28+50×11=5 410,∑4i=1x2i=352+402+452+502=7 350,∴b=∑4i=1x i y i-4x·y∑4 i=1x2i-4x2=5 410-4×42.5×347 350-4×42.52=-370125=-2.96.∴a=y-b x=34-(-2.96)×42.5=159.8.∴y=-2.96x+159.8.(3)依题意有P=(-2.96x+159.8)(x-30)=-2.96x2+248.6x-4 794,∴当x=248.62×2.96≈42时,P有最大值,约为426,即预测销售单价为42元时,能获得最大日销售利润.1.b=-2.96是斜率的估计值,说明单价每增加一个单位,日销售量就减少2.96. 2.借助于回归方程对实际问题的估计值是个近似值,不是一个准确值.假设关于某设备的使用年限x 和所支出的维修费y (万元)有如下的统计资料:x 2 3 4 5 6 y2.23.85.56.57.0若由资料可知y 对x 呈线性相关关系. (1)求线性回归方程;(2)估计使用年限为10年时,维修费用是多少万元? 【解】 (1)列表如下:ix iy ix 2ix i y i1 2 2.2 4 4.4 2 3 3.8 9 11.4 3 4 5.5 16 22.0 4 5 6.5 25 32.5 5 6 7.0 36 42.0 ∑202590112.3由此可得:x =4,y =5.进而可以求得b =∑5i =1x i y i -5x y∑5i =1x 2i -5x2=1.23,a =y -b x =0.08.∴线性回归方程为y =0.08+1.23x .(2)当x =10时,y =0.08+1.23×10=12.38(万元),即估计使用10年时维修费用是12.38万元.数形结合思想在回归分析中的应用(12分)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨标准煤)与相应的生产能耗y(吨标准煤)的几组对照数据.x 345 6y 2.534 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)【思路点拨】(1)可直接由表格提供的点,列出散点图;(2)可利用线性回归方程中a,b公式直接求解;(3)直接用方程来估计所求值.【规范解答】(1)图形如图所示.3分(2)x =3+4+5+64=4.5;y =2.5+3+4+4.54=3.5;∑4i =1x i y i =3×2.5+4×3+5×4+6×4.5=66.5.∑4i =1x 2i =32+42+52+62=86. 6分∴b =∑4i =1x i y i -4x ·y ∑4i =1x 2i -4x2=66.5-4×4.5×3.586-4×4.52=0.7, 8分 a =y -b x =3.5-0.7×4.5=0.35. 9分∴y =0.7x +0.35. 10分 (3)现在生产100吨甲产品用煤y =0.7×100+0.35=70.35,∴降低90-70.35=19.65吨标准煤. 12分线性回归方程的应用(1)描述两变量间的依存关系;(2)利用回归方程可进行预测;(3)利用回归方程还可以进行统计控制.1.作回归分析要有实际意义.2.回归分析前,最好先做出散点图.3.应用回归分析预测时,最好先作出散点图.1.下列说法正确的是( )A.任何两个变量都具有相关关系B.球的体积与该球的半径具有相关关系C.农作物的产量与施化肥量之间是一种确定性的关系D.某商品的生产量与该商品的销售价格之间是一种非确定性的关系【解析】两个变量之间的关系有两种,即函数关系与相关关系,故A错误.B中球的体积与该球的半径是函数关系.C中农作物的产量与施化肥量之间不是严格的函数关系,但是具有相关关系,因而是非确定性的关系.D中商品的生产量还和市场需求有关,故商品的生产量与该商品的销售价格之间是非确定性的关系.故选D.【答案】 D2.一位母亲记录了儿子3岁~9岁的身高(数据略),由此建立的身高y(单位:cm)与年龄x(单位:岁)的回归模型为y=7.19x+73.93.用这个模型预测这个孩子10岁时的身高,则下列叙述正确的是( )A.身高一定是145.83 cmB.身高在145.83 cm以上C.身高在145.83 cm以下D.身高在145.83 cm左右【解析】x=10时,y=7.19×10+73.93=145.83,但这是预测值而不是精确值,所以只能选D.【答案】 D3.在一次实验中,测得(x,y)的四组值分别是A(1,2),B(2,3),C(3,4),D(4,5),则y与x之间的线性回归方程为________.【解析】通过检验A,B,C,D四点共线,都在直线y=x+1上.【答案】y=x+14.已知一个回归直线方程为y=1.5x+45,x∈{1,7,5,13,19},求y.【解】由已知可知:x=1+7+5+13+195=9.又∵回归直线过点(x,y),∴y =1.5x +45,即y =1.5×9+45=58.5.一、选择题1.对具有线性相关关系的两个变量建立的线性回归方程y =a +bx 中,回归系数b ( ) A .可以小于0 B .只能大于0 C .可能等于0D .只能小于0【解析】 b 可能大于0,也可能小于0,但当b =0时,x ,y 不具有线性相关关系. 【答案】 A2.下列两个变量间的关系不是函数关系的是( ) A .正方体的棱长与体积 B .角的弧度数与它的正弦值C .单产为常数时,土地面积与粮食总产量D .日照时间与水稻亩产量【解析】 ∵A 、B 、C 都可以得出一个函数关系式,而D 不能写出确定的函数关系式,它只是一个不确定关系. 【答案】 D3.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y =bx +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( ) A .63.36万元 B .65.5万元 C .67.7万元D .72.0万元【解析】 x =4+2+3+54=3.5,y =49+26+39+544=42,∴a=y-b x=42-9.4×3.5=9.1,∴回归方程为y=9.4x+9.1,∴当x=6时,y=9.4×6+9.1=65.5,故选B.【答案】 B4.由一组样本数据(x1,y1),(x2,y2),…,(x n,y n)得到回归直线方程y=bx+a,那么下列说法中不正确的是( ) A.直线y=bx+a必经过点(x,y)B.直线y=bx+a至少经过点(x1,y1)(x2,y2),…,(x n,b n)中的一个点C.直线y=bx+a的斜率为∑ni=1x i y i-n x·y∑ni=1x2i-n x2D.直线y=bx+a的纵截距为y-b x【解析】回归直线可以不经过任何一个点.其中A:由a=y-b x代入回归直线方程y=bx+y-a x,即y=b(x-x)+y过点(x,y).∴B错误.【答案】 B5.已知两个变量x和y之间具有线性相关性,甲、乙两个同学各自独立地做了10次和15次试验,并且利用线性回归的方法求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均数都为s,对变量y的观测数据的平均数都是t,则下列说法正确的是( )A.l1与l2一定有公共点(s,t)B.l1与l2相交,但交点一定不是(s,t)C.l1与l2必定平行D.l1与l2必定重合【解析】由于回归直线y=bx+a恒过(x,y)点,又两人对变量x的观测数据的平均值为s,对变量y的观测数据的平均值为t,所以l1和l2恒过点(s,t).【答案】 A二、填空题6.从某大学随机选取8名女大学生,其身高x(cm)和体重y(kg)的线性回归方程为y=0.849x-85.712,则身高172 cm的女大学生,由线性回归方程可以预测其体重约为________.【解析】将x=172代入线性回归方程y=0.849x-85.712,有y=0.849×172-85.712=60.316(kg).【答案】60.316 kg7.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本的资料进行线性回归分析,结果如下:x=72,y=71,∑6i=1x2i=79,∑6i=1x i y i=1 481.b =1 481-6×72×7179-6×722≈-1.818 2,a =71-(-1.818 2)×72≈77.36,则销量每增加1 000箱,单位成本下降________元.【解析】 由上表可得,y =-1.818 2x +77.36,销量每增加1千箱,则单位成本下降1.818 2元. 【答案】 1.818 28.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y =0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】 由题意知[0.254(x +1)+0.321]-(0.254x +0.321)=0.254. 【答案】 0.254 三、解答题9.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:推销员编号 1 2 3 4 5 工作年限x /年 3 5 6 7 9 推销金额y /万元23345(1)求年推销金额y 关于工作年限x 的线性回归方程;(2)若第6名推销员的工作年限为11年,试估计他的年推销金额. 【解】 (1)设所求的线性回归方程为y =bx +a ,则b =∑i =15x i -xy i -y∑i =15x i -x2=1020=0.5, a =y -b x =0.4.所以年推销金额y 关于工作年限x 的线性回归方程为y =0.5x +0.4. (2)当x =11时,y =0.5x +0.4=0.5×11+0.4 =5.9(万元).所以可以估计第6名推销员的年推销金额为5.9万元.10.一种机器可以按各种不同速度运转,其生产物件中有一些含有缺点,每小时生产有缺点物件的多少随机器运转速度而变化,用x 表示转速(单位:转/秒),用y 表示每小时生产的有缺点物件个数.现观测得到(x ,y )的4组值为(8,5),(12,8),(14,9),(16,11).(1)假设y 与x 之间存在线性相关关系,求y 与x 之间的线性回归方程.(2)若实际生产中所容许的每小时最大有缺点物件数为10,则机器的速度不得超过多少转/秒?(精确到1) 【解】 (1)设回归方程为y =a +bx ,则x =8+12+14+164=12.5,y =5+8+9+114=8.25, ∑4i =1x 2i =660,∑4i =1x i y i =438,b =∑4i =1x i y i -4x y∑4i =1x 2i -4x2=438-4×12.5×8.25660-4×12.52≈0.73, a =y -b x =8.25-0.73×12.5=-0.875,所以所求回归方程为y =-0.875+0.73x .(2)由y ≤10,即-0.875+0.73x ≤10,得x ≤10.8750.73≈15,即机器速度不得超过15转/秒.11.高二(3)班学生每周用于数学学习的时间x (单位:小时)与数学成绩y (单位:分)之间有如下数据:x 24 15 23 19 16 11 20 16 17 13 y92799789644783687159若某同学每周用于数学学习的时间为18小时,试预测该同学的数学成绩.【解】 显然学习时间与学习成绩间具有相关关系,可以列出下表,并用科学计算器进行计算.i 1 2 3 4 5 6 7 8 9 10 x i 24 15 23 19 16 11 20 16 17 13 y i 927997896447 83687159 x i y i2 208 1 185 2 231 1 691 1 024 5171 660 1 088 1 207767∑10i =1x 2i=3 182,∑10i =1x i y i=13 578于是可得b =∑10i =1x i y i -10x y∑10i =1x 2i -10x2=545.4154.4≈3.53,a=y-b x=74.9-3.53×17.4≈13.5.因此可求得回归直线方程为y=3.53x+13.5.当x=18时,y=3.53×18+13.5≈77.故该同学预计可得77分左右.(教师用书独具)在一段时间内,某种商品的价格x(万元)和需求量y(t)之间的一组数据如下表所示:价格x 1.4 1.6 1.82 2.2需求量y 121075 3(1)画出散点图;(2)求出y对x的回归直线方程;(3)如价格定为1.9万元,预测需求量大约是多少.(精确到0.01 t)【思路探究】先根据所给数据画出散点图,判断y与x是否具有线性相关关系,在此基础上利用回归方程系数的有关公式,求出相应的系数,然后结合函数知识预测需求量.【自主解答】(1)散点图如图所示.(2)采用列表的方法计算a与回归系数b.序号x i y i x2i x i y i1 1.412 1.9616.82 1.610 2.56163 1.87 3.2412.64 25 4 105 2.2 3 4.84 6.6Σ9 37 16.6 62x=15×9=1.8,y=15×37=7.4,b=62-5×1.8×7.416.6-5×1.82=-11.5,a=7.4+11.5×1.8=28.1.所以y对x的回归直线方程为y=a+bx=28.1-11.5x.(3)当x=1.9时,y=28.1-11.5×1.9=6.25,所以价格定为1.9万元时,需求量大约是6.25 t.解答本类题目的关键首先应先通过散点图来分析两变量间的关系是否相关,然后再利用求回归方程的公式求解回归方程,在此基础上,借助回归方程对实际问题进行预测.已知10只狗的血球体积x(单位:mm3)及红血球数y(单位:百万)的测量值如下:x 45424648423558403950y 6.53 6.309.257.50 6.99 5.909.49 6.20 6.557.72(1)画出散点图;(2)求出y对x的回归线性方程;(3)若血球体积为49 mm3,预测红血球数大约是多少?【解】(1)散点图如图(2)设线性回归方程为y =bx +a ,由表中数据代入公式,得b =∑i =110x i y i -10x y∑i =110x 2i -10x2≈0.16,a =y -b x ≈0.12.所以所求线性回归方程为y =0.16x +0.12. (3)把x =49代入线性回归方程得:y =0.16×49+0.12≈7.96(百万),计算结果表明,当血球体积为49 mm 3时,红血球数大约为7.96百万.拓展阅读GDDS 和SDDS随着世界经济一体化的加快,各国间的交流与合作越来越频繁,为加强国际组织对各国经济运行状况的监督,国际社会在各领域纷纷建立了国际通行标准,其中国际货币基金组织(简称IMF)制定的数据公布通用系统(简称GDDS)和数据公布特殊标准(简称SDDS).GDDS 的主要内容和要求:在统计范围内,它将国民经济活动划分为5大经济部门,对每一部门各选定一组能够反映其活动实绩和政策以及可以帮助理解经济发展和结构变化的最为重要的数据.系统提出了五大部门综合框架和相关的数据类别和指标编制、公布的目标.选定的数据类别和指标中规定为主要部分.SDDS 将国民经济活动划分为4大经济部门.选定的数据类别分为:必须的、受鼓励的和“视相关程度”三类.必须的数据类别包括:综合统计框架、跟踪性数据、与部门有关的其他数据.IMF 为什么制定GDDS 和SDDS 呢?进入20世纪90年代以来,世界一些地区金融危机频繁爆发.1994年墨西哥的金融危机、1997年东南亚金融危机都导致国际金融市场剧烈动荡.两次金融危机给IMF 一个深刻的教训,也对其职能提出了挑战,在总结经验教训的基础上,IMF 认为,在新的国际经济、金融形势下,必须制定统一的数据发布标准,使各成员国按照统一程序提供全面、准确的经济金融信息,从而可以有效及时地对各国的经济进行正确的分析预测,从宏观上来作出调控,减少金融危机的发生和影响.1.2 相关系数课标解读 1.了解两个随机变量间的线性相关系数r ,并能利用公式求出相关系数r ;了解正相关、负相关、不相关的概念. 2.能利用相关系数r 判断两个随机变量间线性相关程度的大小,从而判断回归直线拟合的效果.相关系数【问题导思】1.有什么办法判断两个变量是否具有线性相关关系?【提示】 作出散点图,看这些点是否在某一直线的附近,计算线性相关系数. 2.线性相关系数与最小误差有何关系? 【提示】 Q (误差)=l yy (1-r 2).3.相关系数r 的绝对值的大小对相关性有何影响?【提示】 |r |越大,变量之间的相关程度越高;|r |越小,变量间线性相关程度越低;当r =0时,两个变量线性不相关.4.r 的正负对相关性的影响. 【提示】 r >0,b =l xyl xx>0两变量正相关; r <0,b =l xyl xx<0,两变量负相关.1.判断两个变量之间的线性相关关系的方法有: (1)计算线性相关系数r . (2)画散点图.2.假设两个随机变量的数据分别为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则变量间线性相关系数r 的计算公式为r =l xyl xx l yy=∑ni=1x i-x y i-y∑ni=1x i-x2i=1ny i-y2=∑ni=1x i y i-n x y∑ni=1x2i-n x2∑ni=1y2i-n y2相关系数及其应用维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y来衡量,这个指标越高,耐热水性能就越好,而甲醛浓度是影响“缩醛化度”的重要因素,在生产中常用甲醛浓度x(克/升)去控制这一指标,为此必须找出它们之间的关系,现安排一批试验,获得如下表数据.甲醛浓度18202224262830(克/升)缩醛化度26.8628.3528.7528.8729.7530.0030.36(克分子%)求相关系数r.【思路探究】可直接利用相关系数r的公式直接计算.【自主解答】列表如下:i x i y i x2i x i y i y2i11826.86324483.48721.459 622028.35400567803.722 532228.75484632.5826.562 542428.87576692.88833.476 952629.75676773.5885.062 562830.0078484090073030.36900910.80921.729 6∑168202.94 4 144 4 900.16 5 892.013 6 x=24,y=28.99,r=∑7i=1x i y i-7x y∑7i=1x2i-7x2∑7i=1y2i-7y2=4 900.16-7×24×28.994 144-7×242×5 892.013 6-7×28.992≈0.94.当相关系数|r|越接近1时,两个变量的线性相关程度越高,当相关系数|r|越接近0时,两个变量的线性相关程度越低.下列是小麦产量与施化肥量的一组观测数据:施化肥量15202530354045小麦产量320330360410460470480 判断施化肥量与水稻产量是否有相关关系.【解】i x i y i x2i y2i x i y i115320225102 400 4 800220330400108 900 6 600325360625129 6009 000430410900168 10012 300535460 1 225211 60016 100640470 1 600220 90018 800745480 2 025230 40021 600∑210 2 8307 000 1 171 90089 200∴r=∑i=17x i y i-7x y∑i=17x2i-7x2∑i=17y2i-7y2=4 300700×27 771.43≈0.975.由于r=0.975>0,因此施化肥量和水稻产量近似成线性正相关关系.线性回归分析的综合应用“阿曼德匹萨”是一个制作和外卖意大利匹萨的餐饮连锁店,其主要客户群是在校大学生,为研究各店铺的销售额与店铺附近地区大学生人数的关系,随机抽取十个分店的样本,得到数据如下:店铺编号 区内大学生数(万人)季度销售额(万元)1 0.2 5.8 2 0.6 10.53 0.8 8.84 0.8 11.85 1.2 11.76 1.6 13.7 7 2 15.78 2 16.9 9 2.2 14.9 10 2.620.2(1)试对区内大学生人数与店铺的销售额的关系进行相关性检验;(2)试根据这些数据建立回归模型,然后再进一步根据回归方程预测一个区内大学生人数1万人店铺的季度销售额; (3)若店铺的季度销售额低于10万元则亏损,试求建店区内大学生人数至少约多少人?【思路探究】 先根据表中的数据作相关检验,然后判断是否具有相关关系,再根据所给的数据解出线性回归方程,最后进行预测. 【自主解答】 (1)根据数据我们对区内大学生人数x 与店铺季度销售额y 作相关检验.根据数据可知:x =110(0.2+0.6+…+2.6)=1.4;y =110(5.8+10.5+…+20.2)=13,∑10i =1x 2i -10x 2=5.68,∑10i =1x i y i -10x y =28.4,∑10i =1y 2i -10y 2=157.3,因此r =28.45.68×157.3≈0.95;|r |接近1,因此有把握认为区内大学生人数x 与店铺季度销售额y 具有线性相关关系,求y 对x 的回归直线方程有意义.(2)回归系数b =28.45.68=5,a =13-5×1.4=6.因此回归直线方程是y=bx+a=5x+6.当x=1时,y=5×1+6=11,即区内大学生人数1万元店铺的季度销售额约11万元.(3)由回归直线方程是y=5x+6.令y≥10,解得x≥0.8,所以当建店区内大学生人数至少8 000人时才适合建店.进行相关性检验主要有两种常用方法,一是作散点图,观察所给的数据点是否在一条直线的附近,作散点图的优点是既直观又方便,是解决相关性检验问题比较常用的方法;缺点是作图总是存在误差,有时很难判断这些点是不是分布在一条直线的附近.二是利用样本相关系数对其进行相关性检验,优点是判断准确,缺点是计算繁琐,但可以借助计算器进行处理.在我国某地的一个县城,近期发现了好几个癌症村.政府部门十分震惊,马上组成调查组调查病因,经调查发现致癌的罪魁祸首是水源中的金属砷,它们来自附近的几家化工厂,化工厂排出的废水中含有金属砷,废水污染了水源,人食用了这种水就会致癌.下面就是调查组对几个癌症村水源中的砷超标的倍数和患癌症的人数统计的数据:砷超标的倍数x 34 5.5 4.2 5.86 3.5患癌症人数y 15202824354434(1)画出表中数据的散点图; (2)求y 对x 的回归方程;(3)若一个村的水源中砷超标的倍数为7,试估计这个村的患癌症的人数. 【解】 (1)散点图如图所示:(2)观察散点图,可知x 、y 成线性相关关系. 计算得x =327,y =2007,根据求b 公式代入数据计算得b ≈6.065,a =2007-6.065×327≈0.846. 所以患癌症人数y 对水源中砷超标的倍数x 的回归直线方程为y =6.065x +0.846.(3)根据上面求得的回归直线方程,当水源中砷超标的倍数为7时,y =6.065×7+0.846=43.301. 即该村患癌症的人数约为43人.对误差的大小与变量相关关系的理解有误对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(x n,y n),则下列说法中不正确的是( )A.由样本数据得到的回归方程y=bx+a必过样本点的中心(x,y)B.在回归分析中,误差Q越小,变量之间的线性相关程度越高C.相关系数r越小,说明变量之间的线性相关程度越小D.在散点图中,若n个点在一条直线上,说明变量之间的相关性强【错解】 B【错因分析】对误差Q与变量间的相关关系理解错误.【防范措施】正确理解回归方程、相关系数r、误差Q、散点图等概念是解决概念题的基础.【正解】∵误差Q越小,|r|越大,变量之间的线性相关程度越高,而相关系数r的范围为-1≤r≤1,∴C错误.【答案】 C1.相关系数是用来刻画两个变量相关关系的强与弱的.2.相关系数的计算公式r=∑ni=1x i-x y i-y∑ni=1x i-x2∑ni=1y i-y2=∑ni=1x i y i-n x y∑ni=1x2i-n x2∑ni=1y2i-n y21.在对变量y和x进行线性相关检验时,已知n是观测值组数,r是相关系数,且已知:①n=7,r=0.953 3;②n=15,r=0.301 2;③n=17,r=0.499 1;④n=3,r=0.9950.则变量y和x具有较高线性相关程度的是( )A.①和②B.①和④C.②和④D.③和④【解析】相关系数r的绝对值越大,变量x,y的线性相关程度越高,故选B.【答案】 B2.对相关系数r,下列说法正确的是( )A.|r|越大,相关程度越大B.|r|越小,相关程度越大C.|r|越大,相关程度越小,|r|越小,相关程度越大D.|r|≤1且|r|越接近于1,相关程度越大,|r|越接近0,相关程度越小【解析】由两个变量相关系数公式。
高中数学第三章统计案例整合学案北师大版选修23
高中数学第三章 统计案例整合学案 北师大版选修2-3知识建构综合应用专题一确定回归直线方程的策略准确确定回归直线方程,有利于进一步加强数学应用意识,培养运用所学知识解决实际问题的能力,正确地求出回归直线方程是本节的重点,现介绍求回归直线方程的三种方法. 一、利用回归直线过定点确定回归直线方程回归直线方程y=a+bx 经过样本的中心(x,y)点,(x,y)称为样本点的中心,回归直线一定过此点.x -1 -2 -3 -4 -5 5 4 3 2 1 y-25= =x =2x+ =x+1 答案:B二、利用公式求a,b ,确定回归直线方程 利用公式求回归直线方程时应注意以下几点:①求b 时利用公式b=2111)())((∑∑==---ni ini i x xy y x x,先求出x =n 1(x 1+x 2+x 3+…+x n ),y =n1(y 1+y 2+ y 3+…+y n ).再由a=y -b x 求a 的值,并写出回归直线方程.②线性回归方程中的截距a 和斜率b 都是通过样本估计而来,存在着误差,这种误差可能导致预报结果的偏差.③回归直线方程y=a+bx 中的b 表示x 每增加1个单位时y 的变化量,而a 表示y 不随x 的变化而变化的量.④可以利用回归直线方程y=a+bx 预报在x 取某一个值时y 的估计值. 学科学生 A B C D E 数学成绩(x ) 8876736663化学成绩(y )7865716461(2)求化学成绩y 对数学成绩x 的回归直线方程. 解:(1)散点图略. (2) x =51×(88+76+73+66+63)=,y =51×(78+65+71+64+61)=. 所以b=251151)())((∑∑==---i i i ix xy y x x≈.a=y -b x =所以y 对x 的回归直线方程为y=+.三、先判定相关性,再求回归直线方程利用样本相关系数r 来判断两个变量之间是否有线性相关关系时,可以依据若|r|>,我们认为有很强的线性相关关系,可以求回归直线方程,并可用求得的回归直线方程来预报变量的取值;若|r|<,则认为两个变量之间的线性相关关系并不强,这时求回归直线方程没有太大的实际价值.【例3】10名同学在高一和高二的数学成绩如下表: x 74 71 72 68 76 73 67 70 65 74 y76757170767965776272其中x 为高一数学成绩,y 为高二数学成绩. (1)y 与x 是否具有相关关系;(2)如果y 与x 具有线性相关关系,求回归直线方程. 解:(1)由已知表格中的数据,求得x =71,y =,r=2101121011)()())((∑∑∑===----i i n i ii i y y x xy y x x≈.由于>,所以y 与x 之间具有很强的线性相关关系. (2)y 与x 具有线性相关关系,设回归直线方程为: y=a+bx,则有b=∑∑==---1012101)())((i ii i ix xy y x x=,a=y -b x =所以y 关于x 的回归直线方程为y=专题二可线性化的回归分析 一、曲线线性化的意义曲线的线性化是曲线拟合的重要手段之一,对于某些非线性的资料可以通过简单的变量替换使之线性化,这样就可以按最小二乘法原理求出变换后变量的线性回归方程,在实际工作中常利用该线性回归方程绘制资料的标准工作曲线,同时根据需要可将此线性回归方程还原成曲线回归方程,实现对曲线的拟合.二、常用的非线性函数(一)指数函数y=ae bx (1)对(1)式的两边取对数,得lny=lna+bx当b>0时,y随着x的增大而增大;当b<0时,y随着x的增大而减小.当以lny和x绘制的散点图呈直线趋势时,可考虑采用指数函数来描述y与x间的非线性关系,lna和b分别为截距与斜率.更一般的指数函数是y=ae bx+k,式中的k为一常量,往往未知,应用时可试用不同的值. (二)对数函数y=a+blnx(x>0)当b>0时,y随着x的增大而增大,先快后慢;当b<0时,y随着x的增大而减小,先快后慢,当以y和lnx绘制的散点图呈直线趋势时,可考虑采用对数函数描述y与x间的非线性关系,式中a和b分别为截距与斜率.更一般的对数函数是y=a+bln(x+k),式中的k为一常量,往往未知.(三)幂函数y=ax b(a>0,x>0)(2)当b>0时,y随着x的增大而增大;b<0时,y随着x的增大而减小.对(2)式的两边取对数,得lny=lna+blnx,当以lny和lnx绘制的散点图呈直线趋势时,可考虑采用对数函数描述y与x间的非线性关系,式中lna和b分别为截距与斜率.更一般的幂函数是y=ax b+k,式中的k为一常量,往往未知.以上三种模型是我们在日常生活中常遇到的曲线模型,掌握这三种模型,有利于我们研究更多的曲线拟合与回归分析的问题.三、利用线性回归拟合曲线的一般步骤(一)绘制散点图一般根据资料性质结合专业知识便可确定资料的曲线类型,不能确定时,可在方格坐标纸上绘制散点图,根据散点的分布,选择接近的、合适的曲线类型.(二)进行变量替换y′=f(y),x′=g(x)使变换后的两个变量呈线性相关关系.(三)按最小二乘法原理求线性回归方程及进行方差分析.(四)将线性化方程转换为关于原始变量x,y的回归方程.【例1】经过调查得到8个厂家同种类型的产品年新增加投资额和年利润额的数据资料,如表(1)所示.厂家12345678 年新增投资额X(万元)46101115171820 年利润额Y(万元)6791017242326 lnY图(2)给出了年利润额Y与年新增加投资额x的散点图,从图中可以清楚地看出来,随着x的增大Y也有明显的增加的趋势,因此两者之间存在着相关关系,但是这种相关关系与其用一条直线来描述倒不如用曲线描述更加合适,因此Y与x之间更加倾向于被认为是一种非线性关系.回归方程也需要用一些非线性函数来刻画,比如图(2) 年新增加投资额与年利润额数据的散点图图3 经过对数变换后的散点图Y=β0·e β1·x; ①或者Y=β0+β1·x 2②等等.图(3)给出的是变量lnY 与变量x 的散点图,从中可以看出这些点基本上是围绕一条直线波动,说明变量lnY 与x 之间近似是一种线性关系,从而也印证了回归方程取①形式的合理性.同时,图(3)也提示我们一种求解回归方程①的思路,即通过求解变量lnY 对x 的线性回归方程即可得到相应的①式所表示的Y 和x 的回归方程,即在图(3)中的回归直线同图(2)中的曲线(Ⅱ)是一致的.具体来说,首先对样本数据(x i ,Y i ),i=1,2,…,n 作对数变换 Z i =lnY i ,i=1,2,…,n ; ③ 然后利用最小二乘法求出变量Z 对x 的回归方程Z=a 0+a 1·x; ④即图(3)中的直线方程,则相应的形如①式的Y 对x 的回归方程是 Y=e z =e a0·e a1x; ⑤即β0=e a0,β1=a 1.利用表(1)中给出的数据,可以得到lnY 对x 的线性回归方程是 Z=+由此可得Y 对x 的回归方程是Y= 5·; ⑥如果采用形如②式的抛物线型回归方程,容易看出,令ω=x 2,②式就是表示了变量Y 对ω的线性回归方程:Y=β0+β1·ω; ⑦所以,对样本数据做变换ωi =x i 2(i=1,2,…,n ),利用(ωi ,Y i )(i=1,2,…,n )求解出⑦中的系数估计值β0、β1代入②式即得到Y 对x 的回归方程. 对表(1)中的数据计算结果为Y=+; ⑧ 专题三独立性检验的基本方法判断结论成立的可能性的一般步骤:(1)假设两个分类变量X 和Y 没有关系; (2)给定一个显著水平,查表给出临界值;(3)计算χ2=;))()()(()(2d b d c b a c a bc ad n ++++- (4)若χ2大于临界值,则认为x 与y 有关系,否则没有充分的理由说明这个结论不成立Y 1 Y 2 总计 X 1 a b a+b X 2 c d c+d 总计a+cb+da+b+c+d【例1】某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系, 积极支持企业改革不太赞成企业改革合计 工作积极 54 40 94 工作一般 32 63 95 合计86103189对于人力资源部的研究项目,根据上述数据能得出什么结论?分析:首先由已知条件确定a ,b ,c ,d ,n 的数值,再利用公式求出χ2的观测值,最后与临界值比较再下结论. 解:由题目中表的数据可知:a=54,b=40,c=32,d=63,a+b=94,c+d=95,a+c=86,b+d=103,n=189.代入公式得χ2=103869594)32406354(1892⨯⨯⨯⨯-+⨯≈.因为>,所以有99%的把握认为员工“工作积极”与“积极支持企业改革”是有关的,可以认为企业的全体员工对待企业改革态度和工作积极性是有关的.【例2】在一次恶劣气候的飞行航程中调查男女乘客晕机的情况如下表所示,根据此资料您是否认为在恶劣气候飞行中男人比女人更容易晕机?晕机 不晕机 合计 男人 24 31 55 女人 8 26 34 合计325789解:这是一个2×2列联表的独立性检验问题,根据列联表中的数据,得到χ2=57323455)8312624(892⨯⨯⨯⨯-⨯⨯≈.因为>,所以有90%的把握认为此次飞行中晕机与否跟男女性别有关. 几点注意:(1)在列联表中注意各项的对应及有关值的确定,避免混乱. (2)若要判断X 与Y 有关时,先假设X 与Y 无关.(3)把计算出的χ2的值与相关的临界值作比较,确定出“X 与Y 有关系”的把握.科海观潮 相关与相关系数一、什么是相关事物总是相互联系的,它们之间的关系多种多样,分析起来,大概有以下几种情况:(1)一种是因果关系,即一种现象是另一种现象的因,而另一种现象则是果.例如学习的努力程度是学习成绩好坏的因(至少是部分的因);在一定刺激强度范围内,刺激强度经常是反应强度的因等.(2)第二种是共变关系,即表面看来有联系的两种事物都与第三种现象有关,这时两种事物之间的关系,便是共变关系.例如春天出生的婴儿与春天栽种的小树,就其高度而言,表面上看来都在增长,好像有关,其实,这二者都是受时间因素影响在发生变化,在它们本身之间并没有直接的关系.(3)第三种是相关关系,即两类现象在发展变化的方向与大小方面存在一定的关系,但不能确定这两类现象之间哪个是因,哪个是果;也有理由认为这两者并不同时受第三因素的影响,即不存在共变关系.具有相关关系的两种现象之间,关系是复杂的,甚至可能包含有暂时尚未认识的因果关系及其共变关系在内.例如,同一组学生的语文成绩与数学成绩的关系,即属于相关关系.统计学中所讲的相关是指具有相关关系的不同现象之间的关系程度.相关的情况有以下三种:一是两列变量变动方向相同,即一列变量变动时,另一列变量亦同时发生或大或小与前一列变量同方向的变动,这称为正相关.如身高与体重的关系,一般讲身长越长体重就越重.第二种相关情况是负相关,这时两列变量中若有一列变量变动时,另一列变量呈或大或小,但与前一列变量指向相反的变动.例如初学打字时练习次数越多,出现错误的量就越少等.第三处相关情况是零相关,即两列变量之间无关系.这种情况下,一列变量变动时,另一列变量作无规律的变动.如学习成绩优劣与身高之间的关系,就属零相关,即无相关关系,二者都是独立的随机变量.二、相关系数相关系数是两列变量间相关程度的数字表现形式,或者说是表示相关程度的指标,作为样本间相互关系程度的统计特征数,常用r表示,作为总体参数,一般用ρ表示,并且是指线性相关而言.相关系数的取值介于至+之间,常用小数形式表示.它只是一个比率,不代表相关的百分数,更不是相关量的相等单位的度量.相关系数的正负号,表示相关方向,正值表示正相关,负值表示负相关.相关系数取值的大小表示相关的程度.相关系数为0时,称零相关即毫无相关,为时,表示完全正相关,相关系数为时,为完全负相关.这二者都是完全相关.如果相关系数的绝对值在与0之间不同时,则表示关系程度不同.接近端一般为相关程度密切,接近0端一般为关系不够密切.(注意:若是非线性相关关系,而且直线相关计算r值可能很小,但不能说两变量关系不密切)关于这一点如何判定,尚需考虑计算相关系数时样本数目的多少.如果样本数目较少,受取样偶然因素的影响较大,很有可能本来无关的两类事物,却计算出较大的相关系数来.例如欲研究身高与学习有无关系,如果只选3、5个人,很可能遇到身材愈高学习愈好这一类偶然现象,这时虽然计算出的相关系数可能接近,但实际上这两类现象之间并无关系.究竟如何综合考虑样本数目大小,相关系数取值大小而判定相关是否密切这一问题,一般要经过统计检验后方能确定.相关系数不是等距的度量值,因此在比较相关程度时,只能说绝对值大者比绝对值小者相关更密切一些,如只能说相关系数r=的两列数值比相关系数r=的两列数值之间的关系程度更密切,而绝不能说前二者的密切程度是后二者密切程度的两倍.也不能说相关系数从到与从到所提高的程度一样多.存在相关关系,即相关系数取值较大的两类事物之间,不一定存在因果关系,这一点要从事物的本质方面进行分析,绝不可简单化.计算相关系数一般要求成对的数据,即若干个体中每个个体要有两种不同的观测值.例如每个学生(智力相同者)的算术和语文成绩;每个人的视反应和听反应时;每个学生的智力分数与学习成绩等等.任意两个个体之间的观测值不能求相关.计算相关的成对数据的数目,一般以30以上为宜.。
高中数学第三章统计案例疑难规律方法学案北师大选修2-3
第三章 统计案例1 回归分析与独立性检验的理解与加深一、回归分析1.线性回归方程y =bx +a ,其中:b =∑ni =1x i -xy i -y∑n i =1 x i -x 2=∑ni =1x i y i -n x y∑n i =1x 2i -n x2,a =y -b x .(注:b =∑ni =1x i y i -n x y∑n i =1x 2i -n x2主要方便计算,其中(x i ,y i )为样本数据,(x ,y )为样本点的中心)公式作用:通过刻画线性相关的两变量之间的关系,估计和分析数据的情况,解释一些实际问题,以及数据的变化趋势. 2.样本相关系数的具体计算公式:r =∑n i =1 x i -xy i -y∑ni =1x i -x 2∑ni =1y i -y2=∑n i =1x i y i -n x y∑n i =1x 2i -n x 2∑ni =1y 2i -n y2公式作用:反映两个变量之间线性相关关系的强弱.当r 的绝对值接近1时,表明两个变量的线性相关性越强;当r 的绝对值接近0时,表明两个变量之间几乎不存在线性相关关系. 公式联系:(1)由于分子与回归方程中的斜率b 的分子一样(这也给出了公式的内在联系以及公式的记法),因此,当r >0时,两个变量正相关;当r <0时,两个变量负相关. (2)常配合散点图判断两个随机变量是否线性相关.散点图是从形上进行粗略地分析判断,这个判断是可行的、可靠的,也是进行线性回归分析的基础,否则回归方程失效;它形象直观地反映了数据点的分布情况.相关系数r 是从数上反映了两个随机变量是否具有线性相关关系,以及线性相关关系的强弱,它较精确地反映了数据点的分布情况,准确可靠. 二、独立性检验(一)基础概念的梳理与理解1.分类变量:对于宗教信仰来说,其取值为信宗教信仰与不信宗教信仰两种.像这样的变量的不同“值”表示个体所属的不同类别的变量称为分类变量.例如性别变量其取值为男和女两种,吸烟变量其取值为吸烟与不吸烟两种.2.两个分类变量:是否吸烟与是否患肺癌,性别男和女与是否喜欢数学课程等等,这些关系是我们所关心的.3.2×2列联表:列出的两个分类变量A 和B ,它们的取值分别为{A 1,A 2}和{B 1,B 2}的样本频数表称为2×2列联表(如表1). 表1B AB 1 B 2 总计A 1 a b a +b A 2c d c +d 总计a +cb +da +b +c +d(二)独立性检验的基本思想从理论上说明两类分类变量是否有关,请同学们从中体会其思想方法. 1.基本思想与图形的联系假设两类分类变量是无关的,可知如下的比应差不多,即:aa +b ≈cc +d⇒|ad -bc |=0.构造随机变量χ2=n ad -bc 2a +bc +d a +cb +d(其中n =a +b +c +d )(此公式如何记忆,其特点是什么?结合2×2列联表理解) 显然所构造的随机变量与|ad -bc |的大小具有一致性. 2.独立性检验的思想方法如果χ2的值较大,说明其发生(无关系)的概率很小,此时不接受假设,也就是两分类变量是有关系的(称小概率事件发生);如果χ2的值较小,此时接受假设,说明两分类变量是无关系的.其思想方法类似于数学上的反证法. 3.得到χ2的值常与以下几个临界值加以比较:如果χ2>2.706,就有90%的把握认为两分类变量A 和B 有关系;如果χ2>3.841,就有95%的把握认为两分类变量A 和B 有关系;如果χ2>6.635,就有99%的把握认为两分类变量A 和B 有关系;如果χ2≤2.706,就认为没有充分的证据说明变量A 和B 有关系.像这种利用随机变量χ2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.2 回归分析题目击破一、基本概念函数关系是一种确定关系,而相关关系是一种非确定关系,回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.例1 下列变量之间的关系是相关关系的是________. (1)正方形的边长与面积之间的关系; (2)水稻产量与施肥量之间的关系; (3)人的身高与年龄之间的关系; (4)降雪量与交通事故发生率之间的关系.分析 两变量之间的关系有两种:函数关系和带有随机性的相关关系.解析 (1)是函数关系;(2)不是严格的函数关系,但是具有相关性,因而是相关关系;(3)既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而它们不具有相关关系;(4)降雪量与交通事故发生率之间具有相关关系. 答案 (2)(4)点评 该例主要考查对变量相关关系概念的掌握. 二、线性回归方程设x 与y 是具有相关关系的两个变量,且相应于n 个观测值的n 个点大致分布在一条直线的附近,这条直线就叫作回归直线.例2 假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有如下的统计资料:若由资料知y 对x 呈线性相关关系,试求: (1)回归方程y =a +bx ;(2)估计使用年限10年时,维修费用是多少?分析 因为y 对x 呈线性相关关系,所以可以用线性相关的方法解决问题. 解 (1)制表于是有b =112.3-5×4×590-5×42=1.23,a=y-b x=5-1.23×4=0.08.∴回归方程为y=1.23x+0.08.(2)当x=10时,y=1.23×10+0.08=12.38,即估计使用10年时维修费用约是12.38万元.点评已知y对x呈线性相关关系,无须进行相关性检验,否则,应首先进行相关性检验.三、非线性回归问题分析非线性回归问题的具体做法是:(1)若问题中已给出经验公式,这时可以将解释变量进行变换(换元),将变量的非线性关系转化为线性关系,将问题化为线性回归分析问题来解决.(2)若问题中没有给出经验公式,需要我们画出已知数据的散点图,通过与各种函数(如指数函数、对数函数、幂函数等)的图像作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量变换,将问题化为线性回归分析问题来解决.下面举例说明非线性回归分析问题的解法.例3 某地区对本地的企业进行了一次抽样调查,表中是这次抽查中所得到的各企业的人均资本x(单位:万元)与人均产值y(单位:万元)的数据:(1)设y与x之间具有近似关系y≈ax b (a,b为常数),试根据表中数据估计a和b的值;(2)估计企业人均资本为16万元时的人均产值(精确到0.01).解(1)在y≈ax b的两边取常用对数,可得lg y≈lg a+b lg x,设lg y=z,lg a=A,lg x =X,则z≈A+bX.相关数据计算如图所示.由公式(1)可得⎩⎪⎨⎪⎧A =-0.215 5,b =1.567 7,由lg a =-0.215 5, 得a ≈0.608 8,即a ,b 的估计值分别为0.608 8和1.567 7. (2)由(1)知y =0.608 8x1.567 7.样本数据及回归曲线的图形如图所示.当x =16时,y =0.608 8×161.567 7≈47.01(万元),故当企业人均资本为16万元时,人均产值约为47.01万元.3 巧解非线性回归问题如果题目所给样本点的分布不呈带状分布,即两个变量不呈线性关系,那么,就不能直接利用线性回归方程建立两个变量之间的关系,这时我们可以把散点图和已经学过的各种函数,如幂函数、指数函数、对数函数、二次函数等作比较,挑选出与这些散点拟合最好的函数,然后利用变量置换,把非线性回归方程问题转化为线性回归方程的问题来解决,这是解决此类问题的通法,体现了转化思想. 一、案例分析例 一个昆虫的某项指标和温度有关,现收集了7组数据如下表:温度x /℃ 2 3 4 5 6 7 8 某项指标y 5.7906.8108.19910.00112.19014.79017.801试建立某项指标y 关于温度x 的回归模型,并判断你所建立的回归模型的拟合效果. 分析 根据表中的数据画出散点图,再由图设出相应的回归模型.解 画出散点图如图所示,样本点并没有分布在某个带状区域内,而是分布在某一条二次函数曲线y =Bx 2+A 的周围.令X =x 2,则变换后的样本点应该分布在y =bX +a (b =B ,a =A )的周围. 由已知数据可得变换后的样本数据表:X4 9 16 25 36 49 64 某项指标y 5.7906.8108.19910.00112.19014.79017.801计算得到线性回归方程为y =0.199 94X +4.999 03.用x 2替换X ,得某项指标y 关于温度x 的回归方程y =0.199 94x 2+4.999 03. 计算得r ≈0.999 997,几乎为1,说明回归模型的拟合效果非常好.点评 本题是非线性回归分析问题,解决这类问题应该先画出散点图,把它与我们所学过的函数图像相对照,选择一种跟这些样本点拟合的最好的函数,然后采用适当的变量变换转化为线性回归分析问题,使之得以解决. 二、知识拓展常见的非线性函数转换方法:(1)幂型函数y =ax m(a 为正数,x ,y 取正值)解决方案:对y =ax m 两边取常用对数,有lg y =lg a +m lg x ,令u =lg y ,v =lg x ,则原式可变为u =mv +lg a ,其中m ,lg a 为常数,该式表示u ,v 的线性函数. (2)指数型函数y =c ·a x (a ,c >0,且a ≠1)解决方案:对y =ca x两边取常用对数,则有lg y =lg c +x lg a ,令u =lg y ,则原式可变为u =x lg a +lg c ,其中lg a 和lg c 为常数,该式表示u ,x 的线性函数.与幂函数不同的是x 保持不变,用y 的对数lg y 代替了y . (3)反比例函数y =k x(k >0)解决方案:令u =1x,则y =ku ,该式表示y ,u 的线性函数.(4)二次函数y =ax 2+c解决方案:令u =x 2,则原函数可变为y =au +c ,该式表示y ,u 的线性函数. (5)对数型函数y =c log a x解决方案:令x =a u ,则原函数可变为y =cu ,该式表示y ,u 的线性函数.4 判断两个分类变量的关系本章的重点是用独立性检验的基本思想对两个分类变量作出明确的判断,下面通过典例剖析如何判断两个分类变量的关系.例某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示:积极支持企业改革不太赞成企业改革合计工作积极544094工作一般326395合计86103189对于人力资源部的研究项目,根据上述数据能得出什么结论?分析首先由已知条件确定a、b、c、d、n的数值,再利用公式求出χ2的值,最后根据χ2值分析结果.解由题目中表的数据可知,χ2=n ad-bc2a+c a+b c+d b+d=189×54×63-40×32294×95×86×103≈10.759.因为10.759>6.635,所以有99%的把握说员工“工作积极”与“积极支持企业改革”有关,可以认为企业的全体员工对待企业改革的态度与其工作积极性是有关的.点评在列联表中注意事件的对应及有关值的确定,避免混乱;在判断两个分类变量的关系的可靠性时一般利用随机变量来确定;把计算出的χ2的值与临界值作比较,确定出“A与B 有关系”的把握.5 独立性检验思想的应用在日常生活中,经常会面临一些需要推断的问题.在对这些问题作出推断时,我们不能仅凭主观臆断作出结论,需要通过试验来收集数据,并依据独立性检验思想做出合理的推断.所谓独立性检验,就是根据采集样本的数据,利用公式计算χ2的值,比较与临界值的大小关系来判定事件A与B是否有关的问题.其基本步骤如下:(1)考察需抽样调查的背景问题,确定所涉及的变量是否为二值分类变量;(2)根据样本数据制作列联表;(3)计算统计量χ2,并查表分析.当χ2很大时,就认为两个变量有关系;否则就认为没有充分的证据显示两个变量有关系.下面举例说明独立性检验思想在解决实际问题中的应用.例 为了调查患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,统计结果为:患慢性气管炎共有56人,患慢性气管炎且吸烟的有43人,未患慢性气管炎但吸烟的有162人.根据调查统计结果,分析患慢性气管炎与吸烟在多大程度上有关系? 解 根据所给样本数据得到如下2×2列联表:患慢性气管炎未患慢性气管炎总计 吸烟 43 162 205 不吸烟 13 121 134 总计56283339由列联表可以粗略估计出:有吸烟者中,有20.98%的患慢性气管炎;在不吸烟者中,有9.70%的患慢性气管炎.两个比例的值相差较大,所以结论“患慢性气管炎与吸烟有关”成立的可能性较大.根据列联表中的数据,得到 χ2=339×43×121-13×162256×283×205×134≈7.469>6.635.所以有99%的把握认为“患慢性气管炎与吸烟有关”.点评 通过计算检验随机变量χ2,可以比较精确地给出这种判断的可靠程度.先收集数据,然后通过一些统计方法对数据进行科学的分析,这是我们用统计方法解决实际问题的基本策略.。
【数学】高中数学第三章统计案例1回归分析学案北师大版选修23
【关键字】数学§1回归分析(1)函数关系是一种确定性的关系,而相关关系是一种非确定性关系.返回分析是对具有相关关系的两个变量进行统计分析的常用方法.(2)线性返回直线方程y=a+bx中,b==,a=-b.预习交流1线性返回直线方程y=a+bx与一次函数y=a+kx有何区别?提示:一次函数y=a+kx是y与x的确定关系,给x一个值,y有唯一确定的值与之对应,而线性返回直线方程是y与x的相关关系的近似反映,两个数据x,y组成的点(x,y)可能适合线性返回直线方程,也可能不适合.2.相关系数假设两个随机变量的数据分别为(x1,y1),(x2,y2),…,(xn,yn),则变量间线性相关系数r的计算公式为:r==.变量之间相关系数r的取值范围为[-1,1],|r|值越大,误差Q越小,变量之间的线性相关程度越高,|r|值越接近于0,Q越大,变量之间的线性相关程度越低.当r>0时,b >0,两个变量的值总体上呈现出同时增减的趋势,此时称两个变量正相关;当r<0时,b <0,一个变量增加,另一个变量有减少的趋势,称两个变量负相关;当r=0时,称两个变量线性不相关.预习交流2如何由样本的相关系数r=判定两变量的相关性?提示:当r>0时,表明两个变量正相关,当r<0时,表示两个变量负相关,r的绝对值越接近于1,表明两个变量线性相关性越强;r的绝对值越接近于0,表明两变量之间几乎不存在线性相关关系,通常当|r|>0.75时,认为两个变量有很强的线性相关关系.3.可线性化的返回分析通过变换先将非线性函数转化成线性函数,利用最小二乘法得到线性返回方程,再通过相应变换得到非线性返回方程.预习交流3如何将函数y=aebx转化为线性函数?提示:先对y=aebx两边取对数得ln y=ln a+bx.若记u=ln y,c=ln A.则u=c+bx,就把函数y=aebx转化成了线性函数u=c+bx.一、线性返回方程的求法(1)思路分析:求线性返回方程必须先对两个变量进行相关性判断,若两个变量存在较大的相关性,则可利用公式求线性返回方程的系数;若两个变量不具备相关关系,则求线性返回方程将变得毫无意义.解:(1)散点图如图.(2)由散点图可知,y与x呈相关关系,设线性返回方程为:y=bx+A.经计算,得=6,=210.4,x=220,xiyi=7 790.∴b==36.95,a=210.4-36.95×6=-11.3.∴线性返回方程为:y=36.95x-11.3.已知两个变量x和y之间具有线性相关性,甲、乙两个同学各自独立地做了10次和15次试验,并且利用线性返回的方法求得返回直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均数都为s,对变量y的观测数据的平均数都是t,则下列说法正确的是( ).A.l1与l2一定有公共点(s,t) B.l1与l2相交,但交点一定不是(s,t)C.l1与l2必定平行D.l1与l2必定重合答案:A解析:由于返回直线y=bx+a恒过(,)点,又两人对变量x的观测数据的平均值为s,对变量y的观测数据的平均值为t,所以l1和l2恒过点(s,t).作出散点图可直观地判断两个变量的相关关系.线性返回直线方程y=bx+a一定过样本中心(,).二、相关系数及相关性检验现随机抽取了我校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试中的思路分析:先利用相关系数计算公式r=计算出r,当|r|越接近于1时,两个变量越具有很强的线性关系.解:由题意得:=(120+108+…+99+108)=107.8,=(84+64+…+57+71)=68,2i=1202+1082+…+992+1082=116 584,2i=842+642+…+572+712=473 84,iyi=120×84+108×64+…+108×71=73 796,∴r=≈0.750 6.∵0.750 6接近于1,∴两次数学考试成绩有显著性线性相关关系.炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短.必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时钢水的含碳量x与冶炼时间y(从(2)如果y与x具有线性相关关系,求线性返回方程.(3)预测当钢水含碳量为160个0.01%时,应冶炼多少分钟?于是r=∑i=1x i y i-10x y(∑10i=1x2i-10x2)(∑10i=1y2i-10y2)≈0.990 6.∵0.990 6非常接近于1,∴y 与x 具有显著的线性相关关系.(2)设所求的线性回归方程为y =bx +a ,其中a ,b 的值使Q =∑10i =1(y i -bx i -a )2的值最小.b =∑10i =1x i y i -10x y∑10i =1x 2i -10x 2≈1.267,a =y -b x ≈-30.47,即所求的线性回归方程为y =1.267x -30.47.(3)当x =160时,y =1.267×160-30.47≈172,即大约冶炼172 min.如果两个变量不具备线性相关关系或者线性相关关系不显著,即使求出线性回归方程也无意义,用于估计和测量的结果也是不可信的.1.在下列各量与量之间的关系中是相关关系的是( ).①正方体的体积与棱长之间的关系;②一块农田的小麦的产量与施肥量之间的关系;③人的身高与年龄之间的关系;④家庭的收入与支出之间的关系;⑤某家庭用水量与水费之间的关系.A .②③B .③④C .④⑤D .②③④ 答案:D解析:①⑤属于函数关系,②③④属于相关关系.2.在建立两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数r 如下,其中拟合得最好的模型为( ).A .模型1的相关指数r 为0.75B .模型2的相关指数r 为0.90C .模型3的相关指数r 为0.25D .模型4的相关指数r 为0.55 答案:B解析:相关指数|r |的值越大,说明模型的拟合效果越好.3.对有线性相关关系的两个变量建立的回归直线方程y =a +bx 中,回归系数b ( ).A .可以小于0B .大于0C .能等于0D .只能小于0 答案:A解析:因为b =0时,则r =0,这时不具有线性相关关系,但b 可以大于0也可以小于0.4若y 与x ______万元.答案:10解析:由已知x =5,y =50,∑i =15x 2i =145,∑i =15y 2i =13 500,∑i =1nx i y i =1 380,∴b =1 380-5×5×50145-5×25=6.5. ∴a =y -b x =17.5.∴回归直线方程为y =6.5x +17.5.∴由y ≥82.5,即6.5x +17.5≥82.5,解得x ≥10.故广告费支出最少是10万元.5.有一台机床可以按各种不同的速度运转,其加工的零件有一些是二级品,每小时生(1)(2)求出机床运转的速度x 与每小时生产的二级品数量y 的回归直线方程.(3)若实际生产中所允许的二级品不超过10个,那么机床的运转速度不得超过多少转/秒?解:(1)散点图如下:(2)易求得x =12.5,y =8.25,∴回归直线的斜率b =∑i =1nx i y i -n x y∑i =1n x 2i -n x2=0.728 6,截距a =y -b x =-0.857 1.∴所求回归直线的方程为y =0.728 6x -0.857 1.(3)根据经验公式,要使y ≤10,只需0.728 6x -0.857 1≤10,解得x ≤14.901 3,即机床的运转速度不能超过14.901 3转/秒.此文档是由网络收集并进行重新排版整理.word 可编辑版本!。
高中数学第3章统计案例1回归分析课件北师大版选修2_3
[解] (1)散点图如图.
(2) x =15×(88+76+73+66+63)=73.2,
y =15×(78+65+71+64+61)=67.8.
5
∑xiyi=88×78+76×65+73×71+66×64+63×61=25 054.
i=1 5
∑x2i =882+762+732+662+632=27 174.
思考:在回归分析中,通过线性回归方程求出的函数值一定是实 数值吗?为什么?
[提示] 不一定是实数值,例如,人的体重与身高存在一定的线 性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食 情况,是否喜欢运动等.
2.相关系数
(1)相关系数 r 的计算
假设两个随机变量的数据分别为(x1,y1),(x2,y2),…,(xn,yn),
可线性化的回归分析
[探究问题] 1.如何解答非线性回归问题? [提示] 非线性回归问题有时并不给出经验公式.这时我们可以 画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、 对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数, 然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到 解决.其一般步骤为:
2.已知 x 和 y 之间的一组数据,则下列四个函数中,模拟效果 最好的为哪一个?
x
1
2
3
y
3
5.99
12.01
①y=3×2x-1; ②y=log2x; ③y=4x; ④y=x2.
[提示] 观察散点图中样本点的分布规律可判断样本点分布在 曲线 y=3×2x-1 附近,所以模拟效果最好的为①.
【例 3】 某地区不同身高的未成年男性的体重平均值如下表:
第三章 统计案例
§1 回归分析 1.1 回归分析 1.2 相关系数 1.3 可线性化的回归分析
高中数学第三章统计案例1.1回归分析1.2相关系数学案北师大版选修2_34
1.1回归剖析1.2有关系数学目 1. 会成立性回模型剖析两个量的有关关系.2. 能通有关系数判断两个量的性有关程度.3. 掌握成立性回模型的步.知点一性回方程思虑(1) 什么叫回剖析?(2)回剖析中,利用性回方程求出的函数必定是真?梳理(1) 均匀的符号表示假本点 ( x1,y1) ,( x2,y2 ) ,⋯, ( x n,y n) ,在上,用x 表示一数据x1,x2,⋯,x n的均匀,即 x =______=________;用 y 表示一数据y1,y2,⋯,y n的均匀,即 y=______________ =______________.(2) 参数a,b的求法l xyb=l xx=____________=____________, a=________.知点二有关系数思虑 1出n数据,依据公式求出的性回方程,能否必定能反应n 数据的化律?思虑 2怎通有关系数刻画量之的性有关关系?梳理(1) 有关系数r的算公式n∑ x i y i-n x yr =i=1.n n2-n x2∑ y22∑ x i- n yii = 1i = 1(2) 有关系数r的取范是 ________, | r | 越大,量之的性有关程度越高;| r |越靠近 0,变量之间的线性有关程度越低.(3)当r >0时,b________0,称两个变量正有关;当 r <0时, b________0,称两个变量负有关;当 r=0时,称两个变量线性不有关.种类一观点的理解和判断例 1 有以下说法:①线性回归剖析就是由样本点去找寻一条直线,使之切近这些样本点的数学方法;②利用样本点的散点图能够直观判断两个变量的关系能否能够用线性关系表示;③经过回归方程y=bx+ a 能够预计观察变量的取值和变化趋向;④由于由任何一组观察值都能够求得一个线性回归方程,所以没有必需进行有关性查验.此中正确命题的个数是()A.1 B.2 C.3 D.4追踪训练1以下关系中,是有关关系的是________. ( 填序号 )①正方形的边长与面积之间的关系;②农作物的产量与施肥量之间的关系;③人的身高与年纪之间的关系;④降雪量与交通事故的发生率之间的关系.种类二回归剖析命题角度1求线性回归方程例 2某研究机构对高三学生的记忆力x 和判断力y 进行统计剖析,得下表数据:x681012y2356(1)请画出上表数据的散点图;(2)请依据上表供给的数据,用最小二乘法求出y 对于 x 的线性回归方程y=bx+ a;(3)试依据求出的线性回归方程,展望记忆力为9 的同学的判断力.追踪训练 2某个服饰店经营某种服饰,在某周内纯赢利y(元)与该周每日销售这类服饰件数 x 之间的一组数据以下表:x3456789y66697381899091(1) 求样本点的中心;(2) 画出散点图;(3) 求纯赢利y与每日销售件数x 之间的回归方程.命题角度 2 线性回归剖析与回归模型建立例 3 某商场经营一批进价是 30元 / 台的小商品,在市场试验中发现,此商品的销售单价x( x 取整数 )( 元) 与日销售量y( 台) 之间有以下关系:x35404550y56412811(1)画出散点图,并判断 y 与 x 能否拥有线性有关关系;(2)求日销售量 y 对销售单价 x 的线性回归方程;(3) 设经营此商品的日销售收益为P 元,依据(2)写出 P 对于 x 的函数关系式,并展望当销售单价 x 为多少元时,才能获取最大日销售收益.追踪训练3某电脑公司有 5 名产品销售员,其工作年限与年销售金额数据以下表:销售员编号12345工作年限 x/年35679销售金额 y/万元23345(1)求年销售金额 y 对工作年限 x 的线性回归方程;(2) 若第 6 名销售员的工作年限为11 年,试预计他的年销售金额.种类三有关系数的计算与应用例 4现随机抽取了某中学高一10 名在校学生,他们入学时的数学成绩( x) 与入学后第一次考试的数学成绩 ( y) 以下:学生号12345678910 x12010811710410311010410599108y84648468696869465771请问:这10 名学生的两次数学成绩能否拥有线性有关关系?追踪训练 4 下边的数据是从年纪在40 岁到 60 岁的男子中随机抽出的 6 个样本,分别测定了心脏的功能水平( 满分 100) ,以及每日花在看电视上的均匀时间x (小时).y看电视的均匀时间 x 4.4 4.6 2.7 5.80.2 4.6心脏功能水平 y525369578965(1)求心脏功能水平y 与每日花在看电视上的均匀时间x 之间的样真有关系数 r ;(2)求心脏功能水平y 与每日花在看电视上的均匀时间x 的线性回归方程,并议论方程能否存心义;(3)预计均匀每日看电视 3 小时的男子的心脏功能水平.1.下表供给了某厂节能降耗技术改造后在生产 A 产品过程中记录的产量x(t)与相应的生产能耗 y(t)的几组对应数据:x3456y 2.5t4 4.5依据上表供给的数据,求出y 对于 x 的线性回归方程为y=0.7 x+0.35,那么表中 t 的值为()A. 3 B . 3.15 C .3.5 D .4.52.下表是x和y之间的一组数据,则y 对于 x 的回归直线必过点()x1234y1357A.(2,3) B.(1.5,4) C.(2.5,4) D.(2.5,5)3.一唱片公司欲知打歌花费x(十万元)与唱片销售量y(千张)之间的关系,从其所刊行的唱1010101010片中随机抽取了10 张,得以下的资料:22, xx i=28, x i=303.4, y i=75, y i=598.5i= 1i= 1i= 1i= 1i= 1i y i =237,则y 与 x 的有关系数r 的绝对值为________.4.面对竞争日趋强烈的花费市场,众多商家不停扩大自己的销售市场,以降低生产成本.某白酒酿造公司市场部对该公司9 月份的产品销量x(单位:千箱)与单位成本y(单位:元)的766资料进行线性回归剖析,结果以下:y =71,2= 79,x i y i=1 481.则销量每x =,x i2i = 1i = 1增添 1 000 箱,单位成本降落 ________元.5.已知x、y之间的一组数据以下表:x0123y1357(1)分别计算:2222 x 、 y 、 x1y1+ x2y2+ x3y3+ x4y4、 x1+ x2+ x3+ x4;(2)已知变量 x 与 y 线性有关,求出回归方程.回归剖析的步骤(1)确立研究对象,明确哪个变量是自变量,哪个变量是因变量.(2)画出确立好的自变量和因变量的散点图,察看它们之间的关系(如能否存在线性关系等).(3)由经验确立回归方程的种类 ( 假如呈线性关系,则采用线性回归方程y=bx+ a).(4)按必定规则预计回归方程中的参数.答案精析学知 点一思虑(1) 回 剖析是 拥有有关关系的两个 量 行 剖析的一种方法.(2) 不必定是真 ,利用 性回 方程求的 ,在好多 候是个 ,比如,人的体重与身高存在必定的 性关系,但体重除了受身高的影响外, 受其余要素的影响,如 食、能否喜 运 等.x +x +⋯+ xn1 ny + y +⋯+ y12x i12n梳理(1)nnni=1nnx i - xy i - yx i y i - n x y1ni = 1i = 1(2)-n i = 1y inny b x22x i - x2x i - n xi =1i =1知 点二思虑 1假如数据散点 中的点都大概散布在一条直 邻近,条直 就能反应n 数据的 化 律,否 求出的方程没有 意 .思虑 2| r | 越靠近 1, 量之 的 性有关程度越高;| r | 越靠近0, 量之 的 性有关程度越低;当 r = 0 ,两个 量 性不有关.梳理(2)[ - 1,1](3)><型研究例 1 C追踪1 ②④例 2解(1) 散点 如 .4(2) 因 x i y i =6×2+8×3+10×5+12×6= 158,i =1x= 6+ 8+ 10+ 12=9,y= 2+3+ 5+ 6=4,44422222x i=6+8+ 10 +12= 344,i = 1所以= 158-4×9×42= 14=0.7,b-4×920344a= y - b x =4-0.7×9=-2.3,故线性回归方程为y=0.7 x-2.3.(3) 由 (2) 中线性回归方程可知,当x=9时,y=0.7×9-2.3=4,所以展望记忆力为9 的同学的判断力约为 4.追踪训练2解(1)x =6, y ≈79.86,样本点的中心为(6,79.86).(2)散点图以下:77x i=280,(3) 由于x i y i=3 487,2i =1i =17x i y i-7 x yi=1所以 b=7x2x2i -7i = 13 487 -7×6×79.86=2≈4.75.280-7×6a= y - b x ≈51.36,所以 y=4.75 x+51.36.例 3 解 (1) 散点图以下图,从图中能够看出这些点大概散布在一条直线邻近,所以两个变量线性有关.1(2) 由于x=4×(35 + 40+ 45+50) = 42.5 ,1y=4×(56 + 41+ 28+11) = 34.nx i y i=35×56+40×41+45×28+50×11= 5 410.i = 1422222= 7 350.x i=35+40 + 45+ 50i = 14x i y i-4 x yi =1所以 b==42- 4x 2x ii = 15 410 -4×42.5 ×34- 3702=≈- 3.7 350 -4×42.5125a= y - b x =34-(-3)×42.5=161.5.所以线性回归方程为y =161.5-3 .x(3) 依题意,有P=(161.5-3x)( x-30)=- 3x2+ 251.5 x- 4 8452=-3(x-251.5 )2+ 251.5 -4 845.612251.5所以当 x=≈42时,P有最大值,约为426元.即展望当销售单价为42元时,能获取6最大日销售收益.追踪训练 3解 (1)设所求的线性回归方程为y= a+ bx,5x i- x y i- yi =110则 b=5=20= 0.5 ,a=y-b x= 0.4.x i- x2i =1∴年推金y 工作年限x 的性回方程y=0.4+0.5 x.(2) 当x= 11 ,y=0.4 +0.5 ×11= 5.9( 万元 ) ,∴能够估第 6名推的年推金 5.9 万元.x =1例 4 解10(120 + 108+⋯+ 99+ 108) = 107.8 ,y =1(84 +64+⋯+ 57+ 71) =68,10102222+ 1082,x i=120+108+⋯+ 99= 116 584i = 11022222,y i=84+ 64 +⋯+ 57+ 71= 47 384i = 110x i y i=120×84+108×64+⋯+99×57+108×71=73 796. i= 1所以有关系数r =73 796 -10×107.8 ×68≈0.750 6.-10×107.8 2-10×68 2由此可看出10 名学生的两次数学成拥有性有关关系.追踪 4解n=6, x =1(4.4+ 4.6 +⋯+ 4.6)≈3.716 7 ,61y=6(52 + 53+⋯+ 65) ≈64.166 7 ,62x2=(4.42+ 4.6222,x i-6+⋯+ 4.6 ) -6×3.716 7≈19.766 8 i = 1622=(522222≈964 .807 7,y i-6 y+ 53+⋯+ 65 ) -6×64.166 7i = 16x i y i-6 x y =(4.4×52+4.6×53+⋯+4.6×65)-6×3.7167×64.166 7≈- 124.630 i= 12.(1) 心功能水平y 与每日花在看上的均匀x 之的有关系数:-124.630 2r =≈- 0.902 5.19.766 8 ×964.807 7高中数学第三章统计案例1.1回归分析1.2相关系数学案北师大版选修2_34- 124.630 2, a = y - b x ≈87.600 5 ,心脏功能水平 y 与每日花在看 (2) b =19.766 8 ≈- 6.305 0 电视上的均匀时间 x 的线性回归方程为 y = 87.600 5 - 6.305 0 x .由(1) 知 y 与 x 之间有较强的线性关系,所以这个方程是存心义的.(3) 将 x = 3 代入线性回归方程 y = 87.600 5 - 6.305 0 x ,可得 y ≈68.7 ,即均匀每日看电视 3 小时,心脏功能水平约为 68.7.当堂训练1. A 2.C3. 0.3 4.1.818 25.解 (1) 0+ 1+2+ 31+3+5+7x = 4 = 1.5 , y = = 4,41 y 1+2 2+33+4 4=0×1+1×3+2×5+3×7= 34,x x y x y x y2 +x 2 2 2 2 2 2 2x + x + x = 0 +1 + 2 + 3 = 14. 1 2 3 434-4×1.5 ×4(2) b = 14-4×1.5 2 =2,a = y -b x = 4-2×1.5 = 1,故线性回归方程为 y = 2x + 1.11。
【配套K12】高中数学第三章统计案例1回归分析可线性化的回归分析教案北师大版选修2_3
1 回归分析一、教学目标:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用。
二、教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法。
教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较。
三、教学方法:讨论交流,探析归纳 四、教学过程: (一)、复习引入:1、给出例题:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中,试建立y 与x 之间的回归方程.(学生描述步骤,教师演示)2、讨论:观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系. (二)、新课探究:1. 探究非线性回归方程的确定:① 如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模.② 根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y =2C 1e x C 的周围(其中12,c c 是待定的参数),故可用指数函数模型来拟合这两个变量.③ 在上式两边取对数,得21ln ln y c x c =+,再令ln z y =,则21ln z c x c =+,而z 与x 间的关系如下:观察z 与x 方程来拟合.④ 利用计算器算得 3.843,0.272a b =-=,z 与x 间的线性回归方程为0.272 3.843z x =-,因此红铃虫的产卵数对温度的非线性回归方程为0.272 3.843x y e -=.⑤ 利用回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行.其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题. 2. 小结:(1)、用回归方程探究非线性回归问题的方法、步骤.(2)、化归思想(转化思想)在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式. (1)b y a x =+,令'y y =,1'x x=,则有''y a bx =+. (2)by ax =,令'ln y y =,'ln x x =,'ln a a =,则有'''y a bx =+. (3)bxy ae =,令'ln y y =,'x x =,'ln a a =,则有'''y a bx =+.(4)b x y ae =,令'ln y y =,1'x x=,'ln a a =,则有'''y a bx =+. (5)ln y a b x =+,令'y y =,'ln x x =,则有''y a bx =+. (三)、巩固练习:为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:(1(2)试求出预报变量对解释变量的回归方程。
「精品」高中数学第3章统计案例1回归分析课件北师大版选修2_3201703030190-精品资料
解析: 经计算,去掉D(3,10)这一组数据后,其他4组数 据对应的点都集中在某一条直线附近,即两变量的线性相关性 最强,此时相关指数最大.
答案: D(3,10)
4.现随机抽取了我校 10 名学生在入学考试中的数学成绩 (x)与入学后的第一次考试中的数学成绩(y),数据如下表: 学生号 1 2 3 4 5 6 7 8 9 10
(2)求物理成绩y对数学成绩x的线性回归方程.
[思路导引] 利用相关系数r判断x与y是否相关,若相关再 利用线性回归模型求解.
[边听边记] (1) x = 15×(88+76+73+66+63)=73.2, y = 15×(78+65+71+64+61)=67.8.
5
xiyi=88×78+76×65+73×71+66×64+63×61
n
=
i=1xiyi-n x y
x -n x y -n n
2
i=1 i
2 n 2 i=1 i
y
.2
(2)线性相关系数r与相关关系的强弱: ①当__r_>__0_____时,两个变量正相关; ②当__r_<__0_____时,两个变量负相关; ③当___r_=__0____时,称两个变量线性不相关; ④r的取值在__[_-__1_,_1_] __ 之间,_|_r_| ____ 值越大,变量之 间的线性相关程度越高; ⑤r的绝对值越接近于___0____,表示两个变量之间的线性 相关程度越低.
n
n
b=llxxyx=i=1
xi- x yi-
n i=1
xi- x 2
y
=i=1i=xn1iyxi_b_x___.
怎样确定回归的模型 1.确定研究对象,明确要考虑哪两个变量之间的相关关 系. 2.画出确定好的两个变量的散点图,观察它们之间的关 系(如是否存在线性关系等). 3.由经验确定回归方程的类型(如观察到数据呈线性关 系,则选用线性回归方程=bx+a). 4.按一定规则估计回归方程中的参数(如最小二乘法).得 出回归方程.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.1 回归分析
自主整理
假设样本点为(x1,y1),(x2,y2),…,(x n,y n),设线性回归方程为y=a+bx,使这n个点与直线y=a+bx的_____________最小,即使得Q(a,b)=_____________达到最小.利用最小二
乘法的思想求得.
当b=_____________,a=_____________时,Q(a,b)取最小值.
高手笔记
1.对具有相关关系的两个变量进行统计分析的方法叫回归分析.回归分析是寻找相关关系中非确定性关系的某种确定性.
2.如果散点图中点的分布从整体上看大致在一条直线附近,我们称这两个变量之间具有线
性相关关系,这条直线叫回归直线,从整体上看各点与此直线的距离平方之和最小,即最
贴近已知的数据点,最能代表变量x与y之间的关系.
名师解惑
1.相关关系与函数关系有哪些相同点和不同点?
剖析:相同点:两者均指两个变量的关系.
不同点:(1)函数关系是一种确定的关系,相关关系是一种非确定的关系;(2)函数关
系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.如何理解相关关系的不确定性?
剖析:教材中利用始祖鸟的5个标本求出股骨长度x与肱骨长度y的回归直线方程为y=-3.660+1.197x,那么将第6个标本中股骨长度x=50代入回归直线方程,可以预测第6个标本中的肱骨长度的估计值约为56 cm.是不是当股骨长度x=50时,肱骨长度y一定为56呢?不一定.但如果有大量化石供研究时,股骨长度为50 cm的始祖鸟的肱骨的平均值应为56 cm.
讲练互动
【例】关于人体的脂肪含量(百分比)和年龄关系的研究中,研究人员获得了一组数据:
年龄x23273941454950
脂肪y9.517.821.225.927.526.328.2
年龄x53545657586061
脂肪y29.630.231.430.833.535.234.6 (1)求y与x之间的回归直线方程;
(2)给出37岁人的脂肪含量的预测值.
分析:两个变量呈现近似的线性关系,可通过公式计算出其线性回归方程,并根据方程求
出其预测值.
解:设方程为y=a+bx,根据已知列表为:
i x i y i x i2x i y i
1239.5529218.5
22717.8729480.6
33921.2 1 521826.8
44125.9 1 681 1 061.9
54527.5 2 025 1 237.5
64926.3 2 401 1 288.7
75028.2 2 500 1 410
85329.6 2 809 1 568.8
95430.2 2 916 1 630.8105631.4 3 136 1 758.4115730.8 3 249 1 755.6125833.5 3 364 1 943136035.2 3 600 2 112146134.6 3 721 2 110.6∑
673
381.7
34 181
19 403.2
由表可得,14
7
.381,14673==
y x b=
2
)
14
(1434181147
.38114673142.19403⨯-⨯
⨯-≈0.5765,a=y -b x ≈-0.447 8.
∴线性回归方程为y=0.576 5x-0.447 8.当x=37时,y≈20.882 7.
∴37岁人的脂肪含量的预测值为20.882 7.绿色通道:对于样本点较多时,可列表分项计算.变式训练
某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系.从这个工业部门内随机抽取了10个企业作样本,有如下资料:
产量x (千件)
生产费用y (千元)
40150421404816055170651507916288185100165120
190140
185
求x 、y 之间的线性回归方程.解:x 、y 成线性相关关系.列表:
i x i y i x i 2x i y i 140150 1 600 6 000242140 1 764 5 880348160 2 3047 680455170 3 0259 350565150 4 2259 7506
79
162
6 241
12 798
7881857 74416 280810016510 00016 500912019014 40022 8001014018519 60025 900∑
777
1 657
70 903
132 938
∴x =
10777
=77.7,10
1657=y =165.7,
b=2
7
.7710709037.1657.7710132938⨯-⨯⨯-≈0.398,a=y -b x =165.7-0.398×77.7=134.8.∴线性回归方程为y=134.8+0.398x.。