2.3.3_变量之间的相关关系(2)
2.3.1(2.3.2)变量之间的相关关系和线性关系
2.3 变量间的相关关系2.3.1 变量之间的相关关系2.3.2 两个变量的线性相关整体设计教学分析变量之间的关系是人们感兴趣的问题.教科书通过思考栏目“物理成绩与数学成绩之间的关系”,引导学生考察变量之间的关系.在教师的引导下,可使学生认识到在现实世界中存在不能用函数模型描述的变量关系,从而体会研究变量之间的相关关系的重要性.随后,通过探究人体脂肪百分比和年龄之间的关系,引入描述两个变量之间关系的线性回归方程(模型).教科书在探索用多种方法确定线性回归直线的过程中,向学生展示创造性思维的过程,帮助学生理解最小二乘法的思想.通过气温与饮料销售量的例子及随后的思考,使学生了解利用线性回归方程解决实际问题的全过程,体会线性回归方程作出的预测结果的随机性,并且可能犯的错误.进一步,教师可以利用计算机模拟和多媒体技术,直观形象地展示预测结果的随机性和规律性.三维目标1.通过收集现实问题中两个有关联变量的数据认识变量间的相关关系.2.明确事物间的相互联系.认识现实生活中变量间除了存在确定的关系外,仍存在大量的非确定性的相关关系,并利用散点图直观体会这种相关关系.3.经历用不同估算方法描述两个变量线性相关的过程.知道最小二乘法的思想,能根据给出的线性回归方程的系数公式建立线性回归方程.重点难点教学重点:通过收集现实问题中两个有关联变量的数据直观认识变量间的相关关系;利用散点图直观认识两个变量之间的线性关系;根据给出的线性回归方程的系数公式建立线性回归方程.教学难点:变量之间相关关系的理解;作散点图和理解两个变量的正相关和负相关;理解最小二乘法的思想.课时安排2课时教学过程第1课时导入新课思路1在学校里,老师对学生经常这样说:“如果你的数学成绩好,那么你的物理学习就不会有什么大问题.”按照这种说法,似乎学生的物理成绩与数学成绩之间存在着一种相关关系.这种说法有没有根据呢?的,物理也好;数学差的,物理也差,但又不全对.)物理成绩和数学成绩是两个变量,从经验看,由于物理学习要用到比较多的数学知识和数学方法.数学成绩的高低对物理成绩的高低是有一定影响的.但决非唯一因素,还有其他因素,如是否喜欢物理,用在物理学习上的时间等等.(总结:不能通过一个人的数学成绩是多少就准确地断定他的物理成绩能达到多少.但这两个变量是有一定关系的,它们之间是一种不确定性的关系.如何通过数学成绩的结果对物理成绩进行合理估计有非常重要的现实意义.)为很好地说明上述问题,我们开始学习变量之间的相关关系和两个变量的线性相关.(教师板书课题)思路2某地区的环境条件适合天鹅栖息繁衍,有人经统计发现了一个有趣的现象,如果村庄附近栖息的天鹅多,那么这个村庄的婴儿出生率也高,天鹅少的地方婴儿的出生率低,于是,他就得出一个结论:天鹅能够带来孩子.你认为这样得到的结论可靠吗?如何证明这个结论的可靠性?推进新课新知探究提出问题(1)粮食产量与施肥量有关系吗?“名师出高徒”可以解释为教师的水平越高,学生的水平也越高.教师的水平与学生的水平有什么关系?你能举出更多的描述生活中两个变量的相关关系的成语吗?(2)两个变量间的相关关系是什么?有几种?(3)两个变量间的相关关系的判断.讨论结果:(1)粮食产量与施肥量有关系,一般是在标准范围内,施肥越多,粮食产量越高;教师的水平与学生的水平是相关的,如水滴石穿,三人行必有我师等.我们还可以举出现实生活中存在的许多相关关系的问题.例如:商品销售收入与广告支出经费之间的关系.商品销售收入与广告支出经费有着密切的联系,但商品销售收入不仅与广告支出多少有关,还与商品质量、居民收入等因素有关.粮食产量与施肥量之间的关系.在一定范围内,施肥量越大,粮食产量就越高.但是,施肥量并不是决定粮食产量的唯一因素.因为粮食产量还要受到土壤质量、降雨量、田间管理水平等因素的影响.人体内的脂肪含量与年龄之间的关系.在一定年龄段内,随着年龄的增长,人体内的脂肪含量会增加,但人体内的脂肪含量还与饮食习惯、体育锻炼等有关,可能还与个人的先天体质有关.应当说,对于上述各种问题中的两个变量之间的相关关系,我们都可以根据自己的生活、学习经验作出相应的判断,因为“经验当中有规律”.但是,不管你的经验多么丰富,如果只凭经验办事,还是很容易出错的.因此,在分析两个变量之间的相关关系时,我们需要一些有说服力的方法.在寻找变量之间相关关系的过程中,统计同样发挥着非常重要的作用.因为上面提到的这种关系,并不像匀速直线运动中时间与路程的关系那样是完全确定的,而是带有不确定性.这就需要通过收集大量的数据(有时通过调查,有时通过实验),在对数据进行统计分析的基础上,发现其中的规律,才能对它们之间的关系作出判断.(2)相关关系的概念:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系,叫做相关关系.两个变量之间的关系分两类:①确定性的函数关系,例如我们以前学习过的一次函数、二次函数等;②带有随机性的变量间的相关关系,例如“身高者,体重也重”,我们就说身高与体重这两个变量具有相关关系.相关关系是一种非确定性关系.如商品销售收入与广告支出经费之间的关系.(还与商品质量、居民收入、生活环境等有关)(3)两个变量间的相关关系的判断:①散点图.②根据散点图中变量的对应点的离散程度,可以准确地判断两个变量是否具有相关关系.③正相关、负相关的概念.①教学散点图出示例题:在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:图来进一步分析.②散点图的概念:将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图,如下图.从散点图我们可以看出,年龄越大,体内脂肪含量越高.图中点的趋势表明两个变量之间确实存在一定的关系,这个图支持了我们从数据表中得出的结论.(a.如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.b.如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系.c.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系)③正相关与负相关的概念:如果散点图中的点散布在从左下角到右上角的区域内,称为正相关.如果散点图中的点散布在从左上角到右下角的区域内,称为负相关.(注:散点图的点如果几乎没有什么规则,则这两个变量之间不具有相关关系)应用示例思路1例1 下列关系中,带有随机性相关关系的是_____________.①正方形的边长与面积之间的关系②水稻产量与施肥量之间的关系③人的身高与年龄之间的关系④降雪量与交通事故的发生率之间的关系解析:两变量之间的关系有两种:函数关系与带有随机性的相关关系.①正方形的边长与面积之间的关系是函数关系.②水稻产量与施肥量之间的关系不是严格的函数关系,但是具有相关性,因而是相关关系.③人的身高与年龄之间的关系既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而他们不具备相关关系.④降雪量与交通事故的发生率之间具有相关关系,因此填②④.答案:②④例2 有关法律规定,香烟盒上必须印上“吸烟有害健康”的警示语.吸烟是否一定会引起健康问题?你认为“健康问题不一定是由吸烟引起的,所以可以吸烟”的说法对吗?分析:学生思考,然后讨论交流,教师及时评价.解:从已经掌握的知识来看,吸烟会损害身体的健康,但是除了吸烟之外,还有许多其他的随机因素影响身体健康,人体健康是很多因素共同作用的结果.我们可以找到长寿的吸烟者,也更容易发现由于吸烟而引发的患病者,所以吸烟不一定引起健康问题.但吸烟引起健康问题的可能性大.因此“健康问题不一定是由吸烟引起的,所以可以吸烟”的说法是不对的.点评:在探究研究的过程中,如果能够从两个变量的观察数据之间发现相关关系是极为有意义的,由此可以进一步研究二者之间是否蕴涵因果关系,从而发现引起这种相关关系的本质原因是什么.本题的意义在于引导学生重视对统计结果的解释,从中发现进一步研究的问题.思路2例1 有时候,一些东西吃起来口味越好,对我们的身体越有害.下表给出了不同类型的某种食品的数据.第二列表示此种食品所含热量的百分比,第三列数据表示由一些美食家以百分制给出的对此种食品口味的评价:(2)关于两个变量之间的关系,你能得出什么结论?解:(1)散点图如下:(2)基本成正相关关系,即食品所含热量越高,口味越好.例2 案例分析:一般说来,一个人的身高越高,他的右手一拃长就越长,因此,人的身高与右手一拃长之间存在着一定的关系.为了对这个问题进行调查,我们收集了北京市某中学2003年高三年级96名学生的身高与右手一拃长的数据如下表.(1)根据上表中的数据,制成散点图.你能从散点图中发现身高与右手一拃长之间的近似关系吗?(2)如果近似成线性关系,请画出一条直线来近似地表示这种线性关系.(3)如果一个学生的身高是188 cm,你能估计他的一拃大概有多长吗?解:根据上表中的数据,制成的散点图如下.从散点图上可以发现,身高与右手一拃长之间的总体趋势是成一直线,也就是说,它们之间是线性相关的.那么,怎样确定这条直线呢?同学1:选择能反映直线变化的两个点,例如(153,16),(191,23)两点确定一条直线.同学2:在图中放上一根细绳,使得上面和下面点的个数相同或基本相同.同学3:多取几组点对,确定几条直线方程.再分别算出各个直线方程斜率、截距的算术平均值,作为所求直线的斜率、截距.同学4:从左端点开始,取两条直线,如下图.再取这两条直线的“中间位置”作一条直线.同学5:先求出相同身高同学右手一拃长的平均值,画出散点图,如下图,再画出近似的直线,使得在直线两侧的点数尽可能一样多.同学6:先将所有的点分成两部分,一部分是身高在170 cm以下的,一部分是身高在170 cm 以上的;然后,每部分的点求一个“平均点”——身高的平均值作为平均身高、右手一拃的平均值作为平均右手一拃长,即(164,19),(177,21);最后,将这两点连接成一条直线.同学7:先将所有的点按从小到大的顺序进行排列,尽可能地平均分成三等份;每部分的点按照同学3的方法求一个“平均点”,最小的点为(161.3,18.2),中间的点为(170.5,20.1),最大的点为(179.2,21.3).求出这三个点的“平均点”为(170.3,19.9).我再用直尺连接最大点与最小点,然后平行地推,画出过点(170.3,19.9)的直线.同学8:取一条直线,使得在它附近的点比较多.在这里需要强调的是,身高和右手一拃长之间没有函数关系.我们得到的直线方程,只是对其变化趋势的一个近似描述.对一个给定身高的人,人们可以用这个方程来估计这个人的右手一拃长,这是十分有意义的.知能训练一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如下:关于加工零件的个数与加工时间,你能得出什么结论?答案:(1)散点图如下:(2)加工零件的个数与所花费的时间呈正线性相关关系.拓展提升以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:(2)指出是正相关还是负相关;(3)关于销售价格y和房屋的面积x,你能得出什么结论?解:(1)数据对应的散点图如下图所示:(2)散点图中的点散分布在从左下角到右上角的区域内,所以是正相关.(3)关于销售价格y和房屋的面积x,房屋的面积越大,价格越高,它们呈正线性相关的关系. 课堂小结通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.作业习题2.3A组3、4(1).设计感想本节课学习了变量之间的相关关系和两个变量的线性相关的部分内容,通过身边的具体实例说明了两个变量的相关关系,并学会了利用散点图及其分布来说明两个变量的相关关系的种类,为下一节课作了铺垫,思路1和思路2的例题对知识进行了巩固和加强,另外,本节课通过选取一些学生特别关心的身边事例,对学生进行思想情操教育、意志教育和增强学生的自信心,养成良好的学习态度和学习方法,树立时间观,培养勤奋、刻苦耐劳的精神.备课资料数学家关肇直关肇直(1919.2.13—1982.11.12),中国科学院院士,是中国数学家,生于北京.原籍广东省南海县.父亲关葆麟早年留学德国,回国后任铁道工程师多年,于1932年故世;母亲陆绍馨,是北平女子师范大学的毕业生,曾从教于北京师范大学.关葆麟去世后,母亲以微薄的收入艰难地抚育关肇直及其弟妹多人.全国解放后,关肇直尽心亲侍慈母,直至1967年去世.关肇直于1959年1月与刘翠娥结婚,他们有两个女儿.刘翠娥系中国科学院工程物理研究所研究人员.关肇直于1927年进入北京培华中学附属小学学习.1931年入英国人办的崇德中学学习.学校对英文要求十分严格,加上关肇直自小就由父母习以英文、德文,为日后掌握英文、德文、法文、西班牙文和俄文奠定了良好基础.1936年高中毕业后考入清华大学土木工程系,后于1938年转入燕京大学数学系学习.毕业后在燕京大学(后迁成都)任教.参加成都教授联谊会,担任学生进步组织的导师,积极支持抗日救国学生运动.1946年春从成都返回北平(北京),不久从燕京大学转到北京大学数学系任教.1947年通过考试成为国民政府派遣的中法交换生赴法国留学.名义上去瑞士学哲学,实际上去了巴黎大学庞加莱研究所研究数学,导师是著名数学家、一般拓朴与泛函分析的创始人弗雷歇(M.R.F rechetl),1948年参加革命团体“中国科学工作者协会”,是该会旅法分会的创办人之一.1949年10月,新中国诞生,他毅然决定放弃获得博士学位的机会.于12月回到祖国,满腔热情地参加了新中国的建设.他立即参加了组建中国科学院的工作.他和其他同志一起,协助郭沫若院长筹划建院事宜,确定科学院的方向、任务、体制等,组建科学院图书馆,担任图书管理处处长,编译局处长.1952年参加筹建中国科学院数学研究所的工作,并在数学研究所从事数学研究,历任副研究员、研究员、研究室主任、副所长、学术委员会副主任.他还是中国科学院声学研究所学术委员会委员及原子能研究所学术委员会委员.从1952年起,兼任北京师范大学、北京大学、中国人民大学和中国科技大学等校教授以及华南工学院名誉教授;并兼任过中国科学院成都分院学术顾问、该院数理科学研究室主任、中国科学院武汉数学物理研究所顾问、研究员.他还是国家科委数学学科组副组长、自动化学科组成员;曾担任北京数学会理事长,中国数学会秘书长,国际自动控制联合会理论委员会成员及《中国科学》《科学通报》《数学学报》和《系统科学与数学》等杂志的编委或主编等职.1980年,他与其他科学家一起创建中国科学院系统科学研究所,担任研究所所长.他还担任中国自动化学会副理事长、中国系统工程学会理事长.1980年当选为中国科学院数理学部委员.关肇直长期从事泛函分析、数学物理、现代控制理论等领域的研究,成绩卓著,为我国的社会主义现代化建设作出了重大贡献,1978年获全国科学大会奖,1980年获国防科委、国工办科研奖十几项,1982年获国家自然科学二等奖;关肇直参与主持的项目《尖兵一号返回型卫星和东方红一号》获1985年国家科技进步特等奖,他本人获“科技进步”奖章.关肇直从事泛函分析、数学物理和现代控制理论研究方面,取得水平很高的成果.主要成果有以下几个方面.(一)最速下降法与单调算子思想关肇直于《数学学报》第6卷第4期(1956)发表了学术论文“解非线性函数方程的最速下降法”,第一次把梯度法(又称最速下降法)由有限维空间推广到无限维空间,而且和线性问题相仿,其收敛速度是依照等比级数的.这种方法可以用来解某些非线性积分方程以及某些非线性微分方程边值问题.并在文中首先提出了单调算子的思想,比外国学者早四五年.国外关于单调算子的概念,最早见于1960年扎朗顿尼罗和闵梯(E.H.Z afantonello,G.J.M inty)的工作.单调算子是非线性泛函分析中很基本的概念之一,单调算子理论已成为泛函分析中的一个重要分支,在处理力学、物理学中的许多非线性问题中被广泛地应用.(二)激光问题的数学理论在数学物理方面,关肇直也进行了深入的研究.他在《中国科学》第14卷第7期(1956)上用法文发表了学术论文“关于…激光理论‟中积分方程的非零本征值的存在性”在论文中他利用泛函分析工具,在很弱的假设下,用极为简短的方式证明了激光理论中一般形式的具有非对称核的线性积分方程非零本征值的存在.这一结果受到国际上的重视.被国外书刊广泛引用,如M agraw H ill图书公司1972年出版的柯克朗(J.A.C ochran)著的《线性积分方程分析》一书就曾详细地引用过.(三)中子迁移理论关肇直在数学物理方面的另一个创造,就是关于中子迁移理论的研究.1963年他用希尔伯特空间与不定规度空间的算子谱理论解决了平板几何情形的中子迁移的本征函数问题,著有“关于一类本征值问题”(当时未发表).这比国外罕日布鲁克(H angelbrook)1973年的同类工作早10年.卡帕(H.G.K aper)和兹维贝尔(P.F.Z weibel)在1975年举行的国际迁移理论第四次会议上的报告(载于期刊《T ranspost T heory and S tatistical P hysiss》V ol.4,N o.3,第105—123页,1975)中,在“迁移理论中有什么创新”标题下,把罕日布鲁克的方法称为求解方程的新方法;但是,罕氏著作中所解决的问题,在关肇直的文章中是早已解决了的.关肇直于1963年完成的这篇论文直到他去世后于1984年发表在《数学物理学报》上,国外同行当得知他在60年代就作出了如此高水平的工作时都深表惊异.(四)飞行器弹性控制理论关肇直在《中国科学》1974年第4期上发表了“弹性振动的镇定问题”,首先提出了用线性算子紧扰动理论解决飞行器弹性振动的镇定问题.在这之前,美国的著名控制论专家鲁塞尔(D.L.R ussell)曾用别的方法讨论过此类问题,但他自己认为他所得的结果“当然并非完全满意”,“增益系数的增大应能改进系统的稳定性,但这样整体性结果没有得到……”他甚至认为:显然他所用的方法“带来必须小的缺陷,……,但很怀疑这里定理所表述的结果的确切化用任何别的技术来实现.”可是,与鲁塞尔的怀疑相反,关肇直用了算子紧扰动方法技巧,此方法与鲁塞方法有本质的区别,它确实摆脱了放大系数很小的限制,得出了工程意义更合理的结果.这项成果已经应用到我国的国防尖端技术设计上,成为导弹运载火箭所必不可少的一个设计理论.(五)几本主要著作1.《泛函分析讲义》1958年高等教育出版社出版了关肇直的《泛函分析讲义》.该书吸取了当时国际上几部有名的介绍泛函分析概要的书的长处,内容适中,很具特色,便于自学.这是国内第一部包括当时泛函分析各分支的较全面的专著,国内当时这类书很少;国内除此之外,迄今也仍只有一些教科书性质的出版物,还没有别的书代替它.关肇直曾使用这部著作在1956年和1957年分别为中国科学院数学研究所一批青年同志和北京大学第一届泛函分析专门化学生讲授过《泛函分析》课程,培养了一批从事泛函分析等方面的中青年骨干教师和科研人员.此书至今仍有重大参考价值.2.《拓扑空间榻论》科学出版社于1958年出版了关肇直教授的这本书.本书是为了数学分析方面的青年数学工作者的需要而写的.目的是使读者获得关于拓扑空间理论的基础知识.本书在当时是这方面较系统的也是较早的一部专著.作者是按照自己的观点来写的,书中许多定理的证明都是作者给出的,他尽可能地遵循一般实变函数论中的叙述问题的方式,因而有自己的特色.这是为了使读者感到新知识与原有知识有联系,对新的抽象概念不至感到突然,同时又帮助读者直达科学研究的前沿.根据研究概率论方面的读者反映,对他们研究极限定理一类工作颇有帮助.3.《高等数学教程》人民教育出版社于1959年出版.本书是关肇直在中国科技大学开办应用数学专业讲授高等数学课程而编写的教材,特点是:材料比较丰富,注意理论联系实际.4.《线性泛函分析入门》上海科技出版社于1979年出版.关肇直同他的学生张恭庆、冯德兴合著.著书的目的是为了满足多方面科学研究工作者的需要,因为当时线性泛函分析已成为许多从事科学技术研究的人所渴望了解和应用的一门数学学科.此书的特点是:尽可能从一些问题提炼出泛函分析中的基本概念,让读者透过叙述方法了解到研究的过程.5.《现代控制系统理论小丛书》这是由关肇直主编的,包括线性系统理论、非线性系统理论、极值控制理论、系统辨识、最优控制与随机控制理论、分布参数系统理论及其他有关内容,共分十几分册,由科学出版社从1975年开始陆续出版.这套丛书介绍了现代控制系统理论的各个部分,并着重说明这种理论怎样由工程实践的需要而产生,又怎样用来解决工程设计中的实际问题.此丛书主要是为从事控制理论研究的科学工作者和工程技术人员而撰写的.此丛书的出版,对于促进我国的控制理论和控制技术的发展起到了很好的作用.。
高中数学第二章统计2.3变量的相关性2.3.1-2.3.2变量间的相关关系两个变量的线性相关教学案新人教B版必修3
2.3.1 & 2.3.2 变量间的相关关系 两个变量的线性相关习课本P73~78,思考并完成以下问题预(1)相关关系是函数关系吗?(2)什么是正相关、负相关?与散点图有什么关系?(3)回归直线方程是什么?如何求回归系数?(4)如何判断两个变量之间是否具备相关关系?[新知初探]1.两个变量的关系分类函数关系相关关系 特征两变量关系确定两变量关系带有随机性2.散点图将样本中n 个数据点(x i ,y i )(i =1,2,…,n )描在平面直角坐标系中得到的图形. 3.正相关与负相关(1)正相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.(2)负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关.4.最小二乘法设x ,Y 的一组观察值为(x i ,y i ),i =1,2,…,n ,且回归直线方程为y ^=a +bx ,当x 取值x i (i =1,2,…,n )时,Y 的观察值为y i ,差y i -y ^i (i =1,2,…,n )刻画了实际观察值y i 与回归直线上相应点纵坐标之间的偏离程度,通常是用离差的平方和,即Q =i =1n(y i -a-bx i)2作为总离差,并使之达到最小.这样,回归直线就是所有直线中Q取最小值的那一条.由于平方又叫二乘方,所以这种使“离差平方和最小”的方法,叫做最小二乘法.5.回归直线方程的系数计算公式回归直线方程回归系数系数a^的计算公式方程或公式y^=a^+b^x b^=∑i=1nxiyi-n x-y-∑i=1nx2i-n x2a^=y-b^x-上方加记号“^ ”的意义区分y的估计值y^与实际值ya,b上方加“^ ”表示由观察值按最小二乘法求得的估计值[小试身手]1.下列命题正确的是( )①任何两个变量都具有相关关系;②圆的周长与该圆的半径具有相关关系;③某商品的需求量与该商品的价格是一种非确定性关系;④根据散点图求得的回归直线方程可能是没有意义的;⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究.A.①③④B.②③④C.③④⑤D.②④⑤解析:选C ①显然不对,②是函数关系,③④⑤正确.v,u;对变量1,得散点图图10),…,1,2=i)(iy,ix(有观测数据y,x.对变量2)(由这两个散点图可以判断2.,得散点图图10),…,1,2=i)(iv,iu(有观测数据A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解析:选C 由这两个散点图可以判断,变量x 与y 负相关,u 与v 正相关.80,当施肥量为250+x 5=y ^归方程为的线性回(kg)y 与水稻产量(kg)x .若施肥量3kg 时,预计水稻产量约为________kg..650(kg)=250+5×80=y ^代入回归方程可得其预测值80=x 解析:把 答案:6504.对具有线性相关关系的变量x 和y ,测得一组数据如下表所示.x 2 4 5 6 8y 30 40 60 50 70若已求得它们的回直线的方程为______________________.,5=2+4+5+6+85=x 解析:由题意可知 y50.=30+40+60+50+705=即样本中心为(5,50).,a ^+x 6.5=y ^设回归直线方程为 ,)y ,x (回归直线过样本中心∵ ,7.51=a ^,即a ^+6.5×5=50∴ 17.5+x 6.5=y ^回归直线方程为∴ 17.5+x 6.5=y ^答案:相关关系的判断[典例] (1) ①正方形的边长与面积之间的关系; ②农作物的产量与施肥量之间的关系; ③人的身高与年龄之间的关系;④降雪量与交通事故的发生率之间的关系. (2)某个男孩的年龄与身高的统计数据如下表所示.年龄x (岁)123456身高y (cm)78 87 98 108 115 120①画出散点图;②判断y 与x 是否具有线性相关关系.[解析] (1)在①中,正方形的边长与面积之间的关系是函数关系;在②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;在③中,人的身高与年龄之间的关系既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而它们不具有相关关系;在④中,降雪量与交通事故的发生率之间具有相关关系.答案:②④(2)解:①散点图如图所示.②由图知,所有数据点接近一条直线排列,因此,认为y 与x 具有线性相关关系.两个变量是否相关的两种判断方法(1)根据实际经验:借助积累的经验进行分析判断.(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.[活学活用]如图所示的两个变量不具有相关关系的是________(填序号).解析:①是确定的函数关系;②中的点大都分布在一条曲线周围;③中的点大都分布在一条直线周围;④中点的分布没有任何规律可言,x ,y 不具有相关关系.答案:①④求回归方程[典例] (1)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5 D.y ^=-0.3x +4.4(2)一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器的运转的速度的变化而变化,下表为抽样试验的结果:转速x (转/秒)16 14 12 8 每小时生产有缺点的零件数y (件)11985①画出散点图;②如果y 对x 有线性相关关系,请画出一条直线近似地表示这种线性关系; ③在实际生产中,若它们的近似方程为y =5170x -67,允许每小时生产的产品中有缺点的零件最多为10件,那么机器的运转速度应控制在什么范围内?[解析] (1)依题意知,相应的回归直线的斜率应为正,排除C 、D.且直线必过点(3,3.5),代入A 、B 得A 正确.答案:A(2)解:①散点图如图所示:②近似直线如图所示:秒/转14,所以机器的运转速度应控制在≤14.9x ,解得≤1067-x 5170得≤10y 由③内.求回归直线方程的步骤.)数据一般由题目给出)(n ,…,1,2=i )(i y ,i x (收集样本数据,设为(1) (2)作出散点图,确定x ,y 具有线性相关关系..i y i x ,2i x ,i y ,i x 把数据制成表格(3).iy i ∑i =1nx ,2i ∑i =1n x ,y ,x 计算(4) ⎩⎪⎨⎪⎧b ^=∑i =1nxiyi -n x y ∑i =1n x2i -n x 2,a ^=y -b ^ x .,公式为a ^,b ^代入公式计算(5).a ^+x b ^=y ^写出回归直线方程(6) [活学活用]已知变量x ,y 有如下对应数据:x 1 2 3 4 y1345(1)作出散点图;(2)用最小二乘法求关于x ,y 的回归直线方程. 解:(1)散点图如图所示.,52=1+2+3+44=x (2) y ,134=1+3+4+54=∑i=14x 39.=20+12+6+1=i y i ∑i =14x 2i ,30=16+9+4+1= b^,1310=39-4×52×13430-4×⎝ ⎛⎭⎪⎫522=a^,0=52×1310-134= .为所求的回归直线方程x 1310=y ^所以 利用线性回归方程对总体进行估计[典例x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据:x 3 4 5 6 y2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,求出y 关于x 的回归直线方程y ^=b ^x +a ^;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的回归直线方程,预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤?[解] (1)散点图如图:,3.5=2.5+3+4+4.54=y ,4.5=3+4+5+64=x (2) ∑i=14x ,66.5=6×4.5+5×4+4×3+3×2.5=i y i ∑i=14x 2i ,86=26+25+24+23= ∑i =14xiyi -4xy∑i =14x2i -4x 2=b ^所以 ,0.7=66.5-4×4.5×3.586-4×4.52=a ^0.35.=0.7×4.5-3.5=x b ^-y = 0.35.+x 0.7=y ^所以所求的线性回归方程为 ,)吨标准煤70.35(=0.35+0.7×100=y ^时,100=x 当(3) 90-70.35=19.65(吨标准煤).即生产100吨甲产品的生产能耗比技改前降低了19.65吨标准煤.只有当两个变量之间存在线性相关关系时,才能用回归直线方程对总体进行估计和预测.否则,如果两个变量之间不存在线性相关关系,即使由样本数据求出回归直线方程,用其估计和预测结果也是不可信的.[活学活用](重庆高考)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2010 2011 2012 2013 2014 时间代号t 1 2 3 4 5 储蓄存款y (千亿元)567810(1)求y 关于t 的回归方程y ^=b ^t +a ^;(2)用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款. 解:(1)列表计算如下:it iy it 2it i y i1 1 5 1 52 2 6 4 123 3 7 9 214 4 8 16 325 5 10 25 50 ∑153655120这里n =5,t -=1n ∑i =1n t i =155=3,y -=1n ∑i =1n y i =365=7.2.又∑i =1nt2i -n t -2=55-5×32=10,i =1n t i y i -n t-y -=120-5×3×7.2=12,从而b ^=1210=1.2,a ^=y --b ^t -=7.2-1.2×3=3.6,故所求回归方程为y ^=1.2t +3.6.(2)将t =6代入回归方程可预测该地区2015年的人民币储蓄存款为y ^=1.2×6+3.6=10.8(千亿元).[层级一 学业水平达标]1.下列变量具有相关关系的是( )A .人的体重与视力B .圆心角的大小与所对的圆弧长C .收入水平与购买能力D .人的年龄与体重解析:选C B 为确定性关系;A ,D 不具有相关关系,故选C.2.已知变量x ,y 之间具有线性相关关系,其散点图如图所示,则其回归方程可能为2+x 1.5=y ^A. 2+x 1.5=-y ^B. 2-x 1.5=y ^C. 2-x 1.5=-y ^D. 之间负相关,回归直线y ,x ,由散点图可知变量a ^+x b ^=y ^设回归方程为 B 解析:选 2.+x 1.5=-y ^,因此方程可能为>0a ^,<0b ^轴上的截距为正数,所以y 在 个样本点,n 的y 和x 是变量)n y ,n x (,…,)2y ,2x (,)1y ,1x (设3.直线l 是由这些样本点通过最小二乘法得到的线性回归直线如图所示,则以下结论正确的是( ))y ,x (过点l .直线A B .回归直线必通过散点图中的多个点C .直线l 的斜率必在(0,1)D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同解析:选A A 是正确的;回归直线可以不经过散点图中的任何点,故B 错误;回归直线的斜率不确定,故C 错误;分布在l 两侧的样本点的个数不一定相同,故D 错误. 4.一项关于16艘轮船的研究中,船的吨位区间为[192,3 246](单位:吨),船员的,x 0.006 2+9.5=y ^的回归方程为x 关于吨位y 人,船员人数32~5人数 (1)若两艘船的吨位相差1 000,求船员平均相差的人数;(2)估计吨位最大的船和最小的船的船员人数.,则2x ,1x 设两艘船的吨位分别为(1)解: y^)2x 6 20.00+(9.5-1x 0.006 2+9.5=2y ^-1 =0.006 2×1 000≈6, 即船员平均相差6人.,0.006 2×192≈11+9.5=y ^时,192=x 当(2) 0.006 2×3 246≈30.+9.5=y ^时,3 246=x 当 即估计吨位最大和最小的船的船员数分别为30人和11人.[层级二 应试能力达标]1.一个口袋中有大小不等的红、黄、蓝三种颜色的小球若干个(大于5个),从中取5次,那么取出红球的次数和口袋中红球的数量是( ) A .确定性关系 B .相关关系 C .函数关系D .无任何关系 解析:选 B 每次从袋中取球取出的球是不是红球,除了和红球的个数有关外,还与球的大小等有关系,所以取出红球的次数和口袋中红球的数量是一种相关关系.,下x 80+50=y ^变化的回归直线方程为)千元(x 依劳动生产率)元(y .农民工月工资2列判断正确的是( )A .劳动生产率为1 000元时,工资为130元B .劳动生产率提高1 000元时,工资水平提高80元C .劳动生产率提高1 000元时,工资水平提高130元D .当月工资为210元时,劳动生产率为2 000元的单x ,但要注意80增加y ,1每增加x 知,x 80+50=y ^由回归直线方程 B 解析:选位是千元,y 的单位是元.3.为了解儿子身高与其父亲身高的关系,随机抽取5对父子身高数据如下:则y 对x 的线性回归方程为( )A .y =x -1B .y =x +1x 12+88=y .C176=y .D =y ,176=174+176+176+176+1785=x 计算得, C 解析:选符合.C 检验知,)y ,x (,根据回归直线经过样本中心176=175+175+176+177+17754.已知x 与y 之间的几组数据如下表:,若某同学根据上表中的前两组a ^+x b ^=y ^假设根据上表数据所得线性回归直线方程为数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )′a <a ^,′b >y ^′ B.a >a ^,′b >b ^A. ′a <a ^,′b <y ^′ D.a >a ^,′b <b ^C. 解析:选C 由(1,0),(2,2)求b ′,a ′.2.=-2×1-0=′a ,2=2-02-1=′b ,58=24+15+12+3+4+0=i y i ∑i =16x 时,a ^,b ^求 x ,136=y ,3.5= ∑i=16x 2i ,91=36+25+16+9+4+1= ,57=58-6×3.5×13691-6×3.52=b ^∴ a^,13=-52-136=×3.557-136= ′.a >a ^,′b <b ^∴ =y ^的回归方程为(cm)x 对身高(kg)y 岁的人,体重38岁到18.正常情况下,年龄在50.72x -58.2,张红同学(20岁)身高为178 cm ,她的体重应该在________ kg 左右. =y ^时,178=x 的人的体重进行预测,当178 cm 解析:用回归方程对身高为0.72×178-58.2=69.96(kg).答案:69.966.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:________.=a ,则a +x 4=-y 由表中数据,求得线性回归方程为 ,132=4+5+6+7+8+96=x 解析: y,80=92+82+80+80+78+686=)y ,x (由回归方程过样本中心点 .a ^+1324×=-80得 106.=1324×+80=a ^即 答案:1067.对某台机器购置后的运行年限x (x =1,2,3,…)与当年利润y 的统计分析知x ,y ,估计该台机器最为划算的使用年限为x 1.3-10.47=y ^具备线性相关关系,回归方程为________年.解析:当年利润小于或等于零时应该报废该机器,当y =0时,令10.47-1.3x =0,解得x ≈8,故估计该台机器最为划算的使用年限为8年.答案:88.某个体服装店经营某种服装在某周内所获纯利y (元)与该周每天销售这种服装的件数x (件)之间有一组数据如下表:;y ,x 求(1) (2)若纯利y 与每天销售这种服装的件数x 之间是线性相关的,求回归直线方程; (3)若该店每周至少要获纯利200元,请你预测该店每天至少要销售这种服装多少件?3 487)=i y i ∑i =17x ,45 309=2i ∑i =17y ,280=2i ∑i =17x 提示:( ,6=3+4+5+6+7+8+97=x (1)解: y≈79.86.66+69+73+81+89+90+917= ,≈4.753 487-7×6×79.86280-7×62=b ^∵(2) a^,51.36=4.75×6-79.86= .x 4.75+51.36=y ^之间的回归直线方程为x 纯利与每天销售件数∴ ≈31.29.x ,所以651.3+x 4.75=200时,200=y ^当(3) 因此若该店每周至少要获纯利200元,则该店每天至少要销售这种服装32件.9.2016年元旦前夕,某市统计局统计了该市2015年10户家庭的年收入和年饮食支出的统计资料如下表:年收入x (万元)2 4 4 6 6 6 7 7 8 10年饮食 支出y(万元)0.9 1.4 1.6 2.0 2.1 1.9 1.8 2.1 2.2 2.3(2)若某家庭年收入为9万元,预测其年饮食支出.406)=2i ∑i =110x ,117.7=i y i ∑i =110x 参考数据:( 解:依题意可计算得:x,10.98=y x ,36=2x ,1.83=y ,6= ,406=2i ∑i =110x ,117.7=i y i ∑i =110x ∵又,≈0.17∑i=110xiyi -10x y ∑i =110x2i -10x 2=b ^∴ a^0.81.+x 0.17=y ^∴,0.81=x b ^-y = 1.0.8+x 0.17=y ^所求的回归方程为∴ .)万元2.34(=0.81+0.17×9=y ^时,9=x 当(2) 可估计年收入为9万元的家庭每年饮食支出约为2.34万元.(时间120分钟,满分150分)一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的)1.下列三个抽样:①一个城市有210家某商品的代理商,其中大型代理商有20家,中型代理商有40家,小型代理商有150家,为了掌握该商品的销售情况,要从中抽取一个容量为21的样本;②在某公司的50名工人中,依次抽取工号为5,10,15,20,25,30,35,40,45,50的10名工人进行健康检查;③某市质量检查人员从一食品生产企业生产的两箱(每箱12盒)牛奶中抽取4盒进行质量检查.则应采用的抽样方法依次为( )A .简单随机抽样;分层抽样;系统抽样B .分层抽样;简单随机抽样;系统抽样C .分层抽样;系统抽样;简单随机抽样D .系统抽样;分层抽样;简单随机抽样解析:选 C ①中商店的规模不同,所以应利用分层抽样;②中抽取的学号具有等距性,所以应是系统抽样;③中总体没有差异性,容量较小,样本容量也较小,所以应采用简单随机抽样.故选C.2.将某班的60名学生编号为01,02,…,60,采用系统抽样方法抽取一个容量为5的样本,且随机抽得的一个号码为04,则剩下的四个号码依次是( )A .09,14,19,24B .16,28,40,52C .10,16,22,28D .08,12,16,20 解析:选B 分成5组,每组12名学生,按等间距12抽取.选项B 正确.3.某学校有教师200人,男学生1 200人,女学生1 000人.现用分层抽样的方法从全体师生中抽取一个容量为n 的样本,若女学生一共抽取了80人,则n 的值为( )A .193B .192C .191D .190 192.=n ,求得80=n200+1 200+1 0001 000× B 解析:选 4.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( )200+x 10=y ^200 B.+x 10=-y ^A. 200-x 10=y ^200 D.-x 10=-y ^C. 解析:选A 由于销售量y 与销售价格x 成负相关,故排除B ,D.又因为销售价格x >0,则C 中销售量全小于0,不符合题意,故选A.,则y 和x ,它们的平均数分别是n y ,…,2y ,1y 与n x ,…,2x ,1x .设有两组数据5)(的平均数是1+n y 3-n x 2,…,1+2y 3-2x 1,2+1y 3-1x 2新的一组数据 y 3-x 2.A 1+y 3-x 2.By 9-x 4.C1+y 9-x 4.D ,)n ,…,1,2=i 1(+i y 3-i x 2=i z 设 B 解析:选 =⎝ ⎛⎭⎪⎫1+1+…+1n +)n y +…+2y +1y (3n -)n x +…+2x +1x (2n =)n z +…+2z +1z (1n =z 则 1.+y 3-x 2 6.有一个容量为66的样本,数据的分组及各组的频数如下:[11.5,15.5) 2 [15.5,19.5) 4 [19.5,23.5) 9 [23.5,27.5) 18 [27.5,31.5) 11 [31.5,35.5) 12[35.5,39.5) 7 [39.5,43.5) 3则总体中大于或等于31.5的数据所占比例约为( )211A.13B. 12C.23D. 解析:选B 由题意知,样本的容量为66,而落在[31.5,43.5)内的样本个数为12+7.13=2266的数据约占31.5,故总体中大于或等于22=3+ 7.某学习小组在一次数学测验中,得100分的有1人,得95分的有1人,得90分的有2人,得85分的有4人,得80分和75分的各有1人,则该小组数学成绩的平均数、众数、中位数分别是( )A .85,85,85B .87,85,86C .87,85,85D .87,85,90 解析:选C ∵得85分的人数最多为4人,∴众数为85,中位数为85,87.=75)+80+85×4+90×2+95+(100110平均数为 8.某出租汽车公司为了了解本公司司机的交通违章情况,随机调查了50名司机,得到了他们某月交通违章次数的数据,结果制成了如图所示的统计图,根据此统计图可得这50名出租车司机该月平均违章的次数为( )A .1B .1.8C .2.4D .3 1.8.=5×0+20×1+10×2+10×3+5×450B 解析:选 9.下表是某厂1~4月份用水量情况(单位:百吨)的一组数据月份x 1 2 3 4用水量y 4.5 4 3 2.5的a ,则a +x 0.7=-y 之间具有线性相关关系,其线性回归方程为x 与月份y 用水量值为( )A .5.25B .5C .2.5D .3.5 解析:选A 线性回归方程经过样本的中心点,根据数据可得样本中心点为(2.5,3.5),所以a =5.25.10.如图是在元旦晚会举办的挑战主持人大赛上,七位评委为某选手打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )A .84,4.84B .84,1.6C .85,1.2D .85,4 +5+6+3+(515+80,平均数为77,去掉一个最低分95去掉一个最高分 C 解析:选,因此1.2=]286)-(85+285)-(85+286)-(85+283)-(85+285)-[(8515,方差为85=6)选C.,…,2+2x 2,3+1x 3,则2s ,方差是x 的平均数是n x ,…,3x ,2x ,1x .如果数据11)(的平均数和方差分别是2+n x 32s 和x A.2s 9和x 3.B2s 9和2+x 3.C4+2s 12和2+x 3.D nx …,2x ,1x ,由于数据2+x 3的平均数是2+n x 3,…,2+2x 2,3+1x 3 C 解析:选.2s 9的方差为2+n x 3,…,2+2x 2,3+1x 3,所以2s 的方差为 12.如图是某赛季甲、乙两名篮球运动员5场比赛得分的茎叶图,已知甲的成绩的极差为31,乙的成绩的平均值为24,则下列结论错误的是( ) A .x =9 B .y =8C .乙的成绩的中位数为26D .乙的成绩的方差小于甲的成绩的方差解析:选B 因为甲的成绩的极差为31,所以其最高成绩为39,所以x =9;因为乙的成绩的平均值为24,所以y =24×5-(12+25+26+31)-20=6;由茎叶图知乙的成绩的中位数为26;对比甲、乙的成绩分布发现,乙的成绩比较集中,故其方差较小. 二、填空题(本大题共4小题,每小题5分,共20分,把答案填在题中横线上) 13.某人5次上班途中所花的时间(单位:分钟)分别为x ,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x -y |的值为________.∴,2;又方差为20=y +x ,则10=159)×+11+10+y +x (,得10解析:由平均数为=xy 208,2=2y +2x ,得2=15]×210)-(9+210)-(11+210)-(10+210)-y (+210)-x [( 4.=x2+y2-2xy =x -y 2=|y -x |∴,192 答案:414.一支田径队有男运动员48人,女运动员36人,若用分层抽样的方法从该队的全体运动员中抽取一个容量为21的样本,则抽取男运动员的人数为________.12.=×482148+36解析:抽取的男运动员的人数为 答案:1215.要考察某种品牌的500颗种子的发芽率,抽取60粒进行实验,利用随机数表抽取种子时,先将500颗种子按001,002,…,500进行编号,如果从随机数表第7行第8列的数3开始向右读,请你依次写出最先检测的5颗种子的编号:________,________,________,________,________.(下面摘取了随机数表第7行至第9行)59408 66368 36016 26247 25965 49487 26968 86021 77681 83458 21540 62651 69424 78197 20643 67297 76413 66306 51671 54964 87683 30372 39469 97434解析:以3开始向右读,每次读取三位,重复和不在范围内的不读,依次为368,360,162,494,021.答案:368,360,162,494,02116.从某小学随机抽取100名同学,将他们的身高(单位:cm)数据绘制成频率分布直方图(如下图).由图中数据可知a =________.若要从身高在[120,130),[130,140),[140,150]三组的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]的学生中选取的人数应为________.解析:∵0.005×10+0.035×10+a ×10+0.020×10+0.010×10=1,∴a =0.030.设身高在[120,130),[130,140),[140,150]三组的学生分别有x ,y ,z 人,10.=z ,20=y 同理,30.=x ,解得0.030×10=x100则3.=×181030+20+10的学生中选取的人数为[140,150]故从 答案:0.030 3三、解答题(本大题共6小题,共70分.解答应写出文字说明,证明过程或演算步骤) ,应如何110名学生中抽取50为调查某班学生的平均身高,从)分10本小题满分(.17抽样?若知道男生、女生的身高显著不同(男生30人,女生20人),应如何抽样? 抽签法或随机数(人,采用简单随机抽样法5,即抽取110名学生中抽取50解:从法).若知道男生、女生的身高显著不同,则采用分层抽样法,按照男生与女生的人数比为30∶20=3∶2进行抽样,则男生抽取3人,女生抽取2人.18.(本小题满分12分)某车间共有12名工人,随机抽取6名,他们某日加工零件个数的茎叶图如图所示. (1)根据茎叶图计算样本均值;(2)日加工零件个数大于样本均值的工人为优秀工人.根据茎叶图推断该车间12名工人中有几名优秀工人?22.=1326=17+19+20+21+25+306样本均值为1)(解: 4=1312×名工人中有12,故推断该车间13=26知样本中优秀工人所占比例为(1)由(2)名优秀工人.19.(本小题满分12分)2016年春节前,有超过20万名广西、四川等省籍的外出务工人员选择驾乘摩托车沿321国道长途跋涉返乡过年,为防止摩托车驾驶人员因长途疲劳驾驶,手脚僵硬影响驾驶操作而引发交通事故,肇庆市公安交警部门在321国道沿线设立了多个长途行驶摩托车驾乘人员休息站,让返乡过年的摩托车驾乘人员有一个停车休息的场所.交警小李在某休息站连续5天对进站休息的驾驶人员每隔50辆摩托车就进行一次省籍询问,询问结果如图所示:(1)交警小李对进站休息的驾驶人员的省籍询问采用的是什么抽样方法?(2)用分层抽样的方法对被询问了省籍的驾驶人员进行抽样,若广西籍的有5人,则四川籍的应抽取几人?解:(1)交警小李对进站休息的驾驶人员的省籍询问采用的是系统抽样法.(2)从题图可知,被询问了省籍的驾驶人员广西籍的有5+20+25+20+30=100(人);四川籍的有15+10+5+5+5=40(人).2,即四川籍的应抽取2=x ,解得x40=5100人,依题意得x 设四川籍的驾驶人员应抽取人.20.(本小题满分12分)某化肥厂有甲、乙两个车间包装肥料,在自动包装传送带上每隔30分钟抽取一包产品,称其重量(单位:kg),分别记录抽查数据如下:甲:102,101,99,98,103,98,99; 乙:110,115,90,85,75,115,110.(1)这种抽样方法是哪一种方法?(2)试计算甲、乙车间产品重量的平均数与方差,并说明哪个车间产品较稳定?解:(1)甲、乙两组数据间隔相同,所以采用的方法是系统抽样.,100=99)+98+103+98+99+101+(10217=甲x (2) x,100=110)+115+75+85+90+115+(11017=乙 ,1)≈3.43+4+9+4+1+1+(417=2甲s ,228.57=100)+225+625+225+100+225+(10017=2乙s ,故甲车间产品比较稳定.2乙s <2甲s ∴ 21.(本小题满分12分)对某校高一年级学生参加社区服务次数进行统计,随机抽取M 名学生作为样本,得到这M 名学生参加社区服务的次数.根据此数据作出了频数与频率的统计表和频率分布直方图如下:分组频数 频率[10,15) 10 0.25[15,20) 25n [20,25) mp[25,30] 20.05 合计M1(1)求出表中M ,p 及图中a 的值;(2)若该校高一学生有360人,试估计该校高一学生参加社区服务的次数在区间[10,15)的人数.解:(1)由分组[10,15)的频数是10, 40.=M ,所以0.25=10M知,0.25频率是 因为频数之和为40,所以10+25+m +2=40,解得m =3.0.075.=340=p 故 因为a 是对应分组[15,20)的频率与组距的商,125.0.=2540×5=a 所以 (2)因为该校高一学生有360人,分组[10,15)的频率是0.25,所以估计该校高一学生参加社区服务的次数在此区间内的人数为360×0.25=90.22.(本小题满分12分)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入iy i ∑i =110x ,20=i ∑i =110y ,80=i ∑i =110x 的数据资料,算得)单位:千元(i y 与月储蓄)单位:千元(i x 720.=2i ∑i =110x ,184= ;a ^+xb ^=y ^的线性回归方程x 对月收入y 求家庭的月储蓄(1) (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.,8=8010=i ∑i =1n x 1n =x ,10=n 由题意知(1)解: y ,2=2010=i ∑i =1n y 1n = ,80=210×8-720=2x 10-2i ∑i =110x 又 ∑i=110x ,24=10×8×2-184=y x 10-i y i ,0.3=2480=∑i =110xiyi -10x y∑i =110x2i -10x 2=b ^由此得 a^,0.4=-0.3×8-2=x b ^-y = 0.4.-x 0.3=y ^故所求回归方程为 (2)由于变量y 的值随x 的值增加而增加(b =0.3>0),故x 与y 之间是正相关.(3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7千元.。
高中数学第二章统计23变量间的相关关系课件新人教A版必修3(2)
总费用y/万元 2.2 3.8 5.5 6.5 7.0
(1)根据表格数据,画出散点图;
(2)求线性回归方程y^=b^x+a^的系数a^,b^; (3)估计使用年限为 10 年时,车的使用总费用是多少?
【解题探究】(1)利用描点法作出散点图; (2)把数据代入公式,可得回归方程的系数; (3)把x=10代入回归方程得y值,即为总费用的估计 值.
【答案】A 【解析】在A中,若b确定,则a,b,c都是常数,Δ= b2-4ac也就唯一确定了,因此,这两者之间是确定性的函数 关系;一般来说,光照时间越长,果树亩产量越高;降雪量越 大,交通事故发生率越高;施肥量越多,粮食亩产量越高,所 以B,C,D是相关关系.故选A.
两个变量x与y相关关系的判断方法 1.散点图法:通过散点图,观察它们的分布是否存在 一定规律,直观地判断.如果发现点的分布从整体上看大致在 一条直线附近,那么这两个变量就是线性相关的,注意不要受 个别点的位置的影响. 2.表格、关系式法:结合表格或关系式进行判断. 3.经验法:借助积累的经验进行分析判断.
变量之间的相关关系的判断
【 例 1】 下 列 变 量 之 间 的 关 系 不 是 相 关 关 系 的 是 ()
A.二次函数y=ax2+bx+c中,a,c是已知常数,取b 为自变量,因变量是判别式Δ=b2-4ac
B.光照时间和果树亩产量 C.降雪量和交通事故发生率 D.每亩田施肥量和粮食亩产量
【解题探究】判断两个变量之间具有相关关系的关键是 什么?
①反映^y与 x 之间的函数关系;
②反映 y 与 x 之间的函数关系;
③表示^y与 x 之间的不确定关系;
④表示最接近 y 与 x 之间真实关系的一条直线.
A.①②
2.3变量间的相关关系
约为多少?
脂肪含量 40
35
20.9%
30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65
练习
3. 下表提供了某厂节能降耗技术改造后生产甲 产品过程中记录的产量x(吨)与相应的生产能耗 y(吨标准煤)的几组对照数据:
x
3
4
5
6
y
2.5 3
4 4.5
(1)请画出上表数据的散点图;
30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65
知识探究(三):回归直线
思考 1:一组样本数据的平均数是样本数据的 中心,那么散点图中样本点的中心如何确定? 它一定是散点图中的点吗?
脂肪含量
40 35
30
25
20 15
(x, y )
10
5 0 20 25 30 35 40 45 50 55 60 65
知识探究(三):回归直线
思考 2:在各种各样的散点图中,有些散点图中 的点是杂乱分布的,有些散点图中的点的分布有 一定的规律性,年龄和人体脂肪含量的样本数据 的散点图中的点的分布有什么特点?
脂肪含量
40 35
30 25 20 15 10 5 0
20 25 30 35 40 45 50 55 60 65
年龄 53 54 56 57 58 60 61 脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.6
思考 1:观察上表中的数据,大体上看,随着 年龄的增加,人体脂肪含量怎样变化?
知识探究(二):散点图
年龄 23 27 39 41 45 49 50 脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2
2017学年数学必修三:2.3.1-变量之间的相关关系~2.3.2 两个变量的线性相关2
(2)问题2中,从表里数据能得出小麦的产量y与施肥量x之间的 函数关系式吗? 提示:从表格里我们很容易发现施肥量越大 ,小麦的产量就越高. 但是,施肥量并不是影响小麦产量的唯一因素 ,小麦的产量还受 土壤的质量、降雨量、田间管理等诸多因素影响 ,这时两个变
量之间就不是确定性的函数关系,因此不能得到y和x的函数关
1.两个变量的线性相关 左下角 到_______. 右上角 (1)正相关:点散布的方向:从_______ 左上角 到_______. 右下角 (2)负相关:点散布的方向:从_______ (3)回归直线:如果散点图中点的分布从整体上看在一条直线附
线性相关 关系,这条直线叫做 近,就称这两个变量之间具有_________
【解析】(1)作出散点图如图所示,
(2)由散点图可知,各点并不在一条直线附近,所以两个变量是
非线性相关关系.
类型二
求回归方程
1.(2013·锦州高一检测)已知一组观测值具有线性相关关系,
bx a ,求得 b =0.51, x =61.75, y =38.14, 则回归方 若对于 y
【探究总结】
1.散点图的作用
(1)判断两个变量之间有无相关关系,一种常用的简便可行的方
法是绘制散点图.
(2)根据散点图很容易看出两个变量之间是否具有相关关系,是
不是线性相关关系,是正相关还是负相关,相关关系强还是弱.
2.利用散点图判断变量间的关系的方法 (1)如果所有的样本点都落在某一函数的曲线上,就用该函数来 描述变量间的关系,即变量具有函数关系. (2)如果所有的样本点都落在某一函数曲线附近,变量之间就有 相关关系. (3)如果所有的样本点都落在某一条直线附近,变量之间就有线 性相关关系.
2020版人教A数学必修3 课件:2.3.1 变量之间的相关关系2.3.2 两个变量的线性相关
x (0.01%)
104
180 190 177
147
134
150
191
204
121
学霸经验分享区 (1)回归分析是对具有相关关系的两个变量进行统计分析的方法,两 个变量具有相关关系是回归分析的前提. (2)散点图是定义在具有相关关系的两个变量基础上的,对于关系不 明确的两组数据,可先作散点图,在图上看它们有无相关关系,然后再 进行相关回归分析. (3)通过对散点图的观察,一般地,若图中数据大致分布在一条直线附 近,那么这两个变量近似成线性相关关系. (4)求线性回归方程,应注意到,只有大部分点分布在某条直线附近, 求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无 意义.
名师点津 对回归直线方程的几点说明 (1)a,b的上方加“^ ”,表示是由观察值按最小二乘法求得的估计值.
(2)(xi,yi)(i=1,2,…,n)的( x , y )在回归直线上.
(3)由回归直线方程知 x 处的估计值为 yˆ = aˆ + bˆ x.
(4)回归直线使得样本数据中的点到它的距离的平方和最小. (5)求回归直线方程,计算量大,一般应学会使用计算器求解. (6)利用回归直线方程可以对总体进行估计.
解:散点图分别如图(1)(2)所示.
从图中可以看出两图中的点各自分布在一条直线附近,因此两对变量 都具有相关关系. 图(1)中A的值由小变大时,B的值却是由大变小,即A和B成负相关; 图(2)中C的值由小变大时,D的值也是由小变大,即C和D成正相关.
2014高中数学 2.3 变量间的相关关系课件(2)新人教A版必修3
诱思探究1
一组样本数据的平均数是样本数据的中心,那 么散点图中样本点的中心如何确定?它一定是散点 图中的点吗?
脂肪含量
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
样本点的中心的 坐标为样本数据 的平均数; 它不一定是散点 图中的点。
n
i
nx y nx
2
ˆx ˆ y b a
( x x)
x
i 1
2
i
2 ˆ Q ( y y ) i i 为最小,这样就得到了 时,总体偏差 i 1
回归方程,这种求回归方程的方法叫做最小二乘 ˆx a 法.回归方程 y ˆ b ˆ ˆ 分别表示回归方程的斜率,截距。 中,a ˆ, b
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
在直角坐标系中,任何一条直线都有相应的方程, 回归直线的方程称为回归方程.对一组具有线性相关 关系的样本数据,如果能够求出它的回归方程,那么 我们就可以比较具体、清楚地了解两个相关变量的内 在联系,并根据回归方程对总体进行估计.
1 1 (5 0 36) 169 15.367 11 11
xi (5)2 02 362 4335
2 i 1
11
11
x y
i 1 i
11
i
5 156 0 150 36 54 14828
i i
ˆ b
x y 11x y
温故知新
一.变量之间的相关关系: 1.变量间相关关系的定义:自变量取值一定时,因变 量的取值带有一定随机性的两个变量之间的关系,叫 做相关关系. 2.相关关系与函数关系的异同点: (1)相同点:两者均是指两个变量间的关系。 (2)不同点:①函数关系是一种确定的关系;相关关系 是一种非确定的关系. 函数关系是两个非随机变量的 关系,而相关关系是非随机变量与随机变量间的关系. ②函数关系是一种因果关系,而相关关系不一定是因果 关系,也可能是伴随关系.
2.3.1 变量之间的相关关系 2.3.2 两个变量的线性相关
2.3 变量间的相关关系 2.3.1 变量之间的相关关系 2.3.2 两个变量的线性相关考点 学习目标核心素养 相关关系的概念理解两个变量的相关关系的概念 数学抽象 散点图 会作散点图,并利用散点图判断两个变量之间是否具有相关关系逻辑推理、数学建模回归直线方程会求回归直线方程数学运算问题导学(1)相关关系分为哪两种? (2)什么叫散点图?(3)什么叫回归直线?求回归直线的方法及步骤是什么?1.两个变量的线性相关(1)散点图:将样本中n 个数据点(x i ,y i )(i =1,2,…,n )描在平面直角坐标系中得到的图形.(2)正相关与负相关①正相关:散点图中的点散布在从左下角到右上角的区域; ②负相关:散点图中的点散布在从左上角到右下角的区域. 2.回归直线的方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程. (3)最小二乘法求回归直线方程y ^=b ^x +a ^时,使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.其中b ^是回归方程的斜率,a ^是回归方程在y 轴上的截距. ■名师点拨 (1)散点图的作用散点图形象地反映了各对数据的密切程度.根据散点图中点的分布趋势分析两个变量之间的关系,可直观地判断并得出结论.(2)回归直线的性质由a ^=y --b ^x -可知回归直线一定经过点(x -,y -),因此点(x -,y -)通常称为样本点的中心,其中,x -,y -分别是变量x 1,x 2,…,x n 和y 1,y 2,…,y n 的平均数.(3)线性相关关系强弱的定性分析线性相关关系的强弱体现在散点图中就是样本点越集中在某条直线附近,两变量的线性相关关系越强;样本点在某条直线附近越分散,两变量的线性相关关系越弱.判断正误(对的打“√”,错的打“×”) (1)线性回归方程必经过点(x -,y -).( )(2)对于方程y ^=b ^x +a ^,x 增加一个单位时,y 平均增加b ^个单位.( ) (3)样本数据中x =0时,可能有y =a ^.( ) (4)样本数据中x =0时,一定有y =a ^.( )解析:根据回归直线方程的意义知,(1)(2)都正确,而(3)(4)中,样本数据x =0时,y 的值可能为a ^,也可能不是a ^,故(3)正确.答案:(1)√ (2)√ (3)√ (4)×下列各图中所示的两个变量具有相关关系的是( )A .(1)(2)B .(1)(3)C .(2)(4)D .(2)(3)解析:选D.(1)为函数关系;(2)(3)为相关关系;(4)中,因为点分布得比较分散,两者之间无相关关系.5位学生的数学成绩和物理成绩如下表: 学科 A B C D E 数学 80 75 70 65 60 物理7066686462A .是函数关系B .是相关关系,但相关性很弱C .具有较好的相关关系,且是正相关D .具有较好的相关关系,且是负相关解析:选C.数学成绩x 和物理成绩y 的散点图如图所示.从图上可以看出数学成绩和物理成绩具有较好的相关关系,且成正相关. 设有一个回归方程为y ^=2-1.5x ,则变量x 每增加1个单位时,y 平均减少____________个单位.,解析:因为y ^=2-1.5x ,所以变量x 每增加1个单位时,y 1-y 2=[2-1.5(x +1)]-(2-1.5x )=-1.5,所以y 平均减少1.5个单位.答案:1.5相关关系的判断以下是在某地搜集到的不同楼盘新房屋的销售价格y(单位:万元)和房屋面积x(单位:m2)的数据:房屋面积x(m2)11511080135105销售价格y(万元)24.821.619.429.222(2)判断新房屋的销售价格和房屋面积之间是否具有相关关系?如果有相关关系,是正相关还是负相关?【解】(1)数据对应的散点图如图所示:(2)通过以上数据对应的散点图可以判断,新房屋的销售价格和房屋的面积之间具有相关关系,且是正相关.相关关系的判断方法(1)两个变量x和y具有相关关系的判断方法①散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断;②表格、关系式法:结合表格或关系式进行判断;③经验法:借助积累的经验进行分析判断.(2)判断两个变量x和y之间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.[易错警示]在解答本题过程中,易出现如下错误:虽然五点中有四点大致分布在一条直线附近,但第二个点离这条直线太远,所以两个变量不相关,导致错误的原因是没有看主流点,而过分关注了不影响大局的个别点.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图如图所示.由这个散点图可以判断()A.变量x与y正相关B.变量x与y不相关C.变量x与y负相关D.变量x与y是函数关系解析:选C.由这个散点图可以判断,变量x与y负相关,故选C.线性回归方程的求法下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x 345 6y 2.534 4.5 (2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^. 【解】(1)散点图如图.(2)x-=3+4+5+64=4.5,y-=2.5+3+4+4.54=3.5,∑i=14x i y i=3×2.5+4×3+5×4+6×4.5=66.5,∑i=14x2i=32+42+52+62=86,所以b ^=∑4i =1x i y i -4x -y-∑4i =1x 2i -4x-2=66.5-4×4.5×3.586-4×4.52=0.7, a ^=y --b ^x -=3.5-0.7×4.5=0.35. 所以所求的线性回归方程为y ^=0.7x +0.35.如果把例题中的y 的值2.5及4.5分别改为2和5,如何求回归直线方程? 解:散点坐标分别为(3,2),(4,3),(5,4),(6,5). 可验证这四点共线, 斜率k =3-24-3=1,所以直线方程为y -2=x -3, 即回归直线方程为y ^=x -1.求线性回归方程的步骤(1)计算平均数x -,y -.(5)用a ^=y --b ^x -,求a ^. (6)写出回归方程.某化工厂为预测某产品的回收率y ,需要研究它和原料有效成分含量x之间的相关关系,现取了8对观测值,计算得:则y 关于x 的回归直线方程是( )A.y ^=11.47+2.62x B.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x解析:选A.利用题目中的已知条件可以求出x -=6.5,y -=28.5,然后利用回归直线方程的计算公式得b ^=∑8i =1x i y i -8x -y-∑8i =1x 2i -8x-2=1 849-8×6.5×28.5478-8×6.52≈2.62, a ^=y --b ^x -=11.47,因此回归直线方程为y ^=11.47+2.62x .线性回归方程的应用(2020·黑龙江省大庆铁人中学期末考试)某班主任为了对本班学生的月考成绩进行分析,从全班40名同学中随机抽取一个容量为6的样本进行分析.随机抽取6位同学的数学、物理分数对应如表:学生编号 1 2 3 4 5 6 数学分数x 60 70 80 85 90 95 物理分数y728088908595(1) (2)如果具有线性相关性,求出线性回归方程(系数精确到0.1);如果不具有线性相关性,请说明理由;(3)如果班里的某位同学数学成绩为50,请预测这位同学的物理成绩.【解】 (1)画出散点图:通过图象可以看出物理成绩y 与数学成绩x 之间具有线性相关性. (2)x -=16×(60+70+80+85+90+95)=80,y -=16×(72+80+88+90+85+95)=85,故b ^=0.6,a ^=37.故回归方程是y =0.6x +37. (3)当x =50时,解得y =67.故数学成绩为50,预测这位同学的物理成绩是67.利用线性回归方程解题的常见思路及注意点(1)利用回归直线过样本点的中心,可以求参数问题,参数可涉及回归方程或样本点数据.(2)利用回归方程中系数b ^的意义,分析实际问题.(3)利用回归直线进行预测,此时需关注两点:①所得的值只是一个估计值,不是精确值;②变量x 与y 成线性相关关系时,线性回归方程才有意义,否则即使求出线性回归方程也是毫无意义的,用其估计和预测的量也是不可信的.(2020·江西省临川第一中学期末考试)我国西部某贫困地区2011年至2017年农村居民家庭人均年收入y (千元)的数据如下表:年份 2011 2012 2013 2014 2015 2016 2017 年份代号x 1 2 3 4 5 6 7 人均年收入y2.93.33.64.44.85.25.9(2)利用(1)中的回归方程,预测该地区2019年农村居民家庭人均年收入将达到多少千元.解:(1)依题意x -=4,y -=4.3,从而b ^=0.5,a ^=y --b ^x -=4.3-0.5×4=2.3, 故所求线性回归方程为y ^=0.5x +2.3. (2)令x =9,得y ^=0.5×9+2.3=6.8.预测该地区在2019年农村居民家庭人均年收入为6.8千元.1.我们常说“吸烟有害健康”,吸烟与健康之间的关系是( ) A .正相关 B .负相关 C .无相关D .不确定解析:选B.烟吸得越多,则健康程度越差.2.关于回归直线方程y ^=a ^+b ^x 的叙述正确的是( ) ①反映y ^与x 之间的函数关系; ②反映y 与x 之间的函数关系; ③表示y ^与x 之间的不确定关系;④表示最接近y 与x 之间真实关系的一条直线. A .①② B .②③ C .③④ D .①④解析:选D.y ^=a ^+b ^x 表示y ^与x 之间的函数关系,而不是y 与x 之间的函数关系,它反映的关系最接近y 与x 之间的真实关系.故①④正确.3.在最小二乘法中,用来刻画各个样本点到直线y =a ^+b ^x 的“距离”的量是( ) A .|y i -y -| B .(y i -y -)2 C .|y i -(a ^+b ^x i )|D .[y i -(a ^+b ^x i )]2解析:选D.最小二乘法的定义明确给出,用[y i -(a ^+b ^x i )]2来刻画各个样本点与这条直线之间的“距离”(即二者之间的接近程度),用它们的和表示所有样本点与这条直线的接近程度.4.已知工厂加工零件的个数x 与花费时间y (h)之间的线性回归方程为y ^=0.01x +0.5,则加工200个零件大约需要________小时.解析:将200代入线性回归方程y ^=0.01x +0.5, 得y ^=2.5. 答案:2.5[A 基础达标]1.如图所示是具有相关关系的两个变量的一组数据的散点图,去掉哪个点后,两个变量的相关关系更明显( )A .DB .EC .FD .A解析:选C.A 、B 、C 、D 、E 五点分布在一条直线附近且贴近该直线,而F 点离得远,故去掉点F .2.(2020·江西省上饶市期末统考)某车间为了规定工时定额,需要确定加工零件所花费用的时间,为此进行了5次实验,根据收集到的数据(如下表),由最小二乘法求得回归直线方程为y ^=7.8x +40.2.零件数x (个) 1 23 4 5 加工时间y (min)50677179A .55B .55.8C .59D .51解析:选 D.设表中模糊的数据为m .由表中的数据可得x -=1+2+3+4+55=3,y -=50+m +67+71+795=267+m5,又由回归直线的方程为y ^=7.8x +40.2,所以267+m 5=7.8×3+40.2,解得m =51.即表中模糊的数据为51.故选D.3.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关解析:选C.因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.4.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归方程为y =b x +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:选C.由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,从而b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑6i =1x i y i -6x -·y-∑6i =1x 2i -6x-2=58-6×72×13691-6×⎝⎛⎭⎫722=57,a ^=y --b ^x -=136-57×72=-13,所以b ^<b ′,a ^>a ′. 5.(2020·广西钦州市期末考试)若回归直线y ^=b ^x +a ^的斜率估值为1.23,样本中心点为(4,5),当x =2时,估计y 的值为____________.解析:因为回归直线y ^=b ^x +a ^的斜率估值为1.23,所以b ^=1.23,y ^=1.23x +a ^. 因为样本中心点为(4,5),所以5=1.23×4+a ^,a ^=0.08,y ^=1.23x +0.08, 代入x =2,y =1.23×2+0.08=2.54. 答案:2.546.(2020·湖北省宜昌市葛洲坝中学期末考试)某公司借助手机微信平台推广自己的产品,对今年前5个月的微信推广费用x 与利润额y (单位:百万元)进行了初步统计,得到下列表格中的数据:x 2 4 5 6 8 y304060p70经计算,月微信推广费用x 与月利润额y 满足线性回归方程y ^=6.5x +17.5,则p 的值为____________.解析:由题中数据可得x -=2+4+5+6+85=5,y -=30+40+60+p +705=200+p5.由线性回归方程y ^=6.5x +17.5经过样本中心(x -,y -), 有200+p 5=6.5×5+17.5,解得p =50.答案:507.对某台机器购置后的运营年限x (x =1,2,3,…)与当年利润y 的统计分析知具备线性相关关系,线性回归方程为y ^=10.47-1.3x ,估计该台机器使用________年最合算.解析:只要预计利润不为负数,使用该机器就算合算,即y ^≥0,所以10.47-1.3x ≥0,解得x ≤8.05,所以该台机器使用8年最合算.答案:88.(2020·湖南省张家界市期末联考)为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)的影响,对近五年该农产品的年产量和价格统计如表:x 1 2 3 4 5 y86542(1)求x -,y -;(2)求y 关于x 的线性回归方程y ^=b ^x +a ^; (3)若年产量为4.5吨,试预测该农产品的价格.解:(1)计算可得x -=1+2+3+4+55=3,y -=8+6+5+4+25=5.(2)b ^=∑5i =1x i y i -5x -y-∑5i =1x 2i -5x-2=61-5×3×555-5×32=-1.4, 因为线性回归直线过(x -,y -),则a ^=y --b ^x -=5-(-1.4×3)=9.2, 故y 关于x 的线性回归方程是y ^=-1.4x +9.2. (3)当x =4.5时,y ^=-1.4×4.5+9.2=2.9(千元/吨).9.(2020·河北省石家庄市期末考试)在一段时间内,分5次测得某种商品的价格x (万元)和需求量y (吨)之间的一组数据为(1)根据上表数据,求出回归直线方程y =b x +a ;(2)试根据(1)中求出的回归方程预估当价格为1.9万元时,需求量大约是多少吨?(参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑ni =1x i y i -n x -y -∑n i =1x 2i -n (x )-2,a ^=y --b ^x -)解:(1)因为x -=15×9=1.8,y -=15×37=7.4,∑i =15 x i y i =62,∑i =15x 2i =16.6,所以 b ^=∑5i =1x i y i -5x -y-∑5i =1x 2i -5(x )-2=62-5×1.8×7.416.6-5×1.82=-11.5, a ^=y --b ^x -=7.4+11.5×1.8=28.1, 故y 对x 的线性回归方程为y ^=28.1-11.5x . (2)y =28.1-11.5×1.9=6.25(吨).所以如果价格为1.9万元,则需求量大约是6.25吨.[B 能力提升]10.对两个变量的四组数据进行统计,获得以下散点图,关于两个变量相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3解析:选A.由相关系数的定义以及散点图的含义,可知r 2<r 4<0<r 3<r 1.11.期中考试后,某校高三(9)班班主任对全班65名学生的成绩(单位:分)进行分析,得到数学成绩y 关于总成绩x 的回归直线方程为y ^=6+0.4x .由此可以估计:若2名同学的总成绩相差50分,则他们的数学成绩大约相差________分.解析:设两名同学的总成绩分别为x 1,x 2,则对应的数学成绩估计为y ^1=6+0.4x 1,y ^2=6+0.4x 2,所以|y ^1-y ^2|=|0.4(x 1-x 2)|=0.4×50=20.答案:2012.(2020·湖北省宜昌县域高中协同发展共同体期末考试)为研究冬季昼夜温差大小对某反季节大豆新品种发芽率的影响,某校课外兴趣小组记录了5组昼夜温差与100颗种子发芽数,得到如下资料:组号 1 2 3 4 5 温差x (℃) 10 11 13 12 8 发芽数y (颗)2325302616组数据中选取3组数据求出线性回归方程,再用没选取的2组数据进行检验.(1)若选取的是第2,3,4组的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^; (2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?(参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -n x -y -∑n i =1x 2i -n x-2,a ^=y --b ^x -)解:(1)由题意:x -=11+13+123=12,y -=25+30+263=27,b ^=∑3i =1 (x i -x -)(y i -y -)∑3i =1 (x i -x -)2=(x 1-x -)(y 1-y -)+(x 2-x -)(y 2-y -)+(x 3-x -)(y 3-y -)(x 1-x -)2+(x 2-x -)2+(x 3-x -)2=(11-12)×(25-27)+(13-12)×(30-27)+(12-12)×(26-27)(11-12)2+(13-12)2+(12-12)2=52, a ^=y --b ^x -=27-52×12=-3,故回归直线方程为y ^=52x -3.(2)当x =10时,y =52×10-3=22,|22-23|=1<2,当x =8时,y =52×8-3=17,|17-16|=1<2,所以(1)中所得的回归直线方程是可靠的.13.(选做题)(2019·黑龙江省牡丹江市第一高级中学期末考试)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i=xi,w-=18i=18w i.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x、y的关系为z=0.2y-x.根据(2)的结果回答下列问题:(ⅰ)年宣传费x=49时,年销售量及年利润的预报值是多少?(ⅱ)年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归线v=α+βu的斜率和截距的最小二乘估计分别为解:(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程.由于d=108.81.6=68,c^=y--d^w-=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)(ⅰ)由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.(ⅱ)根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。
高一数学人教A版必修3课件:2.3变量间的相关关系(第二课时)
求回归方程的关键是如何用数学的方法来刻画 “从整体上看,各点与直线的距离最小”。 思考6:对一组具有线性相关关系的样本数据: (x1,y1),(x2,y2),„,(xn,yn),设其回归 方程为 可以用哪些数量关系来刻画各 样本点与回归直线的接近程度?
回归直线
实际上,求回归直线的关键是如何用数学的方 法来刻画“从整体上看,各点到此直线的距离最 小”.
b
( x x)( y y) x y n x y
i 1 i i
n
n
( x x)
i 1 i
n
i 1 n
i
i
2
x nx
i 1 2 i
,
2
a y bx
以上公式的推导较复杂,故不作推导,但它的原 理较为简单:即各点到该直线的距离的平方和最 小,这一方法叫最小二乘法。
3、回归直线方程 (1)回归直线:观察散点图的特征,如果各点大致分 布在一条直线的附近,就称两个变量之间具有线性相关的 关系,这条直线叫做回归直线。 (2)最小二乘法
n n
b
( x x )( y y ) x y nx y
年龄 23
脂肪 9.5 年龄 53
27
54
39
56
41
57
45
58
49
60
50
61
17.8 21.2 25.9 27.5 26.3 28.2
脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.6
思考2:为了确定年龄和人体脂肪含量之间的 更明确的关系,我们需要对数据进行分析, 通过作图可以对两个变量之间的关系有一个 直观的印象.以x轴表示年龄,y轴表示脂肪含 量,你能在直角坐标系中描出样本数据对应 的图形吗?
高中数学精品课件 2.3.1 变量之间的相关关系--2.3.2 两个变量的线性相关
①画出数据对应的散点图; ②判断房屋的销售价格和房屋面积之间是否具有相关关系,如果 有相关关系,是正相关还是负相关?
解 ①数据对应的散点图如图所示.
②通过以上数据对应的散点图可以判断,房屋的销售价格和房屋 面积之间具有相关关系,并且是正相关.
x0123 y1357 则 y 与 x 的线性回归方程为y^=b^ x+a^ 必过点( )
A.(2,2)
B.(1,2)
C.(1.5,0)
D.(1.5,4)
解析 易得-x=1.5,-y=4,由于回归直线过样本点的中心(-x,
-y),故选 D. 答案 D
4.小学生身高 y 与年龄 x 之间的线性回归直线方程为y^=8.8x+65, 预测一名 10 岁的小学生的身高为________. 解析 当 x=10 时,y^=8.8×10+65=153. 答案 153
题型三 利用回归方程对总体进行估计 【例3】 某地最近十年粮食需求量逐年上升,下表是部分统计数
据:
年份
2008 2010 2012 2014 2016
需求量/万吨 236 246 257 276 286
(1)利用所给数据求年需求量与年份之间的回归直线方程y^=b^ x+ a^ ; (2)利用(1)中所求出的直线方程预测该地 2018 年的粮食需求量.
函数关系
变量之间的关系可以用函数表示
相关关系 变量之间有一定的联系,但不能完全用函数表示
2.相关关系与函数关系的区别与联系
类别
区别
联系
函 ①函数关系中两个变量间是一种确定性 ①在一定的条件下可以相
高中数学 第二章 统计 2.3.1-2.3.2 变量之间的相关关系 两个变量的线性相关课件 新人教
A .1 B .1 C .1 D .1 1 6 8 4 2
35
【思路导引】利用回归直线方程必过样本点的中心求解.
【解析】选B.依题意可知样本点的中心为 ( 3 , ,3 )
48
则3
8
= 1×
3
+3
4
,a 解得
=a .
1 8Βιβλιοθήκη 36【拓展延伸】相关关系的强弱
(1)若相应于变量x的取值xi,变量y的观测值为yi(1≤i≤n),称r=
6
(2)你能举例说明你对正相关与负相关的理解吗? 提示:随自变量的变大(或变小),因变量也随之变大(或变小),这种带有随机性 的相关关系,我们称为正相关.例如,人年龄由小变大时,体内脂肪含量也由少 变多. 随自变量的变大(或变小),因变量却随之变小(或变大),这种带有随机性的相关 关系,我们称为负相关.例如,汽车越重,每消耗1 L汽油所行驶的平均路程就 越短.
n
n
x i2,
xi y,i
i1
i1
30
(5)代入公式计算
b ,a,公式为
n
x iyi n x y
b
i1
n
x
2 i
n
x
2
i1
,
a y b x .
(6)写出回归直线方程 = x+ .
yb a
31
【跟踪训练】 已知变量x,y有如下对应数据:
x1234 y1345
(1)作出散点图. (2)用最小二乘法求关于x,y的回归直线方程.
42
【思路导引】(1)以产量为横坐标,以生产能耗对应的测量值为纵坐标, 在平面直角坐标系内画散点图. (2)应用计算公式求得线性相关系数 bˆ , aˆ 的值. (3)实际上就是求当x=100时,对应的 yˆ 的值.
2020年高中数学必修三第二章《统计》2.3.1变量之间的相关关系-2.3.2两个变量的线性相关
2020年高中数学必修三第二章《统计》2.3.1变量之间的相关关系2.3.2两个变量的线性相关学习目标 1.了解变量间的相关关系,会画散点图;2.根据散点图,能判断两个变量是否具有相关关系;3.了解线性回归思想,会求回归直线的方程.知识点一变量间的相关关系思考1粮食产量与施肥量间的相关关系是正相关还是负相关?答案在施肥不过量的情况下,施肥越多,粮食产量越高,所以是正相关.思考2怎样判断一组数据是否具有线性相关关系?答案画出散点图,若点大致分布在一条直线附近,就说明这两个变量具有线性相关关系,否则不具有线性相关关系.梳理1.相关关系的定义变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有随机性的,那么这两个变量之间的关系叫做相关关系,两个变量之间的关系分为函数关系和相关关系.2.散点图将样本中n个数据点(x i,y i)(i=1,2,…,n)描在平面直角坐标系中得到的图形叫做散点图.3.正相关与负相关(1)正相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.(2)负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关.知识点二两个变量的线性相关思考任何一组数据都可以由最小二乘法得出线性回归方程吗?答案用最小二乘法求线性回归方程的前提是先判断所给数据是否具有线性相关关系(可利用散点图来判断),否则求出的线性回归方程是无意义的.梳理 回归直线的方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)线性回归方程:回归直线对应的方程叫做回归直线的方程,简称回归方程. (3)最小二乘法:求线性回归方程y ^=b ^x +a ^时,使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2=∑i =1nx i y i-n x y ∑i =1nx 2i-n x 2,a ^=y -b ^x ,其中,b ^是线性回归方程的斜率,a ^是线性回归方程在y 轴上的截距.类型一 相关关系的判断与应用 命题角度1 判断两个变量的相关性例1 为了研究质量对弹簧长度的影响,对6根相同的弹簧进行测量,所得数据如下:判断它们是否有相关关系,若有,判断是正相关还是负相关. 解 散点图如图:由散点图可以看出两个变量对应的点大致分布在一条直线附近,因此可以得出结论:质量与弹簧长度这两个变量具有相关关系,且它们是正相关关系.反思与感悟在研究两个变量之间是否存在某种关系时,必须从散点图入手,对于散点图,可以作出如下判断:(1)如果所有的样本点都落在某一函数曲线上,那么就用该函数来描述变量之间的关系,即变量之间具有函数关系;(2)如果所有的样本点都落在某一直线附近,那么变量之间就有线性相关关系;(3)如果散点图中的点的分布几乎没有什么规律,那么这两个变量之间不具有相关关系,即两个变量之间是相互独立的.跟踪训练1下表是某地的年降雨量与年平均气温的统计表,判断两者是否具有相关关系,求线性回归方程有意义吗?解以x轴为年平均气温,y轴为年降雨量,可得相应的散点图如图.因为图中各点并不在一条直线的附近,所以两者不具有线性相关关系,没必要用回归直线进行拟合,即使用公式法求出线性回归方程也是没有意义的.命题角度2函数关系与相关关系的区别与联系例2下列关系中,是相关关系的是________.①正方形的边长与面积之间的关系;②农作物的产量与施肥量之间的关系;③人的身高与年龄之间的关系;④降雪量与交通事故的发生率之间的关系.答案②④解析①中,正方形的边长与面积之间的关系是函数关系;②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;③中,人的身高与年龄之间的关系既不是函数关系,也不是相关关系,因为人达到一定年龄后,身高就不发生明显变化了,所以它们不具有相关关系;④中,降雪量与交通事故的发生率之间具有相关关系. 反思与感悟 相关关系与函数关系的区别与联系如表所示:跟踪训练2 下列图形中两个变量具有相关关系的是( )答案 C解析A 是一种函数关系;B 也是一种函数关系;C 中从散点图中可看出所有点看上去都在某条直线附近波动,具有相关关系,而且是一种线性相关;D 中所有的点在散点图中没有显示任何关系,因此变量间是不相关的. 类型二 回归直线的求解与应用例3 一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器运转速度的变化而变化,下表为抽样试验的结果:(1)画出散点图;(2)如果y 对x 有线性相关关系,请画出一条直线近似地表示这种线性关系;(3)在实际生产中,若它们的近似方程为y =5170x -67,允许每小时生产的产品中有缺点的零件最多为10件,那么机器的运转速度应控制在什么范围内? 解 (1)散点图如图所示:(2)近似直线如图所示:(3)由y ≤10得5170x -67≤10,解得x ≤14.9,所以机器的运转速度应控制在14转/秒内.引申探究1.本例(3)中近似方程不变,若每增加一个单位的转速,生产有缺点的零件数近似增加多少? 解 因为y =5170x -67,所以当x 增加一个单位时,y 大约增加5170.2.本例(3)中近似方程不变,每小时生产有缺点的零件件数是7,估计机器的转速. 解 因为y =5170x -67,所以当y =7时,7=5170x -67,解得x ≈11.反思与感悟 求线性回归方程的一般步骤(1)收集样本数据,设为(x i ,y i )(i =1,2,…,n )(数据一般由题目给出). (2)作出散点图,确定x ,y 具有线性相关关系. (3)把数据制成表格x i ,y i ,x 2i ,x i y i . (4)计算x ,y,∑i =1nx 2i ,∑i =1nx i y i .(5)代入公式计算b ^,a ^,公式为⎩⎪⎨⎪⎧b ^=∑i =1nx i y i-n x y ∑i =1nx 2i-n x2,a ^=y -b ^x .(6)写出线性回归方程y ^=b ^x +a ^.跟踪训练3 (1)变量y 与x 满足线性回归方程y ^=b ^x +a ^,现在将y 的单位由厘米变为米,x的单位由毫米变为米,则在新的线性回归方程y ^=b ^*x +a ^*中,b ^*是b ^的____________倍.(2)为了均衡教育资源,加大对偏远地区的教育投入,调查了某地区若干户家庭的年收入x (单位:万元)和年教育支出y (单位:万元),调查显示年收入x 与年教育支出y 具有相关关系,并由调查数据得到y 对x 的线性回归方程为y ^=0.15x +0.2.由线性回归方程可知,家庭年收入每增加1万元,年教育支出平均增加________万元. 答案 (1)10 (2)0.15解析 (1)由回归系数公式知,当y 的值变为原来的10-2倍,x 的值变为原来的10-3倍时,b^*的值应为原来的10倍.(2)回归直线的斜率为0.15,所以家庭年收入每增加1万元,年教育支出平均增加0.15万元.1.设有一个线性回归方程为y ^=2-1.5x ,则变量x 增加1个单位时,y 平均( ) A .增加1.5个单位 B .增加2个单位 C .减少1.5个单位 D .减少2个单位答案 C2.由三点(3,10),(7,20),(11,24)确定的线性回归方程为( ) A.y ^=1.75x -5.75 B.y ^=1.75x +5.75 C.y ^=-1.75x +5.75 D.y ^=-1.75x -5.75答案 B解析 设线性回归方程为y ^=b ^x +a ^, 则b ^=x 1y 1+x 2y 2+x 3y 3-3x y x 21+x 22+x 23-3x2=3×10+7×20+11×24-3×7×189+49+121-3×49=1.75,a ^=y -b ^x =18-1.75×7=5.75. 故y ^=1.75x +5.75,故选B.3.某地区近10年居民的年收入x 与年支出y 之间的关系大致符合y ^=0.8x +0.1(单位:亿元),预计今年该地区居民收入为15亿元,则今年支出估计是________亿元. 答案 12.1解析 将x =15代入y ^=0.8x +0.1,得y ^=12.1.4.某市居民2012~2016年家庭年平均收入x (单位:万元)与年平均支出y (单位:万元)的统计资料如表所示:根据统计资料,居民家庭年平均收入的中位数是__________万元,家庭年平均收入与年平均支出有________线性相关关系. 答案 13 正解析 考查中位数的定义,奇数个时按大小顺序排列后中间一个是中位数,而偶数个时需取中间两数的平均数.由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系.5.某5名学生的总成绩和数学成绩(单位:分)如表所示:(1)画出散点图;(2)求y 对x 的线性回归方程(结果保留到小数点后3位数字); (3)如果一个学生的总成绩为450分,试预测这个学生的数学成绩. 解 (1)散点图如图所示:(2)由题中数据计算可得x =391.6,y =67.8,∑i =15x 2i =770 654,∑i =15x i y i =133 548.代入公式得b ^=133 548-5×391.6×67.8770 654-5×391.62≈0.204,a ^=67.8-0.204×391.6≈-12.086,所以y 对x 的线性回归方程为y ^=-12.086+0.204x .(3)由(2)得当总成绩为450分时,y ^=-12.086+0.204×450≈80,即这个学生的数学成绩大约为80分.1.判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图.根据散点图,可以很容易看出两个变量是否具有相关关系,是不是线性相关,是正相关还是负相关. 2.求线性回归方程时应注意的问题(1)知道x 与y 成线性相关关系,无需进行相关性检验,否则应首先进行相关性检验,如果两个变量之间本身不具有相关关系,或者说,它们之间的相关关系不显著,即使求出线性回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的. (2)用公式计算a ^、b ^的值时,要先计算b ^,然后才能算出a ^.3.利用回归方程,我们可以进行估计和预测.若回归方程为y ^=b ^x +a ^,则x =x 0处的估计值为y ^0=b ^x 0+a ^.40分钟课时作业一、选择题1.某商品销售量y (件)与销售价格x (元/件)负相关,则其线性回归方程可能是( ) A.y ^=-10x +200 B.y ^=10x +200 C.y ^=-10x -200 D.y ^=10x -200答案 A解析 x 的系数为负数,表示负相关,排除B 、D ,由实际意义可知x >0,y >0,C 中,散点图在第四象限无意义,故选A.2.根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关 答案 D解析 由柱形图可知:A 、B 、C 均正确,2006年以来我国二氧化硫年排放量在逐渐减少,所以排放量与年份负相关,所以D 不正确.3.对变量x ,y 有观测数据(x i ,y i )(i =1,2,3,…,10),得散点图1;对变量u ,v 有观测数据(u i ,v i )(i =1,2,3,…,10),得散点图2,由这两个散点图可以判断( )A .y 与x 正相关,v 与u 正相关B .y 与x 正相关,v 与u 负相关C .y 与x 负相关,v 与u 正相关D .y 与x 负相关,v 与u 负相关 答案 C解析 根据散点图直接进行判断.4.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( ) A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4答案 A解析 由变量x 与y 正相关知C 、D 均错,又回归直线经过样本点的中心(3,3.5),代入验证得A 正确,B 错误.故选A. 5.已知x 与y 之间的一组数据:若y 与x 线性相关,则y 与x 的回归直线y ^=b ^x +a ^必过( ) A .点(2,2) B .点(1.5,0) C .点(1,2) D .点(1.5,4)答案 D 解析 ∵x =0+1+2+34=1.5,y =1+3+5+74=4, ∴回归直线必过点(1.5,4).故选D. 6.已知x ,y 的取值如表所示:如果y 与x 线性相关,且线性回归方程为y ^=b ^x +132,则b ^等于( )A .-12B.12 C .-110D.110答案 A 解析 ∵x =2+3+43=3,y =6+4+53=5, ∴回归直线过点(3,5),∴5=3b ^+132,∴b ^=-12,故选A.二、填空题7.为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的数据,计算得回归方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.答案 6解析 x =3+4+5+6+75=5,y =2.5+3+4+4.5+c 5=14+c 5,代入回归方程中得14+c5=0.85×5-0.25,解得c =6.8.如图所示的五组数据(x ,y )中,去掉________后,剩下的四组数据相关性增强.答案 (4,10)解析 去掉点(4,10)后,其余四点大致在一条直线附近,相关性增强. 9.在一次试验中测得(x ,y )的四组数据如下:根据上表可得线性回归方程y ^=-5x +a ^,据此模型预报当x =20时,y 的值为________. 答案 26.5解析 x =16+17+18+194=17.5,y =50+34+41+314=39,∴回归直线过点(17.5,39), ∴39=-5×17.5+a ^, ∴a ^=126.5,∴当x =20时,y =-5×20+126.5=26.5.10.某工厂对某产品的产量与成本的资料分析后有如下数据:由表中数据得到的线性回归方程y ^=b ^x +a ^中b ^=1.1,预测当产量为9千件时,成本约为________万元. 答案 14.5解析 由表中数据得x =4,y =9,代入线性回归方程得a ^=4.6,∴当x =9时,y ^=1.1×9+4.6=14.5. 三、解答题11.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求两变量之间的回归方程y ^=b ^x +a ^;(2)利用(1)中所求出的回归方程预测该地第6年的粮食需求量. 解 (1)由所给数据得 x =3,y =5.8,b ^=∑i =15(x i -x )(y i -y )∑i =15(x i -x )2=1.1,a ^=y -b ^x =2.5, ∴y ^=1.1x +2.5.故所求的回归方程为y ^=1.1x +2.5. (2)第6年的粮食需求量约为 y ^=1.1×6+2.5=9.1(万吨).12.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求月储蓄y (千元)关于月收入x (千元)的线性回归方程; (2)若该居民区某家庭的月收入为7千元,预测该家庭的月储蓄. 解 (1)由题意知n =10,x =1n ∑i =110x i =110×80=8,y =1n ∑i =110y i =110×20=2,又∑i =110x 2i -n x 2=720-10×82=80, ∑i =110x i y i -n x y =184-10×8×2=24,由此得b ^=2480=0.3,a ^=y -b ^x =2-0.3×8=-0.4, 故所求线性回归方程为y ^=0.3x -0.4.(2)将x =7代入线性回归方程,可以得到该家庭的月储蓄约为y ^=0.3×7-0.4=1.7(千元). 13.为了分析某高三学生的学习状态,对其下一阶段的学习提供指导性建议,现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩(单位:分).(1)他的数学成绩与物理成绩哪个更稳定?并说明理由;(2)已知该学生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少分,并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.解 (1)x =100+-12-17+17-8+8+127=100,y =100+-6-9+8-4+4+1+67=100,s 2数学=142,s 2物理=2507,因为s 2数学>s 2物理, 所以他的物理成绩更稳定.(2)由于x 与y 之间具有线性相关关系,经计算得b ^=0.5,a ^=100-0.5×100=50. 所以线性回归方程为y ^=0.5x +50. 当y =115时,x =130. 估计他的数学成绩是130分.建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.。
变量之间相关关系两个变量线性相关
脂肪含量 40
35 30
25 20 15 10
5
年龄
0 20 25 30 35 40 45 50 55 60 65
方案3.如果多取几对点,确定多条直线,再求出这些直线的斜率和截距的 平均值作为回归直线的斜率和截距而得回归方程. 如图:
脂肪含量 40
35 30
25 20 15 10
5
年龄
0 20 25 30 35 40 45 50 55 60 65
(1)画出散点图; (2)从散点图中发现气温与热饮杯数之间关系的一般规律; (3)求回归方程; (4)如果某天的气温是2℃,预测这天卖出的热饮杯数.
摄 ( ℃ 氏 ) 温 度 - 5 0 4 7 1 2 1 5 1 92 32 7 3 1 3 6 热 饮 杯 数 1 5 61 5 01 3 2 1 2 8 1 3 0 1 1 61 0 48 99 3 7 6 5 4
对一组具有线性相关关系的样本数据:(x1,y1),(x2, y2),…,(xn,yn),如何求回归方程?
yˆ bˆx aˆ
yˆ bˆx aˆ
n
( xi x )( y i y )
bˆ i 1
n
(xi x )2
i 1
n
xiyi n x y
i 1 n
,
x
2 i
nx 2
i 1
aˆ y bˆ x
这些点散布在从左下角到右上角的区域,对于两个变
量的这种相关关系,我们将它称为正相关.
如果两个变量成负相关,从整体上看这两个变量的变化 趋势如何?
一个变量随另一个变量的变大而变小,散点图中的点 散布在从左上角到右下角的区域.
例1 在下列两个变量的关系中,哪些是相关关系? ①正方形边长与面积之间的关系; ②作文水平与课外阅读量之间的关系; ③人的身高与年龄之间的关系; ④降雪量与交通事故的发生率之间的关系. ②③④
课标人教A版必修3全套课件第二章变量间的相关关系2.3 变量间的相关关系
英国科学家探险家和人类测量学家。 英国科学家探险家和人类测量学家。1822年2月16日生于伯明 年 月 日生于伯明 日卒于伦敦附近的萨里。 翰,1911年1月17日卒于伦敦附近的萨里。C.R.达尔文的表弟 年 月 日卒于伦敦附近的萨里 达尔文的表弟 高尔顿和 首先发现回归现象的是英国生物学家高尔顿 首先发现回归现象的是英国生物学家高尔顿和皮尔 他们分别在遗传学研究中发现, 逊,他们分别在遗传学研究中发现,生物后代的属 性与其父母有关, 性与其父母有关,这种关系仅仅在平均程度上有所 差别。他们发现, 差别。他们发现,高个子父母的子代平均高度比较 矮个子父母的子代平均高度比较低, 高,矮个子父母的子代平均高度比较低,进一步的 研究又发现, 研究又发现,高个子子代的平均高度要比父代的高 度低,而矮个子子代的平均高度要比父代的高度高, 度低,而矮个子子代的平均高度要比父代的高度高, 形成向种族平均高度靠拢的趋势, 形成向种族平均高度靠拢的趋势,高尔顿将这种现 象称作为“回归” 象称作为“回归”。 回归分析的目的就是确定变量之间数量关系的可能 形式,并用一个数学模型来表示这种关系形式。 形式,并用一个数学模型来表示这种关系形式。
在一次对人体脂肪含量和年龄的关系研究中,研究人员获得 在一次对人体脂肪含量和年龄的关系研究中 研究人员获得 了一份样本数据: 了一份样本数据
说明:各个年龄阶段的脂肪数据是这个年龄样本的平均数 说明 各个年龄阶段的脂肪数据是这个年龄样本的平均数
根据上述数据,人体的脂肪含量与年龄之间有什么样的关系 根据上述数据 人体的脂肪含量与年龄之间有什么样的关系? 人体的脂肪含量与年龄之间有什么样的关系
x y 1.08 1.12 1.19 1.28 1.36 1.48 1.59 1.68 1.80 1.87 1.98 2.07 2.25 2.37 2.40 2.55 2.64 2.75 2.92 3.03 3.14 3.26 3.36 3.50
高中数学必修三之知识讲解_变量间的相关关系_提高
变量的相关性【学习目标】1.明确两个变量具有相关关系的意义;2.知道回归分析的意义;3.知道回归直线、回归直线方程、线性回归分析的意义;4.掌握对两个变量进行线性回归的方法和步骤,并能借助科学计算器确定实际问题中两个变量间的回归直线方程;【要点梳理】【高清课堂:变量的相关关系 400458 知识讲解1】要点一、变量之间的相关关系变量与变量之间存在着两种关系:一种是函数关系,另一种是相关关系。
1.函数关系函数关系是一种确定性关系,如y=kx+b,变量x取的每一个值,y都有唯一确定的值和它相对应。
2.相关关系变量间确定存在关系,但又不具备函数关系所要求的确定性相关关系分为两种:正相关和负相关要点诠释:对相关关系的理解应当注意以下几点:(1)相关关系与函数关系不同.因为函数关系是一种非常确定的关系,而相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.而函数关系可以看成是两个非随机变量之间的关系.因此,不能把相关关系等同于函数关系.(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.例如,有人发现,对于在校儿童,鞋的大小与阅读能力有很强的相关关系.然而,学会新词并不能使脚变大,而是涉及到第三个因素——年龄.当儿童长大一些,他们的阅读能力会提高而且由于长大脚也变大.(3)函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化.例如正方形面积S与其边长x间虽然是一种确定性关系,但在每次测量边长时,由于测量误差等原因,其数值大小又表现出一种随机性.而对于具有线性关系的两个变量来说,当求得其回归直线后,我们又可以用一种确定性的关系对这两个变量间的关系进行估计.3.散点图将收集到的两个变量的统计数据分别作为横、纵坐标,在直角坐标系中描点,这样的图叫做散点图。
通过散点图可初步判断两个变量之间是否具有相关关系,她反映了各数据的密切程度。
要点二、正相关、负相关(1)正相关:在统计数据中的两个变量,一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关。
高中数学必修三-变量间的相关关系
变量间的相关关系知识集结知识元变量之间的相关关系知识讲解1、变量之间的相关关系两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系.当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系.相关关系是一种非确定性关系,如长方体的高与体积之间的关系就是确定的函数关系,而人的身高与体重的关系,学生的数学成绩好坏与物理成绩的关系等都是相关关系.2、线性相关和非线性相关:两个变量之间的相关关系又可分为线性相关和非线性相关,如果所有的样本点都落在某一函数曲线的附近,则变量之间具有相关关系(不确定性的关系),如果所有样本点都落在某一直线附近,那么变量之间具有线性相关关系,相关关系只说明两个变量在数量上的关系,不表明他们之间的因果关系,也可能是一种伴随关系.3、两个变量相关关系与函数关系的区别和联系(1)相同点:两者均是两个变量之间的关系.(2)不同点:函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系,相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系,函数关系是两个随机变量之间的关系,而相关关系是非随机变量与随机变量之间的关系;函数关系式一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.例题精讲变量之间的相关关系例1.用线性回归模型求得甲、乙、丙3组不同的数据的线性相关系数分别为0.81,-0.98,0.63,其中___(填甲、乙、丙中的一个)组数据的线性相关性最强.例2.如图所示,有A,B,C,D,E,5组数据,去掉___组数据后,剩下的4组数据具有较强的线性相关关系.(请用A、B、C、D、E作答)例3.对两个变量的相关系数r,有下列说法:(1)|r|越大,相关程度越大;(2)|r|越小,相关程度越大;(3)|r|趋近于0时,没有非线性相关系数;(4)|r|越接近于1时,线性相关程度越强,其中正确的是_________.例4.下列两个变量之间的关系是相关关系的是___.①正方体的棱长和体积;②单位圆中圆心角的度数和所对弧长;③单产为常数时,土地面积和总产量;④日照时间与水稻的亩产量.两个变量的线性相关知识讲解1.散点图【知识点的知识】1.散点图的概念:在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.2.曲线拟合的概念:从散点图可以看出如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这种近似的过程称为曲线拟合.3.正相关和负相关:(1)正相关:对于相关关系的两个变量,如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关,正相关时散点图的点散布在从左下角到右上角的区域内.(2)负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关,负相关时散点图的点散布在从左上角到右下角的区域.3、注意:画散点图的关键是以成对的一组数据,分别为此点的横、纵坐标,在平面直角坐标系中把其找出来,其横纵坐标的单位长度的选取可以不同,应考虑数据分布的特征,散点图只是形象的描述点的分布,如果点的分布大致呈一种集中趋势,则两个变量可以初步判断具有相关关系,如图中数据大致分布在一条直线附近,则表示的关系是线性相关,如果两个变量统计数据的散点图呈现如下图所示的情况,则两个变量之间不具备相关关系,例如学生的身高和学生的英语成绩就没有相关关系.4、散点图又称散点分布图,是以一个变量为横坐标,另一变量为纵坐标,利用散点(坐标点)的分布形态反映变量统计关系的一种图形.特点是能直观表现出影响因素和预测对象之间的总体关系趋势.优点是能通过直观醒目的图形方式反映变量间关系的变化形态,以便决定用何种数学表达方式来模拟变量之间的关系.散点图不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度.2.线性回归方程【概念】线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛.分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析.变量的相关关系中最为简单的是线性相关关系,设随机变量与变量之间存在线性相关关系,则由试验数据得到的点将散布在某一直线周围.因此,可以认为关于的回归函数的类型为线性函数.【实例解析】例:对于线性回归方程,则=解:,因为回归直线必过样本中心(),所以.故答案为:58.5.方法就是根据线性回归直线必过样本中心(),求出,代入即可求.这里面可以看出线性规划这类题解题方法比较套路化,需要熟记公式.【考点点评】这类题记住公式就可以了,也是高考中一个比较重要的点.3.最小二乘法【概念】最小二乘法(又称最小平方法)是一种数学优化技术.它通过最小化误差的平方和寻找数据的最佳函数匹配.利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小.最小二乘法还可用于曲线拟合.其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达.【例题解析】例:关于x与y有如表数据:请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程为y=0.7x+0.35.解:∵由题意知,,∴=0.7∴要求的线性回归方程是y=0.7x+0.35,故答案为:y=0.7x+0.35.集体步骤就是先做出x,y的平均数,代入的公式,利用最小二乘法做出线性回归直线的方程的系数,写出回归直线的方程,得到结果.【考点解析】最小二乘法一般在线性拟合中应用的比较多,主要是一种方法,能够熟记如何操作就可以了,剩下的就是计算要认真.例题精讲两个变量的线性相关例1.'2018年9月17日,世界公众科学素质促进大会在北京召开,国家主席习近平向大会致贺信中指出,科学技术是第一生产力,创新是引领发展的第一动力某企业积极响应国家“科技创新”的号召,大力研发新产品,为了对新研发的一批产品进行合理定价,将该产品按事先拟定的价格进行试销,得到一组销售数据{x i,y i)(i=1,2,3,4,5,6),如表(1)求出p的值;(2)已知变量x,y具有线性相关关系,求产品销量y(件)关于试销单价:x(百元)的线性国归方程y=bx+a(计算结果精确到整数位);(3)用表示用正确的线性回归方程得到的与x对应的产品销的估计值当销售数据(x i,y i)的残差的绝对值|y i-y|<1时,则将销售数据称为一个“有效数据”现从这6组销售数中任取2组,求抽取的2组销售数据都是“有效数据”的概率.参考公式及数据=y i=80,=1606,=91,,'例2.'某地种植常规稻α和杂交稻β,常规稻α的亩产稳定为485公斤,今年单价为3.70元/公斤,估计明年单价不变的可能性为10%,变为3.90元/公斤的可能性为70%,变为4.00的可能性为20%.统计杂交稻β的亩产数据,得到亩产的频率分布直方图如图①.统计近10年杂交稻β的单价(单位:元/公斤)与种植亩数(单位:万亩)的关系,得到的10组数据记为(x i,y i)(i=1,2,..10),并得到散点图如图②.(1)根据以上数据估计明年常规稻α的单价平均值;(2)在频率分布直方图中,各组的取值按中间值来计算,求杂交稻β的亩产平均值;以频率作为概率,预计将来三年中至少有二年,杂交稻β的亩产超过795公斤的概率;(3)①判断杂交稻β的单价y(单位:元/公斤)与种植亩数x(单位:万亩)是否线性相关?若相关,试根据以下的参考数据求出y关于x的线性回归方程;②调查得知明年此地杂交稻β的种植亩数预计为2万亩.若在常规稻α和杂交稻β中选择,明年种植哪种水稻收入更高?统计参考数据:=1.60,=2.82,(x i)(y i)=-0.52,(x i)2=0.65,附:线性回归方程=bx+a,b=.'当堂练习单选题练习1.用模型y=ce kx拟合一组数据时,为了求出回归方程,设z=lny,其变换后得到线性回归方程z=0.3x+2,则c=()A.e2B.e4C.2D.4练习2.根据最小二乘法由一组样本点(x i,y i)(其中i=1,2,…,300),求得的回归方程是=x+,则下列说法正确的是()A.至少有一个样本点落在回归直线=x+上B.若所有样本点都在回归直线=x+上,则变量间的相关系数为1C.对所有的解释变量x i(i=1,2….300).bx i+的值一定与y i有误差D.若回归直线=x+的斜率b>0,则变量x与y正相关练习3.已知一组数据点(x1,y1),(x2,y2),(x3,y3),…,(x7,y7),用最小二乘法得到其线性回归方程为,若数据x1,x2,x3,…x7的平均数为1,则=()A.2B.11C.12D.14练习4.根据如下样本数据得到的回归直线方程为=bx+a,则()A.a>0,b>0B.a>0,b<0C.a<0,b<0D.a<0,b>0练习5.下列表格所示的五个散点数据,用最小二乘法得出y与x的线性回归直线方程为,则表格中m的值应为()A.8.3B.8.2C.8.1D.8练习6.一车间为规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验,测得的数据如下根据上表可得回归方程,则实数a的值为()A.37.3B.38C.39D.39.5练习1.如图所示,有A,B,C,D,E,5组数据,去掉___组数据后,剩下的4组数据具有较强的线性相关关系.(请用A、B、C、D、E作答)练习2.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其横断面直径与高度之间的关系,其中是相关关系的为_____.练习3.对两个变量的相关系数r,有下列说法:(1)|r|越大,相关程度越大;(2)|r|越小,相关程度越大;(3)|r|趋近于0时,没有非线性相关系数;(4)|r|越接近于1时,线性相关程度越强,其中正确的是_________.练习4.下列两个变量之间的关系是相关关系的是___.①正方体的棱长和体积;②单位圆中圆心角的度数和所对弧长;③单产为常数时,土地面积和总产量;④日照时间与水稻的亩产量.练习1.'2013年以来精准扶贫政策的落实,使我国扶贫工作有了新进展,贫困发生率由2012年底的10.2%下降到2018年底的1.4%,创造了人类减贫史上的中国奇迹.“贫困发生率”是指低于贫困线的人口占全体人口的比例,2012年至2018年我国贫困发生率的数据如表:(1)从表中所给的7个贫困发生率数据中心任选两个,求两个都低于5%的概率;(2)设年份代码x=t-2015,利用线性回归方程,分析2012年至2018年贫困发生率y与年份代码x的相关情况,并预测2019年贫困发生率.'练习2.'某企业为确定下一年投入某种产品的研发费用,需了解年研发费用x(单位:千万元)对年销售量y(单位:千万件)的影响,统计了近10年投入的年研发费用x i与年销售量y i(i=1,2…,10)的数据,得到散点图如图所示.(1)利用散点图判断y=a+bx和y=c∙x d(其中c,d均为大于0的常数)哪一个更适合作为年销售量y和年研发费用x的回归方程类型(只要给出判断即可,不必说明理由);(2)对数据作出如下处理,令u i=lnx i,v i=lny i,得到相关统计量的值如表:根据第(1)问的判断结果及表中数据,求y关于x的回归方程;(3)已知企业年利润z(单位:千万元)与x,y的关系为z=18y-x(其中e≈2.71828),根据第(2)问的结果判断,要使得该企业下一年的年利润最大,预计下一年应投入多少研发费用?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线=+的斜率和截距的最小二乘估计分别为=,=.'基于移动互联技术的共享单车被称为“新四大发明”之一,短时间内就风靡全国,带给人们新的出行体验,某共享单车运营公司的市场研究人员为了解公司的经营状况,对该公司最近六个月内的市场占有率进行了统计,设月份代码为x,市场占有率为y(%),得结果如表(1)观察数据看出,可用线性回归模型拟合y与x的关系,请用相关系数加以说明(精确到0.001):(2)求y关于x的线性回归方程,并预测该公司2019年4月份的市场占有率;(3)根据调研数据,公司决定再采购一批单车扩大市场,现有采购成本分别为1000元/辆和800元/辆的甲,乙两款车型报年限各不相同.考虑到公司的经济效益,该公司决定先对两款单车各100辆行科学模拟测试,得到两款单车使用寿命表如下经测算,平均每辆单车每年可以为公司带来收入500元,不考虑除采购成本之外的其他成本,假设每辆单车的使用寿命都是整数年,且用频率估计每单车使用寿命的概率,以每辆单车产生利润的期望值为决策依据.如果你是该公司的负责人,你会选择采购哪款车型?参考数据(x i)2=17.5,(y i)2=76,(x i)(y i)=35,≈36.5参考公式:相关系数r=回归方程=x中斜率和截距的最小二乘估计公式分别为=,=近期,某公交公司与银行开展云闪付乘车支付活动,吸引了众多乘客使用这种支付方式.某线路公交车准备用20天时间开展推广活动,他们组织有关工作人员,对活动的前七天使用云闪付支付的人次数据做了初步处理,设第x天使用云闪付支付的人次为y,得到如图所示的散点图.由统计图表可知,可用函数y=a∙b x拟合y与x的关系(1)求y关于x的回归方程;(2)预测推广期内第几天起使用云闪付支付的人次将超过10000人次.附:①参考数据表中v i=lgy i,=lgy i②参考公式:对于一组数据(u1,v1),(u2,v2)…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为β=,α=-β.'习近平总书记在十九大报告中指出,必须树立和践行“绿水青山就是金山银山”的生态文明发展理念,某城市选用某种植物进行绿化,设其中一株幼苗从观察之日起,第x的高度为ycm,测得一些数据图如下表所示作出这组数的散点图如图.(1)请根据散点图判断,y=ax+b与y=c+d中哪一个更适宜作为幼苗高度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程,并预测第144天这株幼苗的高度(结果保留1位小数)附:=,参考数据:'某老小区建成时间较早,没有集中供暖,随着人们生活水平的日益提高热力公司决定在此小区加装暖气该小区的物业公司统计了近五年(截止2018年年底)小区居民有意向加装暖气的户数,得到如下数据(Ⅰ)若有意向加装暖气的户数y与年份编号x满足线性相关关系求y与x的线性回归方程并预测截至2019年年底,该小区有多少户居民有意向加装暖气;(Ⅱ)2018年年底郑州市民生工程决定对老旧小区加装暖气进行补贴,该小区分到120个名额物业公司决定在2019年度采用网络竞拍的方式分配名额,竞拍方案如下:①截至2018年年底已登记在册的居民拥有竞拍资格;②每户至多申请一个名额,由户主在竞拍网站上提出申请并给出每平方米的心理期望报价;③根据物价部门的规定,每平方米的初装价格不得超过300元;④申请阶段截止后,将所有申请居民的报价自高到低排列,排在前120位的业主以其报价成交;⑤若最后出现并列的报价,则认为申请时问在前的居民得到名额,为预测本次竞拍的成交最低价,物业公司随机抽取了有竞拍资格的50位居民进行调查统计了他们的拟报竞价,得到如图所示的频率分布直方图:(1)求所抽取的居民中拟报竞价不低于成本价180元的人数;(2)如果所有符合条件的居民均参与竞拍,请你利用样本估计总体的思想预测至少需要报价多少元才能获得名额(结果取整数)参考公式对于一组数据(x1,y1),(x2,y2),(x3,y3),…(x n,y n),其回归直线=x+的斜率和截距的最小二乘估计分别为,=,=-。
2017-2018学年高中数学人教A版必修3教学案:第二章 2.3 变量间的相关关系
变量间的相关关系(1)函数关系与相关关系的区别与联系是什么?(2)如何判断两个变量之间是否具备相关关系?(3)什么是正相关、负相关?与散点图有什么关系?[新知初探]1.相关关系如果两个变量中一个变量的取值一定时,另一个变量的取值带有一定的随机性,那么这两个变量之间的关系叫做相关关系.2.散点图将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图,利用散点图,可以判断两个变量是否相关,相关时是正相关还是负相关.3.正相关和负相关(1)正相关:散点图中的点散布在从左下角到右上角的区域.(2)负相关:散点图中的点散布在从左上角到右下角的区域.[点睛]对正相关和负相关的理解(1)正相关随自变量的变大(或变小),因变量也随之变大(或变小),这种带有随机性的相关关系,我们称为正相关.例如,人年龄由小变大时,体内脂肪含量也由少变多.(2)负相关随自变量的变大(或变小),因变量却随之变小(或变大),这种带有随机性的相关关系,我们称为负相关.例如,汽车越重,每消耗1 L 汽油所行驶的平均路程就越短.4.回归直线方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程:回归直线的方程,简称回归方程. (3)回归方程的推导过程:①假设已经得到两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ).②设所求回归方程为y ^=b ^x +a ^,其中a ^,b ^是待定参数. ③由最小二乘法得⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n (x i-x )2=∑i =1nx i y i-n x y ∑i =1n x 2i-n x 2a ^=y -b ^x其中:b ^是回归方程的斜率,a ^是截距.[小试身手]1.下列命题正确的是( ) ①任何两个变量都具有相关关系; ②圆的周长与该圆的半径具有相关关系;③某商品的需求量与该商品的价格是一种非确定性关系; ④根据散点图求得的回归直线方程可能是没有意义的;⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究.A .①③④B .②③④C .③④⑤D .②④⑤解析:选C ①显然不对,②是函数关系,③④⑤正确.2.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图图1;对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图图2.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解析:选C 由这两个散点图可以判断,变量x 与y 负相关,u 与v 正相关. 3.若施肥量x (kg)与水稻产量y (kg)的线性回归方程为y ^=5x +250,当施肥量为80 kg 时,预计水稻产量约为________kg.解析:把x =80代入回归方程可得其预测值y ^=5×80+250=650(kg). 答案:6504.对具有线性相关关系的变量x 和y ,测得一组数据如下表所示.x 2 4 5 6 8 y3040605070若已求得它们回归直线的方程为______________________.解析:由题意可知x =2+4+5+6+85=5,y =30+40+60+50+705=50.即样本中心为(5,50).设回归直线方程为y ^=6.5x +a ^, ∵回归直线过样本中心(x ,y ), ∴50=6.5×5+a ^,即a ^=17.5, ∴回归直线方程为y ^=6.5x +17.5 答案:y ^=6.5x +17.5相关关系的判断①正方形的边长与面积之间的关系;②农作物的产量与施肥量之间的关系;③出租车费与行驶的里程;④降雪量与交通事故的发生率之间的关系.(2)某个男孩的年龄与身高的统计数据如下表所示.年龄x(岁)12345 6身高y(cm)788798108115120①画出散点图;②判断y与x是否具有线性相关关系.[解析](1)在①中,正方形的边长与面积之间的关系是函数关系;在②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;③为确定的函数关系;在④中,降雪量与交通事故的发生率之间具有相关关系.答案:②④(2)解:①散点图如图所示.②由图知,所有数据点接近一条直线排列,因此,认为y与x具有线性相关关系.两个变量是否相关的两种判断方法(1)根据实际经验:借助积累的经验进行分析判断.(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.[活学活用]如图所示的两个变量不具有相关关系的是________(填序号).解析:①是确定的函数关系;②中的点大都分布在一条曲线周围;③中的点大都分布在一条直线周围;④中点的分布没有任何规律可言,x ,y 不具有相关关系.答案:①④[典例] (1)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4(2)一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器的运转的速度的变化而变化,下表为抽样试验的结果:转速x (转/秒)16 14 12 8 每小时生产有缺点的零件数y (件)11985②如果y 对x 有线性相关关系,请画出一条直线近似地表示这种线性关系; ③在实际生产中,若它们的近似方程为y =5170x -67,允许每小时生产的产品中有缺点的零件最多为10件,那么机器的运转速度应控制在什么范围内?[解析] (1)依题意知,相应的回归直线的斜率应为正,排除C 、D.且直线必过点(3,3.5),代入A 、B 得A 正确.答案:A(2)解:①散点图如图所示:②近似直线如图所示:③由y ≤10得5170x -67≤10,解得x ≤14.9,所以机器的运转速度应控制在14转/秒内.求回归直线方程的步骤(1)收集样本数据,设为(x i ,y i )(i =1,2,…,n )(数据一般由题目给出). (2)作出散点图,确定x ,y 具有线性相关关系. (3)把数据制成表格x i ,y i ,x 2i ,x i y i . (4)计算x ,y,∑i =1nx 2i ,∑i =1nx i y i . (5)代入公式计算b ^,a ^,公式为⎩⎪⎨⎪⎧b ^=∑i =1n x i y i -n x y∑i =1n x 2i-n x2,a ^=y -b ^x .(6)写出回归直线方程y ^=b ^x +a ^. [活学活用]已知变量x ,y 有如下对应数据:x 1 2 3 4 y1345(1)作出散点图;(2)用最小二乘法求关于x ,y 的回归直线方程. 解:(1)散点图如图所示.(2)x =1+2+3+44=52,y =1+3+4+54=134, ∑i =14x i y i =1+6+12+20=39.∑i =14x 2i =1+4+9+16=30,b ^=39-4×52×13430-4×⎝⎛⎭⎫522=1310,a ^=134-1310×52=0,所以y ^=1310x 为所求的回归直线方程.利用线性回归方程对总体进行估计[典例] 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据:x 3 4 5 6 y2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,求出y 关于x 的回归直线方程y ^=b ^x +a ^;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的回归直线方程,预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤?[解] (1)散点图如图:(2)x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5,∑i =14x i y i =3×2.5+4×3+5×4+6×4.5=66.5,∑i =14x 2i =32+42+52+62=86, 所以b ^=∑i =14x i y i -4x y ∑i =14x 2i -4x2=66.5-4×4.5×3.586-4×4.52=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35. 所以所求的线性回归方程为y ^=0.7x +0.35.(3)当x =100时,y ^=0.7×100+0.35=70.35(吨标准煤),90-70.35=19.65(吨标准煤).即生产100吨甲产品的生产能耗比技改前降低了19.65吨标准煤.只有当两个变量之间存在线性相关关系时,才能用回归直线方程对总体进行估计和预测.否则,如果两个变量之间不存在线性相关关系,即使由样本数据求出回归直线方程,用其估计和预测结果也是不可信的.[活学活用](重庆高考)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2010 2011 2012 2013 2014 时间代号t 1 2 3 4 5 储蓄存款y (千亿元)567810(1)求y 关于t 的回归方程y ^=b ^t +a ^;(2)用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款. 解:(1)列表计算如下:i t i y i t 2i t i y i 1 2 3 4 51 2 3 4 55 6 7 8 101 4 9 16 255 12 21 32 50这里n =5,t -=1n ∑i =1n t i =155=3,y -=1n ∑i =1ny i =365=7.2.∑i =1nt 2i -n t -2=55-5×32=10,∑i =1nt i y i -n t -y -=120-5×3×7.2=12,从而b ^=1210=1.2,a ^=y --b ^t -=7.2-1.2×3=3.6,故所求回归方程为y ^=1.2t +3.6.(2)将t =6代入回归方程可预测该地区2015年的人民币储蓄存款为y ^=1.2×6+3.6=10.8(千亿元).[层级一 学业水平达标]1.下列变量具有相关关系的是( ) A .人的体重与视力B .圆心角的大小与所对的圆弧长C .收入水平与购买能力D .人的年龄与体重解析:选C B 为确定性关系;A ,D 不具有相关关系,故选C. 2.已知变量x ,y 之间具有线性相关关系,其散点图如图所示,则其回归方程可能为A.y ^=1.5x +2 B.y ^=-1.5x +2 C.y ^=1.5x -2 D.y ^=-1.5x -2解析:选B 设回归方程为y ^=b ^x +a ^,由散点图可知变量x ,y 之间负相关,回归直线在y 轴上的截距为正数,所以b ^<0,a ^>0,因此方程可能为y ^=-1.5x +2.3.设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线如图所示,则以下结论正确的是( )A .直线l 过点(x ,y )B .回归直线必通过散点图中的多个点C .直线l 的斜率必在(0,1)D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同解析:选A A 是正确的;回归直线可以不经过散点图中的任何点,故B 错误;回归直线的斜率不确定,故C 错误;分布在l 两侧的样本点的个数不一定相同,故D 错误.4.对有线性相关关系的两个变量建立的回归直线方程y ^=a ^+b ^x 中,回归系数b ^( ) A .不能小于0 B .不能大于0 C .不能等于0D .只能小于0解析:选C 当b ^=0时,r =0,这时不具有线性相关关系,但b ^能大于0,也能小于0. 5.2016年元旦前夕,某市统计局统计了该市2015年10户家庭的年收入和年饮食支出的统计资料如下表:(2)若某家庭年收入为9万元,预测其年饮食支出. (参考数据:∑i =110x i y i =117.7,∑i =110x 2i =406)解:依题意可计算得:x =6,y =1.83,x 2=36,x y =10.98, 又∵∑i =110x i y i =117.7,∑i =110x 2i =406,∴b ^=∑i =110x i y i -10x y∑i =110x 2i -10x2≈0.17,a ^=y -b ^x =0.81,∴y ^=0.17x +0.81. ∴所求的回归方程为y ^=0.17x +0.81.(2)当x =9时,y ^=0.17×9+0.81=2.34(万元).可估计年收入为9万元的家庭每年饮食支出约为2.34万元.[层级二 应试能力达标]1.一个口袋中有大小不等的红、黄、蓝三种颜色的小球若干个(大于5个),从中取5次,那么取出红球的次数和口袋中红球的数量是( )A .确定性关系B .相关关系C .函数关系D .无任何关系解析:选B 每次从袋中取球取出的球是不是红球,除了和红球的个数有关外,还与球的大小等有关系,所以取出红球的次数和口袋中红球的数量是一种相关关系.2.农民工月工资y (元)依劳动生产率x (千元)变化的回归直线方程为y ^=50+80x ,下列判断正确的是( )A .劳动生产率为1 000元时,工资为130元B .劳动生产率提高1 000元时,工资水平提高80元C .劳动生产率提高1 000元时,工资水平提高130元D .当月工资为210元时,劳动生产率为2 000元解析:选B 由回归直线方程y ^=50+80x 知,x 每增加1,y 增加80,但要注意x 的单位是千元,y 的单位是元.3.为了解儿子身高与其父亲身高的关系,随机抽取5对父子身高数据如下:父亲身高x (cm) 174 176 176 176 178 儿子身高y (cm)175175176177177则y 对x 的线性回归方程为( ) A .y =x -1 B .y =x +1 C .y =88+12xD .y =176解析:选C 计算得,x =174+176+176+176+1785=176,y =175+175+176+177+1775=176,根据回归直线经过样本中心(x ,y )检验知,C 符合.4.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y ^=b ^x +a ^,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.y ^>b ′,a ^<a ′C.b ^<b ′,a ^>a ′D.y ^<b ′,a ^<a ′解析:选C 由(1,0),(2,2)求b ′,a ′. b ′=2-02-1=2,a ′=0-2×1=-2.求b ^,a ^时,∑i =16x i y i =0+4+3+12+15+24=58,x =3.5,y =136, ∑i =16x 2i =1+4+9+16+25+36=91,∴b ^=58-6×3.5×13691-6×3.52=57, a ^=136-57×3.5=136-52=-13,∴b ^<b ′,a ^>a ′.5.正常情况下,年龄在18岁到38岁的人,体重y (kg)对身高x (cm)的回归方程为y ^=0.72x -58.2,张红同学(20岁)身高为178 cm ,她的体重应该在________ kg 左右.解析:用回归方程对身高为178 cm 的人的体重进行预测,当x =178时,y ^=0.72×178-58.2=69.96(kg).答案:69.966.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:由表中数据,求得线性回归方程为y =-4x +a ,则a =________. 解析:x =4+5+6+7+8+96=132,y =92+82+80+80+78+686=80,由回归方程过样本中心点(x ,y ) 得80=-4×132+a ^.即a ^=80+4×132=106.答案:1067.对某台机器购置后的运行年限x (x =1,2,3,…)与当年利润y 的统计分析知x ,y 具备线性相关关系,回归方程为y ^=10.47-1.3x ,估计该台机器最为划算的使用年限为________年.解析:当年利润小于或等于零时应该报废该机器,当y =0时,令10.47-1.3x =0,解得x ≈8,故估计该台机器最为划算的使用年限为8年.答案:88.一项关于16艘轮船的研究中,船的吨位区间为[192,3 246](单位:吨),船员的人数5~32人,船员人数y 关于吨位x 的回归方程为y ^=9.5+0.006 2x ,(1)若两艘船的吨位相差1 000,求船员平均相差的人数; (2)估计吨位最大的船和最小的船的船员人数. 解:(1)设两艘船的吨位分别为x 1,x 2,则 y ^1-y ^2=9.5+0.006 2x 1-(9.5+0.006 2x 2) =0.006 2×1 000≈6, 即船员平均相差6人.(2)当x =192时,y ^=9.5+0.006 2×192≈11, 当x =3 246时,y ^=9.5+0.006 2×3 246≈30.即估计吨位最大和最小的船的船员数分别为30人和11人.9.某个体服装店经营某种服装在某周内所获纯利y (元)与该周每天销售这种服装的件数x (件)之间有一组数据如下表:(1)求x ,y ;(2)若纯利y 与每天销售这种服装的件数x 之间是线性相关的,求回归直线方程; (3)若该店每周至少要获纯利200元,请你预测该店每天至少要销售这种服装多少件? (提示:∑i =17x 2i =280,∑i =17y 2i =45 309,∑i =17x i y i =3 487)解:(1)x =3+4+5+6+7+8+97=6,y =66+69+73+81+89+90+917≈79.86.(2)∵b ^=3 487-7×6×79.86280-7×62≈4.75,a ^=79.86-4.75×6=51.36,∴纯利与每天销售件数x 之间的回归直线方程为y ^=51.36+4.75x . (3)当y ^=200时,200=4.75x +51.36,所以x ≈31.29.因此若该店每周至少要获纯利200元,则该店每天至少要销售这种服装32件.(时间120分钟,满分150分)一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的)1.下列三个抽样:①一个城市有210家某商品的代理商,其中大型代理商有20家,中型代理商有40家,小型代理商有150家,为了掌握该商品的销售情况,要从中抽取一个容量为21的样本;②在某公司的50名工人中,依次抽取工号为5,10,15,20,25,30,35,40,45,50的10名工人进行健康检查;③某市质量检查人员从一食品生产企业生产的两箱(每箱12盒)牛奶中抽取4盒进行质量检查.则应采用的抽样方法依次为( )A .简单随机抽样;分层抽样;系统抽样B .分层抽样;简单随机抽样;系统抽样C .分层抽样;系统抽样;简单随机抽样D .系统抽样;分层抽样;简单随机抽样解析:选C ①中商店的规模不同,所以应利用分层抽样;②中抽取的学号具有等距性,所以应是系统抽样;③中总体没有差异性,容量较小,样本容量也较小,所以应采用简单随机抽样.故选C.2.将某班的60名学生编号为01,02,…,60,采用系统抽样方法抽取一个容量为5的样本,且随机抽得的一个号码为04,则剩下的四个号码依次是( )A .09,14,19,24B .16,28,40,52C .10,16,22,28D .08,12,16,20解析:选B 分成5组,每组12名学生,按等间距12抽取.选项B 正确.3.某学校有教师200人,男学生1 200人,女学生1 000人.现用分层抽样的方法从全体师生中抽取一个容量为n 的样本,若女学生一共抽取了80人,则n 的值为( )A .193B .192C .191D .190解析:选B 1 000×n200+1 200+1 000=80,求得n =192.4.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( )A.y ^=-10x +200 B.y ^=10x +200 C.y ^=-10x -200D.y ^=10x -200解析:选A 由于销售量y 与销售价格x 成负相关,故排除B ,D.又因为销售价格x >0,则C 中销售量全小于0,不符合题意,故选A.5.设有两组数据x 1,x 2,…,x n 与y 1,y 2,…,y n ,它们的平均数分别是x 和y ,则新的一组数据2x 1-3y 1+1,2x 2-3y 2+1,…,2x n -3y n +1的平均数是( )A .2x -3yB .2x -3y +1C .4x -9yD .4x -9y +1解析:选B 设z i =2x i -3y i +1(i =1,2,…,n ),则z =1n (z 1+z 2+…+z n )=2n (x 1+x 2+…+x n )-3n (y 1+y 2+…+y n )+⎝⎛⎭⎫1+1+…+1n =2x -3y +1.6.有一个容量为66的样本,数据的分组及各组的频数如下: [11.5,15.5) 2 [15.5,19.5) 4 [19.5,23.5) 9 [23.5,27.5) 18 [27.5,31.5) 11 [31.5,35.5) 12 [35.5,39.5) 7 [39.5,43.5) 3则总体中大于或等于31.5的数据所占比例约为( ) A.211 B.13 C.12D.23解析:选B 由题意知,样本的容量为66,而落在[31.5,43.5)内的样本个数为12+7+3=22,故总体中大于或等于31.5的数据约占2266=13.7.某学习小组在一次数学测验中,得100分的有1人,得95分的有1人,得90分的有2人,得85分的有4人,得80分和75分的各有1人,则该小组数学成绩的平均数、众数、中位数分别是( )A .85,85,85B .87,85,86C .87,85,85D .87,85,90解析:选C ∵得85分的人数最多为4人, ∴众数为85,中位数为85,平均数为110(100+95+90×2+85×4+80+75)=87.8.某出租汽车公司为了了解本公司司机的交通违章情况,随机调查了50名司机,得到了他们某月交通违章次数的数据,结果制成了如图所示的统计图,根据此统计图可得这50名出租车司机该月平均违章的次数为( )A .1B .1.8C .2.4D .3解析:选B5×0+20×1+10×2+10×3+5×450=1.8.9.下表是某厂1~4月份用水量情况(单位:百吨)的一组数据月份x 1 2 3 4 用水量y4.5432.5用水量y 与月份x 之间具有线性相关关系,其线性回归方程为y ^=-0.7x +a ,则a 的值为( )A .5.25B .5C .2.5D .3.5解析:选A 线性回归方程经过样本的中心点,根据数据可得样本中心点为(2.5,3.5),所以a =5.25.10.如图是在元旦晚会举办的挑战主持人大赛上,七位评委为某选手打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )A .84,4.84B .84,1.6C .85,1.2D .85,4解析:选C 去掉一个最高分95,去掉一个最低分77,平均数为80+15(5+3+6+5+6)=85,方差为15[(85-85)2+(85-83)2+(85-86)2+(85-85)2+(85-86)2]=1.2,因此选C.11.如果数据x 1,x 2,x 3,…,x n 的平均数是x ,方差是s 2,则3x 1+2,3x 2+2,…,3x n +2的平均数和方差分别是( )A.x 和s 2 B .3x 和9s 2 C .3x +2和9s 2D .3x +2和12s 2+4解析:选C 3x 1+2,3x 2+2,…,3x n +2的平均数是3x +2,由于数据x 1,x 2,…x n的方差为s2,所以3x1+2,3x2+2,…,3x n+2的方差为9s2.12.如图是某赛季甲、乙两名篮球运动员5场比赛得分的茎叶图,已知甲的成绩的极差为31,乙的成绩的平均值为24,则下列结论错误的是()A.x=9B.y=8C.乙的成绩的中位数为26D.乙的成绩的方差小于甲的成绩的方差解析:选B因为甲的成绩的极差为31,所以其最高成绩为39,所以x=9;因为乙的成绩的平均值为24,所以y=24×5-(12+25+26+31)-20=6;由茎叶图知乙的成绩的中位数为26;对比甲、乙的成绩分布发现,乙的成绩比较集中,故其方差较小.二、填空题(本大题共4小题,每小题5分,共20分)13.某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x-y|的值为________.解析:由平均数为10,得(x+y+10+11+9)×15=10,则x+y=20;又方差为2,∴[(x-10)2+(y-10)2+(10-10)2+(11-10)2+(9-10)2]×15=2,得x2+y2=208,2xy=192,∴|x-y|=(x-y)2=x2+y2-2xy=4.答案:414.一支田径队有男运动员48人,女运动员36人,若用分层抽样的方法从该队的全体运动员中抽取一个容量为21的样本,则抽取男运动员的人数为________.解析:抽取的男运动员的人数为2148+36×48=12.答案:1215.要考察某种品牌的500颗种子的发芽率,抽取60粒进行实验,利用随机数表抽取种子时,先将500颗种子按001,002,…,500进行编号,如果从随机数表第7行第8列的数3开始向右读,请你依次写出最先检测的5颗种子的编号:________,________,________,________,________.(下面摘取了随机数表第7行至第9行)84 42 17 53 3157 24 55 06 8877 04 74 47 6721 76 33 50 2583 92 12 06 7663 01 63 78 5916 95 55 67 1998 10 50 71 7512 86 73 58 0744 39 52 38 7933 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54 解析:选出的三位数分别为331,572,455,068,877,047,447,…,其中572,877均大于500,将其去掉,剩下的前5个编号为331,455,068,047,447.答案:331 455 068 047 44716.从某小学随机抽取100名同学,将他们的身高(单位:cm)数据绘制成频率分布直方图(如下图).由图中数据可知a =________.若要从身高在[120,130),[130,140),[140,150]三组的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]的学生中选取的人数应为________.解析:∵0.005×10+0.035×10+a ×10+0.020×10+0.010×10=1, ∴a =0.030.设身高在[120,130),[130,140),[140,150]三组的学生分别有x ,y ,z 人, 则x100=0.030×10,解得x =30.同理,y =20,z =10. 故从[140,150]的学生中选取的人数为1030+20+10×18=3.答案:0.030 3三、解答题(本大题共6小题,共70分.解答应写出文字说明,证明过程或演算步骤) 17.(本小题满分10分)为调查某班学生的平均身高,从50名学生中抽取110,应如何抽样?若知道男生、女生的身高显著不同(男生30人,女生20人),应如何抽样?解:从50名学生中抽取110,即抽取5人,采用简单随机抽样法(抽签法或随机数法).若知道男生、女生的身高显著不同,则采用分层抽样法,按照男生与女生的人数比为30∶20=3∶2进行抽样,则男生抽取3人,女生抽取2人.18.(本小题满分12分)某车间共有12名工人,随机抽取6名,他们某日加工零件个数的茎叶图如图所示.(1)根据茎叶图计算样本均值;(2)日加工零件个数大于样本均值的工人为优秀工人.根据茎叶图推断该车间12名工人中有几名优秀工人?解:(1)样本均值为17+19+20+21+25+306=1326=22.(2)由(1)知样本中优秀工人所占比例为26=13,故推断该车间12名工人中有12×13=4名优秀工人.19.(本小题满分12分)2016年春节前,有超过20万名广西、四川等省籍的外出务工人员选择驾乘摩托车沿321国道长途跋涉返乡过年,为防止摩托车驾驶人员因长途疲劳驾驶,手脚僵硬影响驾驶操作而引发交通事故,肇庆市公安交警部门在321国道沿线设立了多个长途行驶摩托车驾乘人员休息站,让返乡过年的摩托车驾乘人员有一个停车休息的场所.交警小李在某休息站连续5天对进站休息的驾驶人员每隔50辆摩托车就进行一次省籍询问,询问结果如图所示:(1)交警小李对进站休息的驾驶人员的省籍询问采用的是什么抽样方法?(2)用分层抽样的方法对被询问了省籍的驾驶人员进行抽样,若广西籍的有5人,则四川籍的应抽取几人?解:(1)交警小李对进站休息的驾驶人员的省籍询问采用的是系统抽样法.(2)从题图可知,被询问了省籍的驾驶人员广西籍的有5+20+25+20+30=100(人); 四川籍的有15+10+5+5+5=40(人).设四川籍的驾驶人员应抽取x 人,依题意得5100=x 40,解得x =2,即四川籍的应抽取2人.20.(本小题满分12分)某化肥厂有甲、乙两个车间包装肥料,在自动包装传送带上每隔30分钟抽取一包产品,称其重量(单位:kg),分别记录抽查数据如下:甲:102,101,99,98,103,98,99; 乙:110,115,90,85,75,115,110. (1)这种抽样方法是哪一种方法?(2)试计算甲、乙车间产品重量的平均数与方差,并说明哪个车间产品较稳定? 解:(1)甲、乙两组数据间隔相同,所以采用的方法是系统抽样. (2)x 甲=17(102+101+99+98+103+98+99)=100,x 乙=17(110+115+90+85+75+115+110)=100,s 2甲=17(4+1+1+4+9+4+1)≈3.43,s 2乙=17(100+225+100+225+625+225+100)=228.57, ∴s 2甲<s 2乙,故甲车间产品比较稳定.21.(本小题满分12分)对某校高一年级学生参加社区服务次数进行统计,随机抽取M 名学生作为样本,得到这M 名学生参加社区服务的次数.根据此数据作出了频数与频率的统计表和频率分布直方图如下:(1)求出表中M ,p 及图中a 的值;(2)若该校高一学生有360人,试估计该校高一学生参加社区服务的次数在区间[10,15)的人数.解:(1)由分组[10,15)的频数是10, 频率是0.25知, 10M =0.25,所以M =40. 因为频数之和为40,所以10+25+m +2=40,解得m =3. 故p =340=0.075.因为a 是对应分组[15,20)的频率与组距的商, 所以a =2540×5=0.125.(2)因为该校高一学生有360人,分组[10,15)的频率是0.25,所以估计该校高一学生参加社区服务的次数在此区间内的人数为360×0.25=90.22.(本小题满分12分)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y ^=b ^x +a ^; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.解:(1)由题意知n =10,x =1n ∑i =1n x i =8010=8, y =1n ∑i =1n y i =2010=2, 又∑i =110x 2i -10x 2=720-10×82=80,∑i =110x i y i -10x y =184-10×8×2=24,由此得b ^=∑i =110x i y i -10x y∑i =110x 2i -10x 2=2480=0.3, a ^=y -b ^x =2-0.3×8=-0.4,故所求回归方程为y ^=0.3x -0.4.(2)由于变量y 的值随x 的值增加而增加(b =0.3>0),故x 与y 之间是正相关.(3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7千元.。
人教课标版高中数学必修3《变量间的相关关系》参考课件
2.回归直线方程问题
(1)回归直线方程^y =^b x+^a 的理解
这里在 y 的上方加记号“^ ”是为了区别实际值 y,表示当 x 取值
xi(i=1,2,…,n)时,y 相应的观察值为 yi,而直线上对应于 xi 的纵坐标是y^i=a+bxi. (2)求回归直线方程的原理——最小二乘法.
设 x、y 的一组观察值为(xi,yi)(i=1,2,…,n),且回归直线方 程为y^=^a+^bx.
方法,即使得样本数据的点到回归直线的距离的
_平__方__和__最__小__的方法叫做最小二乘法.
回归直线通过样本点的中心,对照平均数与样本数据 之间的关系,你能说说回归直线与散点图中各点之间的关 系吗? 提示 假设样本点为(x1,y1)(x2,y2),…,(xn,yn),记 x =
n1i=n1xi, y =n1i=n1yi,则( x , y )为样本点的中心,回归直线一
规律方法 (1)函数关系是一种确定性关系,如匀速直线 运动中路程s与时间t的关系;相关关系是一种非确定性关 系,如一块农田的水稻产量与施肥量之间的关系. (2)判断两个变量是否是相关关系的关键是看这两个变量 之间是否具有不确定性.
【变式1】下列关系中,带有随机性相关关系的是________. ①正方形的边长与面积之间的关系;②水稻产量与施肥量 之间的关系;③人一生的身高与年龄之间的关系;④某餐 点热饮销售的数量与气温的关系. 解析 ①正方形的边长与面积之间的关系是函数关系;② 水稻产量与施肥量之间的关系不是严格的函数关系,但是 具有相关性,因而是相关关系;③人的身高与年龄之间的 关系既不是函数关系,也不是相关关系,因为人的年龄达 到一定时期身高就不发生明显变化了,因而他们不具备相 关关系;④一般来说,气温越高,售出的热饮越少.因此 填②④. 答案 ②④
2.3《变量间的相互关系》教案(新人教必修3)
2.3.1变量之间的相关关系教学目标:通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系。
教学重点:通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系。
教学过程:案例分析:一般说来,一个人的身高越高,他的人就越大,相应地,他的右手一拃长就越长,因此,人的身高与右手一拃长之间存在着一定的关系。
为了对这个问题进行调查,我们收集了北京市某中学2003年高三年级96名学生的身高与右手一拃长的数据如下表。
关系吗?(2)如果近似成线性关系,请画出一条直线来近似地表示这种线性关系。
(3)如果一个学生的身高是188cm ,你能估计他的一拃大概有多长吗? 解:根据上表中的数据,制成的散点图如下。
它们之间是线性相关的。
那么,怎样确定这条直线呢?同学1:选择能反映直线变化的两个点,例如(153,16),(191,23)二点确定一条直线。
同学2:在图中放上一根细绳,使得上面和下面点的个数相同或基本相同。
同学3:多取几组点对,确定几条直线方程。
再分别算出各个直线方程斜率、截距的算术平均值,作为所求直线的斜率、截距。
同学4:我从左端点开始,取两条直线,如下图。
再取这两条直线的“中间位置”作一条直线。
同学5:我先求出相同身高同学右手一拃长的平均值,画出散点图,如下图,再画出近似的直线,使得在直线两侧的点数尽可能一样多。
1015202530150155160165170175180185190195同学6:我先将所有的点分成两部分,一部分是身高在170 cm 以下的,一部分是身高在170 cm 以上的;然后,每部分的点求一个“平均点”——身高的平均值作为平均身高、右手一拃的平均值作为平均右手一拃长,即(164,19),(177,21);最后,将这两点连接成一条直线。
同学7:我先将所有的点按从小到大的顺序进行排列,尽可能地平均分成三等份;每部分的点按照同学3的方法求一个“平均点”,最小的点为(161.3,18.2),中间的点为(170.5,20.1),最大的点为(179.2,21.3)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(x
i 1 n
i
x )( yi y )
( xi x ) 2
i 1
x y
i 1 n i i 1
n
i
nx y ,
xi 2 nx 2
a y bx
n
ˆ i ) 2为最小,这样就得到了回归方 总体偏差 Q ( yi y
i 1 程,这种求回归方程的方法叫做最小二乘法.回归方程
14
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
直线附近,因此x、y具有线性相关关系
x 48.07 y 27.26 xi yi 19403.2 xi 34181
2 i 114
14
故可得:
b
x y 14 x y
b
( x x)( y
i 1 i n i 1 i
n
i
y)
2
x y
i 1 n i
n
i
nx y , a y b x; nx
2
( x x)
x
i 1
2 i
2.对于回归方程 4.75 x 257 当x=28时,y的估计值是 y
390
3.线性回归方程表示的直线 A. , (0 0)
a bx 必定过( D ) y
( 0) B. x,
C.
(0,) D.( x,) y y
2 2.5 x 变量x 增加1个单位 4.设有一个回归方程,y
长度时,变量y( C )
A.平均增加2.5个单位长度 B.平均增加0.5个单位长度 C.平均减少2.5个单位长度 D.平均减少0.5个单位长度
思考: 根据最小二乘法的知识,我们对于任何数 据都可以利用最小二乘计算出其回归方 程,问:是否所有的问题,我们都可以利
用最小二乘来估计?
下面的数据给定了两个变量之间的关系
X Y
1 1
2 4
3 9
4 16
5 25
6 36
7 49
8 64
请利用最小二乘法求出这两个变量之间的线性回归方程
解
其他数据如表 x 4.5, y 25.5 根据数据显示:
x
i 1
5
2
i
145
广告费(百万元)
故可得:
b
x y
i 1 5 i i 1
5
1
3
i
5x y 6.5a y bx 17.5
5
7
9
xi 2 5 x 2
所求回归直线方程为
y 6.5 x 17.5
^
b表示广告每增加100万元,销售量平均增加650元
课堂总结
xi yi
i 1
n
n
b
( x x )( y y ) x y nx y
i
( xi x ) 2
i 1
i 1 n
xi 2 nx 2
i 1
, a y bx
第四步,写出回归方程
y bx a
^
例1: 有一个同学家开了一个小卖部,他为了研 究气温对热饮销售的影响,经过统计,得到一个 卖出的饮料杯数与当天气温的对比表:
温 度 -5 0 4 7 12 15 19 23 27 31 36
杯 156 150 132 128 130 116 104 89 数
93
76
54
(1)画出散点图; (2)从散点图中发现气温与热饮杯数之 间关系 的一般规律; (3)求回归方程; (4)如果某天的气温是2℃,预测这天卖出的热 饮杯数.
2.3 2.3.1 2.3.2
变量间的相关关系 变量之间的相关关系 两个变量的线性相关
第二课时
复习回顾
1、相关关系
自变量取值一定时,因变量的取值带有一定 随机性的两个变量之间的关系.
2、正相关和负相关的两个相关变量的 散点图的特点
正相关的散点图中的点散布在从左下角到右 上角的区域,负相关的散点图中的点散布在 从左上角到右下角的区域
(2) 回归直线方程是
ˆ y 1.23 x 0.08.
当x 10时, ˆ y 1.23 10 0.08 12.38 12 .4(万元)
答:估计使用10年时,维修费用估计是12.4 万元。
练习
某种产品是的广告费支出x(单位:百万元) 与销售额y(单位:百万元)之间有如下对 应数据
i 1 n i i
x
i 1
,
2
i
nx
2
ˆ ˆ ˆ y bx a
巩固练习:
1.由一组 5 个数据(xi,yi)算得
x 4, y 5,
1.23,a= 0.08 ,
xi yi 112.3, xi 2 90, 则 b=
i 1 i 1
n
n
ˆ 回归方程为 y 1.23 x 0.08 .
由资料知 y对 x呈线性关系,试求:
ˆ (1)回归直线方程y bx a中的b, a的值;
(2)估计使用年限是10年时,维修费用估计是 多少?
解:(1) 制表:
i xi yi xi2 xi yi
1
2
2
3
3
4
4
5
5
6
合计
20
2.2
4
3.8
9
5.5
16
6.5
25
7.0
36
25
90
4.4
11.4 22.0 32.5 42.0 112.3
15 脂肪含量
思考2:
如图 :
10 5 0 20 25 30 35 40
年龄
45 50 55 60 65
. 方案2、在图中选两点作直线,使直线
两侧的点的个数基本相同。
脂肪含量 40 35 30 25 20 15 10 5 0 20 25 30 35 40 年龄 45 50 55 60 65
方案3、如果多取几对点,确定多条直线,再求出 这些直线的斜率和截距的平均值作为回归直线的 斜率和截距。而得回归方程。 如图:
xi
1 2 3 1 4 9
yi
1 4 9
x i2
xi yi
1 8 27
4
5 6 7 8 合计 36
16
25 36 49 64 204
16
25 36 49 64 204
64
125 216 343 512 1296
进而可以求得 b=9
a=-15
于是,线性回归方程为: Y=-15+9x
5 5
于是有 : x 4, y 5, xi2 90, xi yi 112 .3.
i 1 i 1
112 .3 5 4 5 12.3 b 1.23 2 90 5 4 10
a y b x 5 1.23 4 0.08
(2)估计使用年限是10年时,维修费用估计是多少?
2.对于任意一组样本数据,利用上述公式都 可以求得“回归方程”,如果这组数据不具 有线性相关关系,即不存在回归直线,那么 所得的“回归方程”是没有实际意义的.因此, 对一组样本数据,应先作散点图,在具有线 性相关关系的前提下再求回归方程.
脂肪含量
解:散点图如图所示
由散点图可知:在平面直角坐标
系中,各点散布在左下角到右上角 的区域,这些点大致分布在一条
对一组具有线性相关关系的样本数据,如果能够求出它的回归方程, .
那么,我们该怎样来求出这个回归方程? 那么我们就可以比较具体、清楚地了解两个相关变量的内在联系,
我们有这样几种方案? 并根据回归方程对总体进行估计.
.方案1、先画出一条直线, 测量出各点与它的距离, 40 再移动直线,到达一个使 35 距离的和最小位置时, 30 25 测出它的斜率和截距, 20 得回归方程。
(xi,yi) (x1, y1) (xn,yn)
(x2,y2)
思考:回归直线与散点图中各点的位置 应具有怎样的关系? 整体上最接近
假设两个具有线性相关关系的变量的一组样本 数据:(x1,y1),(x2,y2),„,(xn,yn),设 其回归方程为 y bx a
(xi,yi) (x1, y1) (x2,y2) (xn,yn)
知识探究(一):回归直线
思考1:在各种各样的散点图中,有些散点图中的
点是杂乱分布的,有些散点图中的点的分布有一 定的规律性,年龄和人体脂肪含量的样本数据的 散点图中的点的分布有什么特点?
脂肪含量
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
i 1 14 i i
i 1
xi 2 14 x 2
i 1
0.578
所求回归直线方程为
a y bx ^ 0.524
y 0.577 x 0.448
在上例中:若某人37岁,则其体内脂肪含 量的百分比约为多少? ^
y 0.577 x 0.448
脂肪含量
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45
这些点大致分布在一条直线附近.
如果散点图中的点的分布,从整体上看大致在一 条直线附近,则称这两个变量之间具有线性相关 关系,这条直线叫做回归直线.该直线叫回归方程。
脂肪含量
40 35 30 25 20 15 10 5 0 20 25 30 35 40 45 50 55 60 65 年龄
注:如果关于两个变量统计数据的散点图呈 现发散状,则这两个变量之间不具有相关关系.