高三数学变量间的相关关系

合集下载

2.3.1(2.3.2)变量之间的相关关系和线性关系

2.3.1(2.3.2)变量之间的相关关系和线性关系

2.3 变量间的相关关系2.3.1 变量之间的相关关系2.3.2 两个变量的线性相关整体设计教学分析变量之间的关系是人们感兴趣的问题.教科书通过思考栏目“物理成绩与数学成绩之间的关系”,引导学生考察变量之间的关系.在教师的引导下,可使学生认识到在现实世界中存在不能用函数模型描述的变量关系,从而体会研究变量之间的相关关系的重要性.随后,通过探究人体脂肪百分比和年龄之间的关系,引入描述两个变量之间关系的线性回归方程(模型).教科书在探索用多种方法确定线性回归直线的过程中,向学生展示创造性思维的过程,帮助学生理解最小二乘法的思想.通过气温与饮料销售量的例子及随后的思考,使学生了解利用线性回归方程解决实际问题的全过程,体会线性回归方程作出的预测结果的随机性,并且可能犯的错误.进一步,教师可以利用计算机模拟和多媒体技术,直观形象地展示预测结果的随机性和规律性.三维目标1.通过收集现实问题中两个有关联变量的数据认识变量间的相关关系.2.明确事物间的相互联系.认识现实生活中变量间除了存在确定的关系外,仍存在大量的非确定性的相关关系,并利用散点图直观体会这种相关关系.3.经历用不同估算方法描述两个变量线性相关的过程.知道最小二乘法的思想,能根据给出的线性回归方程的系数公式建立线性回归方程.重点难点教学重点:通过收集现实问题中两个有关联变量的数据直观认识变量间的相关关系;利用散点图直观认识两个变量之间的线性关系;根据给出的线性回归方程的系数公式建立线性回归方程.教学难点:变量之间相关关系的理解;作散点图和理解两个变量的正相关和负相关;理解最小二乘法的思想.课时安排2课时教学过程第1课时导入新课思路1在学校里,老师对学生经常这样说:“如果你的数学成绩好,那么你的物理学习就不会有什么大问题.”按照这种说法,似乎学生的物理成绩与数学成绩之间存在着一种相关关系.这种说法有没有根据呢?的,物理也好;数学差的,物理也差,但又不全对.)物理成绩和数学成绩是两个变量,从经验看,由于物理学习要用到比较多的数学知识和数学方法.数学成绩的高低对物理成绩的高低是有一定影响的.但决非唯一因素,还有其他因素,如是否喜欢物理,用在物理学习上的时间等等.(总结:不能通过一个人的数学成绩是多少就准确地断定他的物理成绩能达到多少.但这两个变量是有一定关系的,它们之间是一种不确定性的关系.如何通过数学成绩的结果对物理成绩进行合理估计有非常重要的现实意义.)为很好地说明上述问题,我们开始学习变量之间的相关关系和两个变量的线性相关.(教师板书课题)思路2某地区的环境条件适合天鹅栖息繁衍,有人经统计发现了一个有趣的现象,如果村庄附近栖息的天鹅多,那么这个村庄的婴儿出生率也高,天鹅少的地方婴儿的出生率低,于是,他就得出一个结论:天鹅能够带来孩子.你认为这样得到的结论可靠吗?如何证明这个结论的可靠性?推进新课新知探究提出问题(1)粮食产量与施肥量有关系吗?“名师出高徒”可以解释为教师的水平越高,学生的水平也越高.教师的水平与学生的水平有什么关系?你能举出更多的描述生活中两个变量的相关关系的成语吗?(2)两个变量间的相关关系是什么?有几种?(3)两个变量间的相关关系的判断.讨论结果:(1)粮食产量与施肥量有关系,一般是在标准范围内,施肥越多,粮食产量越高;教师的水平与学生的水平是相关的,如水滴石穿,三人行必有我师等.我们还可以举出现实生活中存在的许多相关关系的问题.例如:商品销售收入与广告支出经费之间的关系.商品销售收入与广告支出经费有着密切的联系,但商品销售收入不仅与广告支出多少有关,还与商品质量、居民收入等因素有关.粮食产量与施肥量之间的关系.在一定范围内,施肥量越大,粮食产量就越高.但是,施肥量并不是决定粮食产量的唯一因素.因为粮食产量还要受到土壤质量、降雨量、田间管理水平等因素的影响.人体内的脂肪含量与年龄之间的关系.在一定年龄段内,随着年龄的增长,人体内的脂肪含量会增加,但人体内的脂肪含量还与饮食习惯、体育锻炼等有关,可能还与个人的先天体质有关.应当说,对于上述各种问题中的两个变量之间的相关关系,我们都可以根据自己的生活、学习经验作出相应的判断,因为“经验当中有规律”.但是,不管你的经验多么丰富,如果只凭经验办事,还是很容易出错的.因此,在分析两个变量之间的相关关系时,我们需要一些有说服力的方法.在寻找变量之间相关关系的过程中,统计同样发挥着非常重要的作用.因为上面提到的这种关系,并不像匀速直线运动中时间与路程的关系那样是完全确定的,而是带有不确定性.这就需要通过收集大量的数据(有时通过调查,有时通过实验),在对数据进行统计分析的基础上,发现其中的规律,才能对它们之间的关系作出判断.(2)相关关系的概念:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系,叫做相关关系.两个变量之间的关系分两类:①确定性的函数关系,例如我们以前学习过的一次函数、二次函数等;②带有随机性的变量间的相关关系,例如“身高者,体重也重”,我们就说身高与体重这两个变量具有相关关系.相关关系是一种非确定性关系.如商品销售收入与广告支出经费之间的关系.(还与商品质量、居民收入、生活环境等有关)(3)两个变量间的相关关系的判断:①散点图.②根据散点图中变量的对应点的离散程度,可以准确地判断两个变量是否具有相关关系.③正相关、负相关的概念.①教学散点图出示例题:在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:图来进一步分析.②散点图的概念:将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图,如下图.从散点图我们可以看出,年龄越大,体内脂肪含量越高.图中点的趋势表明两个变量之间确实存在一定的关系,这个图支持了我们从数据表中得出的结论.(a.如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.b.如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系.c.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系)③正相关与负相关的概念:如果散点图中的点散布在从左下角到右上角的区域内,称为正相关.如果散点图中的点散布在从左上角到右下角的区域内,称为负相关.(注:散点图的点如果几乎没有什么规则,则这两个变量之间不具有相关关系)应用示例思路1例1 下列关系中,带有随机性相关关系的是_____________.①正方形的边长与面积之间的关系②水稻产量与施肥量之间的关系③人的身高与年龄之间的关系④降雪量与交通事故的发生率之间的关系解析:两变量之间的关系有两种:函数关系与带有随机性的相关关系.①正方形的边长与面积之间的关系是函数关系.②水稻产量与施肥量之间的关系不是严格的函数关系,但是具有相关性,因而是相关关系.③人的身高与年龄之间的关系既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而他们不具备相关关系.④降雪量与交通事故的发生率之间具有相关关系,因此填②④.答案:②④例2 有关法律规定,香烟盒上必须印上“吸烟有害健康”的警示语.吸烟是否一定会引起健康问题?你认为“健康问题不一定是由吸烟引起的,所以可以吸烟”的说法对吗?分析:学生思考,然后讨论交流,教师及时评价.解:从已经掌握的知识来看,吸烟会损害身体的健康,但是除了吸烟之外,还有许多其他的随机因素影响身体健康,人体健康是很多因素共同作用的结果.我们可以找到长寿的吸烟者,也更容易发现由于吸烟而引发的患病者,所以吸烟不一定引起健康问题.但吸烟引起健康问题的可能性大.因此“健康问题不一定是由吸烟引起的,所以可以吸烟”的说法是不对的.点评:在探究研究的过程中,如果能够从两个变量的观察数据之间发现相关关系是极为有意义的,由此可以进一步研究二者之间是否蕴涵因果关系,从而发现引起这种相关关系的本质原因是什么.本题的意义在于引导学生重视对统计结果的解释,从中发现进一步研究的问题.思路2例1 有时候,一些东西吃起来口味越好,对我们的身体越有害.下表给出了不同类型的某种食品的数据.第二列表示此种食品所含热量的百分比,第三列数据表示由一些美食家以百分制给出的对此种食品口味的评价:(2)关于两个变量之间的关系,你能得出什么结论?解:(1)散点图如下:(2)基本成正相关关系,即食品所含热量越高,口味越好.例2 案例分析:一般说来,一个人的身高越高,他的右手一拃长就越长,因此,人的身高与右手一拃长之间存在着一定的关系.为了对这个问题进行调查,我们收集了北京市某中学2003年高三年级96名学生的身高与右手一拃长的数据如下表.(1)根据上表中的数据,制成散点图.你能从散点图中发现身高与右手一拃长之间的近似关系吗?(2)如果近似成线性关系,请画出一条直线来近似地表示这种线性关系.(3)如果一个学生的身高是188 cm,你能估计他的一拃大概有多长吗?解:根据上表中的数据,制成的散点图如下.从散点图上可以发现,身高与右手一拃长之间的总体趋势是成一直线,也就是说,它们之间是线性相关的.那么,怎样确定这条直线呢?同学1:选择能反映直线变化的两个点,例如(153,16),(191,23)两点确定一条直线.同学2:在图中放上一根细绳,使得上面和下面点的个数相同或基本相同.同学3:多取几组点对,确定几条直线方程.再分别算出各个直线方程斜率、截距的算术平均值,作为所求直线的斜率、截距.同学4:从左端点开始,取两条直线,如下图.再取这两条直线的“中间位置”作一条直线.同学5:先求出相同身高同学右手一拃长的平均值,画出散点图,如下图,再画出近似的直线,使得在直线两侧的点数尽可能一样多.同学6:先将所有的点分成两部分,一部分是身高在170 cm以下的,一部分是身高在170 cm 以上的;然后,每部分的点求一个“平均点”——身高的平均值作为平均身高、右手一拃的平均值作为平均右手一拃长,即(164,19),(177,21);最后,将这两点连接成一条直线.同学7:先将所有的点按从小到大的顺序进行排列,尽可能地平均分成三等份;每部分的点按照同学3的方法求一个“平均点”,最小的点为(161.3,18.2),中间的点为(170.5,20.1),最大的点为(179.2,21.3).求出这三个点的“平均点”为(170.3,19.9).我再用直尺连接最大点与最小点,然后平行地推,画出过点(170.3,19.9)的直线.同学8:取一条直线,使得在它附近的点比较多.在这里需要强调的是,身高和右手一拃长之间没有函数关系.我们得到的直线方程,只是对其变化趋势的一个近似描述.对一个给定身高的人,人们可以用这个方程来估计这个人的右手一拃长,这是十分有意义的.知能训练一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如下:关于加工零件的个数与加工时间,你能得出什么结论?答案:(1)散点图如下:(2)加工零件的个数与所花费的时间呈正线性相关关系.拓展提升以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:(2)指出是正相关还是负相关;(3)关于销售价格y和房屋的面积x,你能得出什么结论?解:(1)数据对应的散点图如下图所示:(2)散点图中的点散分布在从左下角到右上角的区域内,所以是正相关.(3)关于销售价格y和房屋的面积x,房屋的面积越大,价格越高,它们呈正线性相关的关系. 课堂小结通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.作业习题2.3A组3、4(1).设计感想本节课学习了变量之间的相关关系和两个变量的线性相关的部分内容,通过身边的具体实例说明了两个变量的相关关系,并学会了利用散点图及其分布来说明两个变量的相关关系的种类,为下一节课作了铺垫,思路1和思路2的例题对知识进行了巩固和加强,另外,本节课通过选取一些学生特别关心的身边事例,对学生进行思想情操教育、意志教育和增强学生的自信心,养成良好的学习态度和学习方法,树立时间观,培养勤奋、刻苦耐劳的精神.备课资料数学家关肇直关肇直(1919.2.13—1982.11.12),中国科学院院士,是中国数学家,生于北京.原籍广东省南海县.父亲关葆麟早年留学德国,回国后任铁道工程师多年,于1932年故世;母亲陆绍馨,是北平女子师范大学的毕业生,曾从教于北京师范大学.关葆麟去世后,母亲以微薄的收入艰难地抚育关肇直及其弟妹多人.全国解放后,关肇直尽心亲侍慈母,直至1967年去世.关肇直于1959年1月与刘翠娥结婚,他们有两个女儿.刘翠娥系中国科学院工程物理研究所研究人员.关肇直于1927年进入北京培华中学附属小学学习.1931年入英国人办的崇德中学学习.学校对英文要求十分严格,加上关肇直自小就由父母习以英文、德文,为日后掌握英文、德文、法文、西班牙文和俄文奠定了良好基础.1936年高中毕业后考入清华大学土木工程系,后于1938年转入燕京大学数学系学习.毕业后在燕京大学(后迁成都)任教.参加成都教授联谊会,担任学生进步组织的导师,积极支持抗日救国学生运动.1946年春从成都返回北平(北京),不久从燕京大学转到北京大学数学系任教.1947年通过考试成为国民政府派遣的中法交换生赴法国留学.名义上去瑞士学哲学,实际上去了巴黎大学庞加莱研究所研究数学,导师是著名数学家、一般拓朴与泛函分析的创始人弗雷歇(M.R.F rechetl),1948年参加革命团体“中国科学工作者协会”,是该会旅法分会的创办人之一.1949年10月,新中国诞生,他毅然决定放弃获得博士学位的机会.于12月回到祖国,满腔热情地参加了新中国的建设.他立即参加了组建中国科学院的工作.他和其他同志一起,协助郭沫若院长筹划建院事宜,确定科学院的方向、任务、体制等,组建科学院图书馆,担任图书管理处处长,编译局处长.1952年参加筹建中国科学院数学研究所的工作,并在数学研究所从事数学研究,历任副研究员、研究员、研究室主任、副所长、学术委员会副主任.他还是中国科学院声学研究所学术委员会委员及原子能研究所学术委员会委员.从1952年起,兼任北京师范大学、北京大学、中国人民大学和中国科技大学等校教授以及华南工学院名誉教授;并兼任过中国科学院成都分院学术顾问、该院数理科学研究室主任、中国科学院武汉数学物理研究所顾问、研究员.他还是国家科委数学学科组副组长、自动化学科组成员;曾担任北京数学会理事长,中国数学会秘书长,国际自动控制联合会理论委员会成员及《中国科学》《科学通报》《数学学报》和《系统科学与数学》等杂志的编委或主编等职.1980年,他与其他科学家一起创建中国科学院系统科学研究所,担任研究所所长.他还担任中国自动化学会副理事长、中国系统工程学会理事长.1980年当选为中国科学院数理学部委员.关肇直长期从事泛函分析、数学物理、现代控制理论等领域的研究,成绩卓著,为我国的社会主义现代化建设作出了重大贡献,1978年获全国科学大会奖,1980年获国防科委、国工办科研奖十几项,1982年获国家自然科学二等奖;关肇直参与主持的项目《尖兵一号返回型卫星和东方红一号》获1985年国家科技进步特等奖,他本人获“科技进步”奖章.关肇直从事泛函分析、数学物理和现代控制理论研究方面,取得水平很高的成果.主要成果有以下几个方面.(一)最速下降法与单调算子思想关肇直于《数学学报》第6卷第4期(1956)发表了学术论文“解非线性函数方程的最速下降法”,第一次把梯度法(又称最速下降法)由有限维空间推广到无限维空间,而且和线性问题相仿,其收敛速度是依照等比级数的.这种方法可以用来解某些非线性积分方程以及某些非线性微分方程边值问题.并在文中首先提出了单调算子的思想,比外国学者早四五年.国外关于单调算子的概念,最早见于1960年扎朗顿尼罗和闵梯(E.H.Z afantonello,G.J.M inty)的工作.单调算子是非线性泛函分析中很基本的概念之一,单调算子理论已成为泛函分析中的一个重要分支,在处理力学、物理学中的许多非线性问题中被广泛地应用.(二)激光问题的数学理论在数学物理方面,关肇直也进行了深入的研究.他在《中国科学》第14卷第7期(1956)上用法文发表了学术论文“关于…激光理论‟中积分方程的非零本征值的存在性”在论文中他利用泛函分析工具,在很弱的假设下,用极为简短的方式证明了激光理论中一般形式的具有非对称核的线性积分方程非零本征值的存在.这一结果受到国际上的重视.被国外书刊广泛引用,如M agraw H ill图书公司1972年出版的柯克朗(J.A.C ochran)著的《线性积分方程分析》一书就曾详细地引用过.(三)中子迁移理论关肇直在数学物理方面的另一个创造,就是关于中子迁移理论的研究.1963年他用希尔伯特空间与不定规度空间的算子谱理论解决了平板几何情形的中子迁移的本征函数问题,著有“关于一类本征值问题”(当时未发表).这比国外罕日布鲁克(H angelbrook)1973年的同类工作早10年.卡帕(H.G.K aper)和兹维贝尔(P.F.Z weibel)在1975年举行的国际迁移理论第四次会议上的报告(载于期刊《T ranspost T heory and S tatistical P hysiss》V ol.4,N o.3,第105—123页,1975)中,在“迁移理论中有什么创新”标题下,把罕日布鲁克的方法称为求解方程的新方法;但是,罕氏著作中所解决的问题,在关肇直的文章中是早已解决了的.关肇直于1963年完成的这篇论文直到他去世后于1984年发表在《数学物理学报》上,国外同行当得知他在60年代就作出了如此高水平的工作时都深表惊异.(四)飞行器弹性控制理论关肇直在《中国科学》1974年第4期上发表了“弹性振动的镇定问题”,首先提出了用线性算子紧扰动理论解决飞行器弹性振动的镇定问题.在这之前,美国的著名控制论专家鲁塞尔(D.L.R ussell)曾用别的方法讨论过此类问题,但他自己认为他所得的结果“当然并非完全满意”,“增益系数的增大应能改进系统的稳定性,但这样整体性结果没有得到……”他甚至认为:显然他所用的方法“带来必须小的缺陷,……,但很怀疑这里定理所表述的结果的确切化用任何别的技术来实现.”可是,与鲁塞尔的怀疑相反,关肇直用了算子紧扰动方法技巧,此方法与鲁塞方法有本质的区别,它确实摆脱了放大系数很小的限制,得出了工程意义更合理的结果.这项成果已经应用到我国的国防尖端技术设计上,成为导弹运载火箭所必不可少的一个设计理论.(五)几本主要著作1.《泛函分析讲义》1958年高等教育出版社出版了关肇直的《泛函分析讲义》.该书吸取了当时国际上几部有名的介绍泛函分析概要的书的长处,内容适中,很具特色,便于自学.这是国内第一部包括当时泛函分析各分支的较全面的专著,国内当时这类书很少;国内除此之外,迄今也仍只有一些教科书性质的出版物,还没有别的书代替它.关肇直曾使用这部著作在1956年和1957年分别为中国科学院数学研究所一批青年同志和北京大学第一届泛函分析专门化学生讲授过《泛函分析》课程,培养了一批从事泛函分析等方面的中青年骨干教师和科研人员.此书至今仍有重大参考价值.2.《拓扑空间榻论》科学出版社于1958年出版了关肇直教授的这本书.本书是为了数学分析方面的青年数学工作者的需要而写的.目的是使读者获得关于拓扑空间理论的基础知识.本书在当时是这方面较系统的也是较早的一部专著.作者是按照自己的观点来写的,书中许多定理的证明都是作者给出的,他尽可能地遵循一般实变函数论中的叙述问题的方式,因而有自己的特色.这是为了使读者感到新知识与原有知识有联系,对新的抽象概念不至感到突然,同时又帮助读者直达科学研究的前沿.根据研究概率论方面的读者反映,对他们研究极限定理一类工作颇有帮助.3.《高等数学教程》人民教育出版社于1959年出版.本书是关肇直在中国科技大学开办应用数学专业讲授高等数学课程而编写的教材,特点是:材料比较丰富,注意理论联系实际.4.《线性泛函分析入门》上海科技出版社于1979年出版.关肇直同他的学生张恭庆、冯德兴合著.著书的目的是为了满足多方面科学研究工作者的需要,因为当时线性泛函分析已成为许多从事科学技术研究的人所渴望了解和应用的一门数学学科.此书的特点是:尽可能从一些问题提炼出泛函分析中的基本概念,让读者透过叙述方法了解到研究的过程.5.《现代控制系统理论小丛书》这是由关肇直主编的,包括线性系统理论、非线性系统理论、极值控制理论、系统辨识、最优控制与随机控制理论、分布参数系统理论及其他有关内容,共分十几分册,由科学出版社从1975年开始陆续出版.这套丛书介绍了现代控制系统理论的各个部分,并着重说明这种理论怎样由工程实践的需要而产生,又怎样用来解决工程设计中的实际问题.此丛书主要是为从事控制理论研究的科学工作者和工程技术人员而撰写的.此丛书的出版,对于促进我国的控制理论和控制技术的发展起到了很好的作用.。

高三数学 变量的相关性与统计案例复习课件 新人教A版

高三数学 变量的相关性与统计案例复习课件 新人教A版

a
47
(2)在 2012 年 3 月 15 日那天,北京市物价部门对本市 5
家商场某商品的一天销售量及其价格进行了调查,5 家商场
的售价 x 元和销售量 y 件之间的一组数据如下表所示:
价格 x
9 9.5 10 10.5 11
销售量 y 11 10 8 6 5
a
48
通过散点图,可知销售量 y 与价格 x 之间有较好的线性
a
45
变式训练 2 (1)(2012·湖南)设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i =1,2,…,n),用最小二乘法建立的回归方程为^y=0.85x- 85.71,则下列结论中不正确的是( )
a
46
A.y 与 x 具有正的线性相关关系 B.回归直线过样本点的中心(-x ,-y ) C.若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kg D.若该大学某女生身高为 170 cm,则可断定其体重必 为 58.79 kg
a
24
A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关 C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关
a
25
解析:由图1可知,各点整体呈递减趋势,x与y负相 关,由图2可知,各点整体呈递增趋势,u与v正相关.
答案:C
a
26
4.下面是一个 2×2 列联表
D.73.5万元
a
22
解析:由表中数据可知-x =3+4+4 5+6=4.5,
-y

25+30+40+45 4
=35,故
a^

-y

2.3 变量间的相关关系

2.3 变量间的相关关系

则������ =

^
66.5-4×4.5×3.5
^
������ = ������ − ������ ������ =3.5-0.7×4.5=0.35, 故线性回归方程为������ =0.7x+0.35. (3)根据线性回归方程的预测,现在生产 100 吨产品消耗的标准 煤的数量为 0.7×100+0.35=70.35, 故消耗能源减少了 90-70.35=19.65(吨).
2.3
变量间的相关关系
知识能力目标引航 1.了解相关关系、线性相关、回归直线、最小二乘法的定义. 2.会作散点图,能判断两个变量之间是否具有相关关系. 3.会求回归直线方程,并能用回归直线方程解决有关问题.
1.相关关系 (1)定义:如果两个变量中一个变量的取值一定时,另一个变量的 取值带有一定的随机性,那么这两个变量之间的关系,叫做相关关系. (2)两类特殊的相关关系:如果散点图中点的分布是从左下角到 右上角的区域,那么这两个变量的相关关系称为正相关,如果散点图 中点的分布是从左上角到右下角的区域,那么这两个变量的相关关 系称为负相关.
③代入公式计算������ , ������ 的值. ④写出回归直线方程. (2)求回归直线方程时应注意的问题:
^^
①用公式计算������ , ������ 的值时,要先算出������ ,然后才能算出������ . ②使用计算器能大大简化手工的计算,迅速得出正确的结果,但输入数 据时要细心,不能出任何差错;不同计算器的按键方式可能不同,可参考 计算器的使用说明书进行相关的计算.
^
86-4×4.5
2
=
66.5-63 =0.7, 86-81
^
利用回归方程,可以对总体进行估计,如回归方程为������ = ������ x+������ . 当 x=x0 时估计值为������0 = ������ x0+������ .

高中数学选择性必修三第八章 §8.1 成对数据的统计相关性

高中数学选择性必修三第八章 §8.1 成对数据的统计相关性

§8.1 成对数据的统计相关性学习目标1.结合实例,了解样本相关系数的统计含义.2.了解样本相关系数与标准化数据向量夹角的关系.3.结合实例,会通过样本相关系数比较多组成对样本数据的相关性.知识点一相关关系1.相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.思考相关关系是函数关系吗?答案不是.函数关系是唯一确定的关系.2.相关关系的分类(1)按变量间的增减性分为正相关和负相关.①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.知识点二相关关系的刻画1.散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图. 2.样本相关系数(1)我们常用样本相关系数r 来确切地反映成对样本数据(x i ,y i )的相关程度,其中r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x)2∑i =1n(y i -y )2.(2)样本相关系数r 的取值范围为[-1,1]. ①若r >0时,成对样本数据正相关; ②若r <0时,成对样本数据负相关;③当|r |越接近1时,成对样本数据的线性相关程度越强; ④当|r |越接近0时,成对样本数据的线性相关程度越弱.1.函数关系是一种确定关系,而相关关系是一种不确定关系.( √ ) 2.样本相关系数r 越大,两变量的相关性越强.( × ) 3.散点图可以直观地分析出两个变量是否具有相关性.( √ ) 4.若变量x ,y 满足函数关系,则这两个变量线性相关.( × )一、变量间相关关系的判断例1 (1)(多选)下列关系中,属于相关关系的是( ) A .正方形的边长与面积之间的关系 B .农作物的产量与施肥量之间的关系 C .出租车费与行驶的里程D.降雪量与交通事故的发生率之间的关系答案BD解析A中,正方形的边长与面积之间的关系是函数关系;B中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;C为确定的函数关系;D中,降雪量与交通事故的发生率之间具有相关关系.(2)某种产品的广告支出费x与销售额y之间有如下对应数据(单位:百万元):x 24568y 3040605070①画出散点图;②从散点图中判断销售金额与广告支出费成什么样的关系?解①以x对应的数据为横坐标,y对应的数据为纵坐标,所作的散点图如图所示.②从图中可以发现广告支出费与销售金额之间具有相关关系,并且当广告支出费由小变大时,销售金额也大多由小变大,图中的数据大致分布在某条直线的附近,即x与y成正相关关系.反思感悟两个变量是否相关的两种判断方法(1)根据实际经验:借助积累的经验进行分析判断.(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.跟踪训练1(多选)在下列所示的四个图中,每个图的两个变量具有相关关系的图是( )答案 BC解析 图A 的两个变量具有函数关系;图BC 的两个变量具有相关关系;图D 的两个变量之间既不是函数关系,也不是相关关系. 二、样本相关系数的性质 例2(1)甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r 如下表:则哪位同学的试验结果体现A ,B 两变量有更强的线性相关性( ) A .甲 B .乙 C .丙 D .丁 答案 D解析 |r |越接近1,相关性越强,故选D.(2)在一组成对样本数据为(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若这组成对样本数据的样本相关系数为-1,则所有的样本点(x i ,y i )(i =1,2,…,n )满足的方程可以是( ) A .y =-12x +1B .y =x -1C .y =x +1D .y =-x 2 答案 A解析 ∵这组成对样本数据的样本相关系数为-1,∴这一组成对样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )线性相关,且是负相关. ∴可排除B ,C ,D ,故选A. 反思感悟 样本相关系数的性质(1)r的绝对值越接近0,相关性越弱.(2)r的绝对值越接近1,相关性越强.跟踪训练 2 (1)对变量x,y有成对样本数据(x i,y i)(i=1,2,…,10),得散点图图1;对变量u,v有成对样本数据( u i,v i)(i=1,2,…,10),得散点图图2.由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关答案 C解析由这两个散点图可以判断,变量x与y负相关,u与v正相关.(2)(多选)对两个变量的样本相关系数r,下列说法正确的是( )A.|r|越大,相关程度越大B.|r|越小,相关程度越大C.|r|趋近于0时,没有线性相关关系D.|r|越接近1时,线性相关程度越强答案AD解析对于A,|r|越大,相关程度越大,A正确;对于B,|r|越小,相关程度越小,B错误;对于C,|r|趋近于0时,线性相关关系越弱,C错误;对于D,|r|越接近1时,线性相关程度越强,D正确.综上,正确的是AD.三、样本相关系数的计算及应用例3 某厂的生产原料耗费x (单位:百万元)与销售额y (单位:百万元)之间有如下的对应关系:x 2 4 6 8 y30405070(1)画出(x ,y )的散点图;(2)计算x 与y 之间的样本相关系数,并刻画它们的相关程度. 解 (1)画出(x ,y )的散点图如图所示.(2)x =5,y =47.5, ∑i =14x 2i =120,∑i =14y 2i =9 900,∑i =14x i y i =1 080, 故样本相关系数r =∑i =14xiyi -4x y(∑i =14x 2i -4x 2)(∑i =14y 2i -4y 2)=1 080-4×5×47.5(120-4×52)(9 900-4×47.52)≈0.982 7. 由样本相关系数r ≈0.982 7,可以推断生产原料耗费与销售额这两个变量正线性相关,且相关程度很高.反思感悟 线性相关强弱的判断方法(1)散点图:散点图只是粗略作出判断,其图象越接近直线,相关性越强.(2)样本相关系数:样本相关系数能够较准确的判断相关的程度,其绝对值越大,相关性越强.跟踪训练 3假设关于某种设备的使用年限x (单位:年)与所支出的维修费用y (单位:万元)有如下统计资料:x 2 3 4 5 6 y2.23.85.56.57.0计算y 与x 之间的样本相关系数(精确到0.001,已知∑i =15x 2i =90,∑i =15y 2i ≈140.8,∑i =15x i y i =112.3,79≈8.9,2≈1.4).解 ∵x =2+3+4+5+65=4,y =2.2+3.8+5.5+6.5+7.05=5.∑i =15x i y i -5x y =112.3-5×4×5=12.3,∑i =15x 2i -5x 2=90-5×42=10, ∑i =15y 2i -5y 2=140.8-125=15.8, ∴r =∑i =15xiyi -5x y(∑i =15x 2i -5x2)(∑i =15y 2i -5y 2)=12.310×15.8=12.3158=12.32×79≈12.31.4×8.9≈0.987.1.(多选)下列命题正确的是( ) A .任意两个变量都具有相关关系B.圆的周长与该圆的直径具有相关关系C.某商品的需求量与该商品的价格是一种非确定性关系D.当两个变量相关且样本相关系数r>0时,表明两个变量正相关答案CD解析A显然不对,B是函数关系,CD正确.2.若变量y与x之间的样本相关系数r=-0.983 2,则变量y与x之间( )A.不具有线性相关关系B.具有线性相关关系C.它们的线性相关关系还需要进一步确定D.不确定答案 B解析变量y与x之间的样本相关系数r=-0.983 2,|r|=0.983 2接近1,样本相关系数的绝对值越大,相关性越强,∴变量y与x之间有较强的线性相关关系,故选B.3.两个变量x,y的样本相关系数r1=0.785 9,两个变量u,v的样本相关系数r2=-0.956 8,则下列判断正确的是( )A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强答案 C解析由样本相关系数r1=0.785 9>0知x与y正相关,由样本相关系数r2=-0.956 8<0知u,v负相关,又|r1|<|r2|,∴变量u与v的线性相关性比x与y的线性相关性强.故选C.4.据两个变量x,y之间的成对样本数据画出散点图如图,这两个变量是否具有线性相关关系_____ ___.(填“是”或“否”)答案 否解析 图中的点分布杂乱,两个变量不具有线性相关关系.5.部门所属的10个工业企业生产性固定资产价值与工业增加值资料如下表(单位:百万元):固定资产价值 3 3 5 6 6 7 8 9 9 10 工业增加值15172528303637424045根据上表资料计算的样本相关系数约为________. 答案 0.991 8解析 x =3+3+5+6+6+7+8+9+9+1010=6.6,y =15+17+25+28+30+36+37+42+40+4510=31.5.∴r =∑i =110(x i -x )(y i -y )∑i =110(x i -x )2∑i =110(y i -y )2≈0.991 8.1.知识清单: (1)相关关系. (2)散点图.(3)正相关、负相关、线性相关、非线性相关.(4)样本相关系数.2.方法归纳:数形结合.3.常见误区:相关关系与函数关系不分,样本相关系数绝对值的大小与相关程度的关系.1.若“名师出高徒”成立,则名师与高徒之间存在什么关系( )A.相关关系B.函数关系C.无任何关系D.不能确定答案 A2.(多选)给出下列关系,其中有相关关系的是( )A.人的年龄与他(她)拥有的财富之间的关系B.曲线上的点与该点的坐标之间的关系C.苹果的产量与气候之间的关系D.森林中的同一种树木,其截面直径与高度之间的关系答案ACD3.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )A.①②③ B.②③① C.②①③ D.①③②答案 D解析对于(1),图中的点成带状分布,且从左到右上升,是①正相关关系;对于(2),图中的点没有明显的带状分布,是③不相关;对于(3),图中的点成带状分布,且从左到右是下降的,是②负相关关系.故选D.4.(多选)某校地理学兴趣小组在某座山测得海拔高度、气压和沸点的六组数据绘制成散点图如图所示,则下列说法正确的是( )A.沸点与海拔高度呈正相关B.沸点与气压呈正相关C.沸点与海拔高度呈负相关D.沸点与海拔高度、沸点与气压的相关性都很强答案BCD解析由左图知气压随海拔高度的增加而减小,由右图知沸点随气压的升高而升高,所以沸点与气压呈正相关,沸点与海拔高度呈负相关,由于两个散点图中的点都成线性分布,所以沸点与海拔高度、沸点与气压的相关性都很强,故B,C,D正确,A错误.5.变量X与Y相对应的一组成对样本数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),变量U与V 相对应的一组成对样本数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的样本相关系数,r2表示变量V与U之间的样本相关系数,则( )A.r2<r1<0 B.0<r2<r1C.r2<0<r1D.r1=r2答案 C解析由已知中的数据可知:第一组成对样本数据正相关,则样本相关系数大于零,第二组成对样本数据负相关,则样本相关系数小于零,故选C.6.如图所示的两个变量不具有相关关系的有________.(填序号)答案①④解析①是确定的函数关系;②中的点大都分布在一条曲线周围;③中的点大都分布在一条直线周围;④中点的分布没有任何规律可言,x,y不具有相关关系.7.给出下列x,y值的数据如下:x 1248y 35917则根据数据可以判断x和y的关系是________.(填“确定关系”“相关关系”或“没有关系”)答案确定关系解析由表中数据可以得到x,y之间是一种函数关系:y=2x+1,所以x,y是一种确定的关系,即函数关系.8.对某高三学生在连续9次数学测试中的成绩(单位:分)进行统计得到如图所示的散点图.下面关于这位同学的数学成绩的分析中,正确的序号有________.①该同学的数学成绩总的趋势是在逐步提高;②该同学在这连续九次测试中的最高分与最低分的差超过40分;③该同学的数学成绩与测试序号具有线性相关性,且为正相关.答案①②③解析散点图从左向右看呈上升趋势,所以该同学的数学成绩总的趋势是在逐步提高,①正确;该同学在这连续九次测试中的最高分大于130分,最低分小于90分,极差超过40分,②正确;该同学的数学成绩与测试序号具有比较明显的线性相关性,且为正相关,③正确. 9.某个男孩的年龄与身高的统计数据如下表所示:年龄x (岁) 1 2 3 4 5 6 身高y (cm)788798108115120(1)画出散点图;(2)判断y 与x 是否具有线性相关关系,如果相关,是正相关还是负相关. 解 (1)散点图如图所示.(2)由图知,所有数据点接近一条直线排列,因此,认为y 与x 具有线性相关关系,且是正相关关系. 10.关于两个变量x 和y 的7组数据如下表所示:x 21 23 25 27 29 32 35 y711212466115325求变量y 与x 的样本相关系数,并判断变量y 与x 之间是正相关还是负相关. 解 x =17(21+23+25+27+29+32+35)≈27.4,y =17(7+11+21+24+66+115+325)≈81.3,i =17x 2i =212+232+252+272+292+322+352=5 414,∑i =17x i y i =21×7+23×11+25×21+27×24+29×66+32×115+35×325=18 542,∑i =17y 2i =72+112+212+242+662+1152+3252=124 393, ∴r =∑i =17xiyi -7x y(∑i =17x 2i -7x2)(∑i =17y 2i -7y 2)=18 542-7×27.4×81.3(5 414-7×27.42)(124 393-7×81.32)≈2 948.663 520.92≈0.837 5.∵r >0,∴变量y 与x 之间是正相关关系.11.两个变量y 与x 的模型中,分别选择了4个不同模型,它们的样本相关系数r 如下,其中拟合效果最好的模型是( )模型 模型1 模型2 模型3 模型4 样本相关系数r0.980.800.500.25A.模型1 B .模型2 C .模型3 D .模型4 答案 A12.某统计部门对四组成对样本数据进行统计分析后,获得如图所示的散点图,关于样本相关系数的比较,其中正确的是( )A.r4<r2<0<r1<r3B.r2<r4<0<r1<r3C.r2<r4<0<r3<r1D.r4<r2<0<r3<r1答案 C解析根据散点图的特征,数据大致呈增长趋势的是正相关,数据呈递减趋势的是负相关;数据越集中在一条直线附近,说明相关性越强,由题中数据可知:(1)(3)为正相关,(2)(4)为负相关,故r1>0,r3>0,r2<0,r4<0,又(1)与(2)中散点图更接近于一条直线,故r1>r3,r2<r4,因此r2<r4<0<r3<r1.故选C.13.如图所示,有5组(x,y)数据,去掉哪一组数据之后,剩下的4组数据成线性相关关系( )A.E B.D C.B D.A答案 B解析去掉D组数据之后,剩下的4组数据成线性相关关系.14.高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级的排名情况如图所示,甲、乙、丙为该班三位学生.从这次考试成绩看:(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________;(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________.答案(1)乙(2)数学解析(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是乙;(2)由高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级的排名情况的散点图可知,两个图中,同一个人的总成绩是不会变的.第二个图看,丙是从右往左数第5个点,即丙的总成绩在班里倒数第5.在左边的图中,找到倒数第5个点,它表示的就是丙,发现这个点的位置比右边图中丙的位置高,所以语文名次更“大”,即数学的成绩更靠前.15.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份12345 6人均销售额658347利润率(%)12.610.418.5 3.08.116.3根据表中数据,下列说法正确的是( )A.利润率与人均销售额成正比例函数关系B.利润率与人均销售额成反比例函数关系C.利润率与人均销售额成正相关关系D.利润率与人均销售额成负相关关系答案 C解析根据题意,画出利润率与人均销售额的散点图,如图所示.由散点图可知,利润率与人均销售额成正相关关系.故选C.16.现随机抽取了我校10名学生在入学考试中的数学成绩(x )与入学后的第一次考试数学成绩(y ),数据如下表:学生号 1 2 3 4 5 6 7 8 9 10 x 120 108 117 104 103 110 104 105 99 108 y84648468696869465771计算这10个学生的两次数学考试成绩的样本相关系数r ,并判断两者是否具有线性相关关系. 解 x =110×(120+108+…+99+108)=107.8, y =110×(84+64+…+57+71)=68,∑i =110x 2i =1202+1082+…+992+1082=116 584, ∑i =110y 2i =842+642+…+572+712=47 384, ∑i =110x i y i =120×84+108×64+…+108×71=73 796, ∴样本相关系数为r =73 796-10×107.8×68(116 584-10×107.82)(47 384-10×682)≈0.750 6,∴这10个学生的两次数学考试成绩具有线性相关关系.。

2018-2019届高三数学(文)一轮复习课件:第9章 统计、统计案例、概率 第3节

2018-2019届高三数学(文)一轮复习课件:第9章 统计、统计案例、概率 第3节
∧ ∧
中a,b是待定数. n n xi- x yi- y xiyi-n x y i=1 ∧ i=1 = , b= n n 2 2 2 x - n x x - x i i i=1 i=1 ∧ ∧ a= y -b x .
(3)回归分析
②如果 k≥k0,就推断“X 与 Y 有关系”,这种推断犯错误 的概率不超过 P(K2≥k0);否则,就认为在犯错误的概率不超过 P(K2≥k0)的前提下不能推断“X 与 Y 有关系”.
质疑探究 2∶k2≥3.841 和 k2≥6.635 分别说明了什么问题?
提示:独立性检验得出的结论带有概率性质,只能说结论 成立的概率有多大,而不能完全肯定一个结论,因此才出现了 临界值,3.841 和 6.635 就是两个常用的临界值,一般认为当 k2≥3.841 时, 则有 95%的把握说事件 A 与 B 有关; 当 k2≥6.635 时,则有 99%的把握说事件 A 与 B 有关.
[ 答案] B
2.下面是 2×2 列联表: y1 x1 x2 总计 a 22 b y2 21 25 46 ) B.52,50 D.74,52 总计 73 47 120
则表中 a,b 的值分别为( A.94,72 C.52,74
[ 解析] 选 C.
[ 答案]
∵a+21=73, ∴a=52, 又 a+22=b, ∴b=74. 故
近,就称这两个变量之间具有线性相关关系,这条直线叫做回 归直线. (2)回归方程 ①最小二乘法:求回归直线使得样本数据的点到回归直线
距离的平方和 最小的方法叫做最小二乘法. 的________________



②回归方程:方程 y =bx+a是两个具有线性相关关系的变 量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其

(课件):高三数学第9章第四节

(课件):高三数学第9章第四节
程将部分观测值所反映的规律进行延伸,是我
们对有线性相关关系的两个变量进行分析和控
制,依据自变量的取值估计和预报因变量值的
基础和依据,有广泛的应用.
例3 某种产品的宣传费支出x与销售额y(单位:
万元)之间有如下对应数据: x y 2 30 4 40 5 60 6 50 8 70
(1)画出散点图; (2)求线性回归方程; (3)试预测宣传费支出为10万元时,销售额多大?
答案:185.03
2.(2011年扬州调研)已知三点(3,10),(7,20),
(11,24)的横坐标x与纵坐标y具有线性关系,则 其线性回归方程是________.
7 23 答案:y= x+ 4 4
3.某单位为了了解用电量y(度)与气温x (℃)
之间的关系,随机统计了某4天的用电量与当
天气温,并制作了对照表:
【名师点评】 从本题可以看出,求回归直线方程, ^ ^ 关键在于正确求出系数a ,b ,由于计算量较大,所 以计算时要仔细、谨慎,分步进行,避免因计算而 失误.特别注意,只有在散点图大体呈线性相关时, 求出的回归直线方程才有意义.
利用回归方程对总体进行估计
利用回归直线方程可以估计总体,回归直线方
关系是回归分析的前提.
^ 2.注意回归直线方程中一次项系数为b ,常数 ^ 项为a ,这与一次函数的习惯表示不同. 3. 回归分析是处理变量相关关系的一种数学方 法.主要解决:(1)确定特定量之间是否有相关 关系,如果有就找出它们之间贴近的数学表达 式;(2)根据一组观察值,预测变量的取值及判 断变量取值的变化趋势;(3)求出回归直线方程.
2.假设关于某设备的使用年限(年)和所支出 的维修费用(万元)有如下统计资料: x(年) 2 3 4 5 6

高三数学人教版A版数学(理)高考一轮复习教案变量间的相关关系、统计案例1

高三数学人教版A版数学(理)高考一轮复习教案变量间的相关关系、统计案例1

第四节 变量间的相关关系、统计案例变量间的相关关系、统计案例 1.变量间的相关关系(1)会作两个有关联变量的数据的散点图,会利用数点图认识变量间的相关关系. (2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 2.统计案例了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题. (1)独立性检验了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. (2)回归分析了解回归分析的基本思想、方法及其简单应用. 知识点一 回归分析 1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y∑ni =1x 2i -n x 2,a ^=y -b ^x . (3)通过求Q =∑ni =1(y i -bx i -a )2的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫作最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.易误提醒1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上 .3.利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).[自测练习]1.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=( )x 0 1 3 4 y2.24.3 4.86.7A.3.25 B .2.6 C .2.2D .0解析:∵回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入回归方程,得a ^=2.6.答案:B2.(2016·镇江模拟)如图所示,有A ,B ,C ,D ,E 5组(x ,y )数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.解析:由散点图知呈带状区域时有较强的线性相关关系,故去掉D . 答案:D知识点二 独立性检验 独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).易误提醒(1)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表.在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果做出错误的解释.[自测练习]3.下面是2×2列联表:y1y2总计x1 a 2173x2222547总计 b 46120则表中a,b的值分别为()A.94,72B.52,50C.52,74 D.74,52解析:∵a+21=73,∴a=52,又a+22=b,∴b=74.答案:C考点一相关关系的判断|1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析:易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.答案:A2.(2015·高考湖北卷)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关解析:因为y=-0.1x+1,x的系数为负,故x与y负相关;而y与z正相关,故x与z 负相关.答案:C相关关系的判断的两种方法(1)散点图法.(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.考点二回归分析|(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑8i =1(x i -x)2∑8i =1(w i -w)2∑8i =1(x i -x )(y i-y )∑8i =1(w i -w )(y i -y ) 46.6 563 6.8 289.8 1.6 1 469108.8表中w i =x i ,w =18∑i =1w i.(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^ u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于 d ^=∑8i =1(w i -w )(y i -y )∑8i =1 (w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6, 年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.回归直线方程的求法(1)利用公式,求出回归系数b ^,a ^.(2)待定系数法:利用回归直线过样本点中心求系数.1.(2016·银川一中模拟)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.x 3 4 5 6 y2.5344.5(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^. (2)已知该厂技改前,100吨甲产品的生产能耗为90吨标准煤,试根据(1)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)解:(1)由对照数据,计算得∑4i =1x 1y 1=66.5,∑4i =1x 21=32+42+52+62=86,x =4.5,y =3.5,b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35,所求的回归方程为y ^=0.7x +0.35.(2)x =100,y ^=100×0.7+0.35=70.35,预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨标准煤).考点三 独立性检验|(2016·邯郸模拟)为了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级学生进行了问卷调查得到如下列联表.平均每天喝500 mL 以上为常喝,体重超过50 kg 为肥胖.常喝 不常喝 合计 肥胖 2 不肥胖 18 合计30已知在全部30人中随机抽取1人,抽到肥胖的学生的概率为415.(1)请将上面的列联表补充完整.(2)是否有99.5%的把握认为肥胖与常喝碳酸饮料有关?说明你的理由.(3)设常喝碳酸饮料且肥胖的学生中有2名女生,现从常喝碳酸饮料且肥胖的学生中抽取2人参加电视节目,则正好抽到一男一女的概率是多少?参考数据:K 2≥k 0 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .[解] (1)设常喝碳酸饮料肥胖的学生有x 人,x +230=415,解得x =6.常喝 不常喝 合计 肥胖 6 2 8 不肥胖 4 18 22 合计102030(2)由已知数据可求得K 2=30×(6×18-2×4)210×20×8×22≈8.523>7.879.因此有99.5%的把握认为肥胖与常喝碳酸饮料有关.(3)设常喝碳酸饮料的肥胖男生为A ,B ,C ,D ,女生为E ,F ,任取两人的取法有AB ,AC ,AD ,AE ,AF ,BC ,BD ,BE ,BF ,CD ,CE ,CF ,DE ,DF ,EF ,共15种.其中一男一女的取法有AE ,AF ,BE ,BF ,CE ,CF ,DE ,DF ,共8种.故抽出一男一女的概率是P =815.解独立性检验的应用问题的关注点(1)两个明确: ①明确两类主体; ②明确研究的两个问题. (2)两个关键:①准确画出2×2列联表; ②准确理解K 2.提醒:准确计算K 2的值是正确判断的前提.2.通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计6050110K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .附表:P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828A .有99%以上的把握认为“选择过马路的方式与性别有关”B .有99%以上的把握认为“选择过马路的方式与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关” 解析:K 2=110×(40×30-20×20)260×50×60×50≈7.8.P (K 2≥6.635)=0.01=1-99%,∴有99%以上的把握认为“选择过马路的方式与性别有关”,故选A.答案:A12.独立性检验与概率交汇综合问题的答题模板【典例】(12分)(2016·保定调研)某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:(1)判断是否有(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.下面的临界值表供参考:(参考公式:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d)[规范解答](1)由公式K2=55×(20×20-10×5)230×25×25×30≈11.978>7.879,(3分) 所以有99.5%的把握认为喜欢“应用统计”课程与性别有关.(6分)(2)设所抽样本中有m个男生,则630=m20,得m=4,所以样本中有4个男生,2个女生,分别记作B1,B2,B3,B4,G1,G2.从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,G1),(B1,G2),(B2,B3),(B2,B4),(B2,G1),(B2,G2),(B3,B4),(B3,G1),(B3,G2),(B4,G1),(B4,G2),(G1,G2),共15个,(9分)其中恰有1个男生和1个女生的事件有(B1,G1),(B1,G2),(B2,G1),(B2,G2),(B3,G1),(B3,G2),(B4,G1),(B4,G2),共8个.(11分)所以恰有1个男生和1个女生的概率为815.(12分)[模板形成]分析2×2列联表数据↓利用K 2公式计算K 2值↓对分类变量的相关性作出判断↓求相应事件的概率↓反思解题过程,注意规范化[跟踪练习] 某班主任对全班50名学生学习积极性和参加社团活动情况进行调查,统计数据见下表所示:(1)加社团活动且学习积极性一般的学生的概率是多少?(2)运用独立性检验的思想方法分析:学生的学习积极性与参加社团活动情况是否有关系?并说明理由.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d );其中n =a +b +c +d .解:(1)随机从该班抽查一名学生,抽到参加社团活动的学生的概率是2250=1125;抽到不参加社团活动且学习积极性一般的学生的概率是2050=25.(2)因为K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=50×(17×20-5×8)225×25×22×28≈11.688>10.828,所以大约有99.9%的把握认为学生的学习积极性与参加社团活动情况有关系.A 组 考点能力演练1.根据如下样本数据得到的回归方程为y ^=b ^x +a ^,则( )A.a ^>0,b ^>0 B.a >0,b <0 C.a ^<0,b ^>0D.a ^<0,b ^<0解析:把样本数据中的x ,y 分别当作点的横、纵坐标,在平面直角坐标系xOy 中作出散点图(图略),由图可知b ^<0,a ^>0.故选B.答案:B2.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y^=-0.3x +4.4解析:依题意知,相应的回归直线的斜率应为正,排除C ,D.且直线必过点(3,3.5),代入A ,B 得A 正确.答案:A3.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附表及公式K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .则下面的正确结论是( )A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”解析:由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k 0=100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”,故选A.答案:A4.根据如下样本数据:得到的回归方程为y =b x +a .若样本点的中心为(5,0.9),则当x 每增加1个单位时,y 就( )A .增加1.4个单位B .减少1.4个单位C .增加7.9个单位D .减少7.9个单位解析:依题意得,a +b -25=0.9,故a ^+b ^=6.5①;又样本点的中心为(5,0.9),故0.9=5b ^+a ^②,联立①②,解得b ^=-1.4,a ^=7.9,则y ^=-1.4x +7.9,可知当x 每增加1个单位时,y 就减少1.4个单位,故选B.答案:B5.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑6i =1x i y i -6x ·y ∑6i =1x 2i -6x2=58-6×72×13691-6×⎝⎛⎭⎫722=57,a ^=y -b ^x =136-57×72=-13,所以b ^<b ′,a ^>a ′.答案:C6.(2016·忻州联考)已知x ,y 的取值如下表:从散点图分析,y 与x 线性相关,且回归方程为y =1.46x +a ,则实数a ^的值为________. 解析:x =2+3+4+54=3.5,y =2.2+3.8+5.5+6.54=4.5,回归方程必过样本的中心点(x ,y ).把(3.5,4.5)代入回归方程,计算得a ^=-0.61.答案:-0.617.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:(请用百分数表示).解析:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=50×(20×15-5×10)225×25×30×20≈8.333>7.879.答案:0.5%8.已知下表所示数据的回归直线方程为y ^=4x +242,则实数a =________.解析:回归直线y ^=4x +242必过样本点的中心点(x ,y ),而x =2+3+4+5+65=4,y =251+254+257+a +2665=1 028+a 5,∴1 028+a 5=4×4+242,解得a =262.答案:2629.(2015·东北三校联考)某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:主食蔬菜主食肉类合计 50岁以下 50岁以上 合计(2)能否有99% 解:(1)2×2列联表如下:主食蔬菜主食肉类合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030(2)因为K 2=30×(8-128)212×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.10.(2015·高考重庆卷)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2010 2011 2012 2013 2014 时间代号t12345(1)求y 关于t 的回归方程y =b t +a ;(2)用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款. 附:回归方程y ^=b ^t +a ^中, b ^=∑ni =1t i y i -n t y ∑ni =1t 2i -n t2,a ^=y -b ^t .解:(1)列表计算如下这里n =5,t =1n ∑n i =1t i =155=3,y =1n ∑n i =1y i =365=7.2. 又l tt =∑ni =1t 2i -n t2=55-5×32=10,l ty =∑ni =1t i y i-n t y =120-5×3×7.2=12,从而b ^=l ty l tt =1210=1.2,a ^=y -b ^t =7.2-1.2×3=3.6,故所求回归方程为y ^=1.2t +3.6.(2)将t =6代入回归方程可预测该地区2015年的人民币储蓄存款为y ^=1.2×6+3.6=10.8(千亿元).B 组 高考题型专练1.(2015·高考福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C.12.0万元D.12.2万元^=0.76,∴a^=8-0.76×10=0.4,∴回归方程为y^=0.76x 解析:∵x=10.0,y=8.0,b+0.4,把x=15代入上式得,y^=0.76×15+0.4=11.8(万元),故选B.答案:B2.(2015·高考北京卷)高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________;(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________.解析:(1)由题图分析乙的语文成绩名次略比甲的语文成绩名次靠前,但总成绩名次靠后,所以甲、乙两人中语文成绩名次比总成绩靠前的是乙;(2)丙同学的数学成绩名次位于中间稍微靠后,而总成绩名次相对靠后,所以丙同学的语文成绩名次比较靠后,所以丙同学的成绩名次靠前的科目是数学.答案:乙数学。

新高考数学复习基础知识专题讲义22 回归方程和2×2联表(解析版)

新高考数学复习基础知识专题讲义22 回归方程和2×2联表(解析版)

新高考数学复习基础知识专题讲义 知识点22 回归方程和2×2联表知识理解 一.线性关系 1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. (2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关. 2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程: 是两个具有线性相关关系的变量的一组数据的回归方程,其中是待定参数. 的计算公式.注意:回归方程必过样本中心(x,y),这也是做小题的依据和检验所求回归方程是否正确。

(3)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. 二.独立性检验y bx a =+1122()()()n n x y x y x y ,,,,,,a b 、a b 、1122211()()()()nni i i ii i n ni ii i x x y y x y nx yb x x xn x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑(1)2×2列联表设X ,Y 为两个变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:(2)独立性检验利用随机变量K 2(也可表示为χ2)的观测值22n(ad bc)K (a b)(c d)(a c)(b d)-=++++(其中n =a +b +c +d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.考向一 一次线性关系【例1-1】(2021·山东高三专题练习)某工厂的每月各项开支x 与毛利润y (单位:万元)之间有如下关系,y 与x 的线性回归方程 6.5y x a =+,则a =( )A .17.5B .17C .15D .15.5 【答案】A【解析】由题意,根据表中的数据,可得2456855x ++++==,3040605070505y ++++==,即样本中心为(5,50),代入y 与x 的线性回归方程为 6.5y x a =+,解得17.5a =.故选:A . 【例1-2】(2021·全国高三专题练习)西尼罗河病毒(WNV )是一种脑炎病毒,WNV 通常是由鸟类携考向分析带,经蚊子传播给人类.1999年8-10月,美国纽约首次爆发了WNV 脑炎流行.在治疗上目前尚未有什么特效药可用,感染者需要采取输液及呼吸系统支持性疗法,有研究表明,大剂量的利巴韦林含片可抑制WNV 的复制,抑制其对细胞的致病作用.现某药企加大了利巴韦林含片的生产,为了提高生产效率,该药企负责人收集了5组实验数据,得到利巴韦林的投入量x (千克)和利巴韦林含片产量y (百盒)的统计数据如下:由相关系数r 可以反映两个变量相关性的强弱,||[0.75,1]r ∈,认为变量相关性很强;||[0.3,0.75]r ∈,认为变量相关性一般;||[0,0.25]r ∈,认为变量相关性较弱. (1)计算相关系数r ,并判断变量x 、y 相关性强弱;(2)根据上表中的数据,建立y 关于x 的线性回归方程ˆˆˆybx a =+;为了使某组利巴韦林含片产量达到150百盒,估计该组应投入多少利巴韦林? 25.69≈.参考公式:相关系数()()niix x y y r--=∑ˆˆˆybx a =+中,()()()121niii ni i x x y y b x x ==--=-∑∑,ˆˆay bx =-. 【答案】(1)0.97r =≈,x 与y 具有很强的相关性;(2)54.2千克. 【解析】(1)1(12345)35x =⨯++++=,()11620232526225y =⨯++++=, ()()51(13)(1622)(23)(2022)(33)(2322)ii i xx y y x =--=-⨯-+--+-⨯-∑(43)(2522)(53)(2622)25+-⨯-+-⨯-=,()52222221(13)(23)(33)(43)(53)10i i x x =-=-+-+-+-+-=∑,()522221(1622)(2022)(2322)i i y y =-=-+-+-∑22(2522)(2622)66+-+-=,则()()50.97iix x y y r --==≈∑ 所以x 与y 具有很强的相关性.(2)由(1)得,()()()5152125ˆ 2.510iii i i x x y y bx x ==--===-∑∑, ˆˆ22 2.5314.5ay bx =-=-⨯=, 所以y 关于x 的线性回归方程为ˆ 2.514.5yx =+. 当150y =(百盒)时,54.2x =(千克)故要使某组利巴韦林含片产量达到150百盒,估计该组应投入54.2千克利巴韦林. 【举一反三】1.(2021·全国高三专题练习)某工厂某产品产量x (千件)与单位成本y (元)满足回归直线方程77.36 1.82y x =-,则以下说法中正确的是( )A .产量每增加1000件,单位成本约下降1.82元B .产量每减少1000件,单位成本约下降1.82元C .当产量为1千件时,单位成本为75.54元D .当产量为2千件时,单位成本为73.72元 【答案】A【解析】令()77.36 1.82f x x =-,因为(1)()77.36 1.82(1)77.36 1.82 1.82f x f x x x +-=-+-+=-, 所以产量每增加1000件,单位成本约下降1.82元.2.(2021·安徽省六安中学高三开学考试)“关注夕阳、爱老敬老”—某马拉松协会从2013年开始每年向敬老院捐赠物资和现金.下表记录了第x 年(2013年是第一年)与捐赠的现金y (万元)的对应数据,由此表中的数据得到了y 关于x 的线性回归方程ˆ0.35ymx =+,则预测2019年捐赠的现金大约是( )A .5万元B .5.2万元C .5.25万元D .5.5万元 【答案】C【解析】由已知得,3456 2.534 4.54.5, 3.544x y ++++++====,所以样本点的中心点的坐标为(4.5,3.5),代入ˆ0.35ymx =+, 得3.5 4.50.35m =+,即0.7m =,所以ˆ0.70.35yx =+, 取7x =,得ˆ0.770.35 5.25y=⨯+=, 预测2019年捐赠的现金大约是5.25万元.3.(2021·全国高三专题练习)基于移动互联技术的共享单车被称为“新四大发明”之一,短时间内就风靡全国,带给人们新的出行体验、某共享单车运营公司的市场研究人员为了解公司的经营状况,对该公司最近六个月内的市场占有率进行了统计,结果如下表:(1)请在给出的坐标纸中作出散点图,并用相关系数说明可用线性回归模型拟合月度市场占有率y与月份代码x之间的关系;(2)求y关于x的线性回归方程,并预测该公司2020年2月份的市场占有率;(3)根据调研数据,公司决定再采购一批单车扩大市场,现有采购成本分别为1000元/辆和800元/辆的A、B两款车型报废年限各不相同,考虑到公司的经济效益,该公司决定先对两款单车各100辆进行科学模拟测试,得到两款单车使用寿命频数表如下:经测算,平均每辆单车每年可以为公司带来收入500元.不考虑除采购成本之外的其他成本,假设每辆单车的使用寿命都是整数年,且用频率估计每辆单车使用寿命的概率,以每辆单车产生利润的期望值为决策依据、如果你是该公司的负责人,你会选择采购哪款车型?参考数据:621()17.5ii x x =-=∑,61()()35i i i x x y y =--=∑36.5≈参考公式:相关系数C ;回归直线方程为ˆˆˆybx a =+,其中121()()ˆ()niii nii x x y y b x x ==--=-∑∑,ˆˆay bx =- 【答案】(1)散点图见解析,可用线性回归模型拟合两变量之间的关系;(2)ˆ29y x =+,23%;(3)应选择B 款车型.【解析】(1)散点图如图所示,111316152021166y +++++==,∴621()76i i y y =-=∑,∴()()350.9636.5niix x y y r --====≈∑,∴两变量之间具有较强的线性相关关系, 故可用线性回归模型拟合两变量之间的关系;(2)121()()35217.5()ˆniii ni i x x y y bx x ==--===-∑∑,又1234563.56x +++++==, ∴ˆˆ162 3.59ay bx =-=-⨯=,∴回归直线方程为ˆ29y x =+; ∴2020年2月的月份代码7x =,∴27923y =⨯+=, ∴估计2020年2月的市场占有率为23%;(3)用频率估计概率,A 款单车的利润X 的分布列为:∴()5000.100.35000.410000.2350E X =-⨯+⨯+⨯+⨯=(元),B 款单车的利润Y 的分布列为:∴()3000.152000.47000.3512000.1400E Y =-⨯+⨯+⨯+⨯=(元), 以每辆单车产生利润的期望值为决策依据,故应选择B 款车型.4.(2021·全国高三专题练习)近年来,“双11”网购的观念逐渐深入人心.某人统计了近5年某网站“双11”当天的交易额,,统计结果如下表:(1)请根据上表提供的数据,用相关系数r 说明y 与x 的线性相关程度,线性相关系数保留三位小数.(统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值i x ,变量y 的观测值为i y (1i n ≤≤),则两个变量的相关系数的计算公式为:.统计学认为,对于变量,如果[]1,0.75r -∈-,那么负相关很强;如果[]0.751r ∈,,那么正相关很强;如果(]0.75,0.30r ∈--或[)0.30,0.75r ∈,那么相关性一般;如果[]0.25,0.25r ∈-,那么相关性较弱);(2)求出关于x 的线性y 回归方程,并预测2020年该网站“双11”当天的交易额.参考公式:121()()()ˆniii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =-43.1≈. 【答案】(1)0.998;变量y 与x 的线性相关程度很强;(2)ˆ 4.3 4.1yx =+;29.9百亿元. 【解析】(1)由题意,根据表格中的数据, 可得:1(12345)35x =++++=,1(912172126)175y =++++=,则1()()(13)(917)(53)(2617)43niii x x y y =--=--++--=∑,43.1=≈,所以()()430.99843.1niix x y y r --==≈∑ 所以变量y 与x 的线性相关程度很强.(2)由(1)可得3x =,17y =,1()()43niii x x y y =--=∑,又由2221222(13)(23)(3(3)(43)(53)1)0nii x x ==-+-+-+-+-=-∑,所以121()()43 4.30)ˆ1(niii ni i x x y y bx x ==--===-∑∑,则ˆˆ17 4.33 4.1a y bx=-=-⨯=, 可得y 关于x 的线性回归方程为ˆ 4.3 4.1y x =+ 令6x =,可得ˆ 4.36 4.129.9y=⨯+=, 即2020年该网站“双11”当天的交易额29.9百亿元.考向二 独立性检验【例2】(2021·江苏泰州市·高三期末)2021年是脱贫攻坚的收官之年,国务院扶贫办确定的贫困县全部脱贫摘帽,脱贫攻坚取得重大胜利,为确保我国如期全面建成小康社会,实现第一个百年奋斗目标打下了坚实的基础在产业扶贫政策的大力支持下,西部某县新建了甲、乙两家玩具加工厂,加工同一型号的玩具质监部门随机抽检了两个厂的各100件玩具,在抽取中的200件玩具中,根据检测结果将它们分成“A ”、“B ”、“C ”三个等级,A 、B 等级都是合格品,C 等级是次品,统计结果如下表所示:(表一)(表二)在相关政策扶持下,确保每件合格品都有对口销售渠道,但从安全起见,所有的次品必须由原厂家自行销.(1)请根据所提供的数据,完成上面的2×2列联表(表二),并判断是否有95%的把握认为产品的合格率与厂家有关?(2)每件玩具的生产成本为30元,A 、B 等级产品的出厂单价分别为60元、40元.另外已知每件次品的销毁费用为4元.若甲厂抽检的玩具中有10件为A 等级,用样本的频率估计概率,试判断甲、乙两厂能否都能盈利,并说明理由.附:22()()()()()n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.【答案】(1)列联表答案见解析,没有95%的把握认为产品的合格率与厂家有关;(2)甲厂能盈利,乙不能盈利,理由见解析. 【解析】(1)2×2列联表如下()2220075352565 2.38 3.84110010014060K ⨯⨯-⨯=≈<⨯⨯⨯,∴没有95%的把握认为产品的合格率与厂家有关.(2)甲厂10件A 等级,65件B 等级,25件次品, 对于甲厂,单件产品利润X 的可能取值为30,10,34-.X 的分布列如下:()3010341010204E X ∴=⨯+⨯-⨯=>, ∴甲厂能盈利,对于乙厂有10件A 等级,55件B 等级,35件次品, 对于乙厂,单位产品利润Y 的可能取值为30,10,34-,Y 分布列如下:()30103401020205E Y ∴=⨯+⨯-⨯=-<,乙不能盈利. 【举一反三】1.(2021·山东高三专题练习)共享单车进驻城市,绿色出行引领时尚.某市有统计数据显示,2021年该市共享单车用户年龄等级分布如图1所示,一周内市民使用单车的频率分布扇形图如图2所示.若将共享单车用户按照年龄分为“年轻人”(20岁-39岁)和“非年轻人”(19岁及以下或者40岁及以上)两类,将一周内使用的次数为6次或6次以上的称为“经常使用单车用户”,使用次数为5次或不足5次的称为“不常使用单车用户”.已知在“经常使用单车用户”中有56是“年轻人”.(1)现对该市市民进行“经常使用共享单车与年龄关系”的调查,采用随机抽样的方法,抽取一个容量为200的样本,请你根据图表中的数据,补全下列22⨯列联表,并根据列联表的独立性检验,判断是否有85%的把握认为经常使用共享单车与年龄有关?使用共享单车情况与年龄列联表(2)将(1)中频率视为概率,若从该市市民中随机任取3人,设其中经常使用共享单车的“非年轻人”人数为随机变量X,求X的分布列与期望.参考数据:独立性检验界值表其中,22()()()()()n ad bc K a b c d a c b d -=++++,n a b c d =+++【答案】(1)列联表见解析,有85%的把握可以认为经常使用共享单车与年龄有关;(2)分布列见解析,数学期望为0.3.【解析】(1)补全的列联表如下:于是100a =,20b =,60c =,20d =,∴22200(100206020) 2.083 2.0721208016040K ⨯⨯-⨯=≈>⨯⨯⨯,即有85%的把握可以认为经常使用共享单车与年龄有关. (2)由(1)的列联表可知,经常使用共享单车的“非年轻人”占样本总数的频率为20100%10%200⨯=, 即在抽取的用户中出现经常使用单车的“非年轻人”的概率为0.1, ∵~(3,0.1)X B ,0,1,2,3X =∴3(0)(10.1)0.729P X ==-=,(1)0.243P X ==(2)0.027P X ==,3(3)0.10.001P X ===,∴X 的分布列为E X=⨯=.∴X的数学期望()30.10.3【举一反三】1.(2021·全国高三专题练习)某工厂为了提高生产效率,对生产设备进行了技术改造,为了对比技术改造后的效果,采集了技术改造前后各20次连续正常运行的时间长度(单位:天)数据,整理如下:改造前:19,31,22,26,34,15,22,25,40,35,18,16,28,23,34,15,26,20,24,21 改造后:32,29,41,18,26,33,42,34,37,39,33,22,42,35,43,27,41,37,38,36 (1)完成下面的列联表,并判断能否有99%的把握认为技术改造前后的连续正常运行时间有差异?(2)工厂的生产设备的运行需要进行维护,工厂对生产设备的生产维护费用包括正常维护费,保障维护费两种.对生产设备设定维护周期为T天(即从开工运行到第kT天,k∈N*)进行维护.生产设备在一个生产周期内设置几个维护周期,每个维护周期相互独立.在一个维护周期内,若生产设备能连续运行,则只产生一次正常维护费,而不会产生保障维护费;若生产设备不能连续运行,则除产生一次正常维护费外,还产生保障维护费.经测算,正常维护费为0.5万元/次;保障维护费第一次为0.2万元/周期,此后每增加一次则保障维护费增加0.2万元.现制定生产设备一个生产周期(以120天计)内的维护方案:T=30,k=1,2,3,4.以生产设备在技术改造后一个维护周期内能连续正常运行的频率作为概率,求一个生产周期内生产维护费的分布列及均值.附:22()()()()()n ad bc K a b c d a c b d -=++++【答案】(1)见解析,有99%的把握认为技术改造前后的连续正常运行时间有差异.(2)见解析;均值为2.275万元. 【解析】(1)列联表为:()224055151510 6.63520202020K ⨯-⨯∴==>⨯⨯⨯∴有99%的把握认为技术改造前后的连续正常运行时间有差异.(2)由题知,生产周期内有4个维护周期,一个维护周期为30天,一个维护周期内,生产线需保障维护的概率为14P =. 设一个生产周期内需保障维护的次数为ξ,则1~4,4B ξ⎛⎫⎪⎝⎭;一个生产周期内的正常维护费为0.542⨯=万元,保障维护费为()()20.210.10.12ξξξξ⨯+=+万元.∴一个生产周期内需保障维护ξ次时的生产维护费为()20.10.12ξξ++万元.设一个生产周期内的生产维护费为X ,则X 的所有可能取值为2,2.2,2.6,3.2,4.()4181214256P X ⎛⎫==-= ⎪⎝⎭ ()31411272.214464P X C ⎛⎫==-= ⎪⎝⎭ ()222411272.6144128P X C ⎛⎫⎛⎫==-=⎪ ⎪⎝⎭⎝⎭ ()3341133.214464P X C ⎛⎫⎛⎫==-= ⎪⎪⎝⎭⎝⎭ ()41144256P X ⎛⎫=== ⎪⎝⎭所以,X 的分布列为()2 2.2 2.6 3.242566412864256E X ∴=⨯+⨯+⨯+⨯+⨯ 162237.6140.438.44582.4 2.275256256++++===∴一个生产周期内生产维护费的均值为2.275万元.2.(2021·四川成都市·高三一模)一网络公司为某贫困山区培养了100名“乡土直播员”,以帮助宣传该山区文化和销售该山区的农副产品,从而带领山区人民早日脱贫致富.该公司将这100名“乡土直播员”中每天直播时间不少于5小时的评为“网红乡土直播员”,其余的评为“乡土直播达人”.根据实际评选结果得到了下面22⨯列联表:(1)根据列联表判断是否有95%的把握认为“网红乡土直播员”与性别有关系?(2)在“网红乡土直播员”中按分层抽样的方法抽取6人,在这6人中选2人作为“乡土直播推广大使”.设被选中的2名“乡土直播推广大使”中男性人数为ξ,求ξ的分布列和期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)有95%的把握认为“网红乡土直播员”与性别有关系;(2)分布列见解析;期望为23. 【解析】(1)由题中22⨯列联表,可得()2210010302040 4.762 3.84150503070K ⨯-⨯=≈>⨯⨯⨯.∴有95%的把握认为“网红乡土直播员”与性别有关系. (2)在“网红乡土直播员”中按分层抽样的方法抽取6人, 男性人数为106230⨯=人;女性人数为206430⨯=人. 由题,随机变量ξ所有可能的取值为0,1,2.()022426620155CC P C ξ====,()1124268115C C P C ξ===,()2024261215C C P C ξ===, ∴ξ的分布列为∴ξ的数学期望()28110201251515153E ξ=⨯+⨯+⨯==. 考向三 非一次性回归方程【例3-1】(2021·全国高三专题练习)在一项调查中有两个变量x 和y ,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为y 关于x 的回归方程的函数类型是( )A .y a bx =+B .y c =+C .2y m nx =+D .xy p qc =+(0q >)【答案】B【解析】散点图呈曲线,排除A 选项,且增长速度变慢,排除选项C 、D ,故选B .【例3-2】.(2021·全国高三专题练习)根据公安部交管局下发的通知,自2021年6月1日起,将在全国开展“一盔一带”安全守护行动,其中就要求骑行摩托车、电动车需要佩戴头盔,为的就是让大家重视交通安全.某地交警部门根据某十字路口的监测数据,从穿越该路口的骑行者中随机抽查了200人,得到如图所示的列联表:(1)是否有97.5%的把握认为自觉带头盔行为与性别有关?(2)通过一定的宣传和相关处罚措施出台后,交警在一段时间内通过对某路口不带头盔的骑行者统计,得到上面的散点图和如下数据:观察散点图,发现两个变量不具有线性相关关系,现考虑用函数y ax=+对两个变量的关系进行拟合,通过分析得y与1有一定的线性相关关系,并得到以下参考数据(其中1w=):请选择合适的参考数据,求出y关于x的回归方程.参考公式:22()()()()()n ad bcKa b c d a c b d-=++++.) 2k对于一组数据()11,u v ,()22,u v ,…,(),n n u v ,其回归直线v u αβ=+的斜率和截距的最小二乘估计分别为:1221ˆni i i ni i u v nuvunu β==-=-∑∑,ˆˆv u αβ=-. 【答案】(1)没有;(2)100ˆ10yx=+. 【解析】(1)由列联表计算22200(30701090)754.68755.024120804016016K ⨯⨯-⨯===<⨯⨯⨯.故没有97.5%的把握认为骑行者自觉带头盔行为与性别有关. (2)由1w x =,则by a x =+可转化为y a bw =+,又306516y ==, 得6162216173.860.415148.34ˆ1001.49260.16810.48346i ii ii w y wybww ==--⨯⨯====-⨯-∑∑,则ˆˆ511000.4110ay bw =-=-⨯=. 故y 关于x 的回归方程为100ˆ1010010yw x=+=+ 【举一反三】1.(2021·河南周口市·高三月考)已知变量y 关于变量x 的回归方程为0.5ˆbx ye -=,其一组数据如下表所示:若9.1ˆye =,则x =( ) A .5B .6C .7D .8 【答案】B【解析】由0.5ˆbx ye -=,得n 0ˆl .5ybx =-,令ln z y =,则0.5z bx =-,由题意,12342.54x +++==,1346 3.54z +++==,因为(),x z 满足0.5z bx =-,所以3.5 2.50.5b =⨯-,解得 1.6b =, 所以 1.60.5z x =-,所以 1.60.5ˆx ye -=,令 1.60.59.1x e e -=,解得6x =.故选:B.2.(2021·全国高三专题练习)近期,济南公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次(单位:十人次),统计数据如表所示:表:根据以上数据,绘制了散点图.(1)根据散点图判断,在推广期内y a bx =+与xy c d =⋅(c ,d 均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型?(给出判断,不必说明理由); (2)根据(1)的判断结果及表中的数据,建立y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次;(3)推广期结束后,车队对乘客的支付方式进行统计,结果如下表:车队为缓解周边居民出行压力,以80万元的单价购进了一批新车,根据以往的经验可知,每辆车每个月的运营成本约为0.66万元.已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客中有16的概率享受7折优惠,有13的概率享受8折优惠,有12的概率享受9折优惠,预计该车队每辆车每个月有1万人次乘车,根据所给数据以事件发生的频率作为相应事件发生的概率,在不考虑其它因素的条件下,按照上述收费标准,假设这批车需要()*n n N ∈年才能开始盈利,求n 的值.参考数据:其中lg i i v y =,7117ii v v ==∑ 参考公式:对于一组数据(),i i u v ,()22,u v ,…,(),n n u v ,其回归直线v a u β=+的斜率和截距的最小二乘估计公式分别为:1221ni i i n i i u v nuv u nuβ==-=-∑∑,a v u β=-.【答案】(1)xy c d =⋅;(2)0.253.4710x y =⨯,347;(3)7.【解析】(1)因为散点近似在指数型函数的图象上,所以xy c d =⋅适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型:(2)∵xy c d =⋅,两边同时取常用对数得:()lg lg lg lg xy c dc xd =⋅=+;设lg y v =,∴lg lg v c x d =+,∵4x =, 1.54v =,721140i i x ==∑, ∴717221750.1274 1.547lg 0.25140716287i i i ii x v xv d x x ==--⨯⨯====-⨯-∑∑,把样本中心点()4,1.54代入lg 0.25v c x =+,得:lg 0.54c =,∴0540.25v x =+,∴lg 0.540.25y x =+,∴y 关于x 的回归方程式:0.540.250.540.250.25101010 3.4710x x x y +==⨯=⨯; 把8x =代入上式:∴0.2583.4710347y ⨯=⨯=; 活动推出第8天使用扫码支付的人次为347;(3)记一名乘客乘车支付的费用为Z ,则Z 的取值可能为:2,1.8,1.6,1.4;()20.1P Z ==;()11.80.30.152P Z ==⨯=;()11.60.60.30.73P Z ==+⨯=;()11.40.30.056P Z ==⨯= 所以,一名乘客一次乘车的平均费用为:20.1 1.80.15 1.60.7 1.40.05 1.66⨯+⨯+⨯+⨯=(元), 由题意可知:1.661120.6612800n n ⨯⨯⋅-⨯⋅->,203n >,所以,n 取7;估计这批车大概需要7年才能开始盈利. 3.(2021·全国高三专题练习)某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人.萌宠机器人语音功能让它就像孩子的小伙伴一样和孩子交流,记忆功能还可以记住宝宝的使用习惯,很快找到宝宝想听的内容.同时提供快乐儿歌、国学经典、启蒙英语等早期教育内容,且云端内容可以持续更新.萌宠机器人一投放市场就受到了很多家长欢迎.为了更好地服务广大家长,该公司研究部门从流水线上随机抽取100件萌宠机器人(以下简称产品),统计其性能指数并绘制频率分布直方图(如图1):产品的性能指数在[)50,70的适合托班幼儿使用(简称A 类产品),在[)70,90的适合小班和中班幼儿使用(简称B 类产品),在[]90,110的适合大班幼儿使用(简称C 类产品),A ,B ,C ,三类产品的销售利润分别为每件1.5,3.5,5.5(单位:元).以这100件产品的性能指数位于各区间的频率代替产品的性能指数位于该区间的概率. (1)求每件产品的平均销售利润;(2)该公司为了解年营销费用x (单位:万元)对年销售量y (单位:万件)的影响,对近5年的年营销费用i x ,和年销售量()1,2,3,4,5i y i =数据做了初步处理,得到的散点图(如图2)及一些统计量的值.表中ln i i u x =,ln i i y υ=,5115i i u u ==∑,5115i i υυ==∑.根据散点图判断,by a x =⋅可以作为年销售量y (万件)关于年营销费用x (万元)的回归方程.(i )建立y 关于x 的回归方程;(ii )用所求的回归方程估计该公司应投入多少营销费,才能使得该产品一年的收益达到最大? (收益=销售利润-营销费用,取 4.15964e =). 参考公式:对于一组数据()()()1122,,,,,,n n u u u υυυ,其回归直线u υαβ=+的斜率和截距的最小二乘估计分别为()()()121ˆnii i nii uu uuυυβ==--=-∑∑,ˆˆu αυβ=-. 【答案】(1)每件产品的平均销售利润为4元(2)(i )1464y x =(ii )该厂应投入256万元营销费. 【解析】(1)设每件产品的销售利润为ξ元,则ξ的所有可能取值为1.5,3.5,5.5, 由直方图可得,A ,B ,C 三类产品的频率分别为0.15、0.45、0.4, 所以,()1.50.15P ξ==,()3.50.45P ξ==,()5.50.4P ξ==, 所以随机变量ξ的分布列为:所以, 1.50.15 3.50.45 5.50.44E ξ=⨯+⨯+⨯=, 故每件产品的平均销售利润为4元;(2)(i )由by a x =⋅得,()ln ln ln ln by a xa b x =⋅=+,令ln u x =,ln y υ=,ln c a =,则c bu υ=+,由表中数据可得,()()()515210.41ˆ0.251.61ii i ii uu buuυυ==--===-∑∑, 则24.8716.30ˆˆ0.25 4.15955cbu υ=-=-⨯=, 所以,ˆ 4.1590.25u υ=+,即14.1594ˆln 4.1590.25ln ln y x e x ⎛⎫=+=⋅ ⎪⎝⎭, 因为 4.15964e =,所以14ˆ64y x =, 故所求的回归方程为1464y x =;(ii )设年收益为z 万元,则()14256z E y x x x ξ=⋅-=-, 设14t x =,()4256f t t t =-,则()()332564464f t t t'=-=-,当()0,4t ∈时,()0f t '>,f t 在()0,4单调递增, 当()4t ,∈+∞时,()0f t '<,ft 在()4,+∞单调递减,所以,当4t =,即256x =时,z 有最大值为768,即该厂应投入256万元营销费,能使得该产品一年的收益达到最大768万元.1.(2021·全国高三专题练习)给出下列说法:①回归直线ˆˆˆybx a =+恒过样本点的中心(,)x y ,且至少过一个样本点; ②两个变量相关性越强,则相关系数||r 就越接近1; ③将一组数据的每个数据都加一个相同的常数后,方差不变;④在回归直线方程ˆ20.5y x =-中,当解释变量x 增加一个单位时,预报变量ˆy平均减少0.5个单位. 其中说法正确的是( )A .①②④B .②③④C .①③④D .②④ 【答案】B【解析】对于①中,回归直线ˆˆˆybx a =+恒过样本点的中心(,)x y ,但不一定过一个样本点,所以不强化练习正确;对于②中,根据相关系数的意义,可得两个变量相关性越强,则相关系数||r 就越接近1,所以是正确的;对于③中,根据方差的计算公式,可得将一组数据的每个数据都加一个相同的常数后,方差是不变的,所以是正确的;对于④中,根据回归系数的含义,可得在回归直线方程ˆ20.5y x =-中,当解释变量x 增加一个单位时,预报变量ˆy平均减少0.5个单位,所以是正确的. 故选:B.2.(2021·全国高三专题练习)对两个变量x 、y 进行线性相关检验,得线性相关系数10.7859r =,对两个变量u 、v 进行线性相关检验,得线性相关系数20.9568r =-,则下列判断正确的是( ) A .变量x 与y 正相关,变量u 与v 负相关,变量x 与y 的线性相关性较强 B .变量x 与y 负相关,变量u 与v 正相关,变量x 与y 的线性相关性较强 C .变量x 与y 正相关,变量u 与v 负相关,变量u 与v的线性相关性较强D .变量x 与y 负相关,变量u 与v 正相关,变量u 与v 的线性相关性较强 【答案】C【解析】由线性相关系数10.78590r =>知x 与y 正相关, 由线性相关系数20.95680r =-<知u 与v 负相关,又12r r <,所以,变量u 与v 的线性相关性比x 与y 的线性相关性强, 故选:C.3.(2021·河南新乡市·高三一模)2020年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区2019年11月至2020年11月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码113分别对应2019年11月2020年11月)根据散点图选择y a =+ln y c d x =+两个模型进行拟合,经过数据处理得到的两个回归方程分别为0.9369y =+0.95540.0306ln y x =+,并得到以下一些统计量的值:注:x 是样本数据中x 的平均数,y 是样本数据中y 的平均数,则下列说法不一定成立的是( ) A .当月在售二手房均价y 与月份代码x 呈正相关关系B .根据0.9369y =+2021年2月在售二手房均价约为1.0509万元/平方米C .曲线0.9369y =+0.95540.0306ln y x =+的图形经过点(),x yD .0.95540.0306ln y x =+回归曲线的拟合效果好于0.9369y =+ 【答案】C【解析】对于A ,散点从左下到右上分布,所以当月在售二手房均价y 与月份代码x 呈正相关关系,故A 正确;对于B ,令16x =,由0.9369 1.0509y =+=,所以可以预测2021年2月在售二手房均价约为1.0509万元/平方米,故B 正确; 对于C ,非线性回归曲线不一定经过(),x y ,故C 错误; 对于D ,2R 越大,拟合效果越好,故D 正确.故选:C.4.(2021·全国高三专题练习)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )A .24310r r r r <<<<B .42130r r r r <<<<C .42310r r r r <<<<D .24130r r r r <<<< 【答案】A【解析】由给出的四组数据的散点图可以看出,题图1和题图3是正相关,相关系数大于0, 题图2和题图4是负相关,相关系数小于0,题图1和题图2的点相对更加集中,所以相关性更强,所以1r 接近于1,2r 接近于1-, 由此可得24310r r r r <<<<. 故选:A .5.(2021·邵阳市第二中学高三其他模拟(文))某种产品的广告费支出x 与销售额y (单位:万元)。

8.1.1变量的相关关系8_1_2 样本相关系数

8.1.1变量的相关关系8_1_2 样本相关系数

6.2.3 组合6.2.4 组合数基础过关练题组一对组合概念的理解1.从2,3,5,7,11,13,17,19这八个数中任取两个,则下列问题是组合问题的为( )A.相加,可以得到多少个不同的和B.相乘,可以得到多少个不同的积C.相减,可以得到多少个不同的差D.相除,可以得到多少个不同的商2.判断下列问题是组合问题还是排列问题.(1)若集合A={a,b,c,d},则集合A的含有3个元素的子集有多少个?(2)某铁路线上有4个车站,则这条铁路线上需准备多少种车票?(3)从7本不同的书中取出5本给某同学;(4)三个人去做5种不同的工作,每人做1种,有多少种分工方法?(5)把3本相同的书分给5个学生,每人最多得一本,有多少种分配方法?题组二 组合数公式及其性质的应用3.若C 9x -2=C 92x -1,则x=( )A.-1B.4C.-1或4D.1或54.(2020山东烟台高二下月考)已知C n+16-C n 6=C n 7,则n=( )A.14B.15C.13D.125.(多选)(2020山东德州高二下月考)下列关系中,能成立的是() A.C n m =m n C n -1m -1 B.C n m =n !(n -m )!m !C.m!=A nm C n m D.A n m +m A n m -1=A n+1m6.不等式1C x 3-1C x 4<2C x 5的解集为 .7.C 22+C 32+…+C 102= .8.(1)求值C n 5-n +C n+19-n ;(2)已知1C 5m -1C 6m =710C 7m ,求C 8m .9.证明:C n k ·C n -k m -k =C n m ·C m k .题组三 无限制条件的组合问题10.(2020辽宁阜新实验中学高二上期末)有6名男医生、5名女医生,从中选出2名男医生、1名女医生组成一个医疗小组,则不同的选法共有( )A.60种B.70种C.75种D.150种11.从进入决赛的6名选手中决出1名一等奖,2名二等奖,3名三等奖,则可能的决赛结果共有种.(用数字作答)12.(2020浙江绍兴高三上期末)已知集合A=B={0,1,2,9},f:A→B为从集合A到集合B的一个函数,那么该函数的值域的不同情况有种.13.(2020湖南长沙雅礼中学高三月考)平面内有12个点,其中有4个点共线,此外再无3点共线,以这些点为顶点,可以得到多少个不同的三角形(位置不同的三角形视为不同的三角形)?题组四有限制条件的组合问题14.(2020北京朝阳高三上期末)从3名教师和5名学生中选出4人参加“我和我的祖国”快闪活动.要求至少有一名教师入选,且入选教师人数不多于入选学生人数,则不同的选派方案的种数是( )A.20B.40C.60D.12015.(2020黑龙江哈尔滨第六中学高三上期末)某市为了提高整体教学质量,在高中率先实施了市区共建“1+2”合作体,现某市直属高中学校选定了6名教师和2名中层干部去2所共建学校交流学习,若每所共建学校需要派3名教师和1名中层干部,则共有多少种选派方法( )A.160B.80C.40D.2016.(2019山东师范大学附属中学高三模拟)正方体A1B1C1D1-ABCD中,P i(i=1,2,…,12)是棱的中点,在任意两个中点的连线中,与平面A1C1B平行的直线有( )A.36条B.21条C.12条D.6条17.(2019辽宁沈阳实验中学高二下月考)如图,机器人亮亮沿着单位网格从A地移动到B地,每次只移动一个单位长度,则亮亮从点A移动到点B最近的走法共有种.18.(2020山西省实验中学高三上质量检测)将7个大小、材质完全相同的小球分别编号为1,2,4,5,6,9,10,现从中取出3个,则它们的编号之和为奇数的取法共有种.19.蓝天救援队有男救援员8名,女救援员4名,现选派5名救援员参加一项救援.(1)若男救援员甲与女救援员乙必须参加,共有多少种不同的选法?(2)若救援员甲、乙均不能参加,共有多少种不同的选法?(3)若至少有一名男救援员和一名女救援员参加,共有多少种不同的选法?能力提升练题组一有限制条件的组合问题1.(2019河南濮阳高三模拟考试,)安排A,B,C,D,E,F共6名义工照顾甲,乙,丙三位老人,每两位义工照顾一位老人,考虑到义工与老人住址距离问题,不安排义工A照顾老人甲,且不安排义工B照顾老人乙,则不同的安排方法共有( )A.30种B.40种C.42种D.48种2.(2020湖南师范大学附属中学高三月考,)若5个人各写一张卡片(每张卡片的形状、大小均相同),现将这5张卡片放入一个不透明的箱子里,并搅拌均匀,再让这5人在箱子里各摸一张,恰有1人摸到自己写的卡片的种数为( )A.20B.90C.15D.453.(多选)(2020山东章丘四中高二上期末,)从7名男生和5名女生中选4人参加夏令营,规定男、女生至少各有1人参加,则不同的选法总数应为( )A.C71C51C102B.C73C51+C72C52+C71C53C.C124-C74-C54D.C71C51(C62+C41C61+C42)4.(2020海南华侨中学高二上期末,)现有6名学生,其中3人只会唱歌,2人只会跳舞,剩下1人既会唱歌又会跳舞,选出2人唱歌,2人跳舞,共有种不同的选法.(请用数学作答)5.(2020云南师大附中高三下适应性考试,)作家马伯庸小说《长安十二时辰》中,靖安司通过长安城内的望楼传递信息.同名改编电视剧中,望楼传递信息的一种方式如下:如图所示,在九宫格中,每个小方格可以在白色和紫色(此处以阴影代表紫色)之间变换,从而一共可以有512种不同的颜色组合,即代表512种不同的信息.现要求每一行,每一列上至多有一个紫色小方格(如图所示即满足要求).则一共可以传递种信息.(用数字作答)6.(2020辽宁本溪高级中学高二下线上月考,)一个口袋内有4个不同的红球,6个不同的白球.(1)从中任取4个球,红球的个数不比白球少的取法有多少种?(2)若取一个红球记2分,取一个白球记1分,从中任取5个球,使总分不少于7分的取法有多少种?题组二排列与组合的综合问题7.(2019山东济南外国语中学高二上期末,)从0,1,2,3,4,5这六个数字中任取两个奇数和两个偶数,组成没有重复数字的四位数的个数为( )A.300B.216C.180D.1628.(2020山东师范大学附属中学高三期末,)甲、乙、丙3人站到共有6级的台阶上,若每级台阶最多站2人,同一级台阶上的人不区分站的位置,则不同的站法总数是( )A.90B.120C.210D.2169.(2020辽宁盘锦辽河油田第一高级中学高二下月考,)如果一个四位数的各位数字互不相同,且各位数字之和等于10,则称此四位数为“完美四位数”(如1 036),则由数字0,1,2,3,4,5,6,7构成的“完美四位数”中,奇数的个数为( )A.12B.44C.58D.7610.(2020江西抚州第一中学高二下月考,)如图,一个地区分为5个区域,现给地图着色,要求相邻区域不得使用同一颜色.现有4种颜色可供选择,则不同的着色方法共有种.11.(2020山西高三线上模拟考试,)某部门共有4名员工,某次活动期间,周六、周日的上午、下午各需要安排一名员工值班,若规定同一天的两个值班岗位不能安排给同一名员工,则该活动值班岗位的不同安排方式有多少种?答案全解全析6.2.3 组合6.2.4 组合数基础过关练1.B 判断一个问题是不是组合问题,关键是看该问题是否与顺序有关,由于减法与除法不满足交换律,取出的两个数就与顺序有关,因此不是组合问题,故C、D不是组合问题;加法与乘法满足交换律,与取出的两个数的顺序无关,但是由于给出的8个数中,5+11=3+13、11+19=13+17等,故相加,可以得到多少个不同的和这个问题不是纯粹的组合问题,只有相乘,可以得到多少个不同的积这个问题是组合问题,故选B.2.解析(1)因为集合A的任一个含3个元素的子集与元素顺序都无关,所以它是组合问题.(2)因为车票与起点、终点顺序有关,例如“甲→乙”与“乙→甲”的车票不同,所以它是排列问题.(3)因为从7本不同的书中取出5本给某同学,取出的5本书并不考虑书的顺序,所以它是组合问题.(4)因为从5种不同的工作中选出3种,按一定顺序分给三个人去做,所以它是排列问题.(5)因为3本书是相同的,把3本书无论分给哪三个人都不需要考虑顺序,所以它是组合问题.3.B ∵C 9x -2=C 92x -1,∴x -2=2x-1或x-2+2x-1=9, 解得x=-1或x=4.经检验,只有x=4符合题意,∴x 的值是4. 故选B.4.D 由题知,C n 6+C n 7=C n+16,由组合数的性质知,C n 6+C n 7=C n+17, 所以C n+16=C n+17,所以6+7=n+1,得n=12.故选D. 5.BCD 对于A,令n=3,m=1,可得等式C 31=13C 20不成立,故A 错误;对于B,由组合数的计算公式知C n m=n !(n -m )!m !,故B 正确; 对于C,由排列数与组合数的定义知A n m C nm =n !(n -m )!×m !(n -m )!n !=m!,故C 正确; 对于D,A n m +m A n m -1=n !(n -m )!+m ·n !(n -m+1)!=(n+1)!(n -m+1)!=A n+1m ,故D 正确.故选BCD.6.答案 {5,6,7,8,9,10,11} 解析 将原不等式化简得6x (x -1)(x -2)-24x (x -1)(x -2)(x -3)<240x (x -1)(x -2)(x -3)(x -4),易知x≥5,整理得x 2-11x-12<0,∴5≤x<12.又∵x∈N *,∴原不等式的解集为{5,6,7,8,9,10,11}. 7.答案 165解析 由组合数的性质可得,C 22+C 32+…+C 102=C 33+C 32+…+C 102=C 43+C 42+…+C 102=C 113=11×10×93×2×1=165.8.解析 (1)由题意得,{5-n ≤n ,5-n ≥0,9-n ≤n +1,9-n ≥0,解得4≤n≤5,∵n∈N *,∴n=4或n=5.当n=4时,原式=C 41+C 55=5;当n=5时,原式=C 50+C 64=16.(2)由题意可知m 的取值范围为{m|0≤m≤5,m∈N}, 由已知得,m !(5-m )!5!-m !(6-m )!6!=7m !(7-m )!10×7!,即10m=(7-m)(6-m),整理得m 2-23m+42=0,解得m=21(舍去)或m=2,∴C 8m =C 82=28. 9.证明 C n k ·C n -k m -k =n !k !(n -k )!·(n -k )!(m -k )!(n -m )!=n !k !(m -k )!(n -m )!,C n m ·C m k =n !m !(n -m )!·m !k !(m -k )!=n !k !(n -m )!(m -k )!,所以C n k ·C n -k m -k =C n m ·C m k .10.C 从6名男医生中选出2名男医生有C 62种选法,从5名女医生中选出1名女医生有C 51种选法,所以不同的选法有C 62C 51=15×5=75种,故选C. 11.答案 60解析 分三步:第一步,一等奖有C 61种可能的结果;第二步,二等奖有C 52种可能的结果;第三步,三等奖有C 33种可能的结果,故共有C 61C 52C 33=60种可能的结果.12.答案15解析因为f:A→B为从集合A到集合B的一个函数,所以该函数的值域可能包含1个,或2个,或3个,或4个元素,因此值域的不同情况有C41+C42+C43+C44=15种.13.解析第一类:从共线的4个点中选取2个点,另外8个点中选1个点作为三角形的顶点,共有C42C81=48个不同的三角形;第二类:从共线的4个点中选取1个点,另外8个点中选2个点作为三角形的顶点,共有C41C82=112个不同的三角形;第三类:共线的4个点不选,仅从另外8个点中选3个点作为三角形的顶点,共有C83=56个不同的三角形.由分类加法计数原理,知不同的三角形共有48+112+56=216个. 14.C 由题意可分成两类:(1)1名教师和3名学生,共C31C53=30种方案;(2)2名教师和2名学生,共C32C52=30种方案.故不同的选派方案的种数是30+30=60.故选C.15.C 先派3名教师和1名中层干部去其中一所学校,有C63C21种选派方法,剩余的3名教师和1名中层干部直接去另一所学校,只有1种方法,所以共有C63C21=40种选派方法.故选C.16.B ∵与平面A1C1B平行的平面有平面P1P4P8,平面P10P11P6,平面P9P5P2P3P7P12,∴从这3个平面上任取两个棱的中点的连线均与平面A1C1B平行,∴共有C32+C32+C62=21条直线与平面A1C1B平行.故选B.17.答案80解析分三步:①从A到C,亮亮要移动两步,一步是向右移动一个单位,一步是向上移动一个单位,此时有C21种走法;②从C到D,亮亮要移动六步,其中三步是向右移动,三步是向上移动,此时有C63种走法;③从D到B,由①可知有C21种走法.由分步乘法计数原理可知,共有C21C63C21=80种不同的走法.故答案为80.18.答案19解析由题知,7个小球中编号为奇数的小球有3个,编号为偶数的小球有4个,所以取出的3个小球的编号之和为奇数有以下两类:第一类,3个小球的编号中有1个为奇数,2个为偶数,对应的不同取法共有C31C42=3×6=18种;第二类,3个小球的编号中有3个为奇数,0个为偶数,对应的不同取法共有C33C40=1×1=1种.根据分类加法计数原理,三个小球的编号之和为奇数的取法共有18+1=19种.19.解析(1)共有12名救援员,若甲、乙必须参加,则再从剩下的10名中选3名即可,有C103=120种不同的选法.(2)若甲、乙两人均不能参加,则从剩下的10名中选5名即可,有C105=252种不同的选法.(3)由总的选法数减去5名都是男救援员的选法数,得到的就是至少有一名男救援员和一名女救援员参加的选法数,即有C125-C85=736种不同的选法.能力提升练1.C 6名义工照顾三位老人,每两位义工照顾一位老人,共有C62C42=90种安排方法,其中义工A照顾老人甲的安排方法有C51C42=30种,义工B照顾老人乙的安排方法有C51C42=30种,义工A照顾老人甲,同时义工B照顾老人乙的安排方法有C41C31=12种, 所以符合题意的不同的安排方法有90-30-30+12=42种.故选C.2.D 根据题意,分2步:第一步,先从5个人里选1人恰好摸到自己写的卡片,有C51种选法,第二步,对于剩余的4人,因为每个人都不能选自己写的卡片,所以第一个人有3种选法,卡片被选走的那个人也有3种选法,剩下的2人选法唯一,所以不同的选法有C51×C31×C31=45种.故选D.3.BC (1)分三类:3男1女,2男2女,1男3女,所以男、女生至少各有1人参加的选法总数为C73C51+C72C52+C71C53.(2)任选4人的方法数为C124,减去其中全部为男生或全部为女生的方法数C74+C54,故不同的选法总数应为C124-C74-C54.经检验,A,D不正确,故选BC.4.答案12解析根据题意,分三种情况:(1)既会唱歌又会跳舞的人未选中,有C32C22种选法;(2)选中既会唱歌又会跳舞的人唱歌,有C31C22种选法;(3)选中既会唱歌又会跳舞的人跳舞,有C32C21种选法.故选法总数为C32C22+C31C22+C32C21=12.5.答案34解析显然,紫色小方格最多有3个.分类讨论:(1)若无紫色小方格,则只有1种结果;(2)若有且只有1个紫色小方格,则有C91=9种结果;(3)若有且只有2个紫色小方格,先选出有紫色小方格的那两行,有C32=3种选法,这两行的排法有C31C21=6种,此种情况下共有18种结果;(4)若有且只有3个紫色小方格,则有C31C21C11=6种结果.综上,一共有34种结果,即一共可以传递34种信息.6.解析(1)从中任取4个球,红球的个数不比白球少的取法可分为三类:红球4个,红球3个和白球1个,红球2个和白球2个.若取出的为4个红球,则取法有1种;若取出的为3个红球和1个白球,则取法有C43×C61=24种;若取出的为2个红球和2个白球,则取法有C42×C62=90种.根据分类加法计数原理,红球的个数不比白球少的取法有1+24+90=115种.(2)使总分不少于7分有三种情况,4个红球和1个白球,3个红球和2个白球,2个红球和3个白球.若取出的为4个红球和1个白球,则取法有C44C61=6种;若取出的为3个红球和2个白球,则取法有C43×C62=60种;若取出的为2个红球和3个白球,则取法有C42×C63=120种.根据分类加法计数原理,总分不少于7分的取法有6+60+120=186种.7.C 根据题意,分两类:当偶数取2,4时,组成的四位数有C32A44=72个;当偶数取0,2或0,4时,考虑首位,只有三个数可排,故组成的四位数有2C32A33C31=108个.因此共有72+108=180个没有重复数字的四位数.故选C.8.C 因为甲、乙、丙3人站到共有6级的台阶上,且每级台阶最多站2人,所以可分为两类:第一类,甲、乙、丙各自站在一级台阶上,共有C63A33=120种站法;第二类,有2人站在同一级台阶上,剩余1人独自站在一级台阶上,共有C32C62A22=90种站法.所以不同的站法总数是120+90=210.故选C.9.B 分情况讨论:(1)个位数字为1,则前三位的数字可能为027,036,045,此时构成的“完美四位数”为奇数的个数为C21×A22×3=12,前三位的数字还可能为234,此时构成的“完美四位数”为奇数的个数为A33=6;(2)个位数字为3,则前三位的数字可能为016,025,此时构成的“完美四位数”为奇数的个数为C21×A22×2=8,前三位的数字还可能为124,此时构成的“完美四位数”为奇数的个数为A33=6;(3)个位数字为5,则前三位的数字可能为014,023,此时构成的“完美四位数”为奇数的个数为C21×A22×2=8;(4)个位数字为7,则前三位的数字可能为012,此时构成的“完美四位数”为奇数的个数为C21×A22=4.综上所述,由数字0,1,2,3,4,5,6,7构成的“完美四位数”中,奇数共有12+6+8+6+8+4=44个.故选B.10.答案72解析由题意,选用3种颜色时,必须是②④同色,③⑤同色,与①进行全排列,涂色方法有C43A33=24种;4种颜色全选时,②④同色或③⑤同色,涂色方法有C21A44=48种,所以共24+48=72种不同的涂色方法.11.解析由题意可知,4个值班岗位有三类不同的排法:第一类:4个员工各排1个岗位,排法有A44=24种;第二类:1个员工被安排2个值班岗位,另2个员工各安排1个值班岗位,还有1个员工没有安排值班.排2个岗位的员工人选有C41种,且必然是周六一个岗位,周日一个岗位,故排法有C41C21C21种,其余两个岗位排法有A32种,所以排法有C41C21C21A32=96种;第三类:2个员工各安排2个值班岗位,4人中被安排值班岗位的人选有C42=6种,周六、周日的安排各有C21种可能,故此类排法有C42C21C21=24种.综上,该活动值班岗位的不同安排方式有24+96+24=144种.。

备战高考数学复习考点知识与题型讲解85---变量间的相关关系及回归模型

备战高考数学复习考点知识与题型讲解85---变量间的相关关系及回归模型

备战高考数学复习考点知识与题型讲解第85讲变量间的相关关系及回归模型考向预测核心素养两个变量线性相关的判断及应用,经验回归方程的求法及应用是高考考查的热点,各种题型均会出现.数据分析、数学运算一、知识梳理1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)散点图每一个成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们把这样的统计图叫做散点图.(3)相关关系的分类:正相关和负相关.(4)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关.2.样本相关系数(1)r=∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2∑ni=1(y i-x)2.(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型参数的最小二乘估计(1)我们将y^=b^x+a^称为Y关于x的经验回归方程,其中⎩⎪⎨⎪⎧b ^=∑ni =1(x i-x )(y i-y )∑ni =1(x i-x )2,a ^=y -b ^x .(2)残差分析①对于响应变量Y ,通过观测得到的数据称为观测值,通过经验回归方程得到的y ^称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.②残差的散点图比较均匀地集中在以横轴为对称轴的水平带状区域内,则满足一元线性回归模型对随机误差的假设.在R 2表达式中,∑i =1 n (y i -y )2与经验回归方程无关,残差平方和∑i =1n(y i -y ^i )2与经验回归方程有关.因此R 2越大,意味着残差平方和越小,即模型的拟合效果越好;R 2越小,表示残差平方和越大,即模型的拟合效果越差.[提醒](1)经验回归直线过样本的中点(x ,y ).(2)回归分析和独立性检验都是基于成对样本观测数据进行估计或推断 ,得出的结论都可能犯错误.二、教材衍化1.(人A 选择性必修第三册P 103习题8.1T 1改编)下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )解析:选D.观察题图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系,故选D.2.(人A选择性必修第三册P138复习T1改编)已知变量x与y正相关,且由观测数据算得样本平均数x-=3,y-=3.5,则由该观测数据算得的经验回归方程可能是( )A.y^=0.4x+2.3B.y^=2x-2.4C.y^=-2x+9.5D.y^=-0.3x+4.4解析:选A.由题意,x与y正相关,故排除C,D,将(x-,y-)代入经验回归方程检验得A正确.3.(人A选择性必修第三册P120习题8.2T2(2)改编)已知x,y的对应取值如下表,可得到经验回归方程为y^=0.95x+a^,则a^=( )x 013 4y 2.2 4.3 4.8 6.7A.3.25B.2.6C.2.2D.0解析:选B.经验回归直线过点(2,4.5),所以4.5=0.95×2+a^,所以a^=2.6.4.(人A选择性必修第三册P120习题8.2T2(2)改编)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得经验回归方程y^=0.67x+54.9.零件数x/个1020304050加工时间y/min62758189 现发现表中有一个数据看不清,请你推断出该数据的值为________.解析:由x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,所以a=68.答案:68一、思考辨析判断正误(正确的打“√”,错误的打“×”)(1)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系来表示.( )(2)经验回归直线y^=b^x+a^至少经过点(x1,y1),(x2,y2),…,(x n,y n)中的一个点.( )(3)任何一组数据都对应着一个经验回归方程.( )答案:(1)√(2)×(3)×二、易错纠偏1.(回归模型意义不明致误)一位母亲记录了自己儿子3~9岁的身高数据(略),由此建立的身高与年龄的一元线性回归模型为y^=7.19x+73.93,用这个模型预报这个孩子10岁时的身高,则正确的叙述是( )A.身高一定是145.83 cmB.身高在145.83 cm以上C.身高在145.83 cm左右D.身高在145.83 cm以下解析:选C.由一元线性回归模型可得y^=7.19×10+73.93=145.83,所以预报这个孩子10岁时的身高在145.83 cm左右.2.(忽视经验回归直线过样本点中心致误)已知变量x和y的统计数据如下表:x 34567y 2.534 4.5 6根据上表可得经验回归方程为y^=b^x-0.25,据此可以预测当x=8时,y^=( ) A.6.4 B.6.25C.6.55D.6.45解析:选 C.由题中图表可知,x-=5,y-=4,因为经验回归方程经过样本的中心(x-,y-),则4=5b^-0.25,得b^=0.85,则经验回归方程为y^=0.85x-0.25,再将x=8代入方程,得y^=6.55.3.(决定系数的意义及应用不清致误)x和y的散点图如图所示,在相关关系中,若用y=c1e c2x拟合时的决定系数为R21,用y^=b^x+a^拟合时的决定系数为R22,则R21,R22中较大的是________.解析:由题图知,用y=c1e c2x拟合的效果比y^=b^x+a^拟合的效果要好,所以R21>R22,故较大者为R21.答案:R21考点一成对数据的相关性判断(自主练透)复习指导:通过收集现实问题中的成对数据作出散点图,并利用散点图直观认识变量间的相关关系.1.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(u,v i)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判i断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C.由题图可得两组数据均线性相关,且图①的经验回归方程斜率为负,图②的经验回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析:选A.由题图知图①与图③是正相关,故r1>0,r3>0,图②与图④是负相关,故r2<0,r4<0,且图①与图②的样本点集中在一条直线附近,因此r2<r4<0<r3<r1,故选A.3.某公司在2020年上半年的月收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:月份1月份2月份3月份4月份5月份6月份收入x 12.314.515.017.019.820.6支出y 5.63 5.75 5.82 5.89 6.11 6.18 根据统计资料,则( )A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系解析:选C.月收入的中位数是15+172=16,收入增加,支出增加,故x 与y 有正线性相关关系.判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:当r >0时,正相关;当r <0时,负相关;|r |越接近于1,相关性越强.(3)经验回归方程:当b ^>0时,正相关;当b ^<0时,负相关.考点二 一元线性回归模型(多维探究)复习指导:经历用不同估算方法描述两个变量线性相关的过程,知道最小二乘法的思想,能根据给出的一元线性回归模型系数公式建立经验回归方程,并进一步了解回归的基本思想、方法及初步应用.角度1 经验回归方程(2022·贵州凯里第一中学高二期中)某市2017至2021年农村居民家庭人均纯收入y (单位:千元)的数据如下表:年份 2017 2018 2019 2020 2021 年份代号t12 3 4 5 人均纯收入y 3.13.53.94.64.9从表可以看出,人均纯收入y 与年份代号t 线性相关,已知i =15t i y i =64.70.(1)求y 关于t 的经验回归方程y ^=b ^t +a ^;(2)预测2025年的人均纯收入为多少.(附:参考公式:【解】 (1)由题中表格知,n =5,t -=15(1+2+3+4+5)=3,y -=15(3.1+3.5+3.9+4.6+4.9)=4,i =15t 2i =12+22+32+42+52=55,则b ^==64.7-5×3×455-5×32=0.47,a ^=y --b ^t -=4-0.47×3=2.59,故经验回归方程为y ^=0.47t +2.59.(2)当年份为2025年时,对应的年份代码t =9, 所以y ^=0.47×9+2.59=6.82, 故2025年的人均纯收入约为6.82千元. 角度2 相关系数足球是世界普及率最高的运动,我国大力发展校园足球.为了解本地区足球特色学校的发展状况,社会调查小组得到如下统计数据:年份x 2016 2017 2018 2019 2020 足球特色学校y (百个)0.30 0.60 1.00 1.40 1.70根据上表数据,计算y 与x 的相关系数r ,并说明y 与x 的线性相关程度. (已知:0.75≤|r |≤1,则认为y 与x 线性相关程度很强;0.3≤|r |<0.75,则认为y 与x 线性相关程度一般;|r |≤0.25,则认为y 与x 线性相关程度较弱.参考公式和数据:r =∑ni =1(x i -x )(y i -y )∑ni =1(x i -x )2∑ni =1(y i -y )2,∑ni =1(x i -x )2=10,∑ni =1(y i -y )2=1.3,13≈3.605 6)【解】 由题得x =2 018,y =1,所以r=∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2∑ni=1(y i-y)2=3.610 × 1.3=3.63.605 6≈0.998>0.75,所以y与x的线性相关程度很强.一元线性回归模型应用要点(1)建立经验回归方程的步骤①计算出x,y,x21+x22+…+x2n,x1y1+x2y2+…+x n y n的值;②利用公式计算参数a^,b^;③写出经验回归方程y^=b^x+a^.(2)经验回归方程的拟合效果,可以利用相关系数判断,当|r|越接近于1时,两变量的线性相关程度越强.|跟踪训练|某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售量y(单位:万件)之间的关系如下表:x 123 4y 12284256(1)在图中画出表中数据的散点图;(2)根据散点图选择合适的回归模型拟合y与x的关系(不必说明理由);(3)建立y 关于x 的经验回归方程,预测第5年的销售量.参考公式:经验回归方程y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=∑ni =1 (x i -x )(y i -y )∑ni =1 (x i -x )2=∑ni =1x i y i -nx y ∑n i =1x 2i -n x 2,a ^=y -b ^x . 解:(1)作出的散点图如图:(2)根据散点图观察,可以用一元线性回归模型拟合y 与x 的关系. (3)观察(1)中散点图可知各点大致分布在一条直线附近,列出表格:i x i y i x 2i x i y i 1 1 12 1 12 2 2 28 4 56 3 3 42 9 126 4 4 56 16 224 ∑1013830418可得x =52,y =692,所以b ^=∑4i =1x i y i -4x y ∑4i =1x 2i -4x 2=418-4×52×69230-4×⎝ ⎛⎭⎪⎫522=735,a ^=y -b ^x =692-735×52=-2.故经验回归方程为y ^=735x -2.当x =5时,y ^=735×5-2=71.故预测第5年的销售量大约为71万件.考点三 非线性回归模型(综合研析)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到如图所示的散点图及一些统计量的值.x y w∑8i =1(x i -x )2∑8i =1(w i -w )2∑8i =1(x i -x )·(y i -y )∑8i =1(w i -w )·(y i -y ) 46.6 563 6.8 289.81.61469108.8表中w i =x i ,w =18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①当年宣传费x =49千元时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v^=a^+b^u的斜率和截距的最小二乘估计分别为:b^=∑ni=1(u i-u)(v i-v)∑ni=1(u i-u)2,a^=v-b^u.【解】(1)由散点图可以判断y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的经验回归方程,由d^=∑8i=1(w i-w)·(y i-y)∑8i=1(w i-w)2=108.81.6=68.得c^=y-d^w=563-68×6.8=100.6.所以y关于w的经验回归方程为y^=100.6+68w,因此y关于x的非线性经验回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x +20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.非线性回归分析问题求解策略有些非线性回归分析问题并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:|跟踪训练|中国是茶的故乡,也是茶文化的发源地.中国茶的发现和利用已有四千七百多年的历史,且长盛不衰,传遍全球.为了弘扬中国茶文化,某酒店推出特色茶食品“排骨茶”,为了解每壶“排骨茶”中所放茶叶量x(单位:克)与食客的满意率y的关系,通过调查研究发现可选择函数模型y=1100e kx+c来拟合y与x的关系,根据以下数据:茶叶量x/克1234 5ln(100y) 4.34 4.36 4.44 4.45 4.51 可求得y关于x的回归方程为( )A.y^=1100e0.043x+4.291B.y^=1100e0.043x-4.291C.y^=e0.043x+4.291D.y^=e0.043x-4.291解析:选 A.由表中数据可知x-=1+2+3+4+55=3,4.34+4.36+4.44+4.45+4.515=4.42.对于A,y^=1100e0.043x+4.291化简变形可得100y^=e0.043x+4.291,两边同时取对数可得ln(100y^)=0.043x+4.291,将x-=3代入可得ln(100y^)=0.043×3+4.291=4.42,与题中数据吻合,故选项A正确;对于B,y^=1100e0.043x-4.291化简变形可得100y^=e0.043x-4.291,两边同时取对数可得ln(100y^)=0.043x-4.291,将x-=3代入可得ln(100y^)=0.043×3-4.291=-4.162≠4.42,所以选项B错误;对于C,y^=e0.043x+4.291,两边同时取对数可得ln y^= 0.043x+4.291,而表中所给数据为ln(100y^)的相关量,所以C错误;对于D,y^=e0.043x-4.291,两边同时取对数可知ln y^=0.043x-4.291,而表中所给数据为ln(100y^)的相关量,所以D错误;故选A.[A 基础达标]1.对两个变量x,y进行线性回归分析,计算得到相关系数r=-0.996 2,则下列说法中正确的是( )A.x与y正相关B.x与y具有较强的线性相关关系C.x与y几乎不具有线性相关关系D.x与y的线性相关关系还需进一步确定解析:选B.因为相关系数r=-0.996 2,所以x与y负相关,因为|r|=0.996 2,非常接近1,所以相关性很强,故选B.2.(2022·四川省彭山一中高三入学考试)下列命题错误的是( )A.线性相关系数r越大,两个变量的线性相关性越强;反之,线性相关性越弱B.抛掷均匀硬币一次,出现正面的次数是随机变量C.将一组数据中的每个数据都乘以同一个非零常数a后,标准差也变为原来的a倍D.若回归直线的斜率估计值为0.25,x=2,y=3,则回归直线的方程为y=0.25x+2.5解析:选A.对于A,线性相关系数|r|越接近于1,则相关性越强,所以A错误;对于B,抛掷均匀硬币一次,出现正面的次数是随机变量,所以B正确;对于C,由标准差的定义可知将一组数据中的每个数据都乘以同一个非零常数a后,标准差也变为原来的a倍,所以C正确;对于D,因为回归直线的斜率估计值为0.25,x=2,y=3,所以b^=0.25,a^=y-b^x=3-2×0.25=2.5,则回归直线的方程为y=0.25x+2.5,所以D 正确.3.(多选)(2022·重庆巴蜀中学高三月考)为了建立茶水温度y随时间x变化的函数模型,小明每隔1分钟测量一次茶水温度,得到若干组数据(x1,y1),(x2,y2),…,(x n,y),绘制了如图所示的散点图.小明选择了如下2个函数模型来拟合茶水温度y随时间nx的变化情况,函数模型一:y=kx+b(k<0,x≥0);函数模型二:y=ka x+b(k>0,0<a<1,x≥0),下列说法正确的是( )A.变量y与x具有负的相关关系B.由于水温开始降得快,后面降得慢,最后趋于平缓,因此模型二能更好的拟合茶水温度随时间的变化情况C.若选择函数模型二,利用最小二乘法求得y=ka x+b的图象一定经过点(x-,y-)D.当x=5时,通过函数模型二计算得y=65.1,用温度计测得实际茶水温度为65.2,则残差为0.1解析:选ABD.观察散点图,变量x与y具有负的相关关系,A正确;由于函数模型二中的函数y=ka x+b(k>0,0<a<1,x≥0),在x≥0时,函数单调递减,可得B正确;若选择函数模型二,利用最小二乘法求出的回归方程一定经过(a x,y),C错误;由于残差=真实值-预测值,因此残差为65.2-65.1=0.1,故D正确.4.经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的经验回归方程:y^=0.245x+0.321,可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:x变为x+1,y^=0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2455.(2022·合肥检测)某公司一种型号的产品近期销售情况如下表:根据上表可得到经验回归方程y^=0.75x+a^,据此估计,该公司7月份这种型号产品的销售额为________万元.解析:由题意,x=2+3+4+5+65=4,y=15.1+16.3+17.0+17.2+18.45=16.8,经验回归直线y^=0.75x+a^过(x,y),可得a^=13.8,当x=7时,可得y^=0.75×7+13.8=19.05.答案:19.056.(2020·高考全国卷Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i,yi)(i=1,2,…,20),其中x i和y i分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑20i =1x i =60,∑20i =1y i =1 200,∑20i =1(x i -x )2=80,∑20i =1(y i -y )2=9 000,∑20i =1(x i -x )(y i -y )=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑ni =1(x i -x )(y i -y )∑ni =1 (x i -x )2∑ni =1(y i -y )2,2≈1.414.解:(1)由已知得样本平均数y =120∑20i =1y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑20i =1(x i -x )(y i -y )∑20i =1 (x i -x )2∑20i =1(y i -y )2=80080×9 000=223≈0.94.(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.7.某品牌手机厂商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间(x 个月)和市场占有率(y %)的几组相关对应数据:(1)根据上表中的数据,用最小二乘法求出y 关于x 的经验回归方程;(2)根据上述经验回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经过多少个月,该款旗舰机型市场占有率能超过0.5%(精准到月).解:(1)根据表中数据,计算x -=15×(1+2+3+4+5)=3,y -=15×(0.02+0.05+0.1+0.15+0.18)=0.1,所以b ^=1×0.02+2×0.05+3×0.1+4×0.15+5×0.18-5×3×0.112+22+32+42+52-5×32=0.042,所以a ^=0.1-0.042×3=-0.026, 所以经验回归方程为y ^=0.042x -0.026.(2)由上面的经验回归方程可知,上市时间与市场占有率正相关, 即上市时间每增加1个月,市场占有率都增加0.042个百分点; 由y ^=0.042x -0.026>0.5, 解得x ≥13;预计上市13个月时,该款旗舰机型市场占有率能超过0.5%.[B 综合应用]8.(2022·河南省湘豫名校联盟高三联考)如下表,根据变量x 与y 之间的对应数据可求出y ^=-0.32x +b .其中y -=8.现从这5个样本点对应的残差中任取一个值,则残差不大于0的概率为( )A.15B.25C.35D.45解析:选C.由表中的数据可知,x =10+15+20+25+305=20,设y 的最后一个数据为n ,则y =11+10+8+6+n5=8,所以n =5,将x ,y 代入y ^=-0.32x +b 得b =14.4, 这5个样本点对应的残差分别为:y 1-y ^1=11-(-0.32×10+14.4)=-0.2, y 2-y ^2=10-(-0.32×15+14.4)=0.4, y 3-y ^3=8-(-0.32×20+14.4)=0, y 4-y ^4=6-(-0.32×25+14.4)=-0.4, y 5-y ^5=5-(-0.32×30+14.4)=0.2, 所以残差不大于0的概率为35.9.(多选)(2022·石家庄市藁城新冀明中学阶段性测试)某市对2016年至2020年这五年间全市烧烤店盈利店铺的个数进行了统计,具体统计数据如下表所示:根据所给数据,得出y 关于t 的经验回归方程为y ^=b ^t +273,则下列说法正确的是( )A .该市2016年至2020年全市烧烤店盈利店铺个数的平均数y =219B .y 关于t 的经验回归方程为y ^=-18t +273 C .估计该市2022年烧烤店盈利店铺的个数为147D .预测从2027年起,该市烧烤店盈利店铺的个数将不超过100解析:选ABC.由已知数据得t -=3,y -=219,故A 正确;因为y 关于t 的经验回归直线过点(3,219),所以219=3b ^+273,所以b ^=-18,所以y 关于t 的经验回归方程为y ^=-18t +273.故B 正确;2022年的年份代码为7,故2022年该市烧烤店盈利店铺的个数约为y ^=-18×7+273=147.故C 正确;令-18t +273≤100,由t ∈N *,得t ≥10,故从2025年起,该市烧烤店盈利店铺的个数将不超过100.故D 不正确,故选ABC.[C 素养提升]10.(2022·江苏省南通市高三教学质量监测)紫甘薯对环境温度要求较高,根据以往的经验,随着温度的升高,其死亡株数呈增长的趋势.下表给出了2019年种植的一批试验紫甘薯在温度升高时6组死亡的株数.经计算,x =16∑i =16 x i =26,y =16∑i =16y i =33,∑i =16 (x i -x )·(y i -y )=557,∑i =16(x i -x )2=84,∑i =16 (y i -y )2=3 930,∑i =16(y i -y ^i )2=236.64,e 8.060 5≈3 167,其中x i ,y i 分别为试验数据中的温度和死亡株数,i =1,2,3,4,5,6.(1)若用一元线性回归模型,求y 关于x 的经验回归方程y ^=b ^x +a ^(结果精确到0.1);(2)若用非线性回归模型求得y 关于x 的非线性经验回归方程y ^=0.06e 0.230 3x ,且决定系数为R 2=0.884 1.①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好;②用拟合效果好的模型预测温度为35 ℃时该批紫甘薯的死亡株数(结果取整数).解:(1)由题意,得b^=∑i=16(x i-x-)(y i-y-)∑i=16(x i-x-)2=55784≈6.6,所以a^=33-6.6×26=-138.6,所以y关于x的经验回归方程为y^=6.6x-138.6. (2)①经验回归方程y^=6.6x-138.6对应的决定系数为R2=1-∑i=16(y i-y^i)∑i=16(y i-y-)2=1-236.643 930≈0.939 8,因为0.939 8>0.884 1,所以经验回归方程y^=6.6x-138.6比非线性经验回归方程y^=0.06e0.230 3x的拟合效果更好.②当x=35时,y=6.6×35-138.6=92.4≈92,即当温度为35 ℃时,该批紫甘薯的死亡株数为92.21 / 21。

2.3.1 变量之间的相关关系 2.3.2 两个变量的线性相关

2.3.1  变量之间的相关关系 2.3.2 两个变量的线性相关

2.3变量间的相关关系2.3.1变量之间的相关关系2.3.2两个变量的线性相关1.理解两个变量的相关关系的概念.(难点)2.会作散点图,并利用散点图判断两个变量之间是否具有相关关系.(重点) 3.会求回归直线方程.(重点)4.相关关系与函数关系.(易混点)[基础·初探]教材整理1变量之间的相关关系阅读教材P84~P86的内容,完成下列问题.1.相关关系:不像匀速直线运动中时间与路程的关系那样是完全确定的,而是带有不确定性.2.散点图:将样本中几个数据点(x i,y i)(i=1,2,…,n)描在平面直角坐标系中得到的图形.3.正相关与负相关:散点图中的点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,称它为正相关.若散点图中的点分布在从左上角到右下角的区域内,对于两个变量的这种相关关系,称它为负相关.4.相关关系与函数关系的辨析相关关系与函数关系均是指两个变量间的关系,它们的不同点如下: (1)函数关系是一种确定的关系;相关关系是一种非确定的关系,即不能用一个函数关系式来严格地表示变量之间的关系.(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.例如,有人发现,对于在校儿童,脚的大小与阅读能力有很强的相关关系,然而学会更多的新词并不能使脚变大,而是涉及第三个因素——年龄,当儿童长大一些以后,他们的阅读能力会提高,而且脚也会变大.如图2-3-1所示的两个变量不具有相关关系的有________.图2-3-1【解析】 ①是确定的函数关系;②中的点大都分布在一条曲线周围;③中的点大都分布在一条直线周围;④中点的分布没有任何规律可言,x ,y 不具有相关关系.【答案】 ①④教材整理2 回归直线方程阅读教材P 87~P 89的内容,完成下列问题.1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程. 3.最小二乘法:求回归直线时,使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.4.求回归方程:若两个具有线性相关关系的变量的一组数据为:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则所求的回归方程为y ^=b ^x +a ^,其中a ^,b ^为待定的参数,由最小二乘法得:⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2=∑i =1nx i y i-n x -y -∑i =1nx 2i-n x -2,a ^=y -b^x .b ^是回归直线斜率,a ^是回归直线在y 轴上的截距.1.判断(正确的打“√”,错误的打“×”)(1)回归方程中,由x 的值得出的y 值是准确值.( ) (2)回归方程一定过样本点的中心.( ) (3)回归方程一定过样本中的某一个点.( )(4)选取一组数据中的部分点得到的回归方程与由整组数据得到的回归方程是同一个方程.( )【答案】 (1)× (2)√ (3)× (4) ×2.过(3,10),(7,20),(11,24)三点的回归直线方程是( ) A.y ^=1.75+5.75x B.y ^=-1.75+5.75x C.y ^=5.75+1.75xD.y ^=5.75-1.75x【解析】 求过三点的回归直线方程,目的在于训练求解回归系数的方法,这样既可以训练计算,又可以体会解题思路,关键是能套用公式.代入系数公式得b ^=1.75,a ^=5.75.代入直线方程,求得y ^=5.75+1.75x .故选C.【答案】 C3.已知x 与y 之间的一组数据:则y 与x 的线性回归方程y =bx +a 必过点( ) A .(1,2) B .(5,2) C .(2,5)D .(2.5,5)【解析】线性回归方程一定过样本中心(x,y).由x=0+1+2+3+45=2,y=1+3+5+7+95=5.故必过点(2,5).【答案】 C[小组合作型](1))A.正方体的棱长和体积B.圆半径和圆的面积C.正n边形的边数和内角度数之和D.人的年龄和身高(2)对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图②.由这两个散点图可以判断()图2-3-2A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关【精彩点拨】结合相关关系,函数关系的定义及正负相关的定义分别对四个选项作出判断.【尝试解答】(1)A、B、C都是函数关系,对于A,V=a3;对于B,S=πr2;对于C,g(n)=(n-2)π.而对于D,年龄确定的不同的人可以有不同的身高,∴选D.(2)由图象知,变量x与y呈负相关关系;u与v呈正相关关系.【答案】(1)D(2)C判断两个变量x和y间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.[再练一题]1.某公司2011~2016年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如下表所示:A.B.利润中位数是18,x与y有负线性相关关系C.利润中位数是17,x与y有正线性相关关系D.利润中位数是17,x与y有负线性相关关系【解析】由表知,利润中位数是12(16+18)=17,且y随x的增大而增大,故选C.【答案】 C一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如下:(2)如果y 与x 具有线性相关关系,求y 关于x 的回归直线方程. 【精彩点拨】 画散点图→确定相关关系→求回归直线系数 →写回归直线方程【尝试解答】 (1)画散点图如下:由上图可知y 与x 具有线性相关关系. (2)列表、计算:b ^=∑i =110x i y i -10x y ∑i =110x 2i -10x 2=55 950-10×55×91.738 500-10×552≈0.668,a ^=y -b ^x =91.7-0.668×55=54.96. 即所求的回归直线方程为:y ^=0.668x +54.96.用公式求回归方程的一般步骤:(1)列表x i ,y i ,x i y i ;(2)计算x ,y,∑i =1nx 2i ,∑i =1n x i y i ;(3)代入公式计算a ^,a ^的值;(4)写出回归方程.[再练一题]2.已知变量x ,y 有如下对应数据:(1)(2)用最小二乘法求关于x ,y 的回归直线方程. 【解】 (1)散点图如图所示:(2)x =1+2+3+44=52,y =1+3+4+54=134, ∑i =14x i y i =1+6+12+20=39,∑i =14x 2i =1+4+9+16=30,b ^=39-4×52×13430-4×⎝ ⎛⎭⎪⎫522=1310,a ^=134-1310×52=0,所以y ^=1310x 为所求回归直线方程.x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据:(2)请根据上表提供的数据,用最小二乘法求出回归方程y ^=b ^x +a ^; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?【精彩点拨】 (1)以产量为横坐标,以生产能耗对应的测量值为纵坐标,在平面直角坐标系内画散点图;(2)应用计算公式求得线性相关系数b ^,a ^的值;(3)实际上就是求当x =100时,对应的v 的值.【尝试解答】 (1)散点图,如图所示:(2)由题意,得∑i =14x i y i =3×2.5+4×3+5×4+6×4.5=66.5,x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5,∑i =14x 2i =32+42+52+62=86,∴b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35, 故线性回归方程为y ^=0.7x +0.35.(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤为0.7×100+0.35=70.35(吨),故耗能减少了90-70.35=19.65(吨)标准煤.回归分析的三个步骤:(1)判断两个变量是否线性相关:可以利用经验,也可以画散点图;(2)求线性回归方程,注意运算的正确性;(3)根据回归直线进行预测估计:估计值不是实际值,两者会有一定的误差.[再练一题]3.某种产品的广告费支出y (百万元)与销售额x (百万元)之间的关系如下表所示.(1)假定y (2)若广告费支出不少于60百万元,则实际销售额应不少于多少?【解】 (1)设回归直线方程为y ^=b ^x +a ^,则b ^=(8×5+12×8+14×9+16×11)-4×8+12+14+164×5+8+9+114(82+122+142+162)-4×⎝⎛⎭⎪⎫8+12+14+1642=438-412.5660-625=25.535=5170,a ^=y -b ^x =5+8+9+114-5170×8+12+14+164=334-5170×252=-67,则所求回归直线方程为y ^=5170x -67.(2)由y ^=5170x -67≥60,得x ≥4 26051≈84,所以实际销售额不少于84百万元.[探究共研型]探究1 变量之间的关系?【提示】 任意两个统计数据均可以作出散点图,对于作出的散点图,如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.特别地,若所有的样本点都落在某一直线附近,变量之间就具有线性相关关系;如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系;如果散点图中的点的分布几乎没有什么规则,则这两个变量之间不具有相关关系.探究2 【提示】 (1)建立直角坐标系,两轴的长度单位可以不一致. (2)将n 个数据点描在平面直角坐标系中.(3)画回归直线时,一定要画在多数点经过的区域,可以先观察有哪两个点在直线上.探究3 回归系数b ^的含义是什么?【提示】 (1)b ^代表x 每增加一个单位,y 的平均增加单位数,而不是增加单位数.(2)当b ^>0时,两个变量呈正相关关系,含义为:x 每增加一个单位,y 平均增加b ^个单位数;当b ^<0时,两个变量呈负相关关系,含义为:x 每增加一个单位,y 平均减少b ^个单位数.探究4 回归直线方程与直线方程的区别是什么?【提示】 线性回归直线方程中y 的上方加记号“^ ”是与实际值y 相区别,因为线性回归方程中的“y ^”的值是通过统计大量数据所得到的一个预测值,它具有随机性,因而对于每一个具体的实际值而言,y ^的值只是比较接近,但存在一定的误差,即y =y ^+e (其中e 为随机变量),预测值y ^与实际值y 的接近程度由随机变量e 的标准差决定.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′【精彩点拨】 先由已知条件分别求出b ′,a ′的值,再由b ^,a ^的计算公式分别求解b ^,a ^的值,即可作出比较.【尝试解答】 根据所给数据求出直线方程y =b ′x +a ′和回归直线方程的系数,并比较大小.由(1,0),(2,2)求b ′,a ′. b ′=2-02-1=2, a ′=0-2×1=-2. 求b ^,a ^时,i =16x i y i =0+4+3+12+15+24=58,x =3.5,y =136,i =16x 2i =1+4+9+16+25+36=91,∴b ^=58-6×3.5×13691-6×3.52=57,a ^=136-57×3.5=136-52=-13, ∴b ^<b ′,a ^>a ′. 【答案】 C [再练一题]4.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 【解析】 b ^为正数,所以两变量具有正的线性相关关系,故A 正确;B ,C 显然正确;若该大学某女生身高为170 cm ,则可估计其体重为58.79 kg.【答案】D1.设一个回归方程y ^=3+1.2x ,则变量x 增加一个单位时( ) A .y 平均增加1.2个单位 B .y 平均增加3个单位 C .y 平均减少1.2个单位 D .y 平均减少3个单位【解析】 由b =1.2>0,故选A. 【答案】 A2.下列有关线性回归的说法,不正确的是( )A .变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B .在平面直角坐标系中用描点的方法得到表示具有相关关系的两个变量的一组数据的图形叫做散点图C .回归方程最能代表观测值x 、y 之间的线性关系D .任何一组观测值都能得到具有代表意义的回归直线【解析】 只有数据点整体上分布在一条直线附近时,才能得到具有代表意义的回归直线.【答案】 D3.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4【解析】 因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项C 和D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标分别代入选项A 和B 中的直线方程进行检验,可以排除B ,故选A.【答案】 A4.对具有线性相关关系的变量x 和y ,测得一组数据如下表所示.【解析】 由题意可知x =2+4+5+6+85=5,y =30+40+60+50+705=50.即样本中心为(5,50),设回归直线方程为y ^=6.5x +b ^, ∵回归直线过样本中心(5,50), ∴50=6.5×5+b ^,即b ^=17.5,∴回归直线方程为y ^=6.5x +17.5. 【答案】 y ^=6.5x +17.5学业分层测评(十四) 变量间的相关关系(建议用时:45分钟)[学业达标]一、选择题 1.有几组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程; ②平均日学习时间和平均学习成绩; ③立方体的棱长和体积. 其中两个变量成正相关的是( ) A .①③ B .②③ C .②D .③【解析】 ①是负相关;②是正相关;③是函数关系,不是相关关系. 【答案】 C2.对于给定的两个变量的统计数据,下列说法正确的是( ) A .都可以分析出两个变量的关系B .都可以用一条直线近似地表示两者的关系C .都可以作出散点图D .都可以用确定的表达式表示两者的关系【解析】 由两个变量的数据统计,不能分析出两个变量的关系,A 错;不具有线性相关的两个变量不能用一条直线近似地表示他们的关系,更不能用确定的表达式表示他们的关系,B ,D 错.【答案】 C3.对有线性相关关系的两个变量建立的回归直线方程y ^=a ^+b ^x 中,回归系数b^( ) A .不能小于0 B .不能大于0 C .不能等于0D .只能小于0【解析】当b^=0时,r=0,这时不具有线性相关关系,但b^能大于0,也能小于0.【答案】 C4.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且y^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;③y与x正相关且y^=5.437x+8.493;④y与x正相关且y^=-4.326x-4.578.其中一定不正确...的结论的序号是()A.①②B.②③C.③④D.①④【解析】由正负相关性的定义知①④一定不正确.【答案】 D5.某产品的广告费用x与销售额y的统计数据如下表:根据上表可得回归方程y=b x+a中的b为9.4,据此模型预报广告费用为6万元时,销售额为()A.63.6万元B.65.5万元C.67.7万元D.72.0万元【解析】x=14(4+2+3+5)=3.5,y=14(49+26+39+54)=42,所以a^=y-b^x=42-9.4×3.5=9.1,所以回归方程为y^=9.4x+9.1,令x=6,得y^=9.4×6+9.1=65.5(万元).故选B.【答案】 B二、填空题6.若施化肥量x(千克/亩)与水稻产量y(千克/亩)的回归方程为y^=5x+250,当施化肥量为80千克/亩时,预计水稻产量为亩产________千克左右.【解析】当x=80时,y^=400+250=650.【答案】6507.已知一个回归直线方程为y^=1.5x+45,x∈{1,7,5,13,19},则y=________.【解析】因为x=15(1+7+5+13+19)=9,且回归直线过样本中心点(x,y),所以y=1.5×9+45=58.5.【答案】58.58.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y 对x的回归直线方程:y^=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】由于y^=0.254x+0.321知,当x增加1万元时,年饮食支出y增加0.254万元.【答案】0.254三、解答题9.某工厂对某产品的产量与成本的资料分析后有如下数据:(1)(2)求成本y与产量x之间的线性回归方程.(结果保留两位小数)【解】(1)散点图如图所示.(2)设y与产量x的线性回归方程为y^=b^x+a^,x =2+3+5+64=4,y =7+8+9+124=9, b^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2=(x 1y 1+x 2y 2+x 3y 3+x 4y 4)-4x yx 21+x 22+x 23+x 24-4x2=1110=1.10,a ^=y -b ^x -=9-1.10×4=4.60. ∴回归方程为:y ^=1.10x +4.60.[能力提升]1.根据如下样本数据:得到的回归方程为y =bx +a ,则( ) A .a >0,b >0 B .a >0,b <0 C .a <0,b >0D .a <0,b <0【解析】 作出散点图如下:观察图象可知,回归直线y ^=bx +a 的斜率b <0,当x =0时,y ^=a >0.故a >0,b <0.【答案】 B2.期中考试后,某校高三(9)班对全班65名学生的成绩进行分析,得到数学成绩y 对总成绩x 的回归直线方程为y ^=6+0.4x .由此可以估计:若两个同学的总成绩相差50分,则他们的数学成绩大约相差________分.【解析】 令两人的总成绩分别为x 1,x 2. 则对应的数学成绩估计为 y ^1=6+0.4x 1,y ^2=6+0.4x 2,所以|y ^1-y ^2|=|0.4(x 1-x 2)|=0.4×50=20. 【答案】 203.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =1100x2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y =bx +a 中,b =∑i =1nx i y i -n x y ∑i =1nx 2i -n x 2,a =y -b x ,其中x ,y 为样本平均值,线性回归方程也可写为y ^=b^x +a ^.【解】 (1)由题意知n =10,x =1n ∑i =1n x i =8010=8,y =1n ∑i =1n y i =2010=2,又l xx =∑i =1nx 2i -n x 2=720-10×82=80,l xy =∑i =1nx i y i -n x y =184-10×8×2=24,由此得b=l xyl xx=2480=0.3,a=y-b x=2-0.3×8=-0.4.故所求线性回归方程为y=0.3x-0.4.(2)由于变量y的值随x值的增加而增加(b=0.3>0),故x与y之间是正相关.(3)将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3×7-0.4=1.7(千元).。

高中数学选择性必修三 8 3 1 分类变量与列联表

高中数学选择性必修三 8 3 1 分类变量与列联表

8.3列联表与独立性检验8.3.1分类变量与列联表课标要求素养要求1.通过实例,理解2×2列联表的统计意义.2.理解判断两个分类变量是否有关系的常用方法. 通过学习2×2列联表,提升数学抽象、直观想象及数据分析素养.新知探究饮用水的质量是人类普遍关心的问题,根据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人.问题人的身体健康状况与饮用水的质量之间有关系吗?提示我们可以根据2×2列联表找到人的身体健康与饮用水之间的关系,也就是本节课所要学习的内容.1.分类变量这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示.2.2×2列联表在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将这类数据统计表称为2×2列联表,2×2列联表给出了成对分类变量数据的交叉分类频数.一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为3.等高堆积条形图等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.拓展深化[微判断]1.分类变量中的变量与函数中的变量是同一概念.(×)提示分类变量中的变量是指一定范围内的两种现象或性质,与函数中的变量不是同一概念.2.列联表中的数据是两个分类变量的频数.(√)3.列联表、频率分析法、等高条形图都可初步分析两分类变量是否有关系.(√) [微训练]1.下列不是分类变量的是()A.近视B.成绩C.血压D.饮酒解析近视变量有近视与不近视两种类别,血压变量有异常、正常两种类别,饮酒变量有饮酒与不饮酒两种类别.故选B. 答案 B2.某校为了检验高中数学新课程改革的成果,在两个班进行教学方式的对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如2×2列联表所示(单位:人),则其中m =________,n =________.80分及80分以上 80分以下合计 试验班 32 18 50 对照班 24 m 50 合计5644n解析 由题意得⎩⎪⎨⎪⎧24+m =50,56+44=n ,解得⎩⎪⎨⎪⎧m =26,n =100.答案 26 100 [微思考]1.是否吸烟、是否患肺癌是什么变量? 提示 分类变量.2.吸烟与患肺癌之间的关系还是前面我们研究的线性相关关系吗? 提示 不是.题型一 用2×2列联表分析两分类变量间的关系【例1】 在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用a a +b 与cc +d判断二者是否有关系. 解 2×2列联表如下:将表中数据代入公式得a a+b =4364=0.671 875.cc+d=2760=0.45.显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.规律方法(1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将aa+b与cc+d⎝⎛⎭⎪⎫ba+b与dc+d的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.【训练1】假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:则当m取下面何值时,X与Y的关系最弱()A.8 B.9C.14 D.19解析由10×26≈18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.答案 C题型二用等高堆积条形图分析两分类变量间的关系【例2】某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.解作列联表如下:性格内向性格外向合计考前心情紧张332213545考前心情不紧张94381475合计426594 1 020相应的等高堆积条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前心情紧张与性格类型有关.规律方法利用等高堆积条形图判断两个分类变量是否相关的步骤:【训练2】在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关?解根据题目给出的数据作出如下的列联表:色盲不色盲合计男38442480女6514520合计44956 1 000根据列联表作出相应的等高堆积条形图:从等高堆积条形图来看,在男人中患色盲的比例要比在女人中患色盲的比例大得多,因此,我们认为患色盲与性别是有关系的.一、素养落地1.通过本节课的学习,进一步提升数学抽象、直观想象及数据分析素养.2.列联表与等高堆积条形图列联表由两个分类变量之间频率大小的差异说明这两个变量之间是否有相关关系,而利用等高堆积条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系.二、素养训练1.与表格相比,能更直观地反映出相关数据总体状况的是()A.列联表B.散点图C.残差图D.等高堆积条形图答案 D2.在一项有关医疗保健的社会调查中,发现调查的男性为530人,女性为670人,其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,则性别与喜欢吃甜食的2×2列联表为________.答案喜欢吃甜食 不喜欢吃甜食合计 男 117 413 530 女 492 178 670 合计6095911 2003.根据如图所示的等高堆积条形图可知吸烟与患肺病________关系(填“有”或“没有”).解析 从等高条形图上可以明显地看出吸烟患肺病的频率远远大于不吸烟患肺病的频率. 答案 有4.(多空题)下面是一个2×2列联表:y 1 y 2 合计 x 1 a 21 73 x 2 2 25 27 合计b46100则表中a =________,b =__________. 解析 由题意得⎩⎪⎨⎪⎧a +21=73,a +2=b ,解得⎩⎪⎨⎪⎧a =52,b =54.答案 52 545.为考察某种药物预防疾病的效果进行动物试验,得到如下列联表:患病 未患病 合计 服用药 10 45 55 未服用药 20 30 50 合计3075105试用等高条形图分析服用药和患病之间是否有关系.解根据列联表所给的数据可得出服用药患病的频率为1055≈0.18,未服用药患病的频率为2050=0.4,两者的差距是|0.18-0.4|=0.22,两者相差很大,作出等高条形图如图所示,因此服用药与患病有关系.基础达标一、选择题1.观察下列各图,其中两个分类变量x,y之间关系最强的是()解析观察等高条形图发现x1x1+y1和x2x2+y2相差越大,就判断两个分类变量之间关系越强.答案 D2.可以粗略地判断两个分类变量是否有关系的是()A.散点图B.等高堆积条形图C.残差图D.以上都不对解析用等高堆积条形图可以粗略地判断两个分类变量是否有关系,体现了数形结合思想,但是无法给出结论的可信程度,故选B.答案 B3.(多选题)分类变量X和Y的列联表如下:则下列说法不正确的是()A.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强解析|ad-bc|越小,说明X与Y关系越弱,|ad-bc|越大,说明X与Y关系越强.答案ABD4.已知两分类变量的列联表如下:最后发现,这两个分类变量没有任何关系,则a的值可能是()A.200 B.720C.100 D.180解析由于A和B没有任何关系,根据列联表可知2001 000和180180+a基本相等,检验可知,B满足条件,故选B.答案 B5.(多选题)如图是调查某地区男、女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图可以看出()A.性别与喜欢理科无关B.女生中喜欢理科的百分比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的百分比为40%解析由题图知女生中喜欢理科的百分比为20%,男生不喜欢理科的百分比为40%,男生比女生喜欢理科的可能性大些,故A,B不正确,C,D正确.答案CD二、填空题6.某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集的数据是__________________________________________________________.答案男正教授人数,男副教授人数;女正教授人数,女副教授人数7.2013年6月11日,中国的“神舟十号”发射成功,由此许多人认为中国进入了航天强国之列,也有许多人持反对意见,为此进行了调查.在参加调查的3 648名男性公民与3 432名女性公民中,持反对意见的男性有1 843人、女性有1 672人,在运用这些数据说明中国“神十”发射成功是否与中国进入航天强国有关系时,用下列给出的________最具说服力(填序号).①回归直线方程;②平均数与方差;③等高堆积条形图.解析由于参加调查的公民按性别被分成两组,而且每一组又被分成两种情况:认为有关与无关,故该资料取自完全随机统计,符合2×2列联表的要求,应用等高堆积条形图最具说服力.答案③8.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:文艺节目新闻节目合计20至40岁401858大于40岁152742合计5545100由表中数据直观分析,收看新闻节目的观众是否与年龄有关:__________(填“是”或“否”).解析因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba+b =1858,dc+d=2742,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.答案是三、解答题9.为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数合计铅中毒病人29736对照组92837合计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?解等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.10.当某矿石粉厂生产一种矿石粉时,在数天内就有部分工人患职业性皮肤炎.在生产季节期间,随机抽取车间工人抽血化验,75名穿新防护服的车间工人中5例阳性,70例阴性,28名穿旧防护服的车间工人中10例阳性,18例阴性,请用图形判定这种新防护服对预防工人职业性皮肤炎是否有效.(注:显阴性即未患皮肤炎)解 由题目所给的数据得2×2列联表:阳性例数 阴性例数合计 穿新防护服 5 70 75 穿旧防护服10 18 28 合计1588103相应的等高条形图如图所示.图中两个深色条的高分别表示穿新、旧防护服样本中呈阳性的频率,从图中可以看出,穿旧防护服呈阳性的频率高于穿新防护服呈阳性的频率.因此,可以认为新防护服比旧防护服对预防这种皮肤炎有效.能力提升11.在2×2列联表中,两个比值相差越大,两个分类变量有关系的可能性就越大,那么这两个比值为( ) A.a a +b 与cc +d B.a c +d 与c a +b C.a a +d 与c b +c D.a b +d 与c a +c 解析 由题意,⎪⎪⎪⎪⎪⎪a a +b -c c +d =⎪⎪⎪⎪⎪⎪⎪⎪ac +ad -ac -bc (a +b )(c +d )=⎪⎪⎪⎪⎪⎪⎪⎪ad -bc (a +b )(c +d ),因为|ad-bc|的值越大,两个分类变量有关系的可能性就越大,故选A.答案 A12.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:子女吸烟子女不吸烟合计父母吸烟237678915父母不吸烟83522605合计320 1 200 1 520利用等高条形图判断父母吸烟对子女吸烟是否有影响?解等高条形图如图所示:由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.创新猜想13.(多选题)已知两个分类变量X,Y,它们的取值分别为{x1,x2}和{y1,y2},其列联表为:y1y2合计x1 a b a+bx2 c d c+d合计a+c b+d a+b+c+d若两个分类变量X,Y没有关系,则下列结论正确的()A.ad≈bcB.aa+b≈cc+dC.c+da+b+c+d≈b+da+b+c+dD.c +a a +b +c +d ≈b +d a +b +c +d解析 因为分类变量X ,Y 没有关系,所以a a +b ≈cc +d ,化简得ad ≈bc ,所以A ,B 正确,C ,D 显然不正确. 答案 AB14.(多空题)下表是关于男婴与女婴出生时间调查的列联表:那么,A =__________,B =__________,C =__________,D =__________,E =__________.解析 由列联表知识得⎩⎪⎨⎪⎧45+E =98,98+D =180,A +35=D ,E +35=C ,B +C =180,解得⎩⎪⎨⎪⎧A =47,B =92,C =88,D =82,E =53.答案 47 92 88 82 53。

第84讲、成对数据的统计分析(学生版)2025高考数学一轮复习讲义

第84讲、成对数据的统计分析(学生版)2025高考数学一轮复习讲义

第84讲成对数据的统计分析知识梳理知识点一、变量间的相关关系1、变量之间的相关关系当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.2、散点图将样本中的n 个数据点(,)(1,2,,)i i x y i n =⋅⋅⋅描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.3、相关系数若相应于变量x 的取值i x ,变量y 的观测值为(1)i y i n ≤≤,则变量x 与y的相关系数()nnii iixx y y x ynx yr ---==∑∑通常用r 来衡量x 与y 之间的线性关系的强弱,r 的范围为11r -≤≤.(1)当0r >时,表示两个变量正相关;当0r <时,表示两个变量负相关.(2)r 越接近1,表示两个变量的线性相关性越强;r 越接近0,表示两个变量间几乎不存在线性相关关系.当||1r =时,所有数据点都在一条直线上.(3)通常当0.75r >时,认为两个变量具有很强的线性相关关系.知识点二、线性回归1、线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程y bx a =+ 的求法为1122211()()nni i i ii i nni i i i x x y y x ynx yb x x x nxa y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑ 其中,11n i i x x n ==∑,11ni i y y n ==∑,(x ,y )称为样本点的中心.2、残差分析对于预报变量y ,通过观测得到的数据称为观测值i y ,通过回归方程得到的 y 称为预测值,观测值减去预测值等于残差,ˆi e称为相应于点(,)i i x y 的残差,即有ˆi e =ˆi i y y -.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(1)残差图通过残差分析,残差点()ˆ,i i x e比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.(2)通过残差平方和21ˆ()ni i i Q y y==-∑分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.(3)相关指数用相关指数来刻画回归的效果,其计算公式是:22121ˆ()1()nii i n ii yyR yy ==-=--∑∑.2R 越接近于1,说明残差的平方和越小,也表示回归的效果越好.知识点三、非线性回归解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.1、建立非线性回归模型的基本步骤:(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;(6)消去新元,得到非线性回归方程;(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.知识点四、独立性检验1、分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表.一般地,假设有两个分类变量X 和Y ,它们的取值分别为{1x ,2x }和{1y ,2y },其样本频数列联表(称为2×2列联表)为1y 2y 总计1x aba b2x cd c d+总计a c+b d+n a b c d=+++从22⨯列表中,依据a a b +与cc d+的值可直观得出结论:两个变量是否有关系.2、等高条形图(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.(2)观察等高条形图发现a a b +与cc d+相差很大,就判断两个分类变量之间有关系.3、独立性检验计算随机变量22()()()()()n ad bc a b c d a c b d χ-=++++利用2χ的取值推断分类变量X 和Y 是否独立的方法称为χ2独立性检验.α0.100.050.0100.0050.001x α2.7063.8416.6357.87910.828【解题方法总结】常见的非线性回归模型(1)指数函数型x y ca =(0a >且1a ≠,0c >)两边取自然对数,()ln ln x y ca =,即ln ln ln y c x a =+,令ln y yx x '=⎧⎨'=⎩,原方程变为ln ln y c x a ''=+,然后按线性回归模型求出ln a ,ln c .(2)对数函数型ln y b x a=+令ln y y x x'=⎧⎨'=⎩,原方程变为y bx a ''=+,然后按线性回归模型求出b ,a .(3)幂函数型ny ax =两边取常用对数,()lg lg n y ax =,即lg lg lg y n x a =+,令lg lg y y x x'=⎧⎨'=⎩,原方程变为lg y nx a ''=+,然后按线性回归模型求出n ,lg a .(4)二次函数型2y bx a=+令2y y x x'=⎧⎨'=⎩,原方程变为y bx a ''=+,然后按线性回归模型求出b ,a .(5)反比例函数型b y a x=+型令1y y x x '=⎧⎪⎨'=⎪⎩,原方程变为y bx a ''=+,然后按线性回归模型求出b ,a .必考题型全归纳题型一:变量间的相关关系例1.(2024·河北·高三校联考期末)下列四幅残差分析图中,与一元线性回归模型拟合精度最高的是()A .B.C.D .例2.(2024·天津蓟州·高三校考开学考试)对两个变量x ,y 进行线性相关检验,得线性相关系数10.8995r =,对两个变量u ,v 进行线性相关检验,得线性相关系数20.9568r =-,则下列判断正确的是()A .变量x 与y 正相关,变量u 与v 负相关,变量x 与y 的线性相关性较强B .变量x 与y 负相关,变量u 与v 正相关,变量x 与y 的线性相关性较强C .变量x 与y 正相关,变量u 与v 负相关,变量u 与v 的线性相关性较强D .变量x 与y 负相关,变量u 与v 正相关,变量u 与v 的线性相关性较强例3.(2024·宁夏吴忠·高三盐池高级中学校考阶段练习)在如图所示的散点图中,若去掉点P,则下列说法正确的是()A.样本相关系数r变大B.变量x与变量y的相关程度变弱C.变量x与变量y呈正相关D.变量x与变量y的相关程度变强变式1.(2024·四川成都·高三统考阶段练习)已知建筑地基沉降预测对于保证施工安全,实现信息化监控有着重要意义.某工程师建立了四个函数模型来模拟建筑地基沉降随时间的变化趋势,并用相关指数、误差平方和、均方根值三个指标来衡量拟合效果.相关指数越接近1表明模型的拟合效果越好,误差平方和越小表明误差越小,均方根值越小越好.依此判断下面指标对应的模型拟合效果最好的是()A.相关指数误差平方和均方根值0.9498.4910.499B.相关指数误差平方和均方根值0.933 4.1790.436C.相关指数误差平方和均方根值0.997 1.7010.141D.相关指数误差平方和均方根值0.997 2.8990.326变式2.(2024·高三课时练习)甲、乙、丙、丁四位同学各自对,A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m106115124103则能体现A,B两变量有更强的线性相关性的是()A.甲B.乙C.丙D.丁变式3.(2024·河北石家庄·统考三模)观察下列四幅残差图,满足一元线性回归模型中对随机误差的假定的是()A.B.C.D.变式4.(2024·全国·高三专题练习)甲、乙、丙、丁四位同学分别对一组变量进行线性相关试验,并分别计算出相关系数r,则线性相关程度最高的是()甲乙丙丁r0.870.910.580.83A.甲B.乙C.丙D.丁变式5.(2024·全国·高三专题练习)给出下列有关线性回归分析的四个命题:x y;①线性回归直线未必过样本数据点的中心()②回归直线就是散点图中经过样本数据点最多的那条直线;r 时,两个变量正相关;③当相关系数0④如果两个变量的相关性越强,则相关系数r就越接近于1.其中真命题的个数为()A.1B.2C.3D.4【解题方法总结】判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)样本相关系数:当r >0时,正相关;当r <0时,负相关;|r |越接近于1,相关性越强.(3)经验回归方程:当ˆ>0b时,正相关;当ˆ<0b 时,负相关.题型二:一元线性回归模型例4.(2024·天津蓟州·高三校考开学考试)为研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据:天数(x 天)3456繁殖个数(y 千个)2.5344.5由最小二乘法得y 与x 的线性回归方程为 0.7y x a=+,则当7x =时,繁殖个数y 的预测值为()A .4.9B .5.25C .5.95D .6.15例5.(2024·湖南长沙·高三长郡中学校联考阶段练习)某社区为了丰富退休人员的业余文化生活,自2018年以来,始终坚持开展“悦读小屋读书活动”.下表是对2018年以来近5年该社区退休人员的年人均借阅量的数据统计:年份20182019202020212022年份代码x 12345年人均借阅量y (册)1y 2y 162228(参考数据:5190i i y ==∑)通过分析散点图的特征后,年人均借阅量y 关于年份代码x 的回归分析模型为 5y x m =+,则2024年的年人均借阅量约为()A .31B .32C .33D .34例6.(2024·辽宁·辽宁实验中学校考模拟预测)已知x ,y 的对应值如下表所示:x2468y 11m +21m +33m +11若y 与x 线性相关,且回归直线方程为 1.60.6y x =+,则m =()A .2B .3C .4D .5变式6.(2024·广西南宁·南宁二中校联考模拟预测)某单位在当地定点帮扶某村种植一种草莓,并把这种原本露天种植的草莓搬到了大棚里,获得了很好的经济效益.根据资料显示,产出的草莓的箱数x (单位:箱)与成本y (单位:千元)的关系如下:x 102030406080y1y 2y 3y 4y 5y 6y (1)根据散点图可以认为x 与y 之间存在线性相关关系,请用最小二乘法求出线性回归方程ˆˆˆybx a =+(ˆa ,ˆb 用分数表示)(2)某农户种植的草莓主要以300元/箱的价格给当地大型商超供货,多余的草莓全部以200元/箱的价格销售给当地小商贩.据统计,往年1月份当地大型商超草莓的需求量为50箱、100箱、150箱、200箱的概率分别为110,15,12,15,根据回归方程以及往年商超草莓的需求情况进行预测,求今年1月份农户草莓的种植量为200箱时所获得的利润情况.(最后结果精确到个位)附:()()61790i i i x x y y =--=∑,6154i i y ==∑,在线性回归直线方程ˆˆˆybx a =+中()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-.变式7.(2024·江西·高三统考开学考试)某新能源汽车销售部对今年1月至7月的销售量进行统计与分析,因不慎丢失一些数据,现整理出如下统计表与一些分析数据:月份1月2月3月4月5月6月7月月份代号x1234567销售量y (单位:万辆)15.6m ns37.739.644.5其中31.2y =.(1)若m ,n ,s 成递增的等差数列,求从7个月的销售量中任取1个,月销售量不高于27万辆的概率;(2)若()721670.48i i y y =-=∑,x 与y 的样本相关系数0.99r =,求y 关于x 的线性回归方程ˆˆˆybx a =+,并预测今年8月份的销售量(ˆb 精确到0.1).附:相关系数()()niix x y y r --=∑ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii niix x y y bx x ==--=-∑∑,ˆˆay bx =-.2.65≈25.89≈.变式8.(2024·四川成都·高三石室中学校考开学考试)已知某绿豆新品种发芽的适宜温度在6~22℃℃之间,一农学实验室研究人员为研究温度x (℃)与绿豆新品种发芽数y (颗)之间的关系,每组选取了成熟种子50颗,分别在对应的8~14℃℃的温度环境下进行实验,得到如下散点图:其中24y =,71()()70i i i x x y y =--=∑,721()=176i i y y =-∑.(1)运用相关系数进行分析说明,是否可以用线性回归模型拟合y 与x 的关系?(2)求出 y 关于 x 的线性回归方程y bx a =+$$$,并预测在19℃的温度下,种子的发芽的颗数.参考公式:相关系数()()niix x y y r --=∑y bx a =+$$$,其中121((niii nii x x y y bx x ==--=-∑∑ ,a y bx =-$$8.77≈.变式9.(2024·安徽亳州·蒙城第一中学校联考模拟预测)为调查某地区植被覆盖面积x (单位:公顷)和野生动物数量y 的关系,某研究小组将该地区等面积花分为400个区块,从中随机抽取40个区块,得到样本数据(),i i x y (1,2,,40i = ),部分数据如下:x … 2.7 3.6 3.2 3.9…y…50.663.752.154.3…经计算得:401160==∑i i x ,4012400==∑i i y ,()4021160=-=∑i i x x ,()()4011280=--=∑i i i x x y y .(1)利用最小二乘估计建立y 关于x 的线性回归方程;(2)该小组又利用这组数据建立了x 关于y 的线性回归方程,并把这两条拟合直线画在同一坐标系xOy 下,横坐标x ,纵坐标y 的意义与植被覆盖面积x 和野生动物数量y 一致.设前者与后者的斜率分别为1k ,2k ,比较1k ,2k 的大小关系,并证明.附:y 关于x 的回归方程 y abx =+ 中,斜率和截距的最小二乘估计公式分别为:1221ˆni ii nii x y nx ybxnx==-⋅=-∑∑,a y bx =-$$,ni ix y nx yr -=∑【解题方法总结】求经验回归方程的步骤题型三:非线性回归例7.(2024·湖南·校联考模拟预测)若需要刻画预报变量w 和解释变量x 的相关关系,且从已知数据中知道预报变量w 随着解释变量x 的增大而减小,并且随着解释变量x 的增大,预报变量w 大致趋于一个确定的值,为拟合w 和x 之间的关系,应使用以下回归方程中的(0b >,e 为自然对数的底数)()A .w bx a=+B .ln w b x a=-+C .w a=-D .e xw b a-=+例8.(2024·全国·高三专题练习)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x 的关系可以用模型21e c xy c =(其中e 为自然对数的底数)拟合,设ln z y =,得到数据统计表如下:年份2018年2019年2020年2021年2022年年份代码x12345云计算市场规模y /千万元7.4112036.666.7ln z y=22.433.64由上表可得经验回归方程0.52z x a =+,则2025年该科技公司云计算市场规模y 的估计值为()A . 5.08e B . 5.6e C . 6.12e D . 6.5e例9.(多选题)(2024·福建厦门·厦门一中校考三模)在对具有相关关系的两个变量进行回归分析时,若两个变量不呈线性相关关系,可以建立含两个待定参数的非线性模型,并引入中间变量将其转化为线性关系,再利用最小二乘法进行线性回归分析.下列选项为四个同学根据自己所得数据的散点图建立的非线性模型,且散点图的样本点均位于第一象限,则其中可以根据上述方法进行回归分析的模型有()A .212y c x c x=+B .12x c y x c +=+C .()12ln y c x c =++D .21x c y c e+=变式10.(2024·全国·高三专题练习)已知变量的关系可以用模型e mx y k =拟合,设ln z y =,其变换后得到一组数据如下.由上表可得线性回归方程3z x a =+,则k =()x 12345z2451014A .3e -B .2e -C .2e D .3e 变式11.(2024·全国·高三专题练习)某校课外学习小组研究某作物种子的发芽率y 和温度x (单位:C )的关系,由实验数据得到如图所示的散点图.由此散点图判断,最适宜作为发芽率y 和温度x 的回归方程类型的是()A .y a bx =+B .()20y a bx b =+>C .e xy a b =+D .ln y a b x=+变式12.(2024·全国·高二专题练习)兰溪杨梅从5月15日起开始陆续上市,据调查统计,得到杨梅销售价格(单位:Q 元/千克)与上市时间t (单位:天)的数据如下表所示:时间t /(单位:天)102070销售价格Q (单位:元/千克)10050100根据上表数据,从下列函数模型中选取一个描述杨梅销售价格Q 与上市时间t 的变化关系:2,,,log t b Q at b Q at bt c Q a b Q a t =+=++=⋅=⋅.利用你选取的函数模型,在以下四个日期中,杨梅销售价格最低的日期为()A .6月5日B .6月15日C .6月25日D .7月5日变式13.(2024·四川泸州·高三四川省泸县第四中学校考开学考试)抗体药物的研发是生物技术制药领域的一个重要组成部分,抗体药物的摄入量与体内抗体数量的关系成为研究抗体药物的一个重要方面.某研究团队收集了10组抗体药物的摄入量与体内抗体数量的数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值,抗体药物摄入量为x (单位:mg ),体内抗体数量为y (单位:AU/mL ).101i ii t z=∑101ii t=∑101ii z=∑1021ii t=∑29.2121634.4(1)根据经验,我们选择d y cx =作为体内抗体数量y 关于抗体药物摄入量x 的回归方程,将d y cx =两边取对数,得ln ln ln y c d x =+,可以看出ln x 与ln y 具有线性相关关系,试根据参考数据建立y 关于x 的回归方程,并预测抗体药物摄入量为25mg 时,体内抗体数量y 的值;(2)经技术改造后,该抗体药物的有效率z 大幅提高,经试验统计得z 服从正态分布()20.48,0.03N :,那这种抗体药物的有效率z 超过0.54的概率约为多少?附:①对于一组数据()(),1,2,,10i i u v i =L ,其回归直线 vu a β=+ 的斜率和截距的最小二乘估计分别为µ1221ni i i nii u v nuvunuβ==-=-∑∑, av u β=- ;②若随机变量()2~,Z N μσ,则有()0.6826P Z μσμσ-<<+≈,(22)0.9544P Z μσμσ-<<+≈,(33)0.9974P Z μσμσ-<<+≈;③取e 2.7≈.变式14.(2024·江西赣州·高三校考阶段练习)为了研究某种细菌随天数x 变化的繁殖个数y ,收集数据如下:天数x 123456繁殖个数y612254995190(1)在图中作出繁殖个数y 关于天数x 变化的散点图,并由散点图判断ˆˆy bxa =+( ˆ,ab 为常数)与 21e ˆc xc y =( 12,c c 为常数,且 120,0c c >≠)哪一个适宜作为繁殖个数y 关于天数x 变化的回归方程类型?(给出判断即可,不必说明理由)(2)对于非线性回归方程 21e ˆc xc y =( 12,c c 为常数,且 120,0c c >≠),令ln z y =,可以得到繁殖个数的对数z 关于天数x 具有线性关系及一些统计量的值.xyz()621ii x x =-∑()()61ii i xx y y =--∑()()61ii i xx z z =--∑3.5062.83 3.5317.50596.5712.09(ⅰ)证明:“对于非线性...回归方程 21e ˆc x c y =,令ln z y =,可以得到繁殖个数的对数z 关于天数x 具有线性..关系(即ˆˆˆ,ˆˆ,z x βαβα=+为常数)”;(ⅱ)根据(ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程(系数保留2位小数).附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线方程ˆˆˆvu βα=+的斜率和截距的最小二乘估计分别为()()()121ˆˆˆ,niii nii u u v v v u u u βαβ==--==--∑∑.变式15.(2024·重庆沙坪坝·高三重庆八中校考阶段练习)在正常生产条件下,根据经验,可以认为化肥的有效利用率近似服从正态分布2(0.54,0.02)N ,而化肥施肥量因农作物的种类不同每亩也存在差异.(1)假设生产条件正常,记X 表示化肥的有效利用率,求(0.56)PX ≥;(2)课题组为研究每亩化肥施用量与某农作物亩产量之间的关系,收集了10组数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值.其中每亩化肥施用量为x (单位:公斤),粮食亩产量为y (单位:百公斤)参考数据:101i ii x y =∑101ii x =∑101ii y =∑1021ii x=∑101ii i t z =∑101ii t =∑101ii z =∑1021ii t=∑65091.552.51478.630.5151546.5ln i i t x =,ln (1i zi y i ==,2,⋯,10).(i )根据散点图判断,y a bx =+与d y cx =,哪一个适宜作为该农作物亩产量y 关于每亩化肥施用量x 的回归方程(给出判断即可,不必说明理由);(ii )根据(i )的判断结果及表中数据,建立y 关于x 的回归方程;并预测每亩化肥施用量为27公斤时,粮食亩产量y 的值.(e 2.7)≈附:①对于一组数据(,)(1i i u v i =,2,3,⋯,)n ,其回归直线ˆˆˆvu βα=+的斜率和截距的最小二乘估计分别为121ˆni i i nii u v nuvunu β==-=-∑∑,ˆˆˆv u αβ=-;②若随机变量2(,)X N μσ ,则()0.6827P X μσμσ-<<+≈,(22)0.9545P X μσμσ-<<+≈.变式16.(2024·重庆·高三校联考开学考试)某公司为了解年研发资金投入量x (单位:亿元)对年销售额y (单位:亿元)的影响.对公司近12年的年研发资金投入量xi 和年销售额yi 的数据,进行了对比分析,建立了两个模型:①2ˆˆy x αβ=+,②ˆˆe x t y λ+=$,其中α,β,λ,t 均为常数,e 为自然对数的底数,并得到一些统计量的值.令()2,,l 1n ,2,3,,12i i i i x i u v y =⋅⋅⋅==,经计算得如下数据:xy()1221i i x x =-∑()1221i i y y=-∑uv20667724604.20()1221ii uu=-∑()()121iii u u y y =--∑()1221ii v v =-∑()()121iii x x v v =--∑312502153.0814(1)请从相关系数的角度,分析哪一个模型拟合程度更好?(2)(ⅰ)根据分析及表中数据,建立y 关于x 的回归方程;(ⅱ)若下一年销售额y 需达到90亿元,预测下一年的研发资金投入量x 是多少亿元?附:①相关系数()()niix x y y r --=∑ˆˆy abx =+$中公式分别为()()()1122211ˆˆˆ,n niii ii i nniii i x x y y x y nx ybay b x x x xnx====---⋅===-⋅--∑∑∑∑;②参考数据: 4.499830849.4868,e 90=⨯≈≈.变式17.(2024·江苏镇江·江苏省镇江中学校考三模)经观测,长江中某鱼类的产卵数y 与温度x 有关,现将收集到的温度i x 和产卵数()1,2,,10i y i = 的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.101ii x=∑101ii t=∑101ii y=∑101ii z=∑()1021ii x x =-∑36054.5136044384()1021ii tt=-∑()()101ii i tt y y =--∑()()101iii x x zz =--∑()()101iii x x y y =--∑3588326430表中1011ln ,10i i i ii t z y z z ====∑(1)根据散点图判断,,y a bx y n =+=+21e c xy c =哪一个适宜作为y 与x 之间的回归方程模型并求出y 关于x 回归方程;(给出判断即可,不必说明理由)(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.附:对于一组数据()()()1122,,,,,n n u v u v u v ,其回归直线v u αβ=+的斜率和截距的最小二乘估计分别为()()()121,niii nii u u v v v u u u βαβ==--==--∑∑.变式18.(2024·广西南宁·南宁三中校考一模)数据显示中国车载音乐已步入快速发展期,随着车载音乐的商业化模式进一步完善,市场将持续扩大,下表为2018-2022年中国车载音乐市场规模(单位:十亿元),其中年份2018—2022对应的代码分别为1-5.年份代码x12345车载音乐市场规模y2.83.97.312.017.0(1)由上表数据知,可用指数函数模型x y a b =⋅拟合y 与x 的关系,请建立y 关于x 的回归方程;(2)根据上述数据求得y 关于x 的回归方程后,预测2024年的中国车载音乐市场规模.参考数据:v51i ii x v=∑0.524e 0.472e 71.61.9433.82 1.7 1.626.84其中ln i i v y =,5115i i v v ==∑.参考公式:对于一组数据()11,u v ,()22,u v ,L ,(),n n u v 其回归直线ˆˆˆv u αβ=+的斜率和截距的最小二乘法估计公式分别为 121ni ii ni i u v nu vu nuβ==-⋅=-∑∑,ˆˆv u αβ=-.变式19.(2024·安徽合肥·合肥市第八中学校考模拟预测)当前移动网络已融入社会生活的方方面面,深刻改变了人们的沟通、交流乃至整个生活方式.4G 网络虽然解决了人与人随时随地通信的问题,但随着移动互联网快速发展,其已难以满足未来移动数据流量暴涨的需求,而5G 作为一种新型移动通信网络,不但可以解决人与人的通信问题,而且还可以为用户提供增强现实、虚拟现实、超高清(3D )视频等更加身临其境的极致业务体验,更重要的是还可以解决人与物、物与物的通信问题,从而满足移动医疗、车联网、智能家居、工业控制、环境监测等物联网应用需求,为更好的满足消费者对5G 网络的需求,中国电信在某地区推出了六款不同价位的流量套餐,每款套餐的月资费x (单位:元)与购买人数y (单位:万人)的数据如下表:套餐A B C D E F 月资费x (元)384858687888购买人数y (万人)16.818.820.722.424.025.5对数据作初步的处理,相关统计量的值如下表:61iii v ω=∑61ii v=∑61ii ω=∑621ii v=∑75.324.618.3101.4其中ln ,ln i i i i v x y ω==,且绘图发现,散点()(),16i i v i ω≤≤集中在一条直线附近.(1)根据所给数据,求出y 关于x 的回归方程;(2)已知流量套餐受关注度通过指标()36x T x y +=来测定,当()8568,7e 5e T x ⎛⎫∈ ⎪⎝⎭时相应的流量套餐受大众的欢迎程度更高,被指定为“主打套餐”.现有一家四口从这六款套餐中,购买不同的四款各自使用.记四人中使用“主打套督”的人数为X ,求随机变量X 的分布列和期望.附:对于一组数据()()()1122,,,,,,n n v v v ωωω ,其回归方程bv a ω=+的斜率和截距的最小二乘估计值分别为()()()121ˆˆ,niii ni i v v ba bvv v ωωω==-⋅-==--∑∑.【解题方法总结】换元法变成一元线性回归模型题型四:列联表与独立性检验例10.(2024·广东佛山·华南师大附中南海实验高中校考模拟预测)四川省将从2022年秋季入学的高一年级学生开始实行高考综合改革,高考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一.某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如下两个等高条形图,根据条形图信息,下列结论正确的是()A .样本中选择物理意愿的男生人数少于选择历史意愿的女生人数B .样本中女生选择历史意愿的人数多于男生选择历史意愿的人数C .样本中选择物理学科的人数较多D .样本中男生人数少于女生人数例11.(2024·全国·高三专题练习)在新高考改革中,浙江省新高考实行的是7选3的33+模式,即语数外三门为必考科目,然后从物理、化学、生物、政治、历史、地理、技术(含信息技术和通用技术)7门课中选考3门.某校高二学生选课情况如下列联表一和列联表二(单位:人)选物理不选物理总计男生340110450女生140210350总计480320800表一选生物不选生物总计男生150300450女生150200350总计300500800表二试根据小概率值0.005α=的独立性检验,分析物理和生物选课与性别是否有关()附:()222.n ad bc n a b c d P x a b c d a c b d αχαχ-==+++=≥++++(),()()()()α0.150.100.050.0250.010.0050.001ax 2.0722.7063.8415.0246.6357.87910.828A .选物理与性别有关,选生物与性别有关B .选物理与性别无关,选生物与性别有关C .选物理与性别有关,选生物与性别无关D .选物理与性别无关,选生物与性别无关例12.(2024·全国·高三专题练习)通过随机询问相同数量的不同性别大学生在购买食物时是否看营养说明,得知有16的男大学生“不看”,有13的女大学生“不看”,若有99%的把握认为性别与是否看营养说明之间有关,则调查的总人数可能为()A .150B .170C .240D .175变式20.(2024·全国·高三专题练习)针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为()*5m m ∈N 人,男生中喜欢短视频的人数占男生人数的45,女生中喜欢短视频的人数占女生人数的35.零假设为0H :喜欢短视频和性别相互独立.若依据0.05α=的独立性检验认为喜欢短视频和性别不独立,则m 的最小值为()附:()()()()()22n ad bc a b c d a c b d χ-=++++,附表:α0.050.01x α3.841 6.635A .7B .8C .9D .10变式21.(2024·全国·高三专题练习)在一次联考后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀,统计成绩后,得到如下2×2列联表:优秀非优秀合计甲班人数50乙班人数20。

备战高考数学复习考点知识与题型讲解86---独立性检验

备战高考数学复习考点知识与题型讲解86---独立性检验

备战高考数学复习考点知识与题型讲解第86讲独立性检验考向预测核心素养利用2×2列联表和卡方独立性检验判断两个变量的相关关系是高考考查的热点,各种题型均会出现.数据分析、数学运算一、知识梳理1.分类变量与列联表(1)分类变量在讨论问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.(2)2×2列联表列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为y 1y2合计x1a b a+bx2c d c+d合计a+c b+d a+b+c+d2.独立性检验(1)零假设以Ω为样本空间的古典概型.设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.H:分类变量X和Y独立.通常称H0为零假设或原假设.(2)χ2公式假设我们通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).对于任何小概率值α,可以找到相应的正实数xα,使得下面关系成立:P(χ2≥xα)=α.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.概率值α越小,临界值xα越大.(3)独立性检验基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.二、教材衍化1.(人A选择性必修第三册P134练习T1改编) 为调查中学生近视情况,测得某校男生150名中有80名近视,140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )A.回归分析 B.均值与方差C.独立性检验 D.概率答案:C2.(人A选择性必修第三册P134练习T4改编)为了判断高三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:根据表中数据,得到χ2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性不大于________.解析:χ2≈4.844>3.841=x0.05,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性不大于0.05.答案:0.053.(人A选择性必修第三册P132例3改编)随着国家三孩政策的放开,为了调查一线城市和非一线城市的三孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,结果如下表.由χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),得χ2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表:α根据小概率值α=0.010的独立性检验,可以得到的结论是____________.答案:生育意愿与城市级别有关一、思考辨析判断正误(正确的打“√”,错误的打“×”)(1)独立性检验是检验两个分类变量是否有关的一种统计方法.( )(2)独立性检验得到的结论一定是正确的.( )(3)独立性检验的样本不同,其结论可能不同.( )(4)若事件X,Y关系越密切,则由观测数据计算得到的χ2越小.( ) 答案:(1)√(2)×(3)√(4)×二、易错纠偏1.(列联表意义不明致误)下面是2×2列联表:y 1y2合计x1a 2173x2222547合计 b 46120则表中a,b的值分别为( )A.94,72 B.52,50C.52,74 D.74,52解析:选C.因为a+21=73,所以a=52.又a+22=b,所以b=74.2.(独立性检验理解不当致误)(2022·揭阳模拟)随机询问50名大学生调查爱好某项运动是否和性别有关.利用2×2列联表计算得χ2=8.333,则下列结论正确的是( )附:α0.0100.0050.001αA.在犯错误的概率不大于0.005的前提下认为“是否爱好该项运动与性别有关”B.在犯错误的概率不大于0.005的前提下认为“是否爱好该项运动与性别无关”C.在犯错误的概率不大于0.001的前提下,认为“是否爱好该项运动与性别有关”D.在犯错误的概率不大于0.001的前提下,认为“是否爱好该项运动与性别无关”解析:选 A.因为8.333>7.879,由附表知,在犯错误的概率不大于0.005的前提下,认为“是否爱好该项运动与性别有关”.故选A.考点一分类变量与列联表(自主练透)复习指导:掌握分类变量的含义;通过实例,理解2×2列联表的统计意义.1.(多选)根据如图所示的等高堆积条形图,下列叙述正确的是( )A.吸烟患肺病的频率约为0.2B.吸烟不患肺病的频率约为0.8C.不吸烟患肺病的频率小于0.05D.不能判断吸烟与患肺病之间的关系解析:选ABC.从等高堆积条形图上可以明显地看出,吸烟患肺病的频率远远大于不吸烟患肺病的频率.A,B,C都正确,D不正确.2.(2022·湖南省永州市高三适应性考试)“直播电商”已经成为当前经济发展的新增长点,某电商平台的直播间经营化妆品和服装两大类商品,2021年前三个季度,该直播间每个季度的收入都比上一季度的收入翻了一番,其前三季度的收入情况如图所示,则( )A.该直播间第三季度总收入是第一季度总收入的3倍B.该直播间第二季度化妆品收入是第三季度化妆品收入的1 3C.该直播间第一季度化妆品收入是第三季度化妆品收入的1 6D.该直播间第三季度服装收入低于前两个季度的服装收入之和解析:选B.对于选项A,因为该直播间每个季度的收入都比上一季度的收入翻了一番,所以第三季度的总收入是第一季度的2×2=4倍,故A错误;对于选项B,设第一季度的总收入为a,则第二季度、第三季度的总收入分别为2a,4a,第二季度的化妆品收入为2a×20%=0.4a,第三季度的化妆品收入为4a×30%=1.2a,所以第二季度化妆品收入是第三季度化妆品收入的0.4a1.2a=13,故B正确;对于选项C,第一季度的化妆品收入为a×10%=0.1a,所以第一季度化妆品收入是第三季度化妆品收入的0.1a1.2a=112,故C错误;对于选项D,第一、二季度服装收入和为a+2a-0.1a-0.4a=2.5a,第三季度服装收入为4a-1.2a=2.8a,故D错误.故选B.3.(2022·上海华师大二附中高二月考)假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其2×2列联表为XY合计y1y2x1a b a+bx2c d c+d合计a+c b+d a+b+c+d对同一样本,以下数据能说明X与Y有关的可能性最大的一组为( )A.a=5,b=4,c=3,d=2B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5D.a=3,b=2,c=4,d=5解析:选D.对于同一样本,|ad-bc|越小,说明X与Y相关性越弱,而|ad-bc|越大,说明X与Y相关性越强,通过计算知,对于A、B、C都有|ad-bc|=|10-12|=2;对于选项D,有|ad-bc|=|15-8|=7,显然7>2.4.为了搞好对外宣传工作,会务组选聘了30名记者担任对外翻译工作,在下面“性别与会俄语”的2×2列联表中,a-b+d=________.性别俄语合计会俄语不会俄语男 a b 20女6 d合计1830解析:由2×2列联表的性质,可得:a=18-6=12,b=20-12=8,6+d=30-20,可得d=4,所以a-b+d=8.答案:8求解参数的方法(1)根据等高堆积条形图的高度差直接判断.(2)直接利用2×2列联表的性质,建立方程即可求参数.考点二独立性检验(多维探究)复习指导:通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验的基本思想、方法及初步应用.角度1 简单的独立性检验问题某校推广新课改,在两个程度接近的班进行试验,一班为新课改班级,二班为非课改班级,经过一个学期的教学后对期末考试进行分析评价,规定:总分超过550(或等于550分)为优秀,550以下为非优秀,得到以下列联表:优秀非优秀合计一班3513二班1725合计(1)请完成列联表;(2)依据小概率值α=0.01的独立性检验,能否认为推广新课改与总成绩是否优秀有关系?参考数据:α0.10.050.010.005xα2.7063.841 6.6357.879χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).【解】(1)优秀非优秀合计一班351348二班172542合计523890 (2)零假设为H0:推广新课改与总成绩是否优秀无关.根据列联表中的数据,得到χ2=90×(35×25-13×17)248×42×52×38≈9.663>6.635=x0.01,故根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为推广新课改与总成绩是否优秀有关系,此推断犯错误的概率不大于0.01.角度2 独立性检验与统计、概率的综合问题(2022·四川雅安5月三模改编)高铁在出行方式中越来越受欢迎,某部门利用大数据随机抽取了出行人群中的100名旅客进行调查统计,得知在40岁及以下的旅客中乘坐高铁出行的占23.(1)请完成下面的2×2列联表,并依据小概率值α=0.001 的独立性检验,分析能否认为乘坐高铁出行与年龄有关;(2)为提升服务质量,该部门从这100名旅客中按年龄采用分层随机抽样的方法选取5人参加座谈会,会后再进行抽奖活动,奖品共三份,由于年龄差异,规定40岁及以下的旅客若中奖,则每人得800元,40岁以上的旅客若中奖,则每人得1 000元,设三份奖品总金额为X 元,求X 的分布列与数学期望.参考公式:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参考数据:【解】 (1)由已知可得,样本中40岁及以下乘坐高铁出行的有60×23=40(人).2×2列联表如下:零假设为H 0:乘坐高铁出行与年龄无关.由列联表中的数据计算可得χ2=100×(40×30-20×10)260×40×50×50≈16.667>10.828=x0.001.根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为乘坐高铁出行与年龄有关,此推断犯错误的概率不大于0.001.(2)采用分层随机抽样的方法,则从40岁及以下的人中抽取3人,从40岁以上的人中抽取2人.X的所有可能取值为2 400,2 600,2 800.P(X=2 400)=C33C02C35=110,P(X=2 600)=C23C12C35=35,P(X=2 800)=C13C22C35=310.故分布列如下:X 2 400 2 600 2 800P11035310E(X)=2 400×110+2 600×35+2 800×310=2 640.(1)在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.(2)解决独立性检验的应用问题,一定要按照独立性检验的步骤得到结论.独立性检验的一般步骤:①根据样本数据制成2×2列联表;②根据公式χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算得到χ2的值;③比较χ2的值与临界值的大小关系,作统计推断.|跟踪训练|(2022·西藏拉萨那曲第二高级中学高三月考)某中学随机抽查了50名同学的每天课外阅读时间,得到如下统计表:(1)求这50名同学的平均阅读时长(用区间中点值代表每个人的阅读时长);(2)在阅读时长位于(40,50]的4人中任选2人,求甲同学被选中的概率;(3)进一步调查发现,语文成绩和每天的课外阅读时间有很大关系,每天的课外阅读时间多于半小时称为“阅读迷”,语文成绩达到120分视为优秀,根据每天的课外阅读时间和语文成绩是否优秀,制成一个2×2列联表:依据小概率值α=0.01的独立性检验,能否认为语文成绩是否优秀与课外阅读时间有关?参考公式:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d). 参考数据:解:(1)设这50名同学的平均阅读时长为x-min,则x-=5×4+15×10+25×14+35×18+45×450=26.6,故这50名同学的平均阅读时长为26.6 min.(2)设这4名学生中分别为甲、乙、丙、丁,从这4名学生中任取2名学生,所有的样本点有:(甲,乙),(甲,丙),(甲,丁),(乙,丙),(乙,丁),(丙,丁),共6个,其中,事件“甲同学被选中”所包含的样本点有:(甲,乙),(甲,丙),(甲,丁),因此,所求概率为P=36=12.(3)零假设为H0:语文成绩是否优秀与课外阅读时间无关.由列联表中的数据计算得χ2=50×(20×25-2×3)222×28×23×27≈31.897>6.635=x0.01,因此,根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为语文成绩是否优秀与课外阅读时间有关,此推断犯错误的概率不大于0.01.[A 基础达标]1.下面的等高条形图可以说明的问题是( )A.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的B.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同C.此等高条形图看不出两种手术有什么不同的地方D.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握解析:选D.由等高条形图可知“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的频率不同,所以“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握,所以选项D正确,故选D.2.某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,得到“偏爱蔬菜还是肉类与性别有关”这个结论犯错误的概率大于0.001,而不大于0.01,则χ2的值可能为( ) 附表:A.3.206B.6.561C.7.879D.11.028解析:选 C.根据题意得χ2的取值范围为[6.635,10.828),因此χ2的值可能为7.879.故选C.3.(多选)假设有两个分类变量X和Y,其2×2列联表如下表所示:在犯错误的概率不超过0.05的前提下,下面哪个选项可以认为变量X,Y有关( )A.a=10 B.a=12C.a=8 D.a=9解析:选ACD.根据列联表知,aa+40与30-a60-a的差距越小,则越无法认为变量X,Y有关联,分析四个选项,B选项中,a=12时,aa+40与30-a60-a的差距最小,且不满足犯错误的概率不超过0.05的条件,而其他选项均满足.4.小波同学为了验证谚语“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表,并计算得到χ2≈19.05,下列小波对地区A 天气判断不正确的是( )附表:A.夜晚下雨的概率约为1 2B.未出现“日落云里走”夜晚下雨的概率约为5 14C.做出“‘日落云里走’是否出现与当晚是否下雨有关”这一推断犯错误的概率不大于0.001D.出现“日落云里走”,有99.9%的把握认为夜晚会下雨解析:选D.据列联表,100天中有50天下雨,50天未下雨,因此下雨的概率约为50 100=12,A正确;同样,未出现“日落云里走”夜晚下雨的概率约为2525+45=514,B正确;因为χ2≈19.05>10.828=x0.001,所以做出“‘日落云里走’是否出现与当晚是否下雨有关”这一推断犯错误的概率不大于0.001,C正确;有关只是说可能性,不代表一定下雨,D错误.故选D.5.(多选)某俱乐部为了解会员对运动场所的满意程度,随机调查了50名会员,每位会员对俱乐部提供的场所给出满意或不满意的评价,得到如图所示的列联表,经计算χ2≈5.059,则可以推断出( )附:A.该俱乐部的男性会员对运动场所满意的概率的估计值为2 3B.调查结果显示,该俱乐部的男性会员比女性会员对俱乐部的场所更满意C.做出“男性会员、女性会员对运动场所的评价有差异”这一推断犯错误的概率不大于0.05D.做出“男性会员、女性会员对运动场所的评价有差异”这一推断犯错误的概率不大于0.01解析:选ABC.对于选项A,该俱乐部男性会员对运动场所满意的概率的估计值为18 27=23,故A正确;对于选项B,该俱乐部女性会员对运动场所满意的概率的估计值为823,而23=4669>823=2469,故B正确;因为χ2≈5.059>3.841=x0.05,所以依据小概率值α=0.05的独立性检验,我们认为男性会员、女性会员对运动场所的评价有差异,此推断犯错误的概率不大于0.05,故C正确,D错误.6.(多选)某机构在研究性别与是否爱好拳击运动的关系中,通过收集数据得到如下2×2列联表.经计算得χ2=100×(35×28-15×22)250×50×57×43≈6.895.之后又对被研究者的身高进行了统计,得到男、女身高分别近似服从正态分布N(175,16)和N(164,9),则下列选项中正确的是( )A.“爱好拳击运动与性别有关”,这个结论犯错误的概率不超过0.01B.在100个男生中,至少有一个人爱好打拳击C.男生身高的平均数为175,男生身高的标准差为16D.女生身高的平均数为164,女生身高的标准差为3解析:选AD.χ2≈6.895>6.635=x0.01,A对;显然B错;男生身高的标准差为4,C 错;显然D对,故选AD.7.(2022·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层随机抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.附表:解析:由列联表计算得χ2=50×(22×12-8×8)2≈5.556>3.841=x0.05,所以推断犯错误的概率不超过0.05.30×20×20×30答案:0.058.(2022·黑龙江模拟)为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:性别疗效合计无效有效男性患者153550女性患者64450合计2179100设H0:服用此药的效果与患者的性别无关,则χ2≈________(小数点后保留3位有效数字),从而得出结论;服用此药的效果与患者的性别有关,这种判断出错的概率不大于________.解析:由公式计算得χ2=100×(15×44-6×35)221×79×50×50≈4.882,因为χ2>3.841=x0.05根据α=0.05的独立性检验,分析服用此药的效果与患者的性别有关,判断出错的概率不大于0.05.答案:4.882 0.059.(2022·山东省济南市高二期末)为了研究某种疾病的治愈率,某医院对100名患者中的一部分患者采用了外科疗法,另一部分患者采用了化学疗法,并根据两种治疗方法的治愈情况绘制了等高堆积条形图,如下:(1)根据图表完善以下关于治疗方法和治愈情况的2×2列联表;疗法疗效合计未治愈治愈外科疗法化学疗法18合计100(2)依据小概率值α=0.05的独立性检验,分析此种疾病治愈率是否与治疗方法有关.附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).(如需计算χ2,结果精确到0.001)α0.10.050.010.0050.001xα2.7063.841 6.6357.87910.828解:(1)根据等高条形图,采用化学疗法的治愈率为30%,由列联表得化学疗法治愈的人数为18人,故采用化学疗法的人共有18÷30%=60人,采用外科疗法的有40人,其中治愈的有40×50%=20人.所以列联表如下表:疗法疗效合计未治愈治愈外科疗法202040化学疗法421860合计6238100 (2)零假设为H0:设此种疾病治愈率与治疗方法无关.则根据列联表中的数据计算χ2=100×(20×18-42×20)262×38×60×40=2 400589≈4.075>3.841=x0.05,所以依据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为此种疾病治愈率与治疗方法有关,此推断犯错误的概率不大于0.05.10.(2022·福州市质量检测)某部门研究成果认为,房租支出超过月收入13的租户“幸福指数”低,房租支出不超过月收入13的租户“幸福指数”高.为了了解甲、乙两小区租户的幸福指数高低,随机抽取甲、乙两小区的租户各100户进行调查.甲小区租户的月收入以[0,3),[3,6),[6,9),[9,12),[12,15](单位:千元)分组的频率分布直方图如图所示.乙小区租户的月收入(单位:千元)的频数分布表如下:(1)设甲、乙两小区租户的月收入相互独立,记M表示事件“甲小区租户的月收入低于6千元,乙小区租户的月收入不低于6千元”,把频率视为概率,求M的概率;(2)利用频率分布直方图,求所抽取的甲小区100户租户的月收入的中位数;(3)若甲、乙两小区每户的月租费分别为2千元、1千元.请根据条件完成下面的2×2列联表,并依据小概率值α=0.001的独立性检验,分析幸福指数与租住的小区是否有关.附:临界值表参考公式:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解:(1)记A表示事件“甲小区租户的月收入低于6千元”,记B表示事件“乙小区租户的月收入不低于6千元”,甲小区租户的月收入低于6千元的频率为(0.060+0.160)×3=0.66,故P(A)的估计值为0.66;乙小区租户的月收入不低于6千元的频率为24+9+2100=0.35,故P(B)的估计值为0.35.因为甲、乙两小区租户的月收入相互独立,所以事件M的概率的估计值为P(M)=P(A)P(B)=0.66×0.35=0.231.(2)设甲小区所抽取的100户租户的月收入的中位数为t,则0.060×3+(t-3)×0.160=0.5,解得t=5.(3)零假设为H0:幸福指数与租住的小区无关.根据2×2列联表中的数据,得到χ2=200×(66×62-34×38)2100×100×104×96≈15.705>10.828=x0.001,依据小概率值α=0.001的独立性检验,我们认为H0不成立,即认为幸福指数与租住的小区有关,此推断犯错误的概率不大于0.001.[B 综合应用]11.(多选)(2022·梅州高二模拟)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的45,女生喜欢抖音的人数占女生人数35,若做出“是否喜欢抖音和性别有关”这一推断犯错误的概率不大于0.05,则调查人数中男生的人数可能为( )附表:附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).A.25 B.35C.45D.60解析:选CD.设男生可能有x人,依题意得女生有x人,可得2×2列联表如下:若做出“是否喜欢抖音和性别有关”这一推断犯错误的概率不大于0.05,则χ2≥3.841=x0.05,即χ2=2x·⎝⎛⎭⎪⎫45x·25x-35x·15x275x·35x·x·x=221x≥3.841,解得x≥40.330 5,由题意知x>0,且x是5的整数倍,所以45和60都满足题意.故选CD.12.(2022·青岛市统一质量检测)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55名学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30名.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过________.附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解析:由题意作出2×2列联表:则χ2=105×(45×20-10×30)2 55×50×75×30≈6.109>5.024=x0.025,所以认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过0.025.答案:0.025[C 素养提升]13.(2020·新高考卷Ⅱ改编)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,并依据小概率值α=0.01的独立性检验,能否认为该市一天空气中PM2.5浓度与SO2浓度有关?附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),解:(1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8 =64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64100=0.64.(2)根据抽查数据,可得2×2列联表:(3)零假设为H0:该市一天空气中PM2.5浓度与SO2浓度无关.根据(2)的列联表得χ2=100×(64×10-16×10)280×20×74×26≈7.484>6.635=x0.01.依据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为该市一天空气中PM2.5浓度与SO2浓度有关,此推断犯错误的概率不大于0.01.。

变量之间的相互关系

变量之间的相互关系

变量之间的相互关系一、引言在研究数据科学、统计学、经济学以及其他众多领域时,变量间的相互关系是不可或缺的议题。

这种关系描述了不同变量如何互相影响,从而帮助我们理解和预测现象。

本文将深入探讨变量间相互关系的概念、类型和测量方法。

二、变量间的关系类型1.因果关系:如果一个变量(原因)的变化导致了另一个变量(结果)的变化,则存在因果关系。

这种关系是有方向的,原因必定在前,结果只能在后。

2.相关关系:当两个或多个变量同时发生变化,但不表示因果方向时,我们称之为相关关系。

相关关系可以是正相关(一个变量增加时,另一个也增加)或负相关(一个变量增加时,另一个减少)。

3.函数关系:当一个变量(自变量)完全确定另一个变量(因变量)的值时,我们称之为函数关系。

这种情况下,因变量的变化完全依赖于自变量的变化。

三、测量变量间关系强度的方法1.皮尔逊相关系数:衡量两个连续变量的线性相关程度,取值范围在-1到1之间。

接近1表示强正相关,接近-1表示强负相关,接近0表示无相关。

2.斯皮尔曼秩相关系数:与皮尔逊相关系数类似,但适用于非参数数据。

它衡量的是两个连续变量之间的秩次相关性。

3.偏相关系数:当存在多个变量影响因变量时,偏相关系数可以用来衡量特定自变量与因变量之间的线性关系。

四、应用场景理解并测量变量间的相互关系在众多实际场景中都有应用价值。

例如,在市场营销中,通过分析消费者行为、购买历史等变量与购买决策之间的相互关系,可以更有效地制定营销策略。

在医学研究中,了解疾病症状、患者生理指标等变量之间的关系,有助于疾病的诊断和治疗。

五、结论理解并测量变量间的相互关系是数据科学和统计学中的重要概念。

通过明确关系的类型和测量方法,我们可以更好地理解和预测现象,从而在各个领域中做出更有效的决策。

随着技术的发展和数据的丰富,变量间相互关系的研究将继续深化和拓展,为我们提供更多的洞见和可能。

变量间的相关关系及独立性检验

变量间的相关关系及独立性检验
❖ 1.相关关系的量:当自变量一定时,因变 量的取值带有一定的随机性的两个变量之间 的关系称为相关关系.
❖ 2.回归分析:对具有相关关系的两个变量 进行统计分析的方法叫做回归分析.
5. 回归直线:设所求的直线方程为
,其中
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做 最小二乘法.
❖ 6.相关系数:r= ❖ 叫做变量y与x之间的样本相关系数,简
❖(1)对变量y与x进行相关性检验; ❖(2)如果y与x有线性相关关系,求回归直线方 程; ❖(3)若实际生产中,允许每小时的产品中有缺 点的零件最多为10个,那么,机器的运转速 度应控制在什么范围内?
解答:
❖ (2) =0.728 6x-0.857 1. ❖ (3)要使 ≤10⇒0.728 6x-0.857
❖ 【例1】山东鲁洁棉业公司的科研人员在7 块并排、形状大小相同的试验田上对某棉 花新品种进行施化肥量x对产量y影响的试 验,得到如下表所示的一组数据(单位: kg).
❖思 维 点 拨 : 用 施 化 肥 量 x 作 为横轴,产量y为纵轴可作出 散点图,由散点图即可分析 是否具有线性相关关系. ❖解答:(1)散点图如右图所示,
❖ 【答题模板】
❖(2)由于x与y之间具有线性相关关系,根据回 归系数公式得到
❖b=
=0.5,a=100-0.5×100=50,
❖∴线性回归方程为 =0.5x+50.
❖当y=115时,x=130.
称相关系数,用 ❖ 它来衡量两个变量之间的线性相关程
度.
❖ 7.相关系数的性质:|r|≤1,且|r|越接近1,
相关程度越大;且|r|越接近0,相关程度越
❖ 1.在对两个变量x,y进行线性回归分析时 有下列步骤:

高中数学 高三一轮 第十章统计、统计案例及算法初步 10.3变量间的相关关系 统计案例【教案】

高中数学 高三一轮 第十章统计、统计案例及算法初步 10.3变量间的相关关系 统计案例【教案】

1.相关性(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样近似的过程称为曲线拟合.(3)在两个变量x和y的散点图中,若所有点看上去都在一条直线附近波动,则称变量间是线性相关的,若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关的.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.2.线性回归方程(1)最小二乘法如果有n个点(x1,y1),(x2,y2),…,(x n,y n),可以用[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[y n-(a +bx n)]2来刻画这些点与直线y=a+bx的接近程度,使得上式达到最小值的直线y=a+bx就是所要求的直线,这种方法称为最小二乘法.(2)线性回归方程方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n)的线性回归方程,其中a,b是待定参数.错误!3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n)中,(错误!,错误!)称为样本点的中心.(3)相关系数①r=错误!=错误!;②当r〉0时,表明两个变量正相关;当r<0时,表明两个变量负相关;当r=0时,表明两个变量线性不相关.r的绝对值越接近于1,表明两个变量之间的线性相关程度越高.r的绝对值越接近于0,表明两个变量之间的线性相关程度越低.4.独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=错误!1;变量B:B1,B2=错误!1;2×2列联表:χ2=错误!.利用随机变量χ2来判断“两个分类变量有关系"的方法称为独立性检验.当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B没有关联的;当χ2>2.706时,有90%的把握判定变量A,B有关联;当χ2〉3.841时,有95%的把握判定变量A,B有关联;当χ2〉6。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
热饮杯数 156 150 132 128 130 116 104 89 93 76 54
(1)画出散点图; (2)从散点图中发现气温与热饮销售杯数之间关系的一
般规律; (3)求回归方程; (4)如果某天的气温是 20C,预测这天卖出的热饮杯数。
完整版课件ppt
9
解: (1)散点图
热饮杯数
160 150 140 130 120 110 100
小结:求线性回归直线方程的步骤:
第一步:列表
xi
,
y i
,
xi
y i

n
n
第二步:计算
x,
y,
x2, i
xi
y i

i 1
i 1
第三步:代入公式计算b,a的值;
第四步:写出直线方程。
完整版课件ppt
7
解2:用Excel求线性回归方程,步骤如下:
. (1)进入Excel作出散点图。
(2)点击“图表”中的“添加趋势线”,单击“类 型”中的“线性”,单击“确定”,得到回归方程。
Y^ =-2.352x+147.767
10
20
30
40
(4)当x=2时,y^ =143.063,因此,这天大
约可以卖出143杯热饮。
完整版课件ppt
11
完整版课件ppt
12
粉嫩公主酒酿蛋/65/2016-03-11/7447.html 圜茽琚
完整版课件ppt
1
完整版课件ppt
2
一、复习: 1、散点图
A、定义;B、正相关、负相关。
2、回归直线方程
(1)回归直线:观察散点图的特征,如果各点 大致分布在一条直线的附近,就称两个变量之间 具有线性相关的关系,这条直线叫做回归直线。
(2)最小二乘法
完整版课件ppt
3
一、相关关系的判断
例1:5个学生的数学和物理成绩如下表:
5
5 15 12 14 9
10
10
计算得: x 0, y 0
x2 i
110 ,
xi
y i
110
i 1
i 1
10
xxy x b
i 1 10
i 1
10 x y
ii
110 10 0 1
2 10 2
110 10 0
i
完整版课件ppt
a y bx 0b•0 0
6
∴所求回归直线方程为 y^=x
(3)双击回归直线,弹出“趋势线格式”,单击
“选项”,选定“显示公式”,最后单击“确定”。
完整版课件ppt
8
三、利用线性回归方程对总体进行估计
例:有一个同学家开了一个小卖部,他为了研究气 温对热饮销售的影响,经过统计,得到一个卖出的 热饮杯数与当天气温的对比表:
摄氏温度 -5 0 4 7 12 15 19 23 27 31 36
x -1 -2 -3 -4 -5 5 3 4 2 1
y -9 -7 -5 -3 -1 1 5 3 7 9 求两变量间的回归方程
解1: 列表:
i 1 2 3 4 5 6 7 8 9 10
xi -1 -2 -3 -4 -5 5 3 4 2 1
y i
-9
-7
-5
-3
-1
1
5
3
7
9
xi
y i
9
14 15 12
练习:P86第三题
小结:
(1)判断变量之间有无相关关系,简便方 法就是画散点图。
(2)当数字少时,可用人工或计算器,求 回归方程;当数字多时,用Excel求回归方 程。
(3)利用回归方程,可以进行预测。
完整版课件ppt
13
A
B
C
D
E
数学 80
75
70
65
60
物理 70
66
68
64
62
画出散点图,并判断它们是否有相关关系。
解:
物理成绩
80
75
70
65
60
55
50
数学成绩
40
50
60
70
80
90
由散点图可见,两者之间具有正相关关系。
完整版课件ppt
4
小结:用Excel作散点图的步骤如下 : (结合软件边讲边练)
(1)进入Excel,在A1,B1分别输入“数学成绩”、 “物理成绩”,在A、B列输入相应的数据。
90 80 70 60 50 40温度源自-10010
20
30
40
(2)气温与热饮杯数成负相关,即气温越高,
卖出去的热饮杯数越少。
完整版课件ppt
10
(3)从散点图可以看出,这些点大致分布 在一条直线附近。
160 150 140 130 120 110 100
90 80 70 60 50 40
-10
0
(2)点击图表向导图标,进入对话框,选择“标准 类型”中的“XY散点图”,单击“完成”。
(3)选中“数值X轴”,单击右键选中“坐标轴格 式”中的“刻度”,把“最小值”、“最大值”、 “刻度主要单位”作相应调整,最后按“确定”。y 轴方法相同。
完整版课件ppt
5
二、求线性回归方程
例2:观察两相关变量得如下表:
相关文档
最新文档