2019-2020年高考数学大一轮复习第九篇统计与统计案例第3节变量的相关性与统计案例习题理

合集下载

2019版高考数学(文)第9章 统计、统计案例 第3讲变量相关关系与统计案例 Word版含答案

2019版高考数学(文)第9章 统计、统计案例 第3讲变量相关关系与统计案例 Word版含答案

第讲变量相关关系与统计案例板块一知识梳理·自主学习[必备知识]考点变量间的相关关系.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系..从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.考点回归方程与回归分析.线性相关关系与回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线..回归方程()最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.()回归方程:方程=+是两个具有线性相关关系的变量的一组数据(,),(,),…,(,)的回归方程,其中,是待定数..回归分析()定义:对具有相关关系的两个变量进行统计分析的一种常用方法.()样本点的中心:在具有线性相关关系的数据(,),(,),…,(,)中,=(+…+),=(+…+),=-,(,)称为样本点的中心.()相关系数=,当>时,两变量正相关,当<时,两变量负相关,当≤且越接近于,相关程度越强,当≤且越接近于,相关程度越弱.考点独立性检验.独立性检验的有关概念()分类变量可用变量的不同“值”表示个体所属的不同类别的变量称为分类变量.()×列联表假设有两个分类变量和,它们的取值分别为{,}和{,},其样本频数列联表(称为×列联表)为总计++总+++++计.独立性检验利用随机变量=(其中=+++为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:()计算随机变量的观测值,查表确定临界值:(≥)()如果≥,就推断“与有关系”,这种推断犯错误的概率不超过(≥);否则,就认为在犯错误的概率不超过(≥)的前提下不能推断“与有关系”.[必会结论].相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;。

高考知识点变量间的相关关系与统计案例

高考知识点变量间的相关关系与统计案例

第3节变量间的相关关系与统计案例最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则^是回归方程的斜率,a^是在y轴上的截距.其中,b回归直线一定过样本点的中心(x,y).3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:其中21()ni i i y y =-∑是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量.[常用结论与微点提醒]1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x ,y ).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.诊断自测1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()答案(1)√(2)√(3)×(4)√2.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:则y对x的线性回归直线方程为()A.y^=2.3x-0.7B.y^=2.3x+0.7C.y^=0.7x-2.3D.y^=0.7x+2.3解析易求x=9,y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.答案 C3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.答案 A4.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案 D5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案5%考点一相关关系的判断【例1】(1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z 正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x 与z负相关.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;r<0时,则负相关.3.线性回归直线方程中:b^>0时,正相关;b^<0时,负相关.【训练1】(1)某公司在2018年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如下表所示:根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关指数为R21,用y^=b^x+a^拟合时的相关指数为R22,则R21>R22;③x,y之间不能建立线性回归方程.解析(1)从统计图表中看出,月收入的中位数是12(15+17)=16,收入增加,则支出也增加,x与y正线性相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e c2x拟合比用y^=b^x+a^拟合效果要好,则R21>R22,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.答案(1)C(2)①②考点二线性回归方程及应用【例2】(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:解(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.规律方法 1.(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x,y).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)本例中y 与x 不具有线性相关,先作变换,转化为y 与w 具有线性相关,求出y 关于w 的线性回归方程,然后进一步求解.【训练2】 (2018·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t -=2.2-3×1.2=-1.4, 所以z ^=1.2t -1.4.(2)将t=x-2 012,z=y-5,代入z^=1.2t-1.4,得y-5=1.2(x-2 012)-1.4,即y^=1.2x-2 410.8.(3)因为y^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.考点三独立性检验【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)解(1)利用分层抽样,300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:将2×2列联表中的数据代入公式计算,得K 2的观测值 k =300×(45×60-165×30)275×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表: (2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k ;(3)比较观测值k 与临界值的大小关系,作统计推断.【训练3】 (2018·合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少? (2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712. (2)根据统计数据,可得2×2列联表如下:则K 2的观测值为k =180×(60×45-30×45)2105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.基础巩固题组 (建议用时:40分钟)一、选择题1.为了判定两个分类变量X 和Y 是否有关系,应用独立性检验法算得K 2的观测值为5,又已知P (K 2≥3.841)=0.05,P (K 2≥6.635)=0.01,则下列说法正确的是( )A.有95%的把握认为“X 和Y 有关系”B.有95%的把握认为“X 和Y 没有关系”C.有99%的把握认为“X和Y有关系”D.有99%的把握认为“X和Y没有关系”解析依题意K2的观测值为k=5,且P(K2≥3.841)=0.05,因此有95%的把握认为“X和Y有关系”.答案 A2.(2018·石家庄模拟)下列说法错误的是()A.回归直线过样本点的中心(x,y).B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C.对分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小D.在回归直线方程y^=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位解析根据相关定义分析知A,B,D正确,C中对分类变量X与Y的随机变量K2的观测值k来说,k越大,判断“X与Y有关系”的把握程度越大,故C错误. 答案 C3.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示:^=b^x+a^,则大致可以判断()根据上述数据得到的回归方程为yA.a^>0,b^>0B.a^>0,b^<0C.a^<0,b^>0D.a^<0,b^<0^>0,a^<0.解析作出散点图,画出回归直线直观判定b答案 C4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2的观测值为k =110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 解析 根据独立性检验的定义,由K 2的观测值为k ≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”. 答案 A5.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160B.163C.166D.170解析 由已知得x =22.5,y =160, ∵回归直线方程过样本点中心(x ,y ), 且b^=4,∴160=4×22.5+a^,解得a^=70.∴回归直线方程为y^=4x+70,当x=24时,y^=166.答案 C二、填空题6.(2017·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,^为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.现发现表中有一个数据看不清,请你推断出该数据的值为________.解析由x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.答案687.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.附表:解析由列联表计算K2的观测值k=50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025.答案0.0258.(2018·长沙雅礼中学质检)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y^=b^x+a^中的b^=-2,预测当气温为-4 ℃时,用电量约为________度.解析根据题意知x=18+13+10+(-1)4=10,y=24+34+38+644=40.所以a^=40-(-2)×10=60,y^=-2x+60.所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.答案68三、解答题9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110. 所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人). 抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs . 其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6. (2)由题意,得K 2的观测值为k =80(30×20-20×10)2(30+20)(10+20)(30+10)(20+20) =163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.10.(2018·惠州模拟)某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如下表:(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.∴a^=y-b^x=42-1.7×8=28.4,故y关于x的线性回归方程是y^=1.7x+28.4.(2)∵0.75<0.93,∴二次函数回归模型更合适.当x=3时,y^=33.47.故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.能力提升题组(建议用时:20分钟)11.(2018·济南调研)济南市地铁R1线预计2019年年底开通运营,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:则下列结论正确的是()附:K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”解析 由2×2列联表,可求K 2的观测值, k =(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20) ≈5.288>3.841.由统计表P (K 2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”. 答案 A12.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________. 解析 x =9+9.5+m +10.5+115=8+m 5, y =11+n +8+6+55=6+n 5.回归直线一定经过样本中心(x ,y ), 即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案 1013.(2018·湖南百所重点中学阶段性诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元). 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.(3)∵x =2.5,y =5,12+22+32+42=30,1×4+2×4+3×6+4×6=54, ∴b^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3. 因此线性回归方程为y ^=0.8x +3. 当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.。

第九章 第三节 变量间的相关关系、统计案例

第九章  第三节  变量间的相关关系、统计案例

A.变量x与y正相关,u与v正相关 .变量 与 正相关 正相关, 与 正相关 B.变量x与y正相关,u与v负相关 .变量 与 正相关 正相关, 与 负相关 C.变量x与y负相关,u与v正相关 .变量 与 负相关 负相关, 与 正相关 D.变量x与y负相关,u与v负相关 .变量 与 负相关 负相关, 与 负相关
[究 疑 点] 究 1.相关关系与函数关系有何异同点? .相关关系与函数关系有何异同点? 提示:相同点:两者均是指两个变量的关系. 提示:相同点:两者均是指两个变量的关系. 不同点:(1)函数关系是一种确定关系,相关关系是一 函数关系是一种确定关系, 不同点: 函数关系是一种确定关系 种非确定的关系; 种非确定的关系; (2)函数关系是一种因果关系,而相关关系不一定是因 函数关系是一种因果关系, 函数关系是一种因果关系 果关系,也可能是伴随关系. 果关系,也可能是伴随关系.
2.根据独立性检验的基本思想,得出的两个分类变量有 .根据独立性检验的基本思想, 关系,这样的结论一定是正确的吗? 关系,这样的结论一定是正确的吗? 提示:在实际问题中, 提示:在实际问题中,独立性检验的结论仅仅是一种 数学关系,得出的结论也可能犯错误,比如: 数学关系,得出的结论也可能犯错误,比如:在推测 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 我们得到“吸烟与患肺癌有关”的结论, 我们得到“吸烟与患肺癌有关”的结论,并且有超过 99%的把握说明吸烟与患肺癌有关系,或者这个结论 的把握说明吸烟与患肺癌有关系, 的把握说明吸烟与患肺癌有关系 出错的概率为0.01以下.但实际上一个人吸烟也不一 以下. 出错的概率为 以下 定会患肺癌, 定会患肺癌,这是数学中的统计思维与确定性思维差 异的反映. 异的反映.

高考数学一轮复习第9章统计与统计案例第3节变量间的相关关系、统计案例课件

高考数学一轮复习第9章统计与统计案例第3节变量间的相关关系、统计案例课件

附:
P(K2≥k0) 0.100 0.050 0.025 0.010 0.001
A.0.1%
k0 2.706 3.841 5.024 6.635 10.828 B.1%
C.99%
D.99.9%
C [因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1- 0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.]
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg 箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2的观测值k=20100×0×621×006×6-963×4×103482≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
() (4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优 秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ) [答案] (1)× (2)√ (3)√ (4)×
2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近
视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,
关关系,故①正确;由散点图知用y=c1ec2x拟合比用 ^y = b^ x+ ^a 拟合效果要好,
则R
2 1
>R
2 2
,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③
错误.]
[规律方法] 判定两个变量正、负相关性的方法 1画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从 左上角到右下角,两个变量负相关. 2相关系数:r>0时,正相关;r<0时,负相关. 3线性回归方程中: 时,正相关; 时,负相关.

(全国通用版)2019版高考数学大一轮复习-第十章 统计与统计案例 第3节 变量的相关性课件 理 新

(全国通用版)2019版高考数学大一轮复习-第十章 统计与统计案例 第3节 变量的相关性课件 理 新
(1)“名师出高徒 ”可以解释为教师的教学水平与学生的水平成正相关关 系.( ) (2)通过回归直线方程^y=b^x+a^可以估计预报变量的取值和变化趋势.( ) (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关 性检验.( ) (4)事件 X,Y 关系越密切,则由观测数据计算得到的 χ2 的观测值越大.( ) 答案 (1)√ (2)√ (3)× (4)√
3.独立性检验 (1)2×2列联表
B B 合计
A n11 n12 n1+
A n21 n22 n2+
合计 n+1 n+2
n
其中n1+=n11+n12,n2+=n21+n22n,11n++n121 =____n_1_2_+__n_22,n+2=n11_+__n_21_+__n_1_2+__n_2,2 n=
规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就 有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系. 若点散布在从左下角到右上角的区域,则正相关. 2.利用相关系数判定,当|r|越趋近于 1 相关性越强.当残差平方和越小,相关指数 R2 越大,相关性越强.若 r>0,则正相关;r<0 时,则负相关. 3.线性回归直线方程中:b^>0 时,正相关;b^<0 时,负相关.
[常用结论与微点提醒] 1.求解回归方程的关键是确定回归系数a^,b^,应充分利用回归直线过样本中心点( x ,
y ). 2.根据 χ2 的值可以判断两个分类变量有关的可信程度,若 χ2 越大,则两分类变量有
关的把握越大. 3.根据回归方程计算的^y值,仅是一个预报值,不是真实发生的值.
诊断自 1.思考辨析(在括号内打“√”或测“×”)

最新高考数学总复习——第9章 第3节 变量间的相关关系与统计案例

最新高考数学总复习——第9章 第3节 变量间的相关关系与统计案例

i=1
yyii--y^yi22=1-94×118=1-18=78=0.875,
所以“污水净化量的差异”有87.5%是由年份引起的,这说明
回归方程预报的效果是良好的.
在线性回归分析中,只需利用公式求出回归直线方程 并利用其进行预测即可(注意回归直线过样本点的中心( x , y )),利 用回归方程进行预测,常把线性回归方程看作一次函数,求函数 值.
i=1
ti-
t
2∑ i=1
yi- y 2
线性回归方程y^=^a+b^t,
n
∑ b^=i=1
ti-
n
t
yi-
y
,^a=
y
-b^
t


i=1
ti- t 2
n
∑ 反映回归效果的公式为:R2=1-i=n1
yi-y^i2 ,

i=1
yi- y 2
其中R2越接近于1,表示回归的效果越好.
[解](1)由折线图中的数据得,
高考数学总复习
9.3 变量间的相关关 系与统计案例
1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从 左下角 到 右上角 的区域,对于两个 变量的这种相关关系,我们将它称为正相关. (2)负相关 在散点图中,点散布在从 左上角 到 右下角 的区域,两个变量 的这种相关关系称为负相关.
(3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在 一条直线
4.某同学家里开了一个小卖部,为了研究气温对某种冷饮销售
量的影响,他收集了一段时间内这种冷饮每天的销售量 y(杯)与当天
最高气温 x(℃)的有关数据,通过描绘散点图,发现 y 和 x 呈线性相
关关系,并求得其回归方程^y=2x+60.如果气象预报某天的最高气温

变量的相关关系、统计案例 2019高考数学专项复习精讲

变量的相关关系、统计案例   2019高考数学专项复习精讲
系数,这种方法能比较准确地反映其相关程度,相关系数的绝对值越接 近于1,相关性就越强,相关系数就是描述相关性强弱的.
1-1 为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某 班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),
y =bx+a近似地刻画其相关关系,根据图形,以下结论最 用回归直线方程
^
有可能成立的是 (
)
A.线性相关关系较强,b的值为1.25 B.线性相关关系较强,b的值为0.83 C.线性相关关系较强,b的值为-0.87 D.线性相关关系较弱,无研究价值
答案 B 由散点图可以看出两个变量所构成的点在一条直线附近,所 以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正 数,且从散点图观察,回归直线的斜率应该比直线y=x的斜率要小一些,综 上可知应选B.
考点二
回归方程的求法及回归分析
典例2 (2016课标全国Ⅲ,18,12分)下图是我国2008年至2014年生活垃 圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加
^
考点突破
考点一 相关关系的判断 典例1 (1)下列四个散点图中,变量x与y之间具有负的线性相关关系的 是 ( )
(2)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,
正确的是 (
)
A.r2<r4<0<r3<r1 C.r4<r2<0<r3<r1 B.r4<r2<0<r1<r3 D.r2<r4<0<r1<r3
答案
(1)D (2)A
解析
(1)观察散点图可知,只有D选项的散点图表示的是变量x与y之间

2019-2020年新人教A版高考数学大一轮复习第九章统计统计案例第三节变量间的相关关系与统计案例课件理

2019-2020年新人教A版高考数学大一轮复习第九章统计统计案例第三节变量间的相关关系与统计案例课件理

i=1
i=1
^b=



n
xi- x 2
n
xi2-n x 2

i=1
i=1
^a= y -^b x .
n
xi- x yi- y
i=1
^a= y -^b x ,^b=

n
xi- x 2
i=1
其中 x =n1i=n1xi, y =n1i=n1yi,( x , y )称为样本点的中心.
A.x 与 y 正相关,x 与 z 负相关 B.x 与 y 正相关,x 与 z 正相关 C.x 与 y 负相关,x 与 z 负相关 D.x 与 y 负相关,x 与 z 正相关
解析:选 C.因为 y=-0.1x+1 的斜率小于 0,故 x 与 y 负相关.因 为 y 与 z 正相关,可设 z=^by+^a,^b>0,则 z=^by+^a=-0.1^bx+^b+^a, 故 x 与 z 负相关.
四基精演练 1.思考辨析(在括号内打“√”或“×”) (1)利用样本点的散点图可以直观判断两个变量的关系是否可以用 线性关系来表示.( √ ) (2)通过回归方程^y =^bx+^a 可以估计和观测变量的取值和变化趋 势.( √ ) (3)任何一组数据都对应着一个回归直线方程.( × ) (4)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值 越大.( √ )
第三节 变量间的相关关系与统计案例
教材细梳理
知识点 1 变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相 关关系.与函数关系不同,相关关系是一种__非__确__定__性____关系.
(2)在散点图中,点散布在从左下角到右上角的区域内,两个变量的 这种相关关系称为___正__相__关_____,点散布在左上角到右下角的区域内, 两个变量的相关关系称为___负__相__关_____.
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2019-2020年高考数学大一轮复习第九篇统计与统计案例第3节变量的相关性与统计案例习题理基础对点练(时间:30分钟)1.(2016·河南八市重点高中高三4月质检)某疾病研究所想知道吸烟与患肺病是否有关,于是随机抽取1 000名成年人调查是否吸烟及是否患有肺病,得到2×2列联表,经计算得K2=5.231,已知在假设吸烟与患肺病无关的前提条件下,P(K2≥3.841)=0.05,P(K2≥6.635)=0.01,则该研究所可以( A )(A)有95%以上的把握认为“吸烟与患肺病有关”(B)有95%以上的把握认为“吸烟与患肺病无关”(C)有99%以上的把握认为“吸烟与患肺病有关”(D)有99%以上的把握认为“吸烟与患肺病无关”解析:根据K2值和临界值可知,选A.2.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图1;对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图2.由这两个散点图可以判断( C )(A)变量x与y正相关,u与v正相关(B)变量x与y正相关,u与v负相关(C)变量x与y负相关,u与v正相关(D)变量x与y负相关,u与v负相关解析:根据正相关、负相关的含义,可知变量x,y负相关、变量u,v正相关.故选C.且最后发现,两个分类变量X和Y没有任何关系,则m的可能值是( B )(A)200 (B)720 (C)100 (D)180解析:由题意得200m-800×180趋近于0,即m趋近于720.故可能值为720.故选B.4.(2016·吉林省高三联考)某研究机构对学生的记忆力x和判断力y进行统计分析,得如表数据:根据表中提供的数据,用最小二乘法求出y关于x的线性回归方程=x+中的的值为0.7,则为( C )(A)1.2 (B)-1.2 (C)-2.3 (D)7.5解析:因为=9,=4,所以=4-0.7×9=-2.3,故选C.5.设成年儿子身高y(单位:英寸)与父亲身高x(单位:英寸)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法求得的回归直线方程=33.73x+0.516,则下列结论中不正确的是( D )(A)y与x正相关(B)若=,=,则回归直线过点(,)(C)若父亲身高增加1英寸,则儿子身高约增加33.73英寸(D)若父亲身高增加1英寸,则儿子身高增加量必为33.73英寸解析:由回归直线方程得到的预测值是带有概率性质的,不是确定性的,故不正确的为选项 D.故选D.6.(2016·福建省高中毕业班质检)某公司为了增加其商品的销售利润,调查了该商品投入的由表中数据,得线性回归方程=x+(=,=-),则下列结论错误的是( D )(A)>0 (B)>0(C)直线过点(4,8) (D)直线过点(2,5)解析:变量x,y为正相关,故>0,结合散点图(图略)可知,>0,样本点的中心为(4,8),故直线过点(4,8),只能是选项D中的结论错误.7.以下四个命题中:①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②若数据x1,x2,x3,…,x n的方差为1,则2x1,2x2,2x3,…,2x n的方差为2;③两个随机变量的线性相关性越强,相关系数的绝对值越接近于1;④对分类变量x与y的随机变量K2的观测值k来说,k越小,判断“x与y有关”的把握越大. 其中真命题的个数为( A )(A)1 (B)2 (C)3 (D)4解析:①中的抽样方法为系统抽样,故①为假命题;②中,后面数据组的方差为4,故②为假命题;③为真命题;④中是k越大,判断“x与y有关”的把握越大,故④为假命题.故选A.8.观察如图所示的频率等高条形图,其中两个分类变量x,y之间关系最强的是( D )解析:频率等高条形图中x1,x2所占比例相差越大,则分类变量x,y关系越强,故选D.则考生的户口形式和高考录取的关系是.(填无关、多大把握有关)解析:2×2列联表如表统计假设H0:考生的户口形式对高考录取没有影响,计算K2的观测值k=≈0.11.我们接受统计假设,故考生的户口形式对高考录取没有影响.答案:无关10.(2016·广西柳州高三4月模拟)某城市城镇化改革过程中五年居民生活水平用水量逐年(1)利用所给数据求年居民生活用水量与年份之间的回归直线方程=x+;(2)根据改革方案,预计在2020年底城镇化改革结束,到时候居民的年生活用水量将趋于稳定,预计该城市2023年的居民生活用水量.参考公式:==,=-.解:(1)由题中数据知=2 013,=260.2,所以==13,所求的回归直线方程为-260.2=13(x-2 013),即=13(x-2 013)+260.2.(2)根据题意,该城市2023年的居民生活用水量与该城市2020年的居民生活用水量相当,当x=2 020时,满足(1)中所求的回归直线方程,此时=13(2 020-2 013)+260.2=351.2(万吨).答:该城市2023年的居民生活用水量预计为351.2万吨.能力提升练(时间:15分钟)A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如表:(A)甲 (B)乙 (C)丙(D)丁解析:因为r越大,m越小,线性相关性越强,故选D.,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5),根据收集到的数据可知x1+x2+x3+x4+x5=150,由最小二乘法求得回归直线方程为=0.67x+24.9,则y1+y2+y3+y4+y5等于( C )(A)45 (B)125.4 (C)225 (D)350.4解析:=30,代入回归直线方程,得=45,所以y1+y2+y3+y4+y5=5×45=225.故选C.13.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),若解释变量的值为10,则预报变量的值约为( C )(A)16.3 (B)17.3 (C)12.38 (D)2.03解析:设回归直线方程为=x+,根据已知5=1.23×4+,所以=0.08,所以=1.23×10+0.08=12.38.故选C.14.某社区医院为了了解社区老人与儿童每月患感冒的人数y(人)与月平均气温x(℃)之间由表中数据算出线性回归方程=x+中的≈-2,气象部门预测下个月的平均气温约为6 ℃,据此估计该社区医院下个月老年人与儿童患病人数约为.解析:因为=10,=38,所以38=-2×10+,得=58,所以回归直线方程为=-2x+58,代入x=6,得=46.答案:46,在若干地区各投入4万元广告费用,并将各地的销售收益绘制成频率分布直方图(如图所示).由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.(1)根据频率分布直方图计算图中各小长方形的宽度;(2)估计该公司投入4万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到表中的数据显示x与y之间存在线性相关关系,请将(2)的结果填入空白栏,并计算y关于x 的回归方程.回归直线的斜率和截距的最小二乘估计公式分别为=,=-.解:(1)设各小长方形的宽度为m,由频率分布直方图各小长方形面积总和为1,可知(0.08+0.1+0.14+0.12+0.04+0.02)·m=0.5m=1,故m=2.(2)由(1)知各小组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],其中点分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20,0.28,0.24,0.08,0.04,故可估计平均值为1×0.16+3×0.20+5×0.28+7×0.24+9×0.08+11×0.04=5(万元). (3)空白栏中填5.由题意可知,==3,==3.8,x i y i=1×2+2×3+3×2+4×5+5×7=69,=12+22+32+42+52=55,根据公式,可求得===1.2,=3.8-1.2×3=0.2,即回归直线的方程为=1.2x+0.2.好题天天练根据如表可得回归直线方程=x+中的为6.5.若要达到销售额不低于100万元的目的,需要最少投入广告费约为(四舍五入取整数)( D )(A)10万元(B)11万元(C)12万元(D)13万元解析:因为=5,=50,所以50=6.5×5+,解得=17.5,所以回归直线方程为=6.5x+17.5.由6.5x+17.5≥100,解得x≥,取x=13.故选D.,一个人脚掌越长,他的身高就越高,现对10名成年人的脚掌长(x i-)(y i-)=577.5,(x i-)2=82.5;某刑侦人员在某案发现场发现一对裸脚印,量得每个脚印长为26.5 cm,则估计案发嫌疑人的身高为cm.解题关键:由公式计算,再由回归直线经过样本点的中心计算.解析:回归直线的斜率===7,=24.5,=171.5,=-=0,即回归方程为=7x,当x=26.5时,=185.5(cm).答案:185.5。

相关文档
最新文档