2021高考数学一轮复习第九章统计与统计案例第3节变量间的相关关系与统计案例练习
高考知识点变量间的相关关系与统计案例
第3节变量间的相关关系与统计案例最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则^是回归方程的斜率,a^是在y轴上的截距.其中,b回归直线一定过样本点的中心(x,y).3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:其中21()ni i i y y =-∑是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量.[常用结论与微点提醒]1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x ,y ).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.诊断自测1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()答案(1)√(2)√(3)×(4)√2.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:则y对x的线性回归直线方程为()A.y^=2.3x-0.7B.y^=2.3x+0.7C.y^=0.7x-2.3D.y^=0.7x+2.3解析易求x=9,y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.答案 C3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.答案 A4.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案 D5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案5%考点一相关关系的判断【例1】(1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z 正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x 与z负相关.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;r<0时,则负相关.3.线性回归直线方程中:b^>0时,正相关;b^<0时,负相关.【训练1】(1)某公司在2018年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如下表所示:根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关指数为R21,用y^=b^x+a^拟合时的相关指数为R22,则R21>R22;③x,y之间不能建立线性回归方程.解析(1)从统计图表中看出,月收入的中位数是12(15+17)=16,收入增加,则支出也增加,x与y正线性相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e c2x拟合比用y^=b^x+a^拟合效果要好,则R21>R22,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.答案(1)C(2)①②考点二线性回归方程及应用【例2】(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:解(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.规律方法 1.(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x,y).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)本例中y 与x 不具有线性相关,先作变换,转化为y 与w 具有线性相关,求出y 关于w 的线性回归方程,然后进一步求解.【训练2】 (2018·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t -=2.2-3×1.2=-1.4, 所以z ^=1.2t -1.4.(2)将t=x-2 012,z=y-5,代入z^=1.2t-1.4,得y-5=1.2(x-2 012)-1.4,即y^=1.2x-2 410.8.(3)因为y^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.考点三独立性检验【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)解(1)利用分层抽样,300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:将2×2列联表中的数据代入公式计算,得K 2的观测值 k =300×(45×60-165×30)275×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表: (2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k ;(3)比较观测值k 与临界值的大小关系,作统计推断.【训练3】 (2018·合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少? (2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712. (2)根据统计数据,可得2×2列联表如下:则K 2的观测值为k =180×(60×45-30×45)2105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.基础巩固题组 (建议用时:40分钟)一、选择题1.为了判定两个分类变量X 和Y 是否有关系,应用独立性检验法算得K 2的观测值为5,又已知P (K 2≥3.841)=0.05,P (K 2≥6.635)=0.01,则下列说法正确的是( )A.有95%的把握认为“X 和Y 有关系”B.有95%的把握认为“X 和Y 没有关系”C.有99%的把握认为“X和Y有关系”D.有99%的把握认为“X和Y没有关系”解析依题意K2的观测值为k=5,且P(K2≥3.841)=0.05,因此有95%的把握认为“X和Y有关系”.答案 A2.(2018·石家庄模拟)下列说法错误的是()A.回归直线过样本点的中心(x,y).B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C.对分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小D.在回归直线方程y^=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位解析根据相关定义分析知A,B,D正确,C中对分类变量X与Y的随机变量K2的观测值k来说,k越大,判断“X与Y有关系”的把握程度越大,故C错误. 答案 C3.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示:^=b^x+a^,则大致可以判断()根据上述数据得到的回归方程为yA.a^>0,b^>0B.a^>0,b^<0C.a^<0,b^>0D.a^<0,b^<0^>0,a^<0.解析作出散点图,画出回归直线直观判定b答案 C4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2的观测值为k =110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 解析 根据独立性检验的定义,由K 2的观测值为k ≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”. 答案 A5.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160B.163C.166D.170解析 由已知得x =22.5,y =160, ∵回归直线方程过样本点中心(x ,y ), 且b^=4,∴160=4×22.5+a^,解得a^=70.∴回归直线方程为y^=4x+70,当x=24时,y^=166.答案 C二、填空题6.(2017·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,^为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.现发现表中有一个数据看不清,请你推断出该数据的值为________.解析由x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.答案687.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.附表:解析由列联表计算K2的观测值k=50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025.答案0.0258.(2018·长沙雅礼中学质检)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y^=b^x+a^中的b^=-2,预测当气温为-4 ℃时,用电量约为________度.解析根据题意知x=18+13+10+(-1)4=10,y=24+34+38+644=40.所以a^=40-(-2)×10=60,y^=-2x+60.所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.答案68三、解答题9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110. 所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人). 抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs . 其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6. (2)由题意,得K 2的观测值为k =80(30×20-20×10)2(30+20)(10+20)(30+10)(20+20) =163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.10.(2018·惠州模拟)某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如下表:(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.∴a^=y-b^x=42-1.7×8=28.4,故y关于x的线性回归方程是y^=1.7x+28.4.(2)∵0.75<0.93,∴二次函数回归模型更合适.当x=3时,y^=33.47.故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.能力提升题组(建议用时:20分钟)11.(2018·济南调研)济南市地铁R1线预计2019年年底开通运营,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:则下列结论正确的是()附:K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”解析 由2×2列联表,可求K 2的观测值, k =(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20) ≈5.288>3.841.由统计表P (K 2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”. 答案 A12.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________. 解析 x =9+9.5+m +10.5+115=8+m 5, y =11+n +8+6+55=6+n 5.回归直线一定经过样本中心(x ,y ), 即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案 1013.(2018·湖南百所重点中学阶段性诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元). 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.(3)∵x =2.5,y =5,12+22+32+42=30,1×4+2×4+3×6+4×6=54, ∴b^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3. 因此线性回归方程为y ^=0.8x +3. 当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.。
第3讲 变量间的相关关系与统计案例
K
2
a b a c c d b d
n ad bc
2
[审题视点] 第(2)问由a=40,b=30,c=160,d=270,代 入公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样 方法说明.
6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量 称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1 y2 总计 x1 a b a+b x2 总计 c a+c c+d b+d a+b+c+d d
解析 从散点图看,散点图的分布成团状,无任 何规律,所以两个变量不具有线性相关关系.
考向二
独立性检验
【例2】(2010·全国新课标)为调查某地区老年人是否需要志愿者 提供帮助,用简单随机抽样方法从该地区调查了500位老年人, 结果如下: 性别
是否需要志愿者 需要 不需要 男 女 40 160 30 270
从散点图上看,点散布在从左下角到右上角的区域内,对 于两个变量的这种相关关系,我们将它称为正相关;点散 布在从左上角到右下角的区域内,两个变量的这种相关关 系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条 直线附近,则称这两个变量之间具有线性相关关系,这 条直线叫回归直线.
5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误 差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:
R2
y
n i 1 n i 1
第九章 第三节 变量间的相关关系、统计案例
A.变量x与y正相关,u与v正相关 .变量 与 正相关 正相关, 与 正相关 B.变量x与y正相关,u与v负相关 .变量 与 正相关 正相关, 与 负相关 C.变量x与y负相关,u与v正相关 .变量 与 负相关 负相关, 与 正相关 D.变量x与y负相关,u与v负相关 .变量 与 负相关 负相关, 与 负相关
[究 疑 点] 究 1.相关关系与函数关系有何异同点? .相关关系与函数关系有何异同点? 提示:相同点:两者均是指两个变量的关系. 提示:相同点:两者均是指两个变量的关系. 不同点:(1)函数关系是一种确定关系,相关关系是一 函数关系是一种确定关系, 不同点: 函数关系是一种确定关系 种非确定的关系; 种非确定的关系; (2)函数关系是一种因果关系,而相关关系不一定是因 函数关系是一种因果关系, 函数关系是一种因果关系 果关系,也可能是伴随关系. 果关系,也可能是伴随关系.
2.根据独立性检验的基本思想,得出的两个分类变量有 .根据独立性检验的基本思想, 关系,这样的结论一定是正确的吗? 关系,这样的结论一定是正确的吗? 提示:在实际问题中, 提示:在实际问题中,独立性检验的结论仅仅是一种 数学关系,得出的结论也可能犯错误,比如: 数学关系,得出的结论也可能犯错误,比如:在推测 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 我们得到“吸烟与患肺癌有关”的结论, 我们得到“吸烟与患肺癌有关”的结论,并且有超过 99%的把握说明吸烟与患肺癌有关系,或者这个结论 的把握说明吸烟与患肺癌有关系, 的把握说明吸烟与患肺癌有关系 出错的概率为0.01以下.但实际上一个人吸烟也不一 以下. 出错的概率为 以下 定会患肺癌, 定会患肺癌,这是数学中的统计思维与确定性思维差 异的反映. 异的反映.
高考数学一轮复习第9章统计与统计案例第3节变量间的相关关系、统计案例课件
附:
P(K2≥k0) 0.100 0.050 0.025 0.010 0.001
A.0.1%
k0 2.706 3.841 5.024 6.635 10.828 B.1%
C.99%
D.99.9%
C [因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1- 0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.]
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg 箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2的观测值k=20100×0×621×006×6-963×4×103482≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
() (4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优 秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ) [答案] (1)× (2)√ (3)√ (4)×
2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近
视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,
关关系,故①正确;由散点图知用y=c1ec2x拟合比用 ^y = b^ x+ ^a 拟合效果要好,
则R
2 1
>R
2 2
,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③
错误.]
[规律方法] 判定两个变量正、负相关性的方法 1画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从 左上角到右下角,两个变量负相关. 2相关系数:r>0时,正相关;r<0时,负相关. 3线性回归方程中: 时,正相关; 时,负相关.
2021高考数学一轮复习第九章统计与统计案例第3节变量间的相关关系与统计案例课件
D.模型 4 的相关指数 R2 为 0.25 解析:在两个变量 y 与 x 的回归模型中,它们的相关
指数 R2 越近于 1,模拟效果越好,在四个选项中 A 的相
关指数最大,所以拟合效果最好的是模型 1.
答案:A
2021高考数学一轮复习第九章统计与统计案 例第3节变量间的相关关系与统计案例课件
15
2021/4/17
________. 2021高考数学一轮复习第九章统计与统计案 例第3节变量间的相关关系与统计案例课件
13
解析:K2 的观测值 k≈4.844>3.841.根据假设检验的 基本原理,应该断定“选择文科与性别之间有关系”成立, 并且这种判断出错的可能性约为 5%.
答案:5%
2021/4/17
2021高考数学一轮复习第九章统计与统计案 例第3节变量间的相关关系与统计案例课件
18
2021/4/17
6.某医疗机构通过抽样调查(样本容量 n=1 000), 利用 2×2 列联表和 K2 统计量研究患肺病是否与吸烟有 关.计算得 K2=4.453,经查阅临界值表知 P(K2≥3.841) ≈0.05,现给出四个结论,其中正确的是( )
A.在 100 个吸烟的人中约有 95 个人患肺病 B.若某人吸烟,那么他有 95%的可能性患肺病 C.有 95%的把握认为“患肺病与吸烟有关” D.只有 5%的把握认为“患肺病与吸烟有关”
生的水平成正相关关系.( )
(2)通过回归直线方程^y =^b x+^a 可以估计预报变量的
取值和变化趋势.( )
(3)因为由任何一组观测值都可以求得一个线性回归
方程,所以没有必要进行相关性检验.( )
(4)事件 X,Y 关系越密切,则由观测数据计算得到的
高考数学(文)一轮复习 9-3变量相关关系与统计案例
x2}和{y1,y2},其样本频数列联表(称为 2×2 列联表)为
y1 y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c b+d a+b+c+d
10
板块一
板块二
板块三
板块四
高考一轮总复习 ·数学(文)
2.独立性检验 利用随机变量 K2=a+bcn+add-ab+cc2b+d(其中 n=a +b+c+d 为样本容量)来判断“两个变量有关系”的方法 称为独立性检验. 步骤如下: (1)计算随机变量 K2 的观测值 k,查表确定临界值 k0:
18
板块一
板块二
板块三
板块四
高考一轮总复习 ·数学(文)
解析 由已知数据可得有 1-0.05=95%的把握认为 “患肺病与吸烟有关”.
19
板块一
板块二
板块三
板块四
高考一轮总复习 ·数学(文)
4.[2015·湖北高考]已知变量 x 和 y 满足关系 y=-0.1x +1,变量 y 与 z 正相关.下列结论中正确的是( )
20
板块一
板块二
板块三
板块四
高考一轮总复习 ·数学(文)
5.[2017·南昌模拟]某单位为了了解用电量 y(度)与气温 x(℃)之间的关系,随机统计了某 4 天的用电量与当天气温, 并制作了对照表:
气温(℃) 18 13 10 -1 用电量(度) 24 34 38 64 由表中数据得回归直线方程^y=b^x+a^中的b^=-2,预测 当气温为-4 ℃时,用电量为___6_8____.
A.x 与 y 正相关,x 与 z 负相关 B.x 与 y 正相关,x 与 z 正相关 C.x 与 y 负相关,x 与 z 负相关 D.x 与 y 负相关,x 与 z 正相关 解析 因为 y=-0.1x+1 的斜率小于 0,故 x 与 y 负相 关.因为 y 与 z 正相关,可设 z=b^y+a^,b^>0,则 z=b^y+a^ =-0.1b^x+b^+a^,故 x 与 z 负相关.
2021届高考数学一轮复习第九篇统计与统计案例第3节变量的相关性与统计案例训练理新人教版
2021届高考数学一轮复习第九篇统计与统计案例第3节变量的相关性与统计案例训练理新人教版知识点、方法题号散点图1,14回来分析3,4,6,8,10,12独立性检验2,5,7,9,11综合应用13,14基础巩固(时刻:30分钟)1.观看下列散点图,其中两个变量的相关关系判定正确的是( D )(A)a为正相关,b为负相关,c为不相关(B)a为负相关,b为不相关,c为正相关(C)a为负相关,b为正相关,c为不相关(D)a为正相关,b为不相关,c为负相关解析:依照散点图,由相关性可知:图a各点散布在从左下角到右上角的区域里,是正相关;图b中各点分布不成带状,相关性不明确,因此不相关;图c中各点分布在从左上方到右下方的区域里,是负相关.故选D.2.通过随机询问200名性别不同的大学生是否爱好踢毽子运动,运算得到统计量K2的观测值P(K2≥k0) 0.10 0.05 0.025 k0 2.706 3.841 5.024(B)有97.5%以上的把握认为“爱好该项运动与性别无关”(C)在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”(D)在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”解析:因为K2的观测值k≈4.892>3.841,因此有95%以上的把握认为“爱好该项运动与性别有关”.故选C.3.依照如下样本数据:x 3 4 5 6 7y 4.0 a-5.4 -0.5 0.5 b-0.6(A)增加1.4个单位(B)减少1.4个单位(C)增加7.9个单位(D)减少7.9个单位解析:依题意得=0.9,故a+b=6.5, ①又样本点的中心为(5,0.9),故0.9=5b+a, ②联立①②,解得b=-1.4,a=7.9,则=-1.4x+7.9,可知当x每增加1个单位时,y就减少1.4个单位.故选B.4.(2021·山东济宁市一模)某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如表所示:x 16 17 18 19y 50 34 41 31由表可得回来直线方程=x+中的=-4,据此模型推测零售价为20元时,每天的销售量为( D )(A)26个 (B)27个(C)28个(D)29个解析: ==17.5,==39.将(,)代入回来方程得39=-4×17.5+,解得=109.因此回来方程为=-4x+109.当x=20时, =-4×20+109=29.故选D.Yy1y2总计Xx1 a 10 a+10x2 c 30 c+30总计60 40 100对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为( A )(A)a=45,c=15 (B)a=40,c=20(C)a=35,c=25 (D)a=30,c=30解析:当与相差越大,X与Y有关系的可能性越大,即a,c相差越大,与相差越大.故选A.6.(2021·延边州仿真)某公司在2020~2021年的收入与支出情形如表所示:收入x(亿元) 2.2 2.6 4.0 5.3 5.9支出y(亿元) 0.2 1.5 2.0 2.5 3.8 依照表中数据可得回来直线方程为=0.8x+,依此估量假如2020年该公司收入为7亿元时的支出为( B )(A)4.5亿元(B)4.4亿元(C)4.3亿元(D)4.2亿元解析: =×(2.2+2.6+4.0+5.3+5.9)=4, =×(0.2+1.5+2.0+2.5+3.8)=2,因此=2-0.8×4=-1.2,因此回来直线方程为=0.8x-1.2,当x=7时, =0.8×7-1.2=4.4(亿元),即2020年该公司收入为7亿元时的支出为4.4亿元.故选B.7.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:喜爱打篮球不喜爱打篮球总计男生20 5 25 女生10 15 25 总计30 20 50则在犯错误的概率不超过的前提下认为喜爱打篮球与性别有关(请用百分数表示).P(K2≥k0) 0.10 0.05 0.025 0.010 0.005 0.001 k0 2.706 3.841 5.024 6.635 7.879 10.828解析:K2==≈8.333>7.879.答案:0.5%8.某数学老师身高176 cm,他爷爷、父亲和亲小孩的身高分别是173 cm、170 cm和182 cm.因亲小孩的身高与父亲的身高有关,该老师用线性回来分析的方法推测他孙子的身高为cm.父亲身高173 170 176亲小孩身高170 176 182设回来直线方程=+x,由表中的三组数据可求得=1,故=-=176-173=3,故回来直线方程为=3+x,将x=182代入得孙子的身高为185 cm.答案:185能力提升(时刻:15分钟)9.为了研究高中学生对乡村音乐的态度(喜爱和不喜爱两种态度)与性别的关系,运用2×2列联表进行独立性检验,经运算K2=8.01,则认为“喜爱乡村音乐与性别有关系”的把握性约为( C )P(K2≥k0) 0.100 0.050 0.025 0.010 0.001 k0 2.706 3.841 5.024 6.635 10.828 (A)0.1% (B)1% (C)99% (D)99.9%解析:因为K2=8.01>6.635,对比表格:P(K2≥k0) 0.100 0.050 0.025 0.010 0.001 k0 2.706 3.841 5.024 6.635 10.828 因此有99%的把握说喜爱乡村音乐与学生性别有关系.故选C.10.(2021·河南濮阳市一模)在利用最小二乘法求回来方程=0.67x+54.9时,用到了表中的5x 10 20 30 40 50 y 62 a 75 81 89(A)68 (B)70 (C)75 (D)72解析:由题意可得= (10+20+30+40+50)=30,= (62+a+75+81+89),因为回来直线=0.67x+54.9过样本点的中心,因此 (a+307)=0.67×30+54.9,解得a=68.故选A.11.(2021·福建省高中毕业班质检)某公司为了增加其商品的销售利润,调查了该商品投入的广告费用x与销售利润y的统计数据如表:广告费用x(万元) 2 3 5 6销售利润y(万元) 5 7 9 11由表中数据,得线性回来方程=x+ (=,=-),则下列结论错误的是( D )(A) >0 (B) >0(C)直线过点(4,8) (D)直线过点(2,5)解析:变量x,y为正相关,故>0,结合散点图(图略)可知, >0,样本点的中心为(4,8),故直线过点(4,8),只能是选项D中的结论错误.12.为了判定高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:理科文科总计男13 10 23女7 20 27总计20 30 50已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.依照表中数据,得到K2的观测值k=≈4.844,则有的把握认为选修文科与性别有关.解析:由题意知,K2=≈4.844,因为5.024>4.844>3.841,因此有95%的把握认为选修文科与性别有关.答案:95%13.某都市随机抽取一年(365天)内100天的空气质量指数AQI的监测数据,结果统计如下:AQI [0,50] (50,100](100,150]150,200](200,250](250,300](300,+∞)空气质量优良轻微污染轻度污染中度污染中度重污染重度污染天数 4 13 18 30 9 11 15 (1)若某企业每天由空气污染造成的经济缺失S(单位:元)与空气质量指数AQI(记为ω)的关系式为S=试估量在本年内随机抽取一天,该天经济缺失S大于400元且不超过700元的概率;(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染,完成下面2×2列联表,并判定能否有95%的把握认为该市本年空气重度污染与供暖有关?附:P(K2≥k0) 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828K2=非重度污染重度污染合计供暖季非供暖季合计100 解:(1)记“在本年内随机抽取一天,该天经济缺失S大于400元且不超过700元”为事件A. 由400<S≤700,即400<3ω-200≤700,解得200<ω≤300,其满足条件天数为20.因此P(A)==.非重度污染重度污染合计供暖季22 8 30非供暖季63 7 70合计85 15 100K2=≈4.575>3.841,因此有95%的把握认为该市本年空气重度污染与供暖有关.14. (2020·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的阻碍.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(x i-)2(w i-)2(x i-)(y i-) (w i-)(y i-) 46.6 563 6.8 289.8 1.6 1 469 108.8表中w i=,=w i,(1)依照散点图判定,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回来方程类型?(给出判定即可,不必说明理由)(2)依照(1)的判定结果及表中数据,建立y关于x的回来方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x,依照(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:关于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回来直线v=α+βu的斜率和截距的最小二乘估量分别为=,=-.解:(1)由题目散点图能够判定,y=c+d适宜作为年销售量y关于年宣传费x的回来方程类型.(2)令w=,先建立y关于w的线性回来方程.由于===68,=-=563-68×6.8=100.6,因此y关于w的线性回来方程为=100.6+68w,因此y关于x的回来方程为=100.6+68. (3)①由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,年利润z的预报值=576.6×0.2-49=66.32.②依照(2)的结果知,年利润z的预报值=0.2(100.6+68)-x=-x+13.6+20.12.因此当==6.8,即x=46.24时,取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。
2021高考数学考点冲破——统计与统计案例变量间的相关关系与统计案例学案
变量间的相关关系与统计案例【考点梳理】 1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常常利用方式;判断相关性的常常利用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,咱们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)若是散点图中点的散布从整体上看大致在一条直线周围,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方式叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑ni =1 x i -x y i -y∑ni =1 x i -x 2=∑ni =1x i y i -n x y ∑ni =1x 2i -n x2,a ^=y -b^x .其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估量值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数:R 2=1-∑ni =1 y i -y ^i2∑ni =1 y i -y 2.4.独立性查验(1)利用随机变量K 2来判断“两个分类变量有关系”的方式称为独立性查验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值别离为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +d则随机变量K 2=n ad -bc 2a +ba +cb +dc +d(其中n =a +b +c +d 为样本容量).【考点冲破】考点一、相关关系的判断【例1】(1)两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右别离反映的变量间的相关关系是( )A .①②③B .②③①C .②①③D .①③②(2)已知变量x 和y 知足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关(3)对四组数据进行统计,取得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3[答案] (1) D (2) C (3) A[解析] (1)第一个散点图中,散点图中的点是从左下角区域散布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域散布到右下角区域,则是负相关;第二个散点图中,散点图中的点的散布没有什么规律,则是不相关,所以应该是①③②.(2)因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y+a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.(3)由相关系数的概念和散点图所表达的含义可知r 2<r 4<0<r 3<r 1. 【类题通法】1.利用散点图判断两个变量是不是有相关关系是比较直观简便的方式.若是所有的样本点都落在某一函数的曲线周围,变量之间就有相关关系.若是所有的样本点都落在某一直线周围,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的区域,则负相关.2.利用相关系数判定,当|r |越趋近于1,相关性越强. 当残差平方和越小,相关指数R 2越大,相关性越强. 【对点训练】1.在一次对人体脂肪含量和年龄关系的研究中,研究人员取得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.按照该图,下列结论中正确的是( )A .人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B .人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C .人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D .人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20% [答案] B[解析] 因为散点图呈现上升趋势,故人体脂肪含量与年龄正相关;因为中间两个数据大约介于15%到20%之间,故脂肪含量的中位数小于20%.2.四名同窗按照各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,别离取得以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中必然不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④[答案] D[解析] 正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④.3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0C .12D .1[答案] D[解析] 因为所有样本点都在直线y =12x +1上,所以这组样本数据完全正相关,故其相关系数为1.考点二、线性回归方程及应用【例2】某地随着经济的发展,居民收入逐年增加,下表是该地某银行持续五年的储蓄存款(年末余额),如下表1:为了研究计算的方便,工作人员将上表的数据进行了处置,t =x -2 012,z =y -5取得下表2:(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2021年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )[解析] (1)由已知,得t =3,z =2.2,∑i =15t i z i =45,∑i =15t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t =2.2-1.2×3=-1.4,∴z ^=1.2t -1.4.(2)将t =x -2 012,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 012)-1.4,即y ^=1.2x -2 410.8. (3)∵y ^=1.2×2 020-2 410.8=13.2,∴预测到2021年年底,该地储蓄存款额可达13.2千亿元.【类题通法】回归直线方程中系数的2种求法(1)公式法:利用公式,求出回归系数b ^,a ^.(2)待定系数法:利用回归直线过样本点中心(x ,y )求系数. 【对点训练】某公司为肯定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处置,取得下面的散点图及一些统计量的值.xyw∑i =18(x i -x )2∑i =18(w i -w )2∑i =18(x i -x )(y i -y )∑i =18(w i -w )(y i -y )46.65636.8289.81.61 469108.8表中w i =x i ,w =18∑i =18w i .(1)按照散点图判断,y =a +bx 与y =c +d x 哪个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,没必要说明理由)(2)按照(1)的判断结果及表中数据,成立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .按照(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估量别离为β^=∑i =1nu i -uv i -v∑i =1nu i -u2,α^=v -β^u .[解析] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先成立y 关于w 的线性回归方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②按照(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.【例3】如图是我国2021年至2021年生活垃圾无害化处置量(单位:亿吨)的折线图.注:年份代码1~7别离对应年份2021~2021.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)成立y 关于t 的回归方程(系数精准到0.01),预测2021年我国生活垃圾无害化处置量. 参考数据:∑ 7i =1y i =9.32,∑ 7i =1t i y i =40.17,∑7i =1y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑ni =1t i -ty i -y∑ ni =1t i -t2∑ni =1y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估量公式别离为b ^=∑ni =1t i -ty i -y∑ ni =1t i -t2,a ^=y --b ^t .[解析] (1)由折线图中的数据和附注中的参考数据得 t =4,∑ 7i =1(t i -t )2=28,∑7i =1y i -y2=0.55,∑7i =1(t i -t )(y i -y )=∑ 7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89, 所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑ 7i =1t i -t y i -y∑7i =1t i -t2=2.8928≈0.103. a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t .将2021年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82.所以预测2021年我国生活垃圾无害化处置量约为1.82亿吨. 【类题通法】线性回归分析就是研究两组变量间线性相关关系的一种方式,通过对统计数据的分析,可以预测可能的结果,这就是线性回归方程的大体应用,因此利用最小二乘法求线性回归方程是关键,必需熟练掌握线性回归方程中两个重要估量量的计算. 【对点训练】为了监控某种零件的一条生产线的生产进程,查验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm ).下面是查验员在一天内依次抽取的16个零件的尺寸:经计算得16119.9716i i x x ===∑,0.212s ==≈,18.439≈,161()(8.5) 2.78i i x x i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =⋅⋅⋅.(1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是不是可以以为这一天生产的零件尺寸不随生产进程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,若是出现了尺寸在(3,3)x s x s -+之外的零件,就以为这条生产线在这一天的生产进程可能出现了异样情况,需对当天的生产进程进行检查.(i)从这一天抽检的结果看,是不是需对当天的生产进程进行检查?(ii)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估量这条生产线当天生产的零件尺寸的均值与标准差.(精准到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数()()niix x y y r --=∑,0.09≈.[解析] (1)由样本数据得(,)(1,2,,16)i x i i =的相关系数为16()(8.5)0.18ix x i r --==≈-∑.由于||0.25r <,因此可以以为这一天生产的零件尺寸不随生产进程的进行而系统地变大或变小.(2)(i)由于9.97,0.212x s =≈,由样本数据可以看出抽取的第13个零件的尺寸在(3,3)x s x s -+之外,因此需对当天的生产进程进行检查.(ii)剔除离群值,即第13个数据,剩下数据的平均数为1(169.979.22)10.0215⨯-=,这条生产线当天生产的零件尺寸的均值的估量值为10.02.162221160.212169.971591.134ii x==⨯+⨯≈∑,剔除第13个数据,剩下数据的样本方差为221(1591.1349.221510.02)0.00815--⨯≈,0.09≈.考点三、独立性查验【例4】海水养殖场进行某水产品的新、旧网箱养殖方式的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率散布直方图如下:(1)设两种养殖方式的箱产量彼此独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并按照列联表判断是不是有99%的把握以为箱产量与养殖方式有关:箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)按照箱产量的频率散布直方图,求新养殖法箱产量的中位数的估量值(精准到0.01).附:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828K2=n ad-bc2a+b c+d a+c b+d.[解析] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估量值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P (C )的估量值为0.66.因此,事件A 的概率估量值为0.62×0.66=0.409 2. (2)由(1)知可得列联表箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466由表中数据及K 2的计算公式得, K 2=200×62×66-34×382100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握以为箱产量与养殖方式有关.(3)因为新养殖法的箱产量频率散布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估量值为50+0.5-0.340.068≈52.35(kg). 【类题通法】解决独立性查验的应用问题,必然要依照独立性查验的步骤得出结论.独立性查验的一般步骤:(1)按照样本数据制成2×2列联表; (2)按照公式K 2=n ad -bc 2a +ba +cb +dc +d计算K 2的观测值k ;(3)比较k 与临界值的大小关系,作统计推断. 【对点训练】为了了解某学校高二年级学生的物理成绩,从中抽取n 名学生的物理成绩(百分制)作为样本,按成绩分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],频率散布直方图如图所示,成绩落在[70,80)中的人数为20.(1)求a 和n 的值;(2)按照样本估量整体的思想,估量该校高二学生物理成绩的平均数x -和中位数m ; (3)成绩在80分以上(含80分)为优秀,样本中成绩落在[50,80)中的男、女生人数比为1∶2,成绩落在[80,100)中的男、女生人数比为3∶2,完成2×2列联表,并判断可否在犯错误的概率不超过0.05的前提下以为物理成绩优秀与性别有关.男生女生合计优秀 不优秀 合计附:参考公式和数据:K 2=n ad -bc 2a +bc +d a +cb +d, P (K 2≥k 0)0.500.05 0.025 0.005 k 00.4553.8415.0247.879[解析] (1)由题意得10a =1-(0.005+0.01+0.015+0.02)×10=0.5, 解得a =0.05,则n =2010×0.05=40.(2)由频率散布直方图可知各组的频率别离为0.05,0.2,0.5,0.15,0.1, 所以x -=55×0.05+65×0.2+75×0.5+85×0.15+95×0.1=75.5, (m -70)×0.05=0.5-(0.05+0.2),得m =75.(3)由频率散布直方图可知成绩优秀的人数为40×(0.015+0.01)×10=10,则不优秀的人数为40-10=30.所以优秀的男生为6人,女生为4人; 不优秀的男生为10人,女生为20人. 所以2×2列联表如下:男生 女生 总计 优秀 6 4 10 不优秀 10 20 30 总计162440所以K 2=40×6×20-4×10216×24×10×30≈2.222<3.841,所以在犯错误的概率不超0.05的前提下不能以为物理成绩优秀与性别有关.。
第九章 第三节 变量间的相关关系与统计案例
2.回归方程 (1)最小二乘法:
求回归直线使得样本数据的点到它的距离的平方和最小 的方法叫做最小二乘法.
返回
(2)回归方程: 方程^y =^bx+^a是两个具有线性相关关系的变量的一组数 据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中^a,^b是 待定参数.
n
xi--x yi--y
^
b
=
i=1
0.01,
^
a
=
y
-
^
b
x
=0.47,∴
^
y
=0.01x+0.47,令x=6,得
^
y
=0.53.
[答案] (1)B (2)0.5 0.53
返回
[悟一法] 1.求回归方程,关键在于正确求出系数^a,^b由于计算量较
大,所以计算时要仔细谨慎,分层进行,避免因计算产 生失误,特别注意,只有在散点图大体呈线性时,求出 的回归方程才有意义. 2.利用回归方程可以估计总体,它是回归方程所反映的规律 的延伸,可使我们对有线性相关关系的两个变量进行分 析和控制.
返回
4.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别,
像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假
设有两个分类变量X和Y,它们的可能取值分别为{x1, x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
返回
2×2列联表
x1 x2 总计
返回
1.两个变量的线性相关 (1)正相关:
在散点图中,点散布在从 左下角 到右上角的区域,对于 两个变量的这种相关关系,我们将它称为正相关.
返回
(2)负相关: 在散点图中,点散布在从 左上角 到 右下角的区域,两 个变量的这种相关关系称为负相关.
近年高考数学一轮复习第9章统计与统计案例9.3变量间的相关关系与统计案例课后作业文(2021年整理)
2019版高考数学一轮复习第9章统计与统计案例9.3 变量间的相关关系与统计案例课后作业文编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2019版高考数学一轮复习第9章统计与统计案例9.3 变量间的相关关系与统计案例课后作业文)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2019版高考数学一轮复习第9章统计与统计案例9.3 变量间的相关关系与统计案例课后作业文的全部内容。
9.3 变量间的相关关系与统计案例[重点保分两级优选练]A级一、选择题1.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且错误!=2.347x-6。
423;②y与x负相关且错误!=-3。
476x+5。
648;③y与x正相关且错误!=5.437x+8.493;④y与x正相关且错误!=-4。
326x-4。
578。
其中一定不正确的结论的序号是( )A.①② B.②③ C.③④ D.①④答案D解析由回归直线方程错误!=错误!x+错误!,知当错误!〉0时,y与x正相关;当错误!〈0时,y与x负相关.∴①④一定错误.故选D。
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2〈r4<0<r3<r1 B.r4〈r2〈0〈r1〈r3C.r4<r2〈0〈r3<r1 D.r2<r4<0<r1〈r3答案A解析易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r2〈r4<0〈r3<r1.故选A。
近年高考数学一轮复习第9章统计与统计案例9.3变量间的相关关系与统计案例课后作业理(2021年整理)
2019版高考数学一轮复习第9章统计与统计案例9.3 变量间的相关关系与统计案例课后作业理编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2019版高考数学一轮复习第9章统计与统计案例9.3 变量间的相关关系与统计案例课后作业理)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2019版高考数学一轮复习第9章统计与统计案例9.3 变量间的相关关系与统计案例课后作业理的全部内容。
9。
3 变量间的相关关系与统计案例[重点保分两级优选练]A级一、选择题1.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且错误!=2.347x-6。
423;②y与x负相关且错误!=-3.476x+5.648;③y与x正相关且错误!=5。
437x+8。
493;④y与x正相关且错误!=-4.326x-4。
578.其中一定不正确的结论的序号是( )A.①② B.②③ C.③④ D.①④答案D解析由回归直线方程错误!=错误!x+错误!,知当错误!>0时,y与x正相关;当错误!〈0时,y与x负相关.∴①④一定错误.故选D。
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4〈0〈r3〈r1 B.r4<r2<0〈r1〈r3C.r4<r2〈0〈r3<r1 D.r2〈r4〈0〈r1<r3答案A解析易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.故选A.3.(2018·辽宁沈阳二中一模)某考察团对全国10大城市居民人均工资水平x(千元)与居民人均消费水平y(千元)进行统计调查,y与x具有相关关系,回归方程为错误!=0。
2021新高考数学新课程一轮复习:第九章 第3讲 变量间的相关关系与统计案例含解析
第3讲变量间的相关关系与统计案例组基础关1.观察下列各图形:其中两个变量x,y具有相关关系的图是()A.①②B.①④C.③④D.②③答案 C解析观察散点图可知,两个变量x,y具有相关关系的图是③④.2.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r 0.820.780.690.85m 106115124103() A.甲B.乙C.丙D.丁答案 D解析在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两个变量有更强的线性相关性.故选D.3.(2019·湖北省七市(州)教科研协作体联考)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据:(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5).根据收集到的数据可知x1+x2+x3+x4+x5=100,用最小二乘法求得回归直线方程为y ^=0.67x +54.8,则y 1+y 2+y 3+y 4+y 5的值为( )A .68.2B .341C .355D .366.2 答案 B解析 由题意,得x -=1005=20,将其代入回归直线方程y ^=0.67x +54.8中,得y -=0.67×20+54.8=68.2,所以y 1+y 2+y 3+y 4+y 5=5y -=341.故选B.4.(2020·兰州模拟)根据如下样本数据:得到的回归方程为y =bx +a .样本点的中心为(3,0.1),当x 增加1个单位,则y 近似( )A .增加0.8个单位B .减少0.8个单位C .增加2.3个单位D .减少2.3个单位 答案 A解析 由题意,知x -=15×(1+2+3+4+5)=3,y -=15×[(a -1)+(-1)+0.5+(b +1)+2.5]=a +b +25=0.1,①又回归直线方程过样本中心点(3,0.1),得 3b +a =0.1,②由①②联立,解得a =-2.3,b =0.8,所以回归直线方程为y ^=0.8x -2.3,所以当x 增加1个单位时,y 近似增加0.8个单位.5.已知两个随机变量x ,y 之间的相关关系如下表所示:根据上述数据得到的回归方程为y =b x +a ,则大致可以判断( )⎝ ⎛⎭⎪⎫参考公式:b ^=∑ni =1x i y i -n x -y -∑n i =1x 2i -n x -2,a ^=y --b ^ x -A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0 D.a ^<0,b ^<0答案 C解析 由已知得,x -=0.2,y -=-1.7, ∴b ^=20+6-1-1+4-5×0.2×(-1.7)16+4+1+4+16-5×(0.2)2=99136>0,∴a ^=-1.7-99136×0.2<0,或利用散点图,易判断b ^>0,a ^<0.故选C.6.(2019·湛江二模)有人认为在机动车驾驶技术上,男性优于女性.这是真的么?某社会调查机构与交警合作随机统计了经常开车的100名驾驶员最近三个月内是否有交通事故或交通违法事件发生,得到下面的列联表:附:K 2=n (ad (a +b )(c +d )(a +c )(b +d )A .认为机动车驾驶技术与性别有关的可靠性不足50%B .认为机动车驾驶技术与性别有关的可靠性超过50%C .认为机动车驾驶技术与性别有关的可靠性不足60%D .认为机动车驾驶技术与性别有关的可靠性超过60%答案 A解析 由表中数据,计算K 2=100×(40×10-35×15)255×45×75×25≈0.3367<0.455,∴认为机动车驾驶技术与性别有关的可靠性不足50%.故选A.7.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,则实数b 的值为________.答案 57解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i6=72,y -=∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57.8.(2019·厦门二模)某种细胞的存活率y (%)与存放温度x (℃)之间具有线性相关关系,其样本数据如表所示:计算得x -=5,y -=35,∑i =17x i y i =-175,∑i =17x 2i =875,并求得回归直线为y ^=-2x+45.但实验人员发现表中数据x =-5的对应值y =60录入有误,更正为y =53.则更正后的回归直线方程为________.参考公式:回归方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为b ^=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x-2,a ^=y --b ^x -.答案 y ^=-1.9x +43.5 解析 由题意,更正后,x -=5,y -=17×(35×7-60+53)=34,∑i =17x i y i =-175+5×60-5×53=-140,∑i =17x 2i =875,∴b ^=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x-2=-140-7×5×34875-7×25=-1.9,a ^=y --b ^x -=34-(-1.9)×5=43.5. ∴更正后的回归直线方程为y ^=-1.9x +43.5.组 能力关1.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1 答案 C解析 对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,故选C.2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表2表3表4A.成绩B答案 D解析 K 21=52×(6×22-10×14)216×36×20×32, 令5216×36×20×32=m ,则K 21=82m , 同理,K 22=m ×(4×20-12×16)2=1122m ,K 23=m ×(8×24-8×12)2=962m ,K 24=m ×(14×30-6×2)2=4082m ,∴K 24>K 22>K 23>K 21,则与性别有关联的可能性最大的变量是阅读量.故选D.3.(多选)某商品的销售量y (件)与销售价格x (元/件)存在线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=-5x +150,则下列结论正确的是( )A .y 与x 具有负的线性相关关系B .若r 表示y 与x 之间的线性相关系数,则r =-5C .当销售价格为10元时,销售量为100件D .当销售价格为10元时,销售量为100件左右 答案 AD解析 由回归直线方程知,y 与x 具有负的线性相关关系,A 正确.若r 表示y 与x 之间的线性相关系数,则|r |≤1,B 错误.当销售价格为10元时,y ^=-5×10+150=100,即销售量为100件左右,C 错误,D 正确,故选AD.4.针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有________人.答案 12解析 设男生人数为x ,由题意可得列联表如下:若有95% 即k =3x 2⎝ ⎛⎭⎪⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x 8>3.841,解得x >10.243.因为x 6,x 3,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.5.(2019·惠州市第二次调研)某商场为了了解毛衣的月销量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:由表中数据算出线性回归方程y =b x +a 中的b =-2,则a =________;气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣销售量约为________件.答案 58 46解析 由题中数据,得x -=10,y -=38,回归直线y ^=b ^x +a ^过点(x -,y -),且b ^=-2,代入得a ^=58,则回归方程y ^=-2x +58,所以当x =6时,y =46.6.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为 y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为 y ^=99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了两种理由,考生答出其中任意一种或其他合理理由均可)组 素养关1.某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制了频率分布直方图(如图所示),规定80分及以上者晋级成功,否则晋级失败(满分为100分).(1)求图中a 的值;(2)估计该次考试的平均分x -(同一组中的数据用该组的区间中点值代表); (3)根据已知条件完成下面的2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.晋级成功 晋级失败合计 男 16 女 50 合计参考公式:P (K 2≥k 0)0.40 0.25 0.15 0.10 0.05 0.025 k 00.7801.3232.0722.7063.8415.024K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)由频率分布直方图中各小长方形的面积总和为1,可知(2a +0.020+0.030+0.040)×10=1,故a =0.005.(2)由频率分布直方图知各小组的区间中点值分别为55,65,75,85,95,对应的频率分别为0.05,0.30,0.40,0.20,0.05,故可估计平均数x -=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74. (3)由频率分布直方图知,晋级成功的频率为0.20+0.05=0.25, 故晋级成功的人数为100×0.25=25,故填表如下:K 2=100×(1650×50×25×75≈2.613>2.072,所以有85%的把握认为“晋级成功”与性别有关.2.(2019·银川一中模拟)某餐厅通过查阅了最近5次食品交易会参会人数x (万人)与餐厅所用原材料数量y (袋),得到如下统计表:(1)根据所给5组数据,求出y 关于x 的线性回归方程y =b x +a ;(2)已知购买原材料的费用C (元)与数量t (袋)的关系为C =⎩⎨⎧400t -20,0<t <36(t ∈N ),380t ,t ≥36(t ∈N ),投入使用的每袋原材料相应的销售收入为700元,多余的原材料只能无偿返还,据悉本次交易大会大约有15万人参加.根据(1)中求出的线性回归方程,预测餐厅应购买多少袋原材料,才能获得最大利润,最大利润是多少?(注:利润L =销售收入-原材料费用)参考公式:b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x-2,a ^=y --b ^x -.参考数据:∑i =15x i y i =1343,∑i =15x 2i =558,∑i =15y 2i =3237.解 (1)由所给数据,得x -=13+9+8+10+125=10.4,y -=32+23+18+24+285=25,b ^=∑i =15x i y i -5x -y -∑i =15x 2i -5x-2=1343-5×10.4×25558-5×10.42≈2.5,a ^=y --b ^ x -=25-2.5×10.4=-1,则y 关于x 的线性回归方程为y ^=2.5x ^-1.(2)由(1)中求出的线性回归方程知,当x =15时,y =36.5,即预计需要原材料36.5袋,因为C =⎩⎨⎧400t -20,0<t <36,t ∈N ,380t ,t ≥36,t ∈N ,所以当t <36时,利润L =700t -(400t -20)=300t +20, 当t =35时,利润L =300×35+20=10520; 当t ≥36时,利润L =700t -380t ,当t =36时,利润L =700×36-380×36=11520,因为预计需要原材料36.5袋,且多余的原材料只能无偿返还,所以当t =37时,利润L =700×36.5-380×37=11490.综上所述,餐厅应该购买36袋原材料,才能使利润获得最大,最大利润为11520元.。
2021届高考数学人教版一轮创新课件:第9章+第3讲 变量间的相关关系与统计案例
经典题型冲关
题型一 相关关系的判断
解析 答案
解析 答案
答案
解析
解析 答案
答案
解析
答案
解析
解
解
解
解
解
解
解
解
解
解
解
题型三 独立性检验
答案
解析
解
解
答案
解析
解
解
解
3
PART THREE
课时作业
A组 基础关
解析 答案
第九章 统计与统计案例
第3讲 变量间的相关关系与统计案 例
1
PART ONE
基础知识过关
左下角 左上角
右上角 右下角
一条直线 回归直线
距离的平方和
截距
斜率
正相关 负相关
越强
不同类别
频数表 a+b+c+d
K2
有关系
答案
解析 答案
解析 答案
解析 答案
解析
2
PART TWO
答案
解析
解析
解析
解析
解
解
解
B组 能力关
解
解
解
解
本课结束
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3节变量间的相关关系与统计案例[A级基础巩固]1.观察下列图形,其中两个变量x,y具有相关关系的图是( )A.①②B.①④C.③④D.②③解析:由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.答案:C2.根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的柱形图.以下结论不正确的是( )A.逐年比较,2008年减少二氧化碳排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析:从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确;2007年二氧化硫排放量较2006年降低了很多,B选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误.答案:D3.(2020·安徽皖江名校联考)某单位为了解用电量y(千瓦时)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温x/℃181310-1用电量y/千瓦时24343864由表中数据得线性回归方程y=b x+a中b=-2,预测当温度为-5 ℃时,用电量约为( )A .64千瓦时B .66千瓦时C .68千瓦时D .70千瓦时解析:由已知得x -=10,y -=40,将其代入回归方程得40=-2×10+a ^,解得a ^=60, 故回归方程为y ^=-2x +60,当x =-5时,y ^=70. 答案:D4.(多选题)(2020·青岛教学质量检测)下列说法中正确的是( )A .相关系数r 用来衡量两个变量之间线性关系的强弱,|r |越接近于1,相关性越强B .回归直线y ^=b ^x +a ^过样本点的中心(x -,y -)C .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^平均增加0.2个单位D .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小解析:由相关定义分析知A ,B ,C 均正确.对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,则“X 与Y 有关系”的把握程度越大,因此D 不正确.答案:ABC5.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:由K 2=n (a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”解析:根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关.”答案:A6.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x /个 10 203040 50 加工时间y /min62758189解析:由x -=30,得y -=0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,所以a =68. 答案:687.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”; ②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.解析:K 2≈3.918>3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:①8.(2019·广东深中、华附、省实、广雅四校联考)下图是一组数据(x ,y )的散点图,经最小二乘估计公式计算,y 与x 之间的线性回归方程为y ^=b ^x +1,则b ^=________.解析:由题图知x -=0+1+3+44=2,y -=0.9+1.9+3.2+4.44=2.6,将(2,2.6)代入y ^=b ^x +1中,解得b ^=0.8. 答案:0.89.某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元),数据如下表:超 市 A B C D E F G 广告费支出x i /万元 1 2 4 6 11 13 19 销售额y i /万元19324044525354(1)(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3 万元时的销售额.参考数据:x -=8,y -=42,∑i =07x i y i =2 794,∑i =07x 2i =708.解:(1)b ^==2 794-7×8×42708-7×82=1.7, 所以a ^=y --b ^x -=28.4,故y 关于x 的线性回归方程是y ^=1.7x +28.4. (2)因为0.75<0.93,所以二次函数回归模型更合适. 当x =3时,y ^=33.47.故选择二次函数回归模型更合适,并且用此模型预测A 超市广告费支出3 万元时的销售额为33.47 万元.10.(2020·衡水调研)为了丰富学生的课外文化生活,某中学积极探索开展课外文体活动的新途径及新形式,取得了良好的效果.为了调查学生的学习积极性与参加文体活动是否有关,学校对300名学生做了问卷调查,列联表如下:分类参加文体活动不参加文体活动总计已知在全部300人中随机抽取1人,抽到学习积极性不高的学生的概率为15.(1)请将上面的列联表补充完整.(2)是否有99.5%的把握认为学生积极性高与参加文体活动有关?请说明你的理由. (3)若从不参加文体活动的同学中按照分层抽样的方法选取5人,再从所选出的5人中随机选取2人,求至少有1人学习积极性不高的概率.附:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)设学习积极性不高的学生有x 名,则x 300=415,解之得x =80. 列联表如下:(2)K 2=300×(180×60-20×40)2200×100×220×80≈85>7.879,因此有99.5%的把握认为学习积极性高与参加文体活动有关.(3)根据题意,知从学习积极性高的学生中抽取2人,从学习积极性不高的学生中抽取3人.可设抽出的学习积极性高的学生为A 、B ,学习积极性不高的学生为C 、D 、E ,则选取的2人可以是(A ,B),(A ,C),(A ,D),(A ,E),(B ,C),(B ,D),(B ,E),(C ,D),(C ,E),(D ,E),共10种,其中至少有1人学习积极性不高的有(A ,C),(A ,D),(A ,E),(B ,C),(B ,D),(B ,E),(C ,D),(C ,E),(D ,E),共9种,所以至少有1人学习积极性不高的概率为910.[B 级 能力提升]11.(2020·河南名校联考)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据:(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5),根据收集到的数据可知x 1+x 2+x 3+x 4+x 5=100,由最小二乘法求得回归直线方程为y ^=0.67x +54.8,则y 1+y 2+y 3+y 4+y 5的值为( )A .68.2B .341C .355D .366.2解析:依题意可得x -=1005=20,由样本点的中心(x -,y -)在回归直线y ^=0.67x +54.8上可得y -=0.67×20+54.8=68.2,故y 1+y 2+y 3+y 4+y 5=5y -=5×68.2=341. 答案:B12.针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有________人.解析:若有95%则k >3.841,即k =3x 2⎝ ⎛⎭⎪⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x8>3.841.解得x >10.243.因为x 6,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.答案:1213.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;分类箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)0.01).附:P(K2≥k)0.0500.0100.001k 3.841 6.63510.828K2=.(a+b)(c+d)(a+c)(b+d)解:(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表K 2=200100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).[C 级 素养升华]14.在2019年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x (元)和销售量y (件)之间的一组数据如下表所示:据表可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________,样本中心为________.解析:x -=9+9.5+m +10.5+115=8+m 5,y -=11+n +8+6+55=6+n 5.回归直线一定经过样本点中心(x -,y -),即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10. 所以x -=10,y -=8,则样本中心为(10,8).答案:10 (10,8)。