「最新」人教版最新高考数学总复习经典测试题解析版.-变量间的相关关系、统计案例Word版-可编辑修改
2022版高考数学一轮复习第九章算法初步统计统计案例第四讲变量间的相关关系统计案例学案含解析新人教版
第四讲变量间的相关关系、统计案例知识梳理·双基自测知识梳理知识点一回归分析(1)相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是一种__非确定性关系__.(2)散点图:表示具有__相关__关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些散点有y随x增大而增大的趋势,则称两个变量__正相关__;若这些散点有y随x增大而减小的趋势,则称两个变量__负相关__.(3)回归方程:y^=b^x+a^,其中b^=∑ni=1x i y i-n x-y-∑ni=1x2i-n x2,a^=__y--b^x__,它主要用来估计和预测取值,从而获得对这两个变量之间整体关系的了解.(4)相关系数:r=∑ni=1x i y i-n x-y-∑ni=1x2i-n x2∑ni=1y2i-n y2它主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当r>0时表示两个变量正相关,当r<0时表示两个变量负相关.|r|越接近1,表明两个变量的线性相关性__越强__;当|r|接近0时,表明两个变量间几乎不存在相关关系,相关性__越弱__.知识点二独立性检验(1)2×2列联表设X,Y为两个分类变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d(2)独立性检验利用随机变量K2(也可表示为X2)=n ad-bc2n=a+b+c+d为样本容量)来判断“两个变a+b c+d a+c b+d(其中量有关系”的方法称为独立性检验.(3)独立性检验的一般步骤①根据样本数据列出2×2列联表;②计算随机变量K2的观测值k,查表确定临界值k0:③如果k≥k0,就推断“X与Y有关系\”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关\”.归纳拓展1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性分布时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验是对两个变量的关系的可信程度的判断,而不是对其是否有关系的判断.根据K2的值可以判断两个分类变量有关的可信程度,并用来指导科研和实际生活.双基自测题组一走出误区1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √)(2)两个随机变量的线性相关性越强,相关系数的绝对值越接近于0.( ×)(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √)(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程y^=-2.352x+147.767,则气温为2 ℃时,一定可卖出143杯热饮.( ×)(5)事件x,y关系越密切,则由观测数据计算得到的K2的观测值越大.( √)(6)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ×)题组二走进教材2.(P97T2)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( C )A.回归分析B.均值与方差C.独立性检验D.概率[解析]“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.3.(P81例1)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y^=0.67x+54.9.零件数x(个)1020304050加工时间y(min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为__68__.[解析]由x-=30,得y-=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.题组三走向高考4.(2017·某某高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为y^=b^x+a^,已知∑10i=1x i=225,∑10i=1y i=1 600,b^=4.该班某学生的脚长为24,据此估计其身高为( C )A .160B .163C .166D .170[解析]由题意知y ^=4x +a ^又x =22.5,y =160,因此160=22.5×4+a ^,∴a ^=70,因此y ^=4x +70,当x =24时,y ^=4×24+70=166,故选C .5.(2019·高考全国Ⅰ卷)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K 2=n ad -bc2a +bc +da +cb +d.P (K 2≥k ) 0.050 0.010 0.001 k3.8416.63510.828[解析](1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8. 女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)由题可得K 2=100×40×20-30×10250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.考点突破·互动探究考点一 相关关系的判断——自主练透例1 (1)(2021·某某资阳模拟)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( B )A .人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B .人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C .人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D .人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%(2)对四组数据进行统计,获得以下关于其相关系数的比较,正确的是( A )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3[解析](1)观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.(2)由相关系数的定义及散点图所表达的含义,可知r2<r4<0<r3<r1.故选A.名师点拨判断两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归直线方程中:b^>0时,正相关;b^<0时负相关.考点二线性回归分析——师生共研例2 (1)(2021·湖湘名校教育联合体联考)2020年3月15日,某市物价部门对5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如表所示:价格x 99.51010.511销售量y 111086 5 按公式计算,y与x的回归直线方程是:y=-3.2x+a,相关系数|r|=0.986,则下列说的是( D )法不正确...A.变量x,y线性负相关且相关性较强B.a^=40C.当x=8.5时,y的估计值为12.8D.相应于点(10.5,6)的残差约为0.4(2)(2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i =120xi =60,∑i =120y i =1 200,i =120(x i -x -)2=80,i =120(y i -y -)2=9 000,i =120(x i -x -)(y i -y -)=800.①求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);②求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);③根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =i =1nx i -x-y i -y-i =1nx i -x-2i =1ny i -y-2,2≈1.414.[解析](1)对A ,由表可知y 随x 增大而减少,可认为变量x ,y 线性负相关,且相关性强,故A 正确.对B ,价格平均x -=15(9+9.5+10+10.5+11)=10,销售量y -=15(11+10+8+6+5)=8.故回归直线恒过定点(10,8),故8=-3.2×10+a ^⇒a ^=40,故B 正确.对C ,当x =8.5时,y ^=-3.2×8.5+40=12.8,故C 正确.对D ,相应于点(10,8)的残差约为e ^=6-(-3.2×10.5+40)=-0.4,故D 不正确.故选D .(2)①样区野生动物平均数为 120∑i =120y i =120×1 200=60,地块数为200,该地区这种野生动物的估计值为200×60=12 000. ②样本(x i ,y i )的相关系数为r=i=120x i-x-y i-y-i=120x i-x-2i=120y i-y-2=80080×9 000=223≈0.94.③由于各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样,先将植物覆盖面积按优中差分成三层,在各层内按比例抽取样本,在每层内用简单随机抽样方法抽取样本即可.名师点拨线性回归分析问题的类型及解题方法(1)求线性回归方程:①利用公式,求出回归系数b^,a^.②待定系数法:利用回归直线过样本点中心求系数.(2)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b^.〔变式训练1〕(2021·某某六校教育研究会素质测试)某商场近5个月的销售额和利润额如表所示:销售额x/千万元35679利润额y/百万元1334 5(1)画出散点图,观察散点图,说明两个变量有怎样的相关关系;(2)求出利润额y关于销售额x的回归直线方程;(3)当销售额为4千万元时,利用(2)的结论估计该商场的利润额(百万元).b^=∑i=1nx i y i-n x-y-∑i=1nx2i-n x-2=i=1n x i-x-y i-y-i=1n x i-x-2,a^=y--b x-.[解析](1)散点图如图所示:两个变量正相关,且具有线性相关关系.(2)易求x-=6,y-=3.2,由公式有b^=3×2.2+1×0.2+0+1×0.8+3×1.832+12+12+32=1320=0.65,且a^=3.2-0.65×6=-0.7,则线性回归方程为y^=0.65x-0.7,(3)当x=4时,由(1)可求得y^=1.9,即利润额约为1.9百万元.考点三,独立性检验——师生共研例3 (1)(2020·新高考Ⅰ,19)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:SO2PM2.5[0,50](50,150](150,475][0,35]3218 4(35,75]6812(75,115]3710①估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;②根据所给数据,完成下面的2×2列联表:SO2PM2.5[0,150](150,475][0,75](75,115]③根据②中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.附:K2=n ad-bc2a+b c+d a+c b+d,P(K2≥k)0.0500.0100.001 k 3.841 6.63510.828某校推迟2020年的春季线下开学,并采取了“停课不停学”的线上授课措施.为了解学生对线上课程的满意程度,随机抽取了该校的100名学生(男生与女生的人数之比为3∶2)对线上课程进行评价打分,若评分不低于80分视为满意,其得分情况的频率分布直方图如图所示,若根据频率分布直方图得到的评分不低于70分的频率为0.85.①估计100名学生对线上课程评分的平均值;(每组数据用该组的区间中点值为代表)②结合频率分布直方图,请完成以下2×2列联表,并回答能否有99%的把握认为对“线上教学是否满意与性别有关”;态度性别满意 不满意 合计男生 女生 10合计100K 2=n ad -bc2a +bc +d a +cb +d,其中P (K 2=k 0)0.10 0.05 0.025 0.010 0.005 k 02.7063.8415.0246.6357.879n =a +b +c +d .[解析](1)①根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64.②根据抽查数据,可得2×2列联表:SO 2PM2.5[0,150] (150,475][0,75] 64 16 (75,115]1010K 2=100×64×10-16×10280×20×74×26≈7.484.由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO 2浓度有关.(2)①由已知得(0.015+b +0.03)×10=0.85, 解得b =0.04,又(0.005+a )×10=1-0.85,解得a =0.01, 评分的平均值为55×0.05+65×0.1+75×0.3+85×0.4+95×0.15=80. ②完成2×2列联表如下表:态度性别满意 不满意 合计男生 25 35 60 女生 30 10 40 合计5545100K 2=100×10×25-35×3055×45×60×40≈10.774>6.635,∴有99%的把握认为对“线上教学是否满意与性别有关”.名师点拨解独立性检验的应用问题的关注点(1)两个明确:①明确两类主体.②明确研究的两个问题. (2)两个关键:①准确列出2×2列联表:②准确理解K 2.注意:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的k 值与求得的K 2相比较.另外,表中第一行数据表示两个变量没有关联的可能性p ,所以其有关联的可能性为1-p .〔变式训练2〕(2021·某某某某、崇左质检)某出租汽车公司决定更换一批新的小汽车以代替原来的报废的出租车,现有A,B两款车型,根据以往这两种出租车车型的数据,得到两款出租车型使用寿命频数表如下:使用寿命年数4年5年6年7年总计A型出租车(辆)10204525100B型出租车(辆)153********(1)填写下表,并判断是否有99%的把握认为出租车的使用寿命年数与汽车车型有关?使用寿命不高于5年使用寿命不低于6年总计A型B型总计(2)司机师傅小李准备在一辆开了3年的A型车和一辆开了3年的B型车中选择,为了尽最大可能实现3年内(含3年)不换车,试通过计算说明,他应如何选择.参加公式:K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+d.参考数据:P(K2≥k0)0.050.0100.001k0 3.841 6.63510.828[解析](1)根据题目所给数据得到如下2×2的列联考:使用寿命不高于5年使用寿命不低于6年总计A型3070100B型5050100总计80 120 200由列联表可知:K 2=200×30×50-70×502100×100×80×120≈8.33>6.635,所以有99%的把握认为出租车的使用寿命年数与汽车车型有关;(2)记事件A 1,A 2分别表示小李选择A 型出租车和B 型出租车时,3年内(含3年)换车, 由表知P (A 1)=10+20+45100=0.75,P (A 2)=15+35+40100=0.9,因为P (A 1)<P (A 2),所以小李应选择A 型出租车.名师讲坛·素养提升非线性回归问题例4 (2020·某某乌兰察布等五市调研)一个调查学生记忆的研究团队从某中学随机挑选100名学生进行记忆测试,通过讲解100个陌生单词后,相隔十分钟进行听写测试,间隔时间t (分钟)和答对人数y 的统计表格如下: 时间t (分钟) 10 20 30 40 50 60 70 80 90 100 答对人数y 98 70 52 36 30 20 15 11 5 5 lg y1.991.851.721.561.481.301.181.040.70.7附:∑n =110t 2i =38 500,∑n =110y i =342,∑n =110lg y i =13.5,∑n =110t i y i =10 960,∑n =110t i lg y i =620.9,对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=∑i =1nu i v i -n u -v -∑i =1n u 2i -n u -2,α^=v --β^u -.请根据表格数据回答下列问题:(1)根据散点图判断,y =at +b 与lg y =ct +d ,哪个更适宜作为线性回归类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果,建立y 与t 的回归方程;(数据保留3位有效数字)(3)根据(2)请估算要想记住75%的内容,至多间隔多少分钟重新记忆一遍.(参考数据:lg 2≈0.3,lg 3≈0.48)[解析](1)由图象可知,lg y =ct +d 更适宜作为线性回归类型; (2)设lg y =ct +d ,根据最小二乘法得c =∑i =110t i lg y i -10t -lg y ∑i =110t 2i -10t -2=620.9-10×55×1.3538 500-10×552≈-0.014 7,d =lg y -c t -≈2.16,所以lg y =-0.014 7t +2.16, 因此y =10-0.014 7t +2.16;(3)由题意知y =10-0.014 7t +2.16≥75,即-0.014 7t+2.16≥2+lg 3-2lg 2≈1.88,解得t≤19.05,即至多19.05分钟,就需要重新复习一遍.名师点拨非线性相关问题一般通过换元法转化为线性相关(线性回归分析)问题解决.〔变式训练3〕(2020.课标Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2, (20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( D )A.y=a+bx B.y=a+bx2C.y=a+b e x D.y=a+b ln x[解析]观察题中散点图可知,散点图用光滑曲线连接起来比较接近对数型函数的图象,故选D.。
高三数学人教版A版数学(理)高考一轮复习教案变量间的相关关系、统计案例1
第四节 变量间的相关关系、统计案例变量间的相关关系、统计案例 1.变量间的相关关系(1)会作两个有关联变量的数据的散点图,会利用数点图认识变量间的相关关系. (2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 2.统计案例了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题. (1)独立性检验了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. (2)回归分析了解回归分析的基本思想、方法及其简单应用. 知识点一 回归分析 1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y∑ni =1x 2i -n x 2,a ^=y -b ^x . (3)通过求Q =∑ni =1(y i -bx i -a )2的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫作最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.易误提醒1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上 .3.利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).[自测练习]1.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=( )x 0 1 3 4 y2.24.3 4.86.7A.3.25 B .2.6 C .2.2D .0解析:∵回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入回归方程,得a ^=2.6.答案:B2.(2016·镇江模拟)如图所示,有A ,B ,C ,D ,E 5组(x ,y )数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.解析:由散点图知呈带状区域时有较强的线性相关关系,故去掉D . 答案:D知识点二 独立性检验 独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).易误提醒(1)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表.在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果做出错误的解释.[自测练习]3.下面是2×2列联表:y1y2总计x1 a 2173x2222547总计 b 46120则表中a,b的值分别为()A.94,72B.52,50C.52,74 D.74,52解析:∵a+21=73,∴a=52,又a+22=b,∴b=74.答案:C考点一相关关系的判断|1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析:易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.答案:A2.(2015·高考湖北卷)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关解析:因为y=-0.1x+1,x的系数为负,故x与y负相关;而y与z正相关,故x与z 负相关.答案:C相关关系的判断的两种方法(1)散点图法.(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.考点二回归分析|(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑8i =1(x i -x)2∑8i =1(w i -w)2∑8i =1(x i -x )(y i-y )∑8i =1(w i -w )(y i -y ) 46.6 563 6.8 289.8 1.6 1 469108.8表中w i =x i ,w =18∑i =1w i.(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^ u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于 d ^=∑8i =1(w i -w )(y i -y )∑8i =1 (w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6, 年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.回归直线方程的求法(1)利用公式,求出回归系数b ^,a ^.(2)待定系数法:利用回归直线过样本点中心求系数.1.(2016·银川一中模拟)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.x 3 4 5 6 y2.5344.5(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^. (2)已知该厂技改前,100吨甲产品的生产能耗为90吨标准煤,试根据(1)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)解:(1)由对照数据,计算得∑4i =1x 1y 1=66.5,∑4i =1x 21=32+42+52+62=86,x =4.5,y =3.5,b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35,所求的回归方程为y ^=0.7x +0.35.(2)x =100,y ^=100×0.7+0.35=70.35,预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨标准煤).考点三 独立性检验|(2016·邯郸模拟)为了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级学生进行了问卷调查得到如下列联表.平均每天喝500 mL 以上为常喝,体重超过50 kg 为肥胖.常喝 不常喝 合计 肥胖 2 不肥胖 18 合计30已知在全部30人中随机抽取1人,抽到肥胖的学生的概率为415.(1)请将上面的列联表补充完整.(2)是否有99.5%的把握认为肥胖与常喝碳酸饮料有关?说明你的理由.(3)设常喝碳酸饮料且肥胖的学生中有2名女生,现从常喝碳酸饮料且肥胖的学生中抽取2人参加电视节目,则正好抽到一男一女的概率是多少?参考数据:K 2≥k 0 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .[解] (1)设常喝碳酸饮料肥胖的学生有x 人,x +230=415,解得x =6.常喝 不常喝 合计 肥胖 6 2 8 不肥胖 4 18 22 合计102030(2)由已知数据可求得K 2=30×(6×18-2×4)210×20×8×22≈8.523>7.879.因此有99.5%的把握认为肥胖与常喝碳酸饮料有关.(3)设常喝碳酸饮料的肥胖男生为A ,B ,C ,D ,女生为E ,F ,任取两人的取法有AB ,AC ,AD ,AE ,AF ,BC ,BD ,BE ,BF ,CD ,CE ,CF ,DE ,DF ,EF ,共15种.其中一男一女的取法有AE ,AF ,BE ,BF ,CE ,CF ,DE ,DF ,共8种.故抽出一男一女的概率是P =815.解独立性检验的应用问题的关注点(1)两个明确: ①明确两类主体; ②明确研究的两个问题. (2)两个关键:①准确画出2×2列联表; ②准确理解K 2.提醒:准确计算K 2的值是正确判断的前提.2.通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计6050110K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .附表:P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828A .有99%以上的把握认为“选择过马路的方式与性别有关”B .有99%以上的把握认为“选择过马路的方式与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关” 解析:K 2=110×(40×30-20×20)260×50×60×50≈7.8.P (K 2≥6.635)=0.01=1-99%,∴有99%以上的把握认为“选择过马路的方式与性别有关”,故选A.答案:A12.独立性检验与概率交汇综合问题的答题模板【典例】(12分)(2016·保定调研)某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:(1)判断是否有(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.下面的临界值表供参考:(参考公式:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d)[规范解答](1)由公式K2=55×(20×20-10×5)230×25×25×30≈11.978>7.879,(3分) 所以有99.5%的把握认为喜欢“应用统计”课程与性别有关.(6分)(2)设所抽样本中有m个男生,则630=m20,得m=4,所以样本中有4个男生,2个女生,分别记作B1,B2,B3,B4,G1,G2.从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,G1),(B1,G2),(B2,B3),(B2,B4),(B2,G1),(B2,G2),(B3,B4),(B3,G1),(B3,G2),(B4,G1),(B4,G2),(G1,G2),共15个,(9分)其中恰有1个男生和1个女生的事件有(B1,G1),(B1,G2),(B2,G1),(B2,G2),(B3,G1),(B3,G2),(B4,G1),(B4,G2),共8个.(11分)所以恰有1个男生和1个女生的概率为815.(12分)[模板形成]分析2×2列联表数据↓利用K 2公式计算K 2值↓对分类变量的相关性作出判断↓求相应事件的概率↓反思解题过程,注意规范化[跟踪练习] 某班主任对全班50名学生学习积极性和参加社团活动情况进行调查,统计数据见下表所示:(1)加社团活动且学习积极性一般的学生的概率是多少?(2)运用独立性检验的思想方法分析:学生的学习积极性与参加社团活动情况是否有关系?并说明理由.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d );其中n =a +b +c +d .解:(1)随机从该班抽查一名学生,抽到参加社团活动的学生的概率是2250=1125;抽到不参加社团活动且学习积极性一般的学生的概率是2050=25.(2)因为K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=50×(17×20-5×8)225×25×22×28≈11.688>10.828,所以大约有99.9%的把握认为学生的学习积极性与参加社团活动情况有关系.A 组 考点能力演练1.根据如下样本数据得到的回归方程为y ^=b ^x +a ^,则( )A.a ^>0,b ^>0 B.a >0,b <0 C.a ^<0,b ^>0D.a ^<0,b ^<0解析:把样本数据中的x ,y 分别当作点的横、纵坐标,在平面直角坐标系xOy 中作出散点图(图略),由图可知b ^<0,a ^>0.故选B.答案:B2.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y^=-0.3x +4.4解析:依题意知,相应的回归直线的斜率应为正,排除C ,D.且直线必过点(3,3.5),代入A ,B 得A 正确.答案:A3.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附表及公式K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .则下面的正确结论是( )A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”解析:由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k 0=100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”,故选A.答案:A4.根据如下样本数据:得到的回归方程为y =b x +a .若样本点的中心为(5,0.9),则当x 每增加1个单位时,y 就( )A .增加1.4个单位B .减少1.4个单位C .增加7.9个单位D .减少7.9个单位解析:依题意得,a +b -25=0.9,故a ^+b ^=6.5①;又样本点的中心为(5,0.9),故0.9=5b ^+a ^②,联立①②,解得b ^=-1.4,a ^=7.9,则y ^=-1.4x +7.9,可知当x 每增加1个单位时,y 就减少1.4个单位,故选B.答案:B5.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑6i =1x i y i -6x ·y ∑6i =1x 2i -6x2=58-6×72×13691-6×⎝⎛⎭⎫722=57,a ^=y -b ^x =136-57×72=-13,所以b ^<b ′,a ^>a ′.答案:C6.(2016·忻州联考)已知x ,y 的取值如下表:从散点图分析,y 与x 线性相关,且回归方程为y =1.46x +a ,则实数a ^的值为________. 解析:x =2+3+4+54=3.5,y =2.2+3.8+5.5+6.54=4.5,回归方程必过样本的中心点(x ,y ).把(3.5,4.5)代入回归方程,计算得a ^=-0.61.答案:-0.617.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:(请用百分数表示).解析:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=50×(20×15-5×10)225×25×30×20≈8.333>7.879.答案:0.5%8.已知下表所示数据的回归直线方程为y ^=4x +242,则实数a =________.解析:回归直线y ^=4x +242必过样本点的中心点(x ,y ),而x =2+3+4+5+65=4,y =251+254+257+a +2665=1 028+a 5,∴1 028+a 5=4×4+242,解得a =262.答案:2629.(2015·东北三校联考)某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:主食蔬菜主食肉类合计 50岁以下 50岁以上 合计(2)能否有99% 解:(1)2×2列联表如下:主食蔬菜主食肉类合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030(2)因为K 2=30×(8-128)212×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.10.(2015·高考重庆卷)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2010 2011 2012 2013 2014 时间代号t12345(1)求y 关于t 的回归方程y =b t +a ;(2)用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款. 附:回归方程y ^=b ^t +a ^中, b ^=∑ni =1t i y i -n t y ∑ni =1t 2i -n t2,a ^=y -b ^t .解:(1)列表计算如下这里n =5,t =1n ∑n i =1t i =155=3,y =1n ∑n i =1y i =365=7.2. 又l tt =∑ni =1t 2i -n t2=55-5×32=10,l ty =∑ni =1t i y i-n t y =120-5×3×7.2=12,从而b ^=l ty l tt =1210=1.2,a ^=y -b ^t =7.2-1.2×3=3.6,故所求回归方程为y ^=1.2t +3.6.(2)将t =6代入回归方程可预测该地区2015年的人民币储蓄存款为y ^=1.2×6+3.6=10.8(千亿元).B 组 高考题型专练1.(2015·高考福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C.12.0万元D.12.2万元^=0.76,∴a^=8-0.76×10=0.4,∴回归方程为y^=0.76x 解析:∵x=10.0,y=8.0,b+0.4,把x=15代入上式得,y^=0.76×15+0.4=11.8(万元),故选B.答案:B2.(2015·高考北京卷)高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________;(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________.解析:(1)由题图分析乙的语文成绩名次略比甲的语文成绩名次靠前,但总成绩名次靠后,所以甲、乙两人中语文成绩名次比总成绩靠前的是乙;(2)丙同学的数学成绩名次位于中间稍微靠后,而总成绩名次相对靠后,所以丙同学的语文成绩名次比较靠后,所以丙同学的成绩名次靠前的科目是数学.答案:乙数学。
高中数学 变量间的相关关系 练习题(含答案)
型号二手车时车辆的使用年数不得超过多少年?
参考公式:回归方程
中斜率和截距的最小二乘估计公式分别为:
,
,
. 【答案】(1) 万元;(2)11. 【解析】
(1)由题意,计算
,
, 12.某地级市共有 200000 中小学生,其中有 7%学生在 2017 年享受了“国家精准扶贫”政策,在享受“国家精 准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为 5:3:2,为进一
,后因某未知原因使第 5 组数据的 值模糊不清,此位置数据记为 (如下表所示),则利用回 归方程可求得实数 的值为( )
196
197
200
203
204
1
3
6
7
A. 8.3 B. 8.2 【答案】D 【解析】 由题意可得:
C. 8.1
D. 8
,
,
回归方程过样本中心点,则:
,解得: . 本题选择 D 选项. 学.科.网
(Ⅱ)(1)
(2)
(2)由(1)得:
令
当
时 取最大
时,收益 预报值最大.
16.一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,
每小时生产有缺点零件的多少,随机器运转速度而变化,下表为抽样试验的结果:
转速 x(转/秒)
16
14
12
8
每小时生产有缺点的零件数 y(件)
严重污染(六级),指数大于 300 .某气象站观测点记录了某市五月 1 号—4 号连续 4 天里,AQI 指数 M 与
当天的空气水平可见度 (单位 cm)的情况如下表 1:
M
900
700
高考新课标数学(理)大一轮复习课时作业66变量间的相关关系、统计案例 Word版含解析
课时作业变量间的相关关系、统计案例
一、选择题
.在一组样本数据(,),(,),…,(,)(≥,,,…,不全相等)的散点图中,若所有样本点(,)(=,,…,)都在直线=
+上,则这组样本数据的样本相关系数为( )
.-.
.
解析:样本点都在一条直线上时,其样本数据的相关系数为.
答案:
.根据如下样本数据
得到的回归方程为=+,则().>,> .>,<
.<,> .<,<
解析:由表中数据画出散点图,如图,
由散点图可知<,>,选.
答案:
.(·辽宁大连双基)已知,的取值如表所示:
如果与线性相关,且线性回归方程为=+,则的值为()
.-
.-
解析:将=,=代入到=+中,得=-.故选.
答案:
.(·湖北武汉调考)根据如下样本数据
得到的回归直线方程为=+.若=,则每增加个单位,就()
.增加个单位
.减少个单位
.减少个单位
.增加个单位
解析:=(++++)=,=(+-+-)=,所以样本中心为(,),代入
回归直线方程可得=×+⇒
=-,所以每增加个单位,就减少个单位,故选.
答案:.(·兰州、张掖联考)对具有线性相关关系的变量,有一组观测数据(,)(=,,…,),其回归直线方程是=+,且+++…+=(+++…+)=,则实数的值是()
解析:依题意可知样本中心点为,则=×+,解得=.
答案:.(·东营一模)某商品的销售量(件)与销售价格(元件)存在线性相关关。
专题68 变量间的相关关系与统计案例-高考数学复习资料(解析版)
D.58 件
【答案】A
【解析】由题中数据,得 x =10, y =38,回归直线y^=b^x+a^过点( x , y ),且b^=-2,代入得a^=58, 则回归方程y^=-2x+58,所以当 x=6 时,y=46,故选 A.
附: K 2
n(ad bc)2
.
(a b)(c d)(a c)(b d)
P(K2≥k) 0.050 0.010 0.001
k
3.841 6.635 10.828
【解析】 (1)由调查数据,男顾客中对该商场服务满意的比率为 40 0.8 ,因此男顾客对该商场服务满 50
意的概率的估计值为0.8.
支出费用为 3.00 万元的家庭购买水果和牛奶的年支出费用约为( )
A.1.795 万元
B.2.555 万元
C.1.915 万元
D.1.945 万元
【答案】A
【解析】
x
1 = ×(2.09+2.15+2.50+2.84+2.92)=2.50(万元),
y
1 = ×(1.25+1.30+1.50+1.70
^
y=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线 y=-30.4+13.5t 上下,
这说明利用 2000 年至 2016 年的数据建立的线性模型①不能很好地描述环境基础设施投资额的趋势.2010 年
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
--
(2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(x,y)称为
习题-变量间的相关关系、统计案例
10.3 变量间的相关关系、统计案例基础篇 固本夯基考点一 变量间的相关关系1.(2022届陕西宝鸡期末,4)下列两个变量具有相关关系的是( ) A.正方体的体积与棱长 B.汽车匀速行驶时的路程与时间 C.人的体重与饭量 D.人的身高与视力 答案 C2.(2021西南名校联盟联考,3)已知甲、乙、丙、丁四组数据变量间对应的线性相关系数分别为0.46,0.79, -0.92,0.85,则( )A.甲组数据变量间的线性相关程度最强B.乙组数据变量间的线性相关程度最弱C.丙组数据变量间的线性相关程度最强D.丁组数据变量间的线性相关程度最强 答案 C3.(2020陕西铜川二模,5)四名同学根据各自的样本数据研究变量x,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x-6.423; ②y 与x 负相关且y ^=-3.476x+5.648; ③y 与x 正相关且y ^=5.437x+8.493; ④y 与x 正相关且y ^=-4.326x-4.578. 其中不正确的结论的序号是( ) A.①② B.②③ C.③④ D.①④ 答案 D4.(2020陕西榆林三模,3)如图所示,给出了样本容量均为7的A,B 两组样本数据的散点图,已知A 组样本数据的相关系数为r 1,B 组样本数据的相关系数为r 2,则( )A.r 1=r 2B.r 1<r 2C.r 1>r 2D.无法判定 答案 C5.(2022届四川资阳一诊,4)我国在2020年如期完成了新时代脱贫攻坚目标任务,脱贫攻坚战取得全面胜利,历史性地解决了绝对贫困问题,并全面建成了小康社会.现就2013—2019 年年末全国农村贫困人口数进行了统计,制成如下散点图:据此散点图,下面 4个回归方程类型中最适宜作为年末贫困人口数y 和年份代码x 的回归方程类型的是( )A.y=a+bxB.y=a+bx C.y=a+be x D.y=a+bln x 答案 A6.(2022届四川绵阳阶段测试,3)某市物价部门对5家商场的某商品一天的销售量及其价格进行了调查,5家商场的价格x(元)和销售量y(件)之间的一组数据如表所示:价格x(元) 9 9.5 10 10.5 11 销售量y(件)1110865按公式计算,y 与x 的回归直线方程是y ^=-3.2x+a ^,相关系数|r|=0.992,则下列说法错误的是( ) A.变量x,y 线性负相关且相关性较强 B.a ^=40C.当x=8.5时,y 的估计值为12.8D.相应于点(10.5,6)的残差为0.4 答案 D7.(2020兰州一诊,7)近五年来某草场羊只数与草场植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示.年份 1 2 3 4 5 羊只数(万只) 1.4 0.9 0.750.60.3 草场植被指数1.14.315.6 31.349.7根据表及图得到以下判断:①羊只数与草场植被指数成减函数关系;②若利用这五组数据得到的两变量间的相关系数为r 1,去掉第一年数据后得到的相关系数为r 2,则|r 1|<|r 2|; ③可以利用回归直线方程,准确地得到当羊只数为2万只时的草场植被指数. 以上判断中正确的个数是( )A.0B.1C.2D.3 答案 B8.(2020课标Ⅱ,18,12分)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i=1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i=120x i =60,∑i=120y i =1 200,∑i=120(x i -x )2=80,∑i=120(y i -y )2=9 000,∑i=120(x i -x)(y i -y)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘地块数);(2)求样本(x i ,y i )(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由. 附:相关系数 r=∑i=1n(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i -y)2,√2≈1.414.解析(1)由已知得样本平均数y =120∑i=120y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i=1,2,…,20)的相关系数 r=∑i=120(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i-y)2=√80×9 000=2√23≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.考点二 独立性检验1.(2022届黑龙江月考,8)某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有99%的把握但没有99.9%的把握认为偏爱蔬菜还是肉类与性别有关,则K 2的观测值可能为( )P(K 2≥k 0) 0.10 0.05 0.025 0.010 0.0050.001k0 2.706 3.841 5.024 6.6357.87910.828A.K2=3.206B.K2=6.625C.K2=7.869D.K2=11.208答案C2.(2022届山西运城期中,7)为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验.根据四个实验室得到的列联表画出如下四个等高堆积条形图,最能体现该药物对预防禽流感有显著效果的图形是()答案D3.(2020宁夏石嘴山二模,4)通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到K2的观测值k≈4.892,参照下表,得到的正确结论是()P(K2≥k0)0.100.050.025k0 2.706 3.841 5.024A.有97.5%以上的把握认为“爱好该项运动与性别有关”B.有97.5%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”答案C4.(2021四川南充阆中中学4月质检,6)若由一个2×2列联表中的数据计算得K2=4.013,那么有的把握认为两个变量有关系.()P(K2≥k0)0.150.100.050.0250.0100.0050.001k0 2.0722.7063.8415.0246.6357.87910.828A.95%B.97.5%C.99%D.99.9%答案A5.(2021安徽黄山二模,7)给出下列命题:①在线性回归模型中,相关指数R2表示解释变量x对于预报变量y的贡献率,R2越接近于0,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1; ③两个模型中残差平方和越小的模型拟合的效果越好;④对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大. 其中正确命题的个数是( )A.1B.2C.3D.4 答案 C6.(2022届河南焦作模拟,17)第32届夏季奥运会于2021年7月23日至8月8日在日本举行,为了解某校学生对奥运会是否关注,随机调查了该校200名学生,统计结果如表:关注 不关注 合计 女生 34 51 85 男生 66 49 115 合计100100200(1)分别估计该校女生和男生关注奥运会的概率;(2)能否有99%的把握认为该校女生和男生对奥运会的关注度有差异? 参考公式及数据: K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.050 0.010 0.001k3.8416.635 10.828解析 (1)估计该校女生关注奥运会的概率约为3485=25;男生关注奥运会的概率约为66115. (2)由题表中数据可知K2=200×(34×49-66×51)2100×100×85×115=13623≈5.913. 因为5.913<6.635,故没有99%的把握认为该校女生和男生对奥运会的关注度有差异.7.(2022届昆明质检,17)“微信运动”是手机APP 推出的多款健康运动软件中的一款,某学校140名教师均在微信好友群中参与了“微信运动”,对运动10 000步或以上的教师授予“运动达人”称号,低于10 000步称为“参与者”.为了解教师们的运动情况,选取了教师们在某日的运动数据进行分析,统计结果如下:运动达人 参与者 合计 男教师 60 20 80 女教师 40 20 60 合计10040140(1)根据上表说明,能否在犯错误概率不超过0.05的前提下认为获得“运动达人”称号与性别有关; (2)从获得“运动达人”称号的教师中采用按性别分层抽样的方法选取5人参加全国第四届“万步有约”全国健走激励大赛某赛区的活动,若从选取的5人中随机抽取2人作为代表参加开幕式,求抽取的2人都为女教师的概率. 参考公式:K 2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:P(K 2≥k 0) 0.050 0.0100.001k 03.8416.635 10.828解析 (1)∵K2=140×(60×20-40×20)280×60×100×40≈1.167<3.841,∴不能在犯错误的概率不超过0.05的前提下认为获得“运动达人”称号与性别有关.(2)根据分层抽样方法得:参赛的男教师有60100×5=3人,参赛的女教师有40100×5=2人,抽取的男教师记为A,B,C;女教师记为a,b.从抽取的这五名教师中随机选取2名,有AB,AC,Aa,Ab,BC,Ba,Bb,Ca,Cb,ab 共10种选法,其中2人都是女教师的选法有ab 一种,故抽取的2人都为女教师的概率P=110.8.(2019课标Ⅰ,17,12分)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d).P(K 2≥k)0.050 0.010 0.001 k3.8416.63510.828.解析 (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)K2=100×(40×20-10×30)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.综合篇 知能转换考法一 线性回归方程的求解与应用1.(2022届四川模拟,8)已知回归直线的斜率的估计值为1.23,样本点的中心为(5,6),则回归直线方程为( ) A.y ^=-0.15x+1.23 B.y ^=-2.38x+1.23C.y ^=1.23x-2.38 D.y ^=1.23x-0.15 答案 D2.(2022届哈尔滨模拟,10)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间具有线性相关关系,利用下表中的五组数据求得回归直线方程为y ^=b ^x+a ^,根据该回归方程,预测当x=8时,y ^=84.8,则b ^=( )x23456y 25 37 50 56 64A.9.4B.9.5C.9.6D.9.8 答案 C3.(2021甘肃二模,7)某地以“绿水青山就是金山银山”理念为引导,推进绿色发展,现要订购一批苗木,苗木长度与售价如下表:苗木长度x(厘米) 38 485868 7888 售价y(元)16.8 18.8 20.8 22.8 2425.8由表可知,苗木长度x(厘米)与售价y(元)之间存在线性相关关系,回归方程为y ^=0.2x+a ^,则当苗木长度为150厘米时,售价大约为( ) A.33.3元 B.35.5元 C.38.9元 D.41.5元 答案 C4.(2021西安中学二模,4)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i=1,2,…,n),用最小二乘法建立的回归方程为y ^=0.85x-85.71. ①y 与x 具有正的线性相关关系; ②回归直线过样本点的中心(x ,y );③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg; ④若该大学某女生身高为170 cm,则其体重必为58.79 kg. 则上述判断不正确的个数是( ) A.1 B.2 C.3 D.4 答案 A5.(2020中原名校质量考评,7)根据最小二乘法,由一组样本数据(x i ,y i )(其中i=1,2,…,300)求得的回归方程是y ^=b ^x+a ^,则下列说法正确的是( )A.至少有一个样本点落在回归直线y ^=b ^x+a ^上B.若所有样本点都在回归直线y ^=b ^x+a ^上,则变量间的相关系数为1 C.对所有的解释变量x i (i=1,2,…,300),b ^x i +a ^的值一定与y i 有误差 D.若回归直线y ^=b ^x+a ^的斜率b ^>0,则变量x 与y 正相关 答案 D6.(2021江西八校4月联考,14)如图,根据已知的散点图得到y 关于x 的线性回归方程为y ^=b ^x+0.2,则b ^= .答案 1.67.(2022届江西顶级名校调研,18)根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作.某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用.自宣传开始后村干部统计了本村200名居民(未接种)5天内每天新接种新冠疫苗的情况如下表:第x 天 1 2 3 4 5 新接种人数y1015192328(1)建立y 关于x 的线性回归方程;(2)假设全村共计2 000名居民(均未接种过新冠疫苗),用样本估计总体来预测该村80%居民接种新冠疫苗需要几天.参考公式:回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计公式分别为b ^=∑i=1nx i y i -nxy ∑i=1nx i 2-nx2,a ^=y -b ^x .解析 (1)x =1+2+3+4+55=3,y =10+15+19+23+285=19,则b ^=10+30+57+92+140-5×3×1912+22+32+42+52-5×32=225,a ^=19-225×3=295,故y 关于x 的线性回归方程为y ^=225x+295.(2)设a n =225n+295,数列{a n }的前n 项和为S n ,易知数列{a n }是等差数列, 则S n =n(a 1+a n )2=n (225+295+225n+295)2=115n 2+8n,因为S 6=127.2,S 7=163.8,所以10S 6=1 272,10S 7=1 638,又2 000×80%=1 600(人),所以预测该村80%居民接种新冠疫苗需要7天.8.(2021广西贵港港北模拟,17)某个体服装店经营各种服装,在某周内获纯利润y(元)与该周每天销售这种服装件数x 之间的一组数据关系如下表:x 3456789y66 69 73 81 89 90 91(1)求x ,y ;(2)若y 与x 线性相关,请求纯利润y(元)与每天销售件数x 的回归直线方程. 参考数据及公式:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y ∑i=1nx i2-nx 2,a ^=y -b ^x ,∑i=17x i 2=280,∑i=17x i y i =3 487. 解析 (1)x =17×(3+4+5+6+7+8+9)=6,y =17×(66+69+73+81+89+90+91)=5597. (2)设回归直线方程为y ^=b ^x+a ^.∵∑i=17x i 2=280,∑i=17x i y i =3 487,∴b ^=3 487-7×6×5597280-7×36=13328=4.75,a ^=5597-6×4.75≈51.36.∴回归直线方程为y ^=4.75x+51.36.9.(2021成都郫都模拟,18)某人统计了近5年某网站“双11”当天的交易额,统计结果如下表:年份 2015 2016 2017 2018 2019 年份代码x 1 2 3 4 5 交易额y/百亿元912172126(1)请根据上表提供的数据,用相关系数r 说明y 与x 的线性关系的强弱(线性相关系数保留三位小数);(统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值x i ,变量y 的观测值为y i (1≤i ≤n),则两个变量的相关系数的计算公式为r=∑i=1n(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i -y)2.统计学认为,对于变量x,y,如果r ∈[-1,-0.75],那么负相关很强;如果r ∈[0.75,1],那么正相关很强;如果r ∈(-0.75,-0.30]或r ∈[0.30,0.75),那么相关性一般;如果r ∈[-0.25,0.25],那么相关性较弱)(2)求出y 关于x 的线性回归方程,并预测2020年该网站“双11”当天的交易额. 参考公式:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y -b ^x ,参考数据:√1 860≈43.1.解析 (1)根据题表中的数据,可得x =15×(1+2+3+4+5)=3,y =15×(9+12+17+21+26)=17, 则∑i=15(x i -x )(y i -y )=(1-3)×(9-17)+…+(5-3)×(26-17)=43;√∑i=15(x i -x)2∑i=15(y i -y)2=√10×186≈43.1,所以r=∑i=15(x i -x)(y -y)√∑i=15(x i -x)2∑i=15(y i-y)2=4343.1≈0.998,所以变量y 与x 的线性相关性很强. (2)由(1)可得x =3,y =17,∑i=15(x i -x )(y i -y )=43,∑i=15(x i -x )2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,所以b ^=∑i=15(x i -x)(y i -y)∑i=15(x i -x)2=4310=4.3,则a ^=y -b ^x =17-4.3×3=4.1.所以y 关于x 的线性回归方程为y ^=4.3x+4.1.令x=6,可得y ^=4.3×6+4.1=29.9,故预测2020年该网站“双11”当天的交易额为29.9百亿元.思路分析 (1)利用已知条件求解相关系数,判断即可;(2)根据公式求出回归直线方程的系数,得回归直线方程,然后把x=6代入,求出结果进行预测即可.考法二 独立性检验的应用1.(2022届河南月考,9)某外语学校要学生从德语和日语中选择一种作为“第二外语”进行学习,为了解选择第二外语的倾向与性别的关系,随机抽取100名学生,得到下面的数据表:选择德语 选择日语 男生 15 35 女生3020根据表中提供的数据可知( ) 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.100 0.050 0.010 0.005 0.001 k2.7063.841 6.635 7.87910.828A.在犯错误的概率不超过0.1%的前提下,认为选择第二外语的倾向与性别无关B.在犯错误的概率不超过0.1%的前提下,认为选择第二外语的倾向与性别有关C.有99.5%的把握认为选择第二外语的倾向与性别无关D.有99.5%的把握认为选择第二外语的倾向与性别有关答案D2.(2020江西吉安、抚州、赣州一模,5)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A 的100天日落和夜晚天气,得到如下2×2列联表:夜晚天气下雨未下雨日落云里走出现255未出现2545临界值表P(K2≥k0)0.100.050.0100.001k0 2.706 3.841 6.63510.828并计算得到K2≈19.05,下列小波对地区A天气的判断不正确的是()A.夜晚下雨的概率约为12B.未出现“日落云里走”,夜晚下雨的概率约为514C.有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关D.出现“日落云里走”,有99.9%的把握认为夜晚会下雨答案D3.(2020湖南衡阳八中月考,5)某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:喜欢应用统计课程不喜欢应用统计课程男生205女生1020附表:P(K2≥k)0.100.050.0250.0100.0050.001k 2.706 3.841 5.024 6.6357.87910.828参考公式:K2=n(ad-bc)2,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关B.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别无关C.有99.99%以上的把握认为喜欢“应用统计”课程与性别有关D.有99.99%以上的把握认为喜欢“应用统计”课程与性别无关答案A4.(2020安徽蚌埠三模,15)某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、国外各100名客户代表,了解他们对该企业产品的发展前景所持的态度,得到如图所示的等高条形图,则有99%以上的把握认为是否持乐观态度与国内外差异有关(填“能”或“不能”).P(K2≥k)0.0500.0100.0050.001k 3.841 6.6357.87910.828附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).答案能5.(2021山东青岛一模,15)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为接受大密度集中培训的55名学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30名.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).P(K2≥k)0.050.0250.0100.001k 3.841 5.024 6.63510.828答案0.0256.(2022届吉林重点高中月考,19)新能源汽车是指除汽油、柴油发动机之外所有的其他能源汽车,被认为能减少空气污染和缓解能源短缺.在当今提倡全球环保的前提下,新能源汽车产业必将成为未来汽车产业发展的导向与目标.新能源汽车也越来越受到消费者的青睐.某机构调查了某地区近期购车的200位车主的性别与购车种类情况,得到数据如下:购置新能源汽车购置传统燃油汽车合计男性10020120女性503080合计15050200 (1)根据表中数据,判断是否有99.9%的把握认为购置新能源汽车与性别有关;(2)用分层抽样的方法按性别从被调查的购置新能源汽车的车主中选出6位,参加关于“新能源汽车驾驶体验”的问卷调查,并从这6位车主中随机抽取2位车主赠送一份小礼物,求这2位获赠礼品的车主中至少有1位女性车主的概率. 参考公式:K 2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:P(K 2≥k 0) 0.10 0.05 0.010 0.001 k 02.7063.8416.63510.828解析 (1)由题表得K2=200×(100×30-20×50)2120×80×150×50=1009≈11.111>10.828.所以有99.9%的把握认为购置新能源汽车与性别有关.(2)用分层抽样的方法按性别从被调查的购置新能源汽车的车主中选出6位,其中男性车主有100150×6=4人,记为a,b,c,d;女性车主有50150×6=2人,记为E,F.从这6位车主中随机抽取2位车主包含的基本事件有:ab,ac,ad,aE,aF,bc,bd,bE,bF,cd,cE,cF,dE,dF,EF,共15种. 至少有1位女性车主包含的基本事件有:aE,aF,bE,bF,cE,cF,dE,dF,EF,共9种.故所求概率P=915=35. 7.(2022届山西长治质检,17)为了了解某种新型药物对治疗某种疾病的疗效,某机构日前联合医院进行了小规模的调查.结果显示,相当多的受访者担心使用新药后会有副作用.为了了解使用该种新型药品后是否会引起疲乏症状,该机构随机抽取了某地患有这种疾病的275人进行调查,得到统计数据如下表:无疲乏症状有疲乏症状总计 未使用新药 150 25 t 使用新药 x y 100 总计225m275(1)求2×2列联表中的数据x,y,m,t 的值,并确定能否有95%的把握认为有疲乏症状与使用该新药有关; (2)从使用该新药的100人中按是否有疲乏症状,采用分层抽样的方法抽出4人,再从这4人中随机抽取2人作进一步调查,求这2人中恰有1人有疲乏症状的概率. 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.150 0.100 0.050 0.025 0.010 k2.072 2.7063.841 5.0246.635解析 (1)t=150+25=175,x=225-150=75,y=100-75=25,m=25+25=50,所以K 2的观测值k=275×(150×25-75×25)2225×50×100×175≈4.910 7>3.841,故有95%的把握认为有疲乏症状与使用新药有关.(2)从使用该新药的100人中按是否有疲乏症状,采用分层抽样的方法抽出4人,其中无疲乏症状的有75100×4=3人,记为a,b,c;有疲乏症状的有25100×4=1人,记为D,则从这4人中随机抽取2人的情况有ab,ac,aD,bc,bD,cD,共6种,这2人中恰有1人有疲乏症状的情况有aD,bD,cD,共3种.故所求概率P=36=12. 8.(2021安徽五校联盟联考(二),18)网购是当前人们购物的新方式,某公司为了改进营销方式,随机调查了100名市民,统计了不同年龄的人群网购的人数如下表:年龄段(岁) (0,20) [20,40) [40,60) [60,100) 网购人数 26 32 34 8 男性人数1510105(1)若把年龄在[20,60)的人称为“网购迷”,否则称为“非网购迷”,请完成下面的2×2列联表,并判断能否有99%的把握认为网购与性别有关;网购迷非网购迷总计男性 女性 总计(2)若从年龄小于40岁的网购男性中用分层抽样的方法抽取5人,再从中抽取两人,求两人年龄都小于20岁的概率. 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.10 0.05 0.01 0.001k2.7063.841 6.635 10.828解析 (1)由题中信息完善2×2列联表如下表所示:网购迷 非网购迷 总计 男性 20 20 40 女性 46 14 60 总计6634100∴K2=100×(20×14-46×20)266×34×40×60≈7.605>6.635,故有99%的把握认为网购与性别有关.(2)年龄在(0,20)、[20,40)的网购男性分别有15人、10人.按分层抽样的方法随机抽取5人,从年龄段(0,20)内抽取3人,分别记为1、2、3;从年龄段[20,40)内抽取2人,分别记为a 、b,从中随机抽取2人的可能结果有(1,2)、(1,3)、(1,a)、(1,b)、(2,3)、(2,a)、(2,b)、(3,a)、(3,b)、(a,b),共10个.用A表示“两人年龄都小于20岁”这一事件,则事件A包含的结果为(1,2)、(1,3)、(2,3),共3个.故事件A发生的概率P(A)=310.9.(2021安徽黄山二模,17)2021年3月5日,人社部和全国两会政府工作报告中针对延迟退休给出了最新消息,人社部表示正在研究延迟退休改革方案,两会上指出十四五期间要逐步延迟法定退休年龄.现对某市工薪阶层关于延迟退休政策的态度进行调查,随机调查了50人,他们月收入的频数分布及对延迟退休政策赞成的人数如下表.月收入(单位:百元)[15,25)[25,35)[35,45)[45,55)[55,65)[65,75]频数510151055赞成人数123534(1)根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有99%的把握认为“月收入以55百元为分界点”对延迟退休政策的态度有差异;月收入不低于55百元月收入低于55百元合计赞成不赞成合计(2)若采用分层抽样法从月收入在[25,35)和[65,75]的被调查人中选取6人进行跟踪调查,并随机给其中3人发放奖励,求获得奖励的3人中至少有1人月收入在[65,75]的概率.参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.P(K2≥k)0.0500.0100.001k 3.841 6.63510.828解析(1)2×2列联表如下:月收入不低于55百元月收入低于55百元合计赞成71118不赞成32932合计104050则K2=50×(7×29-3×11)210×40×32×18≈6.27<6.635,所以没有99%的把握认为“月收入以55百元为分界点”对延迟退休政策的态度有差异.(2)按照分层抽样的方法可知,月收入在[25,35)的抽取4人,记为a,b,c,d,月收入在[65,75]的抽取2人,记为A,B,则从6人中任取3人的所有情况为{A,B,a}、{A,B,b}、{A,B,c}、{A,B,d}、{A,a,b}、{A,a,c}、{A,a,d}、{A,b,c}、{A,b,d}、{A,c,d}、{B,a,b}、{B,a,c}、{B,a,d}、{B,b,c}、{B,b,d}、{B,c,d}、{a,b,c}、{a,b,d}、{a,c,d}、{b,c,d},共20种, 其中至少有1人月收入在[65,75]的情况有16种, 所以3人中至少有1人月收入在[65,75]的概率为1620=45.应用篇 知行合一应用 回归模型的应用1.(2020课标Ⅰ,5,5分探索创新情境)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( )A.y=a+bxB.y=a+bx 2C.y=a+be xD.y=a+bln x 答案 D2.(2022届宁夏顶级名校月考,20实际生活)“金山银山不如绿水青山;绿水青山就是金山银山.”复兴村借力“乡村振兴”国策,依托得天独厚的自然资源开展乡村旅游,乡村旅游事业蓬勃发展.复兴村旅游协会记录了近八年的游客人数,见下表.年份2013 年 2014 年 2015 年 2016 年 2017 年 2018 年 2019 年2020 年 年份代码x 1 2 345678 游客人数y (百人)4816 32 51 71 97122为了分析复兴村未来的游客人数变化趋势,公司总监分别用两种模型对变量y 和x 进行拟合,得到了相应的回归方程,绘制了残差图.残差图如下(注:残差e ^i =y i -y ^i ):模型①y ^=bx 2+a;模型②y ^=dx+c.(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由; (2)根据(1)中选定的模型求出相应的回归方程(系数均保留两位小数); (3)根据(2)中求出的回归方程来预测2021年的游客人数(结果保留整数). 其中,z=x2,z =18∑i=18z i .参考数据:∑i=18(x i -x )·(y i -y )=728∑i=18(x i -x )2=42∑i=18(z i -z )·(y i -y )=6 868∑i=18(z i -z )2=3 570∑i=18z i =204∑i=18y i =400附:回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y -b ^x .解析 (1)选择模型①.理由:根据残差图可以看出, 模型①的估计值和真实值相对比较接近;模型②的残差相对比较大,所以模型①的拟合效果相对较好.(2)由(1)可知y 关于x 的回归方程为y ^=bx 2+a.令z=x 2,则y ^=bz+a,由题中所给数据得b ^=6 8683 570≈1.92,又z =18∑i=18z i =2048=25.5,y =4008=50,所以a ^=50-1.92×25.5=1.04,所以y 关于x 的回归方程为y ^=1.92x 2+1.04. (3)将x=9代入回归方程,可得y ^=1.92×92+1.04≈157, 则2021年游客人数大约为157百人. 3.(2021哈尔滨三中一模,19实际生活)宁夏西海固地区,在1972年被联合国粮食开发署确定为最不适宜人类生存的地区之一.为改善这一地区人民生活的贫困状态,20世纪90年代,党中央和自治区政府决定开始吊庄移民,将西海固地区的人口成批地迁移到更加适合生活的地区.为了帮助移民人口尽快脱贫,党中央作出推进东西部对口协作的战略部署,其中确定福建对口帮扶宁夏,在福建人民的帮助下,原西海固人民实现了快速脱贫,下表是对2016年以来近5年某移民村庄100位移民的年人均收入的统计:年份 2016 2017 2018 2019 2020 年份代码x12 3 4 5 人均年收入y(千元) 1.32.85.78.913.8现要建立y 关于x 的回归方程,有两个不同回归模型可供选择,模型一y^(1)=b ^x+a ^;模型二y ^(2)=c ^x 2+d ^,即使画出y 关于x 的散点图,也无法确定哪个模型拟合效果更好,现用最小二乘法原理,已经求得模型一的方程为y ^=3.1x-2.8.(1)请你用最小二乘法原理,结合下面的参考数据及参考公式求出模型二的方程(计算结果保留到小数点后一位);(2)用计算残差平方和的方法比较哪个模型拟合效果更好(已经计算出模型一的残差平方和为∑i=15(y i -y ^i )2=3.7).参考数据:∑i=15t i y i -5ty ∑i=15t i2-5t 2≈0.52,其中t i =x i 2,i=1,2,3,4,5.参考公式:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计公式分别为β^=∑i=1nu i v i -nuv ∑i=1nu i 2-nu 2,α^=v -β^u .解析 (1)令t=x 2,则模型二可化为y 关于t 的线性回归问题, t =1+4+9+16+255=11,y =1.3+2.8+5.7+8.9+13.85=6.5, 则由参考数据可得c ^=∑i=15t i y i -5ty ∑i=15t i2-5t 2≈0.52≈0.5,d ^=y -c ^t =6.5-0.52×11≈0.8, 则模型二的方程为y ^(2)=0.5x 2+0.8. (2)由模型二的回归方程可得,y ^1(2)=0.5×1+0.8=1.3,y ^2(2)=0.5×4+0.8=2.8,y ^3(2)=0.5×9+0.8=5.3,y ^4(2)=0.5×16+0.8=8.8,y ^5(2)=0.5×25+0.8=13.3,∴∑i=15(y i -y ^i (2))2=02+02+0.42+0.12+0.52=0.42<3.7,故模型二的拟合效果更好.创新篇 守正出奇创新 统计与统计案例的综合应用。
新人教版高中数学统计全套教案试题练习题及答案解析
§9.1线性回归分析9.1.1变量的相关性学习目标 1.结合实例,体会两个变量间的相关关系.2.掌握相关关系的判断,能根据散点图对线性相关关系进行判断.3.了解两个变量间的相关系数r,能利用相关系数r判断两个变量线性相关程度的大小.导语你知道“名师出高徒”的意思吗?——高明的师傅一定能教出技艺高的徒弟,比喻学识丰富的人对于培养人才的重要性.也就是说,高水平的老师往往能教出高水平的学生.那么老师的水平与学生的水平之间具有怎样的关系呢?这种关系是确定的吗?一、相关关系问题1俗话说“庄稼一枝花,全靠肥当家”,这说明施肥的多少对粮食的产量影响很大,那么施肥量和粮食的产量是确定的函数关系吗?两个变量间的关系除了可能是函数关系外,还可能是其他关系吗?提示农作物的产量与施肥量有关,一般来说,在一定范围内,施肥量越多,农作物的产量就越高,但不能用一个函数来准确地表示产量与施肥量之间的关系,故两者之间不是函数关系,我们称这种不确定的变量关系为相关关系.知识梳理像这样,两个变量之间具有一定的联系,但又没有确定性函数关系,这种关系称为相关关系(correlativity).注意点:相关关系与函数关系的异同点:相同点:均是指两个变量的关系.不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系.例1判断以下两个变量之间是否具有相关关系?(1)正方形的面积与其周长之间的关系;(2)父母的身高与子女的身高之间的关系;(3)学生的学号与身高;(4)汽车匀速行驶时的路程与时间的关系.解(1)设正方形的面积为S,周长为C,则S,即正方形的面积由其周长唯一确定,因此二者是函数关系,不是相关关系.(2)子女身高除了与父母的身高有一定关系外,还与其他因素有关,即子女的身高并不是由其父母的身高唯一确定的,因此二者之间具有相关关系.(3)学生的学号与身高之间没有任何关系,不具有相关关系.(4)若汽车匀速行驶时的速度为v,行驶的路程为s,时间为t,则有s=v t,因此当速度一定时,路程由时间唯一确定,二者之间具有函数关系,而不是相关关系.反思感悟函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.跟踪训练1(多选)下列说法正确的是()A.闯红灯与交通事故发生率的关系是相关关系B.同一物体的加速度与作用力是函数关系C.产品的成本与产量之间的关系是函数关系D.广告费用与销售量之间的关系是相关关系答案ABD解析闯红灯与发生交通事故之间不是因果关系,但具有相关性,是相关关系,所以A正确;物体的加速度与作用力的关系是函数关系,B正确;产品的成本与产量之间是相关关系,C 错误;广告费用与销售量之间是相关关系,D正确.二、散点图与相关性问题2在一次对人体脂肪含量和年龄之间关系的研究中,研究人员获得了一组样本数据如下表.年龄/岁23273941454950脂肪含量/%9.517.821.225.927.526.328.2年龄/岁53545657586061脂肪含量/%29.630.231.430.833.535.234.6其中各年龄对应的脂肪数据是这个年龄人群脂肪含量的样本平均数.根据上述数据,你能推断出人体的脂肪含量与年龄之间存在怎样的关系吗?提示画出散点图,散点图中的点散布在从左下角到右上角的区域,散点图成线性,即大致分布在一条直线附近,推断脂肪含量变量和年龄变量之间存在着相关关系.知识梳理1.散点图为直观地描述样本数据中两个变量间的关系,用横坐标表示其中的一个变量,纵坐标表示另一个变量,则样本数据都可以用直角坐标系中的点表示出来,由这些点组成的统计图叫作散点图.2.线性相关关系散点落在一条直线附近,我们称这两个变量线性相关.3.相关关系的分类具有相关关系的两个变量的散点图:(1)如果散点呈从左下向右上方向发展的趋势,称这两个变量之间正相关.(2)如果散点呈从左上向右下方向发展的趋势,则称这两个变量之间负相关.注意点:散点图的作用(1)散点图具有直观、简明的特点,能体现样本数据的密切程度,可以根据散点图判断变量间是否具有相关关系.(2)通过散点图不但可以从点的位置判断测量值的大小、高低、变动范围与趋势,还可以通过观察剔除异常数据,提高估计相关程度的准确性.例2(1)(多选)某中学的兴趣小组在某座山测得海拔高度、气压和沸点的六组数据绘制成散点图如图所示,则下列说法正确的是()A.沸点与海拔高度呈正相关B.沸点与气压呈正相关C.沸点与海拔高度呈负相关D.气压与海拔高度呈负相关答案BCD解析由左图知气压随海拔高度的增加而减小,由右图知沸点随气压的升高而升高,所以气压与海拔高度呈负相关,沸点与气压呈正相关,沸点与海拔高度呈负相关.(2)某种木材体积与树木的树龄之间有如下的对应关系:树龄2345678体积30344060556270①请作出这些数据的散点图;②你能由散点图发现木材体积与树木的树龄近似成什么关系吗?解①以x轴表示树木的树龄,y轴表示树木的体积,可得相应的散点图如图所示:②由散点图发现木材体积随着树龄的增加而呈增加的趋势,且散点落在一条直线附近,所以木材的体积与树龄成相关关系且呈正相关.延伸探究对于本例(2),若近似成线性相关关系,请画出一条直线来近似地表示这种线性相关关系.解近似拟合直线如图所示.反思感悟两个变量是否相关的两种判断方法(1)根据实际经验:借助积累的经验进行分析判断.(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.跟踪训练2(多选)在下列所示的四个图中,每个图的两个变量具有相关关系的图是()答案BC解析图A 的两个变量具有函数关系;图BC 的两个变量具有相关关系;图D 的两个变量之间既不是函数关系,也不是相关关系.三、相关系数问题3散点图可以说明变量间有无线性相关关系,但无法量化两个变量之间的相关程度的大小,更不能精确地说明样本数据之间关系的密切程度,那么我们如何才能寻找到这样一个合适的量来对样本数据的相关程度进行定量分析呢?提示一般地,对于n 对数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),设点A 1(x 1,y 1),A 2(x 2,y 2),…,A n (x n ,y n ),取点M (x ,y )(其中x =x 1+x 2+…+x n n ,y =y 1+y 2+…+y nn).构造向量a 与b ,a =(x 1-x ,x 2-x ,…,x n -x ),b =(y 1-y ,y 2-y ,…,y n -y ),并记〈a ,b 〉=θ,则cos θ=错误!.(*)当|cos θ|越大(越接近于1)时,a ,b 的夹角θ就越接近于0或π,这时,向量a ,b 趋于共线.当a ,b 共线时,存在非零实数λ,使得b =λa1-y =λ(x 1-x ),2-y =λ(x 2-x),n -y =λ(x n -x ).这说明,向量MA 1→,MA 2→,…,MA n →趋于共线,即点A 1,A 2,…,A n ,M 这n +1个点接近于共线.知识梳理1.相关系数r 的公式计算:r =错误!=错误!=错误!.2.相关系数r 具有下列性质:(1)-1≤r ≤1;(2)r>0时y与x呈正相关关系,r<0时y与x呈负相关关系;(3)|r|越接近1,y与x相关的程度就越强,|r|越接近0,y与x相关的程度就越弱.通常情况下,当|r|>0.5时,认为线性相关关系显著;当|r|<0.3时,认为几乎没有线性相关关系.注意点:当r=1时,两个变量完全正相关;当r=-1时,两个变量完全负相关.角度1相关系数的性质例3(多选)对两个变量的相关系数r,下列说法正确的是()A.|r|越大,相关程度越大B.|r|越小,相关程度越大C.|r|趋近于0时,没有线性相关关系D.|r|越接近1时,线性相关程度越强答案AD解析对于A,|r|越大,相关程度越大,A正确;对于B,|r|越小,相关程度越小,B错误;对于C,|r|趋近于0时,线性相关关系越弱,C错误;对于D,|r|越接近1时,线性相关程度越强,D正确.综上,正确的是AD.反思感悟相关系数的性质(1)r的绝对值越接近0,相关性越弱.(2)r的绝对值越接近1,相关性越强.角度2相关系数的计算及判断例4某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:x2468y30405070(1)画出(x,y)的散点图;(2)计算x与y之间的相关系数,并刻画它们的相关程度.解(1)(x,y)的散点图如图所示.(2)x=5,y=47.5,错误!2i=120,错误!2i=9900,错误!i y i=1080,故相关系数r=错误!=1080-4×5×47.5(120-4×52)(9900-4×47.52)0.9827.由相关系数r≈0.9827,可以推断生产原料耗费与销售额这两个变量正线性相关,且相关程度很高.反思感悟线性相关强弱的判断方法(1)散点图:散点图只是粗略作出判断,其图象越接近直线,相关性越强.(2)相关系数:相关系数能够较准确地判断相关的程度,其绝对值越大,相关性越强.跟踪训练3(1)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并分别求得相关系数r如下表:甲乙丙丁r0.820.780.690.85则哪位同学的试验结果体现A,B两变量有更强的线性相关性?()A.甲B.乙C.丙D.丁答案D解析|r|越接近1,相关性越强,故选D.(2)关于两个变量x和y的7组数据如下表所示:x21232527293235y711212466115325求变量y与x的相关系数,并判断变量y与x之间是正相关还是负相关.解x=17(21+23+25+27+29+32+35)≈27.4,y=17(7+11+21+24+66+115+325)≈81.3,错误!2i=212+232+252+272+292+322+352=5414,错误!i y i=21×7+23×11+25×21+27×24+29×66+32×115+35×325=18542,错误!2i=72+112+212+242+662+1152+3252=124393,∴r=错误!=18542-7×27.4×81.3 (5414-7×27.42)(124393-7×81.32)≈2948.66 3520.92≈0.8375.∵r>0,∴变量y与x之间是正相关关系.1.知识清单:(1)相关关系.(2)散点图,正相关、负相关.(3)相关系数的计算公式及相关系数的性质.2.方法归纳:数形结合.3.常见误区:相关关系与函数关系不分,相关系数绝对值的大小与相关程度的关系.1.(多选)下列两个变量之间的关系不是函数关系的是()A.角度和它的余弦值B.眼睛的近视程度与看手机的时间C.正n边形的边数和内角和的度数D.人的年龄和身高答案BD解析函数关系就是变量之间的一种确定性关系.A,C两项中的两个变量之间都是函数关系,可以写出相应的函数表达式,分别为f(θ)=cosθ,h(n)=(n-2)π.B选项中的两个变量之间不是函数关系,眼睛的近视程度受很多因素影响.D选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高,故选BD.2.已知某产品产量与产品单位成本之间的线性相关系数为-0.97,这说明二者之间存在着()A.高度相关B.中度相关C.弱度相关D.极弱相关答案A解析由|-0.97|比较接近1知选A.3.根据两个变量x,y之间的样本数据画出散点图如图,这两个变量是否具有线性相关关系______.(填“是”或“否”)答案否解析图中的点分布杂乱,两个变量不具有线性相关关系.4.某部门所属的10个工业企业生产性固定资产价值与工业增加值资料如下表(单位:百万元):固定资产价值33566789910工业增加值15172528303637424045根据上表资料计算的相关系数约为________.答案0.9918解析x =3+3+5+6+6+7+8+9+9+1010=6.6,y =15+17+25+28+30+36+37+42+40+4510=31.5.∴r =错误!≈0.9918.课时对点练1.(多选)给出下列关系,其中有相关关系的是()A .人的年龄与他(她)拥有的财富之间的关系B .曲线上的点与该点的坐标之间的关系C .苹果的产量与气候之间的关系D .森林中的同一种树木,其截面直径与高度之间的关系答案ACD2.(多选)对于线性相关系数r ,以下说法错误的是()A .r 只能是正值,不能为负值B .|r |≤1,且|r |越接近于1,相关程度越大;相反则越小C .|r |≤1,且|r |越接近于1,相关程度越小;相反则越大D .r <0时表示两个变量无相关关系答案ACD解析由相关系数的性质知B正确,其余均错误.3.对于散点图下列说法正确的是()A.一定可以看出变量之间的变化规律B.一定不可以看出变量之间的变化规律C.可以看出正相关与负相关有明显区别D.看不出正相关与负相关有什么区别答案C解析给出一组样本数据,总可以作出相应的散点图,但不一定能分析出两个变量的关系,不一定存在回归直线来模拟数据,但是通过散点图可以看出正相关与负相关有明显区别,故选C.4.(多选)下面的各图中,散点图与相关系数r符合的是()答案ACD解析因为相关系数r的绝对值越接近1,线性相关程度越高,且r>0时正相关,r<0时负相关,故观察各选项,易知B不符合,A,C,D均符合.5.变量x与y相对应的一组样本数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),变量u 与v相对应的一组样本数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量y与x 之间的相关系数,r2表示变量v与u之间的相关系数,则()A.r2<r1<0B.0<r2<r1C.r2<0<r1D.r1=r2答案C解析由已知中的数据可知:第一组的样本数据正相关,则相关系数大于零,第二组的样本数据负相关,则相关系数小于零,故选C.6.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份123456人均销售额658347利润率(%)12.610.418.5 3.08.116.3根据表中数据,下列说法正确的是()A.利润率与人均销售额呈正比例函数关系B.利润率与人均销售额呈反比例函数关系C.利润率与人均销售额呈正相关关系D.利润率与人均销售额呈负相关关系答案C解析根据题意,画出利润率与人均销售额的散点图,如图所示.由散点图可知,利润率与人均销售额呈正相关关系.故选C.7.已知某个样本点中的变量x,y线性相关,相关系数r>0,平移坐标系,则在以(x,y)为坐标原点的坐标系下的散点图,大多数的点都落在第________象限.答案一、三解析因为r>0,所以大多数的点都落在第一、三象限.8.给出下列x,y值的数据如下:x1248y35917则根据数据可以判断x和y的关系是________.(填“确定关系”“相关关系”或“没有关系”)答案确定关系解析由表中数据可以得到x,y之间是一种函数关系:y=2x+1,所以x,y是一种确定的关系,即函数关系.9.某个男孩的年龄与身高的统计数据如下表所示:年龄x(岁)123456身高y(cm)788798108115120(1)画出散点图;(2)判断y与x是否具有线性相关关系,如果相关,是正相关还是负相关.解(1)散点图如图所示.(2)由图知,所有数据点接近一条直线排列,因此,认为y与x具有线性相关关系,且是正相关关系.10.某商店经营一批进价为每件4元的商品,在市场调查时发现,此商品的销售单价x与日销售量y之间有如下关系:x5678y10873试计算x,y之间的相关系数.参考数据:错误!(x i-x)(y i-y)=-11,错误!(x i-x)2=5,错误!(y i-y)2=26.解根据参考数据,得相关系数r=错误!=-115×26≈-0.9648.11.下列两个变量相关程度最高的是()A.商品销售额和商品销售量的相关系数是0.9B.商品销售额和商业利润率的相关系数是0.84C.平均流通费用率和商业利润率的相关系数是-0.94D.商品销售价格和商品销售量的相关系数是-0.91答案C解析当|r|越接近1时,样本数据的线性相关程度越强;当|r|越接近0时,样本数据的线性相关程度越弱,-0.94的绝对值最大,故选C.12.两个变量x,y的相关系数r1=0.7859,两个变量u,v的相关系数r2=-0.9568,则下列判断正确的是()A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强D .变量x 与y 负相关,变量u 与v 正相关,变量u 与v 的线性相关性较强答案C解析由相关系数r 1=0.7859>0知x 与y 正相关,由相关系数r 2=-0.9568<0知u ,v 负相关,又|r 1|<|r 2|,∴变量u 与v 的线性相关性比x 与y 的线性相关性强.故选C.13.为考察两个变量x ,y 的相关性,搜集数据如表,则两个变量的线性相关程度()x 510152025y103105110111114A.很强B .很弱C .无相关D .不确定答案A解析错误!i =75,错误!i =543,错误!2i =1375,错误!i y i =8285,错误!2i =59051,x =15,y =108.6,r =错误!=8285-5×15×108.61375-5×152×59051-5×108.62≈0.9826,故相关程度很强.14.若已知错误!(y i -y )2是错误!(x i -x )2的4倍,错误!(x i -x )·(y i -y )是错误!(x i -x )2的1.5倍,则相关系数r 的值为________.答案34解析由r =错误!,得r =34.15.(多选)如图所示是某市2020年4月至2021年3月每月最低气温与最高气温的折线统计图,已知每月最低气温与最高气温的相关系数r =0.83,则下列结论正确的是(若|r |>0.75,则线性相关程度较强)()A.每月最低气温与最高气温有较强的线性相关性,且二者为正线性相关B.月温差(月最高气温-月最低气温)的最大值出现在10月C.9~12月的月温差相对于5~8月,波动性更大D.每月最高气温与最低气温的平均值在所统计的前6个月里逐月增加答案ABC解析每月最低气温与最高气温的相关系数r=0.83,可知每月最低气温与最高气温有较强的线性相关性,且二者为正线性相关.由所给的折线图可以看出月温差(月最高气温-月最低气温)的最大值出现在10月.9~12月的月温差相对于5~8月,波动性更大.每月的最高气温与最低气温的平均值在所统计的前5个月里逐月增加,在第6个月开始减少,所以A,B,C 正确,D错误.16.为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得x=116错误!i=9.97,s=错误!=错误!≈0.212,错误!≈18.439,错误!(x i-x)(i-8.5)=-2.78,其中x i为抽取的第i个零件的尺寸,i=1,2, (16)求(x i,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).附:样本(x i,y i)(i=1,2,…,n)的相关系数r=错误!.解由样本数据得(x i,i)(i=1,2,…,16)的相关系数为r=错误!≈-2.780.212×16×18.439≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.§9.2独立性检验学习目标 1.掌握分类变量和列联表的概念,并会依据列联表判断两个分类变量是否独立.2.理解统计量χ2的意义和独立性检验的基本思想.导语有关法律规定:香烟盒上必须印上“吸烟有害健康”的警示语,那么吸烟和健康之间有因果关系吗?每一个吸烟者的健康问题都是由吸烟引起的吗?“如果你认为健康问题不一定是由吸烟引起的,那么可以吸烟”的说法对吗?要回答这个问题,我们先一起来学习本课时的知识吧!一、2×2列联表问题某医疗机构为了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中,有37人患呼吸道疾病(以下简称患病),183人未患呼吸道疾病(以下简称未患病);不吸烟的295人中,有21人患病,274人未患病.根据这些数据能否断定:患呼吸道疾病与吸烟有关?提示为了研究这个问题,我们将上述数据用表表示如下:患病未患病合计吸烟37183220不吸烟21274295合计58457515由此表可以粗略地估计出在吸烟的人中,有37220≈16.82%的人患病;在不吸烟的人中,有21295≈7.12%的人患病.因此,从直观上可以得到结论:吸烟者与不吸烟者患病的可能性存在差异.知识梳理一般地,对于两个分类变量Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B(如吸烟与不吸烟);Ⅱ也有两类取值,即类1和类2(如患呼吸道疾病和未患呼吸道疾病).我们得到如下列联表所示的抽样数据:Ⅱ合计类1类2Ⅰ类Aa b a +b 类B c d c +d 合计a +cb +da +b +c +d上述表格称为2×2列联表.注意点:列联表是两个或两个以上分类变量的汇总统计表,现阶段我们仅研究两个分类变量的列联表,并且每个分类变量只取两个值,这样的列联表称为2×2列联表.例1(1)某校为了检验高中数学新课程改革的成果,在两个班进行教学方式的对比试验,两个月后进行一次检测,试验班与对照班成绩统计如2×2列联表所示(单位:人),则其中m =________,n =________.80分及80分以上80分以下合计试验班321850对照班24m 50合计5644n答案26100解析+m =50+44=n ,=26,=100.(2)在一项有关医疗保健的社会调查中,发现调查的男性有530人,女性有670人,其中男性中喜欢吃甜食的有117人,女性中喜欢吃甜食的有492人,请作出性别与是否喜欢吃甜食的2×2列联表.解2×2列联表如下:喜欢吃甜食不喜欢吃甜食合计男117413530女492178670合计6095911200反思感悟2×2列联表是对两个分类变量的汇总统计表,列表时关键是对涉及的变量分清类别.制作2×2列联表的基本步骤:第一步,合理选取两个变量,且每一个变量都可以取两个值;第二步,抽取样本,整理数据;第三步,画出2×2列联表.跟踪训练1在调查的480名男性中有38名患有色盲,520名女性中有6名患有色盲,试作出性别与色盲的列联表.解根据题目所给的数据作出如下的列联表.色盲患色盲不患色盲合计性别男38442480女6514520合计449561000二、独立性检验知识梳理独立性检验1.定义:用χ2统计量研究两个变量X和Y是否有关的方法称为独立性检验.2.χ2统计量:.χ2=n(ad-bc)2(a+c)(b+d)(a+b)(c+d)3.独立性检验的步骤要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:(1)提出假设H0:Ⅰ与Ⅱ没有关系;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)根据临界值,作出判断.其中临界值如表所示:P(χ2≥x0)0.500.400.250.150.100.050.0250.0100.0050.001 x00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828例如:(1)若χ2>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;(2)若χ2>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”;(3)若χ2>2.706,则有90%的把握认为“Ⅰ与Ⅱ有关系”;(4)若χ2≤2.706,则认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“H0成立”,即Ⅰ与Ⅱ没有关系.注意点:独立性检验的基本思想类似于反证法,我们可以利用独立性检验来考察两个对象是否有关,并且能较精确地给出这种判断的把握程度.角度1对独立性检验的理解例2在吸烟与患肺癌是否相关的研究中,下列说法正确的是()A.若χ2>6.635,我们有99%的把握认为吸烟与患肺癌有关,则在100个吸烟的人中必有99个人患肺癌B.由独立性检验可知,当有99%的把握认为吸烟与患肺癌有关时,若某人吸烟,则他有99%的可能患有肺癌C.通过计算得到χ2>3.841,是指有95%的把握认为吸烟与患肺癌有关联D.以上三种说法都不正确答案C解析若χ2>6.635,我们有99%的把握认为吸烟与患肺癌有关,而不是在100个吸烟的人中必有99个人患肺癌,故A不正确;99%是指吸烟与患肺癌有关的概率,而不是吸烟的人有99%的可能患有肺癌,故B不正确.C显然正确,D不正确.反思感悟χ2≥x0的实质就是两个变量相关的概率为1-P(χ2≥x0).角度2由χ2进行独立性检验例3某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病(阳性是指工人患皮肤病)人数如下:阳性例数阴性例数合计新防护服57075旧防护服101828合计1588103问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由.解提出假设H0:新防护服对预防皮肤炎没有明显效果.根据列联表中的数据可求得χ2=103×(5×18-70×10)275×28×15×88≈13.826.因为H0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈13.826>10.828,所以我们有99.9%的把握认为新防护服比旧防护服对预防工人患职业性皮肤炎有效.反思感悟解决独立性检验问题的基本步骤(1)根据已知的数据作出列联表.(2)求χ2的值.(3)判断可能性:与临界值比较,得出事件有关的可能性大小.跟踪训练2(1)为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:理科文科合计。
最新高考数学(理)计数原理、概率统计专题09 变量间的相关关系、统计案例(含答案解析)
最新高考数学(理)概率统计09 变量间的相关关系、统计案例一、具体目标:了解回归的基本思想、方法及其简单应用.了解独立性检验的思想、方法及其初步应用.变量的相关性(1)会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.(2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).二、知识概述:1.两个变量的线性相关(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法:求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.【考点讲解】⎩⎪⎨⎪⎧b^=∑ni =1(x i -x )(y i -y )∑ni =1(x i-x )2=∑ni =1x i y i -n x -y-∑ni =1x 2i -n x2a ^=y -b ^x .3.回归分析:(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x -,y -)称为样本点的中心. (3)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K 2=n (ad -bc )(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量.(3)独立性检验:利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. [知识拓展] 1.b ^的几何意义:体现平均增加或平均减少. 2.由回归直线求出的数据是估算值,不是精确值.【真题分析】1.【2017年高考山东卷理数】为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系, 从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为.已知,,.该班某学生的脚长为24,据此估计其身高为 ( )A .B .C .D .【解析】由已知得22.5,160,x y ==则$160422.570,a=-⨯=当24x =时,ˆ42470y =⨯+166=,故选C . 【答案】C2.【2015湖北】已知变量x 和y 满足关系0.11y x =-+,变量y 与z 正相关,下列结论中正确的是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关【解析】因为变量和满足关系,其中,所以与成负相关;又因为变量与正相关,不妨设,则将代入即可得到:,所以,所以与负相关,综上可知,应选C . 【答案】C3.【2018山东】在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图 中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为( )A .−1B .0C .12D .1【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D. 【答案】D4.【2019优选题】某产品的广告费用x 与销售额y 的统计数据如下表根据上表可得回归方程中的为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =-=-⨯=,所以回归方程是ˆ9.49.1y x =+,ˆˆˆybx a =+101225ii x==∑1011600i i y ==∑ˆ4b=160163166170x y 0.11y x =-+0.10-<x y y z z ky b =+(0)k >0.11y x =-+(0.11)0.1()z k x b kx k b =-++=-++0.10k -<x z ˆˆˆybx a =+ˆb把6x =代入得ˆ65.5y=. 【答案】B5.【2019年高考全国Ⅰ卷文数】某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:22()()()()()n ad bc K a b c d a c b d -=++++.【解析】(1)由调查数据,男顾客中对该商场服务满意的比率为0.850=, 因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为300.650=, 因此女顾客对该商场服务满意的概率的估计值为0.6.(2)由题可得22100(40203010) 4.76250507030K ⨯⨯-⨯=≈⨯⨯⨯.由于4.762 3.841>,故有95%的把握认为男、女顾客对该商场服务的评价有差异.【答案】(1)男、女顾客对该商场服务满意的概率的估计值分别为0.8,0.6;(2)有95%的把握认为男、女顾客对该商场服务的评价有差异.6.【2018年高考全国Ⅲ卷文数】某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min )绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:22()()()()()n ad bcKa b c d a c b d-=++++,2()0.0500.0100.0013.8416.63510.828P K kk≥.【解析】(1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知7981802m+==.列联表如下:(3)由于2240(151555)10 6.63520202020K ⨯-⨯==>⨯⨯⨯,所以有99%的把握认为两种生产方式的效率有差异. 【答案】(1)第二种生产方式的效率更高,理由见解析;(2)列联表见解析;(3)有99%的把握认为两种生产方式的效率有差异.7.【2018年高考全国Ⅱ卷】下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5y t =-+;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5y t =+. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y =-+⨯=(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元). (2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.【答案】(1)模型①:226.1亿元,模型②:256.5亿元;(2)利用模型②得到的预测值更可靠,理由见解析.8.【2017年高考全国Ⅱ卷理数】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg ).其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg ,新养殖法的箱产量不低于50kg ”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:,22()()()()()n ad bc K a b c d a c b d -=++++ 【分析】(1)利用相互独立事件概率公式即可求得事件A 的概率估计值;(2)写出列联表计算2K 的观测值,即可确定有99%的把握认为箱产量与养殖方法有关;(3)结合频率分布直方图估计中位数为52.35kg . 【解析】(1)记B 表示事件“旧养殖法的箱产量低于50kg ”,C 表示事件“新养殖法的箱产量不低于50kg ”,由题意知()()()()P A P BC P B P C ==,旧养殖法的箱产量低于50kg 的频率为(0.0120.0140.0240.0340.040)50.62++++⨯=, 故()P B 的估计值为0.62.新养殖法的箱产量不低于50kg 的频率为(0.0680.0460.0100.008)50.66+++⨯=,故()P C 的估计值为0.66.因此,事件A 的概率估计值为0.620.660.4092⨯=. (2)根据箱产量的频率分布直方图得列联表:2K 的观测值2200(62663438)15.70510010096104k ⨯⨯-⨯=≈⨯⨯⨯, 由于15.705 6.635>,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50kg 的直方图面积为(0.0040.0200.044)50.340.5++⨯=<,箱产量低于55kg 的直方图面积为(0.0040.0200.0440.068)50.680.5+++⨯=>, 故新养殖法箱产量的中位数的估计值为0.50.345052.35(kg)0.068-+≈.【答案】(1)0.4092;(2)有99%的把握认为箱产量与养殖方法有关;(3)52.35kg .1.随着网络的发展,网上购物越来越受到人们的喜爱,各大购物网站为增加收入,促销策略越来越多样化,【模拟考场】促销费用也不断增加,下表是某购物网站2017年1﹣8月促销费用(万元)和产品销量(万件)的具体数据:月份12345678促销费用x2361013211518产品销量y1123 3.554 4.5(1)根据数据绘制的散点图能够看出可用线性回归模型拟合y与x的关系,请用相关系数r加以说明;(系数精确到0.01);(2)建立y关于x的回归方程(系数精确到0.01);如果该公司计划在9月份实现产品销量超6万件,预测至少需要投入促销费用多少万元(结果精确到0.01).参考数据:,,,,,其中x i,y i分别为第i个月的促销费用和产品销量,i=1,2,3,…8.参考公式:(1)样本(x i,y i)(i=1,2,…,n)的相关系数.(2)对于一组数据(x1,y1),(x2,y2),…,(x n,y n),其回归方程的斜率和截距的最小二乘估计分别为,.【解答】(1)根据数据绘制散点图如下,从散点图可以看出这些点大致分布在一条直线附近,并且在逐步上升,所以可用线性回归模型拟合y与x的关系;计算=×(2+3+6+10+13+21+15+18)=11,=×(1+1+2+3+3.5+5+4+4.5)=3,∴相关系数==≈0.99,由相关系数的值接近于1,说明变量y与x的线性相关性很强;(2)计算=≈0.22,=3﹣0.22×11=0.58,∴y 关于x 的回归方程为=0.22x +0.58;令=0.22x +0.58≥6,解得x ≥24.64;即实现产品销量超6万件,预测至少需要投入促销费用24.64万元.2.下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(I )由折线图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明;(II )建立关于的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:,,7≈2.646.参考公式:相关系数回归方程 中斜率和截距的最小二乘估计公式分别为:y t yt 719.32ii y==∑7140.17i i i t y ==∑0.55=()()niit t y y r --=∑,.【分析】(Ⅰ)根据相关系数公式求出相关数据后,然后代入公式即可求得的值,最后根据其值大小回 答即可;(Ⅱ)利用最小二乘法的原理提供的回归方程,准确求得相关数据即可建立关于的回归方程, 然后把代入回归方程求得预测值.【解析】(Ⅰ)由折线图这数据和附注中参考数据得,,,.因为与的相关系数近似为0.99,说明与的线性相关相当高,从而可以用线性回归模型拟合与的关系.(Ⅱ)由及(Ⅰ)得, ,所以,关于的回归方程为:. 将2016年对应的代入回归方程得:, 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.3.【2017年高考北京卷理数】为了研究一种新药的疗效,选100名患者随机分成两组,每组各50名,一组服药,另一组不服药.一段时间后,记录了两组患者的生理指标x 和y 的数据,并制成下图,其中“*”表示服药者,“+”表示未服药者.(1)从服药的50名患者中随机选出一人,求此人指标y 的值小于60的概率;(2)从图中A ,B ,C ,D 四人中随机选出两人,记ξ为选出的两人中指标x 的值大于1.7的人数,求ξ的分布列和数学期望E (ξ);(3)试判断这100名患者中服药者指标y 数据的方差与未服药者指标y 数据的方差的大小.(只需写出r r y t 9=t 4=t 28)(712=-∑=i it t55.0)(712=-∑=i iy y89.232.9417.40))((717171=⨯-=-=--∑∑∑===i i i i i i i i y t y t y y t t 99.0646.2255.089.2≈⨯⨯≈r y t y t y t 331.1732.9≈=y 103.02889.2)())((ˆ71271≈=---=∑∑==i ii i it ty y t tb 92.04103.0331.1ˆˆ≈⨯-≈-=t b y ay t t y 10.092.0ˆ+=9=t 82.1910.092.0ˆ=⨯+=y结论)【分析】(1)根据所给图数出60y <的人数,再除以50就是概率;(2)由图可知A,C 两人的指标 1.7x >,根据超几何分布写出分布列,0,1,2ξ=,22224C C ()(0,1,2)C k kP k k ξ-===,并求数学期望;(3)方差表示数据的离散程度,波动越大,方差越大,波动小,方差小.【解析】(1)由图知,在服药的50名患者中,指标y 的值小于60的有15人, 所以从服药的50名患者中随机选出一人,此人指标y 的值小于60的概率为150.350=. (2)由图知,A ,B ,C ,D 四人中,指标x 的值大于1.7的有2人:A 和C . 所以ξ的所有可能取值为0,1,2.21122222222444C C C C 121(0),(1),(2)C 6C 3C 6P P P ξξξ=========.所以ξ的分布列为故ξ的期望121()0121636E ξ=⨯+⨯+⨯=. (3)在这100名患者中,服药者指标y 数据的方差大于未服药者指标y 数据的方差.【答案】(1)0.3;(2)分布列见解析,()1E ξ=;(3)在这100名患者中,服药者指标y 数据的方差大于未服药者指标y 数据的方差.4.【2017年高考全国Ⅰ卷文数】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm ).下面是检验员在一天内依次抽取的16个零件的尺寸:10.26 经计算得16119.9716i i x x ===∑,0.212s ==≈,18.439≈,161()(8.5) 2.78i i x x i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =⋅⋅⋅.(1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. (ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数12211()()()()niii n niii i x x y y r x x y y ===--=--∑∑∑,0.0080.09≈.【分析】(1)依公式求r ;(2)(i )由9.97,0.212x s =≈,得抽取的第13个零件的尺寸在(3,3)x s x s -+以外,因此需对当天的生产过程进行检查;(ii )剔除第13个数据,则均值的估计值为10.02,方差为0.09. 【解析】(1)由样本数据得(,)(1,2,,16)i x i i =L 的相关系数为16()(8.5)0.18ix x i r --==≈-∑.由于||0.25r <,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小. (2)(i )由于9.97,0.212x s =≈,由样本数据可以看出抽取的第13个零件的尺寸在(3,3)x s x s -+以外, 因此需对当天的生产过程进行检查.(ii )剔除离群值,即第13个数据,剩下数据的平均数为1(169.979.22)10.0215⨯-=,这条生产线当天生产的零件尺寸的均值的估计值为10.02.162221160.212169.971591.134ii x==⨯+⨯≈∑,剔除第13个数据,剩下数据的样本方差为221(1591.1349.221510.02)0.00815--⨯≈,0.09≈.【答案】(1)18.0-≈r ,可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小;(2)(ⅰ)需对当天的生产过程进行检查;(ⅱ)均值与标准差的估计值分别为10.02,0.09.。
高考数学总复习10.4变量间的相关关系、统计案例课件文新人教A版
������
.
∑ (������������ -������) ∑ (������������ -������) ������=1 ������=1
当r>0时,表明两个变量正相关; 当r<0时,表明两个变量负相关. r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对 值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常 当|r|大于0.75时,认为两个变量有很强的线性相关性.
-3知识梳理
考点自测
1.变量间的相关关系 (1)定义:当自变量取值一定时,因变量的取值带有一定随机性的 两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是 非确定性关系 一种 . (2)散点图:表示具有相关关系的两个变量的一组数据的图形叫做 散点图,它可直观地判断两个变量的关系是否可以用线性关系表示. 若这些散点分布在从左下角到右上角的区域,则称两个变量正相关; 若这些散点分布在从左上角到右下角的区域,则称两个变量负相关 . (3)线性相关关系、回归直线:如果散点图中点的分布从整体上看 一条直线附近 大致在 ,就称这两个变量之间具有线 性相关关系,这条直线叫做回归直线.
-9知识梳理
考点自测
1.判断下列结论是否正确,正确的画“√”,错误的画“×”. (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关 系. ( × ) (2)利用散点图可以直观判断两个变量的关系是否可以用线性关 系表示. ( √ ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值. ( √ ) (4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越 大. ( √ ) ^ ^ ^ (5)通过回归方程 ������ = b x+������ 可以估计和观测变量的取值和变化 趋势. ( √ )
高考数学专题复习十一-11.5变量间的相关关系、统计案例-高考真题练习(附答案)
11.5变量间的相关关系、统计案例考点一变量间的相关关系1.(2015湖北文,4,5分)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案C由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关,故选C.2.(2015课标Ⅰ,理19,文19,12分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.yi表中==18∑J18.(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:(i)年宣传费x=49时,年销售量及年利润的预报值是多少?(ii)年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为^=∑J1(-p(-p∑J1(-p 2,^=-^.解析(1)由散点图可以判断,y=c+d 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2分)(2)令w=,先建立y 关于w 的线性回归方程.由于^=∑J18(-p(-p ∑J18(-p2=108.81.6=68,^=-^=563-68×6.8=100.6,所以y 关于w 的线性回归方程为^=100.6+68w,因此y 关于x 的回归方程为^=100.6+68.(6分)(3)(i)由(2)知,当x=49时,年销售量y 的预报值^=100.6+6849=576.6,年利润z 的预报值^=576.6×0.2-49=66.32.(9分)(ii)根据(2)的结果知,年利润z 的预报值^=0.2(100.6+68)-x=-x+13.6+20.12.所以当=13.62=6.8,即x=46.24时,^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.(12分)3.(2015重庆文,17,13分)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份20102011201220132014时间代号t 12345储蓄存款y(千亿元)567810(1)求y 关于t 的回归方程^=^t+^;(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.附:回归方程^=^t+^中,^=∑J1-nB∑J12-n2,^=-^.解析(1)列表计算如下:i t i y i t i2t i y i 11515226412337921448163255102550∑153655120这里n=5,=1∑J1t i =155=3,=1∑J1y i =365=7.2.又l tt =∑J12-n 2=55-5×32=10,l ty =∑J1t i y i -n=120-5×3×7.2=12,从而^=B B=1210=1.2,^=-^=7.2-1.2×3=3.6,故所求回归方程为^=1.2t+3.6.(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为^=1.2×6+3.6=10.8(千亿元).4.(2014课标Ⅱ理,19,12分)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:年份2007200820092010201120122013年份代号t 1234567人均纯收入y2.93.33.64.44.85.25.9(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:^=∑J1(-p(-p∑J1(-p 2,^=-^.解析(1)由所给数据计算得=17×(1+2+3+4+5+6+7)=4,=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑J17(t i -)2=9+4+1+0+1+4+9=28,∑J17(t i -)(y i -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,^=∑J17(-p(-p ∑J17(-p2=1428=0.5,^=-^=4.3-0.5×4=2.3,所求回归方程为^=0.5t+2.3.(2)由(1)知,^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t=9代入(1)中的回归方程,得^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.评析本题考查了回归直线方程的求解,注意回归直线恒过点(,)是关键,考查了回归系数^的几何意义.考查了学生的计算求解能力.5.(2016课标Ⅲ,18,12分)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附:参考数据:∑J17y i =9.32,∑J17t i y i J1=0.55,7≈2.646.参考公式:相关系数∑-p(-p回归方程^=^+^t 中斜率和截距的最小二乘估计公式分别为^=∑J1(-p(-p∑J1(-p 2,^=-^.解析(1)由折线图中数据和附注中参考数据得=4,∑J17(t i -)2(∑J17(t i -)(y i -)=∑J17t i y i -∑J17y i =40.17-4×9.32=2.89,r≈ 2.890.55×2×2.646≈0.99.(4分)因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(6分)(2)由=9.327≈1.331及(1)得^=∑J17(-p(-p ∑J17(-p2=2.8928≈0.10,^=-^=1.331-0.10×4≈0.93.所以,y 关于t 的回归方程为^=0.93+0.10t.(10分)将2016年对应的t=9代入回归方程得^=0.93+0.10×9=1.83.所以预测2016年我国生活垃圾无害化处理量约为1.83亿吨.(12分)6.(2017课标Ⅰ文,19,12分)为了监控某种零件的一条生产线的生产过程,检验员每隔30min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得=116∑J116x i≈0.212,∑J116(t8.5)2≈18.439,∑J116(x i -)(i-8.5)=-2.78,其中x i 为抽取的第i 个零件的尺寸,i=1,2, (16)(1)求(x i ,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i ,y i )(i=1,2,…,n)的相关系数∑-p(-pJ1(0.008≈0.09.解析本题考查统计问题中的相关系数及样本数据的均值与方差.(1)由样本数据得(x i ,i)(i=1,2,…,16)的相关系数为∑-p(i-8.5)由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i)由于=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.(ii)剔除离群值,即第13个数据,剩下数据的平均数为115×(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑J1162=16×0.2122+16×9.972≈1591.134,剔除第13个数据,剩下数据的样本方差为115×(1591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.方法总结样本的数字特征.(1)样本数据的相关系数r,∑-p(-p反映样本数据的相关程度,|r|越大,则相关性越强.(2)样本数据的均值反映样本数据的平均水平;样本数据的方差反映样本数据的稳定性,方差越小,数据越稳定;样本数据的标准差为方差的算术平方根.7.(2020课标Ⅱ理,18,12分)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑=201i x i =60,∑=201i y i =1200,∑=201i (x i -)2=80,∑=201i (y i -)2=9000,∑=201i (x i -)(y i -)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数=∑n−p(−p,2≈1.414.解析(1)由已知得样本平均数=120∑=201i y i =60,从而该地区这种野生动物数量的估计值为60×200=12000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数∑20−p(−p=.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.考点二独立性检验1.(2017课标Ⅱ文,19,12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50kg箱产量≥50kg 旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.附:P(K2≥k)0.0500.0100.001k 3.841 6.63510.828,K2=oB-B)2(rp(rp(rp(rp.解析本题考查了频率分布直方图及独立性检验.(1)旧养殖法的箱产量低于50kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表:箱产量<50kg箱产量≥50kg旧养殖法6238新养殖法3466K2=200×(62×66−34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50kg到55kg之间,旧养殖法的箱产量平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.解后反思解独立性检验问题的关注点:(1)两个明确:①明确两类主体;②明确研究的两个问题.(2)两个关键:①准确画出2×2列联表;②准确求解K2.2.(2021全国甲理,17,12分)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品二级品合计甲机床15050200乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:K 2=oB−B)2(rp(rp(rp(rp ,P (K 2≥k )0.0500.0100.001k3.8416.63510.828.解题指导:(1)根据表中数据分别计算甲、乙两台机床所生产的产品中一级品的数量,进而得出结论;(2)根据2×2列联表中的数据计算K 2,然后对照临界值表作出判断.解析(1)因为甲机床生产的200件产品中有150件一级品,所以甲机床生产的产品中一级品的频率为150200=34,因为乙机床生产的200件产品中有120件一级品,所以乙机床生产的产品中一级品的频率为120200=35.(2)根据2×2列联表中的数据,得K 2=oB−B)2(rp(rp(rp(rp =400×(150×80−120×50)2270×130×200×200=40039≈10.256,因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.方法总结解决独立性检验问题的一般步骤:3.(2020新高考Ⅰ,19,12分)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO 2浓度(单位:μg/m 3),得下表:SO 2PM2.5[0,50](50,150](150,475][0,35]32184(35,75]6812(75,115]3710(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:SO2PM2.5[0,150](150,475][0,75](75,115](3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.附:K2=oB−B)2(rp(rp(rp(rp,P(K2≥k)0.0500.0100.001k3.8416.63510.828.答案解题思路:(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64100=0.64.(4分) (2)根据抽查数据,可得2×2列联表:SO2PM2.5[0,150](150,475][0,75]6416(75,115]1010(8分) (3)根据(2)的列联表得K2=100×(64×10−16×10)280×20×74×26≈7.484.由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.(12分) 17.(2022全国甲文,17,12分,应用性)甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:准点班次数未准点班次数A24020B21030(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:K2=oB−B)2(rp(rp(rp(rp,P(K2≥k)0.1000.0500.010k2.7063.8416.635解析(1)由题意可得A公司长途客车准点的概率P1=240260=1213,B公司长途客车准点的概率P2=210240=78.(2)因为K2=500×(240×30−20×210)2450×50×240×260≈3.205>2.706,所以有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.。
高考数学一轮复习练案72第十章统计统计案例第三讲变量间的相关关系统计案例含解析新人教版
第三讲 变量间的相关关系、统计案例A 组基础巩固一、单选题1.观察下列各图形,其中两个变量x ,y 具有相关关系的图是( C ) A .①② B .①④ C .③④D .②③〖解析〗 由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.2.(2021·广西柳州模拟)根据如下样本数据x 3 4 5 6 7 8 y4.02.5-0.50.5-2.0-3.0得到了回归方程y ^=bx +a ,则( C ) A .a >0,b >0 B .a <0,b >0 C .a >0,b <0D .a <0,b <0〖解析〗 画出散点图,易知选C .3.(2021·吉林长春模拟)2019年是新中国成立七十周年,新中国成立以来,我国文化事业得到了充分发展,尤其是党的十八大以来,文化事业发展更加迅速,下图是从2013年到2018年六年间我国公共图书馆业机构数(个)与对应年份编号的散点图(为便于计算,将2013年编号为1,2014年编号为2,…,2018年编号为6,把每年的公共图书馆业机构个数作为因变量,把年份编号从1到6作为自变量进行回归分析),得到回归直线y ^=13.743x +3 095.7,其相关指数R 2=0.981 7,给出下列结论,其中正确的个数是( D )①公共图书馆业机构数与年份的正相关性较强 ②公共图书馆业机构数平均每年增加13.743个 ③可预测2019年公共图书馆业机构数约为3 192个A .0B .1C .2D .3〖解析〗 由图知点散布在从左下角到右上角的区域内,所以为正相关,又R 2=0.981 7趋近于1,所以相关性较强,故①正确;由回归方程知②正确;由回归方程,当x =7时,得估计值为3 191.9≈3 192,故③正确.故选:D.4.(2021·沧州七校联考)通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到统计量K 2的观测值k ≈4.892,参照附表,得到的正确结论是( C )A.有97.5%B .有97.5%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关” 5.(2021·河南商丘、周口、驻马店联考)某饮料店5天的日销售收入y (单位:百元)与当天平均气温x (单位:℃)之间的数据如下表:若x 与y 之间是线性相关关系,且y 关于x 的线性回归方程是y ^=-x +m ,则实数m 的值是( B )A .3B .2.8C .2.6D .2.4〖解析〗 据题意,得x -=-2+(-1)+0+1+25=0,y -=5+4+2+2+15=2.8.又y 关于x 的线性回归方程是y ^=-x +m ,所以2.8=-1×0+m ,所以m =2.8,故选B.6.(2021·西北狼联盟质检)广告投入对商品的销售额有较大影响,某电商对连续5个年度的广告费x 和销售额y 进行统计,得到统计数据如下表(单位:万元)由上表可得回归方程y =10.2x +a ,据此模型,预测广告费为10万元时销售额约为( B )A .118.2万元B .111.2万元C .108.8万元D .101.2万元〖解析〗 由表格中数据可得,x =4,y =50, ∴50=4×10.2+a ^,解得a ^=9.2, ∴回归方程为y ^=10.2x +9.2,∴当x =10时,y ^ =10.2×10+9.2=111.2,即预测广告费10万元时销售额约为111.2万元,故选B.7.(2021·“四省八校”联考)具有线性相关关系的两个变量x 、y 的取值如下表x 1 2 3 4 5 y5tm1012其回归直线y ^=b ^x +a ^经过点(3,8)的一个充分不必要条件是( D ) A .t +m =13 B .t =m =6 C .t =m =7D .t =6,m =7〖解析〗 回归直线过样本点中心⎝ ⎛⎭⎪⎫3,t +m +275,又直线过点(3,8),∴t +m +275=8,即t +m =13,又t =6,m =7⇒t +m =13,∴选D.8.(2021·广东新高考适应性测试)在一项调查中有两个变量x 和y ,下图是由这两个变量近8年来的取值数据得到的散点图,则选项中适宜作为y 关于x 的回归方程的函数类型是( B )A .y =a +bxB .y =c +d xC .y =m +nx 2D .y =p +qc x (q >0)〖解析〗 散点图呈曲线状,A 错误,函数递增且增速越来越慢,故选B. 二、多选题9.(2021·山东日照联考)某大学进行自主招生测试,需要对逻辑思维和阅读表达进行能力测试.学校对参加测试的200名学生的逻辑思维成绩、阅读表达成绩以及这两项的总成绩进行了排名.其中甲、乙、丙三位同学的排名情况如图所示,下列叙述正确的是( AC )A .甲同学的逻辑思维成绩排名比他的阅读表达成绩排名更靠前B .乙同学的逻辑思维成绩排名比他的阅读表达成绩排名更靠前C .甲、乙、丙三位同学的逻辑思维成绩排名中,甲同学更靠前D .甲同学的总成绩排名比丙同学的总成绩排名更靠前〖解析〗 根据图示,可得甲、乙、丙三位同学的逻辑思维成绩排名中,甲同学更靠前,他的阅读表达成绩排名靠后.故选AC .10.(2021·山东烟台期末)某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如图所示的列联表.经计算K 2的观测值k ≈4.762,则可以推断出( ACD )满意 不满意 男 30 20 女4010P (k 2≥k )0.100 0.050 0.010 k2.7063.8416.635A.该学校男生对食堂服务满意的概率的估计值为35B .调研结果显示,该学校男生比女生对食堂服务更满意C .有95%的把握认为男、女生对该食堂服务的评价有差异D .在犯错概率不超过5%的前提下认为男、女生对该食堂服务的评价有差异 〖解析〗 由表易知男生比女生对食堂服务满意率低,故B 错,又K 2=100×(30×10-40×20)270×30×50×50≈4.8>3.841,∴ACD 正确.三、填空题11.关于独立性检测,K 2越大,则“X 与Y 有关系”这种判断犯错的概率 越小 . 12.(2021·吉林市五地六校适应性考试)公司对2019年1~4月份的获利情况进行了数据统计,如下表所示:万元,则y 关于x 的线性回归方程为 y ^=0.95x +4 .〖解析〗 设线性回归方程为y ^=b ^ x +a ^, 因为x -=52,y -=518,由题意可得⎩⎪⎨⎪⎧52b^+a ^=518,8b ^+a ^=11.6,解得b ^=0.95,a ^=4,即y ^=0.95x +4.故答案为y ^=0.95x +4.13.(2021·黑龙江大庆实验中学模拟)通过市场调查知某商品每件的市场价y (单位:元)与上市时间x (单位:天)的数据如下:根据上表数据,当a ①y =ax +k ;②y =ax 2+bx +c ;③y =a log m x 中能恰当的描述该商品的市场价y 与上市时间x 的变化关系的是(只需写出序号即可) ② .〖解析〗 根据表格提供数据可知,y 随x 先变小,后变大,即至少有递减和递增两个过程,而①③对应的函数为单调函数,不符合题意.②为二次函数,有递减和递增两个区间,a >0时,能恰当的描述该商品的市场价y 与上市时间x 的变化关系.故答案为:②.四、解答题14.(2021·唐山模拟)随着网络的发展,网上购物越来越受到人们的喜爱,各大购物网站为增加收入,促销策略越来越多样化,促销费用也不断增加,下表是某购物网站2017年1~8月促销费用x (万元)和产品销量y (万件)的具体数据.(1)数r 加以说明;(系数精确到0.001)(2)建立y 关于x 的回归方程y ^=b ^x +a ^(系数精确到0.01),如果该公司计划在9月份实现产品销量超6万件,预测至少需投入促销费用多少万元.(结果精确到0.01)参考数据:∑8i =1 (x i -11)(y i -3)=74.5,∑8i =1 (x i -11)2=340,∑8i =1(y i -3)2=16.5,340≈18.44,16.5=4.06,其中x i ,y i 分别为第i 个月的促销费用和产品销量,i =1,2,3,…,8. 参考公式:(i)样本(x i ,y i )(i =1,2,…,n )的相关系数r =∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x )2∑ni =1(y i -y )2.(ii)对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x )2,a ^=y -b ^ x -. 〖解析〗 根据数据绘制散点图如下,从散点图可以看出这些点大致分布在一条直线附近,并且逐步上升,所以可以用线性回归模型拟合y 与x 的关系:(1)由题可知x -=11,y -=3,将数据代入r =∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x )2∑n i =1(y i -y )2,得r ≈74.518.44×4.06=74.574.866 4≈0.995.因为y 与x 的相关系数近似为0.995,说明y 与x 的线性相关性很强,从而可以用线性回归模型拟合y 与x 的关系.(需要突出“很强”,“一般”或“较弱”,否则不给分)(2)将数据代入b ^=∑ni =1(x i -x )(y i -y )∑ni =1(x i -x )2, 得b ^ =74.5340=0.219,a^=y-b^x-=3-0.219×11≈0.59,所以y关于x的回归方程为y^=0.22x+0.59.由y^=0.22x+0.59>6,解得x>24.59,即至少需要投入促销费用24.59万元.15.(2021·山东潍坊期末)读书可以使人保持思想活力,让人得到智慧启发,让人滋养浩然正气.书籍是文化的重要载体.读书是承继文化的重要方式.某地区为了解学生课余时间的读书情况.随机抽取了n名学生进行调查,根据调查得到的学生日均课余读书时间绘制成如图所示的频率分布直方图,将日均课余读书时间不低于40分钟的学生称为“读书之星”,日均课余读书时间低于40分钟的学生称为“非读书之星”.已知抽取的样本中日均课余读书时间低于10分钟的有10人.(1)求n,p的值;(2)根据已知条件完成下面的2×2列联表,并判断是否有95%以上的把握认为“读书之星”与性别有关?非读书之星读书之星总计男女1055总计(3)3名学生,每次抽取1名,已知每个人是否被抽到互不影响,记被抽取的“读书之星”人数为随机变量X,求X的分布列和期望E(X).附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.P(K2≥k0)0.100.050.0250.0100.0050.001 k0 2.706 3.841 5.024 6.6357.87910.828 〖解析〗(1)由频率分布直方图可知,p=0.01,所以n=100.1=100.(2)因为n =100,所以“读书之星”有100×0.25=25, 从而2×2列联表如下图所示:非读书之星读书之星 总计 男 30 15 45 女 45 10 55 总计7525100将2×2列联表中的数据代入公式计算得 K 2=100×(30×10-15×45)245×55×75×25=10033≈3.030, 因为3.030<3.841,所以没有95%以上的把握认为“读书之星”与性别有关. (3)将频率视为概率,即从该地区学生中抽取一名学生是“读书之星”的概率为14,由题意可知X ~B ⎝⎛⎭⎫3,14, 所以P (X =0)=C 03⎝⎛⎭⎫14)0×⎝⎛⎭⎫1-143=2764, P (X =1)=C 13×14×⎝⎛⎭⎫1-142=2764, P (X =2)=C 23⎝⎛⎭⎫142×⎝⎛⎭⎫1-14=964, P (X =3)=C 33×⎝⎛⎭⎫143=164, 所以X 的分布列为X 0 1 2 3 P27642764964164故E (X )=3×14=34.B 组能力提升1.(2021·四川攀枝花统考)某公司为提高市场销售业绩,促进某产品的销售,随机调查了该产品的月销售单价x (单位:元/件)及相应月销量y (单位:万件),对近5个月的月销售单价x i 和月销售量y i (i =1,2,3,4,5)的数据进行了统计,得到如下表数据:月销售单价x i (元/件) 9 9.5 10 10.5 11 月销售量y i (万件)1110865(1)建立y 关于x 的回归直线方程;(2)该公司开展促销活动,当该产品月销售单价为7元/件时,其月销售量达到18万件,若由回归直线方程得到的预测数据与此次促销活动的实际数据之差的绝对值不超过0.5万件,则认为所得到的回归直线方程是理想的,试问:(1)中得到的回归直线方程是否理想?(3)根据(1)的结果,若该产品成本是5元/件,月销售单价x 为何值时(销售单价不超过11元/件),公司月利润的预计值最大?参考公式:回归直线方程y ^=b ^x +a ,其中b ^=∑i =1nx i y i -n x -y -∑i =1n x 2i -n x -2,a ^=y --b ^ x -. 参考数据:∑i =15x i y i =392,∑i =15x 2i =502.5.〖解析〗 (1)因为x -=15(11+10.5+10+9.5+9) =10,y -=15(5+6+8+10+11)=8.所以b ^=392-5×10×8502.5-5×102=-3.2,所以a ^=8-(-3.2)×10=40,所以y 关于x 的回归直线方程为:y ^=-3.2x +40. (2)当x =7时,y ^=-3.2×7+40=17.6, 则|17.6-18|=0.4<0.5,所以可以认为所得到的回归直线方程是理想的. (3)设销售利润为M ,则M =(x -5)(-3.2x +40)(5<x ≤11) M =-3.2x 2+56x -200, 所以x =8.75时,M 取最大值,所以该产品单价定为8.75元时,公司才能获得最大利润.2.(2021·山东潍坊五县市联考)某公园管理人员为提升服务效能,随机调查了近三个月(每个月按30天计)中每天的空气质量等级和当天到某公园锻炼的人次,整理数据如下表(单位:天)为3或4,则称为这天“空气质量差”.(1)估计该公园一天的“空气质量好”的概率;(2)根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),〖解析〗 (1)由数据得“空气质量好”的天数共为3+13+20+4+10+12=62, ∴P =6290=3145.该公园一天的“空气质量好”的概率为3145.(2)根据所给数据,得到下面的2×2列联表∴K 2=90×(30×8-32×20)250×40×28×62≈4.147.由于4.147>3.841,故有95%的把握认为一天中到该公园锻炼的人次与当天的空气质量有关.3.(2020·百校联盟(全国Ⅰ卷)教质监)为了响应国家号召,某校组织部分学生参与了“垃圾分类,从我做起”的知识问卷作答,并将学生的作答结果分为“合格”与“不合格”两类,统计如下所示.(1)是否有90%以上的把握认为“性别”与“问卷的结果”有关?(2)在成绩合格的学生中,利用性别进行分层抽样,共选取9人进行座谈,再从这9人中随机抽取5人发送奖品,记拿到奖品的男生人数为X ,求X 的分布列及数学期望E (X ).参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参考数据:〖解析〗 (1)完善列联表如下所示:∴K 2=60×(14×20-10×16)30×30×24×36≈1.111<2.706,故没有90%的把握认为“性别”与“问卷的结果”有关. (2)依题意,成绩合格的男生抽取4人,成绩合格的女生抽取5人, 故X 的可能取值为0,1,2,3,4,P (X =0)=C 55C 59=1126,P (X =1)=C 45C 14C 59=20126=1063,P (X =2)=C 35C 24C 59=60126=1021,P (X =3)=C 25C 34C 59=40126=2063,P (X =4)=C 15C 44C 59=5126,故X 的分布列为:所以E (X )=0×1126+1×20126+2×60126+3×40126+4×5126=209.。
52高考数学总复习经典测试题解析版11.3-变量间的相关关系、统计案例52
附:K2=a+bc+da+cb+d .临界值表:
P(K2≥k) 0.10 0.05 0.010
k
2.706 3.841 6.635
解析 (1)七年级学生竞赛平均成绩为
(45×30+55×40+65×20+75×10)÷100=56(分),
八年级学生竞赛平均成绩为
(45×15+55×35+65×35+75×15)÷100=60(分).
点数为(x,y),则所有的基本事件有(1,1)、(1,2)、(1,3)、…、(6,6),共 36
个.
事件 A 包含的基本事件有(1,5),(2,4),(3,3),(4,2),(5,1),(4,6),(5,5),
82 (6,4),共 8 个,∴P(A)=36=9.
16.地震、海啸、洪水、森林大火等自然灾害频繁出现,紧急避险常识越来越 引起人们的重视.某校为了了解学生对紧急避险常识的了解情况,从七年级和 八年级各选取 100 名同学进行紧急避险常识知识竞赛.图 K55-2(1)和图 K55-2(2)分别是对七年级和八年级参加竞赛的学生成绩按[40,50),[50,60), [60,70),[70,80]分组,得到的频率分布直方图.
肺癌有关”的结论,并且有 99%以上的把握认为这个结论是成立的,则下列说 法中正确的是( ). A.100 个吸烟者中至少有 99 人患有肺癌 B.1 个人吸烟,那么这人有 99%的概率患有肺癌 C.在 100 个吸烟者中一定有患肺癌的人 D.在 100 个吸烟者中可能一个患肺癌的人也没有 解析 统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发 生. 答案 D 4.设(x1,y1),(x2,y2),…,(xn,yn) 是变量 x 和 y 的 n 个样本点,直线 l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的 是( ).
高考数学一轮复习 专练55 变量的相关关系、统计案例(含解析)文 新人教版-新人教版高三全册数学试题
专练55 变量的相关关系、统计案例命题X 围:散点图、变量的相关关系、回归直线方程、独立性检验及其应用基础强化一、选择题1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图(1);对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图(2).由这两个散点图可以判断( )A .变量x 与y 线性相关,u 与v 非线性相关B .变量x 与y 线性相关,u 与v 不相关C .变量x 与y 线性相关,u 与v 线性相关D .变量x 与y 不相关,u 与v 不相关 2.下面是2×2列联表y 1 y 2合计 x 1 a21 63 x 22235 57 合计b56120则表中a ,b 的值分别为A .84,60 B .42,64 C .42,74 D .74,423.[2020·某某某某一中高三测试]为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据:(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5).根据收集到的数据可知x 1+x 2+x 3+x 4+x 5=150,由最小二乘法求得回归直线方程为y ^=0.67x +54.9,则y 1+y 2+y 3+y 4+y 5的值为( )A .75B .155.4C .375D .466.24.[2020·某某某某高三测试]已知变量x 和y 的统计数据如下表:x 3 4 5 6 7 y2.5344.56根据上表可得回归直线方程为y ^=b ^x -0.25,据此可以预测当x =8时,y ^=( ) A .6.4 B .6.25 C .6.55 D .6.455.[2020·某某某某高三测试]某疾病研究所想知道吸烟与患肺病是否有关,于是随机抽取1 000名成年人调查是否吸烟及是否患有肺病,得到2×2列联表,经计算得K 2=5.231,已知在假设吸烟与患肺病无关的前提条件下,P (K 2≥3.841)=0.05,P (K 2≥6.635)=0.01,则该研究所可以( )A .有95%以上的把握认为“吸烟与患肺病有关”B .有95%以上的把握认为“吸烟与患肺病无关”C .有99%以上的把握认为“吸烟与患肺病有关”D .有99%以上的把握认为“吸烟与患肺病无关”6.[2020·全国卷Ⅰ]某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i =1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( )A .y =a +bxB .y =a +bx 2C .y =a +b e xD .y =a +b ln x7.下表是一位母亲给儿子作的成长记录: 年龄/周岁 3 4 5 6 7 8 9 身高/cm94.8104.2108.7117.8124.3130.8139.1根据以上样本数据,她建立的身高y (cm)与年龄x (周岁)的线性回归方程为y =7.19x +73.96,给出下列结论:①y 与x 具有正的线性相关关系;②回归直线过样本点的中心(42,117.1); ③儿子10岁时的身高是145.86 cm ; ④儿子年龄增加1周岁,身高约增加7.19 cm. 其中,正确结论的个数是( ) A .1 B .2 C .3 D .48.某大学舞蹈社团为了解新生对街舞的喜欢是否与性别有关,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢街舞 不喜欢街舞总计 男生 184 26 210 女生 200 50 250 总计38476460根据表中数据,求得K 2的观测值k 0=460×26×200-184×502210×250×76×384≈4.804,则至少有______%的把握认为对街舞的喜欢与性别有关.( )参考数据:P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828C .97.5D .999.[2020·某某高三测试]下列表格所示的五个散点,原本数据完整,且利用最小二乘法求得这五个散点的线性回归直线方程为y ^=0.8x -155,后因某未知原因使第5组数据的y 值模糊不清,此位置数据记为m (如下表所示),则利用回归方程可求得实数m 的值为( )x 196 197 200 203 204y1367mB .8.2C .8.1D .8 二、填空题10.[2020·某某高三测试]如图是一组数据(x ,y )的散点图,经最小二乘法估计公式计算,y 与x 之间的线性回归方程为y ^=b ^x +1,则b ^=________.11.为了检验某套眼保健操预防学生近视的作用,把500名做该套眼保健操的学生与另外500名未做该套眼保健操的学生的视力情况作记录并比较,提出假设H 0:“这套眼保健操不能起到预防近视的作用”,利用2×2列联表计算所得的K 2≈3.918.经查对临界值表知P (K 2≥3.841)≈0.05.对此,四名同学得出了以下结论:①有95%的把握认为“这套眼保健操能起到预防近视的作用”;②若某人未做该套眼保健操,那么他有95%的可能近视;③这套眼保健操预防近视的有效率为95%;④这套眼保健操预防近视的有效率为5%.其中所有正确结论的序号是________.12.为了解适龄公务员对放开生育二胎政策的态度,某部门随机调查了200位30~40岁之间的公务员,得到的情况如下表:男公务员 女公务员 生二胎 80 40 不生二胎4040则________(填“有”或“没有”)99%以上的把握认为“生二胎与性别有关”. 附:K 2=n ad -bc 2a +bc +d a +cb +dP (K 2≥k 0)0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.82813.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x (万元) 8.2 8.6 10.0 11.3 11.9 支出y (万元)6.27.58.08.59.8根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x -.据此估计,该社区一户年收入为15万元的家庭年支出为( )A.11.4万元 B.11.8万元C.12.0万元 D .12.2万元14.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:做不到“光盘”能做到“光盘”男4510女3015P(K2≥k)0.100.050.025 k 2.706 3.841 5.024附:K2=n ad-bc2a+b c+d a+c b+d参照附表,得到的正确结论是( )A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”15.在西非肆虐的“埃博拉病毒”的传播速度很快,已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:感染未感染总计服用104050未服用203050总计3070100参考公式:K2=n ad-bc2a+b c+d a+c b+dP(K2>k)0.150.100.050.0250.0100.0050.001 k 2.072 2.706 3.841 5.024 6.6357.87910.828苗有预防埃博拉病毒感染的效果”.16.某电子产品的成本价格由两部分组成,一是固定成本,二是可变成本,为确定该产品的成本,进行5次试验,收集到的数据如表:由最小二乘法得到回归方程y =0.67x +54.9,则a =________.专练55 变量的相关关系、统计案例1.C 由散点图知,这些点都分布在条形区域内,具有相关关系. 2.B 由列联表可知a +21=63,∴a =42,b =a +22=42+22=64.3.C 由题意可得:x -=x 1+x 2+x 3+x 4+x 55=30,线性回归方程过样本中心点,则:y -=0.67×x -+54.9=75,据此可知:y 1+y 2+y 3+y 4+y 5=5y -=375.4.C ∵x -=3+4+5+6+75=5,y -=2.5+3+4+4.5+65=4,又(x -,y -)在y ^=b ^x -0.25, ∴4=5b ^-0.25,∴b ^=0.85, ∴回归方程为y ^=0.85x -0.25, ∴当x =8时,y ^=6.55.5.A 由独立性检验的结论结合题意可知:有95%以上的把握认为“吸烟与患肺病有关”.6.D 本题考查回归方程及一次函数、二次函数、指数型函数、对数型函数的图象,观察散点图可知,散点图用光滑曲线连接起来比较接近对数型函数的图象.故选D.7.B 由于线性回归方程为y ^=7.19x +73.96,7.19>0,即y 随x 的增大而增大,y 与x 具有正的线性相关关系,①正确;由计算可得,样本点的中心为(6,117.1),②错误;当x =10时,y ^=145.86,此为估计值,所以儿子10岁时的身高的估计值是145.86 cm ,而不一定是实际值,③错误;由于回归直线的斜率为7.19,则儿子年龄增加1周岁,身高约增加7.19 cm ,④正确,故应选B.8.B 由题意知,4.804>3.841,所以至少有95%的把握认为对街舞的喜欢与性别有关. 9.D 由题意可得:x -=196+197+200+203+2045=200,y -=1+3+6+7+m 5=17+m 5,回归方程过样本中心点,则: 17+m5=0.8×200-155,解得:m =8. 10.0.8解析:x -=0+1+3+44=2,y -=0.9+1.9+3.2+4.44=2.6,又y ^=b ^x +1过(x -,y -), ∴2.6=2b ^+1, b ^=0.8. 11.①解析:根据查对临界值表知P (K 2≥3.841)≈0.05,故有95%的把握认为“这套眼保健操能起到预防近视的作用”,即①正确;95%仅指“这套眼保健操能起到预防近视的作用”的可信程度,所以②③④错误.12.没有解析:由于K 2=n ad -bc 2a +bc +d a +cb +d =200×80×40-40×402120×80×120×80=509<6.635,故没有99%以上的把握认为“生二胎与性别有关”.13.B 由已知得x -=8.2+8.6+10.0+11.3+11.95=10(万元),y -=6.2+7.5+8.0+8.5+9.85=8(万元),故a ^=8-0.76×10=0.4,所以回归直线方程为y ^=0.76x +0.4,所以社区一户年收入为15万元的家庭年支出为y ^=0.76×15+0.4=11.8(万元).14.C 由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100.代入K 2=n ad -bc 2a +bc +d a +cb +d,得K 2的观测值k =100675-300255×45×75×25≈3.030.因为2.706<3.030<3.841.所以有90%以上的把握认为“该市民能否做到‘光盘’与性别有关.故选C.15.5%解析:由题意可得,K 2=100×10×30-20×40250×50×30×70≈4.762>3.841,参照附表可得,在犯错误的概率不超过5%的前提下,可认为“该种疫苗有预防埃博拉病毒感染的效果”.16.68解析:计算可得,x -=30,y -=307+a5,所以307+a 5=0.67×30+54.9,解得a =68.。
2022届高考数学文科人教版一轮课件:10.4-变量间的相关关系、统计案例-
第十章
10.4
变量间的相关关系、统计案例
知识梳理
考点1
考点2
核心考点
-19-
考点3
对点训练1(1)对四组数据进行统计,获得如图所示的散点图,关于
其相关系数的比较,正确的是( A )
A.r2<r4<0<r3<r1
C.r4<r2<0<r3<r1
B.r4<r2<0<r1<r3
D.r2<r4<0<r1<r3
知识梳理
考点1
考点2
-16-
核心考点
考点3
考点 1
相关关系的判断
例1(1)为研究语文成绩和英语成绩之间是否具有线性相关关系,
统计某班学生的两科成绩得到如图所示的散点
^ ^ ^
图(x轴、y轴的单位长度相同),用回归直线方程 = b x+ 近似地
刻画其相关关系,根据图形,以下结论最有可能成立的是(
(在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近1,相关
)
A.甲 B.乙 C.丙 D.丁
性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越
思考如何判断两个变量有无相关关系?
强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两个变量
有更强的线性相关性,故选D.
D
关闭
第十章
10.4
变量间的相关关系、统计案例
知识梳理
考点1
考点2
核心考点
-20-
考点3
(2)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
11.3 变量间的相关关系、统计案例(附参考答案)一、选择题1.有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程; ②平均日学习时间和平均学习成绩; ③某人每日吸烟量和身体健康情况; ④圆的半径与面积;⑤汽车的重量和每千米耗油量. 其中两个变量成正相关的是( )A .①③B .②④C .②⑤D .④⑤解析 由变量的相关关系的概念知,②⑤是正相关,①③是负相关,④为函数关系,故选C. 答案 C2.通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列联表:由2222()110(40302030)7.8()()()()60506050n ad bc K K a b c d a c b d -⨯⨯-⨯==≈++++⨯⨯⨯算得, 附表:参照附表,得到的正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 解析 由27.8 6.635K ≈>,而2( 6.635)0.010P K ≥=, 故由独立性检验的意义可知选A. 答案 A3.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( ).A.100个吸烟者中至少有99人患有肺癌B.1个人吸烟,那么这人有99%的概率患有肺癌C.在100个吸烟者中一定有患肺癌的人D.在100个吸烟者中可能一个患肺癌的人也没有解析统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生.答案 D4.设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是( ).A.直线l过点(x,y) B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同解析由样本的中心(x,y)落在回归直线上可知A正确;x和y的相关系数表示为x与y之间的线性相关程度,不表示直线l的斜率,故B错;x和y的相关系数应在-1到1之间,故C错;分布在回归直线两侧的样本点的个数并不绝对平均,即无论样本点个数是奇数还是偶数,故D错.答案 A5.某产品的广告费用x与销售额y的统计数据如下表:根据上表可得回归方程y=b x+a中的b为9.4,据此模型预报广告费用为6万元时销售额为( ).A.63.6万元 B.65.5万元 C.67.7万元 D.72.0万元解析x=4+2+3+54=3.5(万元),y=49+26+39+544=42(万元),∴a^=y-b^x=42-9.4×3.5=9.1,∴回归方程为y^=9.4x+9.1,∴当x=6(万元)时,y^=9.4×6+9.1=65.5(万元).答案 B6.已知数组(x1,y1),(x2,y2),…,(x10,y10)满足线性回归方程y^=bx+a,则“(x0,y0)满足线性回归方程y^=bx+a”是“x0=x1+x2+…+x1010,y0=y1+y2+…+y1010”的( ).A.充分不必要条件 B.必要不充分条件C.充要条件 D.既不充分也不必要条件解析x0,y0为这10组数据的平均值,又因为线性回归方程y^=bx+a必过样本中心(x,y),因此(x,y)一定满足线性回归方程,但满足线性回归方程的除了(x,y)外,可能还有其他样本点.答案 B7.在第29届奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居世界金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的 2 548名男性公民中有 1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明中国的奖牌数是否与中国进入体育强国有无关系时,用什么方法最有说服力( ).A.平均数与方差 B.回归直线方程C.独立性检验 D.概率解析由于参加讨论的公民按性别被分成了两组,而且每一组又被分成了两种情况:认为有关与无关,故该资料取自完全随机统计,符合2×2列联表的要求,故用独立性检验最有说服力.答案 C二、填空题8. 在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.解析 根据样子相关系数的定义可知,当所有样本点都在直线上时,相关系数 为1. 答案 189.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________. ①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.解析 K 2≈3.918>3.841,而P (K 2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”;但检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆,正确序号为①. 答案 ①10.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析 由题意,知其回归系数为0.254,故家庭年收入每增加1万元,年饮食支出平均增加0.254万元. 答案 0.25411.某小卖部为了了解热茶销售量y (杯)与气温x (℃)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温,并制作了对照表:由表中数据算得线性回归方程y =bx +a 中的b ≈-2,预测当气温为-5 ℃时,热茶销售量为________杯(已知回归系数解析 根据表格中的数据可求得x =14×(18+13+10-1)=10,y =14×(24+34+38+64)=40(杯).∴a =y -b x =40-(-2)×10=60,∴y ^=-2x +60,当x =-5时, y ^=-2×(-5)+60=70(杯). 答案 7012.某医疗研究所为了了解某种血清预防感冒的作用,把500名使用过血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________. ①有95%的把握认为“这种血清能起到预防感冒的作用”; ②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.解析 因为K 2≈3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆. 答案 ① 三、解答题13.在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:解析 以x 轴表示身高,y 轴表示体重,可得到相应的散点图如图所示:由散点图可知,两者之间具有相关关系,且为正相关.14.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(Ⅰ)利用所给数据求年需求量与年份之间的回归直线方程y bx a=+;(Ⅱ)利用(Ⅰ)中所求出的直线方程预测该地2012年的粮食需求量。
15.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.已知从全部105人中随机抽取1人为优秀的概率为7.(1)请完成上面的列联表;(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”;(3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到6号或10号的概率.附K2=n ad-bc2a +b c+d a+c b+d,解析(1)(2)k=-255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.(3)设“抽到6号或10号”为事件A,先后两次抛掷一枚均匀的骰子,出现的点数为(x,y),则所有的基本事件有(1,1)、(1,2)、(1,3)、…、(6,6),共36个.事件A包含的基本事件有(1,5),(2,4),(3,3),(4,2),(5,1),(4,6),(5,5),(6,4),共8个,∴P(A)=836=29.16.地震、海啸、洪水、森林大火等自然灾害频繁出现,紧急避险常识越来越引起人们的重视.某校为了了解学生对紧急避险常识的了解情况,从七年级和八年级各选取100名同学进行紧急避险常识知识竞赛.图K55-2(1)和图K55-2(2)分别是对七年级和八年级参加竞赛的学生成绩按[40,50),[50,60),[60,70),[70,80]分组,得到的频率分布直方图.图K55-2(1)分别计算参加这次知识竞赛的两个年级学生的平均成绩;(注:统计方法中,同一组数据常用该组区间的中点值作为代表)(2)完成下面2×2列联表,并回答是否有99%的把握认为“两个年级学生对紧急.临界值表:附:K2=a +b c+d a+c b+d解析 (1)(45×30+55×40+65×20+75×10)÷100=56(分),八年级学生竞赛平均成绩为(45×15+55×35+65×35+75×15)÷100=60(分).(2)2×2列联表如下:≈8.333>6.635,∴K2=100×100×120×80∴有99%的把握认为“两个年级学生对紧急避险常识的了解有差异”.。