山东新高考数学二轮复习专题练20统计与统计案例
高考数学二轮复习学案统计与统计案例 含解析
统计与统计案例2讲第年份A.12卷别考查内容及考题位置命题分析抽样方法(基础型)]系统抽样N总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).nN 若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+,…,k+(n nN-1).n分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.[考法全练]1.福利彩票“双色球”中红色球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球号码为()81 47 23 68 63 93 17 90 12 69 86 81 62 93 50 60 91 33 75 85 61 39 8506 32 35 92 46 22 54 10 02 78 49 82 18 86 70 48 05 46 88 15 19 20 49D.C.0616解析:选C.被选中的红色球号码依次为17,12,33,06,32,22.所以第四个被选中的红色球号码为06,故选C.2.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为()A.73 B.78D.77.76C80解析:选B.样本的分段间隔为=5,所以13号在第三组,则最大的编号为13+(16-163)×5=78.故选B.3.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:最喜爱喜爱一般不喜欢1 6004 8007 2006 400电视台为了了解观众的具体想法和意见,打算从中抽选出100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选出的人数分别为()A.25,25,25,25 B.48,72,64,16D.30,1024,36,32,820C.,40,1100,解析:选D.法一:因为抽样比为=20020 000所以每类人中应抽选出的人数分别为11118.×=故选D.,×7 200=36,6 400×=321 600=4 800×24,200200200200∶82,∶∶7 200一般、法二:最喜爱、喜爱、不喜欢的比例为4 800∶∶6 4001 600=69∶96,所以每类人中应抽选出的人数分别为,×100=24×10036=29+8++28+69++682×100=32,×100=8,故选D.6+9+8+26+9+8+2“双图”“五数”估计总体(基础型)统计中的5个数据特征众数:在样本数据中,出现次数最多的那个数据.(1).中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为(2) 偶数,就取中间两个数据的平均数作为中位数.1-).+x+…+x(3)平均数:样本数据的算术平均数,即x=(x n12n (4)方差与标准差:1---2222;x)]+…+(x-sx=[(x-x)(+x-x)n21n1---222]. )x--x)x-[(xx)+…+(+(sx=n12n 从频率分布直方图中得出有关数据的技巧频率频率,频率=组距×频率:频率分布直方图中横轴表示组数,纵轴表示. (1)组距组距(2)频率比:频率分布直方图中各小长方形的面积之和为1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比,从而根据已知的几组数据个数比求有关值.(3)众数:最高小长方形底边中点的横坐标.(4)中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.(5)平均数:频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和.(6)性质应用:若纵轴上存在参数值,则根据所有小长方形的高之和×组距=1,列方程即可求得参数值.[考法全练]1.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量,如下表所示:用电量/度120 140 160 180 200户数25823则这20户家庭该月用电量的众数和中位数分别是()A.180,170B.160,180D.180,C.160170,160解析:选A.用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B,C;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A.2.(2018·贵阳模拟)在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为5组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、) (分的学生人数是100~80,则成绩在40第四、第五小组,已知第二小组的频数是A.15 B.18D.20.25C解析:选A.根据频率分布直方图,得第二小组的频率是0.04×10=0.4,因为频数是40,40所以样本容量是100,又成绩在80~100分的频率是(0.01+0.005)×10=0.15,所以成0.4绩在80~100分的学生人数是100×0.15=15.故选A.3.(2018·武汉调研)某选手的7个得分去掉1个最高分,去掉1个最低分,剩余5个得分的平均数为91,如图,该选手的7个得分的茎叶图有一个数据模糊,无法辨认,在图中用x表示,则剩余5个得分的方差为()36116B. A.79D6.30C.1解析:选C.由茎叶图知,最低分为87分,最高分为99分.依题意得,×(87+93+9051222+(9091)+(93=×[(87-91)-=x×10++91)=91,解得x4.则剩余5个得分的方差s9+51222]=×(16+4+1+91)(91+-91)9)=6.故选C.91)--+(9454.“中国人均读书4.3本(包括网络文学和教科书),比韩国的11本、法国的20本、日本的40本、犹太人的64本少得多,是世界上人均读书最少的国家.”这个论断被各种媒体反复引用.出现这样的统计结果无疑是令人尴尬的.某小区为了提高小区内人员的读书兴趣,准备举办读书活动,并进一定量的书籍丰富小区图书站.由于不同年龄段的人看不同类型的书籍,为了合理配备资源,现对小区内看书人员进行年龄调查,随机抽取了40名读书者进行调查,将他们的年龄(单位:岁)分成6段:[20,30),[30,40),[40,50),[50,60),[60,后得到如图所示的频率分布直方图.80],[70,70).(1)求在这40名读书者中年龄分布在[40,70)的人数;(2)求这40名读书者的年龄的平均数和中位数.解:(1)由频率分布直方图知年龄在[40,70)的频率为(0.020+0.030+0.025)×10=0.75,故这40名读书者中年龄分布在[40,70)的人数为40×0.75=30.(2)这40名读书者年龄的平均数为25×0.05+35×0.10+45×0.20+55×0.30+65×0.25+75×0.10=54.设中位数为x,则0.005×10+0.010×10+0.020×10+0.030×(x-50)=0.5,解得x=55,故这40名读书者年龄的中位数为55.回归分析(综合型)[典型例题]命题角度一线性回归分析(2018·广州模拟)某地1~10岁男童年龄x(单位:岁)与身高的中位数y(单位:cm)(i ii=1,2,…,10)如下表:对上表的数据作初步处理,得到下面的散点图及一些统计量的值.(1)求y关于x的线性回归方程(线性回归方程系数精确到0.01);2的回归方程类型,他求得的回归方程x关于y更适宜作为r+qx+px=y某同学认为(2).^2+10.17x+68.07.经调查,该地11岁男童身高的中位数为y=-0.30x145.3 cm.与(1)中的线是性回归方程比较,哪个回归方程的拟合效果更好?^^^^附:回归方程y=a+bx中的斜率和截距的最小二乘估计公式分别为:b=n--)-y-x)(y ∑(x ii^-^-1i=,a=y-bx.n-2)∑-x (x i1i=10--∑(x-x)(y-y)566.85ii^i1=【解】(1)b==≈6.871≈6.87,1082.50-2)xx-(∑ii1=^-^-a=y-bx=112.45-6.871×5.5≈74.66,^所以y关于x的线性回归方程为y=6.87x+74.66.^^(2)若回归方程为y=6.87x+74.66,当x=11时,y=150.23.^2+10.17x+68.07,当x=11时,yy若回归方程为=-0.30x=143.64.|143.64-145.3|=1.66<|150.23-145.3|=4.93,^2+10.17x+68.07对该地11y所以回归方程=-0.30x岁男童身高中位数的拟合效果更好.求回归直线方程的关键及实际应用^^(1)关键:正确理解计算b,a的公式和准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.命题角度二非线性回归分析(2018·潍坊模拟)某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.811-表中u=,u=∑u.ii8x1i=i d(1)根据散点图判断:y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费xy(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(回归系数的结果精确到0.01);(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)^^^附:对于一组数据(w,v),(w,v),…,(w,v),其回归直线v=α+βw的斜率和n2121nn--∑)-vw)(v (w-ii^^-^1i=,α==v-βw.截距的最小二乘估计分别为βn-2∑)w-w(i1i=d【解】(1)由散点图判断,y=c+更适合作为该图书每册的成本费y(单位:元)与印刷x数量x(单位:千册)的回归方程.1(2)令u=,先建立y关于u的线性回归方程,x8--)-y-u)(y∑(u7.049ii^1i=8.96,≈8.957≈由于d==80.787-2)u(u-∑i1i=^-^-所以c =y-d·u=3.63-8.957×0.269≈1.22,^所以y关于u的线性回归方程为y=1.22+8.96u,8.96^所以y关于x的回归方程为y=1.22+.x8.96??+1.22x≥78.840,10(3)假设印刷x 千册,依题意得x-??x所以x≥10,所以至少印刷10 000册才能使销售利润不低于78 840元.求非线性回归方程的步骤确定变量,作出散点图.(1) (2)根据散点图,选择恰当的拟合函数.变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归(3)方程.分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.(4) 根据相应的变换,写出非线性回归方程.(5)命题角度三回归分析与正态分布的综合问题单位:天当中某商品的销售量y(兰州模拟)某地一商场记录了12月份某5 (2018·单位:℃)的相关数据,如下表:kg)与该地当日最高气温x(2 9 8 5 x 11128710y 8^^^ +a;的回归方程y=bx(1)试求y与x试用所6 ℃,x之间是正相关还是负相关;若该地12月某日的最高气温是y(2)判断与求回归方程预测这天该商品的销售量;-22近σ,其中μ近似取样本平均数xX~N(μ,σ,)12(3)假定该地月份的日最高气温2 <13.4).,试求P(3.8<似取样本方差sX 附:参考公式和有关数据nn----?∑∑)yx)(ynxy-(x-xy-iiii?^1ii1===b=?222∑∑)-x (x-nxx ,ii11ii==??-^^nn---x=yb-a2),则P(μ-σ<X<μ+σ)=0.682 7,且P((3.210≈3.2,≈1.8,若X~Nμ,σμ-2σ<X<μ+2σ)=0.954 5.n----【解】(1)由题意,x=7,y=9,∑xy-nxy=287-5×7×9=-28,iii1=n28-^^^--222=12.92.0.56)×7-y-bx=9(-a=-=-n∑x-x=2955×750,b=-0.56,=i501i=^ 12.92.x+y所以所求回归直线方程为=-0.56^代入回归方程可得,x=6x0.56<0(2)由b=-知,y与负相关.将^9.56=,12.9260.56y=-×+.kg9.56 即可预测当日该商品的销售量为1-2σ≈3.2,所以P(3.8<X<13.4)=P(μ-σ<7,X≈s<μ+2σ)=P(μ-知(3)由(1)μ≈x=21σ<X<μ+σ)+P(μ-2σ<X<μ+2σ)=0.818 6.22σ的意义情况下,记清正态分布的密度曲线,解决与正态分布有关的问题,在理解μ是一条关于μ对称的钟形曲线,很多问题都是利用图象的对称性解决的.[对点训练](2018·高考全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:^y=-30.4+13.5 t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立^模型②:y=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.^解:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为^y=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(以下2种理由,任选其一)(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资^额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y=99+17.5t得到的预②年以后的环境基础设施投资额的变化趋势,因此利用模型2010可以较好地描述.测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.统计案例(综合型)[典型例题](2018·福州模拟)某学校八年级共有学生400人,现对该校八年级学生随机抽取50名进行实践操作能力测试,实践操作能力测试结果分为四个等级水平,一、二等级水平的学生实践操作能力较弱,三、四等级水平的学生实践操作能力较强,测试结果统计如下表:等级水平一水平二水平三水平四/名男生6 8 4 12女生/名2864(1)根据表中统计的数据填写下面2×2列联表,并判断是否有95%的把握认为学生实践操作能力强弱与性别有关?实践操作能力较弱实践操作能力较强总计男生/名名女生/总计(2)现从测试结果为水平一的学生中随机抽取4名进行学习力测试,记抽到水平一的男生的人数为ξ,求ξ的分布列和数学期望.下面的临界值表供参考:2)bcad-n(2参考公式:K=,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)【解】(1)2×2列联表如下:实践操作能力较弱实践操作能力较强总计30 12 /男生名18/女生名20614 总计26 24 502)1814×(6×12-502252所以K==≈4.327>3.841.5230×20×26×24所以有95%的把握认为学生实践操作能力强弱与性别有关.(2)ξ的取值为0,1,2,3,4.32141234CC3CCC1C8C6664464P(ξ=0)==,P(ξ=1)==,P(ξ=2)==,P(ξ=3)==,P(ξ4444C14C21C7C351010101041C4=4)==.4C21010所以ξ的分布列为183418所以E(ξ)=0×+1×+2×+3×+4×==1.6.14217352105独立性检验的关键2,若2×2列联表没有列出来,要先列出此表.×2列联表准确计算K根据(1)22的观测值k越大,对应假设事件H成立的概率越小,H不成立的概率越大.(2)K 00[对点训练] (2018·高考全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式的把握认为两种生产方式的效率有差异?99%中的列联表,能否有(2)根据(3).2)-bcn(ad2=,附:K)b+dd)(a+c)(b(a+)(c+2≥kK) P(0.050 0.010 0.00110.8286.6353.841 k解:(1)第二种生产方式的效率更高.理由如下:(以下4种理由,任选其一)(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.79+81(2)由茎叶图知m==80.2列联表如下:超过m 不超过m第一种生产方式515第二种生产方式1552)5-5×1540×(×152(3)由于K==10>6.635,所以有99%的把握认为两种生产方20×20×20×20式的效率有差异.一、选择题1.某班对八校联考成绩进行分析,利用随机数法抽取样本时,先将60个同学按01,6列的数开始向右读,则选出的第5行第9进行编号,然后从随机数表第60,…,03,02.个个体是()(注:下表为随机数表的第8行和第9行)6301 6378 5916 9555 6719 9810 5071 7512 8673 5807 4439 5238 793321 1234 2978 6456 0782 5242 0744 3815 5100 1342 9966 0279 54A.07B.25D.52C.42解析:选D.依题意得,依次选出的个体分别是12,34,29,56,07,52,…因此选出的第6个个体是52.2.(2018·高考全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析:选A.法一:设建设前经济收入为a,则建设后经济收入为2a,则由饼图可得建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A.法二:因为0.6<0.37×2,所以新农村建设后,种植收入增加,而不是减少,所以A是错误的.故选A.3.(2018·昆明模拟)AQI(Air Quality Index,空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程度.AQI共分六级,从一级优(0~50);二级良(51~100);三级轻度污染(101~150);四级中度污染(151~200);直至五级重度污染(201~300);六级严重污染(大于300).如图是昆明市2017年4月份随机抽取10天的AQI茎叶图,利用该样本估计)(月份空气质量优的天数为4年2018昆明市.A.3 B.4D.C.12214解析:选C.从茎叶图知10天中有4天空气质量为优,所以空气质量为优的频率为=1022,所以估计昆明市2018年4月份空气质量为优的天数为30×=12,故选C. 554.对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为()A.5 B.7D.50C.10解析:选D.根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50.5.(2018·桂林、白色、梧州、崇左、北海五市联考)如图是2017年第一季度五省GDP情况图,则下列陈述正确的是()①2017年第一季度GDP总量和增速均居同一位的省只有1个;②与去年同期相比,2017年第一季度五个省的GDP总量均实现了增长;③去年同期的GDP总量前三位是D省、B省、A省;④2016年同期A省的GDP总量也是第三位..②③④B .①②A.C.②④D.①③④解析:选B.①2017年第一季度GDP总量和增速均居同一位的省有2个,B省和C省的GDP总量和增速分别居第一位和第四位,故①错误;由图知②正确;由图计算2016年同期五省的GDP 总量,可知前三位为D省、B省、A省,故③正确;由③知2016年同期A省的GDP总量是第三位,故④正确.故选B.6.(一题多解)(2018·石家庄质量检测(二))某学校A、B两个班的数学兴趣小组在一次数学对抗赛中的成绩绘制茎叶图如下,通过茎叶图比较两个班数学兴趣小组成绩的平均值及标准差.①A班数学兴趣小组的平均成绩高于B班的平均成绩;②B班数学兴趣小组的平均成绩高于A班的平均成绩;③A班数学兴趣小组成绩的标准差大于B班成绩的标准差;④B班数学兴趣小组成绩的标准差大于A班成绩的标准差.其中正确结论的编号为()A.①③B.①④D.②④C.②③-:由于x=解析:选B.法一A11-=x92+82++95)=78,78+76+74++78+76+81+85+86+8862(53++64B1515--所66,所以x>x,++73+7374+70+83+82+91)=++(45+4851+53+56+6264+65BA以①正确.12222222278)++(74-78)(78+(78-s78)=-[(5378)-+(62-78)+(64-78)78)+(76-A152222222+(95-+(92-(88-78)+(82-+(76-78)78)+(81-78)+(85-78)(86+-78)78)+2]=121.678),12222222266)-++(62-66)-66)+(53-66)-+(5666)(64s=-[(4566)(48+-66)+(51B152222222+(9166)66)-+(82-66)+(73-66)+(74--+(7066)(83+-66)(73-+(6566)+-2]=175.2.66)22故s>s,B班的方差大,则B班的标准差也大,④正确,故选B.AB班的数学成绩较A班;B 班数学兴趣小组的平均成绩明显高于A由茎叶图可知,法二:B.班的方差、标准差较大,故选B班的数学成绩较分散,显然B稳定,大多在70~90分,二、填空题.给出下列四个命题:7名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量52①某班级一共有;46号同学在样本中,那么样本中另一位同学的编号为234的样本,已知7号、33号、为的平均数、众数、中位数都相同;4,5,3,3,②一组数据1,2 ;1,则其标准差为2,2,3的平均数为③若一组数据a,0,1^^^其中,bx④根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y=a+^-^-1.=,则b1,y=3a=2,x=.填序号)其中真命题有________(,故抽取的样本的编号分别134=在①中,由系统抽样知抽样的分段间隔为52÷解析:的平均数,5,3,4,①是假命题;在②中,数据1,23为7号、20号、33号、46号,故1中,因是真命题;在③,众数为3,都相同,故②4+5)=3,中位数为33为(1+2++3+6121)-[(-15,解得a=-1,故样本的方差为3为样本的平均数为1,所以a+0+1+2+=52222,标准差为2,故③是假命题;在]=2-1)④+(2-1)-+(31)(0+-1)中,回归直+(1^^--^^-^线方程为y=bx+2,又回归直线过点(x,y),把(1,3)代入回归直线方程y=bx+2,得b=1,故④是真命题.答案:②④8.(2018·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计数据表:购买食品的年 2.09 2.15 2.50 2.84 2.92x/万元支出费用购买水果和牛奶的1.25 1.30 1.50 1.70 1.75/万元年支出费用y^^^^^-^-根据上表可得回归直线方程y=bx+a,其中b=0.59,a=y-bx,据此估计,该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为________万元.2.09+2.15+2.50+2.84+2.92-解析:x==2.50(万元),51.25+1.30+1.50+1.70+1.75-y==1.50(万元),5.^^-^-^其中b=0.59,a=y-bx=0.025,y=0.59x+0.025,故年支出费用为3.00万元的家庭^购买水果和牛奶的年支出费用约为y=0.59×3.00+0.025=1.795万元.答案:1.7959.某同学在高三学年的五次阶段性考试中,数学成绩依次为110,114,121,119,126,则这组数据的方差是________.解析:因为对一组数据同时加上或减去同一个常数,方差不变,所以本题中可先对这5个数据同时减去110,得到新的数据分别为0,4,11,9,16,其平均数为8,根据方差公1222222]=30.8.-8)+(9-8)=[(0-8)-+(48)++(11-8)(16式可得s5答案:30.8三、解答题10.某校为了解高一学生周末的“阅读时间”,从高一年级中随机抽取了100名学生进行调查,获得了每人的周末“阅读时间”(单位:小时),按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成样本的频率分布直方图如图所示:(1)求图中a的值;(2)估计该校高一学生周末“阅读时间”的中位数;(3)用样本频率代替概率.现从全校高一年级随机抽取20名学生,其中有k名学生“阅读时间”在[1,2.5)内的概率为P(X=k),其中k=0,1,2,…,20.当P(X=k)最大时,求k的值.解:(1)由频率分布直方图可知,周末“阅读时间”在[0,0.5)内的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]内的频率分别为0.08,0.20,0.25,0.07,0.04,0.02,所以1-(0.04+0.08+0.20+0.25+0.07+0.04+0.02)=0.5a+0.5a,解得a=0.30.(2)设该校高一学生周末“阅读时间”的中位数为m小时.因为前5组的频率之和为0.04+0.08+0.15+0.20+0.25=0.72>0.5,,0.47<0.5=0.20+0.15+0.08+0.04组的频率之和为4而前所以2≤m<2.5.由0.5×(m-2)=0.5-0.47,解得m=2.06.故可估计该校高一学生周末“阅读时间”的中位数为2.06小时.(3)设在取出的20名学生中,周末“阅读时间”在[1,2.5)内的有X人,则X服从二项分布,即X~B(20,0.6),所以恰好有k名学生周末“阅读时间”在[1,2.5)内的概率为P(X k20kk-(0.4)C(0.6),=k)=20其中k=0,1,2, (20)k20kk-)(0.4(0.6)3(21-kXP(=k)C)20=…,20.,,k=1,2设t==kk1k121---k2)0.40.6)-1()C(P(X=k20若t>1,则k<12.6,P(X=k-1)<P(X=k);若t<1,则k>12.6,P(X=k-1)>P(X=k).P(X=13)3×(21-13)12=又=<1,1313×)X=122P(所以当k=12时,P(X=k)最大.所以k的值为12.11.(2018·石家庄质量检测(二))随着网络的发展,网上购物越来越受到人们的喜爱,各大购物网站为增加收入,促销策略越来越多样化,促销费用也不断增加.下表是某购物网站2017年1~8月促销费用(单位:万元)和产品销量(单位:万件)的具体数据.月份 1 2 3 4 5 6 7 8x 促销费用18 2 133 61521104.541 3.5 1 3 5y产品销量2^^^(1)根据数据可知y与x具有线性相关关系,请建立y关于x的回归方程y=bx+a(系数精确到0.01);(2)已知6月份该购物网站为庆祝成立1周年,特制定奖励制度:以z(单位:件)表示日销量,z ∈[1 800,2 000),则每位员工每日奖励100元;z∈[2 000,2 100),则每位员工每日奖励150元;z∈[2 100,+∞),则每位员工每日奖励200元.现已知该网站6月份日销量z服从正态分布N(0.2,0.000 1),请你计算某位员工当月奖励金额总数大约多少元.(当月奖励金额总数精确到百分位).参考数据:882,=1y分别为第i个月的促销费用和产品销量,ix,∑∑xy=338.5x=1 308,其中,iiiii1ii1==2),则P(μ-σ<z<μ+σ)=0.682 7,P(μ-2σ,(服从正态分布若随机变量…,32,,8.zNμσ<z<μ+2σ)=0.954 5.--,3=y,11=x由题可知(1)解:n--yx-n∑xy338.5-8×11×374.5ii^^1i=得b==≈将数据代入b=0.219≈0.22.n3401218-×1 308-22∑x-ny i1i=^-^-a=y-bx=3-0.219×11≈0.59,^所以y关于x的回归方程为y=0.22x+0.59.(2)由6月份日销量z服从正态分布N(0.2,0.000 1),得0.954 5日销量在[1 800,2 000)的概率为=0.477 25,20.682 7日销量在[2 000,2 100)的概率为=0.341 35,21-0.682 7日销量在[2 100,+∞)的概率为=0.158 65,2所以每位员工当月的奖励金额大约为(100×0.477 25+150×0.341 35+200×0.158 65)×30=3 919.725≈3 919.73(元).12.(2018·南京模拟)某校为了推动数学教学方法的改革,学校将高一年级部分生源情况基本相同的学生分成甲、乙两个班,每班各40人,甲班按原有模式教学,乙班实施教学方法改革.经过一年的教学实验,将甲、乙两个班学生一年来的数学成绩取平均数,两个班学生的平均成绩均在[50,100],按照区间[50,60),[60,70),[70,80),[80,90),[90,100]进行分组,绘制成如下频率分布直方图,规定不低于80分(百分制)为优秀.(1)完成表格,并判断是否有90%以上的把握认为“数学成绩优秀与教学改革有关”;甲班乙班总计大于等于80分的人数分的人数小于80总计(2)从乙班[70,80),[80,90),[90,100]分数段中,按分层抽样随机抽取7名学生座谈,从中选3名学生发言,记来自[80,90)发言的人数为随机变量X,求X的分布列和数学期望.参数数据和公式:2≥k0.0250.05(PK 0.10 )0.k 2.706 3.841 5.024 02)bcad-n(2K=(a+b)(c+d)(a+c)(b+d)解:(1)补全表格如下:甲班乙班总计分的人数大于等于8032 2012 分的人数小于8048 28 2080 40 40总计2)×2020-2880×(12×2依题意得K=≈3.333>2.706,40×40×32×48故有90%以上的把握认为“数学成绩优秀与教学改革有关”.(2)从乙班[70,80),[80,90),[90,100]分数段中抽取的人数分别为2,3,2,依题意随机变量X的所有可能取值为0,1,2,3,1232131CCCCC124C18343344P(X=0)==,P(X=1)==,P(X=2)==,P(X=3)==,3333C35C35C35C357777其分布列如下表:418121459所以E(X)=0×+1×+2×+3×==.35353535357。
高考数学二轮复习专题突破—统计与统计案例(含解析)
高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。
2020版高考数学大二轮复习7.3统计与统计案例学案理
第3讲统计与统计案例考点1 抽样方法1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少.2.系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.[例1] (1)[2019·福州市高中毕业班质量检测]为了解某地区的“微信健步走”活动情况,拟从该地区的人群中抽取部分人员进行调查,事先已了解到该地区老、中、青三个年龄段人员的“微信健步走”活动情况有较大差异,而男女“微信健步走”活动情况差异不大.在下面的抽样方法中,最合理的抽样方法是( )A.简单随机抽样 B.按性别分层抽样C.按年龄段分层抽样 D.系统抽样(2)[2019·全国卷Ⅲ]《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )A.0.5 B.0.6C.0.7 D.0.8【解析】(1)根据分层抽样的特点,应选C.(2)本题主要考查韦恩图的应用与概率问题,考查考生的阅读理解能力,考查的核心素养是数学抽象、逻辑推理、数据分析.根据题意阅读过《红楼梦》《西游记》的人数用韦恩图表示如下:所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为70100=0.7. 【答案】(1)C (2)C(1)随机抽样各种方法中,每个个体被抽到的概率都是相等的; (2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同;(3)分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.『对接训练』1.[2019·河北枣强中学期末]总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第6个数字开始向右读(每两个连续数字组成一个编号),则选出来的第5个个体的编号为( )21 16 65 08 90 34 20 76 43 81 26 34 91 64 17 50 71 59 45 06 91 27 35 36 80 72 74 67 21 33 50 25 83 12 02 76 11 87 05 26 A .12 B .07 C .15 D .16解析:从随机数表第1行的第6个数字开始由左到右依次选取两个数字中小于20的编号依次为03,07,12,16,07,15,其中第二个和第五个都是07,重复,所以选出的5个个体的编号为03,07,12,16,15,则第5个个体的编号为15.故选C.答案:C2.[2019·惠州市高三第二次调研]某班共有56人,学号依次为1,2,3,…,56,现用系统抽样的方法抽取一个容量为4的样本,已知学号为2,30,44的同学在样本中,则样本中还有一位同学的学号为________.解析:由题意得,需要将56人按学号从小到大分成4组,每组抽取第2个学号对应的同学,所以还有一位同学的学号为1×14+2=16.答案:16考点2 用样本估计总体1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数利用频率分布直方图求众数、中位数和平均数时易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数; (2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.[例2] (1)[2018·江苏卷]已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为________;(2)[2017·全国卷Ⅰ]为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg)分别为x 1,x 2,…,xn ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A .x 1,x 2,…,xn 的平均数B .x 1,x 2,…,xn 的标准差C .x 1,x 2,…,xn 的最大值D .x 1,x 2,…,xn 的中位数【解析】 (1)这5位裁判打出的分数分别是89,89,90,91,91,因此这5位裁判打出的分数的平均数为89+89+90+91+915=90.(2)因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳定程度,应该用样本数据的极差、方差或标准差.故选B.【答案】 (1)90 (2)B众数、中位数、平均数与直方图的关系(1)众数为频率分布直方图中最高矩形的底边中点的横坐标.(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标. (3)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之积的和.『对接训练』3.[2019·河北石家庄模拟]已知甲、乙两名篮球运动员进行罚球训练,每人练习10组,每组罚球40个,每组投中个数的茎叶图如图所示,则下列结论错误的是( )A .甲投中个数的极差是29B .乙投中个数的众数是21C .甲的投中率比乙高D .甲投中个数的中位数是25解析:由茎叶图可知甲投中个数的极差为37-8=29,故A 正确;易知乙投中个数的众数是21,故B 正确;甲的投中率为8+12+13+20+22+24+25+26+27+3740×10=0.535,乙的投中率为9+11+13+14+18+19+20+21+21+2340×10=0.422 5,所以甲的投中率比乙高,C 正确;甲投中个数的中位数为22+242=23,D 不正确.故选D.答案:D4.[2019·河北衡水中学五调]某“跑团”为了解团队每月跑步的平均里程,收集并整理了2018年1月至2018年11月期间“跑团”每月跑步的平均里程(单位:千米)的数据,绘制了下面的折线图.根据折线图,下列结论正确的是( )A .月跑步平均里程的中位数为6月份对应的平均里程数B .月跑步平均里程逐月增加C .月跑步平均里程高峰期大致在8月和9月D .1月至5月的月跑步平均里程相对于6月至11月,波动性更小,变化比较平稳 解析:由折线图知,月跑步平均里程的中位数为5月份对应的平均里程数,A 错;月跑步平均里程不是逐月增加的,B 错;月跑步平均里程高峰期大致在9月和10月,C 错.故选D.答案:D考点3 变量的相关性与统计案例1.线性回归方程方程y ^=b ^x +a ^称为线性回归方程,其中b ^=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x-2,a ^=y --b ^x -;(x -,y -)称为样本中心点.2.随机变量K 2(χ2)=(a +b +c +d )(ad -bc )2(a +b )(c +d )(a +c )(b +d ),若K 2(χ2)>3.841,则有95%的把握说两个事件有关; 若K 2(χ2)>6.635,则有99%的把握说两个事件有关.[例3] [2019·全国卷Ⅰ]某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(1)(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).【解析】 象概括能力与数据处理能力,重点考查数学抽象、数据分析、数学运算的核心素养;倡导学生关注生活,提高数学应用意识.(1)由调查数据知,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K 2=100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.(1)求回归直线方程的关键①正确理解计算b ^,a ^的公式和准确的计算.②在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(2)独立性检验的关键①根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.②K2的观测值k越大,对应假设事件H0成立的概率越小,H0不成立的概率越大.『对接训练』5.[2019·福建福州二检]中国房地产业协会主办的中国房价行情网调查的一份数据显示,2018年7月,大部分一线城市的房租租金同比涨幅都在10%以上.某部门研究认为,房租支出超过月收入13的租户“幸福指数”低,房租支出不超过月收入13的租户“幸福指数”高.为了了解甲、乙两个小区的租户的“幸福指数”的高低,随机抽取甲、乙两个小区租户各100户进行调查.甲小区租户的月收入(单位:千元)以[0,3),[3,6),[6,9),[9,12),[12,15]分组的频率分布直方图如图.乙小区租户的月收入(单位:千元)的频数分布表如下.(2)若甲、乙两个小区每户的月租费分别为2千元、1千元.请根据条件,完成下面的2×2列联表,并说明能否在犯错误的概率不超过0.001的前提下认为“‘幸福指数’高低与租住的小区有关”.附:K 2=n (ad -(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解析:(1)设甲小区所抽取的100户租户的月收入的中位数为t , 则0.060×3+(t -3)×0.160=0.5,解得t =5. (2)完成2×2列联表如下.根据2×2可得K 2的观测值k =200×(66×62-38×34)2104×96×100×100≈15.705>10.828,所以能在犯错误的概率不超过0.001的前提下认为“‘幸福指数’高低与租住的小区有关”.课时作业19 统计与统计案例1.[2019·湖南五市十校联考]在某次赛车中,50名参赛选手的成绩(单位:min)全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18].其频率分布直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )A.39 B.35C.15 D.11解析:由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78,所以成绩在[13,15)内的频率为1-0.78=0.22,则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.答案:D2.[2019·湖北黄冈期末]为了调查学生对某项新政策的了解情况,准备从某校高一A,B,C三个班级中抽取10名学生进行调查.已知A,B,C三个班级的学生人数分别为40,30,30.考虑使用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按A,B,C三个班级依次统一编号为1,2,…,100;使用系统抽样时,将学生按A,B,C三个班级依次统一编号为1,2,…,100,并将所有编号依次平均分为10组.如果抽得的号码有下列四种情况:①7,17,27,37,47,57,67,77,87,97;②3,9,15,33,43,53,65,75,85,95;③9,19,29,39,49,59,69,79,89,99;④2,12,22,32,42,52,62,73,83,96.关于上述样本的下列结论中,正确的是( )A.①③都可能为分层抽样 B.②④都不能为分层抽样C.①④都可能为系统抽样 D.②③都不能为系统抽样解析:对于①,既满足系统抽样的数据特征,又满足分层抽样的数据特征,所以可能是分层抽样或系统抽样;对于②,只满足分层抽样的数据特征,所以可能是分层抽样;对于③,既满足系统抽样的数据特征,又满足分层抽样的数据特征,所以可能是分层抽样或系统抽样;对于④,只满足分层抽样的数据特征,所以可能是分层抽样.故选A.答案:A3.[2019·广东惠州一调]已知数据x1,x2,…,x10,2的平均值为2,方差为1,则数据x1,x2,…,x10相对于原数据( )A.一样稳定 B.变得稳定C.变得不稳定 D.稳定性不可以判断解析:数据x 1,x 2,…,x 10,2的平均值为2,方差为1,故111[(x 1-2)2+(x 2-2)2+…+(x 10-2)2+(2-2)2]=1,数据x 1,x 2,…x 10的方差s 2=110[(x 1-2)2+(x 2-2)2+…+(x 10-2)2]>1,故相对于原数据变得不稳定,故选C.答案:C4.[2019·陕西商洛质检]在一次53.5千米的自行车个人赛中,25名参赛选手成绩(单位:分钟)的茎叶图如图所示,现将参赛选手按成绩由好到差编为1~25号,再用系统抽样的方法从中选取5人,已知选手甲的成绩为85分钟,若甲被选取,则被选取的其余4名选手的成绩的平均数为( )A.95 B .96 C .97 D .98解析:由系统抽样法及已知条件可知被选中的其他4人的成绩分别是88,94,99,107,故平均数为88+94+99+1074=97,故选C.答案:C5.[2019·湖北重点高中协作体联考]某镇有A ,B ,C 三个村,它们的人口数量之比为,现在用分层抽样的方法抽出容量为n 的样本,样本中A 村有15人,则样本容量为( )A .50B .60C .70D .80解析:设A ,B ,C 三个村的人口数量分别为3x,4x,7x ,则由题意可得3x 15=3x +4x +7xn ,解得n =70,故选C.答案:C6.[2019·云南昆明诊断]某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:A .利润率与人均销售额成正相关关系B .利润率与人均销售额成负相关关系C .利润率与人均销售额成正比例函数关系D .利润率与人均销售额成反比例函数关系解析:画出利润率与人均销售额的散点图,如图.由图可知利润率与人均销售额成正相关关系.故选A.答案:A7.[2019·河南濮阳摸底]根据如表数据,得到的回归方程为y ^=b ^x +9,则b ^=( )A.2 B .1 C .0 D .-1解析:由题意可得x -=15×(4+5+6+7+8)=6,y -=15×(5+4+3+2+1)=3,因为回归方程为y ^=b ^x +9且回归直线过点(6,3),所以3=6b ^+9,解得b ^=-1,故选D.答案:D8.[2019·宁夏银川一中月考]利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否爱好该项运动,得到2×2列联表,并计算可得K 2≈8.806.A .有99.5%以上的把握认为“是否爱好该项运动与性别无关”B .有99.5%以上的把握认为“是否爱好该项运动与性别有关”C .在犯错误的概率不超过0.05%的前提下,认为“是否爱好该项运动与性别有关”D .在犯错误的概率不超过0.05%的前提下,认为“是否爱好该项运动与性别无关” 解析:由于8.806>7.879,所以根据独立性检验的知识可知有99.5%以上的把握认为“是否爱好该项运动与性别有关”,故选B.答案:B9.[2019·安徽六安毛坦厂中学月考]某位教师2017年的家庭总收入为80 000元,各种用途占比统计如下面的折线图.2018年收入的各种用途占比统计如下面的条形图,已知2018年的就医费用比2017年增加了4 750元,则该教师2018年的家庭总收入为( )A .100 000元B .95 000元C .90 000元D .85 000元解析:由已知得,2017年的就医费用为80 000×10%=8 000(元),故2018年的就医费用为8 000+4 750=12 750(元),所以该教师2018年的家庭总收入为12 75015%=85 000(元).故选D.答案:D10.[2019·华中师范大学第一附属中学期末]给出下列结论:①某学校从编号依次为001,002,…,900的900个学生中用系统抽样的方法抽取一个样本,已知样本中有两个相邻的编号分别为053,098,则样本中最大的编号为862;②甲组数据的方差为5,乙组数据为5,6,9,10,5,那么这两组数据中甲组数据比较稳定; ③两个变量的线性相关性越强,则相关系数r 的值越接近于1; ④对A ,B ,C 三种个体按 ::2的比例进行分层抽样调查,若抽取的A 种个体有15个,则样本容量为30.则正确的个数是( ) A .3 B .2 C .1 D .0解析:①中,样本中相邻的两个编号为053,098,则样本组距为98-53=45,所以样本容量为90045=20,则样本中最大的编号为53+45×(20-2)=863,故①错误;②中,乙组数据的平均数为5+6+9+10+55=7,所以乙组数据的方差为15×[(5-7)2+(6-7)2+(9-7)2+(10-7)2+(5-7)2]=4.4<5,那么这两组数据中乙组数据比较稳定,故②错误;③中,两个变量的线性相关性越强,则相关系数r 的绝对值越接近于1,故③错误;④中,易知样本容量为15÷33+1+2=30,故④正确.综上,选C.答案:C11.[2019·福建三明质检]某校为了解学生的身体素质情况,采用按年级分层抽样的方法,从高一、高二、高三年级的学生中抽取一个300人的样本进行调查,已知高一、高二、高三年级的学生人数之比为k ::4,抽取的样本中高一年级的学生有120人,则实数k的值为________.解析:由题意可得,120300=kk +5+4,解得k =6.答案:612.[2019·河北六校联考]在一次53.5千米的自行车个人赛中,25名参赛选手的成绩(单位:分)的茎叶图如图所示,若用简单随机抽样的方法从中选取2人,则这2人成绩的平均数恰为100的概率为________.解析:根据题意知,从25人中选取2人,基本事件的总数为C 225=300,其中这2人成绩的平均数恰为100的基本事件为(100,100),(95,105),(95,105),(95,105),(94,106),(93,107),共6个,所以所求的概率P =6300=150.答案:15013.某炼钢厂废品率x (%)与成本y (元/t)的线性回归方程为y ^=105.492+42.569x .当成本控制在176.5元/t 时,可以预计生产的1 000 t 钢中,约有________t 钢是废品.解析:因为176.5=105.492+42.569x ,所以x ≈1.668,即成本控制在176.5元/t 时,废品率为1.668%.所以生产的1 000 t 钢中,约有1 000×1.668%=16.68 t 钢是废品. 答案:16.6814.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.解析:K2≈3.918≥3.841,而P(K2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:①15.[2019·湖南四校摸底调研]某家电公司销售部门共有200名销售员,每年部门对每名销售员都有 1 400万元的年度销售任务.已知这200名销售员去年的销售额都在区间[2,22](单位:百万元)内,现将其分成5组,第1组、第2组、第3组、第4组、第5组对应的区间分别为[2,6),[6,10),[10,14),[14,18),[18,22],并绘制出如下的频率分布直方图.(1)求a的值,并计算完成年度任务的人数;(2)用分层抽样的方法从这200名销售员中抽取容量为25的样本,求这5组分别应抽取的人数;(3)现从(2)中完成年度任务的销售员中随机选取2名,奖励海南三亚三日游,求获得此奖励的2名销售员在同一组的概率.解析:(1)∵(0.02+0.08+0.09+2a)×4=1,∴a=0.03,∴完成年度任务的人数为2×0.03×4×200=48.(2)第1组应抽取的人数为0.02×4×25=2,第2组应抽取的人数为0.08×4×25=8,第3组应抽取的人数为0.09×4×25=9,第4组应抽取的人数为0.03×4×25=3,第5组应抽取的人数为0.03×4×25=3,(3)在(2)中完成年度任务的销售员中,第4组有3人,记这3人分别为A1,A2,A3;第5组有3人,记这3人分别为B1,B2,B3.从这6人中随机选取2名,所有的基本事件为A1A2,A1A3,A1B1,A1B2,A1B3,A2A3,A2B1,A2B2,A2B3,A3B1,A3B2,A3B3,B1B2,B1B3,B2B3,共有15个基本事件,获得此奖励的2名销售员在同一组所包含的基本事件有6个, 故所求概率P =615=25.16.[2019·河南封一调]近年来我国电子商务行业迎来蓬勃发展的新机遇,2018年双十一期间,某购物平台的成交额为两千亿元人民币之多.与此同时,相关管理部门推出了针对电商的商品和服务的评价体系,现从评价系统中选出200次成功交易,并对其评价进行统计,商品的好评率为60%,服务的好评率为75%,其中对商品和服务都做出好评的交易为80次.(1)完成下面的2×2列联表,并回答是否有99%的把握认为商品好评与服务好评有关.(2)的次数为随机变量X ,求X 的数学期望和方差.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .K 2=200×(150×50×120×80≈11.111>6.635,故有99%的把握认为商品好评与服务好评有关.(2)∵X ~B ⎝ ⎛⎭⎪⎫3,25, ∴E (X )=3×25=65,D (X )=3×25×35=1825.17.[2019·重庆九校联盟一模]某社区为了解该社区退休老人每天的平均户外活动时间,从该社区退休老人中随机抽取了100位老人进行调查,获得了每人每天的平均户外活动时间(单位:时),活动时间按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成样本的频率分布直方图如图所示.(1)求图中a 的值;(2)估计该社区退休老人每人每天的平均户外活动时间的中位数;(3)在[1,1.5),[1.5,2)这两组中采用分层抽样的方法抽取7人,再从这7人中随机抽取2人,求抽取的2人恰好在同一个组的概率.解析:(1)由频率分布直方图,可知平均户外活动时间在[0,0.5)内的频率为0.08×0.5=0.04.同理,平均户外活动时间在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]内的频率分别为0.08,0.20,0.25,0.07,0.04,0.02,由1-(0.04+0.08+0.20+0.25+0.07+0.04+0.02)=0.5a +0.5a , 解得a =0.30. (2)设中位数为m 时.因为前5组的频率之和为0.04+0.08+0.15+0.20+0.25=0.72>0.5, 而前4组的频率之和为0.04+0.08+0.15+0.20=0.47<0.5,所以2≤m <2.5. 所以0.50×(m -2)=0.5-0.47,解得m =2.06.故可估计该社区退休老人每人每天的平均户外活动时间的中位数为2.06时. (3)由题意得平均户外活动时间在[1,1.5),[1.5,2)内的人数分别为15,20,按分层抽样的方法在[1,1.5),[1.5,2)内分别抽取3人、4人,从7人中随机抽取2人,共有C 27=21种方法,抽取的两人恰好都在同一个组有C 24+C 23=9种方法,故抽取的2人恰好在同一个组的概率P =921=37.18.[2019·福建三明月考]统计学中经常用环比、同比来进行数据比较.环比是指本期统计数据与上期比较,如2017年7月与2017年6月相比.环比增长率=本期数-上期数上期数×100%,同比增长率=本期数-同期数同期数×100%.下表是某地区近17个月来的消费者信心指数的统计数据:②除2017年1月外,该地区消费者信心指数月环比增长率为负数的有几个月? (2)由以上数据可判断,序号x 与该地区消费者信心指数y 具有线性相关关系,求出y 关于x 的线性回归方程y ^=b ^x +a ^(a ^,b ^保留2位小数),并依此预测该地区2018年6月的消费者信心指数(结果保留1位小数).参考数据与公式:∑i =117x i y i =18 068.5,∑i =117x 2i=1 785,x -=9,y -≈115,b ^=,a ^=y --b ^x -.解析:(1)①该地区2018年5月消费者信心指数的同比增长率为124-112.6112.6×100%≈10%.②若月环比增长率为负数,则本期数<上期数,从表中可以看出,2017年3月、2017年6月、2017年8月、2018年2月、2018年4月共5个月的月环比增长率为负数.(2)由已知,得,a ^=y --b ^x -=104.56,∴线性回归方程为y ^=1.16x +104.56.当x =18时,y ^=125.4,故该地区2018年6月的消费者信心指数约为125.4.。
2020高考二轮专题检测(十二) 统计、统计案例考点落实练
专题检测(十二) 统计、统计案例一、选择题1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( )A.73B.78C.77D.762.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )A.中位数B.平均数C.方差D.极差3.(2019·广东六校第一次联考)某单位为了落实“绿水青山就是金山银山”理念,制定节能减排的目标,先调查了用电量y (单位:kW ·h)与气温x (单位:℃)之间的关系,随机选取了4天的用电量与当天气温,并制作了如下对照表:x (单位:℃) 17 14 10 -1 y (单位:kW ·h)243438a由表中数据得线性回归方程:y ^=-2x +60,则a 的值为( ) A.48 B.62 C.64D.684.如图是民航部门统计的2019年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )A.深圳的变化幅度最小,北京的平均价格最高B.深圳和厦门的春运期间往返机票价格同去年相比有所下降C.平均价格从高到低居于前三位的城市为北京、深圳、广州D.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门5.一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{a n},若a3=8,且a1,a3,a7成等比数列,则此样本的平均数和中位数分别是()A.13,12B.13,13C.12,13D.13,146.(2019·成都市第二次诊断性检测)为比较甲、乙两名篮球运动员的近期竞技状态,选取这两名球员最近五场比赛的得分,制成如图所示的茎叶图.有下列结论:①甲最近五场比赛得分的中位数高于乙最近五场比赛得分的中位数;②甲最近五场比赛得分的平均数低于乙最近五场比赛得分的平均数;③从最近五场比赛的得分看,乙比甲更稳定;④从最近五场比赛的得分看,甲比乙更稳定.其中所有正确结论的编号为()A.①③B.①④C.②③D.②④二、填空题7.(2019·全国卷Ⅱ)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________.8.(2019·安徽五校联盟第二次质检)数据a1,a2,a3,…,a n的方差为σ2,则数据2a1,2a2,2a3,…,2a n的方差为________.9.某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:总计60 50 110试根据样本估计总体的思想,估计在犯错误的概率不超过________的前提下(约有________的把握)认为“喜爱该节目与否和性别有关”.参考附表:P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828⎝ ⎛⎭⎪⎫参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 三、解答题10.(2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A ,B 两组,每组100只,其中A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C 为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P (C )的估计值为0.70.(1)求乙离子残留百分比直方图中a ,b 的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).11.某市教育学院从参加市级高中数学竞赛的考生中随机抽取60名学生,将其竞赛成绩(均为整数)分成六段:[40,50),[50,60),[60,70),…,[90,100],得到如图所示的频率分布直方图.(1)根据频率分布直方图,估计参加高中数学竞赛的考生的成绩的平均数、众数、中位数(小数点后保留一位有效数字);(2)用分层抽样的方法在各分数段的考生中抽取一个容量为20的样本,则各分数段抽取的人数分别是多少?12.(2019·沈阳市质量监测(一))某篮球运动员的投篮命中率为50%,他想提高自己的投篮水平,制定了一个夏季训练计划,为了了解训练效果,执行训练前,他统计了10场比赛的得分,计算出得分的中位数为15,平均得分为15,得分的方差为46.3.执行训练后也统计了10场比赛的得分,茎叶图如图所示:(1)请计算该篮球运动员执行训练后统计的10场比赛得分的中位数、平均得分与方差.(2)如果仅从执行训练前后统计的各10场比赛得分数据分析,你认为训练计划对该运动员的投篮水平的提高是否有帮助?为什么?参考答案1.解析:选B 样本的分段间隔为8016=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.故选B.2.解析:选A 中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均受影响.故选A.3.解析:选C 由题意,得x =17+14+10-14=10,y =24+34+38+a 4=96+a4.样本点的中心(x ,y )在回归直线y ^=-2x +60上,代入线性回归方程可得96+a 4=-20+60,解得a=64,故选C.4.解析:选D 由图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A 正确;由图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B 正确;由图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C 正确;由图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D 错误,选D.5.解析:选B 设等差数列{a n }的公差为d (d ≠0),a 3=8,a 1a 7=a 23=64,(8-2d )(8+4d )=64,即2d -d 2=0,又d ≠0,故d =2,故样本数据为:4,6,8,10,12,14,16,18,20,22,平均数为(4+22)×510=13,中位数为12+142=13.6.解析:选C 对于①,甲得分的中位数为29,乙得分的中位数为30,错误; 对于②,甲得分的平均数为15×(25+28+29+31+32)=29,乙得分的平均数为15×(28+29+30+31+32)=30,正确;对于③,甲得分的方差为15×[(25-29)2+(28-29)2+(29-29)2+(31-29)2+(32-29)2]=15×(16+1+0+4+9)=6, 乙得分的方差为15×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=15×(4+1+0+1+4)=2,所以乙比甲更稳定,③正确,④错误.所以正确结论的编号为②③.7.解析:x =10×0.97+20×0.98+10×0.9910+20+10=0.98.则经停该站高铁列车所有车次的平均正点率的估计值为0.98. 答案:0.988.解析:设a 1,a 2,a 3,…,a n 的平均数为a ,则2a 1,2a 2,2a 3,…,2a n 的平均数为2a ,σ2=(a 1-a )2+(a 2-a )2+(a 3-a )2+…+(a n -a )2n.则2a 1,2a 2,2a 3,…,2a n 的方差为(2a 1-2a )2+(2a 2-2a )2+(2a 3-2a )2+…+(2a n -2a )2n =4×(a 1-a )2+(a 2-a )2+(a 3-a )2+…+(a n -a )2n =4σ2.答案:4σ29.解析:分析列联表中数据,可得K 2的观测值k =110×(40×30-20×20)260×50×60×50≈7.822>6.635,所以在犯错误的概率不超过0.01的前提下(有99%的把握)认为“喜爱该节目与否和性别有关”.答案:0.01 99%10.解析:(1)由已知得0.70=a +0.20+0.15,故a =0.35. b =1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05, 乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00. 11.解析:(1)由频率分布直方图可知,(0.010+0.015+0.015+a +0.025+0.005)×10=1,所以a =0.03. 所以参加高中数学竞赛的考生的成绩的平均数为45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71, 成绩的众数为75.设参加高中数学竞赛的考生的成绩的中位数为x , 则0.1+0.15+0.15+(x -70)×0.03=0.5,解得x ≈73.3, 所以中位数为73.3.(2)因为各层人数分别为6,9,9,18,15,3,各层抽取比例为2060=13,所以各分数段抽取人数依次为2,3,3,6,5,1. 12.解析:(1)训练后得分的中位数为14+152=14.5;平均得分为8+9+12+14+14+15+16+18+21+2310=15;方差为110[(8-15)2+(9-15)2+(12-15)2+(14-15)2+(14-15)2+(15-15)2+(16-15)2+(18-15)2+(21-15)2+(23-15)2]=20.6.(2)尽管中位数训练后比训练前稍小,但平均得分一样,训练后方差20.6小于训练前方差46.3,说明训练后得分稳定性提高了(阐述观点合理即可),这是投篮水平提高的表现.故此训练计划对该篮球运动员的投篮水平的提高有帮助.。
(典型题)高考数学二轮复习知识点总结统计与统计案例.docx
统计与统计案例1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等; 有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题, 都属于屮低档题.1.随机抽样(1)简单随机抽样特点为从总体中逐个抽取,适用范围:总体中的个体较少.(2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取,适用范围:总体中的个体数较多.(3)分层抽样特点是将总体分成儿层,分层进行抽取,适用范围:总体由差异明显的儿部分组成.2.常用的统计图表(1)频率分布直方图、频率①小长方形的面积=组距X 忒=频率;②各小长方形的面积之和等于1;—频率1③小长方形的高=猛,所有小长方形的高的和为丽.(2)茎叶图在样本数据较少时,用茎叶图表示数据的效果较好.3.用样本的数字特征估计总体的数字特征(1)众数、中位数、平均数一一一(2)方差:『=_[(/]—X )2+(A2—x )2------ (乙一x}2}.n标准崔X\— X 2+ X2— X 2 F X n — X 2]. 4. 变量的相关性与最小二乘法(1) 相关关系的概念、正相关和负相关、相关系数.(2) 最小二乘法:对于给定的一组样本数据(xi, yi ),(丸,乃),…,(尢,%),通过求0=工(yi —a —bx )'最小时,得到线性回归方程尸=加+日的方法叫做最小二乘法. /=15. 独立性检验对于取值分别是3,屈和5, y 』的分类变量尤和『,其样本频数列联表是:71Y2 总计ab a+b X2C d c+d 总计a+cb+dn则心宀 U+c W (•其中心++十为样本容量)•考点一抽样方法.例1. (2012・山东)采用系统抽样方法从960人屮抽取32人做问卷调查,为此将他们随机 编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到 的32人中,编号落入区间[1,450]的人做问卷编号落入区间[451, 750]的人做问卷B, 英余的人做问卷C 则抽到的人中,做问卷〃的人数为()9,39,69, 939.落入区间[451,750]的有459,489,729,这些数构成首项为459,公差为30的等差数列,设有刀项,显然有729 = 459+(/7—1)X30,解得刀=10.所以做 问卷〃的有10人.I 冋=f ■在系统抽样的过程屮,要注意分段间隔,需要抽取儿个个体,样本就需要分 成儿个组,则分段间隔即点N 为样本容量),首先确定在第一组中抽取的个体的号码 n数,再从后面的每组屮按规则抽取每个个体.解决此类题目的关键是深刻理解各种抽样 方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的, 都等于样本容量和总体容量的比值.A. 7B. 9 答案CC. 10D. 15解析由系统抽样的特点知:抽取号码的间隔为96032= 30,抽取的号码依次为因(1) (2013 •江西)总体由编号为01,02, 19,20的20个个体组成,利用下而的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()A. 08(2)某单位200名职工的年龄分布悄况如图所示,现要从中抽取40名职工作样本.用系统抽样法,将全体职工随机按1〜200编号,并按编号顺序平均分为40组仃〜5号,6〜10号,196〜200号).若第5组抽出的号码为22,则第8组抽出的号码应是.若用分层抽样方法,则40岁以下年龄段应抽収人.答案(1)D (2)37 20解析(1)从第1行第5列、第6列组成的数65开始由左到右依次选出的数为:08, 02, 14,07,01,所以第5个个体编号为01.(2)由分组可「知,抽号的间隔为5,又因为第5组抽出的号码为22,即第〃组抽取的号码为5/7—3,所以第8组抽出的号码为37;40岁以下年龄段的职工数为200X0. 5 = 100,40则应抽取的人数为丽X 100 = 20人.考点二用样本估计总体.例2. (1) (2013・四川)某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示,以组距为「5将数据分组成[0, 5), [5, 10),…,[30, 35), [35, 40] 时,所作的频率分布直方图是()(2) (2013 •江苏)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:坏),结果如下:则成绩较为稳定(方差较小)的那位运动员成绩的方差为_________ .答案(1)A (2)2解析(1)由于频率分布直方图的组距为5,去掉C、D,又[0, 5), [5,10)两组各一人,去掉B,应选A.— 1(2) 一卩==(87 + 91+90 + 89+93)=90,□—— 1x乙==(89 + 90 + 91+88 + 92) =90,b品=占[(87 — 90)?+(91-90)1 2+ (90-90)2+ (89-90)2+ (93-.90)2] =4,5s2=g[(89 —90尸+ (90-90)2+ (91-90)2+ (88-90)2+ (92-90)2] =2.5(1)反映样本数据分布的主要方式有:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小, 高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的均值、众数和中位数、方差等.(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.在“2012魅力新安江”青少年才艺表演评比活动中,参赛选手成绩的茎叶图和频率分布直方图都受到不同程度的破坏,可见部分如图,据此回答以下问题:(2, 4), (2, 5), (2, 6), (3, 4), (3,5), (3, 6), (4, 5), (4, 6), (5, 6),共15 个,其中至少有一个在1 求参赛总人数和频率分布直方图中[80, 90)之间的矩形的高,并完成直方图;2 若要从分数在[80,100]之间任取两份进行分析,在抽取的结果中,求至少有一份分数在[90, 100]之间的概率.解(1)由茎叶图知,分数在[50, 60)之间的频数为2.由频率分布直方图知,分数在[50, 60)之间的频率为0. 008X10 = 0.0&2所以参赛总人数为両=25 (人).分数在[80, 90)之间的人数为25 — 2 — 7—10 — 2=4(人),4分数在[80,90)Z间的频率为亦=0・16,得频率分布直方图中[80, 90)间矩形的高为晋=0. 016.完成直方图,如图.(2)将[80, 90)之间的4个分数编号为1, 2, 3,4;[90, 100]之间的2个分数编号为5和6.则在[80,100]之间任取两份的基本事件为(1,2), (1,3), (1,4), (1,5), (1,6), (2, 3),[90,100]之间的基本事件为(1,5), (1,6), (2,5), (2, 6), (3, 5), (3, 6), (4, 5), (4, 6), (5, 6),共9 个.9 3故至少有一份分数在[90, 100] Z间的概率考点三统计案例.例3. (2013 •重庆)从某居民区随机抽取10个家庭,获得第,个家庭的月收入农(单位:千10 10 10 10元)与月储蓄匕(单位:千元)的数据资料,算得为上=80,为y,=20,为乂匕=1.84,为¥ /=1 /=12=1 2=1 7=720.(1)求家庭的月储蓄y对月收入/的线性回归方程y=bx+a,(2)判断变量龙与y之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.n _ _^XiYi—n x yi= I _ _____ _______ ___ 附:线性回归方程y= bx+ a中,b= ----------------- , a= y ~b x ,其中x , y为n __匸2 22^x~n x7=1样本平均值,线性回归方程也可写为y=bx+a.__ | n80解⑴由题意知〃=io, / =-yx=—=8, 刀「10又人=工£一〃^ 2=720-10X82 = 80,2 = 1厶》・=1>必一刀x y =184-10X8X2 = 24, /=i由此得力3,a=~-b T=2-0. 3X8=-0. 4,故所求线性回归方程为y=0. 3^-0. 4.(2)由于变量y的值随x值的增加而增加(方=0. 3>0),故/与F 之间是正相关.(3)将x=l 代入回归方程可以预测该家庭的月储蓄为y=0. 3X7-0. 4 = 1. 7(千元). (1)对具有线性相关关系的两个变量.可以用最小二乘法求线性回归方程,求方是关键,X XL X //— y ^Xiy —n x y■ /=1 J=1 其中b= ----------------------- = ---------------n __ n _ V 1 2 P 2 2 , Xi — x 2^Xi —n x /= i /= i⑵在利用统计•变量航进行独立性检验时,应该注意数值的准确代入和正确汁算, 最后把计算的结杲与有关临界值相比较.(1)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:附表:参照附表,得到的正确结论是()A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C. 有99%以上的把握认为“爱好该项运动与性別有关”D. 有99%以上的把握认为“爱好该项运动与性别无关”⑵已知x 、y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y=0. 95^+a,则日等于()A. 1.30B. 1.45C. 1.65 0. 1.80EX60X50X60X50〜7.&答案(1)C (2)B解析(1)根据独立性检验的定义,由斤(塔)~7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选C.—1(2)依题意得,x =^*X (0+1+4 + 5 + 6+8) =4,6—— 1y =-(1. 3 + 1. 8+5. 6 + 6. 1+7. 4 + 9. 3) =5. 25;又直线y=0.95/+自必过样本点中心(匸,~),即点(4, 5. 25),于是有5. 25 = 0. 95X4+日,由此解得曰=1.45.1.用样本估计总体(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1.(2)众数、屮位数及平均数的异同众数、屮位数及平均数都是描述一组数据集屮趋势的量,平均数是最重要的量.(3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布.—1 “①总体期望的估计,计算样本平均值X②总体方差(标准差)的估计:方差=2若](尢一% )2,标准差=7方差,方差(标准差)较小者较稳定.2.线性回归方程y =b x+a过样本点中心(匚,丁),这为求线性回归方程带来很多方便.3.独立性检验⑴作出2X2列联表.(2)计算随机变量#(疋)的值.(3)查临界值,检验作答.1.经问卷调查,某班学生对摄影分别持“喜欢”、“不喜欢”和“一般”三种态度,其中持“一般”态度的学生比持“不喜欢”的学生多12人,按分层抽样的方法(抽样过程中不需要剔除个体)从全班选出部分学生进行关于摄影的座谈.若抽样得出的9位同学屮有5位持“喜欢”态度的同学,1位持“不喜欢”态度的同学和3位持“一般”态度的同学,则全班持“喜欢”态度的同学人数为 ()A. 6B. 18C. 30D. 54答案C解析 由题意设全班学生为/人,持“喜欢”、“不喜欢”和“一般”态度的学生分别 占全班人数的害、*、所以%(|-|)=12,解得%=54,所以全班持“喜欢”态度的人 数为54X :=30.故选C.2. 某校从参加高三年级期中考试的学生中随机抽取60名学生,将其数学成绩(均为整数) 分成六段[40,50), [50,60),…,[90,100]后得到如图的频率分布直方图,请你根据频 率分布直方图中的信息,估计出本次考试数学成绩的平均分为 _______________ .答案71解析 由频率分布直方图得每一组的频率依次为0. 1, 0. 15, 0. 15, 0. 3, 0. 25, 0. 05,又由 频率分布直方图,得每一组数据的中点值依次为45, 55, 65, 75, 85, 95.所以本次考试数学成绩的平均分为匚=45X0. 1 +55X0. 15 + 65X0. 15 + 75X0.3 +85X0. 25+95X0. 05 = 71.故填71.随机抽取某川学甲、乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如图.(1) 根据茎叶图判断哪个班的平均身高较高; (2) 计算甲班的样本方差;(3) 现从乙班这10名同学中随机抽取两名身高不低于173 cm的同学,求身高为176 cm 的同学被抽屮的概率.解(1)由茎叶图可知:甲班身高集中于160 cm 〜179 cm 之间,而乙班身高集中于170cm 〜180 cm 之间,因此乙班平均身高高于甲班,其中 — 158+162 + 163+168+168+170+171 + 179+179+182 x 甲== 170, —159+162 + 165+168 + 170+173 + 176+178+179+18110= 171. 1.(2)甲班的样本方差为±[(158 — 170)2+(]62_i70)2+ (163- 170)2+ (168~170)2 + (168-170)2+ (170-170)2+(171-170)2+ (179-170)2+ (179-170)2+ (182-170)2]甲班2 18 9 9 10 17 8 83 216 815 3. 10 乙班10 3 6 8 9 2 5 8 9= 57. 2.(3)设身高为176 cm 的同学被抽中的事件为/L从乙班10名同学中抽取两名身高不低于173 cm 的同学有:(181,173)、(181,176)、(181,178)、(181,179)、(179,173)、(179,176)、(179,178)、(178, 173)、(178,176)、 (176,173),共10个基本事件,而事件含有4个基本事件,(推荐时间:60分钟)一、选择题1. 要完成下列两项调查:①从某肉联厂的火腿肠生产线上抽取L 000根火腿肠进行“瘦 肉精”检测;②从某屮学的15名艺术特长生屮选出3人调查学习负担情况.适合采用 的抽样方法依次为()A. ①用分层抽样,②用简单随机抽样B. ①用系统抽样,②用简单随机抽样C. ①②都用系统抽样D. ①②都用简单随机抽样答案B解析 ①屮总体容量较大,且火腿肠Z 间没有明显差异,故适合采用系统抽样;②屮总 体容量偏小,故适合采用简单随机抽样.2. (2012・四川)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况, 对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为M 其屮 甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为 12, 21,25, 43,则这四个社区驾驶员的总人数艸为()A. 101B. 808C. 1 212D. 2 012答案B12解析由题意知抽样比为花,而四个社区一共抽取的驾驶员人数为12 + 21+25+43 = 101,故有||=¥,解得/V=808.3. (2013 •福建)某校从高一年级学生中随机抽取部分学生.,将他们的模块测试成绩分成6 组:[40,50), [50, 60), [60,70), [70, 80), [80, 90), [90,100]加以统计,得到如图 所示的频率分布直・・・P(A)=£2方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为()A. 588B. 480C. 450D. 120答案B解析少于60分的学生人数600X (0. 05 + 0. 15) = 120(人),・・・不少于60分的学生人数为480人.4.甲、乙两位运动员在5场比赛的得分情况如茎叶图所示,记甲、乙两人的平均得分分别为匚甲,匚乙,则下列判断正确的是()A.匚甲>7乙;甲比乙成绩稳定甲〉匚乙;乙比甲成绩稳定C. "7甲<7乙;甲比乙成绩稳定乙比甲成绩稳定答案D解析由茎叶图可知—17+16 + 28 + 30 + 34*,1,= 5 斗5,—15 + 28+26 + 28 + 33x乙= z =26,oX甲〈X乙.又昴=g[「(17—25尸+ (16-25)2+ (28-25)2+ (30-25)2+ (34-25)2] =52,s:=£[(15-26)2+ (28-26)2+ (26~26)2+ (28-26)2+ (33-26)2] =35. 6,・・・乙比甲成绩稳定.5.一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{/},若心=8,且越,彷成等比数列,则此样本的平均数和中位数分别是( )A. 13, 12B. 13, 13C. 12, 13D. 13, 14答案B解析设等差数列{/}的公差为〃(件0), $3=8,血戲=£=64, (8 — 2小(8+4小=64, (4 — / (2 +小=& 2〃一扌=0 ,又,故d = 2 ,故样本数据为+ 12 + 14 4,6, & 10, 12, 14, 16, 18,20,22,样本的平均数为------- ----- =13,中位数为一= 13,故选B.6.2011年6月,台湾爆出了食品添加有毒塑化剂的案件,令世人震惊.我国某研究所为此开发了一种用来检测塑化剂的新试剂,把500组添加了该试剂的食品与另外500组未添加该试剂的食品作比较,提出假设弘:“这种试剂不能起到检测出塑化剂的作用”,并计算出635)=0. 01.对此,四名同学做出了以下的判断:P:有99%的把握认为“这种试剂能起到检测出塑化的作用”;q:随意抽出一组食品,它有99%的可能性添加了塑化剂;z、:这种试剂能检测出塑化剂的有效率为99%;s:这种试剂能检测出塑化剂的有效率为1%.则下列命题中为真命题的是()A. p/\qB.絲pf\qC.(綁门/\繍g)/\ (八/s)D・(pV 1^) A (^J s)答案D解析提出假设拄“这种试剂不能起到检测出塑化剂的作用”,并计算出戶(於26. 635)=0.01,因此,在一定程度上说明假设不合理,我们就有99%的把握拒绝假设.由题设可知命题刀,厂为真命题,q, s为假命题,依据复合命题的真值表可知D 为真命题.二、填空题7.(2013 •湖北)从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.(1) ________________________ 直方图屮x的值为;(2) ___________________________________________________ 在这些用户中,用电量落在区间[100, 250)内的户数为__________________________________ .答案(1)0.004 4 (2) 70解析(1)(0.002 4+0. 003 6 + 0. 006 0+x+0. 002 4 + 0. 001 2) X50 = l,・・」= 0.004 4.(2)(0. 003 6 + 0. 004 4+0. 006 0)X50X100=70.8.下表提供了某厂节能减排技术改造后在生产/产品过程屮记录的,产量*吨)与相应的生产能耗y(吨)的几组对应数据:根据上表提供的数据,求出F 关于x 的线性回归方程为y=0.7%+0.35,那么表中广的 值为 . 答案3解析二•样本点屮心为(4.5,耳勺, ・・・斗二=0. 7X4. 5+0. 35,解得 t='3.9. 某校高三考生参加某高校自主招生面试时,五位评委给分如下:9. 0 9. 18.9 9.2 8.8则五位评委给分的方差为 ________ . 答案0.02解析评委给分的平均数为|x (9. 0 + 9. 1 + & 9 + 9. 2 + & 8) =9. 0, □方差为[(9. 0-9. 0)2+ (9. 1 -9. 0)2+ (8. 9-9. 0)2+(9. 2-9. 0)2+ (8. 8-9. 0)2]=50. 1匕~=0. 02. 510. 某校开展“爱我海西、爱我家乡•”摄影比赛,9位评委为参赛作品 A给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分 后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中 的x)无法看清,若 记分员计算无误,则数字x 应该是 __________ . 答案1"4, •严+ 刖 + 92 + 9吁92 + 9++90 = 9], •I /=1・三、解答题11. (2013 •陕西)有7位歌手(1至7号)参加一场歌唱比赛,由500名大众评委现场投票决定歌手名次,根据年龄将大众评委分为五组,各组的人数如下:(1)为了调查评委对7位歌手的支持情况,现用分层抽样方法从各组中抽取若干评委, 其中从〃组中抽取了 6人.请将其余各组抽取的人数填入下表.解析 当心时,叭叭吗畀92 + 91 + 9、字切,(2)在(1)中,若力,〃两组被抽到的评委中各有2人支持1号歌手,现从这两组被抽到的评委屮分别任选1人,求这2人都支持1号歌手的概率.解(1)由题设知,分层抽样的抽取比例为6%,所以各组抽取的人数如下表:b\,厶}屮各抽取1人的所有结果为:由以上树状图知所有结果共18种,其中2人都支持1号歌手的冇Si b\,日厶,,观厶4 9共4种,故所求概率7°=—=^.12.(2012 •辽宁)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时I'可的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷” 有10名女性.(1)根据己知条件完成下面的2X2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.0. 050.01 k3. 8416. 635解 ⑴由频率分布直方图可知,在抽収的100人中「体育迷”有25人,从而完成2X2 列联表如下:非体育迷体育迷 合计男 30 15 45 女 45 10 55 合计7525100将2X2列联表中的数据代入公式计算,得100=33 心3. 030.因为3. 030<3. 841,所以我们没有理由认为“体育迷”与性别有关.(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本 事件空间为 Q={@1,戲),仙,3:i) ,(0,辺3),(0,方J , (21, &) , (^2, bl),(臼2, &),(日3, b\),(臼3,Z>2), (bi, &)},其中么表不男性,7 = 1, 2, 3,伤表不女性,j — 1, 2. Q 由10个基本事件组成,而且这些基本事件的出现是等可能的.用ZI 表示“任选2人中,至少有1人是女性”这一事件,则A= {(<<?], Z?l) , (&, bz),(日2, 5),(日2,血),@3, bl) , (t?3, bz) , (Z?l, bl)},事件/7rti 7个基本事件组成,因而P (A )=—附:75X25X45X55。
2020山东新高考数学二轮复习专题突破练20统计与统计案例 Word版含解析
姓名,年级:时间:专题突破练20统计与统计案例1.(2019四川成都二模,理18)为了让税收政策更好地为社会发展服务,国家在修订《中华人民共和国个人所得税法》之后,发布了《个人所得税专项附加扣除暂行办法》,明确“专项附加扣除”就是子女教育、继续教育、大病医疗、住房贷款利息、住房租金、赡养老人等费用,并公布了相应的定额扣除标准,决定自2019年1月1日起施行.某企业为了调查内部职员对新个税方案的满意程度与年龄的关系,通过问卷调查,整理数据得如下2×2列联表:(1)根据列联表,能否有99%的把握认为满意程度与年龄有关?(2)为了帮助年龄在40岁以下的未购房的8名员工解决实际困难,该企业拟按员工贡献积分x(单位:分)给予相应的住房补贴y(单位:元),现有两种补贴方案,方案甲:y=1 000+700x;方案乙:y={3000,0<x≤5,5600,5<x≤10,9000,x>10.已知这8名员工的贡献积分为2分,3分,6分,7分,7分,11分,12分,12分,将采用方案甲比采用方案乙获得更多补贴的员工记为“A类员工".为了解员工对补贴方案的认可度,现从这8名员工中随机抽取4名进行面谈,求恰好抽到3名“A类员工”的概率.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:2。
下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图。
为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①;y ^=-30。
4+13。
5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t 。
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由。
2020—2021年最新高考总复习数学二轮复习统计与统计案例专题强化练习题.docx
第一部分一19一、选择题1.(2015·北京文,4)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )类别人数老年教师900中年教师1 800青年教师1 600合计4 300A.90 B.100 C.180 D.300 [答案] C[解析]由题意,总体中青年教师与老年教师比例为1 600 900=169;设样本中老年教师的人数为x,由分层抽样的性质可得总体与样本中青年教师与老年教师的比例相等,即320x=169,解得x=180.[方法点拨] 解决抽样问题,首先要深刻理解各种抽样方法的特点和适用范围,如分层抽样,适用于数目较多且各部分之间具有明显差异的总体.其次要抓住无论哪种抽样方法,每一个个体被抽到的概率都等于样本容量与总体容量的比值.2.(2015·湖南文,2)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )A.3 B.4C.5 D.6[答案] B[解析]根据茎叶图中的数据得:成绩在区间[139,151]上的运动员人数是20,用系统抽样方法从35人中抽取7人,成绩在区间[139,151]上的运动员应抽取7×2035=4(人),故选B .[方法点拨] 1.三种抽样方法的比较 类别 共同点 各自特点 相互联系 适用范围简单 随机 抽样抽样过 程中每 个个体 被抽取 的概率相等 从总体中逐个抽取总体中的个体数较少 系统 抽样 将总体均分成几部分,按事先确定的规则在各部分抽取 在起始部分抽样时采用简单随机抽样 总体中的个体数较多分层 抽样将总体分成几层,分层进行抽取分层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成2.当总体数N 不能被样本容量整除,用系统抽样法剔除多余个体时,必须随机抽样.3.(文)已知x 、y 的取值如下表所示:x134y 0.9 1.9 3.2 4.4从散点图分析,y 与x 线性相关,且y ^=0.8x +a ,则a =( )A.0.8 B.1 C.1.2 D.1.5 [答案] B[解析]x=0+1+3+44=2,y=0.9+1.9+3.2+4.44=2.6,又因为回归直线y^=0.8x+a过样本中心点(2,2.6)所以2.6=0.8×2+a,解得a=1.(理)(2015·福建理,4)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元) 8.2 8.6 10.0 11.3 11.9支出y(万元) 6.2 7.5 8.0 8.5 9.8根据上表可得回归直线方程y^=b^x+a^,其中b^=0.76,a^=y -b^x.据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11.4万元B.11.8万元C.12.0万元D.12.2万元[答案] B[解析]考查线性回归方程.由已知得x=8.2+8.6+10.0+11.3+11.95=10(万元),y=6.2+7.5+8.0+8.5+9.85=8(万元),故a^=8-0.76×10=0.4.所以回归直线方程为y ^=0.76x +0.4,社区一户年收入为15万元家庭年支出为y ^=0.76×15+0.4=11.8(万元),故选B .[方法点拨] 1.要熟记用最小二乘法求回归直线的方程的系数公式.设线性回归方程为y ^=b ^x +a ^,则⎩⎪⎪⎨⎪⎪⎧b ^=∑i =1n(x i-x -)(y i-y -)∑i =1n(x i-x -)2=∑i =1nx i y i-n x -y -∑i =1nx 2i-n x -2a ^=y --b ^x-.2.回归直线一定经过样本的中心点(x -,y -),据此性质可以解决有关的计算问题.4.(文)(2015·安徽理,6)若样本数据x 1,x 2,…,x 10的标准差为8,则数据2x 1-1,2x 2-1,…,2x 10-1的标准差为( )A .8B .15C .16D .32[答案] C[解析] 考查样本的方差与标准差的应用.设样本数据x 1,x 2,…,x 10的标准差为D (X ),则D (X )=8,即方差D(X)=64,而数据2x 1-1,2x 2-1,…,2x 10-1的方差D(2X-1)=22D(X)=22×64,所以其标准差为22×64=16.故选C.(理)等差数列x1,x2,x3,…,x9的公差为1,若以上述数据x1,x2,x3,…,x9为样本,则此样本的方差为( )A.203B.103C.60 D.30[答案] A[解析]令等差数列为1,2,3,…,9,则样本的平均值x=5,∴S2=19[(1-5)2+(2-5)2+…+(9-5)2]=609=203.[方法点拨] 平均数与方差样本数据的平均数x-=1n(x1+x2+…+x n).方差s2=1n[(x1-x-)2+(x2-x-)2+…+(x n-x-)2].注意:(1)现实中总体所包含的个体数往往较多,总体的平均数与标准差、方差是不知道(或不可求)的,所以我们通常用样本的平均数与标准差、方差来估计总体的平均数与标准差、方差.(2)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散(波动)程度越大,越不稳定.5.(文)(2015·河北邯郸市一模)某班的一次数学考试后,按学号统计前20名同学的考试成绩如茎叶图所示,则该样本数据的中位数为( )A.74.5 B.75 C.75.5 D.76 [答案] C[解析]中位数为75+762=75.5.(理)(2015·河南省高考适应性测试)某中学为了检验1000名在校高三学生对函数模块掌握的情况,进行了一次测试,并把成绩进行统计,得到样本频率分布直方图如下图所示,则考试成绩的众数大约为( )A.55 B.65C.75 D.85[答案] C[解析]最高小矩形中点的横坐标75为众数.[方法点拨] 1.茎叶图当数据有两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图.当数据有三位有效数字,前两位相对比较集中时,常以前两位为茎,第三位(个位)为叶(其余类推).2.样本的数字特征(1)众数在样本数据中,频率分布最大值所对应的样本数据(或出现次数最多的那个数据).(2)中位数样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取当中两个数据的平均数作为中位数.3.求中位数、平均数、方差主要依据公式进行计算.4.在频率分布直方图中,平均数的估计值等于每个小矩形的面积乘以小矩形底边中点横坐标之和;在中位数的估计值两侧直方图的面积相等;最高小矩形中点对应数据为这组数据的众数.6.(文)在样本频率分布直方图中,共有五个小长方形,这五个小长方形的面积由小到大成等差数列{a n}.已知a2=2a1,且样本容量为300,则小长方形面积最大的一组的频数为( )A .100B .120C .150D . 200[答案] A[解析] 设公差为d ,则a 1+d =2a 1,∴a 1=d ,∴d +2d +3d +4d +5d =1,∴d =115,∴面积最大的一组的频率等于115×5=13.∴小长方形面积最大的一组的频数为300×13=100.(理)某电视传媒公司为了了解某类体育节目的收视情况,随机抽取了100名观众进行调查,如图是根据调查结果绘制的观众日均收看该类体育节目时间的频率分布直方图,其中收看时间分组区间是:[0,10),[10,20),[20,30),[30,40),[40,50),[50,60].将日均收看该类体育节目时间不低于40分钟的观众称为“体育迷”,则图中x 的值为( )A .0.01B .0.02C .0.03D .0.04[答案] A[解析]由题设可知(0.005+x+0.012+0.020+0.025+0.028)×10=1,解得x=0.01,选A.[方法点拨] 1.在频率分布直方图中:①各小矩形的面积表示相应各组的频率,各小矩形的高=频率;②各小矩形面积之和等于1;③中位数左右两侧的直方图组距面积相等,因此可以估计其近似值.2.准确理解给出图表及已知条件中数据的含义是解决统计问题的关键.7.(文)(2015·湖北文,4)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关[答案] C[解析]因为变量x和y满足关系y=-0.1x+1,其中-0.1<0,所以x与y成负相关;又因为变量y与z正相关,不妨设z=ky+b(k>0),则将y=-0.1x+1代入即可得到:z=k(-0.1x+1)+b=-0.1kx+(k+b),所以-0.1k<0,所以x与z负相关,综上可知,应选C.(理)(2015·新课标Ⅱ理,3)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关[答案] D[解析]考查正、负相关及对柱形图的理解.由柱形图得,从2006年以来,我国二氧化硫排放量呈下降趋势,故年排放量与年份负相关,故选D.8.(文)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了8次试验,收集数据如下:零件数x(个) 10 20 30 40 50 60 70 80加工时间62 68 75 81 89 95 102 108y(min)设回归方程为y=bx+a,则点(a,b)在直线x+45y-10=0的( )A.左上方B.左下方C.右上方D.右下方[答案] C[解析]∵x-=45,y-=85,∴a+45b=85,∴a+45b-10>0,故点(a,b)在直线x+45y-10=0的右上方,故选C.(理)(2014·沈阳市质检)某高校进行自主招生,先从报名者中筛选出400人参加笔试,再按笔试成绩择优选出100人参加面试.现随机调查了24名笔试者的成绩,如下表所示:分数[60,65) [65,70) [70,75) [75,80) [80,85) [85,90) 段人数 2 3 4 9 5 1据此估计允许参加面试的分数线大约是( )A.75 B.80C.85 D.90[答案] B[解析]由题可知,在24名笔试者中应选出6人参加面试.由表可得面试分数线大约为80.故选B.二、填空题9.10名工人某天生产同一零件,生产的件数分别是10,12,14,14,14,15,15,16,16,17,设这10个数的中位数为a ,众数为b ,则a -b =________.[答案] 0.5[解析] 从数据中可以看出,众数b =14,且中位数a =14+152=14.5, ∴a -b =14.5-14=0.5.10.(文)为了解某校高三学生身体状况,用分层抽样的方法抽取部分男生和女生的体重,将男生体重数据整理后,画出了频率分布直方图,已知图中从左到右前三个小组频率之比为123,第二小组频数为12,若全校男、女生比例为32,则全校抽取学生数为________.[答案] 80[解析] 第四小组和第五小组的频率之和是5×(0.0125+0.0375)=0.25,故前三个小组的频率之和是0.75,则第二小组的频率是0.25,则抽取的男生人数是12÷0.25=48人,抽取的女生人数是48×23=32人,全校共抽取80人. (理)为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据,已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________.[答案] 10[解析] 设5个班级中参加的人数分别为x 1,x 2,x 3,x 4,x 5,则x 1+x 2+x 3+x 4+x 55=7, (x 1-7)2+(x 2-7)2+(x 3-7)2+(x 4-7)2+(x 5-7)25=4,即5个整数平方和为20,x 1,x 2,x 3,x 4,x 5这5个数中最大数比7大,但不能超过10,因此最大为10,平方和20=0+1+1+9+9=(7-7)2+(8-7)2+(6-7)2+(10-7)2+(4-7)2.因此参加的人数为4,6,7,8,10,故最大值为10,最小值为4.三、解答题11.(文)(2015·山西太原市模拟)某网络广告A 公司计划从甲、乙两个网站选择一个网站拓展广告业务,为此A 公司随机抽取了甲、乙两个网站某月中10天的日访问量n(单位:万次),整理后得到如下茎叶图,已知A 公司要从网站日访问量的平均值和稳定性两方面进行考量选择.(1)请说明A公司应选择哪个网站;(2)现将抽取的样本分布近似看作总体分布,A公司根据所选网站的日访问量n进行付费,其付费标准如下:选定网站的日访问量n(单位:万次) A公司的付费标准(单位:元/日)n<25 50025≤n≤35 700n>35 1000求A公司每月(按30天计)应付给选定网站的费用S.[解析](1)由茎叶图可知x甲=(15+24+28+25+30+36+30+32+35+45)÷10=30,S2甲=110×[(15-30)2+(24-30)2+(28-30)2+(25-30)2+(30-30)2+(36-30)2+(30-30)2+(32-30)2+(35-30)2+(45-30)2]=58.x乙=(18+25+22+24+32+38+30+36+35+40)÷10=30,S2乙=110×[(18-30)2+(25-30)2+(22-30)2+(24-30)2+(32-30)2+(38-30)2+(30-30)2+(36-30)2+(35-30)2+(40-30)2]=49.8∵x甲=x乙,S2甲>S2乙,∴A公司应选择乙网站;(2)由(1)得A公司应选择乙网站,由题意可知乙网站日访问量n<25的概率为0.3,日访问量25≤n≤35的概率为0.4,日访问量n>35的概率为0.3,∴A公司每月应付给乙网站的费用S=30×(500×0.3+700×0.4+1000×0.3)=21900元.(理)(2015·郑州市质检)最新高考改革方案已在上海和江苏开始实施,某教育机构为了解我省广大师生对新高考改革方案的看法,对某市部分学校500名师生进行调查,统计结果如下:赞成改革不赞成改革无所谓教师120 y 40 学生x z 130在全体师生中随机抽取1名“赞成改革”的人是学生的概率为0.3,且z=2y.(1)现从全部500名师生中用分层抽样的方法抽取50名进行问卷调查,则应抽取“不赞成改革”的教师和学生人数各是多少?(2)在(1)中所抽取的“不赞成改革”的人中,随机选出三人进行座谈,求至少有一名教师被选出的概率.[解析](1) 由题意x500=0.3,∴x=150,所以y+z=60,因为z=2y,所以y=20,z=40,则应抽取教师人数50 500×20=2,应抽取学生人数50500×40=4.(2)解法1:所抽取的“不赞成改革”的2名教师记为a,b,4名学生记为1,2,3,4,随机选出三人的不同选法有(a,b,1),(a,b,2),(a,b,3),(a,b,4),(a,1,2),(a,1,3),(a,1,4),(a,2,3),(a,2,4),(a,3,4),(b,1,2),(b,1,3),(b,1,4),(b,2,3),(b,2,4),(b,3,4),(1,2,3),(1,2,4),(1,3,4),(2,3,4),共20种,至少有一名教师的选法有(a,b,1),(a,b,2),(a,b,3),(a,b,4),(a,1,2),(a,1,3),(a,1,4),(a,2,3),(a,2,4),(a,3,4),(b,1,2),(b,1,3),(b,1,4),(b,2,3),(b,2,4),(b,3,4)共16种,至少有一名教师被选出的概率p=1620=45.解法2:抽取的“不赞成改革”的人中,教师2人,学生4人共6人,从中任取3人,有C36种取法,其中至少有一名教师的取法有C36-C34种,故所求概率P=C36-C34C36=45.12.(文)某个团购网站为了更好地满足消费者需求,对在其网站发布的团购产品展开了用户调查,每个用户在使用了团购产品后可以对该产品进行打分,最高分是10分.上个月该网站共卖出了100份团购产品,所有用户打分的平均分作为该产品的参考分值,将这些产品按照得分分成以下几组:第一组[0,2),第二组[2,4),第三组[4,6),第四组[6,8),第五组[8,10],得到的频率分布直方图如图所示.(1)分别求第三,四,五组的频率;(2)该网站在得分较高的第三,四,五组中用分层抽样的方法抽取了6个产品作为下个月团购的特惠产品,某人决定在这6个产品中随机抽取2个购买,求他抽到的两个产品均来自第三组的概率.[解析](1)第三组的频率是0.150×2=0.3;第四组的频率是0.100×2=0.2;第五组的频率是0.050×2=0.1(2)设“抽到的两个产品均来自第三组”为事件A,由题意可知,从第三、四、五组中分别抽取3个,2个,1个.不妨设第三组抽到的是A1,A2,A3;第四组抽到的是B1,B2;第五组抽到的是C1,所含基本事件总数为:{A1,A2},{A1,A3},{A2,A3},{A1,B1},{A1,B2},{A1,C1},{A2,B1},{A2,B2},{A2,C1},{A3,B1},{A3,B2},{A3,C1},{B1,B2},{B1,C1},{B2,C1}所以P(A)=315=15.(理)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:甲82 81 79 78 95 88 93 84乙92 95 80 75 83 80 90 85(1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由;(3)若将频率视为概率,对甲同学在今后的3次数学竞赛成绩进行预测,记这3次成绩中高于80分的次数为ξ,求ξ的分布列及数学期望E(ξ).[解析](1)作出茎叶图如下:甲乙9 8 7 58 4 21 80 0 355 3 9 0 2 5 (2)派甲参赛比较合适,理由如下:x-甲=18(70×2+80×4+90×2+8+9+1+2+4+8+3+5)=85x-乙=18(70×1+80×4+90×3+5+0+0+3+5+0+2+5)=85.S2甲=18[(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88-85)2+(93-85)2+(95-85)2]=35.5S2乙=18[(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90-85)2+(92-85)2+(95-85)2]=41∵x-甲=x-乙,S2甲<S2乙,∴甲的成绩较稳定,派甲参赛比较合适.注:本小题的结论及理由均不唯一,如果考生能从统计学的角度分析,给出其他合理回答,同样给分:如:从统计的角度看,甲获得85分以上(含85分)的概率P1=38乙获得85分以上(含85分)的概率为P2=48=12∵P 2>P 1,∴派乙参赛比较合适.(3)记“甲同学在一次数学竞赛中成绩高于80分”为事件A ,则P(A)=68=34,随机变量ξ的分布列为ξ1 2 3 P 16496427642764E(ξ)=0×164+1×964+2×2764+3×2764=94.(或E(ξ)=np =3×34=94)13.(文)(2015·邯郸市一模)某市教育局邀请教育专家深入该市多所中小学,开展听课、访谈及随堂检测等活动,他们把收集到的180节课分为三类课堂教学模式,教师主讲的为A 模式,少数学生参与的为B 模式,多数学生参与的为C 模式,A 、B 、C 三类课的节数比例为321.(1)为便于研究分析,教育专家将A 模式称为传统课堂模式,B 、C 统称为新课堂模式,根据随堂检测结果,把课堂教学效率分为高效和非高效,根据检测结果统计得到如下2×2列联表(单位:节)高效 非高效 总计 新课堂模603090式传统课堂模式40 50 90总计100 80 180请根据统计数据回答:有没有99%的把握认为课堂教学效率与教学模式有关?并说明理由.(2)教育专家采用分层抽样的方法从收集到的180节课中选出12节课作为样本进行研究,并从样本中的B模式和C模式课堂中随机抽取2节课,求至少有一节课为C模式课堂的概率.参考临界值有:P(K2≥k0) 0.10 0.05 0.0250.010.0050.001k02.7063.8415.0246.6357.87910.828参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.[解析](1)由列联表中的统计数据计算随机变量K2的观测值为:∵K2=180(60×50-40×30)2(60+40)(30+50)(60+30)(40+50)=9>6.635 由临界值表P(k2≥6.635)≈0.010,∴有99%的把握认为课堂效率与教学模式有关.(2)样本中的B模式课堂和C模式课堂分别是4节和2节.分别记为B1、B2、B3、B4、C1、C2,从中取出2节课共有15种情况:(C1,B1),(C1,B2),(C1,B3),(C1,B4),(C2,B1),(C2,B2),(C2,B3),(C2,B4),(C1,C2),(B1,B2),(B1,B3),(B1,B4),(B2,B3),(B2,B4),(B3,B4)至少有一节课为C模式课堂的事件为(C1,B1),(C1,B2),(C1,B3),(C1,B4),(C2,B1),(C2,B2),(C2,B3),(C2,B4),(C1,C2)共9种∴至少有一节课为C模式课堂的概率为915=3 5.(理)(2015·辽宁葫芦岛市一模)为了调查学生星期天晚上学习时间利用问题,某校从高二年级1 000名学生(其中走读生450名,住宿生550名)中,采用分层抽样的方法抽取n名学生进行问卷调查.根据问卷取得了这n名同学每天晚上学习时间(单位:分钟)的数据,按照以下区间分为八组①[0,30),②[30,60),③[60,90),④[90,120),⑤[120,150),⑥[150,180),⑦[180,210),⑧[210,240],得到频率分布直方图如图.已知抽取的学生中星期天晚上学习时间少于60分钟的人数为5人.(1)求n的值并补全频率分布直方图;(2)如果把“学生晚上学习时间达到两小时”作为是否充分利用时间的标准,对抽取的n名学生,完成下列2×2列联表:利用时间充分利用时间不充分总计走读生住宿生10总计据此资料,你是否有95%的把握认为学生“利用时间是否充分”与走读、住宿有关?(3)若在第①组、第②组、第⑧组中共抽出3人调查影响有效利用时间的原因,记抽到“学习时间少于60分钟”的学生人数为X,求X的分布列及期望.参考公式:K2=n(n11n22-n12n21)2 n1+n2+n+1n+2[解析] (1)设第i 组的频率为P i (i =1,2,…,8),由图可知:P 1=11500×30=2100, P 2=11000×30=3100∴学习时间少于60分钟的频率为P 1+P 2=120由题意:n ×120=5,∴n =100.又P 3=1375×30=8100, P 5=1100×30=30100,P 6=1120×30=25100,P 7=1200×30=15100, P 8=1600×30=5100, ∴P 4=1-(P 1+P 2+P 3+P 5+P 6+P 7+P 8)=325.∴第④组的高度为:h =325×130=1250频率分布直方图如图:(注:未标明高度1/250扣1分)(2)由频率分布直方图可知,在抽取的100人中,“走读生”有45人,“住宿生”有55人,其中“住宿生”中利用时间不充分的有10人,从而走读生中利用时间不充分的有25-10=15人,利用时间充分的有45-15=30人,由此可得2×2列联表如下:利用时间充分利用时间不充分总计走读生30 15 45住宿生45 10 55总计75 25 100 将2×2列联表中的数据代入公式计算,得K2=n(n11n22-n12n21)2n1+n2+n+1n+2=100×(30×10-45×15)275×25×45×55=10033≈3.030因为3.030<3.841,所以没有95%的把握认为学生“利用时间是否充分”与走读、住宿有关(3)由(1)知:第①组2人,第②组3人,第⑧组5人,总计10人,则X的所有可能取值为0,1,2,3P(X=i)=C i5C3-i5C310(i=0,1,2,3)∴P(X=0)=C05C35C310=10120=112,P(X=1)=C15C25C310=50120=512,P(X=2)=C25C15C310=50120=512,P(X=3)=C35C05C310=10120=112∴X的分布列为:X 0 1 2 3 P 112512512112∴E(X)=0×112+1×512+2×512+3×112=1812=32(或由超几何分布的期望计算公式EX =n ×M N =3×510=32)14.为加强中学生实践、创新能力和团队精神的培养,促进教育教学改革,郑州市教育局举办了全市中学生创新知识竞赛.某校举行选拔赛,共有200名学生参加,为了解成绩情况,从中选取50名学生的成绩(得分均为整数,满分为100分)进行统计.请你根据尚未完成的频率分布表,解答下列问题:分组 频数 频率一60.5~70.5 a0.26二 70.5~80.5 15 c三 80.5~90.5 18 0.36四 90.5~100.5 b d 合50e计(1)若用系统抽样的方法抽取50个样本,现将所有学生随机地编号为000,001,002,…,199,试写出第二组第一位学生的编号;(2)求出a、b、c、d、e的值(直接写出结果),并作出频率分布直方图;(3)若成绩在85.5~95.5分的学生为二等奖,问参赛学生中获得二等奖的学生约为多少人.[解析](1)004(2)a,b,c,d,e的值分别为13,4,0.30,0.08,1.频率分布直方图如下:(3)由样本中成绩在80.5~90.5的频数为18,成绩在90.5~100.5的频数为4,可估计成绩在85.5~95.5的人数为11人,故获得二等奖的学生约为20050×11=44人.。
新高考数学(理)二轮复习专题专练:专题七_第三讲统计、统计案例(含答案解析)
专题七概率与统计、推理与证明、算法初步、框图、复数第三讲统计、统计事例一、选择题1.以下说法:①一组数据不行能有两个众数;②一组数据的方差一定是正数;③一组数据中的每个数据都加上或减去同一常数后,方差恒不变;④在频次散布直方图中,每个小长方形的面积等于相应小组的频次.此中错误的个数是()A.0 个B.1 个C.2 个D.3 个分析:①②错误,一组数据中能够有多个众数,故①错误;一组数据的方差能够为零,故②错误.答案:C2.某班 50 名学生在一次百米测试中,成绩所有介于13 秒与 18 秒之间,将测试结果分红五组:每一组 [13 ,14);第二组 [14 ,15),,第五组 [17 ,18].以下图是按上述分组方法获得的频次散布直方图,若成绩大于或等于 14 秒且小于 16 秒认为优秀,则该班在此次百米测试中成绩优秀的人数是()A .25B.26C.27D. 28答案: C3.在研究某种新药对鸡瘟的防治成效问题时,获得了以下数据:活鸡数死亡数共计新药13218150比较11535150共计24753300以下结论中正确的一项为哪一项 ()A .有 95%的掌握认为新药对防治鸡瘟有效B .有 99%的掌握认为新药对防治鸡瘟有效C.有 99.9%的掌握认为新药对防治鸡瘟有效D.没有充足凭证显示新药对防治鸡瘟有效分析: K22300 ×(132 ×35-115 ×18)2(χ≈ 6.623.)=247× 53×150× 150由于 6.623> 3.841,因此有95%的掌握认为新药防治鸡瘟有效.答案: A4. (2014 重·庆卷 )已知变量 x 与 y 正有关,且由观察数据算得样本均匀数--=x= 3, y3.5,则由该观察的数据算得的线性回归方程可能是()^= 0.4x+ 2.3^= 2x-2.4A.yB.y^=- 2x+ 9.5^+ 4.4C.yD.y =- 0.3x分析:由于变量x 与 y 正有关,因此清除选项C、 D,又由于回归直线必过样本中心点 (3, 3.5),代入查验知,只有直线 y= 0.4x+ 2.3 过点 (3 ,3.5).应选 A.答案: A5.以下图表示甲、乙两名篮球运动员每场竞赛得分状况的茎叶图,则甲和乙得分的中位数的和是 ()A .56 分B.57 分C.58 分D.59 分分析:由茎叶图知甲的中位数是32,乙的中位数是25,故甲,乙得分的中位数的和是 57.答案: B6.在样本的频次散布直方图中,一共有m(m≥ 3)个小矩形,第3 个小矩形的面积等于其他m- 1 个小矩形面积之和的14,且样本容量为100,则第 3 组的频数是()A .0.2B.25C. 20 D .以上都不正确分析:第 3 组的频次是15,样本容量为100,1∴第 3 组的频数为100×= 20.5答案: C二、填空题7.某校甲、乙两个班级各有 5 名编号为1, 2, 3, 4,5 的学生进行投篮练习,每人投 10 次,投中的次数见下表:学生 1 号 2 号 3 号 4 号 5 号甲班67787乙班67679则以上两组数据的方差中较小的一个为s2= ________.分析:考察统计中的均匀值与方差的运算.甲班的方差较小,数据的均匀值为7,2( 6-7)2+ 02+ 02+( 8- 7)2+ 022故方差 s == .55 2答案:58.以下是某厂 1~ 4 月份用水量 (单位:百吨 )的一组数据:月份 x1234用水量 y 4.543 2.5由其散点图知,用水量 y 与月份 x 之间有较好的线性有关关系,其线性回归方程是^ y=-0.7x + a,则 a=________.分析: x=2.5, y=3.5,-∴ a= y- b x = 3.5- (- 0.7) ×2.5= 5.25.答案: 5.25三、解答题9.某班主任对全班50 名学生学习踊跃性和对待班级工作的态度进行了检查,统计数据以下表所示:踊跃参加班不太主动参加班级工共计级工作作学习踊跃性高18725学习踊跃性一般61925共计242650(1)假如随机抽查这个班的一名学生,那么抽到踊跃参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习踊跃性一般的学生的概率是多少?(2)试运用独立性查验的思想方法剖析:学生的学习踊跃性与对待班级工作的态度能否有关系?并说明原因.( 参照下表 )22χP[K () ≥k 0.500.400.250.150.100.050.025 0.010 0.005 0.001]k0.4550.708 1.323 2.072 2.706 3.841 5.024 6.63510.82 7.8798分析: (1)踊跃参加班级工作的学生有24 人,总人数为50 人,概率为24=12;不太主5025动参加班级工作且学习踊跃性一般的学生有19 人,概率为19 50 .2250×(18×19- 6×7)2≈11.5,∵ K 22(χ= 150(χ的掌握认为(2)K)=25×25× 24×2613)> 6.635,∴有 99%学习踊跃性与对待班级工作的态度有关系.10.某良种培养基地正在培养一种小麦新品种 A ,将其与原有的一个优秀品种 B 进行比较试验,两种小麦各样植了25 亩,所得亩产数据(单位:千克 )以下: .品种 A :357, 359, 367, 368, 375, 388, 392, 399, 400, 405, 412, 414, 415,421, 423,423, 427, 430, 430, 434, 443, 445, 445, 451, 454.品种 B : 363, 371, 374, 383, 385, 386, 391, 392, 394, 394, 395, 397, 397,400, 401,401, 403, 406, 407, 410, 412, 415, 416, 422, 430.(1)画出茎叶图.(2)用茎叶图办理现有的数据,有什么长处?(3)察看茎叶图,对品种 A 与 B 的亩产量及其稳固性进行比较,写出统计结论.分析: (1)茎叶图以以下图所示:(2) 用茎叶图办理现有的数据不单能够看出数据的散布状况,并且能够看出每组中的具体数据.(3)经过察看茎叶图,能够发现品种 A 的均匀每亩产量为 411.1 千克,品种 B 的均匀亩产量为397.8 千克.由此可知,品种 A 的均匀亩产量比品种 B 的均匀亩产量高.但品种A 的亩产量不够稳固,而品种 B 的亩产量比较集中在均匀产量邻近.。
【课堂新坐标】高考数学二轮热点专题突破讲练 第二十讲 统计、统计案例 理(含解析)
第二十讲统计、统计案例1.(抽样方法)(2013·湖南高考)某学校有男、女学生各500名,为了解男、女学生在学习兴趣与业余爱好方面是否存在显著差异,拟从全体学生中抽取100名学生进行调查,则宜采用的抽样方法是( )A.抽签法B.随机数法C.系统抽样法D.分层抽样法【解析】由于是调查男、女学生在学习兴趣与业余爱好方面是否存在差异,因此用分层抽样方法.【答案】 D2.(茎叶图)(2013·重庆高考)以下茎叶图6-3-1记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( ) A.2,5 B.5,5 C.5,8 D.8,8【解析】 由于甲组数据的中位数为15=10+x ,∴x =5. 又乙组数据的平均数为9+15++y +18+245=16.8,∴y =8.∴x ,y 的值分别为5,8. 【答案】 C3.(回归分析)(2013·湖北高考)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578.其中一定不正确...的结论的序号是( ) A .①② B .②③ C .③④ D .①④【解析】 由正负相关性的定义知①④一定不正确. 【答案】 D4.(样本估计总体)(2013·辽宁高考)某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为:[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )图6-3-2A .45B .50C .55D .60【解析】 根据频率分布直方图的特点可知,低于60分的频率是(0.005+0.01)×20=0.3,所以该班的学生人数是150.3=50.【答案】 B5.(独立性检验)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2根据表中数据,得到k =-223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为_____.【解析】 ∵k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.【答案】 5%(1)(2012·山东高考)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( )A .7B .9C .10D .15(2)一支田径队有男女运动员98人,其中男运动员有56人,按男女比例用分层抽样的方法,从全体运动员中抽出一个容量为28的样本,那么应抽取女运动员人数是________.【思路点拨】(1)确定抽样间隔→确定抽样号码→借助等差数列求做问卷B 的人数(2)确定女运动员的人数→按比例抽取【自主解答】 (1)由系统抽样的特点知:抽取号码的间隔为96032=30,抽取的号码依次为9,39,69, (939)落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n 项,显然有729=459+(n -1)×30,解得n =10.所以做问卷B 的有10人.(2)依题意,女运动员有98-56=42(人).设应抽取女运动员x 人,根据分层抽样特点,得x42=2898,解得x=12.【答案】(1)C (2)121.理解三种抽样方法的特征,根据适用范围选择抽样方法进行计算.2.三种抽样方法的异同点变式训练1 (1)(2013·陕西高考)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A.11 B.12 C.13 D.14(2)(2013·合肥模拟)一个社会调查机构就某地居民的月收入调查了10 000人,并根据所得数据画出样本的频率分布直方图(如图6-3-3).为了分析居民的收入与年龄、学历、职业等方面的关系,按下图横轴表示的月收入情况分成六层,再从这10 000人中用分层抽样的方法抽出100人作进一步调查,则在[2 500,3 000)(元)月收入层中应抽出的人数为________.图6-3-3【解析】 (1)抽样间隔为84042=20.设在1,2,…,20中抽取号码x 0(x 0∈[1,20]),在[481,720]之间抽取的号码记为20k +x 0,则481≤20k +x 0≤720,k ∈N *.∴24120≤k +x 020≤36.∵x 020∈⎣⎢⎡⎦⎥⎤120,1,∴k =24,25,26,…,35, ∴k 值共有35-24+1=12(个),即所求人数为12.(2)由直方图可知月收入在[2 500,3 000)的频率为0.000 5×500=0.25,再由分层抽样的特征得100人中在[2 500,3 000)中应该抽出25人.【答案】 (1)B (2)25(2013·惠州质检)某校100名学生期中考试语文成绩的频率分布直方图如图6-3-4所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100].图6-3-4(1)求图中a的值;(2)根据频率分布直方图,估计这100名学生语文成绩的平均分;(3)若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如下表所示,求数学成绩在[50,90)之外的人数.点的横坐标之和即为平均分.(3)求出每个分数段上语文成绩的人数,按比例关系得出相应段上数学成绩的人数,求出数学成绩在[50,90)之外的人数.【自主解答】(1)由频率分布直方图知(2a+0.02+0.03+0.04)×10=1,解得a=0.005.(2)由频率分布直方图知这100名学生语文成绩的平均分为55×0.005×10+65×0.04×10+75×0.03×10+85×0.02×10+95×0.005×10=73(分).(3)由频率分布直方图知语文成绩在[50,60),[60,70),[70,80),[80,90)各分数段的人数依次为0.005×10×100=5,0.04×10×100=40,0.03×10×100=30,0.02×10×100=20.由题中给出的比例关系知数学成绩在上述各分数段的人数依次为5,40×12=20,30×43=40,20×54=25.故数学成绩在[50,90)之外的人数为100-(5+20+40+25)=10.1.本题在求解过程中,常误认为直方图的高是频率而导致计算错误. 2.在频率分布直方图中估计中位数和平均数的方法(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等. (2)平均数:在频率分布直方图中,平均数等于图中每个小矩形面积乘以小矩形底边中点的横坐标之和.3.平均数反映了数据取值的平均水平,标准差、方差描述了一组数据波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.变式训练 2 (2013·安徽高考)为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如图6-3-5.图6-3-5(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为x 1,x 2,估计x 1-x 2的值.【解】 (1)设甲校高三年级学生总人数为n .由题意知30n=0.05,解得n =600.样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级这次联考数学成绩的及格率为1-530=56.(2)设甲、乙两校样本平均数分别为x ′1,x ′2.根据样本茎叶图可知30(x ′1-x ′2)=30x ′1-30x ′2=(7-5)+(55+8-14)+(24-12-65)+(26-24-79)+(22-20)+92=2+49-53-77+2+92=15.因此x ′1-x ′2=0.5.故x 1-x 2的估计值为0.5分.(2013·重庆高考)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110xi y i=184,∑i =1100x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y ^=b ^x +a ^; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y ^=b ^x +a ^中,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,其中x ,y 为样本平均值.【思路点拨】 (1)求x ,y ,代入求b ^,a ^;得回归直线方程;(2)根据回归方程作出判断与预测.【自主解答】 (1)由题意知n =10,x =1n ∑i =1n x i =8010=8,y =1n ∑i =1ny i =2010=2, 又l xx =∑i =1nx 2i -n x 2=720-10×82=80,l xy =∑i =1nx i y i -n x y =184-10×8×2=24,由此得b ^=l xy l xx =2480=0.3,a ^=y -b ^x =2-0.3×8=-0.4.故所求线性回归方程为y ^=0.3x -0.4.(2)由于变量y 的值随x 值的增加而增加(b ^=0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元).1.正确理解计算b ^、a ^的公式和准确的计算,是求线性回归方程的关键. 2.回归直线方程y ^=b ^x +a ^必过样本点中心(x ,y ).3.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.变式训练3 某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【解】 (1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,又b ^=-20,所以a ^=y -b ^x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250.(2)设工厂获得的利润为L元,依题意得L=x(-20x+250)-4(-20x+250)=-20x2+330x-1 000=-20(x-8.25)2+361.25.当且仅当x=8.25时,L取得最大值.故当单价定为8.25元时,工厂可获得最大利润.电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:图6-3-6将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X .若每次抽取的结果是相互独立的,求X 的分布列,期望E (X )和方差D (X ).附:K 2=a +bc +d a +cb +d.【思路点拨】 (1)由频率分布直方图分别求“体育迷”的总人数,男“体育迷”的人数,填2×2列联表,计算K 2并作出判断.(2)X 服从二项分布,利用公式求E (X )和D (X ).【自主解答】 (1)由频率分布直方图,“体育迷”的频率是(0.005+0.020)×10=0.25.∴“体育迷”观众共有100×0.25=25人, 因此,男“体育迷”观众有25-10=15人. 由此可列2×2的列联表如下:将k =n ad -bc 2a +bc +d a +cb +d=-275×25×45×55=10033≈3.030. ∵3.030<3.841.∴我们没有理由认为“体育迷”与性别有关.(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为14.由题意知X ~B (3,14),从而X 的分布列为E (X )=np =3×14=4,D (X )=np (1-p )=3×14×34=916.1.求解本题的关键是利用频率分布直方图提供的信息列2×2列联表.2.解决独立性检验问题的关键是正确作出2×2列联表,然后利用K 2的计算公式求出其观测值,然后对照临界值,作出结论.3.由于X ~B ⎝ ⎛⎭⎪⎫3,14,利用二项分布的性质与计算公式简化运算. 变式训练4 (2013·福建高考)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60)、[60,70)、[70,80)、[80,90)、[90,100]分别加以统计,得到如图所示的频率分布直方图.25周岁以上组25周岁以下组图6-3-7(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?附:K2=n ad-bc2a +b c+d a+c b+d所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),25周岁以下组工人有40×0.05=2(人).∴日平均生产件数不足60件的工人有3+2=5人.从5人中任取2人有n=C25=10种取法.记“至少抽到一名25周岁以下组”为事件A,则A表示“抽到的2人均是25周岁以上组”.∵P(A)=C2310=310=0.3.故P(A)=1-P(A)=1-0.3=0.7.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手60×0.25=15(人),“25周岁以下组”中的生产能手40×0.375=15(人),因此可列2×2的列联表如下:所以得K 2=a +bc +d a +cb +d=-260×40×30×70=2514≈1.79. 因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.从近两年高考命题看,以概率和统计知识为结合点,以生活中的热点问题为背景,较全面的考查了学生用概率统计知识解决实际问题的能力.预测2014年高考仍将以此为载体全面考查学生的应用意识和分析问题的能力.概率与统计交汇问题的求解方法(12分)某班50位学生期中考试数学成绩的频率分布直方图如图6-3-8所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100].图6-3-8(1)求图中x的值;(2)从成绩不低于80分的学生中随机选取2人,该2 人中成绩在90分以上(含90分)的人数记为ξ,求ξ的数学期望.【规范解答】(1)由频率分布直方图知(0.006×3+0.01+x+0.054)×10=1,解得x=0.018.3分(2)由频率分布直方图知成绩不低于80分的学生人数为(0.018+0.006)×10×50=12,成绩在90分以上(含90分)的人数为0.006×10×50=3.5分因此ξ可能取0,1,2三个值.P(ξ=0)=C29C212=611,P(ξ=1)=C19·C13C212=922,P(ξ=2)=C23C212=122.9分ξ的分布列为故E(ξ)=0×611+1×22+2×22=2.12分【阅卷心语】易错提示(1)不能正确运用频率分布直方图求出x的值及有关数据.(2)计算能力差,求错P(ξ=k)(k=0,1,2)的概率,导致错误.(3)解题步骤不规范,没有适当的文字说明.防范措施(1)认真审题,根据题目要求,准确从图表中提取信息.(2)正确找出随机变量ξ的取值,并求出取每一个值的概率,提高计算能力.(3)要注意语言叙述的规范性,解题步骤应清楚、正确、完整,不要漏掉必要说明及避免出现严重跳步现象.1.某地区教育主管部门为了对该地区模拟考试成绩进行分析,抽取了总成绩介于350分到650分之间的10 000名学生成绩,并根据这10 000名学生的总成绩画了样本的频率分布直方图(如图6-3-9),则总成绩在[400,500)内共有( )图6-3-9A .5 000人B .4 500人C .3 250人D .2 500人【解析】 由频率分布直方图可求得a =0.005,故[400,500)对应的频率为(0.005+0.004)×50=0.45,相应的人数为4 500人.【答案】 B图6-3-102.某车间共有12名工人,随机抽取6名,他们某日加工零件个数的茎叶图如图6-3-10所示,其中茎为十位数,叶为个位数.(1)根据茎叶图计算样本均值;(2)日加工零件个数大于样本均值的工人为优秀工人.根据茎叶图推断该车间12名工人中有几名优秀工人?(3)从该车间12名工人中,任取2人,求恰有1名优秀工人的概率.【解】 (1)由茎叶图可知,样本数据为17,19,20,21,25,30,则x =16(17+19+20+21+25+30)=22,故样本均值为22.(2)日加工零件个数大于样本均值的工人有2名,故优秀工人的频率为26=13,该车间12名工人中优秀工人大约有12×13=4(名),故该车间约有4名优秀工人.(3)记“恰有1名优秀工人”为事件A ,其包含的基本事件总数为C 14C 18=32,所有基本事件的总数为C 212=66,由古典概型概率公式,得P (A )=3266=1633.所以恰有1名优秀工人的概率为1633.。
新高考数学复习专题-专题二十 统计与统计案例(原卷版)
专题二十 统计与统计案例一、单选题1.(2021·河南高二月考(文))有下列四个命题:( ) ①在回归分析中,残差的平方和越小,模型的拟合效果越好;②在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适; ③若数据1x ,2x ,…,n x 的平均数为1,则12x ,22x ,…2n x 的平均数为2; ④对分类变量x 与y 的随机变量2K 的观测值k 来说,k 越小,判断“x 与y 有关系”的把握越大.其中真命题的个数为( ) A .1B .2C .3D .42.(2021·全国高二课时练习)若由一个22⨯列联表中的数据计算得2 4.013K =,那么有( )把握认为两个变量有关系.20()P K k ≥ 0.150.10 0.05 0.025 0.010 0.005 0.0010k2.072 2.7063.841 5.024 6.635 7.879 10.828A .95%B .97.5%C .99%D .99.9%第II 卷(非选择题)请点击修改第II 卷的文字说明二、解答题3.(2021·广东汕头市·高三一模)为确保我国如期全面建成小康社会,实现第一个百年奋斗目标打下了坚实的基础.在产业扶贫政策的大力支持下,某玩具厂对原有的生产线进行技术升级,为了更好地对比升级前和升级后的效果,其中甲生产线继续使用旧的生产模式,乙生产线采用新的生产模式.质检部门随机抽检了甲、乙两条生产线的各100件玩具,在抽取的200件玩具中,根据检测结果将它们分为“A ”、“B ”、“C ”三个等级,,A B 等级都是合格品,C 等级是次品,统计结果如表所示:等级ABC频数 100 75 25(表二)合格品 次品 合计 甲 80 乙 5 合计在相关政策扶持下,确保每件合格品都有对口销售渠道,但从安全起见,所有的次品必须由厂家自行销毁.(1)请根据所提供的数据,完成上面的22⨯列联表(表二),并判断是否有99.5%的把握认为产品的合格率与技术升级有关?(2)每件玩具的生产成本为20元,,A B 等级产品的出厂单价分别为m 元、40元.若甲生产线抽检的玩具中有35件为A 等级,用样本的频率估计概率,若进行技术升级后,平均生产一件玩具比技术升级前多盈利12元,则A 等级产品的出产单价为多少元?附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥0.05 0.025 0.010 0.005 0.0010k3.841 5.024 6.635 7.879 10.8284.(2021·河南高二月考(文))某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,得出以下22⨯列联表:积极参加班级工作不太主动参加班级工作总计 学习积极性高 18725 学习积极性一般ab25 总计cd50如果随机抽查该班的一名学生,那么抽到积极参加班级工作的学生的概率是1225. (1)求a ,b ,c ,d 的值.(2)试运用独立性检验的思想方法分析:能否有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系?并说明理由.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:20()P K k ≥0.10 0.05 0.025 0.010 0.005 0.0010k2.7063.841 5.024 6.635 7.879 10.8285.(2021·内蒙古包头市·高三一模(文))某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表: 土地使用面积x (单位:亩) 1 2 3 4 5 管理时间y (单位:月)911142620并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:愿意参与管理不愿意参与管理男性村民 140 60 女性村民40(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:()20P K k ≥0.100 0.050 0.025 0.010 0.0010k2.7063.841 5.024 6.635 10.82848522.02≈.6.(2021·聊城市·山东聊城一中高三一模)已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:综合评价成绩(单位:分) [40,50)[50,60)[60,70)[70,80)[80,90)[90,100)频数 510151055赞成人数4812431(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?综合评价成绩小于80分的人数综合评价成绩不小于80分的人数合计赞成 不赞成 合计(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:P()20Kk ≥0.10 0.050.010 0.005 k 02.7063.8416.6357.8797.(2021·全国高三月考(理))某购物网站统计了,A B 两款手机在2020年7月至11月的总销售量y (单位:百部),得到以下数据: 月份x 7 8 9 10 11 销售量y100120110120200(Ⅰ)已知销售量y 与月份x 满足线性相关关系,求出y 关于x 的线性回归方程,ˆˆˆybx a =+,并预测12月的手机销售量; (Ⅱ)网站数据分析人员发现:,A B 两款手机11月的销售量与顾客性别有关.请填写下面的22⨯列联表,并判断能否有超过99.5%的把握认为“,A B 两款手机11月的销售量与顾客性别有关”?男性顾客女性顾客合计A 款销售量90B 款销售量50合计90参考公式:()()()121niii ni i x x y y b x x ==--=-∑∑,ˆˆay bx =-, ()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:()20P K k ≥ 0.010 0.005 0.0010k6.6357.879 10.8288.(2021·湖北高三月考)近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a x =+dy c x=+建立y 关于x 的回归方程,令s x =,1t x=得到如下数据: xyst10.15109.943.040.16113ni ii s y s y =-⋅∑ 13113i ii t yt y =-⋅∑1322113ik ss =-∑1322113ii tt =-∑1322113ii yy =-∑13.94 -2.1 11.67 0.21 21.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953. (1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374,247.637415.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v u αβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数222211ni i nniii i u vnu vr unu vnv==-⋅=-⋅-∑∑∑.9.(2021·辽宁高三期末(文))2019年4月,中国电信公布了2019年的终端洞察报告,其中,国产手机品牌表现抢眼,统治地位不容置疑.在2018年6—11月上市的新机中,用户最满意机型与用户推荐机型的项目中国产手机优势明显,华为及荣耀手机分别占据不同价位段的榜单第一,OPPO 、vivo 、小米、魅族均有机型占据榜单.在用户满意机型调研项目中,曾经位于神坛地位的苹果手机也仅仅只有iPhoneXR 一款位列第三.最满意度机型TOP3 中国电信大于3500 2500-3499 1500-2499 1000-1499 1000元以下 第一名华为P30 ProvivoiQoo荣耀9X Vivo Z5x华为畅享9e第二名三星S10+荣耀20Pro红米K20ProOPPO A9红米7第三名iPhone XRVivo X27化为 麦芒8华为畅享9plus中兴BladeA7 (1)从上表中“华为(不含荣耀)”和“iPhoneXR ”的5个机型中任取2个,求这两个机型都是华为的概率;(2)测试数据源于消费者的反馈,从反馈信息中随机抽取500个“华为畅享9plus ”消费者,其中来自城市300个,来自农村200个,统计他们对“华为畅想9plus ”的满意情况如下:满意不满意城市 270 30 农村17030根据上表数据,问是否有95%的把握认为消费者是否满意与城市用户还是农村用户有关?(附:()()()()()22n ad bc X a b c d a c b d -=++++;当2 3.841X >时,有95%的把握说事件A与B 有关;当2 6.635X >时,有99%的把握说事件A 与B 有关;当2 3.841X ≤时,认为事件A 与B 是无关的)10.(2021·全国高三其他模拟)在我国,大学生就业压力日益严峻,伴随着政府政策的引导与社会观念的转变,大学生的创业意识与就业方向也悄然发生转变.某大学生在国家提供的税收,担保贷款等多方面的政策扶持下选择加盟某专营店自主创业,该专营店统计了近五年来创收利润数i y (单位:万元)与时间i t (单位:年)的数据,列表如下:i t1 2 3 4 5i y2.4 2.7 4.1 6.4 7.9(1)依据表中给出的数据,是否可用线性回归模型拟合与t 的关系,请计算相关系数r 并加以说明(计算结果精确到0.01).(若0.75r>,则线性相关程度很高,可用线性回归模型拟合)(2)该专营店为吸引顾客,特推出两种促销方案. 方案一:每满500元可减50元;方案二:每满500元可抽奖一次,每次中奖的概率都为25,中奖就可以获得100元现金奖励,假设顾客每次抽奖的结果相互独立.(ⅰ)某位顾客购买了1050元的产品,该顾客选择参加两次抽奖,求该顾客换得100元现金奖励的概率(ⅱ)某位顾客购买了2000元的产品,作为专营店老板,是希望该顾客直接选择方案一返回200元现金,还是选择方案二参加四次抽奖?说明理由.附:相关系数公式:()()()()()()1122221111nnii i ii i nnnniiiii i i i tt y y t yntyr tt yy tt yy ======---=----∑∑∑∑∑∑,参考数据:56.957.547≈,5185.2i i i t y ==∑,()52110i i t t =-=∑,()52122.78i i y y =-∑11.(2021·全国高三其他模拟)人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:xy()3121=-∑ii xx()()311=--∑ii i xx y y()3121=-∑ii xx()3121=-∑ii yy15500 9632 1412000000 683900000 38000 18400参考公式:相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y b x x ==--=-∑∑,ˆˆay bx =-. 12.(2021·甘肃兰州市·高三其他模拟(文))某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度C x ︒时相对应产卵数个数为y 的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a =+和z dx c =+(其中ln z y =)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R 更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程: (方程表示为()y f x =的形式,数据计算结果保留两位小数) xyz81i ii x y =∑81i i i x z =∑821ii x=∑26 72 3.3 11871 757 5722(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害.附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 13.(2021·全国高三月考(文))2020年11月24日我国使用长征五号运载火箭成功发射嫦娥五号月球探测器,12月17日嫦娥五号返回器携带月球样品在预定地区安全着陆,探月工程嫦娥五号任务取得圆满成功.某大学为此举行了与嫦娥系列探测工程有关的知识测试,测试满分为100分,该校某专业的100名大一学生参加了学校举行的测试,记录这100名学生的分数,将数据分成7组; [)[)[]30,40,40,50,,90,100⋯,并整理得到如下频率分布直方图:(1)估计这100名学生测试分数的中位数;(2)把分数不低于80分的称为优秀,已知这100名学生中男生有70人,其中测试优秀的男生有45人,填写下面列联表,并根据列联表判断是否有95%的把握认为测试优秀与性别有关: 男生 女生 优秀 不优秀附:20()P K k ≥0.050 0.010 0.0010k 3.841 6.635 10.828()()()()()22n ad bc K a b c d a c b d -=++++ (3)对于样本中分数在[)[]80,90,90,100的人数,学校准备按比例从这2组中抽取12人,在从这12人中随机抽取3人参与学校有关的宣传活动,记这3人分数不低于90分的学生数为,X 求X 的分布列.14.(2021·江西高三其他模拟(文))某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是:注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?性别 阴性阳性男 女 合计阳性 阴性合计附:()()()()()22n ad bcKa b c d a c b d-=++++.()2P K k≥0.050 0.010 0.001 0k 3.841 6.635 10.82815.(2021·全国高三专题练习(文))在关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展.行动期间,公安交管部门将加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔,汽车驾乘人员不使用安全带的行为,助推养成安全习惯.该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1000名骑行人员中,记录其年龄和是否佩戴头盔情况,得到如下的统计图表:(Ⅰ)估算该市电动自行车骑乘人员的平均年龄;(Ⅱ)根据所给的数据,完成下面的列联表:是否佩戴头盔年龄是否[)20,40[]40,70(Ⅲ)根据(Ⅱ)中的列联表,判断是否有99%把握认为遵守佩戴安全头盔与年龄有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,()2P K k≥0.050 0.010 0.001k 3.841 6.635 10.82816.(2021·全国高三专题练习(文))针对偏远地区因交通不便、消息闭塞导致优质农产品藏在山中无人识的现象,各地区开始尝试将电商扶贫作为精准扶贫的重要措施.为了解电商扶贫的效果,某部门随机就100个贫困地区进行了调查,其当年的电商扶贫年度总投入(单位:万元)及当年人均可支配年收入(单位:元)的贫困地区数目的数据如下表:人均可支配年收入(元)电商扶贫年度总投入(万元)(5000,10000] (10000,15000] (15000,20000] (0,500] 5 3 2(500,1000] 3 21 6(1000,3000) 2 34 24(1)估计该年度内贫困地区人均可支配年收入过万的概率,并求本年度这100个贫困地区的人均可支配年收入的平均值的估计值(同一组数据用该组数据区间的中间值代表);(2)根据所给数据完成下面的列联表,并判断是否有99%的把握认为当地的人均可支配年收入是否过万与当地电商扶贫年度总投入是否超过千万有关.人均可支配年收入≤10000元人均可支配年收入>10000元电商扶贫年度总投入不超过1000万电商扶贫年度总投入超过1000万附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()2P K k ≥0.050 0.01 0.005 k3.8416.6357.87917.(2021·全国高三专题练习(文))为研究男、女生的身高差异,现随机从高三某班选出男生、女生各10人,并测量他们的身高,测量结果如下(单位:厘米): 男:173 178 174 185 170 169 167 164 161 170 女:165 166 156 170 163 162 158 153 169 172(1)根据测量结果完成身高的茎叶图(单位:厘米),并分别求出男、女生身高的平均值;(2)请根据测量结果得到20名学生身高的中位数h (单位:厘米),将男、女生身高不低于h 和低于h 的人数填入下表中,并判断是否有90%的把握认为男、女生身高有差异?(3)若男生身高低于165厘米为偏矮,不低于165厘米且低于175厘米为正常,不低于175厘米为偏高.采用分层抽样的方法从以上男生中抽取5人作为样本.若从样本中任取2人,试求恰有1人身高属于正常的概率.()20P K k ≥ 0.100.05 0.025 0.010 0.005 0.0010k2.7063.8415.0246.6357.879 10.828参照公式:()()()()()22n ad bc k a b c d a c b d -=++++ 18.(2021·全国高三专题练习(文))某生物研究所研发了某种型号的新冠疫苗,为检验该种型号疫苗的效果,研究所将疫苗用在小白鼠身上进行科研实验,得到如下数据:未感染病毒感染病毒 总计未注射疫苗 a 60 m 注射疫苗 b30 n总计11090200从未注射疫苗的小白鼠中任取1只,取到“未感染病毒”的小白鼠的概率为5. (1)能否有99.9%的把握认为注射此疫苗有效?(2)在感染病毒的小白鼠中,按未注射疫苗和注射疫苗的比例抽取6只进行病理分析,然后从这6只小白鼠中随机抽取2只对注射疫苗的情况进行核实,求至少有1只为注射过疫苗的概率.附:()()()()()22n ad bc K a b c d a c b d -=++++. ()2P K k ≥0.05 0.025 0.010 0.005 0.001 k3.8415.0246.6357.87910.82819.(2021·全国高三专题练习(文))某研究部门为了研究气温变化与患流感人数多少之间的关系,在某地随机对50人进行了问卷调查得到如下列表:(附22()()()()()n ad bc K a b c d a c b d -=++++)高于22.5C ︒ 不高于22.5C ︒ 合计 患流感2025不患流感15合计50(1)对上述22⨯列联表进行填空,并判断是否有99%的把握认为患流感与温度有关,说明你的理由;(2)为了了解患流感与年龄的关系,已知某地患有流感的老年、中年、青年的人数分别为108人,72人,36人.按分层抽样的方法随机抽取6人进行问卷调查,再从6人中随机抽取2人进行调查结果对比,求这2人中至少一人是中年人的概率.()2>0.10 0.05 0.025 0.01 P K kk 2.701 3.841 5.024 6.63520.(2021·山东德州市·高三一模)2021年春晚首次采用“云”传播,“云”互动形式,实现隔空连线心意相通,全球华人心连心“云团圆”,共享新春氛围,“云课堂”亦是一种真正完全突破时空限制的全方位互动性学习模式.某市随机抽取200人对“云课堂”倡议的了解情况进行了问卷调查,记Y表示了解,N表示不了解,统计结果如下表所示:(表一)了解情况Y N人数140 60(表二)男女合计Y80N40合计(1)请根据所提供的数据,完成上面的22⨯列联表(表二),并判断是否有99%的把握认为对“云课堂”倡议的了解情况与性别有关系;(2)用样本估计总体,将频率视为概率,在男性市民和女性市民中各随机抽取4人,记“4名男性中恰有3人了解云课堂倡议”的概率为1P,“4名女性中恰有3人了解云课堂倡议”的概率为2P .试求出1P 与2P ,并比较1P 与2P 的大小. 附:临界值参考表的参考公式()20p K K ≥0.10 0.05 0.025 0.010 0.005 0.0010K 2.7063.841 5.024 6.635 7.879 10.828()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++) 21.(2021·吉林长春市·高三二模(理))随着互联网行业、传统行业和实体经济的融合不断加深,互联网对社会经济发展的推动效果日益显著,某大型超市计划在不同的线上销售平台开设网店,为确定开设网店的数量,该超市在对网络上相关店铺做了充分的调查后,得到下列信息,如图所示(其中x 表示开设网店数量,y 表示这x 个分店的年销售额总和),现已知55118850,2000i ii i i x yy ====∑∑,求解下列问题;(1)经判断,可利用线性回归模型拟合y 与x 的关系,求解y 关于x 的回归方程; (2)按照经验,超市每年在网上销售获得的总利润w (单位:万元)满足25140w y x =--,请根据(1)中的线性回归方程,估算该超市在网上开设多少分店时,才能使得总利润最大.参考公式;线性回归方程y bx a =+,其中515221,i ii ii x y nx ya y bxb xnx==-=-=-∑∑22.(2021·河南高三月考(文))2020年初,新冠病毒肆虐.疫情期间,停课不停教学,各学校以网课形式进行教学.教育局抽样对某所学校的高三1000名学生某一周每天学习时间以及考试进行了调查,得如下频数分布表 学习时间(分钟) [)7,7.5[)7.5,8[)8,8.5[)8.5,9[)9,9.5[]9.5,10人数160190200180150120从1000名学生中抽取50名学生,调查学习时间与成绩的关系,得如下二阶列联表学习时间9小时以上(含9小时)学习时间9小时以下合计总分600分以上(含600分) 7 3 10 总分600分以下 17 23 40 合计242650(1)求出第一星期这1000名学生学习时间的中位数;(2)为了解学生们的学习状况,一次考试结束,从全年级随机抽取50人根据学习时间的多少和成绩的是否优秀列成以下列联表计算说明:有没有90%的把握认为总分600分以上和学习时间超过9小时有关附公式及表如下:()()()()()22n ad bc K a b c d a c b d -=++++ ()20P K K ≥ 0.150.10 0.05 0.025 0.010 0.005 0.0010k2.0722.7063.841 5.024 6.635 7.879 10.82823.(2021·全国高三专题练习)垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据()(),1,2,,20i i x y i =⋅⋅⋅,其中i x 和i y 分别表示第i 个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得20180i i x ==∑,2014000i i y ==∑,()202180i i x x=-=∑,()20218000ii y y =-=∑,()()201700i ii x xy y =--=∑.(1)请用相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合; (2)求y 关于x 的线性回归方程,用所求回归方程预测该市10万人口的县城年垃圾产生总量约为多少吨?参考公式:相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑,对于一组具有线性相关关系的数据()(),1,2,3,,i i x y i n =⋅⋅⋅,其回归直线y bx a =+的斜率和截距的最小二乘估计分别为()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-.24.(2021·全国高三专题练习(文))随着冬季的到来,是否应该自觉佩戴口罩成为了人们热议的一个话题.为了调查佩戴口罩的态度与性别是否具有相关性,研究人员作出相应调查,并统计数据如表所示: 认为冬季佩戴口罩十分必要 认为冬季佩戴口罩没有必要 男性 300 200 女性150150(1)判断是否有99.9%的把握认为佩戴口罩的态度与性别有关?(2)若按照分层抽样的方法从男性中随机抽取5人,再从这5人中随机抽取2人,求恰有1人认为冬季佩戴口罩十分必要的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:()20P K k0.100 0.050 0.010 0.001k 2.706 3.841 6.635 10.82825.(2021·全国高三专题练习)在新型冠状病毒疫情期间,某高中学校实施线上教学,为了解线上教学的效果,随机抽取了100名学生对线上教学效果进行评分(满分100分),记低于80的评分为“效果一般”,不低于80分为“效果较好”.(1)请补充完整22⨯列联表;通过计算判断,有没有99%的把握认为线上教学效果评分为“效果较好”与性别有关?效果一般效果较好合计男20女1555合计(2)用(1)中列联表的数据估计全校线上教学的效果,用频率估计概率.从该校学生中任意抽取3人,记所抽取的3人中线上教学“效果较好”的人数为X,求X的分布列和数学期望.附表及公式:()2P K k0.150.100.050.0250.010 0k 2.072 2.706 3.841 5.024 6.635其中()()()()()22n ad bcka b c d a c b d-=++++,n a b c d=+++.26.(2021·全国高三专题练习)近年来,我国的电子商务行业发展迅速,与此同时,相关管理部门建立了针对电商的商品和服务评价系统.现从评价系统中选出200次成功的交易,并对其评价进行统计,对商品的好评率为35,对服务的好评率为710;其中对商品和服务均为好评的有80次(1)是否可以在犯错误概率不超过0.1的前提下,认为商品好评与服务好评有关?(2)若将频率视为概率,某人在该购物平台上进行的4次购物中,设对商品和服务全好评的次数为随机变量X:求对商品和服务全好评的次数X的分布列及其期望.()20P K k 0.15 0.10 0.05 0.025 0.010 0.005 0.0010k2.072 2.7063.841 5.024 6.635 7.879 10.82822()()()()()n ad bc K a b c d a c b d -=++++(其中n a b c d =+++)27.(2021·全国高三专题练习)某校高一年级进行安全知识竞赛(满分为100分),所有学生的成绩都不低于75分,从中抽取100名学生的成绩进行分组调研,第一组[)75,80,第二组[)80,85,,第五组[]95,100(单位:分),得到如下的频率分布直方图.(1)若竞赛成绩不低于85分为优秀,低于85分为非优秀,且成绩优秀的男学生人数为35,成绩非优秀的女学生人数为25,请判断是否有95%的把握认为竞赛成绩的优秀情况与性别有关;(2)用分层抽样方法,在成绩不低于85的学生中抽取6人,再从这6人中随机选3人发言谈体会,设这3人中成绩在[)85,90的人数为ξ,求ξ的分布列与数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.临界值表:()20P K k ≥ 0.10 0.05 0.025 0.01 0.0050k2.7063.841 5.024 6.635 7.87928.(2021·全国高三专题练习)支付宝为人们的生活带来许多便利,为了了解支付宝在某市的使用情况,某公司随机抽取了100名支付宝用户进行调查,得到如下数据: 每周使用支付宝次数 1 2 3 4 5 6及以上 40岁及以下人数 3 3 4 8 7 30 40岁以上人数 4 5 6 6 4 20 合计7810141150(1)如果认为每周使用支付宝超过3次的用户“喜欢使用支付宝”,完成下面22⨯列联表,并判断能否在犯错误概率不超过0.05的前提下,认为是否“喜欢使用支付宝”与年龄有关?不喜欢使用支付宝 喜欢使用支付宝 合计 40岁及以下人数 40岁以上人数 合计(2)每周使用支付宝6次及以上的用户称为“支付宝达人”,视频率为概率,在该市所有“支付宝达人”中,随机抽取3名用户.①求抽取的3名用户中,既有40岁及以下“支付宝达人”又有40岁以上“支付宝达人”的概率;②为了鼓励40岁以上用户使用支付宝,对抽出的40岁以上“支付宝达人”每人奖励500元,记奖励总金额为X (单位:元),求X 的数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥ 0.15 0.10 0.05 0.025 0.010 0.005 0.0010k2.0722.7063.841 5.024 6.635 7.879 10.82829.(2021·全国高三专题练习)2019年4月,江苏省发布了高考综合改革实施方案,试行“312++”高考新模式.为调研新高考模式下,某校学生选择物理或历史与性别是否有。
2020版高考数学二轮复习专题限时集训统计与统计案例文
(1)求图中a的值;(2)估计该次考试的平均分x(同一组中的数据用该组的区间中点值代表);(3)根据已知条件完成下面2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.晋级成功晋级失败合计男16女50合计参考公式:K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+dP(K2≥k)0.400.250.150.100.050.025 k 0.708 1.323 2.072 2.706 3.841 5.024 [解](1)由频率分布直方图中各小长方形面积总和为1,得(2a+0.020+0.030+0.040)×10=1,解得a=0.005.(2)由频率分布直方图知各小组的中点值依次是55,65,75,85,95,对应的频率分别为0.05,0.30,0.40,0.20,0.05,则估计该次考试的平均分为x=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74(分).(3)由频率分布直方图知,晋级成功的频率为0.2+0.05=0.25,故晋级成功的人数为100×0.25=25,填写2×2列联表如下:晋级成功晋级失败合计男163450 女94150 合计2575100K2=n ad-bc2a+b c+d a+c b+d=100×16×41-34×9225×75×50×50≈2.613>2.072,所以有85%的把握认为“晋级成功”与性别有关.题号内容押题依据1饼状图、分布图以统计图表为背景的统计考题是近几年高考中的高频考点,本题考查利用饼状图、分布图进行信息分析,意在考查学生的逻辑推理、数据分析、数学运算核心素养,符合全国卷命题特点2茎叶图、平均数、方差从茎叶图中提取数字特征(如平均数、众数、中位数、方差等)与统计案例综合考查的试题,但它是高考的重要考点,本题考查对茎叶图中的样本数据进行分析,再运用独立性检验方法得出相关数据解决生产中的实际问题,考查学生的逻辑推理、数据分析和数学运算的核心素养【押题1】为了了解现在互联网行业的就业情况,某高校教授组织学生对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图(如图1)和90后从事互联网该产品的质量评价标准规定:鉴定成绩在[90,100)内的产品,质量等级为优秀;鉴定成绩在[80,90)内的产品,质量等级为良好;鉴定成绩在[60,80)内的产品,质量等级为合格.将频率视为概率.(1)完成下面2×2列联表,以产品质量等级是否达到良好以上(含良好)为判断依据,判断能不能在误差不超过0.05的情况下,认为产品等级是否达到良好以上(含良好)与生产产品的机器有关;A机器生产的产品B机器生产的产品合计良好以上(含良好)合格合计(2)已知质量等级为优秀的产品的售价为12元/件,质量等级为良好的产品的售价为10元/件,质量等级为合格的产品的售价为5元/件,A机器每生产10万件的成本为20万元,B 机器每生产10万件的成本为30万元.该工厂决定,按样本数据测算,两种机器分别生产10万件产品,若收益之差达到5万元以上,则淘汰收益低的机器,若收益之差不超过5万元,则保留原来的两台机器.你认为该工厂会怎么做?附:K2=n ad-bc2a+b c+d a+c b+d,P(K2≥k)0.250.150.100.050.010 k 1.323 2.072 2.706 3.841 6.635 [解](1)完成2×2列联表如下.A机器生产的产品B机器生产的产品合计11 / 11 良好以上(含良好)6 12 18 合格14 8 22 合计 20 20 40结合列联表中的数据,可得K 2的观测值k =40×6×8-12×14220×20×18×22=4011≈3.636<3.841.故在误差不超过0.05的情况下,不能认为产品等级是否达到良好以上(含良好)与生产产品的机器有关.(2)由题意得,A 机器每生产10万件产品的利润为10×(12×0.1+10×0.2+5×0.7)-20=47(万元),B 机器每生产10万件产品的利润为10×(12×0.15+10×0.45+5×0.4)-30=53(万元),因为53-47=6(万元),6>5,所以该工厂应该会卖掉A 机器,同时购买一台B 机器.。
教辅-高考数学大二轮专题复习:概率与统计之统计、统计案例
核心知识回顾
热点考向探究
真题VS押题
专题作业
2.某公司生产 A,B,C 三种不同型号的轿车,产量之比依次为 2∶3∶
4,为检验该公司的产品质量,用分层抽样的方法抽取一个容量为 n 的样本,
若样本中 A 种型号的轿车比 B 种型号的轿车少 8 辆,则 n=( )
A.96
B.72
C.48
D.36
答案 B 解析 由题意,得29n-39n=-8,∴n=72.选 B.
中位数为 2 =630(分钟),所以这 8 个月的月平均通话时间的中位数大 小的取值区间为[540,630].故选 D.
核心知识回顾
热点考向探究
真题VS押题
专题作业
3.(2020·山东省泰安市四模)某药厂选取若干名志愿者进行临床试验,
所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,
核心知识回顾热点考向探究真题vs押题专题作业42020天津市河北区二模某班同学进行社会实践对2555岁的人群随机抽取n人进行了生活习惯是否符合低碳观念的调查若生活习惯符合低碳观念的称为低碳族否则称为非低碳族得到如下统计表和各年龄段人数频率分布直方图则图表中的pa的值分别为核心知识回顾热点考向探究真题vs押题专题作业组数分组低碳族的人数占本组的频率第一组253012006第二组3035195p第三组354010005第四组4045a04第五组45503003第六组50551503核心知识回顾热点考向探究真题vs押题专题作业a07920b019540c06560d097580答案c核心知识回顾热点考向探究真题vs押题专题作业解析由题意得n1200600451000a100000350460
核心知识回顾
热点考向探究
统计与统计案例小题突破练-高三数学二轮专题复习
冲刺高考二轮统计与统计案例小题突破练(原卷+答案)一、单项选择题1.已知某地区中小学生人数比例和近视情况分别如图甲和图乙所示,为了了解该地区中小学生的近视形成原因,用分层抽样的方法随机抽取1%的学生进行调查,其中被抽取的小学生有80人,则样本容量和该地区的高中生近视人数分别为() A.200,25 B.200,2 500C.8 000,25 D.8 000,25002.某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:则()A.讲座前问卷答题的正确率的中位数小于70%B.讲座后问卷答题的正确率的平均数大于85%C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差3.国外新冠肺炎疫情形势严峻,国内疫情传播风险加大,为了更好地抗击疫情,国内进一步加大新冠疫苗的接种力度.某制药企业对某种新冠疫苗开展临床接种试验,若使用该疫苗后的抗体呈阳性,则认为该新冠疫苗有效.该企业对参与试验的1 000名受试者的年龄和抗体情况进行统计,结果如下图表所示:年龄频率[20,30)0.20[30,40)0.30[40,50)0.10[50,60)0.20[60,70)0.10[70,80]0.10则下列结论正确的是( )A .在受试者中,50岁以下的人数为700B .在受试者中,抗体呈阳性的人数为800C .受试者的平均年龄为45岁D .受试者的疫苗有效率为80%4.下图是根据某班学生在一次数学考试中的成绩画出的频率分布直方图,则由直方图得到的25%分位数为( )A .66.5B .67C .67.5D .685.已知一组数据:x 1,x 2,x 3的平均数是5,方差是4,则由2x 1+1,2x 2+1,2x 3+1和11 这四个数据组成的新数据组的方差是( )A .16B .14C .12D .116.某新能源汽车销售公司统计了某款汽车行驶里程x (单位:万千米)对应维修保养费用y (单位:万元)的四组数据,这四组数据如下表:行驶里程x /万千米 1 2 4 5 维修保养费用y /万元 0.50 0.90 2.30 2.70若用最小二乘法求得回归直线方程为y ^ =0.58x +a ^,则估计该款汽车行驶里程为6万千米时的维修保养费是( )A .3.34万元B .3.62万元C .3.82万元D .4.02万元7.通过随机询问某中学110名中学生是否爱好跳绳,得到如下列联表:已知χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P (χ2≥10.828)=0.001,根据小概率值α=0.001的χ2独立性检验,以下结论正确的为( )A .爱好跳绳与性别有关B .爱好跳绳与性别有关,这个结论犯错误的概率不超过0.001C .爱好跳绳与性别无关D .爱好跳绳与性别无关,这个结论犯错误的概率不超过0.0018.为研究变量x ,y 的相关关系,收集得到下面五个样本点(x ,y ):x 5 6.5 7 8 8.5 y 9 8 6 4 3若由最小二乘法求得y 关于x 的回归直线方程为y ^ =-1.8x +a ^,则据此计算残差为0的样本点是( )A .(5,9)B .(6.5,8)C .(7,6)D .(8,4)二、多项选择题9.下列统计量中,能度量样本x 1,x 2,…,x n 的离散程度的是( ) A .样本x 1,x 2,…,x n 的标准差 B .样本x 1,x 2,…,x n 的中位数 C .样本x 1,x 2,…,x n 的极差 D .样本x 1,x 2,…,x n 的平均数10.有一组样本数据x 1,x 2,…,x n ,由这组数据得到新样本数据y 1,y 2,…,y n ,其中y i =x i +c (i =1,2,…,n ),c 为非零常数,则( )A .两组样本数据的样本平均数相同B .两组样本数据的样本中位数相同C .两组样本数据的样本标准差相同D .两组样本数据的样本极差相同11.某车间加工某种机器的零件数x 与加工这些零件所花费的时间y 之间的对应数据如下表所示:x /个 10 20 30 40 50 y /min 62 68 75 81 89由表中的数据可得回归直线方程y ^ =b ^x +54.9,则以下结论正确的有( ) A .相关系数r >0B .b ^=0.67C .零件数10,20,30,40,50的中位数是30D .若加工60个零件,则加工时间一定是95.1 min12.小李上班可以选择公交车、自行车两种交通工具,他分别记录了100次坐公交车和骑车所用时间(单位:分钟),得到下列两个频率分布直方图:基于以上统计信息,则( )A .骑车时间的中位数的估计值是22分钟B .骑车时间的众数的估计值是21分钟C .坐公交车时间的中位数的估计值是20分钟D .坐公交车时间的平均数的估计值小于骑车时间的平均数的估计值 三、填空题13.如图是调查某学校高一年级男、女学生是否喜欢徒步运动而得到的等高条形图,阴影部分表示喜欢徒步的频率.已知该年级男生500人、女生400名(假设所有学生都参加了调查),现从所有喜欢徒步的学生中按分层抽样的方法抽取23人,则抽取的男生人数为________.14.为了解某社区居民的2021年家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x (万元) 8.2 8.6 10.0 11.3 11.9 支出y (万元) 6.2 7.5 8.0 t 9.8根据上表可得回归直线方程y ^=0.76x +0.4,则t =________.15.定义一个同学数学成绩优秀的标准为“连续5次数学考试成绩均不低于120分(满分150分)”.现有甲、乙、丙三位同学连续5次数学考试成绩的数据(数据都是正整数)的描述:①甲同学的5个数据的中位数为125,总体均值为128; ②乙同学的5个数据的中位数为127,众数为121;③丙同学的5个数据的众数为125,极差为10,总体均值为125. 则数学成绩一定优秀的同学是________.16.在对某中学高一年级学生每周体育锻炼时间的调查中,采用随机数法,抽取了男生30人,女生20人. 已知男同学每周锻炼时间的平均数为17小时,方差为11;女同学每周锻炼时间的平均数为12小时,方差为16. 依据样本数据,估计本校高一年级学生每周体育锻炼时间的方差为________.参考答案1.解析:由扇形分布图结合分层抽样知识易知样本容量为8040% =200,则样本中高中生的人数为200×25%=50,易知总体的容量为501%=5 000,结合近视率条形图得该地区高中生近视人数为5 000×50%=2 500. 故选B. 答案:B 2.解析:由统计图可知,讲座前这10位社区居民问卷答题的正确率分别为65%,60%,70%,60%,65%,75%,90%,85%,80%,95%.对于A 项,将这10个数据从小到大排列为60%,60%,65%,65%,70%,75%,80%,85%,90%,95%,因此这10个数据的中位数是第5个与第6个数的平均数,为70%+75%2=72.5%>70%,A 错误.对于B 项,由统计图可知,讲座后这10位社区居民问卷答题的正确率分别为90%,85%,80%,90%,85%,85%,95%,100%,85%,100%,所以讲座后这10位社区居民问卷答题的正确率的平均数为110×(90%+85%+80%+90%+85%+85%+95%+100%+85%+100%)=89.5%>85%,B 正确.对于C 项,讲座后这10位社区居民问卷答题的正确率的方差s 2后 =110×[(90%-89.5%)2+(85%-89.5%)2+…+(85%-89.5%)2+(100%-89.5%)2]=42.2510 000 ,所以标准差s 后=6.5%.讲座前这10位社区居民问卷答题的正确率的平均数为110×(60%+60%+65%+65%+70%+75%+80%+85%+90%+95%)=74.5%,所以讲座前这10位社区居民问卷答题的正确率的方差为s 2前 =110×[(60%-74.5%)2+(60%-74.5%)2+…+(90%-74.5%)2+(95%-74.5%)2]=142.2510 000,所以标准差s 前≈11.93%.所以s 前>s 后,C 错误.对于D 项,讲座前问卷答题的正确率的极差为95%-60%=35%,讲座后问卷答题的正确率的极差为100%-80%=20%,D 错误.故选B.答案:B3.解析:50岁以下1 000×(0.2+0.3+0.1)=600人,A 选项错误.在受试者中,抗体呈阳性的人数为600×0.9+400×0.85=880,B 选项错误.受试者的平均年龄为25×0.2+35×0.3+45×0.1+55×0.2+65×0.1+75×0.1=45,C 选项正确.受试者的疫苗有效率为8801 000×100%=88%,D 选项错误.故选C. 答案:C4.解析:第一组的频率为0.010×10=0.1,前两组的频率之和为(0.010+0.020)×10=0.3,知25%分位数在第二组[60,70)内,故25%分位数为60+10×0.25-0.10.2=67.5.故选C. 答案:C5.解析:由已知得x 1+x 2+x 3=15,(x 1-5)2+(x 2-5)2+(x 3-5)2=12,则新数据的平均数为14 (2x 1+1+2x 2+1+2x 3+1+11)=2(x 1+x 2+x 3)+3+114=11,所以方差为14[(2x 1+1-11)2+(2x 2+1-11)2+(2x 3+1-11)2+(11-11)2],=14 [4(x 1-5)2+4(x 2-5)2+4(x 3-5)2]=(x 1-5)2+(x 2-5)2+(x 3-5)2=12, 故选C. 答案:C6.解析:由已知x - =1+2+4+54 =3,y - =0.5+0.9+2.3+2.74=1.6,所以1.6=0.58×3+a ^ ,a ^ =-0.14,即y ^=0.58x -0.14,x =6时,y ^=0.58×6-0.14=3.34, 故选A. 答案:A7.解析:a +b =40+20=60,c +d =20+30=50,a +c =40+20=60, b +d =20+30=50,ad -bc =40×30-20×20=800,n =110,χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ) =110×800260×50×60×50 ≈7.822<10.828,故爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001, 故选D. 答案:D8.解析:由题意可知,x - =5+6.5+7+8.5+85 =7,y - =9+8+6+4+35=6,所以回归方程的样本中心点为(7,6),因此有6=-1.8×7+a ^ ⇒a ^=18.6,所以y ^=-1.8x +18.6,在收集的5个样本点中,(7,6)一点在y ^=-1.8x +18.6上,故计算残差为0的样本点是(7,6).故选C. 答案:C9.解析:由标准差的定义可知,标准差考查的是数据的离散程度; 由中位数的定义可知,中位数考查的是数据的集中趋势; 由极差的定义可知,极差考查的是数据的离散程度; 由平均数的定义可知,平均数考查的是数据的集中趋势. 答案:AC10.解析:A :E (y )=E (x +c )=E (x )+c 且c ≠0,故平均数不相同,错误;B :若第一组中位数为x i ,则第二组的中位数为y i =x i +c ,显然不相同,错误;C :D (y )=D (x )+D (c )=D (x ),故方差相同,正确; D :由极差的定义知:若第一组的极差为x max -x min ,则第二组的极差为y max -y min =(x max+c )-(x min +c )=x max -x min ,故极差相同,正确.答案:CD11.解析:由表中的数据,得x - =10+20+30+40+505=30,y -=62+68+75+81+895 =75,将x - ,y - 代入y ^ =b ^ x +54.9,得b ^=0.67,选项A ,B 均正确, 10,20,30,40,50的中位数是30,选项C 正确;当x =60时,y ^=0.67×60+54.9=95.1,所以加工时间约是95.1 min ,而非一定是95.1min ,选项D 错误.故选ABC. 答案:ABC12.解析:在骑车时间频率分布直方图中,设骑车时间的中位数为a 1, 所以有0.1×2+0.2×(a 1-20)=0.5⇒a 1=21.5,因此选项A 不正确; 骑车时间的众数的估计值为21分钟,因此选项B 正确; 设骑车时间的平均数为b 1,b 1=(19×0.1+21×0.2+23×0.15+25×0.05)×2=21.6;在坐公交车时间频率分布直方图中,设坐公交车时间的中位数为a 2,因为(0.025+0.05+0.075+0.1)×2=0.5,所以a 2=20,因此选项C 正确; 设坐公交车时间的平均数为b 2,b 2=(13×0.025+15×0.05+17×0.075+19×0.1+21×0.1+23×0.075+25×0.05+27×0.025)×2=20,因为b 1>b 2,所以选项D 正确, 故选BCD. 答案:BCD13.解析:根据等高条形图可知: 喜欢徒步的男生人数为0.6×500=300,喜欢徒步的女生人数为0.4×400=160,所以喜欢徒步的总人数为300+160=460,按分层抽样的方法抽取23人,则抽取的男生人数为300460×23=15人.答案:1514.解析:分别求出收入和支出的平均数,可得:x - =8.2+8.6+10.0+11.3+11.95=10,y - =6.2+7.5+8.0+9.8+t 5 =31.5+t 5,代入y ^=0.76x +0.4可得:31.5+t 5=0.76×10+0.4,解得:t =8.5. 答案:8.515.解析:在①中,甲同学的5个数据的中位数为125,总体均值为128,可以找到很多反例,如118,119,125,128,150,故甲同学的数学成绩不一定优秀; 在②中,乙同学的5个数据的中位数为127,众数为121,所以前三个数为121,121,127,则后两个数肯定大于127,故乙同学的数学成绩一定优秀;在③中,丙同学的5个数据的众数为125,极差为10,总体均值为125,最大值与最小值的差为10,若最大值为129,则最小值为119.即119,125,125,127,129,故丙同学的数学成绩不一定优秀.综上,数学成绩一定优秀的同学只有乙. 答案:乙16.解析:根据平均数的计算公式,全班的平均数为z - =17×30+12×2030+20=15,设男同学为x 1,x 2,…,x 30,女同学为y 1,y 2,…,y 20,答案:19。
高考数学考点二十《统计与统计案例》课件
100
200
则 K2=2001×00(×6100×0×601-004×0×10400)2=8>6.635,
所以有 99%以上的把握认为是否持乐观态度与国内外差异有关.
四、解答题 13.(2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设 备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了 10 件产品,得到各件产品该项指标数据如下:
考点二十 统计与统计案例
一、选择题(在每小题给出的四个选项中,只有一项符合题目要求) 1.(2021·河北张家口第三次模拟)某中学春季运动会上,12 位参加跳高 半决赛同学的成绩各不相同,按成绩从高到低取前 6 位进入决赛,如果小明 知道了自己的成绩后,则他可根据其他 11 位同学成绩的哪个数据判断自己 能否进入决赛( )
A.r2<r4<0<r3<r1 C.r4<r2<0<r3<r1
B.r4<r2<0<r1<r3 D.r2<r4<0<r1<r3
答案 A 解析 易知题中图(1)和图(3)是正相关,图(2)与图(4)是负相关,且图(1) 与图(2)中的样本点集中分布在一条直线附近,则 r2<r4<0<r3<r1.故选 A.
5.通过随机询问 110 名性别不同的大学生是否爱好某项运动,得到如
下列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由
K2
=
n(ad-bc)2 (a+b)(c+d)(a+c)(b+d)
2022届高考数学二轮专题统计统计案例针对训练理
统计、统计事例一、选择题1.2022 年高考重庆卷从一堆苹果中任取10 只,称得它们的质量以下错误!:125 120 122 105 130 114 116 95 120134则样本数据落在错误!内的频次为A.B.C.D.分析:内的样本数据为120,122,116,120,共 4 个,故所求频次为错误!=错误!=2.2022 年高考福建卷某校选修乒乓球课程的学生中,高一年级有30 名,高二年级有40名.现用分层抽样的方法在这70 名学生中抽取一个样本,已知在高一年级的学生中抽取了6名,则在高二年级的学生中应抽取的人数为A.6B.8C.10D.12分析:选,则 N×错误!=6,∴ N=14,∴高二年级所抽人数为14×错误 ! = 83.2022 年山东临沂调研某商场在五一促销活动中,对 5 月 1 日 9 时至行统计,其频次散布直方图如图,已知9 时至 10 时的销售额为万元,则1114 时的销售额进时至 12 时的销售额为A.6 万元B.8 万元C.10 万元D.12 万元分析:选 C 由频次散布直方图可知,11 时至 12 时的销售额占所有销售额的错误!,即销售额为 25×错误 ! = 10 万元.4.2022 年高考陕西卷设 1 ,1,2,2,, n, n 是变量和的n个样本点,直线是由这些样本点经过最小二乘法获得的线性回归直线如图,以下结论中正确的选项是A.和的有关系数为直线的斜率B.和的有关系数在0 到 1 之间C.当n为偶数时,散布在双侧的样本点的个数必定同样D.直线过点 \to , \to分析:选D 因为有关系数是表示两个变量能否拥有线性有关关系的一个值,它的绝对值越靠近1,两个变量的线性有关程度越强,因此A、 B 错误. C中n为偶数时,散布在双侧的样本点的个数能够不同样,因此 C 错误.依据回归直线方程必定经过样本中心点可知D正确.因此选D5.已知一组正数1, 2, 3, 4 的方差为 2 =错误!错误!+错误!+错误!+错误!-16,则数据 1+2, 2+2, 3+2,4+2的均匀数为A.2B.3C.4D.6分析: 1, 2, 3, 4 的均匀值为\to ,则2=错误 ! [ 1-错误 ! 2+2-错误 ! 2+3-错误 ! 2+4-错误 ! 2] =错误 ! 错误 ! +错误 ! +错误 !+错误!-4错误!2].∴4\to2= 16∴\to= 2,∴1+ 2,2+ 2,3+ 2,4+ 2 的均匀数为4 二、填空题6如图是某赛季甲、乙两名篮球运动员每场竞赛得分的茎叶图,则甲、乙两人竞赛得分的中位数之和是__________.分析:甲竞赛得分的中位数为28,乙竞赛得分的中位数为36,因此甲、乙两人竞赛得分的中位数之和为28+ 36=64答案: 647.以下四个命题,此中正确的选项是__________.①从匀速传达的产品生产流水线上,质检员每20 分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量有关性越强,则有关系数的绝对值越靠近于1;③在回归直线方程错误! 2011年12月4日,∴错误 ! =错误 ! ,解得m= 3∴抽取了学历为研究生的有 2 人,分别记作S1、 S2;学历为本科的有 3 人,分别记作B1、B2、 B3从中任取 2 人的所有基本领件共10 个:S1,B1,S1,B2,S1,B3,S2,B1,S2,B2,S2,B3,S1, S2, B1,B2,B2, B3, B1, B3.此中起码有 1 人的学历为研究生的基本领件有7 个:S1,B1,S1,B2,S1,B3,S2,B1,S2,B2, S2, B3,S1,S2.∴从中任取 2 人,起码有 1 人的学历为研究生的概率为错误!2 依题意得:错误 ! =错误 ! ,解得N= 78∴35~ 50 岁中被抽取的人数为78- 48-10= 20∴错误 !=错误 !=错误 !,∴= 40,= 510某市教育行政部门为了对2022 届高中毕业生学业水平进行评论,从该市高中毕业生中抽取 1000 名学生学业水平考试数学成绩为样本进行统计,已知该样本中的每个值都是[40,100]中的整数,且在[40,50, [50,60, [60,70, [70,80, [80,90, [90,100]上的频次散布直方图以下图.记这1000名学生学业水平考试数学均匀成绩的最小可能值为a,最大可能值为B1求 a, b 的值;2 从这 1000 名学生中任取 1 人,试依据直方图预计其成绩位于[ a,b] 中的概率假定各小组数据均匀散布在相应区间内的所有整数上.解: 1a=× 40+× 50+× 60+× 70+× 80+× 90=,b=×49+×59+×69+×79+×89+×100=2 因为分数是整数,故成绩为 68,69 的频次是错误 ! ×,成绩为 70,71 ,,76 的频次为错误 !×,故成绩在[ a,b] 上的频次是错误 ! ×+错误 ! ×=,以样本的这个频次预计整体散布的概率得出,从这1000 名学生中任取 1 人,依据直方图预计其成绩位于[ a,b] 中的概率为11. 2022 年福建质检某中学将100 名高一重生疏成水平同样的甲、乙两个“平行班”,每班 50 人.陈老师采纳A、 B 两种不一样的教课方式分别在甲、乙两个班级进行教改实验.为了认识教课成效,期末考试后,陈老师分别从两个班级中各随机抽取20 名学生的成绩进行统计,作出茎叶图以下.记成绩不低于90 分为“成绩优异”.1 在乙班样本的20 个个体中,从不低于 86 分的成绩中随机抽取2 个,求抽出的两个均“成绩优异”的概率;2 由以上统计数据填写下边列联表,并判断能否有90%的掌握以为:“成绩优异”与教课方式有关.解: 1 设“抽出的两个均‘成绩优异’”为事件A从不低于 86 分的成绩中随机抽取 2 个的基本领件为 86,93 ,86,96,86,97 ,86,99 ,86,99 ,93,96 ,93,97 ,93,99 , 93,99 , 96,97 , 96,99 , 96,99 , 97,99 ,97,99,99,99 ,共 15 个.而事件 A 包括基本领件:93,96 ,93,97 ,93,99 ,93,99 ,96,97 ,96,99,96,99 ,97,99 ,97,99 ,99,99 ,共 10 个.因此所求概率为 PA=错误!=错误!2 由已知数据得甲班 A方式乙班 B方式总计成绩优异156成绩不优异191534总计202040依据列联表中数据,得22K χ=错误!≈,因为 >,因此有90%的掌握以为“成绩优异”与教课方式有关.。
高考数学二轮复习专题突破练20 统计与统计案例
专题突破练20统计与统计案例1.(2020吉林辽源高三检测,18)某城市在进行创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数.满分为100分).从中随机抽取一个容量为120的样本.发现所有数据均在[40,100]内.现将这些分数分成以下6组并画出了样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,回答下列问题:(1)算出第三组[60,70)的频数,并补全频率分布直方图;(2)请根据频率分布直方图,估计样本的众数、中位数和平均数.(每组数据以区间的中点值为代表) 2.下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①;y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.3.(2020河南郑州高三检测,19)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表:(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.4.(2020贵州贵阳高三6月适应性测试,18)2020年2月以来,由于受新型冠状病毒肺炎疫情的影响,贵州省中小学陆续开展“停课不停学”的网络学习.为了解贵阳市高三学生返校前的网络学习情况,对甲、乙两所高中分别随机抽取了25名高三学生进行调查,根据学生的日均网络学习时长(单位:h)分别绘制了部分茎叶图(如图1)和乙校学生日均网络学习时长的部分频率分布直方图(如图2),其中茎叶图缺少乙校茎“5”和“6”叶的数据.注:茎叶图中的茎表示整数位数据,叶表示小数位数据,如乙校收集到的最小数据为3.1.(1)补全图2的频率分布直方图,并估计乙校学生日均网络学习时长的平均数(同一组中的数据用该组区间的中点值作代表);(2)求50名学生日均网络学习时长的中位数m,并将日均网络学习时长超过m和不超过m的学生人数填入下面的列联表:(3)根据(2)中的列联表,能否有95%的把握认为甲、乙两校高三学生的网络学习时长有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d5.(2020海南海口高三模拟演练,20)某病毒研究所为了研究温度对某种病毒的影响,在温度t(℃)逐渐升高时,连续测20次病毒的活性指标值y,实验数据处理后得到下面的散点图,将第1~14组数据定为A组,第15~20组数据定为B组.(1)某研究员准备直接根据全部20组数据用线性回归模型拟合y 与t 的关系,你认为是否合理?请从统计学的角度简要说明理由.(2)若根据A 组数据得到回归模型y ^=2.1+0.8t ,根据B 组数据得到回归模型y ^=90.6-1.3t ,以活性指标值大于5为标准,估计这种病毒适宜生存的温度范围(结果精确到0.1).(3)根据实验数据计算可得:A 组中活性指标值的平均数y A =114∑i=114y i =18,方差s A 2=114∑i=114(y i -y A )2=114(∑i=114y i 2-14y A 2)=85;B 组中活性指标值的平均数y B =16∑i=1520y i =23,方差s B 2=16∑i=1520(y i -y B )2=16(∑i=1520y i 2-6y B 2)=45.请根据以上数据计算全部20组活性指标值的平均数y 和方差s 2.6.随着食品安全问题逐渐引起人们的重视,有机、健康的高端绿色蔬菜越来越受到消费者的欢迎,同时生产—运输—销售一体化的直销供应模式,不仅减少了成本,而且减去了蔬菜的二次污染等问题. (1)在有机蔬菜的种植过程中,有机肥料使用是必不可少的.根据统计某种有机蔬菜的产量与有机肥料的用量有关系,每个有机蔬菜大棚产量的增加量y (百斤)与使用堆沤肥料x (千克)之间对应数据如下表:依据表中的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x+a ^;并根据所求线性回归方程,估计如果每个有机蔬菜大棚使用堆沤肥料10千克,则每个有机蔬菜大棚产量增加量y 是多少百斤? (2)某大棚蔬菜种植基地将采摘的有机蔬菜以每份三斤称重并保鲜分装,以每份10元的价格销售到生鲜超市.“乐购”生鲜超市以每份15元的价格卖给顾客,如果当天前8小时卖不完,则超市通过促销以每份5元的价格卖给顾客(根据经验,当天能够把剩余的有机蔬菜都低价处理完毕,且处理完毕后,当天不再进货).该生鲜超市统计了100天有机蔬菜在每天的前8小时内的销售量(单位:份),制成如下表格(注:x ,y ∈N *,且x+y=30):若以100天记录的频率作为每日前8小时销售量发生的概率,该生鲜超市当天销售有机蔬菜利润的期望值为决策依据,当购进17份比购进18份的利润的期望值大时,求x 的取值范围.附:b ^=∑i=1n(x i -x )(y i -y )∑i=1n(x i -x )2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .7.(2019陕西第二次质检,理18)某市场研究人员为了了解产业园引进的甲公司前期的经营状况,对该公司2018年连续6个月的利润进行了统计,并根据得到的数据绘制了相应的折线图,如图所示. (1)由折线图可以看出,可用线性回归模型拟合月利润y (单位:百万元)与月份代码x 之间的关系,求y 关于x 的线性回归方程,并预测该公司2019年3月份的利润;(2)甲公司新研制了一款产品,需要采购一批新型材料,现有采购成本分别为10万元/包和12万元/包的A ,B 两种型号的新型材料可供选择,按规定每种新型材料最多可使用4个月,但新材料的不稳定性会导致材料损坏的年限不相同,现对A ,B 两种新型材料对应的产品各100件进行科学模拟测试,得到两种新型材料使用寿命的频数统计如下表:经甲公司测算,平均每包新型材料每月可以带来5万元收入,不考虑除采购成本之外的其他成本,假设每包新型材料的使用寿命都是整数月,且以频率作为每包新型材料使用寿命的概率,如果你是甲公司的负责人,以每包新型材料产生利润的期望值为决策依据,你会选择采购哪款新型材料?参考数据:∑i=16y i =96,∑i=16x i y i =371.附:b ^=∑i=1n(x i -x )(y i -y )∑i=1n(x i -x )2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .8.(2020山东德州二模,22)新能源汽车已经走进我们的生活,逐渐为大家所青睐.现在有某品牌的新能源汽车在甲市进行预售,预售场面异常火爆,故该经销商采用竞价策略,基本规则是:①竞价者都是网络报价,每个人并不知晓其他人的报价,也不知道参与竞价的总人数;②竞价采用“一月一期制”,当月竞价时间截止后,系统根据当期汽车配额,按照竞价人的出价从高到低分配名额.某人拟参加2020年6月份的汽车竞价,他为了预测最低成交价,根据网站的公告,统计了最近5个月参与竞价的人数(如下表).(1)由收集数据的散点图发现,可用线性回归模型拟合竞价人数y (万人)与月份编号t 之间的相关关系.请用最小二乘法求y 关于t 的线性回归方程:y ^=b ^t+a ^,并预测2020年6月份(月份编号为6)参与竞价的人数;(2)某市场调研机构对200位拟参加2020年6月份汽车竞价人员的报价进行了一个抽样调查,得到如表所示的频数表:报[6,8) [8,10) [10,12) [12,14) [14,16) [16,18](ⅰ)求这200位竞价人员报价的平均值x 和样本方差s 2(同一区间的报价用该价格区间的中点值代替). (ⅱ)假设所有参与竞价人员的报价X 可视为服从正态分布N (μ,σ2),且μ与σ2可分别由(ⅰ)中所示的样本平均数x 及s 2估计.若2020年6月份计划提供的新能源车辆数为3 174,根据市场调研,最低成交价高于样本平均数x ,请你预测(需说明理由)最低成交价. 参考公式及数据:①回归方程y ^=b ^x+a ^,其中b ^=∑i=1nx i y i -nx ·y∑i=1nx i 2-nx 2,a ^=y −b ^x ,②∑i=15t i 2=55,∑i=15t i y i =18.8,√6.8≈2.6;③若随机变量X 服从正态分布N (μ,σ2),则P (μ-σ<X ≤μ+σ)=0.682 6,P (μ-2σ<X ≤μ+2σ)=0.954 4,P (μ-3σ<X ≤μ+3σ)=0.997 4.专题突破练20 统计与统计案例1.解 (1)因为各组的频率之和等于1,所以分数在[60,70)内的频率为1-10×(0.005+0.015+0.030+0.025+0.010)=0.15,所以第三组[60,70)的频数为120×0.15=18.完整的频率分布直方图如图.(2)因为众数的估计值是频率分布直方图中最高矩形的中点,从图中可看出众数的估计值为75分.由题得左边第一个矩形的面积为0.05,第二个矩形的面积为0.15,第三个矩形的面积为0.15,第四个矩形的面积为0.3,所以中位数在第四个矩形里面,设中位数为x ,则0.05+0.15+0.15+(x-70)×0.03=0.5,解得x=75.所以中位数为75.又根据频率分布直方图,样本的平均数的估计值为45×(10×0.005)+55×(10×0.015)+65×(10×0.015)+75×(10×0.03)+85×(10×0.025)+95×(10×0.01)=73.5(分).所以样本的众数为75分,中位数为75分,平均数为73.5分.2.解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,答出其中任意一种或其他合理理由均可) 3.解 (1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少82分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多78分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.) (2)由茎叶图知m=79+812=80.列联表如下:(3)由于K2的观测值k=40(15×15-5×5)2=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.4.解(1)乙校学生日均网络学习时长在3~4 h之间的有5人,占乙校抽取人数的525=15,频率分布直方图中3~4 h之间的纵坐标为151=0.2,乙校学生日均网络学习时长在4~5 h之间的有10人,占乙校抽取人数的1025=25,频率分布直方图中4~5 h之间的纵坐标为251=0.4,由频率分布直方图可知,乙校学生日均网络学习时长在5~6 h之间的占1-0.2-0.4-0.16=0.24,所以题目中图2的频率分布直方图补全后如图所示:由此估计乙校学生日均网络学习时长的平均数为3.5×0.2+4.5×0.4+5.5×0.24+6.5×0.16=4.86.(2)由茎叶图知,m=4.9+5.0=4.95,列联表如下:(3)由(2)中的列联表可知:K2=50×(15×15-10×10)225×25×25×25=2<3.841,所以没有95%的把握认为甲、乙两所高中高三学生的网络学习时长有差异. 5.解 (1)不合理.从散点图上看:①A 组数据呈正相关,B 组数据呈负相关,两部分数据的变化趋势明显不同,不适合用同一个线性模型来拟合.②20个样本点的分布比较分散,没有明显的沿直线分布的趋势,故不适合用线性回归模型来拟合.(2)令2.1+0.8t=5,得t ≈3.6(℃);令90.6-1.3t=5,得t ≈65.8(℃).由散点图可知,这种病毒的活性指标值先随温度升高而升高,到达一定温度后,开始随温度升高而降低,所以这种病毒适宜生存的温度范围是(3.6,65.8). (3)全部20组活性指标值的平均数为y =120∑i=120y i =120×(14×18+6×23)=19.5. 因为∑i=114y i 2=85×14+14×182=5 726,∑i=1520y i 2=45×6+6×232=3 444,所以全部20组活性指标值的方差为 s2=120∑20y i 2-20y2=120(5 726+3 444)-19.52=78.25.6.解 (1)x =2+4+5+6+85=5, y =3+4+4+4+5=4. ∑i=15x i y i =2×3+4×4+5×4+6×4+8×5=106,∑i=15x i 2=22+42+52+62+82=145,b ^=106-5×5×4145-5×52=0.3,a ^=y −b ^ x =4-0.3×5=2.5,所以y 关于x 的线性回归方程为y ^=0.3x+2.5.当x=10时,y ^=0.3×10+2.5=5.5百斤,所以如果每个有机蔬菜大棚使用堆沤肥料10千克,估计每个有机蔬菜大棚产量的增加量y 是5.5百斤.(2)若该超市一天购进17份这种有机蔬菜,Y 1表示当天的利润(单位:元),那么Y 1的分布列为Y 1的数学期望是E (Y 1)=65×10100+75×x100+85×90-x100=8 300-10x100; 若该超市一天购进18份这种有机蔬菜,Y 2表示当天的利润(单位:元),那么Y 2的分布列为Y 2的数学期望是E (Y 2)=60×10100+70×x 100+80×16100+90×74-x100=8 540-20x100; 又购进17份比购进18份的利润的期望值大,故8 300-10x >8 540-20x,求得x>24,故x的取值范围是(24,30),x ∈N *.7.解 (1)由折线图可知统计数据(x i ,y i )共6组,即(1,11),(2,13),(3,16),(4,15),(5,20),(6,21),计算可得x =16(1+2+3+4+5+6)=3.5,y =16∑i=16y i =16×96=16, ∑i=1nx i 2-n x 2=12+22+32+42+52+62-6×3.52=17.5.故b ^=371-6×3.5×1617.5=2,故a ^=y −b ^ x =16-2×3.5=9,∴x 关于y 的线性回归方程为y ^=2x+9,故x=11时,则y ^=2×11+9=31,即预测公司2019年3月份(即x=11时)的利润为31百万元.(2)由频率估计概率,A 型材料可使用1个月,2个月,3个月、4个月的概率分别为0.2,0.35,0.35,0.1,∴A 型材料利润的数学期望为(5-10)×0.2+(10-10)×0.35+(15-10)×0.35+(20-10)×0.1=1.75万元;B 型材料可使用1个月,2个月,3个月、4个月的概率分别为0.1,0.3,0.4,0.2,∴B 型材料利润的数学期望为(5-12)×0.1+(10-12)×0.3+(15-12)×0.4+(20-12)×0.2=1.50万元;∵1.75>1.50,∴应该采购A 型材料. 8.解 (1)根据题意,得t =3,y =1.04,∵∑i=15t i 2=55,∑i=15t i y i =18.8, ∴b ^=∑i=15t i y i -5t ·y∑i=15t i 2-5t 2=18.8-5×3×1.0455-5×32=0.32,则a ^=y −b ^t =1.04-0.32×3=0.08,从而得到线性回归方程为y ^=0.32t+0.08,当t=6时,y=2.所以预测2020年6月份(月份编号为6)参与竞价的人数为2万人. (2)(ⅰ)根据表中给的数据求得平均值和方差为x =20×7+60×9+60×11+30×13+20×15+10×17=11(万元). s 2=20200×(-4)2+60200×(-2)2+0+30200×22+20200×42+10200×62=6.8. (ⅱ)竞拍成功的概率为P=3 17420 000=0.1587, 由题意知X~N (11,6.8),且P (μ-σ<X ≤μ+σ)=0.682 6, 所以P (X ≥μ+σ)=1-0.682 62=0.158 7,所以2020年6月份的预测的最低成交价μ+σ=13.6(万元).。
统计与统计案例(同步)-潍坊市某中学高中数学二轮复习
12.统计与统计案例统计与统计案例是高中数学的重要内容.高考主要考查随机抽样、用样本估计总体、变量的相关性、随机事件的概率、古典概型、几何概型、回归分析、独立性检验.其中,用样本估计总体、古典概率的计算、应用回归分析与独立性检验思想方法解决简单实际问题的能力是考查的重点.试题强调应用性,以实际问题为背景,构建数学模型,突出考查统计与概率的思想及考生的数据处理能力和应用意识.1.某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(,)i i x y (1,2,20)i =得到下面的散点图:由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( ) A .y a bx =+ B .2y a bx =+C .xy a be =+D .ln y a b x =+【答案】D【解析】由图象可知ln y a b x =+作为发芽率y 和温度x 的回归方程类型最适宜. 【点睛】本题考察回归方程类型的判断.2.在新冠肺炎疫情防控期间,某超市开通网上销售业务,每天能完成1200份订单的配货,由于订单量大幅增加,导致订单积压.为解决困难,许多志愿者踊跃报名参加配货工作.已知该超市某日积压500份订单未配货,预计第二天的新订单超过1600份的概率为0.05,志愿者每人每天能完成50份订单的配货,为使第二天完成积压订单及当日订单的配货的概率不小于0.95,则至少需要志愿者( )A .10名B .18名C .24名D .32名【答案】B【解析】积压500份订单未配货,次日产生新订单超过1600份的概率为0.05, 其中1200份不需要志愿者配货,志愿者只需负责400份配货, 也就是需要志愿者配货的为900份,故需要18名志愿者. 【点睛】本题主要考察事件与概率.一、选择题.1.从96名数学教师,24名化学教师,16名地理教师中,用分层抽样的方法抽取一个容量为17的样本,则应抽取的数学教师人数是( ) A .2 B .3C .12D .15【答案】C【解析】从96名数学教师,24名化学教师,16名地理教师中, 用分层抽样的方法抽取一个容量为17的样本, 则应抽取的数学教师人数是961712962416⨯=++,故选C .2.近年来,随着“一带一路”倡议的推进,中国与沿线国家旅游合作越来越密切,中国到“一带一路”沿线国家的游客人也越来越多,如图是2013-2018年中国到“一带一路”沿线国家的游客人次情况,则下列说法正确的是( )①2013-2018年中国到“一带一路”沿线国家的游客人次逐年增加②2013-2018年这6年中,2014年中国到“一带一路”沿线国家的游客人次增幅最小 ③2016-2018年这3年中,中国到“一带一路”沿线国家的游客人次每年的增幅基本持平 A .①②③B .②③C .①②D .③【答案】A【解析】由图中折线逐渐上升,即每年游客人次逐渐增多,故①正确; 由图在2014年中折线比较平缓,即2014年中游客人次增幅最小,故②正确; 根据图像在2016-2018年这3年中,折线的斜率基本相同, 故每年的增幅基本持平,故③正确, 故选A .3.袋中共有完全相同的4只小球、编号为1,2,3,4,现从中任取2只小球,则取出的2只球编号之和是奇数的概率为( ) A .25B .35C .13D .23【答案】D【解析】在编号为1,2,3,4的小球中任取2只小球,则有{}1,2,{}1,3,{}1,4,{}2,3,{}2,4,{}3,4,共6种取法,则取出的2只球编号之和是奇数的有{}1,2,{}1,4,{}2,3,{}3,4,共4种取法, 所以取出的2只球编号之和是奇数的概率为4263=, 故选D .4.从分别写有1,2,3,4,5的5张卡片中随机抽取1张,放回后再随机抽取1张,则抽得的第一张卡片上的数大于第二张卡片上的数的概率为( ) A .110B .35C .310D .25【答案】D【解析】从分别写有1,2,3,4,5的5张卡片中随机抽取1张,放回后再随机抽取1张, 基本事件总数5525n =⨯=,抽得的第一张卡片上的数大于第二张卡片上的数包含的基本事件有()2,1,()3,1,()3,2,()4,1,()4,2,()4,3,()5,1,()5,2,()5,3,()5,4,共有10m =个基本事件,∴抽得的第一张卡片上的数大于第二张卡片上的数的概率102255p ==,故答案为D . 5.在平面区域0202x y ≤≤≤≤⎧⎨⎩,内随机取一点,在所取的点恰好满足x y +≤( )A .116 B .18C .14D .12【答案】C【解析】由题意可知所取的点应在图中阴影部分,从而其概率为11244S S ==阴影正方形,故本题正确答案为C .6.在区间[2,2]-内随机取一个数a ,则关于x 的方程220x x a -+=无实根的概率是( ) A .15B .14C .13D .34【答案】B【解析】关于x 的方程220x x a -+=无实根,得440Δa =-<,1a >,[2,2]a ∈-,(1,2]a ∴∈,所以所求的概率为14P =.故选B . 7.对四组数据进行统计,获得以下散点图,关于其线性相关系数比较,正确的是( )A .24310r r r r <<<<B .42130r r r r <<<<C .42310r r r r <<<<D .24130r r r r <<<<【答案】B【解析】由给出的四组数据的散点图可以看出,图1和图3是正相关,相关系数大于0,则130,0r r >>, 图2和图4是负相关,相关系数小于0,则420,0r r <<,图3和图4的点相对更加集中,所以相关性较强,所以3r 接近于1,4r 接近于1-, 图1和图2的点相对分散一些,所以相关性较弱,所以1r 和2r 比较接近0, 由此可得:42130r r r r <<<<,故选B . 8.下列说法:①残差可用来判断模型拟合的效果;②设有一个回归方程:ˆ35yx =-,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归直线:ˆˆˆy bx a =+必过点,x y ();④在一个22⨯列联表中,由计算得213.079k =,则有99%的把握确认这两个变量间有关系(其中2(10.828)0.001P k ≥=); 其中错误的个数是( ) A .0 B .1C .2D .3【答案】B【解析】对于①,残差可用来判断模型拟合的效果, 残差越小,拟合效果越好,∴①正确;对于②,回归方程ˆ35y x =-中,变量x 增加一个单位时,y 平均减少5个单位,∴②错误;对于③,线性回归方程ˆ(),∴③正确;ˆˆy bx a=+必过样本中心点,x y对于④,在22⨯列联表中,由计算得213.079k=,对照临界值得,有99%的把握确认这两个变量间有关系,④正确,综上,其中错误的命题是②,共1个,故选B.K的观9.通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到统计量2 k≈,参照附表,得到的正确结论是()测值 4.892A.有97.5%以上的把握认为“爱好该项运动与性别有关”B.有97.5%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”【答案】Ck≈>,【解析】∵计算得到统计量值2k的观测值 4.892 3.841参照题目中的数值表,得到正确的结论是:在犯错误的概率不超过5%的前提下,认为“爱好该运动与性别有关”,故选C.10.今年,受新冠肺炎疫情的影响,在全国的许多地方都采取了在家线上学习的方式,而此种方式对学生的自制力、自觉性有极高的要求.然而,在手机面前,有些学生终究无法抵御游戏和短视频的诱惑.从而导致无法专心完成学习任务,成绩下滑;但是对于自制力强,能有效管理自己的学生,手机不仅不会对他们的学习造成负面影响,还能成为他们学习的有力助手.某校某研究学习小组调查研究“学生线上学习智能手机对学习的影响”,从学习成绩优秀与不优秀中分别随机抽查了40名同学,得到了是否使用手机的如下样本数据:附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.根据表中的数据,下列说法中,正确的是( ) A .有99%的把握认为中学生使用手机对学习有影响 B .有99.5%的把握认为中学生使用手机对学习有影响C .可以在犯错误的概率不超过0.025的前提下认为中学生使用手机对学习有影响D .可以在犯错误的概率不超过0.001的前提下认为中学生使用手机对学习有影响 【答案】B【解析】()()()()()()22280282612147.==9.82542384047908n ad bc K a b c d a c b d -⨯⨯-⨯=≥++++⨯⨯⨯,有99.5%的把握认为中学生使用手机对学习有影响, 故选B .11.根据最小二乘法由一组样本点(),i i x y (其中1i =,2,…,500),求得的回归方程是ˆˆˆybx a =+, 则下列说法不正确的是( )A .样本点可能全部都不在回归直线ˆˆˆy bx a =+上B .若所有样本点都在回归直线ˆˆˆy bx a =+上,则变量间的相关系数为1C .若所有的样本点都在回归直线ˆˆˆy bx a =+上,则i bx a +的值与i y 相等D .若回归直线ˆˆˆy bx a =+的斜率0b <,则变量x 与y 呈负相关【答案】B【解析】回归直线必过样本数据中心点,但样本点可能全部不在回归直线上故A 正确; 所有样本点都在回归直线y bx a =+上,则变量间的相关系数可能为±1,故B 错误;若所有的样本点都在回归直线y bx a=+上,则bx a+的值与i y相等,故C正确;r<,相关系数r与b符号相同,若回归直线y bx a=+的斜率0b<,则0则变量x与y呈负相关,故D正确,故选B.12.已知下列命题:①回归直线ˆˆˆ=+恒过样本点的中心(),x y,且至少过一个样本点;y bx a②两个变量相关性越强,则相关系数r就越接近于1;③对分类变量X与Y,2K的观测值k越小,“X与Y有关系”的把握程度越大;④两个模型中残差平方和越小的模型拟合的效果越好.则正确命题的个数为()A.0B.1C.2D.3【答案】B【解析】对于①,回归直线ˆˆˆy bx a=+恒过样本点的中心(),x y,可以不过任一个样本点,故①错误;对于②,两个变量相关性越强,则相关系数r的绝对值就越接近于1,故②错误;对于③,对分类变量X与Y,随机变量K2的观测值k越大,“X与Y有关系”的把握程度越大,故③错误;对于④,可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故④正确,故正确命题的个数为1,故选B.二、填空题.13.邢台市物价部门对市区的天一城、北国商城、恒大城、家乐园、中北世纪城5家商场的某件商品在7月15号一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:已知销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是 3.240ˆyx =-+,且20m n +=,则其中的m =______. 【答案】10 【解析】依题意405m x +=,305ny +=, 代入回归直线方程得30403.24055n m++=-⨯+①, 根据题意20m n +=②,解①②组成的方程组得10m n ==,故答案为10.14.我国的旅游资源丰富,是人们假期旅游的好去处,小五现从大理、黄果树瀑布、阳朔、张家界和青海湖中任选两处去旅游,则恰好选中青海湖的概率为______. 【答案】25【解析】依次将大理、黄果树瀑布、阳朔、张家界和青海湖编号为1,2,3,4,5, 则从中任选两处的所有可能情况有1,2,()1,3,()1,4,()1,5,()2,3,()2,4,()2,5,()3,4,()3,5,()4,5,共10种,恰好选中青海湖的情况有()1,5,()2,5,()3,5,()4,5,共4种,则由古典概型的概率公式得所求概率为42105=,故答案为25. 15.在长为3、宽为2的长方形内任取一点,使它到四个顶点的距离均不小于1的概率为______. 【答案】16π-【解析】如图:在长方形内取一点,它到四个顶点的距离均不小于1的概率为2π164π4166P ⋅-⋅==-,故答案为16π-. 16.某种产品的广告费支出x 与销售额y (单位:万元)之间的关系如下表:y 与x 的线性回归方程为 6.517.5y x =+,当广告支出5万元时,随机误差的残差为________. 【答案】10【解析】由题意,当5x =时, 6.5517.550y =⨯+=, 因此其残差为605010y y -=-=,故答案为10.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专题突破练20 统计与统计案例1.(2019四川成都二模,理18)为了让税收政策更好地为社会发展服务,国家在修订《中华人民共和国个人所得税法》之后,发布了《个人所得税专项附加扣除暂行办法》,明确“专项附加扣除”就是子女教育、继续教育、大病医疗、住房贷款利息、住房租金、赡养老人等费用,并公布了相应的定额扣除标准,决定自2019年1月1日起施行.某企业为了调查内部职员对新个税方案的满意程度与年龄的关系,通过问卷调查,整理数据得如下2×2列联表:(1)根据列联表,能否有99%的把握认为满意程度与年龄有关?(2)为了帮助年龄在40岁以下的未购房的8名员工解决实际困难,该企业拟按员工贡献积分x (单位:分)给予相应的住房补贴y (单位:元),现有两种补贴方案,方案甲:y=1 000+700x ;方案乙:y={3 000,0<x ≤5,5 600,5<x ≤10,9 000,x >10.已知这8名员工的贡献积分为2分,3分,6分,7分,7分,11分,12分,12分,将采用方案甲比采用方案乙获得更多补贴的员工记为“A 类员工”.为了解员工对补贴方案的认可度,现从这8名员工中随机抽取4名进行面谈,求恰好抽到3名“A 类员工”的概率.附:K 2=n (ad -bc )2(a+b )(c+d )(a+c )(b+d ),其中n=a+b+c+d.参考数据:2.下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①;y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.3.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:,K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).4.为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得x=116∑i=116x i=9.97,s=√116∑i=116(x i-x)2=√116(∑i=116x i2-16x2)≈0.212,√∑i=116(i-8.5)2≈18.439,∑i=116(x i-x)(i-8.5)=-2.78,其中x i为抽取的第i个零件的尺寸,i=1,2, (16)(1)求(x i,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(x-3s,x+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x-3s,x+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i,y i)(i=1,2,…,n)的相关系数r=∑i=1n(x i-x)(y i-y)√∑i=1(x i-x)2√∑i=1(y i-y)2.√0.008≈0.09.5.(2019山东实验等四校联考,理19)随着科技的发展,网络已逐渐融入了人们的生活.网购是非常方便的购物方式,为了了解网购在我市的普及情况,某调查机构进行了有关网购的调查问卷,并从参与调查的市民中随机抽取了男女各100人进行分析,从而得到下表(单位:人).(1)完成上表,并根据以上数据判断能否在犯错误的概率不超过0.01的前提下认为我市市民网购与性别有关?(2)①现从所抽取的女市民中利用分层抽样的方法抽取10人,再从这10人中随机选取3人赠送优惠券,求选取的3人中至少有2人经常网购的概率;②将频率视为概率,从我市所有参与调查的市民中随机抽取10人赠送礼品,记其中经常网购的人数为X ,求随机变量X 的数学期望和方差.参考公式:K 2=n (ad -bc )2(a+b )(c+d )(a+c )(b+d ),n=a+b+c+d.6.随着食品安全问题逐渐引起人们的重视,有机、健康的高端绿色蔬菜越来越受到消费者的欢迎,同时生产—运输—销售一体化的直销供应模式,不仅减少了成本,而且减去了蔬菜的二次污染等问题.(1)在有机蔬菜的种植过程中,有机肥料使用是必不可少的.根据统计某种有机蔬菜的产量与有机肥料的用量有关系,每个有机蔬菜大棚产量的增加量y(百斤)与使用堆沤肥料x(千克)之间对应数据如下表:依据表中的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x+a ^;并根据所求线性回归方程,估计如果每个有机蔬菜大棚使用堆沤肥料10千克,则每个有机蔬菜大棚产量增加量y 是多少百斤? (2)某大棚蔬菜种植基地将采摘的有机蔬菜以每份三斤称重并保鲜分装,以每份10元的价格销售到生鲜超市.“乐购”生鲜超市以每份15元的价格卖给顾客,如果当天前8小时卖不完,则超市通过促销以每份5元的价格卖给顾客(根据经验,当天能够把剩余的有机蔬菜都低价处理完毕,且处理完毕后,当天不再进货).该生鲜超市统计了100天有机蔬菜在每天的前8小时内的销售量(单位:份),制成如下表格(注:x ,y ∈N *,且x+y=30):若以100天记录的频率作为每日前8小时销售量发生的概率,该生鲜超市当天销售有机蔬菜利润的期望值为决策依据,当购进17份比购进18份的利润的期望值大时,求x 的取值范围.附:b ^=∑i=1n(x i -x )(y i -y )∑i=1n(x i -x )2=∑i=1nx i y i -nx y∑i=1nx i 2-nx2,a ^=y −b ^x .7.(2019陕西第二次质检,理18)某市场研究人员为了了解产业园引进的甲公司前期的经营状况,对该公司2018年连续6个月的利润进行了统计,并根据得到的数据绘制了相应的折线图,如图所示.(1)由折线图可以看出,可用线性回归模型拟合月利润y(单位:百万元)与月份代码x之间的关系,求y 关于x的线性回归方程,并预测该公司2019年3月份的利润;(2)甲公司新研制了一款产品,需要采购一批新型材料,现有采购成本分别为10万元/包和12万元/包的A,B两种型号的新型材料可供选择,按规定每种新型材料最多可使用4个月,但新材料的不稳定性会导致材料损坏的年限不相同,现对A,B两种新型材料对应的产品各100件进行科学模拟测试,得到两种新型材料使用寿命的频数统计如下表:经甲公司测算,平均每包新型材料每月可以带来5万元收入,不考虑除采购成本之外的其他成本,假设每包新型材料的使用寿命都是整数月,且以频率作为每包新型材料使用寿命的概率,如果你是甲公司的负责人,以每包新型材料产生利润的期望值为决策依据,你会选择采购哪款新型材料?参考数据:∑i=16y i =96,∑i=16x i y i =371.附:b ^=∑i=1n(x i -x )(y i -y )∑i=1n(x i -x )2=∑i=1nx i y i -nx y∑i=1nx i 2-nx2,a ^=y −b ^x .8.(2019山东青岛二模,理20)“爱国,是人世间最深层、最持久的情感,是一个人立德之源、立功之本.”在中华民族几千年绵延发展的历史长河中,爱国主义始终是激昂的主旋律.爱国汽车公司拟对“东方红”款高端汽车发动机进行科技改造,根据市场调研与模拟,得到科技改造投入x (亿元)与科技改造直接收益y (亿元)的数据统计如下:当0<x ≤17时,建立了y 与x 的两个回归模型:模型①:y ^=4.1x+11.8;模型②:y ^=21.3√x -14.4;当x>17时,确定y 与x 满足的线性回归方程为:y ^=-0.7x+a ^.(1)根据下列表格中的数据,比较当0<x ≤17时模型①、②的相关指数R 2,并选择拟合精度更高、更可靠的模型,预测对“东方红”款汽车发动机科技改造的投入为17亿元时的直接收益.附:刻画回归效果的相关指数R 2=1-∑i=1n(y i-y ^i)2∑i=1n(y i -y )2,√17≈4.1.(2)为鼓励科技创新,当科技改造的投入不少于20亿元时,国家给予公司补贴收益10亿元,以回归方程为预测依据,比较科技改造投入17亿元与20亿元时公司实际收益的大小;(附:用最小二乘法求线性回归方程y ^=b ^x+a ^的系数公式b ^=∑i=1nx i y i -nx ·y∑i=1nx i 2-nx2=∑i=1n(x i -x )(y i -y )∑i=1n(x i -x )2;a ^=y −b ^x )(3)科技改造后,“东方红”款汽车发动机的热效率X 大幅提高,X 服从正态分布N (0.52,0.012),公司对科技改造团队的奖励方案如下:若发动机的热效率不超过50%,不予奖励;若发动机的热效率超过50%但不超过53%,每台发动机奖励2万元;若发动机的热效率超过53%,每台发动机奖励5万元.求每台发动机获得奖励的数学期望.(附:随机变量ξ服从正态分布N (μ,σ2),则P (μ-σ<ξ<μ+σ)=0.682 6,P (μ-2σ<ξ<μ+2σ)=0.954 4.)参考答案专题突破练20 统计与统计案例1.解 (1)根据列联表可以求得K 2的观测值:k=80(25×30-10×15)235×45×40×40=807≈11.429>6.635,故有99%的把握认为满意程度与年龄有关.(2)据题意,该8名员工的贡献积分及按甲乙两种方案所获补贴情况为:由表可知,“A 类员工”有5名,设从这8名员工中随机抽取4名进行面谈,恰好抽到3名“A 类员工”的概率为P ,则P=C 53C 31C 84=37.2.解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,答出其中任意一种或其他合理理由均可)3.解 (1)记B 表示事件“旧养殖法的箱产量低于50 kg ”,C 表示事件“新养殖法的箱产量不低于50 kg ”.由题意知P (A )=P (BC )=P (B )P (C ).旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表箱产量<50 kg 箱产量≥50kg旧养殖法 6238新养殖法3466K2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法箱产量的中位数的估计值为50+0.5-0.34≈52.35(kg).4.解 (1)由样本数据得(x i ,i )(i=1,2,…,16)的相关系数为r=∑i=116(x i -x )(i -8.5)√∑i=1(x i -x )2√∑i=1(i -8.5)2=0.212×√16×18.439≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x =9.97,s ≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x -3s ,x +3s )以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为115(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑i=116x i 2=16×0.2122+16×9.972≈1591.134,剔除第13个数据,剩下数据的样本方差为115(1 591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为√0.008≈0.09. 5.解 (1)k2=200×(50×30-50×70)2=25≈8.333>6.635,故能在犯错误的概率不超过0.01的前提下认为我市市民网购与性别有关. (2)①由题意,所抽取的10名女市民中,经常网购的有10×70100=7人, 偶尔或不用网购的有10-7=3人,所以选取的3人中至少有2人经常网购的概率P=C 72C 31+C 73C 103=4960.②由2×2列联表可知,抽到经常网购的市民频率为120200=0.6.将频率视为概率,从我市所有参与调查的市民中随机抽取1人,恰好抽到经常网购市民的概率为0.6.由题意X~B (10,0.6),E (X )=10×0.6=6,D (X )=10×0.6×(1-0.6)=2.4. 6.解 (1)x =2+4+5+6+85=5, y =3+4+4+4+55=4. ∑i=15x i y i =2×3+4×4+5×4+6×4+8×5=106,∑i=15x i 2=22+42+52+62+82=145,b ^=106-5×5×4145-5×52=0.3,a ^=y −b ^ x =4-0.3×5=2.5,所以y 关于x 的线性回归方程为y ^=0.3x+2.5.当x=10时,y ^=0.3×10+2.5=5.5百斤,所以如果每个有机蔬菜大棚使用堆沤肥料10千克,估计每个有机蔬菜大棚产量的增加量y 是5.5百斤.(2)若该超市一天购进17份这种有机蔬菜,Y 1表示当天的利润(单位:元),那么Y 1的分布列为Y 1的数学期望是E (Y 1)=65×10100+75×x100+85×90-x100=8 300-10x100; 若该超市一天购进18份这种有机蔬菜,Y 2表示当天的利润(单位:元),那么Y 2的分布列为Y 2的数学期望是E (Y 2)=60×10100+70×x100+80×16100+90×74-x100=8 540-20x100; 又购进17份比购进18份的利润的期望值大,故8 300-10x 100>8 540-20x100,求得x>24,故x的取值范围是(24,30),x ∈N *.7.解 (1)由折线图可知统计数据(x i ,y i )共6组,即(1,11),(2,13),(3,16),(4,15),(5,20),(6,21),计算可得x =16(1+2+3+4+5+6)=3.5,y =16∑i=16y i =16×96=16,∑i=1nx i 2-n x 2=12+22+32+42+52+62-6×3.52=17.5.故b ^=371-6×3.5×1617.5=2,故a ^=y −b ^ x =16-2×3.5=9,∴x 关于y 的线性回归方程为y ^=2x+9,故x=11时,则y ^=2×11+9=31,即预测公司2019年3月份(即x=11时)的利润为31百万元.(2)由频率估计概率,A 型材料可使用1个月,2个月,3个月、4个月的概率分别为0.2,0.35,0.35,0.1,∴A 型材料利润的数学期望为(5-10)×0.2+(10-10)×0.35+(15-10)×0.35+(20-10)×0.1=1.75万元;B 型材料可使用1个月,2个月,3个月、4个月的概率分别为0.1,0.3,0.4,0.2,∴B 型材料利润的数学期望为(5-12)×0.1+(10-12)×0.3+(15-12)×0.4+(20-12)×0.2=1.50万元;∵1.75>1.50,∴应该采购A 型材料. 8.解 (1)由表格中的数据,有182.4>79.2,即182.4∑i=17(y i -y )2>79.2∑i=17(y i -y )2,所以模型①的R 2小于模型②,说明回归模型②刻画的拟合效果更好.所以当x=17亿元时,科技改造直接收益的预测值为y ^=21.3×√17-14.4≈21.3×4.1-14.4=72.93(亿元).(2)由已知可得:x -20=1+2+3+4+55=3,所以x =23, y -60=8.5+8+7.5+6+65=7.2,所以y =67.2.所以a ^=y +0.7x =67.2+0.7×23=83.3.所以当x>17亿元时,y 与x 满足的线性回归方程为:y ^=-0.7x+83.3.所以当x=20亿元时,科技改造直接收益的预测值y ^=-0.7×20+83.3=69.3,所以当x=20亿元时,实际收益的预测值为69.3+10=79.3亿元>72.93亿元, 所以科技改造投入20亿元时,公司的实际收益的更大. (3)因为P (0.52-0.02<X<0.52+0.02)=0.954 4, 所以P (X>0.50)=1+0.954 42=0.977 2, P (X ≤0.50)=1-0.954 42=0.022 8. 因为P (0.52-0.01<X<0.52+0.01)=0.682 6, 所以P (X>0.53)=1-0.682 62=0.158 7, 所以P (0.50<X ≤0.53)=0.977 2-0.158 7=0.818 5. 设每台发动机获得的奖励为Y (万元),则Y 的分布列为:所以每台发动机获得奖励的数学期望为E (Y )=0×0.022 8+2×0.818 5+5×0.158 7=2.430 5(万元).。