[高考专项训练]统计与统计案例

合集下载

2020新课标高考数学典型习题专项训练:统计与统计案例

2020新课标高考数学典型习题专项训练:统计与统计案例

统计与统计案例[A 组 夯基保分专练]一、选择题1.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:最喜爱 喜爱 一般 不喜欢 4 8007 2006 4001 600为此要进行分层抽样,那么在分层抽样时,每类人中应抽选出的人数分别为( )A .25,25,25,25B .48,72,64,16C .20,40,30,10D .24,36,32,8解析:选D.法一:因为抽样比为10020 000=1200,所以每类人中应抽选出的人数分别为4 800×1200=24,7 200×1200=36,6 400×1200=32,1 600×1200=8.故选D.法二:最喜爱、喜爱、一般、不喜欢的比例为4 800∶7 200∶6 400∶1 600=6∶9∶8∶2, 所以每类人中应抽选出的人数分别为66+9+8+2×100=24,96+9+8+2×100=36,86+9+8+2×100=32,26+9+8+2×100=8,故选D.2.(2019·湖南省五市十校联考)在某次赛车中,50名参赛选手的成绩(单位:min)全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18],其频率分布直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )A .39B .35C .15D .11解析:选D.由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78,所以成绩在[13,15)内的频率为1-0.78=0.22,则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.3.(2019·武汉市调研测试)某学校为了了解本校学生的上学方式,在全校范围内随机抽查部分学生,了解到上学方式主要有:A —结伴步行,B —自行乘车,C —家人接送,D —其他方式.并将收集的数据整理绘制成如下两幅不完整的统计图.请根据图中信息,求本次抽查的学生中A 类人数是( )A .30B .40C .42D .48解析:选A.由条形统计图知,B —自行乘车上学的有42人,C —家人接送上学的有30人,D —其他方式上学的有18人,采用B ,C ,D 三种方式上学的共90人,设A —结伴步行上学的有x 人,由扇形统计图知,A —结伴步行上学与B —自行乘车上学的学生占60%,所以x +42x +90=60100,解得x =30,故选A. 4.(2019·广东六校第一次联考)某单位为了落实“绿水青山就是金山银山”理念,制定节能减排的目标,先调查了用电量y (单位:kW ·h)与气温x (单位:℃)之间的关系,随机选取了4天的用电量与当天气温,并制作了如下对照表:x (单位:℃) 17 14 10 -1 y (单位:kW ·h)243438a由表中数据得线性回归方程y =-2x +60,则a 的值为( ) A .48 B .62 C .64D .68解析:选C.由题意,得x =17+14+10-14=10,y =24+34+38+a 4=96+a4.样本点的中心(x ,y )在回归直线y ^=-2x +60上,代入线性回归方程可得96+a 4=-20+60,解得a =64,故选C.5.(2019·郑州市第二次质量预测)将甲、乙两个篮球队各5场比赛的得分数据整理成如图所示的茎叶图,由图可知以下结论正确的是( )A .甲队平均得分高于乙队的平均得分B .甲队得分的中位数大于乙队得分的中位数C .甲队得分的方差大于乙队得分的方差D .甲、乙两队得分的极差相等解析:选C.由题中茎叶图得,甲队的平均得分x 甲=26+28+29+31+315=29,乙队的平均得分x 乙=28+29+30+31+325=30,x 甲<x 乙,选项A 不正确;甲队得分的中位数为29,乙队得分的中位数为30,甲队得分的中位数小于乙队得分的中位数,选项B 不正确;甲队得分的方差s 2甲=15×[(26-29)2+(28-29)2+(29-29)2+(31-29)2+(31-29)2]=185,乙队得分的方差s 2乙=15×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=2,s 2甲>s 2乙,选项C 正确;甲队得分的极差为31-26=5,乙队得分的极差为32-28=4,两者不相等,选项D 不正确.故选C.6.(多选)CPI 是居民消费价格指数(consumer price index)的简称.居民消费价格指数是一个反映居民家庭一般所购买的消费品和服务项目价格水平变动情况的宏观经济指标.如图是根据国家统计局发布的2017年6月—2018年6月我国CPI 涨跌幅数据绘制的折线图(注:2018年6月与2017年6月相比较,叫同比;2018年6月与2018年5月相比较,叫环比),根据该折线图,则下列结论错误的是 ( )A .2018年1月至6月各月与去年同期比较,CPI 有涨有跌B .2018年2月至6月CPI 只跌不涨C .2018年3月以来,CPI 在缓慢增长D .2017年8月与同年12月相比较,8月环比更大解析:选ABC.A 选项,2018年1月至6月各月与去年同期比较,CPI 均是上涨的,故A 错误;B 选项,2018年2月CPI 是增长的,故B 错误;C 选项,2018年3月以来,CPI 是下跌的,故C 错误;D 选项,2017年8月CPI 环比增长0.4%,12月环比增长0.3%,故D 正确.故选ABC.二、填空题7.如图是某学校一名篮球运动员在10场比赛中所得分数的茎叶图,则该运动员在这10场比赛中得分的中位数为________,平均数为________.解析:把10场比赛的所得分数按顺序排列为5,8,9,12,14,16,16,19,21,24,中间两个为14与16,故中位数为14+162=15,平均数为110(5+8+9+12+14+16+16+19+21+24)=14.4.答案:15 14.48.已知一组数据x 1,x 2,…,x n 的方差为2,若数据ax 1+b ,ax 2+b ,…,ax n +b (a >0)的方差为8,则a 的值为________.解析:根据方差的性质可知,a 2×2=8,故a =2. 答案:29.给出下列四个命题:①某班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,如果7号、33号、46号同学在样本中,那么样本中另一位同学的编号为23;②一组数据1,2,3,3,4,5的平均数、众数、中位数都相同; ③若一组数据a ,0,1,2,3的平均数为1,则其标准差为2;④根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y ^=a ^+b ^x ,其中a ^=2,x =1,y =3,则b ^=1.其中真命题有________(填序号).解析:在①中,由系统抽样知抽样的分段间隔为52÷4=13,故抽取的样本的编号分别为7号、20号、33号、46号,故①是假命题;在②中,数据1,2,3,3,4,5的平均数为16(1+2+3+3+4+5)=3,中位数为3,众数为3,都相同,故②是真命题;在③中,因为样本的平均数为1,所以a +0+1+2+3=5,解得a =-1,故样本的方差为15[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2,标准差为2,故③是假命题;在④中,回归直线方程为y ^=b ^x +2,又回归直线过点(x ,y ),把(1,3)代入回归直线方程y ^=b ^x +2,得b ^=1,故④是真命题.答案:②④ 三、解答题10.(2019·兰州市诊断考试)“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:烈参与者”.(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数; (2)根据上表的数据,填写下列2×2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关?附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )(n 为样本容量)20 000×40200=4 000.(2)2×2列联表为K 2=200×(3540×160×140×60≈7.292>6.635,故能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关.11.(2019·武汉市调研测试)中共十九大以来,某贫困地区扶贫办积极贯彻落实国家精准扶贫的要求,带领广大农村地区人民群众脱贫奔小康.经过不懈的奋力拼搏,新农村建设取得巨大进步,农民年收入也逐年增加.为了更好地制定2019年关于加快提升农民年收入,力争早日脱贫的工作计划,该地扶贫办统计了2018年50位农民的年收入(单位:千元)并制成如下频率分布直方图:(1)根据频率分布直方图,估计50位农民的年平均收入x (单位:千元)(同一组数据用该组数据区间的中点值表示).(2)由频率分布直方图,可以认为该贫困地区农民年收入X 服从正态分布N (μ,σ2),其中μ近似为年平均收入x ,σ2近似为样本方差s 2,经计算得s 2=6.92.利用该正态分布,解决下列问题:(i)在2019年脱贫攻坚工作中,若使该地区约有占总农民人数的84.14%的农民的年收入高于扶贫办制定的最低年收入标准,则最低年收入大约为多少千元?(ii)为了调研“精准扶贫,不落一人”的落实情况,扶贫办随机走访了1 000位农民.若每个农民的年收入相互独立,问:这1 000位农民中年收入不少于12.14千元的人数最有可能是多少?附:参考数据与公式6.92≈2.63,若X ~N (μ,σ2),则 ①P (μ-σ<X ≤μ+σ)≈0.682 7; ②P (μ-2σ<X ≤μ+2σ)≈0.954 5; ③P (μ-3σ<X ≤μ+3σ)≈0.997 3.解:(1)x =12×0.04+14×0.12+16×0.28+18×0.36+20×0.10+22×0.06+24×0.04=17.40(千元).(2)由题意,X ~N (17.40,6.92). (i)P (X >μ-σ)≈12+0.682 72≈0.841 4,μ-σ≈17.40-2.63=14.77, 即最低年收入大约为14.77千元.(ii)由P (X ≥12.14)=P (X ≥μ-2σ)≈0.5+0.954 52≈0.977 3,得每个农民的年收入不少于12.14千元的事件的概率为0.977 3,记这1 000位农民中年收入不少于12.14千元的人数为ξ,则ξ~B (103,p ),其中p =0.977 3,于是恰好有k 位农民的年收入不少于12.14千元的事件的概率是P (ξ=k )=C k 103p k (1-p )103-k ,从而由P (ξ=k )P (ξ=k -1)=(1 001-k )×pk ×(1-p )>1,得k <1 001p ,由P (ξ=k )P (ξ=k +1)=(k +1)(1-p )(1 000-k )p>1,得k >1 001p -1,而1 001p =978.277 3, 所以,977.277 3<k <978.277 3,由此可知,在所走访的1 000位农民中,年收入不少于12.14千元的人数最有可能是978. 12.(2019·洛阳市统考)某学校高三年级共有4个班,其中实验班和普通班各2个,且各班学生人数大致相当.在高三第一次数学统一测试(满分100分)成绩揭晓后,教师对这4个班的数学成绩进行了统计分析,其中涉及试题“难度”和“区分度”等指标.根据该校的实际情况,规定其具体含义如下:难度=4个班平均分100,区分度=实验班平均分-普通班平均分100.(1)现从这4个班中各随机抽取5名学生,根据这20名学生的数学成绩,绘制茎叶图如下:请根据以上样本数据,估计该次考试试题的难度和区分度;(2)为了研究试题的区分度与难度的关系,调取了该校上一届高三6次考试的成绩分析数据,得到下表:考试序号 1 2 3 4 5 6 难度x 0.65 0.71 0.73 0.76 0.77 0.82 区分度y0.120.160.160.190.200.13①用公式r =∑i =1 (x i -x )(y i -y )∑ni =1(x i -x )2∑ni =1(y i -y )2计算区分度y 与难度x 之间的相关系数r (精确到0.001);②判断y 与x 之间相关关系的强与弱,并说明是否适宜用线性回归模型拟合y 与x 之间的关系.参考数据:∑6i =1x i y i =0.713 4, ∑6i =1 (x i -x )2∑6i =1 (y i -y )2≈0.009 2.解:(1)由茎叶图知,实验班这10人的数学总成绩为860分,普通班这10人的数学总成绩为700分,故这20人的数学平均成绩为860+70020=78(分),由此估计这4个班的平均分为78分, 所以难度=78100=0.78.由86010=86估计实验班的平均分为86分,由70010=70估计普通班的平均分为70分, 所以区分度=86-70100=0.16.(2)①由于∑ni =1 (x i -x )(y i -y ) =∑ni =1 (x i y i -yx i -xy i +xy ) =∑ni =1x i y i -y ∑ni =1x i -x ∑ni =1y i +nx y =∑n i =1x i y i -nx y -nx y +nx y =∑n i =1x i y i -nx y , 且∑6i =1x i y i =0.713 4, ∑6i =1(x i -x )2∑6i =1 (y i -y )2 ≈0.009 2,6x y =6×0.74×0.16=0.710 4, 所以r =∑6i =1 (x i -x )(y i -y )∑6i =1(x i -x )2∑6i =1 (y i -y )2=∑6i =1x i y i -6x y∑6i =1(x i -x )2∑6i =1 (y i -y )2≈0.713 4-0.710 40.009 2≈0.326.②由于r ≈0.326∈[0.30,0.75),故两者之间相关性非常一般,不适宜用线性回归模型拟合y 与x 之间的关系,即使用线性回归模型来拟合,效果也不理想.[B 组 大题增分专练]1.(2019·济南市七校联合考试)“黄梅时节家家雨”“梅雨如烟暝村树”“梅雨暂收斜照明”……江南梅雨的点点滴滴都流润着浓烈的诗情.每年六、七月份,我国长江中下游地区进入持续25天左右的梅雨季节,如图是江南Q 镇2009~2018年梅雨季节的降雨量(单位:mm)的频率分布直方图,试用样本频率估计总体概率,解答下列问题:(1)“梅实初黄暮雨深”,请用样本平均数估计Q 镇明年梅雨季节的降雨量;(2)“江南梅雨无限愁”,Q 镇的杨梅种植户老李也在犯愁,他过去种植的甲品种杨梅,亩产量受降雨量的影响较大(把握超过八成),而乙品种杨梅2009~2018年的亩产量(单位:kg)与降雨量的发生频数(年)如2×2列联表所示(部分数据缺失),请你帮助老李排解忧愁,他来年应该种植哪个品种的杨梅受降雨量影响更小?(完善列联表,并说明理由)降雨量亩产量[200,400)[100,200)∪[400,500]总计 <600 2 ≥600 1 总计10附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .P (K 2≥k 0)0.50 0.40 0.25 0.15 0.10 k 00.4550.7081.3232.0722.706解:(1)0.1. 所以用样本平均数估计Q 镇明年梅雨季节的降雨量为150×0.2+250×0.4+350×0.3+450×0.1=30+100+105+45=280(mm).(2)根据频率分布直方图可知,降雨量在[200,400)内的频数为10×100×(0.003+0.004)=7.进而完善列联表如下.降雨量亩产量[200,400)[100,200)∪[400,500]总计 <600 2 2 4 ≥600 5 1 6 总计7310K 2=10×(2×1-5×2)7×3×4×6=8063≈1.270<1.323. 故认为乙品种杨梅的亩产量与降雨量有关的把握不足75%.而甲品种杨梅受降雨量影响的把握超过八成,故老李来年应该种植乙品种杨梅受降雨量影响更小.2.(2019·佛山模拟)表中的数据是一次阶段性考试某班的数学、物理原始成绩: 学号 1 2 34 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 数学117128 96 113 136 139 124 124 121 115 115 123 125 117 123 122 132 129 96 105 106 120 物理 8084838589819178859172 7687827982848963737745学号 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 数学108137 87 95 108 117 104 128 125 74 81 135 101 97 116 102 76 100 62 86 120 101 物理 768071577265697955567763707563596442627765学号为22号的A 同学由于严重感冒导致物理考试发挥失常,学号为31号的B 同学因故未能参加物理学科的考试,为了使分析结果更客观准确,老师将A ,B 两同学的成绩(对应于图中A ,B 两点)剔除后,用剩下的42个同学的数据作分析,计算得到下列统计指标:数学学科平均分为110.5,标准差为18.36,物理学科的平均分为74,标准差为11.18,数学成绩x 与物理成绩y 的相关系数r =0.822 2,回归直线l (如图所示)的方程为y ^=0.500 6x +18.68.(1)若不剔除A ,B 两同学的数据,用全部44人的成绩作回归分析,设数学成绩x 与物理成绩y 的相关系数为r 0,回归直线为l 0,试分析r 0与r 的大小关系,并在图中画出回归直线l 0的大致位置.(2)如果B 同学参加了这次物理考试,估计B 同学的物理分数(精确到个位).(3)就这次考试而言,学号为16号的C 同学数学与物理哪个学科成绩要好一些?(通常为了比较某个学生不同学科的成绩水平,可按公式Z i =x i -xs统一化成标准分再进行比较,其中x i 为学科原始成绩,x 为学科平均分,s 为学科标准差)解:(1)r 0<r ,说明理由可以是①离群点A ,B 会降低变量间的线性关联程度;②44个数据点与回归直线l 0的总偏差更大,回归效果更差,所以相关系数更小; ③42个数据点与回归直线l 的总偏差更小,回归效果更好,所以相关系数更大; ④42个数据点更加贴近回归直线l ; ⑤44个数据点与回归直线l 0更离散. 其他言之有理的理由均可.(直线l 0的斜率须大于0且小于l 的斜率,具体位置稍有出入没关系,无需说明理由) (2)将x =125代入y ^=0.500 6x +18.68中, 得y =62.575+18.68≈81,所以估计B 同学的物理分数大约为81分.(3)由表中数据知C 同学的数学原始成绩为122分,物理原始成绩为82分, 则数学标准分Z 16=x 16-x s 1=122-110.518.36=11.518.36≈0.63,物理标准分Z ′16=y 16-y s 2=82-7411.18=811.18≈0.72, 因为0.72>0.63,所以C 同学物理成绩比数学成绩要好一些.3.(2019·济南市模拟考试)某客户准备在家中安装一套净水系统,该系统为三级过滤,使用寿命为十年.如图所示,两个一级过滤器采用并联安装,二级过滤器与三级过滤器为串联安装.其中每一级过滤都由核心部件滤芯来实现.在使用过程中,一级滤芯和二级滤芯都需要不定期更换(每个滤芯是否需要更换相互独立),三级滤芯无需更换.若客户在安装净水系统的同时购买滤芯,则一级滤芯每个80元.二级滤芯每个160元.若客户在使用过程中单独购买滤芯,则一级滤芯每个200元,二级滤芯每个400元.现需决策安装净水系统的同时购买滤芯的数量,为此参考了根据100套该款净水系统在十年使用期内更换滤芯的相关数据制成的图表,其中图1是根据200个一级过滤器更换的滤芯个数制成的柱状图,表1是根据100个二级过滤器更换的滤芯个数制成的频数分布表.二级滤芯更换的个数5 6频数6040以200个一级过滤器更换滤芯的频率代替1个一级过滤器更换滤芯发生的概率,以100个二级过滤器更换滤芯的频率代替1个二级过滤器更换滤芯发生的概率.(1)求一套净水系统在使用期内需要更换的各级滤芯总个数恰好为30的概率;(2)记X表示该客户的净水系统在使用期内需要更换的一级滤芯总数,求X的分布列及数学期望;(3)记m,n分别表示该客户在安装净水系统的同时购买的一级滤芯和二级滤芯的个数,若m+n=28,且n∈{5,6},以该客户的净水系统在使用期内购买各级滤芯所需总费用的期望值为决策依据,试确定m,n的值.解:(1)由题意可知,若一套净水系统在使用期内需要更换的各级滤芯总个数恰好为30,则该套净水系统中的两个一级过滤器均需更换12个滤芯,二级过滤器需要更换6个滤芯.设“一套净水系统在使用期内需要更换的各级滤芯总个数恰好为30”为事件A,因为一个一级过滤器需要更换12个滤芯的概率为0.4,二级过滤器需要更换6个滤芯的概率为0.4,所以P(A)=0.4×0.4×0.4=0.064.(2)由柱状图可知,一个一级过滤器需要更换的滤芯个数为10,11,12,对应的概率分别为0.2,0.4,0.4,由题意,X可能的取值为20,21,22,23,24,并且P(X=20)=0.2×0.2=0.04,P(X=21)=0.2×0.4×2=0.16,P(X=22)=0.4×0.4+0.2×0.4×2=0.32,P(X=23)=0.4×0.4×2=0.32,P(X=24)=0.4×0.4=0.16.所以X的分布列为X 2021222324P 0.040.160.320.320.16E(X)=20×0.04(3)因为m+n=28,n∈{5,6},所以若m=22,n=6,则该客户在十年使用期内购买各级滤芯所需总费用的期望值为22×80+200×0.32+400×0.16+6×160=2 848.若m=23,n=5,则该客户在十年使用期内购买各级滤芯所需总费用的期望值为23×80+200×0.16+5×160+400×0.4=2 832.故m,n的值分别为23,5.4.某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.根据过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的关系为如图所示的折线图.(1)依据折线图,是否可用线性回归模型拟合y与x的关系?请计算相关系数r并加以说明(精确到0.01);(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较大,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:周光照量X(单位:小时)30<X<5050≤X≤70X>70光照控制仪运行台数32 1则该台光照控制仪周亏损1 000元.以频率作为概率,商家欲使周总利润的均值达到最大,应安装光照控制仪多少台?附相关系数公式:r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2,参考数据:0.3≈0.55,0.9≈0.95.解:(1)由已知数据可得x=2+4+5+6+85=5,y=3+4+4+4+55=4.因为∑i=15(x i-x)(y i-y)=(-3)×(-1)+0+0+0+3×1=6,∑i =15(x i -x )2=(-3)2+(-1)2+02+12+32=25,∑i =15(y i -y )2=(-1)2+02+02+02+12=2,所以相关系数r =∑i =15(x i -x )(y i -y )∑i =15(x i -x )2∑i =15(y i -y )2=625×2=910≈0.95. 因为|r |>0.75,所以可用线性回归模型拟合y 与x 的关系.(2)记商家周总利润为Y 元,由条件可知至少需安装1台,最多安装3台光照控制仪. ①安装1台光照控制仪可获得周总利润3 000元. ②安装2台光照控制仪的情形:当X >70时,只有1台光照控制仪运行,此时周总利润Y =3 000-1 000=2 000(元),P (Y =2 000)=1050=0.2,当30<X ≤70时,2台光照控制仪都运行,此时周总利润Y =2×3 000=6 000(元),P (Y =6 000)=4050=0.8,故Y 的分布列为③安装3台光照控制仪的情形:当X >70时,只有1台光照控制仪运行,此时周总利润 Y =1×3 000-2×1 000=1 000(元). P (Y =1 000)=1050=0.2.当50≤X ≤70时,有2台光照控制仪运行,此时周总利润 Y =2×3 000-1×1 000=5 000(元), P (Y =5 000)=3550=0.7,当30<X <50时,3台光照控制仪都运行,周总利润Y =3×3 000=9 000(元),P (Y =9 000)=550=0.1, 故Y 的分布列为综上可知,为使商家周总利润的均值达到最大,应该安装2台光照控制仪.。

高考数学复习:统计与统计案例

高考数学复习:统计与统计案例

针对该校“选择考”情况,2020年与2018年比较,下列说法正确的是
√A.获得A等级的人数增加了
√B.获得B等级的人数增加了1.5倍
C.获得D等级的人数减少了一半
D.获得E等级的人数相同
解析 设2018年参加“选择考”的总人数为x,则2020年参加“选择考”
的总人数为2x,根据图表得出2018年和2020年各个等级的人数如表所示.
SO2
[0,50]
PM2.5
(50,150]
(150,475]
[0,35]
32
18
4
(35,75]
6
8
12
(75,115]
3
7
10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过 150”的概率;
解 由表格可知,该市100天中,空气中的PM2.5浓度不超过75,且SO2 浓度不超过150的天数为32+6+18+8=64,
考情分析
KAO QING FEN XI
高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样 本估计总体,线性回归方程的求解与运用,独立性检验问题.常与概 率综合考查,中等难度.

考点一

考点二

考点三

专题强化练
1 考点一 统计图表
PART ONE
核心提炼
频率
频率
1.频率分布直方图中横坐标表示组距,纵坐标表示组距,频率=组距×组距.
SO2 PM2.5
[0,150]
(150,475]
[0,75]
64
16
(75,115]
10
10
规律 方法
独立性检验的关键 (1)根据2×2列联表准确计算K2,若2×2列联表没有列出来, 要先列出此表. (2)K2的观测值k越大,对应的假设H0成立的概率越小,H0不 成立的概率越大.

高考专项:统计与统计案例(教师版)

高考专项:统计与统计案例(教师版)

第1讲随机抽样最新考纲 1.理解随机抽样的必要性和重要性;2.会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.会用随机抽样的基本方法解决一些简单的实际问题.知识梳理1.简单随机抽样(1)定义:从元素个数为N的总体中不放回地抽取容量为n的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.(3)应用范围:总体中的个体数较少.2.系统抽样(1)定义:当总体数量很大时,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样.(2)系统抽样的操作步骤假设要从容量为N的总体中抽取容量为n的样本.①先将总体的N个个体编号;②确定分段间隔k,对编号进行分段,当Nn(n是样本容量)是整数时,取k=Nn;③在第1段用简单随机抽样确定第一个个体编号l(l≤k);④按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.(3)应用范围:总体中的个体数较多.3.分层抽样(1)定义:在抽样时,将总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样.(2)应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.诊断自测1.判断正误(在括号内打“√”或“×”)精彩PPT展示(1)简单随机抽样每个个体被抽到的机会不一样,与先后有关.()(2)系统抽样在起始部分抽样时采用简单随机抽样.()(3)分层抽样中,每个个体被抽到的可能性与层数及分层有关.()(4)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.()答案(1)×(2)√(3)×(4)×2.(教材改编)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是()A.总体B.个体C.样本的容量D.从总体中抽取的一个样本解析由题目条件知,5 000名居民的阅读时间的全体是总体;其中1名居民的阅读时间是个体;从5 000名居民某天的阅读时间中抽取的200名居民的阅读时间是从总体中抽取的一个样本,样本容量是200.答案 A3.(2015·四川卷)某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是()A.抽签法B.系统抽样法C.分层抽样法D.随机数法解析因为总体由有明显差异的几部分构成,所以用分层抽样法.故选C.答案 C4.(2017·济南质检)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为()A.50B.40C.25D.20解析根据系统抽样的特点分段间隔为1 00040=25.答案 C5.从300名学生(其中男生180人,女生120人)中按性别用分层抽样的方法抽取50人参加比赛,则应该抽取男生人数为________.解析因为男生与女生的比例为180∶120=3∶2,所以应该抽取男生人数为50×33+2=30.答案30考点一简单随机抽样及其应用【例1】(1)下列抽取样本的方式属于简单随机抽样的个数为()①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0B.1C.2D.3(2)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()A.08B.07C.02D.01解析(1)①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;②不是简单随机抽样.因为它是有放回抽样;③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取;④不是简单随机抽样.因为不是等可能抽样.故选A.(2)从第1行第5列和第6列组成的数65开始由左到右依次选出的数为08,02,14,07,01,所以第5个个体编号为01.答案(1)A(2)D规律方法(1)简单随机抽样是从含有N(有限)个个体的总体中,逐个不放回地抽取样本,且每次抽取时总体内的各个个体被抽到的机会都相等.(2)一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;二是号签是否易搅匀,一般地,当总体容量和样本容量都较小时可用抽签法.而随机数表法适用于总体中个体数较多的情形:随机数表法的操作要点:编号,选起始数,读数,获取样本.【训练1】(1)下面的抽样方法是简单随机抽样的是()A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D.用抽签方法从10件产品中选取3件进行质量检验(2)下列抽样试验中,适合用抽签法的有()A.从某厂生产的5 000件产品中抽取600件进行质量检验B.从某厂生产的两箱(每箱18件)产品中抽取6件进行质量检验C.从甲、乙两厂生产的两箱(每箱18件)产品中抽取6件进行质量检验D.从某厂生产的5 000件产品中抽取10件进行质量检验解析(1)A,B选项中为系统抽样,C为分层抽样.(2)A,D中的总体中个体数较多,不适宜抽签法,C中甲、乙两厂的产品质量有区别,也不适宜抽签法,故选B.答案(1)D(2)B考点二系统抽样及其应用【例2】(1)已知某商场新进3 000袋奶粉,为检查其三聚氰胺是否超标,现采用系统抽样的方法从中抽取150袋检查,若第一组抽出的号码是11,则第六十一组抽出的号码为________.(2)(2015·湖南卷)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是()A.3B.4C.5D.6解析(1)由系统抽样,抽样间隔k=3 000150=20,由题意知这些号码是以11为首项,20为公差的等差数列,则a61=11+60×20=1 211,故第61组抽取号码为1 211.(2)从35人中用系统抽样方法抽取7人,则可将这35人分成7组,每组5人,从每一组中抽取1人,而成绩在[139,151]上的有4组,所以抽取4人,故选B.答案(1)1 211(2)B规律方法(1)如果总体容量N能被样本容量n整除,则抽样间隔为k=Nn,否则,可随机地从总体中剔除余数,然后按系统抽样的方法抽样,特别注意,每个个体被抽到的机会均是nN.(2)系统抽样中依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.【训练2】(1)(2017·郑州模拟)为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是()A.13B.19C.20D.51(2)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为()A.7B.9C.10D.15。

统计与统计案例练习题及知识点总结(全面)-高考数学

统计与统计案例练习题及知识点总结(全面)-高考数学

统计与统计案例练习题与知识点总结1.为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是()A.该地农户家庭年收入低于4.5万元的农户比率估计为6%B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%C.估计该地农户家庭年收入的平均值不超过6.5万元D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间【答案】C【分析】根据直方图的意义直接计算相应范围内的频率,即可判定ABD,以各组的中间值作为代表乘以相应的频率,然后求和即得到样本的平均数的估计值,也就是总体平均值的估计值,计算后即可判定C.【详解】因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.该地农户家庭年收入低于4.5万元的农户的比率估计值为0.020.040.066%+==,故A 正确;该地农户家庭年收入不低于10.5万元的农户比率估计值为0.040.0230.1010%+⨯==,故B 正确;该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为0.100.140.2020.6464%50%++⨯==>,故D 正确;该地农户家庭年收入的平均值的估计值为30.0240.0450.1060.1470.2080.2090.10100.10110.04120.02130.02140.027.68⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=(万元),超过6.5万元,故C 错误.综上,给出结论中不正确的是C.故选:C.【点睛】本题考查利用样本频率直方图估计总体频率和平均值,属基础题,样本的频率可作为总体的频率的估计值,样本的平均值的估计值是各组的中间值乘以其相应频率然后求和所得值,可以作为总体的平均值的估计值.注意各组的频率等于⨯频率组距组距.2.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品二级品合计甲机床15050200乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:22()()()()()n ad bc K a b c d a c b d -=++++()2P K k ≥0.0500.0100.001k3.8416.63510.828【答案】(1)75%;60%;(2)能.【分析】本题考查频率统计和独立性检验,属基础题,根据给出公式计算即可【详解】(1)甲机床生产的产品中的一级品的频率为15075% 200=,乙机床生产的产品中的一级品的频率为12060% 200=.(2)()22400150801205040010 6.63527013020020039K⨯-⨯==>>⨯⨯⨯,故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.1.随机抽样(1)简单随机抽样:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)分层抽样:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.2.用样本的频率分布估计总体分布(1)在频率分布直方图中,纵轴表示频率/组距,数据落在各小组内的频率用各小长方形的面积表示.各小长方形的面积的总和等于1.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线.(3)茎叶图茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.用样本的数字特征估计总体的数字特征(1)众数:一组数据中出现次数最多的数.(2)中位数:将数据从小到大排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数.(3)平均数:x=x1+x2+…+x nn,反映了一组数据的平均水平.(4)标准差:是样本数据到平均数的一种平均距离,s=1[x1-x2+x2-x2+…+x n-x2].n[(x1-x)2+(x2-x)2+…+(x n-x)2](x n是样本数据,n是样本容量,x是样本平均数).(5)方差:s2=1n4.相关关系与回归方程(1)相关关系的分类①正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.②负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(2)线性相关关系如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程①最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.②回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.(4)回归分析①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.②样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心.③相关系数当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.5.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1y 2总计x 1a b a +b x 2c d c +d 总计a +cb +da +b +c +d构造一个随机变量K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d 为样本容量.(3)独立性检验:利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.1.如图为国家统计局2021年1月19日发布的2020年各季度社会消费品零售总额及增速,则下列说法:①各季度社会消费品零售总额增速最快的是4季度;②各季度社会消费品零售总额增速最快的是2季度;③各季度社会消费品零售总额增量最大的是4季度;④各季度社会消费品零售总额增量最大的是2季度.其中所有正确说法的序号为()A.①④B.②③C.①③D.②④2.下图是2020年我国居民消费价格月度涨跌幅度图(来源于国家统计局网站)下列说法错误的是()A.1~12月月度同比的平均值为2.55B .1~12月月度环比的平均值为负数C .1~12月月度同比整体为下降趋势D .1~12月月度环比的方差大于月度同比的方差3.已知相关变量x 和y 的散点图如图所示,若用()11ln y b k x =⋅与22y kx b =+拟合时的相关系数分别为12,r r 则比较12,r r 的大小结果为()A .12r r >B .12r r =C .12r r <D .不确定4.下列说法中错误的个数是①某校共有女生2021人,用简单随机抽样的方法先剔除21人,再按系统抽样的方法抽取为200人,则每个女生被抽到的概率为110;②由样本数据得到的回归直线方程y bx a =+$$$必经过样本中心点()x y ;③如果落在回归直线上的样本点越多,则回归直线方程的拟合效果就越好;④在一个2×2列联表中,由计算得出220.21K =,而()210.8280.001P K ≥≈,则在犯错误的概率不超过0.001的前提下认为这两个变量之间有相关关系.()A .1B .2C .3D .45.质检机构为检测一大型超市某商品的质量情况,从编号为1~120的该商品中利用系统抽样的方法抽8件进行质检,若所抽样本中含有编号67的商品,则下列编号一定被抽到的是()A .112B .53C .38D .96.2020年是全面实现小康社会目标的一年,也是全面打赢脱贫攻坚战的一年,某研究性学习小组调查了某脱贫县的甲、乙两个家庭,对他们过去6年(2014年到2019年)的家庭收入情况分别进行统计,发现他们的收入逐年增长,得到这两个家庭的年人均纯收入(单位:百元/人)茎叶图.对甲、乙两个家庭的年人均纯收入(以下分别简称“甲”“乙”)情况的判断,不正确的是()A.过去的6年,“甲”的极差小于“乙”的极差B.过去的6年,“甲”的平均值小于“乙”的平均值C.过去的6年,“甲”的中位数小于“乙”的中位数D.过去的6年,“甲”的平均增长率小于“乙”的平均增长率7.为了普及新冠肺炎知识,增强疫情防控意识,某学校从高一和高二两个年级各抽取5位同学参加新冠肺炎知识测试,得分(十分制)情况如下表所示,则下列描述正确的是()高一年级组高二年级组得分45678得分569频数11111频数311A.高一年级组数据的平均数为6分,高二年级组数据的平均数为5分B.两组数据的中位数都是6分C.高一年级组数据的极差小于高二年级组数据的极差D.高一年级组成绩的方差小于高二年级组成绩的方差8.某中学2018年的高考考生人数是2015年高考考生人数的1.5倍,为了更好地对比该校考生的升学情况,统计了该校2015年和2018年的高考情况,得到如图柱状图:则下列结论正确的是()A.与2015年相比,2018年一本达线人数减少B .与2015年相比,2018年二本达线人数增加了0.5倍C .2015年与2018年艺体达线人数相同D .与2015年相比,2018年不上线的人数有所增加9.m 个数据的平均数为a ,中位数为b ,方差为c .若将这m 个数据均扩大到原来的2倍得到一组新数据,则下列关于这组新数据的说法正确的是()A .平均数为aB .中位数为2bC D .方差为2c10.已知变量y 关于x 的回归方程为0.5bx y e -=,其一组数据如表所示:若5x =,则预测y 值可能为()x1234ye3e 4e 6e A .5e B .112e C .7e D .152e 11.给出下列说法:①回归直线ˆˆˆy bx a =+恒过样本点的中心(x y ,且至少过一个样本点;②两个变量相关性越强,则相关系数||r 就越接近1;③将一组数据的每个数据都加一个相同的常数后,方差不变;④在回归直线方程ˆ20.5yx =-中,当解释变量x 增加一个单位时,预报变量ˆy 平均减少0.5个单位.其中说法正确的是()A .①②④B .②③④C .①③④D .②④12.在一次对性别与是否说谎有关的调查中,得到如下数据,根据表中数据判断如下结论中正确的是()性别说谎不说谎总计男6713女8917总计141630A .在此次调查中有95%的把握认为是否说谎与性别有关B .在此次调查中有99%的把握认为是否说谎与性别有关C .在此次调查中有99.5%的把握认为是否说谎与性别有关D .在此次调查中没有充分证据显示说谎与性别有关13.下列四个命题中,正确的有()①两个变量间的相关系数r 越小,说明两变量间的线性相关程度越低;②命题“x ∃∈R ,使得210x x ++<”的否定是:“对x ∀∈R ,均有210x x ++>”;③命题“p g ∧为真”是命题“p q ∨为真”的必要不充分条件;④若函数322()3f x x ax bx a =+++在1x =-有极值0,则2a =,9b =或1a =,3b =.A .0B .1C .2D .314.某中学共有1000人,其中男生700人,女生300人,为了了解该校学生每周平均体育锻炼时间的情况以及经常进行体育锻炼的学生是否与性别有关(经常进行体育锻炼是指:周平均体育锻炼时间不少于4小时),现在用分层抽样的方法从中收集200位学生每周平均体育锻炼时间的样本数据(单位:小时),其频率分布直方图如图.已知在样本数据中,有40位女生的每周平均体育锻炼时间超过4小时,根据独立性检验原理()附:()()()()()22n ad bc K a c b d a d b c -=++++,其中n a b c d =+++.()20P K k ≥0.100.050.010.0050k 2.7063.8416.6357.879A .有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”B .有90%的把握认为“该校学生每周平均体育锻炼时间与性别有关”C .有90%的把握认为“该校学生每周平均体育锻炼时间与性别无关”D .有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”15.下图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的概率为()A.0.2B.0.4C.0.5D.0.616.设一组样本数据x1,x2,…,x n的方差为0.01,则数据10x1,10x2,…,10x n的方差为()A.0.01B.0.1C.1D.1017.下图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件)若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为A.5,5B.3,5C.3,7D.5,718.某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次[0,200](200,400](400,600]空气质量等级1(优)216252(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次≤400人次>400空气质量好空气质量不好附:22()()()()()n ad bcKa b c d a c b d-=++++,P(K2≥k)0.0500.0100.001k 3.841 6.63510.82819.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:22()()()()()n ad bcKa b c d a c b d-=++++.P(K2≥k)0.0500.0100.001k 3.841 6.63510.82820.为调查某地区老人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:是否需要志愿性别男女需要4030不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提供更好的调查方法来估计该地区老年人,需要志愿帮助的老年人的比例?说明理由附:1.C 【分析】根据折线统计图比较各季度社会消费品零售总额增速,可判断①②的正误;计算各季度社会消费品零售总额增量,可判断③④的正误.【详解】第1季度社会消费品零售总额增速为19.0%-,第2季度社会消费品零售总额增速为 3.9%-,第3季度社会消费品零售总额增速为0.9%,第4季度社会消费品零售总额增速为4.6%,故①正确,②错误;第2季度社会消费品零售总额增量为9.377.86 1.51-=(万亿元),第3季度社会消费品零售总额增量为10.119.370.74-=(万亿元),第4季度社会消费品零售总额增量为11.8710.11 1.76-=(万亿元).故③正确,④错误.故选:C.2.D 【分析】根据图表数据计算平均数,然后判断A 和B ;根据图表数据的变化趋势判断C 和D.【详解】同比平均数:()5.4 5.2 4.3 3.3 2.4 2.5 2.7 2.4 1.70.50.50.72.5512++++++++++-+=,环比平均数:()()()()()()1.40.8 1.20.90.80.10.60.40.20.30.60.20.02512++-+-+-+-++++-+-+=-,1-12月月度同比的平均值为2.55,选项A 正确;1~12月月度环比的平均值为0.025-,选项B 正确;观察图表可以得出,1~12月月度同比整体为下降趋势,选项C 正确;1~12月月度环比的波动小于月度同比的波动,选项D 错误.故选:D .3.C 【分析】由散点图可知,对数形式的拟合程度高,再根据负相关,比较两个相关系数大小.【详解】由散点图可知,()11ln y b k x =拟合比用22y k x b =+拟合的程度高,故12r r >;又因为此关系为负相关,1212,r r r r ∴->-<故选:C 4.B 【分析】由古典概型的特征可判断①;由回归直线方程的特征可判断②③;由独立性检验思想可判断④.【详解】①错误,古典概率中,每个个体被抽的概率都是一样的,都等于2002021;②正确由回归直线方程的特征可知回归直线方程y bx a =+$$$必经过样本中心点(),x y ;③错误,落在回归直线附近的样本点越多,则回归直线方程的拟合效果越好;④正确,当220.21K =,而()210.8280.001P K ≥≈,则在犯错误的概率不超过0.001的前提下认为这两个变量之间有相关关系所以错误个数为2.故选:B.5.A 【分析】根据系统抽样的特征,结合所给编号求出第一组抽取商品编号,即可求解.【详解】由题意知,组距为120158=,设第一组抽取编号为k ,则第n 组抽取的编号为15(1)n k -+,样本中含有编号67的商品,即15(51)67k ⨯-+=,可得7k =,因为1577112⨯+=,即第8组中抽取商品的编号为112.故选:A 6.B 【分析】对茎叶图进行数据分析,分别计算极差、平均数、中位数、及平均增长率,依次判断四个选项.【详解】对于A ,甲的极差为42366-=,乙的极差为41347-=,所以“甲”的极差小于“乙”的极差,A 正确;对于B ,甲的平均数是1230(363737384042)66⨯+++++=,乙的平均数为1228(343638394041)66⨯+++++=,所以“甲”的平均值大于“乙”的平均值,B 错误;对于C ,甲的中位数是1(3738)37.52⨯+=,乙的中位数是1(3839)38.52⨯+=,所以,“甲”的中位数小于“乙”的中位数,C 正确;对于D ,设过去6年甲的平均增长率为x ,则()636142x +=,解得:1x =-,即过去61-;1-.因为42413634<,所以“甲”的平均增长率小于“乙”的平均增长率,D 正确.故选:B.7.D 【分析】根据表中数据,依次讨论各选项即可得答案.【详解】对于A 选项,高一年级和高二年级的平均分均为6分,故A 选项错误;对于B 选项,高一年级的中位数是6,高二年级的中位数是5,故B 选项错误;对于C 选项,高一年级的极差为4,高二年级的极差为3,故高一年级组数据的极差大于高二年级组数据的极差,故C 选项错误;对于D 选项,高一年成绩的方差为()()()()()2222221465666768625S ⎡⎤=-+-+-+-+-=⎣⎦,高二年级成绩的方差为()()()222213566696 2.45S ⎡⎤=-+-+-=⎣⎦,满足,故D 选项正确;故选:D 8.D 【分析】设2015年该校参加高考的人数为S ,则2018年该校参加高考的人数为1.5S ,观察柱状统计图,找出各数据,再利用各数量间的关系列式计算得到【详解】设2015年该校参加高考的人数为S ,则2018年该校参加高考的人数为1.5S.对于选项A :2015年一本达线人数为0.28S ,2018年一本达线人数为0.24×1.5S =0.36S ,可见一本达线人数增加了,故A 错误;对于选项B :2015年二本达线人数为0.32S ,2018年二本达线人数为0.4×1.5S =0.6S ,显然2018年二本达线人数不是增加了0.5倍,故B 错误;对于选项C :2015年和2018年艺体达线率没变,但是人数是不相同的,故C 错误;对于选项D :2015年不上线人数为0.32S ,2018年不上线人数为0.28×1.5S=0.42S ,不达线人数有所增加,故D 正确.故选:D 9.B 【分析】m 个12,,,n x x x 数据的平均数为a ,中位数为b ,方差为c .若将这m 个数据均扩大到原来的2倍得到一组新数据122,2,,2n x x x ,根据平均数、中位数、方差、标准差的定义进行判断即可.【详解】m 个12,,,n x x x 数据的平均数为a ,中位数为b ,方差为c .若将这m 个数据均扩大到原来的2倍得到一组新数据122,2,,2n x x x ,则由于平均数为所有数之和除以m ,故平均数变为2a ,故A 错;中位数为这组数从小到大排列后中间的那个数或中间两数和的平均数,由于每个数都变为原来2倍,所以中位数也变为原来的2倍,即2b ,故B 对;方差描述的是这组数的波动情况,12,,,n x x x 的方差为c ,则122,2,,2n x x x 的方差为224c c =2c =,故C,D 错;故选:B 【点睛】熟悉平均数、中位数、方差、标准差的概念,特别是一组数据扩大某个倍数或增加某个数值的情况下,平均数、中位数、方差、标准差的变化.10.D 【分析】将回归方程左右同时取对数得:ln 0.5y bx =-,看作回归直线的形式,由回归直线过样本中心点可构造方程求得b ,由此得到回归方程;将5x =代入回归方程即可求得结果.【详解】由0.5bx y e-=得:ln 0.5y bx =-,346ln ln ln ln 12340.544e e e e b ++++++∴=⋅-,解得: 1.6b =,∴回归方程为 1.60.5x y e -=,若5x =,则1580.52y e e -==.故选:D.【点睛】关键点点睛:本题考查非线性回归中的预估值的求解,解题关键是能够通过对指数型回归模型左右同时取对数,将其变为线性回归的形式来进行求解.11.B 【分析】①中,根据回归直线方程的特征,可判定是不正确;②中,根据相关系数的意义,可判定是是正确的;③中,根据方差的计算公式,可判定是正确的;④中,根据回归系数的含义,可判定是正确的.【详解】对于①中,回归直线ˆˆˆy bx a =+恒过样本点的中心(x y ,但不一定过一个样本点,所以不正确;对于②中,根据相关系数的意义,可得两个变量相关性越强,则相关系数||r 就越接近1,所以是正确的;对于③中,根据方差的计算公式,可得将一组数据的每个数据都加一个相同的常数后,方差是不变的,所以是正确的;对于④中,根据回归系数的含义,可得在回归直线方程ˆ20.5yx =-中,当解释变量x 增加一个单位时,预报变量ˆy平均减少0.5个单位,所以是正确的.故选:B.【点睛】本题主要考查了统计知识的相关概念及判定,其中解答中熟记回归直线方程的特征,回归系数的含义,相关系数的意义,以及方程的计算方法是解答的关键,属于基础题.12.D 【解析】根据上表数据可求得20.027 1.323k ≈<,再结合课本上的概率附表可知在此次调查中没有充分证据显示说谎与性别有关,故选D 13.A 【分析】根据相关系数的定义可知①错误;根据特称命题(又叫存在性命题)的否定可知②错误;根据真值表即可判断“p q ∧为真”是命题“p q ∨为真”的充分不必要条件,故③错误;由条件可得,(1)0,(1)0,f f '-=-=解得a=2,b=9或a=1,b=3,经检验,当a=1,b=3时,22()3633(1)0f x x x x '=++=+≥恒成立,此时()f x 没有极值点,故④错误。

高中数学【统计与统计案例】专题练习

高中数学【统计与统计案例】专题练习

高中数学【统计与统计案例】专题练习1.(多选)下列统计量中,能度量样本x 1,x 2,…,x n 的离散程度的是( ) A.样本x 1,x 2,…,x n 的标准差 B.样本x 1,x 2,…,x n 的中位数 C.样本x 1,x 2,…,x n 的极差 D.样本x 1,x 2,…,x n 的平均数 答案 AC解析 由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势;故选AC.2.某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下: 旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7 新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为x -和y -,样本方差分别记为s 21和s 22. (1)求x -,y -,s 21,s 22;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y --x -≥2s 21+s 2210,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).解 (1)x -=9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.710=10,y -=10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.510=10.3,s 21=0.22+0.32+0+0.22+0.12+0.22+0+0.12+0.22+0.3210=0.036,s 22=0.22+0.12+0.22+0.32+0.22+0+0.32+0.22+0.12+0.2210=0.04. (2)由(1)知,y --x -=0.3; 2s 21+s 2210=20.036+0.0410=20.007 6.又(y --x -)2=0.09>(20.007 6)2=0.030 4,则y --x ->2s 21+s 2210,所以新设备生产产品的该项指标的均值较旧设备有显著提高.3.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑20i =1x i =60,∑20i =1y i =1 200,∑20i =1(x i -x -)2=80,∑20i =1(y i-y -)2=9 000,∑20i =1(x i -x -)(y i -y -)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑ni =1 (x i -x -)(y i -y -)∑n i =1(x i -x -)2∑n i =1 (y i -y -)2,2≈1.414.解 (1)由已知得样本平均数y -=120∑20i =1y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑20i =1 (x i -x -)(y i -y -)∑20i =1(x i -x -)2∑20i =1(y i -y -)2=80080×9 000=223≈0.94.(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关性.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.1.抽样方法抽样方法包括简单随机抽样、分层随机抽样,两种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围. 2.统计中的五个数据特征(1)众数:在样本数据中,出现次数最多的那个数据.(2)中位数:在样本数据中,将数据按大小顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数. (3)平均数:样本数据的算术平均数,即x -=1n (x 1+x 2+…+x n ).(4)第p 百分位数:将一组数据(共n 个)按从小到大排列,计算i =n ×p %,若i 不是整数,而大于i 的比邻整数为j ,则第p 百分位数为第j 项数据;若i 是整数,则第p 百分位数为第i 项与第(i +1)项数据的平均数.(5)方差与标准差.s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],s =1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2].3.频率分布直方图的两个结论 (1)小长方形的面积=组距×频率组距=频率. (2)各小长方形的面积之和等于1. 4.回归分析与独立性检验(1)回归直线y ^=b ^x +a ^经过样本点的中心(x -,y -),若x 取某一个值代入回归直线方程y ^=b ^x +a ^中,可求出y 的估计值. (2)独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是:X Y 合计 y 1 y 2 x 1 a b a +b x 2 c d c +d 合计a +cb +dn则χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).热点一 用样本估计总体考向1 数字特征与统计图表的应用【例1】 (1)空气质量指数分为六级,指数越大说明污染的情况越严重,对人体危害越大,其中指数范围[0,50],[51,100],[101,150],[151,200],[201,300]分别对应“优”“良”“轻度污染”“中度污染”“重度污染”五个等级.如图是某市连续14天的空气质量指数趋势图,下列说法不正确的是( )A.这14天中有4天空气质量为“良”B.这14天中空气质量指数的中位数是103C.从2日到5日空气质量越来越差D.连续三天中空气质量指数方差最小的是9日到11日(2)2020年我国突发新冠肺炎疫情,疫情期间中小学生“停课不停学”.已知某地区中小学生人数情况如甲图所示,各学段学生在疫情期间“家务劳动”的参与率如乙图所示.为了进一步了解该地区中小学生参与“家务劳动”的情况,现用分层随机抽样的方法抽取4%的学生进行调查,则抽取的样本容量、抽取的高中生中参与“家务劳动”的人数分别为()A.2 750,200B.2 750,110C.1 120,110D.1 120,200答案(1)B(2)C解析(1)在这14天中,1日、3日、12日、13日的空气质量为良,共4天,故A正确.14天中空气质量指数的中位数为86+1212=103.5,故B错误.从2日到5日,空气质量指数越来越高,故空气质量越来越差,C正确.观察题图可得,9日至11日空气质量指数偏差最小,因此方差最小,D正确.综上知,说法不正确的是B.(2)学生总数为15 500+5 000+7 500=28 000(人),由于抽取4%的学生进行调查,则抽取的样本容量为28 000×4%=1 120.故高中生应抽取的人数为5 000×4%=200,而抽取的高中生中参与“家务劳动”的比率为0.55,故抽取的高中生中参与“家务劳动”的人数为200×0.55=110.探究提高 1.解题的关键是理解统计图表的含义,从中提取数字信息,平均数、众数、中位数描述数据的集中趋势,方差与标准差描述数据的波动大小,标准差、方差越小,数据的离散程度越小,越稳定.2.进行分层随机抽样的相关计算时,常用到的两个关系:(1)样本容量n总体的个数N=该层抽取的个体数该层的个体数;(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.【训练1】(1)以下数据为参加数学竞赛决赛的15人的成绩:(单位:分)78,70,72,86,88,79,80,81,94,84,56,98,83,90,91,则这15人成绩的第80百分位数是()A.90B.90.5C.91D.91.5(2)(多选) 2020年上半年,中国养猪企业受猪价高位的利好影响,大多收获史上最佳半年报业绩,部分企业半年报营业收入同比增长超过1倍.某养猪场抓住机遇,加大了生猪养殖规模,为了检测生猪的养殖情况,该养猪场对2 000头生猪的体重(单位:kg)进行了统计,得到如图所示的频率分布直方图,则下列说法正确的是()A.这2 000头生猪体重的众数为160 kgB.这2 000头生猪中体重不低于200 kg的有80头C.这2 000头生猪体重的中位数落在区间[140,160)内D.这2 000头生猪体重的平均数为152.8 kg答案(1)B(2)BCD解析(1)把成绩按从小到大的顺序排列为:56,70,72,78,79,80,81,83,84,86,88,90,91,94,98,因为15×80%=12,所以这15人成绩的第80百分位数是90+912=90.5.(2)由频率分布直方图可知,[140,160)这一组的数据对应的小长方形最高,所以这2 000头生猪的体重的众数为150 kg,A错误;这2 000头生猪中体重不低于200 kg的有0.002×20×2 000=80(头),B正确;因为生猪的体重在[80,140)内的频率为(0.001+0.004+0.01)×20=0.3,在[140,160)内的频率为0.016×20=0.32,且0.3+0.32=0.62>0.5,所以这2 000头生猪体重的中位数落在区间[140,160)内,C正确;这2 000头生猪体重的平均数为(0.001×90+0.004×110+0.01×130+0.016×150+0.012×170+0.005×190+0.002×210)×20=152.8(kg),D正确.考向2用样本的频率分布估计总体分布【例2】为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解(1)由已知得0.70=a+0.20+0.15,故a=0.35,b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.2.在例2中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.【训练2】(多选)为了更好地支持中小型企业的发展,某市决定对部分企业的税收进行适当的减免,现调查了当地100家中小型企业年收入(单位:万元)情况,并根据所得数据画出了如图所示的频率分布直方图,则下列结论正确的是()A.样本在区间[500,700]内的频数为18B.如果规定年收入在300万元以内的企业才能享受减免税收政策,估计有30%的当地中小型企业能享受到减免税收政策C.样本的中位数大于350万元D.可估计当地中小型企业年收入的平均数超过400万元(同一组中的数据用该组区间的中点值作代表)答案ABC解析依题意,(0.001+0.002+0.002 6×2+a+0.000 4)×100=1,所以a=0.001 4.对于A,样本在[500,700]内的频率为(0.001 4+0.000 4)×100=0.18,故频数为0.18×100=18,故A正确.对于B,年收入在300万元以内的频率为(0.001+0.002)×100=0.3,故B正确. 对于C,设样本的中位数为x,易知中位数位于[300,400]内,则0.3+(x-300)×0.002 6=0.5,解得x≈376.9,376.9>350,故C正确.因为样本的平均数为150×0.1+250×0.2+350×0.26+450×0.26+550×0.14+650×0.04=376<400,所以估计当地中小型企业年收入的平均数小于400万元,故D 错误. 热点二 回归分析【例3】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据进行了初步处理,得到如图所示散点图及一些统计量的值.x -y -w -∑8i =1(x i -x -)2∑8i =1(w i -w -)2∑8i =1(x i -x -)·(y i -y -) ∑8i =1(w i -w -)·(y i -y -) 46.65636.8289.8 1.61 469108.8表中w i =x i ,w -=18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个更适宜作为年销售量y 关于年宣传费x 的回归方程?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=∑ni =1(u i -u -)(v i -v -)∑n i =1(u i -u -)2,α^=v --β^u -.解 (1)由散点图可以判断,y =c +d x 更适宜作为年销售量y 关于年宣传费x 的回归方程.(2)易知w =x ,则y ^=d ^w +c ^.由题意得d ^=∑8i =1(w i -w -)(y i -y -)∑8i =1(w i -w -)2=108.81.6=68,所以c ^=y --d ^w -=563-68×6.8=100.6.所以y 关于w 的线性回归方程为y ^=100.6+68w , 所以y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值为y ^=100.6+6849=576.6,年利润z 的预报值为z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 探究提高 1.求回归直线方程的关键及实际应用 (1)关键:正确理解b ^,a ^的计算公式并准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. 2.相关系数(1)当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关. (2)当|r |>0.75时,认为两个变量具有较强的线性相关关系.【训练3】 (多选)我国5G 技术研发试验在2016~2018年进行,分为5G 关键技术试验、5G 技术方案验证和5G 系统验证三个阶段.2020年初以来,5G 技术在我国已经进入高速发展的阶段,5G 手机的销量也逐渐上升.某手机商城统计了2021年5个月5G 手机的实际销量,如下表所示:若y 与x 线性相关,且求得线性回归方程为y ^=45x +5,则下列说法正确的是( ) A.a =142 B.y 与x 正相关C.y 与x 的相关系数为负数D.2021年7月该手机商城的5G 手机销量约为365部 答案 AB解析 x -=1+2+3+4+55=3,y -=50+96+a +185+2275=558+a 5,因为点(x -,y -)在回归直线上,所以558+a5=45×3+5,解得a =142,所以选项A 正确;从表格数据看,y 随x 的增大而增大,所以y 与x 正相关,所以选项B 正确;因为y 与x 正相关,所以y 与x 的相关系数为正数,所以选项C 错误;2021年7月对应的月份编号x =7,当x =7时,y ^=45×7+5=320,所以2021年7月该手机商城的5G 手机销量约为320部,所以选项D 错误.故选AB.热点三 独立性检验【例4】 为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO 2浓度(单位:μg/m 3),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,依据小概率值α=0.01的χ2独立性检验,能否认为该市一天空气中PM2.5浓度与SO 2浓度有关? 附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),解 (1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64. (2)根据抽查数据,可得2×2列联表:(3)零假设为H 0:该市一天空气中PM2.5浓度与SO 2浓度无关.根据(2)的列联表得χ2=100×(64×10-16×10)280×20×74×26≈7.484>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为该市一天空气中PM2.5浓度与SO 2浓度有关,此推断犯错误的概率不超过0.01. 探究提高 1.独立性检验的一般步骤 (1)根据样本数据列成2×2列联表; (2)根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),计算χ2的值;(3)查表比较χ2与临界值的大小关系,作统计判断.2.χ2的值越大,对应假设事件H 0成立(两类变量相互独立)的概率越小,H 0不成立的概率越大.【训练4】 甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)依据小概率值α=0.01的χ2独立性检验,能否认为甲机床的产品质量与乙机床的产品质量有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),α 0.050 0.010 0.001 x α3.8416.63510.828解 (1)根据2×2列联表知:甲机床生产的产品中一级品的频率为150200=75%, 乙机床生产的产品中一级品的频率为120200=60%.(2)零假设为H 0:甲机床的产品质量与乙机床的产品质量没有差异.由2×2列联表,得χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=400×(150×80-120×50)2270×130×200×200=40039≈10.256>6.635=x 0.01.根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异,此推断犯错误的概率不超过0.01.一、选择题1.设一组样本数据x 1,x 2,…,x n 的方差为0.01,则数据10x 1,10x 2,…,10x n 的方差为( ) A.0.01 B.0.1 C.1 D.10答案 C解析 10x 1,10x 2,…,10x n 的方差为102×0.01=1.2.为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160 B.163 C.166 D.170答案 C解析 ∵x -=110∑10i =1x i =110×225=22.5,y -=110∑10i =1y i=160, ∴a ^=y --b ^x -=160-4×22.5=70, ∴回归直线方程为y ^=4x +70. 因此估计其身高y ^=4×24+70=166.3.从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )A.10B.18C.20D.36答案 B解析 因为直径落在区间[5.43,5.47)内的频率为0.02×(6.25+5.00)=0.225,所以零件的个数为0.225×80=18.4.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个答案 D解析由雷达图易知A,C正确;七月的平均最高气温超过20 ℃,平均最低气温约为12 ℃,一月的平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月的平均温差大,B正确;由雷达图知平均最高气温超过20 ℃的月份有3个月,D错误.5.(多选) 5G时代已经到来,5G的发展将直接带动包括运营、制造、服务在内的通信行业整体的快速发展,进而对GDP增长产生直接贡献,并通过产业间的关联效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图,某单位结合近年数据,对今后几年的5G经济产出作出预测.由上图提供的信息可知()A.运营商的经济产出逐年增加B.设备制造商的经济产出前期增长较快,后期放缓C.设备制造商在各年的总经济产出中一直处于领先地位D.信息服务商与运营商的经济产出的差距有逐步拉大的趋势 答案 ABD解析 对于A ,由图知,运营商的经济产出逐年增加,故A 正确;对于B ,由图知,设备制造商的经济产出在2020~2023年间增长较快,后几年增长逐渐趋于平缓,故B 正确;对于C ,由图可知,设备制造商在各年的总经济产出中在前期处于领先地位,而后期是信息服务商处于领先地位,故C 错误;对于D ,由图知,在2020~2025年间信息服务商与运营商的经济产出的差距不大,后几年中信息服务商的经济产出增长速度明显高于运营商的经济产出增长速度,两者间的差距有逐步拉大的趋势,故D 正确.综上所述,选ABD.6.已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x -,方差为s 2,则( )A.x -=4,s 2<2B.x -=4,s 2>2 C.x ->4,s 2<2 D.x ->4,s 2>2答案 A解析 ∵某7个数的平均数为4,∴这7个数的和为4×7=28.∵加入一个新数据4,∴x -=28+48=4.又∵这7个数的方差为2,且加入一个新数据4,∴这8个数的方差s 2=7×2+(4-4)28=74<2,故选A.二、填空题 7.给出如下列联表非 30 50 80 合计5060110根据独立性检验,__________在犯错误的概率不超过0.01的前提下认为“高血压与患心脏病有关”(填“能”或“不能”). 答案 能解析 零假设为H 0:高血压与患心脏病无关. 由列联表中的数据可得 χ2=110×(20×50-10×30)230×80×50×60≈7.486>6.635=x 0.01,根据小概率值α=0.01的χ2独立性检验,我们推断H 0不成立,即认为高血压与患心脏病有关,此推断犯错误的概率不超过0.01,即能在犯错误的概率不超过0.01的前提下,认为高血压与患心脏病有关.8.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,测试成绩(单位:分)如图所示,假设得分值的中位数为m e ,众数为m 0,平均值为x -,则m e ,m 0与x -的大小关系是________.答案 m 0<m e <x -解析 由图可知,30名学生的得分情况依次为得3分的有2人,得4分的有3人,得5分的有10人,得6分的有6人,得7分的有3人,得8分的有2人,得9分的有2人,得10分的有2人.中位数为第15、16个数(分别为5、6)的平均数,即m e =5.5.5出现的次数最多,故m 0=5,x -=2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×1030≈5.97.于是得m 0<m e <x -.9.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________(填序号).答案 ①②③解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误. 三、解答题10.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:性别对该商场的服务 合计满意不满意(1)分别估计男、女顾客对该商场服务满意的概率;(2)依据小概率值α=0.05的χ2独立性检验,能否认为男、女顾客对该商场服务的评价有差异?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)零假设为H 0:男、女顾客对该商场服务的评价没有差异. 由列联表中的数据,得 χ2=100×(40×20-30×10)250×50×70×30≈4.762>3.841=x 0.05.根据小概率值α=0.05的χ2独立性检验,我们推 断H 0不成立,即认为男、女顾客对商场服务的评价有差异,此推断犯错误的概率不大于0.05.11.某互联网公司为了确定下季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如表:他们分别用两种模型①y =bx +a ,②y =a e bx 进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值.x -y -∑6i =1x i y i∑6i =1x 2i7301 464.24 364(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由; (2)残差绝对值大于2的数据被认为是异常数据,需要剔除. (ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程; (ⅱ)若广告投入量x =18,则该模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ^=∑n i =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑ni =1x i y i -nx -·y -∑n i =1x 2i -n ·x -2,a ^=y --b ^x -. 解 (1)由于模型①残差波动小,应该选择模型①. (2)(ⅰ)剔除异常数据,即3月份的数据, 剩下数据的平均数为x -=15×(7×6-6)=7.2,y -=15×(30×6-31.8)=29.64,∑5i =1x i y i -5x -·y -=206.4,∑5i =1x 2i -5·x -2=68.8. ∴b ^=206.468.8=3,a ^=y --b ^x -=29.64-3×7.2=8.04.∴所选模型的回归方程为y ^=3x +8.04. (ⅱ)若广告投入量x =18,则该模型收益的预报值是3×18+8.04=62.04(万元).12.(多选)2020年7月国家统计局发布了我国2020年上半年国内经济数据,图1为国内三大产业生产总值的比重,图2为第三产业中各行业生产总值的比重.以下关于我国2020年上半年经济数据的说法正确的是()A.在第三产业中,“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平B.若“租赁和商务服务业”生产总值为15 000亿元,则“房地产业”生产总值为32 500亿元C.若“金融业”的生产总值为42 000亿元,则第三产业生产总值为262 500亿元D.若“金融业”的生产总值为42 000亿元,则第一产业生产总值为45 000亿元答案ABC解析对于选项A,在第三产业中,“批发和零售业”与“金融业”的生产总值之和占比为16%+16%=32%,“其他服务业”的生产总值占比为32%,所以“批发和零售业”与“金融业”的生产总值之和同“其他服务业”的生产总值基本持平,故选项A正确.对于选项B,若“租赁和商务服务业”生产总值为15 000亿元,在第三产业中,因为“租赁和商务服务业”生产总值占比为6%,所以第三产业生产总值为15 000=250 000(亿元),又“房地产业”生产总值占比为13%,所以“房地产6%业”生产总值为13%×250 000=32 500(亿元),故选项B正确.对于选项C ,在第三产业中,若“金融业”的生产总值为42 000亿元,因为“金融业”生产总值占比为16%,所以第三产业生产总值为42 00016%=262 500(亿元),故选项C 正确.对于选项D ,第三产业生产总值在三大产业中占比为57%,第一产业生产总值在三大产业中占比为6%,由C 选项知第三产业生产总值为262 500亿元,所以第一产业生产总值为262 50057%×6%≈27 632(亿元),所以选项D 错误.13.由于受到网络电商的冲击,某品牌的洗衣机在线下的销售受到影响,承受了一定的经济损失,现将A 地区200家实体店该品牌洗衣机的月经济损失统计如图所示,估算月经济损失的平均数为m ,中位数为n ,则m -n =________.答案 360解析 第一块小矩形的面积S 1=0.3,第二块小矩形的面积S 2=0.4,故n =2 000+0.5-0.30.000 2=3 000;又第四、五块小矩形的面积均为S =0.06,故a =12 000[1-(0.3+0.4+0.06×2)]=0.000 09,所以m =1 000×0.3+3 000×0.4+5 000×0.18+(7 000+9 000)×0.06=3 360,故m -n =360.14.某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y (单位:万件)的统计表:月份代码t 1 2 3 4 5 6 7 销售量y (万件)y 1y 2y 3y 4y 5y 6y 7但其中数据污损不清,经查证∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y -)2=0.55.。

高考数学二轮复习 小题专项练习(十五)统计与统计案例理

高考数学二轮复习 小题专项练习(十五)统计与统计案例理

小题专项练习(十五) 统计与统计案例一、选择题:本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的.1.[2019·江西重点中学协作体第二次联考]九江联盛某超市为了检查货架上的奶粉是否合格,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用系统抽样方法确定所选取的5袋奶粉的编号可能是( )A .6,12,18,24,30B .2,4,8,16,32C .2,12,23,35,48D .7,17,27,37,472.[2019·重庆江津第二次阶段考试]设X ~N(1,1)其正态分布密度曲线如图所示,那么向正方形ABCD 中随机投掷10 000个点,则落入阴影部分的点的个数的估计值是( )(注:若X ~N(μ,σ2),则P(μ-σ<X<μ+σ)=68.26%,P(μ-2σ<X<μ+2σ)=95.44%)A .7 539B .6 038C .7 028D .6 5873.[2019·山东烟台高三适应性练习]下图是8位同学400米测试成绩的茎叶图(单位:秒),则( )A .平均数为64B .众数为77C .极差为17D .中位数为64.54.[2019·则常数q 的值为( A .1 B .32±336C .32-336D .32+3365.[2019·河北南宫市月考]已知随机变量X 的分布列如下表,则随机变量(2X +3)的方差D(2X +3)为( )A .-12B .712C .73D .766.[2019·华中师范大学附属中学模拟]从某企业生产的某种产品中抽取若干件,经测量得这些产品的一项质量指标值Z 服从正态分布N(200,150),某用户从该企业购买了100件这种产品,记X 表示这100件产品中质量指标值位于区间(187.8,212.2)的产品件数,则E(X)等于( )(附:150≈12.2.若Z ~N(μ,σ2),则P(μ-σ<Z<μ+σ)=0.682 6,P (μ-2σ<Z <μ+2σ)=0.954 4.)A .34.13B .31.74C .68.26D .95.447.[2019·全国卷Ⅰ]某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是( )A .新农村建设后,种植收入减少B .新农村建设后,其他收入增加了一倍以上C .新农村建设后,养殖收入增加了一倍家庭是幼儿语言活动的重要环境,为了与家长配合做好幼儿阅读训练工作,孩子一入园就召开家长会,给家长提出早期抓好幼儿阅读的要求。

数学高考复习统计与统计案例专题训练(含答案)

数学高考复习统计与统计案例专题训练(含答案)

数学高考复习统计与统计案例专题训练(含答案)[40,50),[50,60].将日均收看该类体育节目时间不低于40分钟的观众称为体育迷,则图中x的值为()A.0.01B.0.02C.0.03D.0.04[答案] A[解析] 由题设可知(0.005+x+0.012+0.02+0.025+0.028)10=1,解得x=0.01,选A.4.(2019东北三校二模)在某次测量中得到的A样本数据如下:42,43,46,52,42,50,若B样本数据恰好是A样本数据每个都减5后所得数据,则A、B两样本的下列数字特征对应相同的是()A.平均数B.标准差C.众数D.中位数[答案] B[解析] 因为A组数据为:42,43,46,52,42,50B组数据为:37,38,41,47,37,45.可知平均数、众数、中位数都发生了变化,比原来A组数据对应量都减小了5,但标准差不发生变化,故选B.5.(2019石家庄质检)等差数列x1,x2,x3,,x9的公差为1,若以上述数据x1,x2,x3,,x9为样本,则此样本的方差为()A. B. C.60 D.30[答案] A[解析] 令等差数列为1,2,39,则样本的平均值=5,S2=[(1-5)2+(2-5)2++(9-5)2]==.6.(文)(2019郑州市第二次质检)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元) 4 5 6 7 8 9 销量y(件) 90 84 83 80 75 68 由表中数据,求得线性回归方程为=-4x+a.若在这些样本点中任取一点,则它在回归直线左下方的概率为()A. B. C. D.[答案] B[解析] ==,==80,回归直线过点(,80),a=106,=-4x+106,点(5,84),(9,68)在回归直线左下方,故所求概率P==.(理)(2019河北衡水中学二调)关于统计数据的分析,有以下几个结论,其中正确的个数为()利用残差进行回归分析时,若残差点比较均匀地落在宽度较窄的水平带状区域内,则说明线性回归模型的拟合精度较高;将一组数据中的每个数据都减去同一个数后,期望与方差均没有变化;调查剧院中观众观后感时,从50排(每排人数相同)中任意抽取一排的人进行调查是分层抽样法;已知随机变量X服从正态分布N(3,1),且P(24)=0.682 6,则P(X4)等于0.158 7某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人.为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本.若样本中的青年职工为7人,则样本容量为15人.A.2B.3C.4D.5[答案] A[解析] 正确,错误,设样本容量为n,则=,n=30,故错.二、填空题7.(2019吉林九校联合体二模)将某班的60名学生编号为:01,02,,60,采用系统抽样方法抽取一个容量为5的样本,且随机抽得的一个号码为04,则剩下的四个号码依次是________.[答案] 16,28,40,52[解析] 依据系统抽样方法的定义得知,将这60名学生依次按编号每12人作为一组,即01~12、13~24、、49~60,当第一组抽得的号码是04时,剩下的四个号码依次是16,28,40,52(即其余每一小组所抽出来的号码都是相应的组中的第四个号码).8.(2019龙岩模拟)10名工人某天生产同一零件,生产的件数分别是10,12,14,14,14,15,15,16,16,17,设这10个数的中位数为a,众数为b,则a-b=________.[答案] 0.5[解析] 从数据中可以看出,众数b=14,且中位数a==14.5,a-b=14.5-14=0.5.9.(2019烟台质检)为了解某校高三学生身体状况,用分层抽样的方法抽取部分男生和女生的体重,将男生体重数据整理后,画出了频率分布直方图,已知图中从左到右前三个小组频率之比为123,第二小组频数为12,若全校男、女生比例为32,则全校抽取学生数为________.[答案] 80[解析] 第四小组和第五小组的频率之和是5(0.0125+0.0375)=0.25,故前三个小组的频率之和是0.75,则第二小组的频率是0.25,则抽取的男生人数是120.25=48人,抽取的女生人数是48=32人,全校共抽取80人.三、解答题10.(文)(2019东北三省三校二模)某个团购网站为了更好地满足消费者需求,对在其网站发布的团购产品展开了用户调查,每个用户在使用了团购产品后可以对该产品进行打分,最高分是10分.上个月该网站共卖出了100份团购产品,所有用户打分的平均分作为该产品的参考分值,将这些产品按照得分分成以下几组:第一组[0,2),第二组[2,4),第三组[4,6),第四组[6,8),第五组[8,10],得到的频率分布直方图如图所示.(1)分别求第三,四,五组的频率;(2)该网站在得分较高的第三,四,五组中用分层抽样的方法抽取了6个产品作为下个月团购的特惠产品,某人决定在这6个产品中随机抽取2个购买,求他抽到的两个产品均来自第三组的概率.[解析] (1)第三组的频率是0.1502=0.3;第四组的频率是0.1002=0.2;第五组的频率是0.0502=0.1(2)设抽到的两个产品均来自第三组为事件A,由题意可知,从第三、四、五组中分别抽取3个,2个,1个.不妨设第三组抽到的是A1,A2,A3;第四组抽到的是B1,B2;第五组抽到的是C1,所含基本事件总数为:{A1,A2},{A1,A3},{A2,A3},{A1,B1},{A1,B2},{A1,C1},{A2,B1},{A2,B2},{A2,C1},{A3,B1},{A3,B2},{A3,C1},{B1,B2},{B1,C1},{B2,C1}所以P(A)==.(理)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:甲 82 81 79 78 95 88 93 84 乙 92 95 80 75 83 80 90 85(1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由;(3)若将频率视为概率,对甲同学在今后的3次数学竞赛成绩进行预测,记这3次成绩中高于80分的次数为,求的分布列及数学期望E().[解析] (1)作出茎叶图如下:(2)派甲参赛比较合适,理由如下:甲=(702+804+902+8+9+1+2+4+8+3+5)=85乙=(701+804+903+5+0+0+3+5+0+2+5)=85.S=[(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88 -85)2+(93-85)2+(95-85)2]=35.5S=[(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90 -85)2+(92-85)2+(95-85)2]=41甲=乙,SP1,派乙参赛比较合适.(3)记甲同学在一次数学竞赛中成绩高于80分为事件A,则P(A)==,随机变量的分布列为0 1 2 3 P E()=0+1+2+3=.(或E()=np=3=)数学2019年高考复习统计与统计案例专题训练及答案解析的全部内容就是这些,查字典数学网希望考生可以取得优异的成绩。

高考总复习专项演练:第十章 统计与统计案例 10-3 解析 Word版

高考总复习专项演练:第十章 统计与统计案例 10-3 解析 Word版

10-3A 组 专项基础训练 (时间:45分钟)1.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( ) A.y ^=-10x +200 B.y ^=10x +200 C.y ^=-10x -200 D.y ^=10x -200【解析】 由题意知回归方程斜率应为负,故排除B ,D , 又销售量应为正值,故C 不正确,故选A. 【答案】 A2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:以下结论正确的是( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”【解析】 根据独立性检验的定义,由K 2≈7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选A.【答案】 A3.(·重庆)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4【解析】 因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项C 和D.因为样本点的中心在回归直线上,把点(3,3.5)分别代入选项A 和B 中的直线方程进行检验,可以排除B ,故选A.【答案】 A4.(·深圳一模)相关变量x 、y 的样本数据如下表:经回归分析可得y 与x 线性相关,并由最小二乘法求得线性回归方程为y ^=1.1x +a ^,则a ^等于( ) A .0.1 B .0.2 C .0.3 D .0.4【解析】 由题意,x =1+2+3+4+55=3,y =2+2+3+5+65=3.6,∵线性回归方程为y ^=1.1x +a ^, ∴3.6=1.1×3+a ^,∴a ^=0.3. 【答案】 C5.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得线性回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( ) A .63.6万元 B .65.5万元 C .67.7万元 D .72.0万元【解析】 ∵x =4+2+3+54=72,y =49+26+39+544=42,又y ^=b ^x +a ^必过(x ,y ),∴42=72×9.4+a ^,∴a ^=9.1.∴线性回归方程为y ^=9.4x +9.1.∴当x =6时,y ^=9.4×6+9.1=65.5(万元). 【答案】 B6.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.【解析】 ①是系统抽样;对于④,随机变量K 2的观测值k 越小,说明两个相关变量有关系的把握程度越小.【答案】 ②③7.某班班主任对全班30名男生进行了“认为作业量多少”的调查,数据如下表:该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过________.【解析】 计算得K 2的观测值为k =30×(12×8-2×8)214×16×20×10≈4.286>3.841,则推断犯错误的概率不超过0.050.【答案】 0.0508.已知x ,y 之间的一组数据如下表:对于表中数据,现给出如下拟合直线:①y =x +1;②y =2x -1;③y =85x -25;④y =32x .则根据最小二乘法的思想求得拟合程度最好的直线是________(填序号).【解析】 由题意知x =4,y =6,∴b ^=∑5i =1x i y i-5x y ∑5i =1x 2i -5x 2=85,∴a ^=y -b ^x =-25,∴y ^=85x -25,∴填③.【答案】 ③9.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:乙厂:(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,问是否有99%的把握认为“两个分厂生产的零件的质量有差异”?附【解析】 (1)甲厂抽查的500件产品中有360件优质品,从而估计甲厂生产的零件的优质品率为360500×100%=72%;乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为320500×100%=64%.(2)完成的2×2列联表如下:由表中数据计算得K 2的观测值k =1 000×(360×180-320×140)2500×500×680×320≈7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.10.(·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18 i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x=49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为【解析】 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程.c ^=y -d ^ w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.B 组 专项能力提升 (时间:20分钟)11.(·东北三校联考)下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③回归方程y ^=b ^x +a ^必过(x ,y );④有一个2×2列联表中,由计算得K 2=13.079,则有99.9% 的把握确认这两个变量间有关系. 其中错误的个数是( )A .0B .1C .2D .3【解析】 一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①正确;回归方程中x 的系数具备直线斜率的功能,对于回归方程y ^=3-5x ,当x 增加一个单位时,y 平均减少5个单位,②错误;由线性回归方程的定义知,线性回归方程y ^=b ^x +a ^必过点(x ,y ),③正确;因为K 2=13.079>10.828,故有99.9%的把握确认这两个变量有关系,④正确.故选B.【答案】 B12.(·河北唐山一模)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为( )A.5 B .5.5 C .6 D .6.5 【解析】 x =3+4+5+6+75=5,y =2.5+3+4+4.5+c 5=14+c 5,代入回归直线方程中得14+c5=0.85×5-0.25,解得c =6.【答案】 C13.(·开封二模)在一次独立性检验中,得出2×2列联表如下:且最后发现,两个分类变量x 和y 没有任何关系,则m 的可能值是( ) A .200 B .720 C .100 D .180 【解析】 计算K 2=(1 180+m )×(200m -180×800)2380×(800+m )×(180+m )×1 000当m =200时, K 2=(1 180+200)×(200×200-180×800)2380×(800+200)×(180+200)×1 000≈103.37>3.841,此时两个分类变量x 和y 有关系; 当m =720时, K 2=(1 180+720)×(200×720-180×800)2380×(800+720)×(180+720)×1 000=0由K 2≤3.841知此时两个分类变量x 和y 没有任何关系,则m 的可能值是720. 【答案】 B14.(·上饶二模)某小卖部销售一品牌饮料的零售价x (元/瓶)与销售量y (瓶)的关系统计如下:已知关系符合线性回归方程y ^=b ^x +a ^,其中b ^=-20,a ^=y -b ^x .当单价为4.2元时,估计该小卖部销售这种品牌饮料的销量为________瓶.【解析】 依题意可得x =72,y =40,b ^=-20,由a ^=y -b ^x 可得a ^=110,所以y ^=-20x +110,当x =4.2时y ^=26. 【答案】 2615.(·辽宁沈阳3月)某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关?并说明理由.【解析】 (1)随机抽查这个班的一名学生,有50种不同的抽查方法,由于积极参加班级工作的学生有24人,所以抽到积极参加班级工作的学生的抽法有24种,因此由古典概型概率的计算公式可得抽到积极参加班级工作的学生的概率是P 1=2450=1225.因为不太主动参加班级工作且学习积极性一般的学生有19人,所以抽到不太主动参加班级工作且学习积极性一般的学生的概率是P 2=1950.(2)K 2=50×(18×19-6×7)225×25×24×26≈11.538,由于11.538>10.828,所以有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系.。

新高考数学复习专题-专题二十 统计与统计案例(原卷版)

新高考数学复习专题-专题二十    统计与统计案例(原卷版)

专题二十 统计与统计案例一、单选题1.(2021·河南高二月考(文))有下列四个命题:( ) ①在回归分析中,残差的平方和越小,模型的拟合效果越好;②在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适; ③若数据1x ,2x ,…,n x 的平均数为1,则12x ,22x ,…2n x 的平均数为2; ④对分类变量x 与y 的随机变量2K 的观测值k 来说,k 越小,判断“x 与y 有关系”的把握越大.其中真命题的个数为( ) A .1B .2C .3D .42.(2021·全国高二课时练习)若由一个22⨯列联表中的数据计算得2 4.013K =,那么有( )把握认为两个变量有关系.20()P K k ≥ 0.150.10 0.05 0.025 0.010 0.005 0.0010k2.072 2.7063.841 5.024 6.635 7.879 10.828A .95%B .97.5%C .99%D .99.9%第II 卷(非选择题)请点击修改第II 卷的文字说明二、解答题3.(2021·广东汕头市·高三一模)为确保我国如期全面建成小康社会,实现第一个百年奋斗目标打下了坚实的基础.在产业扶贫政策的大力支持下,某玩具厂对原有的生产线进行技术升级,为了更好地对比升级前和升级后的效果,其中甲生产线继续使用旧的生产模式,乙生产线采用新的生产模式.质检部门随机抽检了甲、乙两条生产线的各100件玩具,在抽取的200件玩具中,根据检测结果将它们分为“A ”、“B ”、“C ”三个等级,,A B 等级都是合格品,C 等级是次品,统计结果如表所示:等级ABC频数 100 75 25(表二)合格品 次品 合计 甲 80 乙 5 合计在相关政策扶持下,确保每件合格品都有对口销售渠道,但从安全起见,所有的次品必须由厂家自行销毁.(1)请根据所提供的数据,完成上面的22⨯列联表(表二),并判断是否有99.5%的把握认为产品的合格率与技术升级有关?(2)每件玩具的生产成本为20元,,A B 等级产品的出厂单价分别为m 元、40元.若甲生产线抽检的玩具中有35件为A 等级,用样本的频率估计概率,若进行技术升级后,平均生产一件玩具比技术升级前多盈利12元,则A 等级产品的出产单价为多少元?附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥0.05 0.025 0.010 0.005 0.0010k3.841 5.024 6.635 7.879 10.8284.(2021·河南高二月考(文))某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,得出以下22⨯列联表:积极参加班级工作不太主动参加班级工作总计 学习积极性高 18725 学习积极性一般ab25 总计cd50如果随机抽查该班的一名学生,那么抽到积极参加班级工作的学生的概率是1225. (1)求a ,b ,c ,d 的值.(2)试运用独立性检验的思想方法分析:能否有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系?并说明理由.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:20()P K k ≥0.10 0.05 0.025 0.010 0.005 0.0010k2.7063.841 5.024 6.635 7.879 10.8285.(2021·内蒙古包头市·高三一模(文))某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表: 土地使用面积x (单位:亩) 1 2 3 4 5 管理时间y (单位:月)911142620并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:愿意参与管理不愿意参与管理男性村民 140 60 女性村民40(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:()20P K k ≥0.100 0.050 0.025 0.010 0.0010k2.7063.841 5.024 6.635 10.82848522.02≈.6.(2021·聊城市·山东聊城一中高三一模)已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:综合评价成绩(单位:分) [40,50)[50,60)[60,70)[70,80)[80,90)[90,100)频数 510151055赞成人数4812431(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?综合评价成绩小于80分的人数综合评价成绩不小于80分的人数合计赞成 不赞成 合计(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:P()20Kk ≥0.10 0.050.010 0.005 k 02.7063.8416.6357.8797.(2021·全国高三月考(理))某购物网站统计了,A B 两款手机在2020年7月至11月的总销售量y (单位:百部),得到以下数据: 月份x 7 8 9 10 11 销售量y100120110120200(Ⅰ)已知销售量y 与月份x 满足线性相关关系,求出y 关于x 的线性回归方程,ˆˆˆybx a =+,并预测12月的手机销售量; (Ⅱ)网站数据分析人员发现:,A B 两款手机11月的销售量与顾客性别有关.请填写下面的22⨯列联表,并判断能否有超过99.5%的把握认为“,A B 两款手机11月的销售量与顾客性别有关”?男性顾客女性顾客合计A 款销售量90B 款销售量50合计90参考公式:()()()121niii ni i x x y y b x x ==--=-∑∑,ˆˆay bx =-, ()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:()20P K k ≥ 0.010 0.005 0.0010k6.6357.879 10.8288.(2021·湖北高三月考)近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a x =+dy c x=+建立y 关于x 的回归方程,令s x =,1t x=得到如下数据: xyst10.15109.943.040.16113ni ii s y s y =-⋅∑ 13113i ii t yt y =-⋅∑1322113ik ss =-∑1322113ii tt =-∑1322113ii yy =-∑13.94 -2.1 11.67 0.21 21.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953. (1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374,247.637415.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v u αβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数222211ni i nniii i u vnu vr unu vnv==-⋅=-⋅-∑∑∑.9.(2021·辽宁高三期末(文))2019年4月,中国电信公布了2019年的终端洞察报告,其中,国产手机品牌表现抢眼,统治地位不容置疑.在2018年6—11月上市的新机中,用户最满意机型与用户推荐机型的项目中国产手机优势明显,华为及荣耀手机分别占据不同价位段的榜单第一,OPPO 、vivo 、小米、魅族均有机型占据榜单.在用户满意机型调研项目中,曾经位于神坛地位的苹果手机也仅仅只有iPhoneXR 一款位列第三.最满意度机型TOP3 中国电信大于3500 2500-3499 1500-2499 1000-1499 1000元以下 第一名华为P30 ProvivoiQoo荣耀9X Vivo Z5x华为畅享9e第二名三星S10+荣耀20Pro红米K20ProOPPO A9红米7第三名iPhone XRVivo X27化为 麦芒8华为畅享9plus中兴BladeA7 (1)从上表中“华为(不含荣耀)”和“iPhoneXR ”的5个机型中任取2个,求这两个机型都是华为的概率;(2)测试数据源于消费者的反馈,从反馈信息中随机抽取500个“华为畅享9plus ”消费者,其中来自城市300个,来自农村200个,统计他们对“华为畅想9plus ”的满意情况如下:满意不满意城市 270 30 农村17030根据上表数据,问是否有95%的把握认为消费者是否满意与城市用户还是农村用户有关?(附:()()()()()22n ad bc X a b c d a c b d -=++++;当2 3.841X >时,有95%的把握说事件A与B 有关;当2 6.635X >时,有99%的把握说事件A 与B 有关;当2 3.841X ≤时,认为事件A 与B 是无关的)10.(2021·全国高三其他模拟)在我国,大学生就业压力日益严峻,伴随着政府政策的引导与社会观念的转变,大学生的创业意识与就业方向也悄然发生转变.某大学生在国家提供的税收,担保贷款等多方面的政策扶持下选择加盟某专营店自主创业,该专营店统计了近五年来创收利润数i y (单位:万元)与时间i t (单位:年)的数据,列表如下:i t1 2 3 4 5i y2.4 2.7 4.1 6.4 7.9(1)依据表中给出的数据,是否可用线性回归模型拟合与t 的关系,请计算相关系数r 并加以说明(计算结果精确到0.01).(若0.75r>,则线性相关程度很高,可用线性回归模型拟合)(2)该专营店为吸引顾客,特推出两种促销方案. 方案一:每满500元可减50元;方案二:每满500元可抽奖一次,每次中奖的概率都为25,中奖就可以获得100元现金奖励,假设顾客每次抽奖的结果相互独立.(ⅰ)某位顾客购买了1050元的产品,该顾客选择参加两次抽奖,求该顾客换得100元现金奖励的概率(ⅱ)某位顾客购买了2000元的产品,作为专营店老板,是希望该顾客直接选择方案一返回200元现金,还是选择方案二参加四次抽奖?说明理由.附:相关系数公式:()()()()()()1122221111nnii i ii i nnnniiiii i i i tt y y t yntyr tt yy tt yy ======---=----∑∑∑∑∑∑,参考数据:56.957.547≈,5185.2i i i t y ==∑,()52110i i t t =-=∑,()52122.78i i y y =-∑11.(2021·全国高三其他模拟)人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:xy()3121=-∑ii xx()()311=--∑ii i xx y y()3121=-∑ii xx()3121=-∑ii yy15500 9632 1412000000 683900000 38000 18400参考公式:相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y b x x ==--=-∑∑,ˆˆay bx =-. 12.(2021·甘肃兰州市·高三其他模拟(文))某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度C x ︒时相对应产卵数个数为y 的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a =+和z dx c =+(其中ln z y =)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R 更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程: (方程表示为()y f x =的形式,数据计算结果保留两位小数) xyz81i ii x y =∑81i i i x z =∑821ii x=∑26 72 3.3 11871 757 5722(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害.附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 13.(2021·全国高三月考(文))2020年11月24日我国使用长征五号运载火箭成功发射嫦娥五号月球探测器,12月17日嫦娥五号返回器携带月球样品在预定地区安全着陆,探月工程嫦娥五号任务取得圆满成功.某大学为此举行了与嫦娥系列探测工程有关的知识测试,测试满分为100分,该校某专业的100名大一学生参加了学校举行的测试,记录这100名学生的分数,将数据分成7组; [)[)[]30,40,40,50,,90,100⋯,并整理得到如下频率分布直方图:(1)估计这100名学生测试分数的中位数;(2)把分数不低于80分的称为优秀,已知这100名学生中男生有70人,其中测试优秀的男生有45人,填写下面列联表,并根据列联表判断是否有95%的把握认为测试优秀与性别有关: 男生 女生 优秀 不优秀附:20()P K k ≥0.050 0.010 0.0010k 3.841 6.635 10.828()()()()()22n ad bc K a b c d a c b d -=++++ (3)对于样本中分数在[)[]80,90,90,100的人数,学校准备按比例从这2组中抽取12人,在从这12人中随机抽取3人参与学校有关的宣传活动,记这3人分数不低于90分的学生数为,X 求X 的分布列.14.(2021·江西高三其他模拟(文))某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是:注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?性别 阴性阳性男 女 合计阳性 阴性合计附:()()()()()22n ad bcKa b c d a c b d-=++++.()2P K k≥0.050 0.010 0.001 0k 3.841 6.635 10.82815.(2021·全国高三专题练习(文))在关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展.行动期间,公安交管部门将加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔,汽车驾乘人员不使用安全带的行为,助推养成安全习惯.该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1000名骑行人员中,记录其年龄和是否佩戴头盔情况,得到如下的统计图表:(Ⅰ)估算该市电动自行车骑乘人员的平均年龄;(Ⅱ)根据所给的数据,完成下面的列联表:是否佩戴头盔年龄是否[)20,40[]40,70(Ⅲ)根据(Ⅱ)中的列联表,判断是否有99%把握认为遵守佩戴安全头盔与年龄有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,()2P K k≥0.050 0.010 0.001k 3.841 6.635 10.82816.(2021·全国高三专题练习(文))针对偏远地区因交通不便、消息闭塞导致优质农产品藏在山中无人识的现象,各地区开始尝试将电商扶贫作为精准扶贫的重要措施.为了解电商扶贫的效果,某部门随机就100个贫困地区进行了调查,其当年的电商扶贫年度总投入(单位:万元)及当年人均可支配年收入(单位:元)的贫困地区数目的数据如下表:人均可支配年收入(元)电商扶贫年度总投入(万元)(5000,10000] (10000,15000] (15000,20000] (0,500] 5 3 2(500,1000] 3 21 6(1000,3000) 2 34 24(1)估计该年度内贫困地区人均可支配年收入过万的概率,并求本年度这100个贫困地区的人均可支配年收入的平均值的估计值(同一组数据用该组数据区间的中间值代表);(2)根据所给数据完成下面的列联表,并判断是否有99%的把握认为当地的人均可支配年收入是否过万与当地电商扶贫年度总投入是否超过千万有关.人均可支配年收入≤10000元人均可支配年收入>10000元电商扶贫年度总投入不超过1000万电商扶贫年度总投入超过1000万附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()2P K k ≥0.050 0.01 0.005 k3.8416.6357.87917.(2021·全国高三专题练习(文))为研究男、女生的身高差异,现随机从高三某班选出男生、女生各10人,并测量他们的身高,测量结果如下(单位:厘米): 男:173 178 174 185 170 169 167 164 161 170 女:165 166 156 170 163 162 158 153 169 172(1)根据测量结果完成身高的茎叶图(单位:厘米),并分别求出男、女生身高的平均值;(2)请根据测量结果得到20名学生身高的中位数h (单位:厘米),将男、女生身高不低于h 和低于h 的人数填入下表中,并判断是否有90%的把握认为男、女生身高有差异?(3)若男生身高低于165厘米为偏矮,不低于165厘米且低于175厘米为正常,不低于175厘米为偏高.采用分层抽样的方法从以上男生中抽取5人作为样本.若从样本中任取2人,试求恰有1人身高属于正常的概率.()20P K k ≥ 0.100.05 0.025 0.010 0.005 0.0010k2.7063.8415.0246.6357.879 10.828参照公式:()()()()()22n ad bc k a b c d a c b d -=++++ 18.(2021·全国高三专题练习(文))某生物研究所研发了某种型号的新冠疫苗,为检验该种型号疫苗的效果,研究所将疫苗用在小白鼠身上进行科研实验,得到如下数据:未感染病毒感染病毒 总计未注射疫苗 a 60 m 注射疫苗 b30 n总计11090200从未注射疫苗的小白鼠中任取1只,取到“未感染病毒”的小白鼠的概率为5. (1)能否有99.9%的把握认为注射此疫苗有效?(2)在感染病毒的小白鼠中,按未注射疫苗和注射疫苗的比例抽取6只进行病理分析,然后从这6只小白鼠中随机抽取2只对注射疫苗的情况进行核实,求至少有1只为注射过疫苗的概率.附:()()()()()22n ad bc K a b c d a c b d -=++++. ()2P K k ≥0.05 0.025 0.010 0.005 0.001 k3.8415.0246.6357.87910.82819.(2021·全国高三专题练习(文))某研究部门为了研究气温变化与患流感人数多少之间的关系,在某地随机对50人进行了问卷调查得到如下列表:(附22()()()()()n ad bc K a b c d a c b d -=++++)高于22.5C ︒ 不高于22.5C ︒ 合计 患流感2025不患流感15合计50(1)对上述22⨯列联表进行填空,并判断是否有99%的把握认为患流感与温度有关,说明你的理由;(2)为了了解患流感与年龄的关系,已知某地患有流感的老年、中年、青年的人数分别为108人,72人,36人.按分层抽样的方法随机抽取6人进行问卷调查,再从6人中随机抽取2人进行调查结果对比,求这2人中至少一人是中年人的概率.()2>0.10 0.05 0.025 0.01 P K kk 2.701 3.841 5.024 6.63520.(2021·山东德州市·高三一模)2021年春晚首次采用“云”传播,“云”互动形式,实现隔空连线心意相通,全球华人心连心“云团圆”,共享新春氛围,“云课堂”亦是一种真正完全突破时空限制的全方位互动性学习模式.某市随机抽取200人对“云课堂”倡议的了解情况进行了问卷调查,记Y表示了解,N表示不了解,统计结果如下表所示:(表一)了解情况Y N人数140 60(表二)男女合计Y80N40合计(1)请根据所提供的数据,完成上面的22⨯列联表(表二),并判断是否有99%的把握认为对“云课堂”倡议的了解情况与性别有关系;(2)用样本估计总体,将频率视为概率,在男性市民和女性市民中各随机抽取4人,记“4名男性中恰有3人了解云课堂倡议”的概率为1P,“4名女性中恰有3人了解云课堂倡议”的概率为2P .试求出1P 与2P ,并比较1P 与2P 的大小. 附:临界值参考表的参考公式()20p K K ≥0.10 0.05 0.025 0.010 0.005 0.0010K 2.7063.841 5.024 6.635 7.879 10.828()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++) 21.(2021·吉林长春市·高三二模(理))随着互联网行业、传统行业和实体经济的融合不断加深,互联网对社会经济发展的推动效果日益显著,某大型超市计划在不同的线上销售平台开设网店,为确定开设网店的数量,该超市在对网络上相关店铺做了充分的调查后,得到下列信息,如图所示(其中x 表示开设网店数量,y 表示这x 个分店的年销售额总和),现已知55118850,2000i ii i i x yy ====∑∑,求解下列问题;(1)经判断,可利用线性回归模型拟合y 与x 的关系,求解y 关于x 的回归方程; (2)按照经验,超市每年在网上销售获得的总利润w (单位:万元)满足25140w y x =--,请根据(1)中的线性回归方程,估算该超市在网上开设多少分店时,才能使得总利润最大.参考公式;线性回归方程y bx a =+,其中515221,i ii ii x y nx ya y bxb xnx==-=-=-∑∑22.(2021·河南高三月考(文))2020年初,新冠病毒肆虐.疫情期间,停课不停教学,各学校以网课形式进行教学.教育局抽样对某所学校的高三1000名学生某一周每天学习时间以及考试进行了调查,得如下频数分布表 学习时间(分钟) [)7,7.5[)7.5,8[)8,8.5[)8.5,9[)9,9.5[]9.5,10人数160190200180150120从1000名学生中抽取50名学生,调查学习时间与成绩的关系,得如下二阶列联表学习时间9小时以上(含9小时)学习时间9小时以下合计总分600分以上(含600分) 7 3 10 总分600分以下 17 23 40 合计242650(1)求出第一星期这1000名学生学习时间的中位数;(2)为了解学生们的学习状况,一次考试结束,从全年级随机抽取50人根据学习时间的多少和成绩的是否优秀列成以下列联表计算说明:有没有90%的把握认为总分600分以上和学习时间超过9小时有关附公式及表如下:()()()()()22n ad bc K a b c d a c b d -=++++ ()20P K K ≥ 0.150.10 0.05 0.025 0.010 0.005 0.0010k2.0722.7063.841 5.024 6.635 7.879 10.82823.(2021·全国高三专题练习)垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据()(),1,2,,20i i x y i =⋅⋅⋅,其中i x 和i y 分别表示第i 个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得20180i i x ==∑,2014000i i y ==∑,()202180i i x x=-=∑,()20218000ii y y =-=∑,()()201700i ii x xy y =--=∑.(1)请用相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合; (2)求y 关于x 的线性回归方程,用所求回归方程预测该市10万人口的县城年垃圾产生总量约为多少吨?参考公式:相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑,对于一组具有线性相关关系的数据()(),1,2,3,,i i x y i n =⋅⋅⋅,其回归直线y bx a =+的斜率和截距的最小二乘估计分别为()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-.24.(2021·全国高三专题练习(文))随着冬季的到来,是否应该自觉佩戴口罩成为了人们热议的一个话题.为了调查佩戴口罩的态度与性别是否具有相关性,研究人员作出相应调查,并统计数据如表所示: 认为冬季佩戴口罩十分必要 认为冬季佩戴口罩没有必要 男性 300 200 女性150150(1)判断是否有99.9%的把握认为佩戴口罩的态度与性别有关?(2)若按照分层抽样的方法从男性中随机抽取5人,再从这5人中随机抽取2人,求恰有1人认为冬季佩戴口罩十分必要的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:()20P K k0.100 0.050 0.010 0.001k 2.706 3.841 6.635 10.82825.(2021·全国高三专题练习)在新型冠状病毒疫情期间,某高中学校实施线上教学,为了解线上教学的效果,随机抽取了100名学生对线上教学效果进行评分(满分100分),记低于80的评分为“效果一般”,不低于80分为“效果较好”.(1)请补充完整22⨯列联表;通过计算判断,有没有99%的把握认为线上教学效果评分为“效果较好”与性别有关?效果一般效果较好合计男20女1555合计(2)用(1)中列联表的数据估计全校线上教学的效果,用频率估计概率.从该校学生中任意抽取3人,记所抽取的3人中线上教学“效果较好”的人数为X,求X的分布列和数学期望.附表及公式:()2P K k0.150.100.050.0250.010 0k 2.072 2.706 3.841 5.024 6.635其中()()()()()22n ad bcka b c d a c b d-=++++,n a b c d=+++.26.(2021·全国高三专题练习)近年来,我国的电子商务行业发展迅速,与此同时,相关管理部门建立了针对电商的商品和服务评价系统.现从评价系统中选出200次成功的交易,并对其评价进行统计,对商品的好评率为35,对服务的好评率为710;其中对商品和服务均为好评的有80次(1)是否可以在犯错误概率不超过0.1的前提下,认为商品好评与服务好评有关?(2)若将频率视为概率,某人在该购物平台上进行的4次购物中,设对商品和服务全好评的次数为随机变量X:求对商品和服务全好评的次数X的分布列及其期望.()20P K k 0.15 0.10 0.05 0.025 0.010 0.005 0.0010k2.072 2.7063.841 5.024 6.635 7.879 10.82822()()()()()n ad bc K a b c d a c b d -=++++(其中n a b c d =+++)27.(2021·全国高三专题练习)某校高一年级进行安全知识竞赛(满分为100分),所有学生的成绩都不低于75分,从中抽取100名学生的成绩进行分组调研,第一组[)75,80,第二组[)80,85,,第五组[]95,100(单位:分),得到如下的频率分布直方图.(1)若竞赛成绩不低于85分为优秀,低于85分为非优秀,且成绩优秀的男学生人数为35,成绩非优秀的女学生人数为25,请判断是否有95%的把握认为竞赛成绩的优秀情况与性别有关;(2)用分层抽样方法,在成绩不低于85的学生中抽取6人,再从这6人中随机选3人发言谈体会,设这3人中成绩在[)85,90的人数为ξ,求ξ的分布列与数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.临界值表:()20P K k ≥ 0.10 0.05 0.025 0.01 0.0050k2.7063.841 5.024 6.635 7.87928.(2021·全国高三专题练习)支付宝为人们的生活带来许多便利,为了了解支付宝在某市的使用情况,某公司随机抽取了100名支付宝用户进行调查,得到如下数据: 每周使用支付宝次数 1 2 3 4 5 6及以上 40岁及以下人数 3 3 4 8 7 30 40岁以上人数 4 5 6 6 4 20 合计7810141150(1)如果认为每周使用支付宝超过3次的用户“喜欢使用支付宝”,完成下面22⨯列联表,并判断能否在犯错误概率不超过0.05的前提下,认为是否“喜欢使用支付宝”与年龄有关?不喜欢使用支付宝 喜欢使用支付宝 合计 40岁及以下人数 40岁以上人数 合计(2)每周使用支付宝6次及以上的用户称为“支付宝达人”,视频率为概率,在该市所有“支付宝达人”中,随机抽取3名用户.①求抽取的3名用户中,既有40岁及以下“支付宝达人”又有40岁以上“支付宝达人”的概率;②为了鼓励40岁以上用户使用支付宝,对抽出的40岁以上“支付宝达人”每人奖励500元,记奖励总金额为X (单位:元),求X 的数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥ 0.15 0.10 0.05 0.025 0.010 0.005 0.0010k2.0722.7063.841 5.024 6.635 7.879 10.82829.(2021·全国高三专题练习)2019年4月,江苏省发布了高考综合改革实施方案,试行“312++”高考新模式.为调研新高考模式下,某校学生选择物理或历史与性别是否有。

“统计与统计案例”高考考向归类解析

“统计与统计案例”高考考向归类解析

此第 1营区被抽 中的人数是 2 5 :令 3 0 0 <3 + 1 2 ( k 一 1 ) ≤4 9 5得

< ≤4 2 ,因此第 Ⅱ营区被抽 中的人数是 4 2 - 2 5 = 1 7 . 结合
的频率分 布直方 图 ,观察 图 形的信 息 ,回答下列问题 : ( 1 )求 分 数在 [ 7 O ,8 o ) 内的频 率 .并补全这个频率分布直方 图: ( 2 )统计方法 中 ,同一组数据 常用该组 区间的中点值作为 代表 .据此估计本次考试 中的平均分. 思维 启 迪 :利 用 各小 长方 形 的 面积 和 等于 1求分 数 在 【 7 0 ,8 o )内的频率 ,再补 齐频率分布直方图.
解题感 悟 : f 1 )绘制频 率分布直 方图时 需注意 :① 制作
2 4 广 琅勃 鸯・ 高中 2 0 1 4 年第 1 0期
G UANG D0 G J| A0 YU GA0 ZHONG
在第 Ⅲ营区 ,三个 营区被抽 中的人数依次为 f
A. 2 6 ,1 6 , 8 B. 2 5 ,1 7 , 8 C .2 5 ,1 6 , 9

D. 2 4 ,1 7 , 9
【 例2 】某校从参加高一
年 级期 中考试 的学生 中随机
抽出6 0名学 生 .将 其 物 理 成绩 ( 均 为 整数 )分 成六 段
解析 : ( 1 )设分数在 【 7 0 ,8 ) 内的频率为 ,根据 频率 0
各选项知 .选 B .
答 案 :B .
解题 感悟 : ( 1 )系统抽样 的特 点— —机械抽样 ,又称 等 距抽样 ,所以依 次抽取的样本对应的号码就是一个等差数列 .
首项就是 第 1 组 所抽取样 本的号码 ,公差为 间隔数 。根据 等 差数列的通项公 式就 可以确定每一组 内所要抽 取的样本号码.

高考数学二轮复习 统计与统计案例

高考数学二轮复习 统计与统计案例

统计与统计案例1.(2014·四川高考)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )A .总体B .个体C .样本的容量D .从总体中抽取的一个样本【解析】 5 000名居民的阅读时间的全体为总体,故选A.【答案】 A2.(2014·重庆高考)某中学有高中生3 500人,初中生1 500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )A .100B .150C .200D .250【解析】 样本抽取比例为703 500=150,该校总人数为1 500+3 500=5 000,则n 5 000=150,故n =100,选A. 【答案】 A3x 3 4 5 6 7 8y 4.0 2.5 -0.5 0.5 -2.0 -3.0得到的回归方程为y =bx +a ,则( )A .a >0,b >0B .a >0,b <0C .a <0,b >0D .a <0,b <0【解析】 回归直线方程过中心点(5.5,1.5),即1.5=5.5b +a ,由题意,两个变量负相关,b <0,∴a >0,故选B.【答案】 B4.(2014·广东高考)某车间20名工人年龄数据如下表:年龄(岁) 工人数(人)19 128 329 330 531 432 340 1合计 20(1)求这20名工人年龄的众数与极差;(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;(3)求这20名工人年龄的方差.【解】 (1)由题可知,这20名工人年龄的众数是30,极差是40-19=21.(2)这20名工人年龄的茎叶图如图所示:(3)这20名工人年龄的平均数为x =120(19+3×28+3×29+5×30+4×31+3×32+40)=30,∴这20名工人年龄的方差为s 2=12020i =1 (x i -x )2=112+6×22+7×12+5×02+10220=25220=12.6.从近三年高考来看,该部分高考命题的热点考向为:1.随机抽样①随机抽样问题与实际生活紧密相连,是高考考查的热点之一.主要考查系统抽样中号码的确定和分层抽样中各层人数的确定.②多以选择题和填空题的形式呈现,属容易题.2.用样本估计总体①该考向重点考查样本特征数的计算,样本频率分布直方图和茎叶图等知识.特别是茎叶图是新课标中的新增内容,与实际生活联系密切,可方便处理数据,是高考中新的热点.②多以选择题、填空题的形式考查,有时也出现在解答题中,属容易题.3.线性回归分析①线性回归分析是新增内容,在现实生活中有着广泛的应用,应引起重视.②多以选择题、填空题的形式考查,有时也出现在解答题中,属中、低档题目.4.独立性检验①独立性检验也是新增内容,在现实生活中有着广泛的应用,近几年许多省的高考题涉及本考向,应引起关注.②既可以以选择题、填空题的形式考查,也可以以解答题的形式呈现,属中、低档题目.随机抽样【例1】 (1)(2014·天津高考)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.(2)(2014·广东高考)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本 ,则分段的间隔为( )A .50B .40C .25D .20【解析】 (1)由题意知应抽取人数为300×44+5+5+6=60. (2)由1 00040=25,可得分段的间隔为25.故选C. 【答案】 (1)60 (2)C【规律方法】解答与抽样方法有关的问题时应注意:(1)要深刻理解各种抽样方法的特点和实施步骤.(2)熟练掌握系统抽样中被抽个体号码的确定方法.(3)熟练掌握分层抽样中各层人数的计算方法.注意:抽样方法常和概率、频率分布直方图等知识结合在一起考查.[创新预测]1.(1)(2013·湖南高考)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件、80件、60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=( )A.9 B.10 C.12 D.13(2)(2013·江西高考)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )7816657208026314070243699728019832049234493582003623486969387481A.08 B.07C.02 D.01【解析】(1)根据分层抽样的特点,用比例法求解.依题意得360=n120+80+60,故n=13.(2)由随机数表法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.【答案】(1)D (2)D用样本估计总体【例2】(2014·北京高考)从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:组号分组频数1[0,2) 62[2,4)83[4,6)174[6,8)225[8,10)256[10,12)127[12,14) 68[14,16) 29[16,18) 2合计100(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率;(2)求频率分布直方图中的a ,b 的值;(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组.(只需写出结论)【解】 (1)根据频数分布表,100名学生中课外阅读时间不少于12小时的学生共有6+2+2=10名,所以样本中的学生课外阅读时间少于12小时的频率是1-10100=0.9. 从该校随机选取一名学生,估计其课外阅读时间少于12小时的概率为0.9.(2)课外阅读时间落在组[4,6)的有17人,频率为0.17,所以a =频率组距=0.172=0.085. 课外阅读时间落在组[8,10)的有25人,频率为0.25,所以b =频率组距=0.252=0.125. (3)样本中的100名学生课外阅读时间的平均数在第4组.【规律方法】 1.用样本估计总体时应注意的问题:(1)理解在抽样具有代表性的前提下,可以用样本的频率分布估计总体的频率分布,用样本的特征数估计总体的特征数,这是统计的基本思想.(2)反映样本数据分布的主要方式,一个是频率分布表,一个是频率分布直方图.要学会根据频率分布直方图估计总体的概率分布以及总体的特征数,特别是均值、众数和中位数.2.样本数字特征及茎叶图:(1)要掌握好样本均值和方差的实际意义,并在具体的应用问题中会根据所计算出的样本数据的均值和方差对实际问题作出解释.(2)茎叶图是表示样本数据分布的一种方法,其特点是保留了所有的原始数据,这是茎叶图的优势.[创新预测]2.(1)(2013·福建高考)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为( )A .588B .480C .450D .120(2)(2013·山东高考)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:8 7 79 4 0 1 0 x 9 1则7A.1169 B.367 C .36 D.677【解析】 (1)先求出频率,再求样本容量.不少于60分的学生的频率为(0.030+0.025+0.015+0.010)×10=0.8,∴该模块测试成绩不少于60分的学生人数应为600×0.8=480.故选B.(2)利用平均数为91,求出x 的值,利用方差的定义,计算方差.根据茎叶图,去掉1个最低分87,1个最高分99,则17[87+94+90+91+90+(90+x )+91]=91, ∴x = 4.∴s 2=17[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=367. 【答案】 (1)B (2)B线性回归分析【例3】 (2014·全国新课标Ⅱ高考)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:年份 2007 2008 2009 2010 2011 2012 2013年份代号t 1 2 3 4 5 6 7人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n t i -t-y i -y -∑i =1n t i -t-2,a ^=y --b ^t -. 【解】 (1)由所给数据计算得t -=17(1+2+3+4+5+6+7)=4, y -=17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 ∑i =17(t i -t -)2=9+4+1+0+1+4+9=28,∑i =17 (t i -t -)(y i -y -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17 t i -t-y i -y -∑i =17 t i -t-2=1428=0.5, a ^=y --b ^t -=4.3-0.5×4=2.3,所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(Ⅰ)中的回归方程,得y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.【规律方法】 进行线性回归分析时应注意的问题(1)正确理解计算b ,a 的公式和准确的计算,是求回归直线方程的关键.(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(3)在散点图中,若所有点大部分都集中在斜向上(自左向右看)的直线的附近,则为正相关;若大部分都集中在斜向下(自左向右看)的直线的附近,则为负相关.[创新预测]3.(2013·重庆高考)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ;(2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y =bx +a 中,b =∑i =1n x i y i -n x y ∑i =1nx 2i -n x 2,a =y -b x ,其中x ,y 为样本平均值.线性回归方程也可写为y ^=b ^x +a ^.【解】 (1)由题意知n =10,x =1n ∑i =1n x i =8010=8, y =1n ∑i =1n y i =2010=2, 又l xx =∑i =1nx 2i -n x 2=720-10×82=80,l xy =∑i =1nx i y i -n x y =184-10×8×2=24,由此得b =l xy l xx =2480=0.3,a =y -b x =2-0.3×8=-0.4, 故所求线性回归方程为y =0.3x -0.4.(2)由于变量y 的值随x 值的增加而增加(b =0.3>0),故x 与y 之间是正相关.(3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元). 独立性检验【例4】 (2014·辽宁高考)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生 喜欢甜品 不喜欢甜品 合计南方学生 60 20 80北方学生 10 10 20合计 70 30 100(1)惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品.现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.附:χ2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2,P (χ2≥k ) 0.100 0.050 0.010k 2.706 3.841 6.635【解】 (1)将2×2列联表中的数据代入公式计算,得χ2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2=100×60×10-20×10270×30×80×20=10021≈4.762. 由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 2,b 3),(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.其中a i 表示喜欢甜品的学生,i =1,2.b j 表示不喜欢甜品的学生,j =1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A 表示“3人中至多有1人喜欢甜品”这一事件,则A ={(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.事件A 是由7个基本事件组成,因而P (A )=710. 【规律方法】 1.独立性检验的关键是准确计算K 2(χ2),而计算k 2(χ2)时,要正确绘制2×2列联表.2.两个变量的独立性检验,在统计学中有着广泛的应用,学习时一定要结合实际问题,从现实中寻找例子,增强学习数学的动力.[创新预测]4.(2014·安徽高考)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K 2=n ad -bc 2a ++++ P (K 2≥k 0) 0.10 0.05 0.010 0.005k 0 2.706 3.841 6.635 7.879【解】 (1)300×15 000=90,所以应收集90位女生的样本数据. (2)由题中频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的.所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表 男生 女生 总计每周平均体育运动时间不超过4小时45 30 75 每周平均体育运动时间超过4小时165 60 225 总计 210 90 300结合列联表可算得K 2=300× 2 250275×225×210×90=10021≈4.762>3.841. 所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.[总结提升]失分盲点(1)混淆简单随机抽样、系统抽样、分层抽样的区别,不能正确地选择抽样方法.(2)不能正确地从频率分布直方图中提取相关的信息,混淆了频数与频率的差异.答题指导(1)看到抽样问题,想到三种抽样的定义以及适用范围和三者的区别.(2)看到频率分布直方图,想到频数与频率的区别以及计算方法.方法规律(1)分层抽样:①抽样原则:分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取n =n ·N N(i =1,2,…,k )个个体:②分层原则:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)利用统计量K 2进行独立性检验的步骤:①根据数据列出2×2列联表.②根据公式计算K 2的观测值k .③比较观测值k 与临界值表中相应的检验水平,作出统计判断.通过数据分析事物蕴含的规律1.数据的作用是为了说明实际问题中存在的问题,通过对数据的处理(如计算样本数据的均值、方差、极差、中位数、众数等),看出实际问题中蕴含的某种规律,根据规律的利弊确定未来的发展方向,这是数据处理的一个主要方面.2.在统计中通过对抽取的样本数据进行处理,根据样本估计总体的思想,可以对总体作出估计,从而对总体作出评价,给出令人信服的结论,这就是用数据说话.【典例】 (2014·全国新课标Ⅱ高考)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.【解】(1)由题中所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由题中所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由题中所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由题中茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.(注:考生利用其他统计量进行分析,结论合理的同样给分.)【规律感悟】样本数据的均值体现了一种整体的态势,样本数据的方差则说明了整体态势的稳定性,整体态势(均值)及其稳定性(方差)是样本数据的两个重要特征数.。

高考数学专题《统计与统计案例》练习

高考数学专题《统计与统计案例》练习

专题10.1 统计与统计案例1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关2.(2021·四川·成都七中高三期中(文))奥运会跳水比赛中共有7名评委给出某选手原始评分,在评定该选手的成绩时,去掉其中一个最高分和一个最低分,得到5个有效评分,则与7个原始评分(不全相同)相比,一定会变小的数字特征是()A .众数B .方差C .中位数D .平均数3.(2020·安徽·高三学业考试)已知某学校高二年级的一班和二班分别有m 人和n 人()m n ≠.某次学校考试中,两班学生的平均分分别为a 和()b a b ≠,则这两个班学生的数学平均分为( )A .2a b +B .ma nb +C .ma nb m n++D .a bm n++4.(2021·天津·南开中学高三月考)某校有200位教职员工,他们每周用于锻炼所用时间的频率分布直方图如图所示,据图估计,每周锻炼时间在[8,12]小时内的人数为()练基础A.18B.46C.54D.925.(2017·全国高考真题(理))某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳6.(2017课标1,文2)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数7.(2019·全国高考真题(文))某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验,若46号学生被抽到,则下面4名学生中被抽到的是A.8号学生B.200号学生C.616号学生D.815号学生8.(2021·吉林·桦甸市第四中学高三月考(理))在“双11”促销活动中,某网店在11月11日9时到14时的销售额进行统计,其频率分布直方图如图所示,已知12时到14时的销售额为42万元,则9时到11时的销售额为()A.9万元B.18万元C.24万元D.30万元9.(2021·内蒙古赤峰·高三月考(文))汽车的“燃油效率”是指汽车每消耗1L汽油行驶的里程,如图描述了甲、乙、丙三辆汽车在不同速度下的燃油效率情况.下列叙述中正确的是()A .消耗1L 汽油,乙车最多可行驶5kmB .甲车以80km/h 的速度行驶1h 消耗8L 汽油C .以相同速度行驶相同路程,三辆车中,甲车消耗汽油最多D .若机动车最高限速80km/h ,在相同条件下,乙,丙两辆车节油情况无法比较.10.(2020·新疆·克拉玛依市教育研究所三模(理))已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据:x24568y3040506070根据上表可得回归方程为^^y bx a =+,计算得^7b =,则当投入10万元广告费时,销售额的预报值为( )A .75万元B .85万元C .95万元D .105万元1.(2021·河南·高三月考(理))某校为了解学生体能素质,随机抽取了50名学生,进行体能测试.并将这50名学生成绩整理得如下频率分布直方图.根据此频率分布直方图.下列结论中不正确的是()练提升A .这50名学生中成绩在[]80,100内的人数占比为20%B .这50名学生中成绩在[)60,80内的人数有26人C .这50名学生成绩的中位数为70D .这50名学生的平均成绩68.2x =(同一组中的数据用该组区间的中点值做代表)2.(2021·云南大理·模拟预测(理))在发生某公共卫生事件期间,有专业机构认为该事件在一段事件内没有发生大规模群体感染的标志是“连续10日,每天新增疑似病例不超过7人”.过去10日,甲、乙、丙、丁四地新增疑似病例数据信息如下:甲地:总体平均数为3,中位数为4; 乙地:总体平均数为1,总体方差大于0;丙地:中位数为2,众数为3; 丁地:总体平均数为2,总体方差为3.则甲、乙、丙、丁四地中,一定没有发生大规模群体感染的是( )A .甲地B .乙地C .丙地D .丁地3.(2021·广东茂名·高三月考)某市居民月均用水量的频率分布直方图如图所示:其众数1X ,中位数2X ,平均数X 的估计值分为,则下列结论正确的是( )A .21X X X >>B .21X X X >>C .12X X X >>D .21X X X>>4.(2021·云南·曲靖一中高三月考(文))有20名学生参加数学夏令营活动,分A , B 两组进行,每组10人夏令营结束时对两组学生进行了一次考核,考核成绩的茎叶图如图所示.则下列说法错误的是()A .A 组学生考核成绩的众数是78B .A ,B 两个组学生平均成绩一样C .B 组考核成绩的中位数是79D .A 组学生成绩更稳定5.(2021·辽宁丹东·高三期中)高三(1)班男女同学人数之比为3:2,班级所有同学进行踢毽球(毽子)比赛,比赛规则是:每个同学用脚踢起毽球,落地前用脚接住并踢起,脚接不到毽球比赛结束.记录每个同学用脚踢起毽球开始到毽球落地,脚踢到毽球的次数,已知男同学用脚踢到毽球次数的平均数为17,方差为11,女同学用脚踢到毽球次数的平均数为12,方差为16,那么全班同学用脚踢到毽球次数的平均数和方差分别为( )A .14.5,13.5B .15,13C .13.5,19D .15,196.(2021·广东福田·高三月考)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入调查数据整理得到如下频率分布直方图(如图):根据此频率分布直方图,下面结论中正确的是( )A .该地农户家庭年收入低于4.5万元的农户比率估计为6%B .该地农户家庭年收入的中位数约为7.5万元C .估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间D .估计该地农户家庭年收入的平均值不超过6.5万元7.(2021·西藏·拉萨那曲第二高级中学高三月考(文))某中学随机抽查了50名同学的每天课外阅读时间,得到如下统计表:时长(分)(]0,10(]10,20(]20,30(]30,40(]40,50人数41014184(1)求这50名同学的平均阅读时长(用区间中点值代表每个人的阅读时长);(2)在阅读时长位于(]40,50的4人中任选2人,求甲同学被选中的概率;(3)进一步调查发现,语文成绩和每天的课外阅读时间有很大关系,每天的课外阅读时间多于半小时称为“阅读迷”,语文成绩达到120分视为优秀,根据每天的课外阅读时间和语文成绩是否优秀,制成一个22⨯列联表:阅读迷非阅读迷合计语文成绩优秀20323语文成绩不优秀22527合计222850根据表中数据,判断是否有99%的把握认为语文成绩是否优秀与课外阅读时间有关.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:()20P K k ≥0.400.250.100.0100k 0.7081.3232.7066.6358.(2021·西藏·拉萨那曲第二高级中学高三月考(文))某中学随机抽查了50名同学的每天课外阅读时间,得到如下统计表:时长(分)(]0,10(]10,20(]20,30(]30,40(]40,50人数41014184(1)求这50名同学的平均阅读时长(用区间中点值代表每个人的阅读时长);(2)在阅读时长位于(]40,50的4人中任选2人,求甲同学被选中的概率;(3)进一步调查发现,语文成绩和每天的课外阅读时间有很大关系,每天的课外阅读时间多于半小时称为“阅读迷”,语文成绩达到120分视为优秀,根据每天的课外阅读时间和语文成绩是否优秀,制成一个22⨯列联表:阅读迷非阅读迷合计语文成绩优秀20323语文成绩不优秀22527合计222850根据表中数据,判断是否有99%的把握认为语文成绩是否优秀与课外阅读时间有关.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:()20P K k ≥0.400.250.100.0100k 0.7081.3232.7066.6359.(2021·新疆·克拉玛依市教育研究所模拟预测(文))推进垃圾分类处理,是落实绿色发展理念的必然选择.为加强社区居民的垃圾分类意识,某社区在健身广场举办了“垃圾分类,从我做起”生活垃圾分类大型宣传活动,号召社区居民用实际行动为建设绿色家园贡献一份力量,为此需要征集一部分垃圾分类志愿者.(1)为调查社区居民喜欢担任垃圾分类志愿者是否与性别有关,现随机选取了一部分社区居民进行调查,其中被调查的男性居民30人,女性居民20人,男性居民中不喜欢担任垃圾分类志愿者占男性居民的23,女性居民中不喜欢担任垃圾分类志愿者占女性居民的14,判断能否在犯错误概率不超过0.5%的前提下,认为居民喜欢担任垃圾分类志愿者与性别有关?附:()()()()()22n ad bc k a b c d a c b d -=++++,n a b c d =+++.()20P K k ≥0.1000.0500.0100.0050.0010k 2.7063.8416.6357.87910.828(2)某垃圾站的日垃圾分拣量y (千克)与垃圾分类志愿者人数x (人)满足回归直线方程y bx a =+$$$,数据统计如表:志愿者人数x (人)23456日垃圾分拣量y (千克)24294146t已知511405i i y y ===∑,52190i i x ==∑,51889i i i x y ==∑,根据所给数据求t ,预测志愿者人数为10人时,该垃圾站的日垃圾分拣量.附:1221ni ii nii x y nxybxnx==-=-∑∑ ,a y bx =-$$.10.(2016高考四川文科)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5), [0.5,1),……[4,4.5]分成9组,制成了如图所示的频率分布直方图.0.500.42(I)求直方图中的a值;(II)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数.说明理由;(Ⅲ)估计居民月均用水量的中位数.练真题1.(2021·全国高考真题(文))为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是()A.该地农户家庭年收入低于4.5万元的农户比率估计为6%B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%C.估计该地农户家庭年收入的平均值不超过6.5万元D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间2.(2020·全国高考真题(理))在一组样本数据中,1,2,3,4出现的频率分别为1234,,,p p p p ,且411i i p ==∑,则下面四种情形中,对应样本的标准差最大的一组是( )A .14230.1,0.4p p p p ====B .14230.4,0.1p p p p ====C .14230.2,0.3p p p p ====D .14230.3,0.2p p p p ====3.(2019·全国高考真题(文))某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:.P (K 2≥k )0.0500.0100.001k3.8416.63510.8284.(2021·全国高考真题(理))某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:旧设备9.810.310.010.29.99.810.010.110.29.7新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为x 和y ,样本方差分别记为21s 和22s .(1)求x ,y ,21s ,22s ;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y x -≥不认为有显著提高).5.(2017·全国高考真题(文))海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg ), 其频率分布直方图如下:22()()()()()n ad bc K a b c d a c b d -=++++(1)记A 表示事件“旧养殖法的箱产量低于50kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg箱产量≥50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较.附:P (K 2≥k )0.0500.0100.001k3.8416.63510.8286.(2018·全国高考真题(文))下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,,17 )建立模型①:22()()()()()n ad bc K a b c d a c b d -=++++ˆ30.413.5yt =-+;根据2010年至2016年的数据(时间变量t 的值依次为1,2,,7 )建立模型②:ˆ9917.5yt =+. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.。

高考数学一轮复习 专题10.2 统计与统计案例(练)

高考数学一轮复习 专题10.2 统计与统计案例(练)

专题10.2 统计与统计案例1.在一段时间内有2000辆车通过高速公路上的某处,现随机抽取其中的200辆进行车速统计,统计结果如下面的频率分布直方图所示.若该处高速公路规定正常行驶速度为90km/h ~120km/h ,试估计2000辆车中,在这段时间内以正常速度通过该处的汽车约有________辆.【答案】1700【解析】2000(0.0350.030.02)101700⨯++⨯=2.为了解一批灯泡(共5000只)的使用寿命,从中随机抽取了100只进行测试,其使用寿命(单位:h )如下表:使用寿命 [)500,700 [)700,900 [)900,1100 [)1100,1300 []1300,1500只数52344253根据该样本的频数分布,估计该批灯泡使用寿命不低于1100h 的灯泡只数是 ▲ . 【答案】1700 【解析】由题意得:25350001700100+⨯= 3.如图所示,一家面包销售店根据以往某种面包的销售记录,绘制了日销售量的频率分布直方图.若一个月以30天计算,估计这家面包店一个月内日销售量不少于150个的天数为▲________.【解析】950)002.0004.0(30=⨯+⨯4.一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图(如图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10000人中再用分层抽样方法抽出100人作进一步调查,则月收入在[2500,3000)范围内的应抽出 ▲ 人.【答案】25【解析】由题意得:0.000550010025⨯⨯=5.甲、乙两位选手参加射击选拔赛,其中连续5轮比赛的成绩(单位:环)如下表:则甲、乙两位选手中成绩最稳定的选手的方差是 ▲ .【答案】0.02【解析】甲、乙两位选手5轮比赛的成绩的平均数皆为10,方差分别为222221[0.20.10.100.2]0.025S =++++=甲,2222321[0.60.30.80.30.2]0.025S =++++>乙,因此甲、乙两位选手中成绩最稳定的选手为甲,其方差是0.026.某校有教师200人,男学生1200人,女学生1000人,现用分层抽样的方法从所有教师中抽取一个容量为n 的样本;已知从女学生中抽取的人数为80人,则n 的值为 . 【答案】196 【解析】由题意知,80,196.200120010001000n n ==++7.某校选修乒乓球课程的学生中,高一年级有30名,高二年级有40名.现用分层抽样的方法在这70名学生中抽取一个样本,已知在高一年级的学生中抽取了6名,则在高二年级的学生中应抽取的人数为 .0.0005300035000.00030.0004200015000.00020.0001400025001000月收入(元)频率/组距(第6题)【解析】∵630=15,∴在高二年级学生中应抽取的人数为40×15=8.8.已知一组正数x 1,x 2,x 3,x 4的方差s 2=14(x 12+x 22+x 32+x 42-16),则数据x 1+2,x 2+2,x 3+2,x 4+2的平均数为 . 【答案】49.某公司10位员工的月工资(单位:元)为1x ,2x ,…,10x ,其均值和方差分别为x 和2s ,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为 . 【答案】100x +,2s【解析】由题得:12101010x x x x x +++=⨯=L ;222221210()()()1010x x x x x x s s -+-++-=⨯=L 若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为: 均值1210(100)(100)(100)10x x x y ++++⋅⋅⋅++=12101210(100)(100)(100)()101001010100100101010x x x x x x x x ++++⋅⋅⋅++++⋅⋅⋅++⨯+⨯====+方差2221210[(100)(100)][(100)(100)][(100)(100)]10x x x x x x +-+++-++⋅⋅⋅++-+=222221210()()()101010x x x x x x s s -+-++-===L10.某中学有高中生3500人,初中生1500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为 . 【答案】100【解析】()70350015*********n =+⨯=. 11.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为01到50的袋装奶粉中抽取5袋进行检验,现将50袋奶粉按编号顺序平均分成5组,用每组选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号,若第4组抽出的号码为36,则第1组中用抽签的方法确定的号码是 .【答案】06【解析】因为按系统抽样方法选取的编号依次构成一个等差数列,且公差为10,所以由41363a a d ==+得:16,a =因此确定的号码是06.12.设样本数据1210,,,x x x L 的均值和方差分别为1和4,若i i y x a =+(a 为非零常数, 1,2,,10i =L ),则12,10,y y y L 的均值和方差分别为 . 【答案】1+,4a2221210(1)(1)(1)4041010x x x -+-++-===L13.将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为 . 【答案】25,17,814.下图1是某县参加2011年高考的学生身高条形统计图,从左到右的各条形表示的学生人数依次记为A 1,A2,…,A n(如A2表示身高(单位:cm)在[150,155)内的学生人数).图2是统计图1中身高在一定范围内学生人数的一个程序框图.现要统计身高在160 cm~180 cm(含160 cm,不含180 cm)内的学生人数,那么在程序框图中的判断框内应填写的条件是________.图2【答案】i≤7。

高考大题专项六 高考中的概率、统计与统计案例

高考大题专项六 高考中的概率、统计与统计案例

高考大题专项六高考中的概率、统计与统计案例从近五年的高考试题来看,在高考的解答题中,对概率、统计与统计案例的考查主要有三个方面:一是统计与统计案例,以实际生活中的事例为背景,通过对相关数据的统计分析、抽象概括,作出估计、判断,其中回归分析、独立性检验、用样本的数据特征估计总体的数据特征是考查重点,常与抽样方法、茎叶图、频率分布直方图、概率等知识交汇考查,考查学生的数据处理能力;二是统计与概率综合,以现实生活为背景,利用频率估计概率,常与抽样方法、茎叶图、频率分布直方图、概率等知识交汇考查;三是古典概型的综合应用,以现实生活为背景,求某些事件发生的概率,常与抽样方法、茎叶图等统计知识交汇考查.1.统计图表(1)在频率分布直方图中:①各小矩形的面积表示相应各组的频率,各小矩形的高=频率组距;②各小矩形面积之和等于1.(2)茎叶图:当数据是两位数时,用中间的数字表示十位数,两边的数字表示个位数;当数据是三位数,前两位相对比较集中时,常以前两位为茎,第三位(个位)为叶(其余类推).2.样本的数字特征(1)众数:是指出现次数最多的数,体现在频率分布直方图中,是指高度最高的小矩形的宽的中点的横坐标;(2)中位数是指从左往右小矩形的面积之和为0.5处的横坐标;(3)平均数x=1n (x1+x2+…+x n),体现在频率分布直方图中是由各小矩形的宽的中点的横坐标乘相应小矩形的面积,然后求和得到;(4)方差s2=1n [(x1-x)2+(x2-x)2+…+(x n-x)2]=1n∑i=1nx i2-nx2.4.独立性检验:对于取值分别是{x1,x2}和{y1,y2}的分类变量X 和Y,其样本频数列联表是:5.概率的基本性质(1)随机事件的概率:0≤P(A)≤1;必然事件的概率是1;不可能事件的概率是0.(2)若事件A,B 互斥,则P(A ∪B)=P(A)+P(B). (3)若事件A,B 对立,则P(A ∪B)=P(A)+P(B)=1. 6.两种常见的概率模型 (1)古典概型;(2)几何概型.3.变量间的相关关系(1)如果散点图中的点从整体上看大致分布在一条直线的附近,那么我们说变量x 和y 具有线性相关关系.(2)线性回归方程:若变量x 与y 具有线性相关关系,有n 个样本数据(x i ,y i )(i=1,2,…,n ),则回归方程为y ^=b ^x+a ^,其中b ^=∑i =1nx i y i -nx y ∑i =1nx i 2-nx2,a ^=y −b ^x .(3)相关系数:r=∑i =1n(x i -x )(y i -y )∑i =1(x i -x )2∑i =1(y i -y )2,当r>0时,表示两个变量正相关;当r<0时,表示两个变量负相关.|r|越接近1,表明两个变量相关性越强;当|r|接近0时,表明两个变量几乎不存在相关性.y 1 y 2 总计 x 1 a b a+b x 2 c d c+d 总计a+cb+dn随机变量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n=a+b+c+d.1.(2019届河北唐山摸底考试,18)某厂分别用甲、乙两种工艺生产同一种零件,尺寸在[223,228]内(单位:mm)的零件为一等品,其余为二等品.在两种工艺生产的零件中,各随机抽取10个,其尺寸的茎叶图如图所示:(1)分别计算抽取的两种工艺生产的零件尺寸的平均数;(2)已知甲工艺每天可生产300个零件,乙工艺每天可生产280个零件,一等品利润为30元/个,二等品利润为20元/个.视频率为概率,试根据抽样数据判断采用哪种工艺生产该零件每天获得的利润更高?2.我国是世界上严重缺水的国家,城市缺水问题较为突出,某市政府为了鼓励居民节约用水,计划在本市试行居民生活用水定额管理,即确定一个合理的居民月用水量标准x(单位:吨),用水量不超过x 的部分按平价收费,超过x 的部分按议价收费,为了了解全市市民月用水量的分布情况,通过抽样,获得了100位居民某年的月用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a 的值;(2)已知该市有80万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;(3)若该市政府希望使85%的居民每月的用水量不超过标准x(单位:吨),估计x 的值,并说明理由.3.(2019:(1)根据表中数据,建立y 关于t 的线性回归方程y ^=b ^t+a ^; (2)根据线性回归方程预测2019年该地区该农产品的年产量.附:对于一组数据(t 1,y 1),(t 2,y 2),…,(t n ,y n ),其回归直线y=bt+a 的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(t i -t )(y i -y )∑i=1n(t i-t )2,a ^=y −b ^t .(参考数据:∑i=16(t i -t )(y i -y )=2.8,计算结果保留小数点后两位)4.为响应阳光体育运动的号召,某县中学生足球活动正如火如荼地开展,该县为了解本县中学生的足球运动状况,根据性别采取分层抽样的方法从全县24 000名中学生(其中男生14 000人,女生10 000人)中抽取120名,统计他们平均每天足球运动的时间,如下表:(平均每天足球运动的时间单位为小时,该县中学生平均每天足球运动的时间范围是[0,3])(1)请根据样本估算该校男生平均每天足球运动的时间(结果精确到0.1);(2)若称平均每天足球运动的时间不少于2小时的学生为“足球健将”.低于2小时的学生为“非足球健将”.①请根据上述表格中的统计数据填写下面2×2列联表,并通过计算判断,能否在犯错误的概率不超过0.01②若在足球活动时间不足1小时的男生中抽取2名代表了解情况,求这2名代表都是足球运动时间不足半小时的概率. 参考公式:K 2=n (ad -bc )2(a+b )(c+d )(a+c )(b+d ),其中n=a+b+c+d.5.(2019届湖南长沙雅礼中学一模,19)某校决定为本校上学所需时间不少于30分钟的学生提供校车接送服务.为了解学生上学所需时间,从全校600名学生中抽取50人统计上学所需时间(单位:分钟),将600人随机编号为001,002,…,600,抽取的50名学生上学所需时间均不超过60分钟,将上学所需时间按如下方式分成六组,第一组上学所需时间在[0,10),第二组上学所需时间在[10,20),…,第六组上学所需时间在[50,60],得到各组人数的频率分布直方图,如下图:(1)若抽取的50个样本是用系统抽样的方法得到,且第一个抽取的号码为006,则第五个抽取的号码是多少?(2)若从50个样本中属于第四组和第六组的所有人中随机抽取2人,设他们上学所需时间分别为a 、b,求满足|a-b|>10的事件的概率;(3)设学校配备的校车每辆可搭载40名学生,请根据抽样的结果估计全校应有多少辆这样的校车?6.在国际风帆比赛中,成绩以低分为优胜,比赛共11场,并以最佳的9场成绩计算最终的名次.在一次(1)根据表中的比赛数据,比较A与B的成绩及稳定情况;(2)从前7场平均分低于6.5的运动员中,随机抽取2个运动员进行兴奋剂检查,求至少1个运动员平均分不低于5分的概率;(3)请依据前7场比赛的数据,预测冠亚军选手,并说明理由.7.(2019届四川成都石室中学入学考试,19)某服装店对过去100天其实体店和网店的销售量(单位:件)进行了统计,制成频率分布直方图如下:(1)若将上述频率视为概率,已知该服装店过去100天的销售中,实体店和网店销售量都不低于50件的概率为0.24,求过去100天的销售中,实体店和网店至少有一边销售量不低于50件的天数;(2)若将上述频率视为概率,已知该服装店实体店每天的人工成本为500元,门市成本为1 200元,每售出一件利润为50元,求该门市一天获利不低于800元的概率;(3)根据销售量的频率分布直方图,求该服装店网店销售量中位数的估计值(精确到0.01).8.(2019届贵州铜仁一中一联,19)贵州省铜仁第一中学为弘扬优良传统,展示80年来的办学成果,特举办“建校80周年教育成果展示月”活动.现在需要招募活动开幕式的志愿者,在众多候选人中选取100名志愿者,为了在志愿者中选拔出节目主持人,现按身高分组,得到的频率分布表如图所示.(1)请补充频率分布表中空白位置相应数据,再完成下列频率分布直方图;(2)为选拔出主持人,决定在第3、4、5组中用分层抽样抽取6人上台,求第3、4、5组每组各抽取多少人?(3)在(2)的前提下,主持人会在上台的6人中随机抽取2人表演诗歌朗诵,求第3组至少有一人被抽取的概率.9.(2018宁夏银川一中二模,19)某水产品经销商销售某种鲜鱼,售价为每千克20元,成本为每千克15元.销售宗旨是当天进货当天销售.如果当天卖不出去,未售出的全部降价处理完,平均每千克损失3元.根据以往的销售情况,按[0,100),[100,200),[200,300),[300,400),[400,500]进行分组,得到如图所示的频率分布直方图.(1)根据频率分布直方图计算该种鲜鱼日需求量的平均数x(同一组中的数据用该组区间中点值代表);(2)该经销商某天购进了300千克这种鲜鱼,假设当天的需求量为x千克(0≤x≤500),利润为Y元.求Y 关于x的函数关系式,并结合频率分布直方图估计利润Y不小于700元的概率.高考大题专项六 高考中的概率、统计与统计案例1.解 (1)x 甲=110(217+218+222+225+226+227+228+231+233+234)=226.1;x 乙=110(218+219+221+224+224+225+226+228+230+232)=224.7. (2)由抽取的样本可知,应用甲工艺生产的产品为一等品的概率为25,二等品的概率为35,故采用甲工艺生产该零件每天获得的利润:w 甲=300×25×30+300×35×20=7 200元;应用乙工艺生产的产品为一等品、二等品的概率均为12,故采用乙工艺生产该零件每天获得的利润:w 乙=280×12×30+280×12×20=7 000元. 因为w 甲>w 乙,所以采用甲工艺生产该零件每天获得的利润更高.2.解 (1)由频率分布直方图,可得(0.08+0.16+a+0.40+0.52+a+0.12+0.08+0.04)×0.5=1,解得a=0.30.(2)由频率分布直方图可知,100位居民每人月用水量不低于3吨的频率为(0.12+0.08+0.04)×0.5=0.12,由以上样本频率分布,可以估计全市80万居民中月均用水量不低于3吨的人数为800 000×0.12=96 000.(3)∵前6组的频率之和为(0.08+0.16+0.30+0.40+0.52+0.30)×0.5=0.88>0.85, 而前5组的频率之和为(0.08+0.16+0.30+0.40+0.52)×0.5=0.73<0.85,∴2.5≤x<3.由0.3×(x-2.5)=0.85-0.73,解得x=2.9,因此,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准. 3.解 (1)由题意可知:t =1+2+3+4+5+66=3.5, y =6.6+6.7+7+7.1+7.2+7.46=7,∑i=16(t i -t )2=(-2.5)2+(-1.5)2+(-0.5)2+0.52+1.52+2.52=17.5,∴b ^=∑i=16(t i -t )(y i -y )∑i=16(t i -t )2=2.817.5=0.16. 又a ^=y −b ^t =7-0.16×3.5=6.44,∴y 关于t 的线性回归方程为y ^=0.16t+6.44.(2)由(1)可得,当年份为2019年时,年份代码t=8,此时y ^=0.16×8+6.44=7.72,所以可预测2019年该地区该农产品的年产量约为7.72万吨.4.解 (1)∵男生抽取的人数为120×14 00014 000+10 000=70,女生抽取人数为120-70=50, ∴x=5,y=2,∴该校男生平均每天足球运动的时间约为0.25×2+0.75×3+1.25×28+1.75×22+2.25×10+2.75×570≈1.6(小时).(2)①由表格可知∴K 2的观测值k=120×(15×45-5×55)220×100×50×70≈2.743>2.706,∴在犯错误的概率不超过0.01的前提下认为是否为“足球健将”与性别有关;②记不足半小时的两人为a,b,足球运动时间在[0.5,1)内的3人为1,2,3,则总的基本事件有10个,取2名代表都是足球运动时间不足半小时的是(ab),故所求概率为110.5.解 (1)600÷50=12,第一段的号码为006,第五段抽取的数是6+(5-1)×12=54,即第五段抽取的号码是054. (2)第四组人数=0.008×10×50=4,设这4人分别为A 、B 、C 、D, 第六组人数=0.004×10×50=2,设这2人分别为x,y, 随机抽取2人的可能情况是:AB AC AD BC BD CD xy Ax Ay Bx By Cx Cy Dx Dy, 一共有15种情况,其中他们上学所需时间满足|a-b|>10的情况有8种,所以满足|a-b|>10的事件的概率为815.(3)全校上学所需时间不少于30分钟的学生约有: 600×(0.008+0.008+0.004)×10=120人, 所以估计全校需要3辆校车.6.解 (1)由表格中的数据,我们可以分别求出运动员A 和B 前7场比赛积分的平均数和方差,作为度量两运动员比赛的成绩及稳定性的依据.运动员A 的平均分x 1=17×21=3,方差s 12=17[(3-3)2+(2-3)2+(2-3)2+(2-3)2+(2-3)2+(4-3)2+(6-3)2]=2;运动员B 的平均分x 2=17×28=4,方差s 22=17[(1-4)2+(1-4)2+(3-4)2+(5-4)2+(10-4)2+(4-4)2+(4-4)2]=8,从平均分和积分的方差来看,运动员A 的平均积分及积分的方差都比运动员B 的小, 也就是说,在前7场比赛过程中,运动员A 的成绩较为优秀,且表现也较为稳定.(2)表中平均分低于6.5分的运动员共有5个,其中平均分低于5分的运动员有3个, 平均分不低于5分且低于6.5分的运动员有2个,从这5个数据中任取2个,基本事件总数n=10,从3个运动员中任取2人的事件数为3,至少1个运动员平均分不低于5分的对立事件是取到的两人的平均分都低于5分,所以至少1个运动员平均分不低于5分的概率P=1-310=710.(3)尽管此时还有4场比赛没有进行,但这里我们可以假设每位运动员在各自的11场比赛中发挥的水平大致相同,因而可以把前7场比赛的成绩看作总体的一个样本,并由此估计每位运动员最后的成绩,从已结束的7场比赛的积分来看,运动员A 的成绩最为出色,而且表现最为稳定,故预测A 运动员获得最后的冠军,而运动员B 和C 平均分相同,但运动员C 得分整体呈下降趋势,所以预测运动员C 将获得亚军.7.解 (1)由题意,网店销售量不低于50件共有(0.068+0.046+0.010+0.008)×5×100=66(天),实体店销售量不低于50件的天数为(0.032+0.020+0.012×2)×5×100=38(天),实体店和网店销售量都不低于50件的天数为100×0.24=24(天),故实体店和网店至少有一边销售量不低于50的天数为66+38-24=80(天).(2)由题意,设该实体店一天售出x 件,则获利为50x-1 700≥800⇒x ≥50. 设该实体店一天获利不低于800元为事件A,则P(A)=P(x ≥50)=(0.032+0.020+0.012+0.012)×5=0.38. 故该实体店一天获利不低于800元的概率为0.38.(3)因为网店销售量频率分布直方图中,销售量低于50件的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5,销售量低于55件的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故网店销售量的中位数的估计值为 50+0.5-0.340.34×5≈52.35(件). 8.解 (1)第二组的频数为100×0.35=35,故第三组的频数为100-5-35-20-10=30,故第三组的频率为0.3,第五组的频率为0.1,补全后的频率分布表为:频率分布直方图为:频率分布直方图(2)第3组、第4组、第5组的频率之比为3∶2∶1,故第3组、第4组、第5组抽取的人数分别为3,2,1.(3)设第3组中抽取的三人为A 1,A 2,A 3,第4组中抽取的两人为B 1,B 2,第5组中抽取的一人为C,则6人中任意抽取2人,所有的基本事件如下:A 1A 2,A 1A 3,A 2A 3,A 1B 1,A 1B 2,A 2B 1,A 2B 2,A 3B 1,A 3B 2,B 1B 2,A 1C,A 2C,A 3C,B 1C,B 2C,故第3组中至少有1人被抽取的概率为1215=45. 9.解 (1)x=50×0.001 0×100+150×0.002 0×100+250×0.003 0×100+350×0.002 5×100+450×0.001 5×100=265.(2)当日需求量不低于300千克时,利润Y=(20-15)×300=1 500(元); 当日需求量不足300千克时,利润Y=(20-15)x-(300-x)×3=8x-900(元);故Y={8x -900,0≤x <300,1 500,300≤x <500.由Y ≥700,得200≤x ≤500,所以P(Y ≥700)=P(200≤x ≤500) =0.003 0×100+0.002 5×100+0.001 5×100=0.7.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

[高考专项训练]统计与统计案例小题押题16—14⎪⎪统计与统计案例卷别年份考题位置考查内容命题规律分析全国卷Ⅱ2015选择题第3题条形图、两变量间的相关性统计与统计案例部分,抽样方法考查较少,且考查时题目较简单;回归分析与独立性检验在客观题中单独考查时较少;随机抽样、用样本估计总体以及全国卷Ⅲ2017选择题第3题折线图的应用2016选择题第4题统计图表的应用 变量的相关性是命题热点,难度较低.江苏 2018 第3题 平均数、茎叶图考查点一 抽样方法1.(2015·北京高考)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )类别 人数老年教师900中年教师1 800青年教师1 600合计4 300A.90B.100 C.180 D.300解析:选C设该样本中的老年教师人数为x,由题意及分层抽样的特点得x900=3201 600,解得x=180.2.(2015·四川高考)某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是()A.抽签法B.系统抽样法C.分层抽样法D.随机数法解析:选C根据年级不同产生差异及按人数比例抽取易知应为分层抽样法.3.已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为().A.89 B.91C.90 D.900解析:选C考察平均数的计算与茎叶图的转换关系考查点二用样本估计总体4.(2017·全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数解析:选B标准差能反映一组数据的稳定程度.故选B.5.(2016·全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为 5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个解析:选D由图形可得各月的平均最低气温都在0 ℃以上,A正确;七月的平均温差约为10 ℃,而一月的平均温差约为5 ℃,故B 正确;三月和十一月的平均最高气温都在10 ℃左右,基本相同,C正确,故选D.6.(2015·山东高考)为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为()A.①③B.①④C.②③D.②④=解析:选B法一:∵x甲26+28+29+31+315=29,x乙=28+29+30+31+325=30,∴x甲<x乙,又s2甲=9+1+0+4+45=185,s2乙=4+1+0+1+45=2,∴s甲>s乙.故可判断结论①④正确.法二:甲地该月14时的气温数据分布在26和31之间,且数据波动较大,而乙地该月14时的气温数据分布在28和32之间,且数据波动较小,可以判断结论①④正确,故选B.7.(2014·广东高考)已知某地区中小学生人数和近视情况分别如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为()A.100,10 B.200,10C.100,20 D.200,20解析:选D易知(3 500+4 500+2 000)×2%=200,即样本容量;抽取的高中生人数为2 000×2%=40,由于其近视率为50%,所以近视的人数为40×50%=20.8.(2015·湖北高考)某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.(1)直方图中的a=________;(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.解析:(1)由0.1×1.5+0.1×2.5+0.1×a+0.1×2.0+0.1×0.8+0.1×0.2=1,解得a=3.(2)区间[0.3,0.5)内的频率为0.1×1.5+0.1×2.5=0.4,故[0.5,0.9]内的频率为1-0.4=0.6.因此,消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10 000=6 000.答案:(1)3(2)6 000考查点三变量间的相关关系、统计案例9.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.11.311.9支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程y^=b^x+a^,其中b^=0.76,a^=y--b^x-.据此估计,该社区一户年收入为15万元家庭的年支出为()A.11.4万元B.11.8万元C.12.0万元D.12.2万元解析:选B由题意知,x=8.2+8.6+10.0+11.3+11.95=10,y=6.2+7.5+8.0+8.5+9.85=8,∴a^=8-0.76×10=0.4,∴当x=15时,y^=0.76×15+0.4=11.8(万元).10.(2014·江西高考)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1成绩性别不及格及格总计男61420 女102232 总计163652表2视力性别好差总计男41620女12232总计163652 表3智商性别偏高正常总计男81220 女82432 总计163652表4阅读量性别丰富不丰富总计男14620女23032总计163652A.成绩B.视力C.智商D.阅读量解析:选D因为K21=52×(6×22-14×10)2 16×36×32×20=52×8216×36×32×20,K22=52×(4×20-16×12)216×36×32×20=52×112216×36×32×20,K23=52×(8×24-12×8)216×36×32×20=52×96216×36×32×20,K24=52×(14×30-6×2)216×36×32×20=52×408216×36×32×20,则有K24>K22>K23>K21,所以阅读量与性别关联的可能性最大.11.(2015·北京高考)高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________;(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________.答案:(1)乙(2)数学重点突破——用样本估计总体的2个常考点考法(一)频率分布直方图与样本的数字特征1.对某小区100户居民的月均用水量进行统计,得到样本的频率分布直方图如图所示,则估计此样本的众数为________.解析:众数是指样本中出现频率最高的数,在频率分布直方图中通常取最高的小长方形底边中点的横坐标,所以众数为2+2.52=2.25.答案:2.252.对一批电子元件进行寿命追踪调查,从这批产品中抽取N个产品(N≥200),得到频率分布直方图如下:(1)图中m的值为________;(2)由频率分布直方图估计这批电子元件寿命的中位数是________.解析:(1)由0.001×100+m×100+0.004×100+0.002×100+m×100=1,得m=0.001 5.(2)设中位数为b,则0.001×100+0.001 5×100+0.004×(b-300)=0.5,解得b=362.5.答案:(1)0.001 5(2)362.53.某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是[50,60),[60,70),[70,80),[80,90),[90,100].(1)图中a的值为________;(2)根据频率分布直方图,估计这100名学生语文成绩的平均分为________.解析:(1)由(2a+0.02+0.03+0.04)×10=1,解得a=0.005.(2)0.05×55+0.4×65+0.3×75+0.2×85+0.05×95=73.答案:(1)0.005(2)73[解题方略]从频率分布直方图中得出有关数据的方法(1)频率:频率分布直方图中横轴表示组别(样本的连续可取数值),纵轴表示频率组距,频率=组距×频率组距; (2)频率比:频率分布直方图中各小长方形的面积之和为1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比,从而根据已知的几组数据个数比求有关值;(3)众数:最高小长方形底边中点的横坐标;(4)中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标;(5)平均数:频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和;(6)性质应用:若纵轴上存在参数值,则根据所有小长方形的高之和×组距=1,列方程即可求得参数值.考法(二)茎叶图与样本的数字特征茎叶图在样本数据较少、较为集中且位数不多时应用比较适宜.由于它保留了原始数据,所以不仅可以帮助分析样本的频率分布,还可以用来分析样本数据的一些数字特征,如平均数、众数、方差等.[题组突破]1.(2017·岳阳质检)甲、乙两位歌手在“中国好声音”选拔赛中,5次得分情况如图所示.记甲、乙两人的平均得分分别为x甲,x乙,则下列判断正确的是()甲乙677 588868409 3A.x甲<x乙,甲比乙成绩稳定B.x甲<x乙,乙比甲成绩稳定C.x甲>x乙,甲比乙成绩稳定D.x 甲>x乙,乙比甲成绩稳定解析:选B x甲=76+77+88+90+945=85,x乙=75+88+86+88+935=86,s2甲=15[(76-85)2+(77-85)2+(88-85)2+(90-85)2+(94-85)2]=52,s2乙=15[(75-86)2+(88-86)2+(86-86)2+(88-86)2+(93-86)2]=35.6,所以x甲<x乙,s2甲>s2乙,故乙比甲成绩稳定.2.(2017·郑州二检)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m,n的比值mn=________.甲 乙7 2 n 9 m 3 2 4 8解析:由茎叶图可知甲的数据为27,30+m,39,乙的数据为20+n,32,34,38.由此可知乙的中位数是33,所以甲的中位数也是33,所以m =3.由此可以得出甲的平均数为33,所以乙的平均数也为33,所以有14(20+n +32+34+38)=33,所以n =8,所以m n =38. 答案:383.(2017·黄山检测)如图是某青年歌手大奖赛上七位评委为甲、乙两名选手打出的分数的茎叶图(其中m 为数字0~9中的一个),去掉一个最高分和一个最低分后,甲、乙两名选手得分的平均数分别为a 1,a 2,则它们的大小关系是________(用“>”表示).甲乙07954551844647m 9 3解析:由题意知去掉一个最高分和一个最低分后,可以求得甲和乙两名选手得分的平均数分别为a1=1+4+5×35+80=84,a2=4×3+6+75+80=85,所以a2>a1.答案:a2>a1[解题方略]从茎叶图中得出有关数据的方法到目前为止,茎叶图中的数据多为两位数(茎叶图中,一位数的“茎”处为数字0),明确每一行中,“茎”处数字是该行数字共用的十位数字,“叶”处数字是个位数字,求解的关键是正确写出茎叶图中的所有数字,再根据平均数、中位数、众数、方差、标准差的概念进行相关计算.失误防范——回归分析中的1个易错点回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(\x\to(x),\x\to(y))点,可能所有的样本数据点都不在直线上.[针对训练]1.(2017·兰州模拟)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:x 24568y 345m7根据表中提供的全部数据,用最小二乘法得出y与x的线性回归方程为y^=6.5x+17.5,则表中m的值为()A.45B.50C.55 D.60解析:选D∵x=2+4+5+6+85=5,y=30+40+50+m+705=190+m5,∴当x=5时,y=6.5×5+17.5=50,∴190+m5=50,解得m=60.2.(2017·惠州模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表):零件数x/个12345加工时间y/分钟6268758189由最小二乘法求得回归方程y^=0.67x+a^,则a^的值为________.解析:因为x=10+20+30+40+505=30,y=62+68+75+81+895=75,所以回归直线一定过样本点的中心(30,75),则由y^=0.67x+a^可得75=30×0.67+a^,求得a^=54.9.答案:54.91.(2017·南京模拟)某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n人中,抽取81人进行问卷调查.已知高二被抽取的人数为30,那么n=()A.860B.720C.1 020 D.1 040解析:选D根据分层抽样方法,得1 2001 000+1 200+n×81=30,解得n=1 040.2.(2017·天津渤海一中质检)有一个食品商店为了调查气温对热饮销售的影响,经过调查得到关于卖出的热饮杯数与当天气温的数据如下表,绘出散点图如下.通过计算,可以得到对应的回归方程y^=-2.352x+147.767,根据以上信息,判断下列结论中正确的是()摄氏温度-504712151923273136热1515131213111089756028064936 4 饮杯数A.气温与热饮的销售杯数之间成正相关B.当天气温为2 ℃时,这天大约可以卖出143杯热饮C.当天气温为10 ℃时,这天恰卖出124杯热饮D.由于x=0时,y^的值与调查数据不符,故气温与卖出热饮杯数不存在线性相关性解析:选B当x=2时,y^=-2×2.352+147.767=143.063,即这天大约可以卖出143杯热饮,故B正确.3.如图,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为()甲组乙组909x 21 5 y8742 4A.2,5 B.5,5C.5,8 D.8,8解析:选C∵甲组数据的中位数为15=10+x,∴x=5.又乙组数据的平均数为9+15+(10+y)+18+245=16.8,∴y=8.∴x,y的值分别为5,8.4.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳解析:选A根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A错误.由图可知,B、C、D 正确.5.(2017·长沙模拟)如图是民航部门统计的2017年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是()A.深圳的变化幅度最小,北京的平均价格最高B.深圳和厦门的春运期间往返机票价格同去年相比有所下降C.平均价格从高到低居于前三位的城市为北京、深圳、广州D.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门解析:选D由图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A正确;由图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B 正确;由图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C正确;由图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D错误,选D.6.(2018届高三·豫东、豫北十所名校联考)根据如下样本数据:x 34567y 4.a-5.4-0.50.5b-0.6得到的回归方程为y=bx+a.若样本点的中心为(5,0.9),则当x每增加1个单位时,y就() A.增加1.4个单位B.减少1.4个单位C.增加7.9个单位D.减少7.9个单位解析:选B依题意得,a+b-25=0.9,故a+b=6.5①;又样本点的中心为(5,0.9),故0.9=5b+a②,联立①②,解得b=-1.4,a=7.9,则y^=-1.4x+7.9,可知当x每增加1个单位时,y就减少1.4个单位.7.(2017·哈尔滨四校统考)一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{a n},若a3=8,且a1,a3,a7成等比数列,则此样本的平均数和中位数分别是()A.13,12 B.13,13C.12,13 D.13,14解析:选B设等差数列{a n}的公差为d(d≠0),a3=8,a1a7=a23=64,即(8-2d)(8+4d)=64,化简得2d-d2=0,又d≠0,故d=2,故样本数据为:4,6,8,10,12,14,16,18,20,22,平均数为S1010=(4+22)×510=13,中位数为12+142=13.8.(2017·重庆南开中学月考)一个样本a,3,4,5,6的平均数是b,且不等式x2-6x+c<0的解集为(a,b),则这个样本的标准差是() A.1 B. 2C. 3 D.2解析:选B由题意得a+3+4+5+6=5b,a+b=6,解得a=2,b=4,所以样本方差s2=15[(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2]=2,所以标准差为 2.9.某工厂对一批产品进行了抽样检测,如图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106].已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是()A.90 B.75C.60 D.45解析:选A产品净重小于100克的频率为(0.050+0.100)×2=0.300,已知样本中产品净重小于100克的个数是36.设样本容量为n,则36 n=0.300,所以n=120,净重大于或等于98克并且小于104克的产品的频率为(0.100+0.150+0.125)×2=0.750,所以样本中净重大于或等于98克并且小于104克的产品的个数是120×0.750=90.10.(2018届高三·湖南师大附中摸底)某研究型学习小组调查研究学生使用智能手机对学习的影响,部分统计数据如下表:使用智能手机不使用智能手机总计学习成绩优秀4812 学习成绩不优秀16218 总计201030附表:P(K2≥k0)0.10.050.0100.0050.001k02.7063.8416.6357.87910.828计算得K2=10,则下列选项正确的是()A.有99.5%的把握认为使用智能手机对学习有影响B.有99.5%的把握认为使用智能手机对学习无影响C.在犯错误的概率不超过0.1%的前提下,认为使用智能手机对学习有影响D.在犯错误的概率不超过1%的前提下,认为使用智能手机对学习无影响解析:选A因为7.879<K2<10.828,所以有99.5%的把握认为使用智能手机对学习有影响.11.如图所示,茎叶图记录了甲、乙两组各4名学生完成某道数学题的得分情况,该题满分为12分.已知甲、乙两组学生的平均成绩相同,乙组某个数据的个位数字模糊,记为x.则下列命题中正确的是()A.甲组学生的成绩比乙组稳定B.乙组学生的成绩比甲组稳定C.两组学生的成绩有相同的稳定性D.无法判断甲、乙两组学生的成绩的稳定性解析:选A x甲=14×(9+9+11+11)=10,x乙=14×(8+9+10+x+12)=10,解得x=1.又s2甲=14×[(9-10)2+(9-10)2+(11-10)2+(11-10)2]=1,s2乙=14×[(8-10)2+(9-10)2+(11-10)2+(12-10)2]=52,∴s2甲<s2乙,∴甲组学生的成绩比乙组稳定.12.为了普及环保知识,增强环保意识,随机抽取某大学30名学生参加环保知识测试,得分如图所示,若得分的中位数为m e,众数为m0,平均数为x,则()A.m e=m0=x B.m0<x<m eC.m e<m0<x D.m0<m e<x解析:选D由条形图知,30名学生的得分情况依次为2个人得3分,3个人得4分,10个人得5分,6个人得6分,3个人得7分,2个人得8分,2个人得9分,2个人得10分,中位数为第15,16个数(分别为5,6)的平均数,即m e=5.5,5出现的次数最多,故众数为m0=5,平均数为x=130(2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×10)≈5.97,故m0<m e <x.13.(2017·石家庄模拟)设样本数据x1,x2,…,x2 017的方差是4,若y i=x i-1(i=1,2,…,2 017),则y1,y2,…,y2 017的方差为______.解析:设样本数据x1,x2,…,x2 017的平均数为x,又y i=x i-1,所以样本数据y1,y2,…,y2 017的平均数为x-1,则样本数据y1,y2,…,y2 017的方差为12 017[(x1-1-x+1)2+(x2-1-x+1)2+…+(x2 017-1-x+1)2]=12 017[(x1-x)2+(x2-x)2+…+(x2 017-x)2]=4.答案:414.(2018届高三·石家庄摸底)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表:理科文科总计男131023女72027总计203050已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2=50×(13×20-10×7)223×27×20×30≈4.844,则认为选修文理科与性别有关系出错的可能性约为________.解析:由K2=4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%.答案:5%15.甲、乙两人在5次综合测评中成绩的茎叶图如图所示,其中一个数字被污损,记甲、乙的平均成绩分别为x甲,x乙,则x甲>x乙的概率是________.解析:由茎叶图知x乙=86+87+91+92+945=90,x甲=84+87+85+99+90+x5=89+x5.污损处可取数字0,1,2,…,9,共10种,而x甲>x乙时,污损处对应的数字有6,7,8,9,共4种,故x甲>x乙的概率为410=25.答案:2 516.某班运动队由足球运动员18人、篮球运动员12人、乒乓球运动员6人组成(每人只参加一项),现从这些运动员中抽取一个容量为n 的样本,若分别采用系统抽样法和分层抽样法,则都不用剔除个体;当样本容量为n+1时,若采用系统抽样法,则需要剔除1个个体,那么样本容量n为________.解析:总体容量为6+12+18=36.当样本容量为n时,由题意可知,系统抽样的抽样间距为36n ,分层抽样的抽样比是n 36,则采用分层抽样法抽取的乒乓球运动员人数为6×n 36=n 6,篮球运动员人数为12×n 36=n 3,足球运动员人数为18×n 36=n 2,可知n 应是6的倍数,36的约数,故n =6,12,18.当样本容量为n +1时,剔除1个个体,此时总体容量为35,系统抽样的抽样距为35n +1,因为35n +1必须是整数,所以n 只能取6,即样本容量n 为6.答案:6。

相关文档
最新文档