高考数学试题汇编统计、统计案例
高三数学统计案例试题答案及解析
高三数学统计案例试题答案及解析1.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,这与性别有关联的可能性最大的变量是()D.阅读量【答案】D【解析】根据公式分别计算得:A., B. C. D. ,选项D的值最大,所以与性别有关联的可能性最大为D. 【考点】关联判断2. 对100只小白鼠进行某种激素试验,其中雄性小白鼠、雌性小白鼠对激素的敏感情况统计得到如下列联表由附表:则下列说法正确的是:( ) A .在犯错误的概率不超过的前提下认为“对激素敏感与性别有关”; B .在犯错误的概率不超过的前提下认为“对激素敏感与性别无关”; C .有以上的把握认为“对激素敏感与性别有关”; D .有以上的把握认为“对激素敏感与性别无关”; 【答案】C 【解析】因为,所以有以上的把握认为“对激素敏感与性别有关”.3. 设A 是由m×n 个实数组成的m 行n 列的数表,满足:每个数的绝对值不大于1,且所有数的和为零,记s(m ,n)为所有这样的数表构成的集合。
对于A ∈S(m,n),记r i (A)为A 的第ⅰ行各数之和(1≤ⅰ≤m ),C j (A)为A 的第j 列各数之和(1≤j≤n ):记K(A)为∣r 1(A)∣,∣R 2(A)∣,…,∣Rm(A)∣,∣C 1(A)∣,∣C 2(A)∣,…,∣Cn(A)∣中的最小值。
对如下数表A ,求K (A )的值;11-0.8(2)设数表A ∈S (2,3)形如求K (A )的最大值;(3)给定正整数t,对于所有的A∈S(2,2t+1),求K(A)的最大值。
【答案】(1)0.7 (2)1 (3)【考点定位】此题作为压轴题难度较大,考查学生分析问题解决问题的能力,考查学生严谨的逻辑思维能力【解析】(1)因为,所以不妨设.由题意得.又因为,所以,于是,,所以,当,且时,取得最大值1。
(3)对于给定的正整数t,任给数表如下,…任意改变A的行次序或列次序,或把A中的每一个数换成它的相反数,所得数表,并且,因此,不妨设,且。
2020新课标高考数学典型习题专项训练:统计与统计案例
统计与统计案例[A 组 夯基保分专练]一、选择题1.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:最喜爱 喜爱 一般 不喜欢 4 8007 2006 4001 600为此要进行分层抽样,那么在分层抽样时,每类人中应抽选出的人数分别为( )A .25,25,25,25B .48,72,64,16C .20,40,30,10D .24,36,32,8解析:选D.法一:因为抽样比为10020 000=1200,所以每类人中应抽选出的人数分别为4 800×1200=24,7 200×1200=36,6 400×1200=32,1 600×1200=8.故选D.法二:最喜爱、喜爱、一般、不喜欢的比例为4 800∶7 200∶6 400∶1 600=6∶9∶8∶2, 所以每类人中应抽选出的人数分别为66+9+8+2×100=24,96+9+8+2×100=36,86+9+8+2×100=32,26+9+8+2×100=8,故选D.2.(2019·湖南省五市十校联考)在某次赛车中,50名参赛选手的成绩(单位:min)全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18],其频率分布直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )A .39B .35C .15D .11解析:选D.由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78,所以成绩在[13,15)内的频率为1-0.78=0.22,则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.3.(2019·武汉市调研测试)某学校为了了解本校学生的上学方式,在全校范围内随机抽查部分学生,了解到上学方式主要有:A —结伴步行,B —自行乘车,C —家人接送,D —其他方式.并将收集的数据整理绘制成如下两幅不完整的统计图.请根据图中信息,求本次抽查的学生中A 类人数是( )A .30B .40C .42D .48解析:选A.由条形统计图知,B —自行乘车上学的有42人,C —家人接送上学的有30人,D —其他方式上学的有18人,采用B ,C ,D 三种方式上学的共90人,设A —结伴步行上学的有x 人,由扇形统计图知,A —结伴步行上学与B —自行乘车上学的学生占60%,所以x +42x +90=60100,解得x =30,故选A. 4.(2019·广东六校第一次联考)某单位为了落实“绿水青山就是金山银山”理念,制定节能减排的目标,先调查了用电量y (单位:kW ·h)与气温x (单位:℃)之间的关系,随机选取了4天的用电量与当天气温,并制作了如下对照表:x (单位:℃) 17 14 10 -1 y (单位:kW ·h)243438a由表中数据得线性回归方程y =-2x +60,则a 的值为( ) A .48 B .62 C .64D .68解析:选C.由题意,得x =17+14+10-14=10,y =24+34+38+a 4=96+a4.样本点的中心(x ,y )在回归直线y ^=-2x +60上,代入线性回归方程可得96+a 4=-20+60,解得a =64,故选C.5.(2019·郑州市第二次质量预测)将甲、乙两个篮球队各5场比赛的得分数据整理成如图所示的茎叶图,由图可知以下结论正确的是( )A .甲队平均得分高于乙队的平均得分B .甲队得分的中位数大于乙队得分的中位数C .甲队得分的方差大于乙队得分的方差D .甲、乙两队得分的极差相等解析:选C.由题中茎叶图得,甲队的平均得分x 甲=26+28+29+31+315=29,乙队的平均得分x 乙=28+29+30+31+325=30,x 甲<x 乙,选项A 不正确;甲队得分的中位数为29,乙队得分的中位数为30,甲队得分的中位数小于乙队得分的中位数,选项B 不正确;甲队得分的方差s 2甲=15×[(26-29)2+(28-29)2+(29-29)2+(31-29)2+(31-29)2]=185,乙队得分的方差s 2乙=15×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=2,s 2甲>s 2乙,选项C 正确;甲队得分的极差为31-26=5,乙队得分的极差为32-28=4,两者不相等,选项D 不正确.故选C.6.(多选)CPI 是居民消费价格指数(consumer price index)的简称.居民消费价格指数是一个反映居民家庭一般所购买的消费品和服务项目价格水平变动情况的宏观经济指标.如图是根据国家统计局发布的2017年6月—2018年6月我国CPI 涨跌幅数据绘制的折线图(注:2018年6月与2017年6月相比较,叫同比;2018年6月与2018年5月相比较,叫环比),根据该折线图,则下列结论错误的是 ( )A .2018年1月至6月各月与去年同期比较,CPI 有涨有跌B .2018年2月至6月CPI 只跌不涨C .2018年3月以来,CPI 在缓慢增长D .2017年8月与同年12月相比较,8月环比更大解析:选ABC.A 选项,2018年1月至6月各月与去年同期比较,CPI 均是上涨的,故A 错误;B 选项,2018年2月CPI 是增长的,故B 错误;C 选项,2018年3月以来,CPI 是下跌的,故C 错误;D 选项,2017年8月CPI 环比增长0.4%,12月环比增长0.3%,故D 正确.故选ABC.二、填空题7.如图是某学校一名篮球运动员在10场比赛中所得分数的茎叶图,则该运动员在这10场比赛中得分的中位数为________,平均数为________.解析:把10场比赛的所得分数按顺序排列为5,8,9,12,14,16,16,19,21,24,中间两个为14与16,故中位数为14+162=15,平均数为110(5+8+9+12+14+16+16+19+21+24)=14.4.答案:15 14.48.已知一组数据x 1,x 2,…,x n 的方差为2,若数据ax 1+b ,ax 2+b ,…,ax n +b (a >0)的方差为8,则a 的值为________.解析:根据方差的性质可知,a 2×2=8,故a =2. 答案:29.给出下列四个命题:①某班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,如果7号、33号、46号同学在样本中,那么样本中另一位同学的编号为23;②一组数据1,2,3,3,4,5的平均数、众数、中位数都相同; ③若一组数据a ,0,1,2,3的平均数为1,则其标准差为2;④根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y ^=a ^+b ^x ,其中a ^=2,x =1,y =3,则b ^=1.其中真命题有________(填序号).解析:在①中,由系统抽样知抽样的分段间隔为52÷4=13,故抽取的样本的编号分别为7号、20号、33号、46号,故①是假命题;在②中,数据1,2,3,3,4,5的平均数为16(1+2+3+3+4+5)=3,中位数为3,众数为3,都相同,故②是真命题;在③中,因为样本的平均数为1,所以a +0+1+2+3=5,解得a =-1,故样本的方差为15[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2,标准差为2,故③是假命题;在④中,回归直线方程为y ^=b ^x +2,又回归直线过点(x ,y ),把(1,3)代入回归直线方程y ^=b ^x +2,得b ^=1,故④是真命题.答案:②④ 三、解答题10.(2019·兰州市诊断考试)“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:烈参与者”.(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数; (2)根据上表的数据,填写下列2×2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关?附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )(n 为样本容量)20 000×40200=4 000.(2)2×2列联表为K 2=200×(3540×160×140×60≈7.292>6.635,故能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关.11.(2019·武汉市调研测试)中共十九大以来,某贫困地区扶贫办积极贯彻落实国家精准扶贫的要求,带领广大农村地区人民群众脱贫奔小康.经过不懈的奋力拼搏,新农村建设取得巨大进步,农民年收入也逐年增加.为了更好地制定2019年关于加快提升农民年收入,力争早日脱贫的工作计划,该地扶贫办统计了2018年50位农民的年收入(单位:千元)并制成如下频率分布直方图:(1)根据频率分布直方图,估计50位农民的年平均收入x (单位:千元)(同一组数据用该组数据区间的中点值表示).(2)由频率分布直方图,可以认为该贫困地区农民年收入X 服从正态分布N (μ,σ2),其中μ近似为年平均收入x ,σ2近似为样本方差s 2,经计算得s 2=6.92.利用该正态分布,解决下列问题:(i)在2019年脱贫攻坚工作中,若使该地区约有占总农民人数的84.14%的农民的年收入高于扶贫办制定的最低年收入标准,则最低年收入大约为多少千元?(ii)为了调研“精准扶贫,不落一人”的落实情况,扶贫办随机走访了1 000位农民.若每个农民的年收入相互独立,问:这1 000位农民中年收入不少于12.14千元的人数最有可能是多少?附:参考数据与公式6.92≈2.63,若X ~N (μ,σ2),则 ①P (μ-σ<X ≤μ+σ)≈0.682 7; ②P (μ-2σ<X ≤μ+2σ)≈0.954 5; ③P (μ-3σ<X ≤μ+3σ)≈0.997 3.解:(1)x =12×0.04+14×0.12+16×0.28+18×0.36+20×0.10+22×0.06+24×0.04=17.40(千元).(2)由题意,X ~N (17.40,6.92). (i)P (X >μ-σ)≈12+0.682 72≈0.841 4,μ-σ≈17.40-2.63=14.77, 即最低年收入大约为14.77千元.(ii)由P (X ≥12.14)=P (X ≥μ-2σ)≈0.5+0.954 52≈0.977 3,得每个农民的年收入不少于12.14千元的事件的概率为0.977 3,记这1 000位农民中年收入不少于12.14千元的人数为ξ,则ξ~B (103,p ),其中p =0.977 3,于是恰好有k 位农民的年收入不少于12.14千元的事件的概率是P (ξ=k )=C k 103p k (1-p )103-k ,从而由P (ξ=k )P (ξ=k -1)=(1 001-k )×pk ×(1-p )>1,得k <1 001p ,由P (ξ=k )P (ξ=k +1)=(k +1)(1-p )(1 000-k )p>1,得k >1 001p -1,而1 001p =978.277 3, 所以,977.277 3<k <978.277 3,由此可知,在所走访的1 000位农民中,年收入不少于12.14千元的人数最有可能是978. 12.(2019·洛阳市统考)某学校高三年级共有4个班,其中实验班和普通班各2个,且各班学生人数大致相当.在高三第一次数学统一测试(满分100分)成绩揭晓后,教师对这4个班的数学成绩进行了统计分析,其中涉及试题“难度”和“区分度”等指标.根据该校的实际情况,规定其具体含义如下:难度=4个班平均分100,区分度=实验班平均分-普通班平均分100.(1)现从这4个班中各随机抽取5名学生,根据这20名学生的数学成绩,绘制茎叶图如下:请根据以上样本数据,估计该次考试试题的难度和区分度;(2)为了研究试题的区分度与难度的关系,调取了该校上一届高三6次考试的成绩分析数据,得到下表:考试序号 1 2 3 4 5 6 难度x 0.65 0.71 0.73 0.76 0.77 0.82 区分度y0.120.160.160.190.200.13①用公式r =∑i =1 (x i -x )(y i -y )∑ni =1(x i -x )2∑ni =1(y i -y )2计算区分度y 与难度x 之间的相关系数r (精确到0.001);②判断y 与x 之间相关关系的强与弱,并说明是否适宜用线性回归模型拟合y 与x 之间的关系.参考数据:∑6i =1x i y i =0.713 4, ∑6i =1 (x i -x )2∑6i =1 (y i -y )2≈0.009 2.解:(1)由茎叶图知,实验班这10人的数学总成绩为860分,普通班这10人的数学总成绩为700分,故这20人的数学平均成绩为860+70020=78(分),由此估计这4个班的平均分为78分, 所以难度=78100=0.78.由86010=86估计实验班的平均分为86分,由70010=70估计普通班的平均分为70分, 所以区分度=86-70100=0.16.(2)①由于∑ni =1 (x i -x )(y i -y ) =∑ni =1 (x i y i -yx i -xy i +xy ) =∑ni =1x i y i -y ∑ni =1x i -x ∑ni =1y i +nx y =∑n i =1x i y i -nx y -nx y +nx y =∑n i =1x i y i -nx y , 且∑6i =1x i y i =0.713 4, ∑6i =1(x i -x )2∑6i =1 (y i -y )2 ≈0.009 2,6x y =6×0.74×0.16=0.710 4, 所以r =∑6i =1 (x i -x )(y i -y )∑6i =1(x i -x )2∑6i =1 (y i -y )2=∑6i =1x i y i -6x y∑6i =1(x i -x )2∑6i =1 (y i -y )2≈0.713 4-0.710 40.009 2≈0.326.②由于r ≈0.326∈[0.30,0.75),故两者之间相关性非常一般,不适宜用线性回归模型拟合y 与x 之间的关系,即使用线性回归模型来拟合,效果也不理想.[B 组 大题增分专练]1.(2019·济南市七校联合考试)“黄梅时节家家雨”“梅雨如烟暝村树”“梅雨暂收斜照明”……江南梅雨的点点滴滴都流润着浓烈的诗情.每年六、七月份,我国长江中下游地区进入持续25天左右的梅雨季节,如图是江南Q 镇2009~2018年梅雨季节的降雨量(单位:mm)的频率分布直方图,试用样本频率估计总体概率,解答下列问题:(1)“梅实初黄暮雨深”,请用样本平均数估计Q 镇明年梅雨季节的降雨量;(2)“江南梅雨无限愁”,Q 镇的杨梅种植户老李也在犯愁,他过去种植的甲品种杨梅,亩产量受降雨量的影响较大(把握超过八成),而乙品种杨梅2009~2018年的亩产量(单位:kg)与降雨量的发生频数(年)如2×2列联表所示(部分数据缺失),请你帮助老李排解忧愁,他来年应该种植哪个品种的杨梅受降雨量影响更小?(完善列联表,并说明理由)降雨量亩产量[200,400)[100,200)∪[400,500]总计 <600 2 ≥600 1 总计10附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .P (K 2≥k 0)0.50 0.40 0.25 0.15 0.10 k 00.4550.7081.3232.0722.706解:(1)0.1. 所以用样本平均数估计Q 镇明年梅雨季节的降雨量为150×0.2+250×0.4+350×0.3+450×0.1=30+100+105+45=280(mm).(2)根据频率分布直方图可知,降雨量在[200,400)内的频数为10×100×(0.003+0.004)=7.进而完善列联表如下.降雨量亩产量[200,400)[100,200)∪[400,500]总计 <600 2 2 4 ≥600 5 1 6 总计7310K 2=10×(2×1-5×2)7×3×4×6=8063≈1.270<1.323. 故认为乙品种杨梅的亩产量与降雨量有关的把握不足75%.而甲品种杨梅受降雨量影响的把握超过八成,故老李来年应该种植乙品种杨梅受降雨量影响更小.2.(2019·佛山模拟)表中的数据是一次阶段性考试某班的数学、物理原始成绩: 学号 1 2 34 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 数学117128 96 113 136 139 124 124 121 115 115 123 125 117 123 122 132 129 96 105 106 120 物理 8084838589819178859172 7687827982848963737745学号 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 数学108137 87 95 108 117 104 128 125 74 81 135 101 97 116 102 76 100 62 86 120 101 物理 768071577265697955567763707563596442627765学号为22号的A 同学由于严重感冒导致物理考试发挥失常,学号为31号的B 同学因故未能参加物理学科的考试,为了使分析结果更客观准确,老师将A ,B 两同学的成绩(对应于图中A ,B 两点)剔除后,用剩下的42个同学的数据作分析,计算得到下列统计指标:数学学科平均分为110.5,标准差为18.36,物理学科的平均分为74,标准差为11.18,数学成绩x 与物理成绩y 的相关系数r =0.822 2,回归直线l (如图所示)的方程为y ^=0.500 6x +18.68.(1)若不剔除A ,B 两同学的数据,用全部44人的成绩作回归分析,设数学成绩x 与物理成绩y 的相关系数为r 0,回归直线为l 0,试分析r 0与r 的大小关系,并在图中画出回归直线l 0的大致位置.(2)如果B 同学参加了这次物理考试,估计B 同学的物理分数(精确到个位).(3)就这次考试而言,学号为16号的C 同学数学与物理哪个学科成绩要好一些?(通常为了比较某个学生不同学科的成绩水平,可按公式Z i =x i -xs统一化成标准分再进行比较,其中x i 为学科原始成绩,x 为学科平均分,s 为学科标准差)解:(1)r 0<r ,说明理由可以是①离群点A ,B 会降低变量间的线性关联程度;②44个数据点与回归直线l 0的总偏差更大,回归效果更差,所以相关系数更小; ③42个数据点与回归直线l 的总偏差更小,回归效果更好,所以相关系数更大; ④42个数据点更加贴近回归直线l ; ⑤44个数据点与回归直线l 0更离散. 其他言之有理的理由均可.(直线l 0的斜率须大于0且小于l 的斜率,具体位置稍有出入没关系,无需说明理由) (2)将x =125代入y ^=0.500 6x +18.68中, 得y =62.575+18.68≈81,所以估计B 同学的物理分数大约为81分.(3)由表中数据知C 同学的数学原始成绩为122分,物理原始成绩为82分, 则数学标准分Z 16=x 16-x s 1=122-110.518.36=11.518.36≈0.63,物理标准分Z ′16=y 16-y s 2=82-7411.18=811.18≈0.72, 因为0.72>0.63,所以C 同学物理成绩比数学成绩要好一些.3.(2019·济南市模拟考试)某客户准备在家中安装一套净水系统,该系统为三级过滤,使用寿命为十年.如图所示,两个一级过滤器采用并联安装,二级过滤器与三级过滤器为串联安装.其中每一级过滤都由核心部件滤芯来实现.在使用过程中,一级滤芯和二级滤芯都需要不定期更换(每个滤芯是否需要更换相互独立),三级滤芯无需更换.若客户在安装净水系统的同时购买滤芯,则一级滤芯每个80元.二级滤芯每个160元.若客户在使用过程中单独购买滤芯,则一级滤芯每个200元,二级滤芯每个400元.现需决策安装净水系统的同时购买滤芯的数量,为此参考了根据100套该款净水系统在十年使用期内更换滤芯的相关数据制成的图表,其中图1是根据200个一级过滤器更换的滤芯个数制成的柱状图,表1是根据100个二级过滤器更换的滤芯个数制成的频数分布表.二级滤芯更换的个数5 6频数6040以200个一级过滤器更换滤芯的频率代替1个一级过滤器更换滤芯发生的概率,以100个二级过滤器更换滤芯的频率代替1个二级过滤器更换滤芯发生的概率.(1)求一套净水系统在使用期内需要更换的各级滤芯总个数恰好为30的概率;(2)记X表示该客户的净水系统在使用期内需要更换的一级滤芯总数,求X的分布列及数学期望;(3)记m,n分别表示该客户在安装净水系统的同时购买的一级滤芯和二级滤芯的个数,若m+n=28,且n∈{5,6},以该客户的净水系统在使用期内购买各级滤芯所需总费用的期望值为决策依据,试确定m,n的值.解:(1)由题意可知,若一套净水系统在使用期内需要更换的各级滤芯总个数恰好为30,则该套净水系统中的两个一级过滤器均需更换12个滤芯,二级过滤器需要更换6个滤芯.设“一套净水系统在使用期内需要更换的各级滤芯总个数恰好为30”为事件A,因为一个一级过滤器需要更换12个滤芯的概率为0.4,二级过滤器需要更换6个滤芯的概率为0.4,所以P(A)=0.4×0.4×0.4=0.064.(2)由柱状图可知,一个一级过滤器需要更换的滤芯个数为10,11,12,对应的概率分别为0.2,0.4,0.4,由题意,X可能的取值为20,21,22,23,24,并且P(X=20)=0.2×0.2=0.04,P(X=21)=0.2×0.4×2=0.16,P(X=22)=0.4×0.4+0.2×0.4×2=0.32,P(X=23)=0.4×0.4×2=0.32,P(X=24)=0.4×0.4=0.16.所以X的分布列为X 2021222324P 0.040.160.320.320.16E(X)=20×0.04(3)因为m+n=28,n∈{5,6},所以若m=22,n=6,则该客户在十年使用期内购买各级滤芯所需总费用的期望值为22×80+200×0.32+400×0.16+6×160=2 848.若m=23,n=5,则该客户在十年使用期内购买各级滤芯所需总费用的期望值为23×80+200×0.16+5×160+400×0.4=2 832.故m,n的值分别为23,5.4.某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.根据过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的关系为如图所示的折线图.(1)依据折线图,是否可用线性回归模型拟合y与x的关系?请计算相关系数r并加以说明(精确到0.01);(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较大,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:周光照量X(单位:小时)30<X<5050≤X≤70X>70光照控制仪运行台数32 1则该台光照控制仪周亏损1 000元.以频率作为概率,商家欲使周总利润的均值达到最大,应安装光照控制仪多少台?附相关系数公式:r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2,参考数据:0.3≈0.55,0.9≈0.95.解:(1)由已知数据可得x=2+4+5+6+85=5,y=3+4+4+4+55=4.因为∑i=15(x i-x)(y i-y)=(-3)×(-1)+0+0+0+3×1=6,∑i =15(x i -x )2=(-3)2+(-1)2+02+12+32=25,∑i =15(y i -y )2=(-1)2+02+02+02+12=2,所以相关系数r =∑i =15(x i -x )(y i -y )∑i =15(x i -x )2∑i =15(y i -y )2=625×2=910≈0.95. 因为|r |>0.75,所以可用线性回归模型拟合y 与x 的关系.(2)记商家周总利润为Y 元,由条件可知至少需安装1台,最多安装3台光照控制仪. ①安装1台光照控制仪可获得周总利润3 000元. ②安装2台光照控制仪的情形:当X >70时,只有1台光照控制仪运行,此时周总利润Y =3 000-1 000=2 000(元),P (Y =2 000)=1050=0.2,当30<X ≤70时,2台光照控制仪都运行,此时周总利润Y =2×3 000=6 000(元),P (Y =6 000)=4050=0.8,故Y 的分布列为③安装3台光照控制仪的情形:当X >70时,只有1台光照控制仪运行,此时周总利润 Y =1×3 000-2×1 000=1 000(元). P (Y =1 000)=1050=0.2.当50≤X ≤70时,有2台光照控制仪运行,此时周总利润 Y =2×3 000-1×1 000=5 000(元), P (Y =5 000)=3550=0.7,当30<X <50时,3台光照控制仪都运行,周总利润Y =3×3 000=9 000(元),P (Y =9 000)=550=0.1, 故Y 的分布列为综上可知,为使商家周总利润的均值达到最大,应该安装2台光照控制仪.。
高中数学 统计题型
以下是一些高中数学统计题型的示例:
1. 调查统计:假设你进行了一项关于学生喜欢的体育项目的调查。
根据收集到的数据,制作一个条形图或饼图来展示各个体育项目的受欢迎程度。
2. 抽样调查:你想了解高中生每周花在手机上的时间。
从你的班级中随机选择一部分学生,让他们记录每天使用手机的时间。
然后计算平均值、中位数和众数,并讨论结果的意义。
3. 数据分析:给定一组数据,例如学生的考试成绩。
计算平均值、中位数、众数和标准差,并用这些数据来描述学生的整体表现。
4. 概率分析:某次抛硬币实验中,连续抛掷了10次硬币,结果正面朝上的次数为7次。
计算正面朝上的概率,并讨论这个结果是否合理。
5. 相关性分析:根据一组数据,比如学生的身高和体重,计算相关系数来衡量两个变量之间的关联程度,并解释结果的含义。
以上是高中数学中统计题型的一些示例。
通过这些题目,学生可以学习统计学的基本概念、数据分析和概率计算等技巧。
教师可以根据具体的教材和教学目标来设计更多的统计题目,以帮助学生掌握统计学
的基础知识和解题方法。
高考数学统计与统计案例.doc
高考数学统计与统计案例1.小吴一星期的总开支分布如图 1 所示,一星期的食品开支如图 2 所示,则小吴一星期的鸡蛋开支占总开支的百分比为()A.1%B.2%C.3%D.5%C[ 由图 1 所示,食品开支占总开支的 30%,由图 2 所示,鸡蛋开支占食品开支的30 = 1 ,30+40+100+80+ 50 101∴鸡蛋开支占总开支的百分比为30%×10=3%.故选 C.]2.(2019 德·州模拟 )某人到甲、乙两市各7 个小区调查空置房情况,调查得到的小区空置房的套数绘成了如图所示的茎叶图,则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为()A.4B. 3C.2D.1B[ 由茎叶图可以看出甲、乙两市的空置房的套数的中位数分别是79,76,因此其差是 79- 76=3,故选 B.]3.某工厂对一批新产品的长度(单位: mm)进行检测,如图是检测结果的频率分布直方,据此估批品的中位数()A.20B. 25C.22.5D.22.75C[ 品的中位数出在概率是 0.5 的地方 . 自左至右各小矩形面依次0.1,0.2,0.4,⋯⋯,中位数是 x,由 0.1+0.2+0.08 ·(x-20)=0.5,得 x= 22.5,故 C.]4.(2019 ·三明模 )在某次高中数学中,随机抽取 90 名考生,其分数如所示,若所得分数的平均数,众数,中位数分 a, b, c, a,b,c 的大小关系 ()A.b<a<c B.c<b<aC.c<a<b D.b<c<a2 50+ 60D [算得平均a=593,众数b=50,中位数c= 2 =55,故b<c<a, A.]5.(2019 南·充模 )如表是我国某城市在2017 年 1 月份至 10 月份各月最低温与最高温 (℃ )的数据一表.月份 1 2 3 4 5 6 7 8 9 10最高温 5 9 9 11 17 24 27 30 31 21最低温-12 - 3 1 - 2 7 17 19 23 25 10 已知城市的各月最低温与最高温具有相关关系,根据一表,下列的是 ()A.最低温与最高温正相关B.每月最高温与最低温的平均在前8 个月逐月增加C.月温差 (最高温减最低温 )的最大出在 1 月D.1 月至 4 月的月温差 (最高温减最低温 )相于 7 月至 10 月,波性更大B[ 根据意,依次分析:于 A ,知城市的各月最低温与最高温具有相关关系,由数据分析可得最低温与最高温正相关, A 正确;于B,由表中数据,每月最高温与最低温的平均依次:-3.5,3,5,4.5,12,20.5,23,26.5,28,15.5,在前 8 个月不是逐月增加, B ;于 C,由表中数据,月温差依次: 17,12,8,13,10,7,8,7,6,11;月温差的最大出在 1 月,C 正确;于 D,有 C 的,分析可得 1 月至 4 月的月温差相于 7 月至 10 月,波性更大, D 正确;故B.]6.某中学的高中女生体重y(位: kg)与身高 x(位: cm)具有性相关关系,根据本数据 (x i, y i )(i =1,2,3,⋯, n),用最小二乘法近似得到回直^方程 y=0.85x-85.71,下列中不正确的是()A.y 与 x 具有正性相关关系––B.回直本点的中心( x , y )C.若中学某高中女生身高增加 1 cm,其体重增加0.85 kgD.若中学某高中女生身高160 cm,可断定其体重必50.29 kg^D[ 因回直方程 y=0.85x-85.71 中 x 的系数 0.85>0,因此 y 与 x 具有正性相关关系,所以 A 正确;由最小二乘法及回直方程的求解––可知回直本点的中心( x , y ),所以 B 正确;由于用最小二乘法得到的回直方程是估,而不是具体,若中学某高中女生身高增加 1 cm,其体重增加0.85 kg,所以 C 正确, D 不正确. ]7.(2018 ·永州三模 )党的十九大告明确提出:在共享等域培育增点、形成新能.共享是公众将置源通社会化平台与他人共享,而得收入的象.考察共享企活度的影响,在四个不同的企各取两个部行共享比,根据四个企得到的数据画出如下四个等高条形图,最能体现共享经济对该部门的发展有显著效果的图形是()D[ 根据四个列联表中的等高条形图可知,图中 D 中共享与不共享的企业经济活跃度的差异最大,它最能体现共享经济对该部门的发展有显著效果,故选D.]8.(2019 ·州模拟惠)已知 x 与 y 之间的几组数据如下表:x 1 2 3 4 5 6y 0 2 1 3 3 4假设根据上表数据所得的线性回归方程为^ ^ ^y= b +若某同学根据上表中的x a.前两组数据 (1,0)和 (2,2)求得的直线方程为y= b′ x+a′,则以下结论正确的是()^ ^ ^ ^A.b>b′, a>a′B.b>b′, a<a′^ ^ ^ ^C.b<b′, a>a′D.b<b′, a<a′C[ 由两组数据 (1,0)和(2,2)可求得直线方程为 y=2x-2,b′=2,a′=-^ 2.而利用线性回归方程的公式与已知表格中的数据,可求得 b =5 ^ – ^– 13 5==7,a= y -b x =6-771^^×2=-3,所以 b<b′,a>a′.]9.(2019 天·津模 )某校高中共有 720 人,其中理科生 480 人,文科生 240 人,采用分抽的方法从中抽取 90 名学生参加研,抽取理科生的人数________.48060[由分抽的定得抽取理科生的人数720×90=60.]–10.已知本数据x1,x2,⋯, x n的平均数 x = 5,本数据2x1+1,2x2 +1,⋯, 2x n+1 的平均数 ________.11[ 由 x1,x2,⋯,x n的平均数 x= 5,得 2x1+1,2x2+1,⋯,2x n+1 的平–均数 2 x +1= 2× 5+ 1= 11.]11.某学校随机抽取部分新生其上学所需(位:分 ),并将所得数据制成率分布直方(如 ),其中,上学所需的范是[0,100] ,本数据分 [0,20),[20,40),[40,60), [60,80), [80,100],(1)中的 x= ________;(2)若上学所需不少于 1 小的学生可申在学校住宿,校600 名新生中估有 ________名学生可以申住宿.0.0125 72[(1) 由率分布直方知20x= 1-20×(0.025+ 0.0065+ 0.003 +0.003),解得 x=0.0125.(2)上学不少于 1 小的学生的率0.12,因此估有0.12×600=72(人)可以申住宿. ]12.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20 分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;^③在线性回归方程 y=0.2x+12 中,当解释变量x 每增加一个单位时,预报^变量 y平均增加 0.2 个单位;④对分类变量 X 与 Y 的统计量 K2来说, K2越小,“ X 与 Y 有关系”的把握程度越大.②③[①是系统抽样;对于④,统计量 K2越小,说明两个相关变量有关系的把握程度越小. ]。
高三数学统计案例试题答案及解析
高三数学统计案例试题答案及解析1.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,这与性别有关联的可能性最大的变量是()D.阅读量【答案】D【解析】根据公式分别计算得:A., B. C. D. ,选项D的值最大,所以与性别有关联的可能性最大为D.【考点】关联判断2.某种产品的广告费支出z与销售额y(单位:万元)之间有如下对应数据:若广告费支出z与销售额y回归直线方程为多一6.5z+n(n∈R).(1)试预测当广告费支出为12万元时,销售额是多少?(2)在已有的五组数据中任意抽取两组,求至少有一组数据其预测值与实际值之差的绝对值不超过5的概率.【答案】(1);(2).【解析】(1)回归方程必过样本中心点,,将样本中心点代入回归方程,求出,即得回归方程,当广告费支出万元时,代入求得就是销售额;(2)将实际值与观测值对应列出,列举法一一列出任取两组的所有基本事件,至少有一组数据其预测值与实际值之差的绝对值不超过的对立事件为,两组都超过,找到两组都超过的基本事件的个数,.(1)因为点(5,50)在回归直线上,代入回归直线方程求得,所求回归直线方程为: 3分当广告支出为12时,销售额. 5分(2)实际值和预测值对应表为在已有的五组数据中任意抽取两组的基本事件:(30,40),(30,60),(30,50),(30,70),(40,60),(40,50),(40,70),(60,50),(60,70),(50,70)共10个, 10分两组数据其预测值与实际值之差的绝对值都超过5的有(60,50),所以至少有一组数据其预测值与实际值之差的绝对值不超过5的概率为. 12分【考点】1.回归方程;2.古典概型的概率问题.3.一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机器零件有一些会有缺点,每小时生产有缺点零件的多少随机器运转的速度而变化,下表是抽样试验结果:在的范围是()A.10转/s以下B.15转/s以下C.20转/s以下D.25转/s以下【答案】B【解析】则a=-b=-0.857 5.∴回归直线方程为=0.728 6x-0.857 5.要使y≤10,则0.728 6x-0.857 5≤10,∴x≤14.901 9.因此,机器的转速应该控制在15转/s以下.故选B.4.登山族为了了解某山高y(km)与气温x(°C)之间的关系,随机统计了4次山高与相应的气温,并制作了对照表:气温x(°C)181310-1由表中数据,得到线性回归方程,由此请估计出山高为72(km)处气温的度数为()A.-10B.-8C.-6D.-6【答案】C【解析】由题意可得=10,=40.5,所以=+2=40.5+2×10=60.5,所以,当=72时,,解得x≈-6,故选C.【考点】回归分析5.在某次高三考试成绩中,随机抽取了9位同学的数学成绩进行统计。
最全高考数学统计专题解析版【真题】
精品文档第十一章统计、统计案例第一部分六年高考荟萃2013 年高考题1 .( 2013 年高考陕西卷(理))某单位有840 名职工 ,现采用系统抽样方法,抽取42人做问卷调查 ,将840人按1, 2, , 840随机编号,则抽取的42人中,编号落入区间[481,720] 的人数为()A . 11B. 12C. 13D.142 .( 2013 年普通高等学校招生统一考试安徽数学(理)试题(纯WORD版))某班级有50 名学生 , 其中有 30 名男生和 20 名女生 , 随机询问了该班五名男生和五名女生在某次数学测验中的成绩, 五名男生的成绩分别为86,94,88,92,90,五名女生的成绩分别为88,93,93,88,93.下列说法一定正确的是()A.这种抽样方法是一种分层抽样B.这种抽样方法是一种系统抽样C.这五名男生成绩的方差大于这五名女生成绩的方差D.该班级男生成绩的平均数小于该班女生成绩的平均数3 .( 2013 年普通高等学校招生统一考试福建数学(理)试题(纯WORD版))某校从高一年级学生中随机抽取部分学生, 将他们的模块测试成绩分为6组 :[40,50), [50,60),[60,70), [70,80), [80,90), [90,100)加以统计 , 得到如图所示的频率分布直方图,已知高一年级共有学生600 名, 据此估计 , 该模块测试成绩不少于60 分的学生人数为()A.588B. 480C. 450D.1204.( 2013 年高考江西卷(理))总体有编号为01,02, ,19,20的20个个体组成。
利用下面的随机数表选取 5 个个体,选取方法是从随机数表第 1 行的第 5 列和第 6 列数字开始由左到右依次选取两个数字,则选出来的第 5 个个体的编号为7816657208026314070243699728019832049234493582003623486969387481()A . 08B. 07C. 02D.015.( 2013 年高考上海卷(理))盒子中装有编号为1,2,3,4,5,6,7,8,9的九个球,从中任意取出两个 , 则这两个球的编号之积为偶数的概率是___________( 结果用最简分数表示)6.( 2013 年高考湖北卷(理))从某小区抽取100 户居民进行月用电量调查, 发现其用电量都在 50 到 350 度之间 , 频率分布直方图所示.(I) 直方图中x的值为 ___________;(II)在这些用户中 , 用电量落在区间100,250内的户数为 _____________.7.( 2013 年普通高等学校招生全国统一招生考试江苏卷(数学)(已校对纯WORD版含附加题))抽样统计甲、乙两位设计运动员的 5 此训练成绩 ( 单位 : 环 ), 结果如下 :运第 1第第第第 5动234次次员次次次甲8791908993乙8990918892则成绩较为稳定( 方差较小 ) 的那位运动员成绩的方差为_____________.8.( 2013 年高考上海卷(理))设非零常数d 是等差数列x1, x2 , x3 ,, x19的公差,随机变量等可能地取值x1 , x2 , x3 , , x19,则方差 D_______9.( 2013 年普通高等学校招生统一考试广东省数学(理)卷(纯WORD版))某车间共有12名工人 , 随机抽取6名 , 他们某日加工零件个数的茎叶图如图所示, 其中茎为十位数, 叶为个位数 .1 7920 1 530第 17题图( Ⅰ)根据茎叶图计算样本均值 ;( Ⅱ)日加工零件个数大于样本均值的工人为优秀工人, 根据茎叶图推断该车间12名工人中有几名优秀工人 ;( Ⅲ)从该车间12 名工人中,任取 2 人,求恰有 1名优秀工人的概率.10.( 2013年普通高等学校招生统一考试天津数学(理)试题(含答案))一个盒子里装有7张卡片 , 其中有红色卡片 4 张,编号分别为 1, 2, 3, 4; 白色卡片 3 张 , 编号分别为 2,3, 4. 从盒子中任取 4张卡片 ( 假设取到任何一张卡片的可能性相同).( Ⅰ)求取出的 4 张卡片中 ,含有编号为 3 的卡片的概率 .( Ⅱ )再取出的 4 张卡片中 ,红色卡片编号的最大值设为X,求随机变量 X 的分布列和数学期望 .11.( 2013 年高考陕西卷(理))出最受欢迎歌手 . 各位观众须彼此独立地在选票上选 3名歌手 , 其中观众甲是 1 号歌手的歌迷 , 他必选 1 号 ,不选 2 号 , 另在 3 至 5 号中随机选2 名. 观众乙和丙对 5 位歌手的演唱没有偏爱,因此在1 至 5 号中随机选 3名歌手 .( Ⅰ)求观众甲选中 3 号歌手且观众乙未选中 3 号歌手的概率 ;( Ⅱ ) X 表示 3 号歌手得到观众甲、乙、丙的票数之和, 求 X 的分布列和数学期望 .12.( 2013年普通高等学校招生统一考试重庆数学(理)试题(含答案))某商场举行的“三色球”购物摸奖活动规定 : 在一次摸奖中 , 摸奖者先从装有 3 个红球与 4 个白球的袋中任意摸出 3个球 , 再从装有12个白球的袋中任意摸出1个球 , 根据摸出4个球个蓝球与中红球与蓝球的个数 , 设一 . 二. 三等奖如下 :奖级 摸出红 . 蓝球个数获奖金额一等奖 3红 1蓝 200 元二等奖 3红 0蓝 50 元三等奖2红 1蓝10 元其余情况无奖且每次摸奖最多只能获得一个奖级 .(1) 求一次摸奖恰好摸到 1 个红球的概率 ;(2) 求摸奖者在一次摸奖中获奖金额X 的分布列与期望 E X.2012 年高考题1.【 2012 新课标文】 在一组样本数据( x 1 ,y 1),( x 2,y 2), ,( x n ,y n )(n ≥ 2,x 1,x 2, ,x n不全相等)的散点图中,若所有样本点(x i ,y i )(i=1,2, , n) 都在直线1 上,则这组y= x+12样本数据的样本相关系数为(A )- 1(B )0( C )1(D )122.【 2012 山东文】(4)在某次测量中得到的A 样本数据如下: 82, 84, 84, 86, 86, 86,88, 88,88,88.若 B 样本数据恰好是 A 样本数据都加 2 后所得数据,则A ,B 两样本的下列数字特征对应相同的是(A) 众数(B) 平均数(C)中位数 (D) 标准差3.【 2012 四川文】 交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情 况,对甲、乙、丙、丁四个社区做分层抽样调查。
高考数学关于统计及统计案例练习试题
高考数学关于统计及统计案例练习试题高考数学关于统计及统计案例练习试题人生多磨难,要为自己鼓掌,别让迟疑阻滞了脚步,别让哀痛苍白了心灵。
下面是我共享的高考数学关于统计及统计案例练习试题,欢迎大家练习!选择题1.对某商店一个月内每天的顾客人数进行统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( )A.46,45,56B.46,45,53C.47,45,56D.45,47,53答案:A 命题立意:本题考查中位数、众数、极差等特征数与茎叶图,难度中等.解题思路:利用相关概念求解.由茎叶图可知,第15个数据是45,第16个数据是47,所以30天中的顾客人数的中位数是45和47的平均数,即为46.消逝次数最多的是45,故众数是45;最大数据68与最小数据12的差是56,即极差是56,故选A.2.在100个零件中,有一级品20个,二级品30个,三级品50个,从中抽取20个作为样本:接受简洁随机抽样法,将零件编号为00,01,02,…,99,从中抽出20个;接受系统抽样法,将全部零件分成20组,每组5个,然后每组中随机抽取1个;接受分层抽样法,随机从一级品中抽取4个,二级品中抽取6个,三级品中抽取10个,则( )A.不论实行哪种抽样方法,这100个零件中每个被抽到的概率都是B.两种抽样方法,这100个零件中每个被抽到的概率都是,并非如此C.两种抽样方法,这100个零件中每个被抽到的概率都是,并非如此D.接受不同的抽样方法,这100个零件中每个被抽到的概率各不相同答案:A 解题思路:由于简洁随机抽样法、系统抽样法与分层抽样法均是等可能性抽样,因此不论实行哪种抽样方法,这100个零件中每个被抽到的概率都是,故选A.3.从某中学一、二两个班中各随机抽取10名同学,测量他们的身高(单位:cm)后获得身高数据的茎叶图如图甲,在这20人中,记身高在[150,160),[160,170),[170,180),[180,190]的人数依次为A1,A2,A3,A4,图乙是统计样本中身高在确定范围内的人数的程序框图,则下列说法正确的是( )A.甲可知一、二两班中平均身高较高的是一班,图乙输出的S的值为18B.甲可知一、二两班中平均身高较高的是二班,图乙输出的S的值为16C.甲可知一、二两班中平均身高较高的是二班,图乙输出的S的值为18D.甲可知一、二两班中平均身高较高的是一班,图乙输出的S的值为16答案:C 命题立意:本题主要考查统计与程序框图的相关学问,统计问题与程序框图的结合有可能成为高考命题的热点,此类题目考查的方式多样,难度适中.在该题中对程序框图的考查主要体现在对其循环结构的考查.此类题目易消逝的`问题主要是不能从整体上精确把握程序框图,无法确定赋值语句、输出语句中各个变量与实际问题的联系,从而不能确定程序框图所要解决的实际问题中的相关数据.所以解决此类问题首先要明确程序框图中的各类数据与实际问题中数据之间的对应关系,精确把握实际问题中数据的实际意义.解题思路:由茎叶图可知,一班同学身高的平均数为170.3,二班同学身高的平均数为170.8,故二班同学的平均身高较高.由题意可知,A1=2,A2=7,A3=9,A4=2,由程序框图易知,最终输出的结果为S=7+9+2=18.4.下表是降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗y(吨标准煤)的几组对应数据,依据表中供应的数据,求出y关于x的线性回归方程=0.7x+0.35,那么表中m的值为( ) x 3 4 5 6 y 2.5 m 4 4.5 A.4 B.3.5C.3D.4.5答案:C 命题立意:本题考查统计的相关学问,难度中等.解题思路:依题意得=×(3+4+5+6)=4.5,=(2.5+m+4+4.5)=,由于回归直线必经过样本中心点,于是有=0.7×4.5+0.35,解得m=3,故选C.5.某调查机构对本市学校生课业负担状况进行了调查,设平均每人每天做作业的时间为x分钟.有1 000名学校生参加了此项调查,调查所得数据用程序框图处理,若输出的结果是680,则平均每天做作业的时间在0~60分钟内的同学的频率是( )A.680B.320C.0.68D.0.32答案:D 解题思路:程序框图统计的是作业时间为60分钟以上的同学的数量,因此由输出结果为680知,有680名同学的作业时间超过60分钟,因此作业时间在0~60分钟内的同学总数有320人,故所求频率为0.32.6.两组各7名同学体重(单位:kg)数据的茎叶图.设,两组数据的平均数依次为1,2,标准差依次为s1和s2,那么( )A.12,s1s2B.12,s1s2 D.12,s13.841,因此有95%的把握认为“成果与班级有关系”.(3)抽取两次所得编号的基本事件为(1,1),(1,2),(1,3),…,(1,6),(2,1),(2,2),(2,3),…,(2,6),…,(6,1),(6,2),(6,3),…,(6,6),共36个.编号之和为6的倍数的基本事件为(1,5),(2,4),(3,3),(4,2),(5,1),(6,6),共6个.因此两次编号之和为6的倍数的概率为.【高考数学关于统计及统计案例练习试题】。
统计案例高中数学
统计案例高中数学
高中数学统计案例示例如下:
假设你是一名学生,想要了解不同科目在学校的成绩分布。
你使用班级的成绩表来计算每个科目的平均分数,并将结果展示在学校官方网站上。
计算平均分数的过程如下:
1. 整理成绩表,将每个科目的成绩按列排序。
2. 计算每个科目的平均分数。
- 如果有一个科目有多个学生成绩,需要选取取平均值。
- 如果只有一个科目,则可以直接计算所有学生成绩的和再除以人数。
例如,如果成绩表如下所示:
| 科目 | 成绩 |
|------|----------|
| 数学 | 90 |
| 英语 | 85 |
| 物理 | 80 |
| 化学 | 75 |
| 历史 | 80 |
那么平均分数为(90 + 85 + 80 + 75 + 80) / 5 = 175/5 = 34.33(保留两位小数)。
将平均分数和学校官方网站上的成绩进行比较,以确保成绩分布
符合预期。
该学生在学校官方网站上发布了数学、英语和历史的平均分数分别为34.33、34.33和33.67。
这意味着在这个班级中,数学、英语和历史的平均分数相对较高,而物理、化学和历史的平均分数相对较低。
2020高考数学 试题汇编 第七节 统计、统计案例 理(含解析)
第七节统计、统计案例抽样方法考向聚焦从近三年的高考试题可以看出,高考对抽样方法的考查侧重于考查系统抽样和分层抽样中的数值计算问题,尤其是系统抽样中所抽样本的编号问题、分层抽样中各层所抽样本数量的计算等,多以小题形式出现,难度为中低档,所占分值为4~5分1.(2012年山东卷,理4,5分)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为( )(A)7 (B)9 (C)10 (D)15解析:本小题主要考查随机抽样与等差数列.由系统抽样可知,32人的号码间隔为30,抽到的号码构成等差数列{a n},且a n=30n-21(n∈N*),由451≤a n≤750可得16≤n≤25,即做问卷B 的人数为10人.答案:C.2.(2012年江苏数学,2,5分)某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取名学生.解析:本题考查随机抽样中分层抽样.关键算出高二学生人数在总数中的比例.因为高二年级学生人数占总数的,样本容量为50,所以50×=15.答案:153.(2012年天津卷,理9,5分)某地区有小学150所,中学75所,大学25所.现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取所学校,中学中抽取所学校.解析:本题考查分层抽样,属容易题.从小学中抽取的学校数为30×=18(所),从中学中抽取的学校数为30×=9(所).答案:18 94.(2011年天津卷,理9)一支田径队有男运动员48人,女运动员36人.若用分层抽样的方法从该队的全体运动员中抽取一个容量为21的样本,则抽取男运动员的人数为.解析:∵=,∴48×=12(人). 答案:12频率分布直方图与茎叶图考向聚焦从近三年的高考试题可以发现,统计图表(频率分布表、频率分布直方图、频率分布折线图、茎叶图)是高考考查的重点和热点内容,几乎每年都考,可以单独命题,多是一道选择或填空题,为容易题,5分左右;可以以统计图象为载体,以现实生活为背景,结合样本的数字特征、概率、分布列等出一道大题,属于中档题目,12分左右备考指津对于统计图表的题目,求解时,最重要的就是认真观察图表,从中发现有用的信息和数据5.(2012年陕西卷,理6,5分)从甲乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示).设甲乙两组数据的平均数分别为,,中位数分别为m甲,m 乙,则( )(A)<,m甲>m乙(B)<,m甲<m乙(C)>,m甲>m乙(D)>,m甲<x乙解析:由茎叶图中数据分布情况知:甲数据分散些,乙数据集中一些,且数据偏大,故<,排除C、D答案;观察排序后m甲==20,m乙==29,∴m甲<m乙,故<,m甲<m乙.答案:B.6.(2010年北京卷,理11)从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).由图中数据可知a= .若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为.解析:各组的频率之和为0.05+0.1+0.2+10a+0.35=1,a=0.030,所选三组的频数之比为3∶2∶1,所以身高在[140,150]内的学生中选取的人数应为18×=3.答案:0.030 37.(2010年江苏卷,4)某棉纺厂为了解一批棉花的质量,从中随机抽测了100根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标),所得数据均在区间[5,40]中,其频率分布直方图如图所示,则其抽测的100根中,有根棉花纤维的长度小于20 mm.解析:∵小于20 mm的频率是(5+5)×0.01+5×0.04=0.3,∴100×0.3=30.答案:308.(2010年天津卷,理11)甲、乙两人在10天中每天加工零件的个数用茎叶图表示如图,中间一列的数字表示零件个数的十位数,两边的数字表示零件个数的个位数.则这10天甲、乙两人日加工零件的平均数分别为和.甲乙9 8 1 9 7 10 1 3 2 0 2 1 4 2 41 1 5 3 02 0解析:=.∴=24,同理可求=23.答案:24 239.(2010年陕西卷,理19)为了解学生身高情况,某校以10%的比例对全校700名学生按性别进行分层抽样调查,测得身高情况的统计图如下:(1)估计该校男生的人数;(2)估计该校学生身高在170~185 cm之间的概率;(3)从样本中身高在165~180 cm之间的女生中任选2人,求至少有1人身高在170~180 cm 之间的概率.解:(1)样本中男生人数为40,由分层抽样比例为10%估计全校男生人数为400.(2)由统计图知,样本中身高在170~185 cm之间的学生有14+13+4+3+1=35人,样本容量为70,所以样本中学生身高在170~185 cm之间的频率f==0.5,故估计该校学生身高在170~185 cm之间的概率P=0.5.(3)样本中女生身高在165~180 cm之间的人数为10,身高在170~180 cm之间的人数为4. 设A表示事件“从样本中身高在165~180 cm之间的女生中任选2人,至少有1人身高在170~180 cm之间”,则P(A)=1-=(或P(A)==).本题综合考查了分层抽样、频数分布直方图、频率、概率等统计知识,要求有较强的读图识图能力及综合运用所学知识的能力.样本的数字特征考向聚焦从近三年的高考试题可以看出,样本的数字特征(众数、中位数、平均数、方差、标准差)也是高考对统计考查的重要内容,也几乎每年必考,也可单独命题,一般为一道选择、填空题,难度中档以下,5分左右;也可与统计图表、概率、分布列等知识综合在一起出一道应用大题,属中档题,12分左右备考指津计算平均数与方差或标准差时,要明确所有数据的个数,防止计算错误10.(2012年安徽卷,理5,5分)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )(A)甲的成绩的平均数小于乙的成绩的平均数(B)甲的成绩的中位数等于乙的成绩的中位数(C)甲的成绩的方差小于乙的成绩的方差(D)甲的成绩的极差小于乙的成绩的极差解析:本题考查统计图表及数据的数字特征,考查数据的处理及运算.甲射击比赛中靶4,5,6,7,8环各1次,则甲成绩的中位数为6环,平均数为6环,极差为4环,方差为2平方环;乙射击比赛中靶5环3次,6环1次,9环1次,则乙成绩的中位数为5环,平均数为6环,极差为4环,方差为2.4平方环.所以甲成绩的方差比乙成绩的方差小.故选C.答案:C.本题是统计知识的综合,读懂图,根据图中的数据提炼出所需要的数据,然后根据数据的各个数字特征进行运算即可得出结论.11.(2012年江西卷,理9,5分)样本(x1,x2,…,x n)的平均数为,样本(y1,y2,…,y m)的平均数为(≠).若样本(x1,x2,…,x n,y1,y2,…,y m)的平均数=α+(1-α),其中0<α<,则n,m的大小关系为( )(A)n<m (B)n>m(C)n=m (D)不能确定解析:本题考查统计中的平均数,作差法比较大小以及整体思想.依题意得x1+x2+…+x n=n,y1+y2+…+y m=m,x1+x2+…+x n+y1+y2+…+y m=(m+n)=(m+n)α+(m+n)(1-α),所以n+m=(m+n)α+(m+n)(1-α),所以,于是有n-m=(m+n)[α-(1-α)]=(m+n)(2α-1).因为0<α<,所以2α-1<0.所以n-m<0.即n<m.故选A.答案:A.比较两个实数的大小一般用作差或作商比较法.12.(2010年山东卷,理6)样本中共有五个个体,其值分别为a,0,1,2,3,若该样本的平均值为1,则样本方差为( )(A)(B)(C)(D)2解析:由题意知(a+0+1+2+3)=1,解得a=-1,∴样本方差为s2=[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2.答案:D.13.(2011年江苏卷,6)某老师从星期一到星期五收到的信件数分别为10,6,8,5,6,则该组数据的方差s2= .解析:平均数==7,∴方差s2==3.2.答案:3.214.(2012年北京卷,理17,13分)近年来,某市为促进生活垃圾的分类处理,将生活垃圾分为厨余垃圾、可回收物和其他垃圾三类,并分别设置了相应的垃圾箱,为调查居民生活垃圾分类“厨余垃圾”箱“可回收物”箱“其他垃圾”箱厨余垃圾400 100 100可回收物30 240 30其他垃圾20 20 60(1)试估计厨余垃圾投放正确的概率;(2)试估计生活垃圾投放错误的概率;(3)假设厨余垃圾在“厨余垃圾”箱、“可回收物”箱、“其他垃圾”箱的投放量分别为a,b,c,其中a>0,a+b+c=600.当数据a,b,c的方差s2最大时,写出a,b,c的值(结论不要求证明),并求此时s2的值.(求:s2=[(x1-)2+(x2-)2+…+(x n-)2],其中为数据x1,x2,…,x n的平均数)解:(1)由已知得厨余垃圾共有600吨,其中厨余垃圾投放正确的有400吨,∴厨余垃圾投放正确的概率为=.(2)由已知得厨余垃圾投放正确的有400吨,可回收物投放正确的有240吨,其他垃圾投放正确的有60吨,∴生活垃圾投放正确的有700吨,∴生活垃圾投放错误的有300吨,∴投放错误的概率为=.(3)当a=600,b=c=0时,s2取最大值.由已知a+b+c=600,∴a,b,c的平均数为200,∴s2==80000,∴方差s2的最大值为80000.此题的难度在第三问,其余两问题难度不大,第三问对学生有较高的能力要求.虽不要求证明,但要求学生对方差意义的理解非常深刻.15.(2011年北京卷,理17)以下茎叶图记录了甲、乙两组各四名同学的植树棵数.乙组记录中有一个数据模糊,无法确认,在图中以X表示.(1)如果X=8,求乙组同学植树棵数的平均数和方差;(2)如果X=9,分别从甲、乙两组中随机选取一名同学,求这两名同学的植树总棵数Y的分布列和数学期望.(注:方差s2=[(x1-)2+(x2-)2+…+(x n-)2],其中为x1,x2,…,x n的平均数)解:(1)当X=8时,由茎叶图可知,乙组同学的种植棵数是8、8、9、10,所以平均数为==,方差为s2=[(8-)2+(8-)2+(9-)2+(10-)2]=.(2)当X=9时,由茎叶图可知,甲组同学的植树棵数为9、9、11、11,乙组同学的植树棵数为9、8、9、10,分别从甲、乙两组中随机选取一名同学,共有4×4=16种等可能的结果,而两名同学植树总棵数Y的取值有17、18、19、20、21,其中事件“Y=17”等价于“甲组同学植树9棵,乙组同学植树8棵”,所以它包含2种基本事件,∴P(Y=17)==,同理可得P(Y=18)=,P(Y=19)=,P(Y=20)=,P(Y=21)=,所以随机变量Y的分布列为Y 17 18 19 20 21P所以其数学期望为E(Y)=17×+18×+19×+20×+21×=19.变量的相关性考向聚焦高考对变量间的相关性的考查呈逐年上升的势头,主要考查借助于散点图直观地分析两个变量间的相关关系,知道回归直线经过的样本中心,会求线性回归方程,并能利用方程对有关变量作出估计.一般以选择、填空的形式出现,属容易题,所占分值4~5分16.(2012年湖南卷,理4,5分)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )(A)y与x具有正的线性相关关系(B)回归直线过样本点的中心(,)(C)若该大学某女生身高增加1 cm,则其体重约增加0.85 kg(D)若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg解析:根据线性回归方程相关知识可知A、B、C是正确的.而由回归方程得到的是预报变量的可能取值的平均值,不是预报变量的精确值,故选D.答案:D.广告费用x(万元) 4 2 3 5销售额y(万元) 49 26 39 54根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( )(A)63.6万元(B)65.5万元(C)67.7万元(D)72.0万元解析:据表可得==,==42,因为回归直线过样本中心点(,42),且=9.4,∴=9.1.即回归方程为=9.4x+9.1,∴当x=6时,=65.5(万元),故选B.答案:B.18.(2011年江西卷,理6)变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )(A)r2<r1<0 (B)0<r2<r1(C)r2<0<r1(D)r2=r1解析:由散点图可以得出结论:变量X与Y正相关;变量U与V负相关.故r1>0,r2<0.因此选C. 答案:C.19.(2011年陕西卷,理9)设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( )(A)x和y的相关系数为直线l的斜率(B)x和y的相关系数在0到1之间(C)当n为偶数时,分布在l两侧的样本点的个数一定相同(D)直线l过点(,)解析:线性回归直线必过样本点中心(,),故选D.答案:D.20.(2011年辽宁卷,理14)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加万元.解析:由回归直线方程为=0.254x+0.321知收入每增加1万元,饮食支出平均增加0.254万元.答案:0.25421.(2011年广东卷,理13)某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为 cm.由题意父亲身高x 173 170 176y 170 176 182则==173,==176,(x i-)(y i-)=(173-173)×(170-176)+(170-173)×(176-176)+(176-173)(182-176)=18, (x i-)2=(173-173)2+(170-173)2+(176-173)2=18.∴==1,∴=-=176-173=3.∴线性回归直线方程=x+=x+3.∴可估计孙子身高为182+3=185(cm).答案:185独立性检验考向聚焦对独立性检验的考查是高考一个方向,有时以一道选择题的形式出现,属容易题,4~5分;也有时以一道解答题的形式出现,12分左右,属于中档偏下题目备考指津通过独立性检验判断两个变量是否相关,列出列联表是关键.利用列联表进行独立性检验,不但能考查两个变量是否相关,而且能较准确地计算出这种判断的可靠程度22.(2011年湖南卷,理4)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如男女总计爱好40 20 60不爱好20 30 50总计60 50 110由K2=算得,K2==7.8.P(K2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828参照附表,得到的正确结论是( )(A)在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”(B)在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”(C)有99%以上的把握认为“爱好该项运动与性别有关”(D)有99%以上的把握认为“爱好该项运动与性别无关”解析:∵K2=7.8>6.635,∴有99%以上把握认为“爱好该项运动与性别有关”,∴选C.答案:C.23.(2010年新课标全国卷,理19)为调查某地区老年人是否需要志愿者提供帮助,用简单随性别男女是否需要志愿者需要40 30不需要160 270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.P(K2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828K2=.解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为×100%=14%.(2)K2=≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.。
新高考数学复习专题-专题二十 统计与统计案例(原卷版)
专题二十 统计与统计案例一、单选题1.(2021·河南高二月考(文))有下列四个命题:( ) ①在回归分析中,残差的平方和越小,模型的拟合效果越好;②在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适; ③若数据1x ,2x ,…,n x 的平均数为1,则12x ,22x ,…2n x 的平均数为2; ④对分类变量x 与y 的随机变量2K 的观测值k 来说,k 越小,判断“x 与y 有关系”的把握越大.其中真命题的个数为( ) A .1B .2C .3D .42.(2021·全国高二课时练习)若由一个22⨯列联表中的数据计算得2 4.013K =,那么有( )把握认为两个变量有关系.20()P K k ≥ 0.150.10 0.05 0.025 0.010 0.005 0.0010k2.072 2.7063.841 5.024 6.635 7.879 10.828A .95%B .97.5%C .99%D .99.9%第II 卷(非选择题)请点击修改第II 卷的文字说明二、解答题3.(2021·广东汕头市·高三一模)为确保我国如期全面建成小康社会,实现第一个百年奋斗目标打下了坚实的基础.在产业扶贫政策的大力支持下,某玩具厂对原有的生产线进行技术升级,为了更好地对比升级前和升级后的效果,其中甲生产线继续使用旧的生产模式,乙生产线采用新的生产模式.质检部门随机抽检了甲、乙两条生产线的各100件玩具,在抽取的200件玩具中,根据检测结果将它们分为“A ”、“B ”、“C ”三个等级,,A B 等级都是合格品,C 等级是次品,统计结果如表所示:等级ABC频数 100 75 25(表二)合格品 次品 合计 甲 80 乙 5 合计在相关政策扶持下,确保每件合格品都有对口销售渠道,但从安全起见,所有的次品必须由厂家自行销毁.(1)请根据所提供的数据,完成上面的22⨯列联表(表二),并判断是否有99.5%的把握认为产品的合格率与技术升级有关?(2)每件玩具的生产成本为20元,,A B 等级产品的出厂单价分别为m 元、40元.若甲生产线抽检的玩具中有35件为A 等级,用样本的频率估计概率,若进行技术升级后,平均生产一件玩具比技术升级前多盈利12元,则A 等级产品的出产单价为多少元?附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥0.05 0.025 0.010 0.005 0.0010k3.841 5.024 6.635 7.879 10.8284.(2021·河南高二月考(文))某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,得出以下22⨯列联表:积极参加班级工作不太主动参加班级工作总计 学习积极性高 18725 学习积极性一般ab25 总计cd50如果随机抽查该班的一名学生,那么抽到积极参加班级工作的学生的概率是1225. (1)求a ,b ,c ,d 的值.(2)试运用独立性检验的思想方法分析:能否有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系?并说明理由.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:20()P K k ≥0.10 0.05 0.025 0.010 0.005 0.0010k2.7063.841 5.024 6.635 7.879 10.8285.(2021·内蒙古包头市·高三一模(文))某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表: 土地使用面积x (单位:亩) 1 2 3 4 5 管理时间y (单位:月)911142620并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:愿意参与管理不愿意参与管理男性村民 140 60 女性村民40(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:()20P K k ≥0.100 0.050 0.025 0.010 0.0010k2.7063.841 5.024 6.635 10.82848522.02≈.6.(2021·聊城市·山东聊城一中高三一模)已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:综合评价成绩(单位:分) [40,50)[50,60)[60,70)[70,80)[80,90)[90,100)频数 510151055赞成人数4812431(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?综合评价成绩小于80分的人数综合评价成绩不小于80分的人数合计赞成 不赞成 合计(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:P()20Kk ≥0.10 0.050.010 0.005 k 02.7063.8416.6357.8797.(2021·全国高三月考(理))某购物网站统计了,A B 两款手机在2020年7月至11月的总销售量y (单位:百部),得到以下数据: 月份x 7 8 9 10 11 销售量y100120110120200(Ⅰ)已知销售量y 与月份x 满足线性相关关系,求出y 关于x 的线性回归方程,ˆˆˆybx a =+,并预测12月的手机销售量; (Ⅱ)网站数据分析人员发现:,A B 两款手机11月的销售量与顾客性别有关.请填写下面的22⨯列联表,并判断能否有超过99.5%的把握认为“,A B 两款手机11月的销售量与顾客性别有关”?男性顾客女性顾客合计A 款销售量90B 款销售量50合计90参考公式:()()()121niii ni i x x y y b x x ==--=-∑∑,ˆˆay bx =-, ()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:()20P K k ≥ 0.010 0.005 0.0010k6.6357.879 10.8288.(2021·湖北高三月考)近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a x =+dy c x=+建立y 关于x 的回归方程,令s x =,1t x=得到如下数据: xyst10.15109.943.040.16113ni ii s y s y =-⋅∑ 13113i ii t yt y =-⋅∑1322113ik ss =-∑1322113ii tt =-∑1322113ii yy =-∑13.94 -2.1 11.67 0.21 21.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953. (1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374,247.637415.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v u αβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数222211ni i nniii i u vnu vr unu vnv==-⋅=-⋅-∑∑∑.9.(2021·辽宁高三期末(文))2019年4月,中国电信公布了2019年的终端洞察报告,其中,国产手机品牌表现抢眼,统治地位不容置疑.在2018年6—11月上市的新机中,用户最满意机型与用户推荐机型的项目中国产手机优势明显,华为及荣耀手机分别占据不同价位段的榜单第一,OPPO 、vivo 、小米、魅族均有机型占据榜单.在用户满意机型调研项目中,曾经位于神坛地位的苹果手机也仅仅只有iPhoneXR 一款位列第三.最满意度机型TOP3 中国电信大于3500 2500-3499 1500-2499 1000-1499 1000元以下 第一名华为P30 ProvivoiQoo荣耀9X Vivo Z5x华为畅享9e第二名三星S10+荣耀20Pro红米K20ProOPPO A9红米7第三名iPhone XRVivo X27化为 麦芒8华为畅享9plus中兴BladeA7 (1)从上表中“华为(不含荣耀)”和“iPhoneXR ”的5个机型中任取2个,求这两个机型都是华为的概率;(2)测试数据源于消费者的反馈,从反馈信息中随机抽取500个“华为畅享9plus ”消费者,其中来自城市300个,来自农村200个,统计他们对“华为畅想9plus ”的满意情况如下:满意不满意城市 270 30 农村17030根据上表数据,问是否有95%的把握认为消费者是否满意与城市用户还是农村用户有关?(附:()()()()()22n ad bc X a b c d a c b d -=++++;当2 3.841X >时,有95%的把握说事件A与B 有关;当2 6.635X >时,有99%的把握说事件A 与B 有关;当2 3.841X ≤时,认为事件A 与B 是无关的)10.(2021·全国高三其他模拟)在我国,大学生就业压力日益严峻,伴随着政府政策的引导与社会观念的转变,大学生的创业意识与就业方向也悄然发生转变.某大学生在国家提供的税收,担保贷款等多方面的政策扶持下选择加盟某专营店自主创业,该专营店统计了近五年来创收利润数i y (单位:万元)与时间i t (单位:年)的数据,列表如下:i t1 2 3 4 5i y2.4 2.7 4.1 6.4 7.9(1)依据表中给出的数据,是否可用线性回归模型拟合与t 的关系,请计算相关系数r 并加以说明(计算结果精确到0.01).(若0.75r>,则线性相关程度很高,可用线性回归模型拟合)(2)该专营店为吸引顾客,特推出两种促销方案. 方案一:每满500元可减50元;方案二:每满500元可抽奖一次,每次中奖的概率都为25,中奖就可以获得100元现金奖励,假设顾客每次抽奖的结果相互独立.(ⅰ)某位顾客购买了1050元的产品,该顾客选择参加两次抽奖,求该顾客换得100元现金奖励的概率(ⅱ)某位顾客购买了2000元的产品,作为专营店老板,是希望该顾客直接选择方案一返回200元现金,还是选择方案二参加四次抽奖?说明理由.附:相关系数公式:()()()()()()1122221111nnii i ii i nnnniiiii i i i tt y y t yntyr tt yy tt yy ======---=----∑∑∑∑∑∑,参考数据:56.957.547≈,5185.2i i i t y ==∑,()52110i i t t =-=∑,()52122.78i i y y =-∑11.(2021·全国高三其他模拟)人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:xy()3121=-∑ii xx()()311=--∑ii i xx y y()3121=-∑ii xx()3121=-∑ii yy15500 9632 1412000000 683900000 38000 18400参考公式:相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y b x x ==--=-∑∑,ˆˆay bx =-. 12.(2021·甘肃兰州市·高三其他模拟(文))某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度C x ︒时相对应产卵数个数为y 的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a =+和z dx c =+(其中ln z y =)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R 更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程: (方程表示为()y f x =的形式,数据计算结果保留两位小数) xyz81i ii x y =∑81i i i x z =∑821ii x=∑26 72 3.3 11871 757 5722(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害.附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 13.(2021·全国高三月考(文))2020年11月24日我国使用长征五号运载火箭成功发射嫦娥五号月球探测器,12月17日嫦娥五号返回器携带月球样品在预定地区安全着陆,探月工程嫦娥五号任务取得圆满成功.某大学为此举行了与嫦娥系列探测工程有关的知识测试,测试满分为100分,该校某专业的100名大一学生参加了学校举行的测试,记录这100名学生的分数,将数据分成7组; [)[)[]30,40,40,50,,90,100⋯,并整理得到如下频率分布直方图:(1)估计这100名学生测试分数的中位数;(2)把分数不低于80分的称为优秀,已知这100名学生中男生有70人,其中测试优秀的男生有45人,填写下面列联表,并根据列联表判断是否有95%的把握认为测试优秀与性别有关: 男生 女生 优秀 不优秀附:20()P K k ≥0.050 0.010 0.0010k 3.841 6.635 10.828()()()()()22n ad bc K a b c d a c b d -=++++ (3)对于样本中分数在[)[]80,90,90,100的人数,学校准备按比例从这2组中抽取12人,在从这12人中随机抽取3人参与学校有关的宣传活动,记这3人分数不低于90分的学生数为,X 求X 的分布列.14.(2021·江西高三其他模拟(文))某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是:注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?性别 阴性阳性男 女 合计阳性 阴性合计附:()()()()()22n ad bcKa b c d a c b d-=++++.()2P K k≥0.050 0.010 0.001 0k 3.841 6.635 10.82815.(2021·全国高三专题练习(文))在关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展.行动期间,公安交管部门将加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔,汽车驾乘人员不使用安全带的行为,助推养成安全习惯.该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1000名骑行人员中,记录其年龄和是否佩戴头盔情况,得到如下的统计图表:(Ⅰ)估算该市电动自行车骑乘人员的平均年龄;(Ⅱ)根据所给的数据,完成下面的列联表:是否佩戴头盔年龄是否[)20,40[]40,70(Ⅲ)根据(Ⅱ)中的列联表,判断是否有99%把握认为遵守佩戴安全头盔与年龄有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,()2P K k≥0.050 0.010 0.001k 3.841 6.635 10.82816.(2021·全国高三专题练习(文))针对偏远地区因交通不便、消息闭塞导致优质农产品藏在山中无人识的现象,各地区开始尝试将电商扶贫作为精准扶贫的重要措施.为了解电商扶贫的效果,某部门随机就100个贫困地区进行了调查,其当年的电商扶贫年度总投入(单位:万元)及当年人均可支配年收入(单位:元)的贫困地区数目的数据如下表:人均可支配年收入(元)电商扶贫年度总投入(万元)(5000,10000] (10000,15000] (15000,20000] (0,500] 5 3 2(500,1000] 3 21 6(1000,3000) 2 34 24(1)估计该年度内贫困地区人均可支配年收入过万的概率,并求本年度这100个贫困地区的人均可支配年收入的平均值的估计值(同一组数据用该组数据区间的中间值代表);(2)根据所给数据完成下面的列联表,并判断是否有99%的把握认为当地的人均可支配年收入是否过万与当地电商扶贫年度总投入是否超过千万有关.人均可支配年收入≤10000元人均可支配年收入>10000元电商扶贫年度总投入不超过1000万电商扶贫年度总投入超过1000万附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()2P K k ≥0.050 0.01 0.005 k3.8416.6357.87917.(2021·全国高三专题练习(文))为研究男、女生的身高差异,现随机从高三某班选出男生、女生各10人,并测量他们的身高,测量结果如下(单位:厘米): 男:173 178 174 185 170 169 167 164 161 170 女:165 166 156 170 163 162 158 153 169 172(1)根据测量结果完成身高的茎叶图(单位:厘米),并分别求出男、女生身高的平均值;(2)请根据测量结果得到20名学生身高的中位数h (单位:厘米),将男、女生身高不低于h 和低于h 的人数填入下表中,并判断是否有90%的把握认为男、女生身高有差异?(3)若男生身高低于165厘米为偏矮,不低于165厘米且低于175厘米为正常,不低于175厘米为偏高.采用分层抽样的方法从以上男生中抽取5人作为样本.若从样本中任取2人,试求恰有1人身高属于正常的概率.()20P K k ≥ 0.100.05 0.025 0.010 0.005 0.0010k2.7063.8415.0246.6357.879 10.828参照公式:()()()()()22n ad bc k a b c d a c b d -=++++ 18.(2021·全国高三专题练习(文))某生物研究所研发了某种型号的新冠疫苗,为检验该种型号疫苗的效果,研究所将疫苗用在小白鼠身上进行科研实验,得到如下数据:未感染病毒感染病毒 总计未注射疫苗 a 60 m 注射疫苗 b30 n总计11090200从未注射疫苗的小白鼠中任取1只,取到“未感染病毒”的小白鼠的概率为5. (1)能否有99.9%的把握认为注射此疫苗有效?(2)在感染病毒的小白鼠中,按未注射疫苗和注射疫苗的比例抽取6只进行病理分析,然后从这6只小白鼠中随机抽取2只对注射疫苗的情况进行核实,求至少有1只为注射过疫苗的概率.附:()()()()()22n ad bc K a b c d a c b d -=++++. ()2P K k ≥0.05 0.025 0.010 0.005 0.001 k3.8415.0246.6357.87910.82819.(2021·全国高三专题练习(文))某研究部门为了研究气温变化与患流感人数多少之间的关系,在某地随机对50人进行了问卷调查得到如下列表:(附22()()()()()n ad bc K a b c d a c b d -=++++)高于22.5C ︒ 不高于22.5C ︒ 合计 患流感2025不患流感15合计50(1)对上述22⨯列联表进行填空,并判断是否有99%的把握认为患流感与温度有关,说明你的理由;(2)为了了解患流感与年龄的关系,已知某地患有流感的老年、中年、青年的人数分别为108人,72人,36人.按分层抽样的方法随机抽取6人进行问卷调查,再从6人中随机抽取2人进行调查结果对比,求这2人中至少一人是中年人的概率.()2>0.10 0.05 0.025 0.01 P K kk 2.701 3.841 5.024 6.63520.(2021·山东德州市·高三一模)2021年春晚首次采用“云”传播,“云”互动形式,实现隔空连线心意相通,全球华人心连心“云团圆”,共享新春氛围,“云课堂”亦是一种真正完全突破时空限制的全方位互动性学习模式.某市随机抽取200人对“云课堂”倡议的了解情况进行了问卷调查,记Y表示了解,N表示不了解,统计结果如下表所示:(表一)了解情况Y N人数140 60(表二)男女合计Y80N40合计(1)请根据所提供的数据,完成上面的22⨯列联表(表二),并判断是否有99%的把握认为对“云课堂”倡议的了解情况与性别有关系;(2)用样本估计总体,将频率视为概率,在男性市民和女性市民中各随机抽取4人,记“4名男性中恰有3人了解云课堂倡议”的概率为1P,“4名女性中恰有3人了解云课堂倡议”的概率为2P .试求出1P 与2P ,并比较1P 与2P 的大小. 附:临界值参考表的参考公式()20p K K ≥0.10 0.05 0.025 0.010 0.005 0.0010K 2.7063.841 5.024 6.635 7.879 10.828()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++) 21.(2021·吉林长春市·高三二模(理))随着互联网行业、传统行业和实体经济的融合不断加深,互联网对社会经济发展的推动效果日益显著,某大型超市计划在不同的线上销售平台开设网店,为确定开设网店的数量,该超市在对网络上相关店铺做了充分的调查后,得到下列信息,如图所示(其中x 表示开设网店数量,y 表示这x 个分店的年销售额总和),现已知55118850,2000i ii i i x yy ====∑∑,求解下列问题;(1)经判断,可利用线性回归模型拟合y 与x 的关系,求解y 关于x 的回归方程; (2)按照经验,超市每年在网上销售获得的总利润w (单位:万元)满足25140w y x =--,请根据(1)中的线性回归方程,估算该超市在网上开设多少分店时,才能使得总利润最大.参考公式;线性回归方程y bx a =+,其中515221,i ii ii x y nx ya y bxb xnx==-=-=-∑∑22.(2021·河南高三月考(文))2020年初,新冠病毒肆虐.疫情期间,停课不停教学,各学校以网课形式进行教学.教育局抽样对某所学校的高三1000名学生某一周每天学习时间以及考试进行了调查,得如下频数分布表 学习时间(分钟) [)7,7.5[)7.5,8[)8,8.5[)8.5,9[)9,9.5[]9.5,10人数160190200180150120从1000名学生中抽取50名学生,调查学习时间与成绩的关系,得如下二阶列联表学习时间9小时以上(含9小时)学习时间9小时以下合计总分600分以上(含600分) 7 3 10 总分600分以下 17 23 40 合计242650(1)求出第一星期这1000名学生学习时间的中位数;(2)为了解学生们的学习状况,一次考试结束,从全年级随机抽取50人根据学习时间的多少和成绩的是否优秀列成以下列联表计算说明:有没有90%的把握认为总分600分以上和学习时间超过9小时有关附公式及表如下:()()()()()22n ad bc K a b c d a c b d -=++++ ()20P K K ≥ 0.150.10 0.05 0.025 0.010 0.005 0.0010k2.0722.7063.841 5.024 6.635 7.879 10.82823.(2021·全国高三专题练习)垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据()(),1,2,,20i i x y i =⋅⋅⋅,其中i x 和i y 分别表示第i 个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得20180i i x ==∑,2014000i i y ==∑,()202180i i x x=-=∑,()20218000ii y y =-=∑,()()201700i ii x xy y =--=∑.(1)请用相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合; (2)求y 关于x 的线性回归方程,用所求回归方程预测该市10万人口的县城年垃圾产生总量约为多少吨?参考公式:相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑,对于一组具有线性相关关系的数据()(),1,2,3,,i i x y i n =⋅⋅⋅,其回归直线y bx a =+的斜率和截距的最小二乘估计分别为()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-.24.(2021·全国高三专题练习(文))随着冬季的到来,是否应该自觉佩戴口罩成为了人们热议的一个话题.为了调查佩戴口罩的态度与性别是否具有相关性,研究人员作出相应调查,并统计数据如表所示: 认为冬季佩戴口罩十分必要 认为冬季佩戴口罩没有必要 男性 300 200 女性150150(1)判断是否有99.9%的把握认为佩戴口罩的态度与性别有关?(2)若按照分层抽样的方法从男性中随机抽取5人,再从这5人中随机抽取2人,求恰有1人认为冬季佩戴口罩十分必要的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:()20P K k0.100 0.050 0.010 0.001k 2.706 3.841 6.635 10.82825.(2021·全国高三专题练习)在新型冠状病毒疫情期间,某高中学校实施线上教学,为了解线上教学的效果,随机抽取了100名学生对线上教学效果进行评分(满分100分),记低于80的评分为“效果一般”,不低于80分为“效果较好”.(1)请补充完整22⨯列联表;通过计算判断,有没有99%的把握认为线上教学效果评分为“效果较好”与性别有关?效果一般效果较好合计男20女1555合计(2)用(1)中列联表的数据估计全校线上教学的效果,用频率估计概率.从该校学生中任意抽取3人,记所抽取的3人中线上教学“效果较好”的人数为X,求X的分布列和数学期望.附表及公式:()2P K k0.150.100.050.0250.010 0k 2.072 2.706 3.841 5.024 6.635其中()()()()()22n ad bcka b c d a c b d-=++++,n a b c d=+++.26.(2021·全国高三专题练习)近年来,我国的电子商务行业发展迅速,与此同时,相关管理部门建立了针对电商的商品和服务评价系统.现从评价系统中选出200次成功的交易,并对其评价进行统计,对商品的好评率为35,对服务的好评率为710;其中对商品和服务均为好评的有80次(1)是否可以在犯错误概率不超过0.1的前提下,认为商品好评与服务好评有关?(2)若将频率视为概率,某人在该购物平台上进行的4次购物中,设对商品和服务全好评的次数为随机变量X:求对商品和服务全好评的次数X的分布列及其期望.()20P K k 0.15 0.10 0.05 0.025 0.010 0.005 0.0010k2.072 2.7063.841 5.024 6.635 7.879 10.82822()()()()()n ad bc K a b c d a c b d -=++++(其中n a b c d =+++)27.(2021·全国高三专题练习)某校高一年级进行安全知识竞赛(满分为100分),所有学生的成绩都不低于75分,从中抽取100名学生的成绩进行分组调研,第一组[)75,80,第二组[)80,85,,第五组[]95,100(单位:分),得到如下的频率分布直方图.(1)若竞赛成绩不低于85分为优秀,低于85分为非优秀,且成绩优秀的男学生人数为35,成绩非优秀的女学生人数为25,请判断是否有95%的把握认为竞赛成绩的优秀情况与性别有关;(2)用分层抽样方法,在成绩不低于85的学生中抽取6人,再从这6人中随机选3人发言谈体会,设这3人中成绩在[)85,90的人数为ξ,求ξ的分布列与数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.临界值表:()20P K k ≥ 0.10 0.05 0.025 0.01 0.0050k2.7063.841 5.024 6.635 7.87928.(2021·全国高三专题练习)支付宝为人们的生活带来许多便利,为了了解支付宝在某市的使用情况,某公司随机抽取了100名支付宝用户进行调查,得到如下数据: 每周使用支付宝次数 1 2 3 4 5 6及以上 40岁及以下人数 3 3 4 8 7 30 40岁以上人数 4 5 6 6 4 20 合计7810141150(1)如果认为每周使用支付宝超过3次的用户“喜欢使用支付宝”,完成下面22⨯列联表,并判断能否在犯错误概率不超过0.05的前提下,认为是否“喜欢使用支付宝”与年龄有关?不喜欢使用支付宝 喜欢使用支付宝 合计 40岁及以下人数 40岁以上人数 合计(2)每周使用支付宝6次及以上的用户称为“支付宝达人”,视频率为概率,在该市所有“支付宝达人”中,随机抽取3名用户.①求抽取的3名用户中,既有40岁及以下“支付宝达人”又有40岁以上“支付宝达人”的概率;②为了鼓励40岁以上用户使用支付宝,对抽出的40岁以上“支付宝达人”每人奖励500元,记奖励总金额为X (单位:元),求X 的数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥ 0.15 0.10 0.05 0.025 0.010 0.005 0.0010k2.0722.7063.841 5.024 6.635 7.879 10.82829.(2021·全国高三专题练习)2019年4月,江苏省发布了高考综合改革实施方案,试行“312++”高考新模式.为调研新高考模式下,某校学生选择物理或历史与性别是否有。
2023届高考数学专项(统计与统计案例)历年经典真题、模拟题练习(附答案)
s2 =
s=√0.029 6=0.02 √74 0.17.
^
二乘估计分别为:
∑ ( -)( -)
1
∑ ( -)2
1
^
,
^
.
^ ^
x+ 的斜率和截距的最小
答案解析
1.解 (1)根据产值增长率频数分布表得,所调查的 100 个企业中产值增长率不低于 40%的
14 7
=0.21.
100
企业频率为
2
=0.02.
100
2023 届高考数学专项(统计与统计案例)历年经典
真题、模拟题练习
1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了 100 个企业,得到这些企业第一季
度相对于前一年第一季度产值增长率 y 的频数分布表.
y 的 [[0.20, [0.40, [0.60,
[0,0.20)
0.40) 0.60) 0.80)
参考公式:样本相关系数 r=
∑ (xi -x)(yi -y)
∑ -
1
n
2
∑ ( -)
i 1
1
2
∑ ( -)
1
∑
1
2
2 -
;
2
∑ 2 -
1
^
对于一组具有线性相关关系的数据(xi,yi)(i=1,2,…,n),其经验回归直线
1
∑ -
1
∑ 2 -
2
^
,
^
.
1
4.(历年ꞏ山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄
新高考数学(理科)总复习—第九章统计、统计案例
第九章统计、统计案例43.统计1.(2016·山东)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56B.60C.120D.1402.(2016·江苏)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是________.3.(2016·北京)某市民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费,从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替,当w=3时,估计该市居民该月的人均水费.4.(2016·四川)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5)分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.5.(2016·全国Ⅰ)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图.记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单位:元),n表示购机的同时购买的易损零件数.(1)若n=19,求y与x的函数解析式;(2)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?考点1随机抽样1.(2015·北京)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为()A.90B.100D.3002.(2014·湖南)对一个容量为N 的总体抽取容量为n 的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p 1,p 2,p 3,则( ) A.p 1=p 2<p 3 B.p 2=p 3<p 1 C.p 1=p 3<p 2D.p 1=p 2=p 33.(2015·湖南)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示 13 14 150 0 3 4 5 6 6 8 8 8 91 1 12 2 23 34 45 5 56 678 0 1 2 2 3 3 3若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________. 考点2 用样本估计总体4.(2015·陕西)某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为( )A.167B.137C.123D.935.(2015·安徽)若样本数据x 1,x 2,…,x 10的标准差为8,则数据2x 1-1,2x 2-1,…,2x 10-1的标准差为( ) A.8B.15C.16D.326.(2014·广东)已知某地区中小学生人数和近视情况分别如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )图1图2A.200,20B.100,20C.200,10D.100,107.(2014·陕西)设样本数据x1,x2,…,x10的均值和方差分别为1和4,若y i=x i+a(a为非零常数,i=1,2,…,10),则y1,y2,…,y10的均值和方差分别为()A.1+a,4B.1+a,4+aC.1,4D.1,4+a8.(2014·江苏)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100 cm.考点3变量的相关性9.(2015·新课标全国Ⅰ)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)柱形图.以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关10.(2015·福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y=b x+a,其中b=0.76,a=y-b x.据此估计,该社区一户年收入为15万元家庭的年支出为()A.11.4万元B.11.8万元C.12.0万元D.12.2万元11.(2014·重庆)已知变量x 与y 正相关,且由观测数据算得样本平均数x -=3,y -=3.5,则由该观测数据算得的线性回归方程可能是( ) A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.412.(2014·湖北)根据如下样本数据:得到的回归方程为y ^=bx +a ,则( ) A.a >0,b >0 B.a >0,b <0 C.a <0,b >0D.a <0,b <01.(丰台区2015届高三上学期期末)高二年级某研究性学习小组为了了解本校高一学生课外阅读状况,分成了两个调查小组分别对高一学生进行抽样调查,假设这两组同学抽取的样本容量相同且抽样方法合理,则下列结论正确的是 ( ) A.两组同学制作的样本频率分布直方图一定相同 B.两组同学的样本平均数一定相等 C.两组同学的样本标准差一定相等D.该校高一年级每位同学被抽到的可能性一定相同 2.(2016·湖南衡阳二模)右侧茎叶图记录了甲,乙两组各四名同学的植树棵数,分别从甲、乙两组中随机选取一名同学,则这两名同学的植树总棵数为20棵的概率是________.3.(2016·湖北七校联考)以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分)已知甲组数据的中位数为15y 的值分别为( ) A.2,5B.5,5C.5,8D.8,84.(2015·安徽宿州模拟)某种商品的广告费支出x 与销售额y (单位:万元)之间有如下对应数据,根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为y ^=6.5x +17.5,则表中的m 的值为( )A.45B.50 5.(2015·山东泰安一模)根据如下样本数据得到的回归方程为y ^=bx +a .若a =7.9,则x 每增加1个单位,y 就( ) A.增加1.4个单位 B.减少1.4个单位 C.增加1.2个单位D.减少1.2个单位6.(2015·安徽江南十校模拟)将甲、乙两名篮球运动员在5场篮球比赛中的得分制成茎叶图如图所示,若x -甲,x -乙分别表示甲、乙两名运动员5场比赛的平均得分,则下列结论正确的是( )A.x -甲>x -乙,且甲队员比乙队员成绩稳定B.x -甲>x -乙,且乙队员比甲队员成绩稳定C.x -甲<x -乙,且甲队员比乙队员成绩稳定D.x -甲<x -乙,且乙队员比甲队员成绩稳定7.(2016·重庆模拟)据我国西部各省(区,市)2013年人均地区生产总值(单位:千元)绘制的频率分布直方图如图所示,则人均地区生产总值在区间[28,38)上的频率是( )A.0.3B.0.4C.0.5D.0.78.(2016·陕西西安一模)采用系统抽样方法从1 000人中抽取50人做问卷调查,为此将他们随机编号为1,2,…,1 000,适当分组后在第一组采用简单随机抽样的方法抽到的号码为8.抽到的50人中,编号落入区间[1,400]的人做问卷A ,编号落入区间[401,750]的人做问卷B ,其余的人做问卷C ,则抽到的人中,做问卷C的人数为()A.12B.13C.14D.159.(2016.山东青岛一模)已知数据x1,x2,x3,...,x50,500(单位:公斤),其中x1,x2,x3, (x50)是某班50个学生的体重,设这50个学生体重的平均数为x,中位数为y,则x1,x2,x3, (x50)500这51个数据的平均数、中位数分别与x、y比较,下列说法正确的是()A.平均数增大,中位数一定变大B.平均数增大,中位数可能不变C.平均数可能不变,中位数可能不变D.平均数可能不变,中位数可能变小10.(2016·山东济宁一模)如图是某学校抽取的学生体重的频率分布直方图,已知图中从左到右的前3个小组的频率依次成等差数列,第2小组的频数为10,则抽取的学生人数为________.11.(2016·山东实验中学模拟)在某次测量中得到的A样本数据如下:582,584,584,586,586,586,588,588,588,588.若B样本数据恰好是A样本数据都加20后所得数据,则A,B两样本的下列数字特征对应相同的是()A.众数B.平均数C.中位数D.标准差12.(2015·淄博模拟)某数学兴趣小组的学生全部参加了“代数”和“几何”两个科目的考试,成绩分为A、B、C、D、E五个等级,成绩数据统计如下图所示,其中“代数”科目的成绩为B的考生有20人.(1)求该小组同学中“几何”科目成绩为A的人数;(2)若等级A、B、C、D、E分别对应5分,4分,3分,2分,1分,求该小组考生“代数”科目的平均分;(3)已知参加本次考试的同学中,恰有4人的两科成绩均为A,在至少一科成绩为A的考生中,随机抽取两人进行座谈交流,求这两人的两科成绩均为A的概率.13.(2016·山西阳泉模拟)某机械厂今年进行了五次技能考核,其中甲、乙两名技术骨干得分的平均分相等,成绩统计情况如茎叶图所示(其中a 是0~9的某个整数)(1)若该厂决定从甲乙两人中选派一人去参加技能培训,从成绩稳定性角度考虑,你认为谁去比较合适?(2)若从甲的成绩中任取两次成绩作进一步分析,在抽取的两次成绩中,求至少有一次成绩在(90,100]之间的概率.44.统计案例(2016·全国Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据:7719.32,40.17,ii i i yt y ===∑∑i=12.646=≈,()()niit t y y --∑回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=121()(),.()nii inii tt y y a y bt tt ==--=--∑∑表中w i =x i ,w -=18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=121()(),.()niii nii u u v v a v u u u β==--=--∑∑3.(2014·安徽)某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法.收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )1.(2015·广东潮州模拟)已知回归直线的斜率的估计值是1.23,样本中心点为(4,5),若解释变量的值为10,则预报变量的值约为( ) A.16.3B.17.3C.12.38D.2.032.(2015·广东东莞模拟)对两个变量y 和x 进行回归分析,得到一组样本数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则不正确的说法是( )A.若求得的回归方程为y ^=0.9x -0.3,则变量y 和x 之间具有正的线性相关关系B.若这组样本数据分别是(1,1),(2,1.5),(4,3),(5,4.5),则其回归方程y ^=bx +a 必过点(3,2.5) C.若同学甲根据这组数据得到的回归模型1的残差平方和为E 1=0.8.同学乙根据这组数据得到的回归模型2的残差平方和为E 2=2.1,则模型1的拟合效果更好D.若用相关指数R 2(R 2=1-2121()()niii nii y y y y ==--∑∑)来刻画回归效果,回归模型3的相关指数R 23=0.32,回归模型4的相关指数R 24=0.91,则模型3的拟合效果更好3.(2016·山东菏泽一模)下列四个判断:①某校高三(1)班的人数和高三(2)班的人数分别是m 和n ,某次数学测试平均分分别是a ,b ,则这两个班的数学平均分为a +b2;②从总体中抽取的样本(1,2.5)(2,3.1)(4,3.9)(5,4.4),则回归直线y =bx +a 必过点(3,3.6);③已知ξ服从正态分布N (1,22),且p (-1≤ξ≤1)=0.3,则p (ξ>3)=0.2其中正确的个数有( ) A.0个B.1个C.2个 D.3个4.(2016·陕西汉中)在测量某物理量的过程中,因仪器和观察的误差,使得n 次测量分别得到a 1,a 2,…,a n 共n 个数据,我们规定所测物理量的“最佳近似值”a 是这样一个量:与其他近似值比较,a 与各数据差的平方和最小.依此规定,用a 1,a 2,…,a n 表示出a 的表达式为:a =________.5.(2015·潍坊模拟)春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”6.(2016·河南郑州模拟)为了解人们对于国家新颁布的“生育二胎放开”政策的热度,现在某市进行调查,随机调查了50人,他们年龄频数分布及支持“生育二胎”人数如下表:(1)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为以45岁为分界点对“生育二胎放开”政策的支持度有差异:(2)育二胎”人数为ξ,求随机变量ξ的分布列及数学期望. 参考数据:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )7.(2016·湖北黄冈八校模拟)某中学为研究学生的身体素质与课外体育锻炼时间的关系,对该校200名高三学生的课外体育锻炼平均每天运动的时间进行调查,如下表:(平均每天锻炼的时间单位:分钟)(1)请根据上述表格中的统计数据填写下面2×2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“课外体育达标”与性别有关?(2)3名学生中的“课外体育达标”学生人数为X ,若每次抽取的结果是相互独立的,求X 的数学期望和方差.参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:8.(2016·广西柳州模拟)CCTV财经频道曾报道了某地建筑市场存在违规使用未经淡化海砂的现象,为了研究使用淡化海砂与混凝土耐久性是否达标有关,某大学实验室随机抽取了60个样本,得到了相关数据如下表:(1)1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关?(2)若用分层抽样的方法在使用淡化海砂的样本中抽取了6个,现从这6个样本中任取2个,记不达标的个数为X,求X的分布列和数学期望.参考数据:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d).第九章 统计、统计案例43.统 计【三年高考真题演练】 [2016年高考真题]1.D [设所求人数为N ,则N =2.5×(0.16+0.08+0.04)×200=140,故选D.]2.0.1 [x -=4.7+4.8+5.1+5.4+5.55=5.1,则方差s 2=15[(4.7-5.1)2+(4.8-5.1)2+(5.1-5.1)2+(5.4-5.1)2+(5.5-5.1)2]=0.1.]3.解 (1)如题图所示,用水量在[0.5,3)的频率的和为:(0.2+0.3+0.4+0.5+0.3)×0.5=0.85. ∴用水量小于等于3立方米的频率为0.85,又w 为整数,∴为使80%以上的居民在该月的用水价格为4元/立方米,w 至少定为3. (2)当w =3时,该市居民该月的人均水费估计为:(0.1×1+0.15×1.5+0.2×2+0.25×2.5+0.15×3)×4+0.15×3×4+[0.05×(3.5-3)+0.05×(4-3)+0.05×(4.5-3)]×10=7.2+1.8+1.5=10.5(元). 即该市居民该月的人均水费估计为10.5元.4.解 (1)由频率分布直方图知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5)中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.由0.04+0.08+0.5×a +0.20+0.26+0.5×a +0.06+0.04+0.02=1,解得a =0.30. (2)由(1),100位居民每人月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85.所以2.5≤x <3.由0.3×(x -2.5)=0.85-0.73,解得x =2.9.所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准. 5.解 (1)当x ≤19时,y =3 800;当x >19时,y =3 800+500(x -19)=500x -5 700. 所以y 与x 的函数解析式为y =⎩⎪⎨⎪⎧3 800,x ≤19,500x -5 700,x >19,(x ∈N ). (2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n 的最小值为19.(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3 800,20台的费用为4 300,10台的费用为4 800,因此这100台机器在购买易损零件上所需费用的平均数为1100(3 800×70+4 300×20+4 800×10)=4 000, 若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4 000,10台的费用为4 500,因此这100台机器在购买易损零件上所需费用的平均数为 1100(4 000×90+4 500×10)=4 050. 比较两个平均数可知,购买1台机器的同时应购买19个易损零件. [两年经典高考真题]1.C [由题意抽样比为3201 600=15,∴该样本的老年教师人数为900×15=180(人).]2.D [由随机抽样的原则可知简单随机抽样、分层抽样、系统抽样都必须满足每个个体被抽到的概率相等,即p 1=p 2=p 3,故选D.]3.4 [由题意知,将1~35号分成7组,每组5名运动员,落在区间[139,151]的运动员共有4组,故由系统抽样法知,共抽取4名.]4.B [由题干扇形统计图可得该校女教师人数为:110×70%+150×(1-60%)=137.故选B.]5.C [法一 由题意知,x 1+x 2+…+x 10=10x -, s 1=110[(x 1-x -)2+(x 2-x -)2+…+(x 10-x -)2], 则y -=1n[(2x 1-1)+(2x 2-1)+…+(2x 10-1)]=1n[2(x 1+x 2+…+x 10)-n ]=2x --1, 所以S 2=110[(2x 1-1-y -)2+(2x 2-1-y -)2+…+(2x 10-1-y -)2] =410[(x 1-x -)2+(x 2-x -)2+…+(x 10-x -)2]=2s 1,故选C. 法二 由方差的性质可得.]6.A [由题图1知该地区中小学生的总人数为2 000+4 500+3 500=10 000,因此样本容量为10 000×2%=200.又高中生人数为2 000,所以应抽取的高中生人数为2 000×2%=40.由题图2知高中生的近视率为50%,所以抽取的高中生近视人数为40×50%=20.故选A.]7.A [y -=x 1+a +x 2+a +x 3+a +…+x 10+a 10=10x -+10a 10=x -+a =1+a .s 2=[x 1+a -(1+a )]2+[x 2+a -(1+a )]2+…+[x 10+a -(1+a )]2=(x 1-1)2+(x 2-1)2+…+(x 10-1)210=4.]8.24 [由题意,在抽测的60株树木中,底部周长小于100 cm 的株数为(0.015+0.025)×10×60=24.]9.D [从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A 选项正确;2007年二氧化硫排放量较2006年降低了很多,B 选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,即C 选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,D 选项错误,故选D.]10.B [回归直线一定过样本点中心(10,8),∵b =0.76,∴a =0.4,由y =0.76x +0.4得当x =15万元时,y =11.8万元.故选B.]11.A [由变量x 与y 正相关知C 、D 均错,又回归直线经过样本中心(3,3.5),代入验证得A 正确,B 错误.故选A.]12.B [由样本数据可知y 值总体上是随x 值的增大而减少的.故b <0,又回归直线过第一象限,故纵截距a >0.故选B.] 【两年模拟试题精练】1.D [∵两组同学抽取的样本容量相同且抽样方法合理, ∴每一个个体被抽到的概率都为样本容量总体个数,∴该校高一年级每位同学被抽到的可能性一定相同,故选D.]2.14[记甲组四名同学为A 1,A 2,A 3,A 4,他们植树的棵树依次为9,9,11,11;乙组四名同学为B 1,B 2,B 3,B 4,他们植树的棵树依次为9,8,9,10,分别从甲,乙两组中随机选取一名同学,所有可能的结果有16个,它们是(A 1,B 1)(A 1,B 2)(A 1,B 3)(A 1,B 4)(A 2,B 1)(A 2,B 2)(A 2,B 3)(A 2,B 4)(A 3,B 1)(A 3,B 2)(A 3,B 3)(A 3,B 4)(A 4,B 1)(A 4,B 2)(A 4,B 3)(A 4,B 4).设选出的两名同学的植树总棵数为20为事件C ,则C 中的结果为4个,它们是(A 3,B 1)(A 4,B 1)(A 3,B 3)(A 4,B 3),故所求概率为P (C )=14.]3.C [∵甲组数据的中位数为15,∴x =5,∵乙组数据的平均数为16.8,∴9+15+10+y +18+24=16.8×5,∴y =8,故选C.]4.B [因为线性回归方程为y ^=6.5x +17.5恒过样本中心点,而x -=5,∴y -=50,则m =50,故选B.]5.B [因为回归方程为y -=bx +a 恒过样本中心点(5,0.9),所以b =-1.4,则x 每增加一个单位,y 就减少1.4个单位,故选B.] 6.B [根据茎叶图,知:甲的平均成绩为x -甲=14+25+26+30+335=25.6乙的平均成绩为 x -乙=16+20+22+24+315=22.6甲的方差为s 2甲=15×[(14-25.6)2+(25-25.6)2+(26-25.6)2+(30-25.6)2+(33-25.6)2]=41.84,乙的方差为s 2乙=15[(16-22.6)2+(20-22.6)2+(22-22.6)2+(24-22.6)2+(31-22.6)2]=24.64;∴x -甲>x -乙,s 2甲>s 2乙 ,即甲运动员比乙运动员平均得分高,乙队员比甲队员成绩稳定.] 7.A [依题意,由图可估计人均地区生产总值在区间[28,38)上的频率是1-(0.08+0.06)×5=0.3,选A.]8.A [1 000÷50=20,故由题意可得抽到的号码构成以8为首项,以20为公差的等差数列,且此等差数列的通项公式为a n =8+(n -1)×20=20n -12.由751≤20n -12≤1 000,解得38.15≤n ≤50.6.再由n 为正整数可得39≤n ≤50,且n ∈Z ,故做问卷C 的人数为12.故应选A.]9.B [由题意,数据x 1,x 2,x 3,…,x 50,是某班50个学生的体重,其平均数应在50公斤左右,再增加一个数据500,这51个数据的平均数一定增大,而中位数有可能不变,故选B.]10.40 [前3个小组的频率和为1-(0.037 5+0.012 5)×5=0.75,所以第2小组的频率为13×0.75=0.25,所以抽取的人数为:100.25=40.] 11.D [由标准差的定义及计算公式可知,原数据统一加上或减去一个数后,标准差不变,故选D.] 12.解 (1)因为“代数”科目中成绩等级为B 的考生有20人. 所以该小组有20÷0.25=80(人).所以该小组同学中“几何”科目成绩等级为A 的人数为 80×(1-0.375-0.375-0.15-0.025)=80×0.075=6人. (2)该考场考生“代数”科目的平均分为1×0.2+2×0.1+3×0.375+4×0.25+5×0.075=2.9.(3)因为两科考试中,共有12人次得分等级为A.又恰有4人的两科成绩等级均为A. 所以还有4人有且只有一个科目得分为A.设得到成绩等级为A 的这8人编号为1~8号,其中1~4号是两科成绩等级都是A 的同学,则在至少一科成绩等级为A 的考生中,随机抽取两人进行访谈,构成的所有基本事件有:{1,2},{1,3},{1,4},{1,5},{1,6},{1,7},{1,8},{2,3},{2,4},{2,5},{2,6},{2,7},{2,8},{3,4},{3,5},{3,6},{3,7},{3,8},{4,5},{4,6},{4,7},{4,8},{5,6},{5,7},{5,8},{6,7},{6,8},{7,8},共有28个基本事件. 由于被选到的机会均等,因此这些基本事件的出现是等可能的.记事件B “随机抽取两人进行座谈交流,这两人的两科成绩等级均为A ”.所以事件B 中包含的基本事件有{1,2},{1,3},{1,4},{2,3},{2,4},{3,4},共6个.则P (B )=628=314. 13.解 (1)由已知中的茎叶图可得:甲的平均分为:15 (88+89+90+91+92)=90,由甲、乙两名技术骨干得分的平均分相等,故乙的平均分:15(84+88+89+90+a +96)=90,解得:a =3.则S 2甲=15[(88-90)2+(89-90)2+(90-90)2+(91-90)2+(92-90)2]=2, S 2乙=15[(84-90)2+(88-90)2+(89-90)2+(93-90)2+(96-90)2]=17.2. ∵甲、乙两名技术骨干得分的平均分相等,但S 2乙>S 2甲,∴从成绩稳定性角度考虑,我认为甲去比较合适,(2)若从甲的成绩中任取两次成绩作进一步分析,共有C 25=10种不同抽取方法,其中至少有一次成绩在(90,100]之间有:C 13·C 12+C 22=7种方法,故至少有一次成绩在(90,100]之间的概率P =710.44.统计案例【三年高考真题演练】 [2016年高考真题]解 (1)由折线图中数据和附注中参考数据得t -=4,721()0.55.i i t t =-==∑777111()()ii i i i i i i tt y y t y t y ===--=-∑∑∑=40.17-4×9.32=2.89,r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y -=9.327≈1.331及(1)得b ^=71721()()()ii i ii tt y y tt ==---∑∑=2.8928≈0.103, a ^=y --b ^t -≈1.331-0.103×4≈0.92. 所以y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. [两年经典高考真题]1.D [根据χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),代入题中数据计算得D 选项χ2最大.故选D.]2.解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=81821()()()iii ii w w y y w w ==----∑∑=108.81.6=68, c ^=y --d ^w -=563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6, 年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 3.解 (1)300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的.所以每周平均体育运动时间与性别列联表如下:结合列联表可算得K 2=300×2 25075×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 【两年模拟试题精练】1.C [设线性回归方程为y =1.23x +a ,因为样本中心点为(4,5),所以a =0.08,故当x =10时,y =12.38,故选C .]2.D [相关指数R 2越接近于1拟合效果越好,故选D.]3.B [①中两班的数学平均分为am +bnm +n,故①不正确;②x -=3,y -=3.5,由回归直线y =bx +a 必过点(3,3.5),故不正确;、③随机变量ξ~N (1,22),所以对称轴为x =1,因为p (-1≤ξ≤1)=0.3,所以p (ξ>3)=p (ξ<-1)=0.5-0.3=0.2,正确,故选B.]4.a 1+a 2+…+a n n [因为所测量的“最佳近似值”a 是与其他近似值比较,a 与各数据的差的平方和最小,根据均值不等式求平方和的最小值知这些数的底数要尽可能的接近,所以a 是所有数字的平均数,所以a =a 1+a 2+…+a nn.]5.C [K 2=100×(45×15-30×10.)2(45+10.)×(30+15.)×.(45+30.)×.(10+15.)=100×375×37555×45×75×25=10033≈3.030>2.706.所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.]6.解 (1)2×2列联表K 2=(3+7)(29+11)(3+29)(7+11)≈6.27<6.635,所以没有99%的把握认为以45岁为分界点对“生育二胎放开”政策的支持度有差异. (2)ξ所有可能取值有0,1,2,3, P (ξ=0)=C 24C 25·C 28C 210=610×2845=84225,P (ξ=1)=C 14C 25×C 28C 210+C 24C 25×C 18C 12C 210=410×2845+610×1645=104225,P (ξ=2)=C 14C 25×C 18C 12C 210+C 24C 25×C 22C 210=410×1645+610×145=35225,P (ξ=3)=C 14C 25·C 22C 210=410×145=2225,所以ξ的分布列是:所以ξ的期望值是Eξ=0+104225+70225+6225=45.7.解 (1)K 2=200×(60×20-30×90)150×50×90×110=20033≈6.060<6.635,所以在犯错误的概率不超过0.01的前提下不能判断“课外体育达标”与性别有关. (2)由表中数据可得,抽到“课外体育达标”学生的频率为0.25,将频率视为概率, ∴X ~B ⎝⎛⎭⎫3,14, ∴E (X )=3×14=34,D (X )=3×14×34=916.8.解 (1)m =15,n =5.假设:是否使用淡化海砂与混凝土耐久性是否达标无关,由已知数据可求得: K 2=60×(25×15-15×5)230×30×40×20≈7.5>6.635,因此,能在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关. (2)用分层抽样的方法在使用淡化海砂的样本中抽取了6个,其中应抽取“混凝土耐久性达标”的为2530×6=5,“混凝土耐久性不达标”的为1. 由题知,X 的取值为0,1.P (X =0)=C 25C 26=23,P (X =1)=C 11C 15C 26=13.所以X 的分布列为所以E (X )=0×23+1×13=13.。
高三复习数学62_统计案例 (2)(有答案)
6.2 统计案例一、选择题1. 对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则()A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p32. 某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示.以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是()A.B.C.D.3. 设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2…,n),用最小二乘法建立的回归方程为ŷ=0.85x−85.71,则下列结论中不正确的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x¯,y¯)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重比为58.79kg4. 已知某地区中小学生人数和近视情况分别如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为()A.200,20B.100,20C.200,10D.100,105. 某公司10位员工的月工资(单位:千元)为x1,x2,…,x10,其均值和方差分别为x¯和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为()A.x¯,s2+1002B.x¯+100,s2+1002C.x¯,s2D.x¯+100,s26. 下图是根据部分城市某年6月份的平均气温(单位:∘C)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5],样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5∘C的城市个数为11,则样本中平均气温不低于25.5∘C的城市个数为()A.3B.6C.9D.12二、填空题某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4:5:5:6,则应从一年级本科生中抽取________名学生.由正整数组成的一组数据x1,x2,x3,x4,其平均数和中位数都是2,且标准差等于1,则这组数据为________.(从小到大排列)(2018年高考数学全国卷1文科)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半 三、解答题海关对同时从A ,B ,C 三个不同地区进口的某种商品进行抽样检测,从各地区进口此种商品的数量(单位:件)如表所示.工作人员用分层抽样的方法从这些商品中共抽取6件样品进行检测.求这6件样品中来自A ,B ,C 各地区商品的数量;若在这6件样品中随机抽取2件送往甲机构进行进一步检测,求这2件商品来自相同地区的概率.某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:(a, b),(a, b ¯),(a, b),(a ¯, b),(a ¯, b ¯),(a, b),(a, b),(a, b ¯),(a ¯, b),(a, b ¯),(a ¯, b ¯),(a, b),(a, b ¯),(a ¯,b),(a,b)其中a,a ¯分别表示甲组研发成功和失败;b,b ¯分别表示乙组研发成功和失败. 若某组成功研发一种新产品,则给该组记1分,否则记0分.试计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平;若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i(单位:千元)的数据资料,算得∑x i 10i=1=80,∑x i 10y=1=20,∑x i 10i=1y i =184,∑x i 210i=1=720.求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ;判断变量x 与y 之间是正相关还是负相关;若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. 附:线性回归方程y =bx +a 中,b =∑x i n i=1y i −nx ¯ y¯∑x i 2n i=1−nx¯2,a =y ¯−bx ¯,其中x ¯,y ¯为样本平均值,线性回归方程也可写为y ̂=b ̂x +a ̂.参考答案与试题解析6.2 统计案例一、选择题 1.【答案】 D【考点】 分层抽样方法 【解析】 此题暂无解析 【解答】 略 2.【答案】 A【考点】频率分布直方图 【解析】 此题暂无解析 【解答】 略 3. 【答案】 D【考点】求解线性回归方程 【解析】 此题暂无解析 【解答】由回归方程为y ̂=0.85x −85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知y ̂=b ̂x +a ̂=b ̂x +y ¯−b ̂x ¯(a ̂=y ¯−b ̂x ¯),所以回归直线过样本点的中心(x ¯,y ¯),利用回归方程可以预测估计总体,所以D 不正确. 4.【答案】A【考点】 分层抽样方法 【解析】 此题暂无解析 【解答】 略 5.【答案】D【考点】极差、方差与标准差【解析】此题暂无解析【解答】略6.【答案】C【考点】频率分布直方图【解析】此题暂无解析【解答】最左边两个矩形面积之和为0.10×1+0.12×1=0.22,总城市数为11÷0.22=50,最右面矩形面积为0.18×1=0.18,50×0.18=9.二、填空题【答案】60【考点】分层抽样方法【解析】此题暂无解析【解答】略【答案】1,1,3,3【考点】极差、方差与标准差【解析】此题暂无解析【解答】不妨设x1≤x2≤x3≤x4,x1,x2,x3,x4∈N∗,依题意得x1+x2+x3+x4=8,[(x1−2)2+(x2−2)2+(x3−2)2+(x4−2)2]=1,s=√14即(x1−2)2+(x2−2)2+(x3−2)2+(x4−2)2=4,所以x4≤3,则只能x1=x2= 1,x3=x4=3,则这组数据为1,1,3,3.【答案】A【考点】列举法计算基本事件数及事件发生的概率变量间的相关关系【解析】此题暂无解析【解答】略三、解答题 【答案】 1,3,2 415【考点】 分层抽样方法 【解析】 此题暂无解析 【解答】因为样本容量与总体中的个体数的比是650+150+100=150,所以样本中包含三个地区的个体数量分别是:50×150=1,150×150=3,100×150=2.所以A ,B ,C 三个地区的商品被选取的件数分别是1,3,2.设6件来自A ,B ,C 三个地区的样品分别为:A;B 1,B 2,B 3;C 1,C 2.则抽取的这2件商品构成的所有基本事件为:{A,B 1},{A,B 2},{A,B 3},{A,C 1},{A,C 2},{B 1,B 2},{B 1,B 3},{B 1,C 1},{B 1,C 2},{B 2,B 3},{B 2,C 1},{B 2,C 2},{B 3,C 1},{B 3,C 2},{C 1,C 2},共15个. 每个样品被抽到的机会均等,因此这些基本事件的出现是等可能的. 记事件D 为“抽取的这2件商品来自相同地区”,则事件D 包含的基本事件有{B 1,B 2},{B 1,B 3},{B 2,B 3},{C 1,C 2},共4个. 所以P (D )=415,即这2件商品来自相同地区的概率为415.或所求P =C 32+C 22C 62=415.【答案】甲组的研发水平优于乙组 715【考点】列举法计算基本事件数及事件发生的概率 【解析】 此题暂无解析 【解答】甲组研发新产品的成绩为1,1,1,0,0,1,1,1,0,1,0,1,1,0,1, 其平均数为x 甲=1015=23,方差为s 2=115[(1−23)2×10+(0−23)2×5]=29.乙组研发新产品的成绩为1,0,1,1,0,1,1,0,1,0,0,1,0,1,1, 其平均数为x 乙=915=35,方差为s 2=115[(1−35)2×9+(0−35)2×6]=625.因为x 甲>x 乙,s 甲2<s 乙2,所以甲组的研发水平优于乙组.记E ={恰有一组研发成功}.在所抽得的15个结果中,恰有一组研发成功的结果是(a,b)(a,b ),(a,b ),(a,b ),(a,b ),(a,b ),(a,b ),共7个,故事件E 发生的频率为715.将频率视为概率,即得所求概率为P (E )=715. 【答案】y =0.3x −0.4 正相关 1.7【考点】求解线性回归方程 【解析】 此题暂无解析 【解答】由题意知n =10,x ¯=1n ∑x i n i=1=8010=8,y ¯=1n∑y i n i=1=2010=2,又l xx =∑x i 2n i=1−nx ¯2=720−10×82=80,l xy =∑x i n i=1y i −nx ¯ y ¯=184−10×8×2=24, 由此知b =l xylxx=2480=0.3,a =y ¯−bx ¯=2−0.3×8=−0.4.故所求回归方程为y =0.3x −0.4.由于变量y 的值随x 的值增加而增加b =0.3>0,故x 与y 之间是正相关. 将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7−0.4=1.7.。
高考数学一轮复习 专题10.2 统计与统计案例(练)
专题10.2 统计与统计案例1.在一段时间内有2000辆车通过高速公路上的某处,现随机抽取其中的200辆进行车速统计,统计结果如下面的频率分布直方图所示.若该处高速公路规定正常行驶速度为90km/h ~120km/h ,试估计2000辆车中,在这段时间内以正常速度通过该处的汽车约有________辆.【答案】1700【解析】2000(0.0350.030.02)101700⨯++⨯=2.为了解一批灯泡(共5000只)的使用寿命,从中随机抽取了100只进行测试,其使用寿命(单位:h )如下表:使用寿命 [)500,700 [)700,900 [)900,1100 [)1100,1300 []1300,1500只数52344253根据该样本的频数分布,估计该批灯泡使用寿命不低于1100h 的灯泡只数是 ▲ . 【答案】1700 【解析】由题意得:25350001700100+⨯= 3.如图所示,一家面包销售店根据以往某种面包的销售记录,绘制了日销售量的频率分布直方图.若一个月以30天计算,估计这家面包店一个月内日销售量不少于150个的天数为▲________.【解析】950)002.0004.0(30=⨯+⨯4.一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图(如图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10000人中再用分层抽样方法抽出100人作进一步调查,则月收入在[2500,3000)范围内的应抽出 ▲ 人.【答案】25【解析】由题意得:0.000550010025⨯⨯=5.甲、乙两位选手参加射击选拔赛,其中连续5轮比赛的成绩(单位:环)如下表:则甲、乙两位选手中成绩最稳定的选手的方差是 ▲ .【答案】0.02【解析】甲、乙两位选手5轮比赛的成绩的平均数皆为10,方差分别为222221[0.20.10.100.2]0.025S =++++=甲,2222321[0.60.30.80.30.2]0.025S =++++>乙,因此甲、乙两位选手中成绩最稳定的选手为甲,其方差是0.026.某校有教师200人,男学生1200人,女学生1000人,现用分层抽样的方法从所有教师中抽取一个容量为n 的样本;已知从女学生中抽取的人数为80人,则n 的值为 . 【答案】196 【解析】由题意知,80,196.200120010001000n n ==++7.某校选修乒乓球课程的学生中,高一年级有30名,高二年级有40名.现用分层抽样的方法在这70名学生中抽取一个样本,已知在高一年级的学生中抽取了6名,则在高二年级的学生中应抽取的人数为 .0.0005300035000.00030.0004200015000.00020.0001400025001000月收入(元)频率/组距(第6题)【解析】∵630=15,∴在高二年级学生中应抽取的人数为40×15=8.8.已知一组正数x 1,x 2,x 3,x 4的方差s 2=14(x 12+x 22+x 32+x 42-16),则数据x 1+2,x 2+2,x 3+2,x 4+2的平均数为 . 【答案】49.某公司10位员工的月工资(单位:元)为1x ,2x ,…,10x ,其均值和方差分别为x 和2s ,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为 . 【答案】100x +,2s【解析】由题得:12101010x x x x x +++=⨯=L ;222221210()()()1010x x x x x x s s -+-++-=⨯=L 若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为: 均值1210(100)(100)(100)10x x x y ++++⋅⋅⋅++=12101210(100)(100)(100)()101001010100100101010x x x x x x x x ++++⋅⋅⋅++++⋅⋅⋅++⨯+⨯====+方差2221210[(100)(100)][(100)(100)][(100)(100)]10x x x x x x +-+++-++⋅⋅⋅++-+=222221210()()()101010x x x x x x s s -+-++-===L10.某中学有高中生3500人,初中生1500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为 . 【答案】100【解析】()70350015*********n =+⨯=. 11.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为01到50的袋装奶粉中抽取5袋进行检验,现将50袋奶粉按编号顺序平均分成5组,用每组选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号,若第4组抽出的号码为36,则第1组中用抽签的方法确定的号码是 .【答案】06【解析】因为按系统抽样方法选取的编号依次构成一个等差数列,且公差为10,所以由41363a a d ==+得:16,a =因此确定的号码是06.12.设样本数据1210,,,x x x L 的均值和方差分别为1和4,若i i y x a =+(a 为非零常数, 1,2,,10i =L ),则12,10,y y y L 的均值和方差分别为 . 【答案】1+,4a2221210(1)(1)(1)4041010x x x -+-++-===L13.将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为 . 【答案】25,17,814.下图1是某县参加2011年高考的学生身高条形统计图,从左到右的各条形表示的学生人数依次记为A 1,A2,…,A n(如A2表示身高(单位:cm)在[150,155)内的学生人数).图2是统计图1中身高在一定范围内学生人数的一个程序框图.现要统计身高在160 cm~180 cm(含160 cm,不含180 cm)内的学生人数,那么在程序框图中的判断框内应填写的条件是________.图2【答案】i≤7。
高考数学 试题汇编 第三节 统计、统计案例 文(含解析)
高考数学试题汇编第三节统计、统计案例文(含解析)抽样方法考向聚焦高考对抽样方法的考查侧重于考查系统抽样和分层抽样中的数值计算问题,尤其是系统抽样中所抽样本的编号问题,分层抽样中各层所抽样本数量的计算等,多以小题形式出现,难度为中、低档,所占分值为4分左右1.(2012年四川卷,文3,5分)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为( )(A)101 (B)808 (C)1212 (D)2012解析:根据分层抽样的特点可知×N=96,解得N=808,故选B.答案:B.2.(2011年福建卷,文4)某校选修乒乓球课程的学生中,高一年级有30名,高二年级有40名.现用分层抽样的方法在这70名学生中抽取一个样本.已知在高一年级的学生中抽取了6名,则在高二年级的学生中应抽取的人数为( )(A)6 (B)8 (C)10 (D)12解析:设在高二年级的学生中应抽取的人数为x.由分层抽样的特点有30∶40=6∶x,则x=8,即在高二年级学生中应抽取8人.故选B.答案:B.3.(2010年重庆卷,文5)某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为7人,则样本容量为( )(A)7 (B)15 (C)25 (D)35解析:设样本容量为n,则由分层抽样的特点知=,得n=15,故选B.答案:B.4.(2012年浙江卷,文11,4分)某个年级有男生560人,女生420人,用分层抽样的方法从该年级全体学生中抽取一个容量为280的样本,则此样本中男生人数为.解析:本题主要考查分层抽样,因为560+420=980,所以560×=160.答案:1605.(2012年福建卷,文14,4分)一支田径队有男女运动员98人,其中男运动员有56人.按男女比例用分层抽样的方法,从全体运动员中抽出一个容量为28的样本,那么应抽取女运动员人数是.解析:女运动员有98-56=42人,男女比例为:56∶42=4∶3,∴应抽取女运动员28×=12(人). 答案:12本题考查分层抽样方法,属容易题.6.(2012年湖北卷,文11,5分)一支田径运动队有男运动员56人,女运动员42人.现用分层抽样的方法抽取若干人,若抽取的男运动员有8人,则抽取的女运动员有人.解析:设抽取的女运动员为x人,则=,解得x=6.故抽取的女运动员为6人.答案:67.(2012年江苏数学,2,5分)某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取名学生.解析:本题考查随机抽样中分层抽样.关键算出高二学生人数在总数中的比例.因为高二年级学生人数占总数的,样本容量为50,所以50×=15.答案:158.(2011年湖北卷,文11)某市有大型超市200家、中型超市400家、小型超市1400家.为掌握各类超市的营业情况,现按分层抽样方法抽取一个容量为100的样本,应抽取中型超市家.解析:由分层抽样的特点知应抽取中型超市400×=20(家).答案:209.(2011年上海卷,文10)课题组进行城市空气质量调查,按地域把24个城市分成甲、乙、丙三组,对应的城市数分别为4,12,8,若用分层抽样抽取6个城市,则丙组中应抽取的城市数为.解析:∵抽取比例为=,∴丙组应抽取的城市数为×8=2.答案:210.(2011年山东卷,文13)某高校甲、乙、丙、丁四个专业分别有150、150、400、300名学生.为了解学生的就业倾向,用分层抽样的方法从该校这四个专业共抽取40名学生进行调查,应在丙专业抽取的学生人数为.解析:由题意知学生总人数为150+150+400+300=1000,抽取比例为=,从丙专业抽取人数为400×=16.答案:16统计图表与数字特征的计算考向聚焦统计图表(频率分布直方图、茎叶图)与数字特征(平均数、中位数、方差)是高考的重点和热点内容,几乎每年必考,通常以茎叶图和频率分布直方图为载体,考查平均数、中位数、方差等的计算,难度为中、低档,主要以选择题、填空题形式出现,有时也可能以解答题的形式进行综合考查,所占分值5~12分备考指津(1)对于统计图表的题目,求解时,最重要的就是认真观察图表,从中发现有用的信息和数据.(2)计算平均数与方差时,要明确所有数据的个数,以防计算错误11.(2012年陕西卷,文3,5分)对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( )(A)46,45,56 (B)46,45,53(C)47,45,56 (D)45,47,53解析:由概念知中位数是中间两数的平均数,即=46,众数是45,极差为68-12=56.所以选A.答案:A.分组[10,20) [20,30) [30,40) [40,50) [50,60) [60,70) 频数 2 3 4 5 4 2则样本数据落在区间[10,40)的频率为( )(A)0.35 (B)0.45 (C)0.55 (D)0.65解析:由表格提供的数据可知,样本数据落在区间[10,40)的频数为2+3+4=9,则频率为=0.45.答案:B.13.(2012年山东卷,文4,5分)在某次测量中得到的A样本数据如下:82,84,84,86,86,86,88,88,88,88.若B样本数据恰好是A样本数据每个都加2后所得数据,则A,B两样本的下列数字特征对应相同的是( )(A)众数 (B)平均数(C)中位数(D)标准差解析:本题考查样本的平均数,标准差等的计算方法.根据标准差的性质,易知答案为D.答案:D.14.(2012年江西卷,文6,5分)小波一星期的总开支分布如图1所示,一星期的食品开支如图2所示,则小波一星期的鸡蛋开支占总开支的百分比为( )(A)30% (B)10% (C)3% (D)不能确定解析:本题考查扇形图与条形图的实际应用.由图2可知,小波一星期的食品开支为30+40+100+80+50=300(元),由图1知,小波一星期的总开支为=1000(元),则小波一星期的鸡蛋开支占总开支的百分比为×100%=3%.故应选C.答案:C.统计图在实际中应用相当广泛,也是高考的必考点,难度一般都比较小,主要是读懂图中各阴影部分表示的意义.15.(2011年重庆卷,文4)从一堆苹果中任取10只,称得它们的质量如下(单位:克):125 120 122 105 130 114 116 95 120 134则样本数据落在[114.5,124.5)内的频率为( )(A)0.2 (B)0.3 (C)0.4 (D)0.5解析:在10个已测出的数值中,有4个数据落在[114.5,124.5)内,它们是120、122、116、120,故频率为=0.4,选C.答案:C.16.(2011年湖北卷,文5)有一个容量为200的样本,其频率分布直方图如图所示.根据样本的频率分布直方图估计,样本数据落在区间[10,12)内的频数为( )(A)18 (B)36 (C)54 (D)72解析:样本数据在[10,12)内的频率为1-2×(0.02+0.05+0.15+0.19)=0.18.∴样本数据在[10,12)内的频数为200×0.18=36,故选B.答案:B.17.(2011年江西卷,文7)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为m e,众数为m0,平均值为,则( )(A)m e=m0=(B)m e=m0<(C)m e<m0<(D)m0<m e<解析:由图知中位数为5.5,众数为5,平均值约为6.选D.答案:D.18.(2010年山东卷,文6)在某项体育比赛中,七位裁判为一选手打出的分数如下:90 89 90 95 93 94 93去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为( )(A)92,2 (B)92,2.8(C)93,2 (D)93,2.8解析:去掉一个最高分95,一个最低分89,剩下的5个数据是90,90,93,94,93,其平均值==92,方差s2=×[(90-92)2+(90-92)2+(93-92)2+(94-92)2+(93-92)2]=2.8.故选B.答案:B.19.(2012年山东卷,文14,4分)如图是根据部分城市某年6月份的平均气温(单位:℃)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5],样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5 ℃的城市个数为11,则样本中平均气温不低于25.5 ℃的城市个数为.解析:本题主要考查频率分布直方图的意义.设样本容量为n,则(0.1+0.12)n=11,解得n=50,故气温不低于25.5 ℃的城市个数为:50×0.18=9.答案:920.(2012年广东卷,文13,5分)由正整数组成的一组数据x1,x2,x3,x4,其平均数和中位数都是2,且标准差等于1,则这组数据为.(从小到大排列)解析:本小题主要考查平均数、中位数、方差的概念,以及方程组的运算,由题,设x1≤x2≤x3≤x4,则x1+x2+x3+x4=8,x2+x3=4,=1,即(x1-2)2+(x2-2)2+(x3-2)2+(x4-2)2=4,联立解得x1=1,x2=1,x3=3,x4=3.答案:1 1 3 321.(2012年湖南卷,文13,5分)如图是某学校一名篮球运动员在五场比赛中所得分数的茎叶图,则该运动员在这五场比赛中得分的方差为.(注:方差s2=[(x1-)2+(x2-)2+…+(x n-)2],其中为x1,x2,…,x n的平均数)解析:由茎叶图知该运动员得分为8,9,10,13,15,所以=×(8+9+10+13+15)=11,所以s2=×[(8-11)2+(9-11)2+(10-11)2+(13-11)2+(15-11)2]=×(9+4+1+4+16)=6.8.答案:6.822.(2011年江苏卷,6)某老师从星期一到星期五收到的信件数分别为10,6,8,5,6,则该组数据的方差s2= .解析:10,6,8,5,6的平均数==7,∴10,6,8,5,6的方差s2==.答案:23.(2010年福建卷,文14)将容量为n的样本中的数据分成6组,绘制频率分布直方图,若第一组至第六组数据的频率之比为2∶3∶4∶6∶4∶1,且前三组数据的频数之和等于27,则n 等于.解析:∵=,∴n=60.答案:6024.(2010年浙江卷,文11)在如图所示的茎叶图中,甲、乙两组数据的中位数分别是, .解析:甲组数据为:28,31,39,42,45,55,57,58,66,中位数为45.乙组数据为:29,34,35,42,46,48,53,55,67,中位数为46.答案:45 4625.(2012年广东卷,文17,13分)某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100].(1)求图中a的值;(2)根据频率分布直方图,估计这100名学生语文成绩的平均分;(3)若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如下表所示,求数学成绩在[50,90)之外的人数.分数段[50,60) [60,70) [70,80) [80,90) x∶y 1∶1 2∶1 3∶4 4∶5解:(1)由(2a+0.02+0.03+0.04)×10=1知a=0.005.(2)估计这100名学生的平均分为:55×0.05+65×0.4+75×0.3+85×0.2+95×0.05=7.5+26+22.5+17=73(分).(3)由频率分布直方图知,语文成绩在[50,60)之间的人数为100×0.05=5,[60,70)之间的人数为100×0.4=40,[70,80)之间的人数为100×0.3=30,[80,90)之间的人数为100×0.2=20,故数学成绩在这几个分数段内的人数分别为5,20,40,25,总人数为90,故在[50,90)之外的人数为100-90=10.26.(2012年北京卷,文17,13分)近年来,某市为了促进生活垃圾的分类处理,将生活垃圾分为厨余垃圾、可回收物和其他垃圾三类,并分别设置了相应的垃圾箱.为调查居民生活垃圾分类投放情况,现随机抽取了该市三类垃圾箱中总计1000吨生活垃圾,数据统计如下(单位:吨):“厨余垃圾”箱“可回收物”箱“其他垃圾”箱厨余垃圾400 100 100可回收物30 240 30其他垃圾20 20 60(1)试估计厨余垃圾投放正确的概率;(2)试估计生活垃圾投放错误的概率;(3)假设厨余垃圾在“厨余垃圾”箱、“可回收物”箱、“其他垃圾”箱的投放量分别为a,b,c,其中a>0,a+b+c=600.当数据a,b,c的方差s2最大时,写出a,b,c的值(结论不要求证明),并求此时s2的值.(注:s2=[(x1-)2+(x2-)2+…+(x n-)2],其中为数据x1,x2,…,x n的平均数)解:(1)由已知得厨余垃圾共有600吨,其中厨余垃圾投放正确的有400吨,∴厨余垃圾投放正确的概率为=.(2)由已知得厨余垃圾投放正确的有400吨,可回收物投放正确的有240吨,其他垃圾投放正确的有60吨,∴生活垃圾投放正确的有700吨,∴生活垃圾投放错误的有300吨,∴投放错误的概率为=.(3)当a=600,b=c=0时,s2最大.由已知a+b+c=600,∴a,b,c的平均数为200,∴s2==80000,∴方差s2最大值为80000.此题的难度在第三问,其余两问难度不大,第三问对学生有较高的能力要求.虽不要求证明,但要求学生对方差意义的理解非常深刻.27.(2012年安徽卷,文18,13分)若某产品的直径长与标准值的差的绝对值不超过1 mm时,则视为合格品,否则视为不合格品,在近期一次产品抽样检查中,从某厂生产的此种产品中,随机抽取5000件进行检测,结果发现有50件不合格品,计算这50件不合格品的直径长与标准值的差(单位:mm),将所得数据分组,得到如下频率分布表:分组频数频率[-3,-2) 0.10[-2,-1) 8(1,2] 0.50(2,3] 10(3,4]合计50 1.00(1)将上面表格中缺少的数据填在答题卡的相应位置;(2)估计该厂生产的此种产品中,不合格品的直径长与标准值的差落在区间(1,3]内的概率;(3)现对该厂这种产品的某个批次进行检查,结果发现有20件不合格品,据此估算这批产品中的合格品的件数.解:(1)频率分布表分组频数频率[-3,-2) 5 0.10[-2,-1) 8 0.16(1,2] 25 0.50(2,3] 10 0.20(3,4] 2 0.04合计50 1.00(2)由频率分布表知,该厂生产的此种产品中,不合格品的直径长与标准值的差落在区间(1,3]内的概率约为0.50+0.20=0.70;(3)设这批产品中的合格品数为x,依题意有=,解得x=-20=1980.所以该批产品的合格品件数估计是1980.本题考查频率和频率分布表等统计学的基本知识,用频率估计概率的基本思想,考查运用统计和概率基本知识解决简单实际问题的能力.28.(2012年陕西卷,文19,12分)假设甲乙两种品牌的同类产品在某地区市场上销售量相等,为了解他们的使用寿命,现从这两种品牌的产品中分别随机抽取100个进行测试,结果统计如下:(1)估计甲品牌产品寿命小于200小时的概率;(2)这两种品牌产品中,某个产品已使用了200小时,试估计该产品是甲品牌的概率.解:(1)根据题意知:甲品牌产品寿命小于200小时的频率为=,因为用频率估计概率,所以甲品牌产品寿命小于200小时的概率为.(2)有抽样结果,寿命>200小时的产品有75+70=145个,其中甲品牌产品75个,因而在样本中寿命大于200小时的产品是甲品牌的频率是=,由此估计概率为.29.(2012年新课标全国卷,文18,12分)某花店每天以每枝5元的价格从农场购进若干枝玫瑰花,然后以每枝10元的价格出售.如果当天卖不完,剩下的玫瑰花作垃圾处理.(1)若花店一天购进17枝玫瑰花,求当天的利润y(单位:元)关于当天需求量n(单元:枝,n∈N)的函数解析式;(2)花店记录了100天玫瑰花的日需求量(单位:枝),整理得如表:日需求量n 14 15 16 17 18 19 20 频数10 20 16 16 15 13 10①假设花店在这100天内每天购进17枝玫瑰花,求这100天的日利润(单位:元)的平均数;②若花店一天购进17枝玫瑰花,以100天记录的各需求量的频率作为各需求量发生的概率,求当天的利润不少于75元的概率.解:(1)当日需求量n≥17时,利润y=85,当日需求量n<17时,利润y=10n-85,所以y关于n的函数为y=(n∈N).(2)①这100天中有10天的日利润为55元,20天的日利润为65元,16天的日利润为75元,54天的日利润为85元,所以这100天的日利润的平均数为(55×10+65×20+75×16+85×54)=76.4.②利润不低于75元当且仅当日需求量不少于16枝,故当天的利润不少于75元的概率为p=0.16+0.16+0.15+0.13+0.1=0.7.30.(2011年全国新课标卷,文19)某种产品的质量以其质量指标值衡量,质量指标值越大表明质量越好,且质量指标值大于或等于102的产品为优质品.现用两种新配方(分别称为A配方和B配方)做试验,各生产了100件这种产品,并测量了每件产品的质量指标值,得到下面试验结果:A配方的频数分布表指标值[90,94) [94,98) [98,102) [102,106) [106,110] 分组频数8 20 42 22 8B配方的频数分布表指标值[90,94) [94,98) [98,102) [102,106) [106,110] 分组频数 4 12 42 32 10(1)分别估计用A配方,B配方生产的产品的优质品率;(2)已知用B配方生产的一件产品的利润y(单位:元)与其质量指标值t的关系式为y=估计用B配方生产的一件产品的利润大于0的概率,并求用B配方生产的上述100件产品平均一件的利润.解:(1)由试验结果知,用A配方生产的产品中优质品的频率为=0.3,所以用A配方生产的产品的优质品率的估计值为0.3.由试验结果知,用B配方生产的产品中优质品的频率为=0.42,所以用B配方生产的产品的优质品率的估计值为0.42.(2)由条件知,用B配方生产的一件产品的利润大于0,当且仅当其质量指标值t≥94.由试验结果知,质量指标值t≥94的频率为0.96.所以用B配方生产的一件产品的利润大于0的概率估计值为0.96.用B配方生产的产品平均一件的利润为×[4×(-2)+54×2+42×4]=2.68(元).31.(2011年广东卷,文17)在某次测验中,有6位同学的平均成绩为75分,x n表示编号为n(n=1,2,…,6)的同学所得成绩,且前5位同学的成绩如下:编号n 1 2 3 4 5成绩x n70 76 72 70 72(1)求第6位同学的成绩x6及这6位同学成绩的标准差s;(2)从前5位同学中,随机地选2位同学,求恰有1位同学成绩在区间(68,75)中的概率.解:(1)∵==75,∴x6=6×75-(70+76+72+70+72)=90,∴s2=×[(70-75)2+(76-75)2+(72-75)2+(70-75)2+(72-75)2+(90-75)2]=×(25+1+9+25+9+225)=49,∴s==7.即这6位同学成绩的标准差为7.(2)从5位同学中随机选两位有:(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)共10种可能情况,记事件A=“恰有一位同学成绩在(68,75)”,A包含(1,2),(2,3),(2,4),(2,5)共4种可能情况,∴P(A)==.即恰有1位同学成绩在区间(68,75)的概率为.32.(2011年辽宁卷,文19)某农场计划种植某种新作物,为此对这种作物的两个品种(分别称为品种甲和品种乙)进行田间试验.选取两大块地,每大块地分成n小块地,在总共2n小块地中,随机选n小块地种植品种甲,另外n小块地种植品种乙.(1)假设n=2,求第一大块地都种植品种甲的概率;(2)试验时每大块地分成8小块,即n=8,试验结束后得到品种甲和品种乙在各小块地上的每2品种甲403 397 390 404 388 400 412 406 品种乙419 403 412 418 408 423 400 413分别求品种甲和品种乙的每公顷产量的样本平均数和样本方差;根据试验结果,你认为应该种植哪一品种?附:样本数据x1,x2,…,x n的样本方差s2=[(x1-)2+(x2-)2+…+(x n-)2],其中为样本平均数.解:(1)设第一大块地中的两小块地编号为1、2,第二大块地中的两小块地编号为3、4,令事件A为“第一大块地都种品种甲”.从4小块地中任选2小块地种植品种甲的基本事件共6个:(1,2),(1,3),(1,4),(2,3),(2,4),(3,4).而事件A包含1个基本事件:(1,2).所以P(A)=.即第一大块地都种植品种甲的概率为.(2)品种甲的每公顷产量的样本平均数和样本方差分别为:=×(403+397+390+404+388+400+412+406)=400,=×[32+(-3)2+(-10)2+42+(-12)2+02+122+62]=57.25.品种乙的每公顷产量的样本平均数和样本方差分别为:=×(419+403+412+418+408+423+400+413)=412,=×[72+(-9)2+02+62+(-4)2+112+(-12)2+12]=56.由以上结果可以看出,品种乙的样本平均数大于品种甲的样本平均数,且>,故应该选择种植品种乙.33.(2010年安徽卷,文18)某市2010年4月1日—4月30日对空气污染指数的监测数据如下(主要污染物为可吸入颗粒物):61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91,77,86,81,83,82,82,64,79,86,85 ,75,71,49,45.(1)完成频率分布表;(2)作出频率分布直方图;(3)根据国家标准,污染指数在0~50之间时,空气质量为优;在51~100之间时,为良;在101~150之间时,为轻微污染;在151~200之间时,为轻度污染.请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价.解:(1)频率分布表:分组频数频率[41,51) 2[51,61) 1[61,71) 4[71,81) 6[81,91) 10[91,101) 5[101,111] 2(2)频率分布直方图如图所示:(3)答对下述两条中的一条即可:①该市一个月中空气污染指数有2天处于优的水平,占当月天数的.有26天处于良的水平,占当月天数的,处于优或良的天数为28天,占当月天数的.说明该市空气质量基本良好.②轻微污染有2天,占当月天数的.污染指数在80以上的接近轻微污染的天数有15天,加上处于轻微污染的天数共17天,占当月天数的,超过50%.说明该市空气质量有待进一步改善.本题以新颖的背景考查了用统计知识解决实际问题的能力,考查了对数据的处理能力以及应用意识.34.(2010年陕西卷,文19)为了解学生身高情况,某校以10%的比例对全校700名学生按性别进行分层抽样调查,测得身高情况的统计图如下:(1)估计该校男生的人数;(2)估计该校学生身高在170~185 cm之间的概率;(3)从样本中身高在180~190 cm之间的男生中任选2人,求至少有1人身高在185~190 cm 之间的概率.解:(1)样本中男生人数为40,由分层抽样比例为10%估计全校男生人数约为400.(2)由统计图知,样本中身高在170~185 cm之间的学生有14+13+4+3+1=35(人),因为样本容量为70,所以样本中学生身高在170~185 cm之间的频率f==0.5,故由频率f估计该校学生身高在170~185 cm之间的概率P1=0.5.(3)样本中身高在180~185 cm之间的男生有4人,设其编号为①,②,③,④,样本中身高在185~190 cm之间的男生有2人,设其编号为⑤,⑥,从上述6人中任取2人的树状图为:故从样本中身高在180~190 cm之间的男生中任选2人的所有可能结果数为15,至少有1人身高在185~190 cm之间的可能结果数为9,因此,所求概率P2==.变量的相关性考向聚焦高考对变量间的相关性的考查呈逐年上升的趋势,主要考查借助于散点图直观地分析两个变量间的相关关系,知道回归直线经过样本中心,会求线性回归方程,并能利用方程对有关变量作出估计.一般以选择题、填空题的形式出现,属容易题,所占分值4~5分35.(2012年新课标全国卷,文3,5分)在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i,y i)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )(A)-1 (B)0 (C)(D)1解析:由所有样本点都在直线y=x+1上,即相关性最强,且为正相关,故相关系数为1,故选D.答案:D.36.(2012年湖南卷,文5,5分)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )(A)y与x具有正的线性相关关系(B)回归直线过样本点的中心(,)(C)若该大学某女生身高增加1 cm,则其体重约增加0.85 kg(D)若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg解析:用回归方程预测已知身高同学的体重只能是预测,不能一定是.答案:D.37.(2011年江西卷,文8)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x(cm) 174 176 176 176 178儿子身高y(cm) 175 175 176 177 177则y对x的线性回归方程为( )(A)y=x-1 (B)y=x+1(C)y=88+x (D)y=176解析:由于回归直线经过样本中心点(176,176),经验证知C符合.答案:C.38.(2011年山东卷,文8)某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元) 4 2 3 5销售额y(万元) 49 26 39 54根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( )(A)63.6万元(B)65.5万元(C)67.7万元(D)72.0万元解析:据表可得==,==42,∵回归直线过样本中心点(,42),且=9.4,∴=9.1.即回归方程为=9.4x+9.1,∴当x=6时,=65.5,故选B.答案:B.39.(2011年陕西卷,文9)设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是( )(A)直线l过点(,)(B)x和y的相关系数为直线l的斜率(C)x和y的相关系数在0到1之间(D)当n为偶数时,分布在l两侧的样本点的个数一定相同解析:样本点的中心(,)必在回归直线上.故选A.答案:A.40.(2010年湖南卷,文3)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是( )(A)=-10x+200 (B)=10x+200(C)=-10x-200 (D)=10x-200解析:∵销售量y(件)与销售价格x(元/件)负相关,∴x的系数为负.又∵y不能为负值,∴常数项必须是正值.故选A.答案:A.41.(2011年辽宁卷,文14)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加万元.解析:由回归直线方程为=0.254x+0.321知年收入每增加1万元,年饮食支出平均增加0.254万元.答案:0.25442.(2012年福建卷,文18,12分)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元) 8 8.2 8.4 8.6 8.8 9 销量y(件) 90 84 83 80 75 68(1)求回归直线方程=bx+a,其中b=-20,a=-b;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)∵=(x1+x2+x3+x4+x5+x6)=×(8+8.2+8.4+8.6+8.8+9)=8.5,=(y1+y2+y3+y4+y5+y6)=×(90+84+83+80+75+68)=80.∴a=-b=80+20×8.5=250,回归直线方程为=-20x+250.(2)设工厂获得的利润为L元,依题意得:L=x(-20x+250)-4(-20x+250)=-20x2+330x-1000=-20(x-)2+361.25当且仅当x==8.25时,L取得最大值,故当单价定为8.25元时,工厂可获得最大利润.本题主要考查回归分析,二次函数求最值等基础知识,考查学生的运算求解能力,应用意识和化归与转化思想,属中档题.43.(2011年安徽卷,文20)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份2002 2004 2006 2008 2010 需求量(万吨) 236 246 257 276 286(1)利用所给数据求年需求量与年份之间的回归直线方程=x+;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,为求回归直线方程,对数据预处理如下:年份-2006 -4 -2 0 2 4需求量-257 -21 -11 0 19 29 对预处理后的数据得=0,=3.2,===6.5,=-=3.2,由上述计算结果知所求回归直线方程为-257=(x-2006)+=6.5(x-2006)+3.2,即=6.5(x-2006)+260.2.(2)利用(1)的结论,当x=2012时,=6.5×6+260.2=299.2,即预测该地2012年的粮食需求量为299.2万吨.独立性检验考向聚焦对独立性检验的考查是高考的一个方向,有时以一道选择题的形式出现,属容易题,4~5分;也有时以一道解答题的形式出现,属于中档偏下题目,12分左右备考指津通过独立性检验判断两个变量是否相关,列出列联表是关键.利用列联表进行独立性检验,不但能考查两个变量是否相关,而且能较准确地计算出这种判断的可靠程度44.(2011年湖南卷,文5)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好40 20 60不爱好20 30 50总计60 50 110由K2=算得,。
专题11 统计与统计案例(解析版)-2020-2021学年高考数学精选新题专项汇编(全国通用)
2020-2021学年高考数学精选新题专项汇编(全国通用)专题11 统计与统计案例一.选择题1.(2021•郑州一模)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图,90后从事互联网行业岗位分布条形图,则下列结论错误的是()注:90后指1990年及以后出生,80后指1980﹣1989年之间出生,80前指1979年及以前出生.A.互联网行业从业人员中从事技术和运营岗位的人数占总人数的三成以上B.互联网行业中从事技术岗位的人数超过总人数的20%C.互联网行业中从事运营岗位的人数90后一定比80前多D.互联网行业中从事技术岗位的人数90后一定比80后多【解答】解:由整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图得到:56%×(39.6%+17%)=31.696%>30%,互联网行业从业人员中从事技术和运营岗位的人数占总人数的三成以上,故A正确;由整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图得到:56%×39.6%=22.176%>20%,互联网行业中从事技术岗位的人数超过总人数的20%,故B正确;由整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图得到:17%×56%=9.52%>3%,互联网行业中从事运营岗位的人数90后比80前多,故C正确;由整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图得到:56%×39.6%=22.176%<41%,互联网行业中从事技术岗位的人数90后不一定比80后多,故D错误.故选:D.2.(2021•九模拟)2020年初全国人民为支持国家抗疫,全民在家,为了响应教育部停课不停学的号召,某学校开展了网络教学,高三(2)班班主任为了了解学生上网课时连线发言的情况,对某一天本班男、女生发言次数进行了统计,并绘制成频数分布折线图如图所示,则下列说法不正确的是()A.男生发言次数的中位数为4次B.女生发言次数的中位数为5次C.男生发言次数的平均数为4次D.女生发言次数的平均数为5次【解答】解:由题目中图形知,男女生总人数都是20人,按发言次数从小到大排列后,第10个男生发言是4次,第11个男生发言也是4次,所以男生发言次数的中位数是4次;同理得女生的发言次数的中位数是5次.计算男生发言次数的平均数为x男=120×(1×2+2×1+3×6+4×4+5×2+6×3+7×2)=4;女生发言次数的平均数为x女=120×(1×1+2×2+3×3+4×2+5×5+6×4+7×3)=4.6.故选:D.3.(2020•吉林模拟)2020年西部某县一个生态果园公司根据当地的特产开发生产了A,B两种不同口味的果汁饮料.现随机抽取了两种果汁饮料各10瓶(均是500mL)组成的一个样本进行了检测,得到某种添加剂指标(毫克/升)的茎叶图如图,则对这种添加剂指标的分析正确的是()A.A种果汁饮料添加剂指标的平均值高于B种果汁饮料添加剂指标的平均值B.A种果汁饮料添加剂指标的中位数高于B种果汁饮料添加剂指标的中位数C.A种果汁饮料添加剂指标的方差高于B种果汁饮料添加剂指标的方差D.A种果汁饮料添加剂指标的最小值高于B种果汁饮料添加剂指标的最小值【解答】解:A、B种果汁饮料添加剂指标集中在以4为茎的茎上,A种果汁饮料添加剂指标集中在以2为茎的茎上,A错误;B、A种果汁饮料添加剂指标的中位数为23.5,B种果汁饮料添加剂指标的中位数为31.5,B错误;C、A种果汁饮料添加剂指标数据比较集中,而B种果汁饮料添加剂指标数据比较分散,所以B种果汁饮料添加剂指标的方差要大一些,C错误:故D正确.故选:D.4.(2020•碑林区校级模拟)2020年3月某省教研室组织了一场关于如何开展线上教学的大型调研活动,共收到有效问卷558982份,根据收集的教学类型得到统计数据如图:以上面统计数据为标准对线上学习的教学类型进行分析,下面说法正确的是()A.本次调研问卷的学生中采用纯直播教学形式进行学习的学生人数超过了30万B.线上利用了直播平台进行学习的学生比例超过了90%C.线上学习观看过录播视频的学生比例超过了40%D.线上学习使用过资源包的学生的比例不足25%【解答】解:对于选项A:根据图表知识纯直播占比51.8%,总人数为558982,所以看纯直播的人数约为289552,没有超过30万,故选项A错误;对于选项B:线上学习利用直播平台进行学习的学生占比约为17.0%+5.4%+14.9%+51.8%=89.1%,没有超过90%,故选项B错误;对于选项C:线上学习观看过录播视频的学生占比约,17.0%+1.6%+14.9%+7.4%=40.9%,超过40%,故选项C 正确;对于选项D :使用过资源包的人数占比约为17.0%+1.6%+5.4%+1.2%=25.2%,超过25%,故选项D 错误, 故选:C .5.(2020•沈阳三模)已知x 与y 之间的几组数据如表:x 1 2 3 4 y1mn4如表数据中y 的平均值为2.5,若某同学对m 赋了三个值分别为1.5,2,2.5,得到三条线性回归直线方程分别为y =b 1x +a 1,y =b 2x +a 2,y =b 3x +a 3,对应的相关系数分别为r 1,r 2,r 3,下列结论中错误的是( ) 参考公式:线性回归方程y =x x +x 中,其中x =x x =1x −x )(x −x )∑ x x =1(x −x )2x =x −x x .相关系数r =x x =1x −x )(x −x )√∑ x =1(x x −x )2∑ x =1(x x −x )2.A .三条回归直线有共同交点B .相关系数中,r 2最大C .b 1>b 2D .a 1>a 2【解答】解:由题意,1+m +n +4=10,即m +n =5. 若m =1.5,则n =3.5,此时x =1+2+3+44=2.5,x =2.5.∑ 4x =1(x x −x )(x x −x )=(1﹣2.5)(1﹣2.5)+(2﹣2.5)(1.5﹣2.5) +(3﹣2.5)(3.5﹣2.5)+(4﹣2.5)(4﹣2.5)=5.5,∑ 4x =1(x x −x )2=(﹣1.5)2+(﹣0.5)2+0.52+1.52=5, ∑ 4x =1(x x −x )2=(﹣1.5)2+(﹣1)2+12+1.52=6.5.则x 1=5.55=1.1,a 1=2.5﹣1.1×2.5=﹣0.25,x 1=5×√6.5≈√0.93;若m =2,则n =3,此时x =1+2+3+44=2.5,x =2.5.∑ 4x =1(x x −x )(x x −x )=(1﹣2.5)(1﹣2.5)+(2﹣2.5)(2﹣2.5)+(3﹣2.5)(3﹣2.5)+(4﹣2.5)(4﹣2.5)=5,∑ 4x =1(x x −x )2=5,∑ 4x =1(x x −x )2=(﹣1.5)2+(﹣0.5)2+0.52+1.52=5.x 2=55=1,a 2=2.5﹣1×2.5=0,x 2=√5×√5=1;=2.5,x=2.5.若m=2.5,则n=2.5,此时x=1+2+3+44∑4x=1(x x−x)(x x−x)=(1﹣2.5)(1﹣2.5)+(2﹣2.5)(2.5﹣2.5)+(3﹣2.5)(2.5﹣2.5)+(4﹣2.5)(4﹣2.5)=4.5,∑4x=1(x x−x)2=5,∑4x=1(x x−x)2=(﹣1.5)2+1.52=4.5,x3==√0.9.√5×√4.5由样本点的中心相同,故A正确;由以上计算可得,相关系数中,r2最大,b1>b2,a1<a2,故B,C正确,D错误.故选:D.6.(2020•湖北模拟)某城市在进行创建文明城市的活动中,为了解居民对“创建文明城”的满意程度,组织居民给活动打分(分数为整数,满分100分),从中随机抽取一个容量为120的样本,发现所给数据均在[40,100]内.现将这些分数分成以下6组并画出样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形则下列说法中有错误的是()A.第三组的频数为18人B.根据频率分布直方图估计众数为75分C.根据频率分布直方图估计样本的平均数为75分D.根据频率分布直方图估计样本的中位数为75分【解答】解:对于A,因为各组的频率之和等于1,所以分数在[60,70)内的频率为:f=1﹣10(0.005+0.015+0.030+0.025+0.010)=0.15,所以第三组[60,70)的频数为120×0.15=18(人),故正确;对于B,因为众数的估计值是频率分布直方图中最高矩形的中点,从图中可看出众数的估计值为75分,故正确;对于C,又根据频率分布直方图,样本的平均数的估计值为:45×(10×0.005)+55×(10×0.015)+65×(10×0.015)+75×(10×0.03)+85×(10×0.025)+95×(10×0.01)=73.5(分),故错误;对于D,因为(0.05+0.15+0.15)×10=0.35<0.5,(0.05+0.15+0.15+0.3)×10>0.5,所以中位数位于[70,80)上,所以中位数的估计值为:70+0.5−0.350.030=75,故正确;故选:C.二.填空题7.(2021•山东模拟)为贯彻落实中央、自治区和南宁市关于新冠肺炎疫情防控工作的决策部署,严格落实联防联控机制、严格执行报告制度,落实疫情管理.某高中学校,为此制定了很多防疫制度,新规章制度实施一段时间后,学校就新规章制度的执行、认知程度随机抽取100名学生进行问卷调查,调查卷共有20个问题,每个问题5分,调查结束后,发现这100名学生的成绩都在[75,100]内,按成绩分成5组:第1组[75,80),第2组[80,85),第3组[85,90),第4组[90,95),第5组[95,100],绘制成如图所示的频率分布直方图,现在用分层抽样的方法在第3,4组共选取5人对新规章制度作深入学习,再从中选取2人深入的了解学习、执行的情况,则选取的2人来自于不同组的概率为35.【解答】解:由题可知第3组的人数为0.06×5×100=30;第4组的人数为0.04×5×100=20.现在用分层抽样的方法在第3,4组共50人中选取5人对新规章制度作深入学习,即抽取比例为550=110,则采用分层抽样在两组中选取的人数分别为3,2,则选取的2人来自于不同组的概率为x31⋅x21x52=35,故答案为:35.8.(2020•吉林模拟)2019年末至2020年初,某在线教育公司为了适应线上教学的快速发展,近5个月加大了对该公司的网上教学使用软件的研发投入,过去5个月资金投入量x(单位:百万元)和收益y(单位:百万元)的数据如下表:月份2019年11月2019年12月2020年1月2020年2月2020年3月资金投入量/百万元2481012收益/百万元14.2120.3131.1837.8344.67若y与x的线性回归方程为x=3x+a,则资金投入量为16百万元时,该月收益的预报值为56.04百万元.【解答】解:由题意得,x=2+4+8+10+125=7.2,14.21+20.31+31.18+37.83+44.675=29.64,所以a=x−x x=29.64﹣3×7.2=8.04.所以y关于x的回归方程为x=3x+8.04.把x=16代入回归方程得x=3×16+8.04=56.04,故预报值为56.04百万元.故答案为:56.04.9.(2020•龙潭区校级模拟)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量为200;抽取的高中生近视人数为20.【解答】解:所有学生数为3500+4500+2000=10000,故样本容量为10000×2%=200,且样本中,小学生人数为3500×2%=70,初中生人数为4500×2%=90,高中生人数为2000×2%=40,抽取的高中生近视人数为40×50%=20,故答案为:200;20.10.(2019•乐山模拟)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.18.710.111.211.9支出y(万元) 6.17.68.08.49.9根据上表可得回归直线方程x=0.76x+x,x=x−x x,据此估计,该社区一户收入为20万元家庭年支出为15.6万元.【解答】解:由已知得x=8.1+8.7+10.1+11.2+11.95=10,x=6.1+7.6+8.0+8.4+9.95=8,故x=8﹣0.76×10=0.4,所以回归直线方程为:x=0.76x+0.4,令x=20,解得x=0.76×20+0.4=15.6.故答案为:15.6.11.(2018•东莞市模拟)已知样本x1,x2,x3,…,x n方差s2=2,则样本2x1+1,2x2+1,2x3+1,…,2x n+1的方差为8.【解答】解:根据题意,设样本x1,x2,x3,…,x n方的平均数为x,方差为s2=2,样本2x1+1,2x2+1,2x3+1,…,2x n+1的平均数为x′,方差为s′2,(x1+x2+x3+…+x n),样本x1,x2,x3,…,x n方的平均数为x,则x=1x[(x1−x)2+(x2−x)2+……+(x n−x)2]=2,其方差为s2=2,则有s2=1x对于样本2x1+1,2x2+1,2x3+1,…,2x n+1,其平均数为x′,[(2x1+1)+(2x2+1)+……+(2x n+1)]=2x+1,则x′=1x[(2x1+1﹣2x−1)2+(2x2+1﹣2x−1)2+……+(2x n+1﹣2x−1)2]=4s2=8,其方差s′2=1x故答案为:8.12.(2018•全国一模)为了了解居民天气转冷时期电量使用情况,某调查人员由下表统计数据计算出回归直线方程为x=−2.11x+61.13,现表中一个数据为污损,则被污损的数据为38.(最后结果精确到整数位)气温x181310﹣1用电量y2434•64(18+13+10−1)=10.【解答】解:由题意:x=14代入到回归直线方程x=−2.11×10+61.13=40.03.(24+34+?+64)=40.03.∴x=14解得:?≈38.故答案为:38.三.解答题13.(2021•五模拟)某校为了解高二年级文科生的数学成绩情况,随机抽查100名学生成绩,绘制频率分布直方图(如图所示),其中样本数据分组区间为[40,50),[50,60),[60,70),[70,80),[80,90),[90,100](Ⅰ)求频率分布图中a的值;(Ⅱ)估计该校高二年级文科生的数学成绩中位数(小数点后保留两位);(Ⅲ)数学成绩在[40,50)的学生中男女比例是1:1,数学成绩在[50,60)的学生中男女比例是2:1.现从[40,60)的男生中,随机抽取2名男生,求2名男生不在同一样本数据分组区间的概率.【解答】解:(Ⅰ)∵(0.004+a+0.018+0.022×2+0.028)×10=1,解得a=0.006.(Ⅱ)由频率分布直方图得:[40,70)的频率为(0.004+0.006+0.020)×10=0.32,[70,80)的频率为0.028×10=0.28,则该校高二年级文科生的数学成绩中位数为:×10≈76.43.70+0.5−0.320.28(Ⅲ)数学成绩在[40,50)的学生有100×0.004×10=4(人),男女比例是1:1,∴男生有2人,记为B1,B2,数学成绩在[50,60)的学生有100×0.006×10=6(人),男女比例是2:1,∴男生有4人,记为A1,A2,A3,A4,从这6名学生中选取2人,所有可能的结果有15种,分别为:(A1,A2),(A1,A3),(A1,A4),(A1,B1),(A1,B2),(A2,A3),(A2,A4),(A2,B1),(A2,B2),(A3,A4),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),2名男生不在同一样本数据分组区间包含的基本事件有8个,分别为:(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(A4,B1),(A4,B2),∴2名男生不在同一样本数据分组区间的概率为8.15.故答案为:81514.(2021•十九模拟)某校从全体教师中抽取了50位教师参加教育部门组织的知识竞赛,根据这50位教师的竞赛成绩(满分100分)制作了如图所示的频数分布表与部分频率分布直方图.成绩/分[50,60)[60,70)[70,80)[80,90)[90,100]频数29a b6(1)求a,b,并补全频率分布直方图;(2)若从一所学校的所有参赛人员中随机抽出1人,成绩在[50,70)内的概率不超过0.30,且这所学校所有参赛人员的平均成绩不低于80分,则这所学校可获得“优秀组织奖”,否则不能获奖,请判断该校能否获奖,并说明理由.(将频率看作概率,同一组中的数据用该组区间的中点值作代表)(3)该校决定从成绩在[90,100]内的6位教师中随机抽取2人,若这6位教师中有4位女教师,2位男教师,求抽取的2人中至多有1位女教师的概率.【解答】解:(1)由频率、频数与样本容量的关系易求得频数a=50×0.026×10=13,b=50﹣2﹣9﹣13﹣6=20,补全的频率分布直方图如下:(2)该校参赛教师的成绩在[50,70)内的有11人,从50位参赛教师中随机抽出1人,其成绩在[50,70)内的概率P=1150=0.22<0.30,这50位教师成绩的平均值为:x=55×0.04+65×0.18+75×0.26+85×0.40+95×0.12=78.8<80,故答案为:该校参赛教师的成绩不能同时满足题中两个条件,所以不能获奖.(3)成绩在[90,100]内的6位教师中,记2位男教师分别为1、2,4位女教师分别为a、b、c、d.从6位教师中随机抽取2人,所有可能的情况为{1,2},{1,a},{1,b},{1,c},{1,d},{2,a},{2,b},{2,c},{2,d},{a,b},{a,c},{a,d},{b,c},{b,d},{c,d},共15种,抽取的2人中至多有1位女教师的情况有{1,2},{1,a},{1,b},{1,c},{1,d},{2,a},{2,b},{2,c},{2,d}共9种,故答案为:抽取的2人中至多有1位女教师的概率为P=915=35.15.(2020•邵阳三模)某中学从甲、乙两个班中各选出7名学生参加数学竞赛,将他们的成绩(满分100分)进行统计分析,绘制成如图所示的茎叶图.已知甲班学生成绩的众数是83,乙班学生成绩的平均数是86.(1)求x,y的值;(2)设成绩在85分以上(含85分)的学生为优秀学生.从甲、乙两班的优秀学生中各取1人,记甲班选取的学生成绩不低于乙班选取的学生成绩为事件A,求事件A发生的概率P(A).【解答】解:(1)由茎叶图可知,茎为8时,甲班学生成绩对应数据只能是83,80+x,86;因为甲班学生成绩众数是83,所以83出现的次数最多,可知x=3.又乙班学生的平均分是86,总分等于86×7=602,所以597+y=602,所以y=5.(2)总基本事件共12个,A事件包括:(85,85),(92,85),(92,91),(92,91),(96,85),(96,91),(96,91),(96,96)等8个基本事件;故所求的概率为x(x)=812=23.16.(2020•鼓楼区校级模拟)2019年6月25日,《固体废物污染环境防治法(修订草案)》初次提请全国人大常委会审议,草案对“生活垃圾污染环境的防治”进行了专项规定.某小区采取一系列措施,宣传垃圾分类的知识与意义,并采购分类垃圾箱.为了了解垃圾分类的效果,该小区物业随机抽取了200位居民进行问卷调查,每位居民对小区采取的措施给出“满意”或“不满意”的评价.根据调查结果统计并做出年龄分布条形图和持不满意态度的居民的结构比例图,如图:在这200份问卷中,持满意态度的频率是0.65.(1)完成下面的2×2列联表,并判断能否有95%的把握认为“51岁及以上”和“50岁及以下”的居民对该小区采取的措施的评价有差异;满意不满意总计51岁及以上的居民50岁及以下的居民总计200(2)按“51岁及以上”和“50岁及以下”的年龄段采取分层抽样的方法从中随机抽取5份,再从这5份调查问卷中随机抽取2份进行电话家访,求电话家访的两位居民恰好一位年龄在51岁及以上,另一位年龄在50岁及以下的概率.附表及参考公式:P(K2≥k0)0.0500.0250.0100.0050.001k0 3.841 5.024 6.6357.87910.828K2=x(xx−xx)2(x+x)(x+x)(x+x)(x+x),其中n=a+b+c+d.【解答】解:(1)在这200份问卷中,持满意态度的频数为200×0.65=130,持不满意态度和频数为200﹣130=70;填写列联表为:满意不满意总计51岁以上的居民45358050岁以下的居民8535120总计13070200由列联表中数据,计算x2=x(xx−xx)2(x+x)(x+x)(x+x)(x+x)=200×(45×35−85×35)280×120×130×70≈4.487>3.841,所以有95%的把握认为“51岁及以上”和“50岁及以下”的居民对该小区采取的措施的评价有差异;(2)利用分层抽样的特点可知:“51岁以上”居民抽到2份记为:a1,a2;“50岁以下”居民抽到3份记为:b1,b2,b3;所以基本事件列举为:(a1,a2),(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),(b1,b2),(b1,b3),(b2,b3)共有10个;满足条件的事件是:(a1,b1),(a1,b2),(a1,b3),(a2,b1)(a2,b2),(a2,b3)共有6个;所以求得电话家访的两位居民恰好一位年龄在“51岁以上”,另一位年龄在“50岁以下”的概率为:x(x)=610=35.17.(2020•南宁二模)红铃虫(Pectinophoragossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度x(℃)的8组观测数据,制成图1所示的散点图.现用两种模型①y=e bx+a,①y=cx2+d分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.根据收集到的数据,计算得到如表值: xxx∑ 8x =1(x x −x )2∑ 8x =1(x x −x )2 ∑ 8x =1(x x −x )(x x −x ) ∑ 8x =1(x x −x )(x x −x ) 252.8964616842268848.4870308表中z i =lny i ;x =18∑ 8x =1x x ;x x =x x 2;x =18∑ 8x =1x x ;(1)根据残差图,比较模型①、①的拟合效果,应选择哪个模型?并说明理由;(2)根据(1)中所选择的模型,求出y 关于x 的回归方程(系数精确到0.01),并求温度为34℃时,产卵数y 的预报值.(参考数据:e 5.18≈178,e 5.46≈235,e 5.52≈250,e 5.83≈340)附:对于一组数据(ω1,v 1),(ω2,v 2),…,(ωn ,v n ),其回归直线x =x +x x 的斜率和截距的最小二乘估计分别为x =x x =1x −x )(x −x )∑ x x =1(x −x )2,x =x −x x .【解答】解:(1)应该选择模型①.由于模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄, 所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适. (2)令z =lny ,z 与温度x 可以用线性回归方程来拟合, 则x =x +x x , x =8x =1x −x )(x −x )∑ 8x =1(x −x )2=48.48168≈0.289,∴x =x −x x =2.89−0.289×25≈−4.34, 则z 关于x 的线性回归方程为x =0.29x −4.34. 于是有lny =0.29x ﹣4.34,∴产卵数y关于温度x的回归方程为x=x0.29x−4.34.当x=34时,y=e0.29×34﹣4.34=e5.52≈250(个).∴在气温在34℃时,一个红铃虫的产卵数的预报值为250个.18.(2020•中卫二模)某中学从甲乙两个教师所教班级的学生中随机抽取100人,每人分别对两个教师进行评分,满分均为100分,整理评分数据,将分数以10为组距分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100].得到甲教师的频率分布直方图,和乙教师的频数分布表:乙教师分数频数分布表分数区间频数[40,50)3[50,60)3[60,70)15[70,80)19[80,90)35[90,100]25(1)在抽样的100人中,求对甲教师的评分低于70分的人数;(2)从对乙教师的评分在[40,60)范围内的人中随机选出2人,求2人评分均在[50,60)范围内的概率;(3)如果该校以学生对老师评分的中位数是否大于80分作为衡量一个教师是否可评为该年度该校优秀教师的标准,则甲、乙两个教师中哪一个可评为年度该校优秀教师?(精确到0.1)【解答】解:(1)由甲教师分数的频率分布直方图得:(0.004+a+0.022+0.028+0.022+0.018)×10=1,解得a=0.006.对甲教师的评分低于70分的概率为:(0.004+0.006+0.022)×10=0.32,∴对甲教师的评分低于70分的人数为100×0.32=32.(2)对乙教师的评分在[40,50)范围内的有3人,设为A,B,C,对乙教师的评分在[50,60)范围内的有3人,设为a,b,c,从这6人中选出2人的选法有15种,分别为:AB,AC,Aa,Ab,Ac,BC,Ba,Bb,Bc,Ca,Cb,Cc,∴ab,ac,bc,2人评分均在[50,60)范围内包含的基本事件有3个,分别为:ab,ac,bc,∴2人评分均在[50,60)范围内的概率P=315=15.(3)由甲的频率分布直方图得甲在[40,80)的频率为:(0.004+0.006+0.022+0.028)×10=0.6,∴甲的中位数小于80,∴甲教师不能评为年度该校优秀教师,设乙教师评分的中位数为t,则0.4+(t﹣80)×0.035=0.5,解得t=82.9,∴乙教师能评为该年度该校优秀教师.19.(2020•汕头一模)从某小区抽取50户居民进行月用电量调查,发现其用电量都在50到350度之间,频率分布直方图如图1.(1)求频率分布直方图中x的值并估计这50户用户的平均用电量;(2)若将用电量在区间[50,150)内的用户记为A类用户,标记为低用电家庭,用电量在区间[250,350)内的用户记为B类用户,标记为高用电家庭,现对这两类用户进行问卷调查,让其对供电服务进行打分,打分情况见茎叶图如图2:①从B类用户中任意抽取1户,求其打分超过85分的概率;①若打分超过85分视为满意,没超过85分视为不满意,请填写下面列联表,并根据列联表判断是否有95%的把握认为“满意度与用电量高低有关”?满意不满意合计A类用户B类用户合计附表及公式:P(K2≥k0)0.0500.0100.001 k0 3.841 6.63510.828x2=x(xx−xx)2(x+x)(x+x)(x+x)(x+x),n=a+b+c+d.【解答】解:(1)x=150−(0.006+0.0036+0.0024×2+0.0012)=0.0044,按用电量从低到高的六组用户数分别为6,9,15,11,6,3,所以平均用电量为6×75+9×125+15×175+11×225+6×275+3×32550=186.(2)①B类用户共9人,打分超过8(5分)的有6人,所以打分超过8(5分)的概率为69=23.①满意不满意合计A类用户6915B类用户639合计121224x2=24×(6×9−6×3)212×12×9×15=1.6<3.841,所以没有95%的把握认为“满意度与用电量高低有关”.20.(2020•临汾模拟)随着医院对看病挂号的改革,网上预约成为了当前最热门的就诊方式,这解决了看病期间病人插队以及医生先治疗熟悉病人等诸多问题;某医院研究人员对其所在地区年龄在10~60岁间的n位市民对网上预约挂号的了解情况作出调查,并将被调查的人员的年龄情况绘制成频率分布直方图,如图所示.(1)若被调查的人员年龄在20~30岁间的市民有300人,求被调查人员的年龄在40岁以上(含40岁)的市民人数;(2)若按分层抽样的方法从年龄在[20,30)以内及[40,50)以内的市民中随机抽取10人,再从这10人中随机抽取3人进行调研,记随机抽的3人中,年龄在[40,50)以内的人数为X,求X的分布列以及数学期望.【解答】解:(1)由频率分布列知被调查的人员年龄在20~30岁间的市民的频率为0.030×10=0.3,∵被调查的人员年龄在20~30岁间的市民有300人,∴n=3000.3=1000,∵被调查人员的年龄在40岁以上(含40岁)的市民的频率为(0.020+0.005)×10=0.25,∴被调查人员的年龄在40岁以上(含40岁)的市民人数为:0.25×1000=250人.(2)年龄在[20,30)内的市民有:0.030×1000=300人,年龄在[40,50)内的市民有:0.020×1000=200人,按分层抽样的方法从年龄在[20,30)以内及[40,50)以内的市民中随机抽取10人,年龄在[20,30)内的市民抽中300×10300+200=6人,年龄在[40,50)内的市民抽中:200×10300+200=4人,再从这10人中随机抽取3人进行调研,记随机抽的3人中,年龄在[40,50)以内的人数为X,则X的可能取值为0,1,2,3,P(X=0)=x63x103=16,P(X=1)=x62x41x103=12,P(X=2)=x61x42x103=310,P(X=3)=x43x103=130,∴X的分布列为:X0123P1612310130EX=0×16+1×12+2×310+3×130=65.21.(2020•涪城区校级模拟)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关.现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,在将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100)分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率.(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2的列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?P(X2≥k)0.1000.0500.0100.001k 2.706 3.841 6.63510.828x2=x(xx−xx)2(x+x)(x+x)(x+x)(x+x).【解答】解:(1)由已知得:样本中有25周岁以上组工人60名,25周岁以下组工人40人,所以样本中日平均生产件数不足60件的工人中25周岁以上组有60×0.05=3人,分别记为:A 1,A 2,A 3,25周岁以下组有工人40×0.05=2人,分别记为B 1,B 2,从中随机抽取2人,所有可能的结果共10种,他们分别是(A 1,A 2),(A 1,A 3),(A 2,A 3),(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 2),(A 3,B 2),(B 1,B 2), 其中“至少有1名”,25周岁以下组的结果有7种, 故所求概率为P =710;(2)由频率分别直方图可知:在抽取的100名工人中, “25周岁以上组”中的生产能手60×0.25=15人, “25周岁以下组”中的生产能手40×0.375=15人, 据此可得2×2列联表:生产能手 非生产能手合计 25周岁以上组 15 45 60 25周岁以下组15 25 40 合计3070100所以K 2=x (xx −xx )2(x +x )(x +x )(x +x )(x +x )=100×(15×25−45×15)260×40×30×70≈1.786<2.706.所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.22.(2020•奎文区校级模拟)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值. xxx ∑ 8x =1(x 1−x →)2 ∑ 8x =1(w 1−x →)2 ∑ 8x =1(x 1−x →)(y −x →)∑ 8x =1(w 1−x →)(y −x →) 46.6 563 6.8289.8 1.6 1469108.8表中x x =√x x ,x →=18∑ 8x =1x x(Ⅰ)根据散点图判断,y =a +bx 与y =c +d √x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)以知这种产品的年利率z 与x 、y 的关系为z =0.2y ﹣x .根据(Ⅱ)的结果回答 当年宣传费x =49时,年销售量及年利润的预报值是多少?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归线v =α+βu 的斜率和截距的最小二乘估计分别为:x ^=x x =1x −x )(x −x )∑ x x =1(x −x )2x ^=x −x ^x .【解答】解:(Ⅰ)由散点图可以判断,y =c +d √x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (Ⅱ)令w =√x ,则y =c +dw , ∴d =108.81.6=68,c =563﹣68×6.8=100.6,∴y 关于w 的线性回归方程为y =100.6+68w , ∴y 关于x 的回归方程为y =100.6+68√x ,(Ⅲ)当x =49时,年销售量y 的预报值y =100.6+68√49=576.6. 年利润z 的预报值z =576.6×0.2﹣90=66.32.23.(2019•德州一模)改革开放以来,我国经济持续高速增长.如图给出了我国2003年至2012年第二产业增加值与第一产业增加值的差值(以下简称为:产业差值)的折线图,记产业差值为y (单位:万亿元). (1)求出y 关于年份代码t 的线性回归方程;(2)利用(1)中的回归方程,分析2003年至2012年我国产业差值的变化情况,并预测我国产业差值在哪一年约为34万亿元;(3)结合折线图,试求出除去2007年产业差值后剩余的9年产业差值的平均值及方差(结果精确到0.1). 附:回归直线的斜率和截距的最小二乘法估计公式分别为:x x =1x −x )(x −x )∑ x x =1(x −x )2,x =x −x x .样本方差公式:s 2=1x ∑ x x =1(y i −x )2.参考数据:x =110∑ 10x =1y i =10.8,∑ 10x =1(t i −x )(y i −x )=132,∑ 10x =1(y i −x )2=211.6.【解答】解:(1)x=110(1+2+3+…+9+10)=5.5,∑10x=1(xx −x)2=(x1−x)2+⋯+(x10−x)2=2×(4.52+3.52+2.52+1.52+0.52)=82.5.x=13282.5=1.6,x=x−x x=10.8﹣1.6×5.5=2,故回归方程是:x=1.6t+2;(2)由(1)知,x=1.6>0,故2003年至2012年我国产业差值逐年增加,平均每年增加1.6万亿元,令1.6t+2=34,解得:t=20,故预测在2022年我国产业差值为34万亿元;(3)结合折线图,2007年产业差值为10.8万亿元,除去2007年(t=5时)产业差值外的9年的产业差值平均值为:19×(10×10.8﹣10.8)=10.8,又∵∑10x=1(xx−x)2=211.6,故除去2007年(t=5时)产业差值外的9年的产业差值的方差为:19×[211.6﹣(10.8﹣10.8)2]≈23.5.24.(2018•新课标Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:未使用节水龙头50天的日用水量频数分布表。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五节 统计、统计案例高考试题考点一 抽样的方法1.(2013年新课标全国卷Ⅰ,理3)为了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是( ) (A)简单随机抽样(B)按性别分层抽样(C)按学段分层抽样 (D)系统抽样解析:由于小学、初中、高中三个学段学生的视力情况差异较大,而男女视力情况差异不大,因此可以按学段分层抽样.故选C. 答案:C2.(2013年安徽卷,理5)某班级有50名学生,其中有30名男生和20名女生,随机询问了该班五名男生和五名女生在某次数学测验中的成绩,五名男生的成绩分别为86,94,88,92,90,五名女生的成绩分别为88,93,93,88,93.下列说法一定正确的是( ) (A)这种抽样方法是一种分层抽样 (B)这种抽样方法是一种系统抽样(C)这五名男生成绩的方差大于这五名女生成绩的方差 (D)该班男生成绩的平均数小于该班女生成绩的平均数解析:本题采用简单随机抽样方法抽取样本,故选项A 、B 错误.因为5名男生成绩和5名女生成绩的平均数,与该班男生成绩的平均数与女生成绩的平均数不一定存在准确的对应关系,所以选项D 的说法不一定成立.对于C 项,男生成绩的平均数1x =90,女生成绩的平均数2x =91,故5名男生成绩的方差21s =15[(86-90)2+(94-90)2+(88-90)2+(92-90)2+(90-90)2]=8,5名女生成绩的方差22s =15[(88-91)2+(93-91)2+(93-91)2+(88-91)2+(93-91)2]=6,故选C. 答案:C3.(2013年江西卷,理4)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )(A)08 (B)07 (C)02(D)01解析:从左到右第1行的第5列和第6列数字是65,依次选取符合条件的数字分别是08,02,14,07,01,故选出来的第5个个体的编号为01. 答案:D考点二 统计图表1.(2013年福建卷,理4)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为( )(A)588 (B)480(C)450 (D)120解析:由题频率分布直方图得,该模块测试成绩不少于60分的学生人数为600×(0.030+0.025+0.015+0.010)×10=480.故选B.答案:B2.(2012年陕西卷,理6)从甲、乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示).设甲、乙两组数据的平均数分别为x甲,x乙,中位数分别为m甲,m乙,则( )(A) x甲<x乙,m甲>m乙 (B) x甲<x乙,m甲<m乙(C) x甲>x乙,m甲>m乙 (D) x甲>x乙,m甲<m乙解析:把数据从茎叶图中整理出来,甲的数据为:5,6,8,10,10,14,18,18,22,25,27,30,30,38,41,43;乙的数据为:10,12,18,20,22,23,23,27,31,32,34,34,38,42,43,48,所以x甲=116(5+6+8+10+10+14+18+18+22+25+27+30+30+38+41+43)=34516,x乙=116(10+12+18+20+22+23+23+27+31+32+34+34+38+42+43+48)=45716,显然x甲<x乙.又∵m甲=18222+=20,m乙=27312+=29,所以m甲<m乙.答案:B3.(2013年新课标全国卷Ⅱ,理19)经销商经销某种农产品,在一个销售季度内,每售出1 t该产品获利润500元,未售出的产品,每1 t亏损300元.根据历史资料,得到销售季度内市场需求量的频率分布直方图,如图所示.经销商为下一个销售季度购进了130 t该农产品.以X(单位:t,100≤X≤150)表示下一个销售季度内的市场需求量,T(单位:元)表示下一个销售季度内经销该农产品的利润.(1)将T表示为X的函数;(2)根据直方图估计利润T不少于57000元的概率;(3)在直方图的需求量分组中,以各组的区间中点值代表该组的各个值,并以需求量落入该区间的频率作为需求量取该区间中点值的概率(例如:若需求量X∈[100,110),则取X=105,且X=105的概率等于需求量落入[100,110)的频率),求T的数学期望.解:(1)当X∈[100,130)时,T=500X-300(130-X)=800X-39000,当X∈[130,150]时,T=500×130=65000,所以T=80039000,100130, 65000,130150.X XX-⎧⎨⎩≤<≤≤(2)由(1)知利润T不少于57000元当且仅当120≤X≤150.由直方图知需求量X∈[120,150]的频率为0.7,所以下一个销售季度内的利润T不少于57000元的概率的估计值为0.7.(3)依题意可得T的分布列为T45000530006100065000P0.10.20.30.4所以ET=45000×0.1+53000×0.2+61000×0.3+65000×0.4=59400.考点三样本的数字特征1.(2013年重庆卷,理4)如图所示茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( )(A)2,5 (B)5,5(C)5,8 (D)8,8解析:由甲组数据的中位数为15,得x=5.由乙组数据的平均数为16.8,得9+30+5+y+8+24=16.8×5,即76+y=84,解得y=8.故选C.答案:C2.(2012年安徽卷,理5)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )(A)甲的成绩的平均数小于乙的成绩的平均数(B)甲的成绩的中位数等于乙的成绩的中位数(C)甲的成绩的方差小于乙的成绩的方差(D)甲的成绩的极差小于乙的成绩的极差解析:甲射击比赛中靶4,5,6,7,8环各1次,则甲成绩的中位数为6环,平均数为6环,极差为4环,方差为2平方环;乙射击比赛中靶5环3次,6环1次,9环1次,则乙成绩的中位数为5环,平均数为6环,极差为4环,方差为2.4平方环.所以甲成绩的方差比乙成绩的方差小.故选C.答案:C3.(2012年江西卷,理9)样本(x1,x2,…,x n)的平均数为x,样本(y1,y2,…,y m)的平均数为y(x≠y).若样本(x1,x2,…,x n,y1,y2,…,y m)的平均数z=αx+(1-α)y,其中0<α<12,则n,m的大小关系为( )(A)n<m (B)n>m(C)n=m (D)不能确定解析:依题意得x1+x2+…+x n=n x,y1+y2+…+y m=m y,x1+x2+…+x n+y1+y2+…+y m=(m+n)z=(m+n)αx+(m+n)(1-α) y,所以n x+m y=(m+n)αx+(m+n)(1-α)y,所以()()(),1, n m n am m n a ⎧=+⎪⎨=+-⎪⎩于是有n-m=(m+n)[α-(1-α)]=(m+n)(2α-1).因为0<α<1 2 ,所以2α-1<0.又m+n>0,所以n-m<0.即n<m.故选A.答案:A4.(2011年江苏卷,6)某老师从星期一到星期五收到的信件数分别为10,6,8,5,6,则该组数据的方差s2= .解析:由于这5个数的平均数x=15×(10+6+8+5+6)=7,因此该组数据的方差s2=15[(10-7)2+(6-7)2+(8-7)2+(5-7)2+(6-7)2]=3.2.答案:3.2考点四变量的相关性1.(2012年湖南卷,理4)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为ˆy=0.85x-85.71,则下列结论中不正确的是( )(A)y与x具有正的线性相关关系(B)回归直线过样本点的中心(x,y)(C)若该大学某女生身高增加1 cm,则其体重约增加0.85 kg(D)若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg解析:根据线性回归方程相关知识可知选项A、B、C是正确的.而由回归方程得到的是预报变量的可能取值的平均值,不是预报变量的精确值,故选D.答案:D2.(2011年陕西卷,理9)设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图所示),以下结论中正确的是( )(A)x和y的相关系数为直线l的斜率(B)x和y的相关系数在0到1之间(C)当n为偶数时,分布在l两侧的样本点的个数一定相同(D)直线l过点(x,y)解析:相关系数是表示两个变量是否具有线性相关关系的量,可正可负也可为0,它的绝对值越接近1两变量相关性越强.因此A、B错,线性回归直线两侧样本点个数不一定相同,故C错.回归直线恒过样本中心(x,y).选项D正确.答案:D3.(2011年江西卷,理6)变量X和Y对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )(A)r2<r1<0 (B)0<r2<r1(C)r2<0<r1(D)r2=r1解析:对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0.所以有r2<0<r1.故选C.答案:C4.(2011年山东卷,理7)某产品的广告费用x与销售额y的统计数据如下表:广告费用x/万元4235销售额y/万元49263954根据上表可得回归方程ˆy=b x+ˆa中的b为9.4,据此模型预报广告费用为6万元时销售额为( )(A)63.6万元(B)65.5万元(C)67.7万元(D)72.0万元解析:线性回归直线过定点(x,y),y=492639544+++=42, x=3.5,代入ˆa=y-ˆb x得ˆa=42-9.4×3.5=9.1,所以ˆy=6×9.4+9.1=65.5(万元).答案:B5.(2011年辽宁卷,理14)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:ˆy=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加万元. 解析:由回归直线方程可知,x每增加1,ˆy增加0.254,从而家庭年收入每增加1万元,年饮食支出平均增加0.254万元.答案:0.2546.(2011年广东卷,理13)某数学老师的身高为176 cm,他爷爷、父亲和儿子的身高分别是173 cm,170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为cm.解析:儿子和父亲的身高可列表如下:(单位:cm)父亲身高x173170176儿子身高y170176182设回归直线方程为ˆy=ˆa+ˆb x,由表中数据可求得x=173, y=176,∴ˆb=()()()31321i iiiix x y yx x==---∑∑=()223633⨯+-=1,ˆa=y-ˆb x=3,故回归直线方程为ˆy=x+3.当x=182时, ˆy=182+3=185.故预测他孙子的身高为185 cm.答案:185考点五独立性检验(2012年辽宁卷,理19)电视传媒公司为了解某地区某类体育节目的收视情况,随机抽取了100名观众进行调查.如图所示的是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.(1)根据已知条件完成下面的2×2列联表,据此资料,你是否认为“体育迷”与性别有关?非体育迷体育迷总计男女1055总计(2)将上述调查得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中“体育迷”的人数为X.若每次抽取的结果是相互独立的,求X的分布列、期望E(X)和方差D(X).附:χ2=()211221221n n n n nn n n n-++.P(χ2≥k)0.050.01 k 3.841 6.635解:(1)由频率分布直方图可知在抽取的100人中,“体育迷”有25人,从而2×2列联表补充如下:非体育迷体育迷总计男301545女451055总计7525100将2×2列联表中的数据代入公式计算,得χ2=()2 1003010451575254555⨯-⨯⨯⨯⨯=10033≈3.030.因为3.030<3.841,所以没有足够的把握认为“体育迷”与性别有关.(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为14.由题意知X ~B(3, 14),从而X 的分布列为: X 0123P27642764964164所以E(X)=np=3×14=34,D(X)=np(1-p)=3×14×34=916. 模拟试题考点一 抽样方法1.(2013北京市丰台区期末)某高中共有学生900人,其中高一年级240人,高二年级260人,为做某项调查,拟采用分层抽样法抽取容量为45的样本,则在高三年级抽取的人数是 .解析:高三的人数为400, 所以在高三抽取的人数为45900×400=20. 答案:202.(2013青岛一中调研)某班级有50名学生,现要采取系统抽样的方法在这50名学生中抽出10名学生,将这50名学生随机编号1~50号,并分组,第一组1~5号,第二组6~10号,……,第十组46~50号,若在第三组中抽得号码为12的学生,则在第八组中抽得号码为 的学生.解析:因为12=5×2+2,即第三组抽出的是第二个同学, 所以每一组都相应抽出第二个同学. 所以第8组中抽出的号码为5×7+2=37号. 答案:37考点二 统计图表1.(2013云南师大附中检测)甲、乙两名运动员在某项测试中的6次成绩的茎叶图如图所示,,分别表示甲乙两名运动员这项测试成绩的平均数,s 1,s 2分别表示甲乙两名运动员这项测试成绩的标准差,则有( )(A)1x >2x ,s 1<s 2 (B)1x =2x ,s 1=s 2 (C)1x =2x ,s 1<s 2(D)1x =2x ,s 1>s 2解析:由样本中数据可知1x =15, 2x =15, 由茎叶图得s 1<s 2, 所以选C. 答案:C2.(2013贵州省六校联考)某同学学业水平考试的9科成绩如茎叶图所示,则根据茎叶图可知该同学的平均分为 .解析:19(68+72+73+78×2+81+89×2+92)=7209=80.答案:803.(2013北京市西城区期末)为了解学生的身体状况,某校随机抽取了一批学生测量体重.经统计,这批学生的体重数据(单位:千克)全部介于45至70之间.将数据分成以下5组:第1组[45,50),第2组[50,55),第3组[55,60),第4组[60,65),第5组[65,70],得到如图所示的频率分布直方图.现采用分层抽样的方法,从第3,4,5组中随机抽取6名学生做初检.(1)求每组抽取的学生人数;(2)若从6名学生中再次随机抽取2名学生进行复检,求这2名学生不在同一组的概率.解:(1)由频率分布直方图知,第3,4,5组的学生人数之比为3∶2∶1.所以,每组抽取的人数分别为:第3组:36×6=3;第4组:26×6=2;第5组:16×6=1.所以从第3,4,5组应依次抽取3名学生,2名学生,1名学生.(2)记“从6名学生中抽取2名学生不在同一组”为事件A,则P(A)=11111131213226C C C C C CC+⋅+⋅=1115.考点三样本的数字特征1.(2012西安五校模拟)已知一组正数x1,x2,x3,x4的方差s2=14(22221234x x x x+++-16),则数据x1+2,x2+2,x3+2,x4+2的平均数为( ) (A)2 (B)3 (C)4 (D)6解析:设x1,x2,x3,x4的平均值为x,则s2=14[(x1-x)2+(x2-x)2+(x3-x)2+(x4-x)2]=14(22221234x x x x+++-42x),∴42x=16,∴x =2,∴x 1+2,x 2+2,x 3+2,x 4+2的平均数为4. 答案:C2.(2013昆明一中检测)某学校想要调查全校同学是否知道迄今为止获得过诺贝尔物理奖的6位华人的姓名,为此出了一份考卷.该卷共有6个单选题,每题答对得20分,答错、不答得零分,满分120分.阅卷完毕后,校方公布每题答对率如下:则此次调查全体同学的平均分数是 分.解析:假设全校人数有x 人,则每道试题答对人数及总分分别为所以六个题的总分为66x,所以平均分为66xx=66. 答案:66考点四 线性回归方程1.(2013青岛一中调研)某学生四次模拟考试中,其英语作文的减分情况如下表:显然所减分数y 与模拟考试次数x 之间有较好的线性相关关系,则其线性回归方程为( )(A)y=0.7x+5.25 (B)y=-0.6x+5.25 (C)y=-0.7x+6.25(D)y=-0.7x+5.25解析:由题意可知,所减分数y 与模拟考试次数x之间为负相关,所以排除A. 考试次数的平均数为x =14(1+2+3+4)=2.5, 所减分数的平均数为y =14(4.5+4+3+2.5)=3.5, 即直线应该过点(2.5,3.5),代入验证可知直线y=-0.7x+5.25成立,故选D. 答案:D2.(2012湘潭三模)某种产品的广告支出x 与销售额y(单位:百万元)之间有如下的对应关系:(1)假定x 与y 之间具有线性相关关系,求回归方程;(2)若实际销售额不少于60百万元,则广告支出应该不少于多少?参考公式: ˆb=1221ni ii nii x ynx y xnx==--∑∑,ˆa=y -ˆb x . 解:(1)∵x =15×(2+4+5+6+8)=5, y =15×(30+40+60+50+70)=50,521ii x=∑=22+42+52+62+82=145,51i ii x y=∑=2×30+4×40+5×60+6×50+8×70=1380,∴ˆb=51522155i ii ii x yx y xx==--∑∑=21380555014555-⨯⨯-⨯=6.5,ˆa=y -ˆb x =50-6.5×5=17.5. ∴回归方程为ˆy=6.5x+17.5. (2)由回归方程得ˆy ≥60,即6.5x+17.5≥60, 解得x ≥8513≈6.54. 故广告支出应该不少于6.54百万元.考点五 独立检验1.(2012枣庄模拟)下面是2×2列联表:则表中a,b 的值分别为( )(A)94,72 (B)52,50 (C)52,74 (D)74,52 解析:∵a+21=73,∴a=52, 又a+22=b,∴b=74. 答案:C2.(2012汕头期末)下列命题中假命题是( )(A)对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的可信程度越大(B)用相关指数R 2来刻画回归的效果时,R 2的值越大,说明模型拟合的效果越好(C)两个随机变量的相关性越强,相关系数的绝对值越接近1 (D)等高条形图可以展示2×2列联表数据的频率特征解析:K 2的观测值k 越大,“X 与Y 有关系”的可信程度越大.答案:A综合检测1.(2011汕头期末)下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据:如果根据上表提供的数据求出y 关于x 的线性回归方程为y =0.7x+0.35,那么表中t 的值为( )(A)3 (B)3.15 (C)3.5(D)4.5解析:由y=0.7x+0.35得2.54 4.54t+++=0.7×34564++++0.35,即114t+=3.5,解得t=3.答案:A2.(2011佛山联考)一个总体分为A,B两层,用分层抽样方法从总体中抽取一个容量为30的样本,已知B层中每个个体被抽到的概率都是112,则总体中的个体数为.解析:因为分层抽样为等可能抽样,故每个个体被抽到的可能性都是相等的.设总体中的个体数为n,则30n=112,∴n=360.答案:3603.(2012广州期末)在一次调研中,随机调查了某社区若干居民的年龄,将调查数据绘制成如图所示的扇形和条形统计图,则a-b= .(60以上含60)解析:设共调查了x名居民的年龄,由x·46%=230,得x=500,于是得a=100500×100%=20%,b=1-(20%+46%+22%)=12%.故a-b=8%.答案:8%。