通用版2020版高考数学大二轮复习能力升级练十一统计与统计案例文

合集下载

(通用版)2020版高考数学大二轮复习升级练 计数原理、二项式定理与随机变量及其分布列(理)

(通用版)2020版高考数学大二轮复习升级练 计数原理、二项式定理与随机变量及其分布列(理)

能力升级练(十三) 计数原理、二项式定理与随机变量及其分布列一、选择题1.(2019广东惠州第二次调研)设随机变量ξ服从正态分布N(4,3),若P(ξ<a-5)=P(ξ>a+1),则实数a等于() A.7 B.6 C.5 D.4ξ服从正态分布N(4,3)可得正态分布密度曲线的对称轴为直线x=4,又P(ξ<a-5)=P(ξ>a+1),所以x=a-5与x=a+1关于直线x=4对称,所以a-5+a+1=8,即a=6.故选B.2.将4名学生分配到甲、乙、丙3个实验室准备实验,每个实验室至少分配1名学生的不同分配方案共有()A.12种B.24种C.36种D.48种4名学生分成三组,人数分别为2,1,1,共有C42=6种,再将这三组分配到3个实验室,有A33=6种,由分步乘法计数原理,不同分配方案共有6×6=36种.3.从8名女生和4名男生中,抽取3名学生参加某档电视节目,如果按性别比例分层抽样,则不同的抽取方法数为()A.224B.112C.56D.28,从12个人中抽取男生1人,女生2人,所以取2个女生1个男生的方法有C82C41=112(种),故选B.4.用1,2,3,4,5组成无重复数字的五位数,若用a1,a2,a3,a4,a5分别表示五位数的万位、千位、百位、十位、个位上的数,则出现a1<a2<a3>a4>a5特征的五位数的概率为()A.110B.120C.124D.310可组成A55=120个不同的五位数,其中满足题目条件的五位数中,最大的5必须排在中间,左、右各两个数字只要选出,则排列位置就随之而定,满足条件的五位数有C42C22=6个,故出现a1<a2<a3>a4>a5特征的五位数的概率为6120=120.5.(2018河北“五个一名校联盟”模拟)(√2x2-x4)3的展开式中的常数项为()A.-3√2B.3√2C.6D.-6T r+1=C3x(√2x2)3-x(-x4)r=C3x(√2)3-r·(-1)r x-6+6r,当-6+6r=0,即r=1时为常数项,T2=-6,故选D.6.篮球比赛中每支球队的出场阵容由5名队员组成.2017年的NBA篮球赛中,休斯敦火箭队采取了“八人轮换”的阵容,即每场比赛只有8名队员有机会出场,这8名队员中包含两名中锋,两名控球后卫,若要求每一套出场阵容中有且仅有一名中锋,至少包含一名控球后卫,则休斯敦火箭队的主教练可选择的出场阵容共有()A.16种B.28种C.84种D.96种:①中锋1人,控球后卫1人,出场阵容有C21C21C43=16(种);②中锋1人,控球后卫2人,出场阵容有C21C22C42=12(种).故出场阵容共有16+12=28(种).故选B.7.某航母在一次舰载机起降飞行训练中,有5架舰载机准备着舰.如果甲、乙2架必须相邻着舰,而丙、丁不能相邻着舰,那么不同的着舰方法有()种.A.12B.18C.24D.48.先安排丙、丁以外的三架,有A22×A22=4种排法;此时产生三个空位,安排丙、丁,共有A32=6种排法,所以不同的着舰方法有4×6=24种.8.若(x2-a)(x+1x)10的展开式中x6的系数为30,则a等于()A.13B.12C.1D.2,(x+1x )10的展开式的通项公式是T r+1=C10x·x10-r·(1x)x=C10x·x10-2r,(x+1x)10的展开式中含x4(当r=3时)、x6(当r=2时)项的系数分别为C103、C102,因此由题意得C103-a C102=120-45a=30,由此解得a=2.9.若m,n均为非负整数,在做m+n的加法时各位均不进位(例如:134+3 802=3 936),则称(m,n)为“简单的”有序对,而m+n称为有序对(m,n)的值,那么值为1 942的“简单的”有序对的个数是()A.100B.150C.30D.300,1=1+0,1=0+1,共2种组合方式;第二步,9=0+9,9=1+8,9=2+7,9=3+6,…,9=9+0,共10种组合方式;第三步,4=0+4,4=1+3,4=2+2,4=3+1,4=4+0,共5种组合方式;第四步,2=0+2,2=1+1,2=2+0,共3种组合方式.根据分步乘法计数原理知,值为1942的“简单的”有序对的个数是2×10×5×3=300.故选D.二、填空题10.已知(x √x )5的展开式中x 5的系数为A ,x 2的系数为B ,若A+B=11,则a= .T r+1=C 5x x 5-r(√x)x=C 5x (-a )rx 5-32x.由5-32r=5,得r=0,由5-32r=2,得r=2,所以A=C 50×(-a )0=1,B=C 52×(-a )2=10a 2,则由1+10a 2=11,解得a=±1.111.航天员拟在太空授课,准备进行标号为0,1,2,3,4,5的六项实验,向全世界人民普及太空知识,其中0号实验不能放在第一项,最后一项的标号小于它前面相邻一项的标号,则实验顺序的编排方法种数为 .(用数字作答)0号实验不能放在第一项,所以第一步是从1,2,3,4,5的五项实验任选一个放在第一项,有A 51;第二步:从剩下的五项实验中任取三个放在第二、三、四项,有A 53种不同的方法;第三步:最后剩下两项实验,标号较大的放在第五项,较小的放在第六项,只有这一种方法;根据分步乘法计数原理,实验顺序的编排方法种数为A 51·A 53·1=300.12.某商场在儿童节举行回馈顾客活动,凡在商场消费满100元者即可参加射击赢玩具活动,具体规则如下:每人最多可射击3次,一旦击中,则可获奖且不再继续射击,否则一直射满3次为止.设甲每次击中的概率为p (p ≠0),射击次数为η,若η的均值E (η)>74,则p 的取值范围是 .P (η=1)=p ,P (η=2)=(1-p )p ,P (η=3)=(1-p )2,则E (η)=p+2(1-p )p+3(1-p )2=p 2-3p+3>74,解得p>52或p<12,又p ∈(0,1),所以p ∈(0,12).0,12)13.江湖传说,蜀中唐门配制的天下第一奇毒“含笑半步癫”是由3种藏红花,2种南海毒蛇和1种西域毒草顺次添加炼制而成,其中藏红花的添加顺序不能相邻,同时南海毒蛇的添加顺序也不能相邻.现要研究所有不同添加顺序对药效的影响,则总共要进行 次试验.3种藏红花排好后,4种情形里2种南海毒蛇和1种西域毒草的填法分别有A 33种、C 21A 22种、C 21A 22种、A 33种,于是符合题意的添加顺序有A 33(A 33+C 21A 22+C 21A 22+A 33)=120(种).三、解答题14.(2019贵州贵阳模拟)某高校通过自主招生方式在贵阳招收一名优秀的高三毕业生,经过层层筛选,甲、乙两名学生进入最后测试,该校设计了一个测试方案:甲、乙两名学生各自从6个问题中随机抽3个问题.已知这6个问题中,学生甲能正确回答其中的4个问题,而学生乙能正确回答每个问题的概率均为23,甲、乙两名学生对每个问题的回答都是相互独立、互不影响的. (1)求甲、乙两名学生共答对2个问题的概率;(2)请从期望和方差的角度分析,甲、乙两名学生哪位被录取的可能性更大?由题意可得,所求概率为P=C 41C 22C 6×C 31×23×(13)2+C 42C 21C 6×C 30×(23)0×(13)3=115.(2)设学生甲答对的题数为X ,则X 的所有可能取值为1,2,3.P (X=1)=C 41C 22C 63=15,P (X=2)=C 42C 21C 63=35,P (X=3)=C 43C 2C 63=15,E (X )=1×15+2×35+3×15=2,D (X )=(1-2)2×15+(2-2)2×35+(3-2)2×15=25.设学生乙答对的题数为Y ,则Y 的所有可能取值为0,1,2,3.由题意可知Y~B (3,23),所以E (Y )=3×23=2,D (Y )=3×23×13=23.因为E (X )=E (Y ),D (X )<D (Y ), 所以甲被录取的可能性更大.15.(2019吉林长春质量监测(二))某种植园在芒果临近成熟时,随机从一些芒果树上摘下100个芒果,其质量分别在[100,150),[150,200),[200,250),[250,300),[300,350),[350,400](单位:克)中,经统计得频率分布直方图如图所示.(1)现按分层抽样的方法,从质量为[250,300),[300,350)的芒果中随机抽取9个,再从这9个中随机抽取3个,记随机变量X 表示质量在[300,350)内的芒果个数,求X 的分布列及数学期望; (2)以各组数据的中间数代表这组数据的平均值,将频率视为概率,某经销商来收购芒果,该种植园中还未摘下的芒果大约还有10 000个,经销商提出如下两种收购方案:A :所有芒果以10元/千克收购;B :对质量低于250克的芒果以2元/个收购,高于或等于250克的以3元/个收购.通过计算确定种植园选择哪种方案获利更多?个芒果中,质量在[250,300)和[300,350)内的分别有6个和3个.则X 的可能取值为0,1,2,3.P (X=0)=C 63C 93=2084,P (X=1)=C 62C 31C 93=4584,P (X=2)=C 61C 32C 93=1884,P (X=3)=C 33C 93=184.所以X 的分布列为X 的数学期望E (X )=0×2084+1×4584+2×1884+3×184=1.(2)设选择方案A 可获利y 1元,则y 1=(125×0.002+175×0.002+225×0.003+275×0.008+325×0.004+375×0.001)×50×10000×10×0.001=25750.设选择方案B ,从质量低于250克的芒果中获利y 2元,从质量高于或等于250克的芒果中获利y 3元,则y 2=(0.002+0.002+0.003)×50×10000×2=7000.y 3=(0.008+0.004+0.001)×50×10000×3=19500. y 2+y 3=7000+19500=26500.由于25750<26500,故B 方案获利更多,应选B 方案.。

2020届高三数学二轮复习(文理通用)《统计和统计案例》专题训练

2020届高三数学二轮复习(文理通用)《统计和统计案例》专题训练

2020届高三数学二轮复习(文理)《统计与统计案例》专题训练一.选择题(本大题共12小题)1.某大学中文系共有本科生5 000人,期中一、二、三、四年级的学生比为5:4:3:1,要用分层抽样的方法从该系所有本科生中抽取一个容量为260的样本,则应抽二年级的学生()A.100人B.60人C.80人D.20人2.某工厂为了对40个零件进行抽样调查,将其编号为00,01,…,38,39.现要从中选出5个,利用下面的随机数表,从第一行第3列开始,由左至右依次读取,则选出来的第5个零件编号是()0347 4373 8636 9647 3661 4698 6371 6233 2616 8045 6011 1410 9577 7424 6762 4281 1457 2042 5332 3732 2707 3607 5124 5179 A.36B.16C.11D.143.某校有高一学生n名,其中男生数与女生数之比为6:5,为了解学生的视力情况,的样本,若样本中男生比女生多12现要求按分层抽样的方法抽取一个样本容量为n10人,则n=()A.990B.1320C.1430D.15604.某市重点中学奥数培训班共有14人,分为两个小组,在一次阶段考试中两个小组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是88,乙组学生成绩的中位数是 的值是()89,则m nA.10 B.11 C.12D.135.下列说法中错误的个数是()①从某社区65户高收入家庭,280户中等收入家庭,105户低收入家庭中选出100户调查社会购买力的某一项指标,应采用的最佳抽样方法是分层抽样x y②线性回归直线ŷ=b̂x+â一定过样本中心点(,)③对于一组数据1,2,3,4,5,如果将它们改变为11,12,13,14,15,则平均数与方差均发生变化④若一组数据1、a、2、3的众数是2,则这组数据的中位数是2⑤用系统抽样方法从编号为1,2,3,…,700的学生中抽样50人,若第2段中编号为20的学生被抽中,按照等间隔抽取的方法,则第5段中被抽中的学生编号为76. A .0B .1C .2D .36.某学校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是17.5,30],样本数据分组为17.5,20),20,22.5),22.5,25),25,27.5),27.5,30).根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )A .56B .60C .140D .1207.已知变量x 、y 的取值如下表所示,若y 与x 线性相关,且0.5ˆyx a =+,则实数a =( )A .3.5B .2.2C .4.8D .3.28.现有一组数据()11,x y ,()22,x y ,()33,x y ,()44,x y ,()55,x y ,根据收集到的数据可知9x =,由最小二乘法求得回归直线方程为 1.20.8y x =+,则12345y y y y y ++++=( )A .11.6B .11C .58D .559.在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生在规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( ) A .甲地:总体均值为3,中位数为4 B .乙地:总体均值为1,总体方差大于0 C .丙地:中位数为2,众数为3D .丁地:总体均值为2,总体方差为310.AQI 即空气质量指数,AQI 越小,表明空气质量越好,当AQI 不大于100时称空气质量为“优良”.如图是某市3月1日到12日AQI 的统计数据.则下列叙述正确的是( )A .这12天的AQI 的中位数是90B .12天中超过7天空气质量为“优良”C .从3月4日到9日,空气质量越来越好D .这12天的AQI 的平均值为100 11.已知一组数据丢失了其中一个,另外六个数据分别是10,8,8,11,16,8,若这组数据的平均数、中位数、众数依次成等差数列,则丢失数据的所有可能值的和为( ) A .12B .20C .25D .2712.通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列联表:由2222()110(40302030),7.8()()()()60506050n ad bc K K a b c d a c b d -⨯⨯-⨯==≈++++⨯⨯⨯算得 附表:参照附表,得到的正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 二.填空题(本大题共4小题)13.总体由编号为010*******⋯,,,,,的50个个体组成,利用随机数表(以下选取了随机数表中的第1行和第2行)选取5个个体,选取方法是从随机数表第1行的第9列开始由左向右读取,则选出来的第5个个体的编号为______________;14.某种品牌汽车的销量y (万辆)与投入宣传费用x (万元)之间具有线性相关关系,样本数据如下表所示:经计算得回归直线方程ˆˆˆybx a =+的斜率为0.7,若投入宣传费用为8万元,则该品牌汽车销量的预测值为________________万辆.15.有两个分类变量x 和y ,其中一组观测值为如下的2×2列联表:其中a ,15a -均为大于5的整数,则a =__________时,在犯错误的概率不超过0.01的前提下为“x 和y 之间有关系”.附:()()()()()22n ad bc K a b c d a c b d -=++++16.已知一组数据1x ,2x ,3x ,…,n x 的平均数为x ,方差为2S .若131x +,231x +,331x +,…,31n x +的平均数比方差大4,则22S x -的最大值为_________三.解答题(本大题共6小题)17.为了调查一款手机的使用时间,研究人员对该款手机进行了相应的测试,将得到的数据统计如下图所示:并对不同年龄层的市民对这款手机的购买意愿作出调查,得到的数据如下表所示:(1)根据图中的数据,试估计该款手机的平均使用时间;(2)请将表格中的数据补充完整,并根据表中数据,判断是否有99.9%的把握认为“愿意购买该款手机”与“市民的年龄”有关.参考公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.参考数据:18. 某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:为了研究计算的方便,工作人员将上表的数据进行了处理,2010,5t x z y =-=-得到下表2: (1)求z 关于t 的线性回归方程;(2)通过(Ⅰ)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?(附:对于线性回归方程ˆˆˆybx a =+,其中1221ˆˆˆ,ni ii nii x y nx yb ay bx xnx ==-⋅==--∑∑)19. 树立和践行“绿水青山就是金山银山,坚持人与自然和谐共生”的理念越来越深入人心,已形成了全民自觉参与,造福百姓的良性循环.据此,某网站退出了关于生态文明建设进展情况的调查,调查数据表明,环境治理和保护问题仍是百姓最为关心的热点,参与调查者中关注此问题的约占80%.现从参与关注生态文明建设的人群中随机选出200人,并将这200人按年龄分组:第1组[15,25),第2组[25,35),第3组[35,45),第4组[45,55),第5组[55,65),得到的频率分布直方图如图所示.(1)求出a的值;(2)求出这200人年龄的样本平均数(同一组数据用该区间的中点值作代表)和中位数(精确到小数点后一位);(3)现在要从年龄较小的第1,2组中用分层抽样的方法抽取5人,再从这5人中随机抽取3人进行问卷调查,求第2组恰好抽到2人的概率.20.“学习强国”学习平台是由中宣部主管,以深入学习宣传习近平新时代中国特色社会主义思想为主要内容,立足全体党员,面向全社会的优质平台,现日益成为老百姓了解国家动态,紧跟时代脉博的热门APP,某市宣传部门为了解全民利用“学习强国”了解国家动态的情况,从全市抽取2000名人员进行调查,统计他们每周利用“学习强国”的时长,如图是根据调查结果绘制的频率分布直方图.(1)根据图,求所有被抽查人员利用“学习强国”的平均时长和中位数;(2)宣传部为了了解大家利用“学习强国”的具体情况,准备采用分层抽样的方法从[]10,12组中抽取50人了解情况,则两组各抽取多少人?再利用分层抽样从8,10和[]抽取的50人中选5人参加一个座谈会.现从参加座谈会的5人中随机抽取两人发言,10,12小组中至少有1人发言的概率?求[]21.已知鲜切花A的质量等级按照花枝长度L进行划分,划分标准如下表所示.某鲜切花加工企业分别从甲、乙两个种植基地购进鲜切花A,现从两个种植基地购进的鲜切花A中分别随机抽取30个样品,测量花枝长度并进行等级评定,所抽取样品数据如图所示.(1)根据茎叶图比较两个种植基地鲜切花A的花枝长度的平均值及分散程度(不要求计算具体值,给出结论即可);(2)若从等级为三级的样品中随机选取2个进行新产品试加工,求选取的2个全部来自乙种植基地的概率;(3)根据该加工企业的加工和销售记录,了解到来自乙种植基地的鲜切花A的加工产品的单件利润为4元;来自乙种植基地的鲜切花A的加工产品的单件成本为10元,销售率(某等级产品的销量与产量的比值)及单价如下表所示.由于鲜切花A加工产品的保鲜特点,未售出的产品均可按原售价的50%处理完毕.用样本估计总体,如果仅从单件产品的利润的角度考虑,该鲜切花加工企业应该从哪个种植基地购进鲜切花A?22.某企业积极响应国家“科技创新”的号召,大力研发人工智能产品,为了对一批新研发的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到一组销售数据(),i i x y (1,2,3,4,5,6)i =,如下表所示:附:参考公式:()()()1122211ˆnniii ii i nniii i x x y y x y nxybx x xnx ====---==--∑∑∑∑,ˆ=-ay bx , 参考数据:611806i i y y ===∑,611606i i i x y ==∑,62191i i x ==∑.(1)求p 的值;(2)已知变量x ,y 具有线性相关关系,求产品销量y (件)关于试销单价x (百元)的线性回归方程ˆˆˆy bx a =+(计算结果精确到整数位);(3)用ˆi y表示用正确的线性回归方程得到的与i x 对应的产品销量的估计值.当销售数据(),i i x y 的残差的绝对值ˆ1i i yy -<时,则将销售数据称为一个“有效数据”.现从这6组销售数据中任取2组,求抽取的2组销售数据都是“有效数据”的概率.参考答案一.选择题:本大题共12小题.13.43 14.5.95 15.9 16.-1三.解答题:本大题共6小题. 17.【解析】(1)40.05240.09640.071040.031440.01187.76⨯⨯+⨯⨯+⨯⨯+⨯⨯+⨯⨯=该款手机的平均使用时间为7.76年. (2)()222000400200600800333.310.828120080010001000K ⨯-⨯==>⨯⨯⨯可知有99.9%的把握认为“愿意购买该款手机”与“市民的年龄”有关. 18.【解析】(1)3t =,512.2i i i z t z ==∑,52155ii t==∑,4553 2.2 1.25559b )-⨯⨯==-⨯, 2.23 1.2 1.4a z bt =-=-⨯=-), 1.2 1.4z t ∴=-(2)2010t x =-,5z y =-,代入 1.2 1.4z t =-得到:()5 1.22010 1.4y x -=--,即 1.22408.4y x =-(3) 1.220202408.415.6y ∴=⨯-=,19.【解析】(1)由()100.0100.0150.0300.0101a ⨯++++=,得0.035a =, (2)平均数为200.1300.15400.35500.3600.141.5⨯+⨯+⨯+⨯+⨯=岁;设中位数为x ,则()100.010100.015350.0350.5x ⨯+⨯+-⨯=,Ⅰ42.1x ≈岁. (3)第1,2组抽取的人数分别为20人,30人,从第1,2组中用分层抽样的方法抽取5人,则第1,2组抽取的人数分别为2人,3人,分别记为12123,,,,a a b b b .设从5人中随机抽取3人,为(121,,a a b ),(122,,a a b ),(123,,a a b ),(112,,a b b ),(113,,a b b ),(123,,a b b ),(212,,a b b ),(213,,a b b ),(223,,a b b ),(123,,b b b ), 共10个基本事件,其中第2组恰好抽到2人包含(112,,a b b ),(113,,a b b ),(123,,a b b ),(212,,a b b ),(213,,a b b ),(223,,a b b )共6个基本事件,从而第2组抽到2人的概率63105== 20.【解析】(1)设抽查人员利用“学习强国”的平均时长为x ,中位数为y 0.0510.130.2550.370.1590.1110.0513 6.8x =⨯+⨯+⨯+⨯+⨯+⨯+⨯= 设抽查人员利用“学习强国”的中位数为y ,()0.050.10.250.1560.5y +++⨯-=,解得203y =, 即抽查人员利用“学习强国”的平均时长为6.8,中位数为203. (2)[]8,10组的人数为20000.15300⨯=人,设抽取的人数为a ,[]10,12组的人数为20000.1200⨯=人,设抽取的人数为b 则50300200500a b ==,解得30a =,20b =, 所以在[]8,10和[]10,12两组中分别抽取30人和20人,再抽取5人,两组分别抽取3人和2人,将[]8,10组中被抽取的工作人员标记为1A ,2A ,3A ,将[]10,12中的标记为1B ,2B . 设事件C 表示从[]10,12小组中至少抽取1人,则抽取的情况如下:{}12,A A ,{}13,A A ,{}11,A B ,{}12,A B ,{}23,A A ,{}21,A B ,{}22,A B ,{}31,A B ,{}32,A B ,{}12,B B 共10种情况,其中在[]10,12中至少抽取1人有7种,则()710P C =.21.【解析】(1)由茎叶图可以看出,乙种植基地鲜切花A 的花枝长度的平均值大于甲种植基地鲜切花A 的花枝长度的平均值,甲种植基地鲜切花A 的花枝长度相对于乙种植基地来说更为集中.(2)由题意知,三级的样品共5个,其中,来自甲基地有2个,来自乙基地的有3个,则从5个样品中随机取2个共有2510C = 种可能,2个都来自乙基地共233C =种可能,则选取的2个全部来自乙种植基地的概率为310. (3)根据茎叶图可知,乙基地中,三级花共3个,二级花共16个,一级花共11个, 则三级花的销售额为231263123120.5555⨯⨯+⨯⨯⨯= (元); 二级花的销售额为21640161616160.5333⨯⨯+⨯⨯⨯= (元); 一级花的销售额为811870112011200.5999⨯⨯+⨯⨯⨯= (元); 则乙种植基地单件平均利润为126640187030030 4.88539⎛⎫++-÷≈ ⎪⎝⎭(元). 因为4.884>,所以该鲜切花加工企业应该从乙种植基地购进鲜切花A .22.【解析】(1)由611806i i y y ===∑,得9186787370806p +++++=, 解得82p =.(2)Ⅰ123456 3.56x +++++==, 而611806i i y y ===∑,611606i i i x y ==∑,62191i i x ==∑, Ⅰ216066 3.58074ˆ4916 3.517.5b -⨯⨯-==≈--⨯,ˆ80(4) 3.594a =--⨯= 所求的线性回归方程为:ˆ494yx =-+; 或者74ˆ80() 3.59517.5a =--⨯=,所求的线性回归方程为:ˆ495y x =-+ (3)若回归方程为:ˆ494yx =-+时, 当11x =时,1ˆ90y=;当22x =时,2ˆ86y =;当33x =时,3ˆ82y =;当44x =时,4ˆ78y=;当55x =时,5ˆ74y =;当66x =时,6ˆ70y =.满足ˆ1i i y y -<条件的“有效数据”有:(2,86),(3,82),(4,78),(6,70)共4个,记(1,91)A =,(2,86)B =,(3,82)C =,(4,78)D =,(5,73)E =,(6,70)F =,从6组销售数据中任取2组,基本事件有:AB ,AC ,AD ,AE ,AF ,BC ,BD ,BE ,BF ,CD ,CE ,CF ,DE ,DF ,EF ,共15种,抽取的2组销售数据都是“有效数据”的事件有:BC ,BD ,BF ,CD ,CF ,DF ,共6种,所以抽取的2组销售数据都是“有效数据”的概率为62155=. 若回归方程为:ˆ495yx =-+时, 当11x =时,1ˆ91y=;当22x =时,2ˆ87y =;当33x =时,3ˆ83y =;当44x =时,4ˆ79y=;当55x =时,5ˆ75y =;当66x =时,6ˆ71y =.满足ˆ1i i y y -<条件的“有效数据”有:(1,91),共1个,记(1,91)A =,(2,86)B =,(3,82)C =,(4,78)D =,(5,73)E =,(6,70)F =,从6 抽取的2组销售数据都是“有效数据”的事件不存在,所以抽取的2组销售数据都是“有效数据”的概率为0.。

2020版高考数学大二轮复习7.3统计与统计案例学案理

2020版高考数学大二轮复习7.3统计与统计案例学案理

第3讲统计与统计案例考点1 抽样方法1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少.2.系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.[例1] (1)[2019·福州市高中毕业班质量检测]为了解某地区的“微信健步走”活动情况,拟从该地区的人群中抽取部分人员进行调查,事先已了解到该地区老、中、青三个年龄段人员的“微信健步走”活动情况有较大差异,而男女“微信健步走”活动情况差异不大.在下面的抽样方法中,最合理的抽样方法是( )A.简单随机抽样 B.按性别分层抽样C.按年龄段分层抽样 D.系统抽样(2)[2019·全国卷Ⅲ]《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )A.0.5 B.0.6C.0.7 D.0.8【解析】(1)根据分层抽样的特点,应选C.(2)本题主要考查韦恩图的应用与概率问题,考查考生的阅读理解能力,考查的核心素养是数学抽象、逻辑推理、数据分析.根据题意阅读过《红楼梦》《西游记》的人数用韦恩图表示如下:所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为70100=0.7. 【答案】(1)C (2)C(1)随机抽样各种方法中,每个个体被抽到的概率都是相等的; (2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同;(3)分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.『对接训练』1.[2019·河北枣强中学期末]总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第6个数字开始向右读(每两个连续数字组成一个编号),则选出来的第5个个体的编号为( )21 16 65 08 90 34 20 76 43 81 26 34 91 64 17 50 71 59 45 06 91 27 35 36 80 72 74 67 21 33 50 25 83 12 02 76 11 87 05 26 A .12 B .07 C .15 D .16解析:从随机数表第1行的第6个数字开始由左到右依次选取两个数字中小于20的编号依次为03,07,12,16,07,15,其中第二个和第五个都是07,重复,所以选出的5个个体的编号为03,07,12,16,15,则第5个个体的编号为15.故选C.答案:C2.[2019·惠州市高三第二次调研]某班共有56人,学号依次为1,2,3,…,56,现用系统抽样的方法抽取一个容量为4的样本,已知学号为2,30,44的同学在样本中,则样本中还有一位同学的学号为________.解析:由题意得,需要将56人按学号从小到大分成4组,每组抽取第2个学号对应的同学,所以还有一位同学的学号为1×14+2=16.答案:16考点2 用样本估计总体1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数利用频率分布直方图求众数、中位数和平均数时易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数; (2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.[例2] (1)[2018·江苏卷]已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为________;(2)[2017·全国卷Ⅰ]为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg)分别为x 1,x 2,…,xn ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A .x 1,x 2,…,xn 的平均数B .x 1,x 2,…,xn 的标准差C .x 1,x 2,…,xn 的最大值D .x 1,x 2,…,xn 的中位数【解析】 (1)这5位裁判打出的分数分别是89,89,90,91,91,因此这5位裁判打出的分数的平均数为89+89+90+91+915=90.(2)因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳定程度,应该用样本数据的极差、方差或标准差.故选B.【答案】 (1)90 (2)B众数、中位数、平均数与直方图的关系(1)众数为频率分布直方图中最高矩形的底边中点的横坐标.(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标. (3)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之积的和.『对接训练』3.[2019·河北石家庄模拟]已知甲、乙两名篮球运动员进行罚球训练,每人练习10组,每组罚球40个,每组投中个数的茎叶图如图所示,则下列结论错误的是( )A .甲投中个数的极差是29B .乙投中个数的众数是21C .甲的投中率比乙高D .甲投中个数的中位数是25解析:由茎叶图可知甲投中个数的极差为37-8=29,故A 正确;易知乙投中个数的众数是21,故B 正确;甲的投中率为8+12+13+20+22+24+25+26+27+3740×10=0.535,乙的投中率为9+11+13+14+18+19+20+21+21+2340×10=0.422 5,所以甲的投中率比乙高,C 正确;甲投中个数的中位数为22+242=23,D 不正确.故选D.答案:D4.[2019·河北衡水中学五调]某“跑团”为了解团队每月跑步的平均里程,收集并整理了2018年1月至2018年11月期间“跑团”每月跑步的平均里程(单位:千米)的数据,绘制了下面的折线图.根据折线图,下列结论正确的是( )A .月跑步平均里程的中位数为6月份对应的平均里程数B .月跑步平均里程逐月增加C .月跑步平均里程高峰期大致在8月和9月D .1月至5月的月跑步平均里程相对于6月至11月,波动性更小,变化比较平稳 解析:由折线图知,月跑步平均里程的中位数为5月份对应的平均里程数,A 错;月跑步平均里程不是逐月增加的,B 错;月跑步平均里程高峰期大致在9月和10月,C 错.故选D.答案:D考点3 变量的相关性与统计案例1.线性回归方程方程y ^=b ^x +a ^称为线性回归方程,其中b ^=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x-2,a ^=y --b ^x -;(x -,y -)称为样本中心点.2.随机变量K 2(χ2)=(a +b +c +d )(ad -bc )2(a +b )(c +d )(a +c )(b +d ),若K 2(χ2)>3.841,则有95%的把握说两个事件有关; 若K 2(χ2)>6.635,则有99%的把握说两个事件有关.[例3] [2019·全国卷Ⅰ]某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(1)(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).【解析】 象概括能力与数据处理能力,重点考查数学抽象、数据分析、数学运算的核心素养;倡导学生关注生活,提高数学应用意识.(1)由调查数据知,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K 2=100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.(1)求回归直线方程的关键①正确理解计算b ^,a ^的公式和准确的计算.②在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(2)独立性检验的关键①根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.②K2的观测值k越大,对应假设事件H0成立的概率越小,H0不成立的概率越大.『对接训练』5.[2019·福建福州二检]中国房地产业协会主办的中国房价行情网调查的一份数据显示,2018年7月,大部分一线城市的房租租金同比涨幅都在10%以上.某部门研究认为,房租支出超过月收入13的租户“幸福指数”低,房租支出不超过月收入13的租户“幸福指数”高.为了了解甲、乙两个小区的租户的“幸福指数”的高低,随机抽取甲、乙两个小区租户各100户进行调查.甲小区租户的月收入(单位:千元)以[0,3),[3,6),[6,9),[9,12),[12,15]分组的频率分布直方图如图.乙小区租户的月收入(单位:千元)的频数分布表如下.(2)若甲、乙两个小区每户的月租费分别为2千元、1千元.请根据条件,完成下面的2×2列联表,并说明能否在犯错误的概率不超过0.001的前提下认为“‘幸福指数’高低与租住的小区有关”.附:K 2=n (ad -(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解析:(1)设甲小区所抽取的100户租户的月收入的中位数为t , 则0.060×3+(t -3)×0.160=0.5,解得t =5. (2)完成2×2列联表如下.根据2×2可得K 2的观测值k =200×(66×62-38×34)2104×96×100×100≈15.705>10.828,所以能在犯错误的概率不超过0.001的前提下认为“‘幸福指数’高低与租住的小区有关”.课时作业19 统计与统计案例1.[2019·湖南五市十校联考]在某次赛车中,50名参赛选手的成绩(单位:min)全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18].其频率分布直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )A.39 B.35C.15 D.11解析:由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78,所以成绩在[13,15)内的频率为1-0.78=0.22,则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.答案:D2.[2019·湖北黄冈期末]为了调查学生对某项新政策的了解情况,准备从某校高一A,B,C三个班级中抽取10名学生进行调查.已知A,B,C三个班级的学生人数分别为40,30,30.考虑使用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按A,B,C三个班级依次统一编号为1,2,…,100;使用系统抽样时,将学生按A,B,C三个班级依次统一编号为1,2,…,100,并将所有编号依次平均分为10组.如果抽得的号码有下列四种情况:①7,17,27,37,47,57,67,77,87,97;②3,9,15,33,43,53,65,75,85,95;③9,19,29,39,49,59,69,79,89,99;④2,12,22,32,42,52,62,73,83,96.关于上述样本的下列结论中,正确的是( )A.①③都可能为分层抽样 B.②④都不能为分层抽样C.①④都可能为系统抽样 D.②③都不能为系统抽样解析:对于①,既满足系统抽样的数据特征,又满足分层抽样的数据特征,所以可能是分层抽样或系统抽样;对于②,只满足分层抽样的数据特征,所以可能是分层抽样;对于③,既满足系统抽样的数据特征,又满足分层抽样的数据特征,所以可能是分层抽样或系统抽样;对于④,只满足分层抽样的数据特征,所以可能是分层抽样.故选A.答案:A3.[2019·广东惠州一调]已知数据x1,x2,…,x10,2的平均值为2,方差为1,则数据x1,x2,…,x10相对于原数据( )A.一样稳定 B.变得稳定C.变得不稳定 D.稳定性不可以判断解析:数据x 1,x 2,…,x 10,2的平均值为2,方差为1,故111[(x 1-2)2+(x 2-2)2+…+(x 10-2)2+(2-2)2]=1,数据x 1,x 2,…x 10的方差s 2=110[(x 1-2)2+(x 2-2)2+…+(x 10-2)2]>1,故相对于原数据变得不稳定,故选C.答案:C4.[2019·陕西商洛质检]在一次53.5千米的自行车个人赛中,25名参赛选手成绩(单位:分钟)的茎叶图如图所示,现将参赛选手按成绩由好到差编为1~25号,再用系统抽样的方法从中选取5人,已知选手甲的成绩为85分钟,若甲被选取,则被选取的其余4名选手的成绩的平均数为( )A.95 B .96 C .97 D .98解析:由系统抽样法及已知条件可知被选中的其他4人的成绩分别是88,94,99,107,故平均数为88+94+99+1074=97,故选C.答案:C5.[2019·湖北重点高中协作体联考]某镇有A ,B ,C 三个村,它们的人口数量之比为,现在用分层抽样的方法抽出容量为n 的样本,样本中A 村有15人,则样本容量为( )A .50B .60C .70D .80解析:设A ,B ,C 三个村的人口数量分别为3x,4x,7x ,则由题意可得3x 15=3x +4x +7xn ,解得n =70,故选C.答案:C6.[2019·云南昆明诊断]某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:A .利润率与人均销售额成正相关关系B .利润率与人均销售额成负相关关系C .利润率与人均销售额成正比例函数关系D .利润率与人均销售额成反比例函数关系解析:画出利润率与人均销售额的散点图,如图.由图可知利润率与人均销售额成正相关关系.故选A.答案:A7.[2019·河南濮阳摸底]根据如表数据,得到的回归方程为y ^=b ^x +9,则b ^=( )A.2 B .1 C .0 D .-1解析:由题意可得x -=15×(4+5+6+7+8)=6,y -=15×(5+4+3+2+1)=3,因为回归方程为y ^=b ^x +9且回归直线过点(6,3),所以3=6b ^+9,解得b ^=-1,故选D.答案:D8.[2019·宁夏银川一中月考]利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否爱好该项运动,得到2×2列联表,并计算可得K 2≈8.806.A .有99.5%以上的把握认为“是否爱好该项运动与性别无关”B .有99.5%以上的把握认为“是否爱好该项运动与性别有关”C .在犯错误的概率不超过0.05%的前提下,认为“是否爱好该项运动与性别有关”D .在犯错误的概率不超过0.05%的前提下,认为“是否爱好该项运动与性别无关” 解析:由于8.806>7.879,所以根据独立性检验的知识可知有99.5%以上的把握认为“是否爱好该项运动与性别有关”,故选B.答案:B9.[2019·安徽六安毛坦厂中学月考]某位教师2017年的家庭总收入为80 000元,各种用途占比统计如下面的折线图.2018年收入的各种用途占比统计如下面的条形图,已知2018年的就医费用比2017年增加了4 750元,则该教师2018年的家庭总收入为( )A .100 000元B .95 000元C .90 000元D .85 000元解析:由已知得,2017年的就医费用为80 000×10%=8 000(元),故2018年的就医费用为8 000+4 750=12 750(元),所以该教师2018年的家庭总收入为12 75015%=85 000(元).故选D.答案:D10.[2019·华中师范大学第一附属中学期末]给出下列结论:①某学校从编号依次为001,002,…,900的900个学生中用系统抽样的方法抽取一个样本,已知样本中有两个相邻的编号分别为053,098,则样本中最大的编号为862;②甲组数据的方差为5,乙组数据为5,6,9,10,5,那么这两组数据中甲组数据比较稳定; ③两个变量的线性相关性越强,则相关系数r 的值越接近于1; ④对A ,B ,C 三种个体按 ::2的比例进行分层抽样调查,若抽取的A 种个体有15个,则样本容量为30.则正确的个数是( ) A .3 B .2 C .1 D .0解析:①中,样本中相邻的两个编号为053,098,则样本组距为98-53=45,所以样本容量为90045=20,则样本中最大的编号为53+45×(20-2)=863,故①错误;②中,乙组数据的平均数为5+6+9+10+55=7,所以乙组数据的方差为15×[(5-7)2+(6-7)2+(9-7)2+(10-7)2+(5-7)2]=4.4<5,那么这两组数据中乙组数据比较稳定,故②错误;③中,两个变量的线性相关性越强,则相关系数r 的绝对值越接近于1,故③错误;④中,易知样本容量为15÷33+1+2=30,故④正确.综上,选C.答案:C11.[2019·福建三明质检]某校为了解学生的身体素质情况,采用按年级分层抽样的方法,从高一、高二、高三年级的学生中抽取一个300人的样本进行调查,已知高一、高二、高三年级的学生人数之比为k ::4,抽取的样本中高一年级的学生有120人,则实数k的值为________.解析:由题意可得,120300=kk +5+4,解得k =6.答案:612.[2019·河北六校联考]在一次53.5千米的自行车个人赛中,25名参赛选手的成绩(单位:分)的茎叶图如图所示,若用简单随机抽样的方法从中选取2人,则这2人成绩的平均数恰为100的概率为________.解析:根据题意知,从25人中选取2人,基本事件的总数为C 225=300,其中这2人成绩的平均数恰为100的基本事件为(100,100),(95,105),(95,105),(95,105),(94,106),(93,107),共6个,所以所求的概率P =6300=150.答案:15013.某炼钢厂废品率x (%)与成本y (元/t)的线性回归方程为y ^=105.492+42.569x .当成本控制在176.5元/t 时,可以预计生产的1 000 t 钢中,约有________t 钢是废品.解析:因为176.5=105.492+42.569x ,所以x ≈1.668,即成本控制在176.5元/t 时,废品率为1.668%.所以生产的1 000 t 钢中,约有1 000×1.668%=16.68 t 钢是废品. 答案:16.6814.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.解析:K2≈3.918≥3.841,而P(K2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:①15.[2019·湖南四校摸底调研]某家电公司销售部门共有200名销售员,每年部门对每名销售员都有 1 400万元的年度销售任务.已知这200名销售员去年的销售额都在区间[2,22](单位:百万元)内,现将其分成5组,第1组、第2组、第3组、第4组、第5组对应的区间分别为[2,6),[6,10),[10,14),[14,18),[18,22],并绘制出如下的频率分布直方图.(1)求a的值,并计算完成年度任务的人数;(2)用分层抽样的方法从这200名销售员中抽取容量为25的样本,求这5组分别应抽取的人数;(3)现从(2)中完成年度任务的销售员中随机选取2名,奖励海南三亚三日游,求获得此奖励的2名销售员在同一组的概率.解析:(1)∵(0.02+0.08+0.09+2a)×4=1,∴a=0.03,∴完成年度任务的人数为2×0.03×4×200=48.(2)第1组应抽取的人数为0.02×4×25=2,第2组应抽取的人数为0.08×4×25=8,第3组应抽取的人数为0.09×4×25=9,第4组应抽取的人数为0.03×4×25=3,第5组应抽取的人数为0.03×4×25=3,(3)在(2)中完成年度任务的销售员中,第4组有3人,记这3人分别为A1,A2,A3;第5组有3人,记这3人分别为B1,B2,B3.从这6人中随机选取2名,所有的基本事件为A1A2,A1A3,A1B1,A1B2,A1B3,A2A3,A2B1,A2B2,A2B3,A3B1,A3B2,A3B3,B1B2,B1B3,B2B3,共有15个基本事件,获得此奖励的2名销售员在同一组所包含的基本事件有6个, 故所求概率P =615=25.16.[2019·河南封一调]近年来我国电子商务行业迎来蓬勃发展的新机遇,2018年双十一期间,某购物平台的成交额为两千亿元人民币之多.与此同时,相关管理部门推出了针对电商的商品和服务的评价体系,现从评价系统中选出200次成功交易,并对其评价进行统计,商品的好评率为60%,服务的好评率为75%,其中对商品和服务都做出好评的交易为80次.(1)完成下面的2×2列联表,并回答是否有99%的把握认为商品好评与服务好评有关.(2)的次数为随机变量X ,求X 的数学期望和方差.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .K 2=200×(150×50×120×80≈11.111>6.635,故有99%的把握认为商品好评与服务好评有关.(2)∵X ~B ⎝ ⎛⎭⎪⎫3,25, ∴E (X )=3×25=65,D (X )=3×25×35=1825.17.[2019·重庆九校联盟一模]某社区为了解该社区退休老人每天的平均户外活动时间,从该社区退休老人中随机抽取了100位老人进行调查,获得了每人每天的平均户外活动时间(单位:时),活动时间按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成样本的频率分布直方图如图所示.(1)求图中a 的值;(2)估计该社区退休老人每人每天的平均户外活动时间的中位数;(3)在[1,1.5),[1.5,2)这两组中采用分层抽样的方法抽取7人,再从这7人中随机抽取2人,求抽取的2人恰好在同一个组的概率.解析:(1)由频率分布直方图,可知平均户外活动时间在[0,0.5)内的频率为0.08×0.5=0.04.同理,平均户外活动时间在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]内的频率分别为0.08,0.20,0.25,0.07,0.04,0.02,由1-(0.04+0.08+0.20+0.25+0.07+0.04+0.02)=0.5a +0.5a , 解得a =0.30. (2)设中位数为m 时.因为前5组的频率之和为0.04+0.08+0.15+0.20+0.25=0.72>0.5, 而前4组的频率之和为0.04+0.08+0.15+0.20=0.47<0.5,所以2≤m <2.5. 所以0.50×(m -2)=0.5-0.47,解得m =2.06.故可估计该社区退休老人每人每天的平均户外活动时间的中位数为2.06时. (3)由题意得平均户外活动时间在[1,1.5),[1.5,2)内的人数分别为15,20,按分层抽样的方法在[1,1.5),[1.5,2)内分别抽取3人、4人,从7人中随机抽取2人,共有C 27=21种方法,抽取的两人恰好都在同一个组有C 24+C 23=9种方法,故抽取的2人恰好在同一个组的概率P =921=37.18.[2019·福建三明月考]统计学中经常用环比、同比来进行数据比较.环比是指本期统计数据与上期比较,如2017年7月与2017年6月相比.环比增长率=本期数-上期数上期数×100%,同比增长率=本期数-同期数同期数×100%.下表是某地区近17个月来的消费者信心指数的统计数据:②除2017年1月外,该地区消费者信心指数月环比增长率为负数的有几个月? (2)由以上数据可判断,序号x 与该地区消费者信心指数y 具有线性相关关系,求出y 关于x 的线性回归方程y ^=b ^x +a ^(a ^,b ^保留2位小数),并依此预测该地区2018年6月的消费者信心指数(结果保留1位小数).参考数据与公式:∑i =117x i y i =18 068.5,∑i =117x 2i=1 785,x -=9,y -≈115,b ^=,a ^=y --b ^x -.解析:(1)①该地区2018年5月消费者信心指数的同比增长率为124-112.6112.6×100%≈10%.②若月环比增长率为负数,则本期数<上期数,从表中可以看出,2017年3月、2017年6月、2017年8月、2018年2月、2018年4月共5个月的月环比增长率为负数.(2)由已知,得,a ^=y --b ^x -=104.56,∴线性回归方程为y ^=1.16x +104.56.当x =18时,y ^=125.4,故该地区2018年6月的消费者信心指数约为125.4.。

2020版高考数学(文科)大一轮精准复习精练:§10.2统计及统计案例含解析

2020版高考数学(文科)大一轮精准复习精练:§10.2统计及统计案例含解析

§10.2统计及统计案例挖命题【考情探究】分析解读从近几年的高考试题来看,本部分在高考中的考查点如下:1.主要考查分层抽样的定义、频率分布直方图、平均数、方差的计算、识图能力及借助概率知识分析、解决问题的能力;2.在频率分布直方图中,注意小矩形的竖直方向的长度=频率/组距,小矩形的面积为频率,所有小矩形的面积之和为1;3.分析两个变量间的相关关系,通过独立性检验判断两个变量是否相关.本节内容在高考中分值为17分左右,属中档题.破考点【考点集训】考点一抽样方法1.(2018山东烟台11月联考,4)《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩,按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为()A.2B.4C.5D.6答案B2.(2018宁夏银川一中月考,4)用系统抽样的方法从300名学生中抽取容量为20的样本,将300名学生从1~300编号,按编号顺序平均分组.若第16组应抽出的号码为232,则第一组中抽出的号码是()A.5B.6C.7D.8答案C考点二统计图表1.(2018四川达州模拟,4)某8人一次比赛得分的茎叶图如图所示,这组数据的中位数和众数分别是()A.85和92B.87和92C.84和92D.85和90答案B2.(2017河南新乡第一次调研,3)统计新生婴儿的体重,其频率分布直方图如图所示,则新生婴儿体重在(2700,3000]克内的频率为()A.0.001B.0.1C.0.2D.0.3答案D考点三样本的数字特征1.(2018湖北华师一附中月考,3)某人到甲、乙两市各7个小区调查空置房情况,将调查得到的小区空置房的套数绘成了如图所示的茎叶图,则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为()A.4B.3C.2D.1答案B2.(2018山东济南一模,3)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为,方差为s2,则()A.=4,s2<2B.=4,s2>2C.>4,s2<2D.>4,s2>2答案A考点四变量间的相关性1.(2018河南焦作四模,3)已知变量x和y根据上表可得回归直线方程为=x-0.25,据此可以预测当x=8时,=()A.6.4B.6.25C.6.55D.6.45答案C2.(2018湖南张家界三模,4)已知变量x,y之间的线性回归方程为=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法错误..的是()x681012y6m32A.变量x,y之间成负相关关系B.可以预测,当x=20时,=-3.7C.m=4D.该回归直线必过点(9,4)答案C考点五独立性检验1.(2017江西九校一模,7)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线城市一线城市总计愿生452065不愿生132235总计5842100附表:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828由K2=-算得,K2=-≈9.616,参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”答案C(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”?(2).附:K2=-.解析(1)将2×2列联表中的数据代入公式计算,得K2=-=≈4.762.由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名中文系学生中任取3人的所有可能结果所组成的基本事件空间Ω={(a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)},其中ai 表示喜欢甜品的学生,i=1,2,bj表示不喜欢甜品的学生,j=1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A表示“3人中至多有1人喜欢甜品”这一事件,则A={(a,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)}.1事件A由7个基本事件组成,因而P(A)=.炼技法【方法集训】方法1解与频率分布直方图有关问题的方法1.(2016山东,3,5分)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56B.60C.120D.140答案D2.(2017江苏南京调研,3)为了解某一段公路汽车通过时的车速情况,现随机抽测了通过这段公路的200辆汽车的时速,所得数据均在区间[40,80]内,其频率分布直方图如图所示,则在抽测的200辆汽车中,时速在区间[40,60)内的汽车有辆.答案80方法2样本的数字特征的求解及其应用1.(2015山东,6,5分)为比较甲、乙两地某月14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为()A.①③B.①④C.②③D.②④答案B2.(2018四川德阳模拟,13)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(10分制)的频数分布直方图如图所示,如果得分的中位数为a,众数为b,平均数为c,则a、b、c中的最大者是.答案c方法3回归直线方程的求解与运用1.(2017安徽合肥一中等四校联考,6):广告费用x(万元)4235销售额y(万元)49263954根据上表可得回归方程=x+中的为9.4,据此估计,广告费用为7万元时销售额为()A.74.9万元B.65.5万元C.67.7万元D.72.0万元答案A2.(2018湘东五校12月联考,18)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10日期1月10日2月10日3月10日4月10日5月10日6月10日昼夜温差x(℃)1011131286就诊人数y222529261612该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月数据的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据求出y关于x的线性回归方程=x+;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?参考公式:=--=---,=-;参考数据:11×25+13×29+12×26+8×16=1092,112+132+122+82=498.解析(1)设抽到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的,其中,抽到相邻两个月的数据的情况有5种,所以P(A)==.(2)由数据求得=11,=24,由公式求得=,则=-=-,所以y关于x的线性回归方程为=x-.(3)由(2)知,当x=10时,=,-<2,当x=6时,=,-<2,所以,该小组所得线性回归方程是理想的.方法4独立性检验的思想方法1.(2018山西太原五中12月模拟,18)网购是当前民众购物的新方式,某公司为改进营销方式,随机调查了100名市民,统计其周平均网购的次数,并整理得到如下的频数直方图.这100名市民中,年龄不超过40岁的有65人.将所抽样中周平均网购次数不少于4次的市民称为网购迷,且已知其中有5名市民的年龄超过40岁.(1)(2)现将所抽取样本中周平均网购次数不少于5次的市民称为超级网购迷,且已知超级网购迷中有2名年龄超过40岁,若从超级网购迷中任意挑选2名,求至少有1名市民年龄超过40岁的概率.附:K2=-.K2=-≈3.297,因为3.297>2.706,所以据此列联表判断,在犯错误的概率不超过0.10的前提下,认为网购迷与年龄不超过40岁有关.(2)由频数分布直方图知,超级网购迷共有10人,记其中年龄超过40岁的2名市民为A、B,其余8名市民记为c、d、e、f、g、h、m、n,现从10人中任取2人,基本事件有AB、Ac、Ad、Ae、Af、Ag、Ah、Am、An、Bc、Bd、Be、Bf、Bg、Bh、Bm、Bn、cd、ce、cf、cg、ch、cm、cn、de、df、dg、dh、dm、dn、ef、eg、eh、em、en、fg、fh、fm、fn、gh、gm、gn、hm、hn、mn,共有45种,其中至少有1名市民年龄超过40岁的基本事件是AB、Ac、Ad、Ae、Af、Ag、Ah、Am、An、Bc、Bd、Be、Bf、Bg、Bh、Bm、Bn,共17种,故所求的概率P=.2.(2017江西红色七校第一次联考,18)某学校为了了解学生使用手机的情况,分别在高一和高二两个年级中各随机抽取了100名学生进行调查.下面是根据调查结果绘制的学生日均使用手机时间的频数分布表和频率分布直方图,将使用手机时间不低于80分钟的学生称为“手机迷”.高二年级的学生日均使用手机时间的频率分布直方图(1)将频率视为概率,估计哪个年级的学生是“手机迷”的概率大,请说明理由;(2)在对高二年级学生的抽查中,已知随机抽到的女生有55名,其中10名为“手机迷”.根据已知条件完成下面的2×2列联表,并据此资料,你有多大的把握认为“手机迷”与性别有关?附:K 2=-,其中n=a+b+c+d.参考数据P(K 2≥k 0) 0.15 0.100.05 0.025 k 0 2.0722.7063.8415.024解析 (1)估计高一年级的学生是“手机迷”的概率大.理由:由频数分布表可知,高一年级的学生是“手机迷”的概率为=0.26, 由频率分布直方图可知,高二年级的学生是“手机迷”的概率为(0.002 5+0.010)×20=0.25, 因为0.26>0.25,所以高一年级的学生是“手机迷”的概率大. (2)由频率分布直方图可知,在抽取的100人中, “手机迷”有(0.010+0.002 5)×20×100=25人, “非手机迷”有100-25=75人. 2×2列联表如下:非手机迷 手机迷合计男 30 15 45 女 45 10 55 合计 75 25100将2×2列联表中的数据代入公式计算,得 K 2=- =≈3.030.因为3.030>2.706,所以有90%的把握认为“手机迷”与性别有关.过专题【五年高考】A 组 统一命题·课标卷题组考点一 抽样方法(2018课标全国Ⅲ,14,5分)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是 . 答案 分层抽样考点二 统计图表1.(2018课标全国Ⅰ,3,5分)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是( ) A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半 答案 A2.(2017课标全国Ⅲ,3,5分)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳答案A3.(2015课标Ⅱ,3,5分)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案D4.(2018课标全国Ⅰ,19,12分)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:日用水量[0,0.1)[0.1,0.2)[0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6)[0.6,0.7)频数13249265使用了节水龙头50天的日用水量频数分布表日用水量[0,0.1)[0.1,0.2)[0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6)频数151310165(1)作出使用了节水龙头50天的日用水量数据的频率分布直方图;(2)估计该家庭使用节水龙头后,日用水量小于0.35m3的概率;(3)估计该家庭使用节水龙头后,一年能节省多少水.(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)解析(1)(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后日用水量小于0.35m3的概率的估计值为0.48.(3)该家庭未使用节水龙头50天日用水量的平均数为=×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.该家庭使用了节水龙头后50天日用水量的平均数为=×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).考点三样本的数字特征1.(2017课标全国Ⅰ,2,5分)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数答案B2.(2014课标Ⅰ,18,12分):质量指标值分组[75,85)[85,95)[95,105)[105,115)[115,125)频数62638228(1)作出这些数据的频率分布直方图;(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?解析(1)频率分布直方图如图.(2)质量指标值的样本平均数为=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100. 质量指标值的样本方差为 s 2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104. (3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.考点四 变量间的相关性1.(2017课标全国Ⅰ,19,12分)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(经计算得 =x i =9.97,s=- =-≈0.212,- ≈18.439,(x i - )(i-8.5)=-2.78,其中x i 为抽取的第i 个零件的尺寸,i=1,2, (16)(1)求(x i ,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在( -3s, +3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在( -3s, +3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01) 附:样本(x i ,y i )(i=1,2,…,n)的相关系数 r=- ---. ≈0.09.解析 (1)由样本数据得(x i ,i)(i=1,2,…,16)的相关系数为r=- ---=≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i)由于=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查. (ii)剔除离群值,即第13个数据,剩下数据的平均数为×(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.=16×0.2122+16×9.972≈1591.134,剔除第13个数据,剩下数据的样本方差为×(1591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.2.(2016课标全国Ⅲ,18,12分)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:yi=9.32,t i y i=40.17,-=0.55,≈2.646.参考公式:相关系数r=----,回归方程=+t中斜率和截距最小二乘估计公式分别为:=---,=-.解析(1)由折线图中数据和附注中参考数据得=4,(t i-)2=28,-=0.55,(t i-)(y i-)=t i y i-y i=40.17-4×9.32=2.89,r≈≈0.99.(4分)因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.(6分) (2)由=≈1.331及(1)得=---=≈0.10,=-=1.331-0.10×4≈0.93.所以y关于t的回归方程为=0.93+0.10t.(10分)将2016年对应的t=9代入回归方程得:=0.93+0.10×9=1.83.所以预测2016年我国生活垃圾无害化处理量将约为1.83亿吨.(12分)考点五独立性检验1.(2018课标全国Ⅲ,18,12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高,并说明理由;(2)求40m的工人数填入下面的列联表;超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=-,P(K2≥k)0.0500.0100.001k 3.841 6.63510.828.解析(1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知m==80.列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于K2=-=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.2.(2017课标全国Ⅱ,19,12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;(2)(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.附:P(K2≥k)0.0500.0100.001k 3.841 6.63510.828,K2=-.解析(1)旧养殖法的箱产量低于50kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)K2=-≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50kg到55kg之间,旧养殖法的箱产量平均值(或中位数)在45kg 到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.B组自主命题·省(区、市)卷题组考点一抽样方法1.(2015湖南,2,5分)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是()A.3B.4C.5D.6答案B2.(2017江苏,3,5分)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取件.答案18考点二统计图表1.(2015湖北,14,5分)某电子商务公司对10000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.(1)直方图中的a=;(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为.答案(1)3(2)60002.(2017北京,17,13分)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解析(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5.所以总体中分数在区间[40,50)内的人数估计为400×=20.(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×=30.所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.考点三样本的数字特征1.(2017山东,8,5分)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为()A.3,5B.5,5C.3,7D.5,7答案A2.(2018江苏,3,5分)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为.8999011答案903.(2016江苏,4,5分)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是.答案0.1考点四变量间的相关性1.(2015湖北,4,5分)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案C2.(2015重庆,17,13分)(年底余额)如下表:年份20102011201220132014时间代号t12345储蓄存款y(千亿元)567810(1)求y关于t的回归方程=t+;(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.附:回归方程=t+中,=-=-.-解析(1)列表计算如下:i t i y i t i y i11515226412337921448163255102550153655120这里n=5,=t==3,=y i==7.2.i又l=-n=55-5×32=10,l ty=t i y i-n=120-5×3×7.2=12,从而===1.2,=-=7.2-1.2×3=3.6,tt故所求回归方程为=1.2t+3.6.(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为=1.2×6+3.6=10.8(千亿元).考点五独立性检验1.(2014江西,7,5分)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()A.成绩B.视力C.智商D.阅读量答案D2.(2014安徽,17,12分)某高校共有学生15000人,其中男生10500人,女生4500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=-解析(1)300×=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:结合列联表可算得K2=-=≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.C组教师专用题组考点一抽样方法1.(2015湖北,2,5分)我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为()A.134石B.169石C.338石D.1365石答案B2.(2015北京,4,5分)某校老年、中年和青年教师的人数见下表.采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为()。

2020—2021年最新高考总复习数学二轮复习统计与统计案例专题强化练习题.docx

2020—2021年最新高考总复习数学二轮复习统计与统计案例专题强化练习题.docx

第一部分一19一、选择题1.(2015·北京文,4)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )类别人数老年教师900中年教师1 800青年教师1 600合计4 300A.90 B.100 C.180 D.300 [答案] C[解析]由题意,总体中青年教师与老年教师比例为1 600 900=169;设样本中老年教师的人数为x,由分层抽样的性质可得总体与样本中青年教师与老年教师的比例相等,即320x=169,解得x=180.[方法点拨] 解决抽样问题,首先要深刻理解各种抽样方法的特点和适用范围,如分层抽样,适用于数目较多且各部分之间具有明显差异的总体.其次要抓住无论哪种抽样方法,每一个个体被抽到的概率都等于样本容量与总体容量的比值.2.(2015·湖南文,2)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )A.3 B.4C.5 D.6[答案] B[解析]根据茎叶图中的数据得:成绩在区间[139,151]上的运动员人数是20,用系统抽样方法从35人中抽取7人,成绩在区间[139,151]上的运动员应抽取7×2035=4(人),故选B .[方法点拨] 1.三种抽样方法的比较 类别 共同点 各自特点 相互联系 适用范围简单 随机 抽样抽样过 程中每 个个体 被抽取 的概率相等 从总体中逐个抽取总体中的个体数较少 系统 抽样 将总体均分成几部分,按事先确定的规则在各部分抽取 在起始部分抽样时采用简单随机抽样 总体中的个体数较多分层 抽样将总体分成几层,分层进行抽取分层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成2.当总体数N 不能被样本容量整除,用系统抽样法剔除多余个体时,必须随机抽样.3.(文)已知x 、y 的取值如下表所示:x134y 0.9 1.9 3.2 4.4从散点图分析,y 与x 线性相关,且y ^=0.8x +a ,则a =( )A.0.8 B.1 C.1.2 D.1.5 [答案] B[解析]x=0+1+3+44=2,y=0.9+1.9+3.2+4.44=2.6,又因为回归直线y^=0.8x+a过样本中心点(2,2.6)所以2.6=0.8×2+a,解得a=1.(理)(2015·福建理,4)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元) 8.2 8.6 10.0 11.3 11.9支出y(万元) 6.2 7.5 8.0 8.5 9.8根据上表可得回归直线方程y^=b^x+a^,其中b^=0.76,a^=y -b^x.据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11.4万元B.11.8万元C.12.0万元D.12.2万元[答案] B[解析]考查线性回归方程.由已知得x=8.2+8.6+10.0+11.3+11.95=10(万元),y=6.2+7.5+8.0+8.5+9.85=8(万元),故a^=8-0.76×10=0.4.所以回归直线方程为y ^=0.76x +0.4,社区一户年收入为15万元家庭年支出为y ^=0.76×15+0.4=11.8(万元),故选B .[方法点拨] 1.要熟记用最小二乘法求回归直线的方程的系数公式.设线性回归方程为y ^=b ^x +a ^,则⎩⎪⎪⎨⎪⎪⎧b ^=∑i =1n(x i-x -)(y i-y -)∑i =1n(x i-x -)2=∑i =1nx i y i-n x -y -∑i =1nx 2i-n x -2a ^=y --b ^x-.2.回归直线一定经过样本的中心点(x -,y -),据此性质可以解决有关的计算问题.4.(文)(2015·安徽理,6)若样本数据x 1,x 2,…,x 10的标准差为8,则数据2x 1-1,2x 2-1,…,2x 10-1的标准差为( )A .8B .15C .16D .32[答案] C[解析] 考查样本的方差与标准差的应用.设样本数据x 1,x 2,…,x 10的标准差为D (X ),则D (X )=8,即方差D(X)=64,而数据2x 1-1,2x 2-1,…,2x 10-1的方差D(2X-1)=22D(X)=22×64,所以其标准差为22×64=16.故选C.(理)等差数列x1,x2,x3,…,x9的公差为1,若以上述数据x1,x2,x3,…,x9为样本,则此样本的方差为( )A.203B.103C.60 D.30[答案] A[解析]令等差数列为1,2,3,…,9,则样本的平均值x=5,∴S2=19[(1-5)2+(2-5)2+…+(9-5)2]=609=203.[方法点拨] 平均数与方差样本数据的平均数x-=1n(x1+x2+…+x n).方差s2=1n[(x1-x-)2+(x2-x-)2+…+(x n-x-)2].注意:(1)现实中总体所包含的个体数往往较多,总体的平均数与标准差、方差是不知道(或不可求)的,所以我们通常用样本的平均数与标准差、方差来估计总体的平均数与标准差、方差.(2)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散(波动)程度越大,越不稳定.5.(文)(2015·河北邯郸市一模)某班的一次数学考试后,按学号统计前20名同学的考试成绩如茎叶图所示,则该样本数据的中位数为( )A.74.5 B.75 C.75.5 D.76 [答案] C[解析]中位数为75+762=75.5.(理)(2015·河南省高考适应性测试)某中学为了检验1000名在校高三学生对函数模块掌握的情况,进行了一次测试,并把成绩进行统计,得到样本频率分布直方图如下图所示,则考试成绩的众数大约为( )A.55 B.65C.75 D.85[答案] C[解析]最高小矩形中点的横坐标75为众数.[方法点拨] 1.茎叶图当数据有两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图.当数据有三位有效数字,前两位相对比较集中时,常以前两位为茎,第三位(个位)为叶(其余类推).2.样本的数字特征(1)众数在样本数据中,频率分布最大值所对应的样本数据(或出现次数最多的那个数据).(2)中位数样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取当中两个数据的平均数作为中位数.3.求中位数、平均数、方差主要依据公式进行计算.4.在频率分布直方图中,平均数的估计值等于每个小矩形的面积乘以小矩形底边中点横坐标之和;在中位数的估计值两侧直方图的面积相等;最高小矩形中点对应数据为这组数据的众数.6.(文)在样本频率分布直方图中,共有五个小长方形,这五个小长方形的面积由小到大成等差数列{a n}.已知a2=2a1,且样本容量为300,则小长方形面积最大的一组的频数为( )A .100B .120C .150D . 200[答案] A[解析] 设公差为d ,则a 1+d =2a 1,∴a 1=d ,∴d +2d +3d +4d +5d =1,∴d =115,∴面积最大的一组的频率等于115×5=13.∴小长方形面积最大的一组的频数为300×13=100.(理)某电视传媒公司为了了解某类体育节目的收视情况,随机抽取了100名观众进行调查,如图是根据调查结果绘制的观众日均收看该类体育节目时间的频率分布直方图,其中收看时间分组区间是:[0,10),[10,20),[20,30),[30,40),[40,50),[50,60].将日均收看该类体育节目时间不低于40分钟的观众称为“体育迷”,则图中x 的值为( )A .0.01B .0.02C .0.03D .0.04[答案] A[解析]由题设可知(0.005+x+0.012+0.020+0.025+0.028)×10=1,解得x=0.01,选A.[方法点拨] 1.在频率分布直方图中:①各小矩形的面积表示相应各组的频率,各小矩形的高=频率;②各小矩形面积之和等于1;③中位数左右两侧的直方图组距面积相等,因此可以估计其近似值.2.准确理解给出图表及已知条件中数据的含义是解决统计问题的关键.7.(文)(2015·湖北文,4)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关[答案] C[解析]因为变量x和y满足关系y=-0.1x+1,其中-0.1<0,所以x与y成负相关;又因为变量y与z正相关,不妨设z=ky+b(k>0),则将y=-0.1x+1代入即可得到:z=k(-0.1x+1)+b=-0.1kx+(k+b),所以-0.1k<0,所以x与z负相关,综上可知,应选C.(理)(2015·新课标Ⅱ理,3)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关[答案] D[解析]考查正、负相关及对柱形图的理解.由柱形图得,从2006年以来,我国二氧化硫排放量呈下降趋势,故年排放量与年份负相关,故选D.8.(文)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了8次试验,收集数据如下:零件数x(个) 10 20 30 40 50 60 70 80加工时间62 68 75 81 89 95 102 108y(min)设回归方程为y=bx+a,则点(a,b)在直线x+45y-10=0的( )A.左上方B.左下方C.右上方D.右下方[答案] C[解析]∵x-=45,y-=85,∴a+45b=85,∴a+45b-10>0,故点(a,b)在直线x+45y-10=0的右上方,故选C.(理)(2014·沈阳市质检)某高校进行自主招生,先从报名者中筛选出400人参加笔试,再按笔试成绩择优选出100人参加面试.现随机调查了24名笔试者的成绩,如下表所示:分数[60,65) [65,70) [70,75) [75,80) [80,85) [85,90) 段人数 2 3 4 9 5 1据此估计允许参加面试的分数线大约是( )A.75 B.80C.85 D.90[答案] B[解析]由题可知,在24名笔试者中应选出6人参加面试.由表可得面试分数线大约为80.故选B.二、填空题9.10名工人某天生产同一零件,生产的件数分别是10,12,14,14,14,15,15,16,16,17,设这10个数的中位数为a ,众数为b ,则a -b =________.[答案] 0.5[解析] 从数据中可以看出,众数b =14,且中位数a =14+152=14.5, ∴a -b =14.5-14=0.5.10.(文)为了解某校高三学生身体状况,用分层抽样的方法抽取部分男生和女生的体重,将男生体重数据整理后,画出了频率分布直方图,已知图中从左到右前三个小组频率之比为123,第二小组频数为12,若全校男、女生比例为32,则全校抽取学生数为________.[答案] 80[解析] 第四小组和第五小组的频率之和是5×(0.0125+0.0375)=0.25,故前三个小组的频率之和是0.75,则第二小组的频率是0.25,则抽取的男生人数是12÷0.25=48人,抽取的女生人数是48×23=32人,全校共抽取80人. (理)为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据,已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________.[答案] 10[解析] 设5个班级中参加的人数分别为x 1,x 2,x 3,x 4,x 5,则x 1+x 2+x 3+x 4+x 55=7, (x 1-7)2+(x 2-7)2+(x 3-7)2+(x 4-7)2+(x 5-7)25=4,即5个整数平方和为20,x 1,x 2,x 3,x 4,x 5这5个数中最大数比7大,但不能超过10,因此最大为10,平方和20=0+1+1+9+9=(7-7)2+(8-7)2+(6-7)2+(10-7)2+(4-7)2.因此参加的人数为4,6,7,8,10,故最大值为10,最小值为4.三、解答题11.(文)(2015·山西太原市模拟)某网络广告A 公司计划从甲、乙两个网站选择一个网站拓展广告业务,为此A 公司随机抽取了甲、乙两个网站某月中10天的日访问量n(单位:万次),整理后得到如下茎叶图,已知A 公司要从网站日访问量的平均值和稳定性两方面进行考量选择.(1)请说明A公司应选择哪个网站;(2)现将抽取的样本分布近似看作总体分布,A公司根据所选网站的日访问量n进行付费,其付费标准如下:选定网站的日访问量n(单位:万次) A公司的付费标准(单位:元/日)n<25 50025≤n≤35 700n>35 1000求A公司每月(按30天计)应付给选定网站的费用S.[解析](1)由茎叶图可知x甲=(15+24+28+25+30+36+30+32+35+45)÷10=30,S2甲=110×[(15-30)2+(24-30)2+(28-30)2+(25-30)2+(30-30)2+(36-30)2+(30-30)2+(32-30)2+(35-30)2+(45-30)2]=58.x乙=(18+25+22+24+32+38+30+36+35+40)÷10=30,S2乙=110×[(18-30)2+(25-30)2+(22-30)2+(24-30)2+(32-30)2+(38-30)2+(30-30)2+(36-30)2+(35-30)2+(40-30)2]=49.8∵x甲=x乙,S2甲>S2乙,∴A公司应选择乙网站;(2)由(1)得A公司应选择乙网站,由题意可知乙网站日访问量n<25的概率为0.3,日访问量25≤n≤35的概率为0.4,日访问量n>35的概率为0.3,∴A公司每月应付给乙网站的费用S=30×(500×0.3+700×0.4+1000×0.3)=21900元.(理)(2015·郑州市质检)最新高考改革方案已在上海和江苏开始实施,某教育机构为了解我省广大师生对新高考改革方案的看法,对某市部分学校500名师生进行调查,统计结果如下:赞成改革不赞成改革无所谓教师120 y 40 学生x z 130在全体师生中随机抽取1名“赞成改革”的人是学生的概率为0.3,且z=2y.(1)现从全部500名师生中用分层抽样的方法抽取50名进行问卷调查,则应抽取“不赞成改革”的教师和学生人数各是多少?(2)在(1)中所抽取的“不赞成改革”的人中,随机选出三人进行座谈,求至少有一名教师被选出的概率.[解析](1) 由题意x500=0.3,∴x=150,所以y+z=60,因为z=2y,所以y=20,z=40,则应抽取教师人数50 500×20=2,应抽取学生人数50500×40=4.(2)解法1:所抽取的“不赞成改革”的2名教师记为a,b,4名学生记为1,2,3,4,随机选出三人的不同选法有(a,b,1),(a,b,2),(a,b,3),(a,b,4),(a,1,2),(a,1,3),(a,1,4),(a,2,3),(a,2,4),(a,3,4),(b,1,2),(b,1,3),(b,1,4),(b,2,3),(b,2,4),(b,3,4),(1,2,3),(1,2,4),(1,3,4),(2,3,4),共20种,至少有一名教师的选法有(a,b,1),(a,b,2),(a,b,3),(a,b,4),(a,1,2),(a,1,3),(a,1,4),(a,2,3),(a,2,4),(a,3,4),(b,1,2),(b,1,3),(b,1,4),(b,2,3),(b,2,4),(b,3,4)共16种,至少有一名教师被选出的概率p=1620=45.解法2:抽取的“不赞成改革”的人中,教师2人,学生4人共6人,从中任取3人,有C36种取法,其中至少有一名教师的取法有C36-C34种,故所求概率P=C36-C34C36=45.12.(文)某个团购网站为了更好地满足消费者需求,对在其网站发布的团购产品展开了用户调查,每个用户在使用了团购产品后可以对该产品进行打分,最高分是10分.上个月该网站共卖出了100份团购产品,所有用户打分的平均分作为该产品的参考分值,将这些产品按照得分分成以下几组:第一组[0,2),第二组[2,4),第三组[4,6),第四组[6,8),第五组[8,10],得到的频率分布直方图如图所示.(1)分别求第三,四,五组的频率;(2)该网站在得分较高的第三,四,五组中用分层抽样的方法抽取了6个产品作为下个月团购的特惠产品,某人决定在这6个产品中随机抽取2个购买,求他抽到的两个产品均来自第三组的概率.[解析](1)第三组的频率是0.150×2=0.3;第四组的频率是0.100×2=0.2;第五组的频率是0.050×2=0.1(2)设“抽到的两个产品均来自第三组”为事件A,由题意可知,从第三、四、五组中分别抽取3个,2个,1个.不妨设第三组抽到的是A1,A2,A3;第四组抽到的是B1,B2;第五组抽到的是C1,所含基本事件总数为:{A1,A2},{A1,A3},{A2,A3},{A1,B1},{A1,B2},{A1,C1},{A2,B1},{A2,B2},{A2,C1},{A3,B1},{A3,B2},{A3,C1},{B1,B2},{B1,C1},{B2,C1}所以P(A)=315=15.(理)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:甲82 81 79 78 95 88 93 84乙92 95 80 75 83 80 90 85(1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由;(3)若将频率视为概率,对甲同学在今后的3次数学竞赛成绩进行预测,记这3次成绩中高于80分的次数为ξ,求ξ的分布列及数学期望E(ξ).[解析](1)作出茎叶图如下:甲乙9 8 7 58 4 21 80 0 355 3 9 0 2 5 (2)派甲参赛比较合适,理由如下:x-甲=18(70×2+80×4+90×2+8+9+1+2+4+8+3+5)=85x-乙=18(70×1+80×4+90×3+5+0+0+3+5+0+2+5)=85.S2甲=18[(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88-85)2+(93-85)2+(95-85)2]=35.5S2乙=18[(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90-85)2+(92-85)2+(95-85)2]=41∵x-甲=x-乙,S2甲<S2乙,∴甲的成绩较稳定,派甲参赛比较合适.注:本小题的结论及理由均不唯一,如果考生能从统计学的角度分析,给出其他合理回答,同样给分:如:从统计的角度看,甲获得85分以上(含85分)的概率P1=38乙获得85分以上(含85分)的概率为P2=48=12∵P 2>P 1,∴派乙参赛比较合适.(3)记“甲同学在一次数学竞赛中成绩高于80分”为事件A ,则P(A)=68=34,随机变量ξ的分布列为ξ1 2 3 P 16496427642764E(ξ)=0×164+1×964+2×2764+3×2764=94.(或E(ξ)=np =3×34=94)13.(文)(2015·邯郸市一模)某市教育局邀请教育专家深入该市多所中小学,开展听课、访谈及随堂检测等活动,他们把收集到的180节课分为三类课堂教学模式,教师主讲的为A 模式,少数学生参与的为B 模式,多数学生参与的为C 模式,A 、B 、C 三类课的节数比例为321.(1)为便于研究分析,教育专家将A 模式称为传统课堂模式,B 、C 统称为新课堂模式,根据随堂检测结果,把课堂教学效率分为高效和非高效,根据检测结果统计得到如下2×2列联表(单位:节)高效 非高效 总计 新课堂模603090式传统课堂模式40 50 90总计100 80 180请根据统计数据回答:有没有99%的把握认为课堂教学效率与教学模式有关?并说明理由.(2)教育专家采用分层抽样的方法从收集到的180节课中选出12节课作为样本进行研究,并从样本中的B模式和C模式课堂中随机抽取2节课,求至少有一节课为C模式课堂的概率.参考临界值有:P(K2≥k0) 0.10 0.05 0.0250.010.0050.001k02.7063.8415.0246.6357.87910.828参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.[解析](1)由列联表中的统计数据计算随机变量K2的观测值为:∵K2=180(60×50-40×30)2(60+40)(30+50)(60+30)(40+50)=9>6.635 由临界值表P(k2≥6.635)≈0.010,∴有99%的把握认为课堂效率与教学模式有关.(2)样本中的B模式课堂和C模式课堂分别是4节和2节.分别记为B1、B2、B3、B4、C1、C2,从中取出2节课共有15种情况:(C1,B1),(C1,B2),(C1,B3),(C1,B4),(C2,B1),(C2,B2),(C2,B3),(C2,B4),(C1,C2),(B1,B2),(B1,B3),(B1,B4),(B2,B3),(B2,B4),(B3,B4)至少有一节课为C模式课堂的事件为(C1,B1),(C1,B2),(C1,B3),(C1,B4),(C2,B1),(C2,B2),(C2,B3),(C2,B4),(C1,C2)共9种∴至少有一节课为C模式课堂的概率为915=3 5.(理)(2015·辽宁葫芦岛市一模)为了调查学生星期天晚上学习时间利用问题,某校从高二年级1 000名学生(其中走读生450名,住宿生550名)中,采用分层抽样的方法抽取n名学生进行问卷调查.根据问卷取得了这n名同学每天晚上学习时间(单位:分钟)的数据,按照以下区间分为八组①[0,30),②[30,60),③[60,90),④[90,120),⑤[120,150),⑥[150,180),⑦[180,210),⑧[210,240],得到频率分布直方图如图.已知抽取的学生中星期天晚上学习时间少于60分钟的人数为5人.(1)求n的值并补全频率分布直方图;(2)如果把“学生晚上学习时间达到两小时”作为是否充分利用时间的标准,对抽取的n名学生,完成下列2×2列联表:利用时间充分利用时间不充分总计走读生住宿生10总计据此资料,你是否有95%的把握认为学生“利用时间是否充分”与走读、住宿有关?(3)若在第①组、第②组、第⑧组中共抽出3人调查影响有效利用时间的原因,记抽到“学习时间少于60分钟”的学生人数为X,求X的分布列及期望.参考公式:K2=n(n11n22-n12n21)2 n1+n2+n+1n+2[解析] (1)设第i 组的频率为P i (i =1,2,…,8),由图可知:P 1=11500×30=2100, P 2=11000×30=3100∴学习时间少于60分钟的频率为P 1+P 2=120由题意:n ×120=5,∴n =100.又P 3=1375×30=8100, P 5=1100×30=30100,P 6=1120×30=25100,P 7=1200×30=15100, P 8=1600×30=5100, ∴P 4=1-(P 1+P 2+P 3+P 5+P 6+P 7+P 8)=325.∴第④组的高度为:h =325×130=1250频率分布直方图如图:(注:未标明高度1/250扣1分)(2)由频率分布直方图可知,在抽取的100人中,“走读生”有45人,“住宿生”有55人,其中“住宿生”中利用时间不充分的有10人,从而走读生中利用时间不充分的有25-10=15人,利用时间充分的有45-15=30人,由此可得2×2列联表如下:利用时间充分利用时间不充分总计走读生30 15 45住宿生45 10 55总计75 25 100 将2×2列联表中的数据代入公式计算,得K2=n(n11n22-n12n21)2n1+n2+n+1n+2=100×(30×10-45×15)275×25×45×55=10033≈3.030因为3.030<3.841,所以没有95%的把握认为学生“利用时间是否充分”与走读、住宿有关(3)由(1)知:第①组2人,第②组3人,第⑧组5人,总计10人,则X的所有可能取值为0,1,2,3P(X=i)=C i5C3-i5C310(i=0,1,2,3)∴P(X=0)=C05C35C310=10120=112,P(X=1)=C15C25C310=50120=512,P(X=2)=C25C15C310=50120=512,P(X=3)=C35C05C310=10120=112∴X的分布列为:X 0 1 2 3 P 112512512112∴E(X)=0×112+1×512+2×512+3×112=1812=32(或由超几何分布的期望计算公式EX =n ×M N =3×510=32)14.为加强中学生实践、创新能力和团队精神的培养,促进教育教学改革,郑州市教育局举办了全市中学生创新知识竞赛.某校举行选拔赛,共有200名学生参加,为了解成绩情况,从中选取50名学生的成绩(得分均为整数,满分为100分)进行统计.请你根据尚未完成的频率分布表,解答下列问题:分组 频数 频率一60.5~70.5 a0.26二 70.5~80.5 15 c三 80.5~90.5 18 0.36四 90.5~100.5 b d 合50e计(1)若用系统抽样的方法抽取50个样本,现将所有学生随机地编号为000,001,002,…,199,试写出第二组第一位学生的编号;(2)求出a、b、c、d、e的值(直接写出结果),并作出频率分布直方图;(3)若成绩在85.5~95.5分的学生为二等奖,问参赛学生中获得二等奖的学生约为多少人.[解析](1)004(2)a,b,c,d,e的值分别为13,4,0.30,0.08,1.频率分布直方图如下:(3)由样本中成绩在80.5~90.5的频数为18,成绩在90.5~100.5的频数为4,可估计成绩在85.5~95.5的人数为11人,故获得二等奖的学生约为20050×11=44人.。

2020版高考数学(文科)大一轮精准复习精练:§10.2统计及统计案例含解析

2020版高考数学(文科)大一轮精准复习精练:§10.2统计及统计案例含解析

§10.2统计及统计案例挖命题【考情探究】分析解读从近几年的高考试题来看,本部分在高考中的考查点如下:1.主要考查分层抽样的定义、频率分布直方图、平均数、方差的计算、识图能力及借助概率知识分析、解决问题的能力;2.在频率分布直方图中,注意小矩形的竖直方向的长度=频率/组距,小矩形的面积为频率,所有小矩形的面积之和为1;3.分析两个变量间的相关关系,通过独立性检验判断两个变量是否相关.本节内容在高考中分值为17分左右,属中档题.破考点【考点集训】考点一抽样方法1.(2018山东烟台11月联考,4)《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩,按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为()A.2B.4C.5D.6答案B2.(2018宁夏银川一中月考,4)用系统抽样的方法从300名学生中抽取容量为20的样本,将300名学生从1~300编号,按编号顺序平均分组.若第16组应抽出的号码为232,则第一组中抽出的号码是()A.5B.6C.7D.8答案C考点二统计图表1.(2018四川达州模拟,4)某8人一次比赛得分的茎叶图如图所示,这组数据的中位数和众数分别是()A.85和92B.87和92C.84和92D.85和90答案B2.(2017河南新乡第一次调研,3)统计新生婴儿的体重,其频率分布直方图如图所示,则新生婴儿体重在(2700,3000]克内的频率为()A.0.001B.0.1C.0.2D.0.3答案D考点三样本的数字特征1.(2018湖北华师一附中月考,3)某人到甲、乙两市各7个小区调查空置房情况,将调查得到的小区空置房的套数绘成了如图所示的茎叶图,则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为()A.4B.3C.2D.1答案B2.(2018山东济南一模,3)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为,方差为s2,则()A.=4,s2<2B.=4,s2>2C.>4,s2<2D.>4,s2>2答案A考点四变量间的相关性1.(2018河南焦作四模,3)已知变量x和y根据上表可得回归直线方程为=x-0.25,据此可以预测当x=8时,=()A.6.4B.6.25C.6.55D.6.45答案C2.(2018湖南张家界三模,4)已知变量x,y之间的线性回归方程为=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法错误..的是()x681012y6m32A.变量x,y之间成负相关关系B.可以预测,当x=20时,=-3.7C.m=4D.该回归直线必过点(9,4)答案C考点五独立性检验1.(2017江西九校一模,7)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线城市一线城市总计愿生452065不愿生132235总计5842100附表:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828由K2=-算得,K2=≈9.616,参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”答案C(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”?(2).附:K2=-.解析(1)将2×2列联表中的数据代入公式计算,得K2==≈4.762.由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名中文系学生中任取3人的所有可能结果所组成的基本事件空间Ω={(a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)},其中ai 表示喜欢甜品的学生,i=1,2,bj表示不喜欢甜品的学生,j=1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A表示“3人中至多有1人喜欢甜品”这一事件,则A={(a,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)}.1事件A由7个基本事件组成,因而P(A)=.炼技法【方法集训】方法1解与频率分布直方图有关问题的方法1.(2016山东,3,5分)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56B.60C.120D.140答案D2.(2017江苏南京调研,3)为了解某一段公路汽车通过时的车速情况,现随机抽测了通过这段公路的200辆汽车的时速,所得数据均在区间[40,80]内,其频率分布直方图如图所示,则在抽测的200辆汽车中,时速在区间[40,60)内的汽车有辆.答案80方法2样本的数字特征的求解及其应用1.(2015山东,6,5分)为比较甲、乙两地某月14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为()A.①③B.①④C.②③D.②④答案B2.(2018四川德阳模拟,13)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(10分制)的频数分布直方图如图所示,如果得分的中位数为a,众数为b,平均数为c,则a、b、c中的最大者是.答案c方法3回归直线方程的求解与运用1.(2017安徽合肥一中等四校联考,6):广告费用x(万元)4235销售额y(万元)49263954根据上表可得回归方程=x+中的为9.4,据此估计,广告费用为7万元时销售额为()A.74.9万元B.65.5万元C.67.7万元D.72.0万元答案A2.(2018湘东五校12月联考,18)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10日期1月10日2月10日3月10日4月10日5月10日6月10日昼夜温差x(℃)1011131286就诊人数y222529261612该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月数据的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据求出y关于x的线性回归方程=x+;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?参考公式:=--=---,=-;参考数据:11×25+13×29+12×26+8×16=1092,112+132+122+82=498.解析(1)设抽到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的,其中,抽到相邻两个月的数据的情况有5种,所以P(A)==.(2)由数据求得=11,=24,由公式求得=,则=-=-,所以y关于x的线性回归方程为=x-.(3)由(2)知,当x=10时,=,-<2,当x=6时,=,-<2,所以,该小组所得线性回归方程是理想的.方法4独立性检验的思想方法1.(2018山西太原五中12月模拟,18)网购是当前民众购物的新方式,某公司为改进营销方式,随机调查了100名市民,统计其周平均网购的次数,并整理得到如下的频数直方图.这100名市民中,年龄不超过40岁的有65人.将所抽样中周平均网购次数不少于4次的市民称为网购迷,且已知其中有5名市民的年龄超过40岁.(1)(2)现将所抽取样本中周平均网购次数不少于5次的市民称为超级网购迷,且已知超级网购迷中有2名年龄超过40岁,若从超级网购迷中任意挑选2名,求至少有1名市民年龄超过40岁的概率.附:K2=-.K2=≈3.297,因为3.297>2.706,所以据此列联表判断,在犯错误的概率不超过0.10的前提下,认为网购迷与年龄不超过40岁有关.(2)由频数分布直方图知,超级网购迷共有10人,记其中年龄超过40岁的2名市民为A、B,其余8名市民记为c、d、e、f、g、h、m、n,现从10人中任取2人,基本事件有AB、Ac、Ad、Ae、Af、Ag、Ah、Am、An、Bc、Bd、Be、Bf、Bg、Bh、Bm、Bn、cd、ce、cf、cg、ch、cm、cn、de、df、dg、dh、dm、dn、ef、eg、eh、em、en、fg、fh、fm、fn、gh、gm、gn、hm、hn、mn,共有45种,其中至少有1名市民年龄超过40岁的基本事件是AB、Ac、Ad、Ae、Af、Ag、Ah、Am、An、Bc、Bd、Be、Bf、Bg、Bh、Bm、Bn,共17种,故所求的概率P=.2.(2017江西红色七校第一次联考,18)某学校为了了解学生使用手机的情况,分别在高一和高二两个年级中各随机抽取了100名学生进行调查.下面是根据调查结果绘制的学生日均使用手机时间的频数分布表和频率分布直方图,将使用手机时间不低于80分钟的学生称为“手机迷”.高二年级的学生日均使用手机时间的频率分布直方图(1)将频率视为概率,估计哪个年级的学生是“手机迷”的概率大,请说明理由;(2)在对高二年级学生的抽查中,已知随机抽到的女生有55名,其中10名为“手机迷”.根据已知条件完成下面的2×2列联表,并据此资料,你有多大的把握认为“手机迷”与性别有关?附:K2=-,其中n=a+b+c+d.解析(1)估计高一年级的学生是“手机迷”的概率大.理由:由频数分布表可知,高一年级的学生是“手机迷”的概率为=0.26,由频率分布直方图可知,高二年级的学生是“手机迷”的概率为(0.0025+0.010)×20=0.25,因为0.26>0.25,所以高一年级的学生是“手机迷”的概率大.(2)由频率分布直方图可知,在抽取的100人中,“手机迷”有(0.010+0.0025)×20×100=25人,“非手机迷”有100-25=75人.2×2列联表如下:非手机迷手机迷合计男301545女451055合计7525100将2×2列联表中的数据代入公式计算,得K2==≈3.030.因为3.030>2.706,所以有90%的把握认为“手机迷”与性别有关.过专题【五年高考】A组统一命题·课标卷题组考点一抽样方法(2018课标全国Ⅲ,14,5分)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是.答案分层抽样考点二统计图表1.(2018课标全国Ⅰ,3,5分)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半答案A2.(2017课标全国Ⅲ,3,5分)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳答案A3.(2015课标Ⅱ,3,5分)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案D4.(2018课标全国Ⅰ,19,12分)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:日用水量[0,0.1)[0.1,0.2)[0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6)[0.6,0.7)频数13249265使用了节水龙头50天的日用水量频数分布表日用水量[0,0.1)[0.1,0.2)[0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6)频数151310165(1)作出使用了节水龙头50天的日用水量数据的频率分布直方图;(2)估计该家庭使用节水龙头后,日用水量小于0.35m3的概率;(3)估计该家庭使用节水龙头后,一年能节省多少水.(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)解析(1)(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后日用水量小于0.35m3的概率的估计值为0.48.(3)该家庭未使用节水龙头50天日用水量的平均数为=×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.该家庭使用了节水龙头后50天日用水量的平均数为=×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).考点三样本的数字特征1.(2017课标全国Ⅰ,2,5分)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数答案B2.(2014课标Ⅰ,18,12分):质量指标值分组[75,85)[85,95)[95,105)[105,115)[115,125)频数62638228(1)作出这些数据的频率分布直方图;(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?解析(1)频率分布直方图如图.(2)质量指标值的样本平均数为=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100. 质量指标值的样本方差为 s 2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104. (3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.考点四 变量间的相关性1.(2017课标全国Ⅰ,19,12分)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(经计算得 =x i =9.97,s=- =-≈0.212,- ≈18.439,(x i - )(i-8.5)=-2.78,其中x i 为抽取的第i 个零件的尺寸,i=1,2, (16)(1)求(x i ,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在( -3s, +3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在( -3s, +3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01) 附:样本(x i ,y i )(i=1,2,…,n)的相关系数 r=- ---.≈0.09.解析 (1)由样本数据得(x i ,i)(i=1,2,…,16)的相关系数为r=- ---=≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i)由于=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查. (ii)剔除离群值,即第13个数据,剩下数据的平均数为×(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.=16×0.2122+16×9.972≈1591.134,剔除第13个数据,剩下数据的样本方差为×(1591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.2.(2016课标全国Ⅲ,18,12分)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:yi=9.32,t i y i=40.17,-=0.55,≈2.646.参考公式:相关系数r=----,回归方程=+t中斜率和截距最小二乘估计公式分别为:=---,=-.解析(1)由折线图中数据和附注中参考数据得=4,(t i-)2=28,-=0.55,(t i-)(y i-)=t i y i-y i=40.17-4×9.32=2.89,r≈≈0.99.(4分)因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.(6分) (2)由=≈1.331及(1)得=---=≈0.10,=-=1.331-0.10×4≈0.93.所以y关于t的回归方程为=0.93+0.10t.(10分)将2016年对应的t=9代入回归方程得:=0.93+0.10×9=1.83.所以预测2016年我国生活垃圾无害化处理量将约为1.83亿吨.(12分)考点五独立性检验1.(2018课标全国Ⅲ,18,12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高,并说明理由;(2)求40m的工人数填入下面的列联表;超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=-,P(K2≥k)0.0500.0100.001k 3.841 6.63510.828.解析(1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知m==80.列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.2.(2017课标全国Ⅱ,19,12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;(2)(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.附:P(K2≥k)0.0500.0100.001k 3.841 6.63510.828,K2=-.解析(1)旧养殖法的箱产量低于50kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)K2=≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50kg到55kg之间,旧养殖法的箱产量平均值(或中位数)在45kg 到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.B组自主命题·省(区、市)卷题组考点一抽样方法1.(2015湖南,2,5分)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是()A.3B.4C.5D.6答案B2.(2017江苏,3,5分)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取件.答案18考点二统计图表1.(2015湖北,14,5分)某电子商务公司对10000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.(1)直方图中的a=;(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为.答案(1)3(2)60002.(2017北京,17,13分)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解析(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5.所以总体中分数在区间[40,50)内的人数估计为400×=20.(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×=30.所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.考点三样本的数字特征1.(2017山东,8,5分)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为()A.3,5B.5,5C.3,7D.5,7答案A2.(2018江苏,3,5分)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为.8999011答案903.(2016江苏,4,5分)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是.答案0.1考点四变量间的相关性1.(2015湖北,4,5分)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案C2.(2015重庆,17,13分)(年底余额)如下表:年份20102011201220132014时间代号t12345储蓄存款y(千亿元)567810(1)求y关于t的回归方程=t+;(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.附:回归方程=t+中,=-=-.-解析(1)列表计算如下:i t i y i t i y i11515226412337921448163255102550153655120这里n=5,=t==3,=y i==7.2.i又l=-n=55-5×32=10,l ty=t i y i-n=120-5×3×7.2=12,从而===1.2,=-=7.2-1.2×3=3.6,tt故所求回归方程为=1.2t+3.6.(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为=1.2×6+3.6=10.8(千亿元).考点五独立性检验1.(2014江西,7,5分)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()A.成绩B.视力C.智商D.阅读量答案D2.(2014安徽,17,12分)某高校共有学生15000人,其中男生10500人,女生4500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=-解析(1)300×=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:结合列联表可算得K2==≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.C组教师专用题组考点一抽样方法1.(2015湖北,2,5分)我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为()A.134石B.169石C.338石D.1365石答案B2.(2015北京,4,5分)某校老年、中年和青年教师的人数见下表.采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为()。

2020届高考数学一轮复习 第11章 统计与统计案例

2020届高考数学一轮复习 第11章 统计与统计案例

第十章⎪⎪⎪ 统计与统计案例全国卷5年考情图解 高考命题规律把握1.本章在高考中的分值在12分左右,主要题型是选择题、解答题.2.随机抽样、样本估计总体、独立性检验多在解答题中作为问题的一部分出现.3.解答题多以实际生活为背景,考查利用统计知识解决实际问题的能力.第一节 随机抽样一、基础知识批注——理解深一点1.简单随机抽样(1)定义:一般地,设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.(2)常用方法:抽签法和随机数法.2.分层抽样(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.3.系统抽样(1)定义:当总体中的个体数较多时,可以将总体分成均衡的几部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需的样本,这种抽样的方法叫做系统抽样.(2)系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本.①先将总体的N 个个体编号;②确定分段间隔k ,对编号进行分段.当N n (n 是样本容量)是整数时,取k =N n;当总体中的个体数不能被样本容量整除时,可先用简单随机抽样的方法从总体中剔除几个个体,使剩下的个体数能被样本容量整除,然后再按系统抽样进行.这时在整个抽样过程中每个个体被抽取的可能性仍然相等.③在第1段用简单随机抽样确定第一个个体编号l(l≤k);④按照一定的规则抽取样本.通常是将l加上间隔k得到第2个个体编号l+k,再加k 得到第3个个体编号l+2k,依次进行下去,直到获取整个样本.二、常用结论汇总——规律多一点(1)不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.(2)系统抽样一般也称为等距抽样,入样个体的编号相差分段间隔k的整数倍.(3)分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.(4)三种抽样方法的特点、联系及适用范围类别共同点各自特点联系适用范围简单随机抽样①抽样过程中每个个体被抽到的可能性相等;②每次抽出个体后不再将它放回,即不放回抽样从总体中逐个抽取总体个数较少系统抽样将总体均分成几部分,按预先定出的规则在各部分中抽取在起始部分取样时,采用简单随机抽样总体个数较多分层抽样将总体分成几层,分层进行抽取各层抽样时,采用简单随机抽样或系统抽样总体由差异明显的几部分组成三、基础小题强化——功底牢一点(一)判一判(对的打“√”,错的打“×”)(1)在简单随机抽样中,某一个个体被抽到的可能性与第几次抽取有关,第一次被抽到的可能性最大.()(2)从100件玩具中随机拿出一件,放回后再拿出一件,连续拿5次,是简单随机抽样.()(3)系统抽样适用于元素个数很多且均衡的总体.()(4)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.()(5)分层抽样中,每个个体被抽到的可能性与层数及分层有关.()(6)某校即将召开学生代表大会,现从高一、高二、高三共抽取60名代表,则可用分层抽样方法抽取.()答案:(1)×(2)×(3)√(4)×(5)×(6)√(二)选一选1.下面抽样方法是简单随机抽样的是()A.从平面直角坐标系中抽取5个点作为样本B.可口可乐公司从仓库中的1 000箱可乐中一次性抽取20箱进行质量检查C.某连队从200名战士中,挑选出50名最优秀的战士去参加抢险救灾活动D.从10个手机中逐个不放回地随机抽取2个进行质量检验(假设10个手机已编号) 解析:选D平面直角坐标系中有无数个点,这与简单随机抽样中要求总体中的个体数有限不相符,故A错误;一次性抽取不符合简单随机抽样逐个抽取的特点,故B错误;50名战士是最优秀的,不符合简单随机抽样的等可能性,故C错误.D选项显然符合简单随机抽样的特点,故选D.2.某学院A,B,C三个专业共有1 200名学生,为了调查这些学生勤工俭学的情况,拟采用分层抽样的方法抽取一个容量为120的样本,已知该学院的A专业有380名学生,B 专业有420名学生,则应在该学院的C专业抽取的学生人数为()A.30B.40C.50 D.60解析:选B C专业的学生有1 200-380-420=400名,由分层抽样知应抽取120×4001 200=40名.3.假设从高一年级全体同学(500人)中随机抽出60人参加一项活动,利用随机数法抽取样本时,先将500名同学按000,001,…,499进行编号,如果从随机数表第8行第11列的数开始,按三位数连续向右读取,最先抽出的5名同学的号码是(下面摘取了此随机数表第7行和第8行)()84421 75331 57245 50688 77047 44767 21763 35025 83921 2067663016 37859 16955 56719 98105 07175 12867 35807 44395 23879A.455068047447176B.169105071286443C.050358074439332D.447176335025212解析:选B由随机数表法的随机抽样的过程可知最先抽出的5名同学的号码为169,105,071,286,443.(三)填一填4.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.解析:因为客户数量大,且不同年龄段客户对其服务的评价有较大差异,所以最合适的抽样方法是分层抽样.答案:分层抽样5.某班共有56人,学号依次为1,2,3,…,56,现用系统抽样的方法抽取一个容量为4的样本,已知学号为2,30,44的同学在样本中,则样本中还有一位同学的学号为________.解析:由题意得,需要将56人按学号从小到大分成4组,每组抽取第2个学号对应的同学,所以还有一位同学的学号为1×14+2=16.答案:16考点一简单随机抽样[典例]下列抽取样本的方式属于简单随机抽样的个数有()①从无限多个个体中抽取100个个体作为样本;②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;③用抽签方法从10件产品中选取3件进行质量检验;④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0个B.1个C.2个D.3个[解析]①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;②不是简单随机抽样,因为它是有放回抽样;③明显为简单随机抽样;④不是简单随机抽样,因为不是等可能抽样.[答案] B[解题技法] 应用简单随机抽样应注意的问题(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.[题组训练]1.总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )A.08 C .02 D .01解析:选D 由随机数法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.2.利用简单随机抽样,从n 个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为13,则在整个抽样过程中,每个个体被抽到的概率为( ) A.14B.13C.514D.1027解析:选C 根据题意,9n -1=13, 解得n =28.故在整个抽样过程中每个个体被抽到的概率为1028=514. 考点二 系统抽样[典例] (1)某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )A .16B .17C .18D .19(2)中央电视台为了解观众对某综艺节目的意见,准备从502名现场观众中抽取10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.[解析] (1)因为从1 000名学生中抽取一个容量为40的样本,所以系统抽样的分段间隔为1 00040=25, 设第一组随机抽取的号码为x ,则抽取的第18组编号为x +17×25=443,所以x =18.(2)把502名观众平均分成50组,由于502除以50的商是10,余数是2,所以每组有10名观众,还剩2名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从502名观众中抽取2名观众,这2名观众不参加座谈;再将剩下的500名观众编号为1,2,3,…,500,并均匀分成50段,每段含50050=10个个体.所以需剔除2个个体,抽样间隔为10. [答案] (1)C (2)2 10[变透练清]1.(变结论)若本例(1)的条件不变,则编号落入区间[501,750]的人数为________.解析:从1 000名学生中抽取一个容量为40的样本,系统抽样分40组,每组1 00040=25个号码,每组抽取一个,从501到750恰好是第21组到第30组,共抽取10人.答案:102.(2018·南昌摸底调研)某校高三(2)班现有64名学生,随机编号为0,1,2,…,63,依编号顺序平均分成8组,组号依次为1,2,3,…,8.现用系统抽样方法抽取一个容量为8的样本,若在第1组中随机抽取的号码为5,则在第6组中抽取的号码为________.解析:由题知分组间隔为648=8,又第1组中抽取的号码为5,所以第6组中抽取的号码为5×8+5=45.答案:45[解题技法] 系统抽样中所抽取编号的特点系统抽样又称等距抽样,所以依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.[提醒] 系统抽样时,如果总体中的个数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体,然后再按系统抽样进行.考点三 分层抽样[典例] 某电视台在网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:电视台为了了解观众的具体想法和意见,打算从中抽取100人进行详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽取的人数分别为( )A .25,25,25,25B .48,72,64,16C .20,40,30,10D .24,36,32,8 [解析] 法一:因为抽样比为10020 000=1200,所以每类人中应抽取的人数分别为 4 800×1200=24,7 200×1200=36,6 400×1200=32,1 600×1200=8. 法二:最喜爱、喜爱、一般、不喜欢的比例为4 800∶7 200∶6 400∶1 600=6∶9∶8∶2, 所以每类人中应抽取的人数分别为66+9+8+2×100=24,96+9+8+2×100=36,86+9+8+2×100=32,26+9+8+2×100=8. [答案] D[解题技法] 分层抽样问题的类型及解题思路(1)求某层应抽个体数量:按该层所占总体的比例计算.(2)已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.(3)分层抽样的计算应根据抽样比构造方程求解,其中“抽样比=样本容量总体容量=各层样本数量各层个体数量”. [题组训练]1.(2019·山西五校联考)某校为了解学生的学习情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n 人中抽取81人进行问卷调查,若高二被抽取的人数为30,则n =( )A .860B .720C .1 020D .1 040解析:选D 由已知条件知抽样比为301 200=140,从而811 000+1 200+n =140,解得n = 1 040,故选D.2.(2018·广州高中综合测试)已知某地区中小学学生人数如图所示.为了解该区学生参加某项社会实践活动的意向,拟采用分层抽样的方法来进行调查.若高中需抽取20名学生,则小学与初中共需抽取的学生人数为________.解析:设小学与初中共需抽取的学生人数为x ,依题意可得 1 2002 700+2 400+1 200=20x +20,解得x =85.答案:85[课时跟踪检测]1.从2 019名学生中选取50名学生参加全国数学联赛,若采用以下方法选取:先用简单随机抽样法从2 019名学生中剔除19名学生,剩下的2 000名学生再按系统抽样的方法抽取,则每名学生入选的概率( )A .不全相等B .均不相等C .都相等,且为502 019D .都相等,且为140解析:选C 从N 个个体中抽取M 个个体,则每个个体被抽到的概率都等于M N,故每名学生入选的概率都相等,且为502 019. 2.福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球的号码为( )C .06D .16解析:选C 被选中的红色球的号码依次为17,12,33,06,32,22,所以第四个被选中的红色球的号码为06.3.某班共有学生52人,现根据座号,用系统抽样的方法,抽取一个容量为4的样本.已知5号、18号、44号同学在样本中,那么样本中还有一个同学的座号是( )A .23B .27C .31D .33解析:选C 分段间隔为524=13,故样本中还有一个同学的座号为18+13=31. 4.某工厂在12月份共生产了3 600双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从一、二、三车间抽取的产品数分别为a ,b ,c ,且a ,b ,c 构成等差数列,则第二车间生产的产品数为( )A .800双B .1 000双C .1 200双D .1 500双解析:选C 因为a ,b ,c 成等差数列,所以2b =a +c ,即第二车间抽取的产品数占抽样产品总数的三分之一,根据分层抽样的性质可知,第二车间生产的产品数占12月份生产总数的三分之一,即为1 200双皮靴.5.(2018·南宁摸底联考)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )A .100,20B .200,20C .200,10D .100,10解析:选B 由题图甲可知学生总人数是10 000,样本容量为10 000×2%=200,抽取的高中生人数是2 000×2%=40,由题图乙可知高中生的近视率为50%,所以抽取高中生的近视人数为40×50%=20,故选B.6.一个总体中有100个个体,随机编号为0,1,2,…,99.依编号顺序平均分成10个小组,组号依次为1,2,3,…,10.现用系统抽样方法抽取一个容量为10的样本,如果在第一组随机抽取的号码为m ,那么在第k 组中抽取的号码个位数字与m +k 的个位数字相同.若m=6,则在第7组中抽取的号码是( )A .63B .64C .65D .66解析:选A 若m =6,则在第7组中抽取的号码个位数字与13的个位数字相同,而第7组中的编号依次为60,61,62,63,…,69,故在第7组中抽取的号码是63.7.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间(450,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( )A .7B .9C .10D .15解析:选C 960÷32=30,故由题意可得抽到的号码构成以9为首项,以30为公差的等差数列,其通项公式为a n =9+30(n -1)=30n -21.由450<30n -21≤750,解得15.7<n ≤25.7.又n 为正整数,所以16≤n ≤25,故做问卷B 的人数为25-16+1=10.故选C.8.某企业三月中旬生产A ,B ,C 三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:统计员记得A 产品的样本容量比C 产品的样本容量多10,根据以上信息,可得C 的产品数量是________件.解析:设样本容量为x ,则x 3 000×1 300=130,∴x =300. ∴A 产品和C 产品在样本中共有300-130=170(件).设C 产品的样本容量为y ,则y +y +10=170,∴y =80.∴C 产品的数量为3 000300×80=800(件). 答案:8009.某企业三个分厂生产同一种电子产品,三个分厂产量分布如图所示,现在用分层抽样方法从三个分厂生产的该产品中共抽取100件做使用寿命的测试,则第一分厂应抽取的件数为________;由所得样品的测试结果计算出一、二、三分厂取出的产品的使用寿命平均值分别为1 020小时、980小时、1 030小时,估计这个企业所生产的该产品的平均使用寿命为________小时.解析:第一分厂应抽取的件数为100×50%=50;该产品的平均使用寿命为1 020×0.5+980×0.2+1 030×0.3=1 015.答案:50 1 01510.将参加冬季越野跑的600名选手编号为:001,002,…,600,采用系统抽样方法抽取一个容量为50的样本,把编号分为50组后,在第一组的001到012这12个编号中随机抽得的号码为004,这600名选手穿着三种颜色的衣服,从001到301穿红色衣服,从302到496穿白色衣服,从497到600穿黄色衣服,则抽到穿白色衣服的选手人数为________.解析:由题意及系统抽样的定义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k (k ∈N *)组抽中的号码是4+12(k -1).令302≤4+12(k -1)≤496,得2556≤k ≤42,因此抽到穿白色衣服的选手人数为42-25=17(人).答案:1711.某初级中学共有学生2 000名,各年级男、女生人数如下表:(1)求x 的值;(2)现用分层抽样的方法在全校抽取48名学生,问应在初三年级抽取多少名? 解:(1)∵x2 000=0.19,∴x =380.(2)初三年级人数为y +z =2 000-(373+377+380+370)=500,现用分层抽样的方法在全校抽取48名学生,应在初三年级抽取的人数为482 000×500=12(名).第二节用样本估计总体一、基础知识批注——理解深一点1.频率分布直方图(1)纵轴表示频率组距,即小长方形的高=频率组距;(2)小长方形的面积=组距×频率组距=频率; (3)各个小方形的面积总和等于1 . 2.频率分布表的画法第一步:求极差,决定组数和组距,组距=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表. 3.茎叶图茎叶图是统计中用来表示数据的一种图, 茎是指中间的一列数,叶就是从茎的旁 边生长出来的数.4.中位数、众数、平均数的定义 (1)中位数将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(2)众数一组数据中出现次数最多的数据叫做这组数据的众数. (3)平均数一组数据的算术平均数即为这组数据的平均数,n 个数据x 1,x 2,…,x n 的平均数x =1n (x 1+x 2+…+x n ). 5.样本的数字特征如果有n 个数据x 1,x 2,…,x n ,那么这n 个数的(1)平均数x =1n (x 1+x 2+…+x n ).(2)标准差s =1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. (3)方差s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2].二、常用结论汇总——规律多一点1.频率分布直方图中的常见结论(1)众数的估计值为最高矩形的中点对应的横坐标.(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.(3)中位数的估计值的左边和右边的小矩形的面积和是相等的. 2.平均数、方差的公式推广(1)若数据x 1,x 2,…,x n 的平均数为x ,则mx 1+a ,mx 2+a ,mx 3+a ,…,mx n +a 的平均数是m x +a .(2)若数据x 1,x 2,…,x n 的方差为s 2,则数据ax 1+b ,ax 2+b ,…,ax n +b 的方差为a 2s 2.三、基础小题强化——功底牢一点(一)判一判(对的打“√”,错的打“×”)(1)在频率分布直方图中,小矩形的高表示频率.( ) (2)频率分布直方图中各个长方形的面积之和为1.( )(3)茎叶图中的数据要按从小到大的顺序写,相同的数据可以只记一次.( ) (4)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( ) (5)一组数据的方差越大,说明这组数据的波动越大.( ) 答案:(1)× (2)√ (3)× (4)√ (5)√(二)选一选1.某便利店记录了100天某商品的日需求量(单位:件),整理得下表:A .16件B .16.2件C .16.6件D .16.8件解析:选D 由题意可知,日平均需求量为14×0.1+15×0.2+16×0.3+18×0.2+20×0.2=16.8(件).2.(2019·长春监测)已知某班级部分同学某次测验成绩的茎叶图如图所示,则其中位数和众数分别为( )A .92,94B .92,86C .99,86D .95,91解析:选B由茎叶图可知,此组数据由小到大排列依次为76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,故中位数为92,众数为86.故选B.3.样本中共有五个个体,其值分别为0,1,2,3,m .若该样本的平均值为1,则其方差为( )A.105 B.305C. 2 D .2解析:选D 依题意得m =5×1-(0+1+2+3)=-1,则样本方差s 2=15×[(-1)2+02+12+22+(-2)2]=2,即所求的样本方差为2.(三)填一填4.某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.解析:由频率分布直方图可知45岁以下的教师的频率为5×(0.040+0.080)=0.6,所以年龄小于45岁的共有80×0.6=48(人).答案:485.已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是________. 解析:5个数的平均数x =4.7+4.8+5.1+5.4+5.55=5.1,所以它们的方差s 2=15[(4.7-5.1)2+(4.8-5.1)2+(5.1-5.1)2+(5.4-5.1)2+(5.5-5.1)2]=0.1.答案:0.1考点一 茎叶图[典例] (2017·山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )A .3,5B .5,5C .3,7D .5,7[解析] 由两组数据的中位数相等可得65=60+y ,解得y =5,又它们的平均值相等, 所以15×[56+62+65+74+(70+x )]=15×(59+61+67+65+78),解得x =3.[答案] A[解题技法] 茎叶图的应用(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.(2)给定两组数据的茎叶图,比较数字特征时,“重心”下移者平均数较大,数据集中者方差较小.[题组训练]1.在如图所示一组数据的茎叶图中,有一个数字被污染后模糊不清,但曾计算得该组数据的极差与中位数之和为61,则被污染的数字为( )A .1B .2C .3D .4解析:选B 由图可知该组数据的极差为48-20=28,则该组数据的中位数为61-28=33,易得被污染的数字为2.2.甲、乙两名篮球运动员5场比赛得分的原始记录如茎叶图所示,若甲、乙两人的平均得分分别为x 甲,x 乙,则下列结论正确的是( )A.x 甲<x 乙;乙比甲得分稳定B.x 甲>x 乙;甲比乙得分稳定C.x 甲>x 乙;乙比甲得分稳定D.x 甲<x 乙;甲比乙得分稳定 解析:选A 因为x 甲=2+7+8+16+225=11,x乙=8+12+18+21+255=16.8,所以x甲<x 乙且乙比甲成绩稳定.考点二 频率分布直方图[典例] 某城市100户居民的月平均用电量(单位:千瓦时),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x 的值;(2)求月平均用电量的众数和中位数.[解] (1)由(0.002+0.009 5+0.011+0.012 5+x +0.005+0.002 5)×20=1,解得x =0.007 5.即直方图中x 的值为0.007 5.(2)月平均用电量的众数是220+2402=230.∵(0.002+0.009 5+0.011)×20=0.45<0.5, (0.002+0.009 5+0.011+0.012 5)×20=0.7>0.5, ∴月平均用电量的中位数在[220,240)内.设中位数为a ,则0.45+0.012 5×(a -220)=0.5,解得a =224,即中位数为224. [变透练清]1.某校随机抽取20个班,调查各班有出国意向的人数,所得数据的茎叶图如图所示.以5为组距将数据分组为[0,5),[5,10),…,[30,35),[35,40],所作的频率分布直方图是( )解析:选A 以5为组距将数据分组为[0,5),[5,10),…,[30,35),[35,40],各组的频数依次为1,1,4,2,4,3,3,2,可知画出的频率分布直方图为选项A 中的图.2.(变结论)在本例条件下,在月平均电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取________户.解析:月平均用电量在[220,240)的用户有0.012 5×20×100=25(户).同理可得月平均用电量在[240,260)的用户有15户,月平均用电量在[260,280]的用户有10户,月平均用电量在[280,300]的用户有5户,故抽取比例为1125+15+10+5=15.所以月平均用电量在[220,240)的用户中应抽取25×15=5(户).答案:53.我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由.解:(1)由频率分布直方图可知,月均用水量在[0,0.5)的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]6组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.(2)估计全市居民中月均用水量不低于3吨的人数为3.6万.理由如下:由(1)知,100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000=3.6(万).[解题技法]考点三样本的数字特征考法(一)样本的数字特征与频率分布直方图交汇[典例](2019·辽宁师范大学附属中学模拟)某校初三年级有400名学生,随机抽查了40名学生测试1分钟仰卧起坐的成绩(单位:次),将数据整理后绘制成如图所示的频率分布直方图.用样本估计总体,下列结论正确的是()。

2020版高考数学二轮复习专题限时集训统计与统计案例文

2020版高考数学二轮复习专题限时集训统计与统计案例文

(1)求图中a的值;(2)估计该次考试的平均分x(同一组中的数据用该组的区间中点值代表);(3)根据已知条件完成下面2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.晋级成功晋级失败合计男16女50合计参考公式:K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+dP(K2≥k)0.400.250.150.100.050.025 k 0.708 1.323 2.072 2.706 3.841 5.024 [解](1)由频率分布直方图中各小长方形面积总和为1,得(2a+0.020+0.030+0.040)×10=1,解得a=0.005.(2)由频率分布直方图知各小组的中点值依次是55,65,75,85,95,对应的频率分别为0.05,0.30,0.40,0.20,0.05,则估计该次考试的平均分为x=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74(分).(3)由频率分布直方图知,晋级成功的频率为0.2+0.05=0.25,故晋级成功的人数为100×0.25=25,填写2×2列联表如下:晋级成功晋级失败合计男163450 女94150 合计2575100K2=n ad-bc2a+b c+d a+c b+d=100×16×41-34×9225×75×50×50≈2.613>2.072,所以有85%的把握认为“晋级成功”与性别有关.题号内容押题依据1饼状图、分布图以统计图表为背景的统计考题是近几年高考中的高频考点,本题考查利用饼状图、分布图进行信息分析,意在考查学生的逻辑推理、数据分析、数学运算核心素养,符合全国卷命题特点2茎叶图、平均数、方差从茎叶图中提取数字特征(如平均数、众数、中位数、方差等)与统计案例综合考查的试题,但它是高考的重要考点,本题考查对茎叶图中的样本数据进行分析,再运用独立性检验方法得出相关数据解决生产中的实际问题,考查学生的逻辑推理、数据分析和数学运算的核心素养【押题1】为了了解现在互联网行业的就业情况,某高校教授组织学生对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图(如图1)和90后从事互联网该产品的质量评价标准规定:鉴定成绩在[90,100)内的产品,质量等级为优秀;鉴定成绩在[80,90)内的产品,质量等级为良好;鉴定成绩在[60,80)内的产品,质量等级为合格.将频率视为概率.(1)完成下面2×2列联表,以产品质量等级是否达到良好以上(含良好)为判断依据,判断能不能在误差不超过0.05的情况下,认为产品等级是否达到良好以上(含良好)与生产产品的机器有关;A机器生产的产品B机器生产的产品合计良好以上(含良好)合格合计(2)已知质量等级为优秀的产品的售价为12元/件,质量等级为良好的产品的售价为10元/件,质量等级为合格的产品的售价为5元/件,A机器每生产10万件的成本为20万元,B 机器每生产10万件的成本为30万元.该工厂决定,按样本数据测算,两种机器分别生产10万件产品,若收益之差达到5万元以上,则淘汰收益低的机器,若收益之差不超过5万元,则保留原来的两台机器.你认为该工厂会怎么做?附:K2=n ad-bc2a+b c+d a+c b+d,P(K2≥k)0.250.150.100.050.010 k 1.323 2.072 2.706 3.841 6.635 [解](1)完成2×2列联表如下.A机器生产的产品B机器生产的产品合计11 / 11 良好以上(含良好)6 12 18 合格14 8 22 合计 20 20 40结合列联表中的数据,可得K 2的观测值k =40×6×8-12×14220×20×18×22=4011≈3.636<3.841.故在误差不超过0.05的情况下,不能认为产品等级是否达到良好以上(含良好)与生产产品的机器有关.(2)由题意得,A 机器每生产10万件产品的利润为10×(12×0.1+10×0.2+5×0.7)-20=47(万元),B 机器每生产10万件产品的利润为10×(12×0.15+10×0.45+5×0.4)-30=53(万元),因为53-47=6(万元),6>5,所以该工厂应该会卖掉A 机器,同时购买一台B 机器.。

2020届高考数学二轮复习疯狂专练12统计与统计案例(文)

2020届高考数学二轮复习疯狂专练12统计与统计案例(文)

疯狂专练12 统计与统计案例1.完成下列抽样调查,较为合理的抽样方法依次是()①从30件产品中抽取3件进行检查;②某校高中三个年级共有2460人,其中高一830人、高二820人、高三810人,为了了解学生对数学的建议,拟抽取一个容量为300的样本;③某剧场有28排,每排有32个座位,在一次报告中恰好坐满了听众,报告结束后,为了了解听众意见,需要请28名听众进行座谈.A.①简单随机抽样,②系统抽样,③分层抽样B.①分层抽样,②系统抽样,③简单随机抽样C.①系统抽样,②简单随机抽样,③分层抽样D.①简单随机抽样,②分层抽样,③系统抽样2.调查机构对某高科技行业进行调查统计,得到该行业从业者学历分布饼状图、从事该行业岗位分布条形图,如图所示.给出下列三种说法:①该高科技行业从业人员学历为博士的占一半以上;②该高科技行业中从事科技岗位的人数超过总人数的30%;③该高科技行业中从事运营岗位的人员主要是本科生.其中正确的个数为()A.0个B.1个C.2个D.3个3.某市为最大限度的吸引“高精尖缺”人才,向全球“招贤纳士”,推进了人才引入落户政策,随着人口增多,对住房要求也随着而来,而选择购买商品房时,住户对商品房的户型结构越来越重视,因此某商品房调查机构随机抽取n名市民,针对其居住的户型机构和满意度进行了调查,如图1调查的所有市民中四居室共200户,所占比例为13,二居室住户占16,如图2是有分层抽样的方法从所有调查的市民的满意度问卷中,抽取10%的调查结果绘制成的统计图,则下列说法正确的是()一、选择题A .样本容量为70B .样本中三居室住户共抽取了25户C .根据样本可估计对四居室满意的住户有70户D .样本中对三居室满意的有15户4.如图是某市2017年3月1日至3月16日的空气质量指数趋势统计图,空气质量指数(AQI )小于100表示空气质量油量,空气质量指数大于200表示空气重度污染,则关于该市这16日的空气质量,下列说法不正确的是()A .出现过连续4天空气重度污染B .空气重度污染的频率为0.5C .相邻两天空气质量指数之差的最大值195D .空气质量指数的平均值小于2005.如图是某赛季甲,乙两名篮球运动员9场比赛所得分数的茎叶图,则下列说法错误的是()A .甲所得分数的极差为22B .乙所得分数的中位数为18C .两人所得分数的众数相等D .甲所得分数的平均数低于乙所得分数的平均数6.甲、乙两名运动员分别进行了5次射击训练,成绩如下: 甲:7,7,8,8,10; 乙:8,9,9,9,10;若甲、乙两名运动员的平均成绩分别用1x ,2x 表示,方差分别用21s ,22s 表示,则()A .12x x >,2212s s >B .12x x >,2212s s <C .12x x <,2212s s <D .12x x <,2212s s >7.已知一组正数1x ,2x ,3x ,,n x 的平均数为x ,方差为2S ,则121x +,221x +,321x +,,21n x +的平均数与方差分别为() A .21x +,221S + B .1x +,24S C .21x +,24SD .1x +,22S8.对相关系数r ,下列说法正确的是() A .r 越大,线性相关程度越大 B .r 越小,线性相关程度越大C .r 越大,线性相关程度越小,r 越接近0,线性相关程度越大D .1r ≤且r 越接近1,线性相关程度越大,r 越接近0,线性相关程度越小9.一车间为规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验,测得的数据如下:根据上表可得回归方程,则实数9.49.1y x =+,a 的值为() A .37.3B .38C .39D .39.510.利用独立性检验的方法调查高中生的写作水平与喜欢阅读是否有关,随机询问120名高中生是否喜好阅读,利用22⨯列联表,由计算可得 4.236K 2=,参考附表,可得正确的结论是()A .有95%的把握认为“写作水平与喜好阅读有关”B .有97.5%的把握认为“写作水平与喜好阅读有关”C .有95%的把握认为“写作水平与喜好阅读无关”D .有97.5%的把握认为“写作水平与喜好阅读无关”11.从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:根据上表可得回归直线方程ˆˆ0.56yx a =+,据此模型预报身高为172cm 的高三男生的体重为() A .70.09kgB .70.12kgC .70.55kgD .71.05kg12.统计某校n 名学生的某次数学同步练习成绩(满分150分),根据成绩分数依次分成六组:[90,100),[100,110),[110,120),[120,130),[130,140),[140,150)得到频率分布直方图如图所示,若不低于140分的人数为110,则以下说法正确的是() ①0.031m =; ②800n =;③100以下的人数为60;④分数在区间[120,140)的人数占大半,A .①②B .①③C .②③D .②④13.容量为20的样本数据,分组后的频数如下表:则样本数据落在区间[10,40)的频率为.14.右面的茎叶图记录了甲、乙组各五名在一次英语听力测试中的成绩(单位:分).已知甲组数据的平均数为17,乙组数据的中位数为17,则x y +=.15.某幼儿园对儿童记忆能力的量化评价值x 和识图能力的量化评价值y 进行统计分析,得到如下数据:二、填空题由表中数据,求得回归直线方程为ˆˆˆybx a =+中的ˆ0.8b =,则ˆa =. 16.x 与y 的数据关系为下表:为了对x ,y 两个变量进行统计分析,现根据两种线性模型:甲:ˆ 6.517.5yx =+,乙:ˆ717y x =+,分别计算出甲模型的相关指数为210.845R =,乙模型的相关指数为220.82R =,则(填“甲”或“乙”)模型拟合的效果更好.1.【答案】D【解析】①中,总体数量不多,适合用简单随机抽样;②中,某校高中三个年纪共有2460人,其中高一830人、高二820人、高三810人,适合于分层抽样; ③中,总体数量较多且编号有序,适合于系统抽样. 故选D . 2.【答案】C【解析】在①中,由该行业从业者学历分布饼状图得到:该高科技行业人员中学历为博士的占一半以上, 故①正确;在②中,由从事该行业岗位分布条形图得到:在高科技行业中从事科技岗位的人数超过总人数的30%, 故②正确;在③中,由该行业从业者学历分布饼状图、从事该行业岗位分布条形图,无法得到该高科技行业中从事运营岗位的人员主要是本科生,故③错误. 故选C . 3.【答案】D【解析】如图1调查的所有市民中四居室共200户,所占比例为13,二居室住户占16,∴20060013=,二居室有16001006⨯=户,三居室有300户, 由频率分布直方图和扇形统计图得:在A 中,样本容量为60010%60n =⨯=,故A 错误;在B 中,样本中三居室住户共抽取了30010%30⨯=户,故B 错误;在C 中,根据样本可估计对四居室满意的住户有20040%80⨯=户,故C 错误; 在D 中,样本中对三居室满意的有30010%50%15⨯⨯=户,故D 正确, 故选D . 4.【答案】C【解析】依题意,根据图中信息,1215∼日这4天连续重度污染,故A 正确;答 案 与解析一、选择题16天中有8天重度污染,故B 正确;相邻两天空气质量指数之差的最大的为7日和8日,最大值为26083177195-=≠,故C 错误;16个数据中大于200和小于200的各有8个,大于200的8个数据接近200,而小于200的8个数据与200相差较大,故平均值小于200,故D 正确, 故选C . 5.【答案】D【解析】甲所得分数的极差为331122-=,A 正确; 乙所得分数的中位数为18,B 正确;甲所得分数的众数为22,乙所得分数的众数为22,C 正确, 故选D . 6.【答案】D【解析】由题意,计算11(778810)85x =⨯++++=;21(899910)95x =⨯++++=, 22222211[(78)(78)(88)(88)(108)] 1.25s =⨯-+-+-+-+-=;22222221[(89)(99)(99)(99)(109)]0.45s =⨯-+-+-+-+-=,∴12x x <,2212s s >,故选D .7.【答案】C【解析】根据题意,设数据121x +,221x +,321x +,,21n x +的平均数为x ',方差为2s ',则12(21)(21)(21)21n x x x x x '=++++++=+,则2222121[(2121)(2121)(2121)]n s x x x x x x n'=+--++--+++--2222121[(22)(22)(22)]4n x x x x x x S n=-+-++-=,故选C . 8.【答案】D【解析】两个变量之间的相关系数,r 的绝对值越接近于1,表面两个变量的线性相关性越强,r 的绝对值越接近于0,表示两个变量之间几乎不存在线性相关, 故选D . 9.【答案】C【解析】2345 3.54x +++==,26495412944a ay ++++==,样本点的中点的坐标为129(3.5,)4a+,代入ˆ9.49.1yx =+, 得1299.4 3.59.14a+=⨯+,解得39a =, 故选C . 10.【答案】A【解析】利用独立性检验的方法求得24.236 3.841K =>,对照临界值得出:有95%的把握认为“写作水平与喜好阅读有关”,故选A . 11.【答案】B【解析】由表中数据可得,6366707274695y ++++==,∵(,)x y 一定在回归直线方程为ˆˆ0.56y x a =+上,故ˆ690.56170a =⨯+, 解得ˆ26.2a=-,故ˆ0.5626.2y x =-. 当172x =时,ˆ0.5617226.270.12y=⨯-=,故选B . 12.【答案】B【解析】对于①,由频率分布直方图的性质得,10(0.0200.01620.0110.006)1m ++⨯++=, 解得0.031m =,所以①正确;对于②,由不低于140分的频率为0.011100.11⨯=,所以11010000.11n ==,所以②错误; 对于③,100分以下的频率分布为0.006100.06⨯=,所以100分以下的人数为10000.0660⨯=, 所以③正确;对于④,分数在[120,140)的人数占0.031100.016100.47⨯+⨯=,占小半,所以④错误, 故选B .二、填空题13.【答案】0.45【解析】由频数统计表得:样本数据落在你区间[10,40)的频数为2349++=,∴样本数据落在区间[10,40)的频率为90.4520=, 故答案为0.45. 14.【答案】10【解析】根据茎叶图,知甲组数据的平均数为1(912102427)175x +++++=,∴3x =; 乙组数据的中位数为17,∴7y =, ∴10x y +=,故答案为10. 15.【答案】0.1- 【解析】∵4681074x +++==,35685.54y +++==,∴样本点的中心坐标为(7,5.5),代入ˆˆ0.8yx a =+中,得ˆ5.50.87a =⨯+,即ˆ0.1a =-,故答案为0.1-. 16.【答案】甲【解析】由题意得,22120.8450.82R R =>=,所以甲模型拟合的效果更好.。

课标通用版2020版高考数学大一轮复习第十一章统计统计案例第2讲用样本估计总体检测文

课标通用版2020版高考数学大一轮复习第十一章统计统计案例第2讲用样本估计总体检测文

第讲用样本估计总体[基础题组练].把样本容量为的数据分组,分组区间与频数如下:[,),;[,),;[,),;[,),;[,),;[,],,则在区间[,)上的数据的频率是( )....解析:选.由题知,在区间[,)上的数据的频数是+++=,故其频率为=..(·江西师大附中开学考试)某课外小组的同学们在社会实践活动中调查了户家庭某月的用电量,如下表所示:( ).,.,.,.,解析:选.用电量为度的家庭最多,有户,故这户家庭该月用电量的众数是;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是,,故这户家庭该月用电量的中位数是.故选..(·高考全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是( ).新农村建设后,种植收入减少.新农村建设后,其他收入增加了一倍以上.新农村建设后,养殖收入增加了一倍.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析:选.法一:设建设前经济收入为,则建设后经济收入为,则由饼图可得建设前种植收入为,其他收入为,养殖收入为.建设后种植收入为,其他收入为,养殖收入为,养殖收入与第三产业收入的总和为,所以新农村建设后,种植收入减少是错误的.故选.法二:因为<×,所以新农村建设后,种植收入增加,而不是减少,所以是错误的.故选..(·陕西黄陵中学期末)为了了解某地区高三学生的身体发育情况,抽查了该地区名年龄在~岁的男生体重(),将他们的体重按[,),[,),…,[,]分组,得到频率分布直方图如图所示.由图可知这名学生中体重在[,)的学生人数是( )....解析:选.由频率分布直方图可得体重在[,)的学生频率为(+++)×=,则这名学生中体重在[,)的学生人数为×=.故选..(·湖南省五市十校联考)某中学奥数培训班共有人,分为两个小组,在一次阶段测试中两个小组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是,乙组学生成绩的中位数是,则-的值是.解析:由甲组学生成绩的平均数是,可得=,解得=.由乙组学生成绩的中位数是,可得=,所以-=.答案:.(·兰州市诊断考试)已知样本数据,,…,的方差是,如果有=-(=,,…, ),那么数据,,…,的标准差为.解析:因为=-(=,,…, ),所以数据,,…,的方差和样本数据,,…,的方差相等,均是,所以数据,,…,的标准差.答案:.某校名高三年级学生参加了一次数学测验(满分为分),为了分析这次数学测验的成绩,从这人的数学成绩中随机抽取人的成绩绘制成如下的统计表,请根据表中提供的信息解决下列问题:。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

能力升级练(十一) 统计与统计案例一、选择题.某班对八校联考成绩进行分析,利用随机数法抽取样本时,先将60个同学按01,02,03,…,601进) (,则选出的第6个个体的编号是,行编号然后从随机数表第9行第5列的数开始向右读(注:下表为随机数表的第8行和第9行)6301 6378 5916 9555 6719 9810 5071 7512 8673 5807 4439 5238 793321 1234 2978 6456 0782 5242 0744 3815 5100 1342 9966 0279 54A.07B.25C.42D.52.52因此选出的第6个个体的编号是依次选出的个体分别是解析依题意得,12,34,29,56,07,52,D答案n..n分别为:kg)块地作试验田(这单位2块地的亩产量为评估一种农作物的种植效果,选了xxx),下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是 ,(,…,n21xxxxxx的平均数,的标准差 B.A.,,…,,…,nn2211xxxxxx,,…,的最大值 D.,,…,的中位数C.nn2112.解析刻画评估这种农作物亩产量稳定程度的指标是这组数据的标准差 B 答案.3(2019云南昆明模拟)AQI(空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程.~~~150);四级中度污染100);(0三级轻度污染50);二级良(51度(101AQI共分六级,从一级优~~.如图是昆明市2017年4六级严重污染(大于300)(151月份随200);直至五级重度污染(201300);) 月份空气质量优的天数为(利用该样本估计昆明市2019年4茎叶图机抽取10天的AQI,A.3B.4C.12D.212所以估计昆明市天空气质量为优,所以空气质量为优的频率解析从茎叶图知10天中有4102.×= C12,2019年4月份空气质量为优的天数为30故选答案C.对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方4图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,)则该样本中三等品的件数为(其余均为三等品,D.50B.7C.10A.5.=+.×.-+.因此00375)三等品的频率为解析根据题中的频率分布直方图可知,10(0050050062525,..=× 2550该样本中三等品的件数为2000答案D.(2019广西桂林、百色、梧州、崇左、北海五市联考)如图是2017年第一季度A,B,C,D,E五省5) (则下列陈述正确的是,情况图GDP.②①年第一季度;,2017与去年同期相比2017年第一季度GDP总量和增速均居同一位的省只有1个④③年同期;2016省、B省、A省五个省的GDP总量均实现了增长;D去年同期的GDP总量前三位是.GDP总量也是第三位A省的②③④①② A.B.①③④②④ D. C.①总量和增速分别省的GDP个,B省和C解析年第一季度2017GDP总量和增速均居同一位的省有2②①可知前三位为总量,2016年同期五省的;错误由图知GDP正确;由图计算居第一位和第四位,故..③③④ ,故故选正确B,故总量是第三位正确;由知2016年同期A省的GDPAD省、B省、省 B答案..甲、轮选拔人参加该行业全国技能大赛,经过66并从参赛职工中选某企业开展职工技能比赛,1.得分情况如茎叶图所示乙两人成绩突出,) (,若甲、乙两人的平均成绩分别是则下列说法正确的是乙甲 .应该选乙参加比赛,乙比甲成绩稳定A,乙甲 .,甲比乙成绩稳定B,应该选甲参加比赛乙甲 .应该选甲参加比赛C,甲比乙成绩稳定,乙甲..,乙比甲成绩稳定,应该选乙参加比赛 D乙甲 2 6 2 6 1 32 = 82,≈87,所以解析乙甲甲乙甲6611222 +++++. .+++++,41因为67,36)≈(81221所以乙成绩比甲成绩1(1001667,9191616100)≈乙乙甲66.应该选乙参加比赛稳定,答案D.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将8407人按1,2,…, 0随机) 的人数为(42人中,编号落入区间[481,720]编号,则抽取的A.11B.12C.13D.140 20- 0==. 1220人抽取1人,所以抽取编号落入区间[481,720]的人数为解析由20,即每20 2 B答案.(2019北京燕博园质检)某超市从2018年甲、乙两种酸奶的日销售量8(单位:箱)的数据中分别随机抽取100个,并按(0,10],(10,20],(20,30],(30,40],(40,50]分组,得到频率分布直方图如下:2222 a 与,记甲种酸奶与乙种酸奶的日销售量(单位:箱)的方差分别为则频率分布直方图中的的值及2211)(的大小关系分别是2222 ..a= a= 015,B.15, 0A.022112222 .a= .a= 15,D. 0C.015,02121..+.+.+a+.×=a=..根据频率分布直方图,图030002025)01510解析由(0020中的数据较稳01,010得022. 则定,21答案C.某省二线城市地铁正式开工建设,地铁时代的到来能否缓解该市的交通拥堵状况呢9?某社团进行社会调查,得到的数据如下表:男性女性认为能缓解交483078 拥认为不能缓解122032通拥6050110总)则下列结论正确的是(2- 2=K附:2k....KP001 0005 0005 (010 0≥) 0k. (828)0879 36841 1635 70.05的前提下认为“对能否缓解交通拥堵的认识与性别有关”在犯错误的概率不超过A.0.的前提下认为“对能否缓解交通拥堵的认识与性别无关”050在犯错误的概率不超过B..01的前提下认为“对能否缓解交通拥堵的认识与性别有关” C.在犯错误的概率不超过0.01的前提下认为“对能否缓解交通拥堵的认识与性别无关” D.在犯错误的概率不超过02K× ,可求2解析由的观测值2列联表2110 20 -1230 .>k=.. 3≈58412883260 02.=K.P05,≥3(0由统计表841)∴..的前提下认为“对能否缓解交通拥堵的认识与性别有关”05在犯错误的概率不超过0答案A二、填空题.xy(吨))与生产能耗的对应数据如表福建泉州模拟)某厂在生产甲产品的过程中,产量:(吨10(2018x 30 40 50 60y 25 35 40 45x+ =.预计需要生产能耗为根据最小二乘法求得回归方程为80吨时0,65 ,当产量为. 吨∴=x+ .. = = =预计需要生产能耗为,解析由题意,可得45,80367,25,代入0吨时65当产量为,.+=.× 59(065吨807)59答案.则这组数据的110,114,121,119,126,11,某同学在高三学年的五次阶段性考试中数学成绩依次为. 方差是解析因为对一组数据同时加上或减去同一个常数,方差不变,所以本题中可先对这5个数据同时减122--+s=(4根据方差公式可得8)[(0去110,得到新的数据分别为0,4,11,9,16,其平均数为8,.8 30答案.122222.-++-=.+- 8)30(1688)(98)8)](11是定量描述空气质量状况的指简称(Air Quality Index,AQI)(2018河北邯郸模拟)空气质量指数~~~~为中度200150为轻度污染50为优;51;101100为良,0数,空气质量按照AQI大小分为六级;151.~随机抽,从某地一环保人士某年的AQI为严重污染300为重度污染;大于300污染;201记录数据中.的天数约为AQI大于100取10个,用茎叶图记录如图估计此地该年根据该统计数据,. 天)(该年为3652,频率为大于100的频数是4,解析该样本中AQI2,大于100的频率为AQI由此估计该地全年2.×= 146100的天数约为365AQI估计此地该年大于146答案.:13给出下列四个命题①某班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,23;那么样本中另一位同学的编号为,号同学在样本中46号、33号、7已知.②一组数据1,2,3,3,4,5的平均数、众数、中位数都相同;③a,0,1,2,3的平均数为1,若一组数据则其标准差为2;== ④ x = 3,,其中根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为2,1,. =则1. )(其中真命题有填序号=①÷号、20故抽取的样本的编号分别为7,由系统抽样知抽样的分段间隔为52号、4解析在13,中1=+++①②++3,33,中,数据1,2,3,3,4,5的平均数为(1425)3号、3346号,故在是假命题;中位数为6②③a++++=a=-1,解得2,因为样本的平均数为1,所以30故1众数为3,都相同,故是真命题;在5,中122222④=③+-+----++-回归中(3,1)]2,标准差为2,[(样本的方差为故11);(01)是假命题(11)在(21).x++ =④ 2,又回归直线过点(,)把(1,3)直线方程为代入回归直线方程1,故2,得是真命题②④答案三、解答题.一经推出,14它支持发送语音短信、视频、图片和文字微信是腾讯公司推出的一种手机通讯软件,.为了调查每天微信用)被称为微商甚至涌现出一批在微信的朋友圈内销售商品的人便风靡全国,(将男性、女性50名,某经销化妆品的微商在一广场随机采访男性、女性用户各户使用微信的时间,得到如图所示的频率5使用微信的时间分成组分别加以统计,:(0,2],(2,4],(4,6],(6,8],(8,10].分布直方图(1)根据女性频率分布直方图估计女性使用微信的平均时间;(2)若每天玩微信超过4小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件×2的列联表,并判断是否有90%的把握认为“微信控”与“性别有关”完成2?2k..........PK001 0050 0025 40 0025 015 0005 10 0(010 05 0≥) 0k. (828)1879 635 706 37841 50 00455 024 708 16323 2072 22- 2=.解(1)女性平均使用微信的时间为:.×+.×+.×+.×+.×=..小时02470)161002476(30122859.+a+.+×.=a=.. 012)1,(2)由已知得:2(004解得0140820由题设条件得列联表微信非微总计信控控男38 12 50性女30 20 50性总68 32 100计.>.∴Kk=. 941的观测值706≈2232 0 06212 30100 3 20-2.的把握认为“微信控”与“性别”有关所以有90%.在2018年俄罗斯世界杯期间,莫斯科的部分餐厅销售了来自中国的小龙虾15,这些小龙虾均标有.xy(单位:元)之间的关系,经统计得到如下数据等级代码为得到小龙虾等级代码数值:与销售单价38485868788824811888yyxyx的线性回归方程(求之间存在线性相关关系,系数精关于已知销售单价(1)与等级代码数值.1);0确到(2)若莫斯科某餐厅销售的中国小龙虾的等级代码数值为98,请估计该等级的中国小龙虾销售单价?为多少元.xy x+xyxy的斜率和截距的最小二乘,其回归直线,参考公式:对于一组数据( ,…, ,),),(nn2211 - . 1估计分别为22- 1662. xy== 25 564参考数据: 8 440, ii116 3 = 63,(1)由题意,得解622 20 22 16 1 . =5,2166 6 -21 663 0-. 12,≈06636632 6 -22 6 -1..× =.-=. 295630821..x+. = 2908故所求线性回归方程为..=.+.y=x=× 28895,知当由(2)(1),98时0298..∴元估计该等级的中国小龙虾销售单价为285。

相关文档
最新文档