第二节 用样本估计总体-高考状元之路
高考数学一轮复习第2讲 用样本估计总体
第2讲用样本估计总体1.用样本的频率分布估计总体分布(1)作频率分布直方图的步骤①求极差(01最大值与02最小值的差).03组距与04组数.05分组.06频率分布表.07频率分布直方图.(2)频率分布折线图和总体密度曲线08中点,就得到频率分布折线图.09样本容量的增加,作图时10所分的组数增加,11组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.(3)茎叶图12中间的一列数,叶是从茎的13旁边生长出来的数.2.用样本的数字特征估计总体的数字特征(1)众数:一组数据中出现次数最多的数.(2)中位数:将数据从小到大排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数.(3)平均数:x -=14x1+x2+…+xn n ,反映了一组数据的平均水平.(4)标准差:是样本数据到平均数的一种平均距离,s = 15 错误!.(5)方差:s 2=161n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2](x n 是样本数据,n 是样本容量,x -是样本平均数).1.频率分布直方图与众数、中位数与平均数的关系 (1)最高的小长方形底边中点的横坐标即是众数. (2)中位数左边和右边的小长方形的面积和是相等的.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.2.标准差与方差的特点反映了各个样本数据聚集于样本平均数周围的程度.标准差(方差)越小,表明各个样本数据在样本平均数周围越集中;标准差(方差)越大,表明各个样本数据在样本平均数的两边越分散.3.平均数、方差的公式推广(1)若数据x 1,x 2,…,x n 的平均数为x -,那么mx 1+a ,mx 2+a ,mx 3+a ,…,mx n +a 的平均数是m x -+a .(2)若数据x 1,x 2,…,x n 的方差为s 2,则: ①数据x 1+a ,x 2+a ,…,x n +a 的方差也为s 2;②数据ax 1,ax 2,…,ax n 的方差为a 2s 2.1.为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数答案 B解析因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳定程度,应该用样本数据的极差、方差或标准差.故选B.2.(2020·云川贵百校联考)某课外小组的同学们从社会实践活动中调查了20户家庭某月的用电量,如下表所示:用电量/度120140160180200户数2358 2 则这20户家庭该月用电量的众数和中位数分别是()A.180,170 B.160,180C.160,170 D.180,160答案 A解析用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B,C;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A.3.在样本频率分布直方图中,共有9个小长方形,若中间一个小长方形的面积等于其他8个长方形的面积和的25,且样本容量为140,则中间一组的频数为()A.28 B.40 C.56 D.60 答案 B解析设中间一个小长方形的面积为x,其他8个长方形的面积和为52x,因此x+52x=1,所以x=27.所以中间一组的频数为140×27=40.故选B.4.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是()A.中位数B.平均数C.方差D.极差答案 A解析中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均受影响.故选A.5.(2020·全国卷Ⅲ)设一组样本数据x1,x2,…,x n的方差为0.01,则数据10x1,10x2,…,10x n的方差为()A.0.01 B.0.1C.1 D.10答案 C解析因为数据ax i+b(i=1,2,…,n)的方差是数据x i(i=1,2,…,n)的方差的a2倍,所以所求数据的方差为102×0.01=1.故选C.6.对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为 .答案50解析根据题中的频率分布直方图可知,三等品的频率为1-(0.0500+0.0625+0.0375)×5=0.25,因此该样本中三等品的件数为200×0.25=50.多角度探究突破考向一统计图表及应用角度1扇形图例1(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半答案 A解析设新农村建设前的收入为M,则新农村建设后的收入为2M,新农村建设前种植收入为0.6M,新农村建设后的种植收入为0.74M,所以种植收入增加了,所以A 不正确;新农村建设前其他收入为0.04M,新农村建设后其他收入为0.1M,故增加了一倍以上,所以B正确;新农村建设前,养殖收入为0.3M,新农村建设后为0.6M,增加了一倍,所以C正确;新农村建设后,养殖收入与第三产业收入的总和占经济收入的30%+28%=58%>50%,所以超过了经济收入的一半,所以D正确.故选A.角度2折线图例2(多选)(2020·海南高考调研)如图所示的折线图是2020年1月25日至2020年2月12日陕西省及西安市新冠肺炎累计确诊病例的折线图,则下列判断正确的是()A.1月31日陕西省新冠肺炎累计确诊病例中西安市占比超过了1 3B.1月25日至2月12日陕西省及西安市新冠肺炎累计确诊病例都呈递增趋势C.2月2日后到2月10日陕西省新冠肺炎累计确诊病例增加了97例D.2月8日到2月10日西安市新冠肺炎累计确诊病例的增长率大于2月6日到2月8日的增长率答案ABC解析1月31日陕西省新冠肺炎累计确诊病例共有87例,其中西安32例,所以西安市所占比例为3287>13,故A 正确;由折线图可知,1月25日到2月12日陕西省及西安市新冠肺炎累计确诊病例都呈递增趋势,故B 正确;2月2日后到2月10日陕西省新冠肺炎累计确诊病例增加了213-116=97例,故C 正确;2月8日到2月10日西安市新冠肺炎累计确诊病例增加了98-8888=544,2月6日到2月8日西安市新冠肺炎累计确诊病例增加了88-7474=737,显然737>544,故D 错误.角度3 频率分布直方图例3 (1)(2020·天津高考)从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )A .10B .18C .20D .36答案 B解析 根据频率分布直方图可知,直径落在区间[5.43,5.47)之间的频率为(6.25+5.00)×0.02=0.225,则直径落在区间[5.43,5.47)内零件的个数为80×0.225=18.故选B.(2)(多选)(2020·临沂模拟)在某次高中学科竞赛中,4000名考生的参赛成绩统计如图所示,60分以下视为不及格,若同一组中数据用该组区间中点作代表,则下列说法中正确的有( )A.成绩在[70,80]分的考生人数最多B.不及格的考生人数为1000人C.考生竞赛成绩的平均分约为70.5分D.考生竞赛成绩的中位数为75分答案ABC解析根据频率分布直方图得,成绩出现在[70,80]的频率最大,故A正确;不及格考生数为10×(0.010+0.015)×4000=1000,故B正确;根据频率分布直方图估计考试的平均分为45×0.1+55×0.15+65×0.2+75×0.3+85×0.15+95×0.1=70.5,故C 正确;0.1+0.15+0.2=0.45<0.5,0.1+0.15+0.2+0.3=0.75>0.5,所以考生竞赛成绩的中位数为70+0.5-0.450.3×10≈71.67,故D错误.故选ABC. 常见统计图的特点(1)通过扇形统计图可以很清楚的表示出各部分数量同总数之间的关系.(2)折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.(3)准确理解频率分布直方图的数据特点①频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆;②频率分布直方图中各小长方形的面积之和为1,这是解题的关键,常利用频率分布直方图估计总体分布.1.(2020·葫芦岛模拟)书籍是人类的智慧结晶和进步阶梯,阅读是一个国家的文化根基和创造源泉.2014年以来,“全民阅读”连续6年被写入政府工作报告.某高中为了解学生假期自主阅读书籍类型,在全校范围内随机抽取了部分学生进行调查.学生选择的书籍大致分为以下四类:A历史类、B文学类、C科学类、D哲学类.根据调查的结果,将数据整理成如下的两幅不完整的统计图,其中a-b=10.根据上述信息,可知本次随机抽查的学生中选择A历史类的人数为()A.45 B.30C.25 D.22答案 B解析由题可知,样本容量为30-180.1=120,所以选择A历史类的人数为120-42-30-18=30.故选B.2.(2020·汕头二模)新型冠状病毒疫情发生后,口罩的需求量大增,某口罩工厂为提高生产效率,开展技术创新活动,提出两种新的生产方式,为比较两种生产方式的效率,选取80名工人,将他们随机分成两组,每组40人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.第一种生产方式40名工人完成同一生产任务所用时间(单位:min)如表:68728577838290838984 88877691799087918692 88878176959463878571 96637485929987827569 第二种生产方式40名工人完成同一生产任务所用时间(单位:min)如扇形图所示:(1)请填写第一种生产方式完成任务所用时间的频数分布表并作出频率分布直方图:生产时间[60,70)[70,80)[80,90)[90,100]频数(2)试从扇形图中估计第二种生产方式的平均数;(3)根据频率分布图和扇形图判断哪种生产方式的效率更高?并说明理由.解(1)第一种生产方式完成任务所用时间的频数分布表如下:生产时间[60,70)[70,80)[80,90)[90,100]频数481810频率分布直方图如下:(2)从扇形图中估计第二种生产方式的平均数为65×0.25+75×0.5+85×0.2+95×0.05=75.5 min.(3)从频率分布直方图中估计第一种生产方式的平均数为65×0.1+75×0.2+85×0.45+95×0.25=83.5 min,从平均数的角度发现:用第一种生产方式的工人完成生产任务所需要的时间高于80分钟;用第二种生产方式的工人完成生产任务所需要的时间低于80分钟,因此第二种生产方式的效率更高.考向二用样本估计总体例4(1)(多选)为了了解某校高一年级1600名学生的体能情况,随机抽查了部分学生,测试1分钟仰卧起坐的成绩(次数),将数据整理后绘制成如图所示的频率分布直方图,根据统计图的数据,下列结论正确的是()A.该校高一年级学生1分钟仰卧起坐的次数的中位数为26.25次B.该校高一年级学生1分钟仰卧起坐的次数的众数为27.5次C.该校高一年级学生1分钟仰卧起坐的次数超过30次的约有320人D.该校高一年级学生1分钟仰卧起坐的次数少于20次的约有32人答案ABC解析由题图可知中位数是26.25次,众数是27.5次,1分钟仰卧起坐的次数超过30次的频率为0.2,所以估计该校高一年级学生1分钟仰卧起坐的次数超过30次的约有320人;1分钟仰卧起坐的次数少于20次的频率为0.1,所以该校高一年级学生1分钟仰卧起坐的次数少于20次的约有160人.故A,B,C正确,D错误,故选ABC.(2)(2020·香坊区校级二模)2020年初新冠病毒疫情爆发,全国范围开展了“停课不停学”的线上教学活动.哈六中数学组积极研讨网上教学策略:先采取甲、乙两套方案教学,并对分别采取两套方案教学的班级的7次线上测试成绩进行统计如图所示:①请填写如表(要求写出计算过程)平均数方差甲乙②从下列三个不同的角度对这次方案选择的结果进行分析:a.从平均数和方差相结合看(分析哪种方案的成绩更好);b.从折线图上两种方案的走势看(分析哪种方案更有潜力).解①由图象可得,x-甲=17×(109+111+113+115+117+119+121)=115,x-乙=17×(121+115+109+115+113+117+115)=115,则s2甲=17×(62+42+22+02+22+42+62)=16,s2乙=17×(62+02+62+02+22+22+02)=807≈11.43,故表格第一行:115,16;第二行:115,约为11.43.②a.因为x-甲=x-乙,s2甲>s2乙,故乙方案更好.b.由折线图可知甲走势稳定上升,故甲方案更好.众数、中位数、平均数、方差的意义及常用结论(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述数据的集中趋势,方差和标准差描述数据的波动大小.(2)方差的简化计算公式:s2=1n[(x21+x2+…+x2n)-n x-2],或写成s2=1n(x21+x2+…+x2n)-x-2,即方差等于原始数据平方的平均数减去平均数的平方.3.某学校共有学生2000人,其中高一800人,高二、高三各600人,学校对学生在暑假期间每天的读书时间做了调查统计,全体学生每天的读书时间的平均数为x-=3小时,方差为s2=1.966,其中三个年级学生每天读书时间的平均数分别为x-1=2.7,x-2=3.1,x-3=3.3,又已知高一学生、高二学生每天读书时间的方差分别为s21=1,s2=2,则高三学生每天读书时间的方差s23= .答案 3解析由题意可得,1.966=8002000×[1+(2.7-3)2]+6002000×[2+(3.1-3)2]+6002000×[s23+(3.3-3)2],解得s23=3.4.(2020·南宁模拟)为了检测某种零件的一条生产线的生产过程,从生产线上随机抽取一批零件,根据其尺寸的数据得到如图所示的频率分布直方图.若尺寸落在区间(x--2s,x-+2s)之外,则认为该零件属于“不合格”的零件,其中x-,s分别为样本平均数和样本标准差,计算可得s≈15(同一组中的数据用该组区间的中点值作代表).(1)求样本平均数的大小;(2)若一个零件的尺寸是100 cm ,试判断该零件是否属于“不合格”的零件.解 (1)x -=35×10×0.005+45×10×0.010+55×10×0.015+65×10×0.030+75×10×0.020+85×10×0.015+95×10×0.005=66.5.(2)x -+2s =66.5+30=96.5,x --2s =66.5-30=36.5,100>96.5,∴该零件属于“不合格”的零件.一、单项选择题1.如图,样本A 和B 分别取自两个不同的总体,它们的样本平均数分别为x -A 和x -B ,样本标准差分别为s A 和s B ,则( )A.x -A >x -B ,s A >s BB .x -A <x -B ,s A >s B C.x -A >x -B ,s A <s BD .x -A <x -B ,s A <s B答案 B解析 由图可得样本A 的数据都在10及以下,样本B 的数据都在10及以上,所以x -A <x -B ,样本B 的数据比样本A 的数据波动幅度小,所以s A >s B ,故选B.2.在高一期中考试中,甲、乙两个班的数学成绩统计如下表: 班级 人数 平均数 方差甲20x-甲2乙30x-乙3其中x-甲=x-乙,则两个班数学成绩的方差为()A.3 B.2C.2.6 D.2.5答案 C解析由题意可知两个班的数学成绩的平均数为x-=x-甲=x-乙,则两个班数学成绩的方差为s2=2020+30[2+(x-甲-x-)2]+3020+30[3+(x-乙-x-)2]=2020+30×2+3020+30×3=2.6.3.(2020·河南省名校联考)如图给出的是某小区居民一段时间内访问网站的比例图,则下列选项中不超过21%的为()A.腾讯与百度的访问量所占比例之和B.网易与搜狗的访问量所占比例之和C.淘宝与论坛的访问量所占比例之和D.新浪与小说的访问量所占比例之和答案 B解析由于网易与搜狗的访问量所占比例之和为18%,不超过21%,故选B.4.(2020·安庆模拟)某单位统计了本单位的职工一天行走步数(单位:百步)得到如图所示的频率分布直方图,估计该单位职工一天行走步数的平均值为(同一组中的数据用该组区间的中点值为代表)()A.125 B.125.6C.124 D.126答案 B解析由频率分布直方图,估计该单位职工一天行走步数的平均值为x-=60×0.002×20+80×0.006×20+100×0.008×20+120×0.012×20+140×0.010×20+160×0.008×20+180×0.002×20+200×0.002×20=125.6.故选B.5.(2020·威海一模)恩格尔系数是食品支出总额占个人消费支出总额的比重,其数值越小说明生活富裕程度越高.统计改革开放40年来我国历年城镇和农村居民家庭恩格尔系数,绘制了如图的折线图.根据该折线图,下列结论错误的是()A.城镇居民家庭生活富裕程度不低于农村居民家庭B.随着改革开放的不断深入,城镇和农村居民家庭生活富裕程度越来越高C.1996年开始城镇和农村居民家庭恩格尔系数都低于50%D.随着城乡一体化进程的推进,城镇和农村居民家庭生活富裕程度差别越来越小答案 C解析由折线图可知,对于A,因为城镇的恩格尔系数较小,故城镇居民家庭生活富裕程度不低于农村居民,A正确;对于B,城镇和农村的恩格尔系数整体上都在下降,说明城镇和农村居民家庭生活富裕程度越来越高,B正确;对于C,1996~2000年我国农村居民家庭恩格尔系数高于50%,C错误;对于D,结合图形得到城镇和农村家庭恩格尔系数之间的差距越来越小,说明城镇和农村家庭生活富裕程度差别越来越小,D正确.故选C.6.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个答案 D解析由图形可得各月的平均最低气温都在0 ℃以上,A正确;七月的平均温差约为10 ℃,而一月的平均温差约为5 ℃,故B正确;三月和十一月的平均最高气温都在10 ℃左右,基本相同,C正确;平均最高气温高于20 ℃的月份为六月、七月、八月,只有3个,D错误.7.某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布扇形图和90后从事互联网行业者岗位分布条形图,则下列结论中不一定正确的是()注:90后指1990年及以后出生,80后指1980~1989年之间出生,80前指1979年及以前出生.A.互联网行业从业人员中90后占一半以上B.互联网行业中从事技术岗位的人数超过总人数的20%C.互联网行业中从事运营岗位的人数90后比80前多D.互联网行业中从事技术岗位的人数90后比80后多答案 D解析由题图易知互联网行业从业人员90后占56%,A正确;仅90后从事技术岗位的人数占总人数的0.22176,超过20%,B正确;90后从事运营岗位的人数占总人数的0.56×0.17=0.0952>0.03,C正确;90后从事技术岗位的人数占总人数的0.22176<0.41,而题中未给出80后从事互联网行业岗位分布情况,故D不一定正确.二、多项选择题8.(2020·青岛模拟)近几年,在国家大力支持和引导下,中国遥感卫星在社会生产和生活各领域的应用范围不断扩大,中国人民用遥感卫星系统研制工作取得了显著成绩,逐步形成了气象、海洋、陆地资源和科学试验等遥感卫星系统.如图是2007~2018年中国卫星导航与位置服务产业总体产值规模(万亿)及增速(%)的统计图,则下列结论中正确的是()A.2017年中国卫星导航与位置服务产业总体产值规模达到2550亿元,较2016年增长20.40%B.若2019年中国卫星导航与位置服务产业总体产值规模保持2018年的增速,总体产值规模将达3672亿元C.2007~2018年中国卫星导航与位置服务产业总体产值规模逐年增加,但不与时间成正相关D.2007~2018年中国卫星导航与位置服务产业总体产值规模的增速中有些与时间成负相关答案ABD解析对于A,根据图中数据可知2017年中国卫星导航与位置服务产业总体产值规模达到2550亿元,较2016年增长20.40%,故A正确;对于B,2019年中国卫星导航与位置服务产业总体产值规模保持2018年的增速,即为20%,故2019年总体产值规模为3060×(1+20%)=3672(亿元),故B正确;对于C,根据正相关的定义,散点位于从左下角到右上角区域,则两个变量具有正相关关系,故C错误;对于D,根据负相关的定义,散点位于从左上角到右下角区域,则两个变量具有负相关关系,故D 正确.故选ABD.9.为了了解某校九年级1600名学生的体能情况,随机抽查了部分学生,测试1分钟仰卧起坐的成绩(次数),将数据整理后绘制成如图所示的频率分布直方图,根据统计图的数据,下列结论正确的是()A.该校九年级学生1分钟仰卧起坐的次数的中位数为26.25次B.该校九年级学生1分钟仰卧起坐的次数的众数为27.5次C.该校九年级学生1分钟仰卧起坐的次数超过30次的人数约有320人D.该校九年级学生1分钟仰卧起坐的次数少于20次的人数约有32人答案ABC解析由题图可知中位数是26.25次,众数是27.5次,1分钟仰卧起坐的次数超过30次的频率为0.2,所以估计该校九年级学生1分钟仰卧起坐的次数超过30次的人数约有320人;1分钟仰卧起坐的次数少于20次的频率为0.1,所以该校九年级学生1分钟仰卧起坐的次数少于20次的人数约有160人.故A,B,C正确,D错误.故选ABC.10.在发生某公共卫生事件期间,我国有关机构规定:“该事件在一段时间没有发生规模群体感染的标志为连续10天,每天新增加疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,不一定符合该标志的是() A.甲地总体均值为3,中位数为4B.乙地总体均值为2,总体方差大于0C.丙地中位数为3,众数为3D.丁地总体均值为2,总体方差为3答案ABC解析由于平均数和中位数不能确定某一天的病例不超过7人,A不一定符合该标志;当总体方差大于0,不知道总体方差的具体数值,因此不能确定数据的波动大小,B不一定符合该标志;中位数和众数也不能确定某一天的病例不超过7人,C不一定符合该标志;当总体平均数是2,若有一个数据超过7,则方差就超过3,D一定符合该标志.故选ABC.三、填空题11.(2021·湖北宜昌高三月考)甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):人入选,则入选的最佳人选应是 . 答案 甲解析 因为x 甲=x 乙=9,s 2甲=15×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=25,s 2乙=15×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=65>s 2甲,故甲更稳定.12.已知30个数据的60%分位数是8.2,这30个数据从小到大排列后第18个数据是7.8,则第19个数据是 .答案 8.6解析 由30×60%=18,设第19个数据为x ,则7.8+x 2=8.2,解得x =8.6,即第19个数据是8.6.四、解答题13.(2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A ,B 两组,每组100只,其中A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解(1)由已知得0.70=a+0.20+0.15,故a=0.35,b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.14.我国是世界上严重缺水的国家之一,城市缺水问题较为突出.某市为了节约生活用水,计划在本市试行居民生活用水定额管理(即确定一个居民月均用水量标准,用水量不超过a的部分按照平价收费,超过a的部分按照议价收费).为了较为合理地确定出这个标准,通过抽样获得了100位居民某年的月均用水量(单位:t),制作了频率分布直方图.(1)由于某种原因频率分布直方图部分数据丢失,请在图中将其补充完整; (2)用样本估计总体,如果希望80%的居民每月的用水量不超过标准,则月均用水量的最低标准定为多少吨?并说明理由;(3)从频率分布直方图中估计该100位居民月均用水量的平均数.(同一组中的数据用该区间的中点值代表)解 (1)(2)月均用水量的最低标准应定为2.5 t .样本中月均用水量不低于2.5 t 的居民占样本总体的20%,由样本估计总体,要保证80%的居民每月的用水量不超出标准,月均用水量的最低标准应定为2.5 t.(3)这100位居民的月均用水量的平均数为0.5×⎝ ⎛⎭⎪⎪⎫14×0.10+34×0.20+54×0.30+74×0.40+94×0.60+114×0.30+134×0.10=1.875(t).。
2024版高考数学总复习:用样本估计总体教师用书
第二节用样本估计总体考试要求:结合实例,能够利用样本估计总体的集中趋势以及离散程度,掌握分层随机抽样的样本均值和样本方差.一、教材概念·结论·性质重现1.频率分布直方图(1)频率分布表的画法.第一步:求极差,极差=最大值-最小值;第二步:决定组数和组距,组距=极差;组数第三步:将数据分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第四步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图(如图).横轴表示样本数据,纵轴表示频率,每个小长方形的面积表示样本落在该组内的频率.组距1.频率分布直方图可以利用频率分布直方图估计总体的取值规律.2.频率分布直方图中的常见结论(1)众数的估计值为最高的小长方形的中点对应的横坐标.(2)平均数的估计值等于频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐(3)中位数的估计值的左边和右边的小长方形的面积和是相等的.2.中位数、众数、平均数(1)中位数:将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(2)众数:一组数据中出现次数最多的数据称为这组数据的众数.(3)平均数:一组数据的算术平均数即为这组数据的平均数,n个数据x1,x2,…,x n的平均数�=1�(x1+x2+…+x n).3.百分位数(1)第p百分位数的定义:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.(2)计算一组n个数据的第p百分位数的步骤:第1步,按从小到大排列原始数据.第2步,计算i=np%.第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.4.样本的数字特征如果有n个数据x1,x2,…,x n,那么平均数为�=1�(x1+x2+…+x n),标准差为s−�方差为s2=1�[(x1-�)2+(x2-�)2+…+(x n-�)2].(1)若数据x1,x2是m�+a.1.判断下列说法的正误,对的画“√”,错的画“×”.(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.(√)(2)一组数据的方差越大,说明这组数据越集中.(×)(3)在频率分布直方图中,小长方形的面积越大,表示样本数据落在该区间的频率越大.(√) 2.“幸福感指数”是指某个人主观评价他对自己目前生活状态满意程度的指标,常用区间[0,10]内的一个数来表示,该数越接近10表示满意度越高.现随机抽取10位居民,他们的幸福感指数为5,6,6,6,7,7,8,8,9,10.则这组数据的第80百分位数是()A.7.5B.8C.8.5D.9C解析:因为10×80%=8,所以数据5,6,6,6,7,7,8,8,9,10的第80百分位数是12×(8+9)=8.5.3.某工厂技术人员对三台智能机床的生产数据进行统计,发现甲车床每天生产次品数的平均数为1.4,标准差为1.08;乙车床每天生产次品数的平均数为11,标准差为0.85;丙车床每天生产次品数的平均数为1.1,标准差为0.78.由以上数据可以判断生产性能最好且较稳定的为()A.无法判断B.甲车床C.乙车床D.丙车床D 解析:因为1.1<1.4<11,0.78<0.85<1.08,所以可以判断生产性能最好且较稳定的为丙车床.4.从某网络平台推荐的影视作品中抽取400部,统计其评分数据,将所得400个评分数据分为8组:[66,70),[70,74),…,[94,98],并整理得到如下的频率分布直方图,则评分在区间[82,86)内的影视作品数量是()A.20B.40C.64D.80D 解析:由频率分布直方图知,评分在区间[82,86)内的影视作品的频率为(86-82)×0.05=0.2,故评分在区间[82,86)内的影视作品数量是400×0.2=80.5.已知样本量为200,在样本的频率分布直方图中,共有n 个小长方形.若中间一个小长方形的面积等于其余(n -1)个小长方形面积和的13,则该组的频数为________.50解析:设除中间一个小长方形外的(n -1)个小长方形面积的和为p ,则中间一个小长方形面积为13p .由题意,得p +13p =1,所以p =34,则中间一个小长方形的面积为13p =14,200×14=50,即该组的频数为50.考点1统计图表及其应用——综合性习近平总书记强调:“一个忘记来路的民族必定是没有出路的民族,一个忘记初心的政党必定是没有未来的政党.”某学校利用学习强国APP安排教职工(共120人)在线学习党史知识.其教职工年龄情况和每周在线学习时长达3小时的情况分别如图(1)和图(2)所示,则下列说法正确的是()A.该学校老年教职工在线学习党史时长达3小时的人数最多B.该学校青年教职工在线学习党史时长达3小时的人数最多C.该学校老年教职工在线学习党史时长达3小时和青年教职工在线学习党史时长达3小时的人数之和与中年教职工在线学习党史时长达3小时的人数相等D.该学校在线学习党史时长达3小时的人数占总人数的80%D解析:由图可知,该学校老年教职工在线学习党史时长达3小时的人数是120×30%×90%=32.4,中年教职工在线学习党史时长达3小时的人数是120×(1-30%-30%)×80%=38.4,青年教职工在线学习党史时长达3小时的人数是120×30%×70%=25.2.该学校在线学习党史时长达3小时的人数占总人数的比例为30%×90%+40%×80%+30%×70%=80%,故选项A、B、C错误,选项D正确.电力工业是一个国家的经济命脉,它在国民经济和人民生活中占有极其重要的地位.目前开发的电力主要是火电、水电、风电、核电、太阳能发电,其中,水电、风电、太阳能发电属于可再生能源发电.如图所示的是2022年各电力行业发电量及增幅的统计图,则下列说法错误的是()A.其中火电发电量大约占全行业发电量的71%B.在火电、水电、风电、核电、太阳能发电量中,比上一年增幅最大的是风电C.火电、水电、风电、核电、太阳能发电的发电量的极差是7.28D.以上可再生能源发电量的增幅均跑赢全行业整体增幅C解析:对于A,火电发电量大约占全行业发电量的5.28≈71%,故选项A正确;对于B,7.42由折线图可知,风电增幅为10.50%,是增幅最大的,故选项B正确;对于C,火电、水电、风电、核电、太阳能发电的发电量的极差是5.28-0.14=5.14,故选项C错误;对于D,由折线图可得,可再生能源发电量的增幅均跑赢全行业整体增幅,故选项D正确.故选C.(1)首先要准确地识图,即要明确统计图表中纵轴、横轴及折线、区域等所表示的意义,尤其注意数字变化的趋势等.1.(2022·靖远模拟)如图是我国2011-2020年载货汽车产量及增长趋势统计图.针对这10年的数据,下列说法错误的是()A.与2019年相比较,2020年我国载货汽车产量同比增速不到15%B.这10年中,载货汽车的同比增速有增有减C.这10年我国载货汽车产量的极差超过150万辆D.这10年我国载货汽车产量的中位数不超过340万辆D解析:对于A,2020年的同比增速为423.9−373.9×100%≈13.37%<15%,故A正确;373.9对于B,这10年中,载货汽车的同比增速有增有减,故B正确;对于C,由图知极差为423.9-273.5=150.4(万辆)>150(万辆),故C正确;对于D,将这10年载货汽车产量由小到大排列,得:273.5,303.5,312.9,333.8,339.9,344.1,356.7,371.7,373.9,423.9,故中位数为339.9+344.1=342(万辆),故D错误.22.(多选题)在疫情期间某企业对本企业1644名职工关于复工的态度进行调查,调查结果如图所示.下列结论成立的是()A.x=0.384B.从该企业中任取一名职工,该职工是倾向于在家办公的概率为0.178C.不到80名职工倾向于继续申请休假D.倾向于复工后在家办公或在公司办公的职工超过986名BD解析:由图表知x%=1-5.1%-17.8%-42.3%,得x=34.8,故A错误.由图表知在家办公的人员占17.8%,故B正确.由1644×5.1%=83.844>80,所以超过80名职工倾向于继续申请休假,故C错误.又1644×(17.8%+42.3%)=988.044>986,所以超过986名职工倾向于在家办公或在公司办公,D正确.综上可知,正确的结论为BD.考点2频率分布直方图——应用性一家保险公司决定对推销员实行目标管理,即给推销员确定一个具体的销售目标.确定的销售目标是否合适,直接影响到公司的经济效益.如果目标定得过高,多数推销员完不成任务,会使推销员失去信心;如果目标定得太低,将不利于挖掘推销员的工作潜力.该保险公司随机抽取50名保险推销员,统计了其2022年的月均推销额(单位:万元),将数据按照[12,14),[14,16),…,[22,24]分成6组,制成频率分布直方图如下,其中[14,16)组比[12,14)组的频数多4.(1)求频率分布直方图中a 和b 的值;(2)为调动推销员的积极性,公司设计了两种奖励方案.方案一:奖励月均推销额进入前60%的员工;方案二:奖励月均推销额达到或超过平均数(同一组中的数据用该组区间中点值为代表)的员工.你认为哪种方案更好?解:(1)由频率分布直方图的性质,得图中所有小长方形的面积之和等于1.又因为[14,16)组比[12,14)组的频数多4,所以�+�+0.04+0.1+0.12+0.14×2=1,50×�×2−50×�×2=4,解得a =0.03,b =0.07.(2)方案一,奖励月均推销额进入前60%的员工,因为样本量为50,所以能获得奖励员工人数为50×60%=30.方案二,奖励月均推销额达到或超过平均数,根据频率分布直方图,可得月均推销额的平均数为�=0.03×2×13+0.07×2×15+0.12×2×17+0.14×2×19+0.1×2×21+0.04×2×23=18.32.月均推销额低于18万的频率为2×(0.03+0.07+0.12)=0.44.因为本次抽样样本量为50名保险推销员,所以月均推销额低于18万的人数为50×0.44=22,所以月均推销额达到或超过18万的人数为28.综上所述,对比两种奖励方案,应选方案一,更多人员获得奖励.1.频率分布直方图的性质(1)小长方形的面积=组距×频率组距=频率.(2)各小长方形的面积之和等于1.(3)小长方形的高=频率组距,所有小长方形的高的和为1组距.2.要理解并记准频率分布直方图与众数、中位数、百分位数及平均数的关系.1.某校高三年级共有600名学生选修地理,某次考试地理成绩均在60~90分之间,分数统计后绘成频率分布直方图,如图所示,则成绩在[70,85)分的学生人数为()A.380B.420C.450D.480C 解析:成绩在[70,85)分的学生人数为600×5×(0.04+0.06+0.05)=450.故选C.2.从某小区随机抽取100户居民进行月用电量调查,发现其用电量都在50到350度之间,频率分布直方图如图所示,由此可估计该小区居民户月用电量的平均值大约为________度.186解析:设用电量在200到250度之间的频率为a ,则有50×(0.0024+0.0036+0.006+a +0.0024+0.0012)=1,解得a =0.0044.由频率分布直方图可知,该小区居民户月用电的平均值为:50×(75×0.0024+125×0.0036+175×0.006+225×0.0044+275×0.0024+325×0.0012)=186(度).考点3总体集中趋势的估计——综合性考向1百分位数、平均数、中位数及众数已知甲、乙两组按顺序排列的数据,甲组:27,28,37,m ,40,50;乙组:24,n ,34,43,48,52.若这两组数据的第20百分位数、第50百分数分别对应相等,则��等于()A.127B.107C.87D.67B解析:因为20%×6=1.2>1,50%×6=3,所以第20百分位数为n=28,第50百分位数为37+�2=34+432,所以m=40,所以��=4028=107.故选B.已知数据x1+1,x2+2,x3+3,x4+4,x5+5的平均数是23,则数据3x1+1,3x2+1,3x3+1,3x4+1,3x5+1的平均数是()A.61B.64C.67D.70A解析:因为数据x1+1,x2+2,x3+3,x4+4,x5+5的平均数是23,所以x1+x2+x3+x4+x5=5×23-15=100,所以(3x1+1)+(3x2+1)+(3x3+1)+(3x4+1)+(3x5+1)=3(x1+x2+x3+x4+x5)+5=305,所以数据3x1+1,3x2+1,3x3+1,3x4+1,3x5+1的平均数是3055=61.故选A.1.求平均数时要注意数据的个数,不要重计或漏计.2.求中位数时一定要先对数据按大小排序,若最中间有两个数据,则中位数是这两个数据的平均数.(多选题)某城市在创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数,满分100分),从中随机抽取一个容量为100的样本,发现数据均在[40,100]内.现将这些分数分成6组并画出样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,则下列说法正确的是()A.频率分布直方图中第三组的频数为10人B.根据频率分布直方图估计样本的众数为75分C.根据频率分布直方图估计样本的中位数为75分D.根据频率分布直方图估计样本的平均数为75分ABC解析:分数在[60,70)内的频率为1-10×(0.005+0.020+0.030+0.025+0.010)=0.10,所以第三组[60,70)的频数为100×0.10=10(人),故A正确.因为众数的估计值是频率分布直方图中最高小长方形的中点,从图中可看出众数的估计值为75分,故B正确.因为(0.005+0.020+0.010)×10=0.35<0.5,(0.005+0.020+0.010+0.03)×10=0.65>0.5,所以中位数位于[70,80),设中位数为x,则0.35+0.03(x-70)=0.5,解得x=75,所以中位数的估计值为75,故C正确.样本平均数的估计值为45×10×0.005+55×10×0.020+65×10×0.010+75×10×0.03+85×10×0.025+95×10×0.01=73(分),故D错误.用样本估计总体是统计的基本方法:(1)最高的小长方形的中点横坐标即为众数.(2)中位数左边和右边的小长方形的面积是相等的.1.某病患者8人的潜伏期(天)分别为3,3,8,4,2,7,10,18,则它们的第50百分位数为()A.4或7B.4C.7D.5.5D解析:将3,3,8,4,2,7,10,18由小到大排列为2,3,3,4,7,8,10,18,第50百分位数即为中位数,这组数的中位数为1×(4+7)=5.5.22.某市进行了一次校际数学竞赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图,则下列结论错误的是()A.得分在[40,60)之间的共有40人B.从这100名参赛者中随机选取1人,其得分在[60,80)的概率为0.5C.这100名参赛者得分的中位数为65D.a=0.005C解析:由频率分布直方图,可得A中,得分在[40,60)之间共有[1-(0.03+0.02+0.01)×10]×100=40(人),所以A正确.B中,从100名参赛者中随机选取1人,其得分在[60,80)中的概率为(0.03+0.02)×10=0.5,所以B正确.D中,由频率分布直方图的性质,可得(a+0.035+0.030+0.020+0.010)×10=1,解得a=0.005,所以D正确.C中,前2个小长方形面积之和为0.4,前3个小长方形面积之和为0.7,所以中位数在[60,70],这100名参×10≈63.3,所以C不正确.赛者得分的中位数为60+0.5−0.40.3考点4总体离散程度的估计——基础性考向1方差与标准差的计算(2022·溧阳期末)已知数据x1,x2,…,x10的平均数为2,方差为3,那么数据2x1+1,2x2+1,…,2x10+1的平均数和方差分别为()A.2,3B.5,6C.5,12D.4,12C解析:因为数据x1,x2,…,x10的平均数为2,方差为3,所以数据2x1+1,2x2+1,…,2x10+1的平均数为2×2+1=5,方差为22×3=12.一组数据由10个数组成,将其中一个数由6改为3,另一个数由2改为5,其余数不变,得到新的10个数,则新数据的方差相比原数据的方差的减小值为()A.0.4B.0.5C.0.6D.0.7C解析:一个数由6改为3,另一个数由2改为5,故该数据的平均数�不变,设没有改变的八个数分别为x1,x2,x3,x4,x5,x6,x7,x8.因为原数据的方差�12==110x 1-�)2+(x 2-�)2+(x 3-�)2+(x 4-�)2+(x 5-�)2+(x 6-�)2+(x 7-�)2+(x 8-�)2+(6-�)2+(2-�)2],新数据的方差�22=110[(x 1-�)2+(x 2-�)2+(x 3-�)2+(x 4-�)2+(x 5-�)2+(x 6-�)2+(x 7-�)2+(x 8-�)2+(3-�)2+(5-�)2],所以�22−�12=110[(3-�)2+(5-�)2-(6-�)2-(2-�)2]=110×(-6)=-0.6,所以新数据的方差相比原数据的方差的减少值为0.6.1.方差的简化计算公式:2.方差的运算性质:如果数据x n +b 的方差仍是为了解学生的课外阅读情况,某校采用按样本量比例分配的分层随机抽样对高中三个年级的学生进行平均每周课外阅读时间(单位:小时)的调查,所得样本数据如下:年级抽样人数样本平均数样本方差高一4053.5高二30�22高三303�32已知高中三个年级学生的总样本平均数为4.1,总样本方差为3.14,则高二年级学生的样本平均数�2=________,高三年级学生的样本方差�32=________.41.5解析:由高中三个年级学生的总样本平均数为4.1,可得40×5+30·�2+30×340+30+30=4.1,解得�2=4.因为总样本方差为3.14,所以40100×3.5+5−4.12+30100×2+(4−4.1)2+30100×[�32+(3-4.1)2]=3.14,解得�32=1.5.1.设样本中不同层的平均数分别为的权重分别为(2022·肇庆模拟)在对某中学高一学生体重的调查中,采取按样本量比例分配的分层随机抽样,如果不知道样本数据,只知道抽取了男生30人,其平均数和方差分别为55和15,抽取了女生20人,其平均数和方差分别为45和20.则总样本的平均数为______,方差为________.5141解析:总样本的平均数为3030+20×55+2030+20×45=51,总样本的方差为3050×[15+(55-51)2]+2050×[20+(45-51)2]=41.课时质量评价(五十四)A 组全考点巩固练1.某市3月1日至3月10日的最低气温(单位:℃)的情况绘制的折线统计图如图所示.由图可知,这10天最低气温的第80百分位数是()A.-2B.0C.1D.2D解析:由折线图可知,这10天的最低气温按照从小到大排列为-3,-2,-1,-1,0,0,1,2,2,2.因为共有10个数据,所以10×80%=8,是整数,则这10天最低气温的第80百分位数是2+22=2.2.(2023·德州模拟)2022年第24届冬奥会在北京市和张家口市成功举办,出色的赛事组织工作赢得了国际社会的一致称赞,经济效益方面,多项收入也创下历届冬奥会新高.某机构对本届冬奥会各项主要收入进行了统计,得到的数据如图所示.已知赛事转播的收入比政府补贴和特许商品销售的收入之和多27亿元,则估计2022年冬奥会这几项收入总和约为()A.223亿元B.218亿元C.143亿元D.118亿元B 解析:设收入总和为x ,则35.4%x -(12.2%+10.8%)x =27,解得x ≈218.故选B.3.已知一组数据x 1,x 2,…,x n 的平均数为a ,标准差为s .若2x 1-1,2x 2-1,…,2x n -1的平均数与方差相等,则s 2-a 2的最大值为()A.-1B.-12C.-14D.-316C 解析:由已知条件可得,2a -1=4s 2,整理可得s 2=12a -14,又s 2≥0,所以12a -14≥0,a ≥12,所以s 2-a 2=-a 2+12a -14=-�−-316,图象开口向下,对称轴为a =14,+∞上单调递减,故当a =12时,s 2-a 2取得最大值为-14.4.为了解学生的身体状况,某校随机抽取了一批学生测量体重.经统计,这批学生的体重数据(单位:千克)全部介于45至70之间.将数据分成5组,并得到如图所示的频率分布直方图.图中a 的值为()A.0.04B.0.2C.0.03D.0.05A解:根据频率分布直方图可得,(0.01+0.02+a +0.06+0.07)×5=1,所以a =0.04.故选A.5.甲组数据为5,12,16,21,25,37,乙组数据为1,6,14,18,38,39,则甲、乙的平均数、极差及中位数相同的是()A.极差B.平均数C.中位数D.都不相同B 解析:甲的极差为37-5=32,乙的极差为39-1=38,甲的中位数为16+212=18.5,乙的中位数为14+182=16,�甲=5+12+16+21+25+376=583,�乙=1+6+14+18+38+396=583,所以甲、乙的平均数相同.故选B.6.若样本数据x 1,x 2,…,x 10标准差为8,则数据2x 1-1,2x 2-1,…,2x 10-1的标准差为()A.8B.64C.32D.16D解析:设样本数据x 1,x 2,…,x 10标准差为�2,则�2=8,即方差s 2=64,数据2x 1-1,2x 2-1,…,2x 10-1的方差为s 2=22s 2=22×64=256,所以数据2x 1-1,2x 2-1,…,2x 10-1的标准差为256=16.7.某校女子篮球队7名运动员身高(单位:cm)的数据分别为171,172,17x ,174,175,180,181.已知记录的平均身高为175cm,但记录中有一名运动员身高的末位数字不清晰.如果把其末位数字记为x ,那么x 的值为________.2解析:170+17×(1+2+x +4+5+10+11)=175,17×(33+x )=5,即33+x =35,解得x=2.8.(2023·山东省实验中学模拟)第24届冬奥会于2022年在北京和张家口市联合举行,冬奥会志愿者的服务工作是冬奥会成功举办的重要保障.在冬奥会志愿者的选拔工作中,某高校承担了志愿者选拔的面试工作,面试成绩满分100分,同学们面试得分的频率分布直方图如图所示,则此次面试中得分的90%分位数是________.85解析:由题图知各组的频率为分组[40,50)[50,60)[60,70)[70,80)[80,90)[90,100]频率0.10.30.410a0.110a所以a =0.005,则第四组[70,80)的频率为0.05,前四组的频率之和为0.85,所以这次面试得分的90%分位数是在第五组内,且为80+10×0.9−0.850.95−0.85=85.9.某游乐园为了吸引游客,推出了A,B 两款不同的年票,游乐园每次进园门票原价为100元.A年票前12次进园门票每次费用为原价,从第13次起,每次费用为原价的一半,A年票不需交开卡工本费.B年票每次进园门票为原价的9.5折,B年票需交开卡工本费a元(a∈N).已知某市民每年至少去该游乐园11次,最多不超过14次.该市民多年来年进园记录如表:年进园次数11121314频率0.150.400.100.35(1)估计该市民年进园次数的众数;(2)若该市民使用A年票,求该市民在进园门票上年花费的平均数;(3)从该市民在进园门票上年花费的平均数来看,若选择A年票比选择B年票更优惠,求a 的最小值.解:(1)由频率分布表知,该市民年进园次数的频率最大是0.40,对应的次数是12,所以估计该市民进园次数的众数为12.(2)该市民使用A年票时,在进园门票上年花费的平均数为��=11×100×0.15+12×100×0.40+(12×100+50)×0.10+(12×100+100)×0.35=1225.(3)该市民使用B年票时,在进园门票上年花费的平均数为��=(11×0.15+12×0.40+13×0.10+14×0.35)×95+a=1201.75+a,因为��<��,所以1225<1201.75+a,解得a>23.25.又a∈N,所以a的最小值为24.若选择A年票比选择B年票更优惠,则a的最小值是24.B组新高考培优练10.(多选题)在某地区某传染病流行期间,为了建设指标显示疫情已受控制,以便向该地区居民显示可以过正常生活,有公共卫生专家建议的指标是“连续7天每天新增感染人数不超过5人”,根据连续7天的新增病例数计算,下列各项中,一定符合上述指标的是() A.平均数�≤3B.标准差s≤2C.平均数�≤3且极差小于或等于2D.众数等于1且极差小于或等于4CD解析:对于A选项,若平均数�≤3,不能保证每天新增病例数不超过5人,不符合题意;对于B选项,标准差反映的是数据的波动大小,例如当每天感染的人数均为10,标准差是0,显然不符合题意;对于C选项,若极差等于0或1,在�≤3的条件下,显然符合指标;若极差等于2,假设最大值为6,最小值为4,则�>3,矛盾,故每天新增感染人数不超过5,符合条件,C正确;对于D 选项,若众数等于1且极差小于或等于4,则最大值不超过5,符合指标.11.袁隆平是中国杂交水稻事业的开创者,是“当代神农”,致力于杂交水稻技术的研究、应用与推广,为人类运用科技手段战胜饥饿带来了绿色的希望和金色的收获.袁老的科研团队发现“野败”后,将其带回实验,在试验田中随机抽取了100株水稻统计每株水稻的稻穗数(单位:颗)得到如图所示的频率分布直方图(同一组中的数据用该组区间的中点值代表),则下列说法错误的是()A.a =0.01B.这100株水稻的稻穗数平均值在区间[280,300)中C.这100株水稻的稻穗数的众数是250D.这100株水稻的稻穗数的中位数在区间[240,260)中B解析:根据频率分布直方图知:组距为20,所以a =120-0.0175-0.0075×2-0.005-0.0025=0.01,故A 选项正确.这100株水稻的稻穗数平均值�=20×(0.005×210+0.0075×230+0.0175×250+0.01×270+0.0075×290+0.0025×310)=256,可知这100株水稻的稻穗数平均值在区间[240,260)中,故B 选项错误.由频率分布直方图知第三个矩形最高,所以这100株水稻的稻穗数的众数是250,故C 选项正确.前两个矩形的面积是0.25<0.5,前三个矩形的面积是0.6>0.5,所以中位数在第三组数据中,即这100株水稻的稻穗数的中位数在区间[240,260)中,故D 选项正确.故选B.12.(2022·邵阳模拟)已知某旅游城市2020年前10个月的游客人数(万人)按从小到大的顺序排列如下:3,5,6,9,x ,y ,15,17,18,21.若该组数据的中位数为13,则该组数据的平均数为()A.12B.10.7C.13D.15A解析:因为该组数据的中位数为13,所以�+�2=13,所以x +y =26,则该组数据的平均数为110(3+5+6+9+x +y +15+17+18+21)=12.13.如图是某工厂对一批新产品长度(单位:mm)检测结果的频率分布直方图,估计这批产品的平均长度为________mm.22.75解析:由图可知,平均长度为12.5×0.02×5+17.5×0.04×5+22.5×0.08×5+27.5×0.03×5+32.5×0.03×5=22.75(mm).14.某校从参加高一物理期末考试的学生中随机抽出60名,将其物理成绩(均为整数)分成六组:[40,50),[50,60),…,[90,100],并绘制成如下的频率分布直方图.由此估计此次高一物理期末考试成绩的第75百分位数为________.82解析:高一物理期末考试成绩的第75百分位数,即成绩从低到高的第60×75%=45名同学.因为前4组的小长方形的面积和为0.01+0.015×2+0.03=0.07,样本量为60,所以前4组的小长方形对应的学生人数为60×0.07×10=42.因为前5组的小矩形的面积和为0.01+0.015×2+0.03+0.025=0.095,又因为样本量为60,所以前5组的小矩形对应的学生人数为60×0.095×10=57.因为分数在[80,90)的人数为0.025×10×60=15,所以此次高一物理期末考试成绩的第75百分位数为80+10×45−4215=82.15.小刘从事螃蟹养殖和批发多年,有着不少客户.小刘把去年采购螃蟹的数量x (单位:箱)在[100,200)的客户称为“大客户”,并把他们去年采购的数量制成如表:采购数量x [100,120)[120,140)[140,160)[160,180)[180,200)客户数10105205已知去年“大客户”们采购的螃蟹数量占小刘去年总销售量的58.(1)根据表中的数据完善频率分布直方图,并估计采购数在168箱以上(含168箱)的“大客户”人数;(2)估算小刘去年总的销售量(同一组中的数据用该组区间的中点值为代表);(3)小刘今年销售方案有两种:①不在网上销售螃蟹,则按去年的价格销售,每箱利润为20元,预计销售量与去年持平;②在网上销售螃蟹,则需把每箱售价下调m元(2≤m≤5),销售量可增加1000m箱.问:哪一种方案利润最大?求出今年利润Y(单位:元)的最大值.解:(1)作出频率分布直方图如图,×20+5=17.根据上图,可知采购量在168箱以上(含168箱)的“大客户”人数为180−16820(2)去年“大客户”所采购的螃蟹总数大约为110×10+130×10+150×5+170×20+190×5=7500(箱),=12000(箱).小刘去年总销售量为7500÷58(3)若不在网上销售螃蟹,则今年小刘的利润为Y=12000×20=240000(元).若在网上销售螃蟹,则今年的销售量为(12000+1000m)箱,每箱的利润(20-m),则今年小刘的收入为Y=(20-m)·(12000+1000m)=1000(-m2+8m+240)=1000[-(m-4)2+256].当m=4时,Y取得最大值256000.因为256000>240000,所以方案②利润最大,且小刘今年利润Y的最大值为256000元.。
高考备考指南文科数学第10章第2讲用样本估计总体
4.会用样本的频率分布估计总体的分布,会用样本的基本数字特征估计总体的
基本数字特征,理解用样本估计总体的思想.
栏目索引
5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.
第十章 统计与统计案例
栏目导航
01 课前 基础诊断
02 课堂 考点突破
03 课后 感悟提升
04
配套训练
高考备考指南
栏目索引
第十章 统计与统计案例
高考备考指南
文科数学
判断下面结论是否正确(请在括号中打“√”或“×”): (1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( ) (2)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.( ) (3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的 具体数据信息就被抹掉了.( ) (4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写, 相同的数据可以只记一次.( ) (5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众栏数目.索引( ) (6)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( ) 【答案】(1)√ (2)× (3)√ (4)× (5)√ (6)×
0.08,0.21,0.25,0.06,0.04,0.02. 由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=2a×0.5,解得a=0.30. (2)由(1)知,该市100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=
0.12. 由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为
第十章
统计与统计案例
第2讲 用样本估计总体
高考备考指南
第2节 用样本估计总体--2025年高考数学复习讲义及练习解析
第二节用样本估计总体课标解读考向预测1.会用统计图表对总体进行估计,会求n 个数据的第p 百分位数.2.能用样本的数字特征估计总体集中趋势和总体离散程度.用样本估计总体在高考中出题频率较高,常结合频率分布直方图、样本的数字特征出题.预计2025年高考将会以与统计图表的识读、成对数据的统计分析相综合的形式呈现.必备知识——强基础1.总体百分位数的估计(1)第p 百分位数的定义一般地,一组数据的第p 百分位数是这样一个值,它使得这组数据中至少有01p %的数据小于或等于这个值,且至少有(100-p )%的数据大于或等于这个值.(2)四分位数常用的分位数有第25百分位数,第50百分位数(即中位数),第75百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第0225百分位数也称为第一四分位数或下四分位数,第0375百分位数也称为第三四分位数或上四分位数.2.样本的数字特征(1)众数:一组数据中04出现次数最多的那个数据,叫做这组数据的众数.(2)中位数:把n 个数据按大小顺序排列,处于05最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:把06a 1+a 2+…+a n n称为a 1,a 2,…,a n 这n 个数的平均数.(4)标准差与方差:设一组数据x 1,x 2,x 3,…,x n 的平均数为x -,则这组数据的标准差和方差分别是s =1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],s 2=1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2].3.总体平均数、方差、标准差与样本平均数、方差、标准差名称定义总体均值(总体平均数)、方差、标准差一般式:如果总体中有N个个体,它们的变量值分别为Y1,Y2,…,Y N,则称Y-=Y1+Y2+…+Y NN=1N∑Ni=1Y i为07总体均值,又称总体平均数,称S2=1N∑Ni=1(Y i-Y-)2为08总体方差,S=S2为09总体标准差加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Y k,其中Y i出现的频数为f i(i=1,2,…,k),则总体均值为Y-=101N∑ki=1f i Y i,总体方差为S2=111N∑ki=1f i(Y i-Y-)2样本均值(样本平均数)、方差、标准差如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,y n,则称y-=y1+y2+…+y nn=1n∑ni=1y i为12样本均值,又称样本平均数,称s2=1n∑ni=1(y i-y-)2为13样本方差,s=s2为14样本标准差说明:(1)在简单随机抽样中,我们常用样本平均数、方差、标准差去估计总体平均数、方差、标准差.(2)总体平均数、方差、标准差是一个确定的数,样本平均数、方差、标准差具有随机性(因为样本具有随机性).(3)一般情况下,样本量越大,估计越准确1.频率分布直方图与众数、中位数、平均数的关系(1)最高的小长方形底边中点的横坐标即是众数.(2)中位数左边和右边的小长方形的面积和是相等的.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.2.平均数、方差的公式推广若数据x1,x2,…,x n的平均数为x-,方差为s2,那么mx1+a,mx2+a,mx3+a,…,mx n +a的平均数是m x-+a,方差为m2s2.1.概念辨析(正确的打“√”,错误的打“×”)(1)对一组数据来说,平均数和中位数总是非常接近.()(2)一组数据的方差越大,说明这组数据越集中.()(3)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.()答案(1)×(2)×(3)√2.小题热身(1)(人教A 必修第二册习题9.2T1改编)下列一组数据的第25百分位数是()2.1,3.0,3.2,3.8,3.4,4.0,4.2,4.4,5.3,5.6A .3.2B .3.0C .4.4D .2.5答案A解析把该组数据按照由小到大的顺序排列,可得2.1,3.0,3.2,3.4,3.8,4.0,4.2,4.4,5.3,5.6,由i =10×25%=2.5,不是整数,得第3个数据3.2是第25百分位数.(2)(多选)(人教B 必修第二册习题5-1B T3改编)给出一组数据:1,3,3,5,5,5,下列说法正确的是()A .这组数据的极差为4B .这组数据的平均数为3C .这组数据的中位数为4D .这组数据的众数为3和5答案AC解析这组数据的极差为5-1=4,A 正确;这组数据的平均数为1+3×2+5×36=113,B 错误;这组数据的中位数为3+52=4,C 正确;这组数据的众数为5,D 错误.(3)(人教B 必修第二册练习B T4改编)某企业有3个分厂生产同一种电子产品,第一、二、三分厂的产量之比为1∶2∶1,用比例分配的分层随机抽样的方法从3个分厂生产的电子产品中共抽取100件进行使用寿命的测试,由所得的测试结果算得从第一、二、三分厂取出的产品的平均使用寿命分别为980h ,1020h ,1032h ,则抽取的100件产品的平均使用寿命为________h.答案1013解析由比例分配的分层随机抽样的知识可知,从第一、二、三分厂抽取的电子产品件数分别为25,50,25,则抽取的100件产品的平均使用寿命为1100×(980×25+1020×50+1032×25)=1013(h).(4)已知一组数据的频率分布直方图如图,则众数是________,平均数是________.答案6567解析因为最高小长方形底边中点的横坐标为65,所以众数为65;平均数x -=(55×0.030+65×0.040+75×0.015+85×0.010+95×0.005)×10=67.考点探究——提素养考点一百分位数的计算例1(1)(2023·江苏南通海安质量监测)“双减”政策实施后,学生的课外阅读增多.某班50名学生到图书馆借书数量统计如下:借书数量/本5678910频数/人58131194则这50名学生的借书数量的上四分位数是()A .8B .8.5C .9D .10答案C解析由50×75%=37.5,故第75百分位数为借书数量从小到大排序后的第38个,又5+8+13+11=37<38<5+8+13+11+9=46,故上四分位数(第75百分位数)是9.(2)某校为了了解高三年级学生的身体素质状况,在开学初举行了一场身体素质体能测试,以便对体能不达标的学生进行有针对性的训练,促进他们体能的提升,现从整个年级测试成绩中抽取100名学生的测试成绩,并把测试成绩分成[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]六组,绘制成频率分布直方图(如图所示).其中分数在[90,100]这一组内的纵坐标为a ,则该次体能测试成绩的80%分位数约为________分.答案92解析由频率分布直方图知,10×(0.002+0.004+0.014+0.020+a+0.035)=1,得a=0.025.因为0.02+0.04+0.14+0.20+0.35=0.75,所以该次体能测试成绩的80%分位数落在[90,100]内,设其为x,则由(x-90)×0.025=0.05,解得x=92.【通性通法】计算一组n个数据第p百分位数的步骤【巩固迁移】1.为了养成良好的运动习惯,某人记录了自己一周内每天的运动时长(单位:分钟),分别为53,57,45,61,79,49,x,若这组数据的第80百分位数与第60百分位数的差为3,则x =()A.58或64B.59或64C.58D.59答案A解析将已知的6个数从小到大排序为45,49,53,57,61,79.若x≤57,则这组数据的第80百分位数与第60百分位数分别为61和57,它们的差为4,不符合条件;若x≥79,则这组数据的第80百分位数与第60百分位数分别为79和61,它们的差为18,不符合条件;若57<x<79,则这组数据的第80百分位数与第60百分位数分别为x和61(或61和x),则|x-61|=3,解得x=58或x=64.故选A.2.(2024·安徽十校联考)学校组织班级知识竞赛,某班的8名学生的成绩(单位:分)分别是68,63,77,76,82,88,92,93,则这8名学生成绩的75%分位数是()A.88分B.89分C.90分D.92分答案C解析8名学生的成绩从小到大排列为63,68,76,77,82,88,92,93,因为8×75%=6,所以75%分位数为第6个数和第7个数的平均数,即12×(88+92)=90(分).考点二总体集中趋势的估计例2(1)(2024·山东临沂模拟)10名工人某天生产同一零件,生产的件数分别是15,17,14,10,15,17,17,16,14,12.设其平均数为a,中位数为b,众数为c,则()A.a>b>c B.c>b>aC.c>a>b D.b>c>a答案B解析将生产的件数由小到大排列为10,12,14,14,15,15,16,17,17,17,a=110×(15+17+14+10+15+17+17+16+14+12)=14.7,b=15,c=17.因此c>b>a.故选B.(2)(多选)(2023·湖北荆州中学模拟)某公司为提高职工政治素养,对全体职工进行了一次时事政治测试,随机抽取了100名职工的成绩,并将其制成如图所示的频率分布直方图,以样本估计总体,则下列结论中正确的是()A.该公司职工的测试成绩不低于60分的人数约占总人数的80%B.该公司职工测试成绩的中位数约为70分C.该公司职工测试成绩的平均值约为68分D.该公司职工测试成绩的众数约为60分答案BC解析对于A,该公司职工的测试成绩不低于60分的频率为(0.02+0.015)×20=0.70,∴该公司职工的测试成绩不低于60分的人数约占总人数的70%,故A错误;对于B,测试成绩在[20,60)的频率为(0.005+0.01)×20=0.3,测试成绩在[60,80)的频率为0.02×20=0.4,∴该公司职工测试成绩的中位数约为60+0.5-0.30.4×20=70分,故B 正确;对于C ,该公司职工测试成绩的平均值约为x -=30×0.005×20+50×0.01×20+70×0.02×20+90×0.015×20=68分,故C 正确;对于D ,该公司职工测试成绩的众数约为60+802=70分,故D 错误.故选BC.【通性通法】频率分布直方图中的数字特征(1)众数:最高矩形的底边中点的横坐标.(2)中位数:中位数左边和右边的矩形的面积和应该相等.(3)平均数:各组区间的中点值与对应频率之积的和.【巩固迁移】3.某市市民用水拟实行阶梯水价,每人月用水量中不超过w 立方米的部分按4元/立方米收费,超出w 立方米的部分按10元/立方米收费,从该市随机调查了10000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w 为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w 至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替,当w =3时,估计该市居民该月的人均水费.解(1)如题图所示,用水量在[0.5,2)的频率为(0.2+0.3+0.4)×0.5=0.45,用水量在[0.5,3)的频率为(0.2+0.3+0.4+0.5+0.3)×0.5=0.85.∴用水量小于等于2立方米的频率为0.45,用水量小于等于3立方米的频率为0.85,又w 为整数,∴为使80%以上的居民在该月的用水价格为4元/立方米,w 至少定为3.(2)当w =3时,该市居民该月的人均水费估计为(0.1×1+0.15×1.5+0.2×2+0.25×2.5+0.15×3)×4+0.15×3×4+[0.05×(3.5-3)+0.05×(4-3)+0.05×(4.5-3)]×10=10.5(元).即当w =3时,该市居民该月的人均水费估计为10.5元.考点三总体离散程度的估计例3甲、乙两名学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:甲8281797895889384乙9295807583809085(1)求两位学生预赛成绩的平均数和方差;(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由.解(1)x -甲=18×(82+81+79+78+95+88+93+84)=85,x -乙=18×(92+95+80+75+83+80+90+85)=85,s 2甲=18×[(82-85)2+(81-85)2+(79-85)2+(78-85)2+(95-85)2+(88-85)2+(93-85)2+(84-85)2]=35.5,s 2乙=18×[(92-85)2+(95-85)2+(80-85)2+(75-85)2+(83-85)2+(80-85)2+(90-85)2+(85-85)2]=41.(2)由(1)知x -甲=x -乙,s 2甲<s 2乙,甲的成绩较稳定,所以派甲参赛比较合适.【通性通法】标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.【巩固迁移】4.(2023·全国乙卷)某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率.甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为x i ,y i (i =1,2,…,10).试验结果如下:试验序号i 12345678910伸缩率x i545533551522575544541568596548伸缩率y i536527543530560533522550576536记z i =x i -y i (i =1,2,…,10),z 1,z 2,…,z 10的样本平均数为z -,样本方差为s 2.(1)求z -,s 2;(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果z -≥2s 210,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高).解(1)x -=110×(545+533+551+522+575+544+541+568+596+548)=552.3,y -=110×(536+527+543+530+560+533+522+550+576+536)=541.3,z -=x --y -=552.3-541.3=11,z i =x i -y i 的值分别为9,6,8,-8,15,11,19,18,20,12,故s 2=110×[(9-11)2+(6-11)2+(8-11)2+(-8-11)2+(15-11)2+(11-11)2+(19-11)2+(18-11)2+(20-11)2+(12-11)2]=61.(2)由(1)知,z -=11,2s 210=2 6.1=24.4,故有z -≥2s 210,所以认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.考点四分层随机抽样的均值与方差例4为调查某地区中学生每天的睡眠时间,采用样本量比例分配的分层随机抽样,现抽取初中生800人,其每天睡眠时间的均值为9小时,方差为0.5,抽取高中生1200人,其每天睡眠时间的均值为8小时,方差为1,则估计该地区中学生每天睡眠时间的方差为________.答案 1.04解析该地区中学生每天睡眠时间的平均数为8001200+800×9+12001200+800×8=8.4(小时),该地区中学生每天睡眠时间的方差为8001200+800×[0.5+(9-8.4)2]+12001200+800×[1+(8-8.4)2]=1.04.【通性通法】在分层随机抽样中,如果第一层的样本量为m ,平均值为x -,方差为s 21;第二层的样本量为n ,平均值为y -,方差为s 22,则样本的平均值为w -=m x -+n y -m +n,样本的方差为s 2=1m +n {m [s 21+(x --w -)2]+n [s 22+(y --w -)2]}.特别地,在比例分配的分层随机抽样中,我们可以直接用样本平均数w -估计总体平均数W -,用样本方差s 2估计总体方差S 2.【巩固迁移】5.(2023·安徽宣城模拟)某学校有男生400人,女生600人,为调查该校全体学生每天运动时间的情况,按照男女比例通过分层随机抽样的方法取到一个样本,样本中男生每天运动时间的平均值为80分钟,方差为10,女生每天运动时间的平均值为60分钟,方差为20.结合数据,估计该校全体学生每天运动时间的方差为()A .15B .16C .96D .112答案D解析由题意,用比例分配的分层随机抽样的方式抽取样本,且该样本中男、女生的比为400600=23,不妨设抽取的男、女生人数分别为2n ,3n ,那么样本的总数为5n .则所有样本的平均值为15n ×(80×2n +60×3n )=68,方差为2n 5n ×[10+(80-68)2]+3n5n×[20+(60-68)2]=112.故选D.6.为了了解全区科级干部“党风廉政知识”的学习情况,采用比例分配的分层随机抽样方法,从全区320名正科级干部和1280名副科级干部中抽取40名科级干部预测全区科级干部“党风廉政知识”的学习情况.现将这40名科级干部分为正科级干部组和副科级干部组,利用同一份试卷分别进行测试.经过测试后,两组各自将测试成绩统计分析如下表:分组人数平均成绩正科级干部组a 80副科级干部组b70则40名科级干部测试成绩的平均分x -=________.答案72解析样本量与总体中的个体数的比为40320+1280=140,则抽取的正科级干部人数a =320×140=8,副科级干部人数b =1280×140=32.所以这40名科级干部测试成绩的平均分x -=80×8+70×3240=72.课时作业一、单项选择题1.(2023·天津河西区三模)学校组织班级知识竞赛,某班的12名学生的成绩(单位:分)分别是58,67,73,74,76,82,82,87,90,92,93,98,则这12名学生成绩的第三四分位数是()A .88分B .89分C .90分D .91分答案D解析12名学生的成绩(单位:分)由小到大排列为58,67,73,74,76,82,82,87,90,92,93,98,∵12×75%=9,∴这12名学生成绩的第三四分位数是90+922=91(分).2.(2024·重庆南开中学月考)为了解某高中学生的身高情况,按年级采用比例分配的分层随机抽样的方法抽取样本,抽到高一、高二、高三年级的学生人数分别为100,200,300,样本中高一、高二、高三这三个年级学生的平均身高分别为x -,y -,z -,则估计该高中学生的平均身高为()A .16x -+13y -+12z-B .x -+y -+z -2C .12x -+13y -+16z-D .x -+y -+z -3答案A解析样本量为100+200+300=600,样本平均数为100600x -+200600y -+300600z -=16x -+13y -+12z -,所以估计该高中学生的平均身高为16x -+13y -+12z -.3.(2022·全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:则()A .讲座前问卷答题的正确率的中位数小于70%B .讲座后问卷答题的正确率的平均数大于85%C .讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差D .讲座后问卷答题的正确率的极差大于讲座前正确率的极差答案B解析讲座前问卷答题的正确率的中位数为70%+75%2=72.5%>70%,故A 错误;讲座后问卷答题的正确率只有一个是80%,4个是85%,剩下的全部大于等于90%,所以讲座后问卷答题的正确率的平均数大于85%,故B 正确;讲座前问卷答题的正确率更加分散,所以讲座前问卷答题的正确率的标准差大于讲座后正确率的标准差,故C 错误;讲座后问卷答题的正确率的极差为100%-80%=20%,讲座前问卷答题的正确率的极差为95%-60%=35%>20%,故D 错误.故选B.4.给定一组数据5,5,4,3,3,3,2,2,2,1,则这组数据()A .众数为2B .平均数为2.5C .方差为1.6D .标准差为4答案C解析由题中数据可得,众数为2和3,故A 错误;平均数x -=5+5+…+2+110=3,故B错误;方差s 2=(5-3)2+(5-3)2+…+(2-3)2+(1-3)210=1.6,标准差为 1.6≠4,故C 正确,D 错误.5.(2023·河北唐山一中模拟)对某种电子元件使用寿命跟踪调查,所得样本的频率分布直方图如图.由图可知,这一批电子元件使用寿命的85%分位数为()A .500hB .450hC .350hD .550h答案A解析电子元件寿命小于500h 的百分比为+32000+1400+85%,则这批电子元件使用寿命的85%分位数为500h .故选A .6.某市教育部门组织高中教师在暑假期间进行培训,培训后统一举行测试.随机抽取100名教师的测试成绩(单位:分,满分100分)进行统计,得到如图所示的频率分布折线图,则下列说法正确的是()A .这100名教师的测试成绩的极差是20分B .这100名教师的测试成绩的众数是90分C .这100名教师的测试成绩的中位数是87.5分D .这100名教师中测试成绩不低于90分的人数占比超过50%答案C解析对于A ,由题意知,这100名教师的测试成绩的最高分与最低分无法确定,故极差无法确定,故A 错误;对于B ,由题图易知这100名教师的测试成绩的众数为87.5分,故B 错误;对于C ,设这100名教师的测试成绩的中位数为x 分,则(0.02+0.04)×5+(x -85)×0.08=0.5,解得x =87.5,故C 正确;对于D ,这100名教师中测试成绩不低于90分的人数占比为(0.03+0.03)×5×100%=30%,30%<50%,故D 错误.故选C.7.已知两组数据x 1,x 2,x 3,x 4,x 5和y 1,y 2,y 3,y 4,y 5的中位数、方差均相同,则两组数据合并为一组数据后,()A .中位数一定不变,方差可能变大B .中位数一定不变,方差可能变小C .中位数可能改变,方差可能变大D .中位数可能改变,方差可能变小答案A解析不妨设x 1≤x 2≤x 3≤x 4≤x 5,y 1≤y 2≤y 3≤y 4≤y 5,则两组数据x 1,x 2,x 3,x 4,x 5和y 1,y 2,y 3,y 4,y 5的中位数分别为x 3,y 3,则x 3=y 3,两组数据合并为一组数据后,中位数为x 3+y 32=x 3=y 3,故中位数一定不变,设x 1,x 2,x 3,x 4,x 5的平均数为x -,方差为s 21,y 1,y 2,y 3,y 4,y 5的平均数为y -,方差为s 21,则∑5i =1x i =5x -,∑5i =1x 2i =5(s 21+x -2),∑5i =1y i =5y -,∑5i =1y 2i =5(s 21+y -2),则两组数据合并为一组数据后的平均数z -=110(∑5i =1x i +∑5i =1y i )=110(5x -+5y -)=x -+y -2,方差s 2=110[∑5i =1(x i -z -)2+∑5i =1(y i -z -)2]=110(∑5i =1x 2i +∑5i =1y 2i -10z -2)=110[5(s 21+x -2)+5(s 21+y -2)-10z -2]=s 21+x -2+y -22-z -2=s 21+x -2+y -22-=s 21+(x --y -)24≥s 21,当且仅当x -=y -时,等号成立,故方差可能变大,一定不会变小.故选A.8.某高校分配给某中学一个保送名额,该中学进行校内举荐评选,评选条件除了要求该生获得该校“三好学生”称号,还要求学生在近期连续3次大型考试中,每次考试的名次都在全校前5名(每次考试无并列名次).现有甲、乙、丙、丁四位同学都获得了“三好学生”称号,四位同学在近期连续3次大型考试名次的数据分别为甲同学:平均数为3,众数为2;乙同学:中位数为3,众数为3;丙同学:众数为3,方差小于3;丁同学:平均数为3,方差小于3.则一定符合推荐要求的同学是()A .甲和乙B .乙和丁C .丙和丁D .甲和丁答案D解析对于甲同学,平均数为3,众数为2,则3次考试的成绩的名次为2,2,5,满足要求;对于乙同学,中位数为3,众数为3,可举反例:3,3,6,不满足要求;对于丙同学,众数为3,方差小于3,可举特例:3,3,6,则平均数为4,方差s 2=13×[2×(3-4)2+(6-4)2]=2<3,不满足要求;对于丁同学,平均数为3,方差小于3,设丁同学3次考试的名次分别为x 1,x 2,x 3,若x 1,x 2,x 3中至少有一个大于等于6,则方差s 2=13[(x 1-3)2+(x 2-3)2+(x 3-3)2]>3,与已知条件矛盾,所以x 1,x 2,x 3均不大于5,满足要求.二、多项选择题9.(2024·重庆模拟)一组数据按从小到大的顺序排列为2,3,3,x ,7,10,若这组数据的平均数是中位数的54倍,则下列说法正确的是()A .x =4B .众数为3C .中位数为4D .方差为233答案BCD解析一组数据按从小到大的顺序排列为2,3,3,x ,7,10,∵这组数据的平均数是中位数的54倍,∴16×(2+3+3+x +7+10)=54×3+x 2,解得x =5,故A 错误;众数为3,故B 正确;中位数为3+52=4,故C 正确;平均数为16×(2+3+3+5+7+10)=5,方差为16×[(2-5)2+(3-5)2+(3-5)2+(5-5)2+(7-5)2+(10-5)2]=233,故D 正确.故选BCD.10.(2023·湖北武汉二中模拟)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则下列说法正确的是()A .甲的成绩的平均数等于乙的成绩的平均数B .甲的成绩的中位数等于乙的成绩的中位数C .甲的成绩的第80百分位数等于乙的成绩的第80百分位数D .甲的成绩的极差大于乙的成绩的极差答案AC解析由题图可得,甲的成绩的平均数为4+5+6+7+85=6,乙的成绩的平均数为3×5+6+95=6,A 正确;甲的成绩的中位数为6,乙的成绩的中位数为5,B 错误;甲的成绩的第80百分位数为7+82=7.5,乙的成绩的第80百分位数为6+92=7.5,所以二者相等,C 正确;甲的成绩的极差为8-4=4,乙的成绩的极差为9-5=4,D 错误.故选AC.三、填空题11.(2023·四川资阳中学第一次质量检测)某歌手电视大奖赛中,七位评委对某选手打出如下分数:7.9,8.1,8.4,8.5,8.5,8.7,9.9,则其第50百分位数为________.答案8.5解析由题意可知,共有7个数据并且已经按照从小到大的顺序排列,其第50百分位数即为这组数据的中位数,所以其第50百分位数是第4个数据,为8.5.12.(2024·江西八所重点中学联考)某工厂为了解产品的生产情况,随机抽取了50个样本,若样本数据x 1,x 2,…,x 50的方差为8,则数据3x 1-1,3x 2-1,…,3x 50-1的方差为________.答案72解析样本数据x 1,x 2,…,x 50的方差为8,所以数据3x 1-1,3x 2-1,…,3x 50-1的方差为32×8=72.13.若已知30个数x 1,x 2,…,x 30的平均数为6,方差为9;现从原30个数中剔除x 1,x 2,…,x 10这10个数,且剔除的这10个数的平均数为8,方差为5,则剩余的20个数x 11,x 12,…,x 30的方差为________.答案8解析由题意得x 1+x 2+…+x 30=6×30=180,x 21+x 22+…+x 230=9×30+30×62=1350,x 1+x 2+…+x 10=8×10=80,x 21+x 22+…+x 210=5×10+10×82=690,所以剩余的20个数的平均数为180-8020=5,x 211+x 212+…+x 230=1350-690=660,所以剩余的20个数的方差为660-20×2520=8.14.已知一个样本的样本量为10,平均数为15,方差为3,现从样本中去掉一个数据15,此时样本的平均数为x -,方差为s 2,则x -=________,s 2=________.答案15103解析设这10个数据为x 1,x 2,…,x 9,15,则x -=15×10-159=15.又s 2=(x 1-15)2+(x 2-15)2+…+(x 9-15)29,(x 1-15)2+(x 2-15)2+…+(x 9-15)2+(15-15)210=3,所以s 2=309=103.四、解答题15.(2023·哈尔滨九中三模)某经销商采购了一批水果,根据某些评价指标进行打分,现从中随机抽取20筐(每筐1kg),得分数据如下:17,23,29,31,34,40,46,50,51,51,58,62,62,68,71,78,79,80,85,95.根据以往的大数据认定:得分在区间(0,25],(25,50],(50,75],(75,100]内的分别对应四级、三级、二级、一级.(1)试求这20筐水果得分的平均数;(2)用样本估计总体,经销商参考以下两种销售方案进行销售:方案一:将得分的平均数换算为等级,按换算后的等级出售;方案二:分等级出售.不同等级水果的售价如下表所示:等级一级二级三级四级售价(万元/吨)21.81.41.2请从经销商的角度,根据售价分析采用哪种销售方案较好,并说明理由.解(1)这20筐水果得分的平均数为120×(17+23+29+31+34+40+46+50+51+51+58+62+62+68+71+78+79+80+85+95)=55.5.(2)方案一:由于得分的平均数55.5∈(50,75],所以可以估计这批水果的销售单价为1.8万元/吨.方案二:设这批水果售价的平均值为x -万元/吨,由已知数据得,得分在(0,25]内的有17,23,共2个,所以估计四级水果所占比例为110;得分在(25,50]内的有29,31,34,40,46,50,共6个,所以估计三级水果所占比例为310;得分在(50,75]内的有51,51,58,62,62,68,71,共7个,所以估计二级水果所占比例为720;得分在(75,100]内的有78,79,80,85,95,共5个,所以估计一级水果所占比例为14.则x -=2×14+1.8×720+1.4×310+1.2×110=1.67(万元/吨).所以从经销商的角度考虑,采用方案一的售价较高,所以采用方案一较好.16.电动摩托车的续航里程,是指电动摩托车在蓄电池满电量的情况下一次能行驶的最大距离,为了解A ,B 两个不同型号电动摩托车的续航里程,现从某卖场库存电动摩托车中随机抽取A ,B 两个型号的电动摩托车各5台,在相同条件下进行测试,统计结果如下:电动摩托车编号12345A 型续航里程(km)120125122124124B 型续航里程(km)118123127120a已知A ,B 两个型号被测试电动摩托车续航里程的平均值相等,(1)求a 的值;(2)小李需要购买一款电动摩托车,从中位数和方差相结合的角度,帮小李选择一款电动摩托车,并说明理由.解(1)因为A ,B 两个型号被测试电动摩托车续航里程的平均值相等,所以120+125+122+124+1245=118+123+127+120+a5,解得a =127.(2)A 型号被测试电动摩托车续航里程从小到大排列为120,122,124,124,125;B 型号被测试电动摩托车续航里程从小到大排列为118,120,123,127,127.所以A 型号被测试电动摩托车续航里程的中位数为124km ,B 型号被测试电动摩托车续航里程的中位数为123km ,即A 型号的中位数大于B 型号的中位数,A 型号被测试电动摩托车续航里程的平均数为x -A =120+125+122+124+1245=123,则A 型号被测试电动摩托车续航里程的方差为s 2A =(120-123)2+(125-123)2+(122-123)2+2×(124-123)25=165,B 型号被测试电动摩托车续航里程的方差为s 2B =(118-123)2+(123-123)2+(120-123)2+2×(127-123)25=665,所以B 型号的方差大于A 型号的方差,所以B 型号被测试电动摩托车续航里程数不稳定,波动比较大,而A 型号的中位数大于B 型号的中位数,所以小李应选择A 型号电动摩托车.17.(多选)(2024·重庆诊断)为了解市民对亚运会体育节目收视情况,随机抽取了200名观众进行调查,其中女性占40%.根据调查结果分别绘制出男、女观众收看亚运会系列节目时长的频率分布直方图,则下列说法正确的是()A .m =0.1B .男观众收看节目时长的众数为8小时C .女观众收看节目的平均时长小于男观众收看节目的平均时长D .收看节目达到9小时的观众中女性人数是男性人数的13答案ABC解析由男观众收看亚运会系列节目时长的频率分布直方图,得(0.050+0.075×2+0.200+m )×2=1,解得m =0.1,故A 正确;由男观众收看亚运会系列节目时长的频率分布直方图,得男观众收看节目时长的众数为7+92=8小时,故B 正确;女观众收看节目的平均时长为(4×0.1+6×0.2+8×0.15+10×0.05)×2=6.6(小时),男观众收看节目的平均时长为(4×0.05+6×0.075+8×0.2+10×0.1+12×0.075)×2=8.3(小时),女观众收看节目的平均时长小于男观众收看节目的平均时长,故C 正确;收看节目达到9小时的观众中,女性人数为200×40%×0.05×2=8,男性人数为200×60%×0.175×2=42,故D 错误.18.(多选)(2023·湖北武汉调研)某市今年夏天迎来罕见的高温炎热天气,当地气象部门统计。
2024届高考数学一轮总复习第八章统计与统计分析第二讲用样本估计总体课件
2.(多选题)(2021 年全国Ⅰ)有一组样本数据x1,x2,…,xn, 由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1, 2,…,n),c 为非零常数,则( )
A.两组样本数据的样本平均数相同 B.两组样本数据的样本中位数相同 C.两组样本数据的样本标准差相同 D.两组样本数据的样本极差相同
A.12,16
B.12,18 C.14,16
D.14,18
解析:根据题意,甲组 8 个数据为 9,16,25,18,24,x, 27,24,若其 25%分位数为 14,8×25%=2,则有 9<x<16 且 12(x+16)=14,解得 x=12,对于乙组数据 8,17,y,13,24,28, 20,22,若其平均数为 18.5,则有18(8+17+y+13+24+28+ 20+22)=18.5,解得 y=16,故选 A.
图 8-2-3
A.8
B.12
C.16
D.18
解析:志愿者的总人数为(0.24+200.16)×1 =50,∴第 3 组的人 数为 50×0.36=18,有疗效的人数为 18-6=12(人).故选 B.
答案:B
考点二 总体集中趋势的估计 1.(2023 年南开区校级月考)已知一组数据的频率分布直方图
答案:AC
【题后反思】 (1)求平均数时要注意数据的个数,不要重计或漏计. (2)求中位数时一定要先对数据按大小排序,若最中间有两个 数据,则中位数是这两个数据的平均数. (3)若有两个或两个以上的数据出现得最多,且出现的次数一 样,则这些数据都叫众数;若一组数据中每个数据出现的次数一 样多,则没有众数.
第二讲 用样本估计总体
课标要求
考情分析
1.能用样本估计总体的集中趋势参数(平均数、 中位数、众数),理解集中趋势参数的统计含 义. 2.能用样本估计总体的离散程度参数(标准差、 方差、极差),理解离散程度参数的统计含义. 3.能用样本估计总体的取值规律,能用样本估 计百分位数,理解百分位数的统计含义
高考数学讲义2用样本估计总体
平均数 x =87+89+90+91+92+93+94+96=91.5. 8
4.如图是 100 位居民月均用水量的频率分布直方图,则月均用水量为[2,2.5)范围内的居民有
______人.
答案 25 解析 0.5×0.5×100=25.
题组三 易错自纠 5.若数据 x1,x2,x3,…,xn 的平均数 x =5,方差 s2=2,则数据 3x1+1,3x2+1,3x3+1,…, 3xn+1 的平均数和方差分别为( ) A.5,2 B.16,2 C.16,18 D.16,9 答案 C 解析 ∵x1,x2,x3,…,xn 的平均数为 5, ∴x1+x2+x3+…+xn=5,
n ∴3x1+3x2+3x3+…+3xn+1=3×5+1=16,
n ∵x1,x2,x3,…,xn 的方差为 2, ∴3x1+1,3x2+1,3x3+1,…,3xn+1 的方差是 32×2=18. 6.为了普及环保知识,增强环保意识,某大学随机抽取 30 名学生参加环保知识测试,得分(十 分制)如图所示,假设得分的中位数为 m,众数为 n,平均数为 x ,则 m,n, x 的大小关系 为________.(用“<”连接)
命题点 1 扇形图 例 1 (2018·全国Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为
4.会用样本的频率分布估计总体分布,会用样本的基本数字特 解答题时经常与概率相结
征估计总体的基本数字特征,理解用样本估计总体的思想. 5.会用随机抽样的基本方法和样本估计总体的思想解决一些 简单的实际问题.
合,难度为中低档.
1.作频率分布直方图的步骤 (1)计算极差(即一组数据中最大值与最小值的差). (2)决定组数与组距. (3)决定分点. (4)列频率分布表. (5)绘制频率分布直方图. 2.频率分布折线图和总体密度曲线 (1)频率分布折线图:把频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率 分布折线图. (2)总体密度曲线:设想如果样本容量不断增大,分组的组距不断缩小,则频率分布直方图实 际上越来越接近于总体的分布,它可以用一条光滑曲线 y=f(x)来描绘,这条光滑曲线就叫做 总体密度曲线. 3.茎叶图 统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶就是从茎的旁边 生长出来的数.
高考数学一轮复习 第九章 第二节 用样本估计总体课件 理 新人教版
3.方差与原始数据的单位不同,且平方后可能夸大了偏差
的程度,虽然方差与标准差在刻画样本数据的分散程度上 是一样的,但在解决实际问题时,一般多采用标准差.
[互动探究] 在本例条件下估计样本数据的众数.
解析 众数应为最高矩形的中点对应的横坐标,故约为65.
[规律方法] 解决频率分布直方图问题时要抓住 (1)直方图中各小长方形的面积之和为 1. 频率 频率 (2)直方图中纵轴表示 ,故每组样本的频率为组距× ,即 组距 组距 矩形的面积. (3)直方图中每组样本的频数为频率×总体数.
2. (教材习题改编)把样本容量为 20 的数据分组, 分组区间与频数 如下:[10,20),2;[20,30),3;[30,40),4;[40,50),5; [50,60),4;[60,70],2,则在区间[10,50)上的数据的频率 是 ( A.0.05 C.0.5 B.0.25 D.0.7 )
三、样本的数字特征 数字特征 众数 定 义 在一组数据中,出现次数 最多 做这组数据的众数. 的数据叫
将一组数据按大小依次排列,把处在
中位数 最中间 位置的一个数据(或最中间两个数 据的 平均数 )叫做这组数据的中位数. 在频率
分布直方图中,中位数左边和右边的直方图 的面积 相等 .
样本数据的算术平均数.即 平均数 1 x = (x1+x2+…+xn). n 1 s = [(x1- x )2+(x2- x )2+…+(xn- x )2] . n
0.04)×10=1,解得a=0.005. (2) 由频率分布直方图知这 100 名学生语文成绩的平均分为
适用于新教材2024版高考数学一轮总复习:用样本估计总体课件北师大版
∑ xi,s12
=1
=
则① =
②s
+
=
1 m
∑ (xi-)2,
m i=1
+
+
1
= + {m[12 +(
2
=
1
∑ yiyi-)2.
=1
;
− )2]+n[22 +( − )2]}.
常用结论
1.在频率分布直方图中:
考向1中位数、众数、平均数
题组(1)(多选)(2022·重庆三模)已知一组样本数据:4,4,5,7,7,7,8,9,9,10.关于
这组样本数据,结论正确的是(
A.平均数为8
B.众数为7
C.极差为6
D.中位数为8
)
(2)(多选)(2022·广东茂名二模)小李上班可以选择公交车、自行车两种交
通工具,他分别记录了100次坐公交车和100次骑车所用时间(单位:分钟),得
3.一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.( × )
4.在频率分布直方图中,最高的小长方形底边中点的横坐标可作为众数的
估计值.( √ )
题组二 双基自测
5. (2023·云南昆明高三检测)为了解某种作物的生长情况,抽取该作物植株
高度(单位:cm)的一个随机样本,整理得到样本频率分布直方图如图所示.
x 1 +x 2 +…+x n
n
3.总体离散程度的估计
(1)假设一组数据是x1,x2,…,xn,用表示这组数据的平均数,那么这n个数的
①标准差
s=
1
[(1 -)2
+ (2 -)2 + … + ( -)2 ].
高考数学总复习 第10章 第2节 用样本估计总体课件 新人教A版
2
②数据x1+a,x2+a,…,xn+a的方差也为s2; ③数据ax1,ax2,…,axn的方差为a2s2.
(12 分 )(2011 辽宁高考 ) 某农场计划种植某种新作物,
为此对这种作物的两个品种(分别称为品种甲和品种乙)进行田
间试验.选取两个块地,每大块地分成n小块地,在总共2n小 块地中,随机选n小块地种植品种甲,另外n小块地种植品种 乙. (1)假设n=2,求第一大块地都种植品种甲的概率;
13 14 ;处于优或良的天数共有28天,占当月天数的 .说明该 15 15 市空气质量基本良好. 1 (ⅱ)轻微污染有2天,占当月天数的 .污染指数在80以 15 上的接近轻微污染的天数有15天,加上处于轻微污染的天 17 数,共有17天,占当月天数的 ,超过50%.说明该市空气 30 质量有待进一步改善.
越接近于一条光滑曲线,即总体密度曲线.
三、样本的数字特征 数字特征 众数 定义 在一组数据中,出现次数 最多 的数 据叫做这组数据的众数. 将一组数据按大小依次排列,把处在 最中间 位置的一个数据(或最中 间两个数据的平均数)叫做这组数据 的 中位数 . 在频率分布直方图中,中位数左边和 右边的直方图的面积应该 相等 .
率之和为 1 ,故第 6 小组的频率为 1 - (0.04 + 0.10 + 0.14 + 0.28 +0.30)=0.14. 易知第6小组与第3小组的频率相等,故两个小长方形等 高,图略.
高考数学第一轮章节复习课件 第二节 用样本估计总体
1.本例条件不变,现欲从参加铅球测试的学生中抽取10 人,调查他们铅球状况,则成绩在[8.85,9.75]的学生 应抽取几人?
2.平均数、方差的公式推广 (1)若数据x1,x2,…,xn的平均数为 ,那么mx1+a, mx2+a,mx3+a,…,mxn+a的平均数是m +a. (2)数据x1,x2,…,xn的方差为s2. ①s2= ②数据x1+a,x2+a,…,xn+a的方差也为s2; ③数据ax1,ax2,…,axn的方差为a2s2.
4.如图是某兴趣小组学生在一次数学测验中 的得分茎叶图,则该组男生的平均得分与 女生的平均得分之差是________.
解析:男生的平均得分为78.7, 女生的平均得分为77.2得分之 差为1.5. 答案:1.5
5.甲、乙两人比赛射击,两人所得的平均环数相同,其 中甲所得环数的方差为5,乙所得环数如下:5,6,9,10,5, 那么这两人中成绩较稳定的是________. 解析: [(5-7)2+(6-7)2+(9-7)2+(10-7)2+(5-7)2] 1 =×5 (4+1+4+9+4)=4.4.
解:可从以下几个结论中任意写出两个. ①乙品种棉花的纤维平均长度大于甲品种棉花的纤维平均 长度(或:乙品种棉花的纤维长度普遍大于甲品种棉花的 纤维长度). ②甲品种棉花的纤维长度较乙品种棉花的纤维长度更分 散.(或:乙品种棉花的纤维长度较甲品种棉花的纤维长 度更集中(稳定).甲品种棉花的纤维长度的分散程度比乙 品种棉花的纤维长度的分散程度更大).
[(10-13)2+(13-13)2+(12-13)2+(14-13)2+ (16-13)2]=4,
《高考导航》新课标数学(理)一轮复习课件 第十章 第2讲 用样本估计总体
分组 [0,2) [2,4) [4,6) [6,8) [8,10) [10,12) [12,14) [14,16) [16,18)
频数 6 8 17 22 25 12 6 2 2
合计
100
①从该校随机选取一名学生,试估计这名学生该周课外阅读 时间少于 12 小时的概率; ②求频率分布直方图中的 a,b 的值; ③假设同一组中的每个数据可用该组区间的中点值代替,试 估计样本中的 100 名学生该周课外阅读时间的平均数在第几 组.(只需写出结论)
数的平均数.
(4)标准差与方差:设一组数据 x1,x2,x3,…,xn 的平均数
为 x,则这组数据的标准差和方差分别是
s=
n1[(x1- x )2+(x2- x )2+…+(xn- x )2]
s2=n1[(x1- x )2+(x2- x )2+…+(xn- x )2]
[做一做]
1.(2014·高考四川卷)在“世界读书日”前夕,为了了解某地
成绩(单位:分).已知甲组数据的中位数为 15,乙组数据的
平均数为 16.8,则 x,y 的值分别为( C )
A.2,5
B.5,5
C.5,8
D.8,8
解析:(1)甲、乙两班成绩按大小顺序排列,处在最中间的数 分别为 87、89,故它们之差的绝对值是 2. (2)由于甲组数据的中位数为 15=10+x,∴x=5. 又乙组数据的平均数为9+15+(10+5 y)+18+24=16.8, ∴y=8.∴x,y 的值分别为 5,8.
第十章 统计、统计案例及算法初步
第2讲 用样本估计总体
1.统计图表的含义 (1)频率分布表 ①含义:把反映总体频率分布的表格称为频率分布表. ②频率分布表的画法步骤:
2020与名师对话(理)用样本估计总体
第二节用样本估计总体高考概览:1.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解他们各自的特点;2.理解样本数据标准差的意义和作用,会计算数据标准差;3.能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释;4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想;5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.[知识梳理]1.频率分布直方图和茎叶图(1)作频率分布直方图的步骤①求极差(即一组数据中最大值与最小值的差).②决定组距和组数.③将数据分组.④列频率分布表.⑤画频率分布直方图.(2)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(3)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.(4)茎叶图的画法步骤第一步:将每个数据分为茎(高位)和叶(低位)两部分;第二步:将最小茎与最大茎之间的数按大小次序排成一列,写在分界线左(右)侧;有两组数据时,写在中间;第三步:将各个数据的叶依次写在其茎的右(左)侧.2.样本的数字特征(1)众数、中位数、平均数(2)标准差、方差①标准差:样本数据到平均数的一种平均距离,一般用s表示,s=1n[(x1-x-)2+(x2-x-)2+…+(x n-x)2].②方差:标准差的平方s2s2=1n[(x1-x)2+(x2-x)2+…+(x n-x)2],其中x i(i=1,2,3,…,n)是样本数据,n是样本容量,x是样本平均数.[辨识巧记]1.频率分布直方图中的三个结论(1)众数的估计值为最高矩形的中点对应的横坐标.(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.2.平均数、方差的公式推广(1)若数据x1,x2,…,x n的平均数为x-,则mx1+a,mx2+a,mx3+a,…,mx n+a的平均数是m x-+A.(2)若数据x1,x2,…,x n的方差为s2,则数据ax1+b,ax2+b,…,ax n+b的方差为a2s2.[双基自测]1.判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.()(2)一组数据的方差越大,说明这组数据越集中.()(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越大.()(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.()[答案](1)√(2)×(3)√(4)×2.在如图所示的茎叶图所示的数据中,众数和中位数分别是()A.23,26B.31,26C.24,30D.26,30[解析]由茎叶图得到所有的数据从小到大排列依次为12,14,20,23,25,26,30,31,31,41,42,∴众数和中位数分别为31,26.故选B.[答案] B3.(必修3P81A组T2改编)学校为了解学生在课外读物方面的支出情况,抽取了n位同学进行调查,结果显示这些同学的支出都在[10,50](单位:元)之间,其频率分布直方图如图所示,其中支出在[10,30)(单位:元)内的同学有33人,则支出在[40,50](单位:元)内的同学人数为()A .100B .120C .30D .300[解析] 支出[10,30)的同学所占的频率为(0.01+0.023)×10=0.33,所以n =330.33=100.支出在[40,50)的同学所占的频率为1-(0.01+0.023+0.037)×10=0.3,故支出在[40,50)的同学人数是100×0.3=30,故选C .[答案] C4.(2019·贵州黔东期末)已知样本数据3,5,7,4,6,则该样本标准差为( )A .1B . 2C . 3D .2[解析] 数据3,5,7,4,6的平均数为x -=15×(3+5+7+4+6)=5,方差为s 2=15×[(3-5)2+(5-5)2+(7-5)2+(4-5)2+(6-5)2]=2,∴标准差为 2.故选B .[答案] B5.如图所示是一个容量为100的样本的重量频率分布直方图,则由图可估计样本重量的中位数为________.[解析]∵0.06×5=0.3<0.5,0.3+0.1×5>0.5,∴令0.3+0.1×x =0.5,解得x=2,∴中位数是10+2=12.[答案]12【例1】(2018·全国卷Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:未使用节水龙头50天的日用水量频数分布表使用了节水龙头50天的日用水量频数分布表(1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图;(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表.) [解](1)如图:(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后日用水量小于0.35 m3的概率的估计值为0.48.(3)该家庭未使用节水龙头50天日用水量的平均数为x1=150(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48(m3).该家庭使用了节水龙头后50天日用水量的平均数为x2=150(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35(m3).估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).频率分布直方图的应用要点(1)解决频率分布直方图的问题,关键在于找出图中数据之间的联系.这些数据中,直接的有组距、频率组距,间接的有频率、小长方形的面积,合理使用这些数据,再结合两个等量关系:小长方形面积=组距×频率组距=频率,小长方形面积之和等于1,即频率之和等于1,就可以解决直方图的有关问题.(2)画频率分布直方图时,注意纵轴表示的不是频率,而是频率与组距之比.[对点训练](2019·湖北武汉武昌元月调考)我国是世界上严重缺水的国家,城市缺水问题较为突出.某市政府为了鼓励居民节约用水,计划在本市试行居民生活用水定额管理制度,即确定一个合理的居民月用水量标准x (吨),用水量不超过x 的部分按平价收费,超出x 的部分按议价收费.为了了解全市居民用水量的分布情况,通过抽样,获得了某年100位居民的月均用水量(单位:吨),将数据按照[0,0.5],(0.5,1],…,(4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求a 的值;(2)若该市政府希望使85%的居民每月的用水量不超过标准x (吨),估计x 的量;(3)已知平价收费标准为4元/吨,议价收费标准为8元/吨.当x =3时,估计该市居民的月平均水费.(同一组中的数据用该组区间的中点值代替)[解] (1)由(0.08+0.16+a +0.40+0.52+a +0.12+0.08+0.04)×0.5=1,解得a =0.30.(2)∵前6组的频率之和是(0.08+0.16+0.30+0.40+0.52+0.30)×0.5=0.88>0.85,前5组的频率之和为(0.08+0.16+0.30+0.40+0.52)×0.5=0.73<0.85,∴2.5≤x <3,由0.3×(x -2.5)=0.85-0.73,解得x =2.9.(3)设该市居民月均用水量为t 吨,相应的水费为y 元,则y =⎩⎨⎧ 4t ,0≤t ≤3,3×4+(t -3)×8,3<t ≤4.5,即y =⎩⎨⎧ 4t ,0≤t ≤3,8t -12,3<t ≤4.5.由题设条件及月均用水量的频率分布直方图,得居民每月的水费数据分组与频率分布表如下:1×0.04+3×0.08+5×0.15+7×0.20+9×0.26+11×0.15+14×0.06+18×0.04+22×0.02=8.42(元).考点二 茎叶图【例2】 某良种培育基地正在培育一小麦新品种A ,将其与原有的一个优良品种B 进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下.品种A :357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种B :363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430(1)作出数据的茎叶图;(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A 与B 的亩产量及其稳定性进行比较,写出统计结论.[思路引导] 题目中数据是三位整数→选择百位和十位为茎,绘制茎叶图→得出茎叶图处理数据的优点→从亩产平均数及标准差(或方差)比较A 与B 的亩产量及其稳定性[解] (1)画出茎叶图如图所示:(2)由于每个品种的数据都只有25个,样本容量不大,画茎叶图很方便;此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息损失,而且可以随时记录新的数据.(3)通过观察茎叶图可以看出:①品种A 的亩产平均数(或均值)比品种B 高;②品种A 的亩产标准差(或方差)比品种B 大,故品种A 的亩产稳定性较差.茎叶图的应用要点(1)茎叶图的绘制需注意两点:一是“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;二是重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.(2)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据,通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.[对点训练]美国NBA 篮球赛中甲、乙两篮球运动员上赛季某些场次比赛的得分如下:甲:12,15,24,25,31,31,36,36,37,39,44,49.乙:8,13,14,16,21,23,24,26,28,33,38,39.(1)画出两组数据的茎叶图;(2)试比较这两位运动员的得分水平.[解] (1)为便于对比分析,可将茎放在中间共用,叶分列左、右两侧.如图.(2)从这个茎叶图可以看出,甲运动员的得分大致对称,有12的叶集中分布在茎3上,平均得分及中位数都是30多分.乙运动员的得分也大致对称,有512的叶集中分布在茎2上,平均得分及中位数都是20多分.因此甲运动员发挥比较稳定,总体得分情况比乙好.考点三用样本的数字特征估计总体的数字特征【例3】(1)(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半(2)(2019·江西南昌调研)央视科教频道的以诗词知识竞赛为主的《中国诗词大会》火爆荧屏,如图所示的茎叶图是两位选手在个人追逐赛中的比赛得分,则下列说法正确的是()A.甲的平均数大于乙的平均数B.甲的中位数大于乙的中位数C.甲的方差大于乙的方差D.甲的平均数等于乙的中位数[解析](1)设新农村建设前经济收入的总量为x,则新农村建设后经济收入的总量为2x.建设前种植收入为0.6x,建设后种植收入为0.74x,故A不正确;建设前其他收入为0.04x,建设后其他收入为0.1x,故B正确;建设前养殖收入为0.3x,建设后养殖收入为0.6x,故C正确;建设后养殖收入与第三产业收入的总和占建设后经济收入总量的58%,故D正确.故选A.(2)由茎叶图,知x-甲=19×(59+45+32+38+24+26+11+12+14)=29,x-乙=19×(51+43+30+34+20+25+27+28+12)=30,s2甲=19×[302+162+32+92+(-5)2+(-3)2+(-18)2+(-17)2+(-15)2]≈235.3,s2乙=19×[212+132+02+42+(-10)2+(-5)2+(-3)2+(-2)2+(-18)2]≈120.9,所以甲的平均数小于乙的平均数,甲的方差大于乙的方差.因为甲的中位数为26,乙的中位数为28,所以甲的中位数小于乙的中位数.故选C.[答案](1)A(2)C用样本的数字特征估计总体的数字特征的应用要点(1)平均数、中位数、众数与方差、标准差都是重要的数字特征,利用它们可对总体进行一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数可描述总体的集中趋势,方差和标准差可描述波动大小.(2)用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.当所得数据平均数不相等时,需先分析平均水平,再计算标准差(方差)分析稳定情况.[对点训练]甲乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图.(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价.[解](1)由图象可得甲、乙两人五次测试的成绩分别为甲:10分,13分,12分,14分,16分;乙:13分,14分,12分,12分,14分.x甲=10+13+12+14+165=13,x乙=13+14+12+12+145=13,s2甲=15[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,s2乙=15[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.(2)由s2甲>s2乙可知乙的成绩较稳定.从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.课后跟踪训练(六十七)基础巩固练一、选择题1.(2019·贵阳市高三监测考虑)在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为5组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是40,则成绩在80~100分的学生人数是( )A .15B .18C .20D .25[解析] 根据频率分布直方图,得第二小组的频率是0.04×10=0.4,因为频数是40,所以样本容量是400.4=100,又成绩在80~100分的频率是(0.01+0.005)×10=0.15,所以成绩在80~100分的学生人数是100×0.15=15.故选A .[答案] A2.(2019·济南市高考模拟)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x -,方差为s 2,则( )A .x -=4,s 2<2B .x -=4,s 2>2C .x ->4,s 2<2D .x ->4,s 2>2[解析]设原来的7个数分别是x1,x2,…,x7,加入一个新数据4之后的平均数为7×4+48=4,则这8个数的方差s2=(x1-4)2+(x2-4)2+…+(x7-4)2+(4-4)28=7×2+(4-4)28<2,所以x-=4,s2<2.故选A.[答案] A3.(2019·贵阳市高三第一次适应性考试)贵阳地铁1号线12月28日开通运营,某辆机车某时刻从下麦西站驶往贵阳北站的过程中,10个车站上车的人数统计如下:70,60,60,50,60,40,40,30,30,10,则这组数据的众数、中位数、平均数的和为()A.170 B.165C.160 D.150[解析]将这组数据从小到大排列:10,30,30,40,40,50,60,60,60,70,易知其众数为60,中位数为45,平均数为45,故众数、中位数、平均数的和为150,故选D.[答案] D4.某工厂对一批新产品的长度(单位:mm)进行检测,如图是检测结果的频率分布直方图,据此估计这批产品长度的中位数为()A.20 B.25C.22.5 D.22.75[解析] 产品的中位数出现在概率是0.5的位置.自左至右各小矩形的面积依次为0.1,0.2,0.4,0.15,0.15,设中位数是x ,则由0.1+0.2+0.08·(x -20)=0.5得,x =22.5,故选C .[答案] C5.(2019·四川宜宾二诊)某生产车间的甲、乙两位工人生产同一种零件,这种零件的标准尺寸为85 mm ,现分别从他们生产的零件中各随机抽取8件检测,其尺寸用茎叶图表示如图(单位:mm),则估计( )A .甲、乙生产的零件尺寸的中位数相等B .甲、乙生产的零件质量相当C .甲生产的零件质量比乙生产的零件质量好D .乙生产的零件质量比甲生产的零件质量好[解析] 由题意得,甲的平均数x -1=93+89+88+85+84+82+79+788=84.75, 乙的平均数x -2=90+88+86+85+85+84+74+788=85,所以x -2>x -1,故选D .[答案] D二、填空题6.某校女子篮球队7名运动员身高(单位:cm)分布的茎叶图如图,已知记录的平均身高为175 cm ,但记录中有一名运动员身高的末位数字不清晰,如果把其末位数字记为x ,那么x 的值为________.[解析] 170+17×(1+2+x +4+5+10+11)=175,17×(33+x )=5,即33+x =35,解得x =2.[答案] 27.(2019·宜春调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为________.[解析] 全体志愿者共有:20(0.24+0.16)×1=50(人), 所以第三组有志愿者:0.36×1×50=18(人),∵第三组中没有疗效的有6人,∴有疗效的有18-6=12(人).[答案]128.若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为________.[解析]依题意,x1,x2,x3,…,x10的方差s2=64.则数据2x1-1,2x2-1,…,2x10-1的方差为22s2=22×64,所以其标准差为22×64=2×8=16.[答案]16三、解答题9.某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?[解](1)由(0.002+0.0095+0.011+0.0125+x+0.005+0.0025)×20=1得x=0.0075,∴直方图中x的值为0.0075.(2)月平均用电量的众数是220+2402=230. ∵(0.002+0.0095+0.011)×20=0.45<0.5,∴月平均用电量的中位数在[220,240)内,设中位数为a ,则(0.002+0.0095+0.011)×20+0.0125×(a -220)=0.5,解得a =224,即中位数为224.(3)月平均用电量在[220,240)的用户有0.0125×20×100=25(户),同理可求月平均用电量为[240,260),[260,280),[280,300]的用户分别为15户、10户、5户,故抽取比例为1125+15+10+5=15, ∴从月平均用电量在[220,240)的用户中应抽取25×15=5(户).10.某比赛现场,12名专业人士和12名观众代表分别组成评判小组A ,B ,给参赛选手打分,如图是两个评判组对同一选手打分的茎叶图:(1)求A 组数据的众数和极差,B 组数据的中位数;(2)对每一组计算用于衡量相似性的数值,回答:小组A 与小组B 哪一个更像是由专业人士组成的?并说明理由.[解] (1)由茎叶图可得:A 组数据的众数为47,极差为55-42=13;B 组数据的中位数为55+582=56.5.(2)小组A 更像是由专业人士组成的.理由如下:小组A ,B 数据的平均数分别为 x A =112×(42+42+44+45+46+47+47+47+49+50+50+55)=56412=47, x B =112×(36+42+46+47+49+55+58+62+66+68+70+73)=67212=56,所以小组A ,B 数据的方差分别为s 2A =112×[(42-47)2+(42-47)2+…+(55-47)2]=112×(25+25+9+4+1+4+9+9+64)=12.5,s 2B =112×[(36-56)2+(42-56)2+…+(73-56)2]=112×(400+196+100+81+49+1+4+36+100+144+196+289)=133.因为s 2A <s 2B ,所以小组A 的成员的相似程度高.由于专业裁判给分更符合专业规则,相似程度应该更高,因此小组A 更像是由专业人士组成的.能力提升练11.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳[解析]根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都是减少,所以A错误.故选A.[答案] A12.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则()A.甲的成绩的平均数小于乙的成绩的平均数B.甲的成绩的中位数等于乙的成绩的中位数C.甲的成绩的方差小于乙的成绩的方差D.甲的成绩的极差小于乙的成绩的极差[解析] 由题意可知,甲的成绩为4,5,6,7,8,乙的成绩为5,5,5,6,9.所以甲、乙的成绩的平均数均为6,A 错;甲、乙的成绩的中位数分别为6,5,B 错误;甲、乙的成绩的方差分别为15×[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=2,15×[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=125,C 对;甲、乙的成绩的极差均为4,D 错.故选C .[答案] C13.(2018·陕西汉中期末)某电子商务公司对10000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.(1)直方图中的a =________;(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.[解析] (1)由0.1×1.5+0.1×2.5+0.1a +0.1×2.0+0.1×0.8+0.1×0.2=1,解得a =3.(2)区间[0.3,0.5)内的频率为0.1×1.5+0.1×2.5=0.4,故[0.5,0.9]内的频率为1-0.4=0.6.因此,消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10000=6000.[答案](1)3(2)600014.从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(1)作出这些数据的频率分布直方图:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?[解](1)样本数据的频率分布直方图如图所示:(2)质量指标值的样本平均数为x-=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定.拓展延伸练15.如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现已知年龄在[30,35),[35,40),[40,45]的网民人数成递减的等差数列,则年龄在[35,40)的网民出现的频率为( )A .0.04B .0.06C .0.2D .0.3[解析] 由题意得,年龄在[20,25)的网民出现的频率为0.01×5=0.05,[25,30)的网民出现的频率为0.07×5=0.35,又[30,35),[35,40),[40,45]的网民人数成递减的等差数列,则其频率也成等差数列,又[30,45]的频率为1-0.05-0.35=0.6,则年龄在[35,40)的网民出现的频率为0.6÷3=0.2.故选C .[答案] C16.已知总体的各个个体的值由小到大依次为3,7,a ,b,17,20,且总体的中位数为12,若要使该总体的标准差最小,则a =________.[解析] 总体的中位数为a +b 2=12,即a +b =24,数据是从小到大排列的,7≤a ≤b ≤17,又总体的标准差最小,∴a =b =12.[答案] 12。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二节 用样本估计总体预习设计 基础备考知识梳理1.频率分布直方图(1)通常我们对总体作出的估计一般分成两种,一种是用 估计总体的分布,另一种是用 估计总体的数字特征.(2)在频率分布直方图中,纵轴表示 ,数据落在各小组内的频率用 表示.各小长方 形的面积总和2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的 ,就得到频率分布折线图.(2)总体密度曲线:随着 的增加,作图时 增加, 减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.3.茎叶图的优点用茎叶图表示数据有两个突出的优点: 一是从统计图上没有 的损失,所有的 都可以从茎叶图中得到; 二是茎叶图可以在比赛时 方便记录与表示.4.标准差和方差(1)标准差是样本数据到平均数的一种(2)标准差:=s(3)方差:=2sn x (是样本数据,砚是样本容量,x 是样本平均数). 5.利用频率分布直方图估计样本的数字特征(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积 ,由此可以估计中位数的值.(2抨均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的(3)众数:在频率分布直方图中,众数是最高的矩形的中点的典题热身1.已知一个样本中的数据为..0,15.0,13.0,15.0,12.0,14.0,13.0,16.0,15.0,17.0则该样本的众数、中位数分别是( )15.0,14.0.A 14.0,15.0.B 15.0,15.0.C 145.0,15.0.D答案:D2.已知一个样本中的数据为,5,4,3,2,1那么该样本的标准差为( )1.A2.B3.C 2.D答案:B3.(2011.潍坊模拟)甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如下图所示,若甲、乙两人的平均成绩分别,乙甲、X X 则下列结论正确的是 ( );.乙甲X X A < 乙比甲成绩稳定;.乙甲X X B >甲比乙成绩稳定乙甲X X C >.乙比甲成绩稳定;.乙甲X X D <甲比乙成绩稳定答案:A4.一个容量为32的样本,分成5组,已知第三组的频率为0.375,则另外四组的频数之和为 答案:205.为了了解某地区高三学生身体发育情况,抽查了该地区100名年龄在17.5岁~18岁的男生体重(kg),得到频率分布直方图如下图所示.则样本数据落在[62.5,64.5)内的频率是 .这100名学生的体重的众数是答案:14.0 5.65课堂设计 方法备考题型一 频率分布直方图的绘制与应用【倒1】为了解某校初中毕业男生的体能状况,从该校初中毕业班学生中抽取若干名男生进行铅球测试,把所得数据(精确到0.1 m)进行整理后,分成6组画出频率分布直方图的一部分(如下图),已知从左到右前5个小组的频率分别为0.04,0.10,0.14,0.28,0.30.第6小组的频数是7.(1)请将频率分布直方图补充完整,(3)若成绩在8.0 m 以上(含8.0 m)的为合格,试求这次铅球黼试的成绩的合格率.题型二 茎叶图的应用【例2】在某电脑杂志的一篇文章中,每个句子的字数如下:,15,25,14,27,36,19,20,24,26,15,18,27,23,17,3,28,101.17,27,24,11,22在某报纸的一篇文章中,每个句子中所含的字的个数如下:,22,13,27,41,36,12,35,27,33,41,32,19,28,24,33,39,27.22,32,46,18,23(1)将这两组数据用茎叶图表示;(2)将这两组数据进行比较分析,得到什么结论?题型三 用样本的数字特征估计总体的数字特征【例3】甲乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图.(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价,技法巧点(1)用样本频率分布来估计总体分布的重点是:频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布,难点是频率分布表和频率分布直方图的理解及应用,在计数和计算时一定要准确,在绘制小矩形时,宽窄要一致,通过频率分布表和频率分布直方图可以对总体作出估计.(2)几种表示频率分布的方法的优点与不足:①频率分布表在数量表示上比较确切,但不够直观、形象,分析数据分布的总体态势不太方便. ②频率分布直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到在分布表中看不清楚的数据模式,但从直方图本身得不出原始的数据内容,也就是说,把数据表示成直方图后,原有的具体数据信息就被抹掉了。
③频率分布折线图的优点是它反映了数据的变化趋势,如果样本容量不断增大,分组的组距不断缩小,那么折线图就趋向于总体分布的密度曲线.④用茎叶图优点是原有信息不会抹掉,能够展示数据的分布情况,但当样本数据较多或数据位数较多时,茎叶图显得不太方便了.(3)标准差、方差描述了一组数据围绕平均数波动的大小,标准差、方差越大,数据的离散程度越大,标准差、方差越小数据的离散程度越小,因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般多采用标准差失误防范不要把直方图错认为条形图,两者的区别在于条形图是离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,纵坐标刻度为频率/组距,这是密度.连续随机变量在某一点上是没有频率的.随堂反馈……….1.(2011.滨州模拟)在样本的频率分布直方图中,共有11个小长方形,若中间一个小长方形的面积等于其他10个小长方形的面积和的,41且样本容量为160,则中间一组的频数为 ( ) 32.A 2.0.B 40.C 25.0.D答案:A2.(2011.宁波联考)10名工人某天生产同一零件,生产的件数是,17,17,15,10,14,17,15,12,14,16设其平均数为a,中位数为b ,众数为c ,则有( )c b a A >>. a c b B >>. b a c C >>. a b c D >>.答案:D3.(2011.广州联考)为了了解高三学生的数学成绩,抽取了某班60名学生,将所得数据整理后,画出其频率分布直方图(如图).已知从左到右各长方形高的比为2:3:5:6:3;1,则该班学生数学成绩在(80,100)之间的学生人数是 ( )32.A 27.B 24.c 33.D答案:D4.(2011.浙江金华十校模拟)为了了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如下图,由于不慎将部分数据丢失,但知道后5组频数和为62,设视力在4.6到4.8之间的学生数为a ,最大频率为0.32,则a 的值为 ( )64.A 54.B 48.c 27.D答案:B5.(2010.广东高考)某市居民2005~2009年家庭年平均收入x(单位:万元)与年平均支出Y(单位:万元)根据统计资料,居民家庭年平均收入的中位数是 ,家庭年平均收入与年平均支出有 线性相关关系,答案:13 正高效作业 技能备考一、选择题1.(2011.重庆高考)从一堆苹果中任取10只,称得它们的质量如下(单位:克);13412095116114130105122120125、、、、、、、、、则样本数据落在[114.5,124.5)内的频率为 ( )2.0.A3.0.B4.0.c5.0.D答案;C2.(2011.江西高考)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为,e m 众数为,a m 平均值为,x 则( )x m m A a e ==. x m m B a e <=. x m m c a e <<. x m m D e a <<.答案.:D3.(2011.四川高考)有一个容量为66的样本,数据的分组及各组的频数如下:)5.15,5.11[ 2 )5.19,5.15[ 4 )5.23,5.19[ 9 )5.27,5.23[ 18)5.31,5.27[ 11 )5.35,5.31[ 12 )5.39,5.35[ 7 )5.43,5.39[ 3根据样本的频率分布估计,大于或等于31.5的数据约占( )112.A 31.B 21.c 32.D 答案:B100人成绩的标准差为 ( )3.A 5102.B 3.C 58.D 答案:B5.(2011.湖北高考)有一个容量为200的样本,其频率分布直方图如图所示.根据样本的频率分布直方图估计,样本数据落在区间[10,12)内的频数为 ( )18.A 36.B 54.c 72.D答案:B6.(2010.枣庄八中期中)某调查机构调查了某地100个新生婴儿的体重,并根据所得数据画出了样本的频率分布直方图(如图所示),则新生婴儿的体重(单位:kg)在[3.2,4.O )的人数是 ( )30.A 40.B 50.C 55.D答案:B二、填空题7.为了调查某厂工人生产某种产品的能力,随机抽查了20位工人某天生产该产品的数量,产品数量的分组区间为[45,55),fss ,65),[65,75),[75,85),[85,96),由此得到频率分布直方图如图所示,则这20名工人中一天生产该产品数量在[55,75)的人数是答案:138.已知总体的各个体的值由小到大依次为,12,,,7,3,3,2b a ,20,3.18,7.13且总体的中位数为10.5.若要使该总体的方差最小,则a 、b 的取值分别是答案:5.10,5.10==b a9.(2011.浙江高考)某中学为了解学生数学课程的学习情况,在3000名学生中随机抽取200名,并统计这200名生的某次数学考试成绩,得到了样本的频率分布直方图(如图).根据频率分布直方图推测,这3000名学生在该次数学考试中成绩小于60分的学生数是 .答案:600三、解答题10.(2011.衡阳调研)甲、乙两台机床同时生产一种零件,在10天中,两台机床每天出的次品数分别是:分别计算两个样本的平均数与方差,从计算结果看,哪台机床10天生产中出次品的平均数较小?出次品的波动较小?11. (2011.金华联考)下图是某市有关部门根据该市干部的月收入情况,作抽样调查后画出的样本频率分布直方图.已知图中第一组的频数为4000,请根据该图提供的信息解答下列问题:(图中每组包括左端,不包括右端点,如第一组表示收入在[1000,1500))(1)求样本中月收入在[2500,3500)的人数;(2)为了分析干部的收入与年龄、职业等方面的关系,必须从样本的各组中按月收入再分层抽样方法抽出100人作进一步分析,则月收入在[1500,2000)的这段应抽多少人?(3)试估计样本数据的中位数..12.(2011.课标全国卷)某种产品的质量以其质量指标值衡量,质量指标值越大表明质量越好,且质量指标值大于或等于102的产品为优质品,现用两种新配方(分别称为A 配方和B 配方)做试验,各生产了100件这种产品,并测量了每件产品的质量指标值,得到下面试验结果:B 配方的频数分布表(1)分别估计用A 配方,B 配方生产的产品的优质品率;(2)已知用B 配方生产的一件产品的利润y (单位:元)与其质量指标值t 的关系式为⎪⎩⎪⎨⎧≥<≤<-=.102,4,10294,294,2t t t y估计用B 配方生产的一件产品的利润大于0的概率,并求用B 配方生产的上述100件产品平均一件的利润.。