第二节 用样本估计总体
第2节用样本估计总体
法二 (数据分布法)从茎叶图看,从小到大看,甲的每个数据都比乙对应的 数据小,所以甲的平均数较小;甲的数据在(70,80)内有3个,(80,90)内有2 个,90以上的有1个; 而乙的数据在(70,80)内有1个,(80,90)内有3个,90以上的有2个. 显然乙的数据分布较为集中,所以乙的方差较小.故选D.
第2节用样本估计总体
考纲展示 1.了解分布的意义和作用,能根据 频率分布表画频率分布直方图、 频率折线图、茎叶图,体会它们各 自的特点. 2.理解样本数据标准差的意义和 作用,会计算数据标准差. 3.能从样本数据中提取基本的数 字特征(如平均数、标准差),并做 出合理的解释.
4.会用样本的频率分布估计总体分 布,会用样本的基本数字特征估计总 体的基本数字特征,理解用样本估计 总体的思想. 5.会用随机抽样的基本方法和样本 估计总体的思想解决一些简单的实 际问题.
用茎叶图表示数据的优点是(1)所有的信息都
4.样本的数字特征
数
字 特
定义
征
特点
在一组数据中出 体现了样本数据的最大集中点,
现次数最多的数 不受极端值的影响,而且可能不
据
唯一
将一组数据按大 小顺序依次排列, 处在最中间位置 中位数不受极端值的影响,仅利
反映了各个样本数据聚集
标准差是样本数据到 于样本平均数周围的程度
(A)该校九年级学生1分钟仰卧起坐的次数的中位数为26.25 (B)该校九年级学生1分钟仰卧起坐的次数的众数为27.5 (C)该校九年级学生1分钟仰卧起坐的次数超过30的人数约为320 (D)该校九年级学生1分钟仰卧起坐的次数少于20的人数约为32
解析:由频率分布直方图可知,中位数是频率分布直方图面积等分线对应 的数值,是26.25,故A对;众数是最高矩形的中间值27.5,故B对;1分钟仰卧 起坐的次数超过30的频率为0.2,所以估计1分钟仰卧起坐的次数超过30 的人数为320,故C对;1分钟仰卧起坐的次数少于20的频率为0.1,所以估 计1分钟仰卧起坐的次数少于20的人数为160,故D错.故选D.
用样本估计总体课件(第2课时)课件
提高代表性的方法
随机抽样、加大样本量、分层抽 样等。
03 样本的获取方法
随机抽样
01
02
03
简单随机抽样
每个样本单位被选中的概 率相等,适合样本量小的 情况。
分层随机抽样
将总体分成若干层,再从 各层中随机抽取一定数量 的样本单位。
系统随机抽样
将总体中的样本单位按一 定顺序排列,再按照固定 的间隔进行随机抽取。
以及样本数据的准确性。
比例估计在市场调查、民意调 查等领域应用广泛。
回归估计
回归估计是另一种常用的统计推断方 法,通过建立回归模型来估计总体参 数。
在进行回归估计时,需要选择合适的 自变量、建立合适的回归模型,并对 模型进行检验和调整。
回归估计的基本思想是利用已知的自 变量和因变量之间的关系,通过回归 分析来预测因变量的值。
定义
01
非抽样误差是由于除抽样之外的其他因素引起的误差,如测量
误差、系统偏差等。
产生原因
02
由于非随机因素导致样本与总体之间存在偏差。
控制方法
03
提高测量精度、消除系统偏差等,以减少非抽样误差的影响。
误差的来源与控制
抽样误差和非抽样误差是样本估计总体过程中常见的误 差来源。
控制非抽样误差的方法包括提高测量精度、消除系统偏 差等。
经济研究应用
总结词
经济研究中,样本估计总体被广泛应用于宏观经济数据的统计和分析。
详细描述
通过收集部分企业的财务数据、生产数据等,利用样本数据来估计和预测整体经 济的运行状况,如GDP、失业率、通货膨胀率等。这种方法可以帮助政府和决策 者了解经济形势、制定经济政策,促进经济发展和社会稳定。
第二节 用样本估计总体-高考状元之路
第二节 用样本估计总体预习设计 基础备考知识梳理1.频率分布直方图(1)通常我们对总体作出的估计一般分成两种,一种是用 估计总体的分布,另一种是用 估计总体的数字特征.(2)在频率分布直方图中,纵轴表示 ,数据落在各小组内的频率用 表示.各小长方 形的面积总和2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的 ,就得到频率分布折线图.(2)总体密度曲线:随着 的增加,作图时 增加, 减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.3.茎叶图的优点用茎叶图表示数据有两个突出的优点: 一是从统计图上没有 的损失,所有的 都可以从茎叶图中得到; 二是茎叶图可以在比赛时 方便记录与表示.4.标准差和方差(1)标准差是样本数据到平均数的一种(2)标准差:=s(3)方差:=2sn x (是样本数据,砚是样本容量,x 是样本平均数). 5.利用频率分布直方图估计样本的数字特征(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积 ,由此可以估计中位数的值.(2抨均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的(3)众数:在频率分布直方图中,众数是最高的矩形的中点的典题热身1.已知一个样本中的数据为..0,15.0,13.0,15.0,12.0,14.0,13.0,16.0,15.0,17.0则该样本的众数、中位数分别是( )15.0,14.0.A 14.0,15.0.B 15.0,15.0.C 145.0,15.0.D答案:D2.已知一个样本中的数据为,5,4,3,2,1那么该样本的标准差为( )1.A2.B3.C 2.D答案:B3.(2011.潍坊模拟)甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如下图所示,若甲、乙两人的平均成绩分别,乙甲、X X 则下列结论正确的是 ( );.乙甲X X A < 乙比甲成绩稳定;.乙甲X X B >甲比乙成绩稳定乙甲X X C >.乙比甲成绩稳定;.乙甲X X D <甲比乙成绩稳定答案:A4.一个容量为32的样本,分成5组,已知第三组的频率为0.375,则另外四组的频数之和为 答案:205.为了了解某地区高三学生身体发育情况,抽查了该地区100名年龄在17.5岁~18岁的男生体重(kg),得到频率分布直方图如下图所示.则样本数据落在[62.5,64.5)内的频率是 .这100名学生的体重的众数是答案:14.0 5.65课堂设计 方法备考题型一 频率分布直方图的绘制与应用【倒1】为了解某校初中毕业男生的体能状况,从该校初中毕业班学生中抽取若干名男生进行铅球测试,把所得数据(精确到0.1 m)进行整理后,分成6组画出频率分布直方图的一部分(如下图),已知从左到右前5个小组的频率分别为0.04,0.10,0.14,0.28,0.30.第6小组的频数是7.(1)请将频率分布直方图补充完整,(3)若成绩在8.0 m 以上(含8.0 m)的为合格,试求这次铅球黼试的成绩的合格率.题型二 茎叶图的应用【例2】在某电脑杂志的一篇文章中,每个句子的字数如下:,15,25,14,27,36,19,20,24,26,15,18,27,23,17,3,28,101.17,27,24,11,22在某报纸的一篇文章中,每个句子中所含的字的个数如下:,22,13,27,41,36,12,35,27,33,41,32,19,28,24,33,39,27.22,32,46,18,23(1)将这两组数据用茎叶图表示;(2)将这两组数据进行比较分析,得到什么结论?题型三 用样本的数字特征估计总体的数字特征【例3】甲乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图.(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价,技法巧点(1)用样本频率分布来估计总体分布的重点是:频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布,难点是频率分布表和频率分布直方图的理解及应用,在计数和计算时一定要准确,在绘制小矩形时,宽窄要一致,通过频率分布表和频率分布直方图可以对总体作出估计.(2)几种表示频率分布的方法的优点与不足:①频率分布表在数量表示上比较确切,但不够直观、形象,分析数据分布的总体态势不太方便. ②频率分布直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到在分布表中看不清楚的数据模式,但从直方图本身得不出原始的数据内容,也就是说,把数据表示成直方图后,原有的具体数据信息就被抹掉了。
第九章 第二节 用样本估计总体
4.(2010·安徽高考 某市 . 安徽高考)某市 安徽高考 某市2010年4月1日~4月30日对空气污 年 月 日 月 日对空气污 染指数的监测数据如下(主要污染物为可吸入颗粒物 : 染指数的监测数据如下 主要污染物为可吸入颗粒物): 主要污染物为可吸入颗粒物 61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91,77,86, 81,83,82,82,64,79,86,85,75,71,49,45.
本题条件不变, 本题条件不变,由频率分布表与频率分布直方图能否判 断本月对空气污染指数的监测的数据众数和中位数落在 哪个小组内? 哪个小组内? 解:由频率分布表及直方图可判断众数和中位数均在 [81,91]这一组内,证明该市空气质量基本良好. 这一组内,证明该市空气质量基本良好. 这一组内
[归纳领悟 归纳领悟] 归纳领悟 1.频率分布表和频率分布直方图是一组数据频率分布的两 . 种形式,前者准确,后者直观. 种形式,前者准确,后者直观. 频率 2.频率分布直方图中横坐标表示组距,纵坐标表示 .频率分布直方图中横坐标表示组距, , 组距 频率 频率=组距× . 频率=组距× 组距 3.频率分布直方图中各小长方形的面积之和为 .频率分布直方图中各小长方形的面积之和为1.
[究 疑 点] 究 1.在频率分布直方图中,中位数、众数与平均数如何确定? .在频率分布直方图中,中位数、众数与平均数如何确定? 提示:在频率分布直方图中, 提示:在频率分布直方图中,中位数左边和右边的直 方图的面积相等,由此可以估计中位数的值, 方图的面积相等,由此可以估计中位数的值,而平均 数的估计值等于频率分布直方图中每个小矩形的面积 乘以小矩形底边中点的横坐标之和. 乘以小矩形底边中点的横坐标之和.众数是最高的矩 形的中点的横坐标. 形的中点的横坐标. 2.频率分布直方图中纵轴的含义是频率吗? .频率分布直方图中纵轴的含义是频率吗? 提示:不是.表示的是频率 组距 组距. 提示:不是.表示的是频率/组距.
高考数学第一轮知识点总复习 第二节 用样本估计总体
平.因为公司中少数人的月工资额与大多数人的月工资额差别较大,
这样导致了平均数与中位数的偏差较大,所以平均数不能客观真实
地反映这个公司员工的工资水平.
题型四 综合问题
【例4】(12分)某种瓶装溶液,因为装瓶机的不稳定性,所以很可能每 瓶装的容量都不是标准的容量.我们随机抽出了20瓶,测得它们的容量 (单位:百毫升)如下: 12.1 11.9 12.2 12.2 12.0 12.1 12.9 12.1 12.3 12.5 11.7 12.4 12.3 11.8 11.3 12.1 11.4 11.6 11.2 12.2
1
(2)频率分布直方图如图:
(3)电子元件寿命在100 h~400 h以内的频数为130,则频率 为 13=00.65. 200
(4)寿命在400 h以上的电子元件的频数为70,则频率 为 =700.35. 200
学后反思利用样本的频率分布可近似地估计总体的分布.从本例可 以看出,要比较准确地反映出总体70 分布的情况,必须准确地作出
[140,15 0)
人数
4
8
x
5
3
生产能 力分组 人数
表2:
[110, 120)
6
[120,130) [130,14 0)
y
36
[140,15 0)
18
(1)先确定x、y,再完成下列频率分布直方图,就生产能力而言, A类工人中个体间的差异程度与B类工人中个体间的差异程度哪 个更小?(不用计算,可通过观察直方图直接回答结论)
比;所有组距的频率之和为1;每一组距的频率是频率分布直方图中该
组距所对应的矩形的面积.
解
(1)M=0.102
=50,m=50-(1+4+20+15+8)=2n,N =m1,
第2节 用样本估计总体
第2节用样本估计总体考试要求 1.了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率分布折线图、茎叶图,体会它们各自的特点;2.理解样本数据标准差的意义和作用,会计算数据标准差;3.能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释;4.会用样本的频率分布估计总体的频率分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想;5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.知识梳理1.频率分布直方图(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图(如图)横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率.2.茎叶图统计中一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.样本的数字特征(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.(2)中位数:把n 个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:把a 1+a 2+…+a n n称为a 1,a 2,…,a n 这n 个数的平均数.(4)标准差与方差:设一组数据x 1,x 2,x 3,…,x n 的平均数为x -,则这组数据的标准差和方差分别是 s =1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2], s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2].[常用结论与微点提醒]1.频率分布直方图与众数、中位数、平均数的关系 (1)最高的小长方形底边中点的横坐标即是众数. (2)中位数左边和右边的小长方形的面积和是相等的.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和. 2.平均数、方差的公式推广(1)若数据x 1,x 2,…,x n 的平均数为x -,那么mx 1+a ,mx 2+a ,mx 3+a ,…,mx n+a 的平均数是mx -+a .(2)数据x 1,x 2,…,x n 的方差为s 2.①数据x 1+a ,x 2+a ,…,x n +a 的方差也为s 2; ②数据ax 1,ax 2,…,ax n 的方差为a 2s 2.诊 断 自 测1.判断下列结论正误(在括号内打“√”或“×”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( ) (2)一组数据的方差越大,说明这组数据越集中.( )(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越大.( )(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )解析 (1)正确.平均数、众数与中位数都在一定程度上反映了数据的集中趋势. (2)错误.方差越大,这组数据越离散. (3)正确.小矩形的面积=组距×频率组距=频率.(4)错误.茎相同的数据,相同的数据叶要重复记录,故(4)错误. 答案 (1)√ (2)× (3)√ (4)×2.(老教材必修3P100T2(1)改编)一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为( ) A.4B.8C.12D.16解析 设频数为n ,则n 32=0.25,∴n =32×14=8. 答案 B3.(老教材必修3P70示例改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是( )A.91.5和91.5B.91.5和92C.91和91.5D.92和92解析 这组数据由小到大排列为87,89,90,91,92,93,94,96, ∴中位数是91+922=91.5,平均数x-=87+89+90+91+92+93+94+968=91.5.答案 A4.(一题多解)(2019·全国Ⅲ卷)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为()A.0.5B.0.6C.0.7D.0.8解析法一设调查的100位学生中阅读过《西游记》的学生人数为x,则x+80-60=90,解得x=70,所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为70100=0.7.故选C.法二用Venn图表示调查的100位学生中阅读过《西游记》和《红楼梦》的人数之间的关系如图:易知调查的100位学生中阅读过《西游记》的学生人数为70,所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为70100=0.7.故选C.答案 C5.(一题多解)(2018·全国Ⅰ卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析法一设新农村建设前经济收入为a,则新农村建设后经济收入为2a,则由饼图可得新农村建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.新农村建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.法二因为0.6<0.37×2,所以新农村建设后,种植收入增加,而不是减少,所以A是错误的.答案 A6.(2019·江苏卷)已知一组数据6,7,8,8,9,10,则该组数据的方差是________.解析这组数据的平均数为8,故方差为s2=16×[(6-8)2+(7-8)2+(8-8)2+(8-8)2+(9-8)2+(10-8)2]=53.答案5 3考点一频率分布直方图【例1】某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90].并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计值为0.4.(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,故样本中分数小于50的频率为0.1,故分数在区间[40,50)内的人数为100×0.1-5=5.所以总体中分数在区间[40,50)内的人数估计为400×5100=20.(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60.所以样本中分数不小于70的男生人数为60×12=30.所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2. 规律方法 1.频率分布直方图的性质.(1)小长方形的面积=组距×频率组距=频率;(2)各小长方形的面积之和等于1;(3)小长方形的高=频率组矩,所有小长方形的高的和为1组距.2.要理解并记准频率分布直方图与众数、中位数及平均数的关系.【训练1】某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频率分布表.A地区用户满意度评分的频率分布直方图图①B地区用户满意度评分的频率分布表满意度评分分组[50,60)[60,70)[70,80)[80,90)[90,100] 频数281410 6地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);B地区用户满意度评分的频率分布直方图图②(2)根据用户满意度评分,将用户和满意度分为三个等级:满意度评分低于70分70分到89分不低于90分满意度等级不满意满意非常满意解(1)作出频率分布直方图如图:通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.(2)A地区用户的满意度等级为不满意的概率大.记C A表示事件:“A地区用户的满意度等级为不满意”;C B表示事件:“B地区用户的满意度等级为不满意”.由直方图得P(C A)的估计值为(0.01+0.02+0.03)×10=0.6,P(C B)的估计值为(0.005+0.02)×10=0.25.所以A地区用户的满意度等级为不满意的概率大.考点二茎叶图及其应用【例2】(1)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的.①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中符合茎叶图所给数据的结论是()A.①②③B.②③④C.①②④D.①③④(2)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,假设抽到的第一个数据是133,则这7人的平均成绩为________.解析(1)由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.男生平均每天锻炼时间超过65分钟的概率p1=510=12,女生平均每天锻炼时间超过65分钟的概率p2=410=25,p1>p2,因此④正确.设男生、女生两组数据的平均数分别为x-男,x-女,标准差分别为s男,s女.观察茎叶图,男生数据分布偏下,女生数据分布偏上,可知x-男>x-女,②正确. 又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,∴s男<s女,③错误,因此符合茎叶图所给数据的结论是①②④.(2)依题意,应将35名运动员的成绩由好到差排序后分为7组,每组5人.抽到的7人的编号为3,8,13,18,23,28,33,成绩为133,138,141,143,145,148,153,平均成绩是17×(133+138+141+143+145+148+153)=143.答案(1)C(2)143规律方法 1.茎叶图的三个关注点(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一. (2)重复出现的数据要重复记录,不能遗漏.(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.2.利用茎叶图解题的关键是抓住“叶”的分布特征,准确从中提炼信息. 【训练2】 (1)(2020·长春质量监测)已知某班级部分同学一次测验的成绩统计如图,则其中位数和众数分别为( )A.95,94B.92,86C.99,86D.95,91(2)从甲乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示),设甲乙两组数据的平均数分别为x -甲,x -乙,标准差分别为s 甲,s 乙,则( )A.x -甲<x -乙,s 甲>s 乙B.x -甲<x -乙,s 甲<s 乙C.x -甲>x -乙,s 甲>s 乙D.x -甲>x -乙,s 甲<s 乙解析 (1)由茎叶图可知,此组数据由小到大排列依次为76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,共17个,故92为中位数,出现次数最多的为众数,故众数为86.故选B.(2)观察茎叶图,甲数据分布偏上,乙数据分布偏下,可知x -甲<x -乙,从数据的集中程度上看,有s 甲>s 乙.答案 (1)B (2)A考点三 样本的数字特征【例3】 (1)(2019·全国Ⅱ卷)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )A.中位数B.平均数C.方差D.极差 (2)(2020·济南模拟)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x -,方差为s 2,则( )A.x -=4,s 2<2B.x -=4,s 2>2 C.x ->4,s 2<2 D.x ->4,s 2>2 (3)若样本数据x 1,x 2,…,x 10的标准差为8,则数据2x 1-1,2x 2-1,…,2x 10-1的标准差为________.解析 (1)中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均受影响.故选A.(2)由题意得加入一个新的数据后平均数x -=18×(7×4+4)=4,方差s 2=18×[7×2+(4-4)2]=74<2.(3)依题意,x 1,x 2,x 3,…,x 10的方差s 2=64.则数据2x 1-1,2x 2-1,…,2x 10-1的方差为22s 2=22×64,所以其标准差为22×64=2×8=16.答案 (1)A (2)A (3)16规律方法 1.平均数反映了数据取值的平均水平,而方差、标准差描述了一组数据围绕平均数波动的大小,标准差、方差越大,数据离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.2.用样本估计总体就是利用样本的数字特征来描述总体的数字特征.【训练3】(2019·石家庄模拟)“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称.某市为了了解人们对“一带一路”的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分为100分(90分及以上为认知程度高).现从参赛者中抽取了x人,按年龄分成5组,第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45],得到如图所示的频率分布直方图,已知第一组有6人.(1)求x;(2)求抽取的x人的年龄的中位数(结果保留整数);(3)从该市大学生、军人、医务人员、工人、个体户五种人中用分层抽样的方法依次抽取6人,42人,36人,24人,12人,分别记为1~5组,从这5个按年龄分的组和5个按职业分的组中每组各选派1人参加“一带一路”知识竞赛,分别代表相应组的成绩,年龄组中1~5组的成绩分别为93,96,97,94,90,职业组中1~5组的成绩分别为93,98,94,95,90.(ⅰ)分别求5个年龄组和5个职业组成绩的平均数和方差;(ⅱ)以上述数据为依据,评价5个年龄组和5个职业组对“一带一路”的认知程度,并谈谈你的感想.解(1)根据频率分布直方图得第一组的频率为0.01×5=0.05,∴6x=0.05,∴x=120.(2)设中位数为a,则0.01×5+0.07×5+(a-30)×0.06=0.5,∴a =953≈32,则中位数为32.(3)(ⅰ)5个年龄组成绩的平均数为x -1=15×(93+96+97+94+90)=94,方差为s 21=15×[(-1)2+22+32+02+(-4)2]=6. 5个职业组成绩的平均数为x -2=15×(93+98+94+95+90)=94,方差为s 22=15×[(-1)2+42+02+12+(-4)2]=6.8.(ⅱ)从平均数来看两组的认知程度相同,从方差来看年龄组的认知程度更稳定(感想合理即可).A 级 基础巩固一、选择题1.某班的全体学生参加英语测试,成绩的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )A.45B.50C.55D.60 解析 由频率分布直方图,知低于60分的频率为(0.010+0.005)×20=0.3.∴该班学生人数n =150.3=50.答案 B2.为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg)分别为x 1,x 2,…,x n ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A.x 1,x 2,…,x n 的平均数B.x 1,x 2,…,x n 的标准差C.x 1,x 2,…,x n 的最大值D.x 1,x 2,…,x n 的中位数解析刻画评估这种农作物亩产量稳定程度的指标是标准差.答案 B3.(2019·合肥二模)下表是某电器销售公司2018年度各类电器营业收入占比和净利润占比统计表:A.该公司2018年度冰箱类电器销售亏损B.该公司2018年度小家电类电器营业收入和净利润相同C.该公司2018年度净利润主要由空调类电器销售提供D.剔除冰箱类电器销售数据后,该公司2018年度空调类电器销售净利润占比将会降低解析对于选项A,由统计表知冰箱类净利润占比为-0.48%,所以冰箱类电器销售亏损,所以A中判断正确;对于选项B,由统计表知,小家电类电器营业收入占比和净利润占比均为3.82%,但在总的营业收入和总的净利润未知的情况下,无法得到营业收入和净利润相同,所以选项B中判断不正确;对于选项C,由统计表知,空调类的净利润占比为95.80%,所以该电器销售公司的净利润主要由空调类电器销售提供,所以选项C中判断正确;对于选项D,剔除冰箱类销售数据后,总的净利润增加了,而空调类销售总利润没变,所以空调类电器销售净利润占比将会降低,选项D中判断正确,故选B. 答案 B4.在如图所示一组数据的茎叶图中,有一个数字被污染后模糊不清,但曾计算得该组数据的极差与中位数之和为61,则被污染的数字为()A.1B.2C.3D.4解析由题图可知该组数据的极差为48-20=28,则该组数据的中位数为61-28=33,设污染数字为x,则(30+x)+342=33,x=2,则被污染的数字为2.答案 B5.(2020·成都诊断)为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是()A.是否倾向选择生育二胎与户籍有关B.是否倾向选择生育二胎与性别无关C.倾向选择生育二胎的人员中,男性人数与女性人数相同D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数解析由题图,可得是否倾向选择生育二胎与户籍有关、性别无关,倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数,倾向选择生育二胎的人员中,男性人数为60×60%=36,女性人数为40×60%=24,不相同.故选C.答案 C二、填空题6.(2019·全国Ⅱ卷)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________.解析 经停该站高铁列车所有车次的平均正点率的估计值为x -=10×0.97+20×0.98+10×0.9910+20+10=0.98. 答案 0.987.(2019·马鞍山质检)已知样本容量为200,在样本的频率分布直方图中,共有n个小矩形,若中间一个小矩形的面积等于其余(n -1)个小矩形面积和的13,则该组的频数为________.解析 设除中间一个小矩形外的(n -1)个小矩形面积的和为p ,则中间一个小矩形面积为13p ,p +13p =1,p =34,则中间一个小矩形的面积等于13p =14,200×14=50,即该组的频数为50.答案 508.(2020·珠海摸底)气象意义上从春季进入夏季的标志为:“连续5天的日平均温度均不低于22 ℃”,现有甲、乙、丙三地连续5天的日平均温度的记录数据(记录数据都是正整数):①甲地:5个数据的中位数为24,众数为22;②乙地:5个数据的中位数为27,总体均值为24;③丙地:5个数据中有一个数据是32,总体均值为26,总体方差为10.8. 则肯定进入夏季的地区的序号为________.解析 由统计知识,①甲地:5个数据的中位数为24,众数为22,可知①符合题意;②乙地:5个数据的中位数为27,总体均值为24,当5个数据为19,20,27,27,27可知其不满足连续5天的日平均温度不低于22 ℃,所以不符合题意; ③丙地:5个数据中有一个数据是32,总体均值为26,总体方差为10.8.若某一天的气温低于22 ℃,此时则取21 ℃,总体方差就大于10.8.所以满足题意. 答案 ①③三、解答题9.(2020·福州一模)为了解某知名品牌两个不同型号手机M9,M10的待机时间(单位:小时),淮北某手机卖场从仓库中随机抽取M9,M10两种型号的手机各6台,在相同的条件下进行测试,统计结果如图:(1)根据茎叶图计算M9,M10两种型号手机的平均待机时间;(2)根据茎叶图判断M9,M10两种型号被测试手机待机时间方差的大小,并说明理由.解 (1)根据茎叶图中的数据,计算M9型号手机的平均待机时间为x -M9=16×(56+69+65+70+76+84)=70(小时),M10型号手机的平均待机时间为x -M10=16×(79+72+70+80+81+80)=77(小时). (2)M9手机待机时间方差大于M10手机待机时间方差.理由:M9的数据分布比较分散,波动较大;M10的数据分布比较集中,波动较小.10.在某校科普知识竞赛前的模拟测试中,得到甲、乙两名学生的6次模拟测试成绩(百分制)的茎叶图.若从甲、乙两名学生中选择一人参加该知识竞赛,你会选哪位?请运用统计学的知识说明理由.解 学生甲的平均成绩x -甲=68+76+79+86+88+956=82, 学生乙的平均成绩x -乙=71+75+82+84+86+946=82, 又s 2甲=16×[(68-82)2+(76-82)2+(79-82)2+(86-82)2+(88-82)2+(95-82)2]=77,s 2乙=16×[(71-82)2+(75-82)2+(82-82)2+(84-82)2+(86-82)2+(94-82)2]=1673,则x -甲=x -乙,s 2甲>s 2乙,说明甲、乙的平均水平一样,但乙的方差小,即乙发挥更稳定,故可选择学生乙参加知识竞赛.B 级 能力提升11.(2019·大连模拟)已知某地区中小学生人数和近视情况分别如图甲和图乙所示,为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )A.100,20B.200,20C.200,10D.100,10解析 由题图可知总学生数是10 000人,样本容量为10 000×2%=200人,高中生2 000×2%=40人,由乙图可知高中生近视率为50%,所以人数为40×50%=20,选B.答案 B12.(2020·郑州调研)区域经济变化影响着人口的流动,下图为过去某连续5年各省、自治区及直辖市(不含港澳台)人口增长统计图.某连续5年各省、自治区及直辖市(不含港澳台)人口增长统计图根据图中的信息,下面结论中不正确的是()A.广东人口增量最多,天津增幅最高B.黑龙江无论是增量还是增幅均居末尾C.天津、北京、重庆和上海四大直辖市增幅均超过5%D.人口增量超过200万的省、自治区或直辖市共有7个解析对于A,由图知广东5年人口增加超过400万,增量最多,天津增幅达到了19.2%,增幅最高,A正确;对于B,由图易知正确;对于C,上海的人口增幅为4.9%,未超过5%,不正确;对于D,人口增量超过200万的省或直辖市有天津、北京、重庆、广东、河北、湖南和山东,正确.综上选C.答案 C13.(2019·湘东五校联考)已知等差数列{a n}的公差为d,若a1,a2,a3,a4,a5的方差为8,则d的值为________.解析依题意,由等差数列的性质得a1,a2,a3,a4,a5的平均数为a3,则由方差公式得12+(a2-a3)2+(a3-a3)2+(a4-a3)2+(a5-a3)2]=8,所以d=5×[(a1-a3)±2.答案±214.某市民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费,从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替,当w=3时,估计该市居民该月的人均水费.解(1)如题图所示,用水量在[0.5,2)的频率的和为(0.2+0.3+0.4)×0.5=0.45,用水量在[0.5,3)的频率的和为(0.2+0.3+0.4+0.5+0.3)×0.5=0.85.∴用水量小于等于2立方米的频率为0.45,用水量小于等于3立方米的频率为0.85,又w为整数,∴为使80%以上的居民在该月的用水价格为4元/立方米,w至少定为3.(2)当w=3时,该市居民该月的人均水费估计为(0.1×1+0.15×1.5+0.2×2+0.25×2.5+0.15×3)×4+0.15×3×4+[0.05×(3.5-3)+0.05×(4-3)+0.05×(4.5-3)]×10=7.2+1.8+1.5=10.5(元).即当w=3时,该市居民该月的人均水费估计为10.5元.C级创新猜想15.(多填题)对某市“四城同创”活动中800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,则依据此图可得:(1)[25,30)年龄组对应小矩形的高度为________;(2)据此估计该市“四城同创”活动中志愿者年龄在[25,35)的人数为________.解析设[25,30)年龄组对应小矩形的高度为h,则5×(0.01+h+0.07+0.06+0.02)=1,解得h=0.04.则志愿者年龄在[25,35)年龄组的频率为5×(0.04+0.07)=0.55,故志愿者年龄在[25,35)年龄组的人数约为0.55×800=440.答案(1)0.04(2)440。
必修三2.2.用样本估计总体(教案)
必修三2.2.用样本估计总体(教案)必修三2.2.用样本估计总体(教案)导语:本文为必修三2.2.用样本估计总体(教案)的教学指南,旨在引导学生了解和应用样本估计总体的方法。
通过学习本课,学生将能够理解抽样和样本的基本概念,并能够运用点估计和区间估计的方法进行总体参数的估计。
为了达到良好的教学效果,本教案采用了多样的教学方法,例如引导讨论、示例演示和小组合作等。
一、教学目标:1. 理解样本与总体的概念和关系;2. 掌握点估计的方法;3. 了解区间估计的原理和应用;4. 能够进行样本估计总体的实际问题分析。
二、教学过程:1. 导入(5分钟)引导学生思考以下问题:什么是样本?什么是总体?样本和总体之间有什么关系?为什么需要用样本来估计总体?2. 点估计的方法(15分钟)a. 讲解点估计的基本原理,即通过样本数据来估计总体参数的值。
b. 示例演示:设计一个问题,如某班级数学考试成绩的平均分。
用班级中的五位同学的成绩作为样本,通过计算样本的平均分来估计全班的平均分。
c. 引导学生讨论点估计的优点和缺点。
3. 区间估计的方法(15分钟)a. 讲解区间估计的概念和原理,即通过样本数据构造一个置信区间来估计总体参数的范围。
b. 示例演示:使用同样的例子,构造一个置信水平为95%的置信区间,来估计全班的平均分。
c. 引导学生讨论区间估计的优点和缺点。
4. 实际问题分析(25分钟)a. 设计一个实际问题,例如某个城市的人均收入。
要求学生提出估计该城市人均收入的方法和步骤,并结合点估计和区间估计的方法进行分析。
b. 小组合作:分组讨论,每个小组根据实际问题设计一个解决方案,并准备向全班汇报。
c. 汇报与讨论:每个小组轮流汇报他们的解决方案,并进行讨论。
5. 总结与延伸(10分钟)a. 概括本课内容,强调样本估计总体的方法和应用。
b. 提出延伸问题,鼓励学生进一步探索样本估计总体的其他应用领域。
三、教学反思:本节课通过引导讨论、示例演示和小组合作等多种教学方法,促使学生自主思考和应用样本估计总体的方法。
28.2 用样本估计总体
编号,从中任意抽取3个班级,向这3个班级的所有学生做调查.你认为调查具
有随机性的是( D )
A.① B.②
C.③ D.④
素材来源于网络,林老师搜集编辑整理
3
3.(5分)随机抽样不具有的性质是( D ) A.抽得的样本具有随机性 B.抽得的样本具有代表性 C.抽得的样本具有广泛性 D.抽得的样本具有偏向性
2.由简单随机抽样获得样本容量较大的样本,可以用样本__平均数__、样 本__方差__估计总体__平均数__和总体__方差__.
素材来源于网络,林老师搜集编辑整理
2
简单随机抽样
1.(5分)下列抽样方法是随机抽样的是( A )
A.为了解刚生产的零件的质量情况,从每一个包装箱内抽5个加以检查
B.为了解全市学生的身高情况,以一、三中的学生为代表进行考察
C.为了解小学生的视力情况,选中六年级20名学生进行调查
D.为了解某地区的车流量,记录某一红绿灯处早上8:00至9:00的车流量
2.(5分)为了了解某中学(共有3个年级,每年级6个班)学生完成作业情况,
可采用下列方式进行调查:①向3个年级每个班级的班长做调查;②向3个年级
每个班的学习委员做调查;③向各班级每班前10名学生做调查;④将18个班级
九年级数学上册(北师版)
第二十八章 样本与总体
第二节 用样本估计总体
1.抽样调查时,为使样本具有__代表性__,不偏向总体中的某些个体,可 采用一个对每个个体都公平的方法,那就是用__抽签__的办法决定哪些个体进
入样本.这种抽样方法称为简单的随机抽样.抽样之前,我们不能预测到哪些 个体会被抽中,因此抽样结果具有__随机性__.
素材来源于网络,林老师搜集编辑整理
5
必修三2.2.用样本估计总体(教案)
2.2 用样本估计总体教案 A第1课时教学内容§2.2.1 用样本的频率分布估计总体分布教学目标一、知识及技能1. 通过实例体会分布的意义和作用.2. 在表示样本数据的过程中,学会列频率分布表,画频率分布直方图、频率折线图和茎叶图.3.通过实例体会频率分布直方图、频率折线图、茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准确地做出总体估计.二、过程及方法通过对现实生活的探究,感知应用数学知识解决问题的方法,理解数形结合的数学思想和逻辑推理的数学方法.三、情感、态度及价值观通过对样本分析和总体估计的过程,感受数学对实际生活的需要,认识到数学知识源于生活并指导生活的事实,体会数学知识及现实世界的联系.教学重点、难点重点:会列频率分布表,画频率分布直方图、频率折线图和茎叶图.难点:能通过样本的频率分布估计总体的分布.教学设想一、创设情境在NBA的2004赛季中,甲、乙两名篮球运动员每场比赛得分的原始记录如下﹕甲运动员得分﹕12,15,20,25,31,31,36,36,37,39,44,49,50乙运动员得分﹕8,13,14,16,23,26,28,38,39,51,31,29,33请问从上面的数据中你能否看出甲,乙两名运动员哪一位发挥比较稳定?如何根据这些数据作出正确的判断呢?这就是我们这堂课要研究、学习的主要内容——用样本的频率分布估计总体分布.二、探究新知探究1:我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?你认为,为了较为合理地确定出这个标准,需要做哪些工作?(让学生展开讨论)为了制定一个较为合理的标准a,必须先了解全市居民日常用水量的分布情况,比如月均用水量在哪个范围的居民最多,他们占全市居民的百分比情况等.因此采用抽样调查的方式,通过分析样本数据来估计全市居民用水量的分布情况.分析数据的一种基本方法是用图将它们画出来,或者用紧凑的表格改变数据的排列方式,作图可以达到两个目的,一是从数据中提取信息,二是利用图形传递信息.表格则是通过改变数据的构成形式,第 1 页为我们提供解释数据的新方式.下面我们学习的频率分布表和频率分布图,则是从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布的规律.可以让我们更清楚的看到整个样本数据的频率分布情况.(一)频率分布的概念频率分布是指一个样本数据在各个小范围内所占比例的大小.一般用频率分布直方图反映样本的频率分布.其一般步骤为:1.计算一组数据中最大值及最小值的差,即求极差;2.决定组距及组数;3.将数据分组;4.列频率分布表;5.画频率分布直方图.以教材P65制定居民用水标准问题为例,经过以上几个步骤画出频率分布直方图.(让学生自己动手作图)频率分布直方图的特征:1.从频率分布直方图可以清楚的看出数据分布的总体趋势.2.从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.探究2:同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图和形状也会不同.不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断,分别以0.1和1为组距重新作图,然后谈谈你对图的印象?(把学生分成两大组进行,分别作出两种组距的图,然后组织同学们对所作图的不同看法进行交流……)接下来请同学们思考下面这个问题:思考:如果当地政府希望使85%以上的居民每月的用水量不超出标准,根据频率分布表2-2和频率分布直方图2.2-1,(见教材P67)你能对制定月用水量标准提出建议吗?(让学生仔细观察表和图)(二)频率分布折线图、总体密度曲线1.频率分布折线图的定义:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.2.总体密度曲线的定义:在样本频率分布直方图中,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.它能够精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息.思考:1.对于任何一个总体,它的密度曲线是不是一定存在?为什么?2.对于任何一个总体,它的密度曲线是否可以被非常准确地画出来?为什么?实际上,尽管有些总体密度曲线是客观存在的,但一般很难像函数图象那样准确地画出来,我们只能用样本的频率分布对它进行估计,一般来说,样本容量越大,这种估计就越精确.(三)茎叶图1.茎叶图的概念:当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把第 3 页这样的图叫做茎叶图.(见教材P70例子)2.茎叶图的特征:(1)用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录及表示.(2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰.三、例题精析例1 下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位cm ):(1)列出样本频率分布表;(2)画出频率分布直方图;(3)估计身高小于134cm的人数占总人数的百分比.分析:根据样本频率分布表、频率分布直方图的一般步骤解题.解:(1)样本频率分布表如下:(2)其频率分布直方图如下:(3)由样本频率分布表可知身高小于134cm 的男孩出现的频率为0.04+0.07+0.08=0.19,所以我们估计身高小于134cm 的人数占总人数的19%.cm )例2 为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?(3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由.分析:在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高及频数成正比,各组频数之和等于样本容量,频率之和等于1.解:(1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:40.0824171593=+++++, 又因为频率=.第二小组频数样本容量所以,12150.0.08===第二小组频数样本容量第二小组频率 (2)由图可估计该学校高一学生的达标率约为(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.四、课堂小结1. 总体分布指的是总体取值的频率分布规律,由于总体分布不易知道,因此我们往往用样本的频率分布去估计总体的分布.2. 总体的分布分两种情况:当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图.五、评价设计1.P81习题2.2 A组1、2.第2课时教学内容§2.2.2 用样本的数字特征估计总体的数字特征教学目标一、知识及技能1. 正确理解样本数据标准差的意义和作用,学会计算数据的标准差.2. 能根据实际问题的需要合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.3. 会用样本的基本数字特征估计总体的基本数字特征.4. 形成对数据处理过程进行初步评价的意识.二、过程及方法在解决统计问题的过程中,进一步体会用样本估计总体的思想,理解数形结合的数学思想和逻辑推理的数学方法.三、情感、态度及价值观会用随机抽样的方法和样本估计总体的思想解决一些简单的实际问题,认识统计的作用,能够辩证地理解数学知识及现实世界的联系.教学重点、难点教学重点:用样本平均数和标准差估计总体的平均数及标准差.教学难点:能应用相关知识解决简单的实际问题.教学设想一、创设情境在一次射击比赛中,甲、乙两名运动员各射击10次,命中环数如下﹕甲运动员﹕7,8,6,8,6,5,8,10,7,4;乙运动员﹕9,5,7,8,7,6,8,6,7,7.观察上述样本数据,你能判断哪个运动员发挥的更稳定些吗?为了从整体上更好地把握总体的规律,我们要通过样本的数据对总体的数字特征进行研究——用样本的数字特征估计总体的数字特征(板出课题).二、探究新知(一)众数、中位数、平均数探究(1)怎样将各个样本数据汇总为一个数值,并使它成为样本数据的“中心点”?(2)能否用一个数值来描写样本数据的离散程度?(让学生回忆初中所学的一些统计知识,思考后展开讨论)初中我们曾经学过众数,中位数,平均数等各种数字特征,应当说,这些数字都能够为我们提供第 5 页关于样本数据的特征信息.例如前面一节在调查100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t (最高的矩形的中点)(图见教材第72页)它告诉我们,该市的月均用水量为2. 25t 的居民数比月均用水量为其他值的居民数多,但它并没有告诉我们到底多多少.提问:请大家翻回到教材第66页看看原来抽样的数据,有没有2.25 这个数值呢?根据众数的定义,2.25怎么会是众数呢?为什么?(请大家思考作答)分析:这是因为样本数据的频率分布直方图把原始的一些数据给遗失的原因,而2.25是由样本数据的频率分布直方图得来的,所以存在一些偏差.提问:那么如何从频率分布直方图中估计中位数呢?分析:在样本数据中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,矩形的面积大小正好表示频率的大小,即中位数左边和右边的直方图的面积应该相等.由此可以估计出中位数的值为2.02.(图略见教材73页图2.2-6)思考:2.02这个中位数的估计值,及样本的中位数值2.0不一样,你能解释其中的原因吗?(原因同上:样本数据的频率分布直方图把原始的一些数据给遗失了)图2.2-6显示,大部分居民的月均用水量在中部(2.02t 左右),但是也有少数居民的月均用水量特别高,显然,对这部分居民的用水量作出限制是非常合理的.思考:中位数不受少数几个极端值的影响,这在某些情况下是一个优点,但是它对极端值的不敏感有时也会成为缺点,你能举例说明吗?(让学生讨论,并举例)(二)标准差、方差1.标准差平均数为我们提供了样本数据的重要信息,可是,有时平均数也会使我们作出对总体的片面判断.某地区的统计显示,该地区的中学生的平均身高为176cm ,给我们的印象是该地区的中学生生长发育好,身高较高.但是,假如这个平均数是从五十万名中学生抽出的五十名身高较高的学生计算出来的话,那么,这个平均数就不能代表该地区所有中学生的身体素质.因此,只有平均数难以概括样本数据的实际状态.例如,在一次射击选拔比赛中,甲、乙两名运动员各射击10次,命中环数如下﹕甲运动员﹕7,8,6,8,6,5,8,10,7,4;乙运动员﹕9,5,7,8,7,6,8,6,7,7.观察上述样本数据,你能判断哪个运动员发挥的更稳定些吗?如果你是教练,选哪位选手去参加正式比赛? 我们知道,77x x ==乙甲,.两个人射击的平均成绩是一样的.那么,是否两个人就没有水平差距呢?(观察P74图2.2-7)直观上看,还是有差异的.很明显,甲的成绩比较分散,乙的成绩相对集中,因此我们从另外的角度来考察这两组数据.考察样本数据的分散程度的大小,最常用的统计量是标准差.标准差是样本数据到平均数的一种平均距离,一般用s 表示.样本数据1,2,,n x x x 的标准差的算法:第 7 页(1) 算出样本数据的平均数x .(2) 算出每个样本数据及样本数据平均数的差:(1,2,)i x x i n -= (3) 算出(2)中(1,2,)i x x i n -=的平方.(4) 算出(3)中n 个平方数的平均数,即为样本方差.(5) 算出(4)中平均数的算术平方根,即为样本标准差.其计算公式为:显然,标准差较大,数据的离散程度较大;标准差较小,数据的离散程度较小.提问:标准差的取值范围是什么?标准差为0的样本数据有什么特点?从标准差的定义和计算公式都可以得出:s ≥0.当0s =时,意味着所有的样本数据都等于样本平均数.2.方差从数学的角度考虑,人们有时用标准差的平方2s (即方差)来代替标准差,作为测量样本数据分散程度的工具:在刻画样本数据的分散程度上,方差和标准差是一样的,但在解决实际问题时,一般多采用标准差.三、例题精析例1 画出下列四组样本数据的直方图,说明他们的异同点.(1)5,5,5,5,5,5,5,5,5(2)4,4,4,5,5,5,6,6,6(3)3,3,4,4,5,6,6,7,7(4)2,2,2,2,5,8,8,8,8分析:先画出数据的直方图,根据样本数据算出样本数据的平均数,利用标准差的计算公式即可算出每一组数据的标准差.解:(图见教材P76)四组数据的平均数都是5.0,标准差分别为:0.00,0.82,1.49,2.83.他们有相同的平均数,但他们有不同的标准差,说明数据的分散程度是不一样的.例2 甲乙两人同时生产内径为25.40mm 的一种零件.为了对两人的生产质量进行评比,从他们生产的零件中各抽出20件,量得其内径尺寸如下(单位:mm ):甲 25.46 25.32 25.45 25.39 25.36 25.34 25.42 25.3825.42 25.39 25.43 25.39 25.40 25.44 25.40 25.4225.45 25.35 25.41 25.39乙 25.40 25.43 25.44 25.48 25.48 25.47 25.49 25.3625.34 25.49 25.33 25.43 25.43 25.32 25.47 25.3125.32 25.32 25.32 25.48从生产的零件内径的尺寸看,谁生产的质量较高?分析:比较两个人的生产质量,只要比较他们所生产的零件内径尺寸所组成的两个总体的平均数及标准差的大小即可,根据用样本估计总体的思想,我们可以通过抽样分别获得相应的样本数据,然后比较这两个样本数据的平均数、标准差,以此作为两个总体之间的差异的估计值.解:四、课堂小结1. 用样本的数字特征估计总体的数字特征分两类:(1)用样本平均数估计总体平均数.(2)用样本标准差估计总体标准差.样本容量越大,估计就越精确.2. 平均数对数据有“取齐”的作用,代表一组数据的平均水平.3. 标准差描述一组数据围绕平均数波动的大小,反映了一组数据变化的幅度.五、评价设计P81 习题 2.2 A组 3、4.教案 B第1课时教学内容§2.2.1 用样本的频率分布估计总体分布教学目标一、知识及技能1.通过实例体会分布的意义和作用.2.在表示样本数据的过程中,学会列频率分布表,画频率分布直方图、频率折线图和茎叶图.3.通过实例体会频率分布直方图、频率折线图、茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准确地做出总体估计.二、过程及方法通过对现实生活的探究,感知应用数学知识解决问题的方法,理解数形结合的数学思想和逻辑推理的数学方法.三、情感、态度及价值观通过对样本分析和总体估计的过程,感受数学对实际生活的需要,认识到数学知识源于生活并指导生活的事实,体会数学知识及现实世界的联系.教学重点、难点教学重点:会列频率分布表,画频率分布直方图、频率折线图和茎叶图.教学难点:能通过样本的频率分布估计总体的分布.教学设想一、创设情境,导入新课我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?你认为,为了较为合理地确定出这个标准,需要做哪些工作?(让学生展开讨论)为了制定一个较为合理的标准a,必须先了解全市居民日常用水量的分布情况,比如月均用水量在哪个范围的居民最多,他们占全市居民的百分比情况等.因此采用抽样调查的方式,通过分析样本数据来估计全市居民用水量的分布情况.分析数据的一种基本方法是用图将它们画出来,或者用紧凑的表格改变数据的排列方式,作图可以达到两个目的,一是从数据中提取信息,二是利用图形传递信息.表格则是通过改变数据的构成形式,为我们提供解释数据的新方式.下面我们学习的频率分布表和频率分布图,则是从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布的规律.可以让我们更清楚的看到整个样本数据的频率分布情况.二、新课探知(一)频率分布的概念频率分布是指一个样本数据在各个小范围内所占比例的大小.一般用频率分布直方图反映样本的频率分布.其一般步骤为:1. 计算一组数据中最大值及最小值的差,即求极差;2. 决定组距及组数;第 9 页cm ) 3. 将数据分组;4. 列频率分布表;5. 画频率分布直方图.以教材P65制定居民用水标准问题为例,经过以上几个步骤画出频率分布直方图.(让学生自己动手作图)例1 下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位cm ):(1)列出样本频率分布表;(2)一画出频率分布直方图;(3)估计身高小于134C m的人数占总人数的百分比.分析:根据样本频率分布表、频率分布直方图的一般步骤解题.解:(1)样本频率分布表如下:(2)其频率分布直方图:(3134cm 的男孩出现的,所以我们估计身高小 (1趋势. (2把数据抹掉了.曲线 1.频率分布折线图连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.2.总体密度曲线的定义:在样本频率分布直方图中,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.它能够精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息.(见教材P69)(三)茎叶图1.茎叶图的概念:当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图.(见教材P70例子)2.茎叶图的特征:(1)用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录及表示.(2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰.例2某赛季甲、乙两名篮球运动员每场比赛的得分情况如下:甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.用茎叶图表示,你能通过该图说明哪个运动员的发挥更稳定吗?解:“茎”指的是中间的一列数,表示得分的十位数;“叶”指的是从茎的旁边生长出来的数,分别表示两人得分的个位数.画这组数据的茎叶图的步骤如下第一步,将每个数据分为“茎”(高位)和“叶”(低位)两部分;第二步,茎是中间的一列数,按从小到大的顺序排列;第三步,将各个数据的叶按大小次序写在茎右(左)侧.甲乙8 04 6 3 1 2 53 6 8 2 5 43 8 9 3 1 6 1 6 7 94 4 91 5 0从图中可以看出,乙运动员的得分基本上是对称的,页的分布是“单峰”的,有的叶集中在茎2,3,4上,中位数为36;甲运动员的得分除一个特殊得分(51分)外,也大致对称,叶的分布也是“单峰”的,有的叶主要集中在茎1,2,3上,中位数是26.由此可以看出,乙运动员的成绩更好. 另外i,从叶在茎上的分布情况看,乙运动员的得分更集中于峰值附近,这说明乙运动员的发挥更稳定.练习:在NBA的2010赛季中,甲、乙两名篮球运动员每场比赛得分的原始记录如下﹕甲运动员得分﹕12,15,20,25,31,31,36,36,37,39,44,49,50乙运动员得分﹕8,13,14,16,23,26,28,38,39,51,31,29,33学生画出茎叶图(略)三、巩固练习为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理后,画出频率分布直方图(见下页图示),图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12.第 11 页(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?(3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由.分析:在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高及频数成正比,各组频数之和等于样本容量,频率之和等于1.解:(1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,因此第二小组的频率为:40.08 24171593=+++++,又因为频率=第二小组频数样本容量,所以,121500.08===第二小组频数样本容量第二小组频率.(2)由图可估计该学校高一学生的达标率约为(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.四、小结1. 总体分布指的是总体取值的频率分布规律,由于总体分布不易知道,因此我们往往用样本的频率分布去估计总体的分布.2. 总体的分布分两种情况:当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图.五、布置作业P71练习1、2、3.第2课时教学内容§2.2.2 用样本的数字特征估计总体的数字特征教学目标一、知识及技能1. 正确理解样本数据标准差的意义和作用,学会计算数据的标准差.2. 能根据实际问题的需要合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.3. 会用样本的基本数字特征估计总体的基本数字特征.4. 形成对数据处理过程进行初步评价的意识.二、过程及方法在解决统计问题的过程中,进一步体会用样本估计总体的思想,理解数形结合的数学思想和逻辑推理的数学方法.三、情感、态度及价值观会用随机抽样的方法和样本估计总体的思想解决一些简单的实际问题,认识统计的作用,能够辩证地理解数学知识及现实世界的联系.教学重点、难点教学重点:用样本平均数和标准差估计总体的平均数及标准差.教学难点:能应用相关知识解决简单的实际问题.教学设想一、创设情境导入新课在一次射击比赛中,甲、乙两名运动员各射击10次,命中环数如下﹕甲运动员﹕7,8,6,8,6,5,8,10,7,4;乙运动员﹕9,5,7,8,7,6,8,6,7,7.请问从上面的数据中你能否看出甲,乙两名运动员哪一位发挥比较稳定?为了从整体上更好地把握总体的规律,我们要通过样本的数据对总体的数字特征进行研究——用样本的数字特征估计总体的数字特征.二、新课探究(一)众数、中位数、平均数初中我们曾经学过众数,中位数,平均数等各种数字特征,应当说,这些数字都能够为我们提供关于样本数据的特征信息.例如前面一节在调查100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t(最高的矩形的中点)(图略见教材第72页)它告诉我们,该市的月均用水量为2. 25t的居民数比月均用水量为其他值的居民数多,但它并没有告诉我们到底多多少.提问:请大家翻回到教材第66页看看原来抽样的数据,有没有2.25 这个数值呢?根据众数的定义,2.25怎么会是众数呢?为什么?(请大家思考作答)分析:这是因为样本数据的频率分布直方图把原始的一些数据给遗失的原因,而2.25是由样本数据的频率分布直方图得来的,所以存在一些偏差.提问:那么如何从频率分布直方图中估计中位数呢?分析:在样本数据中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,第 13 页。
高考(理)总复习资料:第9章 第2讲 用样本估计总体
• ①甲同学成绩的中位数大于乙同学成绩的中 位数;
• ②甲同学的平均分比乙同学高; • ③甲同学的平均分比乙同学低; • ④甲同学成绩的方差小于乙同学成绩的方
差. • 上解析面:说甲法的中正位确数的81,是乙_的__中_位__数_8_7..5,故①错, x 甲= 81•,答x 案乙=:85③,故④②错,③对,由茎叶图知甲成绩比较稳定,
D. x 甲> x 乙,m甲<m乙
• [审题视点] 仔细观察茎叶图.中位数为一列
数中最中间的那个,当数有偶数个时,中位
数[解为析]中甲间数两据个集中数于的前平半段均,数而.乙数es据集中于后半段,
所以
x
甲<
x
乙;m甲=
18+22 2
=20,m乙=
27+31 2
=29,所以m甲
<m乙,所以选B.
• [答案] B
• [答案] C
32
1.平均数和方差都是重要的数字特征,是对总体一种简 明的阐述.平均数、中位数、众数描述总体的集中趋势,方 差和标准差描述波动大小.
2. 平均数、方差公式的推广 若数据x1,x2,…,xn的平均数为 x ,方差为s2,则数据 mx1+a,mx2+a,…,mxn+a的平均数为m x +a,方差为 m2s2.
33
• [变式探究] [2013·西安质检]某校甲、乙两 个班级各有5名编号为1,2,3,4,5的学生进行投 篮练习,每人投10次,投中的次数如下表:
学生 1号 2号 3号 4号 5号
甲班 6
7
7
8
7
乙班 6
7
6
7
9
34
则以上两组数据的方差中较小的一个为s2,则s2=( )
2 第2讲 用样本估计总体-精选教育文档
第2讲 用样本估计总体1.统计图表(1)频率分布直方图的画法步骤①求极差(即一组数据中最大值与最小值的差); ②决定组距与组数; ③将数据分组; ④列频率分布表; ⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图. ②总体密度曲线:随着样本容量的增加,作图时所分组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线. (3)茎叶图的画法步骤第一步:将每个数据分为茎(高位)和叶(低位)两部分;第二步:将最小茎与最大茎之间的数按大小次序排成一列; 第三步:将各个数据的叶依次写在其茎的两侧. 2.样本的数字特征(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.(2)中位数:把n 个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:把a 1+a 2+…+a n n称为a 1,a 2,…,a n 这n 个数的平均数.(4)标准差与方差:设一组数据x 1,x 2,x 3,…,x n 的平均数为x -,则这组数据的标准差和方差分别是 s =1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2] s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2]3.与平均数和方差有关的结论(1)若x 1,x 2,…,x n 的平均数为x -,那么mx 1+a ,mx 2+a ,…,mx n +a 的平均数为m x -+a ; (2)数据x 1,x 2,…,x n 与数据x ′1=x 1+a ,x ′2=x 2+a ,…,x ′n =x n +a 的方差相等,即数据经过平移后方差不变;(3)若x 1,x 2,…,x n 的方差为s 2,那么ax 1+b ,ax 2+b ,…,ax n +b 的方差为a 2s 2;(4)s2=1n∑i=1n(x i-x-)2=1n∑i=1nx2i-x-2,即各数平方的平均数减去平均数的平方.判断正误(正确的打“√”,错误的打“×”)(1)一组数据的方差越大,说明这组数据的波动越大.()(2)在频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间内的频率越大.()(3)茎叶图中的数据要按从小到大的顺序写,相同的数据可以只记一次.()(4)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观.()(5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数的估计值.()答案:(1)√(2)√(3)×(4)√(5)√(2019·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2019年1月至2019年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月份D.各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳解析:选A.根据折线图可知,2019年8月到9月、2019年10月到11月等月接待游客量都是减少,所以A错误.重庆市某年各月的平均气温(℃)数据的茎叶图如图,则这组数据的中位数是() A.19 B.20C.21.5 D.23解析:选B.由茎叶图可知这组数据由小到大依次为8,9,12,15,18,20,20,23,23,28,31,32,所以中位数为20+202=20.(2019·郑州第一次质量预测)我市某校组织学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100],若低于60分的人数是15,则该班的学生人数是________.解析:依题意得,成绩低于60分的相应的频率等于(0.005+0.01)×20=0.3,所以该班的学生人数是15÷0.3=50.答案:50甲、乙两人在10天中每天加工零件的个数用茎叶图表示如图,中间一列的数字表示零件个数的十位数,两边的数字表示零件个数的个位数,则这10天甲、乙两人日加工零件的平均数分别为________和________.解析:由茎叶图可知甲的平均数为19+18+20+21+23+22+20+31+31+3510=24.乙的平均数为19+17+11+21+24+22+24+30+32+3010=23.答案:24 23茎叶图[典例引领](2019·高考山东卷)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( ) A .3,5 B .5,5 C .3,7D .5,7【解析】 根据两组数据的中位数相等可得65=60+y ,解得y =5,又它们的平均值相等, 所以56+62+65+74+(70+x )5=59+61+67+(60+y )+785,解得x =3.故选A .【答案】 A茎叶图中的三个关注点(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一. (2)重复出现的数据要重复记录,不能遗漏.(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.[通关练习]1.(2019·贵州遵义航天高中模拟)某学生在一门功课的22次考试中,所得分数茎叶图如图所示,则此学生该门功课考试分数的极差与中位数之和为()A.117 B.118C.118.5 D.119.5解析:选B.22次考试中,所得分数最高的为98,最低的为56,所以极差为98-56=42,将分数从小到大排列,中间两数为76,76,所以中位数为76,所以此学生该门功课考试分数的极差与中位数之和为42+76=118.2.为了了解某校教师使用多媒体进行教学的情况,现采用简单随机抽样的方法,从该校400名授课教师中抽取20名,调查了他们上学期使用多媒体进行教学的次数,结果用茎叶图表示,如图所示.据此可估计上学期该校400名教师中,使用多媒体进行教学的次数在[16,30)内的人数为()A.100 B.160C.200 D.280解析:选B.由茎叶图可知在20名教师中,上学期使用多媒体进行教学的次数在[16,30)内的人数为8,据此可以估计400名教师中,使用多媒体进行教学的次数在[16,30)内的人数为400×820=160.频率分布直方图(高频考点)频率分布直方图是高考的热点,选择题、填空题、解答题都有可能出现.难度一般较小.高考对频率分布直方图的考查主要有以下三个命题角度:(1)求样本的频率、频数;(2)求样本的数字特征;(3)与概率结合的问题.[典例引领]角度一求样本的频率、频数(2019·高考山东卷)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56B.60C.120 D.140【解析】由频率分布直方图可知,这200名学生每周的自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,故这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140.故选D. 【答案】D角度二 求样本的数字特征(2019·云南省11校跨区调研)为了解一种植物果实的情况,随机抽取一批该植物果实样本测量重量(单位:克),按照[27.5,32.5),[32.5,37.5),[37.5,42.5),[42.5,47.5),[47.5,52.5]分为5组,其频率分布直方图如图所示. (1)求图中a 的值;(2)估计这种植物果实重量的平均数x -和方差s 2(同一组中的数据用该组区间的中点值作代表).【解】 (1)组距d =5,由5×(0.02+0.04+0.075+a +0.015)=1得a =0.05. (2)各组中点值和相应的频率依次为x =30×0.1+35×0.2+40×0.375+45×0.25+50×0.075=40, s 2=(-10)2×0.1+(-5)2×0.2+02×0.375+52×0.25+102×0.075=28.75. 角度三 与概率结合的问题(2019·东北四市高考模拟)某手机厂商推出一款6寸大屏手机,现对500名该手机使用者(200名女性,300名男性)进行调查,对手机进行打分,打分的频数分布表如下:给出结论即可);(2)根据评分的不同,运用分层抽样的方法从男性用户中抽取20名用户,再从这20名用户中满足评分不低于80分的用户中任意抽取3名用户,求3名用户中评分小于90分的人数X 的分布列和数学期望.【解】 (1)女性用户和男性用户的频率分布直方图如图. 由图可知女性用户评分的波动小,男性用户评分的波动大.(2)运用分层抽样的方法从男性用户中抽取20名用户,评分不低于80分的用户有6人,其中评分小于90分的有4人,从6人中任取3人,则X 的可能取值为1,2,3,P (X =1)=C 14C 22C 36=420=15,P (X =2)=C 24C 12C 36=1220=35,P (X =3)=C 34C 36=420=15.所以X 的分布列为E (X )=15+65+35=2.频率、频数、样本容量的计算方法(1)频率组距×组距=频率. (2)频数样本容量=频率,频数频率=样本容量,样本容量×频率=频数. [提醒] 制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确.[通关练习]1.在样本频率分布直方图中,共有9个小长方形,若中间一个小长方形的面积等于其他8个长方形的面积和的25,且样本容量为140,则中间一组的频数为( )A .28B .40C .56D .60解析:选B .设中间一组的频数为x ,因为中间一个小长方形的面积等于其他8个长方形的面积和的25,所以其他8组的频数和为52x ,由x +52x =140,解得x =40.2.(2019·武汉市武昌区调研考试)我国是世界上严重缺水的国家,城市缺水问题较为突出.某市政府为了鼓励居民节约用水,计划在本市试行居民生活用水定额管理,即确定一个合理的居民月用水量标准x(吨),月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解全市居民用水量的分布情况,通过抽样,获得了100位居民某年的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求频率分布直方图中a的值;(2)已知该市有80万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.解:(1)由频率分布直方图,可得(0.08+0.16+a+0.40+0.52+a+0.12+0.08+0.04)×0.5=1,解得a=0.30.(2)由频率分布直方图知,100位居民每人月均用水量不低于3吨的频率为(0.12+0.08+0.04)×0.5=0.12.由以上样本频率分布,可以估计全市80万居民中月均用水量不低于3吨的人数为800 000×0.12=96 000.(3)因为前6组的频率之和为(0.08+0.16+0.30+0.40+0.52+0.30)×0.5=0.88>0.85,前5组的频率之和为(0.08+0.16+0.30+0.40+0.52)×0.5=0.73<0.85,所以2.5≤x<3.由0.3×(x-2.5)=0.85-0.73,解得x=2.9.因此,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.样本数字特征的求解与应用[典例引领](1)在发生某公共卫生事件期间,有专业机构认为该事件在一段时间内没有发生大规模群体感染的标志是“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例的数据,一定符合该标志的是()A.甲地:总体均值为3,中位数为4B.乙地:总体均值为1,总体方差大于0C.丙地:中位数为2,众数为3D.丁地:总体均值为2,总体方差为3(2)(2019·南昌模拟)若1,2,3,4,m这五个数的平均数为3,则这五个数的方差为________.(3)(2019·石家庄市教学质量检测(二))设样本数据x 1,x 2,…,x 2 017的方差是4,若y i =2x i -1(i =1,2,…,2 017),则y 1,y 2,…,y 2 017的方差为________.【解析】 (1)根据标志,要求数据中每个个体不超过7.中位数与众数不能体现个体数据,无法确定.方差体现数据中个体的波动程度,若大于0,则无法确定.若均值为2,方差为3,假设∃x i ≥8,则s 2≥(x i -x -)210=6210>3,故假设不成立.(2)由1+2+3+4+m 5=3得m =5,所以这五个数的方差为15[(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2]=2.(3)设样本数据的平均数为x -,则y i =2x i -1的平均数为2x --1,则y 1,y 2,…,y 2 017的方差为12 017[(2x 1-1-2x -+1)2+(2x 2-1-2x -+1)2+…+(2x 2 017-1-2x -+1)2]=4×12 017[(x 1-x -)2+(x 2-x -)2+…+(x 2 017-x -)2]=4×4=16. 【答案】 (1)D (2)2 (3)16(1)众数、中位数、平均数及方差的意义①平均数与方差都是重要的数字特征,是对总体的一种简明地描述. ②平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小. (2)在计算平均数、方差时可利用平均数、方差的有关结论.[通关练习]1.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( ) A .甲的成绩的平均数小于乙的成绩的平均数 B .甲的成绩的中位数等于乙的成绩的中位数 C .甲的成绩的方差小于乙的成绩的方差 D .甲的成绩的极差小于乙的成绩的极差 解析:选C. x -甲=15(4+5+6+7+8)=6,x -乙=15(5×3+6+9)=6,甲的成绩的方差为15(22×2+12×2)=2,乙的成绩的方差为15(12×3+32×1)=2.4.2.(2019·合肥市第二次教学质量检测)某同学在高三学年的五次阶段性考试中,数学成绩依次为110,114,121,119,126,则这组数据的方差是________.解析:因为对一组数据同时加上或减去同一个常数,方差不变,所以本题中可以先对这5个数据同时减去110,得到新的数据分别为0,4,11,9,16,其平均数为8,根据方差公式可得s 2=(0-8)2+(4-8)2+(11-8)2+(9-8)2+(16-8)25=30.8.答案:30.83.(2019·贵阳市监测考试)在某校科普知识竞赛前的模拟测试中,得到甲、乙两名学生的6次模拟测试成绩(百分制)的茎叶图(如图).若从甲、乙两名学生中选择一人参加该知识竞赛,你会选哪位?请运用统计学的知识说明理由.解:学生甲的平均成绩x -甲=68+76+79+86+88+956=82,学生乙的平均成绩x -乙=71+75+82+84+86+946=82,又s 2甲=16×[(68-82)2+(76-82)2+(79-82)2+(86-82)2+(88-82)2+(95-82)2]=77,s 2乙=16×[(71-82)2+(75-82)2+(82-82)2+(84-82)2+(86-82)2+(94-82)2]=1673,则x -甲=x -乙,s 2甲>s 2乙,说明甲、乙的平均水平一样,但乙的方差小,即乙发挥更稳定,故可选择学生乙参加知识竞赛.众数、中位数和平均数的异同相同点:标准差和方差描述了一组数据围绕平均数波动的大小.不同点:方差与原始数据的单位不同,且平方后可能夸大了偏差程度,标准差则不然.易错防范(1)易忽视频率分布直方图中纵轴表示的应为频率组距.(2)在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义. 1.把样本容量为20的数据分组,分组区间与频数如下:[10,20),2;[20,30),3;[30,40),4;[40,50),5;[50,60),4;[60,70],2,则在区间[10,50)上的数据的频率是( ) A .0.05 B .0.25 C .0.5D .0.7解析:选D.由题知,在区间[10,50)上的数据的频数是2+3+4+5=14,故其频率为1420=0.7.2.(2019·广西三市第一次联考)在如图所示一组数据的茎叶图中,有一个数字被污染后模糊不清,但曾计算得该组数据的极差与中位数之和为61,则被污染的数字为( ) A .1 B .2 C .3D .4解析:选B.由题图可知该组数据的极差为48-20=28,则该组数据的中位数为61-28=33,易得被污染的数字为2.3.(2019·岳阳模拟)某商场在国庆黄金周的促销活动中,对10月2日9时到14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时到12时的销售额为( ) A .6万元 B .8万元 C .10万元D .12万元解析:选C.设11时到12时的销售额为x 万元,依题意有2.5x =0.100.40,解得x =10.4.某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示,以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( )解析:选A.由分组可知C ,D 一定不对;由茎叶图可知[0,5)有1人,[5,10)有1人,所以第一、二小组频率相同,频率分布直方图中矩形的高应相等,可排除B.5.某人5次上班途中所花的时间(单位:分钟)分别为x ,y ,10,11,9.已知这组数据的平均数为10,方差为2,则|x -y |的值为( ) A .1 B .2 C .3D .4解析:选D.由题意这组数据的平均数为10,方差为2,可得:x +y =20,(x -10)2+(y -10)2=8,设x =10+t ,y =10-t ,由(x -10)2+(y -10)2=8,得t 2=4,所以|x -y |=2|t |=4.6.(2019·湖南省五市十校联考)某中学奥数培训班共有14人,分为两个小组,在一次阶段测试中两个小组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是88,乙组学生成绩的中位数是89,则n -m 的值是________. 解析:由甲组学生成绩的平均数是88,可得70+80×3+90×3+(8+4+6+8+2+m +5)7=88,解得m =3.由乙组学生成绩的中位数是89,可得n =9,所以n -m =6. 答案:67.为了普及环保知识,增强环保意识,某大学有300名员工参加环保知识测试,按年龄分组:第1组[25,30),第2组[30,35),第3组[35,40),第4组[40,45),第5组[45,50],得到的频率分布直方图如图所示.现在要从第1,3,4组中用分层抽样的方法抽取16人,则在第4组中抽取的人数为________.解析:根据频率分布直方图得,第1,3,4组的频率之比为1∶4∶3,所以用分层抽样的方法抽取16人时,在第4组中应抽取的人数为16×31+4+3=6.答案:68.(2019·成都市第二次诊断性检测)在一个容量为5的样本中,数据均为整数,已测出其平均数为10,但墨水污损了两个数据,其中一个数据的十位数字1未被污损,即9,10,11,1 ,那么这组数据的方差s 2可能的最大值是________.解析:由题意可设两个被污损的数据分别为10+a ,b ,(a ,b ∈Z ,0≤a ≤9),则10+a +b +9+10+11=50,即a +b =10,b =10-a ,所以s 2=15[(9-10)2+(10-10)2+(11-10)2+(10+a -10)2+(b -10)2]=15[2+a 2+(b -10)2]=25(1+a 2)≤25×(1+92)=32.8.答案:32.89.某校1 200名高三年级学生参加了一次数学测验(满分为100分),为了分析这次数学测验的成绩,从这1 200人的数学成绩中随机抽取200人的成绩绘制成如下的统计表,请根据表中提供的信息解决下列问题:(1)求a 、b 、c (2)如果从这1 200名学生中随机抽取一人,试估计这名学生该次数学测验及格的概率P (注:60分及60分以上为及格);(3)试估计这次数学测验的年级平均分.解:(1)由题意可得,b =1-(0.015+0.125+0.5+0.31)=0.05,a =200×0.05=10,c =200×0.5=100.(2)根据已知,在抽出的200人的数学成绩中,及格的有162人.所以P =162200=81100=0.81.(3)这次数学测验样本的平均分为x -=16×3+32.1×10+55×25+74×100+88×62200=73,所以这次数学测验的年级平均分大约为73分.10.(2019·高考北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图: (1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数; (3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解:(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6, 所以样本中分数小于70的频率为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4. (2)根据题意,样本中分数不小于50的频率为 (0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5.所以总体中分数在区间[40,50)内的人数估计为400×5100=20. (3)由题意可知,样本中分数不小于70的学生人数为 (0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×12=30.所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.1.(2019·长春模拟)某销售公司为了解员工的月工资水平,从1 000位员工中随机抽取100位员工进行调查,得到如下的频率分布直方图: (1)试由此图估计该公司员工的月平均工资;(2)该公司的工资发放是以员工的营销水平为重要依据来确定的,一般认为,工资低于4 500元的员工属于学徒阶段,没有营销经验,若进行营销将会失败;高于4 500元的员工属于成熟员工,进行营销将会成功.现将该样本按照“学徒阶段工资”“成熟员工工资”分成两层,进行分层抽样,从中抽出5人,在这5人中任选2人进行营销活动.活动中,每位员工若营销成功,将为公司赚得3万元,否则公司将损失1万元.试问在此次比赛中公司收入多少万元的可能性最大?解:(1)估计该公司员工的月平均工资为0.000 1×1 000×2 000+0.000 1×1 000×3 000+0.000 2×1 000×4 000+0.000 3×1 000×5 000+0.000 2×1 000×6 000+0.000 1×1 000×7 000=4 700(元). (2)抽取比为5100=120,从工资在[1 500,4 500)内的员工中抽出100×(0.1+0.1+0.2)×120=2人,设这两位员工分别为1,2;从工资在[4 500,7 500]内的员工中抽出100×(0.3+0.2+0.1)×120=3人,设这三位员工分别为A ,B ,C .从中任选2人,共有以下10种不同的等可能结果:(1,2),(1,A ),(1,B ),(1,C ),(2,A ),(2,B ),(2,C ),(A ,B ),(A ,C ),(B ,C ).两人营销都成功,公司收入6万元,有以下3种不同的等可能结果:(A ,B ),(A ,C ),(B ,C ),概率为310;其中一人营销成功,一人营销失败,公司收入2万元,有以下6种不同的等可能结果:(1,A ),(1,B ),(1,C ),(2,A ),(2,B ),(2,C ),概率为610=35; 两人营销都失败,公司收入-2万元,即损失2万元,有1种结果:(1,2),概率为110.因为110<310<35,所以公司收入2万元的可能性最大.2.(2019·河北三市第二次联考)某高三毕业班甲、乙两名同学在连续的8次数学周练中,统计解答题失分的茎叶图如图:(1)比较这两名同学8次周练解答题失分的平均数和方差的大小,并判断哪位同学做解答题相对稳定些;(2)以上述数据统计甲、乙两名同学失分超过15分的频率作为概率,假设甲、乙两名同学在同一次周练中失分多少互不影响,预测在接下来的2次周练中,甲、乙两名同学失分均超过15分的次数X 的分布列和均值.解:(1) x -甲 =18(7+9+11+13+13+16+23+28)=15,x -乙=18(7+8+10+15+17+19+21+23)=15,s 2甲=18[(-8)2+(-6)2+(-4)2+(-2)2+(-2)2+12+82+132]=44.75, s 2乙=18[(-8)2+(-7)2+(-5)2+02+22+42+62+82]=32.25. 甲、乙两名同学解答题失分的平均数相等;甲同学解答题失分的方差比乙同学解答题失分的方差大.所以乙同学做解答题相对稳定些.(2)根据统计结果,在一次周练中,甲和乙失分超过15分的概率分别为P 1=38,P 2=12,两人失分均超过15分的概率为P 1P 2=316,X 的所有可能取值为0,1,2.依题意,X ~B (2,316),P (X =k )=C k 2(316)k (1316)2-k,k =0,1,2, 则X 的分布列为X 的均值E (X )=2×316=38.。
用样本估计总体2.2.1用样本的频率分布估计总体分布
频率 组距
0.1
0.2
0.3
0.4
0.5
O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)
平均数是频率分布直方图的“重心”. 用频率分布直方图估计平均数方法是
01
平均数≈图中每一个小矩形的面积×小矩形底边中点的横坐标之和
8 4 6 3 6 8 3 8 9 1
叶就是从茎的旁边生长出来的数,表示得分的个位数。
茎是指中间的一列数,表示得分的十位数
茎叶图不仅能够保留原始数据,而且能够展示数据的分布情况。 从运动员的成绩的分布来看,乙运动员的成绩更好;从叶在茎上的分布情况来看,乙运动员的得分更集中于峰值附近,说明乙运动员的发挥更稳定。 在样本数据较少时,用茎叶图表示数据的效果较好。它不但可以保留所有信息,而且可以随时纪录,这对数据的纪录和表示都能带来方便。但当样本数据较多时,茎叶图就显得不太方便。因为每一个数据都要在茎叶图中占据一个空间,如果数据很多,枝叶就会很长。
人数
2
3
2
3
4
1
1
1
平均数: 一组数据的算术平均数,即 x= 练习: 在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示: 分别求这些运动员成绩的众数,中位数与平均数 平均数: 一组数据的算术平均数,即 x=
1
解:在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75. 上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70;
0.5 1 1.5 2 2.5 3 3.5 4 4.5
5.画频率分布直方图
思考 : 如果当地政府希望使 85% 以上的居民每月的用水量不超出标准,根据频率分布表和频率分布直方图,你能对制定月用水量标准提出建议吗? 注意 小正方形的面积=组距×频率/组距=频率 各小正方形的面积之和等于1. 每一小组频率实际上反映样本数据落在各个小组的比例大小。
第九章 第二节 用样本估计总体
解析:频数=32×0.375=12.
答案: C
返回
2.(教材习题改编)某同学进入高三后,
11 4次月考的数学成绩的茎叶图如图, 4 8 12 6 13 2
则该同学数学成绩的平均分是(
A.125 C.45 B.122.25 D.129.5
)
114+126+128+132 解析:由茎叶图知平均值为 =125, 4
返回
怎 么 考 从高考内容上来看,频率分布直方图、茎叶图、样 本数据及数字特征是命题的热点,各种题型都有,难度
中低档,多与概率问题相结合交汇考查.注重考查学生
解决问题的能力.
返回
返回
1.条形统计图的特点 数据量很大时,能直观地反映数据分布的大致情况,且 能清晰地表示出 各个区间的具体数目.
2.茎叶图表示数据有两个突出的优点
(1)统计图上没有 信息的损失 ,所有的原始数据都可以从 这个茎叶图中得到; (2)茎叶图可以随时记录,方便 表示与比较 .但是,当数 据量很大或有多组数据时,茎叶图就不那么直观、清晰
了. 返回
3.频率分布直方图 (1)频率分布直方图:每个小矩形的宽度为 Δxi(分组的 fi 宽度),高为 ,小矩形的面积恰为相应的 频率 fi , Δxi 我们称这样的图形为频率分布直方图.
中位数
直方图的面积应该 相等 . 返回
数字特征 平均数
定义 样本数据的算术平均数.即 1 n(x1+x2+„+xn) . x=
1 2 2 2 2= n[( x -x1) +( x -x2) +„+( x -xn) ] . s
方差
其中s为标准差.
返回
返回
1.一个容量为32的样本,已知某组样本的频率为0.375, 则该组样本的频数为 A.4 C.12 B.8 D.16 ( )
新高考新教材数学人教B版一轮课件:第十章 第二节 用样本估计总体 课件(71张)
4.分层抽样的均值与方差
必备知识 关键能力 限时规范训练 8
我们以分两层抽样的情况为例.假设第一层有 m 个数,分别为 x1,x2,…,xm,平均
数为 x ,方差为 s2;第二层有 n 个数,分别为 y1,y2,…,yn,平均数为 y ,方差为 t2.则
x =__m1__i=m_1x_i___,s2=____m1__i=m_1_(_x_i-___x_)2____,
3.(链接人B必修第二册P64例1)一个容量为20的样本,其数据按从小到大的顺序排 列为:1,2,2,3,5,6,6,7,8,8,9,10,13,13,14,15,17,17,18,18,则该组数据的第75百分位数为 ________,第86百分位数为________.
解析:∵75%×20=15,∴第 75 百分位数为14+2 15=14.5.∵86%×20=17.2.∴第 86 百分位数为第 18 个数据 17.
必备知识 关键能力 限时规范训练 7
知识点三 极差、方差与标准差 1.极差:一组数的极差指的是这组数的最大值减去最小值所得的_差__.不难看出,极 差反应了一组数的变化范围,描述了这组数的__离__散__程度.
高三一轮复习第八章 第二节用样本估计总体
课时作业1.(2022·毛坦厂中学月考)一个容量为32的样本,已知某组样本的频率为0.375,则该组样本的频数为( )A.4 B.8C.12 D.16【答案】 C2.(2022·西藏拉萨中学月考)某次知识竞赛中,四个参赛小队的初始积分都是10分,在答题过程中,各小队每答对1题加0.5分,若答题过程中四个小队答对的题数分别是3道,7道,7道,3道,则四个小队积分的方差为( )A.0.5 B.0.75C.1 D.1.25【解析】 四个小队积分分别为11.5,13.5,13.5,11.5,平均数为11.5+13.5+13.5+11.54=12.5,故四个小队积分的方差为14[(11.5-12.5)2×2+(13.5-12.5)2×2]=1,故选C.【答案】 C3.(2022·龙岩质检)党的十八大以来,脱贫攻坚取得显著成绩.2013年至2016年4年间,累计脱贫5 564万人,2017年各地根据实际进行创新,精准、高效地完成了脱贫任务.某地区对当地3 000户家庭的2017年所的年收入情况调查统计,年收入的频率分布直方图如图所示,数据(单位:千元)的分组依次为[20,40),[40,60),[60,80),[800,100],则年收入不超过6万的家庭大约为( )A.900户B.600户C.300户D.150户【解析】 由频率分布直方图可得年收入不超过6万的家庭的概率为:(0.005+0.01)×20=0.3,所以年收入不超过6万的家庭大约为:3 000×0.3=900,故选A.【答案】 A4.(2022·江苏模拟)从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.在这些用户中,用电量落在区间[150,250]内的户数为( )A.48 B.52C.60 D.70【解析】 由题意可知,这些用户中,用电量落在区间[150,250]内的频率为1-(0.002 4+0.003 6+0.002 4+0.001 2)×50=0.52,所以用电量落在区间[150,250]内的户数为100×0.52=52,故选D.【答案】 D5.(多选) (2022·江苏模拟)已知数据x1,x2,…,x n的平均数为,标准差为s,则( ) A.数据x21,x2,…,x2n的平均数为,标准差为s2B.数据2x1,2x2,…,2x n的平均数为,标准差为2sC.数据x1+2,x2+2,…,x n+2的平均数为x+2,方差为s2D.数据2x1-2,2x2-2,…,2x n-2的平均数为-2,方差为2s2【解析】 取x1=1,x2=3,则=2,x21=1,x2=9,=5,故,A错误;数据2x1,2x2,…,2x n的平均数为2x,标准差为2s,B正确;数据x1+2,x2+2,…,x n+2的平均数为x+2,方差为s2,C正确;数据2x1-2,2x2-2,…,2x n-2的平均数为2x-2,方差为4s2,D错误.故选BC.【答案】 BC6.(多选)(2022·石家庄五校联考)下图统计了截止到2019年年底中国电动汽车充电桩细分产品占比及保有量情况,关于这5次统计,下列说法错误的是( )A.私人类电动汽车充电桩保有量增长率最高的年份是2018年B.公共类电动汽车充电桩保有量的中位数是25.7万台C.公共类电动汽车充电桩保有量的平均数为23.12万台D.从2017年开始,我国私人类电动汽车充电桩占比均超过50%【解析】 私人类电动汽车充电桩保有量增长率最高的年份是2016年,A错误;这5次统计的公共类电动汽车充电桩保有量的中位数是21.4万台,B错误;因为4.9+14.1+21.4+30+44.7=23.02,故C项错误,D项显然正确.故选:ABC.5【答案】 ABC7.某公司10位员工的月工资(单位:元)为x1,x2,…,x10,其平均数和方差分别为x 和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的平均数和方差分别为( )【解析】 因为每个数据都加上100,所以平均数也增加100,而离散程度应保持不变,即方差不变.【答案】 D8.(2022·宁夏长庆中学)某校为了了解全校高中学生十一小长假参加实践活动的情况,抽查了100名学生,统计他们假期参加实践活动的时间,绘成的频率分布直方图如图所示,估计这100名学生参加实践活动时间的中位数是( )A.7.2 B.7.16C.8.2 D.7【解析】 因为在频率分布直方图中,中位数两侧的面积相等,所以0.04×2+0.12×2+(x-6)×0.15=0.5,可解出x=7.2,故选A.【答案】 A9.(2022·泉州质检)已知某样本的容量为50,平均数为70,方差为75.现发现在收集这些数据时,其中的两个数据记录有误,一个错将80记录为60,另一个错将70记录为90.在对错误的数据进行更正后,重新求得样本的平均数为,方差为s2,则( )【解析】 分别根据数据的平均数和方差的计算公式,求得x,s2的值,即可得到答案.由题意,可得=70×50+80-60+70-9050=70,设收集的48个准确数据分别记为x1,x2, (x48)则75=150[(x1-70)2+(x2-70)2+…+(x48-70)2+(60-70)2+(90-70)2]=150[(x1-70)2+(x2-70)2+…+(x48-70)2+500],s2=150[(x1-70)2+(x2-70)2+…+(x48-70)2+(80-70)2+(70-70)2]=150[(x1-70)2+(x2-70)2+…+(x48-70)2+100]<75,所以s2<75.故选A.【答案】 A10.(多选)(2022·重庆模拟)2020年12月31日,我国第一支新冠疫苗“国药集团中国生物新冠灭活疫苗”获得国家药监局批准附条件上市,保护率为79.34%,中和抗体阳转率为99.52%,该疫苗将面向全民免费.所谓疫苗的保护率,是通过把人群分成两部分,一部分称为对照组,即注射安慰剂;另一部分称为疫苗组,即注射疫苗来进行的.当从对照组和疫苗组分别获得发病率后,就可以计算出疫苗的保护率=(对照组发病率-疫苗组发病率)/对照组发病率×100%.关于注射疫苗,下列说法正确的是( )A.只要注射了新冠疫苗,就一定不会感染新冠肺炎B.新冠疫苗的高度阳转率,使得新冠肺炎重症感染的风险大大降低C.若对照组10 000人,发病100人;疫苗组2 000人,发病80人,则保护率为60% D.若某疫苗的保护率为80%,对照组发病率为50%,那么在1 000个人注射了该疫苗后,一定有1 000个人发病【解析】 显然选项A错误,对于选项B:新冠疫苗的阳转率高说明有高滴度的抗体,当感染新冠肺炎后,肺炎症状将会大大降低,进而减少重症率,所以选项B正确,对于选项C:由保护率的计算公式可得:对照组和疫苗组的发病率分别为1%,0.4%,代入可得保护率为60%,所以选项C正确,对于选项D:虽然根据公式算出样本中疫苗组的发病率为10%,但实际是否会发病是随机事件,所以选项D错误.【答案】 BC11.样本中共有五个个体,其值分别为a,0,1,2,3,若该样本的平均值为1,则样本方差为________.【解析】 由题意知15(a+0+1+2+3)=1,解得a=-1,所以样本方差为s2=15[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2.【答案】 212.(2022·西城一模)在一次体育水平测试中,甲、乙两校均有100名学生参加,其中:甲校男生成绩的优秀率为70%,女生成绩的优秀率为50%;乙校男生成绩的优秀率为60%,女生成绩的优秀率为40%.对于此次测试,给出下列三个结论:①甲校学生成绩的优秀率大于乙校学生成绩的优秀率;②甲、乙两校所有男生成绩的优秀率大于甲、乙两校所有女生成绩的优秀率;③甲校学生成绩的优秀率与甲、乙两校所有学生成绩的优秀率的大小关系不确定.其中,所有正确结论的序号是________.【解析】 不能确定甲乙两校的男女比例,故①不正确;因为甲乙两校的男生的优秀率均大于女生成绩的优秀率,故甲、乙两校所有男生成绩的优秀率大于甲、乙两校所有女生成绩的优秀率,故②正确;因为不能确定甲乙两校的男女比例,故不能确定甲校学生成绩的优秀率与甲、乙两校所有学生成绩的优秀率的大小关系,故③正确.【答案】 ②③13.(2022·顺德二模)为了解某市公益志愿者的年龄分布情况,有关部门通过随机抽样,得到如图的频率分布直方图.(1)求a的值,并估计该市公益志愿者年龄的平均数(同一组中的数据用该组区间的中点值作代表);(2)根据世界卫生组织确定新的年龄分段,青年是指年龄15~44岁的年轻人.据统计,该市人口约为300万人,其中公益志愿者约占总人口的40%.试根据直方图估计该市青年公益志愿者的人数.【解】 (1)∵(0.005+0.01+0.02+a+0.025+0.01)×10=1,∴a=0.03该市公益志愿者的平均年龄:=20×0.05+30×0.1+40×0.2+50×0.3+60×0.25+70×0.1=49(2)由频率分布直方图可得年龄15~44岁的频率为:(0.005+0.01+0.02×910)×10=0.33,∴估计该市青年公益志愿者的人数为:300×40%×0.33=39.6(万) 14.(2022·临沂三模)某地教育主管部门对所管辖的学校进行年终督导评估,为了解某学校师生对学校教学管理的满意度,分别从教师和不同年级的学生中随机抽取若干师生,进行评分(满分100分),绘制如下频率分布直方图,并将分数从低到高分为四个等级:满意度评分低于 60分 60分到 79分 80分到 89分 90分及 以上 满意度等级 不满意基本 满意满意 非常满意 已知满意度等级为基本满意的有136人.(1)求表中a 的值及不满意的人数;(2)从等级为不满意师生中按评分分层抽取6人了解不满意的原因,并从6人中选取2人担任整改监督员,求2人中恰有1人评分在[40,50)的概率;(3)若师生的满意指数不低于0.8,则该校可获评“教学管理先进单位”,根据你所学的统计知识,判断是否能获奖,并说明理由.(注:满意指数=满意程度的平均分100) 【解】 (1)由频率和为1,得(0.002+0.004+0.014+0.020+a +0.025)×10=1,解得a =0.035,设不满意的人数为x ,则(0.002+0.004)∶(0.014+0.020)=x ∶136, 解得x=24;(2)按评分分层抽取6人,应在评分在[40,50)的师生中抽取2人,分别记作A、B,在评分在[50,60)的师生中抽取4人,分别记为c、d、e、f,从这6人中选2人的所有基本事件为AB、Ac、Ad、Ae、Af、Bc、Bd、Be、Bf、cd、ce、cf、de、df、ef共15种,其中恰有1人评分在[40,50)包含的基本事件为Ac、Ad、Ae、Af、Bc、Bd、Be、Bf共8种,记“2人中恰有1人的评分在[40,50)”为事件A,则P(A)=8 15;(3)师生的满意指数为1100×(45×0.02+55×0.04+65×0.14+75×0.2+85×0.35+95×0.25)=0.807;师生的满意指数不低于0.8,可获评“教学管理先进单位”.。
用样本估计总体(二)
对收集到的数据进行整理、分析,得出结论。
实例二:医学研究中的样本分析
样本来源
确定研究目的,选择合适的样本 来源,如临床病例、健康人群等
。
样本特征
收集样本的基本信息,如年龄、 性别、生活习惯等。
实验设计
根据研究目的和研究问题,设计 合理的实验方案和数据收集方法
。
结果解释与讨论
根据研究结论,进行结果解释和 讨论,提出建议和展望。
总体误差
总体误差是指由于总体本身的特征或异常值引起的误差。总体误差是客观存在的,无法完全消除。
样本分布和总体分布
样本分布
样本分布是指从总体中抽取的样本数 据的分布情况。样本分布可以通过直 方图、箱线图等图形化方法进行展示 。
总体分布
总体分布是指总体中所有数据的分布 情况。总体分布是未知的,需要通过 样本分布进行推断。
性质
样本均值具有无偏性和一致性,即样本均值的期望值等于总体 均值,随着样本容量的增加,样本均值趋于总体均值。
应用
样本均值常用于描述样本数据的集中趋势和估计总体均值。
方差
01
02
定义
性质
样本方差的计算公式为 $s^2 = frac{1}{n-1}sum_{i=1}^{n} (x_i bar{x})^2$,其中 $n$ 是样本容量, $x_i$ 是每个样本观测值,$bar{x}$ 是 样本均值。
样本。
实施方法
确定间隔和起始点,按照间隔依次 抽取样本。
特点
简单易行,适合总体数量较大且均 匀分布的情况。
分层抽样
定义
分层抽样是将总体分成若干个层次或类别,从每个层次或类别中随 机抽取一定数量的样本。
实施方法
先对总体进行分层,然后从每层中随机抽取样本。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
所分的组数 增
加, 组距 减小,相应的频率折线图会越来越接近于一条光滑曲线, 统计中称这条光滑曲线为总体密度曲线. (3)茎叶图的优点 茎叶图的优点是可以 保留 原始数据,而且可以 随时 记录,这 对数据的记录和表示都能带来方便.
2.样本的数字特征 (1)众数、中位数、平均数
数字特征 定义与求法 一组数据中重复出现次数 最多 的数 把一组数据按 从小到大的 中位数 优点与缺点 众数通常用于描述变量的值出现次数最多的 数. 但显然它对其他数据信息的忽视使得无法客 观地反映总体特征 中位数等分样本数据所占频率, 它不受少数几个
3.如图是 100 位居民月均用水量的频率分布直方图,则 月均用水量为[2,2.5)范围内的居民数有________人.
答案:25
4.一个容量为 200 的样本的频率分布直方图如图所示, 则样本数据落在[5,9)内的频率和频数分别为________.
答案:0.2
40
5.某赛季甲、乙两名篮球运动员每场比赛得分记录用茎叶 5.某赛季甲、乙两名篮球运动员每场比赛得分记录用茎
图表示,从茎叶图的分布情况看, ________运动员的发挥更稳定 . 表示,从茎叶图的分布情况看, ________ 运动员的发挥更稳定
答案:乙
6.将某选手的 9 个得分去掉 1 个最高分,去掉 1 个最低 分, 7 个剩余分数的平均分为 91.现场作的 9 个分数的茎叶图后 来有 1 个数据模糊,无法辨认,在图中以 x 表示:
B.84,85
C.86,84
D.84,86
解析:选 A 由图可知,去掉一个最高分和一个最低分后, 所剩数据为 84,84,84,86,87. 84+84+84+86+87 ∴平均数为 =85,众数为 84. 5
2.若某校高一年级 8 个班参加合唱比赛的得分如茎叶图所 示,则这组数据的中位数和平均数分别是( )
A.91.5 和 91.5
B.91.5 和 92
C.91 和 91.5 D.92 和 92
解析:选 A
将这组数据从小到大排列,得
91+92 87,89,90,91,92,93,94,96.故中位数为 =91.5. 2 87+89+90+91+92+93+94+96 - 平均数为 x = =91.5. 8
36 答案: 7
典题 1]
[典题 1]
(1)(2015· 新课标全国卷Ⅱ)根据下面给出的 2004 年
(1)(2015· 新课标全国卷Ⅱ)根据下面给出的 2004 年
3 年我国二氧化硫年排放量 (单位:万吨 柱形图,以下结论 至 2013 年我国二氧化硫年排放量 (单位:万吨)) 柱形图,以下结论
1.频率分布直方图和茎叶图 (1)作频率分布直方图的步骤 ①求极差(即一组数据中 最大值 与最小值 的差); ②决定 组距 与 组数 ; ③将数据 分组 ; ④列 频率分布表 ; ⑤画 频率分布直方图 .
(2)频率分布折线图和总体密度曲线 ①频率分布折线图:连接频率分布直方图中各小长方形上端 的 中点 ,就得到频率分布折线图. ②总体密度曲线:随着样本容量的增加,作图时
)
中不正确的是 正确的是 ( )(
A.逐年比较,2008 年减少二氧化硫排放量的效果最显著 B.2007 年我国治理二氧化硫排放显现成效 C.2006 年以来我国二氧化硫年排放量呈减少趋势 D.2006 年以来我国二氧化硫年排放量与年份正相关
年度的消费情况进行统计,发现消费金额 ( 单位:万元 ) 都 [0.3,0.9]内,其频率分布直方图如图所示. ①直方图中的 a=________; [0.3,0.9] 内,其频率分布直方图如图所示.
②区间 [0.3,0.5) 内的频率为 0.1×1.5 + 0.1×2.5 = 0.4 ,故 [0.5,0.9]内的频率为 1-0.4=0.6. 因 此 , 消 费 金 额 在 区 间 [0.5,0.9] 内 的 购 物 者 的 人 数 为 0.6×10 000=6 000. (3) 月工资收入落在 (30,35]( 百元 ) 内的频率为 1 - (0.02 + 0.04+0.05+0.05+0.01)×5=1-0.85=0.15,则 0.15÷ 5=0.03, 所以各组的频率比为 0.02 ∶ 0.04 ∶ 0.05 ∶ 0.05 ∶ 0.03 ∶ 0.01 = 3 2∶4∶5∶5∶3∶1,所以(30,35](百元)月工资收入段应抽出 20 ×100=15(人).
答案:(1)D
(2)①3
②6 000
(3)15
1.绘制频率分布直方图时需注意: (1)制作好频率分布表后, 可以利用各组的频率之和是 否为 1 来检验该表是否正确; 频率 (2)频率分布直方图的纵坐标是 ,而不是频率. 组距
2. 由频率分布直方图进行相关计算时, 需掌握下列关系式: 频率 (1) ×组距=频率; 组距 频数 频数 (2) =频率,此关系式的变形为 =样本容量, 样本容量 频率 样本容量×频率=频数.
考纲要求: 1.了解分布的意义和作用,会列频率分布表,会画频率分布直 方图、频率折线图、茎叶图,理解它们各自的特点. 2.理解样本数据标准差的意义和作用,会计算数据标准差. 3.能从样本数据中提取基本的数字特征(平均数、标准差),并 给出合理解释. 4.会用样本的频率分布估计总体的分布,会用样本的基本数 字特征估计总体的基本数字特征,理解用样本估计总体的思想. 5.会用随机抽样的基本方法和样本估计总体的思想解决一些 简单的实际问题.
人做电话询访,则(30,35](百元)月工资收入段应抽出 ________人.
中抽出 100 _______ 人.
[听前试做]
(1)对于 A 选项,由图知从 2007 年到 2008 年二
氧化硫排放量下降得最多,故 A 正确.对于 B 选项,由图知,由 2006 年到 2007 年矩形高度明显下降, 因此 B 正确. 对于 C 选项, 由图知从 2006 年以后除 2011 年稍有上升外,其余年份都是逐年 下降的,所以 C 正确.由图知 2006 年以来我国二氧化硫年排放 量与年份负相关,故选 D. (2) ① 由 0.1×1.5 + 0.1×2.5 + 0.1a + 0.1×2.0 + 0.1×0.8 + 0.1×0.2=1,解得 a=3.
(2)标准差、方差 ①标准差:样本数据到平均数的一种平均距离,一般用 s 表 示,s= 1 -2 -2 -2 [ x 1- x +x2- x +„+xn- x ]. n
②方差:标准差的平方 s2 1 s = n [(x1 - - x )2 + (x2 - - x )2 +„+ (xn - - x )2] ,其中 xi(i =
答案:(1)A
在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个 图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶 的含义.
1.如图是 2015 年某大学自主招生面试环节中,七位评 委为某考生打出的分数的茎叶统计图, 去掉一个最高分和一 个最低分后,所剩数据的平均数和众数依次为( )
Байду номын сангаас
A.85,84
调查结果画出如图所示的频率分布直方图,为了了解工薪
(3)某地政府调查了工薪阶层 1 000 人的月工资收入,并根据 调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对
月工资收入的满意程度,要用分层抽样的方法从调查的 1
中抽出 100 人做电话询访,则(30,35](百元)月工资收入段 月工资收入的满意程度,要用分层抽样的方法从调查的 1 000 人
(3)×
(4)在频率分布直方图中,最高的小长方形底边中点的横坐标 是众数. ( √ ) (5)× (3) × (4)
(6)√
(5)在频率分布直方图中, 众数左边和右边的小长方形的面积 和是相等的. ( × ) (2)√ 答案:(1)
(3)×
(4)√
(5)×
(6)√
(6)一组数据的方差越大,说明这组数据的波动越大. ( √ ) (5) 答案:(1)× (2)√ (3)× (4)
②在这些购物者中,消费金额在区间 [0.5,0.9]内的购物者的人数 为________ . 为________. (2)(2015· 湖北高考)某电子商务公司对 10 000 名网络购物者 2014 年度的消费情况进行统计,发现消费金额 ( 单位:万元 ) 都在区间
②在这些购物者中,消费金额在区间 [0.5,0.9]内的购物者 ①直方图中的 a=________;
则 7 个剩余分数的方差为________.
解析:由图可知去掉的两个数是 87,99,所以 87+ 90×2+91×2+94+90+x =91×7, 解得 1 2 x =4.s = [(87 7
-91)2 +(90- 91)2×2+ (91-91)2×2+(94- 91)2×2] = 36 . 7
众数
顺序排列,处在 中间 位置的一 极端值的影响,这在某些情况下是优点,但它对 个数据(或两个数据的平均数) 如果有 n 个数据 x1,x2,„, 极端值的不敏感有时也会成为缺点 平均数与每一个样本数据有关, 可以反映出更多
平均数
但平均数受数据中 x n, 那么这 n 个数的平均数 x = 的关于样本数据全体的信息, x1+x2+„+xn n 的极端值的影响较大, 使平均数在估计总体时可 靠性降低
2
1,2,3,„,n)是样本数据 ,n 是样本容量 ,- x 是样本平均数 .
(3)平均数、方差公式的推广 若数据 x1,x2,„,xn 的平均数为- x ,方差为 s2,则 数据 mx1+a,mx2+a,„,mxn+a 的平均数为 m- x +a, 方差为 m2s2.
[自我查验] 1. 判断下列结论的正误. (正确的打“√”, 错误的打“×”) (1)在频率分布直方图中,小矩形的高表示频率. ( × ) (2)√ 答案:(1) (2)频率分布直方图中各个长方形的面积之和为 1.( √ ) (5)× 答案:(1)× (2)√ (3)× (4) (3)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从 小到大的顺序写,相同的数据可以只记一次. ( × ) (2)√ 答案:(1)