用样本估计总体知识讲解
第2讲 用样本估计总体
从而可得80<x0<90,由(x0-80)×0.04=0.5-0.4,得x0=82.5, 所以估计此次竞赛活动学生成绩的中位数为82.5.
24
聚焦必备知识 突破核心命题 限时规范训练
11
聚焦必备知识 突破核心命题 限时规范训练
B 平均数反映数据的集中趋势,平均数的大小并不能说明该组数据 极差的大小,所以 A 错误;平均数反映数据的集中趋势,方差反映数据波 动的大小,所以 B 正确;一组数据 x1,x2,…,xn,其平均数为-x ,则其 方差 s2=1n∑ i=n1 (xi--x )2,所以 C 错误;方差大说明射击水平不稳定,所以 D 错误.故选 B.
22
聚焦必备知识 突破核心命题 限时规范训练
(1)求图中m的值,并估计此次竞赛活动 学生成绩的中位数;
(2)根据频率分布直方图,估计此次竞赛 活动成绩的平均数.若对成绩不低于平均数 的同学进行奖励,请估计在参赛的500名学生 中有多少名学生获奖.
23
聚焦必备知识 突破核心命题 限时规范训练
解:(1)由频率分布直方图知(0.01+m+0.04+0.02)×10=1,解得m =0.03;
21
聚焦必备知识 突破核心命题 限时规范训练
考 点 二 总体集中趋势的估计
例2 为了讴歌中华民族实现伟大复兴的奋斗历程,增进学生对中国 共产党的热爱,某学校举办了一场党史竞赛活动,共有500名学生参加了 此次竞赛活动.为了解本次竞赛活动的成绩,从中抽取了50名学生的成 绩(成绩均为整数,满分为100分)进行统计,所有学生的成绩都不低于60 分,将这50名学生的成绩(单位:分)进行分组,第一组[60,70),第二组 [70,80),第三组[80,90),第四组[90,100],得到如图所示的频率分布 直方图.
《用样本估计总体》 讲义
《用样本估计总体》讲义在我们的日常生活和各种研究领域中,经常会遇到需要了解某个总体的情况,但由于总体规模过大或者其他限制,我们无法对总体中的每一个个体进行调查和分析。
这时候,用样本估计总体就成为了一种非常实用且有效的方法。
那么,什么是样本,什么又是总体呢?总体就是我们所关心的研究对象的整个集合,比如全国所有高中生的身高情况,这就是一个总体。
而样本呢,则是从总体中抽取的一部分个体,比如从某几个学校中抽取的部分高中生的身高数据。
为什么要用样本估计总体呢?首先,直接研究总体往往是不现实的,成本太高、时间太长,甚至根本无法做到。
其次,通过合理抽取的样本,我们能够以相对较小的代价和时间获取到关于总体的一些有用信息。
接下来,让我们看看如何抽取样本。
抽取样本可不是随便抓几个就行,得有一定的方法和原则,这样才能保证样本具有代表性,能够较好地反映总体的特征。
简单随机抽样是一种常见的抽样方法。
想象一下,我们把总体中的每个个体都编上号,然后通过随机数表或者其他随机的方式抽取一定数量的个体,这就是简单随机抽样。
比如要从一个班级的 50 名学生中抽取 5 名进行调查,我们可以给每个学生一个编号,然后随机抽取 5 个编号对应的学生。
分层抽样也是常用的方法之一。
如果总体中存在明显的不同层次或者类别,我们就可以按照这些层次进行分层,然后从每一层中分别抽取样本。
比如要调查一个城市居民的收入情况,我们可以按照不同的区域、职业等进行分层,然后从每个层次中抽取一定数量的居民。
系统抽样则是先将总体中的个体编号,然后按照一定的间隔抽取样本。
比如从 1000 个个体中抽取 50 个,我们可以先计算出间隔为 20,然后从第 1 个个体开始,每隔 20 个抽取一个。
抽取了合适的样本之后,我们就要通过样本的数据来估计总体的特征了。
首先是估计总体的均值。
样本均值就是样本中所有个体的平均值,我们可以用样本均值来估计总体的均值。
假设我们抽取的样本数据为 x1, x2, x3,, xn,那么样本均值x=(x1 + x2 + x3 ++ xn) / n 。
第02讲 用样本估计总体 (精讲)(教师版)
,nx +)标准差与方差据1x ,nx +,标22()(n x x x x +-++-2(n x x ++-知识点三:在频率分布直方图中,众数,中位数,平均数的估计值最高的小矩形底边中点的横坐标即是众数中位数左边和右边的所有小矩形的面积和是相等的“重心”,等于频率分布直方图中每个小矩形的面积乘小矩形底边中点的横坐标3,b ,3,b ,【答案】45 45.85379⨯=975%∴+=25m故选:B.例题4.(PM2.5的浓度(单位:知这组数据的极差为A.73 B.75 C.77 D.79,,n x 的平均数个分数分别为18,,,x x ,6,8,,x 的平均数为228361001081210++++-=x ,28624++=x 8610++++x ,即12864+++=x x x 2624888-⨯=故答案为:14..(2022·全国55%分位数,②众数这两个条件中任选一个,补充在下面问题中的横线上,并解答问题抗坏血酸,是一种水溶性维生素,是高等灵长类动物与其他少数2,3,,)n ,则下列结论正确的是(2,3,,)n ,则它们的众数也满足该关系,12(21)(21)(21)nn y x x x nn++-+-++-=1nx n++- 121b =-,故B 正确;由方差的性质可得2c =C 正确;23,x x ,…,,假设其第80百分位数为1d , 是整数时,x 21,2x x --30,,x 的平均数为10,,x 这10个数的平均数为8,方差为30,,x ___________. 【详解】由题意得12306x x x +++=2309x ++=⨯1081080x ++=⨯=,222121058690x x x =⨯+=++,所以剩余的20个数的平均数为18080520-=, 30221350690660x +=-=+,所以剩余的20个数的方差为66020258-=,故答案为:82022·全国·高一单元测试)敢于冒险奋进精神的载体,A.这组数据的极差为50 B.这组数据的众数为76(0.005+0.75800.3-+故选:CD例题2.(学生人数比例、[(1)估计总体400名学生中分数小于60的人数;分数小于60的频率为()10.020.040.02100.2-++⨯=,所以[)60,70x ∈,即()0.2600.010.25x +-⨯=,解得65x =,则本次考试的及格分数线为65分.例题3.(2022·全国·高一单元测试)中秋佳节来临之际,小李准备销售一种农特产,这段时间内,每售出1箱该特产获利50元,未售出的,每箱亏损30元.经调查,市场需求量的频率分布直方图如图所示.小李购进了160箱该特产,以x (单位:箱,100200x ≤≤)表示市场需求量,y (单位:元)表示经销该特产的利润.(1)根据频率分布直方图估计市场需求量的众数和平均数;(2)将y 表示为x 的函数;(3)根据频率分布直方图求利润不少于4800元的频率.【答案】(1)150,153(2)804800,1001608000,160200x x y x -≤<⎧=⎨≤≤⎩(3)0.9(1)由频率分布直方图,得市场需求量的众数的估计值是150,需求量为[100,120)的频率为0.005×20=0.1,需求量为[120,140)的频率为0.01×20=0.2,需求量为[140,160)的频率为0.015×20=0.3,需求量为[160,180)的频率为0.0125×20=0.25,需求量为[180,200]的频率为0.0075×20=0.15,则市场需求量的平均数约为110×0.1+130×0.2+150×0.3+170×0.25+190×0.15=153.(2)因为每售出1箱该特产获利50元,未售出的,每箱亏损30元,所以当100160≤<x 时,5030(160)804800y x x x =-⨯-=-,当160200x ≤≤时,160508000y =⨯=,所以804800,1001608000,160200x x y x -≤<⎧=⎨≤≤⎩. (3)当100160≤<x 时,由8048004800x -≥,得120160x ≤<;当160200x ≤≤时,80004800y =>,所以当120200x ≤≤时,利润不少于4800元,所以由(1)知利润不少于4800元的频率为10.10.9-=.同类题型归类练A.此次测试众数的估计值为85(1)求频率分布直方图中a的值;(1)求本次初赛成绩的平均数;(每组数据以区间中点值为代表)(1)求出表中m,p的值;(1)分别计算甲、乙两厂提供的10个轮胎宽度的平均数;(1)请你估计该地区所有用户评分的25%,95%分位数;(1)求频率分布直方图中x的值以及样本中身高不低于175cm的学生人数;(1m ii x x =-∑同理可得21s m ∴=+1⎡、、A .20B .40C .64D .80根据此频率分布直方图,下面结论中不正确的是( ) A .该地农户家庭年收入低于4.5万元的农户比率估计为6% B .该地农户家庭年收入不低于10.5万元的农户比率估计为10% C .估计该地农户家庭年收入的平均值不超过6.5万元D .估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间 【答案】C【详解】因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.该地农户家庭年收入低于4.5万元的农户的比率估计值为0.020.040.066%+==,故A 正确; 该地农户家庭年收入不低于10.5万元的农户比率估计值为0.040.0230.1010%+⨯==,故B 正确; 该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为0.100.140.2020.6464%50%++⨯==>,故D 正确;该地农户家庭年收入的平均值的估计值为30.0240.0450.1060.1470.2080.2090.10100.10110.04120.02130.02140.027.68⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=(万元),超过6.5万元,故C 错误.综上,给出结论中不正确的是C. 故选:C.3.(多选)(2021·全国·高考真题)下列统计量中,能度量样本12,,,n x x x 的离散程度的是( )A .样本12,,,n x x x 的标准差B .样本12,,,n x x x 的中位数C .样本12,,,n x x x 的极差D .样本12,,,n x x x 的平均数【答案】AC【详解】由标准差的定义可知,标准差考查的是数据的离散程度; 由中位数的定义可知,中位数考查的是数据的集中趋势; 由极差的定义可知,极差考查的是数据的离散程度;。
《用样本估计总体》 讲义
《用样本估计总体》讲义在我们的日常生活和各种科学研究中,常常需要从部分数据(样本)来推断整体的情况(总体)。
这就好像我们通过观察一小部分苹果的质量,来推测整批苹果的质量好坏;或者根据部分学生的考试成绩,来估计整个班级的学习水平。
这种用样本估计总体的方法,是统计学中非常重要的一种手段。
一、为什么要用样本估计总体首先,我们来思考一下,为什么不能直接研究总体呢?这往往是因为总体的数量太大、获取全部数据的成本太高或者根本就不可能获取到全部数据。
比如说,要调查全国所有成年人的身高,这几乎是不可能完成的任务。
但如果我们抽取一部分具有代表性的成年人作为样本,通过对这些样本的测量和分析,就能够对全国成年人的身高情况做出一个相对准确的估计。
用样本估计总体还有一个重要的原因,那就是能够节省时间和资源。
想象一下,如果要对一个大型工厂生产的所有零件进行质量检测,那需要耗费大量的人力、物力和时间。
而通过抽取一定数量的零件作为样本进行检测,就能在较短的时间内,以较小的成本对整批零件的质量有一个大致的了解。
二、样本与总体的关系样本是从总体中抽取出来的一部分个体或观测值。
总体则是我们所关心的研究对象的全体。
样本应该具有代表性,也就是说,样本的特征应该能够反映总体的特征。
举个例子,如果要研究一个城市居民的收入水平,不能只抽取高收入人群作为样本,也不能只抽取低收入人群,而应该按照一定的比例,从不同收入层次的人群中抽取样本,这样得到的样本才能较好地代表总体的收入情况。
样本的大小也会影响估计的准确性。
一般来说,样本越大,估计的准确性就越高。
但样本大小也不是越大越好,因为过大的样本会增加调查的成本和难度。
所以,在实际应用中,需要根据具体情况,选择合适的样本大小。
三、抽样方法为了获得具有代表性的样本,我们需要采用合适的抽样方法。
常见的抽样方法有简单随机抽样、分层抽样和系统抽样。
简单随机抽样是最基本的抽样方法,就是从总体中随机地抽取个体,每个个体被抽取的概率相等。
用样本估算总体
用样本估算总体
◎ 用样本估算总体的定义
用样本估计总体的两个手段:
(1)用样本的频率分布估计总体的分布;
(2)用样本的数字特征估计总体的数字特征,需要从总体中抽取一个质量较高的样本,才能不会产生较大的估计偏差,且样本的容量越大,估计的结果也就越精确。
◎ 用样本估算总体的知识扩展
用样本估计总体的两个手段:
(1)用样本的频率分布估计总体的分布;
(2)用样本的数字特征估计总体的数字特征,需要从总体中抽取一个质量较高的样本,才能不会产生较大的估计偏差,且样本的容量越大,估计的结果也就越精确。
◎ 用样本估算总体的教学目标
1、通过实例,体会用样本估计总体的思想。
2、能够根据统计结果作出合理的判断和推测,能与同学进行交流,用清晰的语言表达自己的观点。
3、根据有关问题查找资料或调查,用随机抽样的方法选取样本,能用样本的平均数和方差,从而对总体有个体有个合理的估计和推测。
◎ 用样本估算总体的考试要求
能力要求:了解
课时要求:40
考试频率:选考
分值比重:2。
用样本估计总体
用样本估计总体要用样本估计总体的平均数和方差,首先需要了解一些基本概念和方法。
这篇文章将从样本、总体、样本估计等方面进行讨论,并介绍一些常见的样本估计方法。
1.样本与总体:样本是指从总体中选取的一部分观察值,总体是指研究对象的全部观察值的集合。
通常情况下,我们无法直接获得总体的所有观察值,但可以通过选取一部分样本来对总体进行估计。
2.样本估计:样本估计是通过对样本数据进行分析,得出对总体的一些参数的估计值。
常见的参数包括总体的平均数、方差、比例等。
3.样本的选择:为了保证样本的代表性,需要采用一定的抽样方法。
简单随机抽样是常用的抽样方法之一,它的特点是每个样本被选中的概率相等。
其他常用的抽样方法包括等距抽样、分层抽样等。
4.样本均值的估计:样本均值是用来估计总体均值的一个重要指标。
样本均值的估计值可以通过计算样本观察值的平均数得到。
假设样本的观察值为x1, x2, ..., xn,样本均值的估计公式为:样本均值的估计值 = (x1 + x2 + ... + xn) / n。
其中,n表示样本容量。
5.样本方差的估计:样本方差是用来估计总体方差的一个重要指标。
样本方差的估计值可以通过计算样本观察值与样本均值之差的平方的平均数得到。
假设样本的观察值为x1, x2, ..., xn,样本方差的估计公式为:样本方差的估计值= ((x1 - 样本均值的估计值)^2 + (x2 - 样本均值的估计值)^2 + ... + (xn - 样本均值的估计值)^2) / (n - 1)。
其中,n表示样本容量。
6.置信区间:在样本估计中,通常需要给出一个区间估计来反映估计值的准确程度。
置信区间是一个包含总体参数真值的区间,置信度表示该区间包含总体参数真值的概率。
置信区间的计算需要考虑样本容量、样本分布以及所选的置信水平等因素。
综上所述,通过样本对总体的平均数和方差进行估计是统计学中常见的问题。
根据样本均值的估计和样本方差的估计公式,可以计算出相应的估计值。
9.2用样本估计总体
授课主题用样本估计总体教学目标1.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.3.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.4.会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题.教学内容1.频率分布直方图(1)列出样本数据的频率分布表和频率分布直方图的步骤:①计算极差:找出数据的最大值与最小值,计算它们的差;②决定组距与组数:当样本容量不超过100时,按照数据的多少分成5~12组,且=极差组距组数;③将数据分组:通常对组内数值所在区间区左闭右开区间,最后一组取闭区间;也可以将样本数据多取一位小数分组.④列频率分布表:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图。
(2)频率分布直方图的特点:①==⨯频率小长方形的面积组距频率组距,②个小长方形的面积等于1,③1==频率小长方形的高,所有小长方形的高的和组距组距.(3)频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.(4)总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x=来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地n;n①众数、中位数、平均数都是描述一组数据集中趋势的量,平均数是最重要的量;x的平均数为x,则一组数,,n的平均数为用样本的标准差估计总体的标准差)数据的离散程度可以用极差、方差或标准差来描述;定义样本方差为222212()()()n x x x x x x s n-+-++-=;简化公式:22222121[()]n s x x x nx n=+++-=2222121()n x x x x n+++-(方差等于原数据平方的平均数减去平均数的平方)(4)样本的标准差是方差的算术平方根.样本标准差22212()()()0n x x x x x x s s n-+-++-=≥,.标准差越大数据离散程度越大,数据家分散;标准差越小,数据集中在平均数周围. (5)方差相关结论:①如果一组数12,,,n x x x 的方差为2s ,则一组数12,,,n x a x a x a +++的方差为2s ;②如果一组数12,,,n x x x 的方差为2s ,则一组数12,,,n kx kx kx 的方差为22k s 。
用样本估计总体
月收入(元)
1000 1500 2000 2500 3000 3500 4000
练习1、如图是150辆汽车通过某路段 时速度的频率分布直方图,则速度在[60, 60 辆. 70)的汽车大约有______
在频率分布直方图中,依次连接各小长 方形上端的中点,就得到一条折线,这条 折线称为频率分布折线图.
练习3、以往招生Biblioteka 计显示,某所大学录 取的新生高考总分的中位数基本稳定在550 分,若某同学今年高考得了520分,他想报 考这所大学还需收集哪些信息?
要点: (1)查往年录取的新生的平均分数.若平均数 小于中位数很多,说明最低录取线较低,可以 报考; (2)查往年录取的新生高考总分的标准差.若 标准差较大,说明新生的录取分数较分散,最 低录取线可能较低,可以考虑报考.
标准差的取值范围是什么?标准差为0 的样本数据有何特点? s≥0,标准差为0的样本数据都相等. 方差的意义: 方差(或标准差)越大离散程度越大,数 据较分散; 方差(或标准差)越小离散程度越小,数 据较集中在平均数周围.
例 2 、有两个班级,每班各自按学号随 机选出 5 名学生,测验铅球成绩,以考察 体育达标程度,测验成绩如下:单位(米) 甲 9.1 7.8 8.5 6.9 5.2 乙 8.8 7.2 7.3 7.5 6.7 两个班相比较,哪个班整体实力强一些 ?
制作频率分布直方图的方法: (1)求极差(即一组数据中最大值与最小 值的差); (2)决定组距与组数;(样本容量不超过
100时,组数常分成5~12组)
(3)将数据分组; (4)列频率分布表; (5)画频率分布直方图.
注:频率分布直方图中
第五章《用样本推断总体》复习讲义(解析版)
第五章 用样本推断总体(考点讲义)1.样本容量:样本中个体的数目叫做样本容量。
2.在用样本特性估计总体特性时,要注意一是样本要有代表性,二是样本容量要足够大。
3.求平均数的公式:123nx x x x x n++++=L【类型一】利用样本平均数估算总体数量【例1】为了创设全新的校园文化氛围,进一步组织学生开展课外阅读,让学生在丰富多彩的书海中,扩大知识源,亲近母语,提高文学素养.某校准备开展“与经典为友、与名著为伴”的阅读活动,活动前对本校学生进行了“你最喜欢的图书类型(只写一项)”的随机抽样调查,相关数据统计如下:请根据以上信息解答下列问题:(1)该校对_____名学生进行了抽样调查,m = _____n =_____(2)请将图1和图2补充完整,并求出扇形统计图中小说所对应的圆心角度数;(3)已知该校共有学生800人,利用样本数据估计全校学生中最喜欢科幻人数约为多少人?【解析】(1)用其它初一它的百分比即可;(2)用360∘乘以所占得百分比;(3)用样本估计总体.解:(1)20÷10%=200(名).由图1,得n=40,m=100-20-10-40=30答:该校对200名学生进行了抽样调查;m=30,n=40(2)如图:小说对应的圆心角度数为360∘×20%=72∘;(3)800×30%=240.答:全校学生中最喜欢小说的人数约为240名.【对应训练1】为了估计湖里有多少条鱼,小刚先从湖里捞出了100条鱼做上标记,然后放回湖里去.经过一段时间,带有标记的鱼完全混合于鱼群后,小刚又从湖里捞出200条鱼,如果其中15条有标记,那么估计湖里有鱼()A.1333条B.3000条C.300条D.1500条【答案】A【解析】在样本中“捕捞200条鱼,发现其中15条有标记”,即可求得有标记的所占比例,而这一比例也适用于整体,据此即可解答.【对应训练2】我国古代数学名著《九章算术》有“米谷粒分”.粮仓开仓收粮,有人送来谷米1608石,验得其中夹有谷粒.现从中抽取谷米一把,共数得256粒,其中夹有谷粒32粒,则这批谷米内夹有谷粒约是________石.【答案】201【解析】根据256粒内夹谷32粒,可得比例,再乘以1608石,即可得出答案.【解答】解:根据题意,得1608×32=201(石),256∴这批谷米内夹有谷粒约201石.【对应训练3】某山区中学280名学生参加植树节活动,要求每人植3至6棵,活动结束后随机抽查了若干名学生每人的植树量,并分为四种类型,A:3棵;B:4棵;C:5棵;D:6棵,将各类的人数绘制成扇形图(如图1)和条形图(如图2).回答下列问题:(1)这次调查一共抽查了________名学生的植树量;请将条形图补充完整;(2)被调查学生每人植树量的众数是________棵、中位数是________棵;(3)求被调查学生每人植树量的平均数,并估计这280名学生共植树多少棵?【解析】(1)由B类型的人数及其所占百分比可得总人数,总人数乘以D类型的对应的百分比即可求出其人数,据此可补全图形;(2)根据众数和中位数的概念可得答案;(3)先求出样本的平均数,再乘以总人数即可.【解答】(1)这次调查一共抽查植树的学生人数为8÷40%=20(人),D类人数=20×10%=2(人);条形图补充如图:(2)植树4棵的人数最多,则众数是4,共有20人植树,其中位数是第10、11人植树数量的平均数,则中位数是4,(3)x=4×48×562×7=5.3(棵),205.3×280=148(棵).答:估计这3280名学生共植树1484棵.【类型二】用样本估计总体【例2】为了提高学生的综合素养,某校开设了五门第二课堂活动课,按照类别分为:A“剪纸”、B“绘画”、C“雕刻”、D“泥塑”、E“插花”.为了了解学生对每种活动课的喜爱情况,随机抽取了部分同学进行调查,将调查结果绘制成如下两幅不完整的统计图.根据信息,回答下列问题:(1)本次调查的样本容量为________,统计图中的a=________,b=________;(2)通过计算补全条形统计图;(3)该校共有3000名学生,请你估计全校喜爱“雕刻”的学生人数.解:(1)样本容量为1815%=120,a=120×10%=12,b=120×30%=36.故答案为:120;12;36.(2)组频数:120―18―12―30―36=24(人),补全条形统计图如图所示:(3)3000×30120=750(人),答:该校喜爱“雕刻”约有750人.【跟踪训练1】在一个不透明的盒子中装有20个黄、白两种颜色的乒乓球,除颜色外其它都相同,小明进行了多次摸球试验,发现摸到白色乒乓球的频率稳定在0.2左右,由此可知盒子中黄色乒乓球约有…()A.2个B.4个C.18个D.16个【答案】D【跟踪训练2】质检部门从1000件电子元件中随机抽取100件进行检测,其中有2件是次品.试据此估计这批电子元件中大约有________件次品.【答案】20【解析】根据随机抽取100件进行检测,其中有2件是次品,可以计算出这批电子元件中大约有多少件次品.【跟踪训练3】书籍是人类进步的阶梯.为了解学生的课外阅读情况,某校随机抽查了部分学生本学期阅读课外书的册数,并绘制出如下统计图.(1)共抽查了多少名学生?(2)请补全条形统计图,并写出被抽查学生本学期阅读课外书册数的众数、中位数;(3)根据抽查结果,请估计该校1200名学生中本学期课外阅读5册书的学生人数.解:(1)12÷30%=40(名).(2)如图所示,由图知,众数为5,中位数为5.(3)∵抽查的样本中,课外阅读5册书的学生人数占14×100%=35%,40∴估计该校学生课外阅读5册书的学生人数约占35%,∴该校1200名学生中课外阅读5册书的学生人数约为1200×35%=420(人).【类型三】用样本频率估计总体频率【例3】中长跑(男生1000m,女生800m)是河南省某市中招体育考试的必考项目.甲、乙两校为了解本校九年级学生的训练情况,各随机抽取了20名九年级学生的中长跑模拟测试成绩(满分:30分),将成绩进行统计、整理与分析,过程如下:【收集数据】【整理数据】整理以上数据,得到模拟测试成绩x(分)的频数分布表.【分析数据】根据以上数据,得到以下统计量.根据以上信息,回答下列问题:(1)填空:a= ________,b=_________, m=________, n=________;(2)综合上表中的统计量,推断________校学生中长跑成绩更好,理由为________(写出一条即可)(3)若甲、乙两校各有800名学生,请估计两校中长跑模拟测试成绩不低于25分的学生一共有多少名?解:(1)由数据可得,a=7,b=8,m=24.75,n=23.4. 故答案为:7;8;24.75;23.4.(2)甲校学生成绩的平均数比乙校学生成绩的平均数高,且甲校学生成绩的方差比乙校学生成绩的方差小,成绩较稳定.(答案不唯一,合理即可)故答案为:甲.=720(名),(3)(800+800)×1082020答:估计两校中长跑模拟测试成绩不低于25分的学生一共有720名.【跟踪训练】今年是建党100周年,为了让全校学生牢固树立爱国爱党的崇高信念,某校开展了形式多样的党史学习教育活动,八、九年级(各有500名学生)举行了一次党史知识竞答(满分为100分),然后随机各抽取20名同学的成绩进行了收集、统计与分析,过程如下:【收集数据】两个年级抽取的20名同学的成绩如下表:八年级:7968878985598997898998938586899077898379九年级:8688979194625194877194789255979294948598【整理数据】将两个年级的抽样成绩进行分组整理:成绩x(分)50≤x<6060≤x<7070≤x<8080≤x<9090≤x<100八年级113114九年级2a b411【分析数据】抽样的平均数、众数、中位数、方差和优秀率(90分及以上为优秀)如下表:年级统计量平均数众数中位数方差优秀率八年级8589c80.420%九年级859491.5192d请根据以下信息,回答下列问题:(1)填空:a=________,b= ________,c=________,d=________;(2)请估计此次知识竞答中,八年级成绩优秀的学生人数;(3)小李同学认为九年级的整体成绩更好,请从至少两个方面分析其合理性.解:(1)由表中数据可知,九年级落在60≤x<70内的只有62,故a=1;九年级落在70≤x<80内的有71,78,故b=2;八年级成绩按照从小到大的顺序排列后,落在第10,11的数为87,89,∴中位数为88,故c=88;九年级90分及以上的学生有11人,∴九年级的优秀率为1120×100%=55%.故答案为:1;2;88;55%.(2)∵500×20%=100,∴估计此次知识竞答中,八年级成绩优秀的学生人数为100人.(3)九年级抽样成绩的众数,中位数和优秀率均高于八年级,说明九年级平均成绩更高,高分更多,因此九年级整体成绩更好.【类型四】用样本推断总体的实际应用【例4】某运动鞋经销商随机调查某校40名女生的运动鞋号码,结果如下表:鞋的号码35.53636.53737.5人数4616122现在该经销商要进200双上述五种运动鞋,你认为应该怎样进货比较合理?解析:先求出各鞋码所占比例,再乘200,即可得到所需进货数.解:由表中数据可知各鞋码的女生的比例,根据比例进货.需要进35.5码运动鞋:200×440=20(双),需要进36码运动鞋:200×640=30(双)需要进36.5码运动鞋:200×1640=80(双),需要进37码运动鞋:200×1240=60(双)需要进37.5码运动鞋:200×240=10(双)。
第55讲 │ 用样本估计总体
用样本估计总体
第55讲 │ 考纲要求 考纲要求
1.了解分布的意义和作用,会列频率分布表,会画频率分布 直方图、频率折线图、茎叶图,理解它们各自的特点. 2.理解样本数据标准差的意义和作用,会计算数据标准差. 3. 能从样本数据中提取基本的数字特征(如平均数、 标准差), 并作出合理的解释. 4.会用样本的频率分布估计总体分布,会用样本的基本数字 特征估计总体的基本数字特征,理解用样本估计总体的思想. 5.会用随机抽样的基本方法和样本估计总体的思想解决一些 简单的实际问题.
第55讲 │ 知识梳理 知识梳理
1.用样本的频率分布估计总体分布 (1)样本中所有数据(或者数据组)的频数和样本容量的比, 就
频率 是该数据的________, 所有数据(或者数据组)的频率的分布变化 频率分布直方图 规律叫做________,可以用频率分布表、______________、频 频率分布
第55讲 │ 要点探究
[点评] 样本的频率分布直方图只刻画了样本的频率分布, 在这个直方图上已经没有样本容量,可以用这个样本的频率分 布去估计总体的频率(概率)分布.如果根据频率分布直方图求解 一些样本数量时,必须知道另外的条件,如某个段上的样本频 数.在样本的频率分布直方图上,小矩形的高是样本在该组的 频率除以组距,不是样本在该组的频率,只有组距等于 1 时, 才是样本在该组的频率,这点也要特别注意.
组数 组距 ________增加,________减小,相应的频率折线图会越来越接
近于一条________,统计中称这条________为总体密度曲线. 光滑曲线 光滑曲线
第55讲 │ 知识梳理
(4)茎叶图:统计中还有一种被用来表示数据的图叫茎叶 图,茎是指中间的________,叶是从茎的旁边________. 一列数 生长出来的数 在样本数据较少时, 用茎叶图表示数据的效果较好, 茎叶 图表示数据有两个突出的优点: 一是它较好地保留了________ 原始数据 分布 信息,二是能够展示数据的________情况,方便记录与表示. 2.样本的数字特征
《用样本估计总体》 讲义
《用样本估计总体》讲义在我们的日常生活和各种研究领域中,经常会遇到需要从部分数据来推断整体情况的问题。
这时候,“用样本估计总体”的方法就派上了用场。
那什么是用样本估计总体呢?简单来说,就是通过对从总体中抽取的一部分样本进行观察、测量和分析,来推测总体的特征和规律。
为什么我们要用样本去估计总体呢?这主要是因为在很多情况下,要对整个总体进行研究是不现实或者成本太高的。
比如说,要了解一个城市所有居民的收入情况,如果对每个人都进行调查,那需要耗费大量的时间、人力和物力。
而通过抽取一部分具有代表性的居民作为样本,对他们的收入进行调查和分析,就可以相对准确地估计出整个城市居民的收入水平。
那么,如何抽取一个有代表性的样本呢?这可是个关键问题。
抽样的方法有很多种,常见的有简单随机抽样、分层抽样和系统抽样。
简单随机抽样是最基本的抽样方法。
就好像从一个装满球的箱子里,不看地随便摸出几个球。
在实际操作中,可以通过抽签、随机数表等方式来实现。
这种抽样方法的优点是每个个体被抽到的机会均等,能够较好地保证样本的随机性和代表性。
分层抽样则是先将总体按照某些特征分成不同的层次,然后从每个层次中分别进行简单随机抽样。
比如说要调查一个学校学生的视力情况,可以先按照年级分层,然后从每个年级中随机抽取一定数量的学生。
这样做可以使样本更具针对性,能够更好地反映不同层次的情况。
系统抽样是将总体中的个体按照一定的顺序编号,然后按照固定的间隔抽取样本。
比如从 1000 个学生中抽取 50 个样本,可以先将学生编号 1 到 1000,然后每隔 20 个抽取一个。
在抽取了合适的样本之后,我们就可以通过对样本数据的分析来估计总体的特征了。
比如说,我们可以计算样本的均值、中位数、众数等来估计总体的集中趋势;通过计算样本的方差、标准差等来估计总体的离散程度。
样本均值是样本数据的算术平均值,它反映了样本数据的平均水平。
假设我们抽取了一个样本,数据分别为 x1,x2,,xn,那么样本均值就为(x1 + x2 ++ xn) / n 。
第1讲 随机抽样、用样本估计总体
第1讲随机抽样、用样本估计总体一、知识梳理1.随机抽样(1)简单随机抽样①定义:一般地,设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),且每次抽取时总体内的各个个体被抽到的机会都相等,就称这样的抽样方法为简单随机抽样.②常用方法:抽签法和随机数法.(2)分层抽样①定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.②适用范围:适用于总体由差异比较明显的几个部分组成时.2.统计图表(1)频率分布直方图的画法步骤①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图;②总体密度曲线:随着样本容量的增加,作图时所分组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.3.样本的数字特征(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.(2)中位数:把n 个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:把a 1+a 2+…+a n n称为a 1,a 2,…,a n 这n 个数的平均数. (4)标准差与方差:设一组数据x 1,x 2,x 3,…,x n 的平均数为x -,则这组数据的标准差和方差分别是s = 1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2], s 2=1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2].常用结论1.不论哪种抽样方法,总体中的每一个个体入样的概率是相同的.2.会用三个关系频率分布直方图与众数、中位数与平均数的关系(1)最高的小长方形底边中点的横坐标即是众数.(2)中位数左边和右边的小长方形的面积和是相等的.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.3.巧用四个有关的结论(1)若x 1,x 2,…,x n 的平均数为x -,那么mx 1+a ,mx 2+a ,…,mx n +a 的平均数为m x-+a ;(2)数据x 1,x 2,…,x n 与数据x ′1=x 1+a ,x ′2=x 2+a ,…,x ′n =x n +a 的方差相等,即数据经过平移后方差不变;(3)若x 1,x 2,…,x n 的方差为s 2,那么ax 1+b ,ax 2+b ,…,ax n +b 的方差为a 2s 2;(4)s 2=1n ∑n i =1 (x i -x -)2=1n ∑n i =1x 2i-x -2,即各数平方的平均数减去平均数的平方. 二、教材衍化1.某校为了解学生学习的情况,采用分层抽样的方法从高一2 400人、高二2 000人、高三n 人中,抽取90人进行问卷调查.已知高一被抽取的人数为36,那么高三被抽取的人数为________.解析:由分层抽样可得 2 4002 400+2 000+n×90=36,则n =1 600,所以高三被抽取的人数为 1 6002 400+2 000+1 600×90=24. 答案:242.已知一组数据6,7,8,8,9,10,则该组数据的方差是________.答案:533.某仪器厂从新生产的一批零件中随机抽取40个检测,如图是根据抽样检测后零件的质量(单位:克)绘制的频率分布直方图,样本数据分8组,分别为[80,82),[82,84),[84,86),[86,88),[88,90),[90,92),[92,94),[94,96],则样本的中位数在第________组.解析:由题图可得,前四组的频率为(0.037 5+0.062 5+0.075+0.1)×2=0.55,则其频数为40×0.55=22,且第四组的频数为40×0.1×2=8,故中位数落在第4组.答案:4一、思考辨析判断正误(正确的打“√”,错误的打“×”)(1)简单随机抽样是一种不放回抽样.()(2)在抽签法中,先抽的人抽中的可能性大.()(3)一组数据的方差越大,说明这组数据的波动越大.()(4)在频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间内的频率越大.()(5)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观.()(6)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数的估计值.()答案:(1)√(2)×(3)√(4)√(5)√(6)√二、易错纠偏常见误区|(1)随机数表法的规则不熟出错;(2)频率分布直方图识图不清;1.假设要考察某公司生产的狂犬疫苗的剂量是否达标,现用随机数法从500支疫苗中抽取50支进行检验,利用随机数表抽取样本时,先将500支疫苗按000,001, (499)行编号,若从随机数表第7行第8列的数开始向右读,则抽取的第3支疫苗的编号为________.(下面摘取了随机数表的第7行至第9行)84 42 17 53 3157 24 55 06 8877 04 74 47 6721 76 33 50 2583 92 12 06 7663 01 63 78 5916 95 55 67 1998 10 50 71 7512 86 73 58 0744 39 52 38 7933 21 12 34 2978 64 56 07 8252 42 07 44 3815 51 00 13 4299 66 02 79 54解析:由题意得,从随机数表第7行第8列的数开始向右读,符合条件的前三个编号依次是331,455,068,故抽取的第3支疫苗的编号是068.答案:0682.我市某校组织学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100],若低于60分的人数是15,则该班的学生人数是________.解析:依题意得,成绩低于60分的相应的频率等于(0.005+0.01)×20=0.3,所以该班的学生人数是15÷0.3=50.答案:50考点一随机抽样(基础型)复习指导| 1.理解随机抽样的必要性和重要性.2.学会用简单随机抽样的方法从总体中抽取样本.3.通过对实例的分析,了解分层抽样的方法.核心素养:数据分析1.(2020·重庆中山外国语学校模拟)如饼图,某学校共有教师120人,从中选出一个30人的样本,其中被选出的青年女教师的人数为()A.12B.6C.4D.3解析:选D .青年教师的人数为120×30%=36,所以青年女教师为12人,故青年女教师被选出的人数为12×30120=3.故选D . 2.(2020·武汉市武昌区调研考试)已知某射击运动员每次射击击中目标的概率都为80%.现采用随机模拟的方法估计该运动员4次射击至少3次击中目标的概率:先由计算器产生0到9之间取整数值的随机数,指定0,1表示没有击中目标,2,3,4,5,6,7,8,9表示击中目标;再以每4个随机数为一组,代表4次射击的结果.经随机模拟产生了如下20组随机数:7527 0293 7140 9857 0347 4373 8636 6947 1417 4698 0371 6233 2616 8045 6011 3661 9597 7424 7610 4281据此估计,该射击运动员4次射击至少3次击中目标的概率为________.解析:4次射击中有1次或2次击中目标的有:0371,6011,7610,1417,7140,所以所求概率P =1-520=1520=0.75. 答案:0.753.一支田径队有男运动员56人,女运动员m 人,用分层抽样抽出一个容量为n 的样本,在这个样本中随机取一个当队长的概率为128,且样本中的男队员比女队员多4人,则m =________.解析:由题意知n =28,设其中有男队员x 人,女队员有y 人.则⎩⎪⎨⎪⎧x +y =28,x -y =4,56m =x y .解得x =16,y =12,m =42.答案:42(1)抽签法与随机数法的适用情况①抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况.②一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.(2)分层抽样问题类型及解题思路①求某层应抽个体数量,根据该层所占总体的比例计算.②已知某层个体数量,求总体容量,根据分层抽样即按比例抽样,列比例式进行计算.③确定是否应用分层抽样:分层抽样适用于总体中个体差异较大的情况.考点二样本的数字特征(应用型)复习指导| 1.通过实例理解样本数据的标准差的意义和作用,学会计算数据的标准差.2.能根据实际问题的需求合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.核心素养:数据分析、数学运算(1)在一次歌咏比赛中,七位裁判为一选手打出的分数如下:90,89,90,95,93,94,93.去掉一个最高分和一个最低分后,所剩数据的平均数与方差分别为( )A .92,2.8B .92,2C .93,2D .93,2.8(2)(2020·盐城模拟)已知一组数据x 1,x 2,x 3,x 4,x 5的方差是2,则数据2x 1,2x 2,2x 3,2x 4,2x 5的标准差为________.【解析】 (1)由题意得所剩数据:90,90,93,94,93.所以平均数x -=90+90+93+94+935=92. 方差s 2=15[(90-92)2+(90-92)2+(93-92)2+(93-92)2+(94-92)2]=2.8. (2)由s 2=1n i =1n (x i -x -)2=2,则数据2x 1,2x 2,2x 3,2x 4,2x 5的方差是8,标准差为2 2. 【答案】 (1)A (2)2 2【迁移探究】 (变条件)本例(2)增加条件“x 1,x 2,x 3,x 4,x 5的平均数为2”,求数据2x 1+3,2x 2+3,2x 3+3,2x 4+3,2x 5+3的平均数和方差.解:数据2x 1+3,2x 2+3,2x 3+3,2x 4+3,2x 5+3的平均数为2×2+3=7,方差为22×2=8.众数、中位数、平均数、方差的意义及常用结论(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.(2)方差的简化计算公式:s2=1n[(x21+x22+…+x2n)-n x-2],或写成s2=1n(x21+x22+…+x2n)-x-2,即方差等于原数据平方的平均数减去平均数的平方.1.(2020·昆明市诊断测试)高铁、扫码支付、共享单车、网购被称为中国的“新四大发明”,为评估共享单车的使用情况,选了n座城市作试验基地.这n座城市共享单车的使用量(单位:人次/天)分别为x1,x2,…,x n,下面给出的指标中可以用来评估共享单车使用量的稳定程度的是()A .x 1,x 2,…,x n 的平均数B .x 1,x 2,…,x n 的标准差C .x 1,x 2,…,x n 的最大值D .x 1,x 2,…,x n 的中位数解析:选B .平均数、中位数可以反映一组数据的集中程度;方差、标准差可以反映一组数据的波动大小,同时也反映这组数据的稳定程度.故选B .2.(2020·甘肃、青海、宁夏联考)从某小学随机抽取100名同学,将他们的身高(单位:厘米)分布情况汇总如下:A .119.3B .119.7C .123.3D .126.7解析:选C .由题意知身高在(100,110],(110,120],(120,130]内的频率依次为0.05,0.35,0.3,前两组频率和为0.4,组距为10,设中位数为x ,则(x -120)×0.310=0.1,解得x ≈123.3.故选C .3.一组数据1,10,5,2,x ,2,且2<x <5,若该数据的众数是中位数的23倍,则该数据的方差为________.解析:根据题意知,该组数据的众数是2,则中位数是2÷23=3,把这组数据从小到大排列为1,2,2,x ,5,10,则2+x2=3,解得x =4,所以这组数据的平均数为 x -=16×(1+2+2+4+5+10)=4,方差为s 2=16×[(1-4)2+(2-4)2×2+(4-4)2+(5-4)2+(10-4)2]=9.答案:9考点三 频率分布直方图(应用型)复习指导| 1.通过实例体会分布的意义和作用,在表示样本数据的过程中,学会列频率分布表、画频率分布直方图、频率折线图,体会它们各自的特点.2.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征;初步体会样本频率分布和数字特征的随机性.核心素养:直观想象、数据分析角度一求样本的频率、频数(2020·福建五校第二次联考)某服装店对过去100天其实体店和网店的销售量(单位:件)进行了统计,制成频率分布直方图如下:(1)若将上述频率视为概率,已知该服装店过去100天的销售中,实体店和网店销售量都不低于50的概率为0.24,求过去100天的销售中,实体店和网店至少有一边销售量不低于50的天数;(2)若将上述频率视为概率,已知该服装店实体店每天的人工成本为500元,门市成本为1 200元,每售出一件利润为50元,求该实体店一天获利不低于800元的概率.【解】(1)由题意知,网店销售量不低于50共有(0.068+0.046+0.010+0.008)×5×100=66(天),实体店销售量不低于50共有(0.032+0.020+0.012×2)×5×100=38(天),实体店和网店销售量都不低于50的天数为100×0.24=24,故实体店和网店至少有一边销售量不低于50的天数为66+38-24=80.(2)由题意,设该实体店一天售出x件,则获利为(50x-1 700)元,50x-1 700≥800⇒x ≥50.记该实体店一天获利不低于800元为事件A,则P(A)=P(x≥50)=(0.032+0.020+0.012+0.012)×5=0.38.故该实体店一天获利不低于800元的概率为0.38.角度二求样本的数字特征(2019·高考全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).【解】(1)由已知得0.70=a+0.20+0.15,故a=0.35.b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.(1)频率、频数、样本容量的计算方法①频率组距×组距=频率;②频数样本容量=频率,频数频率=样本容量,样本容量×频率=频数.(2)频率分布直方图中数字特征的计算①最高的小长方形底边中点的横坐标即是众数;②中位数左边和右边的小长方形的面积和是相等的;③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.1.在样本频率分布直方图中,共有9个小长方形,若中间一个小长方形的面积等于其他8个长方形的面积和的25,且样本容量为140,则中间一组的频数为( )A .28B .40C .56D .60解析:选B .设中间一组的频数为x ,因为中间一个小长方形的面积等于其他8个长方形的面积和的25,所以其他8组的频数和为52x ,由x +52x =140,解得x =40.2.(2020·武昌区调研考试)对参加某次数学竞赛的1 000名选手的初赛成绩(满分:100分)作统计,得到如图所示的频率分布直方图.(1)根据直方图完成以下表格;(2)); (3)如果从参加初赛的选手中选取380人参加复赛,那么如何确定进入复赛选手的成绩? 解:(1)填表如下:(2)平均数为55×0.05+65×0.15+75×0.35+85×0.35+95×0.1=78, 方差s 2=(-23)2×0.05+(-13)2×0.15+(-3)2×0.35+72×0.35+172×0.1=101. (3)进入复赛选手的成绩为80+350-(380-100)350×10=82(分),所以初赛成绩为82分及其以上的选手均可进入复赛.(说明:回答82分以上,或82分及其以上均可)[基础题组练]1.某班有34位同学,座位号记为01,02,…,34,用下面的随机数表选取5组数作为参加青年志愿者活动的五位同学的座号.选取方法是从随机数表第一行的第6列数字开始,由左到右依次选取两个数字,则选出来的第4个志愿者的座号是( )49 54 43 54 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 64 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 A .23B .09C .02D .16解析:选D .从随机数表第一行的第6列数字3开始,由左到右依次选取两个数字,不超过34的依次为21,32,09,16,17,故第4个志愿者的座号为16.2.(2020·陕西汉中重点中学联考)某机构对青年观众是否喜欢跨年晚会进行了调查,人数如下表所示:若在“不喜欢的男性青年观众”中抽取了6人,则n =( )A .12B .16C .20D .24解析:选D .由题意得3030+10+30+50=30120=6n,解得n =24.故选D .3.(2019·高考全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )A .中位数B .平均数C .方差D .极差解析:选A .记9个原始评分分别为a ,b ,c ,d ,e ,f ,g ,h ,i (按从小到大的顺序排列),易知e 为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A .4.(多选)某学生5次考试的成绩(单位:分)分别为85,67,m ,80,93,其中m >0.若该学生在这5次考试中成绩的中位数为80,则得分的平均数可能为( )A .70B .75C .80D .85解析:选ABC .已知的四次成绩按照由小到大的顺序排列为67,80,85,93,该学生这5次考试成绩的中位数为80,则m ≤80,所以平均数85+67+m +80+935≤81,可知平均数可能为70,75,80,不可能为85.故选ABC .5.(多选)从某地区年龄在25~55岁的人员中,随机抽取100人,了解他们对今年两会热点问题的看法,绘制出频率分布直方图,如图所示,则下列说法正确的是( )A .抽取的100人中,年龄在40~45岁的人数大约为20B .抽取的100人中,年龄在35~45岁的人数大约为40C .抽取的100人中,年龄在40~50岁的人数大约为50D .抽取的100人中,年龄在35~50岁的人数大约为60解析:选AD .根据频率分布直方图的性质得(0.01+0.05+0.06+a +0.02+0.02)×5=1,解得a =0.04,所以抽取的100人中,年龄在40~45岁的大约为0.04×5×100=20,所以A 正确;年龄在35~45岁的人数大约为(0.06+0.04)×5×100=50,所以B 不正确;年龄在40~50岁的人数大约为(0.04+0.02)×5×100=30,所以C 不正确;年龄在35~50岁的人数大约为(0.06+0.04+0.02)×5×100=60,所以D 正确.故选AD .6.(2020·开封市定位考试)某工厂生产A ,B ,C 三种不同型号的产品,产品数量之比为k ∶5∶3,现用分层抽样的方法抽出一个容量为120的样本,已知A 种型号产品共抽取了24件,则C 种型号产品抽取的件数为________.解析:依题意得24120=k k +5+3,解得k =2,所以C 种型号产品抽取的件数为32+5+3×120=36.答案:367.甲、乙、丙、丁四人参加某运动会射击项目的选拔赛,四人的平均成绩和方差如下表所示:从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是________.解析:由题表中数据可知,丙的平均环数最高,且方差最小,说明技术稳定,且成绩好.答案:丙8.对某市“四城同创”活动中800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,则依据此图可得:(1)[25,30)年龄组对应小矩形的高度为________;(2)据此估计该市“四城同创”活动中志愿者年龄在[25,35)的人数为________.解析:设[25,30)年龄组对应小矩形的高度为h,则5×(0.01+h+0.07+0.06+0.02)=1,解得h=0.04.则志愿者年龄在[25,35)年龄组的频率为5×(0.04+0.07)=0.55,故志愿者年龄在[25,35)年龄组的人数约为0.55×800=440.答案:(1)0.04(2)4409.某校1 200名高三年级学生参加了一次数学测验(满分为100分),为了分析这次数学测验的成绩,从这1 200人的数学成绩中随机抽取200人的成绩绘制成如下的统计表,请根据表中提供的信息解决下列问题:(1)求a、b、c(2)如果从这1 200名学生中随机抽取一人,试估计这名学生该次数学测验及格的概率P (注:60分及60分以上为及格);(3)试估计这次数学测验的年级平均分.解:(1)由题意可得,b =1-(0.015+0.125+0.5+0.31)=0.05,a =200×0.05=10,c =200×0.5=100.(2)根据已知,在抽出的200人的数学成绩中,及格的有162人.所以P =162200=0.81. (3)这次数学测验样本的平均分为x -=16×3+32.1×10+55×25+74×100+88×62200=73, 所以这次数学测验的年级平均分大约为73分.10.为了解甲、乙两个快递公司的工作状况,假设同一个公司快递员的工作状况基本相同,现从甲、乙两公司各随机抽取一名快递员,并从两人某月(30天)的快递件数记录结果中随机抽取10天的数据,制图如下:每名快递员完成一件货物投递可获得的劳务费情况如下:甲公司规定每件4.5元;乙公司规定每天35件以内(含35件)的部分每件4元,超出35件的部分每件7元.(1)根据图中数据写出甲公司员工A 在这10天投递的快递件数的平均数和众数;(2)根据图中数据估算两公司的每位员工在该月所得的劳务费.解:(1)甲公司员工A 在这10天投递的快递件数的平均数为36,众数为33.(2)根据题图中数据,可估算甲公司的每位员工该月所得劳务费为 4.5×36×30=4 860(元),易知乙公司员工B 每天所得劳务费X 的可能取值为136,147,154,189,203,所以乙公司的每位员工该月所得劳务费约为110×(136×1+147×3+154×2+189×3+203×1)×30=165.5×30=4 965(元). [综合题组练]1.(2020·安徽五校联盟第二次质检)数据a 1,a 2,a 3,…,a n 的方差为σ2,则数据2a 1,2a 2,2a 3,…,2a n 的方差为( )A .σ22B .σ2C .2σ2D .4σ2解析:选D .设a 1,a 2,a 3,…,a n 的平均数为a ,则2a 1,2a 2,2a 3,…,2a n 的平均数为2a ,σ2=(a 1-a )2+(a 2-a )2+(a 3-a )2+…+(a n -a )2n. 则2a 1,2a 2,2a 3,…,2a n 的方差为(2a 1-2a )2+(2a 2-2a )2+(2a 3-2a )2+…+(2a n -2a )2n=4×(a 1-a )2+(a 2-a )2+(a 3-a )2+…+(a n -a )2n=4σ2.故选D . 2.(多选)新闻出版业不断推进供给侧结构性改革,深入推动优化升级和融合发展,持续提高优质出版产品供给,实现了行业的良性发展.下面是2015年至2019年我国新闻出版业和数字出版业营收情况,则下列说法正确的是( )A .2015年至2019年我国新闻出版业和数字出版业营收均逐年增加B .2019年我国数字出版业营收超过2015年我国数字出版业营收的2倍C .2019年我国新闻出版业营收超过2015年我国新闻出版业营收的1.5倍D .2019年我国数字出版业营收占新闻出版业营收的比例未超过三分之一解析:选ABD .根据图示数据可知A 正确;1 935.5×2=3 871<5 720.9,故B 正确;16 635.3×1.5=24 952.95>23 595.8,故C 不正确;23 595.8×13≈7 865>5 720.9,故D 正确.故选ABD .3.甲、乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图:(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价.解:(1)由题图可得甲、乙两人五次测试的成绩分别为甲:10分,13分,12分,14分,16分;乙:13分,14分,12分,12分,14分.x -甲=10+13+12+14+165=13; x -乙=13+14+12+12+145=13, s 2甲=15[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4; s 2乙=15[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8. (2)由s 2甲>s 2乙,可知乙的成绩较稳定. 从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.4.(2020·广州市调研测试)某蔬果经销商销售某种蔬果,售价为每千克25元,成本为每千克15元.销售宗旨是当天进货当天销售.如果当天卖不出去,未售出的全部降价以每千克10元处理完.根据以往的销售情况,按[0,100),[100,200),[200,300),[300,400),[400,500]进行分组,得到如图所示的频率分布直方图.(1)根据频率分布直方图计算该种蔬果日需求量的平均数x -(同一组中的数据用该组区间中点值代表);(2)该经销商某天购进了250千克该种蔬果,假设当天的需求量为x 千克(0≤x ≤500),利润为y 元.求y 关于x 的函数关系式,并结合频率分布直方图估计利润y 不小于1 750元的概率.解:(1)x -=50×0.001 0×100+150×0.002 0×100+250×0.003 0×100+350×0.0025×100+450×0.001 5×100=265.故该种蔬果日需求量的平均数为265千克.(2)当日需求量不低于250千克时,利润y =(25-15)×250=2 500(元),当日需求量低于250千克时,利润y =(25-15)x -(250-x )×5=15x -1 250(元),所以y =⎩⎨⎧15x -1 250,0≤x <2502 500,250≤x ≤500, 由y ≥1 750,得200≤x ≤500,所以P (y ≥1 750)=P (200≤x ≤500)=0.003 0×100+0.002 5×100+0.001 5×100=0.7. 故估计利润y 不小于1 750元的概率为0.7.。
用样本推断总体 知识讲解
用样本推断总体——知识讲解【学习目标】1.学会用样本平均数、样本方差去估计总体平均数、总体方差.2.了解用样本估计总体的过程.3.能用样本的某种“率”估计总体相应的“率”,用样本的频数、频率分布估计总体的频数、频率分布.4.能通过样本来预测总体在未来一段时间内的发展水平或发展趋势.【要点梳理】要点一、总体平均数与方差的估计从总体中抽取样本,然后通过对样本的分析,去推断总体的情况,这是统计的基本思想.用样本平均数、样本方差分别去估计总体平均数、总体方差就是这一思想的一个体现.实践和理论都证明:对于简单随机样本,在大多数情况下,当样本容量足够大时,这种思想是合理的.由于简单随机样本客观地反映了实际情况,能够代表总体,因此我们可以用简单随机样本的平均数与方差去估计总体的平均数与方差.要点二、统计的简单应用在实践中,我们常常通过简单随机抽样,用样本的“率”去估计总体相应的“率”,例如:收视率、合格率、达标率等等.通过科学调查,在取得真是可靠的数据后,我们可以运用正确的统计方法来推断总体,除此之外,还可以利用已有的统计数据对事物在未来一段时间内的发展趋势做出判断和预测,为正确的决策提供服务.要点诠释:样本是总体的一部分,一个总体中可以有许多样本,为了使样本能较好地反映总体情况,在选取样本时要注意使其具有一定的代表性和广泛性.要点三、利用样本推断总体利用样本推断总体的过程如下:【典型例题】类型一、总体平均数与方差的估计1.水资源越来越缺乏,全球提倡节约用水,水厂为了了解某小区居民的用水情况,随机抽查了该小区10户家庭的月用水量,有关数据如下表:月用水量(m3)10 13 14 17 18户数 2 2 3 2 1如果该小区有500户家庭,根据上面的统计结果,估计该小区居民每月需要用水多少立方米?(写出解答过程).【思路点拨】先根据样本求出10户家庭的平均用水量,再乘以该小区的总户数即可. 【答案与解析】 解:根据题意得:110(10×2+13×2+14×3+17×2+18×1)=14(立方米), 14×500=7000(立方米),答:该小区居民每月需要用水7000立方米.【总结升华】此题考查了用样本平均数估计总体平均数,进而估计总体. 举一反三: 【变式】“立定跳远”是我市初中毕业生体育测试项目之一.测试时,记录下学生立定跳远的成绩,然后按照评分标准转化为相应的分数,满分10分.其中男生立定跳远的评分标准如下:注:成绩栏里的每个范围,含最低值,不含最高值.成绩(米) … 1.80—1.86 1.86—1.94 1.94—2.02 2.02—2.18 2.18—2.34 2.34— 得分(分) …5678910某校九年级有480名男生参加立定跳远测试,现从中随机抽取10名男生测试成绩(单位:分)如下:1.962.38 2.56 2.04 2.34 2.17 2.60 2.26 1.87 2.32 请完成下列问题:(1)求这10名男生立定跳远成绩的平均数; (2)如果将9分以上定为“优秀”,请你估计这480名男生中得优秀的人数. 【答案】 解:(1)根据题意得:x =110(1.96+2.38+2.56+2.04+2.34+2.17+2.60+2.26+1.87+2.32)=2.25(米); (2)因为抽查的10名男生中得分(9分)(含9分)以上有6人,所以有480×610=288(人); 答:该校480名男生中得到优秀的人数是288人.2.从甲、乙两种玉米苗中随机各抽出10株,分别测得它们的株高如下:(单位:cm )甲 21 42 39 14 19 22 37 41 40 25 乙27164041164440402744(1)根据以上数据分别求出甲、乙两种玉米株高的平均数和方差. (2)估计哪种玉米的苗长得高些; (3)哪种玉米的苗长得齐?【思路点拨】本题考察平均数、方差的定义.利用平均数及方差的计算公式可以求得. 【答案与解析】 解:(1)甲的平均值:)()(甲cm x 3025404137221914394221101=+++++++++=乙的平均值:甲的方差:)(2.10410)3025()3042()3021(22222cm S =-++-+-=甲, 乙的方差:)(8.12810)3144()3116()3127(22222cm S =-++-+-=乙(2)从随机抽取的样本来看,甲种玉米的平均高度小于乙种玉米的平均高度,所以可以推断乙种玉米的苗长的高.(3)从随机抽取的样本来看,由于22S S 甲乙<,所以可以推断甲种玉米的苗长得整齐. 【总结升华】本题既是一道与平均数、方差计算有关的问题,又是利用样本平均数、样本方差估计总体平均数、总体方差的一道题目,关键是理解和掌握平均数、方差的求解公式. 举一反三:【变式】某公司对两名业务主管上半年六个月的工作业绩考核得分如下(每个月满分为10分):甲 5 6 8 7 9 7 乙3679107(1)分别求出甲、乙两人的平均得分.(2)根据所学方差知识,请你比较谁的工作业绩较稳定. 【答案】 解:(1)根据平均数的公式知:1(568797)76X =+++++=甲,1(3679107)76X =+++++=乙.(2)222222215[(57)(67)(87)(77)(97)(77)]63S =-+-+-+-+-+-=甲,22222221[(37)(67)(77)(97)(107)(77)]56S =-+-+-+-+-+-=乙.∵22SS <甲乙,∴甲的工作业绩较稳定.类型二、统计的简单应用3.为了解某校七,八年级学生的睡眠情况,随机抽取了该校七,八年级部分学生进行调查,已知抽取七年级与八年级的学生人数相同,利用抽样所得的数据绘制如下统计图表.睡眠情况分组表(单位:时)根据图表提供的信息,回答下列问题:(1)求统计图中的a;(2)抽取的样本中,八年级学生睡眠时间在C组的有多少人?(3)如果睡眠时间x(时)满足:7.5≤x≤9.5,称睡眠时间合格,请你估计该校七、八年级学生睡眠时间的合格率分别是多少?【思路点拨】(1)根据扇形统计图,确定出a的值即可;(2)根据图1求出抽取的人数,乘以C占的百分比即可得到结果;(3)七年级的合格率要用抽取的合格人数除以总人数,八年级的合格率只需要将B、C两组的百分率加起来即可.【答案与解析】解:(1)根据题意得:a=1-(35%+25%+25%+10%)=5%;(2)根据题意得:(6+19+17+10+8)×35%=21(人),则抽取的样本中,八年级学生睡眠时间在C组的有21人;(3)七年级的合格率:191761917108+++++×100%=60%,八年级的合格率:25%+35%=60%,答:该校七、八年级学生中睡眠时间合格率分别是60%、60%.【总结升华】此题考查了条形统计图,用样本估计总体,频数(率)分布表,以及扇形统计图,弄清题中的数据是解本题的关键.举一反三:【变式】为了了解我市某学校“书香校园”的建设情况,检查组在该校随机抽取40名学生,调查了解他们一周阅读课外书籍的时间,并将调查结果绘制成如图所示的频数分布直方图(每小组的时间包含最小值,不包含最大值),若规定学生一周课外阅读时间不少于4小时为达标,估计该校学生阅读时间的达标率为()A.50% B.55% C.60% D.65%【答案】C.4.某羽毛球商场经理对新进某一品牌几种号码的男式羽毛球鞋的销售情况进行了一周的统计,得到一组数据后,绘制了频数、频率统计表与频数分布直方图如图所示:一周销售数量统计表频数(双)根据图表中提供的信息回答下列问题:(1)本次共统计羽毛球鞋多少双?(2)求出销售42号鞋的双数,并补全统计图;(3)根据市场调查,该商场计划再进1000双这种品牌的男式羽毛球鞋,请你帮经理估计一下,需要进多少双41号的羽毛球鞋?【思路点拨】(1)用39码的频数除以其频率即可确定羽毛球鞋数量;(2)用总数减去其他尺码的鞋子的频数即可求得42码的鞋子的数量,从而补全频数直方图;(3)需要进41号旅游鞋的双数=1000×41号鞋的频率.【答案与解析】解:(1)10÷0.1=100(双)∴本次共统计羽毛球鞋100双.(2)100-10-15-30-15-5=25双补全统计图如下:(3)1000×30%=300双.答:根据市场调查,估计需要进300双41号的羽毛球鞋.【总结升华】本题考查了频数分布直方图和利用统计图获取信息的能力;利用统计图获取信息时,必须认真观察、分析、研究统计图,才能做出正确的判断和解决问题.。
高中数学:用样本估计总体知识点
1、数据的两个特征:集中趋势和波动性。
集中趋势指的是数据的“一般水平”或曰“平均水平”,波动性指的是数据围绕“平均值”的变化情况。
2、反映数据“大多数水平”(集中趋势)的量——众数众数:即样本数据中频数最大(或频率最高)的数据。
特点:①可以不存在或不止一个;②不受极端数据的影响,求法简单;③可靠性差,如0,0,2,3,5这组数据中,众数是0,它很难真实反映这组数据的“平均水平”(集中趋势);④众数在难以定义“平均数”或“中位数”时常用,故一般可用于统计非数字型数据,如“牛,羊,马,鱼,牛”这组数据中,众数是“牛”;⑤众数在销售统计中常用3、反映数据“中间水平”(集中趋势)的量——中位数中位数:把一组数据按从小到大的数序排列,在中间的一个数字(或两个数字的平均值)叫做这组数据的中位数。
特点:①中位数把样本数据分为两部分,一部分大于中位数,另一部分小于中位数;②中位数不受少数几个极端值的影响;③由于当样本数据为偶数个时,中位数等于中间两个数据的平均值,因此有时中位数未必在样本数据中4、反映数据“平均水平”(集中趋势)的量——平均数平均数:所有数据之和再除以数据的个数所得值,又称算术平均数。
公式:特点:一般情况下能有效地反映数据的集中趋势;但易受极端值的影响,在极差较大的情况下,不如众数和中位数准确;5、反映数据“波动范围”的量——极差极差(R):一组测量数据中,最大值与最小值之差称为极差特点:极差只指明了测定值的最大离散范围,而未能利用全部测量值的信息,不能精确反映测量值彼此相符合的程度;但计算简单6、反映数据“波动大小”的量——方差方差:样本中各数据与样本平均数的差的平方的平均数叫做样本方差(或均方差),随机变量X的方差可记作:S2(或D(X))。
特点:①方差越大,数据的波动性越大;②7、反映数据“波动大小”的量——标准差标准差:方差的平方根,记作S。
特点:①标准差越大,数据的波动性越大;②8、用样本来估计总体:一般情况下,如果总体的容量较大,不便分析其数据特征,我们可以通过随机抽取一定的样本,通过样本的数据特征来对总体的数据特征进行估计;但难免有一定误差。
用样本估计总体
基础知识
题型分类
思想方法
练出高分
由直方图可知众数为:100
中位数:设x为中位数,则有:
0.00610 0.02610 0.038x 95 0.5 得x 99.74
基础知识
题型分类
思想方法
练出高分
基础知识
度剖析
作茎叶图时, 将高位(十位与百位) 作为茎,低位 (个位)作为叶,逐 个统计;根据茎叶图分析两组数 据的特点,可以得出结论.
基础知识
题型分类
思想方法
练出高分
题型分类·深度剖析
题型二 茎叶图的应用
解析 探究提高 思维启迪 【例 2】 某良种培育基地正在培育一种小麦 新品种 A.将其与原有的一个优良品种 B 进 行对照试验.两种小麦各种植了 25 亩,所 解 (1)如下图 得亩产数据(单位:千克)如下: 品种 A: 357,359,367,368,375,388,392,399,400,405,41 2,414,415,421,423,423,427,430,430,434,443, 445,445,451,454 品种 B: 363,371,374,383,385,386,391,392,394,394,39 (2) 由于每个品种的数据都只有 25 个,样本不大,画茎叶图很方 5,397,397,400,401,401,403,406,407,410,412, 便;此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比 415,416,422,430 (1)作出数据的茎叶图; 较,没有任何信息损失,而且还可以随时记录新的数据. (2)用茎叶图处理现有的数据,有什么优点? (3) 通过观察茎叶图可以看出:①品种 A 的亩产平均数(或均值) (3)通过观察茎叶图,对品种 A 与 B 的亩产 比品种 B 高; ②品种 A 的亩产标准差(或方差)比品种 B 大, 故品 量及其稳定性进行比较,写出统计结论.
用样本估计总体
思考1:上述100个数据中的最大值和最 小值分别是什么?由此说明样本数据的 变化范围是什么?
0.2~4.3
思考2:样本数据中的最大值和最小值 的差称为极差.如果将上述100个数据 按组距为0.5进行分组,那么这些数据 共分为多少组?
(4.3-0.2)÷0.5=8.2
思考3:以组距为0.5进行分组,上述100 个数据共分为9组,各组数据的取值范围 可以如何设定?
(2)大部分居民的月均用水量集中在一个中间值 附近,只有少数居民的月均用水量很多或很少;
(3)居民月均用水量的分布有一定的对称性等.
思考4:样本数据的频率分布直方图是 根据频率分布表画出来的,一般地,频 率分布直方图的作图步骤如何?
第一步,画平面直角坐标系.
第二步,在横轴上均匀标出各组分点, 在纵轴上标出 [153.5,156.5) [156.5,159.5) [159.5,162.5) [162.5,165.5) [165.5,168.5) [168.5,171.5) [171.5,174.5) [174.5,177.5) [177.5,180.5]
合计
频数 1 1 4 5 8 11 6 2 1 1 40
O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月均用水量/t
频率 组距 0.5 0.4 0.3 0.2 0.1
宽度:组距
高度:
频率 组距
O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月均用水量/t
上图称为频率分布直方图,其中横轴 表示月均用水量,纵轴表示频率/组距. 频率分布直方图中各小长方形的和高 度在数量上有何特点?
3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.6 3.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.4 3.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8 3.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.1 3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.3 3.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0 2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.3 2.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.4 2.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.4 2.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用样本估计总体【学习目标】1.在表示样本数据的过程中,学会列频率分布表,画频率分布直方图、频率折线图和茎叶图.2.通过实例体会频率分布直方图、频率折线图、茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准确地做出总体估计.3.正确理解样本数据标准差的意义和作用,学会计算数据的标准差.4.能根据实际问题的需要合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.5.会用样本的基本数字特征估计总体的基本数字特征.【要点梳理】要点一、频率分布的概念频率分布是指一个样本数据在各个小范围内所占比例的大小.一般用频率分布直方图反映样本的频率分布.其一般步骤为:1.计算一组数据中最大值与最小值的差,即求极差2.决定组距与组数3.将数据分组4.列频率分布表5.画频率分布直方图要点诠释:频率分布直方图的特征:1.从频率分布直方图可以清楚的看出数据分布的总体趋势.2.从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.要点二、频率分布折线图、总体密度曲线1.频率分布折线图的定义:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.2.总体密度曲线的定义:在样本频率分布直方图中,样本容量越大,所分组数越多,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.要点诠释:总体密度曲线能够精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息,能够精确的反映一个总体在各个区域内取值的规律.要点三、茎叶图当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图.要点诠释:茎叶图的特征:(1)用茎叶图表示数据有两个优点:一是在统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示.(2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰.要点四、众数、中位数与平均数1.众数一组数据中出现次数最多的数据叫做众数.如果变量是分类的,用众数是很有必要的.例如班委会要作出一项决定,考察全班同学对它赞成与否就可以用众数.2.中位数将一组数据从小到大依次排列,把中间数据(或中间两数据的平均数)叫做中位数.中位数把样本数据分成了相同数目的两部分.3.平均数样本数据的算术平均数,即121()n x x x x n=+++.要点诠释:由于众数仅能刻画某一数据出现的次数较多,中位数对极端值不敏感,而平均数又受极端值左右,因此这些因素制约了仅依赖这些数字特征来估计总体数字特征的准确性.要点五、标准差与方差 1.标准差样本数据1,2,,n x x x 的标准差的算法:(1)算出样本数据的平均数x .(2)算出每个样本数据与样本数据平均数的差:()12i x x i n -=, ,, (3)算出(2)中()12i x x i n -=, ,,的平方. (4)算出(3)中n 个平方数的平均数,即为样本方差. (5)算出(4)中平均数的算术平方根,,即为样本标准差. 其计算公式为:(n s x =+-2.方差从数学的角度考虑,人们有时用标准差的平方2s (即方差)来代替标准差,作为测量样本数据分散程度的工具:2222121[()()()]n s x x x x x x n=-+-++-要点诠释:在刻画样本数据的分散程度上,方差和标准差是一样的,但在解决实际问题时,一般多采用标准差. 数据的离散值程度可以用极差、方差或标准差来描述.极差反映了一组数据变化的幅度;样本方差描述了一组数据围绕平均数波动的大小;样本方差的算术根表示样本的标准差,它也描述了数据对平均数的离散程度.【典型例题】类型一:频率分布表、频率分布直方图例1.在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交作品的件数按5天一组分组统计,绘制了频率分布直方图(如下图所示).已知从左到右各长方形的高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题:(1)本次活动共有多少件作品参加评比?(2)哪组上交的作品数最多?有多少件?(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率较高?【答案】(1)60 (2)四组18(3)六组【解析】(1)依题意知第三组的频率为41 2346415=+++++.∵第三组的频数为12,∴本次活动的参评作品数为126015=件).(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有66018 234641⨯=+++++(件).(3)第四组的获奖率是105 189=,第六组上交的作品数量为1603234641⨯=+++++(件),∴第六组的获奖率为26 39 =.显然第六组的获奖率较高.【总结升华】弄清所求问题是什么,并正确地运算是做对题的关键.本题主要考查同学们对频率分布直方图的理解,只有熟悉它的特征,才能清楚数据分布的总体趋势,根据直方图反映的信息正确解题.举一反三:【变式1】某中学为了解学生数学课程的学习情况,在3000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如下图所示).根据频率分布直方图推测,这3000名学生在该次数学考试中成绩小于60分的学生数是________.例2.阅高考试卷有一个环节叫“试批”.某省为了了解和掌握考生的实际答卷情况,随机地抽取了100名考生的数学成绩,数据如下(单位:分):135 98 102 110 99 121 110 96 100 103125 97 117 113 110 92 102 109 104 112105 124 87 131 97 102 123 104 104 128109 123 111 103 105 92 114 108 104 102129 126 97 100 115 111 106 117 104 109111 89 110 121 80 120 121 104 108 118129 99 90 99 121 123 107 111 91 10099 101 116 97 102 108 101 95 107 101102 108 117 99 118 106 119 97 126 108123 119 98 121 101 113 102 103 104 108(1)列出频率分布表;(2)画出频率分布直方图和折线图;(3)估计该省考生数学成绩在100~120分之间的比例;(4)设该省有20万考生,估计该省考生数学成绩不及格的人数(满分150分,90分及以上视为及格);(5)根据折线图估计该省考生的数学成绩在哪一个分数段的人数将会最多.【思路点拨】理解频率分布直方图的具体含义.【解析】100个数据中,最大值为135,最小值为80,极差为135-80=55.把100个数据分成11组,这时组距55511===极差组数.(1)频率分布表如下:分组频数频率频率组距[80,85) 1 0.01 0.002[85,90) 2 0.02 0.004[90,95) 4 0.04 0.008[95,100)14 0.14 0.028[100,105)24 0.24 0.048[105,110)15 0.15 0.030[110,115)12 0.12 0.024[115,120)9 0.09 0.018[120,125)11 0.11 0.022[125,130) 6 0.06 0.012[130,135] 2 0.02 0.004 合计100 1 0.2注:表中加上“频率组距”一列,这是为画频率直方图准备的,因为它是频率直方图的纵坐标.(2)根据频率分布表中的有关信息画出频率分布直方图及折线图,见下图.(3)从频率分布表中可知,这100名考生的数学成绩在100~120分之间的频率为0.24+0.15+0.12+0.09=0.60,据此估计该省考生数学成绩在100~120分之间的比例为60%(0.60=60%).(4)100名考生中,数学成绩不及格的频率为0.01+0.02=0.03.比例为3%.200000×3%=6 000(人).估计该省考生数学成绩不及格的有6000人.(5)折线图的最高点位于100~105之间,据此估计该省考生的数学成绩在100~105分这个分数段的人数将会最多.【总结升华】本例中,决定分点时,直接使用了最小值加组距,即80+5k(k=1,2,…,11),而没有把最小值减去某一个数(例如80-0.5=79.5)作为第1个分点,这是因为100个分数是明确的,即它们都在80~135之间.凡事都要具体问题具体分析,不可教条化.本例是把5分看成一个分数段,统计各段的情况.举一反三:【变式1】一个容量为20的样本,分组后,组距与频数如下[10,20],2;(20,30],3;(30,40],4;(40,50],5;(50,60],4;(60,70],2,则样本在(-∞,50]上的频率为()A.120B.14C.12D.710【答案】 D【解析】根据频率的计算公式频率=频数样本容量求解.频率2345147 2345422010+++===+++++.【变式2】对某电子元件进行寿命追踪调查,情况如下:寿命/h 100~200 200~300 300~400 400~500 500~600个数20 30 80 40 30 (1)列出频率分布表;(2)画出频率分布直方图;(3)估计该电子元件寿命在100~400 h以内的占总体的比例;(4)估计该电子元件寿命在400 h以上的在总体中占的比例.【解析】(1)样本频率分布表如下:寿命/h 频数频率100~200 20 0.10200~300 30 0.15300~400 80 0.40400~500 40 0.20500~600 30 0.15合计200 1(2)频率分布直方图如下图所示;(3)估计该电子元件寿命在100~400 h以内占总体的比例为65%;(4)估计该电子元件寿命在400 h 以上的在总体中占的比例为35%.类型二:众数、中位数、平均数(1)求该公司人员月工资的平均数、中位数、众数;(精确到元)(2)假设副董事长的工资从5000元提升到20000元,董事长的工资从5500元提升到30000元,那么新的平均数、中位数、众数又是什么?(精确到元)(3)你认为哪个统计量更能反映这个公司人员的工资水平?结合此问题谈一谈你的看法.【思路点拨】理解平均数、中位数、众数的概念. 【答案】(1)2091 1500 1500 (2)3288 (3)中位数和众数 【解析】 (1)平均数是40003500200021500100055003020150033x ++⨯++⨯+⨯+⨯=+150********≈+=(元), 中位数是1500元,众数是1500元. (2)平均数是2850018500200021500100055003020'150015001788328833x ++⨯++⨯+⨯+⨯=+≈+=(元),中位数是1500元,众数是1500元.(3)在这个问题中,中位数和众数均能反映该公司人员的工资水平.因为公司中少数人的工资额与大多数人的工资额差别较大,这样导致平均数与中位数偏差较大,所以平均数不能反映这个公司人员的工资水平.【总结升华】 (1)深刻理解和把握平均数、中位数、众数在反映样本数据上的特点,结合实际情况,灵活运用.(2)众数、中位数、平均数三者比较,平均数更能体现每个数据的特征,它是各数据的重心. 举一反三:【变式1】为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12. (1)第二小组的频率是多少?样本容量是多少? (2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? 在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由.在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和等于1. 【答案】 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,因此第二小组的频率为:40.0824171593=+++++又因为频率=第二小组频数样本容量所以 121500.08===第二小组频数样本容量第二小组频率(2)由图可估计该学校高一学生的达标率约为171593100%88%24171593+++⨯=+++++(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.类型三:方差、标准差已经算得两个组的平均分都是80分.请根据你所学过的统计知识,进一步判断这两个组在这次竞赛中的成绩谁优谁劣,并说明理由.【解析】 (1)甲组成绩的众数为90分,乙组成绩的众数为70分,从成绩的众数比较看,甲组成绩好些.(2)21251013146s =+++++甲[2(50-80)2+5(60-80)2+10(70-80)2+13(80-80)2+14(90-80)2+6(100-80)2]=150(2×900+5×400+10×100+13×0+14×100+6×400)=172, 2150s =乙(4×900+4×400+16-100+2×0+12×100+12×400)=256.∴22s s <乙甲,∴甲组成绩较乙组成绩稳定,故甲组成绩好些.(3)甲、乙两组成绩的中位数、平均数都是80分,其中,甲组成绩在80分以上的有33人,乙组成绩在80分以上的有26人,从这一角度看,甲组的成绩总体较好.(4)从成绩统计表看,甲组成绩大于或等于90分的人数为14+6=20(人),乙组成绩大于或等于90分的人数为12+12=24(人),∴乙组成绩集中在高分段的人数较多,同时,乙组得满分的人数比甲组得满分的人数多6人,从这一角度看,乙组的成绩较好【总结升华】 要正确解答这道题,首先要抓住问题中的关键词语.全方位地进行必要的计算,而不能习惯地仅从样本方差的大小去决定哪一组的成绩好,像这样的实际问题还得从实际的角度去分析,如本例的“满分人数”;其次要在恰当地评估后,组织好正确的语言作出结论.举一反三: 【变式1】甲、乙两台机床在相同的技术条件下,同时生产一种零件,现在从中抽测10个,它们的尺寸分别如下(单位:mm) 甲机床:10.2 10.1 10.0 9.8 9.9 10.3 9.7 10.0 9.9 10.1 乙机床:10.3 10.4 9.6 9.9 10.1 10.9 8.9 9.7 10.2 10.0分别计算上面两个样本的平均数和方差.如图纸规定零件的尺寸为10 mm ,从计算的结果来看哪台机床加工这种零件较合适? 【解析】101001011.101.102.10101=⨯=++=)(甲 x ,1010101104.103.10101=⨯=+++=)(乙 x .∴[]2222101.10101.10102.10101)()()(甲-+-+-= s =0.032mm []22221010104.10103.10101)()()(乙-+-+-= s =0.062mm . ∴2甲s <2乙s∴用甲机床比乙机床稳定,即用甲机床加工较合适. 类型四:茎叶图例5.某中学高二(2)班甲、乙两名学生自进入高中以来,每次数学考试成绩情况如下: 甲:95,81,75,91,86,89,71,65,76,88,94,110,107; 乙:83,86,93,99,88,103,98,114,98,79,78,106,101. 画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较.【思路点拨】茎叶图便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据. 【答案】乙同学的成绩比较稳定【解析】 甲、乙两人数学成绩的茎叶图如图所示.从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,中位数是98;甲同学的得分情况,也大致对称,中位数是88.乙同学的成绩比较稳定,总体情况比甲同学好. 举一反三:【变式1】在某高中篮球联赛中,甲、乙两名运动员的得分如下:甲:14,17,25,26,30,31,35,37,38,39,44,48,51,53,54; 乙:6,15,17,18,21,27,28,33,35,38,40,44,56. (1)用茎叶图表示上面的样本数据,并求出样本数据的中位数;(2)根据(1)中所求的数据分析甲、乙两名运动员中哪一位发挥得更加稳定. 【解析】(1)茎叶图如图所示.甲运动员的中位数是37,乙运动员的中位数是28.(2)从茎叶图上可以看出甲运动员的得分大致对称,中位数是37,乙运动员的得分也大致对称,中位数是28,因此,甲运动员发挥得比较稳定,总体得分比乙运动员高. 【变式2】 随机抽取某中学甲乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如图. (1)根据茎叶图判断哪个班的平均身高较高; (2)计算甲班的样本方差.【答案】(1)乙班(2)57 【解析】(1)由茎叶图可知:甲班身高集中于160179之间, 而乙班身高集中于170180之间. 因此乙班平均身高高于甲班; (2) 15816216316816817017117917918217010+++++++++==x甲班的样本方差为:()()()()()()()()()()222222222211581701621701631701681701681701017017017117017917017917018217057[-+-+-+-+-+-+-+-+-+-]=。