抽样方法用样本估计总体及正态分布
第53讲 抽样方法、用样本估计总体与正态分布
第53讲 抽样方法、用样品估计总体与正态分布【考点解读】1.了解抽样方法、用样品估计总体的意义。
2.了解正态分布的意义及主要性质.【知识扫描】1.利用简单随机抽样方法从总体中抽取样本,了解分层抽样和系统抽样的方法.(1)一般地,设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样。
(2)一般地,要从容量为N 的总体中抽取容量为n 的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。
(3)当已知总体由差异明显的几部分组成时,为了使样本更客观地反映总体的情况,常将总体按不同的特点分成层次比较分明的几部分,然后按各部分在总体中所占的比进行抽样,这种抽样叫做分层抽样,其中所分成的各部分叫“层”.2.(1)用样本的频率分布估计总体的分布:频率分布表、频率分布直方图、频率折线图、茎叶图 (2)用样本的数字特征估计总体的特征:平均数、中位数、众数、极差、方差、标准差 3.正态分布(1)如果随机变量ξ的概率密度为 φμ,σ(xx ∈(-∞,+∞)其中μ、σ分别表示总体的平均数与标准差,称ξ服从参数为μ、σ的正态分布,记作ξ~N (μ,σ2),函数图象称为正态密度曲线,简称正态曲线.φμ,σ(x )dx ,则称ξ的分一般的,如果对于任何实数a <b ,随机变量ξ满足P (a <ξ≤b )= 布为正态分布(2)标准正态分布在正态分布中,当μ=0,σ=1时,正态总体称为标准正态总体,正态分布N (0,1),称为标准正态分布,记作ξ~N (0,1).(3)正态曲线的性质(ⅰ)曲线在x 轴的上方,与x 轴不相交; (ⅱ)曲线关于直线x =μ对称; (ⅲ)曲线在x =μ时位于最高点;(ⅳ)当x <μ时,曲线上升;当x >μ时,曲线下降,并且当曲线向左、右两边无限延伸时,以x 轴为渐近线向它无限靠近;(ⅴ)当μ一定时,曲线的形状由σ确定,σ越大,曲线越“矮胖”,表示总体的分布越分散;σ越小,曲线越“瘦高”,表示总体的分布越集中.(4)若ξ~N (μ,σ2),则E ξ=μ,D ξ=σ2.(5)若X ~N (μ,σ2),则P (μ-σ<X ≤μ+σ)=0.6826, P (μ-2σ<X ≤μ+2σ)=0.9544, P (μ-3σ<X ≤μ+3σ)=0.9974.(6)通常认为服从正态分布N (μ,σ2)的随机变量X 只取(μ-3σ,μ+3σ)之间的值 ,并简称之为3σ原则.22()2x μσ--ba⎰【考计点拔】牛刀小试:1.从编号为150 的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( )()5,10,15,20,25A ()3,13,23,33B ()1,2,3,4,C ()2,4,6,16,32D 【答案】B2.设随机变量ξ服从正态分布N (2,9),若P (ξ>c +1)=P (ξ<c -1),则c =( )A .1B .2C .3D .4【解析】:选B.∵μ=2,由正态分布的定义知其函数图象关于x =2对称,于是c +1+c -12=2,∴c =2.故选B.3.(2011四川高考)有一个容量为66的样本,数据的分组及各组的频数如下: [11.5,15.5) 2 [15.5,19.5) 4 [19.5,23.5) 9 [23.5,27.5) 18 [27.5,31.5) 1l [31.5,35.5) 12 [35.5.39.5) 7 [39.5,43.5) 3 根据样本的频率分布估计,数据落在[31.5,43.5)的概率约是 (A)16 (B)13 (C)12 (D )23答案:B解析:从31.5到43.5共有22,所以221663P ==。
高考数学总复习 10-1 随机抽样课件 新人教B版
(4)了解随机数的意义,能运用模拟方法估计概率, 初步体会几何概型的意义. (5)通过阅读材料,了解人类认识随机现象的过程.
2.用样本估计总体 (1)通过实例体会分布的意义和作用,在表示样本数 据的过程中,学会列频率分布表、画频率分布直方图、 频率折线图、茎叶图,体会它们各自的特点. (2)通过实例理解样本数据标准差的意义和作用,学 会计算数据标准差. (3)能根据实际问题的需求合理地选取样本,从样本 数据中提取基本的数字特征(如平均数、标准差),并作出 合理的解释.
(4)在解决统计问题的过程中,进一步体会用样本估 计总体的思想,会用样本的频率分布估计总体分布,会 用样本的基本数字特征估计总体的基本数字特征;初步 体会样本频率分布和数字特征的随机性. (5)会用随机抽样的基本方法和样本估计总体的思 想,解决一些简单的实际问题;能通过对数据的分析为 合理的决策提供一些依据,认识统计的作用,体会统计 思维与确定性思维的差异. (6)初步形成对数据处理过程进行评价的意识.
概率一般不单独命制大题, 若考大题, 常与随机抽样, 样本的数字特征, 数列,解析几何, 函数、方程与不等式, 线性规划等知识结合.只要依据其它知识列出等可能事 件,其概率即得,难度不大.
三、考查变量的相关性与统计案例 1.变量的相关性 2.回归分析 3.独立性检验 高考对这一部分考查比较慎重,主要是基础知识与 简单应用,很少考查综合性大题,即使考查,难度一般 不大.
(2)通过对典型案例(如“质量控制”“新药是否有 效”等)的探究,了解实际推断原理和假设检验的基本思 想、方法及初步应用. (3)通过对典型案例(如“昆虫分类”等)的探究, 了解 聚类分析的基本思想、方法及其初步应用. (4)通过对典型案例(如“人的体重与身高的关系” 等)的探究,了解回归的基本思想、方法及其初步应用.
概率与统计(理科)
概率与统计(理科)一、高考考试内容离散型随机变量的分布列,离散型随机变量的期望和方差。
抽样方法、总体分布的估计、正态分布、线性回归。
二、考试要求:(1)了解离散型随机变量的意义,会求某些简单的离散型随机变量的分布列。
(2)了解离散型随机变量的期望值、方差的意义,会根据离散型随机变量的分布列求出期望值、方差。
(3)会用随机抽样,系统抽样,分层抽样等常用的抽样方法从总体中抽取样本。
(4)会用样本频率分布去估计总体分布。
(5)了解正态分布的意义及主要性质。
(6)了解线性回归的方法和简单应用。
三、应试策略1、正确理解有关概念。
(1)随机试验与随机事件:在一定条件下可能发生也可能不发生的事件叫随机事件;条件每实现一次,叫做一次试验;如果试验结果预先无法确定,这种试验叫做随机试验。
(2)频率与概率:对于一个事件来说概率是一个常数;频率则随着试验次数的变化而变化,试验次数越多,频率就越接近于事件的概率。
(3)互斥事件与对立事件:对立事件一定是互斥事件,但互斥事件不一定是对立事件。
(4)互斥事件与相互独立事件:不可能同时发生的事件叫互斥事件,而相互独立事件则是指两个事件是否发生与否相互之间没有影响。
2、公式的应用(1)常用公式 ①等可能事件的概率:基本事件总数中所含基本事件数A n m A P ==)( ②互斥事件的概率:)()()(B P A P B A P +=+③对立事件的概率:1)()()(____=+=+A P A P A A P④相互独立事件的概率:)()()(B P A P B A P ⋅=⋅⑤n 次独立重复试验中事件A 恰好发生k 次的概率:k n k k n n P P C k P --=)1()((2)注意事项:①每个公式都有成立的条件,若不满足条件,则这些公式将不再成立。
②对于一个概率问题,应首先弄清它的类型,不同的类型采用不同的计算方法,一般题中总有关键语说明其类型,对于复杂问题要善于进行分解,或者运用逆向思考的方法。
抽样方法、正态分布
抽样方法、正态分布重点、难点讲解:1.抽样的三种方法:简单随机抽样、系统抽样、分层抽样。
后两种方法是建立在第一种方法基础上的。
2.了解如何用样本估计总体:用样本估计总体的主要方法是用样本的频率分布来估计总体分布,主要有总体中的个体取不同数值很少和较多甚至无限两种情况。
3.正态曲线及其性质正态分布常记作N(),其正态分布函数:f(x)=, x∈(-∞,+∞)。
把N(0,1)称为标准正态分布,相应的函数表达式:f(x)=, x∈(-∞,+∞)。
正态图象的性质:①曲线在x轴的上方,与x轴不相交。
②曲线关于直线x=μ对称。
③曲线在x=μ时位于最高点。
④当x<μ时,曲线上升;当x>μ时,曲线下降,并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近。
⑤当μ一定时,曲线的形状由确定,越大,曲线越“矮胖”,表示总体的分布越分散;越小,曲线越“瘦高”,表示总体的分布越集中。
4.一般正态分布与标准正态分布的转化对于标准正态分布,用表示总体取值小于x0的概率,即=p(x<x0),其几何意义是由正态曲线N(0,1),x轴,直线x=x0所围成的面积。
又根据N(0,1)曲线关于y轴的对称性知,,并且标准正态总体在任一区间(a,b)内取值概率。
任一正态总体N(),其取值小于x的概率F(x)=。
5.了解“小概率事件”和假设检验的思想。
知识应用举例:例1.为了了解某大学一年级新生英语学习的情况,从503名大学一年级学生中抽取50名作为样本,如何采用系统抽样方法完成这一抽样?思路分析:因为总体的个数503,样本的容量50,不能整除,故可采用随机抽样的方法从总体中剔除3个个体,使剩下的个体数500能被样本容量50整除,再用系统抽样方法。
解:第一步:将503名学生随机编号1,2,3,……,503第二步:用抽签法或随机数表法,剔除3个个体,剩下500名学生,然后对这500名学生重新编号。
第三步:确定分段间隔k==10,将总体分成50个部分,每部分包括10个个体,第一部分的个体编号为1,2,......,10;第二部分的个体编号11,12,......,20;依此类推,第50部分的个体编号491,492, (500)第四步:在第一部分用简单随机抽样确定起始的个体编号,例如是7。
随机抽样-用样本估计总体
2.[2017全国卷Ⅰ]为评估一种农作物的种 植效果,选了n块地作试验田.这n块地的 亩产量(单位:kg)分别为x1,x2,…,xn,下 面给出的指标中可以用来评估这种农作物 亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差 C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数
2.用样本的数字特征估计总体的数字特征 (1)众数:一组数据中出现次数最多的数。 (2)中位数:将数据按大小顺序排列,若有奇数个数,则最中间的数是中 位数;若有偶数个数,则中间两数的平均数是中位数。
(3)平均数:-x =_x_1+__x_2_+_n_…__+__x_n___ ______,反映了一组数据的平均水平。
B.某车间包装一种产品,在自动传送带上,每隔 5分钟抽一包产品,称其质量是否合格
C.某校分别从行政、教师、后勤人员中抽取2人、 14人、4人了解学校机构改革的意见
D.用抽签法从10件产品中选取3件进行质量检验
[答案] D
[解析] A,B不是简单随机抽样,因为抽 取的个体间的间隔是固定的;C也不是,因 为总体的个体有明显的层次;D是简单随机 抽样中的抽签法.故选D.
A.480 B.481
C.482 D.483
[答案] C
[解析] 根据系统抽样的定义可知,样本的 编号成等差数列,令a1=7,a2=32,d=25, 所以7+25(n-1)≤500,所以n≤20,最大编 号为7+25×19=482.
4.[2019山东临沂模拟]某班共有52人,现根
据学生的学号,用系统抽样的方法,抽取 一个容量为4的样本,已知3号、29号、42
号同学在样本中,那么样本中还有一个同 学的学号是( )
A.10
高考数学一轮总复习课件:随机抽样、用样本估计总体
6.(2020·天津)从一批零件中抽取 80 个,测量其直径(单位: mm),将所得数据分为 9 组:[5.31,5.33),[5.33,5.35),…,[5.45, 5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽 取的零件中,直径落在区间[5.43,5.47)内的个数为( B )
n 的样本进行调查,其中从丙车间的产品中抽取了 3 件,则 n=
(D ) A.9
B.10
C.12
D.13
【解析】 由分层抽样可得630=2n60,解得 n=13.
【讲评】 进行分层抽样的相关计算时,常利用以下关系式 巧解:
①总样体本的容个量数nN=该层该抽层取的的个个体体数数; ②总体中某两层的个体数之比等于样本中这两层抽取的个 体数之比.
5.对某商店一个月内每天的顾客人数进行了统计,得到样本 的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( A )
A.46,45,56 B.46,45,53 C.47,45,56 D.45,47,53
解析 从茎叶图中可以看出样本数据的中位数为中间两个数的 平均数,即45+2 47=46,众数是 45,极差为 68-12=56,故选择 A.
状元笔记
(1)一个抽样试验能否用抽签法,关键看两点:一是制签是否 方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都 较小时可用抽签法.
(2)在使用随机数表时,如遇到取两位数或三位数,可从选择 的随机数表中的某行某列的数字计起,每两个或每三个作为一个 单位,自左向右选取,有超过总体号码或出现重复号码的数字舍 去.
个最高分、1 个最低分,得到 7 个有效评分.7 个有效评分与 9 个
原始评分相比,不变的数字特征是( A )
用样本分布估计总体分布
106
1
思考:一般地,列出一组样本数据的频 率分布表可以分哪几个步骤进行?
开始 计算极差(最大值-最小值) 确定组距和组数(设k=极差÷组距,若k为 整数,则组数=k,否则,组数=k+1) 确定分点,将数据分组 绘表,(统计各组频数,计算各组频率) 结束
知识探究(二):频率分布直方图
思考1:为了直观反映样本数据在各组中的分布情 况,我们将上述频率分布表中的有关信息用下面 的图形表示: 频率分布表
从上面的数据很难直接估计出总体的分布情况,为此, 我们可以先将以上数据按每个数据出现的频数和频率。 汇成下表:
宽度/mm 频 数 头盖骨的宽度主要在 频 率 宽度/mm 142 143 频 7 10 数 频 率
136~149mm之间, 121 1 0.009 135mm以下以及150mm 129 1 0.009 以上所占比例相对较小
fi / x
0.0018 0.0018 0.0114 0.0416 0.0868 0.0472 0.0076
0.10
0.08 0.06 0.04 0.02 0
0.0472 6
140~145mm
145~150mm 150~155mm
46
25 4 1
0.434
0.236 0.038 0.009
142 146 140 148 140 140 139 139 144 138 146 153 148 152 143 140 141 145 148 139 136 141 140 139 158 135 132 148 142 145 145 121 129 143 148 138 149 146 141 142 144 137 153 148 144 138 150 148 138 145 145 142 143 143 148 141 145 141
高三数学高效课堂资料学案四十九 随机抽样、 用样本估计总体、正态分布
高三数学高效课堂资料学案四十九 随机抽样、用样本估计总体、正态分布(概率与统计学案三,共八个)一、考点与能力要求1.熟练掌握随机抽样的概念、抽样方法及三种抽样的区别与联系;2.掌握频率、中位数、众数、方差、标准差的定义;3.能利用频率分布直方图解决与概率有关的实际问题;4.了解正态分布曲线的特点及曲线所表示的意义并结合具体题目进行运算。
二、知识讲解 (一)预备知识1.抽样方法:三种抽样的共同点与各自特点分别是什么?2.样本分析(1)样本平均值 (2)样本众数 (3)样本中位数 (4)样本方差众数、中位数、平均数都是描述一组数据集中趋势的量,方差是用来描述一组数据波动情况的特征数。
3.频率分布直方图(1)频率分布直方图的绘制; (2)样本估计总体;(3)用样本平均数估计总体平均数,用样本标准差估计总体标准差。
4.正态分布 (1)正态变量概率密度曲线的函数表达式为 ,其中参数σμ,分别表示什么变量?标准正态分布怎样表示?(2)正态分布曲线的几何性质?(二)基础知识析理 1.随机抽样(1)基础解读:随机抽样包括简单随机抽样、系统抽样、分层抽样三种。
它们的共同点:抽样过程中每个个体被抽取的机会相同,都是不放回的抽样 。
不同点:使用的范围不同。
简单随机抽样适用于总体个数较少的抽样;系统抽样适用于总体个数较多的抽样;分层抽样适用于总体由差异明显的几部分所组成的抽样。
(2)应用:(2017江苏) 某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为22()21(),2x f x e x R μσπσ--=∈∙22222123()()()()n x x x x x x x x S n-+-+-+∙∙∙+-=2222123()()()()n x x x x x x x x S n -+-+-+∙∙∙+-=60件进行检验,则应从丙种型号的产品中抽取 件. 2.正态分布(1)基础解读:若随机变量ξ服从正态分布2(,)N μσ,则()68.26%P μσξμσ-<<+=,(22)95.44%P μσξμσ-<<+=。
(抽样检验)抽样与参数估计最全版
(抽样检验)抽样与参数估计最全版(抽样检验)抽样与参数估计抽样和参数估计推断统计:利⽤样本统计量对总体某些性质或数量特征进⾏推断。
从数据得到对现实世界的结论的过程就叫做统计推断(statisticalinference)。
这个调查例⼦是估计总体参数(某种意见的⽐例)的壹个过程。
估计(estimation)是统计推断的重要内容之壹。
统计推断的另壹个主要内容是本章第⼆节要介绍的假设检验(hypothesistesting)。
因此本节内容就是由样本数据对总体参数进⾏估计,即:学习⽬标:了解抽样和抽样分布的基本概念理解抽样分布和总体分布的关系了解点估计的概念和估计量的优良标准掌握总体均值、总体⽐例和总体⽅差的区间估计第⼀节抽样和抽样分布回顾相关概念:总体、个体和样本抽样推断:从所研究的总体全部元素(单位)中抽取壹部分元素(单位)进⾏调查,且根据样本数据所提供的信息来推断总体的数量特征。
总体(Population):调查研究的事物或现象的全体参数个体(Itemunit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体统计量样本容量(Samplesize):样本中所含个体的数量壹般将样本单位数不少于三⼗个的样本称为⼤样本,样本单位数不到三⼗个的样本称为⼩样本。
壹、抽样⽅法及抽样分布1、抽样⽅法(1)、概率抽样:根据已知的概率选取样本①、简单随机抽样:完全随机地抽选样本,使得每壹个样本都有相同的机会(概率)被抽中。
注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,⼜可分为重复抽样和不重复抽样。
⽽且,根据抽样中是否排序,所能抽到的样本个数往往不同。
②、分层抽样:总体分成不同的“层”(类),然后在每壹层内进⾏抽样③、整群抽样:将壹组被调查者(群)作为壹个抽样单位④、等距抽样:在样本框中每隔壹定距离抽选壹个被调查者(2)⾮概率抽样:不是完全按随机原则选取样本①、⾮随机抽样:由调查⼈员⾃由选取被调查者②、判断抽样:通过某些条件过滤来选择被调查者(3)、配额抽样:选择壹群特定数⽬、满⾜特定条件的被调查者2、抽样分布壹般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(samplingdistribution)。
第69讲随机抽样用样本估计总体正态分布
•B
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
•B
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
•D
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
•C
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
•B
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
•C
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本 估计总体正态分布
2020/11/26
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体态 分布
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
第69讲随机抽样用样本估计总体正态 分布
第三章 正态分布与抽样分布
图3-5 正态分布的概率
关于正态分布,有几个概率应记住: 关于正态分布,有几个概率应记住: 一般正态分布: 一般正态分布:
P(µ-1.96σ≤x<µ+1.96σ)=0.95 1.96σ≤x<µ+1.96σ)= )=0.95 P(µ-2.58σ≤x<µ+2.58σ)=0.99 2.58σ≤x<µ+2.58σ)= )=0.99 P(µ-σ≤x<µ+σ)=0.6826 σ≤x<µ+σ)= )=0.6826 P(µ-2σ≤x<µ+2σ)=0.9545 2σ≤x<µ+2σ)= )=0.9545 P(µ-3σ≤x<µ+3σ)=0.9973 3σ≤x<µ+3σ)= )=0.9973
对于大样本资料,常将样本标准差S 对于大样本资料,常将样本标准差S 与样本均数配合使用,记为 X ± S ,用 与样本均数配合使用, 以说明所考察性状或指标的优良性与稳 定性。对于小样本资料, 定性。对于小样本资料,常将样本标准 误 SX 与样本均数 X 配合使用,记 配合使用, 为 X ± S ,用以表示所考察性状或指 标的优良性与抽样误差的大小。 标的优良性与抽样误差的大小。
学上已证明 总体的两个参数与x总体的两 总体的两个参数与x 个参数有如下关系: 个参数有如下关系:
µx = µ
σx =
σ
n
表 X 的抽样分布形式与原总体X分布形式的关系 的抽样分布形式与原总体X
2.2 均数标准误
均数标准误 σx = 的大小反映样本均数 X n 抽样误差的大小 标准误大, 的大小。 的抽样误差的大小。标准误大,说明各样本均 间差异程度大;反之,亦然。 数 X 间差异程度大;反之,亦然。 在实际工作中,总体标准差σ往往是未知的, 在实际工作中,总体标准差σ往往是未知的, σx 此时,可用样本标准差S 因而无法求得 。此时,可用样本标准差S估 S 于是, 计σ 。于是,以 估计 n 。记σx 为 n, S SX 称作样本标准误或均数标准误。 称作样本标准误或均数标准误。 是均数抽样 SX 误差的估计值。 误差的估计值。
高考数学真题 抽样方法与总体分布的估计
11.4抽样方法与总体分布的估计考点一随机抽样1.(2015湖南文,2,5分)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是()A.3B.4C.5D.6答案B从35人中用系统抽样方法抽取7人,则可将这35人分成7组,每组5人,从每一组中抽取1人,而成绩在[139,151]上的有4组,所以抽取4人,故选B.2.(2015北京文,4,5分)某校老年、中年和青年教师的人数见下表.采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为()类别人数老年教师900中年教师 1 800青年教师 1 600合计 4 300A.90B.100C.180D.300答案C本题考查分层抽样,根据样本中的青年教师有320人,且青年教师与老年教师人数的比为1600∶900=16∶9,可以得到样本中的老年教师的人数为916×320=180,故选C.3.(2014重庆文,3,5分)某中学有高中生3 500人,初中生1 500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取70人,则n为()A.100B.150C.200D.250答案A由分层抽样的特点可知703 500=n3 500+1 500,解之得n=100.4.(2014湖南文,3,5分)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则()A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3答案D在简单随机抽样、系统抽样和分层抽样中,每个个体被抽中的概率均为nN,所以p1=p2=p3,故选D. 评析随机抽样的要求是每个个体被抽中的概率相等,与具体的方法无关.5.(2014广东文,6,5分)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为()A.50B.40C.25D.20答案C由系统抽样的定义知,分段间隔为1 00040=25.故答案为C.6.(2013课标Ⅰ理,3,5分)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样答案C因为男女生视力情况差异不大,而各学段学生的视力情况有较大差异,所以应按学段分层抽样,故选C.评析本题考查了分层抽样,准确理解分层抽样的意义是解题关键.7.(2013江西理,4,5分)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()7816657208026314070243699728019832049234493582003623486969387481A.08B.07C.02D.01答案D由题意知依次选取的编号为08,02,14,07,01,…(第2个02需剔除),所以选出来的第5个个体的编号为01,选D.8.(2013陕西理,4,5分)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为()A.11B.12C.13D.14答案B因为840∶42=20∶1,故编号在[481,720]内的人数为240÷20=12.9.(2018课标Ⅲ文,14,5分)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是 . 答案 分层抽样解析 本题考查抽样方法.因为不同年龄段客户对其服务的评价有较大差异,所以根据三种抽样方法的特点可知最合适的抽样方法是分层抽样.10.(2015福建文,13,4分)某校高一年级有900名学生,其中女生400名.按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为 . 答案 25解析 男生人数为900-400=500.设应抽取男生x 人,则由45900=x500得x=25.即应抽取男生25人. 11.(2014天津理,9,5分)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取 名学生. 答案 60 解析420×300=60(名). 12.(2012天津理,9,5分)某地区有小学150所,中学75所,大学25所.现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取 所学校,中学中抽取 所学校. 答案 18;9解析 应从小学中抽取150150+75+25×30=18(所).应从中学中抽取75150+75+25×30=9(所).评析 本题考查分层抽样及数据处理能力.13.(2012福建文,14,4分)一支田径队有男女运动员98人,其中男运动员有56人.按男女比例用分层抽样的方法,从全体运动员中抽出一个容量为28的样本,那么应抽取女运动员人数是 . 答案 12解析 男女运动员人数比例为5698-56=43, 分层抽样中男女人数比例不变,则女运动员人数为 28×37=12.故应抽取女运动员人数是12.评析本题考查分层抽样方法.考查学生运算求解能力.考点二用样本估计总体1.(2017课标Ⅲ理,3,5分)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.()根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳答案A本题考查统计,数据分析.观察2014年的折线图,发现从8月至9月,以及10月开始的三个月接待游客量都是减少的,故A选项是错误的.2.(2017山东文,8,5分)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为()A.3,5B.5,5C.3,7D.5,7答案A由茎叶图,可得甲组数据的中位数为65,从而乙组数据的中位数也是65,所以y=5.由乙组数据59,61,67,65,78,可得乙组数据的平均值为66,故甲组数据的平均值也为66,从而有56+62+65+74+70+x5=66,解得x=3.故选A.3.(2016山东理,3文3,5分)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56B.60C.120D.140答案D由频率分布直方图知这200名学生每周的自习时间不少于22.5小时的频率为1-(0.02+0.10)×2.5=0.7,则这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140,故选D.4.(2016课标Ⅲ理,4,5分)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个答案D由雷达图易知A、C正确;七月的平均最高气温超过20 ℃,平均最低气温约为12 ℃,一月的平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月的平均温差大,故B正确;由雷达图知平均最高气温超过20 ℃的月份有3个月.故选D.5.(2015课标Ⅱ理,3,5分)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案 D 由柱形图可知:A 、B 、C 均正确,2006年以来我国二氧化硫年排放量在逐渐减少,所以排放量与年份负相关,∴D 不正确.6.(2020课标Ⅲ文,3,5分)设一组样本数据x 1,x 2,…,x n 的方差为0.01,则数据10x 1,10x 2,…,10x n 的方差为( )A.0.01B.0.1C.1D.10答案 C 由已知条件可知样本数据x 1,x 2,…,x n 的平均数x =x 1+x 2+…+x nn,方差s 12=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]=0.01,则数据10x 1,10x 2,…,10x n 的平均数为10x 1+10x 2+…+10x nn=10x .所以这组数据的方差s 22=1n [(10x 1-10x )2+(10x 2-10x )2+…+(10x n -10x )2]=100n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]=100s 12=100×0.01=1,故选C.7.(2015安徽理,6,5分)若样本数据x 1,x 2,…,x 10的标准差为8,则数据2x 1-1,2x 2-1,…,2x 10-1的标准差为( )A.8B.15C.16D.32答案 C 设样本数据x 1,x 2,…,x 10的标准差为s,则s=8,可知数据2x 1-1,2x 2-1,…,2x 10-1的标准差为2s=16. 8.(2014陕西文,9,5分)某公司10位员工的月工资(单位:元)为x 1,x 2,…,x 10,其均值和方差分别为x 和s 2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为( ) A.x ,s 2+1002B.x +100,s 2+1002C.x ,s 2D.x +100,s 2答案 D 设增加工资后10位员工下月工资均值为x ',方差为s'2,则x '=110[(x 1+100)+(x 2+100)+…+(x 10+100)]=110(x 1+x 2+…+x 10)+100=x +100;方差s'2=110[(x 1+100-x ')2+(x 2+100-x ')2+…+(x 10+100-x ')2]=110[(x 1-x )2+(x 2-x )2+…+(x 10-x )2]=s 2.故选D. 9.(2011江苏,6,5分)某老师从星期一到星期五收到的信件数分别为10,6,8,5,6,则该组数据的方差s 2= . 答案165解析 记星期一到星期五收到的信件数分别为x 1,x 2,x 3,x 4,x 5,则x =x 1+x 2+x 3+x 4+x 55=10+6+8+5+65=7.∴s 2=15[(x 1-x )2+(x 2-x )2+(x 3-x )2+(x 4-x )2+(x 5-x )2]=15[(10-7)2+(6-7)2+(8-7)2+(5-7)2+(6-7)2]=165. 评析 本题主要考查方差的公式,考查学生的运算求解能力.公式记忆准确,运算无误是解答本题的关键,属中等难度题.10.(2018江苏,3,5分)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为 .8 9 9 90 1 1答案 90解析 本题考查茎叶图、平均数.5位裁判打出的分数分别为89,89,90,91,91,则这5位裁判打出的分数的平均数为15×(89+89+90+91+91)=90.方法总结 要明确“茎”处数字是十位数字,“叶”处数字是个位数字,正确写出所有数据,再根据平均数的概念进行计算.11.(2015湖北文,14,5分)某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示. (1)直方图中的a= ;(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为 .答案(1)3(2)6 000解析(1)由频率分布直方图可知:0.1×(0.2+0.8+1.5+2.0+2.5+a)=1,解得a=3.(2)消费金额在区间[0.5,0.9]内的购物者的频率为0.1×(3.0+2.0+0.8+0.2)=0.6,所以所求购物者的人数为0.6×10 000=6 000.12.(2014江苏,文6,5分)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有株树木的底部周长小于100 cm.答案24解析60×(0.015+0.025)×10=24(株).13.(2019课标Ⅱ文,19,12分)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.y的分组[-0.20,0)[0,0.20)[0.20,0.40)[0.40,0.60)[0.60,0.80)企业数22453147(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:√74≈8.602.解析本题考查了统计的基础知识、基本思想和方法,考查学生对频数分布表的理解与应用,考查样本的平均数,标准差等数字特征的计算方法,以及对现实社会中实际数据的分析处理能力.(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21. 产值负增长的企业频率为2100=0.02. 用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%. (2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100∑i=15n i (y i-y )2=1100[2×(-0.40)2+24×(-0.20)2+53×02+14×0.202+7×0.402]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.方法总结 利用频数分布表求平均数估计值的方法:各组区间中点值乘该组频数,并求和,再除以样本容量.利用频数分布表求标准差估计值的方法:用各组区间中点值代表该组,代入标准差公式即可.14.(2018课标Ⅰ文,19,12分)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m 3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:未使用节水龙头50天的日用水量频数分布表日用水量 [0,0.1) [0.1,0.2) [0.2,0.3) [0.3,0.4) [0.4,0.5) [0.5,0.6) [0.6,0.7) 频数13249265使用了节水龙头50天的日用水量频数分布表日用水量 [0,0.1) [0.1,0.2) [0.2,0.3) [0.3,0.4) [0.4,0.5) [0.5,0.6) 频数151310165(1)作出使用了节水龙头50天的日用水量数据的频率分布直方图;(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;(3)估计该家庭使用节水龙头后,一年能节省多少水.(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)解析(1)(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后日用水量小于0.35 m3的概率的估计值为0.48.(3)该家庭未使用节水龙头50天日用水量的平均数为x1=150×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.该家庭使用了节水龙头后50天日用水量的平均数为x2=150×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).易错警示利用频率分布直方图求众数、中位数与平均数时,应注意区分这三者,在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和.15.(2016北京文,17,13分)某市居民用水拟实行阶梯水价.每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.解析(1)由用水量的频率分布直方图知,该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.(3分)所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.(5分)依题意,w至少定为3.(6分)(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表:组号12345678分组[2,4](4,6](6,8](8,10](10,12](12,17](17,22](22,27]频率0.10.150.20.250.150.050.050.05(10分) 根据题意,该市居民该月的人均水费估计为:4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).(13分)思路分析第(1)问,需要计算该市居民月用水量在各区间上的频率,根据样本的频率分布直方图即可获解.第(2)问,由月用水量的频率分布直方图和w=3可计算居民该月用水费用的数据的分组与频率分布表,由此可估计该市居民该月的人均水费.评析本题考查了频率分布直方图及用样本估计总体,属中档题.16.(2015课标Ⅱ理,18,12分)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:A地区:6273819295857464537678869566977888827689B地区:7383625191465373648293486581745654766579(1)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);A地区B地区456789(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:满意度评分低于70分70分到89分不低于90分满意度等级不满意满意非常满意记事件C:“A地区用户的满意度等级高于B地区用户的满意度等级”.假设两地区用户的评价结果相互独立.根据所给数据,以事件发生的频率作为相应事件发生的概率,求C的概率.解析(1)两地区用户满意度评分的茎叶图如下:A地区B地区4 683 5 136 46 4 26 2 4 5 5 6 8 8 6 4 37 3 3 4 6 9 9 28 6 5 18 3 2 1 7 5 5 29 1 3通过茎叶图可以看出,A 地区用户满意度评分的平均值高于B 地区用户满意度评分的平均值;A 地区用户满意度评分比较集中,B 地区用户满意度评分比较分散.(2)记C A1表示事件:“A 地区用户的满意度等级为满意或非常满意”; C A2表示事件:“A 地区用户的满意度等级为非常满意”; C B1表示事件:“B 地区用户的满意度等级为不满意”; C B2表示事件:“B 地区用户的满意度等级为满意”, 则C A1与C B1独立,C A2与C B2独立,C B1与C B2互斥,C=C B1C A1∪C B2C A2. P(C)=P(C B1C A1∪C B2C A2) =P(C B1C A1)+P(C B2C A2) =P(C B1)P(C A1)+P(C B2)P(C A2).由所给数据得C A1,C A2,C B1,C B2发生的频率分别为1620,420,1020,820,故P(C A1)=1620,P(C A2)=420,P(C B1)=1020,P(C B2)=820,P(C)=1020×1620+820×420=0.48. 17.(2015课标Ⅱ文,18,12分)某公司为了解用户对其产品的满意度,从A,B 两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A 地区用户满意度评分的频率分布直方图和B 地区用户满意度评分的频数分布表.B 地区用户满意度评分的频数分布表满意度评分分组[50,60) [60,70) [70,80) [80,90) [90,100]频 数2814106(1)作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);(2)根据用户满意度评分,将用户的满意度分为三个等级:满意度评分低于70分70分到89分不低于90分满意度等级不满意满意非常满意估计哪个地区用户的满意度等级为不满意的概率大,说明理由.解析(1)通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.(2)A地区用户的满意度等级为不满意的概率大.记C A表示事件:“A地区用户的满意度等级为不满意”;C B表示事件:“B地区用户的满意度等级为不满意”. 由直方图得P(C A)的估计值为(0.01+0.02+0.03)×10=0.6,P(C B)的估计值为(0.005+0.02)×10=0.25.所以A地区用户的满意度等级为不满意的概率大.18.(2015广东文,17,12分)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?解析(1)由已知得,20×(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)=1,解得x=0.007 5.(2)由题图可知,面积最大的矩形对应的月平均用电量区间为[220,240),所以月平均用电量的众数的估计值为230;因为20×(0.002+0.009 5+0.011)=0.45<0.5,20×(0.002+0.009 5+0.011+0.012 5)=0.7>0.5,所以中位数在区间[220,240)内.设中位数为m,则20×(0.002+0.009 5+0.011)+0.012 5×(m-220)=0.5,解得m=224.所以月平均用电量的中位数为224.(3)由题图知,月平均用电量为[220,240)的用户数为(240-220)×0.0125×100=25,同理可得,月平均用电量为[240,260),[260,280),[280,300]的用户数分别为15,10,5.故用分层抽样的方式抽取11户居民,月平均用电量在[220,240)的用户中应抽取11×2525+15+10+5=5(户).19.(2014课标Ⅰ文,18,12分)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组[75,85)[85,95)[95,105)[105,115)[115,125)频数62638228(1)作出这些数据的频率分布直方图;(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?解析(1)(2)质量指标值的样本平均数为x=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.评析本题考查绘制频率分布直方图,计算样本的数字特征,及用样本估计总体等知识,同时考查统计的思想方法.20.(2014课标Ⅱ文,19,12分)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:甲部门乙部门49797665332110 98877766555554443332100665520063222034567891059044812245667778901123468800113449123345011456000(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.解析(1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.评析本题考查利用茎叶图进行中位数,概率的相关计算,考查用样本的数字特征估计总体的数字特征,运用统计与概率的知识与方法解决实际问题的能力,考查数据处理能力及应用意识.21.(2014北京文,18,13分)从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:组号 分组 频数 1 [0,2) 6 2 [2,4) 8 3 [4,6) 17 4 [6,8) 22 5 [8,10) 25 6 [10,12) 12 7 [12,14) 6 8 [14,16) 2 9[16,18)2 合计100(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率; (2)求频率分布直方图中的a,b 的值;(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组.(只需写出结论)解析 (1)根据频数分布表知,100名学生中一周课外阅读时间不少于12小时的学生共有6+2+2=10名,所以样本中的学生一周课外阅读时间少于12小时的频率是1-10100=0.9. 故从该校随机选取一名学生,估计其该周课外阅读时间少于12小时的概率为0.9.(2)课外阅读时间落在组[4,6)内的有17人,频率为0.17,所以a=频率组距=0.172=0.085. 课外阅读时间落在组[8,10)内的有25人,频率为0.25,所以b=频率组距=0.252=0.125. (3)样本中的100名学生该周课外阅读时间的平均数在第4组.22.(2013课标Ⅰ文,18,12分)为了比较两种治疗失眠症的药(分别称为A 药,B 药)的疗效,随机地选取20位患者服用A 药,20位患者服用B 药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A 药的20位患者日平均增加的睡眠时间: 0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5 2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4 服用B 药的20位患者日平均增加的睡眠时间: 3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.4 1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好? (2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?解析 (1)设A 药观测数据的平均数为x ,B 药观测数据的平均数为y ,由观测结果可得x =120×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3, y =120×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6. 由以上计算结果可得x >y ,因此可看出A 药的疗效更好. (2)由观测结果可绘制如下茎叶图:从以上茎叶图可以看出,A 药疗效的试验结果有710的叶集中在茎2,3上,而B 药疗效的试验结果有710的叶集中在茎0,1上,由此可看出A 药的疗效更好.评析 本题考查数据的平均数和茎叶图,考查数据的分析处理能力和应用意识.23.(2013安徽文,17,12分)为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如下:(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为x1、x2,估计x1-x2的值.解析(1)设甲校高三年级学生总人数为n.由题意知,30n=0.05,即n=600.样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级此次联考数学成绩及格率为1-530=5 6.(2)设甲、乙两校样本平均数分别为x'1、x'2,根据样本茎叶图可知,30(x'1-x'2)=30x'1-30x'2=(7-5)+(55+8-14)+(24-12-65)+(26-24-79)+(22-20)+92=2+49-53-77+2+92=15. 因此x'1-x'2=0.5.故x1-x2的估计值为0.5分.评析本题考查随机抽样与茎叶图等统计学的基本知识,考查学生用样本估计总体的思想以及数据分析处理能力.24.(2020课标Ⅰ文,17,12分)某厂接受了一项加工业务,加工出来的产品(单位:件)按标准分为A,B,C,D四个等级.加工业务约定:对于A级品、B级品、C级品,厂家每件分别收取加工费90元,50元,20元;对于D级品,厂家每件要赔偿原料损失费50元.该厂有甲、乙两个分厂可承接加工业务.甲分厂加工成本费为25元/件,乙分厂加工成本费为20元/件.厂家为决定由哪个分厂承接加工业务,在两个分厂各试加工了100件这种产品,并统计了这些产品的等级,整理如下:甲分厂产品等级的频数分布表等级 A B C D频数40 20 20 20乙分厂产品等级的频数分布表等级 A B C D频数28 17 34 21(1)分别估计甲、乙两分厂加工出来的一件产品为A级品的概率;(2)分别求甲、乙两分厂加工出来的100件产品的平均利润,以平均利润为依据,厂家应选哪个分厂承接加工业务?解析(1)由试加工产品等级的频数分布表知,甲分厂加工出来的一件产品为A级品的概率的估计值为40100=0.4;。
(抽样检验)统计、抽样方法最全版
(抽样检验)统计、抽样方法统计、抽样方法壹、教学目标1.随机抽样。
2.用样本估计总体。
3.变量的相关性。
二、知识提要1.抽样当总体中的个体较少时,壹般可用简单随机抽样;当总体中的个体较多时,壹般可用系统抽样;当总体由差异明显的几部分组成时,壹般可用分层抽样,而简单随机抽样作为壹种最简单的抽样方法,又在其中处于壹种非常重要的地位.实施简单随机抽样,主要有俩种方法:抽签法和随机数表法.系统抽样适用于总体中的个体数较多的情况,因为这时采用简单随机抽样就显得不方便,系统抽样和简单随机抽样之间存在着密切联系,即在将总体中的个体均匀分后的每壹段进行抽样时,采用的是简单随机抽样;和简单随机抽样壹样,系统抽样也属于等概率抽样.分层抽样在内容上和系统抽样是平行的,在每壹层进行抽样时,采用简单随机抽样或系统抽样,分层抽样也是等概率抽样.2.样本和总体用样本估计总体是研究统计问题的壹种思想方法.当总体中的个体取不同数值很少时,其频率分布表由所取样本的不同数值及其相应的频率来表示,其几何表示就是相应的条形图,当总体中的个体取不同值较多,甚至无限时,其频率分布的研究要用到初中学过的整理样本数据的知识.用样本估计总体,除在整体上用样本的频率分布去估计总体的分布以外,仍能够从特征数上进行估计,即用样本的平均数去估计总体的平均数,用关于样本的方差(标准差)去估计总体的方差(标准差).3.正态分布正态分布在实际生产、生活中有着广泛的应用,很多变量,如测量的误差、产品的尺寸等服从或近似服从正态分布,利用正态分布的有关性质能够对产品进行假设检验.4.线性回归直线设x、y是具有相关关系的俩个变量,且相应于n组观察值的n个点大致分布在壹条直线的附近,我们把整体上这n个点最接近的壹条直线叫线性回归直线.三、基础训练1.壹个总体中共有10个个体,用简单随机抽样的方法从中抽取壹容量为3的样本,则某特定个体入样的概率是()A.B.C.D.2.(2004年江苏,6)某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们在某壹天各自课外阅读所用时间的数据,结果用下面的条形图表示.根据条形图可得这50名学生这壹天平均每人的课外阅读时间为()A.0.6hB.0.9hC.1.0hD.1.5h3.如果随机变量ξ~N(μ,σ2),且Eξ=3,Dξ=1,则P(-1<ξ≤1)等于()A.2Φ(1)-1B.Φ(4)-Φ(2)C.Φ(2)-Φ(4)D.Φ(-4)-Φ(-2)4..为考虑广告费用x和销售额y之间的关系,抽取了5家餐厅,得到如下数据:现要使销售额达到6万元,则需广告费用为______.(保留俩位有效数字)四、典型例题【例1】某批零件共160个,其中,壹级品48个,二级品64个,三级品32个,等外品16个.从中抽取壹个容量为20的样本.请说明分别用简单随机抽样、系统抽样和分层抽样法抽取时总体中的每个个体被取到的概率均相同.【例2】已知测量误差ξ~N(2,100)(cm),必须进行多少次测量,才能使至少有壹次测量误差的绝对值不超过8cm的频率大于0.9?五、达标检测1.对总数为N的壹批零件抽取壹个容量为30的样本,若每个零件被抽取的概率为0.25,则N等于()A.150B.200C.120D.1002.设随机变量ξ~N(μ,σ),且P(ξ≤C)=P(ξ>C),则C等于()A.0B.σC.-μD.μ3.(2003年全国,14)某X公司生产三种型号的轿车,产量分别为1200辆、6000辆和2000辆,为检验该X公司的产品质量,现用分层抽样的方法抽取46辆进行检验,这三种型号的轿车依次应抽取______辆、______辆、______辆.4.某厂生产的零件外直径ξ~N(8.0,1.52)(mm),今从该厂上、下午生产的零件中各随机取出壹个,测得其外直径分别为7.9mm和7.5mm,则可认为()A.上、下午生产情况均为正常B.上、下午生产情况均为异常C.上午生产情况正常,下午生产情况异常D.上午生产情况异常,下午生产情况正常5.随机变量ξ服从正态分布N(0,1),如果P(ξ<1)=0.8413,求P(-1<ξ<0).6.公共汽车门的高度是按照确保99%之上的成年男子头部不跟车门顶部碰撞设计的,如果某地成年男子的身高ξ~N(173,72)(cm),问车门应设计多高?基础训练1.解析:简单随机抽样中每壹个体的入样概率为.答案:C2.解析:壹天平均每人的课外阅读时间应为壹天的总阅读时间和学生数的比,即=0.9h.答案:B3.解析:对正态分布,μ=Eξ=3,σ2=Dξ=1,故P(-1<ξ≤1)=Φ(1-3)-Φ(-1-3)=Φ(-2)-Φ(-4)=Φ(4)-Φ(2).答案:B4.解析:先求出回归方程=bx+a,令=6,得x=1.5万元.答案:1.5万元典型例题【例1】剖析:要说明每个个体被取到的概率相同,只需计算出用三种抽样方法抽取个体时,每个个体被取到的概率.解:(1)简单随机抽样法:可采取抽签法,将160个零件按1~160编号,相应地制作1~160号的160个签,从中随机抽20个.显然每个个体被抽到的概率为=.(2)系统抽样法:将160个零件从1至160编上号,按编号顺序分成20组,每组8个.然后在第1组用抽签法随机抽取壹个号码,如它是第k号(1≤k≤8),则在其余组中分别抽取第k+8n(n=1,2,3,…,19)号,此时每个个体被抽到的概率为.(3)分层抽样法:按比例=,分别在壹级品、二级品、三级品、等外品中抽取48×=6个,64×=8个,32×=4个,16×=2个,每个个体被抽到的概率分别为,,,,即都是.综上可知,无论采取哪种抽样,总体的每个个体被抽到的概率都是.评述:三种抽样方法的共同点就是每个个体被抽到的概率相同,这样样本的抽取体现了公平性和客观性.思考讨论:现有20张奖券,已知只有壹张能获奖,甲从中任摸壹张,中奖的概率为,刮开壹见没中奖.乙再从余下19张中任摸壹张,中奖概率为,这样说甲、乙中奖的概率不壹样,是否正确?【例2】解:设η表示n次测量中绝对误差不超过8cm的次数,则η~B(n,p).其中P=P(|ξ|<8)=Φ()-Φ()=Φ(0.6)-1+Φ(1)=0.7258-1+0.8413=0.5671.由题意,∵P(η≥1)>0.9,n应满足P(η≥1)=1-P(η=0)=1-(1-p)n>0.9,∴n>==2.75.因此,至少要进行3次测量,才能使至少有壹次误差的绝对值不超过8cm的概率大于0.9. 达标检测1.解析:∵=0.25,∴N=120.答案:C2.解析:由正态曲线的图象关于直线x=μ对称可得答案为D.答案:D3.解析:因总轿车数为9200辆,而抽取46辆进行检验,抽样比例为=,而三种型号的轿车有显著区别.根据分层抽样分为三层按比例分别有6辆、30辆、10辆.答案:630104.解析:根据3σ原则,在8+3×1.5=8.45(mm)和8-3×1.5=7.55(mm)之外时为异常.答案:C5.解:∵ξ~N(0,1),∴P(-1<ξ<0)=P(0<ξ<1)=Φ(1)-Φ(0)=0.8413-0.5=0.3413.6.解:设公共汽车门的设计高度为xcm,由题意,需使P(ξ≥x)<1%.∵ξ~N(173,72),∴P(ξ≤x)=Φ()>0.99.查表得>2.33,∴x>189.31,即公共汽车门的高度应设计为190cm,可确保99%之上的成年男子头部不跟车门顶部碰撞.。
30.2 .3.用样本估计总体
4、总结反思: 在实际问题中,平均数是最常用的指标,但不能一味的使用平均数来确定数据的特征,根 据不同的实际需要,确定用平均数、中位数还是众数反映数据的特征。平均数、中位数、 和众数各有所长,也各有其短。 1、用平均数作为一组数据的代表,比较可靠和稳定,它与这组数据中的每一个数都有关 系,对这组数据所包含的信息的反映最为充分,因而其应用也最为广泛,特别是在进行统 计推断时有最要的作用,但计算时比较繁琐,并且容易受到极端数据的影响。 2、用众数作为一组数据的代表,着眼于对数据出现的频数的考察,其大小只与这组数据 中的部分数据有关,可靠性比较差,但众数不受极端数据的影响。当一组数据中有不少数 据多次重复出现时,其众数往往是我们关心的一种统计量。 3、用中位数作为一组数据的代表,可靠性也比较差,但中位数也不受极端数据的影响, 当一组数据中的个别数据变动较大时,可用他来描述其集中趋势。 5、什么样的指标可以反映一组数据变化范围的大小? 我们可以用一组数据中的最大值减去最小值所得的差来反映这组数据的变化范围.用 这种方法得到的差称为极差(range). 极差=最大值-最小值.
(可能不一致,因为还应考虑影响种子发芽的其他因素,温度等。)
为了一般地研究“香烟浸出液浓度对于种子萌芽的影响”, 是否需要选取一些其他的种子做类似的实验? (对此问题,你们可以课后查阅有关生物资料,并亲自动手实验获 得更为感性的认识。) 如果有兴趣,请动手做一做,再与同学们一起讨论各自获得的 数据和结论。
评注:1.数学家已经证明,随机抽样方法是科学而且可靠的。
2.基于不同的样本,可能会对总体作出不同的估计值, 但随着样本容量的增加,有样本得出的特性会接近总体的特性。
例2.某养鱼专业户为了估计湖里有多少条鱼,先捕上
100条做上标记,然后放回到湖里,过一段时间待带标 记的鱼完全混合于鱼群后,再捕上200条鱼,发现其中 带标记的鱼有20条,湖里大约有多少条鱼?
4.2 用样本估计总体
C.众数是6吨
答案:D
D.极差是4吨
3.(嘉兴·中考)李大伯有一片果林,共有80棵果树.某 日,李大伯开始采摘今年第一批成熟的果子,他随机选取 2棵果树共摘得10个果子,质量分别为(单位:㎏): 0.28,0.26,0.24,0.23,0.25,0.24,0.26,0.26,
0.25,0.23.以此估算,李大伯收获的这批果子的单个质
)
2.(凉山·中考)2010年因干旱影响,凉山州政府鼓 励居民节约用水,为了解居民用水情况,在某小区随机抽 查了20户家庭的月用水量,结果如下表: 月用水量(吨) 户数 4 4 5 5 6 7 8 3 9 1 )
则关于这20户家庭的月用水量,下列说法错误的是( A.中位数是6吨 B.平均数是5.8吨
4.2
用样本估计总体
1.计算样本平均数和标准差使学生认识到只有样本容量
足够大,才能比较准确地反映总体的特性,这样的样本 才可靠,体会只有可靠的样本,才能用样本去估计总体.
2.通过实例,使学生体会用样本估计总体的思想,能够
根据统计结果作出合理的判断和推测,能与同学进行交 流,用清晰的语言表达自己的观点.
随机数 (学号) 成绩
111 80
254 86
167 66
94 91
276 67
它的频数分布直方图、平均成绩和标准差分别如下:
另外,同学们也分别选取了一些样本,它们同样也包含 五个个体,如下表:
随机数 132 245 78 73 5 98 89 75 随机数 (学号) 成绩 90 72 167 86 86 83 275 82 54 82
(3)合适. (4)不合适.虽然调查的家庭很多,但仅仅增加调查的数量, 不一定能够提高调查质量,本题中所调查的仅代表上因特 网的家庭,不能代表全部的家庭,因此这样的抽样调查不 具有普遍代表性.
用样本估计总体
思考1:上述100个数据中的最大值和最 小值分别是什么?由此说明样本数据的 变化范围是什么?
0.2~4.3
思考2:样本数据中的最大值和最小值 的差称为极差.如果将上述100个数据 按组距为0.5进行分组,那么这些数据 共分为多少组?
(4.3-0.2)÷0.5=8.2
思考3:以组距为0.5进行分组,上述100 个数据共分为9组,各组数据的取值范围 可以如何设定?
(2)大部分居民的月均用水量集中在一个中间值 附近,只有少数居民的月均用水量很多或很少;
(3)居民月均用水量的分布有一定的对称性等.
思考4:样本数据的频率分布直方图是 根据频率分布表画出来的,一般地,频 率分布直方图的作图步骤如何?
第一步,画平面直角坐标系.
第二步,在横轴上均匀标出各组分点, 在纵轴上标出 [153.5,156.5) [156.5,159.5) [159.5,162.5) [162.5,165.5) [165.5,168.5) [168.5,171.5) [171.5,174.5) [174.5,177.5) [177.5,180.5]
合计
频数 1 1 4 5 8 11 6 2 1 1 40
O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月均用水量/t
频率 组距 0.5 0.4 0.3 0.2 0.1
宽度:组距
高度:
频率 组距
O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月均用水量/t
上图称为频率分布直方图,其中横轴 表示月均用水量,纵轴表示频率/组距. 频率分布直方图中各小长方形的和高 度在数量上有何特点?
3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.6 3.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.4 3.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8 3.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.1 3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.3 3.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0 2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.3 2.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.4 2.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.4 2.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2
随机抽样、用样本估计总体
=小矩形的面积;
样本容量
每组的频数=这一小组的频率×样本容量.
【变式探究】
2.(2016·山东卷)某高校调查了200名学生每周的自习时 间(单位:小时),制成了如图所示的频率分布直方图,其中自 习时间的范围是[17.5,30],样本数据分组为 [17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方 图,这200名学生中每周的自习时间不少于22.5小时的人数是 ()
若将运动员按成绩由好到差编为 1~35 号,再用系统抽
样方法从中抽取 7 人,则其中成绩在区间[139,151]上的运动
员人数是( )
A.3
B.4
C.5
D.6
解:(1)对数据进行分组,在区间[139,151]上,有几 组就有几个运动员.
因为 35÷7=5,因此可将编号为 1~35 的 35 个数据分 成 7 组,每组有 5 个数据,在区间[139,151]上共有 20 个 数据,分在 4 个小组中,每组取一人,共取 4 人.
解:因为可以用极差、方差或标准差来描述数据的离 散程度,所以要评估亩产量稳定程度,应该用样本数据的 极差、方差或标准差.
答案:B
抽样方法 频率分布直方图 茎叶图的应用
考点一·抽样方法
【例 1】 (1)用系统抽样法要从 160 名学生中抽取容量 为 20 的样本,将 160 名学生从 1~160 编号.按编号平均分 成 20 组(1~8 号,9~16 号,…,153~160 号),若第 16 组 应抽出的号码为 126,则第 1 组中用抽签法确定的号码是 ____________.
③甲地该月 14 时的气温的标准差小于乙地该月 14 时的 气温的标准差;
(抽样检验)统计、抽样方法
(抽样检验)统计、抽样⽅法统计、抽样⽅法⼀、教学⽬标1.随机抽样。
2.⽤样本估计总体。
3.变量的相关性。
⼆、知识提要1.抽样当总体中的个体较少时,⼀般可⽤简单随机抽样;当总体中的个体较多时,⼀般可⽤系统抽样;当总体由差异明显的⼏部分组成时,⼀般可⽤分层抽样,⽽简单随机抽样作为⼀种最简单的抽样⽅法,⼜在其中处于⼀种⾮常重要的地位.实施简单随机抽样,主要有两种⽅法:抽签法和随机数表法.系统抽样适⽤于总体中的个体数较多的情况,因为这时采⽤简单随机抽样就显得不⽅便,系统抽样与简单随机抽样之间存在着密切联系,即在将总体中的个体均匀分后的每⼀段进⾏抽样时,采⽤的是简单随机抽样;与简单随机抽样⼀样,系统抽样也属于等概率抽样.分层抽样在内容上与系统抽样是平⾏的,在每⼀层进⾏抽样时,采⽤简单随机抽样或系统抽样,分层抽样也是等概率抽样.2.样本与总体⽤样本估计总体是研究统计问题的⼀种思想⽅法.当总体中的个体取不同数值很少时,其频率分布表由所取样本的不同数值及其相应的频率来表⽰,其⼏何表⽰就是相应的条形图,当总体中的个体取不同值较多,甚⾄⽆限时,其频率分布的研究要⽤到初中学过的整理样本数据的知识.⽤样本估计总体,除在整体上⽤样本的频率分布去估计总体的分布以外,还可以从特征数上进⾏估计,即⽤样本的平均数去估计总体的平均数,⽤关于样本的⽅差(标准差)去估计总体的⽅差(标准差).3.正态分布正态分布在实际⽣产、⽣活中有着⼴泛的应⽤,很多变量,如测量的误差、产品的尺⼨等服从或近似服从正态分布,利⽤正态分布的有关性质可以对产品进⾏假设检验.4.线性回归直线设x 、y 是具有相关关系的两个变量,且相应于n 组观察值的n 个点⼤致分布在⼀条直线的附近,我们把整体上这n 个点最接近的⼀条直线叫线性回归直线.三、基础训练1.⼀个总体中共有10个个体,⽤简单随机抽样的⽅法从中抽取⼀容量为3的样本,则某特定个体⼊样的概率是( )A.310C 3B.89103C.103 D.101 2.(2004年江苏,6)某校为了了解学⽣的课外阅读情况,随机调查了50名学⽣,得到他们在某⼀天各⾃课外阅读所⽤时间的数据,结果⽤下⾯的条形图表⽰.根据条形图可得这50名学⽣这⼀天平均每⼈的课外阅读时间为( )h)A.0.6 hB.0.9 hC.1.0 hD.1.5 h3.如果随机变量ξ~N(µ,σ2),且Eξ=3,Dξ=1,则P(-1<ξ≤1)等于( )A.2Φ(1)-1B.Φ(4)-Φ(2)C.Φ(2)-Φ(4)D.Φ(-4)-Φ(-2)4..为考虑⼴告费⽤x与销售额y之间的关系,抽取了5家餐厅,得到如下数据:现要使销售额达到6万元,则需⼴告费⽤为______.(保留两位有效数字)四、典型例题【例1】某批零件共160个,其中,⼀级品48个,⼆级品64个,三级品32个,等外品16个.从中抽取⼀个容量为20的样本.请说明分别⽤简单随机抽样、系统抽样和分层抽样法抽取时总体中的每个个体被取到的概率均相同.【例2】已知测量误差ξ~N(2,100)(cm),必须进⾏多少次测量,才能使⾄少有⼀次测量误差的绝对值不超过8 cm的频率⼤于0.9?五、达标检测1.对总数为N的⼀批零件抽取⼀个容量为30的样本,若每个零件被抽取的概率为0.25,则N等于( )A.150B.200C.120D.1002.设随机变量ξ~N(µ,σ),且P(ξ≤C)=P(ξ>C),则C等于( )A.0B.σC.-µD.µ3.(2003年全国,14)某公司⽣产三种型号的轿车,产量分别为1200辆、6000辆和2000辆,为检验该公司的产品质量,现⽤分层抽样的⽅法抽取46辆进⾏检验,这三种型号的轿车依次应抽取______辆、______辆、______辆.4.某⼚⽣产的零件外直径ξ~N(8.0,1.52)(mm),今从该⼚上、下午⽣产的零件中各随机取出⼀个,测得其外直径分别为7.9 mm和7.5 mm,则可认为( )A.上、下午⽣产情况均为正常B.上、下午⽣产情况均为异常C.上午⽣产情况正常,下午⽣产情况异常D.上午⽣产情况异常,下午⽣产情况正常5.随机变量ξ服从正态分布N(0,1),如果P(ξ<1)=0.8413,求P(-1<ξ<0).6.公共汽车门的⾼度是按照确保99%以上的成年男⼦头部不跟车门顶部碰撞设计的,如果某地成年男⼦的⾝⾼ξ~N(173,72)(cm),问车门应设计多⾼?基础训练1.解析:简单随机抽样中每⼀个体的⼊样概率为Nn . 答案:C2.解析:⼀天平均每⼈的课外阅读时间应为⼀天的总阅读时间与学⽣数的⽐,即 5050.2105.1100.1205.050?+?+?+?+?=0.9 h.答案:B3.解析:对正态分布,µ=E ξ=3,σ2=D ξ=1,故P (-1<ξ≤1)=Φ(1-3)-Φ(-1-3)=Φ(-2)-Φ(-4)=Φ(4)-Φ(2).答案:B4.解析:先求出回归⽅程y=bx+a ,令y ?=6,得x=1.5万元. 答案:1.5万元典型例题【例1】剖析:要说明每个个体被取到的概率相同,只需计算出⽤三种抽样⽅法抽取个体时,每个个体被取到的概率.解:(1)简单随机抽样法:可采取抽签法,将160个零件按1~160编号,相应地制作1~160号的160个签,从中随机抽20个.显然每个个体被抽到的概率为16020=81. (2)系统抽样法:将160个零件从1⾄160编上号,按编号顺序分成20组,每组8个.然后在第1组⽤抽签法随机抽取⼀个号码,如它是第k 号(1≤k ≤8),则在其余组中分别抽取第k+8n (n=1,2,3,…,19)号,此时每个个体被抽到的概率为81.(3)分层抽样法:按⽐例16020=81,分别在⼀级品、⼆级品、三级品、等外品中抽取48×81=6个,64×81=8个,32×81=4个,16×81=2个,每个个体被抽到的概率分别为486,648,324,162,即都是81. 综上可知,⽆论采取哪种抽样,总体的每个个体被抽到的概率都是81.评述:三种抽样⽅法的共同点就是每个个体被抽到的概率相同,这样样本的抽取体现了公平性和客观性.思考讨论:现有20张奖券,已知只有⼀张能获奖,甲从中任摸⼀张,中奖的概率为201,刮开⼀看没中奖.⼄再从余下19张中任摸⼀张,中奖概率为191,这样说甲、⼄中奖的概率不⼀样,是否正确?【例2】解:设η表⽰n 次测量中绝对误差不超过8 cm 的次数,则η~B (n ,p ).其中P=P (|ξ|<8)=Φ(1028-)-Φ(1028--)=Φ(0.6)-1+Φ(1)=0.7258-1+0.8413=0.5671.由题意,∵P (η≥1)>0.9,n 应满⾜P (η≥1)=1-P (η=0)=1-(1-p )n>0.9,∴n>)5671.01lg()9.01lg(--=4329.0lg 1-=2.75.因此,⾄少要进⾏3次测量,才能使⾄少有⼀次误差的绝对值不超过8 cm 的概率⼤于0.9. 达标检测1.解析:∵N30=0.25,∴N=120. 答案:C2.解析:由正态曲线的图象关于直线x=µ对称可得答案为D. 答案:D3.解析:因总轿车数为9200辆,⽽抽取46辆进⾏检验,抽样⽐例为920046=2001,⽽三种型号的轿车有显著区别.根据分层抽样分为三层按2001⽐例分别有6辆、30辆、10辆. 答案:6 30 104.解析:根据3σ原则,在8+3×1.5=8.45(mm )与8-3×1.5=7.55(mm )之外时为异常. 答案:C5.解:∵ξ~N (0,1),∴P (-1<ξ<0)=P (0<ξ<1)=Φ(1)-Φ(0)=0.8413-0.5=0.3413.6.解:设公共汽车门的设计⾼度为x cm ,由题意,需使P (ξ≥x )<1%.∵ξ~N (173,72),∴P (ξ≤x )=Φ(7173-x )>0.99. 查表得7173-x >2.33,∴x >189.31,即公共汽车门的⾼度应设计为190 cm ,可确保99%以上的成年男⼦头部不跟车门顶部碰撞.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
64 0.4
8.为了解学生身高情况,某校以10%的比例对全校 700名学生按性别进行分层抽样调查,测得身高情况 的统计图如下:
(1)估计该校男生的人数;
(2)估计该校学生身高在170~185cm之间的概 率;
5.对于每个个体所取不同数值较少的总体,常用条 形图表示其样本分布,而对于每个个体所取不同数 值较多或可以在实数区间内取值的总体,常用频率 分布直方图表示其分布.
6.在用样本的频率分布估计总体分布时,要清楚以 下概念:频率分布折线图,总体密度曲线,茎叶图.
用样本的数字特征估计总体的数字特征,要理解以下 概念:
(3)从样本中身高在165~180cm之间的女生中 任选2人,求至少有1人身高在170~180cm之 间的概率.
C
m=n
6.一个总体中的1000个个体编号为0,1,2,…, 999,并依次将其分为10个小组,组号为0,1,2, …,9,要用系统抽样方法抽取一个容量为10的 样本,规定如果在第0组随机抽取的号码为x,那 么依次错位地得到后面各组的号码,即第k组中 抽取的号码的后两位数为x+33k的后两位数.当 x=24时,所抽样本的第5个号码是 456 .
抽样方法用样本估计总体及 正态分布
【学习目标】
1.了解简单随机抽样,系统抽样和分层抽样的方法, 会画频率分布直方图和茎叶图.
2.了解用样本估计总体的思想,会用样本的频率分布 估计总体分布,会用样本的基本数字特征估计总体的 基本数字特征;初步体会样本频率分布和数字特征的 随机性.
3.了解正态分布曲线的特点及曲线表示的意义.
【点评】高考中关于直方图及其应用的考查大有 加强的趋势,因此既要会作相关统计数据的直方 图,又要会观察直方图,提升识图能力,同时还 要加强与概率问题的综合.
【点评】本题主要考查分层抽样的概念和运算,以 及运用统计知识解决实际问题的能力.
1.设计抽样方案时,必须保证其满足简单随机 抽样的四个特点.
(2)由于每个品种的数据都只有25个,样本不大, 画茎叶图很方便,此时茎叶图不仅清晰明了地展 示了数据的分布情况,便于比较,没有任何信息 损失,还可以随时记录新的数据.
(3)通过观察茎叶图可以看出:
①品种A的亩产平均数比品种B高;
②品种A的亩产标准差比品种B大,故品种A的亩 产稳定性较差.
【点评】茎叶图是新增知识点,既要会作茎叶图, 同时也要会看茎叶图,但考纲要求为“了解和会” 的层次,注重基础是关键.
B
B
B
1
概率 随机数表
抽签
不放回 等概率
均衡
差异明显
(2)分层抽样是建立在简单随机抽样或系统 抽样的基础上的,由于它充分利用了已知信息, 因此利用它获取的样本更具有代表性,在实际的 应用中更为广泛.
中间位置
最多
频率
μ和σ N(μ,σ2) X~N(μ,σ2)
位于x轴上方与x轴不相交 x=μ
分散 集中
37 20
1013
【点评】分层抽样、系统抽样的基础知识的考纲要 求是“了解”和“会”,因此复习时重点在基础知 识的了解与简单应用.
0.5 2 0.0215
【点评】正态分布问题求解切入点通常是应用数形结 合思想和“σ原则”及正态分布曲线的性质数据,有什么优点? (3)通过观察茎叶图,对品种A与B的亩产量及其稳定 性进行比较,写出统计结论.
即众数,中位数,平均数,标准差.
7.正态分布是一种非常常见的分布,应理解正态分 布的有关概念,掌握正态曲线的有关性质并会求有关 的概率.
【命题立意】本题主要考查利用概率知识、统计 知识解决实际应用问题的能力.考查计算能力.
D
D
B
4.为了了解某地区高三学生的身体发育情况, 抽查了该地区100名年龄为17.5岁~18岁的男生 体重(kg),得到频率分布直方图如下:
2.用抽签法抽样关键是将号签搅拌均匀.当总 体容量较大,样本容量也较大,可用系统抽样法 抽样,在抽样前有的要先随机剔除一部分个体, 多余个体的剔除不影响抽样的公平性.
3.进行分层抽样的关键是根据每一层所占的比例确 定出每一层应抽取的个体数.
4.要注意理解频率分布直方图纵坐标的含义,并搞 清其与频率分布条形图的异同.