抽样方法、正态分布
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
抽样方法、正态分布本页仅作为文档封面,使用时可以删除
This document is for reference only-rar21year.March
抽样方法、正态分布
重点、难点讲解:
1.抽样的三种方法:简单随机抽样、系统抽样、分层抽样。
后两种方法是建立在第一种方法基础上的。
2.了解如何用样本估计总体: 用样本估计总体的主要方法是用样本的频率分布来估计总体分布,主要有总体中的个体取不同数值很少和较多甚至无限两种情况。
3.正态曲线及其性质:N(),其正态分布函数:f(x)=, x∈(-∞,+∞)。
把N(0,1)称为标准正态分布,相应的函数表达式:f(x)=, x∈(-∞,+∞)。
正态图象的性质:
①曲线在x轴的上方,与x轴不相交。
②曲线关于直线x=μ对称。
③曲线在x=μ时位于最高点。
④当x<μ时,曲线上升;当x>μ时,曲线下降,并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近。
⑤当μ一定时,曲线的形状由确定,越大,曲线越“矮胖”,表示总体的分布越分散;越小,曲线越“瘦高”,表示总体的分布越集中。
4.一般正态分布与标准正态分布的转化
对于标准正态分布,用表示总体取值小于x0的概率,即=p(x<x0),其几何意义是由正态曲线
N(0,1),x轴,直线x=x0所围成的面积。
又根据N(0,1)曲线关于y轴的对称性知,
,并且标准正态总体在任一区间(a,b)内取值概率。
任一正态总体N(),其取值小于x的概率F(x)=。
5.了解“小概率事件”和假设检验的思想。
知识应用举例:
例1.从503名大学一年级学生中抽取50名作为样本,如何采用系统抽样方法完成这一抽样
思路分析:因为总体的个数503,样本的容量50,不能整除,故可采用随机抽样的方法从总体中剔除3个个体,使剩下的个体数500能被样本容量50整除,再用系统抽样方法。
解:第一步:将503名学生随机编号1,2,3,……,503
第二步:用抽签法或随机数表法,剔除3个个体,剩下500名学生,然后对这500名学生重新编号。
第三步:确定分段间隔k==10,将总体分成50个部分,每部分包括10个个体,第一
部分的个体编号为1,2,......,10;第二部分的个体编号11,12,......,20;依此类推,第50部分的个体编号491,492, (500)
第四步:在第一部分用简单随机抽样确定起始的个体编号,例如是7。
第五步:依次在第二部分,第三部分,……,第五十部分,取出号码为17,27,……,497,这样就得到了一个容量为50的样本。
例2.对某电子元件进行寿命追踪调查,情况如下:
(1)列出频率分布表;(2)画出频率分布直方图;(3)估计电子元件寿命在100h~400h以内的概率;
(4)估计电子元件寿命在400h以上的概率;(5)估计总体的数学期望。
思路分析:由于样本的取得具有代表性,因此,可以利用样本的期望近似地估计总体的期望。
解:(2)频率分布直方图如下:
(3)从频率分布表可知,寿命在100h~400h的元件出现的概率为;
(4)寿命在400h以上的电子元件出现的频率为+=,故我们估计电子元件寿命在400h 以上的概率为。
(5)样本的期望为:
所以,我们估计生产的电子元件寿命的总体期望值(总体均值)为365h。
例3.正态总体为μ=0, σ=1时的概率密度函数是f(x)=, x∈(-∞, +∞) ,
(1)证明f(x)是偶函数;(2)利用指数函数的性质说明f(x)的增减性。
证明:(1)任意的x∈R,f(-x)=, ∴f(x)是偶函数。
(2)任取x1<x2<0,则,
∴,∴,即f(x1)<f(x2)。
这说明f(x)在(-∞,0)上是递增函数,
同理可证f(x)在(0, +∞)上是递减函数。
例4.随机变量ξ服从N(0,1),求下列值。
(1)P(ξ≥(2)P(ξ<(3)P(|ξ|<
思路分析:标准正态分布,可以借助标准正态分布表。
用到的公式主要有:(-x)=1-(x);
P(a<x<b)=(b)-(a);p(x≥x0)=1-p(x<x0)。
解:(1)P(ξ≥=1-p(ξ<=1-==。
(2)P(ξ<==1-==。
(3)P(|ξ|<=p<ξ<=- =2-1=2×=。
例5.设,且总体密度曲线的函数表达式为:f(x), x∈(-
∞,+∞)。
(1)求μ,σ;(2)求p(|x-1|<)及p(1-<x<1+)。
思路分析:对照正态曲线函数,可以得出μ,σ;利用一般正态总体N()与标准正态总体N(0,1)概率间的转化关系,可以求出(2)。
解:(1)整理得:f(x)=,所以,μ=1, σ,故。
(2)p(|x-1|<)=p(1-<x<1+)=F(1+)-F(1-)
=()-()=(1)-(-1)=2(1)-1 =2×=。
p(1-<x<1+2)=F(1+2)-F(1-)
=()-()=(2)-(-1)=(2)+(1)-1 =+=。
例6.某城市从南郊某地乘车前往北区火车站有两条路可走,第一条线路穿过市区,路程较短,但交通拥挤,所需时间(单位:分钟)服从正态分布N(50,100), 第二条线路沿环城公路走,路程较长,但交通阻塞少,所需时间(单位:分钟)服从正态分布N(60, 16),(1)若只有70分钟时间可用,应走哪条路(2)若只有65分钟时间可用,应走哪条路
思路分析:所谓最佳线路(应选择的线路)就是在允许的时间内有较大概率赶到火车站的那条线路。
解:设x为行车时间。
(1)走第一条路及时赶到的概率为:
P(0<x≤70)=≈=(2)=。
走第二条线路及时赶到的概率为:P(0<x≤70)=()==。
(2)走第一条线路及时赶到的概率为:P(0<x≤65)≈()==。
走第二条线路及时赶到的概率为:P(0<x≤65)≈()==。
因此应走第一条线路。
在线测试
选择题
1.如果采用分层抽样,从个体数为N的总体中,抽取一个容量为n的样本,那么每个个体被抽到的概率等于()。
A、B、C、D、
2.某单位有老年人28人,中年人54人,青年人81人,为了调查他们身体状况的某项指标,需要从他们中抽取一个容量为36的样本,适合抽取样本的方法是()。
A、简单随机抽样
B、系统抽样
C、分层抽样
D、先从老年人中剔除1人,然后再分层抽样
3.在用样本频率分布估计总体分布的过程中,下列说法正确的是()。
A、总体容量越大,估计越精确
B、总体容量越小,估计越精确
C、样本容量越大,估计越精确
D、样本容量越小,估计越精确
4.在10人中,有4个学生,1个干部,2个工人,3个农民,数是工人占总体的()。
A、频数
B、概率
C、频率
D、累积频率
5
组距[10,20) [20,30) [30,40) [40,50) [50,60) [60,70)
频数 2 3 4 5 4 2
A、B、C、D、
6.对于样本频率分布的直方图与总体密度曲线的关系,下列说法正确的是()。
A、频率分布直方图与总体密度曲线无关。
B、频率分布直方图就是总体密度曲线。
C、样本容量很大的频率分布直方图就是总体密度曲线。
D、如果样本容量无限增大,分组的组距无限减小,那么频率分布的直方图就会无限接近
于总体密度曲线。
7.关于正态总体的密度函数所对应的曲线,下列叙述中不正确的是:()。
A、曲线总是在x轴的上方。
B、曲线关于直线x=μ对称。
C、在区间(μ-2σ,μ+2σ)内取值的概率为%。
D、当x≥μ时,f(x)随x的增大而增大,当x≤μ时,f(x)随x的减小而增大。
8.若随机变量ξ~N(μ,σ2),且P(ξ≤a)=P(ξ>a),则a的值为()。
A、0B、μC、-μD、σ
9.设随机变量ξ~N(μ,σ2),且Eξ=3,Dξ=1,则P(-1<ξ≤1)等于()。
A、2φ(1)-1
B、φ(4)-φ(2)
C、φ(-4)-φ(-2)
D、φ(2)-φ(4)
10.已知从某批材料中任取一件时,取得的这件材料的强度ξ~N(200,18),则取得的这件材料的强度不低于180的概率为()。
A、B、C、D、
答案与解析
答案:1、C 2、D 3、C 4、C 5、D 6、D 7、D 8、B 9、B 10、B
解析:1.提示:采用分层抽样时,各部分抽取的个体数与这一部分个体数的比等于样本容量与总体的个体数的比,所以每个个体被抽到的概率都是相等的。
2.提示:当总体由有明显差别的几部分组成时,为了使抽取的样本更好地反映总体的情况,常采用分层抽样。
4.提示:,所以数是工人占总体的频率。
5.提示:
组距[10,20)[20,30)[30,40)[40,50)[50,60)[60,70)
频数234542
频率
则样本在区间(-∞,50)上的频率为+++=。
6.提示:如果样本容量越大,所分组数越多,也就是组距不断缩小,那么频率分布的直方图就会无限接近于总体密度曲线。
因此它们有关,但频率分布的直方图不是总体密度曲线。
9.提示:一般的正态分布问题,能转化成标准正态分布问题来处理,即将正态分布中观察值x的概率P(a<x<b)表示成标准正态分中的P(z1≤z≤z2),其中z1= ,z2= .
由题意:,∴,
∴。
“概率与统计”内容分析(二)
6、简单随机抽样有哪些特点
答:(1)它要求被抽取样本的总体的个数有限,以便对其中各个体被抽取的概率进行分析。
(2)这种抽样是从总体中逐个进行抽取,这就使得它具有可操作性。
(3)这是一种不放回抽样。
由于在抽样的实践中常常采用不放回抽样,使简单随机抽样具有较广泛的实用性,而且由于在所抽取的样本中没有被重复抽取的个体,所以便于进行分析与计算。
(4)这是一种等概率的抽样,不仅每次从总体中抽取一个个体时,各个体被抽取的概率相等,而且在整个抽样过程中,各个体被抽取的概率相等,从而保证了这种抽样方法的公平性。
实施简单随机抽样主要有两种方法;即抽签法和随机数表法。
与系统抽样、分层抽样相比,简单随机抽样是最简单、最基本的抽样方法,另两种抽样方法都建立在简单随机抽样的基础之上。
这三种抽样方法的共同点是:它们都属于等概率的抽样,都体现了抽样的公平性。
7、掷一枚均匀硬币两次,如何从二项分布的直方图上算出正面朝上至多发生一次的概率
答:先画出直方图(n=2,p=如图1所示。
由图可见,正面朝上至多发生一次的概率,就是横坐标从
到这两个长方形的面积之和,其中第一个长方形的面积对应于正面朝上至多发生一次的概率
P=×1+×1=。
8、如何利用直方图来引进正态曲线与正态分布
答:对于n较大,p=的二项分布直方图,如果用一条平滑的曲线把每个长方形的中点联结
起来,就能得到一条钟形曲线,称为正态曲线(图2),其函数解析式为其中f(x)=, x
∈R, 其中。
回顾二项分布的直方图及上面7中所举的例子,直方图中各长方形的面积可以表示有关的概率值。
对于正态曲线,如果规定,试验的观察值x落在区间(a,b)内的概率P(a<x<b)就是由这条曲线、x轴、直线x=a及x=b所围成的图形的面积(图3),那么称这种概率分布为正态分布。
一个平均数为μ、标准差为的正态分布可以用公式z=将它变换成平均数为0、标准
差为1的正态分布。
平均数为0、标准差为1的正态分布称为标准正态分布(图4),其公式为
, 其中。
一般的正态分布问题,能转化成标准正态分布问题来处理,即将正态分布中观察值x的概率
P(a<x<b)表示成标准正态分中的P(z1≤z≤z2),其中z1=,z2=。
由于必然事件的概率是1,所以在标准正态曲线下方、z轴上方的总面积等于1,为了计算与标准正态分布有关的事件的概率,可以列出如图5中阴影部分面积的表,以备查用。
用正态曲线去近似二项分布的直方图,当n 比较大,p等于或接近于时,效果比较好(图2)。
一般地说,n越大,p越接近于,近似程度就越高;反过来,n很小,p接近于0或1时,近似程度就不好,我们一般要求np≥5及nq≥5,否则计算概率的误差太大。
10。