统计学 第三章抽样与抽样分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
100只灯管使用寿命分布图
x
xf f
s 2 x x 2 f f 1
抽样分布是什么分布?
(1)抽样分布的概念 (2)了解抽样分布是怎么形成的? (3)抽样分布与总体分布、样本分布 的关系 (4)多种抽样分布形式(均值的抽样 分布、比例的抽样分布、方差的抽样分 布)
(二)抽样分布(Sampling distribution)
2、正态分布曲线的图形特征
呈现出“中间高,两头低”的特性。 正态分布是一个对称分布,关于 x=μ对称。 曲线两尾端趋向无穷小,但永不与横轴相交 曲线的位置取决于平均数的大小 曲线的形状取决于标准差的大小 曲线下的全部面积为1
练习:绘制正态分布曲线族
1 70
2 70
1 15 2 10
一个简单例子:样本均值的抽样分布
设一个总体,含有4个单位(个体),即总体单 位数N=4。4 个个体分别为X1=1、X2=2、X3=3 、X4=4 。总体的均值、方差及分布如下:
均值: 方差:
N
Xi
i1 2.5
N
N
(Xi )2
2 i1
1.25
N
总体分布
.3
.2
.1 0
1
2
3
4
现从总体中抽取n=2的简单随机样本,在重复
2 、许多分布可用正态分布近似计算。 如二项分布、泊松分布等。中心极限定
理表明:在一定条件下,很多变量的叠加都 可用正态分布近似
3、正态分布可导出一些有用的分布。如t分布
1、正态分布的概率密度函数
正态分布是变量的一种分布,其分布密 度函数定义如下:
,
f (x)
1
e
(
x )2 2 2
2
x
均值 2 方差 记为 x ~ N(, 2)
灯管数比重(%) f
f
1 5 20 48 20 5 1 100
抽样分布:
2 x
x
x
x
x 100000100
2x
x x 2
100000100
将上例一般化,如果总体有N个单
位,从中采取重复抽样方法,随机抽
取n个单位进行调查,则有:x
~
N
(x
,
2 x
)
x
x N n
2 x
x x 2
Nn
总体
样本
参数
统计量
总体与样本的指标表示法
总体参数
样本统计量
(Parameter) (Sample Statistic)
容量 平均数 比例 方差 标准差
N
n
X
x
p
2
s2
s
小练习
某药品制造商感兴趣的是用该公司开发的某 种新药能控制高血压人群血压的比例。进行了一 项包含5000个高血压病人个体的研究。他发现用 这种药后80%的个体,他们的高血压能够被控制。 假定这5000个个体在高血压人群中具有代表性的 话,回答下列问题: 1、总体是什么? 2、样本是什么? 3、识别所关心的参数 4、识别此统计量并给出它的值 5、我们知道这个参数的值么?
要考虑到每个样本单位被抽中的概 率
随机抽样最基本的组织方式有:
简单随机抽样(Sample random sampling)、 分层抽样(Stratified sampling)、 系统(等距)抽样(Systematic sampling) 整群抽样(Cluster sampling)。
随机抽样的优点: 1、避免主观选样带来的倾向性误差 2、方便人们计算和控制抽样误差
则有 P(13.11 X 14.15)
抽样条件下,共有42=16个样本。所有样本的结果 如下表:
所有可能的n = 2 的样本(共16个)
第一个
第二个观察值
观察值
1
2
3
4
1
1,1
1,2
1,3
1,4
2
2,1
2,2
2,3
2,4
3
3,1
3,2
3,3
3,4
4
4,1
4,2
4,3
4,4
计算出各样本的均值,如下表。并给出样本均值 的抽样分布
16个样本的均值(x)
使用寿命(小时)X
4000以下 4000~4500 4500~5000 5000~5500 5500~6000 6000~6500 6500以上 合计
灯管数比重(%)F F
3 11 18
35 20 9 4 100
F
F
总体分布
0
X使用寿命
100000只灯管使用寿命分布图
X
XF F
2 X X 2 F F
例:见书P100
思考:
这里只是两个极端 的例子,其他情况下抽样 分布与总体分布仍然是 这种关系么?
书P104中位数的抽样分布
从正态总体中抽样
当总体服从正态分布N(μ,σ2 )时,来自该总体的所
有容量为n的样本的均值 也服x从正态分布, 的
x 数学期望为μ,方差为σ2/n。即 ~ xN(μ,σ2/n)
抽出的某100只即为一个样本, 这100只灯管使用寿命的分布即 为该样本的分布。
x 使用寿命(小时)
灯管数比重(%) f
f
4000以下
3
4000~4500
11
4500~5000
18
5000~5500
35
5500~6000
20
6000~6500
9
6500以上
4
合计
100
f
f
某个样本分布
0
x使用寿命
抽样分布
.2
.1
0
1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
x 2.5
2 x
0.625
1.25 /
2
小结2:样本均值抽样分布的形成过程 (见书P101)
1、确定研究总体
2、从总体中抽取容量为n的所有样本
3、计算出所有样本的均值(某统计量的值)
4、编制样本平均值的频数分布表,并绘制直 方图、曲线图以观察其分布特征
第二个观察值
来自百度文库
第一个观察值
1
2
3
4
1
1.0
1.5
2.0
2.5
2
1.5
2.0
2.5
3.0
3
2.0
2.5
3.0
3.5
4
2.5
3.0
3.5
4.0
P(x) .3
.2
.1
0 1.0 1.5 2.0 2.5 3.0 3.5 4.0
x
样本均值的抽样分布
小结1:均值抽样分布与总体分布的关 系(1)
n
x
xi
i 1
正态分布
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
X
总体分布
正态分布
非正态分布
大样本 小样本 大样本 小样本
正态分布
正态分布
非正态分布
三 中心极限定理的应用
中心极限定理(Central Limit theorem) 不论总体服从何种分布,从中抽取
任意两正态分布,在相同的标准差倍数的范围 内,所包含的概率比重是相同的
- 3
-1
+1
+3
x
- 2
+2
68.26% 95.45%
99.73%
[例]某班数学分数的分布如下:
1 70 1 5
问:70-80分的人有多大比例? 60-90之间呢?
但: 如果任意区间67-87呢?
4、标准正态分布表的使用
(1)标准正态分布是指:
0, 1 当
2 时,称为标准正态分布,密度函数为
(x)
1
x2
e2
记为
2
(2)标准正态分布表的含义
x ~ N(0,1)
标准正态分布表附表1:P350
2、标准正态分布表使用步骤:
(1)将随机变量标准化
即:先计算正态分布中的点x的标准化值Z值,
记为 x ~ N(, 2 ) 特别的,若记 Z x ,则Z~N(0,1)
=10
= 50 X
总体分布
n= 4
x 5
n =16
x 2.5
x 50
X
抽样分布
从非正态总体中抽样
结论:
从非正态中体中抽样,所形成 的抽样分布最终也是趋近于正态分 布的。只是样本容量需要更大些。
总结:中心极限定理
设从均值为,方差为 2的一个任意总体中抽 取容量为n的样本,当n充分大时(超过30),样本 均值的抽样分布近似服从均值为μ、方差为σ2/n的
M
1.0 1.5 4.0 16
2.5
n
(xi x )2
2 x
i 1
M
(1.0 2.5)2 (4.0 2.5)2 0.625 2
16
n
式中:M为样本数目 n为样本容量
均值抽样分布与总体分布的关系(2)
总体分布
.3
.2
.1
0 1
234
= 2.5
σ2 =1.25
P(x) .3
(三) 抽样方法
抽样方法 随机抽样 非随机抽样 简单抽样 分层抽样 系统抽样 整群抽样
随机抽样:按照随机原则选取样本,即每 个样本都有相同的被抽中的机会。
特点:
按一定的概率以随机原则抽取样本 抽取样本时使每个单位都有一定的机
会被抽中 每个单位被抽中的概率是已知的,或
是可以计算出来的 当用样本对总体目标量进行估计时,
这个变换叫做标准化。即把一个一般的正态分布随机 变量转化成为一个服从标准正态分布的随机变量。
(2)查标准正态分布表对应的概率值
例:产品的合格率是多少?
已知某生产线生产的零件的长度X服从 N(13.6,0.22),实践经验表明,只要零件 的长度在[13.2,14]之间,那么这个零件 是可以正常使用的,超过这个范围则无法 使用。那么,从这条生产线上生产的零件 大概有多少是符合这一质量标准呢? [13.11,14.15]之间的概率呢?
构成的整体。 大样本:n 30 小样本:n 30
(二)参数和统计量
参数:概括整个总体所有数据的一个数值。 (总体的某种特征值)
– 例:总体平均数、总体比例,总体方差等
统计量:概括整个样本所有数据的一个数值。 (样本的某种特征值)
-例:样本平均值、样本比例,样本方差等
参数是固定的,统计量是变化的 每一个参数,有一个相应的样本统计量
3 70
4 65
3 5 4 5
3、正 态 分 布 的 重 要 现 象
设变量 x ~ N (, 2 ),则: P(| x | ) P( x ) 0.6826 P(| x | 2 ) P( 2 x 2 ) 0.9545 P(| x | 3 ) P( 3 x 3 ) 0.9973
抽样分布是指样本统计量的概 率分布。如:上例中,将所有可能 样本的均值作为一个新的总体的分 布即为样本均值的抽样分布。再如: 将所有可能样本的比例作为一个新 的总体的分布即为样本比例的抽样 分布。
试想:
如果所有样本均值这个新的 总体的分布为正态分布,意味着 什么?(可以将正态分布作为统 计推断的工具,利用正态分布的 性质计算)
一个复杂的例子:上例中,在重复
抽样的条件下,可抽取100000100 个 可能样本,计算所有可能样本的均值:
x1 , x2 , x3 ,, x100000100
此时:
x
x x 100000100
2 x
x x 2
100000100
x 平均使用寿命(小时)
4000以下 4000~4500 4500~5000 5000~5500 5500~6000 6000~6500 6500以上 合计
因此,在推断统计中,一般采用随机抽样 方法
二 抽样分布
(一)总体分布 (二)样本分布 (三) 抽样分布
(一)总体分布和样本分布
假定某公司进口了100000只灯管,从 中抽出100只进行检验,检验其使用寿命。 这100000只灯管即为总体,抽出的100只 即为样本。 100000只灯管使用寿命的分 布即为总体分布。
第三章 抽样与抽样分布
一 统计抽样与抽样方法 二 抽样分布 三 中心极限定理的应用
一 常用的抽样方法
(一)总体与样本 1、总体(Population)
总体是指根据研究目的所确定的所要
研究的同类事物的全体,是所要说明其 数量特征的研究对象。
总体单位:构成总体的个别事物。
2、样本(Sample) 从总体中抽取的部分总体单位所
容量为n的样本,当n足够大时,样本平 均数的分布服从正态分布。
x
~
N ( x
,
2 x
)
fx
x
x
x
正态分布
日常生活中存在着大量的服从正态分布的随机现 象。正态分布的重要性体现在:
1、许多随机现象可用正态分布描述或近似描述
如:
❖ 人的身高、体重等生理指标服从正态分布 ❖ 科学观测的测量误差服从正态分布 ❖ 一些股票的收益率也服从正态分布 ❖ 收入、降雨量……
以课本55页第12题
(3)粗略估计一下,男生中有?%的 人体重在55~65公斤之间?
(4)粗略估计一下,女生中有?%的 人体重在40~60公斤之间?
f(x)
P(a<x<b)=SA
A
a
b
x
b
P(a x b) a f (x)dx SA
即服从正态分布的随机变量在区间(a,b)上取值
的概率等于分布密度函数图中绿色阴影部分面积。
事实上,我们是想知道P(13.2≤X≤14)
令 Z X 13.6 0.2
Z就是标准正态变量 ,Z~N(0,1)
则有
P(13.2 X 14) P(13.2 13.6 Z 14 13.6)
0.2
0.2
P(2 Z 2) 0.9545
也就是说有95.45%的产品是合格的!
若我们是想知道P(13.11≤X≤14.15)