6-第5章抽样与参数估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
滚雪球抽样是指先对随机选择的一些被调查 者实施访问,然后再请他们推荐属于研究目 标总体特征的调查对象。
配额抽样又称定额抽样,通常被认为是一种 与分层抽样法相对的非随机抽样方法。 。
2008-2009
抽样分布(sampling distribution)
1. 在重复选取容量为n的样本时,由每一个样本算 出的该统计量数值的相对频数分布或概率分布
2008-2009
5.3 总体均值的区间估计
正态总体且方差已知,或非正 态总体,方差未知、大样本
正态总体,方差未知、小样本
2008-2009
一个总体参数的区间估计
总体参数 均值 比例 方差
符号表示
2
样本统计量
X P S2
2008-2009
总体均值的区间估计(大样本)
假定条件
2. 是一种理论分布 3. 随机变量是 样本统计量
样本均值, 样本比例,样本方差等
4. 结果来自容量相同的所有可能样本
5. 提供了样本统计量长远我们稳定的信息,是进 行推断的理论基础,也是抽样推断科学性的重 值的抽样分布
1. 容量相同的所有可能样本的样本均值的概 率分布
先从数字1到k之间随机抽取一个数字r作为 初始单位,以后依次取r+k,r+2k…等单位
2. 优点:操作简便,可提高估计的精度 3. 缺点:对估计量方差的估计比较困难
2008-2009
方便抽样是从便利的角度来考虑获取样本的。 样本的选取主要是让调查员来决定。
判断抽样是指根据调查人员的主观经验从总 体样本中选择那些被判断为最能代表总体的 单位作样本的抽样方法。
不同性别的人与全部人数之比 合格品(或不合格品) 与全部产品总数之比
2. 总体比例可表示为
N0 或 1 N1
3. 样本比例N可表示为
N
2008-2009
p n0 或 1 p n1
n
n
分组 具有某一属性 不具有某一属性
合计
单位数
N1 N0
N
变量值 1 0 —
均 值
π (1 π )
样本比例的抽样分布
1. 容量相同的所有可能样本的样本比例的概率 分布
2. 当样本容量很大时,样本比例的抽样分布可 用正态分布近似
3. 一种理论概率分布 4. 推断总体总体比例的理论基础
Xp
N


(1π
) )
n
2008-2009
5.2 参数估计的基本方法
估计量与估计值 点估计与区间估计
总体服从正态分布,总体方差(2) 已知;若总体方差 (2) 未知,大样本时用样本方差代替总体方差;
如果不是正态分布,可由正态分布来近似 (n 30)
总体均值 在1-a置信水平下的置信区间为
重复抽样

x za 2 n
或 x za 2
s ( 未知)
n
不重复抽样

x za 2 n
x 50
X
抽样分布
2008-2009
中心极限定理(central limit theorem)
中心极限定理:设从均值为,方差为 2的一个任意总 体中抽取容量为n的样本,当n充分大时,样本均值的抽 样分布近似服从均值为μ、方差为σ2/n的正态分布
一个任意分 布的总体
x

n
当样本容量足够 大时(n ≥30) , 样本均值的抽样 分布逐渐趋于正 态分布
2. 特点
抽样时只需群的抽样框,可简化工作量 调查的地点相对集中,节省调查费用,方便
调查的实施 缺点是估计的精度较差
2008-2009
系统抽样(systematic sampling)
1. 将总体中的所有单位(抽样单位)按一定顺 序排列,在规定的范围内随机地抽取一个 单位作为初始单位,然后按事先规定好的 规则确定其它样本单位
当用样本对总体目标量进行估计时, 要考虑到每个样本单位被抽中的概 率
2008-2009
简单随机抽样(simple random sampling)
1. 从总体N个单位中随机地抽取n个单位作为样本,每个单 位入抽样本的概率是相等的
2. 最基本的抽样方法,是其它抽样方法的基础 3. 特点
简单、直观,在抽样框完整时,可直接从中抽取样 本
2008-2009
参数估计在统计方法中的地位
统计方法
描述统计
推断统计
参数估计
假设检验
2008-2009
5.1 抽样与抽样分布
什么是抽样推断 概率抽样方法 抽样分布
2008-2009
抽样推断的过程
总体
2008-2009

样本统计量

例如:样本均
值、比例、方

抽样方法
抽样方式
概率抽样
3
3,1
3,2
3,3
3,4
4
4,1
4,2
4,3
4,4
2008-2009
计算出各样本的均值,如下表。并给出样本均值 的抽样分布
16个样本的均值(x)
第一个
第二个观察值
观察值 1 2 3 4
1 1.0 1.5 2.0 2.5
2 1.5 2.0 2.5 3.0
3 2.0 2.5 3.0 3.5
4 2.5 3.0 3.5 4.0
用样本统计量对目标量进行估计比较方便 4. 局限性
当N很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其它辅助信息以提高估计的效率
2008-2009
分层抽样(stratified sampling)
1. 将抽样单位按某种特征或某种规则划分为不同 的层,然后从不同的层中独立、随机地抽取样 本
i1 2.5
N
N
(xi )2
2 i1
N
1.25
现从总体中抽取n=2的简单随机样本,在重复抽样 条件下,共有42=16个样本。所有样本的结果为
所有可能的n = 2 的样本(共16个)
第一个
第二个观察值
观察值
1
2
3
4
1
1,1
1,2
1,3
1,4
2
2,1
2,2
2,3
2,4
我们只能是希望这个区间是大量包含总体参数真 值的区间中的一个,但它也可能是少数几个不包 含参数真值的区间中的一个
2008-2009
置信区间
样本统计量 (点估计)
置信下限
置信上限
置信区间示意图
2008-2009
置信区间与置信水平
均值的抽样分布
x
a/2
1-a
a/2
X
x
(1 - a) % 区间包含了 a % 的区间未包含
x za 2

n
21.4 1.96 0.15 9
即:21.4±0.098=(21.302,21.498),该批零件平 均长度的置信区间为21.302cm~21.498cm之间
2008-2009
第5章 抽样与参数估计
统计研究目的
统计设计


客观



现象



数量


表现


描 述

2008-2009
统计研究的程序

统计 总体 数量 特征
学习目标
1. 理解抽样方法与抽样分布 2. 估计量与估计值的概念 3. 点估计与区间估计的区别 4. 总体均值的区间估计方法 5. 总体比例的区间估计方法 6. 样本容量的确定方法
2. 优点 保证样本的结构与总体的结构比较相近,从 而提高估计的精度 组织实施调查方便 既可以对总体参数进行估计,也可以对各层 的目标量进行估计
2008-2009
整群抽样(cluster sampling)
1. 将总体中若干个单位合并为组(群),抽样时 直接抽取群,然后对中选群中的所有单位 全部实施调查
N n N 1
或 x za 2
s n
N n ( 未知)
N 1
2008-2009
【例】某种零件的长度服从正态分布,从某天生产一批零件 中按重复抽样方法随机抽取9个,测得其平均长度为21.4cm
。已知总体标准差为=0.15cm。试估计该批零件平均长度的
置信区间,置信水平为95%
解:已知:= 0.15cm,n=9,x=21.4,1-a=95%
2008-2009
置信区间 (confidence interval)
1. 由样本统计量所构造的总体参数的估计区间称 为置信区间
2. 统计学家在某种程度上确信这个区间会包含真 正的总体参数,所以给它取名为置信区间
3. 用一个具体的样本所构造的区间是一个特定的 区间,我们无法知道这个样本所产生的区间是 否包含总体参数的真值
2008-2009
估计量与估计值 (estimator & estimated value)
1. 估计量:用于估计总体参数的随机变量
如样本均值,样本比例、样本方差等 例如: 样本均值就是总体均值 的一个估计量
2. 参数用 表示,估计量用 ˆ 表示
3. 估计值:估计参数时计算出来的统计量的具 体值
差的估计
2. 没有给出估计值接近总体参数程度的信息 3. 点估计的方法有矩估计法、顺序统计量法、
最大似然法、最小二乘法等
2008-2009
区间估计(interval estimate)
1. 在点估计的基础上,给出总体参数估计的一个区间 范围,该区间由样本统计量加减抽样误差而得到的
2. 根据样本统计量的抽样分布能够对样本统计量与总 体参数的接近程度给出一个概率度量
2008-2009
.3 P (X ) .2 .1 0
1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
样本均值的抽样分布
样本均值的分布与总体分布的比较
总体分布
.3
.2
.1 0
1
234
= 2.5
σ2 =1.25
2008-2009
.3 P ( X ) 抽样分布
.2
.1
0
1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
2008-2009
x
X
抽样分布与总体分布的关系
总体分布
正态分布
非正态分布
大样本
小样本
正态分布
正态分布 非正态分布
结论:1. 样本均值的均值(数学期望) 等于总体均值
2. 样本均值的方差等于总体方差的1/n
2008-2009
样本比例的抽样分布
比例(proportion)
1. 总体(或样本)中具有某种属性的单位与全部单 位总数之比
μ p
Xf 1 N 0 N N

1
0 1 π
f
N
N

( X μ )2 f
p

1 π 2 N 0 π 2 N
1
0
准p
f
N N
1
0

(1 π )2π π(2 1 π ) π (1 π )1 π π
2008-2009
X 2.5

2 X
0.625
样本均值的抽样分布与中心极限定理
当总体服从正态分布N~(μ,σ2)时,来自该总体的所有 容量为n的样本的均值X也服从正态分布,X 的数学 期望为μ,方差为σ2/n。即X~N(μ,σ2/n)
=10
= 50 X
总体分布
n=4
x 5
n =16
x 2.5
2. 一种理论概率分布 3. 进行推断总体均值的理论基础
2008-2009

【例】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。 总体的均值、方差及分布如下
总体分布
.3
.2
.1 0
1
234
2008-2009
均值和方差
N
xi
99% 的样本
2008-2009
置信水平
1. 将构造置信区间的步骤重复很多次,置 信区间包含总体参数真值的次数所占的 比例称为置信水平,或称置信系数。
2. 表示为 (1 - a
a 为是总体参数未在区间内的比例
3. 常用的置信水平值有 99%, 95%, 90%
相应的 a 为0.01,0.05,0.10
非概率抽样
简单随机抽样 整群抽样
分层抽样 系统抽样
方便抽样 配额抽样
判断抽样 滚雪球抽样
2008-2009
概率抽样(probability sampling)
也称随机抽样
特点:
按一定的概率以随机原则抽取样本 抽取样本时使每个单位都有一定的 机会被抽中
每个单位被抽中的概率是已知的, 或是可以计算出来的
如果样本均值 x =80,则80就是 的估计值
2008-2009
参数估计方法简介
估计方法
点估计
矩估计法 顺序统计量法 极大似然法 最小二乘法
2008-2009
区间估计
点估计(point estimate)
1. 用样本的估计量直接作为总体参数的估计 值
例如:用样本均值直接作为总体均值的估计 例如:用两个样本均值之差直接作为总体均值之
比如,某班级平均分数在75~85之间,置信水平是95%
置信区间
样本统计量 (点估计)
2008-2009
置信下限
置信上限
区间估计的图示
X±za 2X
X
- 2.58x

X
-1.65 x
+1.65x + 2.58x
-1.96 x
+1.96x
90%的样本
95% 的样本
相关文档
最新文档