抽样调查-分层随机抽样课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Y N yst
2.估计量的性质
由于
Y
与
y st
只差一个常数,因此,Y 与 yst 具有
相同的性质。
返回
性质一 对于一般的分层随机抽样,如果 yst 是 Y
的无偏估计,
则
Y
是的无偏估计,Y 的方差为:
L
V (Y ) N 2V (Y st ) V (Y h )
h1
L
L
N 2 Wh2V (Y h ) Nh2V (Y h )
( y1i
y1)2
1624.722
同理有
y2 105, s22 2166.667 y3 165, s32 8205.556 y4 24, s42 193.333
返回
因此,估计奶制品年消费总支出为:
4
Y Nh yh h1
20039.5 400105 750165 1500 24 209650
估计量方差及标准差的样本估计
v(Y )
N2
4
Wh2v( yh )
h1
4 h1
N
2 h
1
f nh
h
sh2
5.39 108
s(Y ) v(Y ) 23208
返回
三、总体比例的估计
1.估计量的定义 2.估计量的性质
总体比例 P 的估计为:
L
pst Wh ph
h1
如果定义
Yi
1, 0,
第 i个单元具有所考虑的特征; 其他。
4 1500 50 35 15 0 20 30 25 10 30 25
返回
由上表,N=2850, nh 10, (h 1,2,3,4),
各层的层权及抽样比为:
W1
N1 N
200 2850
0.07018,
f1
n1 N1
10 200
0.05
W2
N2 N
400 2850
0.14035,
f2
n2 N2
§3.1 引 言
一、定义 先将总体 N 个单元划分成 L 个互不重复的子
总体,每个子总体称为层,它们的大小分别为
N1, N2 ,, NL
L
(N Nh)
h1
然后,在每个层中独立地进行抽样, 称为分层抽样.
返回
二、作用
分层抽样在实际工作中应用的非常广泛, 主要是因为它具有其它抽样方法所没有的 特点:
性质三 对于分层随机抽样, V(pst) 的无偏估计为
v(
pst
)
L
Wh2v(
h1
ph
)
1 N2
L h1
N
2 h
(Nh nh ) Nh 1
phqh nh 1
L
Wh2 (1
h1
f
h
)
ph nh
qh 1
返回
【例3.2】 在例3.1的调查中,同时调查 了居民拥有家庭电脑的情况,获得如下数据 (单位:台),如表3.2。估计该地区居民拥 有家庭电脑的比例及估计的标准差。
估计。
Y
st
的方差为:
V( Y st
)=
L
Wh2V (Y h )
h1
值得注意的是:只要对各层估计是无偏的,则对
总体的估计也是无偏的。
因此,各层可以采用不同的抽样方法,只要相应 的估计量是无偏的,则对整体的推算也是无偏的。
返回
性质一的证明:由于对每一层有
E(Y h ) Y h
因此
L
L
E(Y st ) E( Wh Y h ) WhE(Y h )
1.分层抽样的抽样效率较高,也就是说,分 层抽样的估计精度较高。
2.分层抽样不仅能对总体指标进行推算,而 且能对各层指标进行推算。
3.层内抽样方法可以不同,而且便于抽样工 作的组织。
返回
三、使用场合
在对分层进行具体划分时,通常考虑如下原则: 1.层内单元具有相同性质,通常按调查对象
的不同类型进行划分。 2.尽可能使层内单元的标志值相近,层间单
总体均值:
y Rc
y st x st
X
Rc
X
总体总量:
Y Rc
y st
X
Rc
X
x st
式中: yst 表示 Y
的无偏估计; 均方误差为:
xst 表示 X 的无偏估计.
MSE( y Rc ) V ( y Rc )
N
2 h
(1
N 2nh
f
)(
S
2 yh
R
2
S
2 xh
2RS yxh )
MSE(Y Rc ) V (Y Rc )
返回
解:由上表可得 p1 0.2, p2 0.2, p3 0.4, p4 0.1
该地区居民拥有家庭电脑比例的估计为:
pst
4
Wh ph
h1
1 N
4 h1
Nh ph
1 (200 0.2 400 0.2 750 0.4 1500 0.1) 2850
0.2
估计量的方差为:
v( ph )
一、总体均值的估计
1.估计量的定义 总体均值 Y 的估计:
Y st =
L h1
Wh
Y h
1 N
L h1
Nh
Yh
如果得到的是分层随机样本,则总体均值 Y
的简单估计为:
y st
L
Wh yh
h1
1 N
L h1
Nh
yh
返回
2.估计量的性质
性质一
对于一般的分层抽样,如果
Yh
是
Yh
的无偏估计( h=1,2, ……,L),则 Y st是 Y 的无偏
(i=1,2, …,N)
则对总体比例的估计类似对总体均值的估计,这时,
pst 与
y st
具有同样的性质。
返回
性质一 对于一般的分层随机抽样,如果 ph是Ph
的无偏估计(h=1,2, …,L),则 pst 是 P 的
无偏估计。pst 的方差为:
L
V ( pst ) Wh2V ( ph )
h1
性质二 对于分层随机抽样, pst是 P 的 无偏估计。
N
2 h
(1
nh
f
)
(S
2 yh
R
2
S
2 xh
2RS yxh )
返回
3.分别比率估计量与联合比率估计量的比较
一般而言,分别比率估计量的方差小于联合比 率估计量的方差。但当每层的样本量不太大时,还 是采用联合比率估计量更可靠些,因为这时分别比 率估计量的偏倚很大,从而使总的均方误差增大。
实际使用时,如果各层的样本量都较大,且有 理由认为各层的比率Rh差异较大,则分别比率估计 优于联合比率估计。当各层的样本量不大,或各层 比率Rh差异很小,则联合比率估计更好些。
元的差异尽可能大。
3.既按类型又按层内单元标志值相近的原则 进行多重分层,同时达到实现估计类值以及提高 估计精度的目的。
4.抽样组织实施的方便,通常按行政管理机 构设置进行分层。
返回
四、符号说明
我们用下标h表示层号 (h=1,2,……,L)。 关于第h层的记号如下:
单元总数: Nh 样本单元数: nh 第 i个单元标志值(观察值): yhi
返回
单元权数:Wh
Nh N
总体均值:Y h
1 Nh
Nh
Yhi
i1
第L层总体方差:Sh2
N
1 h
1
Nh i1
(Yhi
Yh )2
返回
样本均值:
y h
1 nh
nh i1
yhi
抽样比:
fh
nh Nh
第L层样本方差:sh2
1 nh nh 1 i1 ( yhi
yh )2
返回
§3.2 简单估计量及其性质
10 400
0.025
W3
N3 N
750 2850
0.26316,
f3
n3 N3
10 750
0.0133
W4
Baidu Nhomakorabea
N4 N
1500 2850
0.52632,
f4
n4 N4
10 1500
0.0067
返回
各层样本均值及样本方差为:
1 n1
y1 n1 i1 y1i 39.5
s12
1 n1 1
n1 i 1
(数据见下表)
返回
样本户拥有家庭电脑情况
表3.2
• 层 居民
样本户拥有家庭电脑情况
户总
数
1 23 456 7 8
1 200
0 00 100 0 1
9 10
00
2 400 0 1 0 0 0 0 0 0 1 0
3 750 1 1 0 0 0 0 1 0 1 0
4 1500 1 0 0 0 0 0 0 0 0 0
Y Rs
N
y Rs
L h1
yh xh
X
h
L
Y Rh
h1
Wh : 层权 yh :为Y h的简单估计 L: 层数 xh :为X h的简单 估计 y Rh 为Y h 的比率估计, Y Rh 为 Yh 比率估计
返回
比率估计量的方差:
V ( y Rs )
L Wh2 (1
h1
nh
f
)
(S
2 yh
Rh2
S
2 xh
1997年国有和 非国有企业调 查数据如下页
返回
i
xi
yi
i
xi
yi
1
95
80
1
495
530
2
220
210
2
210
320
3
359
384
3
360
496
4
120
117
4
230
400
5
177
180
5
600
651
6
253
258
6
1000 880
7
302
349
7
700
560
8
332
286
8
1100 1230
v( yh )
1 fh nh
sh2
因此,V ( yst ) 的一个无偏估计为:
v( yst )
L
Wh2v( yh )
n1
L
Wh2
h1
1 fh nh
sh2
返回
二、总体总量的估计
1.估计量的定义 总体总量 Y 的估计为:
L
Y N Y st Y h
h1
如果得到的是分层随机样本,则总体总量 Y
的简单估计为:
证明:注意到
V ( ph )
Nh nh Nh 1
PhQh nh
及 Nh 1 Nh 因而 pst 的方差为:
返回
V
(
pst
)
L
Wh2V
h1
(
ph )
1 N2
L h1
N
2 h
(
N
h
nh
)
Nh 1
PhQh nh
L h1
1 N2
N
2 h
(Nh
Nh
nh )
PhQh nh
L
Wh2 (1
h1
f
h
)
PhQh nh
h1
h1
L
WhY h
h1
1 N
L
NhY h
h1
1 N
L
Yh
h1
Y N
Y
返回
性质二 对于分层简单随机抽样, yst 是 Y
的无偏估计, yst 的方差为:
V
( y st
)
L
Wh 2V
h1
(
yh
)
L
Wh2
h1
1 fh nh
Sh2
返回
性质二的证明:若各层独立进行简单随机抽样,
对每一层有
L
E( yh ) Y h , E( y st ) Y ,V ( y st ) Wh2V ( yh ) h1
(数据见下表)
返回
样本户奶制品年消费支出
• 层 居民 户总 数
1 200
样本户奶制品年消费支出(元) 1 2 3 4 5 6 7 8 9 10
10 40 0 110 15 10 40 80 90 0
2 400 50 130 60 80 100 55 160 85 160 170
3 750 180 260 110 0 140 60 200 180 300 220
另一种是对比率的分子、分母分别加权计算出分层 估计量,然后用对应的估计量来构造比估计,这样所得 的估计量称为联合比估计(combined ratioestimator).
返回
1.分别比率估计
总体均值 Y 总体总量Y 的分层比率估计为:
总体均值:
yRs
L
Wh
h1
y Rh
L
Wh
h1
yh xh
X
h
总体总量:
返回
【例4.4】 某市1996年对950家港口生产单位完成的
吞吐量进行了调查,1997年欲对全市港口生产单位完 成的吞吐量进行调查。对港口生产单位按非国有(h=1) 和国有(h=2)分为两层,单位数分别为800家和150家, 分别在两层中调查了10家和15家港口生产单位, 调查数据如下表,试计算1997年全市港口生产单位完 成的吞吐量。
由第二章性质二得
V ( yh )
1 fh nh
S
2 h
因此
V ( yst )
L
Wh2V ( y h )
h1
L
Wh2
h1
1 fh nh
S
2 h
返回
性质三 对于分层随机抽样,
V ( yst ) 的无偏估计为:
v(
y
st
)
L
Wh 2v(
h1
yh
)
L
Wh2
h1
1
fh nh
sh2
返回
性质三的证明:对于分层随机抽样,各层独立进行 简单随机抽样,由第二章性质三,得
2Rh hS yhSxh )
V (Y Rs )
L h1
N
2 h
(1
nh
f
)
(
S
2 yh
Rh2
S
2 xh
2Rh hS yhSxh )
式中,
fh
nh Nh
;
S
2 yh
;
S
2 xh
;
h
分别为第 i层指标
Y,X的方差及相关系数.
分别比率估计量要求每一层的样本量 都比较大,否则,偏倚可能比较大.
返回
2.联合比率估计(combined ratio estimator)
h1
h1
性质二
对于分层随机抽样,
Y
的方差为:
V (Y )
L
Nh2V (Y h )
h1
=
L h1
N
h
2
1
fh nh
Sh2
返回
性质三 对于分层随机抽样,V (Y ) 的无偏估计为:
v(Y )
L
Nh2v(Y h )
h1
=
L h1
N
h
2
1
f nh
h
sh2
【例3.1】调查某地区的居民奶制品年消费支 出,以居民户为调查单元,根据经济及收入 水平将居民户划分为4层,每层按简单随机抽 样抽出10户,调查获得如下数据(单位:元) 估计该地区居民奶制品年消费总支出及估计 的标准差。
1 N2
4 h1
Nh2v( ph )
1 28502
(2002
0.0169
4002
0.0173
7502
0.4
1500 2
0.0099)
0.005
返回
§3.3 比率估计量及其性质
将比率估计的思想和技术用于分层随机样本时,对 总体参数的估计有两种途径:
一种是对每层样本分别考虑比估计量,然后对各层 的比估计量进行加权平均,此时所得的估计量称为分别 估计(separate ratio estimator);