抽样技术-分层随机抽样概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2020/3/10
4
二、作用
由于每层都进行抽样,这就可使样本在总体中分布 更加均匀,从而具有更好的代表性。
由于抽样在每一层中独立进行,所以一者允许各层 选择不同的适合本层的抽样方法,二则可同时对各 子总体(层)进行参数估计,而不单是对整个总体 的参数进行估计。
由于各层的总体方差因单元之间差异小而肯定小于 整个总体的方差,而抽样精度与此成正比,所以分 层抽样可以提高参数估计的精度。
2020/3/10
25
分别比估计
定义3.4 总体均值 和总体总量 的分别比估计为:
Y
Y
yRS

L
Wh yRh
h1

L
Wh
h1
yh xh
Xh
YˆRS

NyRS

L
Nh
h1
yh xh
Xh

L h1
yh xh
Xh

L
YˆRh
h1
2020/3/10
26
定理3.5 对于分层随机抽样的分别比估计,若各层的样本量 都比较大, 则有

Rh R
2)当
(分R 别R比h ) 估0 计,的即精Rh度 与R 联V (,y合RC )比V估(yR计S ) 的hL1 精Wh2(度1nh 是fh ) 一(R 样 Rh的)2 S。x2h 0
分3)别当比估(R 计 R的h ) 精0度且不低h 于R联2R合h SS比xyhh 估 R计SSxy的hh 精度,。这意味着分
19
W1

N1 N

200 2850

0.07018
f1

n1 N1

10 200

0.05
1 n1
y1 n1 i1 y1i 39.5
s12

1 n1 1
n1 i 1
y1i y1 2 1624.722
同理,求得: y2 105
s22 2166.667
y3 165
h1
nh
f
h
)
(S
2 yh
R2Sx2h
2RhSyhSxh )
2020/3/10
30
分别比估计与联合比估计的比较
由于 V ( yRC ) V ( yRS )

L Wh2 (1
h1
nh
fh )
(R2
Rh2 )Sx2h
2(R
Rh )hSyhSxh
\\\

2020/3/10
17
性质3:对于分层随机抽样, 的一个无偏估计为:
V Yˆ
v Yˆ
L

N
2 h
v
yh
h1

L h1
N
2 h
1 fh nh
s
2 h
2020/3/10
18
例3.1
调查某地区的居民奶制品年消费支出,以居民户为抽样 单元,根据经济及收入水平将居民户划分为4层,每层 按简单随机抽样抽取10户,调查获得如下数据(单位: 元),要估计该地区居民奶制品年消费总支出及其 95%的置信区间。
Yst

L WhYh
h1

1 N
L N hYh
h1
Y
L
1L
y st

Wh yh
h1

N
Nh yh
h1
2020/3/10
8
估计量的性质

性质1&2:对于一般
无偏估计h( 1,2, , L
Yst 的方差为:

分层抽样
),Y则st
,Y 是如果Y的h 无是Y偏h 估计的。
h1
h1
h 1
2020/3/10
V ( yRS )

L Wh2 (1
h1
nh
fh
)
(S
2 yh
Rh2Sx2h
2Rh hSyhSx2h8)
联合比估计

Y
Y
2020/3/10
29

E( yRC ) Y
MSE( yRC ) V ( yRC )

L Wh2 (1
s32 8205.556
2020/3/10
y4 24
s42 193.333
20
4
Yˆ N h yh h1
v Yˆ
4
N 2 Wh2v
h 1
yh

4 h 1
N
2 h
1
f nh
h
sh2

5.93 108
s Yˆ v Yˆ 23208
层 居民户
总数
1
2
1
200
10
40
2
400
50 130
3
750 180 260
4
1500
50
35
样本户奶制品年消费支出
3
4
5
6
7
8
9
10
0 110
15
10
40
80
90
0
60
80 100
55 160
85 160 170
110
0 140
60 200 180 300 220
15
0
20
30
25
10
30
25
2020/3/10
V Yst L Wh2V Yh h1
只要对各层估计无偏,则总体估计也无偏。
各层可以采用不同的抽样方法,只要相应的估计量是无
偏的,则对总体的推算也是无偏的。
2020/3/10
9
证明性质1
由于对每一层有 因此,
E Yˆh Yh
E Yˆst E L WhYˆh L Wh E Yˆh
别比估计的精度要高于联合比估计的精度。
2020/3/10
32
4)当 或
(R 且Rh ) 0

h

R, Rh ,2
S xh S yh

Rh
S xh S yh
联 5)合当比估计(R的精R度h要) ,高即0于比分估别计比量估的计h方的差精R小度于2。R简h单SS估xyhh计量R的h方SS差xyhh时,需视具体
对于分层随机抽样,各层独立进行简单随机抽样,由第二章性质3,得

无偏估计为:
因此, 的一个无偏估计为:
v yh

1 fh nh
Vyh
s
2 h
V yst
v yst
L
Wh2v yh
h1

L h1
Wh2
1
f nh
h
s
2 h
2020/3/10
14
二、对总体总量的估计
L
Wh2v ph
h1

1 N2
L h1
Nh2
1 nh
fh
sh2
L
Wh2 1 f h
h1
phqh nh 1
2020/3/10
24
第三节 比率估计量及其性质
先“比”后“加权”,此时所得的估计量称为 分别比估计(separate ratio estimator)
先 “加权”后“比”,这样所得的估计量称 为联合比估计(combined ratio estimator)
L
V pst Wh2V ph
h1
2020/3/10
22
性质2:对于分层随机抽样, 是 的无偏估计,
V
ph
N h nh PhQh Nh 1 nh
pst P
Nh 1 Nh
因而 pst的方差为:
V pst
L
Wh2V ph
Wh
Nh N 第 h 层的
层权
fh
nh Nh
第 h 层的
抽样比
Yh
1 Nh
Nh
Yhi
i 1
第 h 层的
总体均值
yh
1 nh
nh i1 yhi
第 h 层的
样本均值
6
记号
Yh
yh
S
2 h
s h2
公式
Nh
Yhi NhYh
i 1
代表的含 义
第 h 层的
总体总量
nh
yhi nh yh
为0,从而有 h1
h1
h1 k h
V Yˆst L Wh2V Yˆh
2020/3/10
h1
10
性质3:对于分层随机抽样, 是 的无偏估计, 的方差为:
Y yst
yst
V
yst
L
Wh2V
h1
yh

L
Wh2
h1
1 fh nh
V
yst
L
Wh2V
h1
yh

L
Wh2
h1
1 fh nh
S
2 h
12
性质4:对于分层随机抽样, 的一个无偏估计为:
V yst
v yst
L
Wh2v yh
h1

L
Wh2
h1
1 fh nh
sh2
2020/3/10
13
证明性质4:
抽样技术-分层随机抽样 概述
第一节 概述
2020/3/10
2
2020/3/10
3
ቤተ መጻሕፍቲ ባይዱ
定 义 3.3 分 层 随 机 抽 样 ( stratified random sampling):如果每层中的抽样都是独立地按照 简单随机抽样进行的,那么这样的分层抽样称为分 层随机抽样,所得的样本称为分层随机样本 (stratified random sample)。
情况而定。
h

1 2

Sxh S yh
Xh Yh
L Wh2 (1
h1
nh
f
h
)

(
R

Rh
)2
S
2 xh
2(R Rh ) (hSyhSxh

Rh
S
2 xh
)


L Wh2 (1
h1
nh
f
h
)

(
R

Rh
)
(
R

Rh
)S
2 xh
2(hS yhSxh

Rh
S
2 xh
)

2020/3/10
31
1)当 (R Rh ) 0,即(R Rh )Sx2h 2(hSyhSxh RhSx2h ) 0
i 1
第 h 层的
样本总量
Nh
(Yhi Yh )2
i 1
Nh 1
第 h 层的
总体方差
nh
( yhi yh )2
i 1
nh 1
第 h 层的
样本方差
2020/3/10
7
第二节 简单估计量及其性质
一、对总体均值的估计 分层样本,总体均值 的估计
分层随机样本,总体均值 的简单估计 Y
nh
E( yRS ) Y
MSE( yRS ) V ( yRS )
2020/3/10

L Wh2 (1
h1
nh
fh
)
(S
2 yh
Rh2Sx2h
2RhhSyhSxh )
27
证明
n 根据比估计量的性质,当 比较大时,有 h
E( yRh ) Yh
MSE(
yRh )

V
( yRh )
Yˆ ts Yˆ 209650 2 23208
2020/3/10
21
三、对总体比例的估计
总体比例P的估计为:
估计量的性质
L
pst Wh ph
h1
P (性h质 11,2:, 对, L 于)一,般则的p分st层是抽样的,无如偏果估计ph。是pstP的h 的方无差偏为估:计
2020/3/10
5
三、符号
所有总体参数的估计量都采用下标“st”以示区别

记号
h
i
Nh
nh
Yhi
y hi
下标 代表的含义
下标 第 h 层的 第 h 层的 第 h 层第 i 个 第 h 层第 i 个
"第 h 层" "层内单位号" 单位总数 样本数 总体单元的取值 样本单元取值
记号
公式
代表的含 义
2020/3/10
h1

1 N2
L h1
N
2 h
Nh nh
Nh 1
PhQh nh

L1 h1 N 2
N
2 h
Nh nh Nh
PhQh nh
2020/3/10
L
Wh2 1 f h
h1
Ph Qh nh
23
性质3:对于分层随机抽样, 的一个无偏估计为:
V pst
v pst
h1
h1
估计量的方差

L
WhYh
h1

1 N
L
N hYh
h1

1 N
L
Yh
h1

Y N
Y
由于各V层Yˆ是st 独 V立抽L 取Wh的Yˆh, 因此L W上h2式V 第Yˆh二项2 中L 的L 协Wh方W差kC全ov Yˆh ,Yˆk
S
2 h
2020/3/10
11
证明性质3:
对于分层随机抽样,各层独立进行简单随机抽样, 对每一层有
因此,由性质1,有
Eyh Yh
Eyst Y L
由第二章性质2,得
V yst Wh2V yh h1
因此
2020/3/10
Vyh

1 fh nh
S
2 h
总体总量 的估计为:
Y 如果得到的是分层随机样本,则总体总量的简单估计为:
Yˆ NYˆst
L
Yˆh
h1
Y Nyst
2020/3/10
15
2.估计量的性质
性质1:对于一般的分层抽样,如果 是 的无偏估计,则 是 的无偏估计。 的方差为:
Yst
Y
Yˆ Y

V Yˆ

(1 fh ) nh
(S
2 yh

Rh2
S
2 xh

2Rh hS yhSxh )
L
L
E( yRS ) Wh E( yRh ) WhYh Y
h1
h1
L
MSE( yRS ) MSE( Wh yRh )

L
Wh2MSE( yRh )
L
Wh2V ( yRh )
N 2V Yˆst

L
V Yˆh
N 2 L Wh2V Yˆh hL1 Nh2V Yˆh
h1
h1
2020/3/10
16
性质2:对于分层随机抽样, 的方差为:

V Yˆ
L
Nh2V
h1
yh

L h1
N
2 h
1 fh nh
S h2
相关文档
最新文档