第四章分层随机抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 分层随机抽样
4.1 概述
4.1.1分层抽样(stratified sampling)、分层随机抽样(stratified random sampling):
分层抽样:将容量为N的总体分成L个不相重叠的子总体,子总体的
大小分别为N1、 N2、… NL,皆已知,且 L
Nh N
h 1
每个子总体就称为层。从每层中独立地进行抽样,这样的抽样方 法称为分层抽样。 分层随机抽样:在分层抽样中,如果每层中的抽样都是简单随机抽 样,则这样的分层抽样称为分层随机抽样。
4.1.2分层抽样的适用场合: (1)不仅需要估计总体参数,也需要估计各层
参数。 (2)便于管理,按现成的地理分布或行政划分
来分层。 (3)希望样本中能包含各个部分,以增加代表
性。 (4)把一个内部差异很大的总体分成几个内部
比较相似的子总体(层)进行分层抽样,可以 提高估计量的精度。如果有极端值,也可以把 它们分离出来形成一层。
209650
(2)Yˆ的方差V (Yˆ)的估计:
v(Yˆ )
v(Nyst )
L h 1
Nh2
•
1
f nh
h
sh
2
5.39 108
s(Yˆ) v(Yˆ) 23208
(3)该地区居民奶制品年消费总支出的置信度为95%的置信区间为
Yˆ
u1 2
s(Yˆ ), Yˆ
u1 2
s(Yˆ )
164162,255138
即“层间方差大,层内方差小”。
4.2 简单估计量及其性质
对总体均值或总值的估计:
设总体分为L层,以h表示层的编号,h 1,2,,L
总体第h层
Nh
Yh Yhi
ຫໍສະໝຸດ Baidu
i 1
1 Nh
Yh
Nh
Yhi
i 1
S
2 h
1 Nh 1
Nh
(Yhi
i 1
Yh)2
第h层样本
nh
yh yhi
i 1
1 nh
yh nh i1 yhi
L WhYˆh
h1
方差V(Yˆst) L Wh2V (Yˆh ) h1
分层随机抽样, 则Yˆh的简单估计为yh
1.Y的无偏简单估计Yˆst为:yst L WhYˆh L Wh yh ,Yˆst记为yst
h1
h1
Y 的置信度为1 的置信区间为:
yst
u1 s( yst ), 2
yst
解: yst W1 y1 W2 y2
23560 15180 148420 9856 10585.39
171980
171980
3、分层随机抽样中,总体比例P的简单估计 设Ph的简单估计为ph,则
L
Wh 2
h1
•1 fh nh
Sh2
L
Wh 2
h1
•1 fh nh
•
Nh Nh 1
PhQh
解:
y1 39.5
各层样本均值及方差为:y2 105 y3 165
y4 24
s12 1624.722 s22 2166.667 s32 8205.556 s42 193.333
L
(1)Yˆ Nh yh h 1
200 39.5 400 105 750 165 1500 24
u1 2
s
(
y
st
)
2.总体总和Y的估计:
Yˆ
L
Yˆh
L
NhYˆh L
Nh yh
h1
h1
h1
方差V(Yˆ)
L
V(Yˆh)
h1
L h1
N h 2V(yh)
L h1
Nh2
1 fh nh
Sh2
例4.2:调查某地区的居民奶制品年消费支出,以居民户为抽样单元, 根据经济及收入水平将居民户分为4层,每层按简单随机抽样抽 取10户,调查数据如下,估计该地区居民奶制品年消费总支出 及估计的标准差。表:样本户奶制品年消费支出
4627
42
45岁以上
5366
50
总计
35050
320
试估计总体中会计算机者占的比例。
样本中会使 用计算机的
人数
24 12
22
11
4
解:
5
(1) pst Wh ph 0.2286
h1
(2)v( pst )
5
Wh2 (1
h1
fh)
ph (1 ph ) nh 1
0.000534
(3)P置信度为95%的置信区间为:
10
层 居民
户总 数
1
样本户奶制品年消费支出 23456789
1 200 10 40 0 110 15 10 40 80 90 0 2 400 50 130 60 80 100 55 160 85 160 170 3 750 180 260 110 0 140 60 200 180 300 220 4 1500 50 35 15 0 20 30 25 10 30 25
Ph
Qh
(当N
很大时)
h
(4)P的置信度为1 的置信区间为:
pst
u 1
s
(
pst
),
2
pst
u 1
2
s(
pst
)
例:在某行业技术人员中,按年龄分层,调查会使用计算机者所占 的比例。数据如下:
层
人数
入样人数
30岁以下
7781
71
30~35岁
7497
68
36~40岁
9779
89
41~45岁
pst
u1 2
v(
pst
),
pst
u 1
2
18.33%,27.39%
v( pst )
4.3 各层样本量的分配
在分层随机抽样中,假设样本量n固定
Yˆ的方差:
V ( yst )
L
Wh 2
h1
•1 fh nh
Sh2
L Wh2Sh2 L WhSh2
n h1
h
h1 N
考虑简单线性费用函数,则总费用为:
L
Wh 2
h1
•1 fh nh
PhQh
(当N
很大时)
h
估计的性质
(1) pst的性质:
L
P的简单估计为pst Wh ph h1
且是pst的无偏估计。
(2)
L
pst的方差V(pst) Wh2V(ph) h 1
L
Wh 2
h 1
•1 fh nh
•
Nh Nh
1
PhQh
L
Wh 2
h 1
•1 fh nh
例4.3:某市进行家庭收入调查,分城镇居民及农村居 民两部分抽样,在全部城镇居民23560户中随机抽取 300户,在全部农村居民148420户中随机抽取250户, 调查结果是城镇年平均户收入为15180元,标准差为 2972元;农村年平均户收入为9856元,标准差为 2546元。求全市年平均户收入的置信度为90%的置信 区间。
sh2
1 nh 1
nh
(yhi
i 1
yh)2
一、分层抽样中
若对任一层,假设为第h层,都有Yˆh NYˆh,
L
Y Yh
h1
(1)Yˆ L Yˆh L NhYˆh
h1
h1
方差V(Yˆ)
L
V(Yˆh)
L
N h 2V(Yˆh)
h1
h1
L
(2)Yˆst
Yˆh
h1
N
L h1
Nh N
Yˆh
4.1 概述
4.1.1分层抽样(stratified sampling)、分层随机抽样(stratified random sampling):
分层抽样:将容量为N的总体分成L个不相重叠的子总体,子总体的
大小分别为N1、 N2、… NL,皆已知,且 L
Nh N
h 1
每个子总体就称为层。从每层中独立地进行抽样,这样的抽样方 法称为分层抽样。 分层随机抽样:在分层抽样中,如果每层中的抽样都是简单随机抽 样,则这样的分层抽样称为分层随机抽样。
4.1.2分层抽样的适用场合: (1)不仅需要估计总体参数,也需要估计各层
参数。 (2)便于管理,按现成的地理分布或行政划分
来分层。 (3)希望样本中能包含各个部分,以增加代表
性。 (4)把一个内部差异很大的总体分成几个内部
比较相似的子总体(层)进行分层抽样,可以 提高估计量的精度。如果有极端值,也可以把 它们分离出来形成一层。
209650
(2)Yˆ的方差V (Yˆ)的估计:
v(Yˆ )
v(Nyst )
L h 1
Nh2
•
1
f nh
h
sh
2
5.39 108
s(Yˆ) v(Yˆ) 23208
(3)该地区居民奶制品年消费总支出的置信度为95%的置信区间为
Yˆ
u1 2
s(Yˆ ), Yˆ
u1 2
s(Yˆ )
164162,255138
即“层间方差大,层内方差小”。
4.2 简单估计量及其性质
对总体均值或总值的估计:
设总体分为L层,以h表示层的编号,h 1,2,,L
总体第h层
Nh
Yh Yhi
ຫໍສະໝຸດ Baidu
i 1
1 Nh
Yh
Nh
Yhi
i 1
S
2 h
1 Nh 1
Nh
(Yhi
i 1
Yh)2
第h层样本
nh
yh yhi
i 1
1 nh
yh nh i1 yhi
L WhYˆh
h1
方差V(Yˆst) L Wh2V (Yˆh ) h1
分层随机抽样, 则Yˆh的简单估计为yh
1.Y的无偏简单估计Yˆst为:yst L WhYˆh L Wh yh ,Yˆst记为yst
h1
h1
Y 的置信度为1 的置信区间为:
yst
u1 s( yst ), 2
yst
解: yst W1 y1 W2 y2
23560 15180 148420 9856 10585.39
171980
171980
3、分层随机抽样中,总体比例P的简单估计 设Ph的简单估计为ph,则
L
Wh 2
h1
•1 fh nh
Sh2
L
Wh 2
h1
•1 fh nh
•
Nh Nh 1
PhQh
解:
y1 39.5
各层样本均值及方差为:y2 105 y3 165
y4 24
s12 1624.722 s22 2166.667 s32 8205.556 s42 193.333
L
(1)Yˆ Nh yh h 1
200 39.5 400 105 750 165 1500 24
u1 2
s
(
y
st
)
2.总体总和Y的估计:
Yˆ
L
Yˆh
L
NhYˆh L
Nh yh
h1
h1
h1
方差V(Yˆ)
L
V(Yˆh)
h1
L h1
N h 2V(yh)
L h1
Nh2
1 fh nh
Sh2
例4.2:调查某地区的居民奶制品年消费支出,以居民户为抽样单元, 根据经济及收入水平将居民户分为4层,每层按简单随机抽样抽 取10户,调查数据如下,估计该地区居民奶制品年消费总支出 及估计的标准差。表:样本户奶制品年消费支出
4627
42
45岁以上
5366
50
总计
35050
320
试估计总体中会计算机者占的比例。
样本中会使 用计算机的
人数
24 12
22
11
4
解:
5
(1) pst Wh ph 0.2286
h1
(2)v( pst )
5
Wh2 (1
h1
fh)
ph (1 ph ) nh 1
0.000534
(3)P置信度为95%的置信区间为:
10
层 居民
户总 数
1
样本户奶制品年消费支出 23456789
1 200 10 40 0 110 15 10 40 80 90 0 2 400 50 130 60 80 100 55 160 85 160 170 3 750 180 260 110 0 140 60 200 180 300 220 4 1500 50 35 15 0 20 30 25 10 30 25
Ph
Qh
(当N
很大时)
h
(4)P的置信度为1 的置信区间为:
pst
u 1
s
(
pst
),
2
pst
u 1
2
s(
pst
)
例:在某行业技术人员中,按年龄分层,调查会使用计算机者所占 的比例。数据如下:
层
人数
入样人数
30岁以下
7781
71
30~35岁
7497
68
36~40岁
9779
89
41~45岁
pst
u1 2
v(
pst
),
pst
u 1
2
18.33%,27.39%
v( pst )
4.3 各层样本量的分配
在分层随机抽样中,假设样本量n固定
Yˆ的方差:
V ( yst )
L
Wh 2
h1
•1 fh nh
Sh2
L Wh2Sh2 L WhSh2
n h1
h
h1 N
考虑简单线性费用函数,则总费用为:
L
Wh 2
h1
•1 fh nh
PhQh
(当N
很大时)
h
估计的性质
(1) pst的性质:
L
P的简单估计为pst Wh ph h1
且是pst的无偏估计。
(2)
L
pst的方差V(pst) Wh2V(ph) h 1
L
Wh 2
h 1
•1 fh nh
•
Nh Nh
1
PhQh
L
Wh 2
h 1
•1 fh nh
例4.3:某市进行家庭收入调查,分城镇居民及农村居 民两部分抽样,在全部城镇居民23560户中随机抽取 300户,在全部农村居民148420户中随机抽取250户, 调查结果是城镇年平均户收入为15180元,标准差为 2972元;农村年平均户收入为9856元,标准差为 2546元。求全市年平均户收入的置信度为90%的置信 区间。
sh2
1 nh 1
nh
(yhi
i 1
yh)2
一、分层抽样中
若对任一层,假设为第h层,都有Yˆh NYˆh,
L
Y Yh
h1
(1)Yˆ L Yˆh L NhYˆh
h1
h1
方差V(Yˆ)
L
V(Yˆh)
L
N h 2V(Yˆh)
h1
h1
L
(2)Yˆst
Yˆh
h1
N
L h1
Nh N
Yˆh