第四章分层随机抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
209650
(2)Yˆ的方差V (Yˆ)的估计:
v(Yˆ )
v(Nyst )
L h 1
Nh2
•
1
f nh
h
sh
2
5.39 108
s(Yˆ) v(Yˆ) 23208
(3)该地区居民奶制品年消费总支出的置信度为95%的置信区间为
Yˆ
u1 2
s(Yˆ ), Yˆ
u1 2
s(Yˆ )
164162,255138
Wh S h
h1
在Neyman分配下,Yˆ的方差达到最小值Vm(in yst):
Vm(in yst)
1( n
h
Wh
S
)2
h
1 N
Wh 2 S h 2
h
例.在例4.3中,样本量仍为n=550。
城镇居民23560户,农村居民148420户。
城镇居民与农村居民的年收入的标准差分别为 S1=3000元,S2=2500元。 对城镇居民与农村居民抽样平均每户的费用比 为1:2,
(1)精度要求:V(yst)的上限为V时
L
n
Wh 2 Sh 2 / wh
h 1
V
1 N
L
Wh Sh 2
h 1
其中wh
nh n
证明: 精度要求为:V(yst)的上限为V时
解:
y1 39.5
各层样本均值及方差为:y2 105 y3 165
y4 24
s12 1624.722 s22 2166.667 s32 8205.556 s42 193.333
L
(1)Yˆ Nh yh h 1
200 39.5 400 105 750 165 1500 24
4.1.2分层抽样的适用场合: (1)不仅需要估计总体参数,也需要估计各层
参数。 (2)便于管理,按现成的地理分布或行政划分
来分层。 (3)希望样本中能包含各个部分,以增加代表
性。 (4)把一个内部差异很大的总体分成几个内部
比较相似的子总体(层)进行分层抽样,可以 提高估计量的精度。如果有极端值,也可以把 它们分离出来形成一层。
h1 N
对给定的n
,估计量的方差为
h
V
L h1
Wh
2
1
f nh
h
Sh2
L h1
Wh
2
(
1 nh
1 Nh
)
Sh
2
L Wh2Sh2 L WhSh2
n h1
h
h1 N
(
L h1
WhSh nh
2 L
)(
h 1
2
Chnh )
在最优分配中,Yˆ的方差达到最小值Vmin ( yst ):
10
层 居民
户总 数
1
样本户奶制品年消费支出 23456789
1 200 10 40 0 110 15 10 40 80 90 0 2 400 50 130 60 80 100 55 160 85 160 170 3 750 180 260 110 0 140 60 200 180 300 220 4 1500 50 35 15 0 20 30 25 10 30 25
L
C c0 chnh h1
1.比例分配:指按各层层权(各层单元数占总体单元数的比例)进行
分配。
nh n
Nh N
Wh
fh
nh Nh
n N
f
L
则:y prop Wh yh
h1
L h1
Nh N
•1 nh
nh i 1
yhi
L h1
nh n
•1 nh
nh i 1
yhi
1 n
L h1
nh i 1
Vmin ( yst )
L Wh2Sh2
n h1
h
L Wh2Sh2 h1 N
L
( WhSh
h1
L
ch )( WhSh / h1
n
ch )
L
Wh Sh2
h1 N
特例:Neyman分配:
指每层抽取一个单元费用相同(ch c, h 1,, L)时的最优分配。
nh
n
Wh S h
L
, h 1,2,, L
第四章 分层随机抽样
4.1 概述
4.1.1分层抽样(stratified sampling)、分层随机抽样(stratified random sampling):
分层抽样:将容量为N的总体分成L个不相重叠的子总体,子总体的
大小分别为N1、 N2、… NL,皆已知,且 L
Nh N
h 1
每个子总体就称为层。从每层中独立地进行抽样,这样的抽样方 法称为分层抽样。 分层随机抽样:在分层抽样中,如果每层中的抽样都是简单随机抽 样,则这样的分层抽样称为分层随机抽样。
例4.3:某市进行家庭收入调查,分城镇居民及农村居 民两部分抽样,在全部城镇居民23560户中随机抽取 300户,在全部农村居民148420户中随机抽取250户, 调查结果是城镇年平均户收入为15180元,标准差为 2972元;农村年平均户收入为9856元,标准差为 2546元。求全市年平均户收入的置信度为90%的置信 区间。
每个县的户数 Nh
48107 12419 6875 N=67401
每个县被抽出 的户数nh
1071 276 153
n=1500
每个县的样本收 视率 ph
0.27 0.18 0.17
求该地区新闻收视率的95%的置信区间。
解:分层随机抽样时,收视率P的估计为:
3
pst Wh ph 0.243 h 1
L WhYˆh
h1
方差V(Yˆst) L Wh2V (Yˆh ) h1
分层随机抽样, 则Yˆh的简单估计为yh
1.Y的无偏简单估计Yˆst为:yst L WhYˆh L Wh yh ,Yˆst记为yst
h1
h1
Y 的置信度为1 的置信区间为:
yst
u1 s( yst ), 2
yst
2166.667 6.5330
W3s3
750 2850
8205.556 23.8380
1500 W4s4 2850 193.333 7.3181
L
Whsh 40.51775 h 1
n1 n
W1s1
L
Wh sh
40 2.8286 2.79 40.51775
h1
n2 n
W2 s2
4627
42
45岁以上
5366
50
总计
35050
320
试估计总体中会计算机者占的比例。
样本中会使 用计算机的
人数
24 12
22
11
4
解:
5
(1) pst Wh ph 0.2286
h1
(2)v( pst )
5
Wh2 (1
h1
fh)
ph (1 ph ) nh 1
0.000534
(3)P置信度为95%的置信区间为:
u1 2
s
(
y
st
)
2.总体总和Y的估计:
Yˆ
L
Yˆh
L
NhYˆh L
Nh yh
h1
h1
h1
方差V(Yˆ)
L
V(Yˆh)
h1
L h1
N h 2V(yh)
L h1
Nh2
1 fh nh
Sh2
例4.2:调查某地区的居民奶制品年消费支出,以居民户为抽样单元, 根据经济及收入水平将居民户分为4层,每层按简单随机抽样抽 取10户,调查数据如下,估计该地区居民奶制品年消费总支出 及估计的标准差。表:样本户奶制品年消费支出
采用分层随机抽样抽取样本200户,求按比例分配时各层样本量。
例. 某电视台要在某地区的住户中,调查该台的晚间新闻 的收视率。该地区包括3个县,共有67401家住户。假定 该电视台采用分层随机抽样分别从三个县抽取住户, 样本量为1500。每个县的总户数以及抽样数据列表如 下:
县 h
1 2 3 合计
n h1
h
h1 N
考虑简单线性费用函数,则总费用为:
L
CT c0 chnh h1
在最优分配中,Yˆ的方差达到最小值Vmin ( yst ):
Vmin ( yst )
L Wh2Sh2
n h1
h
L Wh2Sh2 h1 N
L
( WhSh
h1
L
ch )( WhSh / h1
n
ch )
L
Wh 2 S h 2
பைடு நூலகம்
yhi
y
1 f
n
l
Wh S h2
h1
1 n
f
l
S
2 w
,
其中S
2 w
Wh S h2为各层方差按层权的加权平均。
h1
例:假设某公司欲估计某类产品的用户的每年平均支出。企划人员 拟就整个潜在用户的名单,共8000户。
层
每层中的潜在用户
少用 中等 多用 总和
2000 4000 2000 N=8000
L
6.45, n3 n
W3 s3
L
23.53
Wh sh
Wh sh
h 1
h 1
n4 n
W4 s4
L
7.23
Wh sh
h 1
各层样本量为3、6、24、7。
4.4 样本总量的确定
1.在分层随机抽样中,影响样本总量n的因素: (1)只讨论对总体参数的精度要求; (2)样本量的分配形式。 2.在估计总体均值时,若精度要求给定,样本总量n的确定公式:
试求城镇与农村两层比例分配与最优分配的 样本量。
又若不考虑费用因素,那么最优分配的结果 如何?
例3.2:调查某地区的居民奶制品年消费支出,以居民户为抽样单元, 根据经济及收入水平将居民户分为4层,每层按简单随机抽样抽 取10户,调查数据如下,估计该地区居民奶制品年消费总支出 及估计的标准差。表:样本户奶制品年消费支出
3
3
sw2 Whsh2 Wh phqh
h 1
h 1
48107 0.27 0.73 12419 0.18 0.82 6875 0.17 0.83
67401
67401
67401
0.182
s( pst )
v( pst )
1 f n
sw2
1 1500 67401 0.182 0.011 1500
L
Wh 2
h1
•1 fh nh
PhQh
(当N
很大时)
h
估计的性质
(1) pst的性质:
L
P的简单估计为pst Wh ph h1
且是pst的无偏估计。
(2)
L
pst的方差V(pst) Wh2V(ph) h 1
L
Wh 2
h 1
•1 fh nh
•
Nh Nh
1
PhQh
L
Wh 2
h 1
•1 fh nh
即“层间方差大,层内方差小”。
4.2 简单估计量及其性质
对总体均值或总值的估计:
设总体分为L层,以h表示层的编号,h 1,2,,L
总体第h层
Nh
Yh Yhi
i 1
1 Nh
Yh
Nh
Yhi
i 1
S
2 h
1 Nh 1
Nh
(Yhi
i 1
Yh)2
第h层样本
nh
yh yhi
i 1
1 nh
yh nh i1 yhi
解: yst W1 y1 W2 y2
23560 15180 148420 9856 10585.39
171980
171980
3、分层随机抽样中,总体比例P的简单估计 设Ph的简单估计为ph,则
L
Wh 2
h1
•1 fh nh
Sh2
L
Wh 2
h1
•1 fh nh
•
Nh Nh 1
PhQh
pst
u1 2
v(
pst
),
pst
u 1
2
18.33%,27.39%
v( pst )
4.3 各层样本量的分配
在分层随机抽样中,假设样本量n固定
Yˆ的方差:
V ( yst )
L
Wh 2
h1
•1 fh nh
Sh2
L Wh2Sh2 L WhSh2
n h1
h
h1 N
考虑简单线性费用函数,则总费用为:
sh2
1 nh 1
nh
(yhi
i 1
yh)2
一、分层抽样中
若对任一层,假设为第h层,都有Yˆh NYˆh,
L
Y Yh
h1
(1)Yˆ L Yˆh L NhYˆh
h1
h1
方差V(Yˆ)
L
V(Yˆh)
L
N h 2V(Yˆh)
h1
h1
L
(2)Yˆst
Yˆh
h1
N
L h1
Nh N
Yˆh
10
层 居民
户总 数
1
样本户奶制品年消费支出 23456789
1 200 10 40 0 110 15 10 40 80 90 0 2 400 50 130 60 80 100 55 160 85 160 170 3 750 180 260 110 0 140 60 200 180 300 220 4 1500 50 35 15 0 20 30 25 10 30 25
解:按比例分配时,n1 W1n 0.07018 40 2.81 n2 W2n 5.61 n3 W3n 10.53 n4 W4n 21.05 各层样本量分别为3、6、10、21。
W1s1
对于Neyman分配,
200 2850
1624.722 2.8286
W2 s2
400 2850
Ph
Qh
(当N
很大时)
h
(4)P的置信度为1 的置信区间为:
pst
u 1
s
(
pst
),
2
pst
u 1
2
s(
pst
)
例:在某行业技术人员中,按年龄分层,调查会使用计算机者所占 的比例。数据如下:
层
人数
入样人数
30岁以下
7781
71
30~35岁
7497
68
36~40岁
9779
89
41~45岁
收视率P的置信度为95%的近似置信区间为:
pst 1 s( pst ) 0.243 1.96 0.011 2
即0.221,0.265
即有95%的把握可以认为,该地区的新闻收视率在22.1%~26.5%之间。
2.最优分配: Yˆ的方差:
V
( yst )
L
Wh 2
h1
•
1
f nh
h
S
h
2
L Wh2Sh2 L WhSh2