分层随机抽样
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
解:根据题目中已给出的已知条件,将去年总产量作为辅助变量X,计算整 理得:
层
x (h) Nh nh X h yh
h
Rˆh
rh sy2h
s
2 xh
平原 120 6 (1)
24500 202.5 193 1.049 0.9908 6757.5 5132
山区 180 9 (2)
21200 121.1 114.1 1.061 0.9881 2242.36 1788.11
二、分层抽样的适用场合 不仅需要估计总体参数,也需要估计各层参数。 便于管理,按现成的地理分布或行政划分来分层。 希望样本中能包含各个部分,以增加代表性。 把一个内部差异很大的总体分成几个内部比较相似的
子总体(层)进行分层抽样,可以提高估计量的精度。 如果有极端值,也可以把它们分离出来形成一层。即 “层间方差大,层内方差小”。
平原
样本 1 2 3 4 5 6
去年产量/百斤 当年产量/百斤
204
210
143
160
82
75
256
280
275
300
198
190
样本
1 2 3 4 5 6 7 8 9
山区
去年产量/百斤 137 189 119 63 103 107 159 63 87
当年产量/百斤 150 200 125 60 110 100 180 75 90
2972元;农村年平均户收入为9856元,标准差为
2546元。求全市年平均户收入的置信度为90%的置信
区间。
解: yst W1 y1 W2 y 2
23560 15180 148420 9856 10585.39
171980
ቤተ መጻሕፍቲ ባይዱ
171980
s( yst )
v( yst )
L
Wh yRh
L
Wh Rˆh X h
h 1
h 1
h 1
方差V(Yˆst)
L Wh2V (Yˆh )
L
Wh2V ( yRh )
h 1
h 1
Nh
L
Wh 2
h 1
1 fh nh
i 1
(Yhi Rh X hi )2 Nh 1
L
Wh 2
h 1
1 fh nh
pst z
Vˆ ( pst ), pst z
2
2
18.33%,27.39%
Vˆ
(
pst
)
3.3 比率估计量及其性质
在大样本时,
1. 分别比估计:若 各层的样本量比较大时,各层可分别进行比估
计,再进行加权平均,所得估计量称为分别比估计。
Yˆst
L WhYˆh
v(pst )
L h1
Wh 2
1 fh nh 1
p
hq
h
且为V(ps)t 的无偏估计。
(4) P的置信度为1 的置信区间为:
pst z s( pst ), pst z s( pst )
2
2
4
L
L
Aˆst NhPˆh Nh ph
h1
Wh 2
1
f nh
h
sh
2
例3.2 调查某地区的居民奶制品年消费支出,以居民 户为抽样单元,根据经济及收入水平将居民户分为4 层,每层按简单随机抽样抽取10户,调查数据如下, 估计该地区居民奶制品年消费总支出及估计的标准差。
样本户奶制品年消费支出
层 居民
户总 数
1
样本户奶制品年消费支出 2345678
1000
1000
对比: y 1200 1600 220 360 513 10
一、分层抽样中,
若对任一层,假设为第h层,都有Y h Nh Y h ,
L
Y Yh h1
(1)Yˆst
L
Yˆh
L
N hYˆh
h 1
h 1
方差V(Yˆst)
2 yh
2RSxyh
R
2
S
2 xh
)
3.各层分别比估计量与联合比估 计量的比较
• 从偏倚的角度看,各层分别比估计量 YˆRS
的偏倚较大,从方差的角度看,除了各 层比率 Rh均相等时, 外, V (YˆRS ) V (YˆRC ) 一般只要各层的样本量均较大时,各层 比估计更加有效,即有:
L
V(Yˆh)
L
N h 2V(Yˆh)
h 1
h 1
L
(2)Yˆ st
Yˆ h
h1
N
L Nh h1 N
Yˆ h
L
WhYˆ h
h1
L
方差V(Yˆ s)t Wh2V(Yˆ h ) h1
^
分层随机抽样,则Yh 的简单估计为yh
^
L
^
L
^
1.Y的无偏简单估计Yst 为:yst Wh Yh Wh yh , Yst 记为yst
L
Nh N
i1 L
nh n
i1
Nh / N Wh层权
总体第h层有Nh个总体单元:Yh1,,Yhi,,YhNh 第h层样本有n h 个样本单元:y h1,,y hi,,y hnh
总体第h层
Nh
Yh Yhi
i1
1 Nh
Yh Nh i1 Yhi
Sh2
解:
y1 39.5
各层样本均值及方差为:y2 105 y3 165
y4 24
s12 1624.722
s
2 2
2166.667
s
2 3
8205.556
s42 193.333
L
(1)Yˆst Nh yh h1
200 39.5 400105 750165 1500 24
得数据(单位:元)1200及1600;从第二层随机抽取8人,
调查上月收入,得数据(单位:元)220、230、180、
320、400、340、280、360。估计这1000人上月平均收入。
解:
Yˆ
Yˆ 1 Yˆ 2 N
N1 y1
N2y2 N
W1 y1
W2 y 2
20 1400 980 291.25 313.43
第三章 分层随机抽样
3.1 定义与符号
一、分层抽样(stratified sampling)、分层随机抽样 (stratified random sampling)
分层抽样:将容量为N的总体分成L个不相重叠的子总 体,子总体的大小分别为N1、 N2、… NL,皆已知,且
L
Nh N
i1
则每个子总体就称为层。从每层中独立地进行抽样, 这样的抽样方法称为分层抽样。 分层随机抽样:在分层抽样中,如果每层中的抽样都 是简单随机抽样,则这样的分层抽样称为分层随机抽 样。
1 Nh 1
Nh
(Yhi
i1
Yh)2
第h层样本
nh
yh yhi
i1
1 nh
yh
nh
y hi
i1
sh2
1 nh 1
nh
(y hi
i1
y
)2
h
例3.1 总体由1000人组成,按以往的收入情况将总体分成
两层:第一层(高收入层),20人;第二层(低收入
层),980人。从第一层随机抽取2人,调查上月收入,
2
2
2.总体总和Y的估计:
L
L
^L
Yˆst Yˆh Nh Y h Nh yh
h1
h1
h1
方差V(Yˆst)
L
V(Yˆh)
h1
L h1
Nh2V(yh)
L h1
Nh2
1 fh nh
Sh2
^
Y的方差V(yst )的无偏估计:
v(yst )
L h1
9 10
1 200 10 40 0 110 15 10 40 80 90 0 2 400 50 130 60 80 100 55 160 85 160 170 3 750 180 260 110 0 140 60 200 180 300 220 4 1500 50 35 15 0 20 30 25 10 30 25
209650
(2)Yˆst的方差V (Yˆst )的估计:
v(Yˆst )
v(N
y st )
L h1
Nh2
1
f nh
h
sh
2
5.39 108
s(Yˆst ) v(Yˆst ) 23208
(3)该地区居民奶制品年消费总支出的置信度为95%的 置信区间为
Yˆst
三、进行分层抽样时,应注意的方面 层内抽样设计的选择。 分层变量的选择。 各层样本量的分配,样本总量的确定。 层数。 层的分界。
3.2 简单估计量及其性质
对总体均值或总值的估计:
设总体分为L层,以h表示层的编号,h 1,2,,L
总体(N) N1,,NL 样本(n) n1,,nL
(
S
2 yh
2Rh S xyh
Rh
2
S
2 xh
)
2. 联合比估计:若 某些层的样本量比较小时,可以采用联合比估计。
先按分层随机抽样公式估计Y和X ,然后用它
们构造比估计,所得估计量称为联合比估计。
yRc
Rˆc X
yst xst
X
方差V(yRc)
L
Wh 2
h1
1 fh nh
(S
2 h1
Wh2
1
f nh
h
sh2
142.34
全市年平均户收入的置信度为90%的置信区间为:
10585.39 1.645142.34,即10351.24,10819.54
3、分层随机抽样中,总体比例P的简单估计
设Ph的简单估计为ph,则
L
L
P的简单估计为pst WhPˆh Whph , Pˆ 记为p.
h1
L
L
Aˆst的方差V(Aˆst) Nh2V(Pˆh) Nh2V(ph)
h1
h1
例3.4:在某行业技术人员中,按年龄分层,调查会使用 计算机者所占的比例。数据如下:
层 30岁以下 30-35岁
人数 7781 7497
入样人数 71 68
样本中会使用 计算机的人数
24
12
36-40岁
z
s(Yˆst ),Yˆst
z
s(Yˆst
)
164162,255138
2
2
例3.3:某市进行家庭收入调查,分城镇居民及农村居
民两部分抽样,在全部城镇居民23560户中随机抽取
300户,在全部农村居民148420户中随机抽取250户,
调查结果是城镇年平均户收入为15180元,标准差为
9779
89
22
41-45岁
4627
42
11
45岁以上
5366
50
4
总计
35050
320
试估计总体中会计算机者占的比例。
解:
5
(1)pst Whph 0.2286 h1
(2)v(pst )
5 h1
Wh2 (1
fh
)
ph (1 nh
ph 1
)
0.000534
(3)P置信度为95%的置信区间为:
量总的特征而非各层特征故显得便宜),则
应优先采用联合比估计,这在直观上也是比
较容易理解的。
比率估计量运用举例
• 例:某县欲调查某种农作物的产量,由于平原和山区 的产量有差别,故拟划分为平原和山区两层采用分层 抽样。同时当年产量和去年产量之间有相关关系,故 还计划采用比估计方法。已知平原共有120个村,去 年总产量为24500(百斤),山区共有180个村,去年 总产出为21200(百斤)。现从平原用简单随机抽样 抽取6个村,从山区抽取9个村,两年的产量资料列在 下表中。试用分别比估计与联合比估计分别估计当年 的总产量,给出估计量的标准误,并对上面的两种结 果进行比较和分析。
•
V (YˆRC ) V (YˆRS )
• •
因用如此 联 果合 各,当比 层n估 的h 计 样均量本大量时,n用h不分大Y别ˆR,比较C或好估者。计各量层YˆR的S否比则率,R
差异较小(成本考虑 R Rh 0近似成立,联
h
合比估计并非更好,而只是与分别比估计相
当,但联合比估计本身由于只需知道辅助变
h1
h1
pst的方差V(ps)t
L h1
Wh 2 V(p h)
L h1
Wh 2
1 fh nh
Sh2
L h1
Wh 2
1 fh nh
Nh Nh
1
PhQh
L h1
Wh 2
1 fh nh
PhQh (当Nh很大时)
估计的性质
(1) pst的性质:
L
P的简单估计为pst Whph
h1
且是pst的无偏估计。
(2)
L
pst的方差V(ps)t
Wh
2
V(p
)
h
h1
L h1
Wh 2
1 fh nh
Nh Nh
1
PhQh
L h1
Wh 2
1 fh nh
PhQh (当Nh很大时)
(3) pst的方差V(pst )的估计:
h1
h1
yst的方差为V(ys) t
L h1
Wh 2 V(y h)
L h1
Wh 2
1 fh nh
Sh2
^
Y 的方差V ( yst )的估计:
v( yst )
L
Wh 2
h1
1 fh nh
sh 2
且为V(y)的无偏估计。
Y的置信度为1 的置信区间为:
y st z s( y st ), y st z s( y st )