抽样调查理论与方法 金勇进(第二版)第3章-分层随机抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 yh nh
y
i 1
nh
hi
总体方差
样本方差
2013-8-10
1 nh 2 sh y hi y h 2 nh 1 i1
6
3.2 简单估计量及其性质
3.2.1 总体均值的简单估计及其性质
分层样本,总体均值 Y 的估计
WY 1 Yst h h N h 1
的一个无
例3.1
调查某地区的居民奶制品年消费支出,以居民户为抽 样单元,根据经济及收入水平将居民户划分为4层,每 层按简单随机抽样抽取10户,调查获得如下数据(单 位:元),要估计该地区居民奶制品年消费总支出及 其置信区间。
居民户 总数
1 1 2 3 4 200 400 750 1500 10 50 180 50 2 40 130 260 35 3 0 60 110 15
y ˆ ˆ YRC st X Ny RC RC X x st
xst Wh xh
h 1
L
yst Wh yh
h 1
L
定理 3.6 对于分层随机抽样的分别比估计,若各层的 样本量 nh 都比较大,则有
E ( yRC ) Y
MSE ( yRC ) V ( yRC ) Wh2 (1 f h ) 2 2 ( S yh R 2 S xh 2 RS yxh ) nh h 1
第3章 分层随机抽样
3.1 定义与符号
一、定义
不重 不漏
在抽样之前,先将总体N个单元划分成L个互不 重复的子总体,每个子总体称为层,它们的大 小分别为 N1 , N 2 , , N L ,这个层合起来就是 N N ,然后,在每个层中分别 整个总体 独立地 进行抽样,这种抽样就是分层抽样,所 得到的样本称为分层样本。
层
样本户奶制品年消费支出
4 110 80 0 0 5 15 100 140 20 6 10 55 60 30 7 40 160 200 25 8 80 85 180 10 9 90 160 300 30 10 0 170 220 25
2013-8-10
14
N 2850
nh 10 h 1, 2,3, 4
第h层样本的样本方差。
nh 1
推论 3.1:对于分层随机抽样,总体总量 Y 的简单估计量 Y Nyst 有如下性质: (1) (2) (3) 计。
E(Yst ) Y
2 L Sh V (Yst ) Nh Nh nh nh h1 2 L sh v(Yst ) Nh Nh nh nh h1
2013-8-10
5
符号说明 (关于第h层的记号 )
层号
h 1,2, , L
单元总数
Nh
nh y hi
Wh
样本单元数
第 i 个单元的值
层权
抽样比
1 Yh Nh
Nh 2 h
y
i 1
Nh
hi
总体均值
样本均值
nh fh Nh
Nh N
2 1 S y hi Yh N h 1 i 1
h 1
L
定理 3.3:对于分层随机抽样, 的估 Y 计量 yst 具有如下性质:
E yst Y
ˆ W 2 1 fh S 2 V yst W V Yh h n h h 1 h 1 h
L L 2 h 2 2 L Wh2 S h Wh2 S h nh Nh h 1 h 1 L
分别比估计量要求每一层的样本量都比较大,如果达不 到这个要求,则它的偏差可能比较大,这时要使用联合 比估计量。
3.3.1 分别比估计
定义 3.4 总体均值 Y 和总体总量 Y 的分别比估计为:
y RS Wh y Rh yh Wh Xh xh
ˆ Ny yh X Y ˆ YRS RS h Rh xh
1 n1 2 s y1i y1 1624.722 n1 1 i 1
2 1
N 200 W1 1 0.07018 N 2850
N 400 W2 2 0.14035 N 2850
n 10 f1 1 0.05 N1 200
1 n1 y1 y1i 39.5 n1 i 1
L
根据定理3.6, 很容易推得在各层样本量nh 都比较大 的情况下,有
E (YRC ) Y
MSE (YRC ) V (YRC )
2 N h (1 f h ) 2 2 ( S yh R 2 S xh 2 RS yxh ) nh h 1 L
3.3.3 分别比估计与联合比估计的比较
L h h 1
总体中的每一个单元一定属于并且只属于某一个层, 而不可能同时属于两个层或不属于任何一个层。
2013-8-10 2
定义3.1 层:如果一个包含N个单元的总体可以分成“不重不漏” 的L个子总体,即每个单元必属于且仅属于一个子总体,则称这样 的子总体为层。即L个子总体所包含的单位数分别为 N1 , N 2 , , N L ,则有 N N N N
E (YRS ) Y
MSE (YRS ) V (YRS )
2 N h (1 f h ) 2 2 2 (S yh Rh S xh 2Rh S yxh ) nh h 1 L
3.3.2 联合比估计
定义 3.5 总体均值 Y 和总体总量 Y 的联合比估计为:
y RC y st ˆ X RC X x st
4 4 2 h 2 h
ˆ ˆ Yst Z/2 v Yst 209650 1.96 23207.6
2013-8-10 16
例3.2
在例3.1的调查中,同时调查了居民户拥有家 庭电脑的情况,获得如下数据(单位:台), 要估计该地区居民拥有家庭电脑的比例及置信 水平为95%的置信区间。
定理 3.5 对于分层随机抽样的分别比估计,若各层的 样本量 nh 都比较大,则有
E ( yRS ) Y
MSE ( yRS ) V ( yRS ) Wh2 (1 f h ) 2 2 2 (S yh Rh S xh 2Rh S yxh ) nh h 1
L
根据定理3.5, 很容易推得在各层样本量nh 都比较大 的情况下,有
17
解:由上表可得,
p1 0.2
p 2 0.2
fh
p3 0.4
p 4 0.1
根据前面对各层层权 Wh 及抽样比
v p1 1 f1 v p3 1 f3 p1q1 0.0169 n1 1 p3q3 0.0263 n3 1
的计算结果,可得各层估计量的方差:
p2 q2 0.0173 n2 1 p4 q4 0.0099 n4 1
v p2 1 f 2 v p4 1 f 4
因此,该地区居民拥有家庭电脑比例的估计为:
p st Wh p h
h 1 4
1 N
N
h 来自百度文库1
4
h
ph
1 200 0.2 400 0.2 750 0.4 1500 0.1 0.2 2850
1 2 L
定义3.2 分层抽样:又称为类型抽样或分类抽样,即在每一层中独 立进行抽样,总的样本由各层样本组成,总体参数则根据各层样本 参数的汇总做出估计,这种抽样就称为分层抽样,所得样本称为分 层样本。设总得样本量为n,从L个子总体中所抽取的样本量分别为 n1 , n2 ,, nL ,,则有, n1 n2 nL n
1 v( pst ) 2 (3) N
偏估计。
Nh
h1
L
Nh nh ph qh nh 1
是
V ( Pst )
的一个无
推论 3.3:对于分层随机抽样,总体中具有指 定特征的单元总数 A 的简单估计量 Ast 为:
L L Ast Npst N Wh ph N h ph h 1 h 1
2013-8-10
18
3.3 比率估计量及其性质
两种途径:
分别比估计:对每层样本分别考虑比估计量,然 后对各层的比估计量进行加权平均,即先“比” 后“加权”; 联合比估计:对比率的分子和分母分别加权计算 出总体均值或总体总量的分层估计量,然后用对 应的分层估计量来构造比估计,即先“加权”后 “比”。
定理 3.4:对于分层随机抽样,yst 的方 差 v yst 的无偏估计量:
1 fh 2 v yst W sh nh h 1
L 2 h 2 2 L Wh2 sh Wh2 sh nh h1 h1 N h L
1 nh 2 2 sh y hi y h nh 1 i1
y2 105
2 s2 2166.667
f2
n2 10 0.025 N 2 400
N 750 W3 3 0.26316 N 2850
n 10 f3 3 0.0133 N3 750
y3 165
y4 24
2 s3 8205.556
W4
N 4 1500 0.52632 f 4 n4 10 0.0067 N 2850 N 4 1500
2 s4 193.333
ˆ Yst N h yh
h 1
4
200 39.5 400 105 750 165 1500 24
209650
ˆ v Yst N
2
1 fh 2 W v yh N sh 5.93 108 nh h 1 h 1
定义3.3 分层随机抽样:如果每层中的抽样都是独立地按照简单随 机抽样进行的,那么这样的分层抽样称为分层随机抽样,所得的样 本称为分层随机样本。
分层随机抽样的三个必要条件
(1)每层都抽; (2)各层都独立地抽; (3)各层的抽样都是简单随机抽样。
特点:
样本在总体中分布更均匀,更具代表性。 每层的抽样都是独立进行,允许各层选择不同的抽样 方法。 分层抽样不仅能对总体指标进行估计,而且能对各层 指标进行估计。 分层抽样的抽样效率较高,也就是说分层抽样的估计 精度较高。(这是因为分层抽样估计量的方差只和层 内方差有关,和层间方差无关。)
是
V (Yst )
的一个无偏估
推论 3.2:对于分层随机抽样,总体比例 P L 的简单估计量 pst Wh ph 有如下性质:
h 1
(1) E ( pst ) P
1 L 2 Nh nh PhQh (2) V ( pst ) N 2 Nh N 1 n h1 h h
估计量的方差为:
v p st 1 N2
N v p
h 1 2 h h
4
1 2002 0.0169 4002 0.0173 7502 0.0263 15002 0.0099 0.005 2 2850
估计量的置信区间为: pst Z / 2 v pst
L
N h Yh
h 1
L
分层随机样本,总体均值 Y 的简单估计
1 y st Wh y h N h 1
L
N
h 1
L
h
yh
7
2013-8-10
Y 定理 3.1:对于分层随机抽样,st 是 Y 的无偏估计。
定理 3.2:对于分层随机抽样,有
V Yst Wh2V Yh
居民 户总 数
层
样本户拥有家庭电脑情况 1 0 0 1 1 2 0 1 1 0 3 0 0 0 0 4 1 0 0 0 5 0 0 0 0 6 0 0 0 0 7 0 0 1 0 8 1 0 0 0 9 0 1 1 0 10 0 0 0 0
1 2 3 4
200 400 750 1500
2013-8-10
具有如下性质: (1) E ( Ast ) A (2)
L 2 Nh nh P Qh h V ( Ast ) Nh Nh 1 nh h1
L Nh Nh nh v( Ast ) ph qh nh 1 h1
(3) 偏估计。
是
V ( Ast )