抽样调查-第9章二重抽样

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2 x
2RS yx
)
式中，S
2 y
,
S
2 x
,
S
yx分别为Y和X的总体方差和总体
协方差， R Y X
性质6 二重抽样比率估计方差的样本估计：
v(
y RD
)
1 n
s
2 y
(1 n
1
)(
R2
n
sx2
2
R
s yx
)
第十八页，共34页。
【例9.2】某住宅小区共有200个住户，现估计小区住户家庭月平均收入的平均水平。家庭收入的数据不易调查，而家庭支出的资料相对容易获取，而且家庭月平均收入与家庭月平均支出之间强相关，因此拟采用二重抽样比率估计方法。先从住户中随机抽取100 个住户作为第一重样本，调查家庭月平均支出，结果家庭月平均支出的样本均值为1500元，然后从这100 个住户中随机抽选 10户作为第二重样本，调查家庭月平均收入和家庭月平均支出，资料见下表。试估计该小区家庭月平均收入，并计算估计量标准差。
L
CT c1n c2hnh
h1
由于 nh是随机变量，所以选择 n和 fhD的期望费用 CT为：
L
CT E(CT ) c1n n c2h f W hD h
h1
而总体均值估计量的方差为：
V
(
y stD
)
(1 n
1 N
)S 2
L Wh Sh2 h1 n
(
1 f hD
1)
第十二页，共34页。
第二十页，共34页。
解：由题知 x 1500，从上表计算得
y 2400, x 1570, R 1.5287
s
2 y
1613333, sx2
371222.2, sxy
747777.8
该小区住户的平均家庭月收入估计为：
y RD
y x
x
1.5287 1500
2293
y RD 的方差估计为：
n
f
第二十三页，共34页。
f
c1
(
S
2 y
R
2
S
2 x
2RS yx )
c2 (2RS yx
R
2
S
2 x
)
n CT c1 c2 f
第二十四页，共34页。
§9.4 为回归估计的二重抽样
一、二重抽样回归估计的抽样方法
第一步：从总体的N个单元中随机抽取第一重样本，样
本单元数为 n；对于第一重样本，仅观测辅助变量信息
L
n nh
h1
第五页，共34页。
三、估计量及其性质（一）均值估计量
采用二重分层抽样，对总体均值 Y的估计量为：
L
y stD wh yh
h1
（二）均值估计量 ystD 的性质
性质1 估计量 y stD是 Y的无偏估计。即 E( y stD ) Y
因为
E(yh)
y
h
L
所以有 E( ystD ) E1[E2 ( ystD )] E1[E2 ( wh yh )]
V ( y RD ) V1[E2 ( y RD )] E1[V2 ( y RD )]
V1[
y
]
E1[(
x
)2
V2
(
R)]
(1 n
1 N
)
S
2 y
(1 n
1 )(S n
2 y
R
2
S
2 x
2RS yx
)
第十七页，共34页。
通常 1 可忽略，因此
N
V
(
y
RD
)
1 n
S
2 y
(1 n
1 )(R n
2
S
h1
得有关数据如下表，试估计该银行所有客户的资产总额
及其抽样标准误差。
第八页，共34页。
分层
300万元以下 300～1000 1000～2000 2000万元以上合计
第一重样本
540 320 100 40 1000
第二重样本
80 60 40 20 200
样本均值
yh
2 7 15 40
y2 ij j
h1
L
E1 (
wh
yh
)
E1 (
y
h
)
Y
h1
第六页，共34页。
性质2 y stD 的方差为：
V
(
y stD
)
(1 n
1 N
)S 2
L Wh Sh2 h1 n
(
1 f hD
1)
式中， S 2为总体方差； Sh2为第h层的总体方差； fhD 为第二重样本第h层的抽样比。
性质3 y stD的样本估计量为：
第二页，共34页。
§9.2 为分层的二重抽样
分层抽样是一种应用广泛的抽样方程，但进行分层抽样有一个前提，即需要将总体N个单元划分为L个互不重
叠的层，而且需要知道各层的权重。如果事先无法知道总体的层权，可以采用二重抽样方法。
一、符号说明
用下标h表示层数， h 1,2,, L
L
总体第h层的单元数: Nh
L
v( ystD )
h1
(1 nh
1 nh
)wh 2sh2
(1 n
1 N
L
)
h1
wh ( yh
y stD
)2
式中，v( y stD )为V ( y stD )的近似无偏估计； s为h2 第二重样
本第h层方差。
第七页，共34页。
【例9.1】某银行要调查其客户的资产情况，已知该银
行的客户数为8000，针对客户规模差异较大的特点，拟采用分层抽样。但由于缺乏现有的分层资料，决定采用
x
二、二重抽样的比率估计及其性质
二重抽样对总体均值 Y的比率估计：
第十五页，共34页。
y RD
y x
x
式中， y, x 分别为第二重样本目标变量与辅助变量
的样本平均数； x为第一重样本辅助变量的平均数。
性质4 与简单随机抽样下的比例估计一样，y RD是个有
偏估计，其偏倚随着样本量的增加而缩小。当第二重
要在一定的费用约束下使估计方差最小化，则有
L
L V ( ystD ) (CT c1n n c2h f W hD h )
h1
( 1 1 )S 2
L
Wh
S
2 h
(
1
1)
n N
h1 n fhD
L
(CT c1n n c2h f W hD h )
h1
由 L 0及 L 0得
n
f hD
第十九页，共34页。
某小区住户家庭收支的样本数据
样本住户家庭月平均支出家庭月平均收入
1
1 500
2
1 200
3
2 000
4
1 800
5
1 300
6
3 000
7
800
8
1 400
9
1 600
10
1 100
2 000 1 800 2 800 2 500 1 900 5 800 1 300 2 000 2 300 1 600
三、二重抽样比率估计时样本量的最优分配
问题：在给定的费用条件下，选择第一重样本量 n 和第二重样本量 nf，（其中 f为抽样比），使得估计量的方差 V ( y RD )最小。费用函数： CT c1n c2n c1n c2nf
其中， c1为第一重抽样的单元平均调查费用； c2 为第二重抽样的单元平均调查费用。
二重分层抽样方法。第一重样本量 =1000，根据其自
报的资产情况可分为4层：第一层为300万n元以下；第二
层为300万元～1000万元；第三层为1000万元～件2000万
元；第四层为2000万元以上。然后在第一重样本分层的
基础上，在各层分别抽取第二重样本。第二重样本量为
4
n nh 200 ，对这200个客户进行详细的调查，取
二重抽样对总体均值 Y 的回归估计： ylrD y b(x x)
nh
( yhj
j 1
yh )2
二、抽样方法
第一步：利用简单随机抽样，从总体的N个单元中随机
抽取第一重样本，样本单元数为 n；根据已知的分层标志w将h是第总一体重层样权本W分h层的，无令偏估w计h 。nnh , (h 1,2,, L)，则
第二步：利用分层随机抽样，从第一重样本中抽取出
第二重样本，样本单元数为n ，第h层样本单元数为 nh
量的误差；同样，第二重抽样 n越大，估计量的方差越
小。调查的经费是有限的，因此，需要在给定费用的条
件下，选择 n和 n，使得估计量的方差 V ( ystD最) 小。
第十一页，共34页。
假设第一重抽样的单元平均调查费用为 c1，第二重
抽样第 h
层的单元平均费用为
c2
。忽略其他费用，则
h
费用函数可以表示为：
第一步从总体的N个单元中随机抽取第一重样本，样
本单元数为 n；对于第一重样本，仅观测辅助变量信息，
用辅助变量的样本均值
x
1 n
n i 1
xi估计总体均值
X。
第二步从第一重样本中随机抽取出第二重样本，样
本单元数为 n ；对于第x二重样本，观测目标变量与辅助
变量，并用获得的 y和
，计算
R
y ，构造比率估计。
h1
(1 nh
1 nh
)wh 2sh2
(1 80
1 )(0.54)2 (1.01) 540
( 1 1 )(0.04)2 (690.53) 0.036822
20 40
(1 n
1 N
L
)
h1
wh
(yh
y stD )2
0.055239
第十页，共34页。
因此，v( ystD ) 0.036822 0.055239 0.092061
h1
6.42 （百万元）
第九页，共34页。
该银行共有8000个客户，故全部客户资产总额为：
Y N ystD 8000 6.42 51360 （百万元）
y stD 的方差估计为：
L
v( ystD )
h1
(1 nh
1 nh
)wh 2sh2
(1 n
1 N
L
)
h1
wh
(
yh
y stD
)2
L
xi ，用辅助变量的样本均值均值 X .
x
1 n
n
i 1
xi
估计其总体
第二步：从第一重样本中随机抽取出第二重样本，样本
单元数为 n；对于第二重样本，观测目标变量 y与i 辅助变量 xi ，并计算 y, x 和回归系数 b，构造回归估计。
第二十五页，共34页。
二、二重抽样的回归估计及其性质
（一）二重抽样的回归估计
抽样调查-第9章二重抽样
第一页，共34页。
2。两阶段抽样的第二阶段抽样单元与第一阶段抽样
单元往往是不同的。而二重抽样的第二重样本往往是第一重样本的子样本。
三、二重抽样的作用
（一）有利于筛选主调查对象
（二）节约调查费用
（三）提高抽样效率（四）可用于研究样本轮换中的某些问题（五）降低无回答偏倚
400 3100 9600 45120
sj
2
1.01 2.71 15.38 690.53
解根据上表可计算各层的权重：
w1
540 1000
0.54, w2
0.32, w3
0.10, w4
0.04
该银行客户的平均资产额估计为：
L
ystD wh yh 0.54 2 0.32 7 0.1015 0.04 40
fhD 1
第二重样本第h层j单元的观测值： yhj
j 1,2,, nh;h 1,2,, L
第二重样本第h层样本单元的平均数： yh 总体方差：S 2 ,第h层的总体方差： Sh2
第四页，共34页。
第一重样本第h层方差： sh 2
第二重样本第h层方差： sh2
1 nh 1
样本的样本量
足够大时，y RD
y x
x是近似无偏的。即
E( y RD ) Y
证明：记
R
y , R x
y x
,
足够大时有
因为当第二重样本量n
第十六页，共34页。
E(
y
RD
)
E1[ E2
(
y
RD
)]
E1[
xE2
(R)]
E1( y) Y
因此，y RD 是 Y 的近似无偏估计。
性质5 二重抽样比率估计的方差为：
fhD Sh
c1
L
c2h (S 2
Wh
S
2 h
)
h1
第十三页，共34页。
n
CT
L
c1 c2hWh fhD
h1
在实际应用中，要确定最优的 n和 fhD，需要对
总体事先有一定的了解，例如对
S
2
,
S
2 h
,Wh
有一些
粗略的估计。
第十四页，共34页。
§9.3 为比率估计的二重抽样
一、二重抽样比率估计的抽样方法
v(
y
RD
)
1 n
s
2 y
(1 n
1
)(
R2
n
s
2 x
2
R
s yx
)
1613333 ( 1 1 )(1.52872 371222.2 10 10 100
21.5287 747777.8 33646.89
第二十一页，共34页。
y RD 的标准差的估计为： s( y RD ) v( y RD ) 183.43
第二十二页，共34页。
求最优值：
因总体均值估计量的方差为
V
(
y RD
)
1 n
S
2 y
(1 n
1 )( n
R
2
S
2 x
2RS yx
)
L V ( y RD ) (CT c1n c2nf )
1 n
S
2 y
(1 n
1 )(R n
2
S
2 x
2 RS yx
)
(CT
c1n
c2nf
)
由 L 0及 L 0得
总体单元数：N Nh
h1
第一重样本第h层的单元数: nh
L
第一重样本单元数： n nh
h1
第三页，共34页。
第二重样本第h层的单元数： nh
L
第二重样本单元数：n nh
h1
总体单元第h层的权重：
Wh
Nh N
第一重样本第h层的权重：
wh
nh n
第二重样本第h层的抽样比：
f hD
nh ,0 nh
该银行客户资产总额的抽样标准误的估计：
s(Y ) Ns( ystD ) N v( ystD ) 2427.32 （百万元）
四、二重分层抽样样本量的最优分配二重分层抽样中有两次抽样，这两次抽样的样本量
即n和 n ，直接影响估计的精度。第一重抽样 n越大，

抽样调查-第9章 二重抽样

抽样调查-第9章二重抽样