抽样调查-第9章 二重抽样

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2 x
2RS yx
)
式中,S
2 y
,
S
2 x
,
S
yx分别为Y和X的总体方差和总体
协方差, R Y X
性质6 二重抽样比率估计方差的样本估计:
v(
y RD
)
1 n
s
2 y
(1 n
1
)(
R2
n
sx2
2
R
s yx
)
第十八页,共34页。
【例9.2】 某住宅小区共有200个住户,现估计小区 住户家庭月平均收入的平均水平。家庭收入的数据不 易调查,而家庭支出的资料相对容易获取,而且家庭 月平均收入与家庭月平均支出之间强相关,因此拟采 用二重抽样比率估计方法。先从住户中随机抽取100 个住户作为第一重样本,调查家庭月平均支出,结果 家庭月平均支出的样本均值为1500元,然后从这100 个住户中随机抽选 10户作为第二重样本,调查家庭 月平均收入和家庭月平均支出,资料见下表。试估计 该小区家庭月平均收入,并计算估计量标准差。
L
CT c1n c2hnh
h1
由于 nh是随机变量,所以选择 n和 fhD的期望费用 CT为:
L
CT E(CT ) c1n n c2h f W hD h
h1
而总体均值估计量的方差为:
V
(
y stD
)
(1 n
1 N
)S 2
L Wh Sh2 h1 n
(
1 f hD
1)
第十二页,共34页。
第二十页,共34页。
解: 由题知 x 1500,从上表计算得
y 2400, x 1570, R 1.5287
s
2 y
1613333, sx2
371222.2, sxy
747777.8
该小区住户的平均家庭月收入估计为:
y RD
y x
x
1.5287 1500
2293
y RD 的方差估计为:
n
f
第二十三页,共34页。
f
c1
(
S
2 y
R
2
S
2 x
2RS yx )
c2 (2RS yx
R
2
S
2 x
)
n CT c1 c2 f
第二十四页,共34页。
§9.4 为回归估计的二重抽样
一、二重抽样回归估计的抽样方法
第一步: 从总体的N个单元中随机抽取第一重样本,样
本单元数为 n;对于第一重样本,仅观测辅助变量信息
L
n nh
h1
第五页,共34页。
三、估计量及其性质 (一)均值估计量
采用二重分层抽样,对总体均值 Y的估计量为:
L
y stD wh yh
h1
(二)均值估计量 ystD 的性质
性质1 估计量 y stD是 Y的无偏估计。即 E( y stD ) Y
因为
E(yh)
y
h
L
所以有 E( ystD ) E1[E2 ( ystD )] E1[E2 ( wh yh )]
V ( y RD ) V1[E2 ( y RD )] E1[V2 ( y RD )]
V1[
y
]
E1[(
x
)2
V2
(
R)]
(1 n
1 N
)
S
2 y
(1 n
1 )(S n
2 y
R
2
S
2 x
2RS yx
)
第十七页,共34页。
通常 1 可忽略,因此
N
V
(
y
RD
)
1 n
S
2 y
(1 n
1 )(R n
2
S
h1
得有关数据如下表,试估计该银行所有客户的资产总额
及其抽样标准误差。
第八页,共34页。
分层
300万元以下 300~1000 1000~2000 2000万元以上 合计
第一重 样本
540 320 100 40 1000
第二重 样本
80 60 40 20 200
样本均值
yh
2 7 15 40
y2 ij j
h1
L
E1 (
wh
yh
)
E1 (
y
h
)
Y
h1
第六页,共34页。
性质2 y stD 的方差为:
V
(
y stD
)
(1 n
1 N
)S 2
L Wh Sh2 h1 n
(
1 f hD
1)
式中, S 2为总体方差; Sh2为第h层的总体方差; fhD 为第二重样本第h层的抽样比。
性质3 y stD的样本估计量为:
第二页,共34页。
§9.2 为分层的二重抽样
分层抽样是一种应用广泛的抽样方程,但进行分层抽 样有一个前提,即需要将总体N个单元划分为L个互不重
叠的层,而且需要知道各层的权重。如果事先无法知道 总体的层权,可以采用二重抽样方法。
一、符号说明
用下标h表示层数, h 1,2,, L
L
总体第h层的单元数: Nh
L
v( ystD )
h1
(1 nh
1 nh
)wh 2sh2
(1 n
1 N
L
)
h1
wh ( yh
y stD
)2
式中,v( y stD )为V ( y stD )的近似无偏估计; s为h2 第二重样
本第h层方差。
第七页,共34页。
【例9.1】某银行要调查其客户的资产情况,已知该银
行的客户数为8000,针对客户规模差异较大的特点,拟 采用分层抽样。但由于缺乏现有的分层资料,决定采用
x
二、二重抽样的比率估计及其性质
二重抽样对总体均值 Y的比率估计:
第十五页,共34页。
y RD
y x
x
式中, y, x 分别为第二重样本目标变量与辅助变量
的样本平均数; x为第一重样本辅助变量的平均数。
性质4 与简单随机抽样下的比例估计一样,y RD是个有
偏估计,其偏倚随着样本量的增加而缩小。当第二重
要在一定的费用约束下使估计方差最小化,则有
L
L V ( ystD ) (CT c1n n c2h f W hD h )
h1
( 1 1 )S 2
L
Wh
S
2 h
(
1
1)
n N
h1 n fhD
L
(CT c1n n c2h f W hD h )
h1
由 L 0及 L 0得
n
f hD
第十九页,共34页。
某小区住户家庭收支的样本数据
样本住户 家庭月平均支出 家庭月平均收入
1
1 500
2
1 200
3
2 000
4
1 800
5
1 300
6
3 000
7
800
8
1 400
9
1 600
10
1 100
2 000 1 800 2 800 2 500 1 900 5 800 1 300 2 000 2 300 1 600
三、二重抽样比率估计时样本量的最优分配
问题:在给定的费用条件下,选择第一重样本量 n 和第二重样本量 nf,(其中 f为抽样比),使得估计 量的方差 V ( y RD )最小。 费用函数: CT c1n c2n c1n c2nf
其中, c1为第一重抽样的单元平均调查费用; c2 为第二重抽样的单元平均调查费用。
二重分层抽样方法。第一重样本量 =1000,根据其自
报的资产情况可分为4层:第一层为300万n元以下;第二
层为300万元~1000万元;第三层为1000万元~件2000万
元;第四层为2000万元以上。然后在第一重样本分层的
基础上,在各层分别抽取第二重样本。第二重样本量为
4
n nh 200 ,对这200个客户进行详细的调查,取
二重抽样对总体均值 Y 的回归估计: ylrD y b(x x)
nh
( yhj
j 1
yh )2
二、抽样方法
第一步: 利用简单随机抽样,从总体的N个单元中随机
抽取第一重样本,样本单元数为 n; 根据已知的分层标 志w将h是第总一体重层样权本W分h层的,无令偏估w计h 。nnh , (h 1,2,, L),则
第二步:利用分层随机抽样,从第一重样本中抽取出
第二重样本,样本单元数为n ,第h层样本单元数为 nh
量的误差;同样,第二重抽样 n越大,估计量的方差越
小。调查的经费是有限的,因此,需要在给定费用的条
件下,选择 n和 n,使得估计量的方差 V ( ystD最) 小。
第十一页,共34页。
假设第一重抽样的单元平均调查费用为 c1,第二重
抽样第 h
层的单元平均费用为
c2
。忽略其他费用,则
h
费用函数可以表示为:
第一步 从总体的N个单元中随机抽取第一重样本,样
本单元数为 n; 对于第一重样本,仅观测辅助变量信息,
用辅助变量的样本均值
x
1 n
n i 1
xi估计总体均值
X。
第二步 从第一重样本中随机抽取出第二重样本,样
本单元数为 n ;对于第x二重样本,观测目标变量与辅助
变量,并用获得的 y和
,计算
R
y ,构造比率估计。
h1
(1 nh
1 nh
)wh 2sh2
(1 80
1 )(0.54)2 (1.01) 540
( 1 1 )(0.04)2 (690.53) 0.036822
20 40
(1 n
1 N
L
)
h1
wh
(yh
y stD )2
0.055239
第十页,共34页。
因此,v( ystD ) 0.036822 0.055239 0.092061
h1
6.42 (百万元)
第九页,共34页。
该银行共有8000个客户,故全部客户资产总额为:
Y N ystD 8000 6.42 51360 (百万元)
y stD 的方差估计为:
L
v( ystD )
h1
(1 nh
1 nh
)wh 2sh2
(1 n
1 N
L
)
h1
wh
(
yh
y stD
)2
L
xi ,用辅助变量的样本均值 均值 X .
x
1 n
n
i 1
xi
估计其总体
第二步: 从第一重样本中随机抽取出第二重样本,样本
单元数为 n;对于第二重样本,观测目标变量 y与i 辅助 变量 xi ,并计算 y, x 和回归系数 b,构造回归估计。
第二十五页,共34页。
二、二重抽样的回归估计及其性质
(一)二重抽样的回归估计
抽样调查-第9章 二重抽样
第一页,共34页。
2。两阶段抽样的第二阶段抽样单元与第一阶段抽样
单元往往是不同的。而二重抽样的第二重样本往往是 第一重样本的子样本。
三、二重抽样的作用
(一)有利于筛选主调查对象
(二)节约调查费用
(三)提高抽样效率 (四)可用于研究样本轮换中的某些问题 (五)降低无回答偏倚
400 3100 9600 45120
sj
2
1.01 2.71 15.38 690.53
解 根据上表可计算各层的权重:
w1
540 1000
0.54, w2
0.32, w3
0.10, w4
0.04
该银行客户的平均资产额估计为:
L
ystD wh yh 0.54 2 0.32 7 0.1015 0.04 40
fhD 1
第二重样本第h层j单元的观测值: yhj
j 1,2,, nh;h 1,2,, L
第二重样本第h层样本单元的平均数: yh 总体方差:S 2 ,第h层的总体方差: Sh2
第四页,共34页。
第一重样本第h层方差: sh 2
第二重样本第h层方差: sh2
1 nh 1
样本的样本量
足够大时,y RD
y x
x是 近似无偏的。即
E( y RD ) Y
证明:记
R
y , R x
y x
,
足够大时有
因为当第二重样本量n
第十六页,共34页。
E(
y
RD
)
E1[ E2
(
y
RD
)]
E1[
xE2
(R)]
E1( y) Y
因此,y RD 是 Y 的近似无偏估计。
性质5 二重抽样比率估计的方差为:
fhD Sh
c1
L
c2h (S 2
Wh
S
2 h
)
h1
第十三页,共34页。
n
CT
L
c1 c2hWh fhD
h1
在实际应用中,要确定最优的 n和 fhD,需要对
总体事先有一定的了解,例如对
S
2
,
S
2 h
,Wh
有一些
粗略的估计。
第十四页,共34页。
§9.3 为比率估计的二重抽样
一、二重抽样比率估计的抽样方法
v(
y
RD
)
1 n
s
2 y
(1 n
1
)(
R2
n
s
2 x
2
R
s yx
)
1613333 ( 1 1 )(1.52872 371222.2 10 10 100
21.5287 747777.8 33646.89
第二十一页,共34页。
y RD 的标准差的估计为: s( y RD ) v( y RD ) 183.43
第二十二页,共34页。
求最优值:
因总体均值估计量的方差为
V
(
y RD
)
1 n
S
2 y
(1 n
1 )( n
R
2
S
2 x
2RS yx
)
L V ( y RD ) (CT c1n c2nf )
1 n
S
2 y
(1 n
1 )(R n
2
S
2 x
2 RS yx
)
(CT
c1n
c2nf
)
由 L 0及 L 0得
总体单元数:N Nh
h1
第一重样本第h层的单元数: nh
L
第一重样本单元数: n nh
h1
第三页,共34页。
第二重样本第h层的单元数: nh
L
第二重样本单元数:n nh
h1
总体单元第h层的权重:
Wh
Nh N
第一重样本第h层的权重:
wh
nh n
第二重样本第h层的抽样比:
f hD
nh ,0 nh
该银行客户资产总额的抽样标准误的估计:
s(Y ) Ns( ystD ) N v( ystD ) 2427.32 (百万元)
四、二重分层抽样样本量的最优分配 二重分层抽样中有两次抽样,这两次抽样的样本量
即n和 n ,直接影响估计的精度。第一重抽样 n越 大,
相关文档
最新文档