抽样调查:不等概率抽样

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3 529
529
529
59.04 .
这一估计的均方偏差的估计为
v( YˆPPS
)
1
n
(
n( n 1 ) i1
yi pi
YˆPPS
)2
4.93
2、Hansen-Hurwitz (汉森—赫维茨)估计量
若 y1 , y2 ,L , yn 是按 Zi为入样概率的多项抽样而得的样 本数据,它们相应的 Zi值自然记为 z1, z2 ,L , zn ,则对总
倘若单元有一个数值度量其大小,诸如职工人数、工厂产值
商店销售额等,或者感兴趣的调查指标在上一次普查时的数
据也可以作为其单元大小的一种度量。记 M为i 第 i 个单元的
“大小”,并记M0
N
i 1
Mi
若取 n=3,在1~203中随机有放回地产生3个随机整数,不 妨设为45、89、101,则第 3 个单元入样一次,第 5 个单 元入样 2 次。
N
pi









本单


i1
设第i个单元入样,取出后不放回;
第二步:以概率 pj ( i j )抽取第2个样本单元。 1 -pi
特点:
1. 对这种抽样,总体中个体单元i 的入样概率为
i
2 pi
, ij
2 pi pj D
( 1 pi pj ) ( 1 2 pi )( 1 2 pj
)
pi
p
i
(
1
1 2p
i
1 1 2pj
)
2D .
特点:
1. 对这种抽样,总体中个体单元i 的入样概率为
i 2 pi ,
ij
2 pi pj D
( 1 pi pj ) ( 1 2 pi )( 1 2 pj
)
.
2. 第一次抽取的概率与 pi成正比,第二次抽取的概率使
总的入样概率正比于X i .
]
注:
可用Yˆ PPS估计总体总数Y;

1 N
Yˆ PPS估





值Y;

均方误差的
估计分别为v(Yˆ PPS
)和(
1 N
)2
v(Yˆ PPS
).
例 一村庄有8个果园,分别由果树50, 30, 65, 80, 140, 44, 20,
100棵,要调查该村庄水果产量,以正比于果树棵树的概率取3 个果园作样本.
在 第t群 中 , 抽 中 单 元i的 概 率 为
p ti
X i Zt
,
当i属 于t群 ,
0, 当i不 属 于t群 ;

中Z
t
为t群








度X

i
和.
在随机分群抽样下,记第t群抽出的样本单元为 yit ,其 对应的抽取概率为 pit ,则估计量
Yˆ py RHC
n
it
t 1 it

i
pi
Mi
N
Mj
Mi M
j 1
一次抽取后,放回被抽中的单元再作下次抽取。
不等概率 抽样
有放回不等概率抽样 (PPS)
无放回不等概率抽样
( pPsS)
一、实现方法
(1)累积和法 或 代码法
它适合于 N 不太大的情形。假定所有的 M i 为整数,倘 若在实际中存在 M i不是整数的话,则可以乘以一个倍数使其 为整数。见下表。
var(
i 1
zi
)
1 n
var(
z1
)
1
N
(
Yi
n p i1 i
E( z1
))2
pi
1 n
N
i 1
pi
(
Yi pi
Y
)2
定理3.1.2 在有放回PPS抽样下,
v( YˆPPS
)
1
n
(
n( n 1 ) i1
yi pi
YˆPPS
)2
1
n
[(
n( n 1 ) i1
yi pi
)2
nYˆP2PS
体总和, Hansen-Hurwitz 给出了如下的估计量:
y%HH
1 n
n i 1
yi zi
且 E( y%HH ) Y% ,即 y%HH 是总体总和 Y%的无偏估计。
Var( y%HH )
1 n
N i 1
Z
i
(
Yi Zi
Y%)2
Var( y%HH ) 的无偏估计为
v( y%HH )
1 n(n 1)
总体总数Y的无偏估计量为:
YˆHT
该估计量的均方偏差为:
n
yi
i 1 i
V (YˆHT
)
N
(
1
i
i 1
i
)Yi 2
N
N
( ij
i
j
i 1 j1 ji
i j
) YiYj .
HT估计的均方偏差的两个无偏估计量为
v1( YˆHT
)
n
i 1
(
1
2 i
i
)
y2 i
N
2
n
( ij
i
i1 ji
一次抽样时不会发生问题,但在抽第二个样本时面临的情况与有放回时 大不相同,余下的 ( N-1 ) 个单元以什么样的概率参与第二次抽样就 是个问题;再在抽第三个样本时又面临新问题。 一是抽样实施的复杂; 二是估计量及其方差计算的复杂。 在本节讨论: (1) n 固定,尤其是n=2时的情形。
(2)总体中每个单元的入样概率严格地与其“大小”成比例,即 ps 抽
响,只有 Mi m时它才入样,因此第 i 个单元入样的概率与
Mi的大小成正比,此时 Zi Mi M0
二、估 值 法
PPS抽样法的估值法的理论依据
定理3.1.1 在有放回PPS抽样下,
是总体总数Y
N
Yi
Yˆ PPS
的无偏估计.
1 n
n
i 1
yi pi
i 1
( pi为第i个样本单元yi时的抽取概率,而不是总体中第i单元对应的抽取概率.)
样。
几种严格的不放回 ps 抽样方法
前面已经指出,所谓“严格不放回 ps ”是指样本容量
n 固定,严格不放回、 i npi 的抽样。仅介绍n=2的情形。
(1)Brewer(布鲁尔)抽样方法(1963)
令pi
Xi X
,其
中X
N
X
i
;

记pi
i 1
pi (1 pi ) 1 2pi
第 一 步 : 以 正 比 于pi
0
取一个整数,设为m ,若代码 m 属于第 j个单元拥有的代码
数,则第 j个单元入样。整个过程重复 n次,得到 n个单元
入样(当然存在重复的可能性)构成 pps 样本。
例3.1 设某总体共有N=8个单元,相应 Mi及代码如表所示
i
Mi
30 Mi
累计
代码
1
2/5
12
2
1/2
15
3
2/3
20
4
4/3
i j ij
j
) yi
yj
,
v2 ( YˆHT
)
Nn
( i
j
ij
i1 ji
ij
) (
yi
i
yj
j
)2 .
注:两估计量均有可能取负值,通过模拟比较,v2较稳定且
较少取负值。
§3.3 Rao-Hartley-Cochran随机分群抽样
拉奥-哈特利-科克伦(1962)
设总体个体单元总数N nM k( 0 k n ) 1. 将总体随机分成n个群 其中k个群有M 1个个体单元,n k个群有M个个体单元; 2. 在每一个群中,以正比于规模测度的概率抽取一个单元 作为样本单元。
为总体总数Y的无偏估计。
该估计量的均方偏差为:
V(Yˆ RHC ) [1 -
n-1 N-1
k(n - k) 1 N ]
N(N - 1) n i1
pi (
Yi pi
Y
)2 ,
其中pi X i
N
Xi .
i 1
在随机分群抽样下,估计的均方偏差V(Yˆ RHC )的无偏估计
v(Yˆ RHC )
N2 N 2(
第三章 不等概抽样
简单随机抽样的特点:总体中每个个体被抽中入样的概率都相同。对
于各单元所处地位几乎 “平等” 的总体,这种抽样原则既公正又方便 。
不等概率抽样:但在许多社会经济活动中并非所有单元地位相同。
使得“大”单元入样概率大,“小”单元入样概率小,这里的“大”、 “小”与我们所关心的调查指标有着密切的关系。
——Sampling with Probability Proportional to Size
总体单元 Yi 规模测度 Mi 0. 在抽取样本单元时,各单元被抽取的概率正比于Mi .
有放回PPS 抽样是常见的一种不等概率抽样方案。每次抽取,第i
单 元Yi 被 抽 中 的 概 率p i



M
例如,要了解上海地区钢铁企业的景气状况,总体有上钢一厂、三 厂、五厂……等等,再加上宝钢。由于宝钢规模极大,它是否景气对整 个上海地区钢铁工业起着至关重要的作用。而在抽样中将它与其它规模 较小的单位处于同等地位就会既不公正又使抽样推断结果有较大可能发 生大的偏差。
§3.1 PPS 抽 样
PPS抽样:抽取概率正比于规模测度。
2. 设计好第一次抽取的概率,第二次抽取的概率与 pi成
正比,使总的入样概率正比于X i .
(2)Durbin(德宾)方法(1967)
第一步:以pi pi的概率抽取第一个样本单元, 设 第i个 单 元 入 样 , 取 出 后 不放 回 ;
第 二 步 : 以 概 率pi抽 取 第2个 样 本 单 元 。
n! t1 !t2 !L
tN
!
Z t1 1
Z t2 2
L
Z tN N
N
ti n (3.1)
i 1
这是我们熟悉的多项分布,多项抽样其名正出于此。
多项分布(3.1)具有如下性质:
E(ti ) Var(ti )
nZi nZ
i
(1
Z
i
)
Cov(ti , t j ) nZi Z j
i 1, 2,L , N i j







i








ij


i
N N
-n 1
pi
n1 N 1
,
ij
n1 ( N 1
n-2 ( N 2
pi
pj
)
n-2 N 2
),
当 抽 样 比f
n N
很小时, i近似正比于pi .
(4) Horvitz—Thompson(霍维茨—汤普森)HT估计量
对于不放回不等概率抽样, 常用HT估计。
果园序号 1 2 3 4 5
678
规模测度X 50 30 65 80 140 44 20 100
如果实地调查得第5、第8、第3号三个果园的产量分别为 15,12,7,求该村八个果园的总产量估计.
解: Yˆ PPS
1n
n i1
yi pi
1 [15 (140) 12 (100) 7 ( 65 )]
Durbin方法中的 i , ij 与Brewer方法中的 i , ij 完全一样
这表明两种不等概率抽样方法其实是等价的。
(3)Sen-Midzuno抽样方法
第一步:以pi概率抽取第一个样本单元,取出后不放回;
第二步:从剩下的N - 1个单元中,以简单随机无放回抽取n 1个样 本单元,组成n个单元的样本.
40
5
8/5
48
6
3/5
18
7
2/3
20
8
1
30
12
1~12
27
13~27
47
28~47
87
48~87
135 88~135
153 136~153
173 154~173
203 174~203
M0 203
假设第 i 个单元在 n次抽样中被抽中 ti 次,则(t1, t2,L , tN )
是一个随机向量,其联合分布为:
表3—1 pps 抽样时各单元的代码数
单元 i 单元大小Mi
代码数
1
M1
2
M2
M
M
N
MN
1, 2,L , M1
M1 1, M1 2,L , M1 M2
M
N 1
N 1
N 1
Mi 1, Mi 2,L , Mi M N M0
i 1
i 1
i 1
每次抽样前,先在整数
1, 2,L
,
M
里面随机等可能的选
n
k( n 1)
k k
ຫໍສະໝຸດ Baidu
) Nn (n k )
N
i 1
Zt X
(
yit pit
Yˆ RHC )2 ,
其中pit 是样本单元yit 对应的总体中正比于规模测度的概率,

N
pit X it
Xi .
i 1
n ( yi
z i 1
i
y%HH )2
§3.2 不等概 PS 抽样
有放回不等概率抽样:从实施上还是从估计计算以及精度估计都显得
十分方便。但一个单元被抽中两次以上总会使样本的代表性打折扣,从 而引起抽样误差的增加。 实际调查工作者一般倾向于使用不放回形式。
问题:最简单的不放回不等概率抽样方式自然会想到逐一抽样这在第
估计的均方偏差为:
V(Yˆ PPS
)
1n
n i1
pi (
yi pi
Y
)2 .
证明 考虑随机变量Z,
则Z
yi
P{
Z
Yi pi
}
pi
,
是随机变量Z的独立同分布样本,故
pi
E(
zi
)
N
Yi
p i 1 i
pi
Y
,
E( YˆPPS
)
1 n
n
E(
i 1
zi
)
Y
,
V
( YˆPPS
)
var(
z
)
1 n2
n
(2)最大规模法 或 Lahiri(拉希里)方法
当 N 相当大时,累计的 M0将很大,给代码法的实施带
来很多不方便。Lahiri提出下列方法:令
M*
max{
1i N
Mi
}
每次抽取 1~N 中一个随机整数 i 及 1~M *内一个随机整数
m ,如果Mi m,则第 i 个单元入样;若 Mi m,则按前面 步骤重抽 (i, m) ,显然,第 i 个单元的入样与否受到m 的影
相关文档
最新文档