第六章 不等概率抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
响,只有 Mi m时它才入样,因此第 i 个单元入样的概率与
Mi的大小成正比,此时 Zi Mi M0
2、Hansen-Hurwitz (汉森—赫维茨)估计量
若 y1 , y2 , , yn 是按 Zi为入样概率的多项抽样而得的样 本数据,它们相应的 Zi值自然记为 z1 , z2 , , zn ,则对总
最简单的不放回不等概率抽样方式自然会想到逐一抽样 这在第一次抽样时不会发生问题,但在抽第二个样本时面临 的情况与有放回时大不相同,余下的 ( N-1 ) 个单元以什 么样的概率参与第二次抽样就是个问题;再在抽第三个样本 时又面临新问题,如此下去,一是抽样实施的复杂,二是估 计量及其方差计算的复杂,因此,在本节仅讨论 n固定,尤 其是n=2时的情形。同时,我们只对使总体中每个单元的入
i 1
i 1
i 1
每次抽样前,先在整数 1, 2,
,
M
里面随机等可能的选
0
取一个整数,设为m ,若代码 m 属于第 j个单元拥有的代码
数,则第 j个单元入样。整个过程重复 n次,得到 n个单元
入样(当然存在重复的可能性)构成 pps 样本。
例7.1 设某总体共有N=8个单元,相应 Mi及代码如表所示
“大小”,并记M0
N
i
1
Mi
则可取 Zi Mi M0
此时多项抽样体现了每次抽样时单元的入样概率与单元的大 小成比例,即为pps抽样。
多项抽样是最简单的不等概率抽样,它的实施方法通常 有两种,以pps抽样为例。
(1)代码法 它适合于 N不太大的情形。假定所有的 Mi 为整数,倘若 在实际中存在 Mi不是整数的话,则可以乘以一个倍数使一切 Mi为整数(对一般的多项抽样,也总可找到整数 M0 ,使一切
M0Zi成为整数)。对于具整数 Mi的第 i 个单元赋予一个与 Mi
相等的代码数,见表7—1。
表7—1
pps 抽样时各单元的代码数
单元 i 单元大小Mi
代码数
1
M1
2
M2
1, 2, , M1
M1 1, M1 2, , M1 M2
N 1
N 1
N 1
N
MN
Mi 1, Mi 2, , Mi MN M0
(2)Lahiri(拉希里) 方法
当 N 相当大时,累计的 M0将很大,给代码法的实施带
来很多不方便。Lahiri提出下列方法:令
M*
max{
1i N
M
i
}
每次抽取 1~N 中一个随机整数 i 及 1~M *内一个随机整数
m,如果Mi m,则第 i 个单元入样;若 Mi m,则按前面 步骤重抽 (i, m) ,显然,第 i 个单元的入样与否受到m 的影
样概率严格地与其“大小”成比例感兴趣,这就是所谓的ps
抽样。
1、包含概率 i , ij
不放回不等概率抽样中,总体中每个单元被包含到样本
的概率,即入样概率 i p(i)是个重要的概念,而且任意
两个单元包含到样本中去的概率ij p(i, j) 也是个重要的
1 n(n 1)
n ( yi z i 1 i
yHH )2
(7.7)
§2 不放回的不等概率抽样
上一节讲述了有放回不等概率抽样,无论从实施上还是 从估计计算以及精度估计都显得十分方便。但是,一个单元 被抽中两次以上总会使样本的代表性打折扣,从而引起抽样 误差的增加。因此,实际调查工作者一般倾向于使用不放回 形式。
称为pps 抽样不放回抽样称为 ps 抽样。
§2 放回的不等概率抽样
1、多项抽样、 pps抽样及其实施方法
既然是不等概率抽样,那么就应该在抽样之前给总体中
的每一个单元赋予一定的抽取概率,在放回抽样的每一次抽
取且中iN,1 Z设i 第1i,个按单此元规入定样有的放概回率地为独Z立i (抽0 取Zi
n
1, i 1, 2, , N ) 次,形成所谓
的多项抽样。
假设第 i 个单元在 n次抽样中被抽中 ti 次,则(t1, t2 , , tN )
是一个随机向量,其联合分布为:
n! t1 !t2 !
tN
!
Z t1 1
Z t2 2
Z tN N
N
ti Leabharlann Baidu (7.1)
i 1
这是我们熟悉的多项分布,多项抽样其名正出于此。
第六章 不等概率抽样
§1 概述
一、不等概率抽样的定义和特点 (一)定义: 如果总体中每个单元进入样本的可能性是不 相等的,则这种随机抽样方式就称为不等概率随机抽样,简 称不等概率抽样。
(二)特点:将总体中每个单元的入样概率与其“规模” 大小联系起来,使得“大单元”被抽到的概率大,“小单元” 被抽到的概率小。
i
Mi
30 Mi
累计
代码
1
2/5
12
12 1~12
2
1/2
15
27 13~27
3
2/3
20
47 28~47
4
4/3
40
87 48~87
5
8/5
48
135 88~135
6
3/5
18
153 136~153
7
2/3
20
173 154~173
8
1
30
203 174~203
M0 203
若取 n=3,在1~203中随机有放回地产生3个随机整数,不 妨设为45、89、101,则第 3 个单元入样一次,第 5 个单 元入样 2 次。
体总和, Hansen-Hurwitz 给出了如下的估计量:
yHH
1 n
n i 1
yi zi
(7.4)
且 E( yHH ) Y ,即 yHH 是总体总和 Y 的无偏估计。
Var( yHH )
1 n
N i 1
Z
i
(
Yi Zi
Y )2
(7.6)
Var( yHH ) 的无偏估计为
v( yHH )
多项分布(7.1)具有如下性质:
E(ti ) nZi
Var
(ti
)
nZ
i
(1
Z
i
)
i 1, 2,
,N
Cov(ti , t j ) nZi Z j
i j
倘若单元有一个数值度量其大小,诸如职工人数、工厂产值
商店销售额等,或者感兴趣的调查指标在上一次普查时的数
据也可以作为其单元大小的一种度量。记 M为i 第 i 个单元的
二、不等概率抽样的优点和局限性
(一)优点:能够大大提高抽样精度,减少抽样误差。
(二)局限性:必须具有能够说明单元规模大小的辅助变 量来确定各个单元的入样概率或包含概率。
三、不等概率的适用场合:总体单元之间的差异较大。
四、不等概率抽样分类:
我们最关心也是最重要的情形是抽样容量 n固定时, 单元入样的概率(不放回抽样)或每次抽样的概率(有放回 抽样)与单元的大小严格成比例。这种情况下的有放回抽样