07-第七章 不等概率抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
*
[1,24] 中的一个随机数为 9,由于 M 4 = 6 < 9 ,因此需要重抽。设第二次抽
到的一组随机数为 (7,15) ,则仍然不满足要求,还需要抽。若再次抽到的随 机数组为 (2,8) ,则由于 M 2 = 10 > 8 ,故第 2 个单元被抽中。如此重复直 到抽到 n 个单元(允许重复)为止。 拉希里法适用于 N 很大的情况,因为它不需要列出如表 7.1 这样的表。 7.2.3 汉森——赫维茨估计量及其性质 对于 多 项 抽样,由于抽样是不等概率的,每个样本单元的 观测 值 ,因此对于总体参数的估计与等概率抽样 y1 , y 2 , , y n 就不再是“平等的” 不同。前已提到,这个估计也与样本单元 Z i 的取值 z1 , z 2 , , z n 有关。汉森 ——赫维茨(Hansen-Hurwitz)提到的对总体总和 Y 的估计如下:
4
率与其大小 M i 成比例。 2. 拉希里(Lahiri)法 此方法也称为二次抽取法。方法是对上述的 M i ,令 M * = max{M i },
1£ i £ N
即所有 M i 中的最大值,每次抽取一个 [1, N ] 范围内的随机数 i 及 1, M
[
*
]范
围内的随机数 m ,若 M i ³ m ,则第 i 个单元入样;否则重抽一组( i, m ) 。 例如在例 7.1 中, N = 10 , M = 24 。设 [1,10] 中的一个随机数为 4,
第七章 不等概率抽样
7.1 概述 7.1.1 不等概率抽样的必要性及优点 在概率抽样中, 简单随机抽样的一个基本特点是总体中的每一个单元的 入样概率都相等, 因此它是一种等概率抽样。 由于分层随机抽样中每一层内 的抽样也是按照简单随机抽样进行的, 因此层内的抽样仍是等概率的。 等概 率抽样的基本出发点是将总体(或层)中的每一单元看作是平等的,不“偏 向”也不“疏远”某些特定的单元。如果总体单元的差异不是很大,这种处 理方法既是简单的,也是合理的。但是如果总体单元相差较大,也即总体方 差大的情况, 等概率抽样的效果就不一定好。 例如为了估计一个城市的商业 销售总额,对各商业网点进行调查。由于商业网点的规模差异极大,个别超 大型商场年销售额可以超过亿元, 甚至达到几十亿; 而为数较多的大中型商 场与商店年销售额是在几十万到几千万之间; 至于数量更多的小型商店与摊 位的年销售额每个仅数万元或甚至不到一万元。在这种情况下,将大型、特 大型的商场与一般中小型市场或商店平等对待显然是不合理的。 因为一个城 市中的大型商场数量虽少, 但所占的市场份额则很高, 对它们我们应该给予 更多的关注, 对它们的调查应该调查得细一些, 而对数量很大但所占市场份 额并不很大的小型商店则可粗一些, 不需要化很大精力作过多的调查。 对此 有几种处理方法,一种是将商业网点按规模(资金总额或员工总数)大小分 成若干类,以类为层进行分层抽样:大型商场的抽样比可以高些,小型商店 的抽样比可以低些,绝少数特大型商场甚至可以进行 100%抽样,即普查。 这种对少数大单元进行普查而对大多数小单元进行抽样的方法就是所谓的 目录抽样(list sampling) 。另一种处理的思路则考虑得更细一点,即设想在 抽样中将总体中每个单元的入样概率与其规模大小联系起来: 大单元抽到的 概率大,小单元抽到的概率小, 这就是不等概率抽样 (sampling with unequal probabilities) 。在不等概率抽样中,每个单元都被赋予一个大小不等的入样 概率, 而这个概率通常与某个辅助变量有关, 例如前面例子中的表示单元规 模(大小)的某种度量。 不等概率抽样通常用于以下两种情况。 一是需要估计总体总量但总体单 元规模相差很大的情况。 除了上面所举的例子外, 还可以列举许多类似的例 子:为估计一个国家或地区城市人口总数(以城市为单元) ,农作物总产量 (以农场为单元) , 工业总产值 (以工厂为单元) , 交通运输量 (以航空公司、 运输公司或港口为单元)等等。另一种情况是抽样审计,以项目或单笔帐作 为单元, 每个单元被抽到的概率与其发生金额成正比, 则可以抽查少量项目
Z i , i = 1,2, , N ,总可以找 到一个整 数 M 0 , 使对每个 M i = M 0 Z i , i = 1,2, , N 都是一个整数。 在 PPS 抽样抽样情形, 也可以假定每个 M i 都
3
是整数(若不然也可以乘以一个常数使其都成为整数) ,然后对每个 M i 进 行 累 计, 赋 以 第 i 个单元 M i 个 代码 。 具 体方法是 第 1 个单元 拥 有 代码
Mi M0
(7.2)
其中 M 0 =
åM
i =1
N
i
是总体中所有单元的“大小”之和,此时每个单元在每
次抽样中的入样概率与单元大小成比例, 称这种特殊的多项抽样为 (放回的) 与大小成比例的概率抽样(sampling with probability proportional to size) ,简 称 PPS 抽样。 7.2.2 多项抽样的实施方法 1. 代码法 代码法也称汉森——维茨(Hansen-Hurwitz)法。对于给定的一组概率
n ˆ = 1 å yi Y HH n i =1 z i
(7.3)
ˆ 具有如下性质: 汉森——赫维茨估计量 Y HH
若所有的 Z i > 0 , i = 1,2, , N ,则:
ˆ ) = Y ,即它是无偏的; 1. E (Y HH
N ö Y ˆ ) = 1 åZ æ ç i -Y ÷ 2. V (Y HH iç ÷ n i =1 è Z i ø 2
Mi
8 10 17 6 24 9 5 7 4 10
累计 M i 8 18 35 41 65 74 79 86 90 100
代码 1~8 9~18 19~35 36~41 42~65 66~75 76~79 80~86 87~90 91~100
M 0 = 100
在 [1,100] 范围内产生 5 个随机数,设分别为 04,73,25,49 及 82,则 第 1,第 6,第 3,第 5 及第 8 个单元即为抽中的单元。如果我们欲再增加 一个样本单元,产生的随机数为 58,则又对应第 5 个单元,这个单元即为 抽中两次。由于单元愈大,被赋予的代码数就愈多,因此每个单元入样的概
(7.4)
(7.5)
5
3. 若 n > 1 ,则
ˆ )= v(Y HH
n æ yi ˆ 1 ç - YHH å n(n - 1) i =1 ç è zi
ö ÷ ÷ ø
2
(7.6)
ˆ ) 的无偏估计。 是 V (Y HH ˆ 的 在证明上述性质以前,我们先就 PPS 抽样这种特殊情形,说明 Y HH
2
7.2
放回不等概率抽样
7.2.1 多项抽样与 PPS 抽样 设总体包含 N 个单元,对其进行放回抽样,在每次抽样中,抽到第 i 个 单元的概率为 Z i ,i = 1,2, , N ,
åZ
i =1
NHale Waihona Puke Baidu
i
= 1 ,独立地进行这样的抽样 n 次,
共 抽 到 n 个 单 元( 有可 能 重复 ) , 则 称 这种 不等概率 抽样 为 多 项 抽 样 (multinomial sampling) 。 若记 t i 为总体中第 i 个单元在 n 次抽样中被抽到的次数,显然对每个 i 都有: 0 £ t i £ n ,且
1
或帐而所查样本发生金额可以达到总的发生金额很大比例的效果。 不等概率 抽样另一常用的情况是由于种种原因不能直接对基本的较小单元抽样的情 形。例如在整群抽样或多阶抽样中,若初级单元大小(用所包含的下一级单 元数目表示)相差很大,则常采用对初级单元的不等概率抽样。 不等概率抽样的主要优点是可以大大提高估计的精度,减少抽样误差。 而它的一个必要条件是对总体中的每一个单元, 都要已知一个辅助量用以确 定其入样概率或两个单元同时入样的概率, 这不仅在实施中是必需的, 而且 在数据处理中也是必要的。 7.1.2 不等概率抽样的主要分类 文献中研究的不等概率抽样有许多,例如布鲁尔(Brewer )与哈尼夫 (Hanif)在他们 1983 年出版的专著《不等概率抽样》中就列举了 50 多种 方法。不过真正常用的也不过 10 种左右。在这些不等概率抽样方法中,按 其实施方法或特性可以分成许多不同的类型。 一种分类方法是按抽样过程中被抽到的单元是否被放回总体中去而分 为放回抽样与不放回抽样两类。事实上由于等概率抽样相对而言比较简单, 因此常用的是不放回情形, 即通常意义下的简单随机抽样。 而不放回的不等 概率抽样由于实施、 目标量的估计及其方差估计通常都比较复杂, 因此放回 的不等概率抽样也经常地被使用。 在某种意义上可以这么说, 抽样调查中的 放回抽样主要用于不等概率抽样这种特殊情形。 采用放回抽样的主要好处在 于在每次抽样中, 所获得的样本是相互独立的, 因此它的数据处理就特别简 单。而不放回抽样,虽然效率常常更高,但由于丧失了独立性,无论是抽样 方法还是方差估计,都要比放回抽样复杂得多。 另一种分类方法是放回抽样中的每个单元每次被抽到的概率或不放回 抽样中最终样本包含某个单元的概率是否严格地与单元的大小成比例, 还有 最重要的情形是 n 固定且上述概率与单 最终样本量 n 是固定的还是随机的。 元大小严格或近似成比例的方法。 对不放回抽样,按其样本单元抽取方式的不同又可分为以下几种方法。 1. 逐个抽取法。每次从尚未入样的单元中以一定概率抽取一个单元, 这个概率通常与已经入样的单元有关。 2. 重抽法。以一定的概率逐个进行放回抽样,若一旦抽到重复单元, 则放弃所有已抽到的单元而重新抽取, 直到抽到规定单元数且所有入样单元 都不同为止。 3. 系统抽取法。将总体单元按某种顺序排列,且将规定的单元入样概 率(或其倍数)累计起来,并确定抽样间隔,在这个范围内产生一个随机数 以确定初始入样单元,然后按上述抽样间隔确定其余的样本单元。 在本章中我们主要介绍几种常用且较为典型的不等概率抽样, 其中的系 统抽取方法将在第十章中介绍。
yi 即是第 i 个商店人均年销售额。 对n个 mi
N -1
数,设为 m ,则代码 m 所对应的单元即为此次抽样被抽中的单元。如此重 复 n 次即获得 n 个样本单元。 例 7.1 设某个总体有 N = 10 个单元,欲用多项抽样从中抽取 n = 5 个 单元,给定的入样概率 {Z i } 如表 7.1 所示。则若令 M 0 = 100 ,即可使每个
直观意义。对于 PPS 抽样, z i =
n ˆ = 1 å yi Y HH n i =1 z i
mi ,代入(7.3)式,即有 M0
1 n yi = å n i =1 mi M0 M = 0 n
åm
i =1
n
yi
i
其中 y i 是第 i 个样本单元的观测值,例如商店的年销售额,而 mi 是该单元 的大小, 例如商店的员工人数, 则
åt
i =1
N
i
= n 。作为随机变量( t1 , t 2 , , t N ) ,它的联合
分布即是以下的多项分布:
n! t2 tN Z 1t1 Z 2 Z N t1!t 2 ! t N !
模的度量 M i 时,则可取
(7.1)
这就是多项抽样这个术语的来源。 当每个单元具有一个说明其大小或规
Zi =
M i = M 0 Z i 皆为整数,对 M i 累加,赋以每个单元的代码列在表 7.1 各列
中。 表 7.1 用代码法进行多项( PPS )抽样
i
1 2 3 4 5 6 7 8 9 10 ∑
Zi
0.08 0.10 0.17 0.06 0.24 0.09 0.05 0.07 0.04 0.10 1.00
1 ~ M 1 ,第 2 个单元拥有代码 M 1 + 1 ~ M 1 + M 2 ,… ,第 i 个单元拥有
代 码
å M j +1 ~ å M j , … , 最 后 一 个 单 元 拥 有 代 码
j =1 j =1
i -1
i
æ N ö ç ÷ 1, M 0 ] 之间的随机(整) M + 1 ~ M å j 0 ç = å M j ÷ 。每次抽样产生一个 [ j =1 è j =1 ø
[1,24] 中的一个随机数为 9,由于 M 4 = 6 < 9 ,因此需要重抽。设第二次抽
到的一组随机数为 (7,15) ,则仍然不满足要求,还需要抽。若再次抽到的随 机数组为 (2,8) ,则由于 M 2 = 10 > 8 ,故第 2 个单元被抽中。如此重复直 到抽到 n 个单元(允许重复)为止。 拉希里法适用于 N 很大的情况,因为它不需要列出如表 7.1 这样的表。 7.2.3 汉森——赫维茨估计量及其性质 对于 多 项 抽样,由于抽样是不等概率的,每个样本单元的 观测 值 ,因此对于总体参数的估计与等概率抽样 y1 , y 2 , , y n 就不再是“平等的” 不同。前已提到,这个估计也与样本单元 Z i 的取值 z1 , z 2 , , z n 有关。汉森 ——赫维茨(Hansen-Hurwitz)提到的对总体总和 Y 的估计如下:
4
率与其大小 M i 成比例。 2. 拉希里(Lahiri)法 此方法也称为二次抽取法。方法是对上述的 M i ,令 M * = max{M i },
1£ i £ N
即所有 M i 中的最大值,每次抽取一个 [1, N ] 范围内的随机数 i 及 1, M
[
*
]范
围内的随机数 m ,若 M i ³ m ,则第 i 个单元入样;否则重抽一组( i, m ) 。 例如在例 7.1 中, N = 10 , M = 24 。设 [1,10] 中的一个随机数为 4,
第七章 不等概率抽样
7.1 概述 7.1.1 不等概率抽样的必要性及优点 在概率抽样中, 简单随机抽样的一个基本特点是总体中的每一个单元的 入样概率都相等, 因此它是一种等概率抽样。 由于分层随机抽样中每一层内 的抽样也是按照简单随机抽样进行的, 因此层内的抽样仍是等概率的。 等概 率抽样的基本出发点是将总体(或层)中的每一单元看作是平等的,不“偏 向”也不“疏远”某些特定的单元。如果总体单元的差异不是很大,这种处 理方法既是简单的,也是合理的。但是如果总体单元相差较大,也即总体方 差大的情况, 等概率抽样的效果就不一定好。 例如为了估计一个城市的商业 销售总额,对各商业网点进行调查。由于商业网点的规模差异极大,个别超 大型商场年销售额可以超过亿元, 甚至达到几十亿; 而为数较多的大中型商 场与商店年销售额是在几十万到几千万之间; 至于数量更多的小型商店与摊 位的年销售额每个仅数万元或甚至不到一万元。在这种情况下,将大型、特 大型的商场与一般中小型市场或商店平等对待显然是不合理的。 因为一个城 市中的大型商场数量虽少, 但所占的市场份额则很高, 对它们我们应该给予 更多的关注, 对它们的调查应该调查得细一些, 而对数量很大但所占市场份 额并不很大的小型商店则可粗一些, 不需要化很大精力作过多的调查。 对此 有几种处理方法,一种是将商业网点按规模(资金总额或员工总数)大小分 成若干类,以类为层进行分层抽样:大型商场的抽样比可以高些,小型商店 的抽样比可以低些,绝少数特大型商场甚至可以进行 100%抽样,即普查。 这种对少数大单元进行普查而对大多数小单元进行抽样的方法就是所谓的 目录抽样(list sampling) 。另一种处理的思路则考虑得更细一点,即设想在 抽样中将总体中每个单元的入样概率与其规模大小联系起来: 大单元抽到的 概率大,小单元抽到的概率小, 这就是不等概率抽样 (sampling with unequal probabilities) 。在不等概率抽样中,每个单元都被赋予一个大小不等的入样 概率, 而这个概率通常与某个辅助变量有关, 例如前面例子中的表示单元规 模(大小)的某种度量。 不等概率抽样通常用于以下两种情况。 一是需要估计总体总量但总体单 元规模相差很大的情况。 除了上面所举的例子外, 还可以列举许多类似的例 子:为估计一个国家或地区城市人口总数(以城市为单元) ,农作物总产量 (以农场为单元) , 工业总产值 (以工厂为单元) , 交通运输量 (以航空公司、 运输公司或港口为单元)等等。另一种情况是抽样审计,以项目或单笔帐作 为单元, 每个单元被抽到的概率与其发生金额成正比, 则可以抽查少量项目
Z i , i = 1,2, , N ,总可以找 到一个整 数 M 0 , 使对每个 M i = M 0 Z i , i = 1,2, , N 都是一个整数。 在 PPS 抽样抽样情形, 也可以假定每个 M i 都
3
是整数(若不然也可以乘以一个常数使其都成为整数) ,然后对每个 M i 进 行 累 计, 赋 以 第 i 个单元 M i 个 代码 。 具 体方法是 第 1 个单元 拥 有 代码
Mi M0
(7.2)
其中 M 0 =
åM
i =1
N
i
是总体中所有单元的“大小”之和,此时每个单元在每
次抽样中的入样概率与单元大小成比例, 称这种特殊的多项抽样为 (放回的) 与大小成比例的概率抽样(sampling with probability proportional to size) ,简 称 PPS 抽样。 7.2.2 多项抽样的实施方法 1. 代码法 代码法也称汉森——维茨(Hansen-Hurwitz)法。对于给定的一组概率
n ˆ = 1 å yi Y HH n i =1 z i
(7.3)
ˆ 具有如下性质: 汉森——赫维茨估计量 Y HH
若所有的 Z i > 0 , i = 1,2, , N ,则:
ˆ ) = Y ,即它是无偏的; 1. E (Y HH
N ö Y ˆ ) = 1 åZ æ ç i -Y ÷ 2. V (Y HH iç ÷ n i =1 è Z i ø 2
Mi
8 10 17 6 24 9 5 7 4 10
累计 M i 8 18 35 41 65 74 79 86 90 100
代码 1~8 9~18 19~35 36~41 42~65 66~75 76~79 80~86 87~90 91~100
M 0 = 100
在 [1,100] 范围内产生 5 个随机数,设分别为 04,73,25,49 及 82,则 第 1,第 6,第 3,第 5 及第 8 个单元即为抽中的单元。如果我们欲再增加 一个样本单元,产生的随机数为 58,则又对应第 5 个单元,这个单元即为 抽中两次。由于单元愈大,被赋予的代码数就愈多,因此每个单元入样的概
(7.4)
(7.5)
5
3. 若 n > 1 ,则
ˆ )= v(Y HH
n æ yi ˆ 1 ç - YHH å n(n - 1) i =1 ç è zi
ö ÷ ÷ ø
2
(7.6)
ˆ ) 的无偏估计。 是 V (Y HH ˆ 的 在证明上述性质以前,我们先就 PPS 抽样这种特殊情形,说明 Y HH
2
7.2
放回不等概率抽样
7.2.1 多项抽样与 PPS 抽样 设总体包含 N 个单元,对其进行放回抽样,在每次抽样中,抽到第 i 个 单元的概率为 Z i ,i = 1,2, , N ,
åZ
i =1
NHale Waihona Puke Baidu
i
= 1 ,独立地进行这样的抽样 n 次,
共 抽 到 n 个 单 元( 有可 能 重复 ) , 则 称 这种 不等概率 抽样 为 多 项 抽 样 (multinomial sampling) 。 若记 t i 为总体中第 i 个单元在 n 次抽样中被抽到的次数,显然对每个 i 都有: 0 £ t i £ n ,且
1
或帐而所查样本发生金额可以达到总的发生金额很大比例的效果。 不等概率 抽样另一常用的情况是由于种种原因不能直接对基本的较小单元抽样的情 形。例如在整群抽样或多阶抽样中,若初级单元大小(用所包含的下一级单 元数目表示)相差很大,则常采用对初级单元的不等概率抽样。 不等概率抽样的主要优点是可以大大提高估计的精度,减少抽样误差。 而它的一个必要条件是对总体中的每一个单元, 都要已知一个辅助量用以确 定其入样概率或两个单元同时入样的概率, 这不仅在实施中是必需的, 而且 在数据处理中也是必要的。 7.1.2 不等概率抽样的主要分类 文献中研究的不等概率抽样有许多,例如布鲁尔(Brewer )与哈尼夫 (Hanif)在他们 1983 年出版的专著《不等概率抽样》中就列举了 50 多种 方法。不过真正常用的也不过 10 种左右。在这些不等概率抽样方法中,按 其实施方法或特性可以分成许多不同的类型。 一种分类方法是按抽样过程中被抽到的单元是否被放回总体中去而分 为放回抽样与不放回抽样两类。事实上由于等概率抽样相对而言比较简单, 因此常用的是不放回情形, 即通常意义下的简单随机抽样。 而不放回的不等 概率抽样由于实施、 目标量的估计及其方差估计通常都比较复杂, 因此放回 的不等概率抽样也经常地被使用。 在某种意义上可以这么说, 抽样调查中的 放回抽样主要用于不等概率抽样这种特殊情形。 采用放回抽样的主要好处在 于在每次抽样中, 所获得的样本是相互独立的, 因此它的数据处理就特别简 单。而不放回抽样,虽然效率常常更高,但由于丧失了独立性,无论是抽样 方法还是方差估计,都要比放回抽样复杂得多。 另一种分类方法是放回抽样中的每个单元每次被抽到的概率或不放回 抽样中最终样本包含某个单元的概率是否严格地与单元的大小成比例, 还有 最重要的情形是 n 固定且上述概率与单 最终样本量 n 是固定的还是随机的。 元大小严格或近似成比例的方法。 对不放回抽样,按其样本单元抽取方式的不同又可分为以下几种方法。 1. 逐个抽取法。每次从尚未入样的单元中以一定概率抽取一个单元, 这个概率通常与已经入样的单元有关。 2. 重抽法。以一定的概率逐个进行放回抽样,若一旦抽到重复单元, 则放弃所有已抽到的单元而重新抽取, 直到抽到规定单元数且所有入样单元 都不同为止。 3. 系统抽取法。将总体单元按某种顺序排列,且将规定的单元入样概 率(或其倍数)累计起来,并确定抽样间隔,在这个范围内产生一个随机数 以确定初始入样单元,然后按上述抽样间隔确定其余的样本单元。 在本章中我们主要介绍几种常用且较为典型的不等概率抽样, 其中的系 统抽取方法将在第十章中介绍。
yi 即是第 i 个商店人均年销售额。 对n个 mi
N -1
数,设为 m ,则代码 m 所对应的单元即为此次抽样被抽中的单元。如此重 复 n 次即获得 n 个样本单元。 例 7.1 设某个总体有 N = 10 个单元,欲用多项抽样从中抽取 n = 5 个 单元,给定的入样概率 {Z i } 如表 7.1 所示。则若令 M 0 = 100 ,即可使每个
直观意义。对于 PPS 抽样, z i =
n ˆ = 1 å yi Y HH n i =1 z i
mi ,代入(7.3)式,即有 M0
1 n yi = å n i =1 mi M0 M = 0 n
åm
i =1
n
yi
i
其中 y i 是第 i 个样本单元的观测值,例如商店的年销售额,而 mi 是该单元 的大小, 例如商店的员工人数, 则
åt
i =1
N
i
= n 。作为随机变量( t1 , t 2 , , t N ) ,它的联合
分布即是以下的多项分布:
n! t2 tN Z 1t1 Z 2 Z N t1!t 2 ! t N !
模的度量 M i 时,则可取
(7.1)
这就是多项抽样这个术语的来源。 当每个单元具有一个说明其大小或规
Zi =
M i = M 0 Z i 皆为整数,对 M i 累加,赋以每个单元的代码列在表 7.1 各列
中。 表 7.1 用代码法进行多项( PPS )抽样
i
1 2 3 4 5 6 7 8 9 10 ∑
Zi
0.08 0.10 0.17 0.06 0.24 0.09 0.05 0.07 0.04 0.10 1.00
1 ~ M 1 ,第 2 个单元拥有代码 M 1 + 1 ~ M 1 + M 2 ,… ,第 i 个单元拥有
代 码
å M j +1 ~ å M j , … , 最 后 一 个 单 元 拥 有 代 码
j =1 j =1
i -1
i
æ N ö ç ÷ 1, M 0 ] 之间的随机(整) M + 1 ~ M å j 0 ç = å M j ÷ 。每次抽样产生一个 [ j =1 è j =1 ø