不等概率抽样

合集下载

不等概率抽样的分类

不等概率抽样的分类

1.5
4
13.7
5
7.8
6
15
7
10
8
3.6
9
6
10

M0
1.1 =738
Mi 100
6 145
15 137
78 150 100
36 60 11 738
Mi 100
累计 6
151 166 303 381 531 631 667 727 738
代码 1~6
7~151 152~166 167~303 304~381 382~531 532~631 632~667 668~727 728~738
YˆHH M0
2
=30434161880
s YˆHH v YˆHH 174454
r

t
s YˆHH YˆHH
1.96 174118 757087
6.20
510
n
Yˆ M y HH
0
i

3676 30
10926 38.23
10926 38.23
1024 13.70


510 6.2


765404(百元)
n m i1 i
v YˆHH

M
2 0
n n 1
n yi i1 mi
YˆHH
2


M
2 0
n n 1
n i 1

yi mi
YˆHH M0
2

可以证明
E(YˆHH ) Y E v(YˆHH ) V (YˆHH )
例5.2

抽样技术7不等概率抽样

抽样技术7不等概率抽样

抽样技术:7不等概率抽样1. 引言在进行数据分析和统计研究时,抽样是一种常用的技术。

抽样技术允许我们从总体中选择一个样本,以便推断总体的性质。

在抽样技术中,不等概率抽样是一种常见的方法,它允许我们以非均匀的概率抽取样本。

本文将介绍关于7种不等概率抽样方法的详细信息。

2. 简单随机抽样简单随机抽样是最根本的抽样方法之一,它要求每个个体被选中的概率相等且任意组合都是可能的。

然而,在某些情况下,简单随机抽样可能并不适用,例如当总体分布不均匀时,或者我们希望在样本中增加一定的多样性。

这时,我们可以考虑使用不等概率抽样方法。

3. 整群抽样整群抽样是一种不等概率抽样方法,它将总体划分为假设干个互不重叠的群组〔或称为簇〕,然后从每个群组中抽取样本。

整群抽样可以有效地减少抽样过程中的复杂性,并提高样本的效率。

整群抽样常用于调查社会群体或大型组织等场景。

4. 分层抽样分层抽样是一种根据总体特点进行划分的抽样方法,它将总体划分为假设干个层级或相似的子群〔层〕,然后从每个层中抽取样本。

通过分层抽样,我们可以保证样本在各层中的分布情况与总体相似,从而更为准确地推断总体的特征。

5. 系统抽样系统抽样是一种按照固定间隔选择样本的抽样方法。

它类似于简单随机抽样,但是通过定义一个间隔,我们可以按照一定的规律抽取样本。

例如,我们可以在总体中选取每隔一定数量的个体作为样本。

系统抽样在样本大小较大时表现出较高的效率。

6. 按比例分层抽样按比例分层抽样是一种常用的不等概率抽样方法,它根据总体各层的比例确定各层的样本容量。

比例分层抽样可以使得样本在各层中的分布与总体的比例相对应。

这种抽样方法适用于总体中的各个层存在不同比例的情况。

7. 两阶段抽样两阶段抽样是一种复杂的不等概率抽样方法,它将抽样过程分为两个阶段。

在第一阶段,我们从总体中选择一局部群组〔或称为簇〕,在第二阶段,我们从每个群组中抽取一定数量的样本。

两阶段抽样适用于总体较大或分布复杂的情况下,可以提高抽样的效率。

抽样调查:不等概率抽样

抽样调查:不等概率抽样
——Sampling with Probability Proportional to Size
总体单元 Yi 规模测度 Mi 0. 在抽取样本单元时,各单元被抽取的概率正比于Mi .
有放回PPS 抽样是常见的一种不等概率抽样方案。每次抽取,第i
单 元Yi 被 抽 中 的 概 率p i



M
响,只有 Mi m时它才入样,因此第 i 个单元入样的概率与
Mi的大小成正比,此时 Zi Mi M0
二、估 值 法
PPS抽样法的估值法的理论依据
定理3.1.1 在有放回PPS抽样下,
是总体总数Y
N
Yi
Yˆ PPS
的无偏估计.
பைடு நூலகம்
1 n
n
i 1
yi pi
i 1
( pi为第i个样本单元yi时的抽取概率,而不是总体中第i单元对应的抽取概率.)
i j ij
j
) yi
yj
,
v2 ( YˆHT
)
Nn
( i
j
ij
i1 ji
ij
) (
yi
i
yj
j
)2 .
注:两估计量均有可能取负值,通过模拟比较,v2较稳定且
较少取负值。
§3.3 Rao-Hartley-Cochran随机分群抽样
拉奥-哈特利-科克伦(1962)
设总体个体单元总数N nM k( 0 k n ) 1. 将总体随机分成n个群 其中k个群有M 1个个体单元,n k个群有M个个体单元; 2. 在每一个群中,以正比于规模测度的概率抽取一个单元 作为样本单元。
估计的均方偏差为:
V(Yˆ PPS
)

07-第七章 不等概率抽样

07-第七章 不等概率抽样

(7.4)
(7.5)
5
3. 若 n > 1 ,则
ˆ )= v(Y HH
n æ yi ˆ 1 ç - YHH å n(n - 1) i =1 ç è zi
ö ÷ ÷ ø
2
(7.6)
ˆ ) 的无偏估计。 是 V (Y HH ˆ 的 在证明上述性质以前,我们先就 PPS 抽样这种特殊情形,说明 Y HH
*
[1,24] 中的一个随机数为 9,由于 M 4 = 6 < 9 ,因此需要重抽。设第二次抽
到的一组随机数为 (7,15) ,则仍然不满足要求,还需要抽。若再次抽到的随 机数组为 (2,8) ,则由于 M 2 = 10 > 8 ,故第 2 个单元被抽中。如此重复直 到抽到 n 个单元(允许重复)为止。 拉希里法适用于 N 很大的情况,因为它不需要列出如表 7.1 这样的表。 7.2.3 汉森——赫维茨估计量及其性质 对于 多 项 抽样,由于抽样是不等概率的,每个样本单元的 观测 值 ,因此对于总体参数的估计与等概率抽样 y1 , y 2 , , y n 就不再是“平等的” 不同。前已提到,这个估计也与样本单元 Z i 的取值 z1 , z 2 , , z n 有关。汉森 ——赫维茨(Hansen-Hurwitz)提到的对总体总和 Y 的估计如下:
Mi
8 10 17 6 24 9 5 7 4 10
累计 M i 8 18 35 41 65 74 79 86 90 100
代码 1~8 9~18 19~35 36~41 42~65 66~75 76~79 80~86 87~90 91~100
M 0 = 100
在 [1,100] 范围内产生 5 个随机数,设分别为 04,73,25,49 及 82,则 第 1,第 6,第 3,第 5 及第 8 个单元即为抽中的单元。如果我们欲再增加 一个样本单元,产生的随机数为 58,则又对应第 5 个单元,这个单元即为 抽中两次。由于单元愈大,被赋予的代码数就愈多,因此每个单元入样的概

不等概率抽样

不等概率抽样
最简单的不放回不等概率抽样方式自然会想到逐一抽样 这在第一次抽样时不会发生问题,但在抽第二个样本时面临 的情况与有放回时大不相同,余下的 ( N-1 ) 个单元以什 么样的概率参与第二次抽样就是个问题;再在抽第三个样本 时又面临新问题,如此下去,一是抽样实施的复杂,二是估 计量及其方差计算的复杂,因此,在本节仅讨论 n固定,尤 其是n=2时的情形。同时,我们只对使总体中每个单元的入
“大小”,并记M0

N
i 1
Mi
则可取 Zi Mi M0
此时多项抽样体现了每次抽样时单元的入样概率与单元的大 小成比例,即为pps抽样。
多项抽样是最简单的不等概率抽样,它的实施方法通常 有两种,以pps抽样为例。
(1)代码法 它适合于 N不太大的情形。假定所有的 Mi 为整数,倘若 在实际中存在 Mi不是整数的话,则可以乘以一个倍数使一切 Mi为整数(对一般的多项抽样,也总可找到整数 M0 ,使一切
i
Mi
30 Mi
累计
代码
1
2/5
பைடு நூலகம்
12
12 1~12
2
1/2
15
27 13~27
3
2/3
20
47 28~47
4
4/3
40
87 48~87
5
8/5
48
135 88~135
6
3/5
18
153 136~153
7
2/3
20
173 154~173
8
1
30
203 174~203

M0 203
若取 n=3,在1~203中随机有放回地产生3个随机整数,不 妨设为45、89、101,则第 3 个单元入样一次,第 5 个单 元入样 2 次。

三阶段不等概率抽样设计

三阶段不等概率抽样设计

三阶段不等概率抽样设计
三阶段不等概率抽样设计是一种常用的抽样方法,用于从整体群体中选择代表性样本。

它将样本选择过程分为三个阶段,每个阶段的概率不等,具体步骤如下:
1. 第一阶段:按照一定的抽样概率,从总体中选择第一阶段的样本单元。

这可能涉及到某些抽样单元的非选择或重复选择,以达到样本的多样性。

2. 第二阶段:在第一阶段选择的样本单元中,按照一定的概率再次进行抽样,选择第二阶段的样本单元。

这个阶段的抽样概率可能与第一阶段有所不同,以达到更好的样本覆盖和精度。

3. 第三阶段:在第二阶段选择的样本单元中,按照一定的概率再次进行抽样,选择最终的样本个体。

同样,这个阶段的抽样概率可能与前两个阶段有所不同。

通过三阶段不等概率抽样设计,可以灵活地选择样本单元,并通过控制抽样概率来保证样本的代表性和可靠性。

这种设计方法在实际应用中可以更好地适应不同的调查需求和场景,提高样本选择的效果。

抽样技术第6章 不等概率抽样

抽样技术第6章 不等概率抽样

第6章 不等概率抽样1 不等概率抽样原理等概率抽样通常容易设计和解释,但并不总是如不等概率抽样一样的可行、实用、有效。

因为等概率抽样(psu’s)可能导致方差很大(尤其是对于无偏估计量)、管理困难以及成本难以控制。

而不等概率抽样的特点是以不等概率抽取psu’s 、m i 的数目相同,因此不等概率抽样使得每一个样本被抽取的概率相等、调查成本可控、每一个初级样本单元(psu )的样本数相等、方差急剧减小。

当采用不等概率抽样时,我们可以自由的调整选择不同初级样本单元(psu’s )作为样本的概率,并在估计中补充合适的权重。

核心是选择一个给定单元的概率已知: πi =P(psu i), ψi = P(psu i on first sample), ωi =1/πi1.1 抽取一个初级样本单元假定我们只要抽取N 个初级样本单元(psu )中的一个作为样本(n=1)。

初级样本单元i 的总值用t i 表示,我们需要估计总体总值t.用抽取一个初级样本单元的简单例子来说明不等概率抽样的思想。

先来考虑一个所有总体已知的情形。

一个城镇拥有四个超市,从100平方米到1000平方米按面积大小排列。

通过抽取一个超市,来估计四个超市上个月的总营业收入。

你可能预期大超市比小超市的营业收入多而且大超市的收入波动性也明显大于小超市。

因为仅抽取一个超市,所以在第一个回合中一个超市被抽取的概率 ψi 等于这个超市包含在样本中的概率πi 。

即,πi = ψi =P(超市i 被选取),此概率与超市的面积成比例。

超市A 占四个超市总面积的1/16,则它被抽取的概率为1/16。

为了说明性目的,假定我们已知总体的所有总值t i :我们可以以以上给定的概率选择一个容量为1的概率样本,通过洗散16张卡片并从中选择1张。

如果卡片数字为1,则选择超市A;如果卡片数字为2或3,则选择超市B;…… 在估计量中,我们通过使用 ψi 补充选取的不等概率权重。

如果超市面积与超市营业收入近似成比例,那么超市A 的营业收入在总收入的1/16,则可用超市A 的营业收入的16倍来估计四个超市的总收入。

不等概率抽样

不等概率抽样

2. PPS抽样 PPS抽样
设说明每个单元大小或 规模的度量M i , i = 1,2, L , N ,
N Mi 若Z i = ,M 0 = ∑ M i M0 i =1
此时每个单元在每次抽样中的入 样概率与单元大小成比例,这种 特殊的多项抽样为放回的与大小 成比例的概率抽样(sampling with probability proportional to size),简称PPS抽样。
第二篇 基本的抽样方法
第二篇 基本的抽样方法
第三章 第四章 第五章 第六章 第七章 第八章 简单随机抽样 分层抽样 不等概率抽样 整群抽样 系统抽样 二阶与多阶抽样
其他参考书目: 《《抽样技术》习题解答》 《《抽样技术》习题解答》 倪加 勋主编 中国统计出版社
第五章 不等概率抽样
第一节概述
一、不等必要性 2. 不等概率抽样的适用情况
(1)需要估计总体总量但总体单 元规模相差很大 (2)抽样审计 (3)不能直接对基本单元抽样
3.不等概率抽样的特点 3.不等概率抽样的特点
(1)优点是可以大大提高估计 的精度,减少抽样误差 (2)必须利用已知辅助变量确 定入样概率才能实施
二\不等概率抽样的主要分 类
(二)实施方法
1.代码法: 1.代码法:
例:设某总体有N=10个单元,欲 例:设某总体有N=10个单元,欲 用多项抽样从中抽取n=5个单元, 用多项抽样从中抽取n=5个单元, 入样概率及代码如下:
例:设某总体有N=10个单元,欲用多项抽样从中抽 取n=5个单元,入样概率及代码如下:
i 1 2 3 4 5 6 7 8 9 10 合计 Zi 0.08 0.10 0.17 0.06 0.24 0.09 0.05 0.07 0.04 0.10 1.00 Mi 8 10 17 6 24 9 5 7 4 10 Mo=100 累计Mi 8 18 35 41 65 74 79 86 90 100 — 代码 1~8 9~18 19~35 36~41 42~65 66~74 75~79 80~86 87~90 91~100 —

喀什师范学院笔记抽样调查的原理与方法第八章不等概率抽样

喀什师范学院笔记抽样调查的原理与方法第八章不等概率抽样

对于一般的多项抽样,总可以找到某个 M 0 ,使所有

M
0
Z
成为整数。每个单位赋予与相应
i
M0Zi
相等的
代码数,然后进行抽样。
13
(二)希里(lahiri)法

M
*

max{M
1i N
i
}
,即 M *为所有 Mi 中的最大值,每
次从N [1,N ]范围内抽取一个随机整数 i ,从 [1,M * ]
码数,将代码数累加得到 M 0,每次抽取都产生一个
单[1 ~位M拥0]有之的间代的码随数机,数则,第设个为jm单,位若入代样码。m重属复于n第次j这个
样的过程,就可得到由 n 个单位(存在重复的可能)
组成的 PPS 样本。如果在实际中存在 M i 不是整数的
情况,则可以乘以一个倍数,使所有的 v 都成为整数。
汉森(Hansen)—赫维茨(Hurwitz)给出如下估计
量:
பைடு நூலகம் YˆHH
1 n n i 1
yi zi
(6.4)
15
对于 PPS 这种特殊形式的不等概率抽样,YˆHH的
直观意义是明显的。由于
zi

mi
/
M
,代入(6.4)式,
0

YˆHH
M0 n
n yi i 1 mi
16
汉森—赫维茨估计量 YˆHH具有如下性质:它是总
成比例的概率抽样(sampling with probability proportional to
size),简称 PPS抽样。
11
二、实施方法 多项抽样是最简单的不等概率抽样,其实 施方法通常有两种: (一)代码法 (二)希里(lahiri)法

不等概率抽样的分类

不等概率抽样的分类

估计量
对于放回不等概抽样,对总体总量的估计 是汉森-赫维茨(Hansen-hurwitz)估计
YˆHH1ni n1
yi zi
M0 n
n yi m i1 i
例如:估计超市销售额, m:员工人数 解释公式意义
V
(YˆH H
)
1 n
N
Z
i
(
Y Z
i i
Y
)2
v (YˆH H
)
1 n
n
( yi Zi
第五章 不等概抽样
Sampling With Unequal Probabilities
每个单元入样的概率
?--------非概率,等概率,不等概
不等概率抽样的概念和特点 放回不等概率抽样(重点) 不放回不等概率抽样
不等概率抽样的概念和特点
前面讨论的简单随机抽样和分层随机抽样都是等概率抽样, 即,每个总体单元都具有相同的入样概率。等概率抽样容 易设计和解释,但实际中有时并非可行的,当总体单元之 间差异不大时,简单随机抽样简单、有效。但是当总体单 元之间(或抽样单元规模)差异非常大时,常采用不等概 率抽样,即,每个单元入样的概率不相等。
度,减少抽样误差,但使用它也由条件,就是必 须要有说明每个单元规模大小的辅助变量来确定 每个单元入样的概率,这在抽样设计及估计时都 是必须得。
不等概率抽样的分类
放回不等概抽样
代码法 拉希里法
不放回不等概抽样
逐个抽取 重抽法 全样本抽取;样本量随机 系统抽样法
放回不等概率抽样:
每次在总体中对每个单元按入样概率进行抽样,抽取出来的 样本单元放回总体,然后进行下一次抽样,这样,每次抽 样过程都是从同一个总体独立进行的,这种不等概率抽样 称为(有)放回不等概率抽样

抽样技术不等概率抽样

抽样技术不等概率抽样

抽样技术:不等概率抽样引言在统计学和数据分析中,抽样技术是一项重要的工具,用以从总体中选择一部分元素进行研究。

而抽样技术的核心就是如何从总体中选取样本,以保证样本能够准确地反映总体的特征。

其中一种常用的抽样技术是不等概率抽样。

不等概率抽样是指在抽取样本时,各个个体被选中的概率不相等。

与等概率抽样相比,不等概率抽样更能满足实际问题的需求,更能提高样本的效率和精确性。

本文将介绍不等概率抽样的原理、常用方法以及应用案例,希望能够帮助读者更好地理解和应用抽样技术。

不等概率抽样的原理不等概率抽样的原理基于概率论和统计学的基本原理。

在进行不等概率抽样时,需要根据总体的特征和研究目的,选择合适的抽样方法和样本选择概率,以使样本能够准确地反映总体。

不等概率抽样的核心在于赋予每个个体被选中的概率,也称为抽样概率。

抽样概率可以根据总体特征和研究目的进行选择,常见的选择方法包括:概率比例抽样、系统抽样、整群抽样等。

概率比例抽样是一种根据个体在总体中所占比例来确定抽样概率的方法。

具体而言,可以先计算出样本所需的个体数目,再根据各个个体在总体中的比例,分配相应的抽样概率。

这样可以保证样本能够按比例反映总体的特征。

系统抽样是一种按照一定规律选择样本的方法。

具体而言,可以在总体中确定一个起始点,然后以固定的间隔选择样本个体。

系统抽样具有简单方便、无需随机表和随机数的优点,常用于总体具有周期性分布的情况。

整群抽样是一种将总体划分为若干群体,然后随机选择部分群体进行抽样的方法。

这种方法适用于总体分布不均匀,但各群体内部相对均匀的情况。

通过整群抽样,可以减小样本误差,提高样本的代表性。

不等概率抽样的常用方法不等概率抽样有多种不同的方法和技术,根据实际问题的需求和样本特征的不同,可以选择合适的抽样方法。

以下将介绍几种常用的不等概率抽样方法。

简单随机抽样是不等概率抽样中最基本的方法之一。

简单随机抽样是指每个个体都有相等的被选中概率,且个体间的选择是相互独立的。

常见的非概率抽样方法

常见的非概率抽样方法

常见的非概率抽样方法非概率抽样,又称为不等概率抽样或非随机抽样,就是调查者根据自己的方便或主观判断抽取样本的方法。

它不是严格按随机抽样原则来抽取样本,所以失去了大数定律的存在基础,也就无法确定抽样误差,无法正确地说明样本的统计值在多大程度上适合于总体。

虽然根据样本调查的结果也可在一定程度上说明总体的性质、特征,但不能从数量上推断总体。

非概率抽样依抽样特点可分为方便抽样、定额抽样、立意抽样、滚雪球抽样和空间抽样。

①方便抽样样本限于总体中易于抽到的一部分。

最常见的方便抽样是偶遇抽样,即研究者将在某一时间和环境中所遇到的每一总体单位均作为样本成员。

“街头拦人法”就是一种偶遇抽样。

某些调查对被调查者来说是不愉快的、麻烦的,这时为方便起见就采用以自愿被调查者为调查样本的方法。

方便抽样是非随机抽样中最简单的方法,省时省钱,但样本代表性因受偶然因素的影响太大而得不到保证。

②定额抽样定额抽样也称配额抽样,是将总体依某种标准分层(群);然后按照各层样本数与该层总体数成比例的原则主观抽取样本。

定额抽样与分层概率抽样很接近,最大的不同是分层概率抽样的各层样本是随机抽取的,而定额抽样的各层样本是非随机的。

总体也可按照多种标准的组合分层(群),例如,在研究自杀问题时,考虑到婚姻与性别都可能对自杀有影响,可将研究对象分为未婚男性、已婚男性、未婚女性和已婚女性四个组,然后从各群非随机地抽样。

定额抽样是通常使用的非概率抽样方法,样本除所选标识外无法保证代表性。

③立意抽样立意抽样又称判断抽样,研究人员从总体中选择那些被判断为最能代表总体的单位作样本的抽样方法。

当研究者对自己的研究领域十分熟悉,对研究总体比较了解时采用这种抽样方法,可获代表性较高的样本。

这种抽样方法多应用于总体小而内部差异大的情况,以及在总体边界无法确定或因研究者的时间与人力、物力有限时采用。

④滚雪球抽样以若干个具有所需特征的人为最初的调查对象,然后依靠他们提供认识的合格的调查对象,再由这些人提供第三批调查对象,……依次类推,样本如同滚雪球般由小变大。

非概率抽样方式

非概率抽样方式

非概率抽样方式(三)非概率抽样方式非概率抽样,又称为不等概率抽样或非随机抽样,是调研者根据自己的方便或主观判断抽取样本的方法。

主要有偶遇抽样、主观抽样、滚雪球抽样、、定额抽样等类型。

1.偶遇抽样,也称就近抽样、方便抽样或自然抽样。

它是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象。

其优点是方便省力,其缺点是样本的代表性差,,有很大的偶然性。

2.主观抽样,也称目标式抽样、判断式抽样或立意抽样。

它是调查者根据自己的主观分析,来选择和确定调查对象的方法;。

主观抽样取得的样本.其代表性取决于研究者对总体的了解程度和判断能力。

主观抽样的优点是,可以充分发挥研究人员的主观能动性,其缺点是,样本的代表性难以判断,不能推论。

3.滚雪球抽样。

当我们无法了解总体情况时,可以从总体中的少数成员入手。

对他们进行调查向他们询问还知道哪些符合条件的人,再去找那些人并询问他们知道的人,如同滚雪球一样。

我们可以找到越来越多具有相同性质的群体成员。

4.定额抽样。

定额抽样从对总体性质的了解开始,在某一总体中考虑具有某种属性的人数所占的比例,然后从具有这种属性的人群中收集数据,并按各类人在总体中的比例赋予它的适当的比重。

这样收集数据,从理论上讲应当能够代表总体。

这种方法存在的问题是:定额的比例必须精确,但由于最新的关于总体性质变化的信息并不容易得到,往往造成抽样中的偏差。

(四)抽样中的误差问题进行抽样调查可产生两类误差,一类是抽样误差,另一类是非抽样误差。

1.抽样误差:由抽样的随机性产生,属于随机误差抽样误差是指主要指样本平均数与总体平均数之差、样本比率与总体比率之差。

抽样误差中通常运用最多的抽样平均误差,即指样本平均数或样本比率的标准差。

在重复抽样条件下,(1)样本平均数的抽样平均误差公式为其中, 为总体标准差,n为样本个案数。

(2)样本比率的抽样平均误差公式为:其中,P为总体比率,n为样本个案数实际计算时,则以样本标准差代替总体标准差,以样本比率代替总体比率。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

汉森—赫维茨估计量具有如下性质: 对于所有的 Zi 0, i 1,2,, N ˆ ) Y 即它是无偏的。 1. E(Y HH


2.
ˆ 的方差为: Y HH
Yi 1 ˆ V YHH Z i Y n i 1 Z i
N

2

ˆ ) 的无偏估计为 3. V (Y HH
M 150
*
i 1 2 3 4
Mi
0.6 14.5 1.5 13.7
M i 10
6 145 15 137
N=10
在[1,10]和[1,150]中 分别产生 (i,m):
如 (3,121), M3=15<m=121, 舍弃,重抽
如产生(7,77), M7=100 > m=77, 第7号单元入样

1i N
每次抽样都分别产生一个 1, N 之间的随机数i及 1, M * 之间的随机数m, 如果 M i m ,则第i个单元被抽中; 否则,重抽一组(i,m). 显然,第i个单元的入样与否受到m的影响,只有 m M i 时它才入样,因此第 i个 单元入样的可能性与Mi 的大 小成正比,此时Zi=Mi / M0.

四、区域抽样(area sampling) 适用于:区域或面积本身就是抽样单元, 或抽样单元的名单抽样框无法获得,但 每个抽样单元只隶属于某个区域. 例如:小麦产量调查:对地块的抽样可 以是简单随机抽样,也可以是按面积进 行的不等概抽样。

抽样框的类型: 名单抽样框:即由抽样单元的名单组成. 区域抽样框:即由定义明确的区域组成,而 一个区域是由个体组成. 对于区域抽样可以采用整群抽样(抽样单 元是其本身),也可采用多阶段抽样(抽样单 元是区域内的个体). 区域抽样框的优点: 1.容易定义和识别. 2.比较稳定. 3.容易操作,回答率较高
5
6 7 8
7.8
15 10 3.6
78
150 100 36
9
6
1.1
60
11 738

10
…………
M 0 73.8
二、汉森—赫维茨估计量

对于放回不等概抽样,对总体总量Y的估计是汉 森—赫维茨(Hansen—Hurwitz)估计:
ˆ Y HH 1 n yi M 0 n yi n i 1 zi n i 1 mi


二、概念及其必要性
不等概抽样:即每个单元入样的概率不相等. 为了提高抽样效率,通常采用两种不等概抽样方法: (1). 将总体单元按规模(大小)分层,对较大单元的层抽样比 定高些,而较小单元的层抽样比定得低一些; (2). 赋予每个单元与其规模(或辅助变量)成比例的入样概 率,即大单元的入样概率大,小单元入样概率小.
第六章 不等概抽样
一、概述 二、放回不等概抽样 三、不放回不等概抽样

第一节 概述




一、引言 简单随机抽样的一个基本特点是总体中的每一 个单元的入样概率都相等,因此,它是一种等 概抽样。 分层随机抽样中每一层内的抽样也是按照简单 随机抽样进行的,因此,层内的抽样仍是等概 率的。 如果总体中的每个单元在该总体中的地位(或 重要性)相差不多,则等概抽样是理所当然的 选择。但是,如果总体单元相差较大,等概率 抽样的效果就不一定好。 在实际问题中,我们还需要使用不等概率抽样 (sampling with unequal probablities)。

(3)为了改善估计量的特性。
– 例如,第五章已经学过,简单随机抽样比率估计量 是渐近无偏的,要使它成为无偏估计,只要每个大 小为n个样本被抽中的概率与其辅助变量的和成正 比的话,则这时的比率估计量就是无偏的。 – 显然,这个样本并不是简单随机样本,而是一个不 等概抽样获得的样本。

(4)其他情况:整群抽样、多阶段抽样 中群或初级单元大小相差较大情形。

பைடு நூலகம்
注: 如果 Mi 不是整数,则乘以某个倍数.
【例】设某个总体有N=10个单元,相应的单元大小 及其代码数如下页表,现要在其中产生一个 n=3 的 样本.
i 1 2 3 4 5 6
Mi
0.6 14.5 1.5 13.7 7.8 15
M i 10
6 145 15 137 78 150
累计 M
i
10
ˆ vY HH

yi ˆ 1 1 YHH n n 1 i 1 zi
n 2 n

2
ˆ yi Y M0 HH nn 1 i 1 mi M 0

2
【例】 某部门要了解所属8500家生产企业当月完成的利润, 该部门手头已有一份上年各企业完成产量的报告,将其汇 总得到所属企业上年完成的产量为3676万吨. 考虑时间紧,准备采用抽样调查来推算当月完成的利润, 根据经验,企业的产量和利润相关性比较强,且企业的特点 是规模和管理水平差异比较大,通常大企业的管理水平较 高,因此采用与上年产量成比例的PPS抽样,从所属企业中 抽出一个样本量为30的样本,调查的结果如下表:
15 3.86 4600 16 15.8 2370
17 18* 9 21 940
640
25 28.43 9284
*该样本单元被抽中两次;mi为企业上年完成的产量,yi为企 业当月完成的利润。

解;n=30,
M 0 3676
ˆ Y HH M0 n yi i 1 mi
n
3676 10926 10926 1024 510 ... 30 38.23 38.23 13.7 6.2 757087 (百元)
不等概抽样的优点:大大提高估计精度, 减小抽样误差。 使用不等概抽样的前提条件:必须要有 说明每个单元规模大小的辅助变量来确 定每个单元的入样概率。这在抽样及推 算时都是必要的。






三、不等概抽样的种类 (一)按抽样过程中被抽到的单元是否被放回总体 中去而分为放回抽样和不放回抽样。 放回的不等概率抽样:每次在总体中按一定概率 抽取一个单元,抽取后放回总体,再进行下一次 抽样。.其好处在于:每次抽样过程都是从同一个 总体独立进行的,因此它的数据处理就特别简单。 不放回的不等概率抽样:虽然效率常常更高,但由 于丧失了独立生,无论抽样方法还是方差估计都比 放回抽样复杂得多。 在某种意义上可以这样说,抽样调查中的放回抽样 主要用于不等概率抽样这种特殊情形。

(2)抽样单元在总体中所占的地位不一致。
– 例如:对船舶运输量进行调查时,以船舶为抽样单 元,则有的是从事远洋运输的万吨巨轮,更多的是 从事内河河网地区运输的上百吨乃至几十吨小船。 显然,大船比小船处于更重要的地位。 – 类似的例子还有:通过对企业的调查估计某地区某 一时期内的总产值,通过对商业网点的调查估计该 地区的商品零售总额,等等。 – 在这些例子中,若对单位(船舶、企业、商店)实 行等概抽样,估计效果一般不会很好。 – 若对单位采用不等概抽样,使大单位入样概率大, 小单位入样概率小,就可提高估计的精度。
6.5 15 7 16
1900 864 17
1.5 8
10 80 3845
21 28.42 13672
1045 22* 9.01
5 6 7
8 9
2 5 10.8
2 8.81
1102 600 290
430 992
14 12.3
220
23 24
26 27
0.75 6
9.97 6.2
480 311
842 510

第二节 放回不等概抽样
一、PPS抽样 二、汉森—赫维茨估计量

一、PPS抽样

(一)多项抽样和PPS抽样
这就是多项抽样这一术语的由来。
PPS抽样: 如果每个单元有说明其大小或规模的度量Mi,则Zi 可取: Mi Mi Zi N M0 Mi

i 1

此时,每个单元在这次抽样中的入样概率与单元大 小成比例,称这种特殊的多项抽样为放回的与大小 成比例的概率抽样(Sampling with probability proportional to size),简称PPS抽样。
ˆ vY HH

ˆ Y 2 HH n yi M0 m M 0 nn 1 i 1 i
2

2
2 2 2 3676 10926 757087 1024 757087 510 757087 2 ... 30 29 3676 3676 3676 13.7 6.2 38.23
(二)视每个单元每次被抽中的概率(放回 抽样情形)或最终样本中包含某个单元的概 率(不放回抽样情形)是否严格地与单元的 大小成比例。另外,看最终样本量n是固定的 还是随机的。 最重要的情形乃是当n固定,且上述概率与单 元大小严格成比例的不等概抽样,这种情形 的放回抽样称为PPS抽样,而相应的不放回 抽样为πPS抽样。
注:由于抽样是放回的,因此,
某个单元可能在样本中出现多次, 出现这种情况时,对这个单元的 调查只进行一次,但计算时按抽 中几次计算几次的原则。
(二)实施方法 1.代码法(汉森—赫维茨法) 在PPS抽样中,赋予每个单元与Mi相等 的代码数,将代码数累计得到M0,每次 抽样都产生一个[1,M0]之间的随机数, 设为m,则代码m所对应的单元被抽中。
36762 67306 .4286 3031700514 5. 8 30
要求:
根据以上调查结果估计该部门所属企业当月完成的 利润,并给出95%置信度下估计的相对误差.如果要求在相 同条件下相对误差达到20%,所需的样本量应该是多少?
相关文档
最新文档