不等概抽样.ppt

合集下载

不等概抽样

（1）放回不等概抽样；
（2）不放回不等概抽样；
精选ppt
5
放回不等概抽样
最常用的是按照总体单元的规模大小来确定单
元再每次入样的概率。假设总体中第i个单元
N
的大小和规模为
M
i
，总体的总规模
M 0 M i i 1
，每次抽样中第i个单元被抽中的概率用 Z i
表示，如果
Z i
Mi M0
Mi
N
Mi
i 1
精选ppt
17
5.3 多阶段有放回不等概抽样
5.3.1 两阶段有放回不等概抽样
对总体总值的估计通常是先构造初级单元总值
Y i 的无偏估计 Y i ，然后利用汉森-赫维茨（Hansen-hurwitz）估计量对总体总值 Y 进行估计。
YHH
1 n
n i1
Yi Zi
精选ppt
18
总体总值的方差：
Y1 ni n1Z yii M n0 i n1M yii M0y
估计量的方差：
V (Y ˆH H )1 niN 1Z i(Z Y ii Y )2M n 0iN 1M i(Y i Y )2
v (Y ˆH H ) n (n 1 1 )i n 1(Z y ii Y )2 n (M n 0 2 1 )i n 1(y i y )2
这种不等概抽样称作放回的与规模大小成比例的概
率抽样(Probability Proportional to Size)，，简称 PPS。
精选ppt
6
1代码法案例
i
Mi
M i 10 累计 M i 10
1
0.6
6
6
2
14.5
145
151

抽样技术7不等概率抽样

抽样技术：7不等概率抽样1. 引言在进行数据分析和统计研究时，抽样是一种常用的技术。

抽样技术允许我们从总体中选择一个样本，以便推断总体的性质。

在抽样技术中，不等概率抽样是一种常见的方法，它允许我们以非均匀的概率抽取样本。

本文将介绍关于7种不等概率抽样方法的详细信息。

2. 简单随机抽样简单随机抽样是最根本的抽样方法之一，它要求每个个体被选中的概率相等且任意组合都是可能的。

然而，在某些情况下，简单随机抽样可能并不适用，例如当总体分布不均匀时，或者我们希望在样本中增加一定的多样性。

这时，我们可以考虑使用不等概率抽样方法。

3. 整群抽样整群抽样是一种不等概率抽样方法，它将总体划分为假设干个互不重叠的群组〔或称为簇〕，然后从每个群组中抽取样本。

整群抽样可以有效地减少抽样过程中的复杂性，并提高样本的效率。

整群抽样常用于调查社会群体或大型组织等场景。

4. 分层抽样分层抽样是一种根据总体特点进行划分的抽样方法，它将总体划分为假设干个层级或相似的子群〔层〕，然后从每个层中抽取样本。

通过分层抽样，我们可以保证样本在各层中的分布情况与总体相似，从而更为准确地推断总体的特征。

5. 系统抽样系统抽样是一种按照固定间隔选择样本的抽样方法。

它类似于简单随机抽样，但是通过定义一个间隔，我们可以按照一定的规律抽取样本。

例如，我们可以在总体中选取每隔一定数量的个体作为样本。

系统抽样在样本大小较大时表现出较高的效率。

6. 按比例分层抽样按比例分层抽样是一种常用的不等概率抽样方法，它根据总体各层的比例确定各层的样本容量。

比例分层抽样可以使得样本在各层中的分布与总体的比例相对应。

这种抽样方法适用于总体中的各个层存在不同比例的情况。

7. 两阶段抽样两阶段抽样是一种复杂的不等概率抽样方法，它将抽样过程分为两个阶段。

在第一阶段，我们从总体中选择一局部群组〔或称为簇〕，在第二阶段，我们从每个群组中抽取一定数量的样本。

两阶段抽样适用于总体较大或分布复杂的情况下，可以提高抽样的效率。

抽样调查第3章不等概抽样

N
i
2、对自然数集合{ 1,2, … , X }作有放回简单随机抽样，根据抽得随机数a决定入样单元.若
a {1,2,, X1}, 则第一个单元入样
若a { X j 1, X j 2,, X j },
j 1 j 1 j 1 i 1 i 1 i
则第i个单元入样，i =2,3,…, N 3、重复2，直至抽得n个单元.
不等概πPS抽样的实现
实现步骤
2、取出第一个样本单元后不放回，当第一个样本单元为U j时，以概率pi抽取第二个样本单元 pi pi (i j ) 1 p j
i 2 pi
Ui ,U j同时入样的概率为：
2 pi p j D (1 pi p j ) (1 2 pi )(1 2 p j )
每次抽取后抽中的单元不放回要求各单元的入样概率正比于规模测度ps抽样的概念修正概率修正概率数必须给一个修正概率在不同的抽取次抽样次数较多时确定修正概率很麻烦通常将总体分成许多层在每层使用样本量为2的ps抽样不等概不等概psps抽样的实现抽样的实现brewerbrewer抽样方法抽样方法抽取第一个样本单元以概率1963年由brewer提出大体思路设计好第一次抽取概率令第二次抽取概率正比实现步骤的入样概率表示不等概不等概psps抽样的实现抽样的实现抽取第二个样本单元时以概率单元为后不放回当第一个样取出第一个样本单元不等概不等概psps抽样的实现抽样的实现durbindurbin抽样方法抽样方法抽取第一个样本单元以概率大体思路第一次抽取概率正比于p调整第二次的抽取概率使总的入样概率正比于x实现步骤抽取第二个样本单元时以概率单元为后不放回当第一个样取出第一个样本单元不等概不等概psps抽样的实现抽样的实现不等概不等概psps抽样的实现抽样的实现sensenmidzunomidzuno抽样方法抽样方法抽取第一个样本单元以概率大体思路解决样本量超过2的麻烦使ii近似地正比于近似地正比于xxii实现步骤2从剩下的n1个单元中抽取容量为n1的简单随机样本不放回估估值值法法horvitzhorvitzthompsonthompson估计估计其均方偏差为的无偏估计是总体总估计抽样ps321htht估计估计总体总数总体总数yy的估计值为的估计值为估估值值法法无偏估计量为估计的均方偏差的两个定理htps322ijijsinghrao1973且较少负值较稳定通过大量模拟发现例

抽样调查：不等概率抽样

——Sampling with Probability Proportional to Size
总体单元 Yi 规模测度 Mi 0. 在抽取样本单元时，各单元被抽取的概率正比于Mi .
有放回PPS 抽样是常见的一种不等概率抽样方案。每次抽取，第i
单元Yi 被抽中的概率p i
正
比
于
M
响，只有 Mi m时它才入样，因此第 i 个单元入样的概率与
Mi的大小成正比，此时 Zi Mi M0
二、估值法
PPS抽样法的估值法的理论依据
定理3.1.1 在有放回PPS抽样下，
是总体总数Y
N
Yi
Yˆ PPS
的无偏估计.
பைடு நூலகம்
1 n
n
i 1
yi pi
i 1
( pi为第i个样本单元yi时的抽取概率，而不是总体中第i单元对应的抽取概率.)
i j ij
j
) yi
yj
,
v2 ( YˆHT
)
Nn
( i
j
ij
i1 ji
ij
) (
yi
i
yj
j
)2 .
注：两估计量均有可能取负值，通过模拟比较，v2较稳定且
较少取负值。
§3.3 Rao-Hartley-Cochran随机分群抽样
拉奥-哈特利-科克伦（1962）
设总体个体单元总数N nM k( 0 k n ) 1. 将总体随机分成n个群其中k个群有M 1个个体单元，n k个群有M个个体单元； 2. 在每一个群中，以正比于规模测度的概率抽取一个单元作为样本单元。
估计的均方偏差为：
V(Yˆ PPS
)

《抽样技术》第三讲等概率与不等概率抽样比较研究[学习课堂]

ij
n 1 N 1
N N
n 2
Zi*
Z
* j
n N
2 n
课件类别
27
2）布鲁尔法
样本单位是逐个抽取的.令
Zi
1 n
设第一个单位按与例的概率抽取。
Zi 1 Zi
1 nZi
成比
剩下的n-1个单位按与成比例的概率抽取
Zi 1 Zi 1 n r 1
Zi
,
因为 i nZi ，
r 2,3,L , n
B.按单位规模的大小决定入样的概率，使规模大的单位入样概率大，规模小的单位入样概率小。
课件类别
3
2）群大小不等的整群抽样 3）初级单位大小不同的阶段
抽样
4）等距抽样中的应用
课件类别
4
3. 优点与不足
1）优点：
比较有效地解决调查的总体单位与抽样的总体单位不一致、调查单位在总体中所占的比重不一致的问题。
?布鲁尔方法的包含概率为??112iiizzz??1jizz?2iiz????????1411212112ijijijniijiizzzzzzzz????????????????23课件类别令?可以写成??1112niiiizzdz?????ij?????1212111212ijijijijijijzzzzdzdzzzdzz?????????????????24课件类别总值估计?方差估计耶茨格伦迪森121212121?2bxxxxxzz??????????????21212121212?ygsbxxvx???????????????25课件类别2
第一个单位按 Zi 的概率抽取；
Zj
第二个单位按 1 Zi 的概率在余
下的N-1个单位中抽取；

07-第七章不等概率抽样

（7.4）
（7.5）
5
3. 若 n > 1 ，则
ˆ )= v(Y HH
n æ yi ˆ 1 ç - YHH å n(n - 1) i =1 ç è zi
ö ÷ ÷ ø
2
（7.6）
ˆ ) 的无偏估计。是 V (Y HH ˆ 的在证明上述性质以前，我们先就 PPS 抽样这种特殊情形，说明 Y HH
*
[1,24] 中的一个随机数为 9，由于 M 4 = 6 < 9 ，因此需要重抽。设第二次抽
到的一组随机数为 (7,15) ，则仍然不满足要求，还需要抽。若再次抽到的随机数组为 (2,8) ，则由于 M 2 = 10 > 8 ，故第 2 个单元被抽中。如此重复直到抽到 n 个单元（允许重复）为止。拉希里法适用于 N 很大的情况，因为它不需要列出如表 7.1 这样的表。 7.2.3 汉森——赫维茨估计量及其性质对于多项抽样，由于抽样是不等概率的，每个样本单元的观测值，因此对于总体参数的估计与等概率抽样 y1 , y 2 , , y n 就不再是“平等的” 不同。前已提到，这个估计也与样本单元 Z i 的取值 z1 , z 2 , , z n 有关。汉森 ——赫维茨（Hansen-Hurwitz）提到的对总体总和 Y 的估计如下：
Mi
8 10 17 6 24 9 5 7 4 10
累计 M i 8 18 35 41 65 74 79 86 90 100
代码 1~8 9~18 19~35 36~41 42~65 66~75 76~79 80~86 87~90 91~100
M 0 = 100
在 [1,100] 范围内产生 5 个随机数，设分别为 04，73，25，49 及 82，则第 1，第 6，第 3，第 5 及第 8 个单元即为抽中的单元。如果我们欲再增加一个样本单元，产生的随机数为 58，则又对应第 5 个单元，这个单元即为抽中两次。由于单元愈大，被赋予的代码数就愈多，因此每个单元入样的概

抽样技术(第5版)课件PPT课件第5章

抽样。如果超市的营业面积近似正比于超市的销
售额，那么超市A的销售额就占所有超市销售额
的1/16，因此超市A的销售额乘16可以近似的估
计所有超市的销售额。因此，样本量为1的不等
概率抽样的总体总量估计量为
෠ = ෍ = ෍
式中
∈
∈

1
1
=
=
(单元在样本中)
第二节放回不等概抽样
nn 1 i 1 mi M 0

s YˆHH v YˆHH
765404
2
174454

s YˆHH
174118
r t
1.96
=45%
757087
Yˆ
HH
相对误差达到20％时所需样本量对误差达到20％
时所需样本量nnnnnnn
n= 150
第二节放回不等概抽样
Z
Z
nm
n i 1 Z i
i 1 Z i
1

j
1

i
ij
i

它的一个无偏估计量为
v(Yˆ )
n
1 n ˆ2
1
2
2
ˆ
ˆ
ˆ
nY

Y

)
Y

Y
(
i
i

n n 1 i 1
n n 1 i 1

M i 1 Kij Yiju2

2
Y

Mi
1
常数K
nZi mi
f0
这里，f 0 为总体中任意一个二级单元被抽中的概率。如果f 事先确定，则

三阶段不等概率抽样设计

三阶段不等概率抽样设计
三阶段不等概率抽样设计是一种常用的抽样方法，用于从整体群体中选择代表性样本。

它将样本选择过程分为三个阶段，每个阶段的概率不等，具体步骤如下：
1. 第一阶段：按照一定的抽样概率，从总体中选择第一阶段的样本单元。

这可能涉及到某些抽样单元的非选择或重复选择，以达到样本的多样性。

2. 第二阶段：在第一阶段选择的样本单元中，按照一定的概率再次进行抽样，选择第二阶段的样本单元。

这个阶段的抽样概率可能与第一阶段有所不同，以达到更好的样本覆盖和精度。

3. 第三阶段：在第二阶段选择的样本单元中，按照一定的概率再次进行抽样，选择最终的样本个体。

同样，这个阶段的抽样概率可能与前两个阶段有所不同。

通过三阶段不等概率抽样设计，可以灵活地选择样本单元，并通过控制抽样概率来保证样本的代表性和可靠性。

这种设计方法在实际应用中可以更好地适应不同的调查需求和场景，提高样本选择的效果。

抽样技术第6章不等概率抽样

第6章不等概率抽样1 不等概率抽样原理等概率抽样通常容易设计和解释，但并不总是如不等概率抽样一样的可行、实用、有效。

因为等概率抽样(psu’s)可能导致方差很大（尤其是对于无偏估计量）、管理困难以及成本难以控制。

而不等概率抽样的特点是以不等概率抽取psu’s 、m i 的数目相同，因此不等概率抽样使得每一个样本被抽取的概率相等、调查成本可控、每一个初级样本单元（psu ）的样本数相等、方差急剧减小。

当采用不等概率抽样时，我们可以自由的调整选择不同初级样本单元（psu’s ）作为样本的概率，并在估计中补充合适的权重。

核心是选择一个给定单元的概率已知： πi =P(psu i), ψi = P(psu i on first sample)， ωi =1/πi1.1 抽取一个初级样本单元假定我们只要抽取N 个初级样本单元（psu ）中的一个作为样本（n=1）。

初级样本单元i 的总值用t i 表示，我们需要估计总体总值t.用抽取一个初级样本单元的简单例子来说明不等概率抽样的思想。

先来考虑一个所有总体已知的情形。

一个城镇拥有四个超市，从100平方米到1000平方米按面积大小排列。

通过抽取一个超市，来估计四个超市上个月的总营业收入。

你可能预期大超市比小超市的营业收入多而且大超市的收入波动性也明显大于小超市。

因为仅抽取一个超市,所以在第一个回合中一个超市被抽取的概率 ψi 等于这个超市包含在样本中的概率πi 。

即，πi = ψi =P(超市i 被选取),此概率与超市的面积成比例。

超市A 占四个超市总面积的1/16,则它被抽取的概率为1/16。

为了说明性目的，假定我们已知总体的所有总值t i ：我们可以以以上给定的概率选择一个容量为1的概率样本，通过洗散16张卡片并从中选择1张。

如果卡片数字为1，则选择超市A;如果卡片数字为2或3，则选择超市B;…… 在估计量中，我们通过使用 ψi 补充选取的不等概率权重。

如果超市面积与超市营业收入近似成比例，那么超市A 的营业收入在总收入的1/16,则可用超市A 的营业收入的16倍来估计四个超市的总收入。

抽样技术之不等概率抽样概述PPT(共 67张)

7
10
100
631 532~631
8
3.6
36
667 632~667
9
6
60
727 668~727
10
1.1
11
＝73.8
738
738 728~738
假设在[1,738] 中等概产生第一个随机数为354，再在[1,738]中产生第二个随机数为553，最后在[1,738]中产生第三个随机数为493，则它们所对应的第5，7，6号单元被抽中。
(sampling with unequal probabilities)。
不等概率抽样概述
2、抽样单元在总体中所占的地位不一致：例如：要反映某小麦品种的优良情况，以村作为抽样单位，但各村的种植面积不同，一些种植面积大的村庄在抽样中是否被抽中对推断总体的结果有很大影响，所以让“大单元” 被抽到的概率大，“小单元”被抽到的概率小，这样能够大大提高样本的代表性，减少抽样误差。
（有可能重复，只调查一次，但计算时按重复数计算）。
放回不等概率抽样实施方法
1.代码法
单元 i 单元大 Mi小
代码
1
M1
2
M2
1， 2， M1 M11，M12，，M1M2

N1
N1
N1
N
MN
Mj1，Mj2，，MjMNM0
j1
j1
j1
在PPS抽样中，赋予每个单元与Mi相等的代码数，将代码数累加得到M0，每次抽样都等概产生一个[1，M0]之间的随机数，设为m，代码m 所对应的单元被抽中。
不等概率抽样的特点
1、凡需使用不等概率抽样的场合，必须提供总体单元的某种辅助信息。例如：每个单元的“大小”度量Mi。注意：比估计和回归估计是估计方法用到了辅助信息，本章是抽样方法用到辅助信息.

非概率抽样

非概率抽样四种类型：就近抽样、目标式或判断式抽样、滚雪球抽样、配额抽样就近抽样（偶遇抽样、方便抽样、自然抽样）定义：是指研究者根据现实情况，以自己方便的形式抽取偶然遇到的人作为调查对象，或者仅仅选择那些离得最近的、最容易找到的人作为调查对象。

举例：为了调查某市的交通情况，研究者到离他们最近的公共汽车站，把当时正在那里等车的人选作调查对象。

其他类似的偶遇抽样还有：在街口拦住过往行人进行调查；在图书馆阅览室对当时正在阅读的读者进行调查；在商店门口、展览大厅、电影院等公众场所向进出往来的顾客、观众进行的调查；利用报刊杂志向读者进行调查；老师以他所教的班级的学生作为调查样本的调查等等。

与随机抽样的相似点：都排除了主观因素的影响，纯粹依靠客观机遇来抽取对象。

与随机抽样的不同点：偶遇抽样没有保证使总体中的每一个成员都具有同等的被抽中的概率。

那些最先被碰到的、最容易见到的、最方便找的对象具有比其他对象大得多得机会被我们抽中。

优缺点：优点——方便省力；缺点——样本的代表性差，有很大的偶然性，我们不能依赖偶遇抽样得到的样本来推论总体。

实例：“都市里的吉卜赛人——对武汉市外来务工、经商人员的调查”，《青年研究》2001年第6期，作者：刘玉、方洋、晏德光这篇文章根据实地调查,从生活、工作、社会帮助与保障、观念等几个方面对武汉市外来务工、经商人员的生活状态进行了初步的描述分析,发现文化水平对城市外来人口的收入情况影响不大,但是对观念有一定的影响。

方法：调查对象。

本次调查以武汉市外来务工、经商人员为对象。

具体做法如下：在武汉市外来务工、经商人员集中的地方(汉正街)的几条主街道发放调查问卷,由调查员按照非随机抽样中的偶遇抽样原则抽取一定的人员进行调查。

资料的收集方法。

本次调查问卷由58个问题组成,主要询问了外来务工、经商人员的基本社会特征、工作、收入与支出、观念、社会交往以及对现有生活的满意度等方面的问题。

实际发放问卷280份,回收有效问卷252份,有效回收率90 0%。

不等概率抽样的分类

估计量
对于放回不等概抽样，对总体总量的估计是汉森-赫维茨（Hansen-hurwitz）估计
YˆHH1ni n1
yi zi
M0 n
n yi m i1 i
例如：估计超市销售额， m：员工人数解释公式意义
V
(YˆH H
)
1 n
N
Z
i
(
Y Z
i i
Y
)2
v (YˆH H
)
1 n
n
( yi Zi
第五章不等概抽样
Sampling With Unequal Probabilities
每个单元入样的概率
？--------非概率，等概率，不等概
不等概率抽样的概念和特点放回不等概率抽样（重点）不放回不等概率抽样
不等概率抽样的概念和特点
前面讨论的简单随机抽样和分层随机抽样都是等概率抽样，即，每个总体单元都具有相同的入样概率。等概率抽样容易设计和解释，但实际中有时并非可行的，当总体单元之间差异不大时，简单随机抽样简单、有效。但是当总体单元之间（或抽样单元规模）差异非常大时，常采用不等概率抽样，即，每个单元入样的概率不相等。
度，减少抽样误差，但使用它也由条件，就是必须要有说明每个单元规模大小的辅助变量来确定每个单元入样的概率，这在抽样设计及估计时都是必须得。
不等概率抽样的分类
放回不等概抽样
代码法拉希里法
不放回不等概抽样
逐个抽取重抽法全样本抽取；样本量随机系统抽样法
放回不等概率抽样：
每次在总体中对每个单元按入样概率进行抽样，抽取出来的样本单元放回总体，然后进行下一次抽样，这样，每次抽样过程都是从同一个总体独立进行的，这种不等概率抽样称为（有）放回不等概率抽样

抽样技术不等概率抽样

抽样技术：不等概率抽样引言在统计学和数据分析中，抽样技术是一项重要的工具，用以从总体中选择一部分元素进行研究。

而抽样技术的核心就是如何从总体中选取样本，以保证样本能够准确地反映总体的特征。

其中一种常用的抽样技术是不等概率抽样。

不等概率抽样是指在抽取样本时，各个个体被选中的概率不相等。

与等概率抽样相比，不等概率抽样更能满足实际问题的需求，更能提高样本的效率和精确性。

本文将介绍不等概率抽样的原理、常用方法以及应用案例，希望能够帮助读者更好地理解和应用抽样技术。

不等概率抽样的原理不等概率抽样的原理基于概率论和统计学的基本原理。

在进行不等概率抽样时，需要根据总体的特征和研究目的，选择合适的抽样方法和样本选择概率，以使样本能够准确地反映总体。

不等概率抽样的核心在于赋予每个个体被选中的概率，也称为抽样概率。

抽样概率可以根据总体特征和研究目的进行选择，常见的选择方法包括：概率比例抽样、系统抽样、整群抽样等。

概率比例抽样是一种根据个体在总体中所占比例来确定抽样概率的方法。

具体而言，可以先计算出样本所需的个体数目，再根据各个个体在总体中的比例，分配相应的抽样概率。

这样可以保证样本能够按比例反映总体的特征。

系统抽样是一种按照一定规律选择样本的方法。

具体而言，可以在总体中确定一个起始点，然后以固定的间隔选择样本个体。

系统抽样具有简单方便、无需随机表和随机数的优点，常用于总体具有周期性分布的情况。

整群抽样是一种将总体划分为若干群体，然后随机选择部分群体进行抽样的方法。

这种方法适用于总体分布不均匀，但各群体内部相对均匀的情况。

通过整群抽样，可以减小样本误差，提高样本的代表性。

不等概率抽样的常用方法不等概率抽样有多种不同的方法和技术，根据实际问题的需求和样本特征的不同，可以选择合适的抽样方法。

以下将介绍几种常用的不等概率抽样方法。

简单随机抽样是不等概率抽样中最基本的方法之一。

简单随机抽样是指每个个体都有相等的被选中概率，且个体间的选择是相互独立的。

第六章不等概率抽样

1 n(n 1)
n ( yi z i 1 i
yHH )2
(7.7)
§2 不放回的不等概率抽样
上一节讲述了有放回不等概率抽样，无论从实施上还是从估计计算以及精度估计都显得十分方便。但是，一个单元被抽中两次以上总会使样本的代表性打折扣，从而引起抽样误差的增加。因此，实际调查工作者一般倾向于使用不放回形式。
M0Zi成为整数）。对于具整数 Mi的第 i 个单元赋予一个与 Mi
相等的代码数，见表7—1。
表7—1
pps 抽样时各单元的代码数
单元 i 单元大小Mi
代码数
1
M1
2
M2
1, 2, , M1
M1 1, M1 2, , M1 M2
N 1
N 1
N 1
N
MN
Mi 1, Mi 2, , Mi MN M0
样概率严格地与其“大小”成比例感兴趣，这就是所谓的ps
抽样。
1、包含概率 i , ij
不放回不等概率抽样中，总体中每个单元被包含到样本
的概率，即入样概率 i p(i)是个重要的概念，而且任意
两个单元包含到样本中去的概率ij p(i, j) 也是个重要的
“大小”，并记M0
N
i
1
Mi
则可取 Zi Mi M0
此时多项抽样体现了每次抽样时单元的入样概率与单元的大小成比例，即为pps抽样。
多项抽样是最简单的不等概率抽样，它的实施方法通常有两种，以pps抽样为例。
（1）代码法它适合于 N不太大的情形。假定所有的 Mi 为整数，倘若在实际中存在 Mi不是整数的话，则可以乘以一个倍数使一切 Mi为整数（对一般的多项抽样，也总可找到整数 M0 ，使一切

《抽样技术》第六章

包含概率πi与πij满足以下性质：
N
1. i n i 1
N
2. ij n 1i ji
3.
N i 1
N
ij
j i
1n 2
n 1
14
最感兴趣的是πi与单元大小Mi成比例的情形。若仍记Zi=Mi/M0，则有： πi=nZi 这种不放回的与(单元)大小成比例的概率抽样称为 πPS抽样。

n 1i 2
i1 i
n
yi2 2
i 1
n ij i j ji i j ij
yi y j
是V YˆHT 的无偏估计。
2
s2 YGS
YˆHT

n i 1
n j i
i j ij ij

yi
i

yj
j

也是V YˆHT 的无偏估计。
11
12
§6.3 不放回不等概率抽样
一、包含概率与πPS抽样二、霍维茨—汤普森估计量及其性质三、n=2的严格πPS抽样
13
一、包含概率与πPS抽样
在不放回抽样中，每个单元Yi被包含到样本的概率 πi=P(i)及任意两个单元(Yi, Yj)都包含到样本的概率 πij=P(i,j)通称为包含概率。抽取了n个单元的样本。
拉希里法适用于N很大的情况。
9
三、汉森—赫维茨估计量及其性质
汉森—赫维茨(Hansen-Hurwitz)提出的对总体总和Y的估计如
下：
YˆHH

1 n
n i 1
yi zi

汉森一赫维茨估计量 i=1,2,⋯,N，则
YˆHH
具有如下性质：若所有的Zi>0，

概率抽样和非概率抽样

一般在调查总体中每一个体都是同质时，才能采用此类方法。
（2）判断抽样
根据调查人员的主观经验从总体样本中选择那些被判断为最能代表总体的单位作样本的抽样方法
例如，要对安徽省旅游市场状况进行调查，有关部门选择黄山、九华山等旅游风景区做为样本调查，这就是判断抽样。
（3）自愿样本被调查者自愿参加，成为样本
当总体是由差异明显的几部分组成时，往往选择分层抽样的方法
• 例如，一个单位的职工有500人，其中不到 35岁有125人，35岁至49岁的有280人， 50岁以上的有95人.为了了解这个单位职工与身体状况有关的某项指标，要从中抽取一个容量为100的样本，由于职工年龄与这项指标有关，决定采用分层抽样方法进行抽取.因为样本容量与总体的个数的比为1： 5，所以在各年龄段抽取的个数依次为 125/5，280/5，95/5，即25，56，19。
☺☺☺☺☺
总体
☺ ☺ 随机
☺样☺本
（1）简单随机抽样
从总体N个单位中任意抽取n个单位作为样本, 使每个可能的样本被抽中的概率相等的一种抽样方式
每个样本单位被抽中的概率相等，样本的每个单位完全独立，彼此间无一定的关联性和排斥性
只适用于总体单位数量有限的情况，否则编号工作繁重；对于复杂的总体，样本的代表性难以保证；不能利用总体的已知信息等
2.非概率抽样
又称为不等概率抽样或非随机抽样，就是调查者根据自己的方便或主观判断抽取样本的方法
虽然根据样本调查的结果也可在一定程度上说明总体的性质、特征，但不能从数量上推断总体
方便抽样
判断抽样
自愿样本
非概率抽样
滚雪球抽样配额抽样
（1）方便抽样ห้องสมุดไป่ตู้

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Y )2
v(YˆHH
)
1 n
n
( yi Zi
YˆHH )2
(n 1)
v YˆHH
1 n
可以证明
1 n 1
n i 1
yi zi
YˆHH
2
n
M
2 0
n 1
n
yi
YˆHH
2
i1 mi M 0
E(YˆHH ) Y
E v(YˆHH ) V (YˆHH )
例5.2
某部门要了解所属8500家生产企业当月完成的利润，该部门手头已有一份去年各企业完成产量的报告，将其汇总得到所属企业去年完成的产量为3676万吨。考虑到时间紧，准备采用抽样调查来推算当月完成的利润。根据经验，企业的产量和利润相关性比较强，且企业的特点是规模和管理水平差异比较大，通常大企业的管理水平较高些，因此采用以与去年产量成比例的PPS抽样，从所属企业中抽出一个样本量为30的样本，
一、不等概抽样的必要性 *提高估计精度 *放回的PPS抽样简化方差计算
例如“水野法”抽样使得比估计为无偏估计量
应用条件：通常需要知道一个辅助变量，用以确定其入样的概率
入样概率不同是否导致估计偏差？
类型
放回不等概抽样不放回不等概抽样
逐个抽取重抽法全样本抽取；样本量随机系统抽样法
2拉希里方法
不需要累计，两次随机数决定抽中的单位。
第一次：1-N之间的随机数i 第二次： 1-maxM之间的随机数m 如果Mi> m,第i个单位被抽中
3不等概等距抽样
K＝M0/n
Ui Mi
M i 区域
1 88
2 20 28
3 40 68
...
...
.
.
.
1—8 9—28 29—68
. . .
第五章不等概抽样
Sampling With Unequal Probabilities
每个单元入样的概率
？--------非概率，等概率，不等概
例
O’Brien et al.(1995) 对Philadelphia地区的病人进行抽样，目的是了解病人对于医疗服务的偏好。目标总体是这一区域的所有注册的医院的病人。总共有294 家医院，27652个床位（抽样以前，研究人员只知道床位数，不知道病人数）。
Mi <k不重复 >k可能重复 >2k肯定重复
估计量
对于放回不等概抽样，对总体总量的估计是汉森-赫维茨（Hansen-hurwitz）估计
YˆHH
1 n
n i 1
yi zi
M0 n
n yi m i1 i
例如：估计超市销售额， m：员工人数解释公式意义
V
(YˆHH
)
1 n
N
Zi
(
Yi Zi
分层抽样：抽样选择概率小的单位会有较高的权数。
采用不等概率抽样来减少抽样方差而不采用清晰的分层。采用不同的概率来选择初级样本单元，并且在估计中采用不同的权数来进行弥补。
抽样的关键是每个样本的选择概率是已知的。
P(单元i在第一次抽取中被抽中）＝ i
P(单元i被选入样本）＝ i
场合：总体单元差异比较大时; 抽样审计; 多阶段的PSU.
等概率的抽取样本医院的缺点？
首先，可能医院中愿意接受CPR治疗的病人数量会正比与医院床位的数量，采用等概简单估计量可能会有大的方差。
其次，自加权的等概率样本可能难于管理。可能仅仅为了调查一两个病人就需要去一家医院，并且合理分配调查人员的工作负担也是比较困难的。
第三，调查成本在调查开始的时候是未知的---一个40个医院的样本可能包括了主要的大的医院，这会导致比预计更大的成本。
其他办法？
调查人员还可以采用与医院病床数量成比例的方法抽取57个医院，然后从每个样本医院中抽取30个简单随机样本床位。
如果病人数等于床位数，并且医院实际的床位数和抽样时依据的病床数据一致，每个病人是否有相同的入样概率？
而且成本在调查实施前是已知的，因为每个访员在每个医院访问的病人数量是相同的。而且，总体总量的方差可能更小。
145
3
1.5
15
4
13.7
137
5
7.8
78
6
15
150
7
10
100
8
3.6
36
9
6
60
10
1.1
11
M0 ＝738
738
一种多项抽样
Mi 100
累计 6
151 166 303 381 531 631 667 727 738
代码 1~6
7~151 152~166 167~303 304~381 382~531 532~631 632~667 668~727 728~738
二、放回的 PPS 抽样 (Probability Proportional to Size)
Ui Mi 18
M i 区域
8
1—8
Zi
Mi M0
Mi
N
Mi
i 1
2 20 28 3 40 68
9—28 29—68
也称PPZ
.
.
.
.
.
.
.
.
.
.
.
.
1代码法案例
i
Mi
Mi 100
1
0.6
6
2
14.5
6.20Biblioteka 510YˆHHM0 n
n i 1
yi mi
3676 30
10926 38.23
10926 38.23
1024 13.70
510 6.2
757087（元）
v YˆHH
M
2 0
n n 1
n yi i1 mi
YˆHH M0
2
s YˆHH v YˆHH 174118
i
mi
yi
i
1* 38.23 10926 10
mi
yi
i
6.50 1900 19
mi
1.50
yi
10
2 13.70 1024 11 15.00 864 20
8.00
80
3
0.75
13 12
7.00
17 21 28.42 13672
4
2.85
30 13 16.00 1045 22* 9.01 3845
5
2.00 1102 14 12.30 220 23
0.75
480
6
5.00
7 10.80
600 15 290 16
3.86 4600 24 15.80 2370 25
6.00 28.43
311 9284
8
2.00
430 17
9.00 940 26
9.97
842
9
8.81
992 18* 21.00 640 27
r
t
s YˆHH YˆHH
1.96 174118 757087
＝４５％
相对误差
相对误差达到20％时所需样本量？
n 0.45 2 30 152 0.2
二、不放回不等概抽样
Horvitz_Thompson 估计量
i , ij 的含义，
不放回的与单元大小成比例的概率抽样为πPS抽样

不等概抽样.ppt