抽样技术 7 不等概率抽样
(硕)《抽样技术》第三讲 等概率与不等概率抽样比较研究
三、严格的πPS抽样
n是固定的;一阶包含概率与单 是固定的; 位规模大小严格成比例, 位规模大小严格成比例,即
πi = nZi
1.当 n = 2 的情况下 1.当 布鲁尔估计法: 布鲁尔估计法: 要求: 要求:总体中最大的单位必须小 于全部单位大小总和的 1 2
记第一个被抽取的单位为i 记第一个被抽取的单位为i,第一个单位 成比例的概率抽取。 按与 Z i (1 − Z i ) 成比例的概率抽取。
设从总体中不放回地抽去 n 个 单位, 单位, 令 π i 为第 i 个单位入样的概率 (一阶包含概率). 一阶包含概率). π ij 为第 i 和第 j 个单位同时入 样的概率(二阶包含概率). 样的概率(二阶包含概率).
1. 霍维茨 汤普森估计量 霍维茨-汤普森 汤普森估计量
总体总值的估计量 X ˆ 估计量的方差为
2
( )
ˆ xi XHH M = ∑ m − M n ( n −1) i=1 i 0
第三节 不重复的 不等概率抽样
一、基本概念 1. πPS 抽样:不放回的与单元规模 抽样:
大小成比例的概率抽样称为严格的
πPS 抽样。 抽样。
2. 在不重复的不等概率抽样中,总 在不重复的不等概率抽样中, 体中的每个单位每次被抽中的概率 为 Zi 。
两个单位同时入样概率称为 二阶包含概率。 二阶包含概率。
包含概率的性质: 包含概率的性质:
(1)
∑π
i =1 N
N
i
=n = ( n − 1) π i
(2)
∑π
i≠ j N
ij
1 ∑∑i π ij = 2 n ( n − 1) (3) i =1 j >
N
抽样技术第七章整群抽样ppt课件
11
三、群内相关系数与设计效应
群内相关系数
c
E(Yij Y E(Yij
)(Yik Y Y )2
)
上式中的分子为
NM
(Yij Y )(Yik Y )
i1 jk
NM (M 1) 2
12
上式中的分母为
NM
i1
(Yij Y )2
j 1
NM
1S2
1N
1N
Y
M0
i1
Yij
j 1
M0
Yi
i1
M0
M iYi
i1
21
二、按简单随机抽样抽群
1.简单估计 2.比估计 3.总体比例的估计
22
1.简单估计
在大多数情形,群大小Mi是不相等的。此时,若Mi 相差不多,则仍可按§7.2中的方法处理,用平均群
大 则小这种M方法N1精iN1度M较i 差代。替M。反之,若Mi相差较多,
n
1 n
n 1 i1
yi y 2
1 f nM
sb2
其中f=n/N为抽样比。可见,sb2 是Sb2的无偏估计。
8
当n足够大时,总体均值Y 的置信度为1−α的置信区 间为:
y u 2s y
例7.1 在一次某城市居民小区居民食品消费量调查 中,以每个楼层(相当于居民小组)为群进行整群抽 样。每个楼层都有M=8个住户。用简单随机抽样在 全部N=510个楼层中抽取n=12个楼层。全部96个 样本户人均月食品消费额yij及按楼层的平均数yi 与 标准差si ,如下表所示。试估计该居民小区人均食 品消费额的户平均值 ,并给出其0.95的置信区间。
不等概率抽样
二、不等概率抽样的优点和局限性
(一)优点:能够大大提高抽样精度,减少抽样误差。
(二)局限性:必须具有能够说明单元规模大小的辅助变 量来确定各个单元的入样概率或包含概率。
三、不等概率的适用场合:总体单元之间的差异较大。
四、不等概率抽样分类:
我们最关心也是最重要的情形是抽样容量 n固定时, 单元入样的概率(不放回抽样)或每次抽样的概率(有放回 抽样)与单元的大小严格成比例。这种情况下的有放回抽样
( i
j
ij
)
Yi
i
Yj
j
2
(7.13)
3、几种严格的不放回 ps 抽样方法
前面已经指出,所谓“严格不放回 ps ”是指样本容量
n 固定,严格不放回、 i nZi 的抽样。仅介绍n=2的情形。
(1)Brewer(布鲁尔)方法(1963)
假设对所有 i,均有Zi
响,只有 Mi m时它才入样,因此第 i 个单元入样的概率与
Mi的大小成正比,此时 Zi Mi M0
2、Hansen-Hurwitz (汉森—赫维茨)估计量
若 y1 , y2 , , yn 是按 Zi为入样概率的多项抽样而得的样 本数据,它们相应的 Zi值自然记为 z1, z2 , , zn ,则对总
不等概率抽样调查的应用
PPS抽样方法的研究及其在我国农村居民消费支出估计的应用〔摘要〕不等概率抽样估计是一种十分有效的抽样推断方法,它在实践中有着广泛的应用,采用不等概率抽样修正等概率抽样,可以弥补抽样调查中等概率抽样估计的不足。
由于金融危机引起出口增长受阻,国内投资增长缓慢,城镇居民消费预期恶化且收入分配差距过大,农村有效需求的扩大成为备受关注的问题。
因此,有必要通过市场调查,了解和掌握我国农村居民的消费状况。
应用PPS 抽样方法对我国农村居民生活消费支出进行估计,可以得到相关数据,进而为制定有效的产业策略提供参考依据。
〔关键词〕PPS 抽样;Hansen-Hurvitz 估计量;农村居民消费支出一、引言近20多年来,我国经济连续高速增长主要是由投资带动的,而作为拉动经济增长的最重要的要素———消费需求却严重不足。
消费率是指最终消费额占GDP 的比重,消费率是衡量消费需求的一个重要指标。
如果消费率下降,那么表明消费需求不足,如果消费率上升,则表明消费需求扩张。
近年来,我国消费率数据也遵循了这一规律,最终消费占GDP的比重一直呈下降趋势。
市场经济改革以来,我国最终消费率持续下降,投资与消费增速的差距拉大。
1990我国最终消费率是62.5%,投资率34.9%,消费率高出投资率的27.6%。
2009年最终消费率降到4 8%,投资率是47.7%,消费率仅高出投资率0.3%。
据国外经验来看,在国外很多发达国家和发展中国家,他们的投资率一般在20%~30%左右,消费率一般在7 0%~80%左右。
对比中国的情况,投资率显著高于国外的平均水平,消费率也明显偏低。
目前,“三农”问题已经成为中央政府及有关各部门和理论界极为关注的热点问题。
消费是经济的原动力,消费、投资和净出口被誉为拉动经济增长的“三架马车”,其中消费的作用是最重要的。
当前,我国消费市场的形势并不乐观。
由于金融危机引起出口增长受阻,国内投资增长缓慢,城镇居民消费预期恶化且收入分配差距过大,在这种情况下,人们自然地将增加有效需求的注意力转向了农村。
抽样技术7不等概率抽样
抽样技术:7不等概率抽样1. 引言在进行数据分析和统计研究时,抽样是一种常用的技术。
抽样技术允许我们从总体中选择一个样本,以便推断总体的性质。
在抽样技术中,不等概率抽样是一种常见的方法,它允许我们以非均匀的概率抽取样本。
本文将介绍关于7种不等概率抽样方法的详细信息。
2. 简单随机抽样简单随机抽样是最根本的抽样方法之一,它要求每个个体被选中的概率相等且任意组合都是可能的。
然而,在某些情况下,简单随机抽样可能并不适用,例如当总体分布不均匀时,或者我们希望在样本中增加一定的多样性。
这时,我们可以考虑使用不等概率抽样方法。
3. 整群抽样整群抽样是一种不等概率抽样方法,它将总体划分为假设干个互不重叠的群组〔或称为簇〕,然后从每个群组中抽取样本。
整群抽样可以有效地减少抽样过程中的复杂性,并提高样本的效率。
整群抽样常用于调查社会群体或大型组织等场景。
4. 分层抽样分层抽样是一种根据总体特点进行划分的抽样方法,它将总体划分为假设干个层级或相似的子群〔层〕,然后从每个层中抽取样本。
通过分层抽样,我们可以保证样本在各层中的分布情况与总体相似,从而更为准确地推断总体的特征。
5. 系统抽样系统抽样是一种按照固定间隔选择样本的抽样方法。
它类似于简单随机抽样,但是通过定义一个间隔,我们可以按照一定的规律抽取样本。
例如,我们可以在总体中选取每隔一定数量的个体作为样本。
系统抽样在样本大小较大时表现出较高的效率。
6. 按比例分层抽样按比例分层抽样是一种常用的不等概率抽样方法,它根据总体各层的比例确定各层的样本容量。
比例分层抽样可以使得样本在各层中的分布与总体的比例相对应。
这种抽样方法适用于总体中的各个层存在不同比例的情况。
7. 两阶段抽样两阶段抽样是一种复杂的不等概率抽样方法,它将抽样过程分为两个阶段。
在第一阶段,我们从总体中选择一局部群组〔或称为簇〕,在第二阶段,我们从每个群组中抽取一定数量的样本。
两阶段抽样适用于总体较大或分布复杂的情况下,可以提高抽样的效率。
不等概率抽样的概念和特点
(1)将总体单元按规模分层,对较大单元的层抽样比高一些,特大层的 抽样比甚至可以100%,而较小单元的层抽样比低一些。
(2)采用不等概抽样来减少抽样方差,即赋予每个单元与其规模成比例 的入样概率,然后在估计中采用不同的权数来进行弥补。
分层抽样:抽样选择概率小的单位会有较 高的权数。
n
N
Wi yi n
yi
又如,对于霍维茨——汤普森估计量
YˆHT
yi
i
在入选概率与规模成比例条件下,
的性质为
i
i
nZi
则
YˆHT
n
yi nZ i
1 n
n
yi Zi
YˆHH
πPS抽样的实施
n=2条件下严格的πPS抽样
布鲁尔方法 德宾方法
n >2条件下严格的πPS抽样
inijninn???1?????ininiihtywyy??????iiw?1?n固定条件下的包含概率第i单位入样概率第ij单位都入样概率21kin1in1inikkikiik2iiiyyy1?kkininikiikkihtyyyv???????????????????????????????????????sskkkii2is2iiyy2y1?iikikkiihtyv?????????kkiiik2sksk?kkiiiiikikkihtyyyv??????????????2?jjiinijijjinhtyyy????????????hty?是y的无偏估计i1ji?hty?是?htyv的无偏估计hhy?ppshty?ps其他公式在某种程度上可用这两个公式表现
2拉希里方法
不需要累计,两次随机数决定抽中的单位。 第一次:1-N之间的随机数i 第二次: 1-maxM之间的随机数m 如果Mi> m,第i个单位被抽中
抽样技术第6章不等概率抽样
不等概率抽样
不等概率抽样是抽样调查中一个重要 的方法,如当所要研究的总体单元规模相 差很大,采用不等概率抽样可以提高估计 的精度,减少抽样误差。本文首先介绍不 等概率抽样原理,并以抽取一个初级样本 单元psu(n=1)为例,介绍其思想;然后考 虑抽取多个初级样本单元(n>1),分别详 细讨论采用有放回和无放回方法得到的估 计量的均值和方差。
• 令 为第i个psu中元素个数,K为总体中
元素个数,则
。有了概率 ,我
们得到pps抽样。对于一阶段pps抽样,
所以:
3.两阶段有放回抽样
• 两阶段有放回的不等概率抽样的估计量与 一阶段的相同。具体的,有放回的抽取一 些psu’s,以已知概率 抽取第i个psu。 如一阶段抽样一样, 是在样本中出现的 次数。然后在第i个psu中,抽取一个 子单元的概率样本。虽然其他任何概率抽 样方法都可用,无放回的简单随机抽样或 系统抽样通常用于选取子样本。
• 两阶段有放回抽样和一阶段有放回抽样的 唯一区别在于:在两阶段抽样中,我们需 要估计 。如果psu i在样本中出现多次, 则会产生 个总体估计值:
• 子样本抽样程序必须满足两个要求:
①无论何时被抽取作为样本,同样的子样本 抽样设计用于从这个中选取第二个子样本, 即ssu’s。虽然是从同一个抽取不同的子样 本,但必须是独立的抽取。
单元i在至少一次在样本中的总概率为:
• 这样,不等概率抽样思想变得非常简单。 有放回抽取n个psu’s。然后估计总体总值, 使用前部分的估计量,独立的抽取每一个 初级样本单元(psu)。有些psu’s可能被抽 取多次,使用一个给定psu计算的总体总值
包括的次数跟psu被抽取的次数一样多。因 为psu’s被有放回地抽取,所以我们可得到n 个独立的总体总值估计值。则我们去这n个
抽样调查:不等概率抽样
总体单元 Yi 规模测度 Mi 0. 在抽取样本单元时,各单元被抽取的概率正比于Mi .
有放回PPS 抽样是常见的一种不等概率抽样方案。每次抽取,第i
单 元Yi 被 抽 中 的 概 率p i
正
比
于
M
响,只有 Mi m时它才入样,因此第 i 个单元入样的概率与
Mi的大小成正比,此时 Zi Mi M0
二、估 值 法
PPS抽样法的估值法的理论依据
定理3.1.1 在有放回PPS抽样下,
是总体总数Y
N
Yi
Yˆ PPS
的无偏估计.
பைடு நூலகம்
1 n
n
i 1
yi pi
i 1
( pi为第i个样本单元yi时的抽取概率,而不是总体中第i单元对应的抽取概率.)
i j ij
j
) yi
yj
,
v2 ( YˆHT
)
Nn
( i
j
ij
i1 ji
ij
) (
yi
i
yj
j
)2 .
注:两估计量均有可能取负值,通过模拟比较,v2较稳定且
较少取负值。
§3.3 Rao-Hartley-Cochran随机分群抽样
拉奥-哈特利-科克伦(1962)
设总体个体单元总数N nM k( 0 k n ) 1. 将总体随机分成n个群 其中k个群有M 1个个体单元,n k个群有M个个体单元; 2. 在每一个群中,以正比于规模测度的概率抽取一个单元 作为样本单元。
估计的均方偏差为:
V(Yˆ PPS
)
抽样技术7不等概率抽样
M0
M2 0
例 某企业欲估计上季度每位职工的平均病假天数。该 企业共8个分厂,现用不等概整群抽样拟抽取3个分厂, 并以置信度95%计算其置信区间。
分厂编号
职工人数 Mi
累积区间
1
1200
1-1200
2
450
1201-1650
3
2100
1651-3750
4
860
3751-4610
5
2840
4611-7450
17 21
15.00 1045 22*
12.30 220 23
3.86 4600 24 15.80 2370 25
9.00 21.00
940 26 640 27
mi
yi
1.50
10
8.00
80
28.42 13672
9.01 3845
0.75
480
5.00 28.43
311 9284
9.97
842
5.20
放回不等概率抽样对总体特征的估计
三、Hansen-Hurwitz(汉森-郝维茨)估计量及其性质:
样本单元被抽中的概率z1, ,zn ,则对总体总量Y的估计是
YˆHH
1 n
n i 1
yi zi
(1)E(YˆHH ) Y
(2)V (YˆHH )
1 n
N i 1
Zi
(
Yi Zi
Y )2
(3)v(YˆHH )
其中第2、19号被抽中两次
解:根据题中所给资料,n=30,M0=9542, 利用汉森-郝维茨估计量,则有:
YHH
1 n
n 1
yi M 0 zi n
不等概率抽样问题的研究
不等概率抽样问题研究目录摘要 (1)1 不等概率抽样方法的介绍 (2)1.1 不等概率抽样估计的定义 (2)1.2 不等概率抽样 (2)1.2.1 放回不等概率抽样 (2)1.2.2 不放回不等概率抽样 (5)2 结论 (9)谢辞 (11)参考文献 (12)不等概率抽样问题研究李娟指导教师:苗刚摘要:在实际抽样中,我们常常遇到很多不同的情况,对于不同的情况我们也会采用不同的抽样方法进行研究。
常用的抽样方法主要有等概率抽样与不等概率抽样。
本文将针对不等概率抽样问题进行研究。
关键词:抽样;不等概率;样本;指标在现实生活中,由于现实的局限性,我们常常需要对总体进行抽样估计,抽样估计的方法也是多种多样。
在实际运用中,我们常常会发现运用等概率抽样方法来对总体指标进行估计时会出现单位均值估计不足的缺陷,那么我们应该如何改变这种现状,以提高抽样估计的效率呢?随着抽样调查在我国应用领域的不断扩展,很多学者对于抽样调查中等概率抽样估计的不足提出了建议。
他们提议如果我们运用不等概率抽样方法对总体指标进行估计,那么这些问题将迎刃而解。
1 不等概率抽样方法的介绍1.1 不等概率抽样估计的定义不等概率抽样估计,也就是大单位赋予大的入样概率,小单位赋予小的入样概率,入样概率一般与单位规模大小成正比。
1.2不等概率抽样方法的分类不等概率抽样方法按不同的分类方法可以分成许多不同的类型。
但最主要的分类方法是按抽样过程中被抽到的单位是否被放回总体中进行分类,分为放回不π。
等概率抽样)psPPS和不放回不等概率抽样()(抽样抽样1.2.1 放回不等概率抽样所谓放回不等概率抽样,是指在抽样之前就给总体中每一个单位赋予一个确定的抽样概率,在放回抽样的每一次抽取中,每个单位被抽中的概率都不变,直到抽够n个样本单位为止,对于放回不等概率抽样,由于每次抽取时总体的分布都不变,所以各次抽取是相互独立的,因此,无论抽样的实施,还是目标量的估计,都特别简单,这是这种抽样方法的最大优点。
不等概率抽样的分类
估计量
对于放回不等概抽样,对总体总量的估计 是汉森-赫维茨(Hansen-hurwitz)估计
YˆHH1ni n1
yi zi
M0 n
n yi m i1 i
例如:估计超市销售额, m:员工人数 解释公式意义
V
(YˆH H
)
1 n
N
Z
i
(
Y Z
i i
Y
)2
v (YˆH H
)
1 n
n
( yi Zi
第五章 不等概抽样
Sampling With Unequal Probabilities
每个单元入样的概率
?--------非概率,等概率,不等概
不等概率抽样的概念和特点 放回不等概率抽样(重点) 不放回不等概率抽样
不等概率抽样的概念和特点
前面讨论的简单随机抽样和分层随机抽样都是等概率抽样, 即,每个总体单元都具有相同的入样概率。等概率抽样容 易设计和解释,但实际中有时并非可行的,当总体单元之 间差异不大时,简单随机抽样简单、有效。但是当总体单 元之间(或抽样单元规模)差异非常大时,常采用不等概 率抽样,即,每个单元入样的概率不相等。
度,减少抽样误差,但使用它也由条件,就是必 须要有说明每个单元规模大小的辅助变量来确定 每个单元入样的概率,这在抽样设计及估计时都 是必须得。
不等概率抽样的分类
放回不等概抽样
代码法 拉希里法
不放回不等概抽样
逐个抽取 重抽法 全样本抽取;样本量随机 系统抽样法
放回不等概率抽样:
每次在总体中对每个单元按入样概率进行抽样,抽取出来的 样本单元放回总体,然后进行下一次抽样,这样,每次抽 样过程都是从同一个总体独立进行的,这种不等概率抽样 称为(有)放回不等概率抽样
抽样技术不等概率抽样
抽样技术:不等概率抽样引言在统计学和数据分析中,抽样技术是一项重要的工具,用以从总体中选择一部分元素进行研究。
而抽样技术的核心就是如何从总体中选取样本,以保证样本能够准确地反映总体的特征。
其中一种常用的抽样技术是不等概率抽样。
不等概率抽样是指在抽取样本时,各个个体被选中的概率不相等。
与等概率抽样相比,不等概率抽样更能满足实际问题的需求,更能提高样本的效率和精确性。
本文将介绍不等概率抽样的原理、常用方法以及应用案例,希望能够帮助读者更好地理解和应用抽样技术。
不等概率抽样的原理不等概率抽样的原理基于概率论和统计学的基本原理。
在进行不等概率抽样时,需要根据总体的特征和研究目的,选择合适的抽样方法和样本选择概率,以使样本能够准确地反映总体。
不等概率抽样的核心在于赋予每个个体被选中的概率,也称为抽样概率。
抽样概率可以根据总体特征和研究目的进行选择,常见的选择方法包括:概率比例抽样、系统抽样、整群抽样等。
概率比例抽样是一种根据个体在总体中所占比例来确定抽样概率的方法。
具体而言,可以先计算出样本所需的个体数目,再根据各个个体在总体中的比例,分配相应的抽样概率。
这样可以保证样本能够按比例反映总体的特征。
系统抽样是一种按照一定规律选择样本的方法。
具体而言,可以在总体中确定一个起始点,然后以固定的间隔选择样本个体。
系统抽样具有简单方便、无需随机表和随机数的优点,常用于总体具有周期性分布的情况。
整群抽样是一种将总体划分为若干群体,然后随机选择部分群体进行抽样的方法。
这种方法适用于总体分布不均匀,但各群体内部相对均匀的情况。
通过整群抽样,可以减小样本误差,提高样本的代表性。
不等概率抽样的常用方法不等概率抽样有多种不同的方法和技术,根据实际问题的需求和样本特征的不同,可以选择合适的抽样方法。
以下将介绍几种常用的不等概率抽样方法。
简单随机抽样是不等概率抽样中最基本的方法之一。
简单随机抽样是指每个个体都有相等的被选中概率,且个体间的选择是相互独立的。
非概率抽样方式
非概率抽样方式(三)非概率抽样方式非概率抽样,又称为不等概率抽样或非随机抽样,是调研者根据自己的方便或主观判断抽取样本的方法。
主要有偶遇抽样、主观抽样、滚雪球抽样、、定额抽样等类型。
1.偶遇抽样,也称就近抽样、方便抽样或自然抽样。
它是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象。
其优点是方便省力,其缺点是样本的代表性差,,有很大的偶然性。
2.主观抽样,也称目标式抽样、判断式抽样或立意抽样。
它是调查者根据自己的主观分析,来选择和确定调查对象的方法;。
主观抽样取得的样本.其代表性取决于研究者对总体的了解程度和判断能力。
主观抽样的优点是,可以充分发挥研究人员的主观能动性,其缺点是,样本的代表性难以判断,不能推论。
3.滚雪球抽样。
当我们无法了解总体情况时,可以从总体中的少数成员入手。
对他们进行调查向他们询问还知道哪些符合条件的人,再去找那些人并询问他们知道的人,如同滚雪球一样。
我们可以找到越来越多具有相同性质的群体成员。
4.定额抽样。
定额抽样从对总体性质的了解开始,在某一总体中考虑具有某种属性的人数所占的比例,然后从具有这种属性的人群中收集数据,并按各类人在总体中的比例赋予它的适当的比重。
这样收集数据,从理论上讲应当能够代表总体。
这种方法存在的问题是:定额的比例必须精确,但由于最新的关于总体性质变化的信息并不容易得到,往往造成抽样中的偏差。
(四)抽样中的误差问题进行抽样调查可产生两类误差,一类是抽样误差,另一类是非抽样误差。
1.抽样误差:由抽样的随机性产生,属于随机误差抽样误差是指主要指样本平均数与总体平均数之差、样本比率与总体比率之差。
抽样误差中通常运用最多的抽样平均误差,即指样本平均数或样本比率的标准差。
在重复抽样条件下,(1)样本平均数的抽样平均误差公式为其中, 为总体标准差,n为样本个案数。
(2)样本比率的抽样平均误差公式为:其中,P为总体比率,n为样本个案数实际计算时,则以样本标准差代替总体标准差,以样本比率代替总体比率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉森-赫维茨估计量估计给出总体总量的估计, 如果对总体均值估计可按下公式:
假设M 0是总体规模大小的度量
Y HH
Y HH 1 n yi M 0 M 0 n i 1 zi
n yi 1 2 v(Y HH ) 2 ( Y ) HH M 0 n(n 1) i 1 zi
6
放回不等概抽样
PPS抽样:有放回的不等概抽样
设总体包含N 个单元,M i是第i个单元的大小或规模的度量, i 1, ,N,总体的总规模度量为:M 0 M i
i 1 N Mi 则第i个单元的抽选概率为:Z i 0, Z i 1 M0 i 1 N
即抽样概率正比于规模度量,一次抽完后再放回,进行下 一次抽取。独立地进行这样的抽样n次,共抽到n个单元 (有可能重复,只调查一次,但计算时按重复数计算)。
因为是放回抽样,所以是独立样本,数理统计的结 论可以在这里应用。
对上述结论加以说明:
独立同分布样本 抽中概率 新变量 t
n
y1 z1 y1/ z1
i
y2 z2 y2 /z2
… … …
yn zn yn/zn
样本均值 t
t
i 1
n
1 n yi ˆ Y HH n i 1 zi
ˆ )的无偏估计量为: V ()即 t V (Y HH
i
mi
yi
i
mi
yi
i
mi
yi
1*
2 3 4 5 6 7 8
38.23
13.70 0.75 2.85 2.00 5.00 10.80 2.00
10926
1024 13 30 1102 600 290 430
10
11 12 13 14 15 16 17
5.50
15.00 7.00 15.00 12.30 3.86 15.80 9.00
令M max M i
1i N
每次从 1,N 中简单随机地抽取一随机数a, 同时再独立从 1,M 中简单随机地抽取一随机数b。 若b M a , 则第a个单元入样,若b M a则重抽。 第i个单元被抽中的概率: 1 Mi zi =p{a=i,b M i }=p{a=i} p{b M i }= . N M 显然,zi M i
放回不等概率抽样实施方法 1.代码法
单元i 单元大小M i 1 2 N M1 M2 MN
代码 1, 2, M 1 M 1 1,M 1 2, ,M 1 M 2
M
j1
N 1
j
1, , M j 2, M j MN M0
j1 j1
N 1
N 1
累计 6 151
代码 1~6 7~151
3
4 5 6 7
1.5
13.7 7.8 15 10
15
137 78 150 100
166
303 381 531 631
152~166
167~303 304~381 382~531 532~631
8
9 10
3.6
6 1.1 =73.8
36
60 11 738
667
1900
864 17 1045 220 4600 2370 940
19
20 21 22* 23 24 25 26
1.50
8.00 28.42 9.01 0.75 5.00 28.43 9.97
10
80 13672 3845 480 311 9284 842
9
8.81
992
18*
21.00
640
27
5.20
727 738
632~667
668~727 728~738
假设在[1,738] 中等概产生第一个随机数为354,再在[1,738]中产生第二 个随机数为553,最后在[1,738]中产生第三个随机数为493,则它们所对 应的第5,7,6号单元被抽中。
例:假设有10个乡,每个乡的村庄数不同,按pps抽3个乡 乡 1 2 3 村庄数Mi 累计 5 5 28 26 33 59 代码 1~5 6~33 34~59 结合一下整群抽样、 多阶段抽样
不等概率抽样的特点
1、凡需使用不等概率抽样的场合,必须提供总体单
元的某种辅助信息。 例如:每个单元的“大小”度量Mi。注意:比估计 和回归估计是估计方法用到了辅助信息,本章是抽 样方法用到辅助信息.
2、不等概率抽样的主要优点是由于使用了辅
助信息,提高了抽样策略的统计效率, 能 显著地减少抽样误差。
i 1 2 3 4 5 6 7 8 9 10
mi 15 23 9 29 8 31 24 29 13 19
yi 75 134 37 152 45 185 133 173 74 87
i 11 12 13 14 15 16 17 18 19 20
mi 40 32 17 26 11 36 25 5 38 42
95422 75 56163 2 134 56163 2 177 56163 2 [( ) ( ) 2 ... ( ) ] 30 29 15 9542 23 9542 30 9542 2806070 ˆ ) 1675 v(Y (头) HH
例5.2:某部门要了解所属8500家生产企业当月 完成的利润,该部门手头已有一份去年各企 业完成产量的报告,将其汇总得到所属企业 去年完成的产量为3676万吨。考虑到时间紧, 准备采用抽样调查来推算当月完成的利润。 根据经验,企业的产量和利润相关性比较强, 且企业的特点是规模和管理水平差异比较大, 通常大企业的管理水平较高些,因此采用与 去年产量成比例的PPS抽样,从所属企业中抽 出一个样本量为30的样本。
不等概率抽样的分类
放回不等概抽样:按照总体单元的规模大小来确定在每次抽 中的概率。抽取后放回总体,再进行下一次抽样,每次抽 样都是独立的。这种抽样称为放回不等概抽样(sampling with probabilities proportional to sizes,简称PPS抽样) • 不放回的不等概抽样:每次在总体中对每个单元按入样概 率进行抽样,抽出的样本不再放回总体,因此,在抽取了 第一个单元后,余下的单元再以什么概率被抽取就较复杂。 这种抽样不是独立的,无论是抽样方法还是方差估计,都 要比放回抽样繁复得多。不放回抽样通常称为πPS抽样。
拉希里法抽样举例: 例5.1中,M=150,N=10.在[1,10],[1,150] 中分别产 生( i,m)如下: 第一次 (3,121) , M3=15<121, 舍弃,重抽 ; 第二次(8,50),M8=36<50, 舍弃,重抽 ;
第三次 (7,77) , M7=100>77, 第7号单元入样;
4
5 6 7 8
14
10 38 7 50
73
83 121 128 178
60~73
74~83 84~121 122~128 129~178
9
10
2
8
180
188
179~180
181~188
放回不等概率抽样实施方法 2.拉希里法(二次抽取法)(统计学家Lahiri最先提出): 设 M1, M2,…MN为单元的规模
样本单元被抽中的概率z1, ,zn , 则对总体总量Y的估计是
n 1 ˆ yi Y HH n i 1 zi ˆ ) Y (1) E (Y HH N Yi 1 ˆ (2)V (YHH ) Z i ( Y ) 2 n i 1 Zi n yi ˆ 2 1 ˆ ) ˆ )的无偏估计。 (3)v(Y ( YHH ) 是V (Y HH HH n(n 1) i 1 zi
第四次(5,127),M5=78<127, 舍弃,重抽 ; 第五次 (4,77), M4=137>77, 第4号单元入样; 第六次(9,60),M9=60≥60, 第9号单元入样; 因此第4,7,9号单元被抽中。
放回不等概率抽样对总体特征的估计 三、Hansen-Hurwitz(汉森-郝维茨)估计量及其性质:
yi 258 186 69 156 49 221 145 33 288 304
i 21 22 23 24 25 26 27 28
mi 19 26 37 21 7 43 18 30
yi 124 160 215 104 49 336 96 177
其中第2、19号被抽中两次
解:根据题中所给资料,n=30,M0=9542, 利用汉森-郝维茨估计量,则有:
Y HH 1 n yi M 0 n 1 zi n yi 1 mi
n
9542 75 134 177 ( 2 ... ) 56163(头) 30 15 23 30
2 n n y M yi ˆ 2 1 2 i 0 ˆ ) ˆ v(Y ( Y ) = ( YHH ) HH HH n(n 1) i 1 zi n(n 1) i 1 mi
不等概率抽样概述
2、抽样单元在总体中所占的地位不一致:例 如:要反映某小麦品种的优良情况,以村作 为抽样单位,但各村的种植面积不同,一些 种植面积大的村庄在抽样中是否被抽中对推 断总体的结果有很大影响 ,所以让“大单元” 被抽到的概率大,“小单元”被抽到的概率 小,这样能够大大提高样本的代表性,减少 抽样误差。
在PPS抽样中,赋予每个单元与Mi相等的代码 数,将代码数累加得到M0,每次抽样都等概产 生一个[1,M0]之间的随机数,设为m,代码m 所对应的单元被抽中。
例5.1 设某个总体有10个单元,相应的单元大小及其代码 数如下表,在其中产生一个n=3的样本。
i
1 2
Mi
0.6 14.5
Mi*10
6 145