抽样调查:不等概率抽样
不等概率抽样调查的应用
![不等概率抽样调查的应用](https://img.taocdn.com/s3/m/19185e28b4daa58da0114a47.png)
PPS抽样方法的研究及其在我国农村居民消费支出估计的应用〔摘要〕不等概率抽样估计是一种十分有效的抽样推断方法,它在实践中有着广泛的应用,采用不等概率抽样修正等概率抽样,可以弥补抽样调查中等概率抽样估计的不足。
由于金融危机引起出口增长受阻,国内投资增长缓慢,城镇居民消费预期恶化且收入分配差距过大,农村有效需求的扩大成为备受关注的问题。
因此,有必要通过市场调查,了解和掌握我国农村居民的消费状况。
应用PPS 抽样方法对我国农村居民生活消费支出进行估计,可以得到相关数据,进而为制定有效的产业策略提供参考依据。
〔关键词〕PPS 抽样;Hansen-Hurvitz 估计量;农村居民消费支出一、引言近20多年来,我国经济连续高速增长主要是由投资带动的,而作为拉动经济增长的最重要的要素———消费需求却严重不足。
消费率是指最终消费额占GDP 的比重,消费率是衡量消费需求的一个重要指标。
如果消费率下降,那么表明消费需求不足,如果消费率上升,则表明消费需求扩张。
近年来,我国消费率数据也遵循了这一规律,最终消费占GDP的比重一直呈下降趋势。
市场经济改革以来,我国最终消费率持续下降,投资与消费增速的差距拉大。
1990我国最终消费率是62.5%,投资率34.9%,消费率高出投资率的27.6%。
2009年最终消费率降到4 8%,投资率是47.7%,消费率仅高出投资率0.3%。
据国外经验来看,在国外很多发达国家和发展中国家,他们的投资率一般在20%~30%左右,消费率一般在7 0%~80%左右。
对比中国的情况,投资率显著高于国外的平均水平,消费率也明显偏低。
目前,“三农”问题已经成为中央政府及有关各部门和理论界极为关注的热点问题。
消费是经济的原动力,消费、投资和净出口被誉为拉动经济增长的“三架马车”,其中消费的作用是最重要的。
当前,我国消费市场的形势并不乐观。
由于金融危机引起出口增长受阻,国内投资增长缓慢,城镇居民消费预期恶化且收入分配差距过大,在这种情况下,人们自然地将增加有效需求的注意力转向了农村。
抽样调查第3章 不等概抽样
![抽样调查第3章 不等概抽样](https://img.taocdn.com/s3/m/2301a003a8114431b90dd823.png)
N
i
2、对自然数集合{ 1,2, … , X }作有放回简单随机抽 样,根据抽得随机数a决定入样单元.若
a {1,2,, X1}, 则第一个单元入样
若a { X j 1, X j 2,, X j },
j 1 j 1 j 1 i 1 i 1 i
则第i个单元入样,i =2,3,…, N 3、重复2,直至抽得n个单元.
不等概πPS抽样的实现
实现步骤
2、取出第一个样本单元后不放回,当第一个样本 单元为U j时,以概率pi抽取第二个样本单元 pi pi (i j ) 1 p j
i 2 pi
Ui ,U j同时入样的概率为:
2 pi p j D (1 pi p j ) (1 2 pi )(1 2 p j )
每次抽取后抽中的单元不放回要求各单元的入样概率正比于规模测度ps抽样的概念修正概率修正概率数必须给一个修正概率在不同的抽取次抽样次数较多时确定修正概率很麻烦通常将总体分成许多层在每层使用样本量为2的ps抽样不等概不等概psps抽样的实现抽样的实现brewerbrewer抽样方法抽样方法抽取第一个样本单元以概率1963年由brewer提出大体思路设计好第一次抽取概率令第二次抽取概率正比实现步骤的入样概率表示不等概不等概psps抽样的实现抽样的实现抽取第二个样本单元时以概率单元为后不放回当第一个样取出第一个样本单元不等概不等概psps抽样的实现抽样的实现durbindurbin抽样方法抽样方法抽取第一个样本单元以概率大体思路第一次抽取概率正比于p调整第二次的抽取概率使总的入样概率正比于x实现步骤抽取第二个样本单元时以概率单元为后不放回当第一个样取出第一个样本单元不等概不等概psps抽样的实现抽样的实现不等概不等概psps抽样的实现抽样的实现sensenmidzunomidzuno抽样方法抽样方法抽取第一个样本单元以概率大体思路解决样本量超过2的麻烦使ii近似地正比于近似地正比于xxii实现步骤2从剩下的n1个单元中抽取容量为n1的简单随机样本不放回估估值值法法horvitzhorvitzthompsonthompson估计估计其均方偏差为的无偏估计是总体总估计抽样ps321htht估计估计总体总数总体总数yy的估计值为的估计值为估估值值法法无偏估计量为估计的均方偏差的两个定理htps322ijijsinghrao1973且较少负值较稳定通过大量模拟发现例
不等概率抽样
![不等概率抽样](https://img.taocdn.com/s3/m/c03f655df46527d3240ce0f9.png)
不等概率抽样引例: O ’Brien et al. (1995) 对Philadelphia 地区的病人进行抽样, 目的是了解病人对于医疗服务的偏好。
目标总体是这一区域的所有注册的医院的病人。
总共有294家医院,27652个床位(抽样以前,研究人员只知道床位数,不知道病人数)。
等概率的抽取样本医院的缺点? 首先,可能医院中愿意接受CPR 治疗的病人数量会正比与医院床位的数量,采用等概率简单估计量可能会有大的方差。
其次,自加权的等概率样本可能难于管理。
可能仅仅为了调查一两个病人就需要去一家医院,并且合理分配调查人员的工作负担也是比较困难的。
第三,调查成本在调查开始的时候是未知的,一个40个医院的样本可能包括了主要的大的医院,这会导致比预计更大的成本。
其他办法? 1、调查人员还可以采用与医院病床数量成比例的方法抽取57个医院,然后从每个样本医院中抽取30个简单随机样本床位。
2、如果病人数等于床位数,并且医院实际的床位数和抽样时依据的病床数据一致,每个病人是否有相同的入样概率?3、而且成本在调查实施前是已知的,因为每个访员在每个医院访问的病人数量是相同的。
而且,总体总量的方差可能更小。
4、分层抽样:抽样选择概率小的单位会有较高的权数。
5、采用不等概率抽样来减少抽样方差而不采用清晰的分层。
采用不同的概率来选择初级样本单元,并且在估计中采用不同的权数来进行弥补。
抽样的关键是每个样本的选择概率是已知的。
i P ψ)=在第一次抽取中被抽中单元i ( i P π被选入样本)=单元i (一、不等概率抽样适用情况第一,抽样单元在总体中所占的地位不一致。
第二,调查的总体单元与抽样总体的单元不一致。
第三,改善估计量。
不等概率抽样的优点主要是大大提高了估计精度,减少抽样误差,但使用它也由条件,就是必须要有说明每个单元规模大小的辅助变量来确定每个单元入样的概率,这在抽样设计及估计时都是必须得。
二、不等概率抽样的分类 1、放回不等概率抽样每次在总体中对每个单元按入样概率进行抽样,抽取出来的样本单元放回总体,然后进行下一次抽样,这样,每次抽样过程都是从同一个总体独立进行的,这种不等概率抽样称为(有)放回不等概率抽样。
不等概率抽样的概念和特点
![不等概率抽样的概念和特点](https://img.taocdn.com/s3/m/20be1626be23482fb4da4ce6.png)
(1)将总体单元按规模分层,对较大单元的层抽样比高一些,特大层的 抽样比甚至可以100%,而较小单元的层抽样比低一些。
(2)采用不等概抽样来减少抽样方差,即赋予每个单元与其规模成比例 的入样概率,然后在估计中采用不同的权数来进行弥补。
分层抽样:抽样选择概率小的单位会有较 高的权数。
n
N
Wi yi n
yi
又如,对于霍维茨——汤普森估计量
YˆHT
yi
i
在入选概率与规模成比例条件下,
的性质为
i
i
nZi
则
YˆHT
n
yi nZ i
1 n
n
yi Zi
YˆHH
πPS抽样的实施
n=2条件下严格的πPS抽样
布鲁尔方法 德宾方法
n >2条件下严格的πPS抽样
inijninn???1?????ininiihtywyy??????iiw?1?n固定条件下的包含概率第i单位入样概率第ij单位都入样概率21kin1in1inikkikiik2iiiyyy1?kkininikiikkihtyyyv???????????????????????????????????????sskkkii2is2iiyy2y1?iikikkiihtyv?????????kkiiik2sksk?kkiiiiikikkihtyyyv??????????????2?jjiinijijjinhtyyy????????????hty?是y的无偏估计i1ji?hty?是?htyv的无偏估计hhy?ppshty?ps其他公式在某种程度上可用这两个公式表现
2拉希里方法
不需要累计,两次随机数决定抽中的单位。 第一次:1-N之间的随机数i 第二次: 1-maxM之间的随机数m 如果Mi> m,第i个单位被抽中
抽样技术第6章不等概率抽样
![抽样技术第6章不等概率抽样](https://img.taocdn.com/s3/m/1e2961571a37f111f0855b36.png)
不等概率抽样
不等概率抽样是抽样调查中一个重要 的方法,如当所要研究的总体单元规模相 差很大,采用不等概率抽样可以提高估计 的精度,减少抽样误差。本文首先介绍不 等概率抽样原理,并以抽取一个初级样本 单元psu(n=1)为例,介绍其思想;然后考 虑抽取多个初级样本单元(n>1),分别详 细讨论采用有放回和无放回方法得到的估 计量的均值和方差。
• 令 为第i个psu中元素个数,K为总体中
元素个数,则
。有了概率 ,我
们得到pps抽样。对于一阶段pps抽样,
所以:
3.两阶段有放回抽样
• 两阶段有放回的不等概率抽样的估计量与 一阶段的相同。具体的,有放回的抽取一 些psu’s,以已知概率 抽取第i个psu。 如一阶段抽样一样, 是在样本中出现的 次数。然后在第i个psu中,抽取一个 子单元的概率样本。虽然其他任何概率抽 样方法都可用,无放回的简单随机抽样或 系统抽样通常用于选取子样本。
• 两阶段有放回抽样和一阶段有放回抽样的 唯一区别在于:在两阶段抽样中,我们需 要估计 。如果psu i在样本中出现多次, 则会产生 个总体估计值:
• 子样本抽样程序必须满足两个要求:
①无论何时被抽取作为样本,同样的子样本 抽样设计用于从这个中选取第二个子样本, 即ssu’s。虽然是从同一个抽取不同的子样 本,但必须是独立的抽取。
单元i在至少一次在样本中的总概率为:
• 这样,不等概率抽样思想变得非常简单。 有放回抽取n个psu’s。然后估计总体总值, 使用前部分的估计量,独立的抽取每一个 初级样本单元(psu)。有些psu’s可能被抽 取多次,使用一个给定psu计算的总体总值
包括的次数跟psu被抽取的次数一样多。因 为psu’s被有放回地抽取,所以我们可得到n 个独立的总体总值估计值。则我们去这n个
第七章不等概率抽样
![第七章不等概率抽样](https://img.taocdn.com/s3/m/18822e540740be1e650e9adc.png)
](j
i)
• 具体抽取中,每个单元的抽取可使用代码法完成。此时累计的 “Mi”就是上述相应概率。【例5.9,P179】
3、莫蒂方法(Murthy)
• n>2时的一种非严格的πPS抽样方法。
• 抽样方法:(逐个抽取法)
◎ ◎
第第一二个个单单元元按在与剩余ZNi -MM1个0i 单成元比中例,的按概与率抽取Z j
NN
NN
N
ij (ij,i固定)(n1)i n(n1)
i1 ji
i1 ji
i1
that is:
N i1
N ji
ij
1n(n1) 2
• 与放回的PPS抽样类似,对于不放回不等概率抽样,最感兴趣 的仍然是πi与单元大小Mi成比例的情形,即:πi~k* Mi。
• 记单元大小的一个相对度量为:Zi=Mi/M0(注意Zi在此处仅表 示一个相对度量,不具有第2节“入样概率”的含义)。则有:
这种不等概率抽样为多项抽样(multinominal sampling)
• 特别地,当总体中每个单元具有一个说明其“大小”或“规模”
的度量Mi时,则可将每个单元的入样概率取为:
Zi
M M0i ,(M0
N
i1
Mi)
此时每个单元在每次抽样中的入样概率与单元大小成比例,称
这种特殊的多项抽样为与大小成比例的概率抽样(sampling
则由数理统计(放回简单随机抽样),有:
E(YˆHH)E()Y;
V(YˆHH)n1V()n1iN 1Zi(YZii Y)2
而样本方差:
v()n11in1(m yii YˆHH)2
是 V ( ) 的无偏估计 从而:
v(Y ˆH H )n 1v()n (n 1 1)i n 1(z yiiY ˆH H )2
抽样技术7不等概率抽样
![抽样技术7不等概率抽样](https://img.taocdn.com/s3/m/c056f3b00342a8956bec0975f46527d3240ca694.png)
抽样技术:7不等概率抽样1. 引言在进行数据分析和统计研究时,抽样是一种常用的技术。
抽样技术允许我们从总体中选择一个样本,以便推断总体的性质。
在抽样技术中,不等概率抽样是一种常见的方法,它允许我们以非均匀的概率抽取样本。
本文将介绍关于7种不等概率抽样方法的详细信息。
2. 简单随机抽样简单随机抽样是最基本的抽样方法之一,它要求每个个体被选中的概率相等且任意组合都是可能的。
然而,在某些情况下,简单随机抽样可能并不适用,例如当总体分布不均匀时,或者我们希望在样本中增加一定的多样性。
这时,我们可以考虑使用不等概率抽样方法。
3. 整群抽样整群抽样是一种不等概率抽样方法,它将总体划分为若干个互不重叠的群组(或称为簇),然后从每个群组中抽取样本。
整群抽样可以有效地减少抽样过程中的复杂性,并提高样本的效率。
整群抽样常用于调查社会群体或大型组织等场景。
4. 分层抽样分层抽样是一种根据总体特点进行划分的抽样方法,它将总体划分为若干个层级或相似的子群(层),然后从每个层中抽取样本。
通过分层抽样,我们可以保证样本在各层中的分布情况与总体相似,从而更为准确地推断总体的特征。
5. 系统抽样系统抽样是一种按照固定间隔选择样本的抽样方法。
它类似于简单随机抽样,但是通过定义一个间隔,我们可以按照一定的规律抽取样本。
例如,我们可以在总体中选取每隔一定数量的个体作为样本。
系统抽样在样本大小较大时表现出较高的效率。
6. 按比例分层抽样按比例分层抽样是一种常用的不等概率抽样方法,它根据总体各层的比例确定各层的样本容量。
比例分层抽样可以使得样本在各层中的分布与总体的比例相对应。
这种抽样方法适用于总体中的各个层存在不同比例的情况。
7. 两阶段抽样两阶段抽样是一种复杂的不等概率抽样方法,它将抽样过程分为两个阶段。
在第一阶段,我们从总体中选择一部分群组(或称为簇),在第二阶段,我们从每个群组中抽取一定数量的样本。
两阶段抽样适用于总体较大或分布复杂的情况下,可以提高抽样的效率。
抽样调查:不等概率抽样
![抽样调查:不等概率抽样](https://img.taocdn.com/s3/m/c0196ff5bcd126fff6050b68.png)
二、估 值 法
PPS抽样法的估值法的理论依据
定理3.1.1 在有放回PPS抽样下,
Yˆ PPS
1 n
是总体Y总 N数 Yi 的无偏.估计
n
i1
yi pi
i 1
(pi为i个 第样y本 i时单 的元 抽取总 概体 率 i单 中 , 元 第 而 对不 应 .)是 的
估计的均方偏差为:
VY ˆ(PP)Sn 1 i n1pi(p yii Y)2.
例3.1 设某总体共有N=8个单元,相应 M i及代码如表所示
i
Mi
30 Mi
累计
代码
1
2/5
12
2
1/2
15
3
2/3
20
4
4/3
40
5
8/5
48
6
3/5
18
7
2/3
20
8
1
30
12
1~12
27
13~27
47
28~47
87
48~87
135 88~135
153 136~153
173 154~173
2、Hansen-Hurwitz (汉森—赫维茨)估计量
若 y1,y2, ,yn是按 Z i为入样概率的多项抽样而得的样 本数据,它们相应的 Z i 值自然记为 z1,z2, ,zn ,则对总
体总和, Hansen-Hurwitz 给出了如下的估计量:
yHH
1 n
n i 1
yi zi
且 E(yHH)Y ,即 y HH 是总体总和 Y 的无偏估计。
为整数。见下表。
表3—1 pps 抽样时各单元的代码数
单元 i 单元大小M i
07-第七章 不等概率抽样
![07-第七章 不等概率抽样](https://img.taocdn.com/s3/m/5248a1563c1ec5da50e27046.png)
(7.4)
(7.5)
5
3. 若 n > 1 ,则
ˆ )= v(Y HH
n æ yi ˆ 1 ç - YHH å n(n - 1) i =1 ç è zi
ö ÷ ÷ ø
2
(7.6)
ˆ ) 的无偏估计。 是 V (Y HH ˆ 的 在证明上述性质以前,我们先就 PPS 抽样这种特殊情形,说明 Y HH
*
[1,24] 中的一个随机数为 9,由于 M 4 = 6 < 9 ,因此需要重抽。设第二次抽
到的一组随机数为 (7,15) ,则仍然不满足要求,还需要抽。若再次抽到的随 机数组为 (2,8) ,则由于 M 2 = 10 > 8 ,故第 2 个单元被抽中。如此重复直 到抽到 n 个单元(允许重复)为止。 拉希里法适用于 N 很大的情况,因为它不需要列出如表 7.1 这样的表。 7.2.3 汉森——赫维茨估计量及其性质 对于 多 项 抽样,由于抽样是不等概率的,每个样本单元的 观测 值 ,因此对于总体参数的估计与等概率抽样 y1 , y 2 , , y n 就不再是“平等的” 不同。前已提到,这个估计也与样本单元 Z i 的取值 z1 , z 2 , , z n 有关。汉森 ——赫维茨(Hansen-Hurwitz)提到的对总体总和 Y 的估计如下:
Mi
8 10 17 6 24 9 5 7 4 10
累计 M i 8 18 35 41 65 74 79 86 90 100
代码 1~8 9~18 19~35 36~41 42~65 66~75 76~79 80~86 87~90 91~100
M 0 = 100
在 [1,100] 范围内产生 5 个随机数,设分别为 04,73,25,49 及 82,则 第 1,第 6,第 3,第 5 及第 8 个单元即为抽中的单元。如果我们欲再增加 一个样本单元,产生的随机数为 58,则又对应第 5 个单元,这个单元即为 抽中两次。由于单元愈大,被赋予的代码数就愈多,因此每个单元入样的概
抽样技术7不等概率抽样
![抽样技术7不等概率抽样](https://img.taocdn.com/s3/m/8c79f72169eae009581becd9.png)
M0
M2 0
例 某企业欲估计上季度每位职工的平均病假天数。该 企业共8个分厂,现用不等概整群抽样拟抽取3个分厂, 并以置信度95%计算其置信区间。
分厂编号
职工人数 Mi
累积区间
1
1200
1-1200
2
450
1201-1650
3
2100
1651-3750
4
860
3751-4610
5
2840
4611-7450
17 21
15.00 1045 22*
12.30 220 23
3.86 4600 24 15.80 2370 25
9.00 21.00
940 26 640 27
mi
yi
1.50
10
8.00
80
28.42 13672
9.01 3845
0.75
480
5.00 28.43
311 9284
9.97
842
5.20
放回不等概率抽样对总体特征的估计
三、Hansen-Hurwitz(汉森-郝维茨)估计量及其性质:
样本单元被抽中的概率z1, ,zn ,则对总体总量Y的估计是
YˆHH
1 n
n i 1
yi zi
(1)E(YˆHH ) Y
(2)V (YˆHH )
1 n
N i 1
Zi
(
Yi Zi
Y )2
(3)v(YˆHH )
其中第2、19号被抽中两次
解:根据题中所给资料,n=30,M0=9542, 利用汉森-郝维茨估计量,则有:
YHH
1 n
n 1
yi M 0 zi n
抽样调查方法与技术:不等概率抽样
![抽样调查方法与技术:不等概率抽样](https://img.taocdn.com/s3/m/1bc3ecebac51f01dc281e53a580216fc700a5386.png)
二、PPS抽样的实施
1、代码法: 为什么说与规模大小成比例? 第i个单位包含的代码个数与其规模Mi相等,
每次抽取产生的随机数假设在1—M0之间均 匀分布,很显然代码个数越多的单位(规模越 大的单位)被抽中的可能性越大。
(抽中的概率早已确定:Mi/M0。)
i
Mi
1 3.84 2 0.68 3 4.63 4 0.49 5 7.18 6 1.28 7 7.01 8 7.42 9 8.80
第一节 问题的提出
一、不等概率抽样的必要性 (P137-138,不等概率抽样运用的两种情形
:) ①需要估计总体总量,但总体单元规模相差很
大的情形; ②由于种种原因不能直接对基本的较小单元抽
样的情形。
第一节 问题的提出
二、不等概率抽样的分类 (一)放回不等概率抽样
所谓放回不等概率抽样是指,在抽样之前 就给总体中每个单位赋予一个确定的抽取概 率,在放回抽样的每一次抽取中,每个单位 被抽中的概率都不变(概率不变,不是概率 相等),直到抽够n个样本单位为止。
(二)不放回不等概率抽样
由于每次抽取采用不放回的形式,样本中 不会出现重复的单位,抽样效率比放回形式 的高,但同时也由于各次抽取相互不独立, 所以无论抽样的实施还是目标量及其方差的 估计都比放回形式复杂。不放回不等概率抽 样方法中,最重要最常用的是样本量固定, 总体中每个单位的入样概率与单位的规模大 小严格成比例的抽样。(πps)
第二节 放回不等概率抽样
一、多项抽样与PPS抽样 P139
设总体包含N个单位,在放回抽样的每一次 抽取中,抽到第i个单位的概率为Zi ( 0≤Zi≤1;i=1,2,…,N) 且 ,按此规定 有放回地独立抽取n次,共抽到n个单位(有 可能重复),称这样的抽样为多项抽样 (Multinomial Sampling)。
抽样技术不等概率抽样
![抽样技术不等概率抽样](https://img.taocdn.com/s3/m/69b2f9b9f71fb7360b4c2e3f5727a5e9856a2793.png)
抽样技术:不等概率抽样引言在统计学和数据分析中,抽样技术是一项重要的工具,用以从总体中选择一部分元素进行研究。
而抽样技术的核心就是如何从总体中选取样本,以保证样本能够准确地反映总体的特征。
其中一种常用的抽样技术是不等概率抽样。
不等概率抽样是指在抽取样本时,各个个体被选中的概率不相等。
与等概率抽样相比,不等概率抽样更能满足实际问题的需求,更能提高样本的效率和精确性。
本文将介绍不等概率抽样的原理、常用方法以及应用案例,希望能够帮助读者更好地理解和应用抽样技术。
不等概率抽样的原理不等概率抽样的原理基于概率论和统计学的基本原理。
在进行不等概率抽样时,需要根据总体的特征和研究目的,选择合适的抽样方法和样本选择概率,以使样本能够准确地反映总体。
不等概率抽样的核心在于赋予每个个体被选中的概率,也称为抽样概率。
抽样概率可以根据总体特征和研究目的进行选择,常见的选择方法包括:概率比例抽样、系统抽样、整群抽样等。
概率比例抽样是一种根据个体在总体中所占比例来确定抽样概率的方法。
具体而言,可以先计算出样本所需的个体数目,再根据各个个体在总体中的比例,分配相应的抽样概率。
这样可以保证样本能够按比例反映总体的特征。
系统抽样是一种按照一定规律选择样本的方法。
具体而言,可以在总体中确定一个起始点,然后以固定的间隔选择样本个体。
系统抽样具有简单方便、无需随机表和随机数的优点,常用于总体具有周期性分布的情况。
整群抽样是一种将总体划分为若干群体,然后随机选择部分群体进行抽样的方法。
这种方法适用于总体分布不均匀,但各群体内部相对均匀的情况。
通过整群抽样,可以减小样本误差,提高样本的代表性。
不等概率抽样的常用方法不等概率抽样有多种不同的方法和技术,根据实际问题的需求和样本特征的不同,可以选择合适的抽样方法。
以下将介绍几种常用的不等概率抽样方法。
简单随机抽样是不等概率抽样中最基本的方法之一。
简单随机抽样是指每个个体都有相等的被选中概率,且个体间的选择是相互独立的。
非概率抽样方式
![非概率抽样方式](https://img.taocdn.com/s3/m/efe94664a45177232f60a2d5.png)
非概率抽样方式(三)非概率抽样方式非概率抽样,又称为不等概率抽样或非随机抽样,是调研者根据自己的方便或主观判断抽取样本的方法。
主要有偶遇抽样、主观抽样、滚雪球抽样、、定额抽样等类型。
1.偶遇抽样,也称就近抽样、方便抽样或自然抽样。
它是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象。
其优点是方便省力,其缺点是样本的代表性差,,有很大的偶然性。
2.主观抽样,也称目标式抽样、判断式抽样或立意抽样。
它是调查者根据自己的主观分析,来选择和确定调查对象的方法;。
主观抽样取得的样本.其代表性取决于研究者对总体的了解程度和判断能力。
主观抽样的优点是,可以充分发挥研究人员的主观能动性,其缺点是,样本的代表性难以判断,不能推论。
3.滚雪球抽样。
当我们无法了解总体情况时,可以从总体中的少数成员入手。
对他们进行调查向他们询问还知道哪些符合条件的人,再去找那些人并询问他们知道的人,如同滚雪球一样。
我们可以找到越来越多具有相同性质的群体成员。
4.定额抽样。
定额抽样从对总体性质的了解开始,在某一总体中考虑具有某种属性的人数所占的比例,然后从具有这种属性的人群中收集数据,并按各类人在总体中的比例赋予它的适当的比重。
这样收集数据,从理论上讲应当能够代表总体。
这种方法存在的问题是:定额的比例必须精确,但由于最新的关于总体性质变化的信息并不容易得到,往往造成抽样中的偏差。
(四)抽样中的误差问题进行抽样调查可产生两类误差,一类是抽样误差,另一类是非抽样误差。
1.抽样误差:由抽样的随机性产生,属于随机误差抽样误差是指主要指样本平均数与总体平均数之差、样本比率与总体比率之差。
抽样误差中通常运用最多的抽样平均误差,即指样本平均数或样本比率的标准差。
在重复抽样条件下,(1)样本平均数的抽样平均误差公式为其中, 为总体标准差,n为样本个案数。
(2)样本比率的抽样平均误差公式为:其中,P为总体比率,n为样本个案数实际计算时,则以样本标准差代替总体标准差,以样本比率代替总体比率。
概率抽样和非概率抽样的区别
![概率抽样和非概率抽样的区别](https://img.taocdn.com/s3/m/da489cb06aec0975f46527d3240c844769eaa061.png)
概率抽样以概率理论为依据,通过随机化的机械操作程序取得样本,所以能避免抽样过程中的人为因素的影响,保证样本的客观性.虽然随机样本一般不会与总体完全一致,但它所依据的是大数定律,而且能计算和控制抽样误差,因此可以正确地说明样本的统计值在多大程度上适合于总体,根据样本调查的结果可以从数量上推断总体,也可在一定程度上说明总体的性质,特征.概率抽样主要分为简单随机抽样,系统抽样,分类抽样,整群抽样,多阶段抽样等类型.现实生活中绝大多数抽样调查都采用概率抽样方法来抽取样本.
非概率抽样:又称为不等概率抽样或非随机抽样,就是调查者根据自己的方便或主观判断抽取样本的方法.它不是严格按随机抽样原则来抽取样本,所以失去了大数定律的存在基础,也就无法确定抽样误差,无法正确地说明样本的统计值在多大程度上适合于总体.虽然根据样本调查的结果也可在一定程度上说明总体的性质,特征,但不能从数量上推断总体.非概率抽样主要有偶遇抽样,主观抽样,定额抽样,滚雪球抽样等类型.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
总体单元 Yi 规模测度 Mi 0. 在抽取样本单元时,各单元被抽取的概率正比于Mi .
有放回PPS 抽样是常见的一种不等概率抽样方案。每次抽取,第i
单 元Yi 被 抽 中 的 概 率p i
正
比
于
M
响,只有 Mi m时它才入样,因此第 i 个单元入样的概率与
Mi的大小成正比,此时 Zi Mi M0
二、估 值 法
PPS抽样法的估值法的理论依据
定理3.1.1 在有放回PPS抽样下,
是总体总数Y
N
Yi
Yˆ PPS
的无偏估计.
பைடு நூலகம்
1 n
n
i 1
yi pi
i 1
( pi为第i个样本单元yi时的抽取概率,而不是总体中第i单元对应的抽取概率.)
i j ij
j
) yi
yj
,
v2 ( YˆHT
)
Nn
( i
j
ij
i1 ji
ij
) (
yi
i
yj
j
)2 .
注:两估计量均有可能取负值,通过模拟比较,v2较稳定且
较少取负值。
§3.3 Rao-Hartley-Cochran随机分群抽样
拉奥-哈特利-科克伦(1962)
设总体个体单元总数N nM k( 0 k n ) 1. 将总体随机分成n个群 其中k个群有M 1个个体单元,n k个群有M个个体单元; 2. 在每一个群中,以正比于规模测度的概率抽取一个单元 作为样本单元。
估计的均方偏差为:
V(Yˆ PPS
)
1n
n i1
pi (
yi pi
Y
)2 .
证明 考虑随机变量Z,
则Z
yi
P{
Z
Yi pi
}
pi
,
是随机变量Z的独立同分布样本,故
pi
E(
zi
)
N
Yi
p i 1 i
pi
Y
,
E( YˆPPS
)
1 n
n
E(
i 1
zi
)
Y
,
V
( YˆPPS
)
var(
z
)
1 n2
n
2. 设计好第一次抽取的概率,第二次抽取的概率与 pi成
正比,使总的入样概率正比于X i .
(2)Durbin(德宾)方法(1967)
第一步:以pi pi的概率抽取第一个样本单元, 设 第i个 单 元 入 样 , 取 出 后 不放 回 ;
第 二 步 : 以 概 率pi抽 取 第2个 样 本 单 元 。
为总体总数Y的无偏估计。
该估计量的均方偏差为:
V(Yˆ RHC ) [1 -
n-1 N-1
k(n - k) 1 N ]
N(N - 1) n i1
pi (
Yi pi
Y
)2 ,
其中pi X i
N
Xi .
i 1
在随机分群抽样下,估计的均方偏差V(Yˆ RHC )的无偏估计
v(Yˆ RHC )
N2 N 2(
n ( yi
z i 1
i
y%HH )2
§3.2 不等概 PS 抽样
有放回不等概率抽样:从实施上还是从估计计算以及精度估计都显得
十分方便。但一个单元被抽中两次以上总会使样本的代表性打折扣,从 而引起抽样误差的增加。 实际调查工作者一般倾向于使用不放回形式。
问题:最简单的不放回不等概率抽样方式自然会想到逐一抽样这在第
例如,要了解上海地区钢铁企业的景气状况,总体有上钢一厂、三 厂、五厂……等等,再加上宝钢。由于宝钢规模极大,它是否景气对整 个上海地区钢铁工业起着至关重要的作用。而在抽样中将它与其它规模 较小的单位处于同等地位就会既不公正又使抽样推断结果有较大可能发 生大的偏差。
§3.1 PPS 抽 样
PPS抽样:抽取概率正比于规模测度。
体总和, Hansen-Hurwitz 给出了如下的估计量:
y%HH
1 n
n i 1
yi zi
且 E( y%HH ) Y% ,即 y%HH 是总体总和 Y%的无偏估计。
Var( y%HH )
1 n
N i 1
Z
i
(
Yi Zi
Y%)2
Var( y%HH ) 的无偏估计为
v( y%HH )
1 n(n 1)
n! t1 !t2 !L
tN
!
Z t1 1
Z t2 2
L
Z tN N
N
ti n (3.1)
i 1
这是我们熟悉的多项分布,多项抽样其名正出于此。
多项分布(3.1)具有如下性质:
E(ti ) Var(ti )
nZi nZ
i
(1
Z
i
)
Cov(ti , t j ) nZi Z j
i 1, 2,L , N i j
pi
p
i
(
1
1 2p
i
1 1 2pj
)
2D .
特点:
1. 对这种抽样,总体中个体单元i 的入样概率为
i 2 pi ,
ij
2 pi pj D
( 1 pi pj ) ( 1 2 pi )( 1 2 pj
)
.
2. 第一次抽取的概率与 pi成正比,第二次抽取的概率使
总的入样概率正比于X i .
在 第t群 中 , 抽 中 单 元i的 概 率 为
p ti
X i Zt
,
当i属 于t群 ,
0, 当i不 属 于t群 ;
其
中Z
t
为t群
中
全
体
单
元
规
模
测
度X
的
i
和.
在随机分群抽样下,记第t群抽出的样本单元为 yit ,其 对应的抽取概率为 pit ,则估计量
Yˆ py RHC
n
it
t 1 it
总体总数Y的无偏估计量为:
YˆHT
该估计量的均方偏差为:
n
yi
i 1 i
V (YˆHT
)
N
(
1
i
i 1
i
)Yi 2
N
N
( ij
i
j
i 1 j1 ji
i j
) YiYj .
HT估计的均方偏差的两个无偏估计量为
v1( YˆHT
)
n
i 1
(
1
2 i
i
)
y2 i
N
2
n
( ij
i
i1 ji
40
5
8/5
48
6
3/5
18
7
2/3
20
8
1
30
12
1~12
27
13~27
47
28~47
87
48~87
135 88~135
153 136~153
173 154~173
203 174~203
M0 203
假设第 i 个单元在 n次抽样中被抽中 ti 次,则(t1, t2,L , tN )
是一个随机向量,其联合分布为:
n
k( n 1)
k k
) Nn (n k )
N
i 1
Zt X
(
yit pit
Yˆ RHC )2 ,
其中pit 是样本单元yit 对应的总体中正比于规模测度的概率,
即
N
pit X it
Xi .
i 1
表3—1 pps 抽样时各单元的代码数
单元 i 单元大小Mi
代码数
1
M1
2
M2
M
M
N
MN
1, 2,L , M1
M1 1, M1 2,L , M1 M2
M
N 1
N 1
N 1
Mi 1, Mi 2,L , Mi M N M0
i 1
i 1
i 1
每次抽样前,先在整数
1, 2,L
,
M
里面随机等可能的选
]
注:
可用Yˆ PPS估计总体总数Y;
用
1 N
Yˆ PPS估
计
总
体
平
均
值Y;
其
均方误差的
估计分别为v(Yˆ PPS
)和(
1 N
)2
v(Yˆ PPS
).
例 一村庄有8个果园,分别由果树50, 30, 65, 80, 140, 44, 20,
100棵,要调查该村庄水果产量,以正比于果树棵树的概率取3 个果园作样本.
(2)最大规模法 或 Lahiri(拉希里)方法
当 N 相当大时,累计的 M0将很大,给代码法的实施带
来很多不方便。Lahiri提出下列方法:令
M*
max{
1i N
Mi
}
每次抽取 1~N 中一个随机整数 i 及 1~M *内一个随机整数
m ,如果Mi m,则第 i 个单元入样;若 Mi m,则按前面 步骤重抽 (i, m) ,显然,第 i 个单元的入样与否受到m 的影
var(
i 1
zi
)
1 n
var(
z1
)
1
N
(
Yi
n p i1 i
E( z1
))2
pi
1 n
N
i 1
pi
(
Yi pi
Y