抽样技术 7 不等概率抽样

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章 不等概抽样
•放回不等概率抽样
•不放回不等概率抽样
•利用软件进行抽样和计算 •案例分析
第一节 不等概率抽样概述
一、不等概率抽样的必要性 1、在简单随机抽样中,总体(或层)中的每个单 元入样的概率都相等。等概率抽样的特点是总 体中的每个单元在该总体中的地位(或重要性) 相同,在抽样时对每个单元采取的是“不偏不 倚”的态度 。等概率抽样不仅实施简单,而且 相应的数据处理公式也简单。但是在许多实际 问题中,我们还需要使用不等概率抽样 (sampling with unequal probabilities)。
不等概率抽样的特点
1、凡需使用不等概率抽样的场合,必须提供总体单
元的某种辅助信息。 例如:每个单元的“大小”度量Mi。注意:比估计 和回归估计是估计方法用到了辅助信息,本章是抽 样方法用到辅助信息.
2、不等概率抽样的主要优点是由于使用了辅
助信息,提高了抽样策略的统计效率, 能 显著地减少抽样误差。
i 1 2 3 4 5 6 7 8 9 10
mi 15 23 9 29 8 31 24 29 13 19
yi 75 134 37 152 45 185 133 173 74 87
i 11 12 13 14 15 16 17 18 19 20
mi 40 32 17 26 11 36 25 5 38 42
放回不等概率抽样实施方法 1.代码法
单元i 单元大小M i 1 2 N M1 M2 MN
代码 1, 2, M 1 M 1 1,M 1 2, ,M 1 M 2
M
j1
N 1
j
1, , M j 2, M j MN M0
j1 j1
N 1
N 1
1900
864 17 1045 220 4600 2370 940
19
20 21 22* 23 24 25 26
1.50
8.00 28.42 9.01 0.75 5.00 28.43 9.97
10
80 13672 3845 480 311 9284 842
9
8.81
992
18*
21.00
640
27
5.20
不等概率抽样的分类
放回不等概抽样:按照总体单元的规模大小来确定在每次抽 中的概率。抽取后放回总体,再进行下一次抽样,每次抽 样都是独立的。这种抽样称为放回不等概抽样(sampling with probabilities proportional to sizes,简称PPS抽样) • 不放回的不等概抽样:每次在总体中对每个单元按入样概 率进行抽样,抽出的样本不再放回总体,因此,在抽取了 第一个单元后,余下的单元再以什么概率被抽取就较复杂。 这种抽样不是独立的,无论是抽样方法还是方差估计,都 要比放回抽样繁复得多。不放回抽样通常称为πPS抽样。
i
mi
yi
i
mi
yi
i
mi
yi
1*
2 3 4 5 6 7 8
38.23
13.70 0.75 2.85 2.00 5.00 10.80 2.00
10926
1024 13 30 1102 600 290 430
10
11 12 13 14 15 16 17
5.50
15.00 7.00 15.00 12.30 3.86 15.80 9.00
不等概率抽样概述
2、抽样单元在总体中所占的地位不一致:例 如:要反映某小麦品种的优良情况,以村作 为抽样单位,但各村的种植面积不同,一些 种植面积大的村庄在抽样中是否被抽中对推 断总体的结果有很大影响 ,所以让“大单元” 被抽到的概率大,“小单元”被抽到的概率 小,这样能够大大提高样本的代表性,减少 抽样误差。
样本单元被抽中的概率z1, ,zn , 则对总体总量Y的估计是
n 1 ˆ yi Y HH n i 1 zi ˆ ) Y (1) E (Y HH N Yi 1 ˆ (2)V (YHH ) Z i ( Y ) 2 n i 1 Zi n yi ˆ 2 1 ˆ ) ˆ )的无偏估计。 (3)v(Y ( YHH ) 是V (Y HH HH n(n 1) i 1 zi
例:某县农业局要调查全县养猪专业户今年生猪的出栏头 数,现有全县365个养猪专业户去年的生猪存栏数,各专业 户的规模相差较大,决定以放回方式按与各养猪专业户上 年末生猪存栏头数成比例的PPS抽样 从中抽取30户进行调 查,结果如下,已知全县养猪专业户上年末生猪存栏头数 为9542头,试估计该县养猪专业户生猪今年出栏总头数和 抽样标准误。(摘自:“应用抽样技术”李金昌)
=30317005145.8 ˆ ) =174118 v(Y HH
在置信度为95%时,对应的t=1.96, ˆ ) s ( Y 174118 HH ˆ 的相对误差为:r t Y 1.96 45% HH ˆ 757087 Y
HH
ˆ ) S (Y HH r1 t =t ˆ YHH
1 2 S ˆ ) n1 S (Y HH 45%,r2 t =t ˆ ˆ Y Y
在PPS抽样中,赋予每个单元与Mi相等的代码 数,将代码数累加得到M0,每次抽样都等概产 生一个[1,M0]之间的随机数,设为m,代码m 所对应的单元被抽中。
例5.1 设某个总体有10个单元,相应的单元大小及其代码 数如下表,在其中产生一个n=3的样本。
i
1 2
Mi
0.6 14.5
Mi*10
6 145
Y HH 1 n yi M 0 n 1 zi n yi 1 mi
n
9542 75 134 177 ( 2 ... ) 56163(头) 30 15 23 30
2 n n y M yi ˆ 2 1 2 i 0 ˆ ) ˆ v(Y ( Y ) = ( YHH ) HH HH n(n 1) i 1 zi n(n 1) i 1 mi
yi 258 186 69 156 49 221 145 33 288 304
i 21 22 23 24 25 26 27 28
mi 19 26 37 21 7 43 18 30
yi 124 160 215 104 49 336 96 177
其中第2、19号被抽中两次
解:根据题中所给资料,n=30,M0=9542, 利用汉森-郝维茨估计量,则有:
不等概率抽样的特点
3、抽样框的创建比简单随机抽样和系统抽样成本 高,更复杂,因为需要存储总体中每一个单元 的度量大小; 4、并非在任何情况下都能使用,因为并不是每一 个总体都有稳定且与主要调查变量相关的有关 大小或规模的度量; 5、抽样及估计(特别对不放回抽样)相当复杂; 6、 当单元大小度量不准确或不稳定时不适用。
95422 75 56163 2 134 56163 2 177 56163 2 [( ) ( ) 2 ... ( ) ] 30 29 15 9542 23 9542 30 9542 2806070 ˆ ) 1675 v(Y (头) HH
例5.2:某部门要了解所属8500家生产企业当月 完成的利润,该部门手头已有一份去年各企 业完成产量的报告,将其汇总得到所属企业 去年完成的产量为3676万吨。考虑到时间紧, 准备采用抽样调查来推算当月完成的利润。 根据经验,企业的产量和利润相关性比较强, 且企业的特点是规模和管理水平差异比较大, 通常大企业的管理水平较高些,因此采用与 去年产量成比例的PPS抽样,从所属企业中抽 出一个样本量为30的样本。
令M max M i
1i N

每次从 1,N 中简单随机地抽取一随机数a, 同时再独立从 1,M 中简单随机地抽取一随机数b。 若b M a , 则第a个单元入样,若b M a则重抽。 第i个单元被抽中的概率: 1 Mi zi =p{a=i,b M i }=p{a=i} p{b M i }= . N M 显然,zi M i
汉森-赫维茨估计量估计给出总体总量的估计, 如果对总体均值估计可按下公式:
假设M 0是总体规模大小的度量

Y HH

Y HH 1 n yi M 0 M 0 n i 1 zi

n yi 1 2 v(Y HH ) 2 ( Y ) HH M 0 n(n 1) i 1 zi
因为是放回抽样,所以是独立样本,数理统计的结 论可以在这里应用。
对上述结论加以说明:
独立同分布样本 抽中概率 新变量 t
n
y1 z1 y1/ z1
i
y2 z2 y2 /z2
… … …
yn zn yn/zn
样本均值 t
t
i 1
n
1 n yi ˆ Y HH n i 1 zi
ˆ )的无偏估计量为: V ()即 t V (Y HH
第四次(5,127),M5=78<127, 舍弃,重抽 ; 第五次 (4,77), M4=137>77, 第4号单元入样; 第六次(9,60),M9=60≥60, 第9号单元入样; 因此第4,7,9号单元被抽中。
放回不等概率抽样对总体特征的估计 三、Hansen-Hurwitz(汉森-郝维茨)估计量及其性质:
727 738
632~667
668~727 728~738
假设在[1,738] 中等概产生第一个随机数为354,再在[1,738]中产生第二 个随机数为553,最后在[1,738]中产生第三个随机数为493,则它们所对 应的第5,7,6号单元被抽中。
例:假设有10个乡,每个乡的村庄数不同,按pps抽3个乡 乡 1 2 3 村庄数Mi 累计 5 5 28 26 33 59 代码 1~5 6~33 34~59 结合一下整群抽样、 多阶段抽样
累计 6 151
代码 1~6 7~151
3
4 5 6 7
1.5
13.7 7.8 15 10
15
137 78 150 100
166
303 381 531 631
152~166
167~303 304~381 382~531 532~631
8
9 10
3.6
6 1.1 =73.8
36
60 11 738
667
6
放回不等概抽样
PPS抽样:有放回的不等概抽样
设总体包含N 个单元,M i是第i个单元的大小或规模的度量, i 1, ,N,总体的总规模度量为:M 0 M i
i 1 N Mi 则第i个单元的抽选概率为:Z i 0, Z i 1 M0 i 1 N
即抽样概率正比于规模度量,一次抽完后再放回,进行下 一次抽取。独立地进行这样的抽样n次,共抽到n个单元 (有可能重复,只调查一次,但计算时按重复数计算)。
4
5 6 Baidu Nhomakorabea 8
14
10 38 7 50
73
83 121 128 178
60~73
74~83 84~121 122~128 129~178
9
10
2
8
180
188
179~180
181~188
放回不等概率抽样实施方法 2.拉希里法(二次抽取法)(统计学家Lahiri最先提出): 设 M1, M2,…MN为单元的规模
n yi 1 1 1 2 2 ˆ ˆ v(YHH )=v(t) V (T) st ( Y ) HH n n n(n 1) i 1 zi n n yi 1 1 2 2 2 ˆ st ( t t ) ( Y ) i HH n 1 i 1 n 1 i 1 zi
510
解:
ˆ Y HH
M0 n
yi i 1 mi
n

367610926 10926 1024 510 30 38 . 23 38 . 23 13 . 70 6 . 2
773861.05
ˆ ) v(Y HH
2 n n yi M0 y 1 2 ˆ ˆ )2 ( Y ) = ( i Y HH HH n(n 1) i 1 zi n(n 1) i 1 mi
拉希里法抽样举例: 例5.1中,M=150,N=10.在[1,10],[1,150] 中分别产 生( i,m)如下: 第一次 (3,121) , M3=15<121, 舍弃,重抽 ; 第二次(8,50),M8=36<50, 舍弃,重抽 ;
第三次 (7,77) , M7=100>77, 第7号单元入样;
相关文档
最新文档