不等概抽样ppt课件
抽样调查第3章 不等概抽样ppt课件
3、重复2,直至抽得n个单元.
pi NXM i Xi
精选课件
7
PPS抽样的实现方法
目录抽样
1、计算抽样间隔 K X (假定K为整数); n
2、从{ 1,2, … , K }抽取随机数R1,由K确定R2=R1+K,
R3=R1+2K,…,Rn=R1+(n-1)K ;
无放回PPS抽样的实现:在前面方法中去掉重复单 元即可.
精选课件
12
例题与练习
例3 一村庄有8个果园,分别有果树50,30,65, 80,140,44,20,100棵,要调查该村庄水果总 产量.如果实地调查得第5,第8、第3号三个果园的 产量(单位:104 千克)分别为15,12,7,计算 该村八个果园的总产量的估计量和估计量的均方偏 差。再用简单估值法进行估计,并比较两个结果的 优劣。
Sen-Midzuno抽样方法
大体思路
解决样本量超过2的麻烦,使πi近似地正比于Xi
实现步骤
1、以概率pi抽取第一个样本单元
2、从剩下的N-1个单元中,抽取容量为n-1的简单随 机样本(不放回)
i pi (1pi)N n11 pi( f很小时 )
ijN n 1 1 N N n 2(pipj)N n 2 2
V(YˆRH)C有一个无偏估计 2 v(Y ˆRH ) CN N 2 2( n k(1 n ) k k()n N k)tn n1Z X t p yiitt Y ˆRH C
其中 pit是样本yi单 t对元 应的总体中 模正 测比 度于 的
率,即
N
pit Xit X,X Xi
i1
有放回抽样的效率比无放回低但分析计算较简单
抽样调查-不等概抽样培训课程模板ppt
11
738
累计
M
×10
i
6
151
166
303
381
531
631
667
727
738
__
代码
1~6 7~151 152~166 167~303 304~381 382~531 532~631 632~667 668~727 728~738
__
返回
先在[1,738]中产生一个随机数为354,再 在[1,738]中产生第二个随机数为553,最后 产生第三个随机493。则它们所对应的第5, 7,6号单元被抽中。
返回
§5.2 放回不等概抽样
一、只抽取一个样本单元(n=1)的不等概抽样
为了便于了解不等概抽样的基本思想,我们先看 一个总体已知,只抽取一个样本单元的例子。
【例】一个城市有四个超市营业面积从100平方米 到1000平方米不等(见下表),我们的目标是通过抽 取一家超市来估计这四个超市上个月的总营销量。通 常超市面积越大则销售量越大,因此,我们选择的入 样概率与超市的营业面积成正比。
(1)逐个抽取法。每次从总体未被抽中的单元中 以一定的概率取一个样本单元。
(2)重抽法。以一定的概率逐个进行放回抽样, 如果抽到重复单元,则放弃所有抽到的单元,重新抽取。
(3)全样本抽取法。对总体每个单元分别按一定 概率决定其是否入样。这种方法的样本量是随机的,事 先不能确定。
(4)系统抽样法。将总体单元按某种顺序排列, 根据样本量确定抽样间距k,在[1,k]中产生一个随机数。
(3,121), M 3 =15< m121, 舍弃,重抽;
(8,50), M 8 =36< m50, 舍弃,重抽;
(7,77), M 7 =100≥ m77,第7号单元入样;
不等概抽样
(2)不放回不等概抽样;
精选ppt
5
放回不等概抽样
最常用的是按照总体单元的规模大小来确定单
元再每次入样的概率。假设总体中第i个单元
N
的大小和规模为
M
i
,总体的总规模
M 0 M i i 1
,每次抽样中第i个单元被抽中的概率用 Z i
表示,如果
Z i
Mi M0
Mi
N
Mi
i 1
精选ppt
17
5.3 多阶段有放回不等概抽样
5.3.1 两阶段有放回不等概抽样
对总体总值的估计通常是先构造初级单元总值
Y i 的无偏估计 Y i ,然后利用汉森-赫维茨 (Hansen-hurwitz)估计量对总体总值 Y 进行 估计。
YHH
1 n
n i1
Yi Zi
精选ppt
18
总体总值的方差:
Y1 ni n1Z yii M n0 i n1M yii M0y
估计量的方差:
V (Y ˆH H )1 niN 1Z i(Z Y ii Y )2M n 0iN 1M i(Y i Y )2
v (Y ˆH H ) n (n 1 1 )i n 1(Z y ii Y )2 n (M n 0 2 1 )i n 1(y i y )2
这种不等概抽样称作放回的与规模大小成比例的概
率抽样(Probability Proportional to Size),,简称 PPS。
精选ppt
6
1代码法案例
i
Mi
M i 10 累计 M i 10
1
0.6
6
6
2
14.5
145
151
抽样技术之不等概率抽样概述ppt(67张)
不等概率抽样的分类
放回不等概抽样:按照总体单元的规模大小来确定在每次抽 中的概率。抽取后放回总体,再进行下一次抽样,每次抽
样都是独立的。这种抽样称为放回不等概抽样(sampling with probabilities proportional to sizes,简称PPS抽样)
• 不放回的不等概抽样:每次在总体中对每个单元按入样概 率进行抽样,抽出的样本不再放回总体,因此,在抽取了 第一个单元后,余下的单元再以什么概率被抽取就较复杂。 这种抽样不是独立的,无论是抽样方法还是方差估计,都 要比放回抽样繁复得多。不放回抽样通常称为πPS抽样。
7
10
100
631 532~631
8
3.6
36
667 632~667
9
6
60
727 668~727
10
1.1
11
738 728~738
=73.8
738
假设在[1,738] 中等概产生第一个随机数为354,再在[1,738]中产生第二 个随机数为553,最后在[1,738]中产生第三个随机数为493,则它们所对 应的第5,7,6号单元被抽中。
不等概率抽样的特点
1、凡需使用不等概率抽样的场合,必须提供总体单 元的某种辅助信息。 例如:每个单元的“大小”度量Mi。注意:比估计 和回归估计是估计方法用到了辅助信息,本章是抽 样方法用到辅助信息.
2、不等概率抽样的主要优点是由于使用了辅 助信息,提高了抽样策略的统计效率, 能 显著地减少抽样误差。
例5.1 设某个总体有10个单元,相应的单元大小及其代码 数如下表,在其中产生一个n=3的样本。
i
Mi
Mi*10
累计
代码
抽样调查不等概率抽样课件
59.04 .
这一估计旳均方偏差旳估计为
v( YˆPPS
)
1
n
(
n( n 1 ) i1
yi pi
YˆPPS
)2
4.93
2、Hansen-Hurwitz (汉森—赫维茨)估计量
若 y1 , y2 , , yn 是按 Zi为入样概率旳多项抽样而得旳样 本数据,它们相应旳 Zi值自然记为 z1 , z2 , , zn ,则对总
例如,要了解上海地域钢铁企业旳景气情况,总体有上钢一厂、三 厂、五厂……等等,再加上宝钢。因为宝钢规模极大,它是否景气对整 个上海地域钢铁工业起着至关主要旳作用。而在抽样中将它与其他规模 较小旳单位处于同等地位就会既不公正又使抽样推断成果有较大可能发 生大旳偏差。
§3.1 PPS 抽 样
Байду номын сангаас
PPS抽样:抽取概率正比于规模测度。
第三章 不等概抽样
简朴随机抽样旳特点:总体中每个个体被抽中入样旳概率都相同。对
于各单元所处地位几乎 “平等” 旳总体,这种抽样原则既公正又以便 。
不等概率抽样:但在许多社会经济活动中并非全部单元地位相同。
使得“大”单元入样概率大,“小”单元入样概率小,这里旳“大”、 “小”与我们所关心旳调查指标有着亲密旳关系。
n ( yi
z i 1
i
yHH )2
§3.2 不等概 PS 抽样
有放回不等概率抽样:从实施上还是从估计计算以及精度估计都显得
十分以便。但一种单元被抽中两次以上总会使样本旳代表性打折扣,从 而引起抽样误差旳增长。 实际调查工作者一般倾向于使用不放回形式。
问题:最简朴旳不放回不等概率抽样方式自然会想到逐一抽样这在第
N
chap7 不等概抽样
Chap7 不等概抽样教学要求:重难点:引语:前面介绍的简单随机抽样的一个特点是对各单元同等对待.实践中常有总体中的各单元处于不同的地位,各单元规模有较大差异.如调查某地区小麦的产量,以村作为抽样单元,各村拥有的麦地面积是不一样的;又如估计一个城市的商业销售总额,对各销售网点进行调查。
各销售网点规模差异很大,有的年销售额几个亿,有的几十万元,有的几千元.这时若仍将各单元平等对待显然不合理,拥有较多麦地或规模较大的销售网点显然更重要。
这时有两处处理方法:一种是将抽样单元(各销售网点)按规模大小分成若干类,以类为层进行分层抽样,各层的抽样比设置成不一样,规模大的层抽样比高一些,规模小的层抽样比可以低一些,少数特大规模的进行100%抽样(即普查),这种抽样方法叫目录抽样。
另一种是考虑得比较细一些,也就是将各个单元的入样概率与单元的规模联系起来:大单元抽到的概率大,小单元抽到的概率小,这就是不等概抽样.7.1主要分类方式一:按抽样单元是否放回分为:● 放回不等概率抽样,特点:样本相互独立,数据处理简单(可以说抽样调查中的放回抽样主要用于不等概率抽样)● 不放回不等概率抽样,特点:效率常常更高,但是无独立性,实施起来和方差估计比较复杂。
方式二:按放回抽样中的每个单元每次被抽到的概率或不放回抽样中最终样本中包含某个单元的概率是否严格的与单元大小成比例。
7.2PPS抽样1. 基本概念设总体中包含N 个,对其进行放回抽样,在每次抽样中,抽到第i 个单元的概率为Zi ,11Nii Z==∑,独立地进行这样的抽样n 次,共抽到n 个单元(可能有重复),称这种不等概率抽样为多项抽样。
多项抽样中,若第i 个单元的入样概率Zi 正比于其大小或规模的度量M i ,即010() Nii i i M Z M M M ===∑称这种单元的入样概率正比于单元规模测度的放回抽样为PPS抽样(sampling with probabilityproportional to size )。
第五章(不等概抽样)
4、不等概抽样的优点和条件 、
• 优点:主要是大大提高估计精度,减少抽样误差。 • 条件:必须要有说明每个单元的规模大小的辅助 变量来确定每个单元的入样规模。这在抽样及推 算中是必须的。有时比较容易获得。比如,管理 部门在车船登记时,车船名和载重吨位是同时登 记的,因此,载重吨位作为辅助变量,计算入样 概率。
% 以Zi=Mi / M0的概率被抽取。因此样本均值 yHH 的期望
就相当于新盒子的均值:
ˆ E(YHH
)=
Y 1 Y Y {M 1 1 + M 2 2 + L + M N N } M0 Z1 Z2 ZN
= Y1 + Y2 + L + YN
=Y
ˆ 因此, YHH 恰为 Y 的无偏估计。
由于n次抽取是独立进行的(放回抽样的特点),根
N
Y 1 N = ∑Zi ( i −Y)2 n i=1 Zi
ˆ 据概率论的基本知识,YHH 的方差就等于新盒子的方差的
1/n倍,即:
n ˆ ) = 1 Var( yi ) = 1 ⋅ 1 Var(YHH 2 ∑
N
n
i=1
zi
n M0
∑Mi (
i=1
Y i −Y)2 Zi
Y 因为 ∑Z (Z −Y) 为新盒子的方差,利用数理统计基本知识,
i 2 i=1 i i
1 Mi = ⋅ * N M
(Hansen-Hurwitz)估计量 3、汉森—赫维茨 (Hansen-Hurwitz)估计量 汉森—
若y1,y2,…,yn 是按Zi 为入样概率的多项抽样而得的样本 数据,它们相应的Zi 值自然地记为小写的z1,z2,…,zn,则对 总体总和,Hansen-Hurwitz给出了如下估计量:
抽样技术(第5版)课件PPT课件第5章
售额,那么超市A的销售额就占所有超市销售额
的1/16,因此超市A的销售额乘16可以近似的估
计所有超市的销售额。因此,样本量为1的不等
概率抽样的总体总量估计量为
= =
式中
∈
∈
1
1
=
=
(单元在样本中)
第二节 放回不等概抽样
nn 1 i 1 mi M 0
s YˆHH v YˆHH
765404
2
174454
s YˆHH
174118
r t
1.96
=45%
757087
Yˆ
HH
相对误差达到20%时所需样本量对误差达到20%
时所需样本量nnnnnnn
n= 150
第二节 放回不等概抽样
Z
Z
nm
n i 1 Z i
i 1 Z i
1
j
1
i
ij
i
它的一个无偏估计量为
v(Yˆ )
n
1 n ˆ2
1
2
2
ˆ
ˆ
ˆ
nY
Y
)
Y
Y
(
i
i
n n 1 i 1
n n 1 i 1
M i 1 Kij Yiju2
2
Y
Mi
1
常数K
nZi mi
f0
这里,f 0 为总体中任意一个二级单元被抽中的概率。如果f 事先确定,则
抽样技术7不等概率抽样69页PPT
16、人民应该为法律而战斗,就像为 了城墙 而战斗 一样。 ——赫 拉克利 特 17、人类对于不公正的行为加以指责 ,并非 因为他 们愿意 做出这 种行为 ,而是 惟恐自 己会成 为这种 行为的 牺牲者 。—— 柏拉图 18、制定法律法令,就是为了不让强 者做什 么事都 横行霸 道。— —奥维 德 19、法律是社会的习惯和思想的结晶 。—— 托·伍·威尔逊 20、人们嘴上挂着的法律,其真实含 义是财 富。— —爱献 生
56、书不仅是生活,而且是现在、过 去和未 来文化 生活的 源泉。 ——库 法耶夫 57、生命不可能有两次,但许多人连一 次也不 善于度 过。— —吕凯 特 58、问渠哪得清如许,为有源头活水来 自己的 无知。 ——笛 卡儿
拉
60、生活的道路一旦选定,就要勇敢地 走到底 ,决不 回头。 ——左
抽样技术第6章 不等概率抽样
第6章 不等概率抽样1 不等概率抽样原理等概率抽样通常容易设计和解释,但并不总是如不等概率抽样一样的可行、实用、有效。
因为等概率抽样(psu’s)可能导致方差很大(尤其是对于无偏估计量)、管理困难以及成本难以控制。
而不等概率抽样的特点是以不等概率抽取psu’s 、m i 的数目相同,因此不等概率抽样使得每一个样本被抽取的概率相等、调查成本可控、每一个初级样本单元(psu )的样本数相等、方差急剧减小。
当采用不等概率抽样时,我们可以自由的调整选择不同初级样本单元(psu’s )作为样本的概率,并在估计中补充合适的权重。
核心是选择一个给定单元的概率已知: πi =P(psu i), ψi = P(psu i on first sample), ωi =1/πi1.1 抽取一个初级样本单元假定我们只要抽取N 个初级样本单元(psu )中的一个作为样本(n=1)。
初级样本单元i 的总值用t i 表示,我们需要估计总体总值t.用抽取一个初级样本单元的简单例子来说明不等概率抽样的思想。
先来考虑一个所有总体已知的情形。
一个城镇拥有四个超市,从100平方米到1000平方米按面积大小排列。
通过抽取一个超市,来估计四个超市上个月的总营业收入。
你可能预期大超市比小超市的营业收入多而且大超市的收入波动性也明显大于小超市。
因为仅抽取一个超市,所以在第一个回合中一个超市被抽取的概率 ψi 等于这个超市包含在样本中的概率πi 。
即,πi = ψi =P(超市i 被选取),此概率与超市的面积成比例。
超市A 占四个超市总面积的1/16,则它被抽取的概率为1/16。
为了说明性目的,假定我们已知总体的所有总值t i :我们可以以以上给定的概率选择一个容量为1的概率样本,通过洗散16张卡片并从中选择1张。
如果卡片数字为1,则选择超市A;如果卡片数字为2或3,则选择超市B;…… 在估计量中,我们通过使用 ψi 补充选取的不等概率权重。
如果超市面积与超市营业收入近似成比例,那么超市A 的营业收入在总收入的1/16,则可用超市A 的营业收入的16倍来估计四个超市的总收入。
讲稿6-不等概抽样
第三节 多阶段有放回不等概抽样
一 一般说明 、
几种处理方法 * 先分层, 抽样 再 * 不等概抽样 必要符号补充
M0 : M0 i M
N
分层二阶段抽样时的估计
第一阶段:分层抽样,同一层内初级单元 大小相等 N M y y W y ˆ 总体均值的估计 N M
h h h h st h h h h h h
N 2 1 f1 ˆ v(YR ) n
ˆ M i2 ( y i YR )2
i 1
n 1
N n
2 M i2 1 f 2i s2i mi i 1 n
各级单元大小不等时的三阶段抽样 : 总体总和的无偏估计量
1 n 1 m 1 k 1 1 n ˆ ˆ Y ˆ z z z yiju n Yi nmk i 1 i j 1 ij u 1 iju i 1
5.2 放回不等概抽样
只抽取一个样本单元的不等概抽样
对于放回不等概抽样,对总体总量的估计是汉 森-赫维茨(Hansen-hurwitz)估计
ˆ YHH
1 n yi M 0 n i 1 z i n
yi m i 1 i
n
例如:估计超市销售额, m:员工人数 解释公式意义
1 N ˆ ) Z ( Yi Y ) 2 V (YHH i n Zi yi ˆ 2 ( Z YHH ) i ˆ ) 1 v(YHH n (n 1)
二 放 的P 样 、 回 P S抽
U i 1 2 3 . . . M i 8 2 0 4 0 . . .
M
i
区 域 (Probability Proportional to Size) 1 8 — 9 2 —8 2 —8 9 6 . . .
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
727
10
1.1
11
738
M 0=738
738
代码 1~6
7~151 152~166 167~303 304~381 382~531 532~631 632~667 668~727 728~738
.
7
2 拉希里法
令
M*max 1iN
Mi
(1)从1-N之间产生一个随机数i;
(2)从1- M * 之间产生一个随机数m;
第5章 不等概抽样
.
1
例:欲调查某城市住院病人对于某项医疗服务的偏好。
目标总体:某一时段该城市所有医院的病人。
等概率两阶段抽样:第一阶段中拥有20个病床的医 院和拥有1000个病床的医院被抽中的概率是一样的 ;第二阶段若采用等概抽样,20个病床的医院抽取2 个,1000个病床的医院需要抽取100个。
率抽样(Probability Proportional to Size),,简称 PPS。
.
6
1代码法案例
i
Mi
M i 10 累计 M i 101Biblioteka 0.666
2
14.5
145
151
3
1.5
15
166
4
13.7
137
303
5
7.8
78
381
6
15
150
531
7
10
100
631
8
3.6
36
667
9
6
60
不等概抽样的优点:大大提高了估计精度,减少了 抽样误差。(适用不等概抽样必须要有说明每个单 元规模大小的辅助变量来确定每个单元入样的概率 )
缺点:与简单随机抽样相比,不等概抽样编制样本 框的过程有时要复杂一些。
.
4
5.1.3 不等概抽样的分类
按照样本单元是否放回可以分为放回不等概 抽样和不放回不等概抽样。
6.20
510
.
15
n
Yˆ M y HH
0
i 3 36 0 1 3 7 .2 0 8 6 3 9 1 3.2 2 0 8 6 3 9 1 1.7 2 3 0 0 6 2 4 5 6 .2 7 157057 087(百元)
n m i1 i
vYˆHHnM n 021i n1m yii Y M ˆH0H2
sY ˆHHvY ˆHH 174118 (百元)
.
14
i
Mi
yi
i
Mi
yi
i
Mi
yi
1* 38.23 10926 10
6.50 1900 19
1.50
10
2 13.70 1024 11 15.00 864 20
8.00
80
3
0.75
13 12
7.00
17 21 28.42 13672
4
2.85
30 13 16.00 1045 22*
9.01 3845
抽样误差较大;
不同规模医院的病人样本调查难易度和单位成本 不同;
抽样前大医院样本数量未知,容易给调查的管理 造成困难;
.
2
5.1.1不等概抽样的概念
通常的做法:牺牲“简单”来提高抽样效率。
(1)将总体单元按规模分层,对较大单元的层 抽样比高一些,特大层的抽样比甚至可以100%, 而较小单元的层抽样比低一些。
(1)放回不等概抽样;
(2)不放回不等概抽样;
.
5
放回不等概抽样
最常用的是按照总体单元的规模大小来确定单
元再每次入样的概率。假设总体中第i个单元
N
的大小和规模为
M
i
,总体的总规模
M 0 M i i 1
,每次抽样中第i个单元被抽中的概率用 Z i
表示,如果
Z i
Mi M0
Mi
N
Mi
i 1
这种不等概抽样称作放回的与规模大小成比例的概
.
13
例5.2
某部门要了解所属8500家生产企业当月完成的 利润,该部门手头已有一份去年各企业完成产 量的报告,将其汇总得到所属企业去年完成的 产量为3676万吨。考虑到时间紧,准备采用抽 样调查来推算当月完成的利润。根据经验,企 业的产量和利润相关性比较强,且企业的特点 是规模和管理水平差异比较大,通常大企业的 管理水平较高些,因此采用以与去年产量成比 例的PPS抽样,从所属企业中抽出一个样本量 为30的样本,
yi zi
M0 n yi n m i1 i
总体总值的无偏估计量
PPS抽样:
YHH1 ni n1
yi Zi
M0 n
n i1
yi Mi
.
12
V (YˆH H )
1 n
N i1
Z
i
(
Y Z
i i
Y )2
v (YˆH H )
1 n
n i1
( yi Zi
YˆH H
)2
(n 1)
PPS抽样:
vY ˆH H 1 nn 1 1i n 1 Z y ii Y ˆH H 2 nM n 0 21i n 1 M y ii Y M ˆH H 0 2
5
2.00 1102 14 12.30 220 23
0.75
480
6
5.00
7 10.80
600 15 290 16
3.86 4600 24 15.80 2370 25
6.00 28.43
311 9284
8
2.00
430 17
9.00 940 26
9.97
842
9
8.81
992 18* 21.00 640 27
(4)系统抽样法
.
9
5.2 放回不等概抽样
5.2.1 只抽取一个样本单元(n=1)的不等概抽样 表5-2
(1)包含概率与超市营业面积成正比 iZ iP (超 市 i被 中 )
如果超市营业面积近似正比于超市的销售额,
那么样本量为1的不等概抽样的总体总值估计量:
Y
iS
i yi
iS
.
yi Zi
10
表5-3
E(Y)P(s)YS 可 能
无偏性: E(Y)Y
方差:V (Y ) P (S )(Y S Y )2NZ iY i Z i Y 2
S
i 1
.
11
5.2.2 有放回不等概抽样
对于放回不等概抽样,对总体总量的估计 是汉森-赫维茨(Hansen-hurwitz)估计:
Y ˆHH1 ni n1
(2)采用不等概抽样来减少抽样方差,即赋予 每个单元与其规模成比例的入样概率,然后在估 计中采用不同的权数来进行弥补。
• 大单元入样概率大,小单元入样概率小;
.
3
5.1.2 不等概抽样适用情况
(1)抽样单元在总体中所占的地位不一致。 (2)调查的总体单元与抽样总体的单元不一致。 (3)改善估计量。
(3)如果Mi> m,则第i个单位被抽中, 否则,重抽。
.
8
不放回不等概抽样
放回抽样:对总体参数的估计及其方差估计 比较简单,但样本单元中可能有单元被 多次抽中。
不放回抽样:效率比较高,但是样本不独立
会加大抽样实施、参数估计以及精度计
算的难度。
(1)逐个抽取
(2)重抽法
(3)全样本抽取;样本量随机