多阶段抽样案例
抽样调查第8章多阶段抽样18210
置信度为95%的置信区间为:160800±1.96×9216 在上面的方差估计式中,第一项是主要的,第二项 要小得多!
返回
(二)对总体比例的估计
如果要估计总体中具有所研究特征的二级单元数占全 体全体二级单元数的比例,则
P
1 N
N
Pi
i1
1 NM
N i1
Ai
式中,Ai 为第i个初级单元中具有所研究特征的二级单元
(1)多阶段抽样保持了整群抽样的样本比较集中、 便于调查、节约费用等优点。
(2)多阶段抽样不需要编制所有小单元的样本框。
三、抽选方法与推断原理
多阶段抽样时,每一个阶段的抽样可以相同,也 可以不同。它通常与分层抽样、整群抽样、系统抽样 结合使用。多阶段抽样时,抽样是分步进行的,因此, 讨论估计量的均值及其方差时,需要分阶段进行这要
S 2 2i
M
1 i
1
Mi j 1
(Yij
Y i )2,
s 2 2i
1 mi 1
mi
( yij
j 1
yi )2
返回
二、估计量及其性质
(一)对初级单元进行简单随机抽样
如果二阶抽样中每个阶段都采用简单随机抽样,并且 每个初级单元中二级单元的抽样是相互独立的,则对 总体总和的估计可以采用简单估计,也可以考虑采用 比率估计。
表中红字为抽中的房号。 这时,初级单元有15个,每个初级单元拥有二级单元 12个。首先将单元从1到15编号,在15单元中随机抽取 5个单元,分别是1,6,9,12,13号;然后在被抽中的 单元中,进行第二次抽样,即分别在12户居民户中随机 抽取4户。
一、符号说明
初级单元和初级单元拥有的二级单元个数:N,M 第一阶段和第二阶段抽样的样本量:n ,m
等概率整群抽样和多阶段抽样
• 样本方差
s2 1
n
nM 1 i1
M j 1
yij y 2
• 样本群间方差
•
sb2
样本群内方差
M n 1
n i
( yi y)2
sw2
1 n(M 1)
n i
M j
yij yi 2
4.2 等概率整群抽样
1. 群规模相等时的估计
均值估计量
• 总体中的各群规模不等 采用不等概率的方法抽取群
符号说明
• N: 总体群数 • n: 样本群数 • Yij: 总体第i群的第j单位数值 • yij: 样本中第i群的第j单位数值 • Mi: 第i群规模(单位个数) • 本节,M1= M2 =……=MN =M
Mt: 总体单位总数
N
M t M i i 1
Ey Y M Y
定理2 y 的方差为
N
2
V (y) 1 f
Yi Y
i 1
n
N 1
1 f nM
S
2 b
证明: 由于 y My ,又
N
2
M 2V ( y) V ( y) 1 f
Yi Y
i 1
n N 1
故
N
2
ˆ
sb2
sb2 sw2 (M 1)sw2
926.63 220.79 926.63 (6 1)220.79
0.348
deff 1 (M 1)ˆ
1 (6 1) 0.348 2.74
表明为达到同样的估计精度,整群抽 样的样本量大约为简单随机抽样样本 量的2.74倍.
教育科研方法基础之抽样调查法论文
教育科研方法基础之抽样调查法一、抽样调查的三个典型案例案例一:第三次全国国民阅读与购买倾向抽样调查北京美兰德信息公司与中国出版科学研究所合作,调查我国居民阅读情况,调查覆盖了图书、杂志、报纸、音像、电子出版物、网络等出版门类,分析近年来我国国民的阅读目的、阅读兴趣、阅读偏好、购买行为,以及各类出版物市场容量等等,并对近期图书市场的发展趋势进行预测。
调查采用严格的地图块抽样方法,调查样本覆盖全国14个省份、21个城市,共回收8000多个城乡居民样本,调查质量得到客户的高度好评。
案例二:美兰德公司关于感冒药市场的抽样调查客户是世界制药业50强之一,并且是最早在中国建立合资药厂的国外制药公司。
其旗下的某著名品牌,在中国曾经畅销十多年,但由于受一突发事件的影响,该品牌遭到主管部门停产、停销的处理。
为了扭转这一不利局面,该公司决定对原有产品进行改进,在此基础上对该产品进行重新包装,对原有品牌名称进行调整,以便重新上市,夺回原有市场。
美兰德公司在该品牌主要销售区的20个省(市)内,采用分层不等概率多阶段抽样方法抽取样本,由访问员携问卷入户对5000名用户的进行访问。
调查结果显示,该产品原有品牌在居民心目中知名度仍然极高,总体印象较好。
但突发事件对城市居民的购买和使用还是有一定影响。
在这种情况下,美兰德公司建议继续使用原有品牌名称,但在原名称前加一个“新”字,以区别原有产品。
该公司接受了美兰德公司的建议。
产品重新上市后,销量大幅增加,达到预期效果。
案例三:《文学文摘》为预测1936年美国总统进行的抽样调查《文学文摘》是美国一个很有名的刊物,1936年《文学文摘》预测美国总统选举结果时发生了重大失误。
当年的两位总统候选人,一位是民主党的罗斯福,一位是共和党的兰登,当时大多数民意测验、新闻机构和政治观察家都预测罗斯福会获胜,但《文学文摘》与众不同,它预测兰登会以57%的优势战胜罗斯福。
但最后的结果却是罗斯福以62%:38%的压倒性优势当选。
抽样方法案例
附件二:国家卫生服务总调查样本地区和样本个体的抽取方法一、概述1.1国家卫生服务总调查抽查的原则是既要兼顾调查设计的科学性即样本地区和样本个体对全国和不同类型地区有足够的代表性,又不致于过多增加样本量而加大调查的工作量,即经济有效的原则。
1.2抽样的方法是多阶段分层整群随机抽样法。
第一阶段分层是以县(市或市区)为样本地区;第二阶段分层是以乡镇(街道)为样本地区;第三阶段分层以村为样本地区;最后是住户为样本个体。
二、第一阶段分层整群抽样2.1第一阶段抽样着重解决两个基本问题:一是由于全国各县、市差异极大,如何确定第一阶段分层的基准;二是抽样比例,多大的县、市样本量能经济有效地代表全国和不同类型的地区。
2.2第一阶段分层基准的确定第一阶段分层的指标是通过专家咨询法和逐步回归法筛选的10个与卫生有关的社会经济、文化教育、人口结构和健康指标。
10个指标的主成份分析结果如表1。
表⒈主要社会经济和人口动力学指标的主成份因子模型从主成份分析中可以看出主成份1与绝大多数变量有十分显著的关联,意义十分明确,而且代表 10 个变量整体信息的 51.22%。
其值的大小可以综合反映一个地区社会经济、文化教育、人口及其健康的发展。
因此,确定主成份1为分层的基准称它为分层因子。
2.3第一阶段的聚类分层在计算各县、市分层因子的得分后,用 K-Means聚类分析方法将总体分为组间具有异质性和组内具有同质性的五类地区即五层。
聚类分层的结果第一层有 201 个县(市或市区),占整个县(市或市区)的 8.2%;第二层有 650个县(市或市区),占 26.5%;第三层有 698 个县(市或市区),占 28.5%;第四层有 691个县(市或市区),占 28.2%;第五层有 212,占 8.6%。
表⒉显示了各层因子得分和选择的社会经济等变量的均值,可见各层呈明显的梯度。
可以认为,第一层所在的市县,是社会经济、文化教育和卫生事业发展以及人群健康状况好的地区,第二层是比较好的地区,第三层是一般性地区,第四层是比较差,第五层是差的地区。
随机分组原理与方法案例
随机分组原理与⽅法案例简单随机抽样,也叫纯随机抽样。
就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。
特点是:每个样本单位被抽中的概率相等,样本的每个单位完全独⽴,彼此间⽆⼀定的关联性和排斥性。
简单随机抽样是其它各种抽样形式的基础。
通常只是在总体单位之间差异程度较⼩和数⽬较少时,才采⽤这种⽅法。
适⽤于总体量⼤、差异程度较⼤的情况。
先将总体单位按其差异程度或某⼀特征分类、分层,然后在各类或每层中再随机抽取样本单位。
分层抽样实际上是科学分组、或分类与随机原则的结合。
分层抽样有等⽐抽样和不等⽐抽样之分,当总数各类差别过⼤时,可采⽤不等⽐抽样。
除了分层或分类外,其组织⽅式与简单随机抽样和等距抽样相同。
随机抽样设计⼀、纯随机抽样:对总体的所有容量不做任何的分类和排队,完全按随机原则逐个抽取样本容量。
纯随机抽样的常⽤抽样⽅法1)抽签法:将总体容量全部加以编号,并编成相应的号签,然后将号签充分混合后逐个抽取,直到抽到预定需要的样本容量为⽌。
缺点:总体容量很多时,编制号签的⼯作量很⼤,且很难掺和均匀。
2)随机数字法:⽤字母顺序或⾝份证号等任何⽅便的⽅法对总体容量编者按号,利⽤随机数表从1到总体容量N中随机抽取n(样本容量数)个数,遇到那些不在编号⾥的数字需跳过。
⼆、等距抽样:先将总体各单位按某⼀有关标志(或⽆关标志)排队,然后相等距离或相等间隔抽取样本单位。
根据需要抽取的样本单位数(n)和全及总体单位数(N),可以计算出抽取各个样本单位之间的距离和间隔,即:K=N/n,然后按此间隔依次抽取必要的样本单位。
等距抽样的⼀个例⼦某企业有职⼯5000名,现要随机抽取100⼈进⾏家庭收⼊⽔平调查。
抽取⽅法:按与研究⽬的⽆直接关系的姓名笔划对总体进⾏排列,把总体划分为K=5000/100=50个相等的间隔,在第1⾄第50⼈中随机抽取⼀名,如抽到第10名,后⾯间隔依次抽取第60,110,160,210,…直到4960为⽌,总共抽取50同名职⼯组成⼀个抽样总体。
第二章抽样方法-PPT文档资料
上面的例子中有三个层次的抽样单位:学校、班 级、学生,则对应的抽样框也应有三个:全部学校的 名单、抽取的学校样本中的全部班级的名单、抽取班 级中的所有学生的名单。
4、参数值与统计值: 参数值也称总体值,它是关于总体中某一变量的 综合描述,或者说是总体中所有个体的某种特征的 综合数量表现。 在统计中最常见的总体值是某一变量的平均值 例如:平均年龄、平均收入等。 总体值只有通过对总体中的每一个个体都进行调 查或测量才能得到。
5、抽样误差: 总体的异质性和样本与总体范围的差异性,在用 样本的统计值去推算总体的参数值时总会有偏差, 这种偏差就是抽样误差。它是样本代表性大小的一 个标准。
当总体相当大时,可能被抽取的样本非常多,不 可能列出所有的实际抽样误差,而用平均抽样误差来 表征各样本实际抽样误差的平均水平。
抽样误差是指样本指标值与被推断的总体指标值 之差。主要包括:样本平均数与总体平均数之差;样 本成数与总体成数之差。
2、可测性原则。
可测性原则指的是抽样设计能够从样本自身计算 出有效的估计或者抽样变动的近似值。在研究中通常 用标准误来表示。通常,只有概率样本在客观上才是 可测的,即概率样本可以计算出有效的估计值或抽样 变动的近似值。但是,概率抽样也并不自动保证可测 性。比如,从一个具有周期性变化的总体中选出一个 系统样本,就不能保证这种可测性。
一、抽样的基本术语
抽样:是通过抽取总体中的部分单元,收集这些 单元的信息,运用数理统计的原理和方法,对总体进 行推断的一种手段。
总体
抽取样本 推断总体
样本
1、总体与样本。总体是指研究对象的全体,它 是由研究对象中的单元组成的。总体中单元的数目 称作总体容量。
抽样调查理论与方法 金勇进(第二版)第4章等概率整群抽样和多阶段抽样
样本乡 编号
村庄数 Mi
作物总产量(乡) yi(万公斤)
种植面积(乡) xi(亩)
yi yi M
1.4667 1.2667 1.1615 1.55 1.265 1.1143 1.2381 1.079 1.0903 1.3882 ——
i
1 2 3 4 5 6 7 8 9 10 合计
Yˆ N n y 1
i 1 n
yi
33 10
( 2 2 .0 2 3 .6 ) 8 4 8 .4 3
n
y i 2 5 .7 1
i 1
v ( Yˆ )
N (1 f )
2
i 1
n
( yi y ) n 1
2
1 5 6 7 .9
n
ˆ s (Y )
S
2
故 又可写为:
2
N
(Y
M
ij
Y )( Y ik Y )
2
( NM 1 )( M 1 ) S
用简单随机抽样方法抽取n个群,每个群内的M个 单元全部进入样本,则等群抽样均值估计量 y 的方 差可用群内相关系数近似表示
1 M
2
V (y)
V (y)
1 f nM
v( y ) 1 f nM
Yˆ NM y
2 2 V ( Yˆ ) V ( NM y ) N M V ( y )
sb
2
总体总值 的估计量 及其方差
ˆ ) N 2 M 2v( y ) v (Y
【例4.1】
在一次对某中学在校零花钱的调查中, 以宿舍作为群进行整群抽样。每个宿舍 都有M=6名学生。用简单随机抽样在全 部N=315间宿舍中抽取n=8个宿舍。全 部48个学生上周每人的零花钱 y ij 及相关 计算数据如表4-2所示。试估计该学校学 生平均每周的零花钱 Y ,并给出其95% 的置信区间。
阶段抽样案例
阶段抽样案例在质量管理中,抽样是一种常用的方法,而阶段抽样则是其中的一种特殊形式。
阶段抽样是指将一个过程分成若干个阶段,每个阶段都进行抽样检验,以便及时发现问题并进行调整。
下面我们通过一个实际案例来说明阶段抽样的应用。
某电子产品生产厂家为了保证产品质量,采用了阶段抽样的质量检验方法。
该厂家生产的电子产品分为三个关键生产阶段,零部件生产、组装和包装。
为了确保产品质量,他们在每个阶段都进行了抽样检验。
在零部件生产阶段,工作人员每隔一小时从生产线上抽取10个零部件进行检验,以确保零部件的质量符合标准。
如果发现问题,他们会立即停止生产线,并对问题进行分析和处理,以防止不合格品流入下一个阶段。
在组装阶段,工作人员每隔两小时从生产线上抽取20台组装好的产品进行检验。
同样,如果发现问题,他们会立即停止生产线,并对问题进行分析和处理,以确保产品质量。
最后,在包装阶段,工作人员每隔三小时从生产线上抽取30个包装好的产品进行检验。
同样,如果发现问题,他们会立即停止生产线,并对问题进行分析和处理,以确保产品质量。
通过阶段抽样的方法,该电子产品生产厂家及时发现了生产过程中的问题,并及时进行了调整,从而保证了产品质量。
这种方法不仅能够提高产品质量,还能够减少不合格品的流入,节约了成本,提高了生产效率。
在实际应用中,阶段抽样可以根据具体情况进行调整。
例如,可以根据生产过程的复杂程度和产品的重要性来确定每个阶段的抽样数量和频率。
此外,还可以根据历史数据和经验来不断优化阶段抽样的方法,以适应不断变化的生产环境。
综上所述,阶段抽样是一种有效的质量管理方法,能够帮助企业及时发现问题并进行调整,保证产品质量。
通过合理调整抽样数量和频率,以及不断优化方法,可以进一步提高产品质量,降低成本,提高生产效率。
因此,在质量管理中,阶段抽样具有重要的应用价值。
大学统计学-多阶段抽样的例子
全国电视观众抽样调查抽样方案
• 本抽样方案采用分层五阶抽样。各阶抽样 单元确定为:
– 第一阶抽样:区(地级市以上城市的市辖区)、 县(包括县级市等);
– 第二阶抽样:街道、乡、镇; – 第三阶抽样:居委会、村委会; – 第四阶抽样:段分层:一 类区是东部省市, 二类是中部省市, 三类是西部省市自 治区。 每个子层中包含若 干个区县,例如子 层23中含安微和江 西的43个区县
抽样方式
阶段 第一 第二 第三 第四 第五
抽样单元 区县 街道乡镇 村居委会 家庭 个人
抽样方式 分层 整群 整群 系统 简单随机
样本量 全部子层 抽取2或3个 抽取2个 抽取15户 抽取13岁以上1人
《社会调查理论与方法》第四章 社会调查的抽样
党派 共和党 民主党
支持率 57% 43%
选举结果——两个星期之后,美国总统选举 的结果罗斯福以61%的得票率获得第二任任期。 相较于罗斯福的523张选举人票,兰登仅得到8张。
预测为什么失败呢?
3. 决定抽 样方案
4. 实际抽 取样本
5. 评估样 本质量
•确定样本的
数量
•选择抽样的 由于拒访或样 具体方法:总 本缺失,可根 体规模的大小; 据实际情况抽 调查对象的特 取预备样本
,在抽样的过程中,总体的每一个元素都有同等的 机会入选样本,而且每个元素的抽取都是相互独立 的。
特点:总体中的任何个体都同样有被抽取的平等机 会。
主要方法: • 总体较小时:抓阄,抽签法 • 总体较大时:摇号法,随机数字表
随机数法的具体步骤
例题:要从3000个人(或其他分析单位)的总体中用简单随 机抽样的方法选取100个人作为样本进行调查。
随机数表
简单随机抽样方法的适用性:
➢ 总体数量较小 ➢ 易获得所有样本单位的完整列表 ➢ 样本单位之间差异程度较小或难以分组 ➢ 总体在空间范围内较为集中 ➢ 采用电子技术辅助调查的方法时,如CATI
(二)系统抽样
按无关标志; 按有关标志
系统抽样( systematic sampling):又叫等距抽样
一天,爸爸叫儿子小华去买一盒火柴。临出门 前,爸爸嘱咐儿子要买能划燃的火柴。小华拿着钱 出门了,过了好一会儿,小华才回到家。
“火柴能划燃吗?”爸爸问。 “都能划燃。” “你这么肯定?” 小华递过一盒划过的火柴,兴奋地说:“我每 根都试过啦。”
思考:得到火柴能否划燃的信息准确吗?
这样做有什么后果?
在日常生活当中所 熟知的抽样有哪些?
09-第九章++多阶段抽样精品教育文档
ˆ
a
am
Yy yi/a yij/(am)
i1
i1 j1
12
证明二阶样本估计量的无偏性
E
(y)
E1
E
2
(
y
)
am
m
y ij
E1
E
2
(
两阶段抽样的研究,是多阶段抽样研究的基础和 出发点。多阶段抽样的性质和特点,在二阶段抽样中 都已经体现出来。本书中主要研究二阶段抽样问题,
对于三阶段以上的多阶段抽样,只做一般的介绍。
8
第二节 初级单位大小相等 的两阶段抽样
9
一、问题的基本提法
设总体划分为A个初级单位,每个初级单位含有M个二阶单位。
a i1
Yi
1 f1 a
S12
Aa Aa
S12
E1 V2
y
E1
V2
1 a
a i1
yi
E1
1 a2
a 1 f2 i1 m
M
(Yij
Yi )2
i1
M 1
1 f2
am
M
Yij
j1
1 A
A 1
Pi
而二阶段抽样的样本比例为:
p 1 a ami1
m
yij
j1
1 a
a 1
pi
《多阶段抽样案例》课件
适用于大规模数据调查,能够快速获取足够的样本量。
多阶段抽样的局限性
• 依赖研究设计和样本选择的准确性。 • 可能存在抽样误差和偏倚。 • 只适用于特定的研究问题和调查目的。
多阶段抽样的应用领域
市场调研
用于了解消费者需求和市场 趋势。
舆情分析
用于分析公众对某一事件或 话题的态度和观点。
1
分层抽样
根据总体特征将总体分为不同层次,然后从每个层次中进行抽样,以便保留总体的特 征。
2
聚类抽样
将总体分成多个聚类群体,然后随机选择部分聚类群体,并从每个选定的聚类群体中 抽样,以便减少样本调查的成本。
多阶段抽样的步骤
确定抽样目标
设定研究目标和问题,并确定要对哪些人群 或群体进行调查。
制定抽样计划
根据研究目标和问题,设计合适的分层和聚 类方案,并确定每个阶段的样本量。
执行抽样
按照抽样计划,从每个阶段中进行随机抽样, 并获取样本数据。
分析数据
对抽取的样本数据进行统计分析,得出结论 并推广到总体。
多阶段抽样的优点
1 节约成本
通过减少样本数和调查时间,大大降低了调查成本。
2 提高准确性
通过分层和聚类抽样,保留了总体特征,增加了样本的代表性。
社会调查
用于了解社会问题和社会现 象。
结论和要点
1 多阶段抽样是一种有效的大规模数据调查方法。
它通过分层和聚类抽样来提高调查效率和准确性。
2 多阶段抽样适用于市场调研、舆情分析和社会调查等领域。
然而,它仍有局限性并需要注意误差和偏倚。
多阶段抽样案例
多பைடு நூலகம்段抽样是一种在大规模数据调查中应用广泛的抽样方法,通过分层抽样 和聚类抽样两个阶段来提高效率和准确性。
统计学中的抽样方法
统计学中的抽样方法统计学是一门研究数据收集、分析和解释的学科。
在统计学中,抽样是一种重要的方法,用于从总体中选择一部分样本,以便通过对样本的研究和分析来推断总体的特征。
本文将探讨统计学中的抽样方法及其应用。
一、简介抽样是统计学中的一项基本技术,它是通过从总体中选择一部分样本来研究和推断总体特征的过程。
在实际应用中,通常很难对整个总体进行研究,因此通过抽样来获得样本数据,以代表总体特征,是一种高效且经济的方法。
二、随机抽样随机抽样是一种常用的抽样方法,它通过随机选择样本来保证样本的代表性。
在随机抽样中,每个个体都有相等的机会被选中,从而避免了主观偏见的影响。
例如,当我们想要了解一座城市的人口特征时,可以使用随机抽样方法从人口普查数据中选择一部分居民作为样本,以代表整个城市的人口特征。
三、系统抽样系统抽样是一种按照一定规则选择样本的方法。
在系统抽样中,研究者会事先确定一个规则,例如每隔一定间隔选择一个个体作为样本。
这种方法在实际应用中比较常见,特别是在大规模调查中。
例如,当我们想要调查某个地区的居民满意度时,可以使用系统抽样方法,在居民名单中每隔一定间隔选择一个个体进行调查。
四、整群抽样整群抽样是一种将总体划分为若干群体,然后从中随机选择若干群体进行研究的方法。
在整群抽样中,每个群体都被视为一个整体,样本是由群体组成的。
这种方法适用于总体较大且分布不均匀的情况。
例如,当我们想要了解某个国家的经济发展情况时,可以将国家划分为若干个地区,然后从每个地区随机选择若干个城市进行研究。
五、多阶段抽样多阶段抽样是一种将抽样过程分为多个阶段进行的方法。
在多阶段抽样中,总体被分为若干个阶段,每个阶段选择一部分样本进行研究。
这种方法适用于总体分布复杂、难以直接抽样的情况。
例如,当我们想要了解某个国家的就业情况时,可以先将国家划分为省份,然后从每个省份随机选择若干个城市,再从每个城市随机选择若干个街道,最后在每个街道选择若干个家庭进行研究。
抽样
分层抽样
5、要从已编号(1~50)的50部新生产的赛车 中随机抽取5部进行检验,用每部分选取的号 码间隔一样的系统抽样方法确定所选取的5部 赛车的编号可能是( 。 )。 B A. 5,10,15,20,25 C. 5,8,11,14,17 B. 3,13,23,33,43 D. 4,8,12,16,20
5.多阶段抽样 (1)定义
多阶抽样又称多级抽样或分 段抽样,它是按抽样元素的隶属 关系或层次关系,把抽样过程分 为几个阶段进行。 e.g.大学——院系——班级—— 学生
2、多级抽样的步骤
以大群为单位编制抽样框 抽取若干大群 以小群为单位给每个大群编制抽样框 分别从每个大群中抽取小群 根据需要重复3、4步骤七天连锁酒店 得到基本元素,构成研究样本
究竟该选择哪一种抽样方案呢?或者说,如何确定
每一阶段抽样的单位数目呢?
主要考虑的因素有两方面:
程度越高的子总体,所抽的规模就应相对小一点; 反之,则应大一点。
(1)各个抽样阶段中的子总体同质性程度。同质性
(2)要考虑研究者所拥有的人力和经费。
一般来说,在其他条件不变的情况下,样本所覆 盖的面越大,样本的代表性也越大。
强调两点:
(1)分层抽样是等概率抽样,它也是公平的。用分层抽 样从个体为N的总体中抽取一个容量为n的样本时,在整 个抽样过程中每个个体被抽到的概率相等,都等于 n 。
N
(2)分层抽样是建立在简单随机抽样或系统抽样的基础 上的,由于它充分利用了已知信息,因此它获取的样本 更具代表性,在实用中更为广泛。
思考题
假设一个城市有100,000户居民, 分属200个居委会。如果要从总体中 抽取1000户居民构成样本,我们可以 先从200个居委会中随机抽取20个居 委会;然后,在所抽取的20个居委会 中,每个居委会随机抽取50户居民。 这样,我们总共抽到1000户居民。
第五章 多阶段抽样
N
i
2 1
2
i
计算
2 S1时 Yi
2 不受二阶抽样影响,计算 s1 的 yi 则不然。
即:
2 E s2
( )
n m 1 2 2 = E1 E2 s2 = E1 E2 ∑∑ ( yij − yi ) n( m − 1) i =1 j =1
( )
∑y ∑x
i =1 i =1 n
n
i
X
i
定义总值的比率估计量: YˆR = M
∑ Yˆ
0
n
∑M
i =1
i =1 n
i
=M
i
∑M
0 i =1 n i =1
n
i
yi
n
}
1−f 2 2 1−f 2 2 1 2 =∑ i + Y S2i −n ∑ i − Y ∑S2i m n i =1 nm i =1 i =1 1n ( Yn = ∑ i ⋯ 注 Yn ≠Y ) 记 意 Y n i =1
n
2
(
)
= ∑ (Y i
n i =1 n
采 ss N 抽 初 单 用r ,从 中 n个 级 元 采 s s从 个 选 级 元 抽 m 次 单 用r 每 中 初 单 中 取 个 级 元
一符 、号
Y , 体 第 初 单 中 j个 级 元 标 ij 总 中 i个 级 元 第 次 单 指 值
i = ,2 .N j= ,2 .M 1 ,… , 1 ,…
ˆ 1 n 1 n m Y = y = ∑yi = ∑∑yij n nm E( y) = Y
1 E( y) = E1E2 ( ∑yi ) n 1 = E1[ ∑E2 ( yi )] n 1 = E1[ ∑Yi ] = Y n
抽样技术6二阶及多阶抽样
推导 过程
记 E(ˆ) % , V (ˆ) E(ˆ %)2 E1E2 (ˆ %)2 E2 (ˆ %)2 E2 (ˆ)2 2%E2 (ˆ) %2 E2 (ˆ)2 V2 (ˆ ) 2%E2 (ˆ) %2
对 两 边 求 E1 , 得 V (ˆ) E1 E2 (ˆ)2 E1 V2 (ˆ ) E1E2 (ˆ)2 V1 E2(ˆ) E1 V2 (ˆ )
2.实施步骤:(1)从总体中抽初级单元,称为第
一阶抽样;(2)从每个被抽中的初级单元中抽二 级单元,称为第二阶抽样,以此类推。
3.与其他几种抽样方法的关系:
整群抽样可以看成是二阶抽样的特殊情形,即最 后一阶抽样是100%的抽样;
分层抽样也可看作是多阶抽样的特例,每个初级 单元即是层,第一阶抽样是100%抽样,而层内抽 样则是第二阶抽样。
(属于等概抽样?)
编号 单元
房号
1* A座 1 2 * 3 * 4 * 5
6
7
8
9 10 * 11 12
2
B座 1 2
3
4
5
6
7
8
9 10 11 12
3
C座 1 2
3
4
5
6
7
8
9 10 11 12
4
D座 1 2
3
4
5
6
7
8
9 10 11 12
5
E座 1 2
3
4
5
6
7
8
9 10 11 12
6 * F座 1 * 2
第i个psu内ssu间的方差
Yij
Yi
1 M
M
Yij
j 1
1 N
Y
N
多阶段抽样案例
非油田层 7个层
局级单位
第二阶抽样(πPS系统抽样)
步骤: 将该局级(或二级)单位内所有的基层单位按自 然 顺序排列,列出相应的干部人数,计算累计人 数,设总数为M 设在该局级(或二级)单位中需要抽取的基层单 位数为m,计算抽样间距k=M/m(若不是整数, 则四舍五入取整数) 在1~k 之间产生一个随机数 r,则r,r+k,…, r+(n-1)k所对应的基层单位为抽中的基层单位
华北石油管理局勘探四公司的第二阶抽样
勘探四公司被抽中,且在其中应抽 取n=3个基层单位,计算该公司所 有20个基层单位的累计干部人数 表14.1.4.docx
第三阶抽样(基层单位抽人)
要求:每个基层单位抽取10人 方法:等概率系统抽样 步骤: 设该基层单位有干部人数M人,则抽样间距 k=M/10(若k不为整数,则四舍五入使其为整数) 产生一个1~10范围内的随机数r,则按该单位干 部名册的顺序,第r,r+k,…,r+9k个干部即为 抽中需调查的人员
350,000
中财在校生
抽样方法
与人数成比例 的不等概率抽 样
第一阶抽样
第二阶抽样
第三阶抽样
将总公司所属 的单位按性质 进行分类,以 类为层,在层 内抽取局级单 位
在抽中的局级 单位中抽取基 层单位
在抽中的基层 单位中抽取干 部
抽样方案整体流程
11个层(局)
油田层 确定样本量 总体 层 基层单位 二级单位
2765
3190 3567 4131 15695 20784 26189
337
6
425
377 564 11564 5089 5405 1035 9576 4207 8768 49775
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
进行n次独立抽样,第i个局级单位被抽中ni次,则在该局级
单位抽取ni 个基层单位
为什么要做这样
的变换?
进行n’=n/2次独立抽样,第i个局级单位被抽中ni’次,则 在该局级单位抽取ni =2ni’个基层单位
大中专院校层的一阶抽样(n=12)
确定样本量
总体
层
11个层(局 )
油田层
二级单位
基层单位
非油田层 7个层
分层
这一层包含400个基层单位,有必要 将其细分 细分层
编
类别
号
干部人数
抽取的理论值 调查的基层单 位数
1 油田和勘探单 位
309174
400.11
400
2 管道运输单位 15993
20.70
20
3 建设工程公司
3003
3.89
4
非
4
机械厂
5369
6.95
6
油 田
5 供应办事处
526
0.68
2
层
6 大中专院校
石
油
干
部
数
中财在校生
抽样方法
与人数成比例 的不等概率抽 样
第一阶抽样
第二阶抽样
将总公司所属 的单位按性质 进行分类,以 类为层,在层 内抽取局级单 位
在抽中的局级 单位中抽取基 层单位
第三阶抽样
在抽中的基层 单位中抽取干 部
确定样本量
总体
层
抽样方案整体流程
11个层(局 )
油田层
二级单位
基层单位
非油田层 7个层
总体
层
11个层(局 )
油田层
二级单位
基层单位
非油田层 7个层
局级单位
第二阶抽样(πPS系统抽样)
步顺序排列,列出相应的干部人数,计算累计人数, 设总数为M
设在该局级(或二级)单位中需要抽取的基层单 位数为m,计算抽样间距k=M/m(若不是整数,则 四舍五入取整数)
华北石油管理局(层1.3)抽取二级单位
华北石油管理局下属43个二级单位 干部总数28413人 需抽取基层单位38个 抽样方法: 在1~28413之间随机抽取38个随机数,确定每次 的随机数对应的二级单位,统计38次抽样中各二级 单位被抽中的次数ni。例如:二级单位勘探四公司 需抽取3个基层单位。
确定样本量
在1~k 之间产生一个随机数 r,则r,r+k,…, r+(n-1)k所对应的基层单位为抽中的基层单位
华北石油管理局勘探四公司的第二阶抽样
勘探四公司被抽中,且在其中应抽 取n=3个基层单位,计算该公司所 有20个基层单位的累计干部人数 表14.1.4.docx
第三阶抽样(基层单位抽人)
要求:每个基层单位抽取10人 方法:等概率系统抽样 步骤:
局级单位
确定样本量
设P为按某种准则分类的干部在全体干部中所占的比例 在给定置信度下,设P的最大允许绝对误差为d 通过样本获得的总体P的估计值为
确定样本量
每个基层单位中调查10人,在全公司中应抽取基层单位数为450 个
确定样本量
总体
层
11个层(局 )
油田层
二级单位
基层单位
非油田层 7个层
局级单位
9240
11.96
12
7
科研院所
3296
4.27
4
8 机关及其他
1122
1.45
2
合计
347723
450.00
450
细分层中的特殊处理
层号
1.11.1 1.11.2
1.11.3 1.11.4 1.11.5 1.11.6 1.11.7 1.11.8 1.11.9 1.11.10 1.11.11 总计
设该基层单位有干部人数M人,则抽样间距 k=M/10(若k不为整数,则四舍五入使其为整数) 产生一个1~10范围内的随机数r,则按该单位干 部名册的顺序,第r,r+k,…,r+9k个干部即为 抽中需调查的人员
统计调查 案例分析
DisTchuasnskionYoTui!me
单位名称
干部人数 累计人数
滇黔桂勘探局 冀东勘探开发
公司 浙江勘探处 安徽勘探公司 长庆勘探局 玉门管理局 青海管理局
延长油矿 吉林管理局 江苏勘探局 河南勘探局
2765
425
377 564 11564 5089 5405 1035 9576 4207 8768 49775
2765
3190
3567 4131 15695 20784 26189 27224 36800 41007 49775
统计调查 案例分析
石油系统干部现状抽样调查
第六组: 薛嘉 丁雪 张敏 王莹 蒋晚秋
抽样方法
整个石油系统的干部分属总公司各大小单位中,分布在全国各 选地择,什对么所抽有样干方部法进呢行?简要单考随虑机哪抽些样因是素不?可能的。针对石油系统 干部分布情况,采用分层多阶不等概率抽样方法。
9776
中
350,000
随机数 337 3204
11072 19931
45830
抽取基层单 位
6
2 26 12
20 66
确定样本量
总体
层
11个层(局 )
油田层
二级单位
基层单位
非油田层 7个层
局级单位
非油田层一阶抽样
抽样方法:PPS(抽取的局级单位数与单位干部人数成比例) 设:该层有N个局级单位,需要抽取n个基层单位 在局级单位中分配基层单位数量:
局级单位
油田层的一阶抽样
与非油田层基本相同,唯一不同的是: 油田本身已经是局级单位,而每个油田下属的二
级单位数量较大,故不要求二级单位内抽取的基层 单位数必须是偶数。因此若该油田需抽取n个基层单 位,则进行n次独立的PPS抽样。第i个二级单位被 抽中的次数ni,即是在该二级单位中需要抽取n个基 层单位。