分层抽样
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分层抽样
————————————————————————————————作者: ————————————————————————————————日期:
ﻩ
分层抽样
抽样技术作为现代统计学科体系的重要组成部分,被广泛运用到社会实践当中。自从1895年挪威首任中央统计局局长凯尔在伯尔尼第五届国际统计学会会议上提出所谓“代表性调查”的抽样方法以来,经过100多年的理论探讨和时间积累,抽样理论更加科学,抽样技术日臻完善。抽样又称取样。其原理是从研究的全部样品中抽取一部分样品单位。从被抽取样品单位的分析、研究结果来估计和推断全部样品特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。基本的抽样技术包括简单随机抽样,系统抽样,分层抽样,多阶段抽样等。在实际的抽样调查中我们常常会根据调查成本,调查规模等结合运用各种抽样方法进行实践。
分层抽样是通过对总体单位进行分类,即分成若干子总体,子总体之间比较相似,使每一个字总体的方差变小,这样只需要在子总体中抽取少量样本单位,就能很好地代表子总体的特征,从而提高对整个总体估计的精度。分层抽样需要事先知道各层权重,但在现实情况下有些资料无法提前预知。这时我们可以先从总体中抽取一个大的初始样本,从而获得有关的辅助信息,然后再从初始样本中抽取一个字样本,这种方法就是双重抽样。其定义为,当简单性状与复杂性状存在关系时可用抽取简单性状来间接估计复杂性状的抽样方法。结合分层抽样的双重抽样方法即为分层的双重抽样。
分层抽样,的主要特点就是可以提高估计精度,它不但能对总体进行估计。同时可以对各层子总体进行估计。如此便于实际中抽样的组织和实施。下面我们就分层抽样方法展开讨论,运用实例分析进行比较。
一、分层抽样的原理简介
在抽样之前,先将总体N 个单位划分成L个互不重复的子总体,每个子总体成为层,他们的大小分别为L N N N N ...,,,321,这L 层构成整个总体(1l
h N Nh ==∑)。 然后,在每个层中分别独立地进行抽样。
1-1、分层抽样的总体均值估计
在分层抽样中,对总体均值Y 的估计是通过对各层h Y 的估计,安权层h W 加权平均得到的,公式为
1
1
1ˆˆˆl
l
st h h h h
h h Y W Y N Y N ====∑∑
如果得到的是分层随机样本,则总体均值Y 的简单估计为
1
1
1ˆl
l
st h h h h
h h y
W y N y
N ====∑∑
估计量的性质有
性质1:对于一般的分层抽样,如果h Y 是Y 的无偏估计(h=1,2,3…,L ),则ˆst Y
是Y 的无偏估计。ˆst Y
的方差为 21
ˆˆ()()l
st h h
h V Y W V Y ==∑ 在分层抽样中只要对各层估计是无偏的,则对总体的估计也是无偏的。因此,
各层可以采用的不同的抽样方法,只要相应的估计量是无偏的则对总体的推算也是无偏的。
性质2:对于分层随机抽样,ˆst y 是Y 的无偏估计,ˆst y 的方差为
性质3:对于分层随机抽样,()st V y 的一个无偏估计为
2
2211
1()()l l
h st h h h h h h h f v y W v y W s n ==-==∑∑
1-2、分层抽样总体总值的估计 总体总值Y 的估计量为
1
ˆˆˆl
st h h h Y NY N Y ===∑
如果得到的是分层随机样本,则总体总值Y 的简单估计为
ˆst Y
Ny = 估计量的性质有
性质1:对于一般的分层抽样,如果ˆst Y
是ˆY 的无偏估计,则ˆY 是Y 的无偏估计。ˆY
的方差为 221
1
ˆˆˆ()()()()l l
st h h h h h V Y N V Y N V Y V Y =====∑∑
性质2:对于分层随机抽样ˆY
的方差为 222211
1ˆˆ()()()l
l
h st h h h h h h h f V Y N V y N V y N S n ==-===∑∑
性质3:对于分层随机抽样,ˆ()V Y
的一个无偏估计为 222211
1ˆˆ()()()l
l
h st h h h h h h h f v Y N v y N v y N s n ==-===∑∑ 1-3、样本量的分配
分层抽样中,需要研究总样本量n一定时各层应该分配多少样本量。因为对总体进行估计时,估计量的方差不仅与各层的方差有关,还与各层所分配的样本量有关。实际工作中根据实际需要选取分配方法。
分配方法1:比例分配
比例分配指的是按各层单位数占总体单位数的比例,也就是按各层的权层进行分配,即
22211
1ˆ()()l l h st h h h h
h h h f V y W V y W S n ==-==∑∑
h h h n N W n n == 或 h h h n n f f N N
=== 这时 h
h h N n n nW n
==
对于分层抽样,总体均值Y 的估计量是prop y y =,总体比例P 的估计量是
11l prop h h p p a n ===∑,prop y 的方差为2
11()l prop h h h f V y W S n =-=∑,prop p 的方差为211
11()1l l h h h prop h h h h h h f N P Q f V p W P Q Nn N n ==--=≈-∑∑。
分配方法2:最优分配
最优分配是指在分层随机抽样中,如何将样本量分配到各层,使得在总费用给定的条件下,估计量的方差达到最小;或在给定估计量方差的条件下,使得费用最下,能满足这个条件的样本量分配就是最优分配。
如果考虑简单线性费用函数,总费用01
l
h h h C c c n ==+∑。
这时的最有分配是
1
1
h h
h h
h
h h l l
h h h h h h h h W S N S n c c W S N S n
c c ====
∑∑ (h=1,2,…,L) 估计量方差为
2
11
1
1
()l
h h
l
l
h
h opt st h h h h h
h h W S c V y W S c W S
n
N ====-∑∑∑
得出的结论为,如果某一层单位较多,内部差异较大,费用比较省,则对这一层的
样本分配要多分配一些。这样得到的估计量方差称为最优方差。
分配方法3:尼曼分配
对于分层随机样本,作为特例,如果每层抽样的费用相同,即h c c =时,最优分配可简化为
1
1
h h h h
h l l h h h h
h h W S N S n n n W S N S ====∑∑ (h=1,2,3…,L)
这种分配称为尼曼分配。这时,()st v y 达到最小,称为最小方差。
2
2min 11
11()()l l st h h h h h h V y W S W S n N ===-∑∑
二、抽样设计思路和实施方法
通过运用软件随机数生成的方法来对分层抽样方法进一步阐述,这里需要用
到Excel 随机数生成和抽样的基本方法,对于分层抽样而言,需要对随机生成的数据进行分组,然后再每层进行简单随机抽样即可。层的划分原则为,层内单位具有相同性质,通常暗点查对象的不同类型进行划分;尽可能使层内单位的标志值相近,