04 第四章 分层随机抽样

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四章分层随机抽样
第一节分层随机抽样概述
分层抽样也叫做类型抽样,它是实际工作中最常用的抽样技术之一。

分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),后在各层内分别独立地进行抽样。

由此所抽得的样本称之为分层样本。

各层所抽的样本也是互相独立的。

如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。

由此所得到的样本称做分层随机样本。

从以上概念可以看出,分层抽样的实质是在各层间作全面调查,而在各层内作抽样调查。

因此,分层抽样的误差只与各层内的差异有关,而同各层间的差异无关。

所以,为了能有效地降低抽样误差,提高抽样效果,在分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。

进行分层抽样时应注意:①层内抽样设计的选择;②分层变量的选择;③各层样本量的分配;④层数;⑤层的分界。

以前只重视③,近年来,④和⑤引起了越来越多的关注。

同简单随机抽样相比,分层抽样具有以下特点:
①分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。

但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。

②在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。

由于分层抽样的误差只与层内差异有关,而与层间差异无关,因此,分层抽样可以提高估计量的精度。

③由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。

④分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。

⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。

因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。

⑥分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人们对总体作更全面、更深入的了解。

但对各层的估计缺乏精度保证。

⑦分层抽样调查实施中的组织管理及数据收集和汇总处理可以分别在各层内独立地进行,因此较之简单随机抽样更方便。

⑧分层抽样中,由于各层的抽样相互独立,互不影响,且各层间可能有显著的不同,因此,对不同层可以按照具体情况和条件分别采用不同的抽样和估计方法进行处理,从而提高估计的精确度。

⑨当总体有周期现象时,用分层比例抽样法可以减少抽样方差。

⑩分层抽样中在进行分层时,需收集可用于分层的必要的各种资料,因此可能会增加一定的额外费用。

同时,分层抽样中,总体参数的估计以及各层间样本量的分配、总样本量的确定等都更为复杂化。

通常,在满足下述条件时,分层在精度上会有很大的得益:
①总体是由一些大小差异很大的单元组成的,即总体差异大;
②分层后,每层所包含的总体单元数应是可知的,也即分层后各层的权重是确知的或可以精确估计的;
③要调查的主要变量(标志)与单元的大小是密切相关的;
④对单元的大小有很好的测量资料可用于分层,也即分层变量容易确定。

第二节 总体参数的估计
一、有关符号的涵义 在分层抽样中,我们用各种符号来区别各种不同情况,熟悉了这些符号所代表的确切内涵,对于我们系统地掌握抽样推断的一系列方法是十分重要的。

因此,这里先集中对各有关符号的涵义作一解释;
L表示分层的层数;
h 表示层的编号(h =1,2,3,…,L); N表示总体容量;
Nh 表示第h 层的总体容量;
Wh =Nh /N表示第h 层的层权,是已知的或要事先确定; n 表示样本容量;
n h 表示第h 层的样本容量;
f h =n h /Nh 表示第h 层的抽样比;
hi y 表示第h 层每i 个单元的观测值;
Y =∑∑==L
N i y 1h 1hi h
为总体总量;
y =
∑∑==L
i y
1h n 1
hi
h 为样本总量;
Y =
N
Y
为总体均值; h Y =∑=h
1
hi y N i 为第h 层的总体总量;
h
1
hi h h
h N y N h
∑===N i Y Y 为第h 层的总体均值; h y =
h
n 1
hi
n y
h
∑=i 为第h 层的样本均值;
n
y
y =
为样本均值; 21
h hi
h
2
h
)(y
1h
∑=-=N i Y N S 为第h 层的总体方差;
)(11h 1
hi h 2
h
h
y y n s n i --=∑=为第h 层的样本方差; P为总体成数;Ph 为第h 层的总体成数;
h p 为第h 层的样本成数;
Ph (1-Ph )为第h 层的总体方差;
h p (1-h p )为第h 层的样本方差。

二、估计量
在简单随机抽样中,样本均值是总体均值的无偏估计。

在分层抽样中,仍用样本均 值
∑∑===L 1h 1
i hi h
y 1n n y
来估计总体均值Y ,在一般情况下是否合理,先看下面的例子。

例:总体由1000人组成,按以往收入情况分成两层,第一层(高收入层)20人;第二层(低收入层)980人。

从第一层随机抽2人,调查上月收入得1200和1600元;从第二层抽8人,上月收入分别为220、230、180、320、400、340、280及360元。

估计这1000人的月收入。

如果用样本均值
10
360
22016001200++++=
y =513(元)
来估计总体平均值Y 显然偏高。

若先分别算出这两层的样本均值1y =1400元,2y =291.25元,用
1000
25
.291980140020⨯+⨯=313.43(元)来估计Y 就合理多了。

由此,分层抽样的估计量可按如下方式来构造: 1、总体均值的估计量
在分层抽样中,总体均值Y 的估计量一般用st y 表示,它是各层总体均值h Y 的估计量按层权h W 的加权平均,即
Y
N Y W y Y L
st ˆN 1ˆˆL 1h h 1
h h ∑∑=====
一般情况下:
st y ≠y = ∑L
h
1st y n
在分层随机抽样中,h y 是h Y 的无偏估计量,即Y ˆ
=h y ,因此,
∑=L
h
h W y y st
也是Y 的无偏估计量。

2、总体总和Y的估计量
有了总体均值的估计量,就可推出总体总和的估计量
∑==L
h
h
h N ˆy y N Y st st 3、总体比例P 的估计量
若令
⎩⎨
⎧=类个单元不属于
层第,若第类
个单元属于层第,若第c i h c i h y 01hi 则P Y =,h h P Y =,h p y st =.
按照总体均值估计量的公式,可推出总体比例(成数)P的估计量为:
h h
h
h h h ˆˆp W P W P L L
st ∑∑==
可以证明,在分层随机抽样中,st y Y 的无偏估计量,st Y ˆ是Y的无偏估计量,st
P ˆ是P的无偏估计量。

三、估计量的方差
1、总体均值估计量的方差
对于一般的分层抽样,由于各层的抽样是相互独立的,诸h ˆ
Y 也相互独立,因此总体均值Y 估计量的方差是总体各层均值估计量方差的加权平均,即
∑==L
h
h 2h )ˆ(W )()ˆ(Y V y v Y V st
st 式中)ˆ(h
Y V 是第h 层总体均值估计量的方差。

对于分层随机抽样,则有:
=)(st y V ∑-L h
2
h h h 2
h
n 1W S f =
∑-L
S N n W
h
2
h h
h 2
h
)11(
=∑∑-L
S N n S W h
L h 2
h h h 2
h 2
h W 1
=h
2
h
h
h h h 2
)(1
n S n N N N
L
-∑ 可见,在分层抽样中,总体均值估计量的方差只与各层内的方差有关,而同层间方差无
关。

而总体方差又是由层内方差与层间方差两部分构成的。

所以,估计量的方差小于总体方差。

2、总体总和估计量的方差
有了总体均值估计量的方差,就可推导出总体总和估计量的方差:
∑==L
st
st Y V N Y V N Y V h
h 2h 2)ˆ()ˆ()ˆ( 对于分层随机抽样,则有:
∑∑-=-=L
h h
2
h h h h 2h h h h 2
h )(N 1)ˆ(n S n N S n f N Y V L
st 3、总体比例估计量的方差
估计总体比例,当h N 充分大时,有:
∑=L
h
h
2h )ˆ()ˆ(P V W P V st 对于分层随机抽样,则有:
=)ˆ(st
P V ∑--L
h
h h h h 2h )1(n 1W P P f (1h h -≈N N ) =∑--L
n P P n N N N
h
h
h h h h h 2
)
1()
(1
四、方差的估计量
按上述方法确定估计量的方差时,要求各层的总体方差应事先已知,但实际工作中,各层的总体方差又常常是未知的,此时,一般可用对应的各层样本方差替代,以对估计量的方差作出估计。

此时:
∑∑∑-=-=L
h 2h h l h
h 2
h 2
h h L
h h h 2
h
W 1W n 1W )(ˆs N n s s f y V st =∑-L
h
h 2
h
h
h h 2
)(N 1
n s n N N
, ∑-==L
st st n s n N N y V N Y V h
h 2
h h
h h 2
)()(ˆ)ˆ(ˆ )(ˆst y V 与)ˆ(ˆst
Y V 分别是)(st y V 与)ˆ(st Y V 无偏估计。

当用样本资料估计方差)ˆ(st
P V 时,可将 h
h)
h n 1(P P -用
1
)
1(h h h --n p p 替代,则得:
∑---=L
st n p p f W P V h
h h h h
2h 1)1()1()ˆ(ˆ =∑---L
h
h h h h h h 2
1
)
1()
(1
n p p n N N N
)ˆ(ˆst P V 是)ˆ(st
P V 的无偏估计。

第三节 总样本量的分配
一、总样本量在各层间的分配
在分层抽样中,一个重要的问题是总的样本量如何在各层之间进行分配。

通常考虑:⑴精度和费用问题。

即如何分配才能在费用一定时使总的精度和各层估计精度最高?⑵数据处理问题。

即如何分配才能使调查数据的处理工作更加简洁,也使估计量及其方差的确定形式更为简单明了?⑶各层的容量大小问题。

结合上述考虑,总样本量在各层间分配时可采用如下方法: (一)比例分配
在分层抽样中,若各层的抽样比都相同,即f h =f ,则称总样本量为按比例分配。

此时
N
n n =h h N 所以
h h
h N
W N n n ==,因此,h h nW n =。

(h n 应取整) 比例分配最早是由鲍利于1926年提出的,比例分配主要考虑了各层单元数多少的差异。

比例分配时,总体中任一单元的入样概率都相等,都为f=n/N 。

由此所得到的样本称为是自加权的或等加权的。

在这种情况下
∑∑=====L n i st st y n
n y Y 1h 1hi h 1y 1ˆ, ky y n N y N Y st
st ===ˆ, (n
N k =为常数) 即st Y ˆ
或st
Y ˆ为所有样本最基本单元观测值总和的一个常数倍。

这样的估计量也称为自加权的。

容易证明,对于比例分配的分层随机抽样,其均值估计量的方差可以有以下比较简单的形式:
∑-==L
st
prop st prop S W n
f y V Y V h
2
h h 1)()ˆ(
若令∑=
L
h
2h
h
2
W S
S 为各层内方差的平均,则:
2
1)ˆ
(S n
f Y V st prop -=
当估计比例P 时,同样有:
∑--=
--=L
h
h h h )1(1)1(1)ˆ(P P n
f
P P W n
f P V st
prop , 其中
∑-=-L h
h h h )1(W )1(P P P P
为各层内成数方差的平均。

(二)最优分配 1、一般情形
在分层随机抽样中,在给定的费用条件下,使估计量的方差达到最小,或在精度要求(常用方差表示)一定条件下,使总费用最小的各层样本量的分配称为最优分配。

在分层随机抽样中,费用函数可能是简单线性的,也可能是其它复杂形式,这里主要考虑简单线性的费用函数:
∑=+=L
1
h h h 0C n C C
其中C 0是固定费用,如组织宣传费、分层及编制抽样框的费用等,C h 是在第h 层抽取一个单元的平均费用,包括调查员报酬、旅差费、调查测试费等。

根据前面的论述,在估计总体均值时,对给定的各层样本量n h ,估计量的方差为:
∑∑-=2
h h h 2
h 2h 1S W N
n S W V
可见,第二项与样本量无关。

考虑到
∑=-='h h 0n C C C C
+
='V V ∑2
h
h
1
S W
N
= ∑h
2
h 2h n S W
则在给定总费用C 下使估计量的方差V 最小,与在给定V 下使C 最小均等价于使
∑∑=''))((h h h
2
h 2
h n C n S
W C V
=∑∑⎥⎥


⎢⎢⎣⎡2h h 2
h h h )(
n n C S W
根据柯西—许瓦兹(Cauchy-Schwarz)不等式,有
C V ''∑≥2h h h )(C S W
其中等号只有在以下情形时才成立(C V ''达到极小值):
K S C n n S W n C ==h
h h
h h
h h h h W (K 为常数)
这意味着:
h
h h h C S W K
n =

∑∑==h h
h h C S W K n n
因此
∑=
h
h
h
C S
W n
K
所以使C V ''达到极小的最优分配即为
h L
1
h h h h h h h
C C n
∑=⋅=S W S W n n = h
L 1
h h h h h h C C S N S N ∑= 即
h
L
1
h h
h
h
h h h C C ∑=⋅
=S
W S W n n
=h
L
1
h h
h
h h h C C S N
S N n ∑=⋅
(h n 应取整)
可见,最优分配的结果既考虑了总体各层的差异,也同时考虑了总体各层内变异程度上的差异和各层内平均调查费用的差异。

当层的容量愈大、层内变异程度愈大,层内每调查一个单元的费用愈小,则在该层中抽取的单元应愈多。

2、特殊情形——内曼分配
如果各层内每个单元的平均抽样费用相等,也即0h C C =时,最优分配简化为:
∑∑====L 1
h h
h h h L 1
h h h h h h n
S N S
N S W S W n 即
h n ==⋅
∑=L
1
h h
h
h
h S
W S W n ∑=⋅
L
1
h h
h
h
h S N
S N n (h n 应取整)
这个结果称为内曼分配。

因为最先人们认为它是由内曼于1934年给出的,实际上后来才发现早在1923年它已被俄国学者楚波罗(Tschuprow)给出。

在内曼分配时,估计量st Y ˆ
所能达到的最小方差为:
==)()ˆ(st
opt st opt y V Y V N
S
n
S ∑∑=-
L
1
h 2h
h
L
h
2
h h W )
W (
=
n
S ∑L h
2
h h )W (-N
S 2
(说明:也有用uin V 来表示这里的opt V 的)
3、某些层需要超过100%抽样时的修正h n
若抽样比f=n/N较大,而个别层的h S 也很大,则按最优分配,一些层的h n 有可能超过h N (即h f >1)。

这时,可以对这些极端层进行100%抽样。

然后将剩下的其余的层可用的样本量再按最优分配法在其它各层间重新进行分配。

以内曼分配为例,其具体步骤如下:
假定:1n >1N ,则令11~N n =。

对1
N n -部分作内曼分配: ∑=-=L
2
h h
h h h 1h )(~S W S W N n n 此时,若所有的h
~n ≤h N (h ≥2)则分配合理。

否则,若有:22~N n >,则11~N n =',2
2~N n =', 对21N N n --部分再作内曼分配:
∑=--='L
1
h h
h h h 21h W )(~S S W N N n n . 若所有h ~n '≤h N (h ≥3),则分配合理。

否则再重复上述过程,直到所有的h ~n '≤h
~
N 为止。

此时,最优分配所达到的估计量st Y ˆ
的最小方差公式也应修正为:
∑∑-'='h
2h
h 2
h h h 1)(1)(V S
W N
S W n y st opt
其中

h
′为仅对h
~n '<h N 的层求和,n ′为修正后这些层的抽样单元数。

4、估计p 时的最优分配
1)一般情形
∑∑--=--=L
h
h
h h h
h
h h h L
h
h
h h h
h
h h h h )1(N
)1()1(W
)1(C P P C P P N n
C P P C P P W n
n
2)特殊情形——内曼分配
∑∑--=--=L
h
h h h
h h h L
h
h h h
h h h h )
1(N
)
1()
1(W
)
1(P P P P N n
P P P P W n
n .
在实际工作中,由于h S (或)1(h h P P -)未知,需根据有关信息进行估计,以致使实际
的h ˆn
同最优分配时的h n 相比会产生一些偏误,进而使估计量的精度会受到影响,但从分析比较的结果看,这种影响不会太大。

5、最优分配与比例分配的精度比较
分层随机抽样中,依照定义,最优分配时估计量的精度比比例分配时高,但比例分配是自加权的,计算比较方便。

那么实际工作中是否一定要用最优分配?什么时候用最优分配为好?为此,有必要将这两种情况下估计量的方差作一比较。

下面以总体均值估计量为例,并以内曼分配作为最优分配的代表进行讨论。

比例分配时估计量的方差为:
2
22111)(S N
S n S n f y V st prop -⋅=-=
, 而内曼分配时估计量的最小方差为:
)(st opt y V =∑-L h 22h h 1
)(1S N
S W n ,
因此:
)(st prop y V -)(st opt y V =⎥⎦

⎢⎣⎡-∑L
h 2h h 2)(1S W S n
=∑≥-L h
2
h h 0)(W 1S S n
若诸h S 很接近,则比例分配与内曼分配的精度相差无己。

只有当各层的h S 相差较大时,最优分配比比例分配在精度上才有较大的得益。

因此,在设计抽样方案时,可依已有的信息对各层的h S 的离散程度加以分析,以决定是采用比例分配还最优分配。

特别地,如果各层的容量、层内差异大小及层内平均每单元的抽样费用十分接近时,也可直接按等额方法分配总样本量。

此时
L
n n =
h (三)多指标时的分配
一次抽样调查中调查项目(指标)可能不止一个。

因此,往往总样本量对某个指标的最优分配不一定也是对其它指标的最优分配。

这时,最简单的方法是利用比例分配,因为不仅它简单方便,而且对各指标大多能获得较为满意的结果。

如果此时仍希望采用最优分配,则可按下述有关方法进行处理。

实质上下列方法都是对不同指标最优分配的某种程度的折衷。

1、平均法
其基本思路是先在众多的指标中,选择最重要的K个,分别按最优分配原则计算出各层应分配的样本量h j n ,然后求其平均值:
∑==
K
j j n
K
n 1
h
h 1
.
由于各指标之间一般具有较高的相关性,因此,各指标的最优分配结果悬殊不会太大。

考虑到在计算最优分配时还受到h S 估计误差的影响,因此,在实际中这样处理就可以了。

2、查特吉(Chatterjee )折衷方法(1967)
假设经过挑选后,有K个主要指标,h j n 为j 个指标在第h 层按最优分配的样本量,n 为第h 层应分配的样本量,查特吉提出折衷的办法是:
∑∑∑====L
1
h 1
2h
12h
h k
j j k
j j n
n
n
n .
查特吉法与平均法的结果很接近,它们都是在诸h j n 中进行折衷。

若h j n 间相差 很大,不能明显地折衷,此时,需建立一些准则来确定各层样本量的分配。

3、耶茨(Yates )方法
这种方法应用于有一个特定目的的调查,这种调查中由于估计量给定的误差所引起的损失是可以用钱或效用来衡量的。

把总的预期损失L 看作估计量的方差的线性函数:L=
∑=k
j st
j j y
V a 1
,)(,则可进一步经过变换,推导出结论:
∑==L
1
h h h
h
h h h h )
C (C A W
A W n
n ,
∑==L C A W L n 1h h h h )((1∑=L
1
h h h
h )C (A W ,
∑==
k
j j j S a A 1
2
h h
其中:2
h j S 是第j 个指标在第h 层的方差;j a 为系数;st j y ,是第j 个指标的总体均值估计量。

讨论:由于比例分配的样本是自加权的,因此,其估计量及其方差的确定形式都较最优分配时更为简便。

但如果各层的因子h h
C S 之间差异很大时,最优分配将会比比例分配
更为有效。

然而,由于方差对于分配中发生的小的甚至是中等的变动并不敏感,因此,基什(L ·Kish)认为在实际中①除非各层的因子h h
C S 之间有实质性的差异,一般不要采用最
优分配。

否则最优分配多出的效益可能会被加权和特别细致工作的额外花费所抵销。

一般来说,要好几倍的差异才值得作最优分配。

若h h
C S 的几个值大致相等,就要用比例分配。

②最优分配往往不是估计比例值的经济方法,因为比例的标准差等于)1(h h P P -,它们对于0.1到0.9之间变动的h P 值是不敏感的。

③应用最优分配时,在实践上要避免使抽样比成为复杂的分数。

④很多潜在的效益常常只需使用一些不同的抽样比就可以得到。

有时,只用两个抽样比就可以取得大部分效益:对绝大多数元素采用一个低抽样比,而对一个只包含大元素的特殊层则采用一个高抽样比。

有时,甚至可使这些特殊层能被当然地选入样本(即使其抽样比为1),以完全排除它对抽样误差的影响。

二、总样本量的确定 1、估计总体均值的情形
设允许估计量的最大方差为V,对某种已确定的样本量分配原则,有:
n w n h h =,
代入总体均值估计量的方差的计算公式,则有:
∑∑==-=L h h h L h h h h st S W N w S W n y V 1
2
12
2
11)(,
于是对给定的V:
∑∑==+=
L h h
h L
h h h
h S W N V w S W n 1
2
1
2
21. 当h h W w =比例分配)时:
∑∑==+
=
L
h h
h
L
h h
h
S
W N
V S
W n 1
21
21=2
2
1S
N
V S +
当∑==
L
h h
h
h
h h S
W S W w 1
(内曼分配)时:
2
2
1
2
1
2
1)(1)(S
N
V S S W N
V S W n L
h h
h L
h h h +=+
=
∑∑==
当各层抽样费用不同,而总费用给定时:
∑∑==-=L
h h
h
h
h
L
h h
h
C S
W C S
W C C n 1
10)
(.
2、估计总体总和的情形
同样的道理,可得出对给定的分配形式(n w n h h =)有:
∑∑+=
L h
h
h h
L
h
h
h
S N V N w S N
n 2
22
2.
当比例分配时
2
2
222
22
S
N V N S N S N V N S N N n L h
h
h L
h
h
h +=
+=
∑∑,
当内曼分配时
2
2
222
22
)()(S
N V N S N S N V N S N n L
h
h
h L
h
h h +=
+=
∑∑,
3、估计总体比例的情形
若h N 较大,则2
h S ≈)1(h h P P -,此时可进一步求出估计P 时对给定的分配形式(h h nw n =)有:
∑∑-+-=
L
h
h h h h
h h h P P W N V w P P W n )
1(1)1(2
. 比例分配时:
)
1(1
)
1(P P N
V P P n -+-=
.
内曼分配时:
∑∑-+
-=
L
h
h
h
h
L
h
h h h P P W N
V P P W n )
1(1))1((2
.
第四节 分层与提高精度
分层抽样的目的主要是为了提高抽样估计的精度,而且分层抽样的效果如前所述一般也优于简单随机抽样,因此,在实际中得到广泛应用。

但是否在任何一次抽样中都应该采用分层抽样呢?答案是不一定。

通常要考虑以下四个问题:一是如果分层抽样的效果优于简单随机抽样,那么从所增加的人力、财力与所提高的抽样精度的对比上看是否值得?二是分层抽样的效果是否就一定优于简单随机抽样?三是当各层的层权不准(有偏)时,层权偏差所增加的误差与分层所减少的误差哪个更大?四是如果不采用分层抽样,简单随机抽样或其它抽样方式的估计精度能否达到事先设计的要求?下面从几个方面加以分析:
一、分层随机抽样与简单随机抽样的精度比较
若用得好,分层样本与一个可比的简单随机样本相比,给出的均值估计或总值估计,几乎总是有较小的方差,然而,说任何一个分层样本都比一个简单随机样本给出较小的方差,这是不对的,当n h 的值远离最优值时,分层抽样可能有较大的方差。

事实上,当总的样本量为固定时,分层抽样也可能给出较大的方差。

下面对分层随机抽样与简单随机抽样的精度作一比较。

设srs V 为简单随机抽样的方差;prop V 为按比例分配的分层随机抽样的方差;
opt V 为最优分配的分层随机抽样的方差。

因为
()n
S f V srs
2
1-=,
∑∑-
=-=
L
h
L
h
h
h h h prop
n
S
W S W n
f V 2
2
1N
S
W L
h
h
h ∑2
-⎪
⎭⎫ ⎝⎛=∑n
S W V L h
h h opt
2
N
S
W L
h
h
h ∑2

()()
∑∑==-=-L h N i hi h
Y y S N 12
121
()[(
)]∑∑==-+-=L
h N i h hi h
Y
Y Y y 12
1
()∑∑-=
L h
N i
h
hi
h Y y
2
()
∑∑==-+L h N i h
h
Y Y
12
1
()∑-=
L h
h
h S
N 21+
()
∑-L h
h h Y
Y N 2
两边同除N-1,由于h N 均较大,
h
N 1
可忽略,则 ∑+≈L h
h
h S W S 22
()
∑-L h
h h Y
Y W 2
所以
()
⎥⎦
⎤⎢⎣⎡-+-=∑∑L h L
h h h h h h srs
Y Y W S W n f V 22
1
∑-=
L
h
h
h S W n
f 2
1+()
∑--L
h
h h Y
Y W n f
2
1
所以
prop srs V V ≥
又因为
opt
prop V V -⎥⎥⎦

⎢⎢⎣⎡⎪⎭⎫ ⎝⎛-=∑∑L h
L h h h h h S W S W n 2
2
1 (
)012
≥⎥⎦
⎤⎢⎣⎡-=∑L
h
h h S
S W n
其中:∑=
h
h
S
W S 是h S 的加权平均值,所以
srs V (
)012
≥⎥⎦
⎤⎢⎣⎡-+=∑L
h
h h opt
S S W n V
prop V opt V ≥ prop srs V V ≥opt V ≥
因此当h
N 1
的项被忽略不计时,由
=srs
V opt V +
()
∑--L
h
h h Y Y W n
f 2
1+ (
)⎥⎦
⎤⎢⎣⎡-∑L
h h h S S W n 2
1
可以看出,从简单随机抽样变成最优分配的分层抽样时,方差中有两个部分消失了。

第一部
分为
()
∑--L
h
h h Y
Y W n
f
2
1是消除了层间均值的差异的影响的结果;第二部分为
(
)⎥⎦
⎤⎢⎣⎡-∑L
h
h h S S W n 2
1是消除了层间标准差的差异的影响的结果,反映了最优分配在方差上
的差异。

若含
h
N 1
的项不忽略时,则 =srs
V opt V +()()
()⎥⎦
⎤⎢⎣⎡-----∑∑L
h
L h
h h h h S N N N Y
Y N N n f 2
2
111 式中当
()
()∑∑-<-L
h
L
h
h h
h h S N N N Y
Y
N 22
1 时,也即层间方差小于层内方差时
prop srs V V ≤
按比例分层还会比简单随机抽样有更大方差
二、设计效应
抽样方案不同,估计量的精度也会不同。

基什于1965年提出了一个衡量抽样方案效果的量,称为设计效应,记作Deff 。

Deff=
方差
随机样本所得估计量的从按相同样本量的简单计量的方差
从一个复杂样本所得估
设计效应的主要作用有两个:评估比较复杂的抽样方案的效率和确定样本量。

从Deff 的定义可以看出:简单随机抽样是衡量其它复杂抽样技术效果的标准。

若Deff <1,表明这种复杂抽样的精度比简单随机抽样的高,即抽样误差比简单随机抽样的小。

设计效应Deff 中涉及的是简单随机抽样和复杂抽样的估计量的方差。

事实上,抽样调查后获得的只是一个样本,因此,如何利用样本估计Deff 就成为一个值得讨论的问题。

对于一个复杂的抽样设计,问题的关键在于如何确定与复杂抽样样本量相同的简单随机抽样估计量的方差。

在分层随机抽样中,由于所得的样本是分层随机样本,用样本方差2
s 估计总体方差
2S 未必无偏,所以不能用公式
2
1s n
f -作为()y V 的无偏估计。

此时()
y V 的无偏估计量为: ()
y V srs

⎥⎦

⎢⎣⎡+--=
∑∑∧
L h st st
n i hi
h h V y y n N N n
f h
22
11 ()()
⎥⎦

⎢⎣⎡+---=∧st st st y V y y N n n N 21 如果样本量按比例分配,则 ()
y V srs

()
22
11s nN n N y V s n n n f st -≈
⎥⎦
⎤⎢⎣⎡+--=∧
三、层权误差的影响
用分层样本估计Y 时,估计量是以层权N
N W h
h =
为权的加权平均。

因此必须正确地
掌握层权。

若h W 未知而又不能精确地估计,将对估计量的精度带来严重的影响。

设真正的层权为h W ,实际使用的为/h W ,则估计量
∑=∧
L
h
h h st y W Y / 于是
)(st Y E ∧
()
∑-+
=L
h
h h h
Y W W
Y /
所以,st Y ∧
是有偏的,且偏倚
()
∑-L
h
h h h Y W W
/
不会随样本量n 的增大而减小。

此时估计量st Y ∧
的方差:
()
=st
y V 2
⎪⎪⎭

⎝⎛-∧Y Y E st ()()
2
/22/1⎪⎪⎭
⎫ ⎝⎛⎪⎭⎫ ⎝⎛-+-=∑∑L h h h h L h h h h Y W W n S W f 由于简单随机抽样中估计量的方差V(Y 〖TX-〗〖DD(〗∧〖DD)〗)是随n 的增大而减小
的,故当层权不准时,因分层在精度上的利益将随着n 的增加而迅速丧失。

当n 大到一定程度时,分层随机抽样估计量的精度就会比简单随机抽样的差。

当h W 未知时,为保证分层抽样的精度,可采用二重抽样。

先从总体中作一次样本量较大的简单随机抽样,对这个样本不必具体测量样本单位的标志值,只需区分每个样本单位属
于哪一层,以估计层权。

然后,按分层抽样在第一次的样本中进行再抽样,对第二个样本,需测量单位的标志值,并由此作出关于总体特征的估计。

四、分层标志的选择
既然分层是按一定标志进行的,于是,就提出了怎么选择分层标志的问题。

为使各层间的差异尽量大,从理论上讲,选择调查标志本身作分层标志时,分层的效果最好,但这在现实中是不可能的。

因此,我们想到用与调查标志关系密切的其它标志来分层。

而要从众多的标志中去选取那个与调查标志关系最密切的标志,在实践中也非易事,尤其是当有关资料缺乏或对现象总体了解不够时。

为此,可以考虑以下几点思路:
(1)如果具备调查标志的全面的过去资料(如上一次的普查资料),而且自那时以来的变化不太大时,可用调查标志本身的过去资料来分层;
(2)尽量利用自然标志分层。

如居民按居住地域分为城、乡两层,可供调查居民收入水平支出结构、人均耐用消费品拥有量等问题。

自然标志通常是现成的,在现实社会经济现象中很多,也容易为人们所接受,方便实用,且常能满足多项标志分层的需要,同时,我们也注意到,有些自然标志用于分层时也确实能体现调查标志间的差异。

(3)充分利用那些能决定调查标志数量差异的品质标志。

例如职业往往能决定收入的高低因此可用职业作为居民收入抽样调查的分层标志。

优先选择品质标志的另一个理由是其标志表现较数量标志少很多,层界也容易确定。

再者,对那些事先缺乏足够了解的新事物的调查,从品质标志着手分层相对要容易些。

(4)在多个可供选择的数量标志中,应选取那个与调查标志相关系数绝对值最大者。

相关系数的测定可以过去资料为依据,也可以试抽样的样本资料或二重抽样中的一重样本资料为依据。

当然,被选中的分层标志应具备全面资料。

(5)同时使用几个标志进行重叠分层。

实践证明,使用几个标志进行较粗的分层所产生的效益一般大于使用一个标志作较精细的分层所产生的效益。

(6)当同时掌握一个品质标志和一个数量标志的资料时,应优先选择按数量标志分层。

因为,品质标志只能用于分层选样,而数量标志即可用于分层选样,又可用于构造总体参数的比估计或回归估计。

以上只是就单项目分层抽样而言,而在实际应用中多项目分层抽样是比较常见的,利用一套样本对多项指标进行推断,已是今后抽样的一个趋势,但它也比单项目的分层抽样要复杂得多。

多项目分层抽样的主要问题之一是如何兼顾各个项目抽样推断的需要,合理进行分层。

第一种思路,是从多项需要推断的指标中,选取被认为是最重要的一项,然后根据该项指标调查推断的需要,选择合适的标志对总体进行分层。

第二种思路,是当各项之间存在显著相关关系时,可选择其中任何项目的过去资料进行分层。

如果有各项目的过去资料可供选择,通常应按其中离散程度最大、两两相关程度最大、能决定其它指标数值之变化为要求,选取一个项目的资料进行分层。

如果把各项目过去资料改为相关标志,可
作同样处理。

第三种思路,是利用现成的品质标志和自然标志分层。

第四种思路,是当各项目之间相关关系不明显时,最好采用多标志层
叠分层(也叫做复分层)的方法,即先按某一主要项目的过去资料或相关标志分层,然后各层再按另一次要项目的过去资料或相关标志分小层……,直到按所有的(或若干重要的)项目分层。

这种方法适合于大总体大样本的分层抽样。

当然,也可以使用以上思路以外的其它比较合适的方法进行分层,如根据各项目的过去资料聚类分层等等。

五、层数的确定。

相关文档
最新文档