04第四章 分层抽样

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


⑩分层抽样中在进行分层时,需收集可用于分层的必要的 各种资料,因此可能会增加一定的额外费用。同时,分层 抽样中,总体参数的估计以及各层间样本量的分配、总样 本量的确定等都更为复杂化。



满足下述条件时,分层在精度上会有很大的得益: ①总体是由一些大小差异很大的单元组成的,即总体差异 大; ②分层后,每层所包含的总体单元数应是可知的,也即分 层后各层的权重是确知的或可以精确估计的; ③要调查的主要变量(标志)与单元的大小是密切相关的; ④对单元的大小有很好的测量资料可用于分层,也即分层 变量容易确定。

Ph (1 Ph ) N h ( N h nh ) nh h
L
h
四、方差的估计量 按上述方法确定估计量的方差时,要求各层的总体方差应 事先已知,但实际工作中,各层的总体方差又常常是未知 的,此时,一般可用对应的各层样本方差替代,以对估计 量的方差作出估计。

此时:
l 1 fh 2 Wh sh 1 L 2 ˆ V ( yst ) Wh sh Wh sh nh nh N h h h L 2
L
2
Wh S h 1 1 L 2 Wh S h 2 nh N h N h
L
2
2
Sh N h (N h nh ) nh h
L
2

可见,在分层抽样中,总体均值估计量的方差只与各层 内的方差有关,而同层间方差无关。而总体方差又是由 层内方差与层间方差两部分构成的。所以,估计量的方 差小于总体方差。
Yh
第 h 层的总体总量;
Yhi y hi
yh
第 h 层的样本总量;
第 h 层第 i 个总体单元(单位)的取值; 第 h 层第 i 个样本单元(单位)的取值;
N Wh h N
1 Yh Nh
Nh i 1
第 h 层的总体层权;
nh fh 第 h 层的抽样比; Nh
Y
nh i 1
hi
第 h 层的总体均值;
1 yh nh
2 h
y
hi
第 h 层的样本均值; 第 h 层的总体方差; 第 h 层的样本方差。
1 Nh 2 S ( Y Y ) hi h N h 1 i 1
1 nh s ( y hi yh ) 2 nh 1 i 1
2 h
L Nh
Y = y hi 为总体总量;
C C 0 C h nh
h 1 L

其中 C0是固定费用,如组织宣传费、分层及编制抽样框的 费用等, C h是在第h层抽取一个单元的平均费用,包括调 查员报酬、旅差费、调查测试费等。
根据前面的论述,在估计总体均值时,对给定的各层样本
量nh,估计量的方差为:
Wh S h 1 2 V Wh S h nh N
nh n Nh N

所以
nh N h Wh ,因此nh nWh 。( nh 应取整) n N

比例分配时,总体中任一单元的入样概率都相等,都 为 f n / N 。由此所得到的样本称为是自加权的或等加权 的。在这种情况下: N ˆ Yst Ny st y ky n
L nh 1 1 ˆ y Y y y st st hi n h 1 i 1 n
h 1 i 1
L表示分层的层数; h表示层的编号(h=1,2,3,…,L);


二、估计量 1、总体均值的估计量 在分层抽样中,总体均值 Y 的估计量一般用 y st 表示,它是 各层总体均值Y h 的估计量按层权Wh的加权平均,即:
L 1 L ˆ ˆ ˆ Yst y st Wh Yh N hY h N h 1 h 1

若令 S
2
Wh S h 为各层内方差的平均,则:
2 h
L
ˆ ) 1 f S 2 V prop (Y st n

当估计比例P时,同样有:
ˆ ) 1 f V prop ( P st n
Wh Ph (1 Ph )
h
L
1 f P(1 P) n
其中:
P(1 P) Wh Ph (1 Ph )
则得:
L p (1 ph ) 2 ˆ ˆ V ( Pst ) Wh (1 f h ) h nh 1 h
1 2 N

N h ( N h nh )
h
L
ph (1 ph ) nh 1
ˆ )的无偏估计。 ˆ (P ˆ ) 是V ( P V st st
第三节


总样本量的分配
2
2
可见,第二项与样本量无关。考虑到
C C C0 Ch nh
1 V V N






⑤分层抽样适合于调查标志在各单元的数量分布差异较大 的总体。因为对这样的总体进行合理的分层后可将其差异 较多地转化为层间差异,从而使层内差异大大减弱。 ⑥分层抽样中除了可以推断总体参数外,还可以推断各不 同层的数量特征,并进一步作对比分析,从而满足不同方 面的需要,也能帮助人们对总体作更全面、更深入的了解。 但对各层的估计缺乏精度保证。 ⑦分层抽样调查实施中的组织管理及数据收集和汇总处理 可以分别在各层内独立地进行,因此较之简单随机抽样更 方便。 ⑧分层抽样中,由于各层的抽样相互独立,互不影响,且 各层间可能有显著的不同,因此,对不同层可以按照具体 情况和条件分别采用不同的抽样和估计方法进行处理,从 而提高估计的精确度。 ⑨当总体有周期现象时,用分层比例抽样法可以减少抽样 方差。

3、总体比例估计量的方差 估计总体比例,当N h充分大时,有:
ˆ ) W 2V ( P ˆ ) V (P st h h
h L

对于分层随机抽样,则有:
2 1 fh ˆ W V ( Pst ) h n L h
Ph (1 Ph )
( N h N h 1)
1 2 N

如果得到的是分层随机样本,则总体均值 Y 的简单估计为:
1 L Wh y h N h y h 一般情况下: y st N h1 h 1
L


1 L y st y nh y h n h 1 原因在于权数问题。在 y st 中,每层都有精确的权数N h / N 。 如果每层都有 nh / n N h / N 或 nh / N h n / N ,即 f h f,则 y
第四章 分层抽样
第一节 第二节 第三节 第四节

分层抽样概述 总体参数的估计 总样本量的分配 分层与提高精度
第一节

分层抽样概述



分层抽样是在抽样之前,先将总体按一定标志划分为若 干个层(组),然后在各层内分别独立地进行抽样。由 此所抽得的样本称之为分层样本。各层所抽的样本也是 互相独立的。 如果每层中的抽样都是简单随机的,则这种抽样就叫做 分层随机抽样。由此所得到的样本称做分层随机样本。 分层时应遵循“尽可能使层内差异小,而使层间差异大” 的原则,同时要使分层的结果既无重复又无遗漏。 进行分层抽样时应注意:①层内抽样设计的选择;②分 层变量的选择;③各层样本量的分配;④层数;⑤层的 分界。以前只重视③,近年来,④和⑤引起了越来越多 的关注。
完全相等于 y st。这种情况称为 nh 按比例分配的分层抽样, 各层的抽样比相同。


2、总体总和Y的估计量 有了总体均值的估计量,就可推出总体总和的估计量:
ˆ Ny N y Y st st h h
h L

3、总体比例P的估计量 按照总体均值估计量的公式,可推出总体比例(成数)P 的估计量为:



一、总样本量在各层间的分配 在分层抽样中,一个重要的问题是总的样本量如何在各层之 间进行分配。通常考虑:⑴精度和费用问题。即如何分配才 能在费用一定时使总的精度和各层估计精度最高?⑵数据处 理问题。即如何分配才能使调查数据的处理工作更加简洁, 也使估计量及其方差的确定形式更为简单明了?⑶各层的容 量大小问题。 总样本量在各层间分配时可采用如下方法: (一)比例分配 在分层抽样中,若各层的抽样比都相同,即 f h f ,则称总 样本量为按比例分配。此时:
第二节

总体参数的估计
一、分层抽样相关符号说明 在分层抽样中,先将含有 N 个单位的总体分成分别含有 N1 , N 2 ,, N L个单位的 L层,这些层之间互不重复,且有:
N1 N 2 N L N

从每层中抽取一个子样本,而且抽样在各层中独立进行, 若各层内样本量分别用 n1 , n2 ,, nL 表示,则将这些子样本合 起来就是从总体中所抽取的一个样本。其样本容量 n 显然 n1 n2 nL n ,对于分层抽样,经常使用下列一 满足: 些符号: N h 第 h 层总体中的单位数; nh 第 h 层样本中的单位数;
2
2
1 2 N
sh N ( N n ) h h h nh h
L
L
2
ˆ (Y ˆ ) N 2V ˆ ( y ) N ( N n ) sh V st st h h h nh h
2
ˆ )无偏估计。 ˆ (Y ˆ )分别是 ˆ ( y )与 V V ( y st )与V (Y V st st st ph (1 ph ) Ph (1 Ph) ˆ V ( P ) 当用样本资料估计方差 用 nh 1 替代, st 时,可将 nh
(k N / n 为常数)
ቤተ መጻሕፍቲ ባይዱ

ˆ 或 ˆ 为所有样本最基本单元观测值总和的一个常数倍。 即Y Yst st 这样的估计量也称为自加权的。 对于比例分配的分层随机抽样,其均值估计量的方差可以 有以下比较简单的形式: 1 f L 2 ˆ V prop (Yst ) V prop ( y st ) W S h h n h
2、总体总和估计量的方差 有了总体均值估计量的方差,就可推导出总体总和估计 量的方差:
ˆ ) N 2V (Y ˆ) ˆ ) N V (Y V (Y h h st st
2 h L


对于分层随机抽样,则有:
ˆ ) N V (Y st h
h L 2 L 1 fh 2 Sh S h N h ( N h nh ) nh nh h 2
ˆ W P ˆ P st h h Wh p h
h h L L

ˆ Y y st是Y 的无偏估计量,是 Y 可以证明,在分层随机抽样中, ˆ 是P的无偏估计量。 的无偏估计量, P st


三、估计量的方差 1、总体均值估计量的方差 对于一般的分层抽样,由于各层的抽样是相互独立的,诸 ˆ 也相互独立,因此总体均值 Y 估计量的方差是总体各层 Y h 均值估计量方差的加权平均,即
h
L
为各层内成数方差的平均。



(二)最优分配 1、一般情形 在分层随机抽样中,在给定的费用条件下,使估计量的方 差达到最小,或在精度要求(常用方差表示)一定条件下, 使总费用最小的各层样本量的分配称为最优分配。 在分层随机抽样中,费用函数可能是简单线性的,也可能 是其它复杂形式,这里主要考虑简单线性的费用函数:
ˆ ) V ( y ) W 2V (Y V (Y h ˆh ) st st
L h
ˆ) V ( Y 式中 h 是第h层总体均值估计量的方差。

对于分层随机抽样,则有:
L 1 fh 2 1 1 2 S h Wh 2 ( V ( y st ) Wh )S h nh nh N h h h




分层抽样具有以下特点: ①分层抽样能够充分地利用关于总体的各种已知信息进行 分层,因此抽样的效果一般比简单随机抽样要好。但当对 总体缺乏较多的了解时,则无法分层或不能保证分层的效 果。 ②在分层抽样中,总体的方差一般可以分解为层间方差和 层内方差两部分。由于分层抽样的误差只与层内差异有关, 而与层间差异无关,因此,分层抽样可以提高估计量的精 度。 ③由于分层抽样是在每层内独立地进行抽样,因此,使得 分层样本能够比简单随机样本更加均匀地分布于总体之内, 所以其代表性也更好些。 ④分层抽样的随机性具体体现在层内各单元的抽取过程之 中,也即在各层内部的每一个单元都有相同的机会被抽中, 而在层与层之间则是相互独立的。
相关文档
最新文档