整群抽样 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

采用整群抽样调查的原因有二。其一是在某些情况下，往往由于不适合采用一个个地抽取样本单位，不得不采用整群抽样。例如，某些工业产品的质量检验，事实上不能逐个抽取样本单位来进行，只能在某一时间内，成批地抽取产品来检验。其二，即使抽样调查能够一个个地取样，但由于经济的考虑也会选择整群抽样。例如，职工家庭生活水平调查中，如果不是以居委会为群进行整群抽样调查，而是以居民户为单位抽样，这些被抽到的居民户一般分散地居住，必然增加交通费、延长调查时间等。所以出于对工作时间、经费等客观条件的考虑，也得采用整群抽样调查。
整群抽样作为一种抽样组织形式，具有以下的优点： 1、调查单位比较集中，进行调查比较方便，可以减少调查人员来往于调查单位之间的时间和费用。例如，在进行农村居民户收入情况调查时，在一个县抽千分之五的村庄，对其所有居民户进行调查，明显地比从全县直接抽千分之五的农户进行调查，更便于组织，节省人力、旅途往返时间及费用。 2、设计和组织抽样比较方便。例如，调查农村居民住户，不必列出农村所有居民住户的抽样框，可以利用现成的行政区域，如县、乡、村，将农村划分为若干群，这给抽样设计方案带来很大方便。尤其是对那些无法事先掌握总体单位情况的总体，采用整群抽样更为合适。然而，整群抽样由于调查单位只能集中在若干群上，而不能均匀分布在总体的各个部分，因此，它的精度比起简单随机抽样来要低一些。
1 p N
p
i 1
N
i
——总体百分数
pi ——第 i 群百分数
总体百分数的无偏估计为：
1 n pc pi ——样本百分数 n i 1
pc 方差 Var ( pc ) 的无偏估计为：
1 f 1 n 2 v( pc ) ( p p ) i c n n 1 i 1
例题：试根据下表所得的某林场抽取的 5个样本群的林木蓄积量资料，对该林场每块 0.04公顷的林地上的平均蓄积量及该林场的每公顷蓄积量进行估计，并给出估计误差。如果一棵林木能够出材 3 立方米以上就为成材林木，求该林场林木的成材率估计及其误差。（假设共分为N=100个群）
2.9954
源自文库
标准差为
3 米 v( y ) 1.7307
该林场每公顷的林地上的平均蓄积量估计为
5.452 / 0.04 136.3 米 3 1 1 v( y ) 1.7307 43.2675 米 3 标准差为 0.04 0.04
1 n 1 pc pi [0.4 0.4 0.8 0.8 0.4] 0.56 n i 1 5
c
0 ，表明群内单元的差异远比群间差异大。
由(8.11)可知， c 0 的情况最多只能到 1 ( M 1) ，此时群间毫无诧异，任意抽取几个群都可以作为总体的真实写照因此，c 的取值范围应当在 [1 ( M 1) , 1] 之间。
1、估计量及其方差
其方差为：
1 总体平均数 Y 的无偏估计是 y nM
若总体可分为 N个初级单元（称为群），每个初级单元包含若干次级单元。按照某种方式从总体中抽取 n个初级单元，对这些单元中的所有次级单元全部进行调查。这种抽样方法称为整群抽样。
在实际工作中，整群抽样方法被广泛采用。例如，在社会经济调查中的人口调查、家计调查、农林牧业调查以及工业产品质量检验等等都经常采用整群抽样调查。
第八章
整群抽样
设想国家教育部想了解上海中学生的体质状况，抽样调查是既省钱又省时的办法，显然上海地区的中学生均是总体的单元，从全体学生中随机无放回地抽取若干样本是理想的概率抽样方法，但是编制全体中学生的抽样框本身是件麻烦事，况且一个合理的有代表性的样本一般应该遍布全市，在对如此分散的中学生样本逐个进行访问，其工作量之大可想而知。一个方便的方法是在上海地区按学校抽样，在抽得的几所学校中对该校所有中学生进行普遍调查。这就是本章要讲述的整群抽样。
(8.4)
2 s 从(8.2)式可知，若 n 也足够大的话，也可写成(8.4)形式， 2 2 此时，s 就可以看作是 S 的近似无偏估计了。
再引进一个群内相关的记号c ，这个概念的重要性在于它可以度量群内次级单元的差异程度，因为我们已经知道群内单元的差异大就可能保证样本的代表性，如何划分群实质上是一个抽样方案的设计问题。易见设计的效应好还是差在相当程度上与这个c 有关。c 的定义为：
单元号 j
群号 i
yi 1
3.4 5.9 6.3 13.2 3.3
yi 2
0.1 2.5 11.8 11.4 2.2
yi 3
1.8 1.7 2.9 2.9 4.6
yi 4
0 4.9 7.6 15.5 2.4
yi 5
3.1 2.5 18.9 6.9 0.5
y
j 1
5
ij
pi
0.4 0.4 0.8 0.8 0.4
例如，在一个有500个村庄、100000个农户的县，抽取 1％的农户就是1000户，而抽1％的村庄则只有5个村庄，也许抽到的5个村庄农户多于1000，但由于样本单位只集中在 5个村庄，显然不如在全县范围内简单随机抽取1000户分布均匀，代表性一般要差一些，抽样误差较大。当然我们可以通过多抽几个群来弥补这一缺陷，但最关键的一条还是在于总体内群的划分。为了使整群抽样的样本具有一定的代表性，应当使群与群之间尽可能地差异小，而群内单元之间的差异应当大（注意：这一点与分层抽样中总体内层的划分有着极大的差别），这意味着每个群均具有足够的代表性。如果划分的群相互之间颇多相似之处，那么少量群的抽取足以提供良好的精度。一个总体划分成多少个群，每个群的规模大小如何又是一个新问题，通常我们面临的总体会有自然的初级单元，例如本章开头所说的各所中学它们互相之间关于学生的体质很相似，但在一个学校里每个学生之间有一定的差异。
N M 2 2 —群间差异平方和 Sb ( Y Y ) i N 1 i 1
N M 1 2 2 Sw ( Y Y ) —群内差异平方和 ij i N ( M 1) i 1 j 1
将 Y 改为 y ，则为相应的样本指标值
它们之间的关系为：
1 2 2 S [( N 1) Sb N ( M 1) S w ] NM 1
2 2 2 2 s 由于群的选取是简单随机的，因此 b 与 sw 分别是 Sb 与 S w 的 2 无偏估计，于是得到 S 的无偏估计为：
ˆ2 S
1 2 2 [( N 1) sb N ( M 1) sw ] NM 1
(8.3)
当 N 相当大时，该估计可近似写为：
2 2 s ( M 1) s w ˆ2 b S M
y
i 1 j 1
n
M
ij
1 f NM 1 Var ( y ) 2 S 2 [1 ( M 1) c ] (8.12) n M ( N 1)
当N足够大时，近似有
f n N
1 f 2 Var ( y ) S [1 ( M 1) c ] nM
(8.13)
2 M ( N 1) Sb 1 ( M 1) c ( NM 1) S 2
(8.7)
当N足够大时，近似有
2 c ( Sb S 2 ) ( M 1) S 2
(8.8)
又
2 ( NM 1)(1 ) S 2 c Sw MN
(8.9)
当N足够大时，近似有
2 Sw c 1 2 S
另外，我们还可以提供一个关于Var ( y ) 的无偏估计：
1 f 1 n 2 v( y ) ( y y ) i n n 1 i 1
(8.16)
总体总和 Y
Y
i 1 j 1
N
M
ij
NM Y 的无偏估计为：
其方差为：
1 n M 1 n M y NM y NM yij N yij nM i 1 j 1 n i 1 j 1
1 n M 1 5 5 y yij yij nM i 1 j 1 5 5 i 1 j 1
1 f 1 n 2 方差为 v ( y ) ( y y ) i n n 1 i 1 1 0.05 1 [(1.68 5.452)2 (3.5 5.452)2 5 5 1 (9.5 5.452)2 (9.98 5.452)2 (2.6 5.452)2 ]
倘若需要我们自行划分群，一般还要考虑到组织管理上的方便、精度上的要求以及费用的多少等等因素。
§1
群大小相等的整群抽样
首先讨论群大小相等时的简单情况。所谓群的大小相等主要指群内次级单元的个数相等，假定关于群的抽取是随机无放回的。
首先引进一些必要的记号：
Yij ——表示第 i 群中第 j 个次级单元
c
E (Yij Y )(Yik Y ) E (Yij Y )
2
(8.5)
具体计算得
c
2 (Yij Y )(Yik Y )
i 1 j k
M
M
( M 1)( NM 1) S
2
(8.6)
(a 2 b2 ) 2ab (a 2 b2 )
计算可得 1 c 1 ，c 在一定程度上反映了群内单元的差异，当然这种差异一般是相对于群间差异而言的。它可以 2 2 用群内方差 S w 与群间方差 Sb 来表示：
1 2 3 4 5
8.4 17.5 47.5 49.9 13
n f 0.05 解： N=100，n=5，M=5 N 该林场每块 0.04公顷的林地上的平均蓄积量的无偏估计是
1 [8.4 17.5 47.5 49.9 13] 5.452 米 3 5 5
由表可得 yi 分别为：1.68，3.5，9.5，9.98，2.6
故该林场林木的成材率估计为：56％方差为
1 f 1 n 2 v( pc ) ( p p ) i c n n 1 i 1
(8.10)
由(8.8)以及(8.10)可得 c 的估计
2 2 sb sw ˆc 2 2 sb ( M 1)sw
(8.11)
2 2
由(8.11)也可以发现，考虑N相当大时，当 c 0 ， Sb 与Sw 几乎相等，也就是说群间方差几乎与群内方差一样，实际上指出了我们对群的划分完全是随机进行的。如果 c 0 ，那么群间的方差远远大于群内方差，群内单元差异相对不显著将引起样本的代表性差，从而精度一定会差！
Var ( y ) ( NM )2Var ( y ) 1 f NM 1 ( NM ) 2 S 2 [1 ( M 1) c ] n M ( N 1) NM 1 2 2 1 f N S [1 ( M 1) c ] n ( N 1)
2
在实际问题中，具有某种特征的（次级）单元在总体中的比例 p 的估计常用整群抽样，不仅方便而且效率也高，在各群大小相等的情况下，利用前面Y 的讨论立即可得 p 的估计量及其方差。
2
(8.1)
M 仍为M ，不难将 Y 改为 y ，n 代替 N ，由于是整群抽样，得到样本方差平方和的关系式：
1 2 2 s [( n 1) sb n( M 1) sw ] nM 1
2
(8.2)
s 2可作为 S 2 的估计，但不是无偏估计。这是因为次级单元是
在抽到的群内普查，此时样本不是简单随机的。
i 1, 2, , N ; j 1, 2, ,M ,M
yij ——表示样本中第 i 群中第 j 个次级单元的观测值
i 1, 2, , n; j 1, 2,
Yi Yij —第 i 群总和
j 1
M
Yi Yi M —第 i 群平均值
1 N M Y Yij —总体平均值 NM i 1 j 1 N M 1 2 —总体差异平方和 S2 ( Y Y ) ij NM 1 i 1 j 1