整群抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
采用整群抽样调查的原因有二。其一是在某些情况下, 往往由于不适合采用一个个地抽取样本单位,不得不采用整 群抽样。例如,某些工业产品的质量检验,事实上不能逐个 抽取样本单位来进行,只能在某一时间内,成批地抽取产品 来检验。 其二,即使抽样调查能够一个个地取样,但由于经济的 考虑也会选择整群抽样。例如,职工家庭生活水平调查中, 如果不是以居委会为群进行整群抽样调查,而是以居民户为 单位抽样,这些被抽到的居民户一般分散地居住,必然增加 交通费、延长调查时间等。所以出于对工作时间、经费等客 观条件的考虑,也得采用整群抽样调查。
整群抽样作为一种抽样组织形式,具有以下的优点: 1、调查单位比较集中,进行调查比较方便,可以减少 调查人员来往于调查单位之间的时间和费用。例如,在进行 农村居民户收入情况调查时,在一个县抽千分之五的村庄, 对其所有居民户进行调查,明显地比从全县直接抽千分之五 的农户进行调查,更便于组织,节省人力、旅途往返时间及 费用。 2、设计和组织抽样比较方便。例如,调查农村居民住 户,不必列出农村所有居民住户的抽样框,可以利用现成的 行政区域,如县、乡、村,将农村划分为若干群,这给抽样 设计方案带来很大方便。尤其是对那些无法事先掌握总体单 位情况的总体,采用整群抽样更为合适。 然而,整群抽样由于调查单位只能集中在若干群上,而 不能均匀分布在总体的各个部分,因此,它的精度比起简单 随机抽样来要低一些。
1 p N
p
i 1
N
i
——总体百分数
pi ——第 i 群百分数
总体百分数的无偏估计为:
1 n pc pi ——样本百分数 n i 1
pc 方差 Var ( pc ) 的无偏估计为:
1 f 1 n 2 v( pc ) ( p p ) i c n n 1 i 1
例题:试根据下表所得的某林场抽取的 5个样本群的林木蓄 积量资料,对该林场每块 0.04公顷的林地上的平均蓄积量及 该林场的每公顷蓄积量进行估计,并给出估计误差。如果一 棵林木能够出材 3 立方米以上就为成材林木,求该林场林木 的成材率估计及其误差。(假设共分为N=100个群)
2.9954
源自文库
标准差为
3 米 v( y ) 1.7307
该林场每公顷的林地上的平均蓄积量估计为
5.452 / 0.04 136.3 米 3 1 1 v( y ) 1.7307 43.2675 米 3 标准差为 0.04 0.04
1 n 1 pc pi [0.4 0.4 0.8 0.8 0.4] 0.56 n i 1 5
c
0 ,表明群内单元的差异远比群间差异大。
由(8.11)可知, c 0 的情况最多只能到 1 ( M 1) ,此时 群间毫无诧异,任意抽取几个群都可以作为总体的真实写照 因此,c 的取值范围应当在 [1 ( M 1) , 1] 之间。
1、估计量及其方差
其方差为:
1 总体平均数 Y 的无偏估计是 y nM
若总体可分为 N个初级单元(称为群),每个初级单 元包含若干次级单元。按照某种方式从总体中抽取 n个初级 单元,对这些单元中的所有次级单元全部进行调查。这种抽 样方法称为整群抽样。
在实际工作中,整群抽样方法被广泛采用。例如,在社 会经济调查中的人口调查、家计调查、农林牧业调查以及工 业产品质量检验等等都经常采用整群抽样调查。
第八章
整群抽样
设想国家教育部想了解上海中学生的体质状况,抽样调 查是既省钱又省时的办法,显然上海地区的中学生均是总体 的单元,从全体学生中随机无放回地抽取若干样本是理想的 概率抽样方法,但是编制全体中学生的抽样框本身是件麻烦 事,况且一个合理的有代表性的样本一般应该遍布全市,在 对如此分散的中学生样本逐个进行访问,其工作量之大可想 而知。一个方便的方法是在上海地区按学校抽样,在抽得的 几所学校中对该校所有中学生进行普遍调查。这就是本章要 讲述的整群抽样。
(8.4)
2 s 从(8.2)式可知,若 n 也足够大的话, 也可写成(8.4)形式, 2 2 此时,s 就可以看作是 S 的近似无偏估计了。
再引进一个群内相关的记号c ,这个概念的重要性在于 它可以度量群内次级单元的差异程度,因为我们已经知道群 内单元的差异大就可能保证样本的代表性,如何划分群实质 上是一个抽样方案的设计问题。易见设计的效应好还是差在 相当程度上与这个c 有关。c 的定义为:
单元号 j
群号 i
yi 1
3.4 5.9 6.3 13.2 3.3
yi 2
0.1 2.5 11.8 11.4 2.2
yi 3
1.8 1.7 2.9 2.9 4.6
yi 4
0 4.9 7.6 15.5 2.4
yi 5
3.1 2.5 18.9 6.9 0.5
y
j 1
5
ij
pi
0.4 0.4 0.8 0.8 0.4
例如,在一个有500个村庄、100000个农户的县,抽取 1%的农户就是1000户,而抽1%的村庄则只有5个村庄,也 许抽到的5个村庄农户多于1000,但由于样本单位只集中在 5个村庄,显然不如在全县范围内简单随机抽取1000户分布 均匀,代表性一般要差一些,抽样误差较大。 当然我们可以通过多抽几个群来弥补这一缺陷,但最关 键的一条还是在于总体内群的划分。为了使整群抽样的样本 具有一定的代表性,应当使群与群之间尽可能地差异小,而 群内单元之间的差异应当大(注意:这一点与分层抽样中总 体内层的划分有着极大的差别),这意味着每个群均具有足 够的代表性。如果划分的群相互之间颇多相似之处,那么少 量群的抽取足以提供良好的精度。一个总体划分成多少个群 ,每个群的规模大小如何又是一个新问题,通常我们面临的 总体会有自然的初级单元,例如本章开头所说的各所中学它 们互相之间关于学生的体质很相似,但在一个学校里每个学 生之间有一定的差异。
N M 2 2 —群间差异平方和 Sb ( Y Y ) i N 1 i 1
N M 1 2 2 Sw ( Y Y ) —群内差异平方和 ij i N ( M 1) i 1 j 1
将 Y 改为 y ,则为相应的样本指标值
它们之间的关系为:
1 2 2 S [( N 1) Sb N ( M 1) S w ] NM 1
2 2 2 2 s 由于群的选取是简单随机的,因此 b 与 sw 分别是 Sb 与 S w 的 2 无偏估计,于是得到 S 的无偏估计为:
ˆ2 S
1 2 2 [( N 1) sb N ( M 1) sw ] NM 1
(8.3)
当 N 相当大时,该估计可近似写为:
2 2 s ( M 1) s w ˆ2 b S M
y
i 1 j 1
n
M
ij
1 f NM 1 Var ( y ) 2 S 2 [1 ( M 1) c ] (8.12) n M ( N 1)
当N足够大时,近似有
f n N
1 f 2 Var ( y ) S [1 ( M 1) c ] nM
(8.13)
2 M ( N 1) Sb 1 ( M 1) c ( NM 1) S 2
(8.7)
当N足够大时,近似有
2 c ( Sb S 2 ) ( M 1) S 2
(8.8)
又
2 ( NM 1)(1 ) S 2 c Sw MN
(8.9)
当N足够大时,近似有
2 Sw c 1 2 S
另外,我们还可以提供一个关于Var ( y ) 的无偏估计:
1 f 1 n 2 v( y ) ( y y ) i n n 1 i 1
(8.16)
总体总和 Y
Y
i 1 j 1
N
M
ij
NM Y 的无偏估计为:
其方差为:
1 n M 1 n M y NM y NM yij N yij nM i 1 j 1 n i 1 j 1
1 n M 1 5 5 y yij yij nM i 1 j 1 5 5 i 1 j 1
1 f 1 n 2 方差为 v ( y ) ( y y ) i n n 1 i 1 1 0.05 1 [(1.68 5.452)2 (3.5 5.452)2 5 5 1 (9.5 5.452)2 (9.98 5.452)2 (2.6 5.452)2 ]
倘若需要我们自行划分群,一般还要考虑到组织管理上 的方便、精度上的要求以及费用的多少等等因素。
§1
群大小相等的整群抽样
首先讨论群大小相等时的简单情况。所谓群的大小相等 主要指群内次级单元的个数相等,假定关于群的抽取是随机 无放回的。
首先引进一些必要的记号:
Yij ——表示第 i 群中第 j 个次级单元
c
E (Yij Y )(Yik Y ) E (Yij Y )
2
(8.5)
具体计算得
c
2 (Yij Y )(Yik Y )
i 1 j k
M
M
( M 1)( NM 1) S
2
(8.6)
(a 2 b2 ) 2ab (a 2 b2 )
计算可得 1 c 1 ,c 在一定程度上反映了群内单元的 差异,当然这种差异一般是相对于群间差异而言的。它可以 2 2 用群内方差 S w 与群间方差 Sb 来表示:
1 2 3 4 5
8.4 17.5 47.5 49.9 13
n f 0.05 解: N=100,n=5,M=5 N 该林场每块 0.04公顷的林地上的平均蓄积量的无偏估计是
1 [8.4 17.5 47.5 49.9 13] 5.452 米 3 5 5
由表可得 yi 分别为:1.68,3.5,9.5,9.98,2.6
故该林场林木的成材率估计为:56% 方差为
1 f 1 n 2 v( pc ) ( p p ) i c n n 1 i 1
(8.10)
由(8.8)以及(8.10)可得 c 的估计
2 2 sb sw ˆc 2 2 sb ( M 1)sw
(8.11)
2 2
由(8.11)也可以发现,考虑N相当大时,当 c 0 , Sb 与Sw 几乎相等,也就是说群间方差几乎与群内方差一样,实际上 指出了我们对群的划分完全是随机进行的。如果 c 0 ,那 么群间的方差远远大于群内方差,群内单元差异相对不显著 将引起样本的代表性差,从而精度一定会差!
Var ( y ) ( NM )2Var ( y ) 1 f NM 1 ( NM ) 2 S 2 [1 ( M 1) c ] n M ( N 1) NM 1 2 2 1 f N S [1 ( M 1) c ] n ( N 1)
2
在实际问题中,具有某种特征的(次级)单元在总体中 的比例 p 的估计常用整群抽样,不仅方便而且效率也高,在 各群大小相等的情况下,利用前面Y 的讨论立即可得 p 的估 计量及其方差。
2
(8.1)
M 仍为M ,不难 将 Y 改为 y ,n 代替 N ,由于是整群抽样, 得到样本方差平方和的关系式:
1 2 2 s [( n 1) sb n( M 1) sw ] nM 1
2
(8.2)
s 2可作为 S 2 的估计,但不是无偏估计。这是因为次级单元是
在抽到的群内普查,此时样本不是简单随机的。
i 1, 2, , N ; j 1, 2, ,M ,M
yij ——表示样本中第 i 群中第 j 个次级单元的观测值
i 1, 2, , n; j 1, 2,
Yi Yij —第 i 群总和
j 1
M
Yi Yi M —第 i 群平均值
1 N M Y Yij —总体平均值 NM i 1 j 1 N M 1 2 —总体差异平方和 S2 ( Y Y ) ij NM 1 i 1 j 1
整群抽样作为一种抽样组织形式,具有以下的优点: 1、调查单位比较集中,进行调查比较方便,可以减少 调查人员来往于调查单位之间的时间和费用。例如,在进行 农村居民户收入情况调查时,在一个县抽千分之五的村庄, 对其所有居民户进行调查,明显地比从全县直接抽千分之五 的农户进行调查,更便于组织,节省人力、旅途往返时间及 费用。 2、设计和组织抽样比较方便。例如,调查农村居民住 户,不必列出农村所有居民住户的抽样框,可以利用现成的 行政区域,如县、乡、村,将农村划分为若干群,这给抽样 设计方案带来很大方便。尤其是对那些无法事先掌握总体单 位情况的总体,采用整群抽样更为合适。 然而,整群抽样由于调查单位只能集中在若干群上,而 不能均匀分布在总体的各个部分,因此,它的精度比起简单 随机抽样来要低一些。
1 p N
p
i 1
N
i
——总体百分数
pi ——第 i 群百分数
总体百分数的无偏估计为:
1 n pc pi ——样本百分数 n i 1
pc 方差 Var ( pc ) 的无偏估计为:
1 f 1 n 2 v( pc ) ( p p ) i c n n 1 i 1
例题:试根据下表所得的某林场抽取的 5个样本群的林木蓄 积量资料,对该林场每块 0.04公顷的林地上的平均蓄积量及 该林场的每公顷蓄积量进行估计,并给出估计误差。如果一 棵林木能够出材 3 立方米以上就为成材林木,求该林场林木 的成材率估计及其误差。(假设共分为N=100个群)
2.9954
源自文库
标准差为
3 米 v( y ) 1.7307
该林场每公顷的林地上的平均蓄积量估计为
5.452 / 0.04 136.3 米 3 1 1 v( y ) 1.7307 43.2675 米 3 标准差为 0.04 0.04
1 n 1 pc pi [0.4 0.4 0.8 0.8 0.4] 0.56 n i 1 5
c
0 ,表明群内单元的差异远比群间差异大。
由(8.11)可知, c 0 的情况最多只能到 1 ( M 1) ,此时 群间毫无诧异,任意抽取几个群都可以作为总体的真实写照 因此,c 的取值范围应当在 [1 ( M 1) , 1] 之间。
1、估计量及其方差
其方差为:
1 总体平均数 Y 的无偏估计是 y nM
若总体可分为 N个初级单元(称为群),每个初级单 元包含若干次级单元。按照某种方式从总体中抽取 n个初级 单元,对这些单元中的所有次级单元全部进行调查。这种抽 样方法称为整群抽样。
在实际工作中,整群抽样方法被广泛采用。例如,在社 会经济调查中的人口调查、家计调查、农林牧业调查以及工 业产品质量检验等等都经常采用整群抽样调查。
第八章
整群抽样
设想国家教育部想了解上海中学生的体质状况,抽样调 查是既省钱又省时的办法,显然上海地区的中学生均是总体 的单元,从全体学生中随机无放回地抽取若干样本是理想的 概率抽样方法,但是编制全体中学生的抽样框本身是件麻烦 事,况且一个合理的有代表性的样本一般应该遍布全市,在 对如此分散的中学生样本逐个进行访问,其工作量之大可想 而知。一个方便的方法是在上海地区按学校抽样,在抽得的 几所学校中对该校所有中学生进行普遍调查。这就是本章要 讲述的整群抽样。
(8.4)
2 s 从(8.2)式可知,若 n 也足够大的话, 也可写成(8.4)形式, 2 2 此时,s 就可以看作是 S 的近似无偏估计了。
再引进一个群内相关的记号c ,这个概念的重要性在于 它可以度量群内次级单元的差异程度,因为我们已经知道群 内单元的差异大就可能保证样本的代表性,如何划分群实质 上是一个抽样方案的设计问题。易见设计的效应好还是差在 相当程度上与这个c 有关。c 的定义为:
单元号 j
群号 i
yi 1
3.4 5.9 6.3 13.2 3.3
yi 2
0.1 2.5 11.8 11.4 2.2
yi 3
1.8 1.7 2.9 2.9 4.6
yi 4
0 4.9 7.6 15.5 2.4
yi 5
3.1 2.5 18.9 6.9 0.5
y
j 1
5
ij
pi
0.4 0.4 0.8 0.8 0.4
例如,在一个有500个村庄、100000个农户的县,抽取 1%的农户就是1000户,而抽1%的村庄则只有5个村庄,也 许抽到的5个村庄农户多于1000,但由于样本单位只集中在 5个村庄,显然不如在全县范围内简单随机抽取1000户分布 均匀,代表性一般要差一些,抽样误差较大。 当然我们可以通过多抽几个群来弥补这一缺陷,但最关 键的一条还是在于总体内群的划分。为了使整群抽样的样本 具有一定的代表性,应当使群与群之间尽可能地差异小,而 群内单元之间的差异应当大(注意:这一点与分层抽样中总 体内层的划分有着极大的差别),这意味着每个群均具有足 够的代表性。如果划分的群相互之间颇多相似之处,那么少 量群的抽取足以提供良好的精度。一个总体划分成多少个群 ,每个群的规模大小如何又是一个新问题,通常我们面临的 总体会有自然的初级单元,例如本章开头所说的各所中学它 们互相之间关于学生的体质很相似,但在一个学校里每个学 生之间有一定的差异。
N M 2 2 —群间差异平方和 Sb ( Y Y ) i N 1 i 1
N M 1 2 2 Sw ( Y Y ) —群内差异平方和 ij i N ( M 1) i 1 j 1
将 Y 改为 y ,则为相应的样本指标值
它们之间的关系为:
1 2 2 S [( N 1) Sb N ( M 1) S w ] NM 1
2 2 2 2 s 由于群的选取是简单随机的,因此 b 与 sw 分别是 Sb 与 S w 的 2 无偏估计,于是得到 S 的无偏估计为:
ˆ2 S
1 2 2 [( N 1) sb N ( M 1) sw ] NM 1
(8.3)
当 N 相当大时,该估计可近似写为:
2 2 s ( M 1) s w ˆ2 b S M
y
i 1 j 1
n
M
ij
1 f NM 1 Var ( y ) 2 S 2 [1 ( M 1) c ] (8.12) n M ( N 1)
当N足够大时,近似有
f n N
1 f 2 Var ( y ) S [1 ( M 1) c ] nM
(8.13)
2 M ( N 1) Sb 1 ( M 1) c ( NM 1) S 2
(8.7)
当N足够大时,近似有
2 c ( Sb S 2 ) ( M 1) S 2
(8.8)
又
2 ( NM 1)(1 ) S 2 c Sw MN
(8.9)
当N足够大时,近似有
2 Sw c 1 2 S
另外,我们还可以提供一个关于Var ( y ) 的无偏估计:
1 f 1 n 2 v( y ) ( y y ) i n n 1 i 1
(8.16)
总体总和 Y
Y
i 1 j 1
N
M
ij
NM Y 的无偏估计为:
其方差为:
1 n M 1 n M y NM y NM yij N yij nM i 1 j 1 n i 1 j 1
1 n M 1 5 5 y yij yij nM i 1 j 1 5 5 i 1 j 1
1 f 1 n 2 方差为 v ( y ) ( y y ) i n n 1 i 1 1 0.05 1 [(1.68 5.452)2 (3.5 5.452)2 5 5 1 (9.5 5.452)2 (9.98 5.452)2 (2.6 5.452)2 ]
倘若需要我们自行划分群,一般还要考虑到组织管理上 的方便、精度上的要求以及费用的多少等等因素。
§1
群大小相等的整群抽样
首先讨论群大小相等时的简单情况。所谓群的大小相等 主要指群内次级单元的个数相等,假定关于群的抽取是随机 无放回的。
首先引进一些必要的记号:
Yij ——表示第 i 群中第 j 个次级单元
c
E (Yij Y )(Yik Y ) E (Yij Y )
2
(8.5)
具体计算得
c
2 (Yij Y )(Yik Y )
i 1 j k
M
M
( M 1)( NM 1) S
2
(8.6)
(a 2 b2 ) 2ab (a 2 b2 )
计算可得 1 c 1 ,c 在一定程度上反映了群内单元的 差异,当然这种差异一般是相对于群间差异而言的。它可以 2 2 用群内方差 S w 与群间方差 Sb 来表示:
1 2 3 4 5
8.4 17.5 47.5 49.9 13
n f 0.05 解: N=100,n=5,M=5 N 该林场每块 0.04公顷的林地上的平均蓄积量的无偏估计是
1 [8.4 17.5 47.5 49.9 13] 5.452 米 3 5 5
由表可得 yi 分别为:1.68,3.5,9.5,9.98,2.6
故该林场林木的成材率估计为:56% 方差为
1 f 1 n 2 v( pc ) ( p p ) i c n n 1 i 1
(8.10)
由(8.8)以及(8.10)可得 c 的估计
2 2 sb sw ˆc 2 2 sb ( M 1)sw
(8.11)
2 2
由(8.11)也可以发现,考虑N相当大时,当 c 0 , Sb 与Sw 几乎相等,也就是说群间方差几乎与群内方差一样,实际上 指出了我们对群的划分完全是随机进行的。如果 c 0 ,那 么群间的方差远远大于群内方差,群内单元差异相对不显著 将引起样本的代表性差,从而精度一定会差!
Var ( y ) ( NM )2Var ( y ) 1 f NM 1 ( NM ) 2 S 2 [1 ( M 1) c ] n M ( N 1) NM 1 2 2 1 f N S [1 ( M 1) c ] n ( N 1)
2
在实际问题中,具有某种特征的(次级)单元在总体中 的比例 p 的估计常用整群抽样,不仅方便而且效率也高,在 各群大小相等的情况下,利用前面Y 的讨论立即可得 p 的估 计量及其方差。
2
(8.1)
M 仍为M ,不难 将 Y 改为 y ,n 代替 N ,由于是整群抽样, 得到样本方差平方和的关系式:
1 2 2 s [( n 1) sb n( M 1) sw ] nM 1
2
(8.2)
s 2可作为 S 2 的估计,但不是无偏估计。这是因为次级单元是
在抽到的群内普查,此时样本不是简单随机的。
i 1, 2, , N ; j 1, 2, ,M ,M
yij ——表示样本中第 i 群中第 j 个次级单元的观测值
i 1, 2, , n; j 1, 2,
Yi Yij —第 i 群总和
j 1
M
Yi Yi M —第 i 群平均值
1 N M Y Yij —总体平均值 NM i 1 j 1 N M 1 2 —总体差异平方和 S2 ( Y Y ) ij NM 1 i 1 j 1