整群抽样
(抽样检验)第七章整群抽样最全版
(抽样检验)第七章整群抽样第七章整群抽样第壹节整群抽样概述壹、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取壹部分群,对中选群内的所有单元进行全面调查。
确切地说,这种抽样组织形式应称为单级整群抽样。
如果总体中的单元能够分成多级,则能够对前几级单元采用多阶抽样,而在最后壹阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。
本章只讨论单级整群抽样。
设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑M i。
当诸Mi都相等时,称为等群;否则,称为不等群。
采用整群抽样的俩个理由:-抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;-从总体中直接抽选个体在实际中且不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。
整群抽样包括俩步:首先,总体被分为群;然后,在总体中抽取群的样本且访问群中的所有单元。
如果总体单元是自然分成组或群的,创建壹个这种关于群的抽样框且对它们进行抽样比创建总体中所有单元的名录框更为容易。
或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而能够创建地域框。
群的抽取能够采用简单随机抽样、系统抽样或PPS抽样等各种不同的方法。
二、群的划分问题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。
同分层抽样壹样,整群抽样的前提是先要对总体进行分群。
关于群的划分,有俩个问题:壹是如何定义群,即当群且非是壹个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。
分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。
这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。
而整群抽样只是在各群之间抽取壹部分群进行调查,且在抽中的群内作全面调查。
(抽样检验)第七章整群抽样
第七章整群抽样第一节整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。
确切地说,这种抽样组织形式应称为单级整群抽样。
如果总体中的单元可以分成多级,则可以对前几级单元采用多阶抽样,而在最后一阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。
本章只讨论单级整群抽样。
设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑M i。
当诸Mi都相等时,称为等群;否则,称为不等群。
采用整群抽样的两个理由:- 抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;- 从总体中直接抽选个体在实际中并不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。
整群抽样包括两步:首先,总体被分为群;然后,在总体中抽取群的样本并访问群中的所有单元。
如果总体单元是自然分成组或群的,创建一个这种关于群的抽样框并对它们进行抽样比创建总体中所有单元的名录框更为容易。
或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而可以创建地域框。
群的抽取可以采用简单随机抽样、系统抽样或PPS抽样等各种不同的方法。
二、群的划分问题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。
同分层抽样一样,整群抽样的前提是先要对总体进行分群。
关于群的划分,有两个问题:一是如何定义群,即当群并非是一个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。
分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。
这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。
而整群抽样只是在各群之间抽取一部分群进行调查,并在抽中的群内作全面调查。
因此,群间差异的大小直接影响到抽样误差的大小,而群内差异的大小则不影响抽样误差。
整群抽样
上式中的分子为:
பைடு நூலகம்
(Y
N
ij
Y )(Yik Y )
NM ( M 1) 2
第二节 群规模大小相等时的估计
上式中的分母为:
2 ( Y Y ) ij N M
NM
故 又可写为:
NM 1 2 S MN
2 (Yij Y )(Yik Y ) ( NM 1)(M 1) S 2
(1)
第二节 群规模大小相等时的估计
2.
估计量
性质1:
y 的性质
y 是 Y 的无偏估计,即
E y Y
因为是按简单随机方法抽取群,所以样本群均值 总体群均值 Y 的无偏估计,因而
y是
Ey Y
M
Y
第二节 群规模大小相等时的估计
性质2
y 的方差为
1 f V ( y) n N 1 1 f 2 Sb nM
从方法上看,整群抽样可以看成单阶段抽样向多阶段抽样 过渡的桥梁。如果抽出群后,对其中所有的次级单元进 行调查,称为单阶段整群抽样;如果抽出群后,在次级 单元中进一步抽取子样本,称为两阶段抽样;如果进一 步在两阶段抽样的子样本中按更低一级的单元再抽子样 本,称为三阶段抽样;如此类推,等等。如果最后一个 阶段所抽出的单元是组成总体的基本单元,一般称为多 阶段抽样,将在后面章节讨论;如果最后一个阶段所抽 出的单元是群(基本单元的集合),可将其称为多阶段 整群抽样,也即是多阶段抽样中的一种情形。本章仅介 绍单阶段整群抽样。
Y Yi N y yi n
n
N
第二节 群规模大小相等时的估计
Y
: 总体中的个体均值
(各群 M i M)
抽样理论与方法:整群抽样
7.1 概述
一、整群抽样(cluster sampling)的定义: 由若干个基本单元所组成的集合称为群。将总体 划分为若干群,然后以群为抽样单元,从总体中随 机抽取一部分群,对抽中的群中的所有基本单元进 行调查的一种抽样技术。 严格来讲也称为单阶整群抽样。
二、特点: 1.可以简化抽样框的编制。 2.实施调查便利,节省费用。 3.但通常比简单随机抽样的抽样误差大。 三、分群的原则:群内单元差异大,群间差异 小。 这样,被抽到的群代表性好,整群抽样的效率 就高。
( 3)P的估计 : 总体小单元的指标值Yij只能取0或1。 YP
Y
i 1 j1
N
M
ij
NM
A
i 1
N
i
NM
n i 1 i
i 1 n
N
Ai N
M
n
P
i 1
N
i
N
i
nM nM n n E( y ) Y E(p ) P即p是P的无偏估计。 1 f 1 N 2 V(p) ( Y Y ) i n N 1 i 1 1 f 1 N 2 (Pi P) n N 1 i 1 1 f 1 n 2 v(p) ( y y ) n n 1 i 1 i 1 f 1 n 2 ( p p ) , 且E( v(p) ) V(p)。 i n n 1 i 1
y 1 1 f 1 n 2 v(y ) v( ) 2 v(y ) ( y y ) M M nM 2 n 1 i 1 i 1 f M n 1 f 2 2 ( y y ) sb i nM n 1 i 1 nM 是V(y )的无偏估计。
第4章整群抽样
1 p nM 1 n ai pi n i 1 i 1
n
1 并令: A N
A
i 1
N
i
1 n a ai n i 1
定理4.2.2 在整群抽样中,若群的大小相等, 且对群进行简单随机抽样,则:
yij , i 1, 2,, n; j 1, 2,, M
总体第i个群的指标总值(简称群和):
Yi Yij , i 1, 2,, N
j 1 M
样本第i个群的指标总值(简称群和):
yi yij , i 1, 2,, n
j 1 M
总体第i个群的指标均值(简称群均值):
记:
总体第i个群中具有某特征的次级单元数: Ai , i 1, 2,, N 样本第i个群中具有某特征的次级单元数: ai , i 1, 2,, n
总体第i个群中具有某特征的次级单元所占比例: Ai Pi , i 1, 2,, N Mi
样本第i个群中具有某特征的次级单元所占比例: ai pi , i 1, 2,, n mi
书上P118例4-1
例 某厂近两年来积压了某种零件100箱,每箱20 只。最近有用户要货,急需估计100箱中有多少报 废零件,以尽快安排生产及时供应用户。现随机抽 取5箱,对箱中的零件全部检查,结果如下表。 (1)对零件的废品率作点估计,并估计其标准差; (2)对100箱中的废品数作点估计,并估计其标准 差。
m0 mi 样本中的次级单元数:
i 1 N
n
1 总体的平均群大小: M N
抽样技术 5 整群抽样
2.群内相关系数:是表达总体中群内小单元间相关程度 的一个指标。 定义:
(Y
E (Yij Y )(Yik Y ) E (Yij Y )
2 i 1 j k
N
M
ij
Y )(Yik Y )
2 NCM 2 ( Y Y ) ij i 1 j 1 N M
NM 2 (Yij Y )(Yik Y )
学生2
学生3 学生4 学生5 学生6
83
74 82 66 87
83
79 111 101 69
89
94 109 79 80
105
98 107 129 90
99
132 87 99 124
100
116 99 107 105
115
117 99 106 120
80
63 130 105 86
试估计该学校平均每个学生每周的零花钱,并给出置信 度为95%的置信区间。
11 22 17 26 16 27
12 33 17 40 24 17
13 15 10 4 6 8
14 17 18 12 11 10
15 13 9 5 7 9
16 18 23 13 15 8
17 33 5 26 30 11
18 26 15 13 17 3
19 7 32 4 6 9
20 15 1 1 6 5
2 ( Y Y ) i N
Y
N 1
i
Y
2
N 1
5.2 群规模大小相等时的估计
3、 V ( y ) 的样本估计为
1 f 2 1 f v( y ) sb nM n
M n s ( yi y)2 n 1 i 1
整群抽样
(Yij Y )(Yik Y )
i 1 j k
NM ( M 1) / 2 2 (Yij Y )(Yik Y )
i 1 j k N M
MN
( M 1)( NM 1) S 2
M ( N 1) Sb2 ( NM 1) S 2 c ( M 1)( NM 1) S 2
ˆ) 1 f ˆ V (Y V (Y ) 2 M0 nM 2
(Y Y )
i 1 i
N
2
N 1
ˆ) 1 f ˆ v(Y v(Y ) 2 M0 nM 2
(y
i 1
n
i
y )2
n 1
按简单随机抽样抽群,采用比率估计量
对群进行简单随机抽样,总体均值的比估计量为
ˆ YR
1 Y N
Y
j 1
N
i
为总体的“群和平均”。 为样本的“群和平均”。
1 y y yi n j 1
Y 1 N M Y Yij 为总体均值。 M NM i 1 j 1 y 1 n M y yij 为样本均值。 M nM i 1 j 1
N M 1 S (Yij Y )2 NM 1 i 1 j 1 2
ˆ 是无偏估计,其方差为 Y HH
N N Y M 1 2 2 i 0 ˆ ) Z ( Y ) V (Y M ( Y Y ) i i HH i n i 1 Zi n i 1 V (Yˆ ) 的一个无偏估计为
HH
v(YHH )
ˆ
n yi ˆ 2 M 02 n 1 2 ( Y ) ( y y ) i HH n(n 1) i 1 zi n(n 1) i 1
第四章整群抽样
1 (M 1)c
上面结果意味着:按同样的样本量(以次级单元计) 整群抽样的方差约为简单随机抽样的方差的 1 (M 1)c 倍。换句话说,为了获得同样的精度,整群抽样的样本 量必须是简单随机抽样的样本量的 1 (M 1)c 倍。
20
第21页/共49页
群内相关系数
NM
2
(Yij Y )(Yik Y )
• Def.1 一般地说,如果总体中所有较小的基本单元可 以以某种形式组成数量较少但规模较大的单元;或反 过来说,每个“大”单元都由若干“小”单元组成, 称这些 “大”单元为初级(抽样)单元(primary sampling unit),“小”单元为次级(抽样)单元 (secondary sampling unit).
Deff = (所考虑抽样设计估计量的方差)/(相同样 本量下简单随机抽样估计量的方差)
18
第19页/共49页
设计效应值愈大,表明它的效率愈低。若deff>1,表明
所考虑的抽样设计的效率不如简单随机抽样;若deff<1,
表明该抽样设计的效率比简单随机抽样高。
在整群抽样中,我们在前面已经指出:如何划分群以
27
第28页/共49页
(3) 若 令为简单随机抽样的样本量 则
nsrs
即可达到整群抽样96户样本量相同的估计精度
Mn nsrs deff
812 20(户) 4.7
28
第29页/共49页
群规模不相等的整群抽样
一、等概抽样,简单估计 二、等概抽样,加权估计 三、等概抽样,比率估计 四、例子
29
8 230,205,187,176,212,253,189,240 211.50 27.48
9 274,208,195,307,264,258,210,309 253.13 44.52
第六章 整群抽样
n
n 1
➢比估计
n
N
YˆR M 0Yˆ M 0
yi
i 1 n
mi
,V (YˆR )
N 2 (1
i
Y
)2
N 1
i 1
v(YˆR )
N 2 (1 n
f
)
1 n n 1 i1
yi2
2
Y R
n i 1
mi2
2Y
R
n i 1
mi
yi
例4:从共有790个单位的某系统中按简单 随机抽样抽取n=20个单位,这些单位的职
1
n
1
n i 1
ai2
p2
n i 1
mi2
2p
n i 1
ai mi
M
第四节 群大小不等的一般情形
若群大小Mi 相差不多,以平均群大小M 代替M, 仍可按群大小相等处理;若Mi 相差较大,有两 种处理方法。
一、记号
➢ 总体第i群第j个小单位指标值 Yij,i=1,2,…,N; j=1,2,…, Mi,Mi 是群的大小。
费额的户平均值 Y ,并给出其95%的置信区
间(P213)。
12个楼层96户居民人均月食品消费额资料
i
yij
1 240, 187, 162, 185, 206, 197, 154, 173
2 210, 192, 184, 148, 186, 175, 169, 180
3 149, 168, 145, 130, 170, 144, 125, 167
yi
yi M
➢总体平均群和 Y Yi N
➢样本平均群和 y yi n
➢总体均值
NM
Y Yij MN Y M i1 j1
(标准抽样检验)第七章整群抽样
(标准抽样检验)第七章整群抽样第七章整群抽样第一节整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。
确切地说,这种抽样组织形式应称为单级整群抽样。
如果总体中的单元可以分成多级,则可以对前几级单元采用多阶抽样,而在最后一阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。
本章只讨论单级整群抽样。
设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑M i。
当诸Mi都相等时,称为等群;否则,称为不等群。
采用整群抽样的两个理由:-抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;-从总体中直接抽选个体在实际中并不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。
整群抽样包括两步:首先,总体被分为群;然后,在总体中抽取群的样本并访问群中的所有单元。
如果总体单元是自然分成组或群的,创建一个这种关于群的抽样框并对它们进行抽样比创建总体中所有单元的名录框更为容易。
或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而可以创建地域框。
群的抽取可以采用简单随机抽样、系统抽样或PPS抽样等各种不同的方法。
二、群的划分问题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。
同分层抽样一样,整群抽样的前提是先要对总体进行分群。
关于群的划分,有两个问题:一是如何定义群,即当群并非是一个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。
分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。
这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。
而整群抽样只是在各群之间抽取一部分群进行调查,并在抽中的群内作全面调查。
整群抽样
三、群的大小不等时 在许多情况下,总体各群的大小 M是不完全相 i 等,或完全不相等的。若各群的大小相差不大时, 总体参数的估计量可按简单估计或比估计来确定: (一)简单估计
如果群的抽取是简单随机的,则可将每个群的 总和 Yi 看作是第 i 群的指标,于是总体总和
Y
Y
i 1
N
i
的简单估计可依照简单随机抽样的情形来做。
五、整群抽样与分层抽样的比较 综合前面的分析,比较整群抽样和分层抽样 可以发现二者在分组(层或群)的条件、调查的 方式、分组(层或群)的目的、分组(层或群) 的原则、总体方差的分解等方面都存在着较为明 显的差别。
第二节
等概率整群抽样的情形
一、群的大小相等时 (一)估计量 整群抽样是以群为单位进行抽样,如果群的 抽取是简单随机的,则当群的大小都相等时,可 以将简单随机抽样理解为是一种特殊的整群抽样, 特别当总体分群后的每个群都只包括一个次级单 元时,整群抽样和简单随机抽样一致。因此,整 群抽样的估计量可以比照简单随机抽样方式来构 造。
4.如果把每一个群看作一个单位,则整群抽 样可以被理解为是一种特殊的简单随机抽样。 5.整群抽样也是多阶段抽样的前提和基础。
6.整群抽样有特殊的用途。有些现象的研究, 如果直接调查作为基本单元的个体,很难说明问 题,必须以一定范围所包括的基本单元为群体, 进行整群抽样,才能满足调查的目的。
7.整群抽样要求分群后各群所含次级单元数 目应该确知,否则会给抽样推断带来不便。
(二)比估计
当群的大小不等时,在对群进行简单随机抽
样的情况下,Y Yi M i ,我们注意到它同比率
R Yi
i 1 N
N
N
X 形式上完全相同,只不过在这里是
【精品】整群抽样
【精品】整群抽样整群抽样是一种常用的抽样方法,它的主要思想是将总体分成若干个互不重复的群组,然后随机抽取其中若干个群组,并把群组中所有个体作为抽样对象。
整群抽样在各种社会科学研究中广泛应用,尤其是在对人口、社区、组织等群体进行研究时。
整群抽样的优点是可以大大降低误差,同时也方便调查的进行。
它的缺点是由于每个群组中的个体具有共性,所以所得的样本可能不够代表性,因此需要设计一个有效的群组划分方法,以尽可能保证样本的代表性。
整群抽样的基本步骤包括:确定总体、确定群组、确定抽样群组、确定抽样个体以及确定样本容量等环节。
确定总体是整群抽样的第一步,它是指要研究的整个人群或社区等。
在确定总体的同时,需要尽量了解总体的特点和构成,以便进行有效的群组划分和抽样。
确定群组是指将总体分成若干个互不重复的群组,使每个群组内的个体具有相似的特征,同时不同群组之间的差异尽量大。
群组的划分可以根据人口结构、居住区划、行业分类等因素进行。
对于复杂的总体,还可以采取多种因素相结合的方法。
确定抽样群组是指从总体中随机抽取若干个群组作为样本,保证每个群组有等概率被选中的机会。
抽样群组的数量应该根据样本容量和总体的大小进行相应的调整。
如果总体较小,可以选择抽取全部群组作为样本。
确定抽样个体是指在被选中的抽样群组中随机抽取若干个个体作为样本。
抽取个体的方法可以使用简单随机抽样等方法进行,以保证样本具有代表性。
最后,确定样本容量是整群抽样的最后一步,它是根据总体的大小、样本精度、置信水平和误差限等因素进行确定的。
样本容量的大小对于整群抽样的精度有很大的影响,因此需要进行充分的估计和计算。
总之,整群抽样是一种有效的抽样方法,可以用于各种社会科学研究中。
在进行整群抽样时,需要充分考虑总体的特点、群组的划分、抽样群组的选择、抽样个体的抽取和样本容量的确定等因素,以获取具有代表性和精准度的样本数据。
《抽样调查》第五章 整群抽样-课件ppt
平方和 19 112
1 216 203 1 235 315
自由度 6 524 530
均方(方差)
sb2=3 185 sw2=2 321 s2=2 331
三、整群抽样效率分析及群的划分原则
在总体方差固定的条件下,整群抽样的精 度取决于群内相关系数,群内相关系数愈小, 即群内差异或群内方差愈大,则估计量的精度 愈高。
群间抽样,群内全查 层间全查,层内抽查
分组原则 缩小群间差异,
扩大层间差异,
扩大群内差异
缩小层内差异
分组目的 扩大抽样单元
缩小总体
分组结果 总方差=群间方差+群 总方差=层间方差+层
内方差
内方差
第二节 群大小相等的整群抽样
—对群进行简单随机抽样时的估计量与方差
❖ 一、符号说明 ➢ 总体群数 N(A) ,样本群数 n(a) ➢ 第i群中包含的总体单位数 M ➢ 总体第i群第j个单位指标值 Yij(i=1,2...N;j=1,2..M) ➢ 样本第i群第j个单位指标值 yij(i=1,2...n;j=1,2..M)
)(Yik Y Y )2
)
(
j
k)
ˆc
sb2
sb2 (M
s2 1)s2
c
M (N 1)Sb2 (NM 1)S 2 (M 1)(NM 1)S 2
c
1
S 2 S2
sb 2
M n 1
n i 1
( yi
y)2
s2
1 n
n i 1
si2
分析
c 的取值范围在[ 1 ,1]。
1 M
明群当内单元c 越0 相时似,;表明c群值完越全小是,随则机群的内;单c元值的越差大异,越表大。 当 c 0时,表示这个差异比随机分组时群内的差异
整群抽样
样本
练Hale Waihona Puke 题 填空. 做一项调查,调查总体是全国所有城市的集 合,需要抽取一个规模为40个城市的名单,我们可以 选用以下抽样方法:
1.找到一份全国城市的名单. ①根据随机数表直接从 抽样框中抽取城市,这是___抽样②计算抽样间距, 从抽样框中抽取样本,这是____抽样
简单随机 系统 2.先将城市规模分为特大城市,大城市,中等城
概率抽样方法之
整群抽样
本节明确三个问题
1.什么是整群抽样?它有什么特点? 2.整群抽样有什么优缺点? 3.我们什么时候该用整群抽样?怎么用?
是什么?
整群抽样是从总体中抽取一些小的群体,然 后由所抽出的若干个小群体内的所有元素 构成调查的样本的方法.
它的特点
抽样单位不是单个的元素,而是成群的元素 总体由小群体构成
优点
简化抽样过程 相对地扩大抽样的应用范围 降低调查中收集资料的费用
缺点
样本的分布面不广 样本对总体的代表性相对较差
什么时候使用?
总体由子群体构成,这些子群体相互之间差 别不大,而每个子群内部的异质性程度比较 大
怎么用?
总体 子群体 简单随机,系统,分层抽样
所有子群体中元素
市,小城市.然后分别从每一类中抽取若干城市, 并将这些城市合起来构成样本.这是___抽样
分层
3.以省为抽样单位,从全国31个省(自治区,直辖 市)中随机抽取3-5个省,再从所抽中的这些省 (自治区,直辖市)中所包含的全部城市的集合 作为调查的样本.这是__抽样
整群
整群抽样
第七章 整群抽样第一节 整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。
确切地说,这种抽样组织形式应称为单级整群抽样。
采用整群抽样的两个理由:抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;从总体中直接抽选个体在实际中并不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。
二、群的划分问题关于群的划分,有两个问题:一是如何定义群,即当群并非是一个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。
群的划分应该是:尽量扩大群内差异,而缩小群间差异。
这样,每个群都具有足够好的代表性。
如果所有的群都相似,那么抽少数群就可获得相当好的精度;反之,若群内的单元比较相似,而群与群之间的差别较大,则整群抽样的效率就低。
所以分群的原则使“群内差异大、群间差异小”与分层的原则使“层内差异小,层间差异大”是恰好相反的。
至于群的规模的选择,一是取决于精度与费用之间的平衡,二是从抽样实施的组织管理等因素来考虑。
三、整群抽样的特点同其他抽样组织形式相比较,整群抽样具有如下特点:整群抽样则不需要编制庞大的抽样框;在样本单元数相同的条件下,整群抽样与简单随机抽样相比,样本单元的分布相对较集中,组织实施过程更加便利,同时还可以大大地节省调查费用;整群抽样的随机性体现在群与群间不重叠,也无遗漏,群的抽选按概率确定;如果把每一个群看作一个单位,则整群抽样可以被理解为是一种特殊的简单随机抽样;整群抽样也是多阶段抽样的前提和基础;整群抽样有特殊的用途;整群抽样要求分群后各群所含次级单元数目应该确知,否则会给抽样推断带来不便。
第二节 等概率整群抽样的情形一、群的大小相等时(一)估计量1、总体均值Y 的估计∑===ni i Y n y Y 11ˆ2、总体总和Y 的估计y nN Y nN y NM Yni i ∑===•=1ˆ 3、总体比例P的估计∑∑=====ni in i i nMP n p P 1111ˆα(二)估计量的方差及其估计由于群是按简单随机方法抽取的,因此,估计量Y Y ˆ,ˆ与P ˆ的方差及方差的无偏估计量可直接按第三章的方法构造:1)(1)(122---=∑=N Y YnM f y V Ni i22221])1(1[1)1,1(1)1(1[)1(1bC C S nMf M S nM f NM NM N N N M S NM nM f -=-+-≈-≈-≈--+•-•-=ρρ 21211)(1)(ˆb ni is nMf n y Ynf y V-=--•-=∑= 1)()1()()ˆ(ˆ12222---=•=∑=N Y Yn f N y V M N Y VNi i≈22)1(b S nf M N - 1)()1()(ˆ)ˆ(ˆ21222--•-=•=∑=n y Ynf N y V M N Y Vni i≈22)1(b s nf M N -1N )P (P nf 1)Pˆ(V N1i 2i---=∑=1n )PˆP(n f1)P ˆ(Vˆn1---=∑=i i三、群的大小不等时(一)简单估计如果群的抽取是简单随机的,则可将每个群的总和i Y 看作是第i 群的指标,于是总体总和∑==N1i i Y Y 的简单估计可依照简单随机抽样的情形来做,即:y N Y n N Y ˆn 1i i ==∑=可以证明,Yˆ是Y 的无偏估计,其方差为: 1N )Y Y(n)f 1(N )Yˆ(V N1i 2i2--•-=∑=方差估计量为:11N Y ˆ(Vˆ122---=∑=n y Y n f ni i)()())Y ˆ(Vˆ为)Y ˆ(V 无偏估计。
第六章 整群抽样
群既可以是自然形成的实体,如村庄、田块, 也可以是现有的机构、组织,如学校、街区, 还可以是人为划分的单位,比如对学生分班。 群组成:尽量提高精度,群内差异尽量大,群 间差异尽量小。 群规模:权衡精度与费用。
第二节 群大小相等的整群抽样
总体由A群组成,每群均含有M个调查单位, 总体调查单位总数为 AM ,对群进行简单随机 抽样,从A群中随机抽取a群,对抽中群的所 有调查单位全部调查,调查单位样本量为aM , 因而群抽样比及调查单位抽样比均为a/A.
2 w
a
a
M
2
样本群内方差
二、估计量及其性质
由简单随机抽样知 y 1 - 1 E(y)=E( )= E (y) Y Y M M M
= -
y 是 Y 的无偏估计量。其方差为
y 1 1 1 f 1 A 2 V ( y ) V ( ) 2 V (y) 2 (Yi Y ) M M M a A 1 i 1 1 f 2 Sb aM -
一、记号
Yij 表示总体中第i群第j调查单位的调查指标值 (i=1, , ,A;j=1,2,,M).则 2 Yi 1 Y Yij 和Y i i M M j 1
A M
Y 分别表示第i群总值
j 1 ij A M
M
Y 1 A 和调查单位均值,Y= Yi Yij 和 Y Yi A A i 1 i=1 i 1 j 1 分别表示总体总值和按群平均的总体均值。 Y 1 Y AM AM
总体方差与群内方差、群间方差的关系
A M 1 S2 (Yij Y ) 2 AM 1 i 1 j 1 A M 1 [(Yij Y i ) (Y i Y )]2 AM 1 i 1 j 1
整群抽样
技术部
行政部
销售部
ቤተ መጻሕፍቲ ባይዱ
制造部
THE END
谢 谢 观 看!
《社会调查与统计分析》
第四章 抽样
知识点8 整群抽样
学习导航
整群抽样
整群抽样的定义 整群抽样的优缺点 整群抽样和分层抽样的区别运用
1. 整群抽样( Cluster Sampling )的定义
又称为集体抽样或群体抽样 ,是从总体中随机抽取一些 小的群体,然后由所抽出的若干个小群体内的所有元素 构成调查的样本的方法。 整群抽样区别于其它抽样方法的最大特点在于它的抽样 单位不是单个元素,而是成群的元素 。
2. 整群抽样的优缺点
优点 „ (1)在于可以简化抽样的过程 „ (2)节省时间、人力和经费 缺点就是其样本的分布面不大、样本对总体的代表性相 对较差。
3. 整群抽样与分层抽样区别运用
不同子群相互之间差别不大、而每个子群内部的异质性 较大时,则适合于采用整群抽样的方法;
反之,当不同子群相互之间差别很大、而每个子群内部 的差异不大时,则特别适合于采用分层抽样的方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
当各群所含次级单元数相等时,就称群
的大小相等;当各群所含次级单元数不 相等时,就称群的大小不相等。
第二节 群规模相等时的估计
一、符号说明 二、估计量 三、整群抽样效率分析
一、符号说明
设总体有N个群,每个群包含的单元数M相等 (或相近). 符号: 总体群数: N 样本群数:n 总体第 i 群中第 j 个单元的指标值: Yij 样本第 i 群中第 j 个单元的指标值: yij 第 i 群中的单元数: M i
注意: 整群抽样的随机性体现在群与群间不重 叠,也无遗漏,群的抽选按概率确定。 如果把每一个群看作一个单位,则整群 抽样可以被理解为是一种特殊的简单随 机抽样。 整群抽样是由一阶抽样向多阶段抽样过 渡的桥梁.此章介绍的是单阶段整群抽样.
(二)特点 优点: 1. 抽样框编制得以简化。
M1 M 2 ... M N M
它们之间的关系为:
1 2 2 S [( N 1) Sb N ( M 1) S w ] NM 1
2
M 仍为M ,不难 将 Y 改为 y ,n 代替 N ,由于是整群抽样, 得到样本方差平方和的关系式:
1 2 2 s [( n 1) sb n( M 1) sw ] nM 1
二、估计量
(一)均值估计量的定义
若群的抽取是简单随机的,且群的大小(M)相等, 则总体均值的估计为:
1 n y yi n i 1 i 1 j 1 nM
n
M
yij
(二)估计量 y 的性质
性质1
y 是 Y 的无偏估计
Y E( y) Y M
性质2
y 的方差为:
1 f 1 N 2 2 1 f V ( y) (Yi Y ) Sb n N 1 i 1 nM
群间相似
群间差异较大
三、群的规模
群的规模是指组成群的单元的数量. 群的规模大,估计的精度差但费用省;群的规模小,估计 的精度可以提高但费用增大. 通常我们面临的总体会有自然的初级单元,例如本章 开头所说的各所中学它们互相之间关于学生的体质很 相似,但在一个学校里每个学生之间有一定的差异。 倘若需要我们自行划分群,一般还要考虑到组织管理 上的方便、精度上的要求以及费用的多少等等因素。
M 1
所以
的取值范围是
1 M 1 ,1
可见:
【例】在一次对某寄宿中学在校生零化钱 的调查中,以宿舍作为群进行整群抽样.每 个宿舍有6名学生.用简单随机抽样在全部 315间宿舍中抽取 n=8间宿舍.全部48个学 生上周每人的零化钱 yij及相关计算数据如 下页表,试估计该学校平均每个学生每周的 零化钱 Y ,并给出其95%的置信区间.
第七章 整群抽样
第一节 第二节 第三节 第四节
引言 群规模相等时的估计 群规模不等时的估计 总体比例的估计
第一节 引言
一、整群抽样的定义和特点 二、群的划分 三、群的规模
一、整群抽样的定义和特点
(一)定义 整群抽样(cluster sampling)是将总体 划分为若干群,后以群为抽样单元, 从总体中随机抽取一部分群,对中选群 中的所有基本单元进行调查的一种抽样 技术。
N 2
若采用简单随机抽样,则样本均值
y 的方差为:
1 f 2 Vsrs ( y ) S nM
整群抽样的设计效应为:
V ( y) deff 1 ( M 1) Vsrs ( y )
说明整群抽样的方差约为简单随机抽样方差的 1 (M 1) 倍.
另外,群内相关系数也可以用群内方差 S w 2 和群间方差 Sb 表示:
当然,由于整群抽样省时省力,每个单 元的平均调查费用较少,我们可以通过 多抽几个群,适当增大样本量的方法弥 补估计精度的损失。 对于某些少数情形,由于群的特殊结构, 群内小单元的差异很大,此时即便抽同 样数目的小单元,整群抽样的精度也比 简单随机抽样高。
群内方差大,群间 方差小
二、群的划分
nsrs
nM 8 6 18 deff 2.74
例: 对全国成年人人体尺寸测量,若以工作单位为现成的 群划分,这些单位一般不是等规模的,以平均大小M 80人 计算,通过少量样本的预测,若单位内同性别人的群内相关 估计 c 0.00775 。根据精度要求,简单随机抽样需要样 本量为6147人,那么整群抽样需要多少人才能达到同样的估 计精度? 解:
性质3
V ( y ) 的样本估计为:
1 f 2 v( y ) sb nM
因而, v( y )是
V ( y)
的无偏估计。
总体总值 Y NMY 的估计量及相应的方差为:
ˆ NMy Y 2 2 ˆ V (Y ) V ( NMy ) N M V ( y ) 2 2 ˆ v(Y ) N M v( y )
设想国家教育部想了解上海中学生的体质状况, 抽样调查是既省钱又省时的办法,显然上海地区 的中学生均是总体的单元。 从全体学生中随机无放回地抽取若干样本是理想 的概率抽样方法,但是编制全体中学生的抽样框 本身是件麻烦事,况且一个合理的有代表性的样 本一般应该遍布全市,在对如此分散的中学生样 本逐个进行访问,其工作量之大可想而知。 一个方便的方法是在上海地区按学校抽样,在抽 得的几所学校中对该校所有中学生进行普遍调查。 这就是本章要讲述的整群抽样
y 是有偏的,当各群规模差别很大时,且 yi
与Mi存在较相关时,估计量的偏倚很大.
二、等概抽样,加权估计
M i yi 1 n y y yi nM i 1 M i 1 nM ˆ yN Y MN M 0
n
如果总体平均规模 M 未知,可以用样本 平均规模 m
M
i 1
n
群的分类: 1. 根据行政或地域形成的群; 2. 调查人员人为确定的;
分群的一般原则: 划分群时应使群内方差尽可能大,群间方 差尽可能小. (注意:这一点与分层抽样 中总体内层的划分有着极大的差别) 这意味着每个群均具有足够的代表性。 如果划分的群相互之间颇多相似之处, 那么少量群的抽取足以提供良好的精度。
2
sb sw ˆc 2 2 sb ( M 1) sw
2
2
整群抽样的估计效率,与群内相关系数 关系密切. 如果群内各单元的值都相等,则群内方差等于零,此 时 1 为最大值,deff=M,即整群抽样的估计量 方差是简单随机抽样估计量的方差的M倍; 若群内方差与群间方差相等,意味着分群是完全随 机的,此时, 0 ,deff=1,整群抽样与简单随机 抽样估计效率相同; 当群内方差大于群间方差时, 为负值,deff<1,整 群抽样的效率高于简单随机抽样. 当群间方差等于0,即各群均值 Yi 都相等时, 有极小值 1 ,
sw
2 n M 1 nM 1 i 1 j 1
y
ij 2
yi
1 n 1 M 1 n 2 ( yij yi ) si n i 1 M 1 j 1 n i 1 1 (125.6 233.6 ... 527.87) 220.79 8
三、 整群抽样效率分析
整群抽样的估计精度和群内相关系数有关。
y
的方差可以用群内相关系数近似表示:
1 V ( y) V ( y) 2 M 1 f 1 (Yi Y ) 2 nM N 1 i 1 1 f NM 1 2 S 1 ( M 1) c 2 n M ( N 1) 1 f 2 S 1 ( M 1) c nM
缺点:
整群抽样由于调查单位只能集中在若干 群上,而不能均匀分布在总体的各个部 分,因此,它的精度比起简单随机抽样 来要低一些。
例如,在一个有500个村庄、100000个农户的县,抽取 1%的农户就是1000户,而抽1%的村庄则只有5个村庄,也 许抽到的5个村庄农户多于1000,但由于样本单位只集中在 5个村庄,显然不如在全县范围内简单随机抽取1000户分布 均匀,代表性一般要差一些,抽样误差较大。
符号说明
一、等概抽样,简单估计 条件: 群之间的规模差异相差不很大 对总体均值 Y 的估计为:
yij 1 1 y yi ( ) n i 1 n i 1 j 1 M i
n n Mi
Y
的方差估计为:
n 1 f 1 2 v( y ) ( yi y ) n (n 1) i 1
8个宿舍48名学生每周零化钱支出额(元)
宿舍 1 学生1 学生2 学生3 学生4 学生5 学生6 58 83 74 82 66 87 75 125.6 宿舍2 91 83 79 111 101 69 89 233.6 宿舍3 123 89 94 109 79 80 95.67 宿舍4 99 105 98 107 129 90 104.67 宿舍5 110 99 132 87 99 124 108.5 287.5 宿舍6 111 100 116 99 107 105 106.33 42.27 宿舍7 120 115 117 99 106 120 112.83 72.57 宿舍8 96 80 63 130 105 86 93.33 527.87
yi
si
2
299.07 177.87
解: N=315 n=8 M=6
f = n/N =0.0254
1 n 75 89 ... 93.33 y yi 98.17(元) n i 1 8
M yi y sb N 1 i 1 6 (75 98.17) 2 ... (93.33 98.17) 2 928.6648 8 1