整群抽样

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
sw
2 n M 1 nM 1 i 1 j 1
y
ij 2
yi
1 n 1 M 1 n 2 ( yij yi ) si n i 1 M 1 j 1 n i 1 1 (125.6 233.6 ... 527.87) 220.79 8

当各群所含次级单元数相等时,就称群
的大小相等;当各群所含次级单元数不 相等时,就称群的大小不相等。
第二节 群规模相等时的估计
一、符号说明 二、估计量 三、整群抽样效率分析

一、符号说明
设总体有N个群,每个群包含的单元数M相等 (或相近). 符号: 总体群数: N 样本群数:n 总体第 i 群中第 j 个单元的指标值: Yij 样本第 i 群中第 j 个单元的指标值: yij 第 i 群中的单元数: M i

注意: 整群抽样的随机性体现在群与群间不重 叠,也无遗漏,群的抽选按概率确定。 如果把每一个群看作一个单位,则整群 抽样可以被理解为是一种特殊的简单随 机抽样。 整群抽样是由一阶抽样向多阶段抽样过 渡的桥梁.此章介绍的是单阶段整群抽样.

(二)特点 优点: 1. 抽样框编制得以简化。
y 是有偏的,当各群规模差别很大时,且 yi
与Mi存在较相关时,估计量的偏倚很大.
二、等概抽样,加权估计
M i yi 1 n y y yi nM i 1 M i 1 nM ˆ yN Y MN M 0
n
如果总体平均规模 M 未知,可以用样本 平均规模 m
M
i 1
n
群的分类: 1. 根据行政或地域形成的群; 2. 调查人员人为确定的;

分群的一般原则: 划分群时应使群内方差尽可能大,群间方 差尽可能小. (注意:这一点与分层抽样 中总体内层的划分有着极大的差别) 这意味着每个群均具有足够的代表性。 如果划分的群相互之间颇多相似之处, 那么少量群的抽取足以提供良好的精度。
N 2

若采用简单随机抽样,则样本均值
y 的方差为:
1 f 2 Vsrs ( y ) S nM

整群抽样的设计效应为:
V ( y) deff 1 ( M 1) Vsrs ( y )

说明整群抽样的方差约为简单随机抽样方差的 1 (M 1) 倍.

另外,群内相关系数也可以用群内方差 S w 2 和群间方差 Sb 表示:
yi
si
2
299.07 177.87

解: N=315 n=8 M=6
f = n/N =0.0254
1 n 75 89 ... 93.33 y yi 98.17(元) n i 1 8
M yi y sb N 1 i 1 6 (75 98.17) 2 ... (93.33 98.17) 2 928.6648 8 1
缺点:

整群抽样由于调查单位只能集中在若干 群上,而不能均匀分布在总体的各个部 分,因此,它的精度比起简单随机抽样 来要低一些。
例如,在一个有500个村庄、100000个农户的县,抽取 1%的农户就是1000户,而抽1%的村庄则只有5个村庄,也 许抽到的5个村庄农户多于1000,但由于样本单位只集中在 5个村庄,显然不如在全县范围内简单随机抽取1000户分布 均匀,代表性一般要差一些,抽样误差较大。
第七章 整群抽样
第一节 第二节 第三节 第四节

引言 群规模相等时的估计 群规模不等时的估计 总体比例的估计
第一节 引言
一、整群抽样的定义和特点 二、群的划分 三、群的规模

一、整群抽样的定义和特点

(一)定义 整群抽样(cluster sampling)是将总体 划分为若干群,然后以群为抽样单元, 从总体中随机抽取一部分群,对中选群 中的所有基本单元进行调查的一种抽样 技术。

符号说明

一、等概抽样,简单估计 条件: 群之间的规模差异相差不很大 对总体均值 Y 的估计为:
yij 1 1 y yi ( ) n i 1 n i 1 j 1 M i
n n Mi
Y
的方差估计为:
n 1 f 1 2 v( y ) ( yi y ) n (n 1) i 1
2 N 2


1 f 2 1 0.0254 v( y ) sb 928.6648 18.8558 nM 8 6 s( y ) v( y ) 4.3423
置信区间: 98.17 1.96 4.3423
即89.66, 106.68
【例】估计上例中宿舍为群的群内相关系数 与设计效应. 2
2
s 2可作为 S 2 的估计,但不是无偏估计。这是因为次级单元是
在抽到的群内普查,此时样本不是简单随机的。
2 2 2 2 s 由于群的选取是简单随机的,因此 b 与 sw 分别是 Sb 与 S w 的 2 无偏估计,于是得到 S 的无偏估计为:
ˆ2 S
1 2 2 [( N 1) sb N ( M 1) sw ] NM 1
当然,由于整群抽样省时省力,每个单 元的平均调查费用较少,我们可以通过 多抽几个群,适当增大样本量的方法弥 补估计精度的损失。 对于某些少数情形,由于群的特殊结构, 群内小单元的差异很大,此时即便抽同 样数目的小单元,整群抽样的精度也比 简单随机抽样高。

群内方差大,群间 方差小
二、群的划分
2
sb sw ˆc 2 2 sb ( M 1) sw
2
2




整群抽样的估计效率,与群内相关系数 关系密切. 如果群内各单元的值都相等,则群内方差等于零,此 时 1 为最大值,deff=M,即整群抽样的估计量 方差是简单随机抽样估计量的方差的M倍; 若群内方差与群间方差相等,意味着分群是完全随 机的,此时, 0 ,deff=1,整群抽样与简单随机 抽样估计效率相同; 当群内方差大于群间方差时, 为负值,deff<1,整 群抽样的效率高于简单随机抽样. 当群间方差等于0,即各群均值 Yi 都相等时, 有极小值 1 ,
三、 整群抽样效率分析

整群抽样的估计精度和群内相关系数有关。

y
的方差可以用群内相关系数近似表示:
1 V ( y) V ( y) 2 M 1 f 1 (Yi Y ) 2 nM N 1 i 1 1 f NM 1 2 S 1 ( M 1) c 2 n M ( N 1) 1 f 2 S 1 ( M 1) c nM

性质3
V ( y ) 的样本估计为:
1 f 2 v( y ) sb nM
因而, v( y )是
V ( y)
的无偏估计。
总体总值 Y NMY 的估计量及相应的方差为:
ˆ NMy Y 2 2 ˆ V (Y ) V ( NMy ) N M V ( y ) 2 2 ˆ v(Y ) N M v( y )

例如,调查农村居民住户,不必列出农村所有居民住 户的抽样框,可以利用现成的行政区域,如县、乡、 村,将农村划分为若干群,这给抽样设计方案带来很 大方便。尤其是对那些无法事先掌握总体单位情况的 总体,采用整群抽样更为合适
2. 实施调查便利,节省费用。
例如,在进行农村居民户收入情况调查时,在一个县抽千分之五 的村庄,对其所有居民户进行调查,明显地比从全县直接抽千分 之五的农户进行调查,更便于组织,节省人力、旅途往返时间及 费用。
sb sw ˆ 2 2 sb ( M 1) sw 928.6648 220.79 0.348256 928.6648 (6 1)220.79
2
2
ˆ deff =1+(M-1) =1+(6-1) 0.348256=2.741 若采用简单随机抽样,为达到相同的精度,其 样本量为:
M 1
所以
的取值范围是
1 M 1 ,1
可见:

【例】在一次对某寄宿中学在校生零化钱 的调查中,以宿舍作为群进行整群抽样.每 个宿舍有6名学生.用简单随机抽样在全部 315间宿舍中抽取 n=8间宿舍.全部48个学 生上周每人的零化钱 yij及相关计算数据如 下页表,试估计该学校平均每个学生每周的 零化钱 Y ,并给出其95%的置信区间.
deff 1 ( M 1) c 1 (80 1) 0.00775 1.61225
整群抽样需要人数 n 1.61225 6147 9911 人
约等于 9911 80 124 个群
第三节 群规模不等的估计
一、等概抽样,简单估计 二、等概抽样,加权估计 三、等概抽样,比率估计 四、与群规模成比例的不等概抽样估计
8个宿舍48名学生每周零化钱支出额(元)
宿舍 1 学生1 学生2 学生3 学生4 学生5 学生6 58 83 74 82 66 87 75 125.6 宿舍2 91 83 79 111 101 69 89 233.6 宿舍3 123 89 94 109 79 80 95.67 宿舍4 99 105 98 107 129 90 104.67 宿舍5 110 99 132 87 99 124 108.5 287.5 宿舍6 111 100 116 99 107 105 106.33 42.27 宿舍7 120 115 117 99 106 120 112.83 72.57 宿舍8 96 80 63 130 105 86 93.33 527.87


nsrs
nM 8 6 18 deff 2.74
例: 对全国成年人人体尺寸测量,若以工作单位为现成的 群划分,这些单位一般不是等规模的,以平均大小M 80人 计算,通过少量样本的预测,若单位内同性别人的群内相关 估计 c 0.00775 。根据精度要求,简单随机抽样需要样 本量为6147人,那么整群抽样需要多少人才能达到同样的估 计精度? 解:

群间相似
群间差异较大
三、群的规模
群的规模是指组成群的单元的数量. 群的规模大,估计的精度差但费用省;群的规模小,估计 的精度可以提高但费用增大. 通常我们面临的总体会有自然的初级单元,例如本章 开头所说的各所中学它们互相之间关于学生的体质很 相似,但在一个学校里每个学生之间有一定的差异。 倘若需要我们自行划分群,一般还要考虑到组织管理 上的方便、精度上的要求以及费用的多少等等因素。
i
M1 M 2 ... M N M
它们之间的关系为:
1 2 2 S [( N 1) Sb N ( M 1) S w ] NM 1
2
M 仍为M ,不难 将 Y 改为 y ,n 代替 N ,由于是整群抽样, 得到样本方差平方和的关系式:
1 2 2 s [( n 1) sb n( M 1) sw ] nM 1
设想国家教育部想了解上海中学生的体质状况, 抽样调查是既省钱又省时的办法,显然上海地区 的中学生均是总体的单元。 从全体学生中随机无放回地抽取若干样本是理想 的概率抽样方法,但是编制全体中学生的抽样框 本身是件麻烦事,况且一个合理的有代表性的样 本一般应该遍布全市,在对如此分散的中学生样 本逐个进行访问,其工作量之大可想而知。 一个方便的方法是在上海地区按学校抽样,在抽 得的几所学校中对该校所有中学生进行普遍调查。 这就是本章要讲述的整群抽样
二、估计量

(一)均值估计量的定义
若群的抽取是简单随机的,且群的大小(M)相等, 则总体均值的估计为:
1 n y yi n i 1 i 1 j 1 nM
n
M
yij
(二)估计量 y 的性质

ቤተ መጻሕፍቲ ባይዱ
性质1
y 是 Y 的无偏估计
Y E( y) Y M

性质2
y 的方差为:
1 f 1 N 2 2 1 f V ( y) (Yi Y ) Sb n N 1 i 1 nM
相关文档
最新文档