第4章-等概率整群抽样和多阶段抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
总体总值 的估计量 及其方差
【例4.1】
在一次对某中学在校零花钱的调查中, 以宿舍作为群进行整群抽样。每个宿舍 都有M=6名学生。用简单随机抽样在全 部N=315间宿舍中抽取n=8个宿舍。全 部48个学生上周每人的零花钱 yij 及相关 计算数据如表4-2所示。试估计该学校学 生平均每周的零花钱 Y ,并给出其95% 的置信区间。
4.1.1 定义
整群抽样(cluster sampling)是将总体 划分为若干群,然后以群(cluster)为抽 样单元,从总体中随机抽取一部分群,对 被选群内的所有单元进行调查的一种抽样 技术。
2020/4/4
3
例
欲估计某高校大学生拥有手机数量,大学共有40000 名学生,10000个宿舍(每个宿舍4名学生)。
S 2 1 M
1
2
N
(Yi Y )2
N
M
Yij Y
i
i j
N M
2
Yij Y 2 Yij Y Yik Y
i j
jk
(NΒιβλιοθήκη Baidu 1)S 2 (M 1)(NM 1)S 2
简单随机抽样的方差公式为
Vsrs
(
y
)
1 f nM
S2
由此可计算出等群抽样的设计效应为
大;
❖ 群规模不宜过大 ❖ 对于规模很大的群,通常需要采用多阶段抽样。 ❖ 有群规模相等与不相等两种情况
4.1.5 符号说明
表 4.1
4.2 等概率整群抽样
4.2.1 群规模相等时的估计
群规模相同,均为M,则 Y 的估计量为:
ˆ
nM
Y y
yij
i1 j 1
nM
1 n
n i 1
yi
Yˆ NMy n M Nyij n i1 j 1
N
V (Yˆ) N 2 (1 f ) i1 (Yi Y )2
n
N 1
它的无偏估计为
n
v(Yˆ )
N 2 (1
f)
( yi
i 1
y)2
n
n 1
均值估计 y的方差为
N
V ( y) 1 V (Yˆ) N 2 (1 f ) i1 (Yi Y )2
M
2 0
M
2 0
n
N 1
(2)等概抽样,比率估计
定理 4.1:y 是 Y 的无偏估计,即
Ey Y
定理 4.2: y 的方差为:
V ( y) 1 f n
1N N 1 i1
Yi Y
2
1 f nM
Sb2
定理 4.3:V ( y) 的样本估计为:
v( y) 1 f nM
sb2
Yˆ NMy V (Yˆ) V (NMy) N 2M 2V ( y) v(Yˆ) N 2M 2v( y)
ˆ
sb2 sw2
sb2 (M 1)sw2
sb2
M n 1
n i 1
( yi
y)2
sw2
1 n(M 1)
n i 1
M
( yij
j 1
yi )2
【例4.2】
4.2.2 群规模不等时的估计
当群规模Mi不等时,有不同的抽取方法和估计方法。
(1)等概抽样,无偏估计
思路:以群规模Mi为权数,乘以各群均值yi , 得到群观察值总值yi,再将样本中n个群的群
整群抽样的效率分析
群内相关系数 表达式为:
E(Yij Y )(Yik Y )
E(Yij Y )2
上式中的分子为:
NM
(Yij Y )(Yik Y )
NM (M 1) 2
NM
上式中的分母为: (Yij Y )2 NM 1 S 2
NM
MN
故 又可写为:
NM
2
(Yij Y )(Yik Y )
第4章 等概率整群抽样和多阶 段抽样
由若干有联系的基本单元所组成的集合称为群。抽样时 抽取群,并对入选群的所有基本单元进行调查,这种方 法就是整群抽样。
当群规模比较大时,由于群内单元通常具有相似性,对 群内单元进行再抽样,这就是两阶段抽样,其中的群也 称为初级抽样单元,群内再抽样的单元称为二级抽样单 元。
(NM 1)(M 1)S 2
用简单随机抽样方法抽取n个群,每个群内的M个
单元全部进入样本,则等群抽样均值估计量 y 的方
差可用群内相关系数近似表示
N
2
V (y)
1 V(y) 1 f
Yi Y
i 1
M2
nM 2 N 1
1 f n
(NM 1) M 2 (N 1)
S2
1
M
1
1 f nM
方案1(简单随机抽样):采用简单随机抽样方法抽 取400个学生;
方案2(整群抽样):根据学生宿舍名录抽取100个 宿舍,并调查被抽宿舍的每一个学生;
方案3(两阶段抽样):先随机抽取400个宿舍,再 在每个被抽中的宿舍中随机抽取1个学生。
2020/4/4
4
4.1.2 整群抽样的特点
(1)抽样框编制得以简化 (2)实施调查便利,节省费用
(3)对某些特殊结构的总体却有好的估计效果 (4)抽样误差较大(可通过增大样本量的方法
弥补抽样精度的损失)。
4.1.3 群的划分
大致可分为两类 1. 根据行政或地域形成的群体 2. 调查人员人为确定的
分群的原则可用方差分析原理说明: 群内差异尽可能大,群间差异尽可能小
4.1.4 群的规模
❖ 群的规模大,估计的精度差但费用省; ❖ 群的规模小,估计的精度可以提高但费用增
总体均值估计为 y
y n
i1 i
M n i 1 i
这里辅助变量不是Xi而是群规模Mi
总体总量估计为
Yˆ M0 y M0
y n
i1 i
M n
i 1 i
估计量的方差分别是
N
N
V (y) 1 f
(Yi
i 1
YMi )2
1
f
M
2 i
(Yi
Y
)2
i 1
nM 2 N 1
nM 2
N 1
N
V (Yˆ)
deff V ( y) 1 (M 1)
Vsrs ( y)
整群抽样的估计效率,与群内相关系数 的关系密切。
当 1 时,deff=M
当 0时,deff=1
当 为负时,deff<1
群内方差为0 群内方差与总体方差相等
群间方差为0
的取值范围是
1 M 1
,1
群内相关系数也可由样本统计量 sw2 , sb2 估计
M02V ( y)
N 2M 2V ( y)
N 2 (1 n
总和平均,求得群总和均值 y ,再除以
N
群平均规模
Mi
M i1
N
估计公式为:
y
n i 1
Mi yi nM
1 nM
n
yi
i 1
y M
yN MN
Yˆ M0
若M 未知,可用样本群平均规模
代替
n
Mi
m n
总体总值Y的估计为 Yˆ M0 y
总量估计的另一公式为
Yˆ
N n
n i 1
yi
估计量的方差为