抽样调查第6章 整群抽样与系统抽样

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基本单元 群(初级单元)
住宅 城市居民 离开的旅客
学生
街区 住宅区 航班
班级
成年村民

土地所有者 分类台帐页
目标量的估计
将整群抽样看作二阶抽样的特例
定理6.1 对简单随机抽样的整群抽样,总体总数Y的估
计有
(1)Y的无偏估计为YˆCSE
(2)YˆCSE的均方偏差为
K k
k i 1
Ni
Yi j
j 1
YˆCP
P
S
2
j 1
也可将整群抽样看作单阶抽样,同样可以得到上述 两个定理
目标量的估计
例1 在一次针对某城市大学生月生活费支出的调查中, 以小组为群进行整群抽样。每个小组有8名大学生, 采用简单随机抽样在510个组中抽取12个小组,全部 96个样本大学生月生活费支出数据如表.试估计该城市 大学生人均月生活费及其95%的置信区间.
C =1
N N 1
S内2 S2
1
S内2 S2
一般有S内2 S 2,所以 C介于0,1之间
群内相关系数方便计算的另一表达式
K Ni
2
K
(Yij Y )
Ni
(Yij Y )2
Hale Waihona Puke Baidui1 j1
C
K
i1 j1
Ni
(Ni 1) (Yij Y )2
i 1
j 1
目标量的估计
例3 某县有33个乡,共726个村,某一年度农作物总种 植面积为30525亩。先采用等概抽样随机抽出10个乡 进行该种作物的产量调查,要求利用无偏估计量和比 率估计量(以群规模为辅助变量,以种植面积为辅助 变量)分别估计全县总产量,并计算估计量的标准差。 数据如表.
i 1
j 1
若群内各单元指标均相等,则C达最大值1
群内相关系数是衡量群内单元同质性的一个指标
整群抽样的设计效应
Ni N0 (i 1,2, , K)时
V (YˆCSE )
K2 k
1
k K
1 K 1
K i 1
N0
Yij
j 1
Y K
2
V (Yˆ)
K 2 1 k 1 K k K K 1 i1
Y
(2
j)
Y (2 j1)
2
v3(YˆSYS)
N2 N0
1
1 K
1 2(N0 1)
N0 j2
Yj
Y ( j1)
2
v2,v3有很广适用范围,特别是v3为许多实际工作者 所采用。
看作分层抽样
例 调查某单位员工档案工资外的收入情况,该单位有 员工660人,备有以出生年月为顺序的花名册。以花 名册作为抽样框,拟抽取30个样本单元,故取K=22作 系统抽样。从1,2,……,22中随机取出一数为R=7, 入样的单元号码为7,29,……,623,645。对花名 册对应号码的员工进行调查,得当月各人收入资料如 表(单位:元),估计每人平均收入及估计量的均方 偏差.
(1)Y的无偏估计为YˆCPPS
1 k
(2)YˆCP
P
的均方偏差为
S
k i 1
1 pi
Ni
Yi j
j 1
V (YˆCPPS)
1 k
K i 1
pi
1 pi
Ni
2
Yij Y
j 1
(3)V (YˆCPPS)的一个无偏估计量为
v(YˆCPPS)
1 k(k 1)
k i 1
1 pi
Ni
Yi j
S 2 S内2时,简单随机抽样优于系统抽样 S 2 S内2时,系统抽样优于简单随机抽样 S 2 S内2时,两者精度相同
系统抽样的效率
与分层抽样的比较
将总体分为N0个层,每层简单随机抽取一个样本单元
Yˆst
N N0
N0
Yii
i 1
V (Yˆst ) K N0
K
(Yji Yi)2
i1 j1
V (YˆCSE )
K2 k
1
k K
1 K 1
K i 1
Ni
Yij
j 1
Y K
2
(3)V (YˆCSE )的一个无偏估计量为
v(YˆCSE )
K2 k
1
k K
1 k 1
k i 1
Ni
Yi j
j 1
YˆCSE K
2
目标量的估计
定理6.2 对有放回PPS整群抽样,总体总数Y的估计有
j 1
(2)V (YˆSYS)
K
K i 1
N0
Yij
j 1
Y K
2
N0N
K i 1
Yi Y
2
由这个思路无法给出其均方偏差的估计量
系统抽样的效率
与简单随机抽样的比较
(N 1)S 2 N0 (K 1)S外2 (N0 1)KS内2 V (YˆSE ) N(K 1)S 2
V (YˆSYS) N0N(K 1)S外2 N (N 1)S 2 N (N K )S内2 V (YˆSYS) V (YˆSE ) N(N K)(S 2 S内2 )
然后对号码1,2,…,K作随机抽样,若i入样,则 K+i,2K+i,…,皆入样,组成一个系统样本
若将同一列个体看做一个群,系统抽样可视为整群抽样
一般假定N=KN0,并且只从1~K中抽选一个样本单元
系统抽样的优点是抽样非常方便
系统抽样的估值法
将系统抽样看作整群抽样抽取一个一级单元,有
(1)YˆSYS K N0 Yj是Y的无偏估计量
V (YˆSYS) K
K
N0
( Yij
N0
Yj)2
i1 j1
j 1
N0
K
K
(Yji
Yi)2
2K
K
N0N0
(Yji
Yi)(Yjl
Yl)
i1 j1
j1 il
K
N0N0
(Yji
Yi)(Yjl
Yl )
0,系统抽样优于分层抽样
j1 il
系统抽样的效率
例 假设总体有表中的30个单元,欲取5个构成系统样 本,与简单随机抽样和分层抽样同样本量的结果进行 比较(两种排列方式).
例2 调查一片荒地上蝗蝻数量,以一平方米为单位。 N=5000,K=500,N0=10,k=20,作简单随机的整群抽样, 估计整块荒地蝗蝻数.数据如表
群内相关系数的概念 整群抽样的设计效应
群内相关系数的概念
群内相关系数
K Ni Ni
(Yij Y )(Yil Y )
i1 jl
C
K
Ni
(Ni 1) (Yij Y )2
N 2(K 2 12
1)
简单随机抽样
V (UˆSE ) 分层抽样
N 2 (N
1)(K 12
1)
V (UˆSt )
NK(K 2 12
1)
此时分层抽样精度最高,系统抽样次之,简单随
机抽样精度最低
与次序有某种周期关系
设个体指标以t为周期(N Mt)
Y1 1,Y2 2, ,Yt t,Yt1 1, ,Y2t t,
当个体指标具有某种特殊结构时,常对取样方法进行 人为调整,有点典型抽样的味道,非完全概率抽样
看作简单随机抽样 看作分层抽样
看作简单随机抽样
将系统抽样看作简单随机抽样,V (YˆSYS)可用
v1(YˆSYS )
N2 N0
1
N0 N
s 2
来估计,其中 s2
1 N0 1
N0 j 1
Yj Y
2
当个体单元并非完全随机排列时这个估计会产生 偏量:群内相关系数小,会高估均方偏差;群内 相关系数大,会低估均方偏差。
看作分层抽样
将两行个体看作一个层,每层有两个样本单元。两 个样本单元构造一个该层的方差估计,再按分层抽样 汇总出一个均方偏差的估计
v2 (YˆSYS)
K 21
1 K
N0 /2 j 1
系统抽样的提法 系统抽样的估值法 系统抽样的效率
系统抽样的提法
选一正整数K,将总体( N )中的N个单元依次排列为
1, 2, , K,
K 1, K 2, , 2K,
2K 1, 2K 2, , 3K,
直至N为止
N不是K整数倍的处理方法
1.N/K较大(≥50)可忽略每
群个体差
2.将个体单元首位衔接循 环取样
此时系统抽样估值的精度与K的选取有很大关系, 应避免K=t 对周期资料选择合适K进行系统抽样,可得到比较 理想的精度 实际呈现精确周期排列的资料是没有的,而具有 一定周期性的资料很多,例如季节资料、月度资 料、星期资料等
个体的次序随机排列
对总体的某种排列次序,系统抽样精度可能优于 简单随机抽样也可能劣于简单随机抽样,但对N个个 体的所有N!种排列而言,系统抽样的平均精度与简单 随机抽样相等
个体指标与其次序有线性关系 个体指标与其次序有某种周期关系 个体的次序随机排列
个体指标与其次序有线性关系
Yi i,i 1,2, , N 设Ui (Yi ) / i
则U
N 1,S2 2
1 N 1
N
(U i
i 1
U )2
(N 1)N 12
系统抽样
Uˆ SYS
N
1 2
N
(N
K
)
V (UˆSYS )
特定场合具有较高精度
因为样本集中,可增大样本量弥补精度上的损失 群内次级单元差异很大反映总体分布时,其精度 不见得低
整群抽样的提法
整群抽样的适用场合
表6.1 可能适合整群抽样的实例
总体
某个城市 某个城市 某机场 某大学 某乡
城市土地 所有者档案
变量
住户特征 某项消费 旅游信息 就业计划 社会态度 税务信息
N0 j 1
Yij Y
2 (K, N较大时)
Deff
V (YˆCSE V (Yˆ)
)
1 (N0 1)C
C较大,N0较大时,整群抽样精度差得多
对第一级为简单随机抽样的二阶抽样有
Deff 1 C (n0 1)
整群抽样的设计效应
实际当各群容量不等时,常用 1
K
K i 1
Ni
N
来估计
0
设计效应
群内相关系数的另一表达式为
§6.1 整群抽样 §6.2 群内相关系数 §6.3 系统抽样
§6.4 个体指标具有特殊结构时的 系统抽样
§6.5 系统抽样估计量方差的估计
整群抽样的提法 目标量的估计
整群抽样的提法
整群抽样的提法与特点
在多阶抽样中,当某一单元被抽中,对该单元 包含的下一级抽样单元不再抽样,而是进行普查 抽样框要求简单 样本相对集中,方便调查
相关文档
最新文档