抽样技术课件资料讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、目标总体与抽样总体 1. 目标总体 2. 抽样总体 3. 抽样框
良好抽样框的标志
三、概率抽样与非概率抽样
1. 概率抽样
特点与作用
2. 非概率抽样
(1)方便选样 (2)目的选样 (3)自愿样本 (4)配额选样
特点
四、 等概抽样与不等概抽样
1. 等概抽样 2. 不等概抽样
五、抽样误差与非抽样误差
抽样技术课件
6. 数据审核与插补 7. 数据估计(包括权数确定,计算置信区间) 8. 调查结果表述(调查报告)
抽样设计中涉及一些概念
一、总体与样本 1. 总体 2. 样本
样本:集合的概念(与总体对应)
样本单元:样本中的基础元素(与总体单元对应)
初级单元,二级单元,……最终单元
样本量:样本单元的数量(与总体规模对应)
S
2 h
1 Nh 1
Nh
( Y hi
i1
Yh)2
若采用比 ,即 n 例 hn抽 .N Nh,样 将此代入前式
则:V(yst)1nf WhSh2
若各层方差相同,即
Sh2
S
2 w
则V
(
yst
)
1 n
f
S
2 w
回到简单随机抽样,分层没有作用。
总量估计:
YˆstNyst
V(Yˆst)N2V(yst) Nh(Nhnh)Snhh2
两步抽样 第一步:先抽n1个单位用来估计S2,进而确定n 第二步:在抽其余的n-n1个单位
第三章 分层抽样(Stratified Sampling)
一. 基本问题
什么是分层随机抽样 ?
NN 1N 2N L
nn1n2nl
作用:可以对各层的参数进行估计,有助于提高估计精度。
应用条件:各层差异较大, 有进行分层的辅助信息。
N1
N2
N
S
2 1
S
2 2
S2
200,000 800,000 1,000,000 4,000,000 1,000,000 1,800,000
n1200 有几种分配方案
第一种 n110,n021100 第二种 n124,n02960
第三种 n140,n02800 第四种 简单随机抽样
四种抽样方案各自方差:
1333
方案三
V(yst) 1200
方案四
V(yst)118200000105000
设计效果 V(ˆ) 1200
DeffVsr(sˆ)15000.8
Deff的作用: (1)评价抽样设计的一个依据 (2)经验数据的恰当应用。如多阶段抽样的
Deff大约在2~2.5之间。 n= n’(deff) n’为简单随机抽样所需样本量。
100%
精 95% .………….. 度
…….
60%
20%
40%
费用
第二章 简单随机抽样
Simple Random Sampling (SRS) With replacement wr
SRS Without replacement wor
现实中通常以wor为主体。 当总体规模 N 很大时,二者没有什么区别,但wr样本单元 之间独立,构造估计量要方便一些。
h 1
i
Wi Si Wi Si
n ( Wi Si )2
V 1
N
Wi Si2
在 W i 1 条件下, ( W iSi)2 W iSi2
故内曼分配样本量小于比例分配样本量
• 在最优分配条件下
由
ni
n
NiSi Ci
NiSi
Ci
代入到 V(yst)N 12 L Ni(Ni ni)Snii2 中
1 f nX 2
(
s
2 y
2 Rˆ s yx
Rˆ
2
s
2 x
)
三. 估计量及性质
在简单随机抽样条件下的估计量
1、比率的估计
总体比率: 估计量:
RY X
Rˆ y x
N
Yi
i1 N Xi i1
n
yi
i1 n xi i1
Y
2.总体均值 Y 的估计
n
y R
y x
X
i1 n
Y
yi xi
X
YˆR
y x
X
y x
X
NyR
Rˆ y x
V
(
Rˆ )
1 nX
f
2
(Yi RXi )2 N 1
V (Rˆ )的估计为
R
Y X
N
Yi
i1
N
Xi
i1
v(Rˆ )
1 X2
1 1 f X2 n
1 f n
1 n 1
1n n 1
n
( yi2
( yi Rˆ xi )2 2 Rˆ yi xi Rˆ 2 xi2 )
L
比例估计: Pˆst W hPh
V (Pˆst
)
1 N2
Nh2 (Nh nh ). phqh
Nh 1
nh
当 N h 很大,N h -1 Nh时
V(P ˆst) Wh2nphhqh(1fh)
若估计具有某特征的单位总数A
L
Aˆst N.Pˆst NhPh
V(Aˆst)
Nh (Nh nh ) nh 1
295 252 238 215 1000
312 270 218 200 1000
2.Chatterjee(查特吉法)
n k ' 2 jh
nh n l
j
n k ' 2 jh
h
j
最优分配为
n
' jh
n 考虑实际分配 h 对偏离 n ' jh , 会引起方差增量,取nh 使
方差增量的平均值为最小。
一.基本概念
1. 简单随机抽样概念: 属于等概率抽样
2. WOR定义 样本组合数:
(
N n
)=
N! n!( N n)!
每个样本被抽中的概率:
P(S)=
1
(
N n
)
每个单元被选入样本的概率
P(i)=
(
1 1
)(
N 1 n 1
)
(
N n
)
=
n N
二 基本公式
Mean
Y 1 N
N
Yi
y1 n
1. 最优分配平均法
选K个指标,对每个指标j
计算n
' jh
nh
1 K
K
n
' jh
h=1,2…L
例如,某项调查分为4层,有3个关键指标,样本量1000, 数据如下:
分层
内曼分配结果
指标 1 指标 2 指标 3
平均值
1 2 3 4 合计
330 263 217 190 1000
311 296 199 194 1000
本质上仍是一种平均方法,处理结果与平均法相差甚微。
层
平均分配
n
' jh
n
' jh
2
查特吉法
nh
1
312
5 4 0 .9 6 7 7
312
2
270
4 6 9 .3 4 9 6
271
3
218
3 7 8 .5 9 4 8
218
4
200
3 4 6 .3 5 3 9
199
合计
1 0 0 0 1 7 3 5 .2 6 6 0 1 0 0 0
phqh
如估计不同年龄组智力残疾儿童的人数
三.各层中样本单位数的分配
1. 不同分配方式
n300
层 Wi Si 常 数 分 配 1 0.2 20 100
与
S
2 i
成
正
比
49
2 0.3 30 100
110
与Wi成 正 比
60
90
3 0.5 34 100
141
150
n
300
300
300
内曼分配
40 90 170
案例分析
第三章 比率估计和回归估计
第一节 比率估计
一、基本问题 1. 什么是比率估计 不是抽样方式,而是估计方法 2. 作用 目标量本身就是比率 利用辅助变量提高估计效率 3. 应用条件 有相应辅助资料 目标变量与辅助变量存在相关关系 大样本
二. 比率估计量
在srs条件下
yR
y x
X
y x
X
proportion
1
Yi
0
如果单位 i 具备某特征 如果单位 i 不具备某特征
P
A N
1 N
N
Yi
Y(总体 )
N
其中 Y i A
Pˆ a y n
由于 S 2 n pq n 1
Var ( Pˆ ) (1 f ) 1 n pq (1 f ) pq
n n 1
n 1
Sample Size
解得
或
n
NiSi
Ci
NiSi Ci
N2V NiSi2
n
WiSi
Ci
WiSi Ci
V 1 N
WiSi2
• 在给定费用 C条件下
(CC0)
n
NiSi Ci
(NiSi Ci )
比例估计下样本量的确定
n
Ni2piqi i
N2V(pst) Nipiqi
五. 分层抽样的效率
i1
3、总体总量的估计
n
YˆR
y x
X
i 1 n
yi xi
X
NyR
i 1
VR ˆ 1 n Xf2
ni
n
NiSi
Ci
n
NiSi
Ci
WiSi
Ci
WiSi
C
i
• 分配样本量的准则 • 实际运用中的考虑
比例分配,内曼分配较多使用
四. 关于样本量的确定
1. 一般公式
由 V(yst)N 12
令, i
ni n
L
ni
Ni(Ni ni)Snii2
ni 代入上式
n
Ni2 Si2
分层抽样: V (ys)t W i2S i2n i
简单抽样: V(y)S2 n
省略 (1 f )
方案一
V (y s)t 0 .2 2(400 )10 0 0 0 .8 0 2( 0 10 00 )1010 2182
方案二
V (ys)t 0 .2 2(400 )20 40 0 .8 0 20 (10 00 )90600
300
V (y)
3.86
3.11
3.09
3.00
1. 常数分配,实际中采用不多;
2.
与S
2 i
成正比;
3. 与W i 成正比,按比例分配,常采用
ni
n Ni N
n Wi
4. 内曼分配
ni n
NiSi NiSi
n
WiSi WiSi
最优分配
分配样本量时考虑费用因素
费用函数CC0 niCi
式中C,0 为抽样固定费用 (1)当方差一定时使C 最小 (2)当C 一定时使方差最小
八、 ni Ni 的情况
例题
企业规模
Ni
Si
NiSi
ni
小企业
10,000
0.8
8000
200
中企业
1,000
8
8000
200
大企业
100
80
8000
200
合计
11,100
24000
600
调整后 n310 ,n20 25 ,n10 250
目录抽样(List Sampling)的含义。
九. 多指标样本量的分配 理论上的研究
1. 抽样误差
• 可以计算 • 可以控制
2. 非抽样误差
(1)抽样框误差 (2)无回答误差 (3)计量误差
六. 有关方差的概念
总体方差: S (YY)2
N1
样本方差: s (yy)2 n1
抽样方差(估计量方差) V(y) (1 f ) S2 n
抽样方差估计
s2 v(y)(1 f )
n
七、精度与费用
3.Yates(耶茨法)
给所考虑的每个指标,按重要性赋予权数 a
j
,同时考虑层权W
h
,方差 S
2 h
和调查费用C h ,经过推导可得出如下分配公式
n h
nW h Ah / C h (W h A h / C h )
其中
A h
a
jS
2 jh
该法的思路是将每个指标估计量的方差看作为损失,考虑总的损 失函数(包括方差和费用)为最小。
六. 层的构造
1. 分几层
抽 样 方 差
层数 L=6
2. 层的分点 (1)建立联立方程,求方差极小化的解 (2)若总体均匀分布,可等距分层
(3)累积 f 法
ID 职工人数 f ( y)
1
1-10
10,000
2 11-20 2,500 50
3 21-30
┇
┇
1,600 ┇
f ( y) 累积 f ( y)
i
(1)
N2V(yst) NiSi2
因为:2 V(yst)
故
2 V ( yst ) 4
2. 不同条件下一般公式的运用
• 在比例分配条件下
将
i
Ni N
代入(1)式, 得
n
Ni Si2
或
NV 1
N
NiSi2
n
Wi Si2
V 1
N
Wi Si2
• 在内曼分配条件下
wh
WhSh
L
WhSh
n n0 1 n0 N
n0为重复抽样条件下的样本量
n0
t2S 2 2
n0
( ts)2 rY
(tc)2 r
n
当N很大时,
0
N
0, n n0,wr 与 wor 几乎没有区别。
三. 有关问题 1 样本的抽选
* 随机数字表 * 计算机抽取
2 总体方差的预先估计
计算样本量需要总体方差
历史资料 预调查 两步抽样
100
100
150
40
190
┇ቤተ መጻሕፍቲ ባይዱ
┇
层距 f (y) L
七. 事后分层 什么是事后分层
抽取 n,调查后得到 n i 和 y i , 又已知 W i
估计
L
y pst W i y i
当 n充分大时
E(ypst) Y
故
E [ V (y p)s t ]1 n f W iS i2 n 1 2 ( 1 W i)S i2 V (y p) s t1 n f W iS i2 n 1 2 ( 1 W i)S i2
分层原则 • 层内方差尽可能小 • 层间方差尽可能大
应用特点:在层内可采用不同的抽样方法。
二 分层抽样基本公式: 均值:
y st
L
W hyh
1 N
N hyh
Wh
Nh N
V ( y st )
W
2 h
S
2 h
(1
nh
fh )
L
W
2 h
S
2 h
nh
L
W
h
S
2 h
N
式中
:
fh
nh Nh
,
n
yi
1 n
N
i
yi
i
=
1
0
i s i s
性质:
E(y) Y
V a(ry) (1 f )S2
n
f n (Sampling fraction 抽样比)
N
(1-f):finite population corrections——fpc
有限总体校正系数
Total
YˆNy Va(Yrˆ)Va(N ry)N2Va(yr)
良好抽样框的标志
三、概率抽样与非概率抽样
1. 概率抽样
特点与作用
2. 非概率抽样
(1)方便选样 (2)目的选样 (3)自愿样本 (4)配额选样
特点
四、 等概抽样与不等概抽样
1. 等概抽样 2. 不等概抽样
五、抽样误差与非抽样误差
抽样技术课件
6. 数据审核与插补 7. 数据估计(包括权数确定,计算置信区间) 8. 调查结果表述(调查报告)
抽样设计中涉及一些概念
一、总体与样本 1. 总体 2. 样本
样本:集合的概念(与总体对应)
样本单元:样本中的基础元素(与总体单元对应)
初级单元,二级单元,……最终单元
样本量:样本单元的数量(与总体规模对应)
S
2 h
1 Nh 1
Nh
( Y hi
i1
Yh)2
若采用比 ,即 n 例 hn抽 .N Nh,样 将此代入前式
则:V(yst)1nf WhSh2
若各层方差相同,即
Sh2
S
2 w
则V
(
yst
)
1 n
f
S
2 w
回到简单随机抽样,分层没有作用。
总量估计:
YˆstNyst
V(Yˆst)N2V(yst) Nh(Nhnh)Snhh2
两步抽样 第一步:先抽n1个单位用来估计S2,进而确定n 第二步:在抽其余的n-n1个单位
第三章 分层抽样(Stratified Sampling)
一. 基本问题
什么是分层随机抽样 ?
NN 1N 2N L
nn1n2nl
作用:可以对各层的参数进行估计,有助于提高估计精度。
应用条件:各层差异较大, 有进行分层的辅助信息。
N1
N2
N
S
2 1
S
2 2
S2
200,000 800,000 1,000,000 4,000,000 1,000,000 1,800,000
n1200 有几种分配方案
第一种 n110,n021100 第二种 n124,n02960
第三种 n140,n02800 第四种 简单随机抽样
四种抽样方案各自方差:
1333
方案三
V(yst) 1200
方案四
V(yst)118200000105000
设计效果 V(ˆ) 1200
DeffVsr(sˆ)15000.8
Deff的作用: (1)评价抽样设计的一个依据 (2)经验数据的恰当应用。如多阶段抽样的
Deff大约在2~2.5之间。 n= n’(deff) n’为简单随机抽样所需样本量。
100%
精 95% .………….. 度
…….
60%
20%
40%
费用
第二章 简单随机抽样
Simple Random Sampling (SRS) With replacement wr
SRS Without replacement wor
现实中通常以wor为主体。 当总体规模 N 很大时,二者没有什么区别,但wr样本单元 之间独立,构造估计量要方便一些。
h 1
i
Wi Si Wi Si
n ( Wi Si )2
V 1
N
Wi Si2
在 W i 1 条件下, ( W iSi)2 W iSi2
故内曼分配样本量小于比例分配样本量
• 在最优分配条件下
由
ni
n
NiSi Ci
NiSi
Ci
代入到 V(yst)N 12 L Ni(Ni ni)Snii2 中
1 f nX 2
(
s
2 y
2 Rˆ s yx
Rˆ
2
s
2 x
)
三. 估计量及性质
在简单随机抽样条件下的估计量
1、比率的估计
总体比率: 估计量:
RY X
Rˆ y x
N
Yi
i1 N Xi i1
n
yi
i1 n xi i1
Y
2.总体均值 Y 的估计
n
y R
y x
X
i1 n
Y
yi xi
X
YˆR
y x
X
y x
X
NyR
Rˆ y x
V
(
Rˆ )
1 nX
f
2
(Yi RXi )2 N 1
V (Rˆ )的估计为
R
Y X
N
Yi
i1
N
Xi
i1
v(Rˆ )
1 X2
1 1 f X2 n
1 f n
1 n 1
1n n 1
n
( yi2
( yi Rˆ xi )2 2 Rˆ yi xi Rˆ 2 xi2 )
L
比例估计: Pˆst W hPh
V (Pˆst
)
1 N2
Nh2 (Nh nh ). phqh
Nh 1
nh
当 N h 很大,N h -1 Nh时
V(P ˆst) Wh2nphhqh(1fh)
若估计具有某特征的单位总数A
L
Aˆst N.Pˆst NhPh
V(Aˆst)
Nh (Nh nh ) nh 1
295 252 238 215 1000
312 270 218 200 1000
2.Chatterjee(查特吉法)
n k ' 2 jh
nh n l
j
n k ' 2 jh
h
j
最优分配为
n
' jh
n 考虑实际分配 h 对偏离 n ' jh , 会引起方差增量,取nh 使
方差增量的平均值为最小。
一.基本概念
1. 简单随机抽样概念: 属于等概率抽样
2. WOR定义 样本组合数:
(
N n
)=
N! n!( N n)!
每个样本被抽中的概率:
P(S)=
1
(
N n
)
每个单元被选入样本的概率
P(i)=
(
1 1
)(
N 1 n 1
)
(
N n
)
=
n N
二 基本公式
Mean
Y 1 N
N
Yi
y1 n
1. 最优分配平均法
选K个指标,对每个指标j
计算n
' jh
nh
1 K
K
n
' jh
h=1,2…L
例如,某项调查分为4层,有3个关键指标,样本量1000, 数据如下:
分层
内曼分配结果
指标 1 指标 2 指标 3
平均值
1 2 3 4 合计
330 263 217 190 1000
311 296 199 194 1000
本质上仍是一种平均方法,处理结果与平均法相差甚微。
层
平均分配
n
' jh
n
' jh
2
查特吉法
nh
1
312
5 4 0 .9 6 7 7
312
2
270
4 6 9 .3 4 9 6
271
3
218
3 7 8 .5 9 4 8
218
4
200
3 4 6 .3 5 3 9
199
合计
1 0 0 0 1 7 3 5 .2 6 6 0 1 0 0 0
phqh
如估计不同年龄组智力残疾儿童的人数
三.各层中样本单位数的分配
1. 不同分配方式
n300
层 Wi Si 常 数 分 配 1 0.2 20 100
与
S
2 i
成
正
比
49
2 0.3 30 100
110
与Wi成 正 比
60
90
3 0.5 34 100
141
150
n
300
300
300
内曼分配
40 90 170
案例分析
第三章 比率估计和回归估计
第一节 比率估计
一、基本问题 1. 什么是比率估计 不是抽样方式,而是估计方法 2. 作用 目标量本身就是比率 利用辅助变量提高估计效率 3. 应用条件 有相应辅助资料 目标变量与辅助变量存在相关关系 大样本
二. 比率估计量
在srs条件下
yR
y x
X
y x
X
proportion
1
Yi
0
如果单位 i 具备某特征 如果单位 i 不具备某特征
P
A N
1 N
N
Yi
Y(总体 )
N
其中 Y i A
Pˆ a y n
由于 S 2 n pq n 1
Var ( Pˆ ) (1 f ) 1 n pq (1 f ) pq
n n 1
n 1
Sample Size
解得
或
n
NiSi
Ci
NiSi Ci
N2V NiSi2
n
WiSi
Ci
WiSi Ci
V 1 N
WiSi2
• 在给定费用 C条件下
(CC0)
n
NiSi Ci
(NiSi Ci )
比例估计下样本量的确定
n
Ni2piqi i
N2V(pst) Nipiqi
五. 分层抽样的效率
i1
3、总体总量的估计
n
YˆR
y x
X
i 1 n
yi xi
X
NyR
i 1
VR ˆ 1 n Xf2
ni
n
NiSi
Ci
n
NiSi
Ci
WiSi
Ci
WiSi
C
i
• 分配样本量的准则 • 实际运用中的考虑
比例分配,内曼分配较多使用
四. 关于样本量的确定
1. 一般公式
由 V(yst)N 12
令, i
ni n
L
ni
Ni(Ni ni)Snii2
ni 代入上式
n
Ni2 Si2
分层抽样: V (ys)t W i2S i2n i
简单抽样: V(y)S2 n
省略 (1 f )
方案一
V (y s)t 0 .2 2(400 )10 0 0 0 .8 0 2( 0 10 00 )1010 2182
方案二
V (ys)t 0 .2 2(400 )20 40 0 .8 0 20 (10 00 )90600
300
V (y)
3.86
3.11
3.09
3.00
1. 常数分配,实际中采用不多;
2.
与S
2 i
成正比;
3. 与W i 成正比,按比例分配,常采用
ni
n Ni N
n Wi
4. 内曼分配
ni n
NiSi NiSi
n
WiSi WiSi
最优分配
分配样本量时考虑费用因素
费用函数CC0 niCi
式中C,0 为抽样固定费用 (1)当方差一定时使C 最小 (2)当C 一定时使方差最小
八、 ni Ni 的情况
例题
企业规模
Ni
Si
NiSi
ni
小企业
10,000
0.8
8000
200
中企业
1,000
8
8000
200
大企业
100
80
8000
200
合计
11,100
24000
600
调整后 n310 ,n20 25 ,n10 250
目录抽样(List Sampling)的含义。
九. 多指标样本量的分配 理论上的研究
1. 抽样误差
• 可以计算 • 可以控制
2. 非抽样误差
(1)抽样框误差 (2)无回答误差 (3)计量误差
六. 有关方差的概念
总体方差: S (YY)2
N1
样本方差: s (yy)2 n1
抽样方差(估计量方差) V(y) (1 f ) S2 n
抽样方差估计
s2 v(y)(1 f )
n
七、精度与费用
3.Yates(耶茨法)
给所考虑的每个指标,按重要性赋予权数 a
j
,同时考虑层权W
h
,方差 S
2 h
和调查费用C h ,经过推导可得出如下分配公式
n h
nW h Ah / C h (W h A h / C h )
其中
A h
a
jS
2 jh
该法的思路是将每个指标估计量的方差看作为损失,考虑总的损 失函数(包括方差和费用)为最小。
六. 层的构造
1. 分几层
抽 样 方 差
层数 L=6
2. 层的分点 (1)建立联立方程,求方差极小化的解 (2)若总体均匀分布,可等距分层
(3)累积 f 法
ID 职工人数 f ( y)
1
1-10
10,000
2 11-20 2,500 50
3 21-30
┇
┇
1,600 ┇
f ( y) 累积 f ( y)
i
(1)
N2V(yst) NiSi2
因为:2 V(yst)
故
2 V ( yst ) 4
2. 不同条件下一般公式的运用
• 在比例分配条件下
将
i
Ni N
代入(1)式, 得
n
Ni Si2
或
NV 1
N
NiSi2
n
Wi Si2
V 1
N
Wi Si2
• 在内曼分配条件下
wh
WhSh
L
WhSh
n n0 1 n0 N
n0为重复抽样条件下的样本量
n0
t2S 2 2
n0
( ts)2 rY
(tc)2 r
n
当N很大时,
0
N
0, n n0,wr 与 wor 几乎没有区别。
三. 有关问题 1 样本的抽选
* 随机数字表 * 计算机抽取
2 总体方差的预先估计
计算样本量需要总体方差
历史资料 预调查 两步抽样
100
100
150
40
190
┇ቤተ መጻሕፍቲ ባይዱ
┇
层距 f (y) L
七. 事后分层 什么是事后分层
抽取 n,调查后得到 n i 和 y i , 又已知 W i
估计
L
y pst W i y i
当 n充分大时
E(ypst) Y
故
E [ V (y p)s t ]1 n f W iS i2 n 1 2 ( 1 W i)S i2 V (y p) s t1 n f W iS i2 n 1 2 ( 1 W i)S i2
分层原则 • 层内方差尽可能小 • 层间方差尽可能大
应用特点:在层内可采用不同的抽样方法。
二 分层抽样基本公式: 均值:
y st
L
W hyh
1 N
N hyh
Wh
Nh N
V ( y st )
W
2 h
S
2 h
(1
nh
fh )
L
W
2 h
S
2 h
nh
L
W
h
S
2 h
N
式中
:
fh
nh Nh
,
n
yi
1 n
N
i
yi
i
=
1
0
i s i s
性质:
E(y) Y
V a(ry) (1 f )S2
n
f n (Sampling fraction 抽样比)
N
(1-f):finite population corrections——fpc
有限总体校正系数
Total
YˆNy Va(Yrˆ)Va(N ry)N2Va(yr)