抽样调查第4章分层抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
K i 1
Wi
2
1
ni
fi
ni
1
2
ni
[( yij
j 1
yi ) bi
xij
xi
]2
Vmin
( yLs )
K
Wi 2
i 1
1 fi ni
SY2i
K
Wi 2
i 1
1 fi ni
S
2 Xi
Bi2
组合回归估计
组合回归估计
yLC yst b( X xst )
若b是事先指定的常数, yLC是Y的无偏估计,其均方偏差为
V ( yLC)
K i 1
Wi
2
1
ni
fi
(SY2i
b
2
S
2 Xi
2biSYiSXi )
取b BC
K
Wi 2
i 1
1 fi ni
S XYi
可得上述均方偏差的最小值为
i 1
1 ni
(1
fi )si2
估 值 法(一)
系2 当各层独立抽取的都是简单随机样本,且各层
的样本额ni
足够大时,用比估值法时, K
yRS Wiri X i
i 1
是Y的近似无偏估计, 其均方偏差近似为
V ( yRS )
K i1
Wi
2
1
ni
fi
1 Ni 1
Ni j 1
适当分层可提高参数估计的精度
分层抽样的提法
分层抽样的问题
如何分层 如何确定各层样本量 如何估值
记号
K
K
Y11, , Y1N1 y11, , y1n1
Ni N
ni n
Y21,
YK1,
, ,
Y2 N2
YKN K
例1 调查某地区居民的奶制品消费支出,以居民户为 抽样单元.根据经济收入水平将居民划分为4层,每层抽 取样本量为10的简单随机样本,调查数据如下表,试估 计该地区居民奶制品的月消费总支出及其置信度为 95%的置信区间.
居民
层 总户
数
1
样本户奶制品月消费支出yij(元) 2 3 4 5 6 7 8 9 10
fi
(s
2 yi
rC2sx2i
2rC sxyi )
例3续:给出Y的组合比估计量,估计其精度,与 分别比估计进行比较
组合比估计
分别比估计与组合比估计的比较
V ( yRC ) V ( yRS )
K i 1
Wi
2
1
ni
f
i
(R2
Ri2
)S
2 Xi
2(R
Ri
)i SYi S Xi
估 值 法(一)
例3(续) 已知某公司一般职员及高级管理人员刚进 入公司时的工资总额分别为5523965元、2541660元, 欲通过抽样调查估计当前该公司职员的工资总额Y。 抽样按照一般职员与高管层进行分层随机抽取。一般 职员共390人,抽取15人;高管层共84人,抽取10名。 调查数据如表。
给出Y的分别回归估计量、联合回归估计以及 差估计,同时估计其精度。
估 值 法(一)
例2 对某地区的居民拥有家庭电脑的情况进行调查, 以居民为抽样单位,根据收入水平将居民户划分为4 层,每层按简单随机抽样抽取10户。调查数据如表。
估计该地区居民拥有家庭电脑的比例及抽样标 准误。
估 值 法(一)
例3 已知某公司一般职员及高级管理人员刚进入公司 时的工资总额分别为5523965元、2541660元,欲通过 抽样调查估计当前该公司职员的工资总额Y。抽样按 照一般职员与高管层进行分层随机抽取。一般职员共 390人,抽取15人;高管层共84人,抽取10名。调查 数据如表。
给出Y的分别比估计量,估计其精度
估 值 法(一)
练习1 为调查某地区住户的平均家庭成员数,将该地 去分为城市和乡村2层,每层按照简单随机抽样抽取 10户。调查数据如表。
估计该地区住户的平均家庭成员数及其95%的 置信区间。
•组合比估计 •组合回归估计
组合比估计 (Ratio combined)
按比例分配 (proportional allocation)
ni
n
Ni N
,i
1,2,,
K
yst
K
Wi yi
i 1
1 n
K i 1
ni
yij
j 1
若总体总值或均值的一个无偏估计量可以表示成 样本总值或均值的常数倍,这种估计量称为自加 权估计量
适用于Ni已知而其他信息很少的情形
K
K
(N) (Ni) N Ni
i 1
i 1
抽样:从每层抽取一个样本构成总的样本
K
yi1, yi2 ,, yini , i 1,2,, K n ni
i 1
采用分层抽样的理由
可同时对子总体进行参数估计 便于组织实施,可根据各层特点采用不同抽样方式
可使样本在总体中分布均匀,从而具有更好代表性
组合比估计的含义
有辅助变量X用于估值分析的,先分别对各层进 行简单估计,再用比估值法获得目标指标量的估计
K
yst Wi yi i 1
K
xst Wi xi i 1
yRC
yst xst
X
rC X
组合比估计只需知道总体的X或X ,无需知道每层的 X i或X i
组合比估计
y21,
yK1,
, ,
y2n2
yKnK
i 1
Wi
Ni N
i 1
wi
ni n
fi
ni Ni
Ni
Yi Yij
j 1
Yi Yi / Ni
1 ni
K Ni
yi ni
yij
j 1
Y
Yij
i1 j1
si2
1 ni 1
§4.1 估值法(一)
§4.2 估值法(二)—— 组合比估计和回归估计
§4.3 样本量的分配 §4.4 与简单随机抽样之比较 §4.5 如何适当分层 §4.6 后分层估计和定额抽样
•分层抽样的提法 •估值法(一)
分层抽样的提法 (Stratified sampling)
分层抽样的步骤
分层:将总体( N )分成互不相交的K个子总体
奈曼(Neyman)最优分配
定理1
分层抽样中, n
K i 1
ni固定, 使V ( yst )
K
Wi 2
i 1
1 fi ni
Si2
达到最小的样本量分配为ni n
Wi Si
K
,i 1,2,, K
WjS j
j 1
Vmin ( yst )
1 n
K i 1
K
Wi 2
i 1
1 fi ni
S
2 Xi
Vmin ( yLC)
K
Wi 2
i 1
1 fi ni
SY2i
K i 1
Wi
2
1
ni
fi
S
2 Xi
BC2
组合回归估计
实践中以bC
K
Wi 2
i 1
1 fi ni
sxyi
K
Wi 2
i 1
1 fi ni
sx2i
Y
)
O
1 n
(2)E( yRC
Y
)2
E( yst
Rxst )2
O
1 n3/ 2
O
1 n3/ 2
K i1
Wi
2
1
ni
fi
(SY2i
R2
S
2 Xi
2RiSYiSXi )
(3)v( yRC )
K i 1
Wi
2
1
ni
ni j 1
( yij
yi )2
Y
Y N
K i 1
NiYi N
K
WiYi
i 1
估 值 法(一)
定理4.1.1 如果分层抽样样本是从每一层独立抽取的, 且每一层Yi有无偏估计Yˆi ,则估计量
Yˆst K WiYˆi i 1
是Y的无偏估计, 其均方偏差为
V (Yˆst ) K Wi2V (Yˆi ) i 1
代替BC,有
V ( yLC)
K
Wi 2
i1
1
ni
fi(SY2i
2BC i SXiSYi
BC2
S
2 Xi
)
v( yLC)
K i 1
Wi
2
1
ni
f
i
1 ni 1
ni j 1
( yij yi ) bC (xij xi ) 2
组合回归估计
分别回归估计与组合回归估计的比较
Wi Si
2
1 N
K
Wi Si2
i1
实践中可用查往法、预查法或类推法获得Si的近似值
实践中因Si采用估计值带来的影响(N n时)为
V Vmin 1 K (ni ni )2
Vmin
n i1 ni
考虑费用的最优分配
K
C C0 niCi i 1
C0是基本调查费用, Ci 是第i层调查一个样本单元的费用
1 200 10 40 0 110 15 10 40 80 90 0
2 400 50 130 60 80 100 55 160 85 160 170
3 750 180 260 110 0 140 60 200 180 300 220
4 1500 50 35 15 0 20 30 25 10 30 25
估值定理
定理4.2.1 对分层抽样的组合比估计,有
| E( yRC Y ) | V (xst )
V ( yRC )
|X|
其中V ( yRC ),V (xst )分别是估计量yRC,xst的均方偏差.
组合比估计
当分层抽样的样本分配合理,且xst 0(不依赖与n)时
(1)E(
yRC
•等额样本量 •按比例分配 •奈曼最优分配 •考虑费用的最优分配
等额样本量
各层的样本量相等
ni
n K
,i
1,2,, K
特点:实施方便,便于管理
例1 对各乡收入数据,采用分层抽样,各层采用简单 随机抽样,计划抽取8个乡,按照下列样本量分配方 式,确定各层的样本量
(1)等额分配 (2)按比例分配 (3)Neyman最优分配
定理2 分层抽样中,固定费用C使V ( yst )最小,或固定 V ( yst )使C最小的样本量分配有
ni
Wi Si Ci
,i
1,2,,
K
例 某市有甲、乙两个地区,现要进行家庭收入的调 查。令n=500,已知甲地区共有20000户居民, 乙地区共有50000户居民;甲地区和乙地区居民 收入标准差估计分别为s1=2500,s2=2000;同时 对甲地和乙地每户的平均抽样费用之比为2:3,请 分别计算出甲地和乙地进行比例分配、一般最优 分配(考虑费用因素)以及奈曼最优分配的样本 量。
估 值 法(一)
系1 当各层独立抽取的都是简单随机样本,且每层
的Yi用简单估值时, 则估计量
K
yst Wi yi i 1
是Y的无偏估计, 其均方偏差为
V ( yst )
K
Wi 2
i 1
1 ni
(1
fi )Si2
V ( yst )的一个无偏估计为
v( yst )
K
Wi 2
分别回归估计
分别回归估计 K yLs Wi [ yi bi ( X i xi )] i 1 若b是事先指定的常数, yLS是Y的无偏估计,其均方偏差为
V ( yLs )
K i 1
Wi 2
1
ni
f
i
(SY2i
bi
2
S
2 Xi
2bi i SYi S Xi )
v(yLs )
(1)由于分别估计(分别比或者分别回归估计)要求各层的样 本量都比较大,所以当某些层的样本量不够大时,建议采用联合估 计。 (2)当回归系数需要由样本进行估计时,回归估计是有偏的, 尤其当样本量较小的时候,采取联合比估计更好。 (3)如果各层的样本量都比较大,每层的比估计或回归估计有 效,此时用分别比估计,方差更小。 (4)如果各层的样本量不大,各层的Ri差异较小,采用联合估计。 (5)如果各层的Ri之间的差别不是太大,而且并不是每层的样本 量都相当大,采用联合估计。 (6)如果各层的回归系数都接近于1,则可采用差估计。
K i1
Wi
2
1
ni
fi
(R
Ri
)2
S
2 Xi
2(R
Ri
)(i SYiSXi
Ri
S
2 Xi
)
由于比估计适合的场合( i SYi
S Xi
Ri
S
2 Xi
)通常比较小,上
式一般大于零,分别比估计通常比组合比估计更精确.
仅当层数较多,而各层只有较小的样本量时,才推荐使
用组合比估计.
(Yij
Ri
X ij
)2
K
Wi 2
i 1
1 fi ni
S2 Yi
Ri2
S
2 X
i
2Ri i SYi S Xi
V ( yRS )的一个近似无偏估计为
v( yRS )
K i1
Wi
2
1
ni
fi
1 ni 1
ni
( yij
j 1
ri xij )2
估 值 法(一)
Vmin ( yLC) Vmin
( yLS)
KFra Baidu bibliotek
Wi 2
i 1
1 fi ni
S
2 Xi
(Bi
BC )2
除非各层Bi相同,否则最佳选取系数的分别回归估计优于 组合回归估计
仅当层数较多,而各层只有较小的样本量时,才推荐使 用组合回归估计.
比估计与回归估计小结
当Y与X高度相关时,采用比估计和回归估计都 是有效的。在选择估计方法时,有以下原则: