抽样调查第4章分层抽样

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

K i 1
Wi
2
1
ni
fi
ni
1
2

ni
[( yij
j 1
yi ) bi
xij
xi
]2
Vmin
( yLs )

K
Wi 2
i 1
1 fi ni
SY2i

K
Wi 2
i 1
1 fi ni
S
2 Xi
Bi2
组合回归估计
组合回归估计
yLC yst b( X xst )
若b是事先指定的常数, yLC是Y的无偏估计,其均方偏差为
V ( yLC)

K i 1
Wi
2
1
ni
fi
(SY2i

b
2
S
2 Xi
2biSYiSXi )
取b BC

K
Wi 2
i 1
1 fi ni
S XYi
可得上述均方偏差的最小值为
i 1
1 ni
(1
fi )si2
估值法(一)
系2 当各层独立抽取的都是简单随机样本，且各层
的样本额ni
足够大时，用比估值法时, K
yRS Wiri X i
i 1
是Y的近似无偏估计, 其均方偏差近似为
V ( yRS )
K i1
Wi
2
1
ni
fi
1 Ni 1
Ni j 1
适当分层可提高参数估计的精度
分层抽样的提法
分层抽样的问题
如何分层如何确定各层样本量如何估值
记号
K
K
Y11, , Y1N1 y11, , y1n1
Ni N
ni n
Y21,

YK1,
, ,
Y2 N2
YKN K

例1 调查某地区居民的奶制品消费支出，以居民户为抽样单元.根据经济收入水平将居民划分为4层,每层抽取样本量为10的简单随机样本,调查数据如下表,试估计该地区居民奶制品的月消费总支出及其置信度为 95%的置信区间.
居民
层总户
数
1
样本户奶制品月消费支出yij(元) 2 3 4 5 6 7 8 9 10
fi
(s
2 yi
rC2sx2i
2rC sxyi )
例3续：给出Y的组合比估计量，估计其精度，与分别比估计进行比较
组合比估计
分别比估计与组合比估计的比较
V ( yRC ) V ( yRS )

K i 1
Wi
2
1
ni
f
i
(R2

Ri2
)S
2 Xi

2(R

Ri
)i SYi S Xi
估值法(一)
例3（续）已知某公司一般职员及高级管理人员刚进入公司时的工资总额分别为5523965元、2541660元，欲通过抽样调查估计当前该公司职员的工资总额Y。抽样按照一般职员与高管层进行分层随机抽取。一般职员共390人，抽取15人；高管层共84人，抽取10名。调查数据如表。
给出Y的分别回归估计量、联合回归估计以及差估计，同时估计其精度。
估值法(一)
例2 对某地区的居民拥有家庭电脑的情况进行调查，以居民为抽样单位，根据收入水平将居民户划分为4 层，每层按简单随机抽样抽取10户。调查数据如表。
估计该地区居民拥有家庭电脑的比例及抽样标准误。
估值法(一)
例3 已知某公司一般职员及高级管理人员刚进入公司时的工资总额分别为5523965元、2541660元，欲通过抽样调查估计当前该公司职员的工资总额Y。抽样按照一般职员与高管层进行分层随机抽取。一般职员共 390人，抽取15人；高管层共84人，抽取10名。调查数据如表。
给出Y的分别比估计量，估计其精度
估值法(一)
练习1 为调查某地区住户的平均家庭成员数，将该地去分为城市和乡村2层，每层按照简单随机抽样抽取 10户。调查数据如表。
估计该地区住户的平均家庭成员数及其95%的置信区间。
•组合比估计 •组合回归估计
组合比估计 (Ratio combined)
按比例分配 (proportional allocation)
ni

n
Ni N
,i
1,2,,
K
yst

K
Wi yi
i 1
1 n
K i 1
ni
yij
j 1
若总体总值或均值的一个无偏估计量可以表示成样本总值或均值的常数倍，这种估计量称为自加权估计量
适用于Ni已知而其他信息很少的情形
K
K
(N) (Ni) N Ni
i 1
i 1
抽样：从每层抽取一个样本构成总的样本
K
yi1, yi2 ,, yini , i 1,2,, K n ni
i 1
采用分层抽样的理由
可同时对子总体进行参数估计便于组织实施,可根据各层特点采用不同抽样方式
可使样本在总体中分布均匀,从而具有更好代表性
组合比估计的含义
有辅助变量X用于估值分析的，先分别对各层进行简单估计，再用比估值法获得目标指标量的估计
K
yst Wi yi i 1
K
xst Wi xi i 1
yRC

yst xst
X
rC X
组合比估计只需知道总体的X或X ,无需知道每层的 X i或X i
组合比估计
y21,

yK1,
, ,
y2n2
yKnK
i 1
Wi

Ni N
i 1
wi

ni n
fi

ni Ni
Ni
Yi Yij
j 1
Yi Yi / Ni
1 ni
K Ni
yi ni
yij
j 1
Y
Yij
i1 j1
si2

1 ni 1
§4.1 估值法(一)
§4.2 估值法(二)—— 组合比估计和回归估计
§4.3 样本量的分配 §4.4 与简单随机抽样之比较 §4.5 如何适当分层 §4.6 后分层估计和定额抽样
•分层抽样的提法 •估值法(一)
分层抽样的提法 (Stratified sampling)
分层抽样的步骤
分层：将总体( N )分成互不相交的K个子总体
奈曼(Neyman)最优分配
定理1
分层抽样中, n

K i 1
ni固定, 使V ( yst )

K
Wi 2
i 1
1 fi ni
Si2
达到最小的样本量分配为ni n
Wi Si
K
,i 1,2,, K
WjS j
j 1
Vmin ( yst )
1 n

K i 1
K
Wi 2
i 1
1 fi ni
S
2 Xi
Vmin ( yLC)

K
Wi 2
i 1
1 fi ni
SY2i

K i 1
Wi
2
1
ni
fi
S
2 Xi
BC2

组合回归估计
实践中以bC

K
Wi 2
i 1
1 fi ni
sxyi
K
Wi 2
i 1
1 fi ni
sx2i
Y
)

O
1 n

(2)E( yRC
Y
)2

E( yst

Rxst )2

O
1 n3/ 2

O
1 n3/ 2

K i1
Wi
2
1
ni
fi
(SY2i

R2
S
2 Xi
2RiSYiSXi )
(3)v( yRC )

K i 1
Wi
2
1
ni
ni j 1
( yij

yi )2
Y
Y N

K i 1
NiYi N

K
WiYi
i 1
估值法(一)
定理4.1.1 如果分层抽样样本是从每一层独立抽取的，且每一层Yi有无偏估计Yˆi ,则估计量
Yˆst K WiYˆi i 1
是Y的无偏估计, 其均方偏差为
V (Yˆst ) K Wi2V (Yˆi ) i 1
代替BC，有
V ( yLC)

K
Wi 2
i1
1
ni
fi（SY2i
2BC i SXiSYi

BC2
S
2 Xi
)
v( yLC)
K i 1
Wi
2
1
ni
f
i
1 ni 1
ni j 1
( yij yi ) bC (xij xi ) 2
组合回归估计
分别回归估计与组合回归估计的比较
Wi Si
2

1 N
K
Wi Si2
i1
实践中可用查往法、预查法或类推法获得Si的近似值
实践中因Si采用估计值带来的影响(N n时)为
V Vmin 1 K (ni ni )2
Vmin
n i1 ni
考虑费用的最优分配
K
C C0 niCi i 1
C0是基本调查费用, Ci 是第i层调查一个样本单元的费用
1 200 10 40 0 110 15 10 40 80 90 0
2 400 50 130 60 80 100 55 160 85 160 170
3 750 180 260 110 0 140 60 200 180 300 220
4 1500 50 35 15 0 20 30 25 10 30 25
估值定理
定理4.2.1 对分层抽样的组合比估计,有
| E( yRC Y ) | V (xst )
V ( yRC )
|X|
其中V ( yRC )，V (xst )分别是估计量yRC，xst的均方偏差.
组合比估计
当分层抽样的样本分配合理,且xst 0(不依赖与n)时
(1)E(
yRC
•等额样本量 •按比例分配 •奈曼最优分配 •考虑费用的最优分配
等额样本量
各层的样本量相等
ni

n K
,i
1,2,, K
特点：实施方便，便于管理
例1 对各乡收入数据，采用分层抽样，各层采用简单随机抽样，计划抽取8个乡，按照下列样本量分配方式，确定各层的样本量
(1)等额分配 (2)按比例分配 (3)Neyman最优分配
定理2 分层抽样中,固定费用C使V ( yst )最小，或固定 V ( yst )使C最小的样本量分配有
ni

Wi Si Ci
,i
1,2,,
K
例某市有甲、乙两个地区，现要进行家庭收入的调查。令n=500，已知甲地区共有20000户居民，乙地区共有50000户居民；甲地区和乙地区居民收入标准差估计分别为s1=2500,s2=2000；同时对甲地和乙地每户的平均抽样费用之比为2:3，请分别计算出甲地和乙地进行比例分配、一般最优分配（考虑费用因素）以及奈曼最优分配的样本量。
估值法(一)
系1 当各层独立抽取的都是简单随机样本，且每层
的Yi用简单估值时, 则估计量
K
yst Wi yi i 1
是Y的无偏估计, 其均方偏差为
V ( yst )

K
Wi 2
i 1
1 ni
(1
fi )Si2
V ( yst )的一个无偏估计为
v( yst )

K
Wi 2
分别回归估计
分别回归估计 K yLs Wi [ yi bi ( X i xi )] i 1 若b是事先指定的常数, yLS是Y的无偏估计,其均方偏差为
V ( yLs )
K i 1
Wi 2
1
ni
f
i
(SY2i

bi
2
S
2 Xi
2bi i SYi S Xi )
v(yLs )
（1）由于分别估计（分别比或者分别回归估计）要求各层的样本量都比较大，所以当某些层的样本量不够大时，建议采用联合估计。（2）当回归系数需要由样本进行估计时，回归估计是有偏的，尤其当样本量较小的时候，采取联合比估计更好。（3）如果各层的样本量都比较大，每层的比估计或回归估计有效，此时用分别比估计，方差更小。（4）如果各层的样本量不大，各层的Ri差异较小，采用联合估计。（5）如果各层的Ri之间的差别不是太大，而且并不是每层的样本量都相当大，采用联合估计。（6）如果各层的回归系数都接近于1，则可采用差估计。

K i1
Wi
2
1
ni
fi
(R

Ri
)2
S
2 Xi

2(R

Ri
)(i SYiSXi

Ri
S
2 Xi
)
由于比估计适合的场合( i SYi
S Xi

Ri
S
2 Xi
)通常比较小，上
式一般大于零，分别比估计通常比组合比估计更精确.
仅当层数较多，而各层只有较小的样本量时，才推荐使
用组合比估计.
(Yij

Ri
X ij
)2

K
Wi 2
i 1
1 fi ni
S2 Yi

Ri2
S
2 X
i
2Ri i SYi S Xi
V ( yRS )的一个近似无偏估计为
v( yRS )
K i1
Wi
2
1
ni
fi
1 ni 1
ni
( yij
j 1
ri xij )2
估值法(一)
Vmin ( yLC) Vmin
( yLS)

KFra Baidu bibliotek
Wi 2
i 1
1 fi ni
S
2 Xi
(Bi
BC )2
除非各层Bi相同,否则最佳选取系数的分别回归估计优于组合回归估计
仅当层数较多，而各层只有较小的样本量时，才推荐使用组合回归估计.
比估计与回归估计小结
当Y与X高度相关时，采用比估计和回归估计都是有效的。在选择估计方法时，有以下原则：