抽样调查第4章 分层抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
K 2
2 由于比估计适合的场合( i SYi S Xi Ri S Xi )通常比较小,上
式一般大于零,分别比估计通常比组合比估计更精确.
仅当层数较多,而各层只有较小的样本量时,才推荐使 用组合比估计.
分别回归估计
分别回归估计 K
y Ls Wi [ y i bi ( X i xi )]
K
( N ) ( Ni )
i 1
N Ni
i 1
K
抽样: 从每层抽取一个样本构成总的样本 K
y , y
i1
i2
,, yini , i 1,2,, K
n ni
i 1
采用分层抽样的理由
可同时对子总体进行参数估计 便于组织实施,可根据各层特点采用不同抽样方式 可使样本在总体中分布均匀,从而具有更好代表性 适当分层可提高参数估计的精度
组合回归估计
分别回归估计与组合回归估计的比较
1 fi 2 Vmin ( yLC ) Vmin ( yLS ) Wi S Xi ( Bi BC ) 2 ni i 1
K 2
除非各层Bi 相同, 否则最佳选取系数的分别回归估计优于 组合回Baidu Nhomakorabea估计
仅当层数较多,而各层只有较小的样本量时,才推荐使 用组合回归估计.
yst Wi yi
i 1
K
xst Wi xi
i 1
K
yRC
yst X rC X xst
组合比估计只需知道总体的X或X , 无需知道每层的 X i 或X i
组合比估计
估值定理
定理4.2.1 对分层抽样的组合比估计,有
V ( xst ) | E ( y RC Y ) | |X| V ( y RC )
估 值 法 (一 )
例3 已知某公司一般职员及高级管理人员刚进入公司 时的工资总额分别为5523965元、2541660元,欲通过 抽样调查估计当前该公司职员的工资总额Y。抽样按 照一般职员与高管层进行分层随机抽取。一般职员共 390人,抽取15人;高管层共84人,抽取10名。调查 数据如表。 给出Y的分别比估计量,估计其精度
等额样本量 按比例分配 奈曼最优分配 考虑费用的最优分配
等额样本量
各层的样本量相等
n ni , i 1,2,, K K
特点:实施方便,便于管理
例1 对各乡收入数据,采用分层抽样,各层采用简单 随机抽样,计划抽取8个乡,按照下列样本量分配方 式,确定各层的样本量
(1)等额分配 (2)按比例分配
i 1
若b是事先指定的常数, yLS是Y的无偏估计, 其均方偏差为
1 fi 2 2 2 V ( y Ls ) Wi ( S Yi bi S Xi 2bi i SYi S Xi ) ni i 1
K 2
ni 1 f 1 2 2 i [( yij yi ) bi xij xi ] v( y Ls ) Wi ni ni 2 i 1 j 1 K
§4.1 估值法(一) §4.2 估值法(二)—— 组合比估计和回归估计 §4.3 样本量的分配 §4.4 与简单随机抽样之比较 §4.5 如何适当分层 §4.6 后分层估计和定额抽样
分层抽样的提法 估值法(一)
分层抽样的提法 (Stratified sampling)
分层抽样的步骤
将总体 ( N )分成互不相交的 K个子总体 分层:
N
i 1
K
i
N
n
i 1
K
i
n
Ni Wi N
ni wi n
ij
Ni 1 ni Yi Yij Yi Yi / Ni yi fi ni Ni j 1 ni 1 2 si2 ( y y ) ij i ni 1 j 1
y
j 1
ni
Y Yij
估 值 法 (一 )
例1 调查某地区居民的奶制品消费支出,以居民户为 抽样单元.根据经济收入水平将居民划分为4层,每层抽 取样本量为10的简单随机样本,调查数据如下表,试估 计该地区居民奶制品的月消费总支出及其置信度为 95%的置信区间.
层 1 2
3 4 居民 总户 数 样本户奶制品月消费支出yij(元) 1 2 3 4 5 6 7 8 9 10
估 值 法 (一 )
例3(续) 已知某公司一般职员及高级管理人员刚进 入公司时的工资总额分别为5523965元、2541660元, 欲通过抽样调查估计当前该公司职员的工资总额Y。 抽样按照一般职员与高管层进行分层随机抽取。一般 职员共390人,抽取15人;高管层共84人,抽取10名。 调查数据如表。 给出Y的分别回归估计量、联合回归估计以及 差估计,同时估计其精度。
200 400
750 1500
10 50
40 130
0 60
110 80
0 0
15
10
40
80 85
90
0
100 55 160
160 170
180 260 110 50 35 15
140 60 200 180 300 220 20 30 25 10 30 25
估 值 法 (一 )
例2 对某地区的居民拥有家庭电脑的情况进行调查, 以居民为抽样单位,根据收入水平将居民户划分为4 层,每层按简单随机抽样抽取10户。调查数据如表。 估计该地区居民拥有家庭电脑的比例及抽样标 准误。
2 2
1 fi 2 2 (3)v( yRC ) Wi ( s yi rC2 s xi 2rC s xyi ) ni i 1
K 2
例3续:给出Y的组合比估计量,估计其精度,与 分别比估计进行比较
组合比估计
分别比估计与组合比估计的比较
V ( y RC ) V ( y RS ) 1 fi 2 Wi ( R 2 Ri2 ) S Xi 2( R Ri ) i SYi S Xi ni i 1 K 2 1 fi 2 2 Wi ( R Ri ) 2 S Xi 2( R Ri )( i SYi S Xi Ri S Xi ) ni i 1
比估计与回归估计小结
当Y与X高度相关时,采用比估计和回归估计都 是有效的。在选择估计方法时,有以下原则:
(1)由于分别估计(分别比或者分别回归估计)要求各层的样 本量都比较大,所以当某些层的样本量不够大时,建议采用联合估 计。 (2)当回归系数需要由样本进行估计时,回归估计是有偏的, 尤其当样本量较小的时候,采取联合比估计更好。 (3)如果各层的样本量都比较大,每层的比估计或回归估计有 效,此时用分别比估计,方差更小。 (4)如果各层的样本量不大,各层的Ri差异较小,采用联合估计。 (5)如果各层的Ri之间的差别不是太大,而且并不是每层的样本 量都相当大,采用联合估计。 (6)如果各层的回归系数都接近于1,则可采用差估计。
其中V ( yRC ),V ( xst )分别是估计量yRC,xst的均方偏差.
组合比估计
当分层抽样的样本分配合理, 且xst 0(不依赖与n)时
1 (1) E ( y RC Y ) O n
1 1 (2) E ( y RC Y ) E ( yst Rxst ) O 3 / 2 O 3 / 2 n n K 2 1 fi 2 2 Wi ( SYi R 2 S Xi 2 Ri SYi S Xi ) ni i 1
ˆ ) W 2V (Y ˆ) V (Y i i st
i 1 K
估 值 法 (一 )
系 1 当各层独立抽取的都是 简单随机样本,且每层 的Yi用简单估值时 , 则估计量
yst Wi yi
i 1
K
是Y的无偏估计 , 其均方偏差为
1 V ( yst ) Wi (1 f i ) Si2 ni i 1
i 1 j 1
K
Ni
K Y N iYi K Y WiYi N i 1 N i 1
估 值 法 (一 )
定理 4.1.1 如果分层抽样样本是从 每一层独立抽取的, ˆ , 则估计量 且每一层 Y 有无偏估计 Y
i i
ˆ WY ˆ Y ii st
i 1
K
是Y的无偏估计 , 其均方偏差为
分层抽样的提法
分层抽样的问题
如何分层 如何确定各层样本量 如何估值
记号
Y11 , , Y1N1 Y21 , , Y2 N 2 YK 1 , , YKN K
y11 , , y21 , , yK 1 , , y1n1 y 2 n2 y Kn K
(3)Neyman最优分配
按比例分配 (proportional allocation)
Ni ni n , i 1,2,, K N K 1 K ni yst Wi yi yij n i 1 j 1 i 1
若总体总值或均值的一个无偏估计量可以表示成 样本总值或均值的常数倍,这种估计量称为自加 权估计量 适用于Ni已知而其他信息很少的情形
1 fi 2 K 2 1 fi 2 2 Vmin ( y Ls ) Wi SYi Wi S Xi Bi ni ni i 1 i 1
K 2
组合回归估计
组合回归估计
yLC yst b( X xst )
若b是事先指定的常数, yLC是Y的无偏估计, 其均方偏差为
2 K
V ( yst )的一个无偏估计为
1 v( yst ) Wi (1 f i ) si2 ni i 1
2 K
估 值 法 (一 )
系2 当各层独立抽取的都是 简单随机样本,且各层 的样本额 ni 足够大时,用比估值法 时,
yRS Wi ri X i
i 1
K
是Y的近似无偏估计 , 其均方偏差近似为 Ni K 1 f 1 2 i V ( yRS ) Wi 2 ( Y R X ) ij i ij ni Ni 1 j 1 i 1 K 2 1 fi 2 2 2 Wi SY R i S X i 2 Ri i SYi S X i i ni i 1 V ( yRS )的一个近似无偏估计为 ni K 1 f 1 2 i v( yRS ) Wi 2 ( y r x ) ij i ij n n 1 i 1 j 1 i i
2 W i K
1 fi 2 2 2 V ( yLC ) Wi (SYi 2 BC i S Xi SYi BC S Xi ) ni i 1
K 2
ni 1 f 1 2 i v( yLC ) Wi 2 ( y y ) b ( x x ) ij i C ij i n n 1 i 1 j 1 i i K
1 fi 2 2 V ( yLC ) Wi ( SYi b 2 S Xi 2bi SYi S Xi ) ni i 1
K 2
1 fi Wi S XYi ni i 1 取b BC K 可得上述均方偏差的最小值为 2 1 fi 2 W S i Xi n i 1 i
K 2
1 fi 2 K 2 1 fi 2 2 Vmin ( yLC ) Wi SYi Wi S Xi BC ni ni i 1 i 1
K 2
组合回归估计
1 fi s xyi ni 1 实践中以bC i 代替BC,有 K 2 1 fi 2 Wi s xi ni i 1
估 值 法 (一 )
练习1 为调查某地区住户的平均家庭成员数,将该地 去分为城市和乡村2层,每层按照简单随机抽样抽取 10户。调查数据如表。 估计该地区住户的平均家庭成员数及其95%的 置信区间。
组合比估计 组合回归估计
组合比估计 (Ratio combined)
组合比估计的含义
有辅助变量X用于估值分析的,先分别对各层进 行简单估计,再用比估值法获得目标指标量的估计
2 由于比估计适合的场合( i SYi S Xi Ri S Xi )通常比较小,上
式一般大于零,分别比估计通常比组合比估计更精确.
仅当层数较多,而各层只有较小的样本量时,才推荐使 用组合比估计.
分别回归估计
分别回归估计 K
y Ls Wi [ y i bi ( X i xi )]
K
( N ) ( Ni )
i 1
N Ni
i 1
K
抽样: 从每层抽取一个样本构成总的样本 K
y , y
i1
i2
,, yini , i 1,2,, K
n ni
i 1
采用分层抽样的理由
可同时对子总体进行参数估计 便于组织实施,可根据各层特点采用不同抽样方式 可使样本在总体中分布均匀,从而具有更好代表性 适当分层可提高参数估计的精度
组合回归估计
分别回归估计与组合回归估计的比较
1 fi 2 Vmin ( yLC ) Vmin ( yLS ) Wi S Xi ( Bi BC ) 2 ni i 1
K 2
除非各层Bi 相同, 否则最佳选取系数的分别回归估计优于 组合回Baidu Nhomakorabea估计
仅当层数较多,而各层只有较小的样本量时,才推荐使 用组合回归估计.
yst Wi yi
i 1
K
xst Wi xi
i 1
K
yRC
yst X rC X xst
组合比估计只需知道总体的X或X , 无需知道每层的 X i 或X i
组合比估计
估值定理
定理4.2.1 对分层抽样的组合比估计,有
V ( xst ) | E ( y RC Y ) | |X| V ( y RC )
估 值 法 (一 )
例3 已知某公司一般职员及高级管理人员刚进入公司 时的工资总额分别为5523965元、2541660元,欲通过 抽样调查估计当前该公司职员的工资总额Y。抽样按 照一般职员与高管层进行分层随机抽取。一般职员共 390人,抽取15人;高管层共84人,抽取10名。调查 数据如表。 给出Y的分别比估计量,估计其精度
等额样本量 按比例分配 奈曼最优分配 考虑费用的最优分配
等额样本量
各层的样本量相等
n ni , i 1,2,, K K
特点:实施方便,便于管理
例1 对各乡收入数据,采用分层抽样,各层采用简单 随机抽样,计划抽取8个乡,按照下列样本量分配方 式,确定各层的样本量
(1)等额分配 (2)按比例分配
i 1
若b是事先指定的常数, yLS是Y的无偏估计, 其均方偏差为
1 fi 2 2 2 V ( y Ls ) Wi ( S Yi bi S Xi 2bi i SYi S Xi ) ni i 1
K 2
ni 1 f 1 2 2 i [( yij yi ) bi xij xi ] v( y Ls ) Wi ni ni 2 i 1 j 1 K
§4.1 估值法(一) §4.2 估值法(二)—— 组合比估计和回归估计 §4.3 样本量的分配 §4.4 与简单随机抽样之比较 §4.5 如何适当分层 §4.6 后分层估计和定额抽样
分层抽样的提法 估值法(一)
分层抽样的提法 (Stratified sampling)
分层抽样的步骤
将总体 ( N )分成互不相交的 K个子总体 分层:
N
i 1
K
i
N
n
i 1
K
i
n
Ni Wi N
ni wi n
ij
Ni 1 ni Yi Yij Yi Yi / Ni yi fi ni Ni j 1 ni 1 2 si2 ( y y ) ij i ni 1 j 1
y
j 1
ni
Y Yij
估 值 法 (一 )
例1 调查某地区居民的奶制品消费支出,以居民户为 抽样单元.根据经济收入水平将居民划分为4层,每层抽 取样本量为10的简单随机样本,调查数据如下表,试估 计该地区居民奶制品的月消费总支出及其置信度为 95%的置信区间.
层 1 2
3 4 居民 总户 数 样本户奶制品月消费支出yij(元) 1 2 3 4 5 6 7 8 9 10
估 值 法 (一 )
例3(续) 已知某公司一般职员及高级管理人员刚进 入公司时的工资总额分别为5523965元、2541660元, 欲通过抽样调查估计当前该公司职员的工资总额Y。 抽样按照一般职员与高管层进行分层随机抽取。一般 职员共390人,抽取15人;高管层共84人,抽取10名。 调查数据如表。 给出Y的分别回归估计量、联合回归估计以及 差估计,同时估计其精度。
200 400
750 1500
10 50
40 130
0 60
110 80
0 0
15
10
40
80 85
90
0
100 55 160
160 170
180 260 110 50 35 15
140 60 200 180 300 220 20 30 25 10 30 25
估 值 法 (一 )
例2 对某地区的居民拥有家庭电脑的情况进行调查, 以居民为抽样单位,根据收入水平将居民户划分为4 层,每层按简单随机抽样抽取10户。调查数据如表。 估计该地区居民拥有家庭电脑的比例及抽样标 准误。
2 2
1 fi 2 2 (3)v( yRC ) Wi ( s yi rC2 s xi 2rC s xyi ) ni i 1
K 2
例3续:给出Y的组合比估计量,估计其精度,与 分别比估计进行比较
组合比估计
分别比估计与组合比估计的比较
V ( y RC ) V ( y RS ) 1 fi 2 Wi ( R 2 Ri2 ) S Xi 2( R Ri ) i SYi S Xi ni i 1 K 2 1 fi 2 2 Wi ( R Ri ) 2 S Xi 2( R Ri )( i SYi S Xi Ri S Xi ) ni i 1
比估计与回归估计小结
当Y与X高度相关时,采用比估计和回归估计都 是有效的。在选择估计方法时,有以下原则:
(1)由于分别估计(分别比或者分别回归估计)要求各层的样 本量都比较大,所以当某些层的样本量不够大时,建议采用联合估 计。 (2)当回归系数需要由样本进行估计时,回归估计是有偏的, 尤其当样本量较小的时候,采取联合比估计更好。 (3)如果各层的样本量都比较大,每层的比估计或回归估计有 效,此时用分别比估计,方差更小。 (4)如果各层的样本量不大,各层的Ri差异较小,采用联合估计。 (5)如果各层的Ri之间的差别不是太大,而且并不是每层的样本 量都相当大,采用联合估计。 (6)如果各层的回归系数都接近于1,则可采用差估计。
其中V ( yRC ),V ( xst )分别是估计量yRC,xst的均方偏差.
组合比估计
当分层抽样的样本分配合理, 且xst 0(不依赖与n)时
1 (1) E ( y RC Y ) O n
1 1 (2) E ( y RC Y ) E ( yst Rxst ) O 3 / 2 O 3 / 2 n n K 2 1 fi 2 2 Wi ( SYi R 2 S Xi 2 Ri SYi S Xi ) ni i 1
ˆ ) W 2V (Y ˆ) V (Y i i st
i 1 K
估 值 法 (一 )
系 1 当各层独立抽取的都是 简单随机样本,且每层 的Yi用简单估值时 , 则估计量
yst Wi yi
i 1
K
是Y的无偏估计 , 其均方偏差为
1 V ( yst ) Wi (1 f i ) Si2 ni i 1
i 1 j 1
K
Ni
K Y N iYi K Y WiYi N i 1 N i 1
估 值 法 (一 )
定理 4.1.1 如果分层抽样样本是从 每一层独立抽取的, ˆ , 则估计量 且每一层 Y 有无偏估计 Y
i i
ˆ WY ˆ Y ii st
i 1
K
是Y的无偏估计 , 其均方偏差为
分层抽样的提法
分层抽样的问题
如何分层 如何确定各层样本量 如何估值
记号
Y11 , , Y1N1 Y21 , , Y2 N 2 YK 1 , , YKN K
y11 , , y21 , , yK 1 , , y1n1 y 2 n2 y Kn K
(3)Neyman最优分配
按比例分配 (proportional allocation)
Ni ni n , i 1,2,, K N K 1 K ni yst Wi yi yij n i 1 j 1 i 1
若总体总值或均值的一个无偏估计量可以表示成 样本总值或均值的常数倍,这种估计量称为自加 权估计量 适用于Ni已知而其他信息很少的情形
1 fi 2 K 2 1 fi 2 2 Vmin ( y Ls ) Wi SYi Wi S Xi Bi ni ni i 1 i 1
K 2
组合回归估计
组合回归估计
yLC yst b( X xst )
若b是事先指定的常数, yLC是Y的无偏估计, 其均方偏差为
2 K
V ( yst )的一个无偏估计为
1 v( yst ) Wi (1 f i ) si2 ni i 1
2 K
估 值 法 (一 )
系2 当各层独立抽取的都是 简单随机样本,且各层 的样本额 ni 足够大时,用比估值法 时,
yRS Wi ri X i
i 1
K
是Y的近似无偏估计 , 其均方偏差近似为 Ni K 1 f 1 2 i V ( yRS ) Wi 2 ( Y R X ) ij i ij ni Ni 1 j 1 i 1 K 2 1 fi 2 2 2 Wi SY R i S X i 2 Ri i SYi S X i i ni i 1 V ( yRS )的一个近似无偏估计为 ni K 1 f 1 2 i v( yRS ) Wi 2 ( y r x ) ij i ij n n 1 i 1 j 1 i i
2 W i K
1 fi 2 2 2 V ( yLC ) Wi (SYi 2 BC i S Xi SYi BC S Xi ) ni i 1
K 2
ni 1 f 1 2 i v( yLC ) Wi 2 ( y y ) b ( x x ) ij i C ij i n n 1 i 1 j 1 i i K
1 fi 2 2 V ( yLC ) Wi ( SYi b 2 S Xi 2bi SYi S Xi ) ni i 1
K 2
1 fi Wi S XYi ni i 1 取b BC K 可得上述均方偏差的最小值为 2 1 fi 2 W S i Xi n i 1 i
K 2
1 fi 2 K 2 1 fi 2 2 Vmin ( yLC ) Wi SYi Wi S Xi BC ni ni i 1 i 1
K 2
组合回归估计
1 fi s xyi ni 1 实践中以bC i 代替BC,有 K 2 1 fi 2 Wi s xi ni i 1
估 值 法 (一 )
练习1 为调查某地区住户的平均家庭成员数,将该地 去分为城市和乡村2层,每层按照简单随机抽样抽取 10户。调查数据如表。 估计该地区住户的平均家庭成员数及其95%的 置信区间。
组合比估计 组合回归估计
组合比估计 (Ratio combined)
组合比估计的含义
有辅助变量X用于估值分析的,先分别对各层进 行简单估计,再用比估值法获得目标指标量的估计