第三章(分层抽样)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 h
4、分层抽样的作用
• 分层抽样的抽样效率比较高,也就是说分 层抽样的估计精度高。 • 分层抽样不仅能对总体指标进行推算,而 且能对各层指标进行推算。 • 层内抽样方法可以不同,而且便于抽样工 作的组织。
5、分层原则:
• 1. 估计:层内单元具有相同性质,通常按调查对 象的不同类型进行划分。 • 2. 精度:尽可能使层内单元的指标值相近,层间 单元的差异尽可能大,从而达到提高抽样估计精 度的目的。 • 3. 估计和精度:既按类型、又按层内单元指标值 相近的原则进行多重分层,同时达到实现估计类 值以及提高估计精度的目的。 • 4. 实施:抽样组织实施的方便,通常按行政管理 机构设置进行分层。
y3 165
y4 24
W4
N 4 1500 0.52632 N 2850
f4
n4 10 0.0067 N4 1500
ˆ N y Y h h
h 1
4
200 39.5 400 105 750 165Biblioteka Baidu 1500 24
2 2 2 1 fh 2 8 ˆ v Y N Wh v yh N h sh 5.93 10 nh h 1 h 1
ˆ y W y Y h h st st
h 1
L
简单估计量: 由于没有其他总体信息的,这也是总体的简单估计量。
性质一(一般的分层抽样)
• 对于一般的分层抽样,如果每层的均值都是无 偏估计,则总体均值也是无偏估计。
ˆ ) E( W Y ˆ ) W E (Y ˆ) E (Y hh h h st
单元总体:N h 样本单元数: nh 第i个单元标志值: yhi 层权:Wh n 抽样比:h Nh 1 h层总体均值: Yh Nh 1 h层样本均值: yh nh
2 h
Nh N
Y
i 1 nh i 1
Nh
hi
y
hi
1 Nh h层总体方差: S (Yhi Yh ) 2 N h 1 i 1 1 nh h层样本方差: s ( yhi yh ) 2 nh 1 i 1
L 2 h L L 2 h
1 2 N
2 L Nh ( N h nh ) PhQh PhQh 2 Wh (1 f h ) Nh nh nh h 1 h 1
性质二的证明:
ph qh v( pst ) W v( ph ) W (1 f h ) nh 1 h 1 h 1
30
200
25
180
10
300
30
220
25
N1 200 N 2850 W1 0.07018 N 2850 n1 10 f1 0.05 nh 10 N1 200 n1 n1 1 2 2 1 y1i y1 1624.722 y1 y1i 39.5 s1 n1 1 i 1 n i 1
2 h 2 h
L
L
性质二的证明:
P h Qh V ( pst ) W V ( ph ) W (1 f h ) nh h 1 h 1
2 h 2 h L L
证明:因为是分层随机 抽样样,所 N h nh PhQh V ( ph ) , 及N h 1 N h N h 1 nh N h nh PhQh V ( pst ) W V ( ph ) W N h 1 nh h 1 h 1
层 居民户 总数 1 1 2 200 400 10 50 2 40 130 3 0 60 样本户奶制品年消费支出 4 110 80 5 15 100 6 10 55 7 40 160 8 80 85 9 90 160 10 0 170
3
4
750
1500
180
50
260
35
110
15
0
0
140
20
60
2 2
1 fh 2 W V ( y h ) N Sh nh h 1 h 1
L 2 h L 2 h
2 2 2 1 fh 2 ˆ v(Yst ) N Wh v( yh ) N h sh nh h 1 h 1 L L
例3.1 • 调查某地区的居民奶制品年消费支出,以居民户为抽样单 元,根据经济及收入水平将居民户划分为 4层,每层按简 单随机抽样抽取10户,调查获得如下数据(单位:元), 要估计该地区居民奶制品年消费总支出及估计的标准差。
第i个单元具有所考虑的特 征 其他
Y
i 1
N
i
Y pst Wh ph
h 1
L
由于没有其他总体信息的,这也是总体的简单估计量。
性质一(一般的分层抽样)
• 对于一般的分层抽样,如果每层都是无偏估计, 则总体比例也是无偏估计。
ˆ ) W E ( P ˆ ) E(P st h h
1
N 400 W2 2 0.14035 N 2850
f2
f3
n2 10 0.025 N 2 400
y2 105
s22 2166.667
s32 8205.556
2 s4 193.333
N 750 W3 3 0.26316 N 2850
n3 10 0.0133 N3 750
2 h
L
例3.2
• 在例3.1的调查中,同时调查了居民户拥有家庭电 脑的情况,获得如下数据(单位:台),要估计 该地区居民拥有家庭电脑的比例及估计的标准差。
h 1
L
L
ˆ ) N 2 W 2V (Y ˆ) ˆ ) N V (Y V (Y st st h h
2 h 1
注意:总体总量的估计,完全可以由总体均值来推算,因为它们只
相差一个常数。
性质二(分层随机抽样)
ˆ 是Y的无偏估计,即 ˆ ) Y Y E ( Y st st
ˆ ) N V(y ) N V (Y st st
h 1
L
L
L
h 1
ˆ ) V( W Y ˆ ) W 2V (Y ˆ) V (Y hh h h st
h 1 h 1
L
注意:这个性质说明,各层可以采用不同的抽样方法,只要相应的
估计量是无偏的,则对总体的推算也是无偏的。
性质二(分层随机抽样)
yst 是Y的无偏估计,即 E( yst ) Y
例子
• 调查杭州的超市情况: 分成大超市和小超市两层。 如果在两层都独立进行简单随机抽样,则 为分层随机抽样。 如果在大超市一层中,先确定下沙物美必 定抽样。则为一般分层抽样。
3、分层抽样的符号说明
h层指标
总体指标 总体总量: N 总体层数:L 总体均值:Yst 总体总量:Yst 总体比例:Pst
L L ˆ E W Y ˆ W EY ˆ EY st h h h h h1 h1
L
1 L 1 L Y WhYh N hYh Yh Y N h1 N h1 N h 1
在分层随机抽样下
ˆ y Y h h
所以无偏性也成立
i 1
ˆ Ny N W y Y st st h h
h 1
L
简单估计量: 由于没有其他总体信息的,这也是总体的简单估计量。
性质一(一般的分层抽样)
• 对于一般的分层抽样,如果每层的均值都是无 偏估计,则总体总量也是无偏估计。
ˆ ) N W E (Y ˆ) ˆ ) E ( NY E (Y h h st st
ˆ 2 2 1 fh 2 V (Yst ) V ( yst ) Wh V ( yh ) Wh Sh nh h 1 h 1
L L
1 fh 2 v( yst ) W v( yh ) W sh nh h 1 h 1
L 2 h L 2 h
无偏性的证明
在一般分层抽样下
ˆ Y EY h h
209650
4
4
ˆ v Y ˆ 23208 s Y
ˆ ts Y
ˆ 209650 2 23208 Y
3、总体比例的估计 总体比例的估计,是总体均值估计的一 种特例,所以具有相同的特点。
1, Yi 0, 则有 A 1 P N N
简单估计量:
估计量方差的证明
在一般分层抽样下
L L L L ˆ V W Y ˆ W 2V Y ˆ 2 ˆ ,Y ˆ VY W W Cov Y st h h h h h k h k h 1 k h h1 h1 L ˆ ˆ V Y W 2V Y
由于各层是独立进行的,所以协方差为0,即
st
h 1
h h
在分层随机抽样下,由于每层都是简单随机抽样,所以
1 fh 2 V yst W V yh W Sh nh h1 h1
L 2 h L 2 h
估计量的方差的估计的证明
在分层随机抽样下,
1 fh 2 v y h sh nh
2 h 2 h
L
L
证明:因为是分层随机 抽样样,所以 1 fh v ( ph ) ph qh nh 1 1 fh v( pst ) W v( ph ) W ph qh nh 1 h 1 h 1
L 2 h L 2 h
ph qh W (1 f h ) nh 1 h 1
抽样调查课----分层抽样
单位: 浙江财经学院数统学院 课程: 抽样调查课 教师: 张锐
目录
一、分层抽样的概念 二、估计量 • 简单估计 • 比率估计 三、样本量的确定
一、分层抽样的概念
1、简单介绍 2、分层抽样的定义 3、符号说明 4、分层抽样的作用 5、分层抽样的原则
1、分层抽样简介
分层抽样(stratified sampling) (STR) 按一定原则,将总体分成若干明显 不同的群体(子总体),每个子总体 称为层,不同层之间是相互独立的, 在每个层内进行抽样,将这些来自 “子总体”的样本全部汇总起来成为 总体的样本 。 特点:各层之间有明显不同,注意到 明显不同特性的群体在样本中的反映 优点:组织实施方便;样本散布均 匀; 精度较高;数据处理简单。 分层技术是应用上最为普遍的抽样技 术之一。
2、分层抽样的定义 分层抽样的定义 在抽样之前,先将总体N个单元划分成L个互不重复的子 总体,每个子总体称为层,它们的大小分别为N1,N2„.NL, 这L个层合起来就是整个总体。然后在每个层中分别独立的 进行抽样,这种抽样就是分层抽样,所得到的样本就称为分 层样本。 分层随机抽样的定义 如果每层都是简单随机抽样,则称为分层随机抽样,所 得到的样本就称为分层随机样本。
二、估计量
1、简单估计量
– 总体均值的估计 – 总体总量的估计 – 总体比例的估计
2、比率估计量
– 分别比率估计 – 联合比率估计
一、简单估计量
总体均值的估计 总体均值的期望 总体均值的方差 总体总量的估计 总体均值的期望 总体均值的方差 总体比例的估计 总体均值的期望 总体均值的方差
E ( yst )
ˆ E(Yst )
V ( yst )
ˆ V (Yst )
E ( pst )V ( pst )
1、总体均值的估计
1 Y N
Y
i 1
N
N
i
L 1 L ˆ ˆ ˆ Yst WhYh N hY h N h 1 h 1
如果是分层随机抽样
1 Y N
Yi
i 1
所以
1 fh 2 v y st W v y h W sh nh h 1 h 1
L 2 h L 2 h
2、总体总量的估计
Y Yi
i 1
N
ˆ NY ˆ Y ˆ NY Y h h ˆh st
h 1 h 1
L
L
如果是分层随机抽样
N
Y Yi
h 1
L
L
ˆ ) W 2V ( P ˆ ) V (P st h h
h 1
性质二(分层随机抽样)
pst 是P的无偏估计,即 E( pst ) P
PhQh V ( pst ) W V ( ph ) W (1 f h ) nh h 1 h 1
2 h 2 h L L
ph qh v( pst ) W v( ph ) W (1 f h ) nh 1 h 1 h 1
4、分层抽样的作用
• 分层抽样的抽样效率比较高,也就是说分 层抽样的估计精度高。 • 分层抽样不仅能对总体指标进行推算,而 且能对各层指标进行推算。 • 层内抽样方法可以不同,而且便于抽样工 作的组织。
5、分层原则:
• 1. 估计:层内单元具有相同性质,通常按调查对 象的不同类型进行划分。 • 2. 精度:尽可能使层内单元的指标值相近,层间 单元的差异尽可能大,从而达到提高抽样估计精 度的目的。 • 3. 估计和精度:既按类型、又按层内单元指标值 相近的原则进行多重分层,同时达到实现估计类 值以及提高估计精度的目的。 • 4. 实施:抽样组织实施的方便,通常按行政管理 机构设置进行分层。
y3 165
y4 24
W4
N 4 1500 0.52632 N 2850
f4
n4 10 0.0067 N4 1500
ˆ N y Y h h
h 1
4
200 39.5 400 105 750 165Biblioteka Baidu 1500 24
2 2 2 1 fh 2 8 ˆ v Y N Wh v yh N h sh 5.93 10 nh h 1 h 1
ˆ y W y Y h h st st
h 1
L
简单估计量: 由于没有其他总体信息的,这也是总体的简单估计量。
性质一(一般的分层抽样)
• 对于一般的分层抽样,如果每层的均值都是无 偏估计,则总体均值也是无偏估计。
ˆ ) E( W Y ˆ ) W E (Y ˆ) E (Y hh h h st
单元总体:N h 样本单元数: nh 第i个单元标志值: yhi 层权:Wh n 抽样比:h Nh 1 h层总体均值: Yh Nh 1 h层样本均值: yh nh
2 h
Nh N
Y
i 1 nh i 1
Nh
hi
y
hi
1 Nh h层总体方差: S (Yhi Yh ) 2 N h 1 i 1 1 nh h层样本方差: s ( yhi yh ) 2 nh 1 i 1
L 2 h L L 2 h
1 2 N
2 L Nh ( N h nh ) PhQh PhQh 2 Wh (1 f h ) Nh nh nh h 1 h 1
性质二的证明:
ph qh v( pst ) W v( ph ) W (1 f h ) nh 1 h 1 h 1
30
200
25
180
10
300
30
220
25
N1 200 N 2850 W1 0.07018 N 2850 n1 10 f1 0.05 nh 10 N1 200 n1 n1 1 2 2 1 y1i y1 1624.722 y1 y1i 39.5 s1 n1 1 i 1 n i 1
2 h 2 h
L
L
性质二的证明:
P h Qh V ( pst ) W V ( ph ) W (1 f h ) nh h 1 h 1
2 h 2 h L L
证明:因为是分层随机 抽样样,所 N h nh PhQh V ( ph ) , 及N h 1 N h N h 1 nh N h nh PhQh V ( pst ) W V ( ph ) W N h 1 nh h 1 h 1
层 居民户 总数 1 1 2 200 400 10 50 2 40 130 3 0 60 样本户奶制品年消费支出 4 110 80 5 15 100 6 10 55 7 40 160 8 80 85 9 90 160 10 0 170
3
4
750
1500
180
50
260
35
110
15
0
0
140
20
60
2 2
1 fh 2 W V ( y h ) N Sh nh h 1 h 1
L 2 h L 2 h
2 2 2 1 fh 2 ˆ v(Yst ) N Wh v( yh ) N h sh nh h 1 h 1 L L
例3.1 • 调查某地区的居民奶制品年消费支出,以居民户为抽样单 元,根据经济及收入水平将居民户划分为 4层,每层按简 单随机抽样抽取10户,调查获得如下数据(单位:元), 要估计该地区居民奶制品年消费总支出及估计的标准差。
第i个单元具有所考虑的特 征 其他
Y
i 1
N
i
Y pst Wh ph
h 1
L
由于没有其他总体信息的,这也是总体的简单估计量。
性质一(一般的分层抽样)
• 对于一般的分层抽样,如果每层都是无偏估计, 则总体比例也是无偏估计。
ˆ ) W E ( P ˆ ) E(P st h h
1
N 400 W2 2 0.14035 N 2850
f2
f3
n2 10 0.025 N 2 400
y2 105
s22 2166.667
s32 8205.556
2 s4 193.333
N 750 W3 3 0.26316 N 2850
n3 10 0.0133 N3 750
2 h
L
例3.2
• 在例3.1的调查中,同时调查了居民户拥有家庭电 脑的情况,获得如下数据(单位:台),要估计 该地区居民拥有家庭电脑的比例及估计的标准差。
h 1
L
L
ˆ ) N 2 W 2V (Y ˆ) ˆ ) N V (Y V (Y st st h h
2 h 1
注意:总体总量的估计,完全可以由总体均值来推算,因为它们只
相差一个常数。
性质二(分层随机抽样)
ˆ 是Y的无偏估计,即 ˆ ) Y Y E ( Y st st
ˆ ) N V(y ) N V (Y st st
h 1
L
L
L
h 1
ˆ ) V( W Y ˆ ) W 2V (Y ˆ) V (Y hh h h st
h 1 h 1
L
注意:这个性质说明,各层可以采用不同的抽样方法,只要相应的
估计量是无偏的,则对总体的推算也是无偏的。
性质二(分层随机抽样)
yst 是Y的无偏估计,即 E( yst ) Y
例子
• 调查杭州的超市情况: 分成大超市和小超市两层。 如果在两层都独立进行简单随机抽样,则 为分层随机抽样。 如果在大超市一层中,先确定下沙物美必 定抽样。则为一般分层抽样。
3、分层抽样的符号说明
h层指标
总体指标 总体总量: N 总体层数:L 总体均值:Yst 总体总量:Yst 总体比例:Pst
L L ˆ E W Y ˆ W EY ˆ EY st h h h h h1 h1
L
1 L 1 L Y WhYh N hYh Yh Y N h1 N h1 N h 1
在分层随机抽样下
ˆ y Y h h
所以无偏性也成立
i 1
ˆ Ny N W y Y st st h h
h 1
L
简单估计量: 由于没有其他总体信息的,这也是总体的简单估计量。
性质一(一般的分层抽样)
• 对于一般的分层抽样,如果每层的均值都是无 偏估计,则总体总量也是无偏估计。
ˆ ) N W E (Y ˆ) ˆ ) E ( NY E (Y h h st st
ˆ 2 2 1 fh 2 V (Yst ) V ( yst ) Wh V ( yh ) Wh Sh nh h 1 h 1
L L
1 fh 2 v( yst ) W v( yh ) W sh nh h 1 h 1
L 2 h L 2 h
无偏性的证明
在一般分层抽样下
ˆ Y EY h h
209650
4
4
ˆ v Y ˆ 23208 s Y
ˆ ts Y
ˆ 209650 2 23208 Y
3、总体比例的估计 总体比例的估计,是总体均值估计的一 种特例,所以具有相同的特点。
1, Yi 0, 则有 A 1 P N N
简单估计量:
估计量方差的证明
在一般分层抽样下
L L L L ˆ V W Y ˆ W 2V Y ˆ 2 ˆ ,Y ˆ VY W W Cov Y st h h h h h k h k h 1 k h h1 h1 L ˆ ˆ V Y W 2V Y
由于各层是独立进行的,所以协方差为0,即
st
h 1
h h
在分层随机抽样下,由于每层都是简单随机抽样,所以
1 fh 2 V yst W V yh W Sh nh h1 h1
L 2 h L 2 h
估计量的方差的估计的证明
在分层随机抽样下,
1 fh 2 v y h sh nh
2 h 2 h
L
L
证明:因为是分层随机 抽样样,所以 1 fh v ( ph ) ph qh nh 1 1 fh v( pst ) W v( ph ) W ph qh nh 1 h 1 h 1
L 2 h L 2 h
ph qh W (1 f h ) nh 1 h 1
抽样调查课----分层抽样
单位: 浙江财经学院数统学院 课程: 抽样调查课 教师: 张锐
目录
一、分层抽样的概念 二、估计量 • 简单估计 • 比率估计 三、样本量的确定
一、分层抽样的概念
1、简单介绍 2、分层抽样的定义 3、符号说明 4、分层抽样的作用 5、分层抽样的原则
1、分层抽样简介
分层抽样(stratified sampling) (STR) 按一定原则,将总体分成若干明显 不同的群体(子总体),每个子总体 称为层,不同层之间是相互独立的, 在每个层内进行抽样,将这些来自 “子总体”的样本全部汇总起来成为 总体的样本 。 特点:各层之间有明显不同,注意到 明显不同特性的群体在样本中的反映 优点:组织实施方便;样本散布均 匀; 精度较高;数据处理简单。 分层技术是应用上最为普遍的抽样技 术之一。
2、分层抽样的定义 分层抽样的定义 在抽样之前,先将总体N个单元划分成L个互不重复的子 总体,每个子总体称为层,它们的大小分别为N1,N2„.NL, 这L个层合起来就是整个总体。然后在每个层中分别独立的 进行抽样,这种抽样就是分层抽样,所得到的样本就称为分 层样本。 分层随机抽样的定义 如果每层都是简单随机抽样,则称为分层随机抽样,所 得到的样本就称为分层随机样本。
二、估计量
1、简单估计量
– 总体均值的估计 – 总体总量的估计 – 总体比例的估计
2、比率估计量
– 分别比率估计 – 联合比率估计
一、简单估计量
总体均值的估计 总体均值的期望 总体均值的方差 总体总量的估计 总体均值的期望 总体均值的方差 总体比例的估计 总体均值的期望 总体均值的方差
E ( yst )
ˆ E(Yst )
V ( yst )
ˆ V (Yst )
E ( pst )V ( pst )
1、总体均值的估计
1 Y N
Y
i 1
N
N
i
L 1 L ˆ ˆ ˆ Yst WhYh N hY h N h 1 h 1
如果是分层随机抽样
1 Y N
Yi
i 1
所以
1 fh 2 v y st W v y h W sh nh h 1 h 1
L 2 h L 2 h
2、总体总量的估计
Y Yi
i 1
N
ˆ NY ˆ Y ˆ NY Y h h ˆh st
h 1 h 1
L
L
如果是分层随机抽样
N
Y Yi
h 1
L
L
ˆ ) W 2V ( P ˆ ) V (P st h h
h 1
性质二(分层随机抽样)
pst 是P的无偏估计,即 E( pst ) P
PhQh V ( pst ) W V ( ph ) W (1 f h ) nh h 1 h 1
2 h 2 h L L
ph qh v( pst ) W v( ph ) W (1 f h ) nh 1 h 1 h 1