第三章(分层抽样)

合集下载

第三章分层随机抽样

第三章分层随机抽样概述简单估计及其性质各层样本量的分配样本总量的确定分层随机抽样效果分析第一节概述一、特点¾分层抽样不仅可估计总体参数，还可估计层的参数¾实施方便，便于组织¾分层样本比简单随机样本在总体中分布更均匀¾分层抽样能较大地提高调查地精度二、符号¾总体分为L 层，h 表示层的编号¾第h 层单位总数：N h ¾样本单位数：n h¾层权：抽样比：¾第h 层子总体第i 个单位标志值：Y hi¾第h 层样本中第i 个单位标志值：y hiNN W h h =hhh N n f =¾总体均值：¾样本均值：¾总体方差：¾样本方差：∑==hNihihhYNY11∑==hnihihyny11()∑=−−=hNihhihhYYNS12 211()∑=−−=hnihhihhyyns12 211第二节简单估计量及其性质一、对总体均值或总量的估计hLh h h L h h st Lh h st sth Lh h Lh h h st y N y W N Y N Y Y y y W Y W Y ∑∑∑∑∑============11111ˆˆˆˆˆstststst Y YE Y y E ==)ˆ()(∑∑∑===−==Lh hh Lh h hh h L h hst N SW n S W y V W y V 1212212)()(样本方差s 2∑∑==−=Lh hh Lh h hh st N sW n s W y v 12122)(hhh h h st st st n S n N N y V N Y V N Y V 222)()()ˆ()ˆ(−===∑hhh h h st n s n N N Y v 2)()ˆ(−=∑())(,)(st st st sty v u y y v u yαα+−例：某市进行家庭收入调查，分城镇居民及农村居民两部分抽样，在全部城镇23560户中抽取300户，在全部农村148420户中抽取250户（均按简单随机抽样进行），调查结果城镇年平均户收入为15180元，标准差为2972元；农村年平均户收入为9856元，标准差为2546元。

讲稿3-分层抽样

10 750
1 n1
y 1
i 1
n1
1i
y 1 1 6 2 4 .7 2 2
2
s 2 2 1 6 6 .6 6 7
2
400 2850
0 .1 4 0 3 5
0 .0 2 5
y2 105
W3
N3 N

0 .2 6 3 1 6
f3
0 .0 1 3 3
y3 165
h 1
L
N h N h n h Ph Q h
2
Nh 1
nh

h 1
L h 1
1 N
2 h
N
2
N h
N
h
n h Ph Q h nh
W 1
fh
Ph Q h nh
2013-6-21
22
V 性质9：对于分层随机抽样， p 的一个无偏估计为：
st
v p st

ˆ E Yh Yh

ˆ V Y st

估计量的方差
L ˆ V W hYh h 1

h 1
L
ˆ 2 W h V Yh 2

L

L
ˆ ˆ W h W k Cov Y h , Y k

h 1 k h
由于各层是独立抽取的，因此上式第二项中的协方差全 L 为0，从而有 ˆ ˆ 2 V Y st W h V Y h
24
解：由上表可得，
h
p 4 0 .1
p 3 0 .4
p 2 0 .2
p 1 0 .2

抽样技术课件第三章(分层抽样)

估计量方差的证明
在一般分层抽样下
L L L L ˆ V W Y ˆ W 2V Y ˆ 2 ˆ ,Y ˆ VY W W Cov Y st h h h h h k h k h 1 k h h1 h1 L ˆ ˆ V Y W 2V Y

L 2 h L L 2 h
1 2 N
2 L Nh ( N h nh ) PhQh PhQh 2 Wh (1 f h ) Nh nh nh h 1 h 1
性质二的证明：
ph qh v( pst ) W v( ph ) W (1 f h ) nh 1 h 1 h 1
ˆ 2 2 1 fh 2 V (Yst ) V ( yst ) Wh V ( yh ) Wh Sh nh h 1 h 1
L L
1 fh 2 v( yst ) W v( yh ) W sh nh h 1 h 1
L 2 h L 2 h
无偏性的证明
在一般分层抽样下
ˆ Y EY h h
30
200
25
180
10
300
30
220
25
N1 200 N 2850 W1 0.07018 N 2850 n1 10 f1 0.05 nh 10 N1 200 n1 n1 1 2 2 1 y1i y1 1624.722 y1 y1i 39.5 s1 n1 1 i 1 n i 1
L L ˆ E W Y ˆ W EY ˆ EY st h h h h h1 h1
L

1 L 1 L Y WhYh N hYh Yh Y N h1 N h1 N h 1

分层随机抽样概论(PPT 50张)

4
2019/2/15
例题

例如，对全国范围汽车运输的抽样调查，调查目的不仅要推算全国货运汽车完成的运量，还要推算不同经济成分（国有、集体、个体）汽车完成的运量。为组织的方便，首先将货运汽车总体按省分层，由各省运输管理部门负责省内的调查工作。各省再将省内拥有的汽车按经济成分分层。为提高抽样效率，再对汽车按吨位分层。例如，某高校对学生在宿舍使用电脑的情况进行调查，根据经验，本科生和研究生拥有电脑的状况差异较大。因此，在抽样前对学生按本科生和研究生进行分层是有必要的。
st
W 2 VY VY h h s t
h 1

L

只要对各层估计无偏，则总体估计也无偏。

各层可以采用不同的抽样方法，只要相应的估计量是无偏的，则对总体的推算也是无偏的。
8
2019/2/15
证明性质1
由于对每一层有 L L ˆ ˆ ˆ E Y E W Y W E Y st hh h h 因此， h 1 1 h L L L 1 1 Y W Y N Y Y Y h h h h h N N N h 1 h 1 h 1 估计量的方差 L L L L ˆ ˆ ˆ ˆ 2ˆ V Y V W Y W V Y 2 W W Cov Y , Y st h h h h h k hk h 1 h 1 h 1 k h 由于各层是独立抽取的，因此上式第二项中的协方差全 L 为0，从而有
二、分层原则：
总体中的每一个单元一定属于并且只属于某一个层，而不可能同时属于两个层或不属于任何一个层。

1.估计：层内单元具有相同性质，通常按调查对象的不同类型进行划分。 2.精度：尽可能使层内单元的指标值相近，层间单元的差异尽可能大，从而达到提高抽样估计精度的目的。 3.估计和精度：既按类型、又按层内单元指标值相近的原则进行多重分层，同时达到实现估计类值以及提高估计精度的目的。 4.实施：抽样组织实施的方便，通常按行政管理机构设置进行分层。

抽样技术第三章_分层随机抽样

4

4
4
ˆ v Y ˆ 23208 s Y
ˆ 209650 2 23208 ˆ ts Y Y

2015/11/6
23
三、对总体比例的估计

总体比例P的估计为：pst Wh ph
h 1
L

估计量的性质
对于一般的分层抽样，如果 ph是 P h 的无偏估计（h 1,2,, L ），则 pst 是 P的无偏估计。 p 的方差为：
W 2V Y V Y h h st
h1

L

只要对各层估计无偏，则总体估计也无偏。

各层可以采用不同的抽样方法，只要相应的估计量是无偏的，则对总体的推算也是无偏的。
11
2015/11/6
证明性质1
由于对每一层有
ˆ Y EY h h

L L ˆ ˆ ˆ E Y E W Y W E Y st h h h h 因此， h1 h1

L
L
N Y hh
h 1
L
分层随机样本，总体均值 Y 的简单估计
1 y st Wh y h N h 1
N
h 1
L
h
yh
10
2015/11/6
估计量的性质

是 Yh 的无性质1&2：对于一般的分层抽样，如果 Y h 偏估计（ h 1,2, , L ），则 Y 是Y 的无偏估计。 st Yst 的方差为：
7
三、符号
所有总体参数的估计量都采用下标“st”以示区别：
记号代表的含义
h
下标
i

第三章分层随机抽样作业答案

P111 3.6 样本量应该满足：
在Nh－1≈Nh的条件下，
而其中每层的吃年夜饭的样本比例的方差的估计值为： p 1 p 1 f N n h hn h h hh v p p 1 p h h h n 1 N n 1 hn h h h
则样本比例的方差的估计值为：
6 2 h 6 2 h
p 1 p h h v p W v p W 1 f s t h h n 1 h 1 h 1 h
把相应的数值代入计算可得方差的估计值为v(pst)＝3.9601×10-4，
从而可以得到该估计值的标准差为：s(pst)=0.0199。
（2）样本容量的确定
n2 = 0.2028 × 2568 = 520.7904 ≈ 521
n3 = 0.1625 × 2568 = 417.3000 ≈ 417 n4 = 0.1184 × 2568 = 304.0512 ≈ 304 n5 = 0.1544 × 2568 = 396.4992 ≈ 396 n6 = 0.1529 × 2568 = 392.6472 ≈ 393
P110 3.4 ∵ n0/N=2568/1650000=0.00156＜0.05 ∴ 不需要修正按内曼分配，样本量 n = 2568
w h
W 1 ph ) hp h(
w1= 0.0540/0.2584 = 0.2090
W p (1 p )
h1 h h h
k
w2= 0.0524/0.2584 = 0.2028
P110 3.5 解：总体总共分为10个层，每个层中的样本均值已经知道，层权也得到，从而可以计算得到该开发区居民购买冷冻食品的平均支出的估计值为： y st

分层抽样例题文档

第三章分层随机抽样书P1293.1.某高校欲了解教职员工对某项津贴与职务职称挂钩的分配制度改革的态度，准备在全校教职员工中进行抽样调查，为了提高抽样技术，准备进行分层抽样，请判断下面的几种分层方法是否合适？（1）按性别分层（2）按教师、行政管理人员、职工分层；（3）按职称）（正高、副高、中级、初级、其他）分层（4）按部门（如系、所、处）分层3.2. 某学院4个专业的新生元旦晚会，组织者为了活跃气氛，欲在800名学生中抽出8名作为“幸运星”，为了以示公平，要求每位学生被抽中的概率相同。

组织者知道利用简单随机抽样的方法可以满足要求，你能不能帮助组织者再设计几种方案？3.3.某居委会辖有三个居民新村，居委会欲对居民购买彩票情况进行调查，调查者考虑以新村分层，在每个新村中随机抽取了10个居民户最近一个月购买彩票所花费的金额（元），下表是每个新村及调查情况：（1）试估计该小区居民户购买彩票的平均支出，并给出估计标准差。

（2）当置信度为95%，要求极限误差不超过10%时，按比例和奈曼分配时样本量及各层的样本量分别为多少？3.4.随着经济发展，某市居民年生活习惯在改变，为研究该现象，某机构以市中心163万居民户作为研究对象，将居民户按6个行政分层，在每个行政区随机抽出30户居民进行调查，（各层抽样比可忽略），调查结果如下：(1)试估计该市居民在家吃年夜饭的比例，并给出估计的标准差。

(2)置信度为95%，要求极限绝对误差不超过1%时，按比例和奈曼分配时样本量及各层的样本量分别为多少？3.5.某开发区利用电话调查对区内冷冻食品情况进行调查（各层抽样比忽略）调查后各层样本户购买冷冻食品支出的中间结果如下表：试估计该开发区居民购买冷冻食品的平均支出,以及估计的95%的置信区间。

3.6．某单位欲估计职工的离职意愿，聘请了专业公司来进行调研，公司人员按高级职称、中级职称和初级职称分为3层，已知层权分别为0.2，0.3，0.5,预先猜测各层的总体比例为:0.1，0.2，,0.4，如果采用按比例的分层抽样，要求估计的方差与样本量为100的简单随机抽样相当，则样本量为多少？（不考虑有限总体校正系数）3.7．如果一个大的简单随机样本按类别分为6组，然后按照层的实际大小重新进行加权，这一过程称为事后分层，才用这种方法是由于（判断以下说法的对错）（1）它能比简单随机抽样产生更精确的结果；（2）它能比按比例分配产生更精确的结果；（3）它能比最优分配产生更精确的结果；（4）在抽样时不能得到分层变量；（5）它的估计量方差与真正按比例分层随机抽样的方差差不多。

人教A版必修3《系统抽样-分层抽样》

1 由于每排的座位有40个，各排每个号码被抽取的概率都是, 40
第1排被抽取前，其他各排中各号码被抽取哪率也是
1 说被抽取的概率是，每排的抽样也是简单随机抽样，因此这种 40
抽ห้องสมุดไป่ตู้的方法是系统抽样。
1 ，也就是 40
系统抽样的步骤为：（1)先将总体中的N个体编号.有时可直接利用个体自身所带的号码. （2）确定分段间隔k。对编号均衡地分段， N N n 是整数时， k ； n
数理统计所要解决的问题是如何根据样本来推断总体，第一个问题就是采集样本，然后才能作统计推断。
1、简单随机抽样
一般地，设一个总体的个体数为 N，如果通过逐个不放回地抽取的方法从中抽取一个样本，且每次抽取时各个个体被抽到的概率相等，就称这样的抽样为简单随机抽样。
注意以下四点：（1）它要求被抽取样本的总体的个体数有限；（2）它是从总体中逐个进行抽取；（3）它是一种不放回抽样；（4）它是一种等概率抽样。
分层抽样的抽取步骤：（1）总体与样本容量确定抽取的比例。（2）由分层情况，确定各层抽取的样本数。（3）各层的抽取数之和应等于样本容量。（4）对于不能取整的数，求其近似值。
4．三种抽样方法的比较
5．课堂练习
一个电视台在因特网上就观众对其某一节目的喜爱程度进行调查，参加调查的总人数为12000人，其中持各种态度的人数如下所示：
分层抽样的一个重要问题是一个总体如何分层。分层抽样中分多少层，要视具体情况而定。总的原则是：层内样本的差异要小，而层与层之间的差异尽可能地大，否则将失去分层的意义。
例 2 、一个单位的职工有 500 人，其中不到 35 岁的有 125 人， 35 ～ 49 岁的有 280 人， 50 岁以上的有 95 人。为了了解该单位职工年龄与身体状况的有关指标，从中抽取 100 名职工作为样本，应该怎样抽取？分析：这总体具有某些特征，它可以分成几个不同的部分：不到35岁；35～49岁；50岁以上，把每一部分称为一个层，因此该总体可以分为3个层。由于抽取的样本为100，所以必须确定每一层的比例，在每一个层中实行简单随机抽样。解：抽取人数与职工总数的比是100：500＝1：5，则各年龄段（层）的职工人数依次是125：280：95＝25：56：19，然后分别在各年龄段（层）运用简单随机抽样方法抽取。答：在分层抽样时，不到35岁、35～49岁、50岁以上的三个年龄段分别抽取25人、56人和19人。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

h 1
L
L
ˆ ) N 2 W 2V (Y ˆ) ˆ ) N V (Y V (Y st st h h
2 h 1
注意：总体总量的估计，完全可以由总体均值来推算，因为它们只
相差一个常数。
性质二（分层随机抽样）
ˆ 是Y的无偏估计，即 ˆ ) Y Y E ( Y st st
ˆ ) N V(y ) N V (Y st st
h 1
L
L
ˆ ) W 2V ( P ˆ ) V (P st h h
h 1
性质二（分层随机抽样）
pst 是P的无偏估计，即 E( pst ) P
PhQh V ( pst ) W V ( ph ) W (1 f h ) nh h 1 h 1
2 h 2 h L L
ph qh v( pst ) W v( ph ) W (1 f h ) nh 1 h 1 h 1
1

N 400 W2 2 0.14035 N 2850
f2
f3
n2 10 0.025 N 2 400
y2 105
s22 2166.667
s32 8205.556
2 s4 193.333
N 750 W3 3 0.26316 N 2850
n3 10 0.0133 N3 750
ˆ y W y Y h h st st
h 1
L
简单估计量：由于没有其他总体信息的，这也是总体的简单估计量。
性质一（一般的分层抽样）
• 对于一般的分层抽样，如果每层的均值都是无偏估计，则总体均值也是无偏估计。
ˆ ) E( W Y ˆ ) W E (Y ˆ) E (Y hh h h st
抽样调查课----分层抽样
单位: 浙江财经学院数统学院课程: 抽样调查课教师: 张锐
目录
一、分层抽样的概念二、估计量 • 简单估计 • 比率估计三、样本量的确定
一、分层抽样的概念
1、简单介绍 2、分层抽样的定义 3、符号说明 4、分层抽样的作用 5、分层抽样的原则
1、分层抽样简介
分层抽样(stratified sampling) （STR) 按一定原则，将总体分成若干明显不同的群体（子总体），每个子总体称为层，不同层之间是相互独立的，在每个层内进行抽样，将这些来自 “子总体”的样本全部汇总起来成为总体的样本。特点：各层之间有明显不同，注意到明显不同特性的群体在样本中的反映优点：组织实施方便；样本散布均匀；精度较高；数据处理简单。分层技术是应用上最为普遍的抽样技术之一。
所以
1 fh 2 v y st W v y h W sh nh h 1 h 1
L 2 h L 2 h
2、总体总量的估计
Y Yi
i 1
N
ˆ NY ˆ Y ˆ NY Y h h ˆh st
h 1 h 1
L
L
如果是分层随机抽样
N
Y Yi
单元总体：N h 样本单元数： nh 第i个单元标志值： yhi 层权：Wh n 抽样比：h Nh 1 h层总体均值： Yh Nh 1 h层样本均值： yh nh
2 h
Nh N
Y
i 1 nh i 1
Nh
hi
y
hi
1 Nh h层总体方差： S (Yhi Yh ) 2 N h 1 i 1 1 nh h层样本方差： s ( yhi yh ) 2 nh 1 i 1
2 h
4、分层抽样的作用
• 分层抽样的抽样效率比较高，也就是说分层抽样的估计精度高。 • 分层抽样不仅能对总体指标进行推算，而且能对各层指标进行推算。 • 层内抽样方法可以不同，而且便于抽样工作的组织。
5、分层原则：
• 1. 估计：层内单元具有相同性质，通常按调查对象的不同类型进行划分。 • 2. 精度：尽可能使层内单元的指标值相近，层间单元的差异尽可能大，从而达到提高抽样估计精度的目的。 • 3. 估计和精度：既按类型、又按层内单元指标值相近的原则进行多重分层，同时达到实现估计类值以及提高估计精度的目的。 • 4. 实施：抽样组织实施的方便，通常按行政管理机构设置进行分层。
h 1
L
L
L
h 1
ˆ ) V( W Y ˆ ) W 2V (Y ˆ) V (Y hh h h st
h 1 h 1
L
注意：这个性质说明，各层可以采用不同的抽样方法，只要相应的
估计量是无偏的，则对总体的推算也是无偏的。
性质二（分层随机抽样）
yst 是Y的无偏估计，即 E( yst ) Y
y3 165
y4 24
W4
N 4 1500 0.52632 N 2850
f4
n4 10 0.0067 N4 1500
ˆ N y Y h h
h 1
4
200 39.5 400 105 750 165 1500 24
2 2 2 1 fh 2 8 ˆ v Y N Wh v yh N h sh 5.93 10 nh h 1 h 1
二、估计量
1、简单估计量
– 总体均值的估计 – 总体总量的估计 – 总体比例的估计
2、比率估计量
– 分别比率估计 – 联合比率估计
一、简单估计量
总体均值的估计总体均值的期望总体均值的方差总体总量的估计总体均值的期望总体均值的方差总体比例的估计总体均值的期望总体均值的方差
E ( yst )
ˆ E(Yst )
V ( yst )
ˆ V (Yst )
E ( pst )V ( pst )
1、总体均值的估计
1 Y N
Y
i 1
N
N
i
L 1 L ˆ ˆ ˆ Yst WhYh N hY h N h 1 h 1
如果是分层随机抽样
1 Y N
Yi
i 1
ˆ 2 2 1 fh 2 V (Yst ) V ( yst ) Wh V ( yh ) Wh Sh nh h 1 h 1
L L
1 fh 2 v( yst ) W v( yh ) W sh nh h 1 h 1
L 2 h L 2 h
无偏性的证明
在一般分层抽样下
ˆ Y EY h h
第i个单元具有所考虑的特征其他
Y
i 1
N
i
Y pst Wh ph
h 1
L
由于没有其他总体信息的，这也是总体的简单估计量。
性质一（一般的分层抽样）
• 对于一般的分层抽样，如果每层都是无偏估计，则总体比例也是无偏估计。
ˆ ) W E ( P ˆ ) E(P st h h

209650
4
4
ˆ v Y ˆ 23208 s Y

ˆ ts Y

ˆ 209650 2 23208 Y
3、总体比例的估计总体比例的估计，是总体均值估计的一种特例，所以具有相同的特点。
1, Yi 0，则有 A 1 P N N
简单估计量：
估计量方差的证明
在一般分层抽样下
L L L L ˆ V W Y ˆ W 2V Y ˆ 2 ˆ ,Y ˆ VY W W Cov Y st h h h h h k h k h 1 k h h1 h1 L ˆ ˆ V Y W 2V Y

层居民户总数 1 1 2 200 400 10 50 2 40 130 3 0 60 样本户奶制品年消费支出 4 110 80 5 15 100 6 10 55 7 40 160 8 80 85 9 90 160 10 0 170
3
4
750
1500
180
50260Βιβλιοθήκη 3511015
0
0
140
20
60
i 1
ˆ Ny N W y Y st st h h
h 1
L
简单估计量：由于没有其他总体信息的，这也是总体的简单估计量。
性质一（一般的分层抽样）
• 对于一般的分层抽样，如果每层的均值都是无偏估计，则总体总量也是无偏估计。
ˆ ) N W E (Y ˆ) ˆ ) E ( NY E (Y h h st st
2 h 2 h
L
L
证明：因为是分层随机抽样样，所以 1 fh v ( ph ) ph qh nh 1 1 fh v( pst ) W v( ph ) W ph qh nh 1 h 1 h 1
L 2 h L 2 h
ph qh W (1 f h ) nh 1 h 1
例子
• 调查杭州的超市情况：分成大超市和小超市两层。如果在两层都独立进行简单随机抽样，则为分层随机抽样。如果在大超市一层中，先确定下沙物美必定抽样。则为一般分层抽样。
3、分层抽样的符号说明
h层指标
总体指标总体总量: N 总体层数：L 总体均值：Yst 总体总量：Yst 总体比例：Pst
L 2 h L L 2 h
1 2 N
2 L Nh ( N h nh ) PhQh PhQh 2 Wh (1 f h ) Nh nh nh h 1 h 1
性质二的证明：
ph qh v( pst ) W v( ph ) W (1 f h ) nh 1 h 1 h 1
30
200
25
180
10
300
30
220
25
N1 200 N 2850 W1 0.07018 N 2850 n1 10 f1 0.05 nh 10 N1 200 n1 n1 1 2 2 1 y1i y1 1624.722 y1 y1i 39.5 s1 n1 1 i 1 n i 1