第四章分层随机抽样
教育与心理统计学 第四章 抽样理论与参数估计考研笔记-精品
第四章抽样理论与参数估计第一节抽样理论的基本知识分层抽样,又叫分层随机抽样,这种抽样方法是按照总体已有的某些特征,承认总体中已有的差异,按差异将总体分为几个不同的部分,每一部分称为一个层,在每一个层中实行简单随机抽样。
它充分利用了总体的已知信息,因而是一种非常适用的抽样方法,其样本代表性及推论的精确性一般优于简单随机抽样。
分层的原则是层与层之间的变异越大越好,各层内的变异要小。
试述分层抽样的原则和方法?分层抽样是按照总体上已有的某些特征,将总体分成几个不同部分,在分别在每一部分中随机抽样。
分层的总的原则是:各层内的变异要小,而层与层之间的变异越大越好。
在具体操作中,没有一成不变的标准,研究人员可根据研究需要依照多个分层标准,视具体情况而定。
⑷两阶段随机抽样两阶段随机抽样首先将总体分成M个部分,每一部分叫做一个"集团"(或"群"),第一步从M个集团中随机抽取m个"集团”作为第一阶段样本,第二步是分别从所选取的m个"集团”中抽取个体(g构成第二阶段样本。
一般而言,两阶段抽样相对于简单随机抽样,标准误要大些,但是,两阶段抽样简便易行,节省经草贼,因而它是大规模调查研究中常被使用的抽样方法。
例如,如果我们要了解全国城市初中二年级学生的身高,第一步我们可以从全国几百个城市中随机抽取几十个城市作为第一阶段的样本。
第二步,在第一阶段随机抽取出来的城市中再随机抽取初中二年级的学生。
(二)非旃抽样非概率抽样不是完全按随机原则选取样本,有方便抽样、判断抽样。
方便抽样是由调查人员自由、方便地选择被调查者的非随机选样。
判断抽样是通过某些条件过滤,然后选择某些被调查者参与调查的抽样法。
当采取非概率抽样的方法选取样本时,研究者要说明采用此种方取样的原因以及对研究结果可能造成的影响。
第二节抽样分布[统计量分布、基本随机变量函数的分布]总体:又称母全体、全域,指具有某种特征的一类事物的全体。
2-1-3分层抽样4
1 L yst = ∑ Wh yh (或 = ∑ N h yh ) 或 N h =1 h =1 ~ 的无偏估计可选为: 总体总和 Y 的无偏估计可选为:
L
(4.2)
% yst = N ⋅ yst = N ⋅ ∑ Wh yh = ∑ N h yh
h =1 h =1
L
L
(4.3)
的方差为: 估计量 y st 的方差为: L Var ( yst ) = Var ( ∑ Wh yh ) 由于各个小盒子的抽样过程是相互独立的,故各个 yh相互 由于各个小盒子的抽样过程是相互独立的, 独立,由独立随机变量之和的方差计算公式, 独立,由独立随机变量之和的方差计算公式,有
含义 的层权 抽样比 总体均值 样本均值
记号 公式
Yh
yh
2 Sh
2 sh
∑Y
i =1
Nh
hi
= N hYh
∑y
i =1
nh
hi
= nh yh
(Yhi − Yh )2 ∑
i =1
Nh
( yhi − yh )2 ∑
i =1
nh
Nh −1
nh − 1
代表的 第 h 层的 第 h 层的 第 h 层的 第 h 层的 含义 总体总量 样本总量 总体方差 样本方差
h=1 i =1 L
h =1
L
(4.5)
(4.5)式两端各除以 -1),假如各层的单元数 N h都很大,当 式两端各除以(N- , 都很大, 式两端各除以 近似认为: 近似认为: N h ≈ N h − 1 ≈ N h = W (4.6) h
N −1
N −1
N
因此直接来自总体的简单随机抽样平均数的方差大约为: 因此直接来自总体的简单随机抽样平均数的方差大约为: L 1 1 L 2 2 Var ( y ) = ( − ) ∑ Wh Sh + ∑ Wh (Yh − Y ) (4.7) n N h =1 h =1 (4.7)式花括弧内第一项为各个小盒子方差的加权和,而第二 式花括弧内第一项为各个小盒子方差的加权和, 式花括弧内第一项为各个小盒子方差的加权和 项则表示了各小盒子之间的差异平方和。比较(4.4)和(4.7), 项则表示了各小盒子之间的差异平方和。比较 和 , 那么易见(4.4)式变为 若取 nh n = Wh ,那么易见 式变为 1 1 L 2 Var ( yst ) = ( − )∑ Wh S h n N h =1
第4章__抽样调查
4.1.3抽样误差的确定
❖1)抽样误差的概念
❖2)影响抽样平均误差的因素
1、全及总体标志变异程度 2、样本容量 3、抽样组织方式 4、抽样方法
❖3)降低调查误差的途径
1、提高样本的代表性
2、注重样本量的控制
3、提高抽样设计的效率 4、重视抽样方案的审评
5、努力降低调查员的误差 6、努力调查被调查者的误差
❖ (4)如果这一地区街对面从第一号开始都没有住户,在第一号对面的街区转 一圈,并遵循右手法则。(即按顺时针方向在街区转一圈。)试着沿路线每 隔两户访问一户。
❖ (5)在起始门牌号对面邻近的街区绕过一圈后,如果你没有完成所需的访问, 就按顺时针方向到下一个街区访问。
❖ (6)如果第三个街区的住户数不够完成你的任务,就再做几个街区直到要求 的户数完成为止;这些区要按顺时针方向绕原有的街区来找。
❖5)简单随机抽样方式的优缺点
随机抽样方式的优点
方法简单直观,当总体名单完整时,可直接从中随机抽取样本。由于 抽取概率相同,计算抽样误差及对总体指标加以推断比较方便。
随机抽样方式的缺点
尽管简单随机抽样在理论上是最符合随机原则的,但是在实际应用中 有一定的局限性。第一,采用简单随机抽样,一般需对总体各单位加以 编码,而实际市场调查活动中所需调查总体往往是十分庞大的,单位非 常多,逐一编码几乎是不可能的;第二,对于某些事物无法使用简单随 机抽样,如对连续不断产生的大量产品进行质量检验,就不能对全部产 品进行编号抽样;第三,当总体的标志变异程度较大时,简单随机抽样 的代表性就不如经过分组后再抽样的代表性高;第四,由于抽出样本单 位较为分散,所以调查人力、物力、费用消耗较大。
2)抽样调查的特征
❖(1)抽取样本的客观性 ❖(2)抽样调查可以比较准确地推断总体
第四章分层随机抽样
解: yst W1 y1 W2 y2
23560 15180 148420 9856 10585.39
171980
171980
3、分层随机抽样中,总体比例P的简单估计 设Ph的简单估计为ph,则
L
Wh 2
h1
•1 fh nh
Sh2
L
Wh 2
h1
•1 fh nh
•
Nh Nh 1
PhQh
10
层 居民
户总 数
1
样本户奶制品年消费支出 23456789
1 200 10 40 0 110 15 10 40 80 90 0 2 400 50 130 60 80 100 55 160 85 160 170 3 750 180 260 110 0 140 60 200 180 300 220 4 1500 50 35 15 0 20 30 25 10 30 25
4627
42
45岁以上
5366
50
总计
35050
320
试估计总体中会计算机者占的比例。
样本中会使 用计算机的
人数
24 12
22
11
4
解:
5
(1) pst Wh ph 0.2286
h1
(2)v( pst )
5
Wh2 (1
h1
fh)
ph (1 ph ) nh 1
0.000534
(3)P置信度为95%的置信区间为:
Vmin ( yst )
L Wh2Sh2
n h1
h
L Wh2Sh2 h1 N
L
( WhSh
h1
L
ch )( WhSh / h1
分层抽样要求
比较定额抽样,与分层抽样有何区别?
①分类②确定每类抽选比例③主观抽样
第四章 分层抽样
2.分层抽样不仅能对总体指标进行推算, 而且能对各层指标进行推算。
有时调查的目的不仅要推算总体指标,可能 还要推算各层的指标。
第四章 分层抽样
在不重复抽样下,根据前一章公式可知
2 xi
1
fi
(第 i层单位数占总体
单位数的比重)
则:
Xˆ
K
Wi xi
第四章 分层抽样
二、分层抽样简单估计的抽样标准误
如果我们对总体方差 进2 行分解,可得
2
2 i
2 P
即
总体方差=平均层内方差+层间方差
我们知道,纯随机抽样的抽样误差,是按总体 方差计算的,对于分层抽样,由于对各层而言 是全面调查,故层间不存在抽样误差问题。所 以,其抽样方差等于平均层内方差。
二、使用场合与分层原则
第四章 分层抽样
根据分层抽样的特点,分层除了可以提供子总 体指标和便于调查的组织实施外,通常,使用分 层抽样的主要目的是为了提高估计的精度。为充 分利用分层抽样的特点,在一项抽样调查项目中 ,往往反复使用分层抽样方法。
在对层进行具体划分时,通常考虑如下原则:
1.层内单元具有相同性质。
通常按调查对象的不同类型进行划分。这时, 分层抽样能够对每一类的目标量进行估计。
第四章 分层抽样
2.使层间单元的差异尽可能大。从而达到提 高抽样估计精度的目的。
3.既按类型又按层内单元标志值相近的原则 进行多重分层,同时达到实现估计层值以及提 高估计精度的目的。
分层抽样
L
ˆ) Wh 2V (Y h
h 1
性质2 对于分层随机抽样, Yst 是 Y 的无偏估计, Yst 的方差为: L L 1 fh 2 2 V yst Wh V yh Wh2 Sh
h 1 h 1
nh
2 2 2 L L W S W S 1 1 2 ( )Wh2 S h h h h h Nh nh N h 1 nh h 1 h 1 L
L
h 1
y st . ˆ Rc x st
对于分层随机抽样的联合比估计,若总样本量
n
比较大,则有 E ( y RC ) Y
MSE ( y RC ) V ( y RC ) Wh2 (1 f h ) 2 2 ( S yh R 2 S xh 2 R h S yh S xh ) nh h 1
i 1
nh
第h层总体方差
2 1 S Yhi Yh N h 1 i 1 2 h
Nh
nh 1 2 第h层样本方差: s 2 yhi yh h nh 1 i 1
简单估计量
一、总体均值的估计
在分层抽样中,对总体均值 Y 的估计是通过对各层的 Y h 的估计,按层权 W 加权平均得到的。公式为:
L
ˆ ) MSE (YRS ) V (Y RS
L
2 Nh (1 f h ) 2 2 2 ( S yh Rh S xh 2 Rh h S yh S xh ) nh h 1
2 2 S yh , S xh , h , Rh 分别为第h层指标Y和X的方差、相关系数以
及比率估计量。
证明:当 nh
比较大时,有
E ( y Rh ) Yh
[高等教育]现代社会调查 第四章 抽样
3.分层抽样
——又称类型抽样,它是先将总体中的所有单位按某种特征或标 志(如性别、年龄、职业或地域等)划分成若干类型或层次,然后 再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取 一个子样本,最后,将这些子样本合起来构成总体的样本。 操作方法:
将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地
特点 简单随机抽样 一阶段抽样 系统抽样
分层抽样
整群抽样 多阶段抽样 多段抽样 PPS抽样
样本一次直接从 总体中抽出
样本分多阶段从 总体中抽出
17
1.简单随机抽样
——是概率抽样的最基本形式,它是按等概率原则直 接从含有N个元素的总体中随机抽取n个元素组成样本 (N>n)。
常用方法:直接抽样法、抽签法、随机数表法
25
当抽样间距(K=N/n)不是整数时:
循环等距抽样法 A+K A A+2K
A+3K
A+4K
A+(n-1)K
调整直线等距抽样 如:N=2580, n=300, 则K=8.6
……
调整:在1-86之间选择整数的随机起点,如27;将小数 点调回,得到非整数的随机起点2.7,由此得到号码:2.7, 11.3, 19.9, 28.5,……。将小数点后面的部分略去,就是迁 中单位的号码:2, 11, 19, 28, …… 26
抽5个区
抽4个区 抽3个区
抽12所学校
抽10所学校 抽10所学校
每所学校抽20名教师
每所学校抽30名教师 每所学校抽40名教师
方案8
方案9
根据抽取对象的具体方式的不同,把抽样分为概率抽 样和非概率抽样。
6
抽样的类型
第四章 抽样技术
• (五)多阶段抽样
– 含义:multistage sampling-----即先抽大的调 查单元,在大单元中抽小单元,再在小单元 中抽更小的单元。如:我国的城市职工家计 调查,采用三阶段抽样,先城市-基层单位调查户。
第四章 抽样技术
– 应用:在复杂、大规模的市场调查中。
• (六)抽样技术的选用原则
• (四)常用术语
– 1.总体(population)与样本(sample) – 2.总体指标和样本指标
• 总体指标-------反映总体数量特征的指标,有总 体平均数µ,总体比例P, 总体方差 σ 2
第四章 抽样技术
– 样本指标------又称样本估计量或统计量,用 以估计和推断相应总体指标的综合指标,有 样本平均数 x ,样本比例p ,样本方差S2。
第四章 抽样技术
• 成数------分总体成数与样本成数 • 含义------总体中具有某种特征的单位占全部单 位的比例,称总体成数(总体比例) • 如:产品的合格率,市场占有率等。 • 样本成数的抽样分布
– 当从总体中抽出一个容量为n的样本时,样本中具有 某种特征的单位数x服从二项分布,即有x~B(n, π),且 有E(x)=n π V(x)=n π(1- π). – 因而样本比例p=x/n也服从二项分布,且有: – E(p)=E(x/n)= π – V(p)=V(x/n)=1/n π(1- π)
第四章 抽样技术
第四章 抽样技术
第四章 抽样技术
本章要点
• 1.抽样调查的含义、特点与程序; • 2.随机抽样技术的类型及其各自的特点、 方法; • 3.非随机抽样技术的类型及其各自的特 点、方法; • 4.抽样误差的含义及其计算方法 。
第四章 抽样技术
第四章 抽样
• 3.设计抽样方案 • 4.制定抽样框
– 制定抽样框就是依据已经明确界定的总体范围,收集总体中全部抽样单位 的名单,并统一编号。
• 5.实际抽取样本 • 6.样本评估
– 样本评估就是对样本的质量和代表性进行检验,其目的是防止因样本的偏 差过大而导致的失误。
– 实际抽取样本就是在上述几个步骤的基础上,严格按照所选定的抽样方法, 从抽样框中抽取一个个的抽样单位,构成样本。
运用:
• 从侨光分校的7000位学生中,抽取100位学 生进行调查查,以研究学生对学校教学条 件的满意度。之前所做的普查表现出的对 学校教学条件的平均满意度为85%,现通 过抽查统计后的满意度为80%。 • 请说出本次抽查中的总体、样本、抽样元 素、抽样单位、抽样框、参数值、统计值、 抽样误差。
二、抽样的作用
• 分类抽样有着突出的优点: 第一,分类抽样能够克服简单随机抽样的缺 点,适用于总体内个体数目较多,结构较复杂, 内部差异较大的情况。 第二,精确度较高。 第三,便于对不同层面的问题进行探索。 第四,便于分工,使工作效率提高。 分类抽样的缺点是,如何分类通常由人们主 观判定,因此要求调查者具备较高的素质与能力, 并且必须事先对总体各单位的情况有较多的了解, 而它们在实际工作中有时难以完全实现,这就会 影响分类的科学性和精确性。
三、抽样的类型
• 概率抽样 • 非概率抽样
– 根据抽取对象的具体方式,人们把抽样分为许多不同 的类型。总的来说,各种抽样都可以归为概率抽样与 非概率抽样两大类。这是两种有着本质区别的抽样类 型。概率抽样是依据概率论的基本原理,按照随机原 则进行的抽样,因而它能够避免抽样过程中的人为误 差,保证样本的代表性;而非概率抽样则主要是依据 研究者的主观意愿、判断或是否方便等因素来抽取对 象,它不考虑抽样中的等概率原则,因而往往产生较 大的误差,难以保证样本的代表性。 概率抽样与非概率抽样又各自包括了许多具体类 型。分别适用于不同调查对象。联系实际认识概率抽 样的不同类型及其适用性是掌握抽样方法的关键。
分层随机抽样(课件)
i1 ;w i1
i1 .
M N
mn
• 探究 与考察简单随机抽样估计效果类似, 小明也想通过多次抽样考察一
•下分层随机抽样的估计效果. 他用比例分配的分层随机抽样, 从高一年级的学生中抽取 了10个样本量为50的样本, 计算出样本平均数如下表所示. 与上一节“探究”中相同样本量 的简单随机抽样的结果比较,小明有了一个重要的发现. 你是否也有所发现?
100
100
1.分层抽样
当已知总体由差异明显的几部分组 成时,为了使样本更充分地反映总体的 情况,常将总体分成几个部分,然后按 照各部分所占的比例进行抽样,这种抽 样叫做“分层抽样”,其中所分成的各 部分叫作“层”.
解:(1)男生应抽取 100 490 49人,女生应抽取 100 510 51人.
490 510
490 510
∴样本平均数为 49 70.2 51 160.8 165.4(cm).
100
100
(2) 应按(1)的方法进行改进更合理,即高二年级全体学生的平均身高估计为
49 170.2 51 160.8 165.4(cm).
9.1.2分层随机抽样
温故知新
1、简单随机抽样
简单随机抽样 :
设一个总体的个体数为 N。如果通过逐个抽取的方 法从中抽取一个样本,且每次抽取时各个个体被抽到 的概率相等,就称这样的抽样为简单随机抽样。
[注]简单随机抽样有以下特点: (1)它要求被抽取样本的总体的个体数是有限的; (2)它是从总体中逐个地进行抽取; (3)它是一种不放回的抽样; (4)它是一种等概率抽样。(为什么?)
抽样序号
1
2
3
4
5
6
7
8
9 10
第四章分层随机抽样
第四章分层随机抽样第一节分层随机抽样概述分层抽样也叫做类型抽样,它是实际工作中最常用的抽样技术之一。
分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),后在各层内分别独立地进行抽样。
由此所抽得的样本称之为分层样本。
各层所抽的样本也是互相独立的。
如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。
由此所得到的样本称做分层随机样本。
从以上概念可以看出,分层抽样的实质是在各层间作全面调查,而在各层内作抽样调查。
因此,分层抽样的误差只与各层内的差异有关,而同各层间的差异无关。
所以,为了能有效地降低抽样误差,提高抽样效果,在分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。
进行分层抽样时应注意:①层内抽样设计的选择;②分层变量的选择;③各层样本量的分配;④层数;⑤层的分界。
以前只重视③,近年来,④和⑤引起了越来越多的关注。
同简单随机抽样相比,分层抽样具有以下特点:①分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。
但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。
②在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。
由于分层抽样的误差只与层内差异有关,而与层间差异无关,因此,分层抽样可以提高估计量的精度。
③由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。
④分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。
⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。
因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。
⑥分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人们对总体作更全面、更深入的了解。
分层抽样
第四章 抽样
知识点7 分层抽样
学习导航
分层抽样
分层抽样的定义 分层抽样的优点 分层的标准 按比例分层和不按比例分层
1. 分层抽样的定义
分层抽样又称类型抽样,它是先将总体中的 所有元素按照某种特征或标志(如性别、年 龄、职业或地域等)划分成若干类型或层次 ,然后再在各个类型或层次中采用简单随机 抽样或系统抽样的办法抽取一个子样本,最 后,将这些子样本合起来构成总体的样本。
2. 分层抽样的优点
优点2:便于了解总体内不同层次的情况,便于对总 体中不同层次进行单独研究,或者进行比较。
3. 分层的标准
已有明显层次区分的变量; 把分析和研究的主要变量或相关的变量作为分层的标准; 保证各层内部同质性强和各层之间的异质性强。
思考:在“大学生价值观念研究”层
例如,某工厂有工人500人,男性有450人,女性有 50人,男女比例为9:1,样本为100人。 按比例分层抽样,男性90人,女性10人。 不按比例的方法进行分层抽样,男性70人,女性30 人。
THE END
谢 谢 观 看!
专业、家庭背景
4. 按比例分层和不按比例分层
按比例分层是根据统一的比例来确定各层要抽取的 元素数。即通常用各类型组的元素数占总体元素数 的比例,来确定各层抽样的样本元素数。 不按比例分层就是不根据各类型组的元素数占总体 元素数的比例,来确定各层抽样的样本元素数。
4. 按比例分层和不按比例分层
例:某县共有农户30万户,其中纯务农户10万户、 兼业户15万户、纯务工户5万户,问如何使用按比例 分层抽样抽取3000户进行家庭状况调查? N=300000户 n=3000户 统一的抽样比例为:n/N=3000/300000=1/100,按照 要求,三种农户类型分别抽取的样本元素数为: n1(纯农户)=100000×1%=1000(户) n2(兼业户)=150000×1%=1500(户) n3(纯务工户)=50000×1%=500(户)
04-第四章_分层随机抽样
思考:
y st =
1 L å nh y h 可以作为总体均值 Y 的无偏估计量吗? n h =1
而总体总量 Y 的估计直接采用各层总量估计的总和:
ˆ ˆ = åY Y st h
h =1
L
ˆ = N Y h ,则 如果每个 Y h h ˆ = åY ˆ = å N Y h = N å W Y h = N Y st Y st h h h
且由于各层的抽样是相互独立的,因此
Ù L Ù L Ù
Ù
V (Y st ) = V (å Wh Y h ) = å W V (Y h )
h =1 L h =1 2 h
ˆ ) = V (å Y ˆ ) = å V (Y ˆ) V (Y st h h
h =1 h =1
L
(2)对于分层随机抽样 对于分层随机抽样,由简单随机抽样简单估计量的性质,不难得到相 应简单估计的性质。 先给出结论:
过程如下:
ˆst ) = E ( N Y st ) = NE (Y st ) = NE ( y ) = N Y = Y E (Y st
Ù
Ù
6
ˆ ) = V ( N Y st ) V (Y st = N 2V (Y st ) = N 2V (å Wh y h )
h =1 L Ù
Ù
= N 2 å Wh2V ( y h )
h =1 L
L
= N 2 å Wh2
h =1
2 Sh n (1 - h ) nh Nh
2 L ˆ ) = N 2 å W 2 sh (1 - nh ) v(Y st h nh Nh h =1
注意到
1 nh s = ( yhi - y h )2 å nh - 1 i =1
第4章_分层抽样
是第h层总体及样本中具有所考虑特征的单元数, 是第 h 层总体及样本中具有所考虑特征的单元数 ,
则总体比例P的估计为: 则总体比例P的估计为:
pst = ∑ h P W h
h= 1
L
第二节
简单估计量及其性质
(二)估计量的性质 如果定义
, i 单 具 所 虑 特 1 第个 元 有 考 的 征 Yi = , i =1 ,2, , N 他 0, 其
L 2 h
第二节
简单估计量及其性质
为调查某地区住户的平均家庭成员数, 【例4.1】为调查某地区住户的平均家庭成员数,将该地区 分成城市和乡村2 每层按简单随机抽样抽取10 10户 分成城市和乡村2层,每层按简单随机抽样抽取10户,调查所 获得的数据如表4 获得的数据如表4-1。请估计该地区住户的平均家庭成员数及 95%的置信区间。 其95%的置信区间。
( )
st
值得强调的是,在分层抽样中只要对各层估计是无偏的, 值得强调的是,在分层抽样中只要对各层估计是无偏的,则对 总体的估计也是无偏的。因此,各层可以采用不同的抽样方法, 总体的估计也是无偏的。因此,各层可以采用不同的抽样方法, 只要相应的估计量是无偏的,则对总体的推算也是无偏的。 只要相应的估计量是无偏的,则对总体的推算也是无偏的。
st
Y
的无偏估计, 的无偏估计,
ˆ V Y = N2V Yst = ∑ Yh V ˆ
h=1 L L 2 2 h h 2 h
( ) ( ) ˆ ˆ = N ∑ V (Y ) = ∑N V (Y ) W
( )
L
h=1
h=1
h
第二节
简单估计量及其性质
性质 5
对于分层随机抽样, 的方差为: 对于分层随机抽样,Y 的方差为:
04分层抽样
二、分层随机抽样
2. 估计 Y
L
估计量 Yˆst N yst Nh yh , 是 Y 的U.E. ;
h 1
L
方差 V (Yˆst ) Nh2V ( yh )
h 1
L h 1
Nh(Nh
nh )
Sh2 nh
;
方差的一个U.E.
v( yst )
L h 1
Nh(Nh
L h1
nh i 1
yhi (
y)
V ( yst )
L
Wh2
h1
1 fh nh
Sh2
L h1
nh n
1 f nh
Wh Sh2
1 n
f
L
Wh Sh2
h1
v( yst )
L
Wh2
h1
1 fh nh
sh2
1 n
f
L
Wh sh2
h1
一、比例配置
P 的估计
P Y
L Nh h1 N
1 Nh
Nh
Yhi
i 1
L
WhPh ,其中 Ph
h1
1 Nh
Nh
Yhi 。
i 1
记第 h 层样本中具有属性C的单元所占比例为 Pˆh ,即
Pˆh
1 nh
nh i 1
yhi 。
4. 比例的估计
估计量
L
pst Wh ph , 是 P 的U.E.; h1
常见的分配方式:
(1) 随意配置 (2) 比例配置(proportional allocation) (3) 最优配置(optimal allocation)
第四章 抽样调查
p
p1 p
n
0.2 0.8 0.02 400
即:根据样本资料推断全部学生中戴眼镜的学 生所占的比重时,推断的平均误差为2%。
例: :
一批食品罐头共60000桶,随机抽查300桶,发 现有6桶不合格,求合格品率的抽样平均误差?
解: 已知 N 60000 n 300 n1 6
解:
x xf 12600 126件 f 100
s x x 2 f 4144 6.47件
f 1
99
x
s 2 1 n n N
6.472 1 100 0.614件
100 1000
x
通过例题可说明以下几点:
①样本平均数的平均数等于总体平均数。 ②抽样平均数的标准差仅为总体标准差的 1
n
③可通过调整样本单位数来控制抽样平均误差。
例:假定抽样单位数增加 2 倍、0.5倍时, 抽样平均误差怎样变化?
解:抽样单位数增加 2 倍,即为原来的 3 倍
则:
x
3n
1 0.577 3
二、抽样调查的特点
1、 是专门组织的一次性的非全面调查 2、 抽选样本单位遵循随机原则 3、 用样本指标数值去推断总体指标数值 (与重点调查的区别) 4、 抽样误差可计算并控制在一定范围内 (与典型调查的区别)
三、抽样调查的几个基本概念 (一) 全及总体和抽样总体
全及总体 指研究对象的全体。其单位数 (总体) 用N 表示。
即:当根据样本学生的平均体重估计全部学生的平均 体重时,抽样平均误差为1公斤。
例: 某厂生产一种新型灯泡共2000只,随机抽出 400只作耐用时间试验,测试结果平均使用寿 命为4800小时,样本标准差为300小时,求抽 样推断的平均误差?
第四章 分层抽样
如果得到是分层随机样本,则总体均值 Y的简单估计量为 1 yst Wh yh N h 1
L
N
h 1
L
h
yh
(二)估计量的性质
1.对于一般的分层抽样,如果Y h 是Y h 的无偏估计(h =1, , ,L) 2
Y st 是 Y 的无偏估计, st 的方差是 Y V (Y st ) Wh2V (Y h )
L 2 h L
1 f n
2 Wh S h h 1
L
p prop的方差为 1 f V ( p prop ) Nn
2 N h Ph Qh 1 f N 1 n h 1 h L
W P Q
h 1 h h
L
h
二、最优分配
• 在分层随机抽样中,如何将样本量分配到各层, 使得在总费用给定的条件下,估计量的方差达到 最小,或在给定估计量方差的条件下,使总费用 最小,能满足这个条件的样本量分配就是最优分 配。 • 考虑简单线性费用函数,总费用
h 1 L
(二)估计量的性质
如果定义 1, 第i个单位具有所考虑特征 Yi 2 0,其他(i=1,, ,N) 则对总体比例的估计类似对总体均值的估计, 这是pst 与Y st 具有同样的性质. 1.对于一般的分层抽样,如果ph 是Ph的无偏估计, 则pst 是P的无偏估计,pst的方差为 V ( pst ) Wh2V ( ph )
第四章 分层抽样
本章教学目的与要求
• 正确理解层与分层抽样的含义、特点及作 用; • 掌握分层抽样的估计量及其性质; • 掌握分层抽样样本量的确定方法; • 了解分层抽样的设计效果; • 了解分层抽样其他理论问题,包括层权偏 差、最优分配偏差、事后分层等。
分层随机抽样及获取数据的途径
随堂演练
1.某校高三年级有男生500人,女生400人,为了解该年级学生的体重状况,从男生中
随机抽取25人,从女生中随机抽取20人进行调查.这种抽样方法是
√A.分层随机抽样
B.抽签法
12345
课堂小结
1.知识清单: (1)分层随机抽样. (2)获取数据的途径. 2.方法归纳:数据分析. 3.常见误区:在分层随机抽样中,每个个体被抽到的可能性相等,与层数及分层 无关,每一层的抽样一般采用简单随机抽样.
√D.通过查询获取数据
12345
5.某校高二年级化生史组合只有2个班,且每班50人,在一次数学测试中,从两个班 抽取了20名学生的数学成绩进行分析,统计得在该次测试中,两班中各抽取的20名学 生的平均成绩分别为110分和106分,则该组合学生的平均成绩约为___1_0_8__分. 解析 样本中 40 名学生的平均分为2400×110+2400×106=108 分, 所以估计该组合学生的平均分约为108分.
A.9
B.10
C.12
√D.13
解析 ∵630=120+n80+60,∴n=13.
12345
3.某校选修乒乓球课程的学生中,高一年级有30名,高二年级有40名.现用分层随机抽
样的方法在这70名学生中抽取一个样本,已知在高一年级的学生中抽取了6名,则在
高二年级的学生中应抽取的人数为
A.6
√B.8
C.10
体中抽取的样本合在一起作为 总样本 ,这样的抽样方法称为分层随机抽样. (1)每一个子总体称为层,在分层随机抽样中,如果每层样本量都与层的大小成比例, 那么称这种样本量的分配方式为 比例分配 .
04第四节分层抽样
L h
ˆ) V ( Y 式中 h 是第h层总体均值估计量的方差。
对于分层随机抽样,则有:
L 1 fh 2 1 1 2 S h Wh 2 ( V ( y st ) Wh )S h nh nh N h h h
hi
第 h 层的总体均值;
1 yh nh
2 h
y
hi
第 h 层的样本均值; 第 h 层的总体方差; 第 h 层的样本方差。
1 Nh 2 S ( Y Y ) hi h N h 1 i 1
1 nh s ( y hi yh ) 2 nh 1 i 1
2 h
L Nh
Y = y hi 为总体总量;
Ph (1 Ph ) N h ( N h nh ) nh h
L
h
四、方差的估计量 按上述方法确定估计量的方差时,要求各层的总体方差应 事先已知,但实际工作中,各层的总体方差又常常是未知 的,此时,一般可用对应的各层样本方差替代,以对估计 量的方差作出估计。
此时:
l 1 fh 2 Wh sh 1 L 2 ˆ V ( yst ) Wh sh Wh sh nh nh N h h h L 2
h
L
为各层内成数方差的平均。
(二)最优分配 1、一般情形 在分层随机抽样中,在给定的费用条件下,使估计量的方 差达到最小,或在精度要求(常用方差表示)一定条件下, 使总费用最小的各层样本量的分配称为最优分配。 在分层随机抽样中,费用函数可能是简单线性的,也可能 是其它复杂形式,这里主要考虑简单线性的费用函数:
课件4:9.1.2 分层随机抽样~9.1.3 获取数据的途径
6
11
−
5
11
×
=12,解得n=1
10
320.
.
三
分层随机抽样的方案设计
【例4】一个单位有职工500人,其中不到35岁的有125人,35岁
至49岁的有280人,50岁及50岁以上的有95人.为了了解这个单位
职工与身体状态有关的某项指标,要从中抽取100名职工作为样
本,职工年龄与这项指标有关,应该怎样抽取?
于它充分利用了已知信息,因此利用它获取的样本更具有代表
性,更能充分反映总体的情况,在实践中的应用也更广泛.
三、分层随机抽样的实施步骤
(1)根据已经掌握的信息,将总体分成互不相交的层;
(2)根据总体中的个体数N和样本量n计算抽样比k= ;
(3)确定第i层应该抽取的个体数目ni≈Ni×k(Ni为第i层
知识”的学习情况.现将这40名科级干部分为正科级干部组和副
科级干部组,利用同一份试卷分别进行预测.经过预测后,两组
各自将预测成绩统计分析如下表
分组
人数
平均成绩
正科级干部组
aห้องสมุดไป่ตู้
80
副科级干部组
b
70
(1)求a,b;
(2)求这40名科级干部预测成绩的平均分.
ഥ
【解】
40
1
(1)样本量与总体中的个体数的比为
2. 问题:①有1 000个乒乓球分别装在3个箱子内,其中红色箱子
内有500个,蓝色箱子内有200个,黄色箱子内有300个,现从中
抽取一个容量为100的样本;②从20名学生中选出3名参加座谈会.
方法:Ⅰ简单随机抽样;Ⅱ分层随机抽样.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章分层随机抽样第一节分层随机抽样概述分层抽样也叫做类型抽样,它是实际工作中最常用的抽样技术之一。
分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),后在各层内分别独立地进行抽样。
由此所抽得的样本称之为分层样本。
各层所抽的样本也是互相独立的。
如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。
由此所得到的样本称做分层随机样本。
从以上概念可以看出,分层抽样的实质是在各层间作全面调查,而在各层内作抽样调查。
因此,分层抽样的误差只与各层内的差异有关,而同各层间的差异无关。
所以,为了能有效地降低抽样误差,提高抽样效果,在分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。
进行分层抽样时应注意:①层内抽样设计的选择;②分层变量的选择;③各层样本量的分配;④层数;⑤层的分界。
以前只重视③,近年来,④和⑤引起了越来越多的关注。
同简单随机抽样相比,分层抽样具有以下特点:①分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。
但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。
②在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。
由于分层抽样的误差只与层内差异有关,而与层间差异无关,因此,分层抽样可以提高估计量的精度。
③由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。
④分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。
⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。
因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。
⑥分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人们对总体作更全面、更深入的了解。
但对各层的估计缺乏精度保证。
⑦分层抽样调查实施中的组织管理及数据收集和汇总处理可以分别在各层内独立地进行,因此较之简单随机抽样更方便。
⑧分层抽样中,由于各层的抽样相互独立,互不影响,且各层间可能有显著的不同,因此,对不同层可以按照具体情况和条件分别采用不同的抽样和估计方法进行处理,从而提高估计的精确度。
⑨当总体有周期现象时,用分层比例抽样法可以减少抽样方差。
⑩分层抽样中在进行分层时,需收集可用于分层的必要的各种资料,因此可能会增加一定的额外费用。
同时,分层抽样中,总体参数的估计以及各层间样本量的分配、总样本量的确定等都更为复杂化。
通常,在满足下述条件时,分层在精度上会有很大的得益:①总体是由一些大小差异很大的单元组成的,即总体差异大;②分层后,每层所包含的总体单元数应是可知的,也即分层后各层的权重是确知的或可以精确估计的;③要调查的主要变量(标志)与单元的大小是密切相关的;④对单元的大小有很好的测量资料可用于分层,也即分层变量容易确定。
第二节 总体参数的估计一、有关符号的涵义 在分层抽样中,我们用各种符号来区别各种不同情况,熟悉了这些符号所代表的确切内涵,对于我们系统地掌握抽样推断的一系列方法是十分重要的。
因此,这里先集中对各有关符号的涵义作一解释;L表示分层的层数;h 表示层的编号(h =1,2,3,…,L); N表示总体容量;Nh 表示第h 层的总体容量;Wh =Nh /N表示第h 层的层权,是已知的或要事先确定; n 表示样本容量;n h 表示第h 层的样本容量;f h =n h /Nh 表示第h 层的抽样比;hi y 表示第h 层每i 个单元的观测值;Y =∑∑==L N i y 1h 1hi h为总体总量;y =∑∑==Li y1h n 1hih为样本总量;Y =NY为总体均值; h Y =∑=h1hi y N i 为第h 层的总体总量;h1hi h hh N y N h∑===N i Y Y 为第h 层的总体均值; h y =hn 1hin yh∑=i 为第h 层的样本均值;nyy =为样本均值; 21h hih2h)(y1h∑=-=N i Y N S 为第h 层的总体方差;)(11h 1hi h 2hhy y n s n i --=∑=为第h 层的样本方差; P为总体成数;Ph 为第h 层的总体成数;h p 为第h 层的样本成数;Ph (1-Ph )为第h 层的总体方差;h p (1-h p )为第h 层的样本方差。
二、估计量在简单随机抽样中,样本均值是总体均值的无偏估计。
在分层抽样中,仍用样本均 值∑∑===L 1h 1i hi hy 1n n y来估计总体均值Y ,在一般情况下是否合理,先看下面的例子。
例:总体由1000人组成,按以往收入情况分成两层,第一层(高收入层)20人;第二层(低收入层)980人。
从第一层随机抽2人,调查上月收入得1200和1600元;从第二层抽8人,上月收入分别为220、230、180、320、400、340、280及360元。
估计这1000人的月收入。
如果用样本均值1036022016001200++++=y =513(元)来估计总体平均值Y 显然偏高。
若先分别算出这两层的样本均值1y =1400元,2y =291.25元,用100025.291980140020⨯+⨯=313.43(元)来估计Y 就合理多了。
由此,分层抽样的估计量可按如下方式来构造: 1、总体均值的估计量在分层抽样中,总体均值Y 的估计量一般用st y 表示,它是各层总体均值h Y 的估计量按层权h W 的加权平均,即Y N YW y Y Lst ˆN 1ˆˆL1h h1h h ∑∑=====一般情况下:st y ≠y = ∑Lh1st y n在分层随机抽样中,h y 是h Y 的无偏估计量,即Y ˆ=h y ,因此,∑=Lhh W y y st也是Y 的无偏估计量。
2、总体总和Y的估计量有了总体均值的估计量,就可推出总体总和的估计量∑==Lhhh N ˆy y N Y st st 3、总体比例P 的估计量若令⎩⎨⎧=类个单元不属于层第,若第类个单元属于层第,若第c i h c i h y 01hi 则P Y =,h h P Y =,h p y st =.按照总体均值估计量的公式,可推出总体比例(成数)P的估计量为:h hhh h h ˆˆp W P W P L Lst ∑∑==可以证明,在分层随机抽样中,sty Y 的无偏估计量,st Y ˆ是Y的无偏估计量,stP ˆ是P的无偏估计量。
三、估计量的方差1、总体均值估计量的方差对于一般的分层抽样,由于各层的抽样是相互独立的,诸hˆY 也相互独立,因此总体均值Y 估计量的方差是总体各层均值估计量方差的加权平均,即∑==Lhh 2h )ˆ(W )()ˆ(Y V y v Y V stst 式中)ˆ(hY V 是第h 层总体均值估计量的方差。
对于分层随机抽样,则有:=)(st y V ∑-L h2h h h 2hn 1W S f =∑-L S N n W h2h hh 2h )11(=∑∑-LS N n S W hL h 2h h h 2h 2h W 1=h2hhh h h 2)(1n S n N N NL-∑ 可见,在分层抽样中,总体均值估计量的方差只与各层内的方差有关,而同层间方差无关。
而总体方差又是由层内方差与层间方差两部分构成的。
所以,估计量的方差小于总体方差。
2、总体总和估计量的方差有了总体均值估计量的方差,就可推导出总体总和估计量的方差:∑==Lstst Y V N Y V N Y V h h 2h 2)ˆ()ˆ()ˆ( 对于分层随机抽样,则有:∑∑-=-=Lhh 2h h h h 2h hh h 2h)(N 1)ˆ(n Sn N S n f N Y V Lst 3、总体比例估计量的方差估计总体比例,当h N 充分大时,有:∑=Lhh2h )ˆ()ˆ(P V W P V st 对于分层随机抽样,则有:=)ˆ(stP V ∑--Lhh h h h 2h )1(n 1W P P f (1h h -≈N N ) =∑--Ln P P n N N Nhhh h h h h 2)1()(1四、方差的估计量按上述方法确定估计量的方差时,要求各层的总体方差应事先已知,但实际工作中,各层的总体方差又常常是未知的,此时,一般可用对应的各层样本方差替代,以对估计量的方差作出估计。
此时:∑∑∑-=-=Lh 2h h l hh 2h 2h h Lh h h 2hW 1W n 1W )(ˆs N n s s f y V st =∑-Lhh 2hhh h 2)(N 1n s n N N, ∑-==Lst st n s n N N y V N Y V hh 2h hh h 2)()(ˆ)ˆ(ˆ )(ˆst y V 与)ˆ(ˆst Y V 分别是)(st y V 与)ˆ(stY V 无偏估计。
当用样本资料估计方差)ˆ(stP V 时,可将 hh)h n 1(P P -用1)1(h h h --n p p 替代,则得:∑---=Lst n p p f W P V hh h h h2h 1)1()1()ˆ(ˆ =∑---Lhh h h h h h 21)1()(1n p p n N N N)ˆ(ˆst P V 是)ˆ(stP V 的无偏估计。
第三节 总样本量的分配一、总样本量在各层间的分配在分层抽样中,一个重要的问题是总的样本量如何在各层之间进行分配。
通常考虑:⑴精度和费用问题。
即如何分配才能在费用一定时使总的精度和各层估计精度最高?⑵数据处理问题。
即如何分配才能使调查数据的处理工作更加简洁,也使估计量及其方差的确定形式更为简单明了?⑶各层的容量大小问题。
结合上述考虑,总样本量在各层间分配时可采用如下方法: (一)比例分配在分层抽样中,若各层的抽样比都相同,即f h =f ,则称总样本量为按比例分配。
此时Nnn =h h N 所以h hh NW N n n ==,因此,h h nW n =。
(h n 应取整) 比例分配最早是由鲍利于1926年提出的,比例分配主要考虑了各层单元数多少的差异。
比例分配时,总体中任一单元的入样概率都相等,都为f=n/N 。
由此所得到的样本称为是自加权的或等加权的。
在这种情况下∑∑=====L n i st st y nn y Y 1h 1hi h 1y 1ˆ, ky y n N y N Y stst ===ˆ, (nN k =为常数) 即st Y ˆ或stY ˆ为所有样本最基本单元观测值总和的一个常数倍。
这样的估计量也称为自加权的。