抽样调查第4章 分层抽样
抽样调查-Ch4 分层抽样-1-029
. Solution (Continued) . ¯ yst 与 ¯ y 的比较 ¯ y = (15180 × 300 + 9856 × 250)/(300 + 250) = 12760, ¯ yst = 10585.39.
.
判断哪个估计更合理? 为什么?
15 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
2 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.1.1 定义与实施方法 4.1.2 特点
4.1 分层随机抽样及实施方法
背景 简单随机抽样是最基本的抽样手段, 在一些小型的抽样调查 (总体容量N 较小) 中被人们采纳. 当总体容量 N 较大时, 不 便采用简单随机抽样方法. 这时, 分层抽样将起到作用. 定义 将总体按一定的原则分成若干互不重叠且穷尽的子总体, 每 个子总体称为层 (stratum), 在每个层内进行抽样, 不同层的 抽样相对独立, 称为分层抽样(stratified sampling). 若每层中的抽样都是按简单随机抽样进行的, 称为分层随机 抽样.
W1 = N1 /N = 0.137, W2 = N2 /N = 0.863. . ¯ yst y2 = 0.137 × 15180 + 0.863 × 9856 = 10585.39. y1 + W 2 ¯ = W1¯
13 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.2.1 参数估计 4.2.2 估计的性质 4.2.3 例题
若实际调查了 18 个工人, 10 个技术人员, 2 个行政人员, 其损失的工时 数如下: 工人 8,24,0,0,16,32,6,0,16 7,4,4,9,5,8,18,2,0 技术人员 4,5,0,24,8, 12,3,2,1,8 行政管理人员 1,8
2-1-3分层抽样4
1 L yst = ∑ Wh yh (或 = ∑ N h yh ) 或 N h =1 h =1 ~ 的无偏估计可选为: 总体总和 Y 的无偏估计可选为:
L
(4.2)
% yst = N ⋅ yst = N ⋅ ∑ Wh yh = ∑ N h yh
h =1 h =1
L
L
(4.3)
的方差为: 估计量 y st 的方差为: L Var ( yst ) = Var ( ∑ Wh yh ) 由于各个小盒子的抽样过程是相互独立的,故各个 yh相互 由于各个小盒子的抽样过程是相互独立的, 独立,由独立随机变量之和的方差计算公式, 独立,由独立随机变量之和的方差计算公式,有
含义 的层权 抽样比 总体均值 样本均值
记号 公式
Yh
yh
2 Sh
2 sh
∑Y
i =1
Nh
hi
= N hYh
∑y
i =1
nh
hi
= nh yh
(Yhi − Yh )2 ∑
i =1
Nh
( yhi − yh )2 ∑
i =1
nh
Nh −1
nh − 1
代表的 第 h 层的 第 h 层的 第 h 层的 第 h 层的 含义 总体总量 样本总量 总体方差 样本方差
h=1 i =1 L
h =1
L
(4.5)
(4.5)式两端各除以 -1),假如各层的单元数 N h都很大,当 式两端各除以(N- , 都很大, 式两端各除以 近似认为: 近似认为: N h ≈ N h − 1 ≈ N h = W (4.6) h
N −1
N −1
N
因此直接来自总体的简单随机抽样平均数的方差大约为: 因此直接来自总体的简单随机抽样平均数的方差大约为: L 1 1 L 2 2 Var ( y ) = ( − ) ∑ Wh Sh + ∑ Wh (Yh − Y ) (4.7) n N h =1 h =1 (4.7)式花括弧内第一项为各个小盒子方差的加权和,而第二 式花括弧内第一项为各个小盒子方差的加权和, 式花括弧内第一项为各个小盒子方差的加权和 项则表示了各小盒子之间的差异平方和。比较(4.4)和(4.7), 项则表示了各小盒子之间的差异平方和。比较 和 , 那么易见(4.4)式变为 若取 nh n = Wh ,那么易见 式变为 1 1 L 2 Var ( yst ) = ( − )∑ Wh S h n N h =1
【抽样调查】分层随机抽样
【抽样调查】分层随机抽样第2部分:分层随机抽样⽬录概述分层随机抽样的思路:当N ,n 都较⼤,总体单元之间的差异也较⼤时,简单随机抽样会出现⾼成本、低精度情形,解决⽅法是将总体划分为若⼲个⼦总体、减少总体单元之间的差异。
假设在各个⼦总体内已经满⾜实施简单随机抽样的条件,则可以在各个⼦总体内独⽴地进⾏简单随机抽样,再将各个⼦总体参数的估计值进⾏加权,得到总体参数的估计。
分层抽样的概念:层:如果⼀个包含N 个单位的总体可以分成不重不漏的L 个⼦总体,即每个单元必定属于且仅属于⼀个⼦总体,则这样的⼦总体称为层。
有N 1+⋯+N L =N 。
分层抽样:在每⼀层中独⽴进⾏抽样,总的样本由各层样本组成,总体参数⼜按照各层样本参数的汇总作出估计。
有n 1+⋯+n L =n 。
分层随机抽样:每层的样本,都独⽴地按照简单随机抽样进⾏,这样的分层抽样称为分层随机抽样。
符号规定:h :层。
从⽽N h 代表第h 层的单位总数,n h 代表第h 层的样本数。
i :层内单位号。
从⽽Y hi 代表第h 层第i 个总体单元,y hi 代表第h 层第i 个样本单元。
W h :层权,即W h =N h N 。
f h :层内抽样⽐,即f h =n hN h 。
¯Yh,Y h,S 2h:层内总体参数(均值、总值与⽅差)。
¯y h ,y h ,s 2h:层内样本参数(样本均值、样本总值与样本⽅差)。
简单估计量分层抽样⾸先根据各层的样本,计算出各层均值¯Y h的适当估计值ˆ¯Y h ,然后再使⽤总体层权加权平均,得到总体均值¯Y 的估计,即ˆ¯Y st =L∑h =1W h ˆ¯Y h =1N L∑h =1N h ^¯Y h .对于分层随机抽样,每⼀层的ˆ¯Y h就是h 层的样本均值¯y h ,即ˆ¯Y st =L∑h =1W h ¯y h =1N L∑h =1N h ¯y h .注意这⾥的线性形式。
第4章__抽样调查
4.1.3抽样误差的确定
❖1)抽样误差的概念
❖2)影响抽样平均误差的因素
1、全及总体标志变异程度 2、样本容量 3、抽样组织方式 4、抽样方法
❖3)降低调查误差的途径
1、提高样本的代表性
2、注重样本量的控制
3、提高抽样设计的效率 4、重视抽样方案的审评
5、努力降低调查员的误差 6、努力调查被调查者的误差
❖ (4)如果这一地区街对面从第一号开始都没有住户,在第一号对面的街区转 一圈,并遵循右手法则。(即按顺时针方向在街区转一圈。)试着沿路线每 隔两户访问一户。
❖ (5)在起始门牌号对面邻近的街区绕过一圈后,如果你没有完成所需的访问, 就按顺时针方向到下一个街区访问。
❖ (6)如果第三个街区的住户数不够完成你的任务,就再做几个街区直到要求 的户数完成为止;这些区要按顺时针方向绕原有的街区来找。
❖5)简单随机抽样方式的优缺点
随机抽样方式的优点
方法简单直观,当总体名单完整时,可直接从中随机抽取样本。由于 抽取概率相同,计算抽样误差及对总体指标加以推断比较方便。
随机抽样方式的缺点
尽管简单随机抽样在理论上是最符合随机原则的,但是在实际应用中 有一定的局限性。第一,采用简单随机抽样,一般需对总体各单位加以 编码,而实际市场调查活动中所需调查总体往往是十分庞大的,单位非 常多,逐一编码几乎是不可能的;第二,对于某些事物无法使用简单随 机抽样,如对连续不断产生的大量产品进行质量检验,就不能对全部产 品进行编号抽样;第三,当总体的标志变异程度较大时,简单随机抽样 的代表性就不如经过分组后再抽样的代表性高;第四,由于抽出样本单 位较为分散,所以调查人力、物力、费用消耗较大。
2)抽样调查的特征
❖(1)抽取样本的客观性 ❖(2)抽样调查可以比较准确地推断总体
分层抽样要求
比较定额抽样,与分层抽样有何区别?
①分类②确定每类抽选比例③主观抽样
第四章 分层抽样
2.分层抽样不仅能对总体指标进行推算, 而且能对各层指标进行推算。
有时调查的目的不仅要推算总体指标,可能 还要推算各层的指标。
第四章 分层抽样
在不重复抽样下,根据前一章公式可知
2 xi
1
fi
(第 i层单位数占总体
单位数的比重)
则:
Xˆ
K
Wi xi
第四章 分层抽样
二、分层抽样简单估计的抽样标准误
如果我们对总体方差 进2 行分解,可得
2
2 i
2 P
即
总体方差=平均层内方差+层间方差
我们知道,纯随机抽样的抽样误差,是按总体 方差计算的,对于分层抽样,由于对各层而言 是全面调查,故层间不存在抽样误差问题。所 以,其抽样方差等于平均层内方差。
二、使用场合与分层原则
第四章 分层抽样
根据分层抽样的特点,分层除了可以提供子总 体指标和便于调查的组织实施外,通常,使用分 层抽样的主要目的是为了提高估计的精度。为充 分利用分层抽样的特点,在一项抽样调查项目中 ,往往反复使用分层抽样方法。
在对层进行具体划分时,通常考虑如下原则:
1.层内单元具有相同性质。
通常按调查对象的不同类型进行划分。这时, 分层抽样能够对每一类的目标量进行估计。
第四章 分层抽样
2.使层间单元的差异尽可能大。从而达到提 高抽样估计精度的目的。
3.既按类型又按层内单元标志值相近的原则 进行多重分层,同时达到实现估计层值以及提 高估计精度的目的。
分层抽样
2 3
400 750
4 1500
50
35
15
0
20
30
25
10
30
25
解: N = 200+400+750+1500=2580 nh =10( h=1,2,3,4) 各层的层权及抽样比为:
N1 200 W1 0.07018 N 2850 N 400 W2 2 0.14035 N 2850 N 750 W3 3 0.26316 N 2850 N 4 1500 W4 0.52632 N 2850
三、符号说明
关于第h层的记号如下:
第二节 估计量
一.总体均值的估计 (一)简单估计量的定义 对于分层样本,对总体均值Y 的估计是通过对各层的Yh 的估计, 按层权 Wh 加权平均得到的。 公式为:
1 ˆ ˆ Yst WhYh N h 1
L
ˆ N Y hh
h 1
L
如果得到的是分层随机样本,则总体均值 Y 的简单估 计为:
f1 n1 10 0.05 N1 200
n2 10 f2 0.025 N2 400 f3 f4 n3 10 0.013 3 N3 750 n4 10 0.006 7 N4 150 0
各层样本均值及样本方差为:
1 y1 y1i 39.5 n1 i 1 y2 105 y3 165 y4 24
y 15180 300 9856 250 / 550 1)简单估计量的定义 总体比例P的估计为:
L
pst Wh ph
h 1
(二)估计量的性质 如果定义 1, 第i个单元具有所考虑的特征 Yi , 其他 i=1,2 … N 0
第四章 抽样
• 3.设计抽样方案 • 4.制定抽样框
– 制定抽样框就是依据已经明确界定的总体范围,收集总体中全部抽样单位 的名单,并统一编号。
• 5.实际抽取样本 • 6.样本评估
– 样本评估就是对样本的质量和代表性进行检验,其目的是防止因样本的偏 差过大而导致的失误。
– 实际抽取样本就是在上述几个步骤的基础上,严格按照所选定的抽样方法, 从抽样框中抽取一个个的抽样单位,构成样本。
运用:
• 从侨光分校的7000位学生中,抽取100位学 生进行调查查,以研究学生对学校教学条 件的满意度。之前所做的普查表现出的对 学校教学条件的平均满意度为85%,现通 过抽查统计后的满意度为80%。 • 请说出本次抽查中的总体、样本、抽样元 素、抽样单位、抽样框、参数值、统计值、 抽样误差。
二、抽样的作用
• 分类抽样有着突出的优点: 第一,分类抽样能够克服简单随机抽样的缺 点,适用于总体内个体数目较多,结构较复杂, 内部差异较大的情况。 第二,精确度较高。 第三,便于对不同层面的问题进行探索。 第四,便于分工,使工作效率提高。 分类抽样的缺点是,如何分类通常由人们主 观判定,因此要求调查者具备较高的素质与能力, 并且必须事先对总体各单位的情况有较多的了解, 而它们在实际工作中有时难以完全实现,这就会 影响分类的科学性和精确性。
三、抽样的类型
• 概率抽样 • 非概率抽样
– 根据抽取对象的具体方式,人们把抽样分为许多不同 的类型。总的来说,各种抽样都可以归为概率抽样与 非概率抽样两大类。这是两种有着本质区别的抽样类 型。概率抽样是依据概率论的基本原理,按照随机原 则进行的抽样,因而它能够避免抽样过程中的人为误 差,保证样本的代表性;而非概率抽样则主要是依据 研究者的主观意愿、判断或是否方便等因素来抽取对 象,它不考虑抽样中的等概率原则,因而往往产生较 大的误差,难以保证样本的代表性。 概率抽样与非概率抽样又各自包括了许多具体类 型。分别适用于不同调查对象。联系实际认识概率抽 样的不同类型及其适用性是掌握抽样方法的关键。
第四章分层抽样
0.0263
v( p4)
(1
f
4
)
p4q4 n4 1
0.0099
第23页,本讲稿共72页
因此该地区居民拥有家庭电脑比例的估计为
pst
4
Wh ph
h1
1 N
4
Nh ph
h1
1 (2000.24000.27500.415000.1) 2850
0.2
第24页,本讲稿共72页
估计量的方差为
v ( p st )
二、最优分配
• 由此得出下面的行为准则:如果某一层单 位数较多,内部差异较大,费用比较省, 则对这一层的样本量要多分配一些。这样 得到的估计量方差称为最优方差。
第32页,本讲稿共72页
三、尼曼分配
• 对于分配随机样本,做为特例,如果每层抽样的
费用相同,即 c h c 时,最优分配可简化为
nh n
-
y prop
L
Wh
h 1
yh
L
h 1
nh n
yh
L nh h1 n
1 nh
nh i1
yhi
1 L nh
1n
n h1 i1 yhi n i1 yi y
总 体 比 例 P的 估 计 量
pprop
p
1 n
L
ah
h 1
第28页,本讲稿共72页
• 因为总体中的任一个单位,不管它在哪一层,都以同 样的概率入样,因此按比例分配的分层随机样本,估
• (一)简单估计量的含义
记层比例为P h
Ah Nh
,Qh
1
Ph ,
层
样
本
比
例 ph
ah nh
抽样技术第4章分层抽样
4.7 事后分层
在实际当中,有时进行事先分层会存在 一定的困难。 1.各层的抽样框无法得到。 2.几个变量都适合于分层,而要进行事先的 多重交叉分层存在一定困难。 3.总体规模太大,事先分层太费事等。 在这种情况下,就可以考虑采用事后分层 技术。
事后分层的具体实施办法是:先采用简
单随机抽样的方法从总体中抽取一个样本
第四章 分层抽样
4.1 什么是分层抽样
在例2.4中我们用简单随机抽样估计每 个郡的平均农场面积。我们提到,即使我 们认真细致地产生了一个随机样本,还是 有一些地区被过分代表,而另一些则根本 没有代表。例4.1用分层抽样保持分层变量 在样本中的均衡,从而使得总体得到全面 的估计。
使用分层抽样的理由: 1.我们要防止得到一个很差的样本。
分层抽样比例
如我们在2.3中所观察到的一样,比例是取
值为0到1之间的一个变量的均值,为了得
到比例的推断,我们用等式(4.1)—
(4.5),其中
,
,
则有
估计总体单元的总数有一个特别相似的性质:
因此,总体单元的总数估计量是每层总数估
计量之和 。类似有
。
例4.3 美国团体学习委员会(ACLS)用分层随 机抽样在七门学科中选取ACLS中的团体研究出版 物格局和属于这些团体的学者使用电脑和图书馆 的情况。数据见表4.2.
单元数。这样第h层中第j个单元入样的概率
为
。因此,抽样权重只是抽样概率
的倒数:
(4.8)
抽样权重之和等于总体容量N,每个抽样单 元代表一特定数量的总体单元。因此,整 个样本代表整个总体。这个定义可以用于 检验权重变量是否正确:如果样本权重之 和是其它的数,而不是N,那么肯定有某个 地方出错了。 总体总数的估计量可以写成以下形式:
分层抽样
第四章 抽样
知识点7 分层抽样
学习导航
分层抽样
分层抽样的定义 分层抽样的优点 分层的标准 按比例分层和不按比例分层
1. 分层抽样的定义
分层抽样又称类型抽样,它是先将总体中的 所有元素按照某种特征或标志(如性别、年 龄、职业或地域等)划分成若干类型或层次 ,然后再在各个类型或层次中采用简单随机 抽样或系统抽样的办法抽取一个子样本,最 后,将这些子样本合起来构成总体的样本。
2. 分层抽样的优点
优点2:便于了解总体内不同层次的情况,便于对总 体中不同层次进行单独研究,或者进行比较。
3. 分层的标准
已有明显层次区分的变量; 把分析和研究的主要变量或相关的变量作为分层的标准; 保证各层内部同质性强和各层之间的异质性强。
思考:在“大学生价值观念研究”层
例如,某工厂有工人500人,男性有450人,女性有 50人,男女比例为9:1,样本为100人。 按比例分层抽样,男性90人,女性10人。 不按比例的方法进行分层抽样,男性70人,女性30 人。
THE END
谢 谢 观 看!
专业、家庭背景
4. 按比例分层和不按比例分层
按比例分层是根据统一的比例来确定各层要抽取的 元素数。即通常用各类型组的元素数占总体元素数 的比例,来确定各层抽样的样本元素数。 不按比例分层就是不根据各类型组的元素数占总体 元素数的比例,来确定各层抽样的样本元素数。
4. 按比例分层和不按比例分层
例:某县共有农户30万户,其中纯务农户10万户、 兼业户15万户、纯务工户5万户,问如何使用按比例 分层抽样抽取3000户进行家庭状况调查? N=300000户 n=3000户 统一的抽样比例为:n/N=3000/300000=1/100,按照 要求,三种农户类型分别抽取的样本元素数为: n1(纯农户)=100000×1%=1000(户) n2(兼业户)=150000×1%=1500(户) n3(纯务工户)=50000×1%=500(户)
第4章 抽样调查技术要点
抽样调查
• 时间短、效率高,投入资源较少
• 调查结果的正确性较高,但是获取 的信息全面性不如普查
细性要求高时可采用这种方法,比如
人口普查,农业普查、企业员工整体 素质普查等。
• 可以通过统计推断技术来估计调查
总体的各项指标,是企业经常使用 的调查研究方法。
抽样调查的定义
抽样调查又称样本调查,是指按照随机原则,
几种概率抽样方法的选择与比较
对抽样误差大小的要求:
抽样误 差大小
• 有关标志值排队的系统抽样方式误差最小; • 分层抽样、按无标志值排队的系统抽样方式其次; • 简单随即抽样和整群抽样方式误差较大。 调查对象本身特点的要求:
调查对 象特点
• 有无总体的全面、详细的资料,如果没有就无法 按有关标志值排队进行系统抽样; • 与对调查对象了解的程度 也有关系。 人、财、物和事件等各种调查条件的要求: • 样本的分散程度大、调查往返的时间长和费用大的情况 下可以考虑整群抽样。
系统抽样的方法,将士兵的编号按班排序(每班10
人),进行抽样,从1号开始抽取,接下来是11号、
21号„„,调查发现士兵对待战争的积极性很高。但
是经过对样本进行研究发现,被抽到的士兵都是每班
的班长,样本的代表性就有问题了!
分层抽样
分层抽样,是指先将调查总体的所有个体按某一重要标志进行
分类(分组),然后在各类(组)中采用简单随即抽样或系统
配额抽样
配额抽样也叫定额抽样,是指将总体中的各单位按 一定的标准划分为若干个类别,将样本数额分配到
个类别中,在规定的数额内由调查人员任意抽选样
本。 配额抽样可分为独立控制配额抽样和相互控制配 额抽样两类。
的样本个体数。 非等比分层抽样主要在于减低各层之间的标准差,使母 非等比分层抽样适用于各层之间相差悬殊或标准差相差较 体平均数的估计更加精确。 大的情况。
抽样调查方法与技术:分层抽样
第一节 概述
• 四、符号说明
• 设总体分为L层,下标h表示层号(h=1,2,…
,L)。则关于第h层的记号如下:
L
•
第h层总体单元数:
N
(通常已知),且
h
L
Nh N
h 1
• 第h层样本单元数: nh,且
nh n
h 1
• 第h层总体第i个单元标志值(观察值) : Yhi
• 第h层第i个样本单元标志值(观察值): yhi
i 1
•
第h层总体方差:
S
2 h
1 Nh 1
Nh i 1
Yhi Yh
2
•
第h层样本方差:sh2
1 nh 1
nh
yhi
i 1
yh 2
第二节 简单估计量及其性质
• 一、总体均值的估计
• (一)简单估计量的定义
• 在分层抽样中,对总体均值 的Y估计是通
过对各层的 的Y估h 计,按层权 加W权h 平均得 到的。公式为:
• 值得强调的是,在分层抽样中只要对各层估
计是无偏的,则对总体的估计也是无偏的。因此
,各层可以采用不同的抽样方法,只要相应的估
计量是无偏的,则对总体的推算也是无偏的。
• 一、总体均值的估计
• (二)估计量的性质
•
性质2 对于分层随机抽样, , 的Ys方t 差为:
Y是st
的Y无偏估计
V
yst
第一节 概述
• 二、分层抽样的原则(层的划分原则) (一)层内单位具有相同性质:通常按不同类型
划分。(这样)便于对子总体估计。 (二)层内单位差异小,层间差异大。从变量值
看。便于提高估计精度。(Δ) (三)通常按行政管理机构设置分层。便于组织
04第四章 分层抽样
W S 1 =∑ h h nh N h
L
2
2
1 2 Wh S h = 2 ∑ N h
L
S N h (N h nh ) h ∑ nh h
L
2
可见,在分层抽样中,总体均值估计量的方差只与各层 内的方差有关,而同层间方差无关.而总体方差又是由 层内方差与层间方差两部分构成的.所以,估计量的方 差小于总体方差. 2,总体总和估计量的方差 有了总体均值估计量的方差,就可推导出总体总和估计 量的方差:
第 h 层的总体均值;
1 yh = nh
2 h
∑y
hi
第 h 层的样本均值; 第 h 层的总体方差;
1 Nh S = (Yhi Yh ) 2 ∑ N h 1 i =1
1 nh s = ∑ ( yhi yh ) 2 nh 1 i =1
2 h
L Nh
第 h 层的样本方差.
Y = ∑∑ y hi 为总体总量;
此时:
l L ( y ) = ∑ W 1 f h s = ∑ Wh s h 1 ∑ W s 2 V st h h h h nh nh N h h h L 2 2 2
1 = 2 N
2
s N h ( N h nh ) h ∑ nh h
L
L
2
s V (Yst ) = N V ( y st ) = ∑ N h ( N h n h ) h nh h
h
L
为各层内成数方差的平均.
(二)最优分配 1,一般情形 在分层随机抽样中,在给定的费用条件下,使估计量的方 差达到最小,或在精度要求(常用方差表示)一定条件下, 使总费用最小的各层样本量的分配称为最优分配. 在分层随机抽样中,费用函数可能是简单线性的,也可能 是其它复杂形式,这里主要考虑简单线性的费用函数:
04分层抽样
二、分层随机抽样
2. 估计 Y
L
估计量 Yˆst N yst Nh yh , 是 Y 的U.E. ;
h 1
L
方差 V (Yˆst ) Nh2V ( yh )
h 1
L h 1
Nh(Nh
nh )
Sh2 nh
;
方差的一个U.E.
v( yst )
L h 1
Nh(Nh
L h1
nh i 1
yhi (
y)
V ( yst )
L
Wh2
h1
1 fh nh
Sh2
L h1
nh n
1 f nh
Wh Sh2
1 n
f
L
Wh Sh2
h1
v( yst )
L
Wh2
h1
1 fh nh
sh2
1 n
f
L
Wh sh2
h1
一、比例配置
P 的估计
P Y
L Nh h1 N
1 Nh
Nh
Yhi
i 1
L
WhPh ,其中 Ph
h1
1 Nh
Nh
Yhi 。
i 1
记第 h 层样本中具有属性C的单元所占比例为 Pˆh ,即
Pˆh
1 nh
nh i 1
yhi 。
4. 比例的估计
估计量
L
pst Wh ph , 是 P 的U.E.; h1
常见的分配方式:
(1) 随意配置 (2) 比例配置(proportional allocation) (3) 最优配置(optimal allocation)
第四章 抽样方法
非概率抽样的用途是有限的, 因为抽选单元的倾向性不允许对调 查总体进行推断。然而非概率抽样 快速简便,对探索性研究很有用, 特别是在市场调查中应用非常广 泛。。
一、非概率抽样
非概率抽样是用主观的(非随机 的)方法从总体中抽选单元,是一种 快速、简易且节省的从总体中选取 样本单元的方法。
它假定总体是同质的,即总体单元 都相似。比如“街道拦截”访问法。
2.志愿者抽样
被调查者都是志愿者。 例如具有特定病情的人参加某些医疗
实验;打电话参与广播或电视节目的 人;抽选参加焦点座谈或深入访问的 人。
3.判断抽样
由专家有目的地抽选有代表性的样本。 它适用于探索性研究,
如:抽选参加焦点座谈或深入访谈的 人,但不宜用在试调查中。
果。 有时,非概率抽样是唯一可行的选择。
例如,在医学实验中,采用志愿者抽样 可能是取得数据的唯一途径。
非概率抽样常被用于抽选参加焦 点座谈和深入访问的个人。
另一个能较好发挥非概率抽样作 用的例子是预研究。
非概率抽样的优点是:
快速简便; 费用相对较低; 不需要抽样框; 对探索性研究和调查的设计开发很有用。
简单随机样本(图示)
简单随机抽样在实际抽样中应用很 少,常被用作评估其他抽样方法的 效率的标准。
抽样的误差是通过其抽样方差来测 量的,如果一种抽样方法的抽样方 差比另一种抽样方法的抽样方差小, 我们就称这种抽样方法更有效率 (统计效率)。
与其他抽样技术相比,简单随机抽样 有以下优点:
是最简单的抽样技术;
假定一个总体有六个农场,我们 要估计这个农场总体的总支
出。假定我们已知每个农场的规模 (以公顷计的农场大小),为便于说明, 进一步假定我们已知它们的支出。
第四章 抽样调查
p
p1 p
n
0.2 0.8 0.02 400
即:根据样本资料推断全部学生中戴眼镜的学 生所占的比重时,推断的平均误差为2%。
例: :
一批食品罐头共60000桶,随机抽查300桶,发 现有6桶不合格,求合格品率的抽样平均误差?
解: 已知 N 60000 n 300 n1 6
解:
x xf 12600 126件 f 100
s x x 2 f 4144 6.47件
f 1
99
x
s 2 1 n n N
6.472 1 100 0.614件
100 1000
x
通过例题可说明以下几点:
①样本平均数的平均数等于总体平均数。 ②抽样平均数的标准差仅为总体标准差的 1
n
③可通过调整样本单位数来控制抽样平均误差。
例:假定抽样单位数增加 2 倍、0.5倍时, 抽样平均误差怎样变化?
解:抽样单位数增加 2 倍,即为原来的 3 倍
则:
x
3n
1 0.577 3
二、抽样调查的特点
1、 是专门组织的一次性的非全面调查 2、 抽选样本单位遵循随机原则 3、 用样本指标数值去推断总体指标数值 (与重点调查的区别) 4、 抽样误差可计算并控制在一定范围内 (与典型调查的区别)
三、抽样调查的几个基本概念 (一) 全及总体和抽样总体
全及总体 指研究对象的全体。其单位数 (总体) 用N 表示。
即:当根据样本学生的平均体重估计全部学生的平均 体重时,抽样平均误差为1公斤。
例: 某厂生产一种新型灯泡共2000只,随机抽出 400只作耐用时间试验,测试结果平均使用寿 命为4800小时,样本标准差为300小时,求抽 样推断的平均误差?
第4章-抽样设计
9
第一节 抽样设计的基本概念
市场调研
二、抽样调查的相关概念
1、全及总体——人们想要认识的对象的全体,它是构成 它的所有个体的集合,也称为总体。(常用 N 表示)
2、抽样总体——由总体中抽取的部分个体构成,具有对
总体的代表性,也称为样本。(常用 n 表示) 3、抽样单元——组成样本的互不重叠的基本单位,也称
49
40
9
2
调查研究总体:美国全体选民
调查访问样本:2000名选民
13
第一节 抽样设计的基本概念
市场调研
抽样调查的特点
(1)调查方式的科学性
(2)调查费用的经济性
(3)获取资料的及时性
(4)调查结果的准确性和全面性
(5)应用范围的广泛性
任何样本都无法完全代表总体,永远存在抽样误差。
14
第二节 抽样调查方法
23
第二节 抽样调查方法
市场调研
N=90,n=10, 则:K=90/10 =9;设k=6
1 11 21 31 41 51 61 71
2 12 22 32 42 52 62 72
3 13 23 33 43 53 63 73
4 14 24 34 44 54 64 74
5 15 25 35 45 55 65 75
7
第一节 抽样设计的基本概念
市场调研
3、重点调查
在调查总体中,针对一部分处于十分重要地位 的单位进行的非全面市场调查,以尽快估计调查总 体的基本情况。 重点调查的特点
(1)便于尽快了解调查对象的基本情况;
(2)在人、财、物和时间上比较节省;
8
第一节 抽样设计的基本概念
市场调研
4、抽样调查
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
估 值 法 (一 )
练习1 为调查某地区住户的平均家庭成员数,将该地 去分为城市和乡村2层,每层按照简单随机抽样抽取 10户。调查数据如表。 估计该地区住户的平均家庭成员数及其95%的 置信区间。
组合比估计 组合回归估计
组合比估计 (Ratio combined)
组合比估计的含义
有辅助变量X用于估值分析的,先分别对各层进 行简单估计,再用比估值法获得目标指标量的估计
§4.1 估值法(一) §4.2 估值法(二)—— 组合比估计和回归估计 §4.3 样本量的分配 §4.4 与简单随机抽样之比较 §4.5 如何适当分层 §4.6 后分层估计和定额抽样
分层抽样的提法 估值法(一)
分层抽样的提法 (Stratified sampling)
分层抽样的步骤
将总体 ( N )分成互不相交的 K个子总体 分层:
分层抽样的提法
分层抽样的问题
如何分层 1N1 Y21 , , Y2 N 2 YK 1 , , YKN K
y11 , , y21 , , yK 1 , , y1n1 y 2 n2 y Kn K
N
i 1
K
i
N
n
i 1
K
i
n
Ni Wi N
ni wi n
ij
Ni 1 ni Yi Yij Yi Yi / Ni yi fi ni Ni j 1 ni 1 2 si2 ( y y ) ij i ni 1 j 1
y
j 1
ni
Y Yij
比估计与回归估计小结
当Y与X高度相关时,采用比估计和回归估计都 是有效的。在选择估计方法时,有以下原则:
(1)由于分别估计(分别比或者分别回归估计)要求各层的样 本量都比较大,所以当某些层的样本量不够大时,建议采用联合估 计。 (2)当回归系数需要由样本进行估计时,回归估计是有偏的, 尤其当样本量较小的时候,采取联合比估计更好。 (3)如果各层的样本量都比较大,每层的比估计或回归估计有 效,此时用分别比估计,方差更小。 (4)如果各层的样本量不大,各层的Ri差异较小,采用联合估计。 (5)如果各层的Ri之间的差别不是太大,而且并不是每层的样本 量都相当大,采用联合估计。 (6)如果各层的回归系数都接近于1,则可采用差估计。
i 1
若b是事先指定的常数, yLS是Y的无偏估计, 其均方偏差为
1 fi 2 2 2 V ( y Ls ) Wi ( S Yi bi S Xi 2bi i SYi S Xi ) ni i 1
K 2
ni 1 f 1 2 2 i [( yij yi ) bi xij xi ] v( y Ls ) Wi ni ni 2 i 1 j 1 K
其中V ( yRC ),V ( xst )分别是估计量yRC,xst的均方偏差.
组合比估计
当分层抽样的样本分配合理, 且xst 0(不依赖与n)时
1 (1) E ( y RC Y ) O n
1 1 (2) E ( y RC Y ) E ( yst Rxst ) O 3 / 2 O 3 / 2 n n K 2 1 fi 2 2 Wi ( SYi R 2 S Xi 2 Ri SYi S Xi ) ni i 1
2 W i K
1 fi 2 2 2 V ( yLC ) Wi (SYi 2 BC i S Xi SYi BC S Xi ) ni i 1
K 2
ni 1 f 1 2 i v( yLC ) Wi 2 ( y y ) b ( x x ) ij i C ij i n n 1 i 1 j 1 i i K
组合回归估计
分别回归估计与组合回归估计的比较
1 fi 2 Vmin ( yLC ) Vmin ( yLS ) Wi S Xi ( Bi BC ) 2 ni i 1
K 2
除非各层Bi 相同, 否则最佳选取系数的分别回归估计优于 组合回归估计
仅当层数较多,而各层只有较小的样本量时,才推荐使 用组合回归估计.
K 2
2 由于比估计适合的场合( i SYi S Xi Ri S Xi )通常比较小,上
式一般大于零,分别比估计通常比组合比估计更精确.
仅当层数较多,而各层只有较小的样本量时,才推荐使 用组合比估计.
分别回归估计
分别回归估计 K
y Ls Wi [ y i bi ( X i xi )]
ˆ ) W 2V (Y ˆ) V (Y i i st
i 1 K
估 值 法 (一 )
系 1 当各层独立抽取的都是 简单随机样本,且每层 的Yi用简单估值时 , 则估计量
yst Wi yi
i 1
K
是Y的无偏估计 , 其均方偏差为
1 V ( yst ) Wi (1 f i ) Si2 ni i 1
1 fi 2 K 2 1 fi 2 2 Vmin ( y Ls ) Wi SYi Wi S Xi Bi ni ni i 1 i 1
K 2
组合回归估计
组合回归估计
yLC yst b( X xst )
若b是事先指定的常数, yLC是Y的无偏估计, 其均方偏差为
K 2
1 fi 2 K 2 1 fi 2 2 Vmin ( yLC ) Wi SYi Wi S Xi BC ni ni i 1 i 1
K 2
组合回归估计
1 fi s xyi ni 1 实践中以bC i 代替BC,有 K 2 1 fi 2 Wi s xi ni i 1
K
( N ) ( Ni )
i 1
N Ni
i 1
K
抽样: 从每层抽取一个样本构成总的样本 K
y , y
i1
i2
,, yini , i 1,2,, K
n ni
i 1
采用分层抽样的理由
可同时对子总体进行参数估计 便于组织实施,可根据各层特点采用不同抽样方式 可使样本在总体中分布均匀,从而具有更好代表性 适当分层可提高参数估计的精度
yst Wi yi
i 1
K
xst Wi xi
i 1
K
yRC
yst X rC X xst
组合比估计只需知道总体的X或X , 无需知道每层的 X i 或X i
组合比估计
估值定理
定理4.2.1 对分层抽样的组合比估计,有
V ( xst ) | E ( y RC Y ) | |X| V ( y RC )
i 1 j 1
K
Ni
K Y N iYi K Y WiYi N i 1 N i 1
估 值 法 (一 )
定理 4.1.1 如果分层抽样样本是从 每一层独立抽取的, ˆ , 则估计量 且每一层 Y 有无偏估计 Y
i i
ˆ WY ˆ Y ii st
i 1
K
是Y的无偏估计 , 其均方偏差为
2 2
1 fi 2 2 (3)v( yRC ) Wi ( s yi rC2 s xi 2rC s xyi ) ni i 1
K 2
例3续:给出Y的组合比估计量,估计其精度,与 分别比估计进行比较
组合比估计
分别比估计与组合比估计的比较
V ( y RC ) V ( y RS ) 1 fi 2 Wi ( R 2 Ri2 ) S Xi 2( R Ri ) i SYi S Xi ni i 1 K 2 1 fi 2 2 Wi ( R Ri ) 2 S Xi 2( R Ri )( i SYi S Xi Ri S Xi ) ni i 1
2 K
V ( yst )的一个无偏估计为
1 v( yst ) Wi (1 f i ) si2 ni i 1
2 K
估 值 法 (一 )
系2 当各层独立抽取的都是 简单随机样本,且各层 的样本额 ni 足够大时,用比估值法 时,
yRS Wi ri X i
i 1
K
是Y的近似无偏估计 , 其均方偏差近似为 Ni K 1 f 1 2 i V ( yRS ) Wi 2 ( Y R X ) ij i ij ni Ni 1 j 1 i 1 K 2 1 fi 2 2 2 Wi SY R i S X i 2 Ri i SYi S X i i ni i 1 V ( yRS )的一个近似无偏估计为 ni K 1 f 1 2 i v( yRS ) Wi 2 ( y r x ) ij i ij n n 1 i 1 j 1 i i
等额样本量 按比例分配 奈曼最优分配 考虑费用的最优分配
等额样本量
各层的样本量相等
n ni , i 1,2,, K K
特点:实施方便,便于管理
例1 对各乡收入数据,采用分层抽样,各层采用简单 随机抽样,计划抽取8个乡,按照下列样本量分配方 式,确定各层的样本量
(1)等额分配 (2)按比例分配
(3)Neyman最优分配
按比例分配 (proportional allocation)
Ni ni n , i 1,2,, K N K 1 K ni yst Wi yi yij n i 1 j 1 i 1
若总体总值或均值的一个无偏估计量可以表示成 样本总值或均值的常数倍,这种估计量称为自加 权估计量 适用于Ni已知而其他信息很少的情形
估 值 法 (一 )
例3 已知某公司一般职员及高级管理人员刚进入公司 时的工资总额分别为5523965元、2541660元,欲通过 抽样调查估计当前该公司职员的工资总额Y。抽样按 照一般职员与高管层进行分层随机抽取。一般职员共 390人,抽取15人;高管层共84人,抽取10名。调查 数据如表。 给出Y的分别比估计量,估计其精度