抽样调查-第6章 整群抽样
第6章抽样设计
第四节 抽样误差与样本量
• 一、调查误差的概念与种类 • 调查误差是指调查的结果和客观实际情况的出入和差数。
一般有两种误差存在, 即非抽样误差和抽样误差。 • 非抽样误差是基于抽样之外的许多其它原因而产生的误差。
• 抽样误差是指一个样本的测定值与对该变量真值之间的差 异,抽样误差无特定偏向,其误差大小主要受以下三个因 素影响:
• 单位顺序的排列方式有两种: 一种是排列顺 序与调查项目无关。另一种是按与调查项 目有关标志排队。
• 三、分层抽样
• 分层抽样又叫类型抽样, 它是先将总体 所有单位按某一重要标志进行分类(层), 然后再各类(层)中采用简单随机抽样或 等距抽样方式抽取样本单位的一种抽样方 式。
• 分层抽样比简单随机抽样和机械抽样更 为精确, 能够通过对较少的抽样单位的调查, 得到比较准确的推断结果, 特别是当总体较 大、内部结果复杂时, 分层抽样常能取得令 人满意的效果。同时, 分层抽样在对总体推 断的同时, 还能获得对每层的推断。
• (二)特点
• 与全面调查相比,抽样调查具有以下三个 显著特点:
• 1、经济
• 与全面调查相比,抽样调查的样本量大大 减少,从而可以显著地节约人力、物力和 财力。
• 2、高效
• 由于抽样调查只对总体中少量单位进行调 查,故能十分迅速地得到调查讨论。
• 3.准确
• 抽样调查是调查部分总体单位,数目较少,
• 第一,被研究总体各单位标志值的变异程度。 • 第二,抽样的样本量。 • 第三,抽样调查的组织方式。
• 二、样本量 • 在开始组织抽样调查之前,确定抽多少样本单位是个很重
要的问题。 • (一)影响样本量的因素 • 抽样调查的样本量取决于以下几个因素: • 1、被调查对象标志的差异程度 • 2、允许误差数值的大小 • 3、调查结果的可靠程度 • 4、抽样的方法 • 5.抽样的组织形式
抽样调查-整群抽样
抽样调查-整群抽样引言在实际的数据分析与研究过程中,我们常常需要通过抽样调查的方式来获取数据样本,进而对总体进行推断和分析。
在选择抽样方法时,整群抽样是一种常用且有效的方法之一。
本文将对整群抽样方法进行详细介绍,并探讨其优势和适用情况。
什么是整群抽样?整群抽样(Cluster Sampling)是一种多阶段抽样方法,在该方法中,研究者将总体分为若干非重叠的群组(cluster),然后从这些群组中随机选择一部分群组作为样本,再从所选群组中抽取全部或部分个体作为样本。
这种抽样方法常用于调查大规模总体,能够有效减少调查成本和提高调查效率。
整群抽样与分层抽样相似,但两者在抽样阶段的区别比较大。
整群抽样是在第一阶段就将总体分成若干群组,然后再从群组中抽取样本;而分层抽样是先将总体按照特定的属性分为各个层次,然后从每个层次中抽取样本。
整群抽样的步骤整群抽样主要包括以下步骤:1.将总体划分为群组:将总体按照一定的特征划分为若干群组,确保各个群组之间的特征差异较大,同时群组内的差异较小。
2.随机选择群组:从划分好的群组中使用随机抽样方法选择部分群组作为样本群组。
3.从样本群组中抽样:从所选的样本群组中再次使用随机抽样方法,抽取全部或部分个体作为最终样本。
4.数据采集与分析:对抽取的样本进行数据采集,并进行相应的分析与推断。
整群抽样的关键在于群组的选择和抽样,因此在设计抽样方案时需要充分考虑这两个因素。
整群抽样的优势相比其他抽样方法,整群抽样具有以下优势:1.减少调查成本:整群抽样将总体划分为群组,在第一阶段只需要抽取部分群组,相对于一次抽取全部样本的方法而言,可以大大减少调查成本。
2.提高调查效率:由于从已选择的群组中再次抽样,相比于一次抽样全部样本,可以提高调查效率,并减少时间成本。
3.管理简便:整群抽样通过选择群组进行抽样,相比于逐个个体抽样,管理起来较为简便。
整群抽样的适用情况整群抽样适用于以下情况:1.总体分布较为集中:当总体中的个体在某些特征上呈现较高的聚集性时,可以选择整群抽样方法。
统计学第六章 抽样法
第六章 抽样法
序号
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16 合计
样本变量x
40、40 40、50 40、70 40、80
50、40 50、50 50、70 50、80
70、40 70、50 70、70 70、80
80、40 80、50 80、70 80、80
-
x
x E(x)
总体
研究如何利用 样本数据来 推断总体特 征。
内容包括:参 数估计和假 设检验。
目的:对总体
特征作出推
样 本
断。
这是推断统计学研 究的问题
5
第六章 抽样法
描述统计与推断统计的关系
反映客观 现象的数
据
概率论
(包括分布理论、大 数定律和中心极限定
理等)
样本数
描述统计
推断统计
据
总体数 据
(统计数据的搜集 、整理、显示和分
13
第六章 抽样法
第二节 有关抽样的基本概念(2)
(二)抽样总体
也称子样,样本或样本总体,它是从全 及总体中随机抽取出来的,代表全及总体的 那部分单位的集合体。抽样总体的单位数称 为样本容量,用n表示,对于N来说,n是很 小的。
总体
样 本
14
第六章 抽样法
第二节 有关抽样的基本概念(3)
• 二 全及指标和抽样指标p.249 (一) 全及指标
研究总体中 的品质标志
总体成数 P N1
N
总体成数标准差 P
P1 P
17
第六章 抽样法
第二节 有关抽样的基本概念(5)
(二)抽样指标
抽样指标是由样本总体各单位标志值 或标志特征计算的综合指标,也称统计量。 与全及指标相对应有:样本平均数,样本 标准差;样本成数,样本成数的标准差。
06第六章 整群抽样
n
n
M
N M 1 S ( yij Y ) 2 为总体方差; NM 1 i 1 j 1 2
n M 1 s ( yij y ) 2 nM 1 i 1 j 1 2
2 b
为样本方差; 为总体群间方差;
M N 1 N 2 S (Yi Y ) N 1 (Yi Y ) 2 N 1 i 1 i 1
第一节 第二节 第三节 第四节
整群抽样概述 等概率整群抽样的情形 不等概率整群抽样的情形 设计效应和样本容量的确定
第一节 整群抽样概述
一、整群抽样的概念 整群抽样是先将总体各单元划分成若干群(组),然后以 群为单位,从中随机抽取一部分群,对中选群内的所有单 元进行全面调查。确切地说,这种抽样组织形式应称为单 级整群抽样。 如果总体中的单元可以分成多级,则可以对前几级单元采 用多阶抽样(详见下章),而在最后一阶中对该阶抽样单 元所包含的全部个体(最基本单元)进行调查,这种抽样 称作多级整群抽样。本章只讨论单级整群抽样。 设总体被划分为N群,第i群含有Mi个次级单元,全部总 体次级抽样单元数记为M 0,即 M 0 M i 。当诸Mi都相等 时,称为等群;否则,称为不等群。
M n 1 n 2 (Yi y ) (Yi y ) 2 s n 1 i 1 n 1 i 1
2 b
为样本群间方差;
N M 1 S ( yij Yi ) 2 N ( M 1) i 1 j 1 2
为总体平均群内方差; 为样本平均群内方差;
二、分群的原则 尽量扩大群内差异,而缩小群间差异。 三、整群抽样的特点 1.在大规模抽样调查中,常常没有或很难编制出包括总 体所有次级单元在内的抽样框,而整群抽样则不需要编制 庞大的抽样框。 2.在样本单元数相同的条件下,整群抽样与简单随机抽 样相比,样本单元的分布相对较集中,虽然样本的代表性 较差,但调查组织实施过程更加便利,同时还可以大大地 节省调查费用。因此,实际工作中,在权衡费用和精度之 后,有时宁可适当增加一些样本单元数,也采用整群抽样 方法。 3.整群抽样的随机性体现在群与群间不重叠,也无遗漏, 群的抽选按概率确定。
第六章抽样调查练习及答案
第 六章 抽样调查一、填空题1.抽选样本单位时要遵守 原则,使样本单位被抽中的机会 。
2.常用的总体指标有 、 、 。
3.在抽样估计中,样本指标又称为 量,总体指标又称为 。
4.全及总体标志变异程度越大,抽样误差就 ;全及总体标志变异程度越小,抽样误差 。
5.抽样估计的方法有 和 两种。
6.整群抽样是对被抽中群内的 进行 的抽样组织方式。
7.误差分为 和代表性误差;代表性误差分为________和偏差;偏差是____________________________,也称为________________。
8.简单随机抽样的成数抽样平均误差计算公式是:重复抽样条件下: ;不重复抽样条件下: 。
9.误差范围△,概率度t 和抽样平均误差μ之间的关系表达式为 。
10.抽样调查的组织形式有: 。
二、单项选择题1.所谓大样本是指样本单位数在( )及以上A 30个B 50个C 80个 D100个2.抽样指标与总体指标之间抽样误差的可能范围是( )A 抽样平均误差B 抽样极限误差C 区间估计范围D 置信区间3.抽样平均误差说明抽样指标与总体指标之间的( )A 实际误差B 平均误差C 实际误差的平方D 允许误差4.是非标志方差的计算公式( )A P(1-P)B P(1-P)2C )1(P P -D P 2(1-P)5.总体平均数和样本平均数之间的关系是( )A 总体平均数是确定值,样本平均数是随机变量B 总体平均数是随机变量,样本平均数是确定值C两者都是随机变量 D两者都是确定值6.对入库的一批产品抽检10件,其中有9件合格,可以( )概率保证合格率不低于80%。
A 95.45%B 99.7396C 68.27%D 90%7.在简单随机重复抽样情况下,若要求允许误差为原来的2/3,则样本容量( )A 扩大为原来的3倍B 扩大为原来的2/3倍C 扩大为原来的4/9倍D 扩大为原来的2.25倍8.根据抽样调查得知:甲企业一等品产品比重为30%,乙企业一等品比重为50%一等品产品比重的抽样平均误差为 ( )A 甲企业大B 两企业相同C 乙企业大D 无法判断9.是非标志的平均数是( )A -P)1P(B P(1-P)C pD (1-P)210.重复抽样的误差一定( )不重复抽样的误差。
第6章 抽样调查
第二节 抽样调查的组织形式
通常有以下四种组织形式: 通常有以下四种组织形式:
抽样方式
概率抽样 非概率抽样
简单随机抽样 整群抽样 多阶段抽样
分层抽样 系统抽样
方便抽样 自愿样本 配额抽样
判断抽样 滚雪球抽样
简单随机抽样(纯随机抽样) 一、简单随机抽样(纯随机抽样)
即从总体单位中不加任何分组、排队, 即从总体单位中不加任何分组、排队, 完全随机地抽取调查单位。 完全随机地抽取调查单位。
统计应用
“抓阄”征兵计划
然而结果是, 73个较小的号码被分配给了 然而结果是 , 有 73 个较小的号码被分配给了 前半年的日子,同时有110 110个较小的号码被分配给 前半年的日子,同时有110个较小的号码被分配给 了后半年的日子。 换句话说, 了后半年的日子 。 换句话说 , 如果你生于后半年 的某一天, 那么, 的某一天 , 那么 , 你因为被分配给一个较小号码 而去服兵役的机会要大于生于前半年的人 在这种情况下, 在这种情况下 , 两个数字之间只应该有随机 误差, 73和110之间的差别超出了随机性所能解 误差,而73和110之间的差别超出了随机性所能解 释的范围。 释的范围 。 这种非随机性是由于乒乓球在被抽取 之前没有被充分搅拌造成的。 在第二年, 之前没有被充分搅拌造成的 。 在第二年 , 主管这 件事的部门在抓阄之前去咨询了统计学家( 件事的部门在抓阄之前去咨询了统计学家(这可能 使生于后半年的人感觉稍微舒服些) 使生于后半年的人感觉稍微舒服些)
分层抽样的好处是: 分层抽样的好处是: 样本代表性高、抽样误差小、抽样调查 本代表性高、抽样误差小、
成本较低。如果抽样误差的要求相同的话则 成本较低。 抽样数目可以减少。 抽样数目可以减少。
第六章 抽样调查
第六章抽样调查第一节抽样调查的意义及全然概念一、抽样调查的意义抽样调查(随机抽样):按照随机原那么从总体中抽取一局部单位进行瞧瞧,并运用数理统计的原理,以被抽取的那局部单位的数量特征为代表,对总体作出数量上的推断分析。
二、抽样调查的适用范围抽样调查方法是市场经济国家在调查方法上的必定选择,和普查相比,它具有正确度高、本钞票低、速度快、应用面广等优点。
一般适用于以下范围:1.实际工作不可能进行全面调查瞧瞧,而又需要了解其全面资料的事物;2.虽可进行全面调查瞧瞧,但比立困难或并不必要;3.对普查或全面调查统计资料的质量进行检查和修正;4.抽样方法适用于对大量现象的瞧瞧,即组成事物总体的单位数量较多的情况;5.利用抽样推断的方法,能够关于某种总体的假设进行检验,判定这种假设的真伪,以决定取舍。
三、抽样调查的全然概念(一)全及总体和抽样总体(总体和样本)全及总体:所要调查瞧瞧的全部事物。
总体单位数用N表示。
抽样总体:抽取出来调查瞧瞧的单位。
抽样总体的单位数用n表示。
n≥30大样本n<30小样本(二)全及指标和抽样指标(总体指标和样本指标)全及指标:全及总体的那些指标。
抽样指标:抽样总体的那些指标。
第二节抽样调查的组织形式通常有以下四种组织形式:一、简单随机抽样(纯随机抽样)即从总体单位中不加任何分组、排队,完全随机地抽取调查单位。
随机抽选可有各种不同的具体做法,如:1.直截了当抽选法;2.抽签法;3.随机数码表法;二、类型抽样(分类抽样)先对总体各单位按一定标志加以分类(层),然后再从各类(层)中按随机原那么抽取样本,组成一个总的样本。
类型的划分:一是必须有清楚的划类界限;二是必须明白各类中的单位数目和比例;三是分类型的数目不宜太多。
类型抽样的好处是:样本代表性高、抽样误差小、抽样调查本钞票较低。
要是抽样误差的要求相同的话那么抽样数目能够减少。
两种类型:1.等比例类型抽样(类型比例抽样);2.不等比例类型抽样(类型适宜抽样)。
第六章 整群抽样
n
n 1
➢比估计
n
N
YˆR M 0Yˆ M 0
yi
i 1 n
mi
,V (YˆR )
N 2 (1
i
Y
)2
N 1
i 1
v(YˆR )
N 2 (1 n
f
)
1 n n 1 i1
yi2
2
Y R
n i 1
mi2
2Y
R
n i 1
mi
yi
例4:从共有790个单位的某系统中按简单 随机抽样抽取n=20个单位,这些单位的职
1
n
1
n i 1
ai2
p2
n i 1
mi2
2p
n i 1
ai mi
M
第四节 群大小不等的一般情形
若群大小Mi 相差不多,以平均群大小M 代替M, 仍可按群大小相等处理;若Mi 相差较大,有两 种处理方法。
一、记号
➢ 总体第i群第j个小单位指标值 Yij,i=1,2,…,N; j=1,2,…, Mi,Mi 是群的大小。
费额的户平均值 Y ,并给出其95%的置信区
间(P213)。
12个楼层96户居民人均月食品消费额资料
i
yij
1 240, 187, 162, 185, 206, 197, 154, 173
2 210, 192, 184, 148, 186, 175, 169, 180
3 149, 168, 145, 130, 170, 144, 125, 167
yi
yi M
➢总体平均群和 Y Yi N
➢样本平均群和 y yi n
➢总体均值
NM
Y Yij MN Y M i1 j1
抽样调查第6章整群抽样
群划分的一般原则 为了提高精度,划分群时应力争使同一群内各单 元之间的差异尽可能大,以避免同一群内各单元提 供重复信息.这个原则与分层抽样中划分层的原则 恰好相反.由此看来,整群抽样和分层抽样是针对不 同总体结构而提出的两种不同抽样方法.
抽样调查第6章整群抽样
三、群的规模
群的规模是指组成群的单元的数量。 群的规模大,估计的精度差,但费用省; 群的规模小,估计的精度可以提高但费用增大。 实践中,确定群的规模涉及多种因数,如群的具 体 结构、精度、费用、调查实施的组织管理等。 群的规模又有两种情况:一种是总体中的各个群 规模相等;另一种是总体中各个群的规模不相等。
抽样调查第6章整群抽样
整群抽样估计效应与群内相关系数 关系密切, 若群内各单元的值都相等,则群内方差
此时, 为最大值,
即整群抽样的估计
量方差是简单随机抽样估计量方差的倍。
若群内方差与整体方差相等,即
整群抽样与简单随机抽样估计的效应相当。
抽样调查第6章整群抽样
若群内方差大于总体方差时,ρ的取值为负, 此时,整群抽样的效率高于简单随机抽样。
抽样调查第6章整群抽样
群规模相等时的整群抽样
总体方差分析表
来源 群间
自由度
平方和
均方
群内
总计
抽样调查第6章整群抽样
我们将整群抽样与简单随机抽样的效率进行 比较,假设直接从总体中抽取一个样本容量为nM 的简单随机样本,则样本均值的方差为:
但如果该整体被等分为N个规模为M的群,定义 为群内相关系数,描述同一群内成对个体单元之间 的相关程度,其表达式为:
抽样调查第6章整群抽样
解:已知 故
抽样调查第6章整群抽样
下面计算估计量方差的估计值:
抽样调查方法与技术:整群抽样
需要估计: Y(按小单元平均的总体均值)、 Y(总体总值)
二、估计量及其性质
由于 及YY仅相差一个常数NM,故仅需讨论
的估Y 计量及其性质即可,Y的估计量及其性质 很容易由 的结Y果得到。
(一)总体均值( 按Y小单元计算的总体均 值)
1、
E(y) Y
y是Y的无偏估计
即Y = y= y nM
1 nM
(按小单元计算的总体群间方差)(定义)
(13)
Si2
1 M 1
M
(Yi j
j 1
Yi )2
:第i个群的总体
群内方差。 (当然按小单元计)
一、简单随机抽样(等概率抽样)下记号
(13) Sw2
1 N
N
Si2
i 1
1 N (M 1)
ห้องสมุดไป่ตู้
N i 1
M
(Yi j Yi )2 :总体
j 1
群内方差(已经是个平均数了)。(定义)
则: (1)N:总体的群数为N i=1,2,3,…,N (2)M:每个群内含有M个调查单位(小单元)
j=1,2,3,…,M (3)NM:全部总体单位(小单元)总数 (4)n:从N群中随机抽n群
第二节 群大小相等的整群抽样
一、简单随机抽样(等概率抽样)下记号
(5)f=n/N
群抽样比
=nM/NM 调查单位抽样比
自己去证明以下三者之间的关系:
S(2 总方差)、S(b2 总体群间方差)、S(w2 总体群内方差)
对于n群样本的记号
①yij : 样本中第i群第j个单位的标志值 (i 1, 2,...,n; j 1, 2,..., M )
M
②yi yij j 1
统计学课件第六章抽样调查PPT课件
特点
每个样本被选中的机会都 相等,样本的代表性相对 较好。
分层抽样
定义
先将总体按一定标准分成 若干层次或群,然后从各 层或群中按随机原则抽取 样本。
方法
分类抽样、比例抽样、类 型抽样。
特点
能够提高样本的代表性, 降低误差,减少资源浪费。
系统抽样
定义
先将总体中的所有个体按某种顺序排列,然后按 照固定的间隔或系统选取样本。
改进抽样方法
采用更科学的抽样方法和技术,如分层抽样、系统抽样等,以提 高样本的代表性。
提高样本代表性
在抽样过程中尽量减少非随机误差,如无回答、不完整数据等, 以提高样本对总体的代表性。
05 抽样调查的组织与实施
抽样调查的设计
确定调查目的
明确调查的目标和意图,为后 续的抽样设计提供指导。
确定调查对象
合理安排问题的顺序、布局和格式,以提高 问卷的易用性和回答率。
确定调查方式
选择合适的调查方式,如自填式、面访式等, 并确定数据收集的途径。
测试与修正
对问卷进行测试和修正,确保问卷的准确性 和可靠性。
调查的实施与质量控制
培训调查员
对调查员进行培训,确保他们了解调 查目的、问卷内容、调查方法等。
现场实施
将总体分成若干个群集或组,然后从每个 群集或组中抽取一定数量的样本,也称为 簇抽样或组抽样。
抽样调查的应用场景
01
02
03
04
市场调查
通过对目标市场的部分消费者 进行调查,了解市场需求、消 费者行为和产品反馈等信息。
社会调查
通过对一定范围内的社会成员 进行调查,了解社会现象、人 口状况和社会问题等信息。
统计学课件第六章抽样调查ppt课 件
第6章抽样
【观念应用4-3】 仍以上述居民收入与购买力之间关系为例。各层样本标准差其中高收入为300元,中收入为200元, 低收入为100元,为了便于观察,列表如表5-2所示。 表4-2 调查单位数与样本标准差乘积计算表 各层次 (不同经济收入)
各层的调查单位数(户)Ni
4 000 12 000 4 000 20 000
47 74 76 56 59 22 11 26 21 60 28 62
43 24 62 85 56 77 17 63 12 17 17 37
73 67 27 99 35 94 53 78 86 34 12 35
86 62 66 26 64 39 71 59 29 44 13 18
36 42 56 96 37 49 57 16 78 09 40 98
各层的样本标准差(元)Si 300 200 100
高 中 低
∑NiSi
4.2.2
随机抽样技术的分类及技术特点
(3)等距离随机抽样技术 抽样间隔计算公式为: 抽样间隔=总体数(N)÷样本数 (n) (4.2)
【观念应用4-4】 某地区有零售店110户,采用等距离抽样方法抽选11户进行调查。 【分析提示】 等距离抽样,方法简单,省却了一个个抽样的麻烦,适用于大规模 调查。还能使样本均匀地分散在调查总体中,不会集中于某些层次, 增加了样本的代表性。
96 81 50 96 54 54 24 95 64 47 33 83
47 14 26 68 82 43 55 55 56 27 20 50
36 57 75 27 46 55 06 67 07 96 38 87
61 20 07 31 22 82 88 19 82 54 26 75
2013年第6章 抽样调查
2.优缺点及适用范围
优点: 与简单随机抽样比,省去了一个个抽样的时间。 能使样本均匀分散在调查总体中,不会集中于某 个层次,样本代表性增强了 缺点:进行排列时需要总体各个单位的详细资 料;总体单位差异较大或排列有规律时,调查 精确度有影响 商场抽每天销售量 适用范围:同质性较高的总体
2.经验法
经验法确定抽样数目的范围 -非随机抽样用
总体 规模 100 以下 100~ 1000 1 000~ 5000 5000~ 10000 10000~ 100000 100000 以上
抽样数 占总体 比重(%)
50以上
50~20
30~10
15~3
5~ 1
1以下
6.3 抽样调查方式
抽样调查方式
2.样本单位是从总体中抽选出来进行调查观察的 单位样本单位数n
(三)指标和标志 指标是总体的数量特征 数量指标,反映总体总规模或总水平,如人口 数,产量,耕地面积。 质量指标,反映总体内在质量,如产品合格率, 劳动生产率等。 标志反映的是总体单位的特征。 品质标志,如人的性别,籍贯等 数量标志,人的年龄,身高,职工工资等
(4)简单随机抽样法的优缺点及适用范围 优点 完全按照随机的原则进行抽样,简单直观 缺点 抽月收入 要有完整样本框 高的 如需编号,总体量大面广则难度较大; 有可能 全被抽到 总体单位差异较大时,样本代表性差; 适用范围 适用于总体单位数不多且差异较小的
(二)等距抽样
1.定义 等距抽样又称机械抽样或系统抽样,它是先将总体 各单位按某一标志排队,并给总体中所有个体编号,然后 抽取一个编号,并按照相同的间隔距离来抽取其他样本单 位。 编号 并根据总体单位数和样本单位数计算出抽样距离(即相 同的间隔),然后按相等的距离或等间隔来抽取样本单位。 L=N/n 标志采取方法可以选择与调查主题相关的或者不相关的 举例:某地区有零售店110户,采用等距抽样抽取11户 如何抽?
第六章抽样
册和登记表(抽样框)就可进行。
• 其局限是,只适用于总体单位数量不多,且分布
较均匀的调查总体,即单位间差异性不大的研究
对象,否则将无法保证样本的代表性。
• 练习 请利用随机数表,从N=60总体中抽取15个样本。
系统抽样
• 系统抽样(等轴抽样、等距抽样、机械抽样): 把总体的单位进行编号排序,在计算出某中间隔, 然后按这个固定的间隔抽取个体的号码来组成样 本的方法。 • 基本和简单随机抽样一样,计算公式也一样。 • 需要完整的样本框,直接从总体中抽取个体。
• 获得完全正确的样本框几乎是不可能的。 • 制定抽样框是抽样的关键步骤之一。 • 当抽样是分段进行时,在几个不同的抽样层次上 进行时,则要分别建立起几个不同的样本框。 • 比如:研究某市小学生的学习情况。从500所小 学中抽取10所小学,再从这10所小学,每个小学 抽取3个班级,被抽中的班级中再抽取10名同学。 所以要有三个样本框: 全市学校名单 每所抽中学校班级名单 每个被抽中班级学生的名单
抽样的概念
• 统计值(样本值):样本中某一个变量的综合描 述。 • 是从样本中计算出来的。 • 是作为总体值的估计值。
2 抽样的作用
• 用十分有限的人力、财力、时间去了解庞杂、广 阔、纷繁、多变的社会现象。 • 比如:民意测验,要求迅速、准确。往往调查对 象不到2000人。
3.抽样的类型
• 概论抽样 • 非概率抽样
决定抽样方案
• 对于具有不同研究目的、不同范围、不同对象和 不同客观条件的社会研究,所使用的抽样方法是 不一样的。 • 依据研究的目的的要求、依据各种抽样的特点, 以及其他有关因素来觉得具体采用哪种抽样方法。 • 同时确定样本规模以及主要的精确程度。
实际抽取样本
整群抽样
yij ——表示样本中第 i 群中第 j 个次级单元的观测值
i 1, 2, , n; j 1, 2,
Yi Yij —第 i 群总和
j 1
M
Yi Yi M —第 i 群平均值
1 N M Y Yij —总体平均值 NM i 1 j 1 N M 1 2 —总体差异平方和 S2 ( Y Y ) ij NM 1 i 1 j 1
c
0 ,表明群内单元的差异远比群间差异大。
由(8.11)可知, c 0 的情况最多只能到 1 ( M 1) ,此时 群间毫无诧异,任意抽取几个群都可以作为总体的真实写照 因此,c 的取值范围应当在 [1 ( M 1) , 1] 之间。
1、估计量及其方差
其方差为:
1 总体平均数 Y 的无偏估计是 y nM
例如,在一个有500个村庄、100000个农户的县,抽取 1%的农户就是1000户,而抽1%的村庄则只有5个村庄,也 许抽到的5个村庄农户多于1000,但由于样本单位只集中在 5个村庄,显然不如在全县范围内简单随机抽取1000户分布 均匀,代表性一般要差一些,抽样误差较大。 当然我们可以通过多抽几个群来弥补这一缺陷,但最关 键的一条还是在于总体内群的划分。为了使整群抽样的样本 具有一定的代表性,应当使群与群之间尽可能地差异小,而 群内单元之间的差异应当大(注意:这一点与分层抽样中总 体内层的划分有着极大的差别),这意味着每个群均具有足 够的代表性。如果划分的群相互之间颇多相似之处,那么少 量群的抽取足以提供良好的精度。一个总体划分成多少个群 ,每个群的规模大小如何又是一个新问题,通常我们面临的 总体会有自然的初级单元,例如本章开头所说的各所中学它 们互相之间关于学生的体质很相似,但在一个学校里每个学 生之间有一定的差异。
整群抽样
第六章 整群抽样一、作业要求:对整群抽样的复习资料整理 二、小组成员:三、作业内容:关于整群抽样的概念、估计量的构造以及群内相关系数的构造及证明,并附有例题。
整群抽样的概念、估计量的构造整群抽样的概念若总体可分为N 个初级单元(称为群),每个初级单元包含若干次级单元。
按照某种方式从总体中抽取n 个初级单元,对这些单元中所有次级单元全部进行调查。
这种抽样方法称为整群抽样。
应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。
整群抽样的特点1) 抽样框的编制简单 2) 实施便利,节省费用 3) 抽样误差相对比较大些整群抽样的研究(从目标量的估计方面)第一种途径:将整群抽样看作二阶抽样,第二级的组内抽样为普查。
因而组内估计量有i i G g =,而相应的均方偏差02=i σ。
第二种途径:将进行普查的单元看作基本单元,单级对}{KG G G ,...,,21进行抽样调查。
整群抽样估计量的构造现在将整群抽样看作是二阶抽样的特例,在第一阶抽样后,对抽中的第一阶样本单元进行普查。
假定第一阶抽中的号码为k θθ,...,1,在i θ第一阶样本单元普查到的指标数为{}ii i N Y Yθθ,...,1。
⑴ 对简单随机抽样的整群抽样(第一阶段采用简单随机抽样),对总体总数Y 的估计有:① Y 的无偏估计:∑∑===k Nj C S E iY k Y 1i 1j ^i K θθ② CSEY ˆ的均方偏差: ∑∑==⎪⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛=⎪⎭⎫ ⎝⎛K1i 21j 2^K -1-K 1K -1K i N ij CSE Y Y k k Y V ③)ˆ(CSEY V 的一个无偏估计: 2112)ˆ(11)1()ˆ(∑∑==---=ki CSE N j jCSE K Y Y k K k kK Y v ji i θθ◆第一阶段采用简单随机抽样,第二阶段为普查Yˆ ∑=k i i Y k K 11θ ∑∑==k i Nj j iiY k K 11θθ()CSEY V ˆ = 2211w S K k k K ⎪⎭⎫ ⎝⎛- = 21121111∑∑==⎪⎪⎭⎫ ⎝⎛--⎪⎭⎫ ⎝⎛-K i N j ij i K Y Y K K k k K()CSEY v ˆ = 2211w s K k k K ⎪⎭⎫ ⎝⎛- = 2112ˆ1111∑∑==⎪⎪⎭⎫ ⎝⎛--⎪⎭⎫ ⎝⎛-ki N j CSE j i iK Y Y k K k k K θθ第一阶段简单随第二阶段普查 目标量与估计量相等 简单随抽样部分总量估计组内方差样本方差⑵ 对有放回PPS 整群抽样的整群抽样(第一阶段采用PPS ),对总体总数Y 的估计有:① Y 的无偏估计:∑∑===k Nj CPPSi i Y p k Y 1i 1j ^)(11i θθθ ② CPPS Y ˆ的均方偏差:∑∑==⎪⎪⎭⎫⎝⎛=⎪⎭⎫ ⎝⎛K 1i 21j ^Y -11iN ij ii CPPS Y p p k Y V③)ˆ(CSEY V 的一个无偏估计: ∑∑==--=ki N j C P P S jC P P SiiiY Y p k k Y v 121)ˆ1()1(1)ˆ(θθθ◆第一阶段采用有放回PPS 抽样,第二阶段为普查Y ˆ ∑=k i i i g p k 111θθ ∑∑==kNj i i Y p k 1i 1j )(11i θθθ21K1i 21j ^11Y -11i Ki iN ij ii CPPS p KY p p k Y V iσ∑∑∑===+⎪⎪⎭⎫ ⎝⎛=⎪⎭⎫ ⎝⎛=∑∑==⎪⎪⎭⎫⎝⎛K 1i 21j Y -11iN ij ii Y p p k∑=⎪⎪⎭⎫ ⎝⎛--⨯=ki CPPS i CPPSY p g k k Y v i 12ˆ)1(11)ˆ(θ=211ˆ1)1(1∑∑==⎪⎪⎭⎫⎝⎛--k i N j CPPS j ii i Y Y p k k θθθ第一阶段有放回PPS 抽样 第二阶段普查 普查02=i σ第一阶段有效放回PPS 抽样个体总量有放回PPS 抽样部分有关符号的涵义: 总体样本第i 群的个体均值NY Y ii =群均值KYY Ki i∑==1个体均值NYY =方差∑∑==--=K i Nj ij Y Y KN S 1122)(11群间方差212)(1Y Y K N S Ki i b --=∑=群内方差2112)()1(1∑∑==--=K i Nj i ij Y y N K S ωNy y ii =kyy ki i∑==1Ny y =2112)(11y y kN s k i Nj ij --=∑∑== 212)(1y y k N s ki i b--=∑= 2112)()1(1i K i Nj ij y y N k s --=∑∑==ω K 为总体群数;N 为各群所含次级单元数;ij y 为第i 群中第j 个次级单元的观则值;),,...3,2,1;,...,3,2,1(N j K i ==KN 为总体所含次级单元总数;kN 为样本所含次级单元总数;整群抽样群内相关系数1、整群抽样群内相关系数的计算公式:其中:k 为第一级抽样单元的总数; i 为代表第i 个第一级抽样单元;i N 为第i 个第一级抽样单元内的第二级抽样单元的总数;Y 为所有抽样单元的平均值;ij Y 代表第i 个第一级抽样单元内的第j 个第二级抽样单元。
6-2 第六章 抽 样(习题解答)
第六章抽样一、辨析题1、一般来说,任意抽样技术适用于正式的实际调查。
错误。
适用于非正式的探测性调查,或调查前的准备工作。
2、一般说来,总体中各单位之间标志值的变异程度越大,需要抽样的样本数目越多;反之,需要抽样的样本数目越少。
正确3、分层最佳抽样法指的是等比例分层抽样。
错误。
这是非比例分层抽样。
4、一般而言,抽样的样本占总体的比例同抽样误差成反向关系,即抽样比例越大,抽样误差相对越小。
正确5、抽样误差是随机抽样调查中必然发生的代表性误差,所以平均误差是不可避免的。
而且,这种误差一般包括了技术性误差,即调查工作中的误差。
错误。
这种误差一般不包括技术性误差即调查工作中的误差。
6、总体单位之间标志变异程度越大,抽样误差越大;反之则越小。
正确7、样本单位数目越多,抽样误差越大,反之则越小。
错误。
样本单位数目越多,抽样误差越小,反之则大。
8、一般来说,简单随机抽样比分层、分群抽样误差大,不重复抽样比重复抽样误差大。
错误。
重复抽样比不重复抽样误差大。
9、点值估计是考虑了抽样误差,直接以样本指标作为总体指标的估计值,作近似的估计。
错误,不考虑抽样误差。
二、名词解释1、抽样调查抽样调查也称为抽查,是指从调查总体中抽选出一部分要素作为样本,对样本进行调查,并根据抽样所得的结果推断总体的一种专门性的调查活动。
2、抽样抽样是指在抽样调查时采用一定的方法,抽选具有代表性的样本,以及各种抽样操作技巧和工作程序等的总称。
3、随机抽样随机抽样又称为概率抽样或机率抽样,是对总体中每一个体都给予平等的抽取机会的抽样技术。
在随机抽样的条件下,每个个体抽中或抽不中完全凭机遇,排除了人的主观因素的选择。
4、分层随机抽样分层随机抽样又称为分类随机抽样,是把调查总体按其属性不同分为若干层次(或类型)然后在各层(或类型)中随机抽取样本的技术。
5、分群随机抽样分群随机抽样(cluster sampling),又称整群抽样,是把调查总体区分为若干个群体,然后用单纯随机抽样法,从中抽取某些群体进行全面调查的技术。
第六章 抽样
例:以某高校6000名在校大学生为总体:
抽样1:按一定方式抽取300名大学生作样本;
抽样2:按一定方式抽取10个班作样本;
分析:两种抽样方式下的抽样单位和抽样框
(四)抽样框sample frame
一次直接抽样时总体中所有元素的名单。 抽样框是抽样操作依据的名单,是和调查的总体相 对应的
究总体的操作化界定,规定了调查对象选择的具体指标。
• 目标总体和调查总体吻合度越高,调查的代表性就越好;否则会
产生覆盖误差。
(二)制定抽样框
1.抽样框是对研究总体的进一步操作。
2.抽样框的意义
(1)抽样框与研究/调查总体之间可能不匹配,可能包含研 究总体之外的某些人,或可能遗漏其中的某些人. (2) 根据样本所得到的结果,只能代表组成抽样框的各个 要素的集合 (3) 样本的大小(规模)与其能否正确代表总体比较起 来,是一项不太重要的因素。
(五)参数值——又称总体值,是关于总体中某一变量的 的综合描述,或者说是总体中所有元素的某种特征的综 合数量表现。 –参数值只有对总体中每一个元素都进行调查或测量才 能得到。 (六)统计值——又称样本值,是关于样本中某一变量的 综合描述,或者说是样本中所有元素的某种特征的综合 数量表现。 –统计值是从样本中计算出来的,它是相应的参数值的 估计量。
一、简单随机抽样
(一)定义
又称纯随机抽样,是概率抽样的最基 本形式。 它是按等概率原则,直接从含有N个 元素的总体中随机抽取n个元素组成样本 (N>n)。
(二)选取样本的两种办法
1.抽签方式 (1)将总体名单从1到N编号,形成抽样框; (2)准备N张卡片,每张卡片上的号码与总体 名单编号对应,将卡片放在盒子里,混合均匀; (3)根据抽样设计的样本规模,从盒内n次取 出n张卡片; (4)根据取出的卡片上的号码,找到总体名单 上对应的元素,构成样本。
抽样调查第6章 整群抽样与系统抽样知识讲解
Y K
2
N0N
K i 1
Yi Y
2
由这个思路无法给出其均方偏差的估计量
系统抽样的效率
与简单随机抽样的比较
(N 1)S 2 N0 (K 1)S外2 (N0 1)KS内2 V (YˆSE ) N(K 1)S 2
V (YˆSYS) N0N(K 1)S外2 N (N 1)S 2 N (N K )S内2 V (YˆSYS) V (YˆSE ) N(N K)(S 2 S内2 )
K 2 1 k 1 K k K K 1 i1
N0 j 1
Yij Y
2 (K, N较大时)
Deff
V (YˆCSE V (Yˆ)
)
1 (N0 1)C
C较大,N0较大时,整群抽样精度差得多
对第一级为简单随机抽样的二阶抽样有
Deff 1 C (n0 1)
整群抽样的设计效应
实际当各群容量不等时,常用 1
V (YˆCSE )
K2 k
1
k K
1 K 1
K i 1
Ni
Yij
j 1
Y K
2
(3)V (YˆCSE )的一个无偏估计量为
v(YˆCSE )
K2 k
1
k K
1 k 1
k i 1
Ni
Yi j
j 1
YˆCSE K
2
目标量的估计
定理6.2 对有放回PPS整群抽样,总体总数Y的估计有
(Ni 1) (Yij Y )2
i 1
j 1
若群内各单元指标均相等,则C达最大值1
群内相关系数是衡量群内单元同质性的一个指标
整群抽样的设计效应
Ni N0 (i 1,2, , K)时
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Y NM y
返回
总体总值 Y NM Y 的估计量的方差为:
V (Y ) V ( NM y ) N 2 M 2V ( y )
1 f 2 v(Y ) N M v( y ) N M ( ) Sb n
2 2 2
下面我们看一个整群抽样的例题
返回
【例4.11】 在一次对某中学在校生零花钱的调查 中,以宿舍作为群进行整群抽样,每个宿舍都有M=6
n
返回
总体中的个体均值:
Y
i 1 j 1
N
Mi
Yij M0
N M 1 2 总体方差: S 2 ( Y Y ) ij M 0 1 i 1 j 1
样本方差:
s2
1
n i 1
i 1 m 1 i
2 ( y y ) ij i j 1
n
mi
返回
总体群间方差:
Sb
2
1 N Mi 2 ( Y Y ) i N 1 i 1 j 1
样本群间方差:
2
sb
1 2 ( y y ) i n 1 i 1 j 1
返回
n
mi
总体中第i个群群内方差:
S
2 i j 1
Mi
(Yij Y i ) M i 1
2
样本第i个群群内方差:
返回
整群抽样估计效应与群内相关系数 关系密切,
2 S 若群内各单元的值都相等,则群内方差 w 0
1 为最大值, deff M 即整群抽样的估计 此时,
量方差是简单随机抽样估计量方差的倍。
若群内方差与整体方差相等,即
0,
deff 1
整群抽样与简单随机抽样估计的效应相当。
115
80
117
63
99
130
106
105
120
86
112.83
93.33
72.57
527.87
返回
n 解:已知 N 315, n 8, M 6, f 0.0254 , N
故
1 n 75 89 93.33 y yi 98.17 n i 1 8 M n s ( y i y) n 1 i 1 6 [(75 98.17) 2 (93.33 98.17) 2 926.63 8 1
yij
82 111 109 107 87 99 66 101 79 129 99 107 87 69 80 90 124 105
yi
75.0 89.0 95.67 104.67 108.50 106.33
si2
125.6 233.6 299.07 177.87 287.50 42.27
7
8
120
95
2 2 sb sw 2 0.348256 2 sb ( M 1) sw
deff 1 ( M 1) 1 (6 1) 0.348256 2.741
设计效应2.741表明,在这项调查中,为达到
同样的估计精度,整群随机抽样的样本量大约为
简单随机抽样样本量的2.74倍.而此时简单随机 抽样的样本量为:
§4.1 整群抽样
一、整群抽样的定义与特点
1.整群抽样的定义 整群抽样是将整体划分为若干群,然后 以群为抽样 单元,从总体中随机抽取一部分群,对抽中的群中的所 有基本单元进行调查的一种抽样技术。 2.整群抽样的优点 (1)抽样框编制得以简化 (2)实施调查便利,节约费用 3.整群抽样的缺点:抽样误差较大。
返回
我们将整群抽样与简单随机抽样的效率进行 比较,假设直接从总体中抽取一个样本容量为nM
的简单随机样本,则样本均值的方差为:
nM S 2 1 f 2 Vsrs ( y ) (1 ) S NM nM nM
但如果该整体被等分为N个规模为M的群,定义
为群内相关系数,描述同一群内成对个体单元之间
返回
§4.2 等概率整群抽样
在N个初级抽样单元中,第i个初级单元含 M i 个二级抽样单元。对于整群抽样而言,被抽中的 群中所有二级单元全部入样。 我们先考虑最简单的情形:每个群所包含的单 元数M相等,称为群规模相等。(实际问题中只要 群规模接近,也可视为群规模相等)。 在群规模相等的情况下,整群抽样一般采用简 单随机抽样方法抽取群,这时对总体均值的估计 十分简单。
而样本群内方差为:
n M 1 2 2 sw ( y y ) ij i n( M 1) i 1 j 1
1 n 1 M 2 ( yij y i ) n i 1 M 1 j 1 1 n 2 si 220.79 n i 1
返回
由相关系数的估计式有
返回
2、整群抽样效率分析
1 f 2 在整群抽样中,由于 V ( y ) Sb nM
估计量的方差主要依赖群间的变异性。因此
S b2 整群抽样中 2 较大,则整群抽样就会损失精度。 Sw
下面我们用方差分析表来讨论这一问题。
返回
群规模相等时的整群抽样
总体方差分析表
来源
群间 群内
自由度
N 1
N ( M 1)
nsrs
nM 8 6 18 deff 2.74
返回
二、群规模不等时的估计 采用整群抽样,如果各群规模 M i 不等,情况会 复杂一些. 此时,有多种不同的抽样方法.
1、等概抽样,简单估计
此时,不考虑群规模不等的影响,抽样方法与 前节群规模相等时相同,估计方法也相同,即采 用简单 随机抽样。对总体均值 Y 的估计为:
1 1 f 1 N 2 V ( y) 2 V ( y) . ( Y Y ) i 2 M nM N 1 i 1
1 f NM 1 . 2 .S 2 .[1 ( M 1) ] n M ( N 1)
1 f 2 S [1 ( M 1) ] nM
的相关程度,其表达式为:
返回
E (Yij Y )(Yik Y ) E (Yij Y ) 2
又可表示为: 根据组合及平均值的计算,
2 (Yij Y )(Yik Y )
i 1 j k N M
( M 1)( NM 1) S 2
返回
事实上,前面提到的 V ( y ) 可以用群内相关系数 近似表示:
元之间的差异尽可能大,以避免同一群内各单元提 供重复信息.这个原则与分层抽样中划分层的原则
恰好相反.由此看来,整群抽样和分层抽样是针对不
同总体结构而提出的两种不同抽样方法.
返回
三、群的规模
群的规模是指组成群的单元的数量。 群的规模大,估计的精度差,但费用省; 群的规模小,估计的精度可以提高但费用增大。 实践中,确定群的规模涉及多种因数,如群的具 体 结构、精度、费用、调查实施的组织管理等。
增大样本b
2 S 也可以用群内方差 w
和群间方差 S 表示,并由样本统计量 估计:
s ,s
2 w
2 b
s s 2 2 sb ( M 1) sw
2 b 2 w
返回
【例 4.2】 估计例4.1中以宿舍为群的群内相关系数
与设计效应.
2 解:由例4.1已计算出样本群间方差 sb 928.6648
1 n 1 n Mi yij y y i n i 1 n i 1 j 1 M i
返回
y 的方差估计为:
1 f 1 n 2 v( y ) . ( y y ) i n n 1 i 1
因为群规模不等,估计时又未考虑权数,所以
平方和
SSB (Y i Y )
i 1 j 1
N M
均方
2
N
M
SSB S N 1
2 b
2 Sw
SSW (Yi Y i ) 2
i 1 j 1
SSW N (M 1)
总计
NM 1
SST (Yij Y ) 2
i 1 j 1
N
M
S2
SST NM 1
返回
一、群规模相等时的估计
1、均值估计量 y 及其方差
若按简单随机抽样,且群的大小相等,都等 于 M ,则对总体 Y 均值的估计为:
yij 1 n y yi n i 1 i 1 j 1 nM
n M
返回
定理4.1
y 是 Y 的无偏估计,即
E ( y) Y
这样的结果是显然的,因为是按简单随机 方法抽取群,所以样本群均值 y 是总体群均 值 Y 的无偏估计,因而
Y E ( y) Y M
返回
定理4.2
y 的方差为:
1 f 2 1 f 1 N 2 Sb V ( y) ( Y Y ) i nM n N 1 i 1
证明:因为 y M y, V ( y ) M 2V ( y),
1 f V ( y) n
N
2 ( Y Y ) i i 1
2 b
返回
下面计算估计量方差的估计值:
1 f 2 1 0.0254 v( y ) sb 926.63 18.81 nM 8 6 s( y ) v( y ) 18.81 4.34
于是置信度为95%的置信区间为98.17±1.96×4.34,
也即[89.66元,106.68元】
s
2 i j 1
mi
( yij y i ) mi 1
2
返回
群规模相等时整群抽样总体群内方差:
N M 1 2 ( Y Y ) i ij N (M 1) i 1 j 1
Sw
2
群规模相等时整群抽样样本群内方差: