第二章基本概念

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

二、抽样单元与抽样框
抽样单元(sampling unit):从抽样理论而言,我们
总可以将总体看成有限的 ,因为总可以将总体划分成互不重 叠又穷尽的有限多个部分。每个这样的部分称为抽样单元。
•抽样单元可只包含一个个体,也可包含若干个体; • 抽样单元可分级; 初级单元→次级单元→三级单元→……→基本抽样单元 (最小一级)。 • 抽样单元可自然形成,也可人为划分。
2.样本均值的方差等于总体方差的1/n
样本均值的分布与总体分布的比较
X 2.5
n=2时样本均值的分布
5
4
3
2
1
0 1.00
1.50
样本均植
2.00
2.50
3.00
3.50
4.00
标准差 = .82 均值 = 2.50 N = 16.00
n=2,n=3的抽样分布曲线
P(x)
n=3
n=2
x
第二节 几种基本的抽样方法
l 简单随机抽样是所有其他抽样方法的基础,因为它在理论上最容易
处理,而且若N不太大,实施起来并不困难。但在实际问题中,若N
相当大,简单随机抽样就不是很容易办得到的。这是因为,首先它
要求有一个包含全部N个单元的抽样框,其次用这种抽样得到的样本
单元较为分散,调查不容易实施。因此在大规模调查中,很少单独 采用简单随机抽样。尽管如此,它依然是其他所有抽样方法的基础。
第二章 基本概念
第一节 总体与样本
l 总体(population):待研究对象的全体。 l 个体(individual): 总体中的单个对象。
总体是个体的集合。 l 有限总体和无限总体:
1.有限总体的范围能够明确确定,即由有限个个体组成; 2.无限总体所包括的个体是无限的,不可数的(大气和水源)。 l 样本(sample):采用一定手段从总体中得到的部分个体的全体 。 样本中个体的个数称为样本容量或样本量(sample size)。
型而划分的。例如在全国调查中,将全国各省按经济发 达程度或地理位置分层;在家庭调查中,将住户家庭按 城市、农村以及不同职业分层,由于不同家庭的收支水 平和生活习惯相差较大,因而这样的分层抽样精度较高; 在对企业调查中,按企业的行业及规模分层等。
3、 整群抽样(cluster sampling):
先将总体中的各个单元归并成数量较少而规模较大的单元, 称为群(cluster),即初级单元。抽样仅对群进行,对被抽中的 群,要调查群中所有的小单元,即次级单元,对没有被抽中的群 则不需要进行任何调查,这种抽样称为整群抽样。 l 整群抽样只需要关于初级单元的抽样框即可。另外由于群通常是 由那些地理位置邻近的或属同一个系统的单元构成,整群进行调 查将大大便利于实施,且省时省力,因此整群抽样也受到实际工 作者的欢迎。 l 整群抽样的主要缺点是精度较差,效率不高。这是因为同一群内 的单元或多或少有点相似,因此对抽中群的每个次级单元都进行 调查也就不可避免造成浪费。
l
若总体中N个初级单元各由若干次级单元组成,先按某种程序
抽取n个初级单元,然后对每个被抽中的初级单元再按某种程序抽
取次级单元,这种方法称为二阶抽样,那么两次抽样程序分别称
作第一阶抽样和第二阶抽样。
l 倘若在二级单元(次级单元)中又可进一步分成三级 单元,那么关于第三级单元的抽样便是第三阶抽样, 如此推广到多阶抽样。例如在全国抽省(直辖市)、 省(直辖市)中抽市(县)、市(县)中抽区(乡或 镇)等等。
l 系统抽样的主要优点是实施方便,不像简单随机抽样 那样每个样本单元都需要随机抽取,有时甚至不需要 一个完整的抽样框。如果对总体单元指标的变化周期 有所了解并加以正确利用的话,系统抽样也能达到相 当高的精度。
l 系统抽样的主要缺点是估计量的精度估计比较困难, 事实上许多行之有效的系统抽样并不是严格的概率抽 样。
元数N的比:
fn N
抽样方法的分类
抽样方法:即样本的抽取方法。抽样方法直接影响到调 查的质量,而样本推断总体的依据是“样本是总体的一 个代表性剖面”。 逐个抽样和全样本抽样法; 放回抽样和不放回抽样; 等概率抽样和不等概率抽样;
问题:总体指标与统计量的关系?
统计量? 常见统计量? 统计量是总体目标的估计量(数理统计的精髓)。 如何构造适当的统计量?(抽样分布理论)
⑤总体分位数:例如我国成年人身高、胸围、腰围等人体尺寸的5%, 50%,95%分位数等。
总量 均值 比例 比率
总体
N
Y Yi i 1
Y

1 N
N
Yi
i 1
P N1 N
R Y Y XX
样本
n
y yi i 1
y

1 n
n i 1
yi
p n1 n
r y y xx
l 本书介绍几种最基本的抽样方法: 对不同项目可采用不同的抽样方法。
在实际问题中,一个具体的抽样方案往往是 各种方法的各种形式的组合。
各种抽样方法
1、简单随机抽样(simple random sampling)
不放回简单 随机抽样
从总体N个单元中抽取n个单元作为样本,如果抽样是不
放回地逐个抽取单元。每次都是在所有未入样的单元中等概率
l 凡是调查就一定有误差,误差或大或小总是存在的,不可能完全 避免。在抽样调查中,误差可分成非抽样误差(non-sampling error)和抽样误差(sampling error)两类。
l 非抽样误差不是由抽样引起的。它包括调查误差,不完整的抽样 框引起的误差,不回答误差以及由于填写或录入调查数据中的错 误而产生的误差等。这些误差在全面调查中也是存在的。
四、样本、样本量与抽样比
l样本(sample):从总体中按一定程序抽得的那部 分个体或抽样单元组成;
l 每个被抽中进入样本的单元称为入样单元;
l 样本中个体(或基本抽样单元)的个数称为样本容量
或样本量(sample size);
l 抽样比(sampleing fraction):样本量n对总体总单
抽取。这样得来的样本称为简单随机样本。简单随机样本也可
以一次同时从总体中抽得,只要保证全部可能的样本每个被抽
中的概率都相等。可能的样本共有C
n N
个,即每一个样本被抽
中的概率都等于1 (各组样本被抽到的可能性相等)
C
n N
在一些文献中,简单随机抽样被分为两种不同的情形:即不放 回简单随机抽样SRSWOR及放回简单随机抽样SRSWR.
三、总体指标的类型
③总体中具有某种特征的个体在全体中的比例或百分率(proportion or percentage):例如某地区人口中在上一年度死亡人数或死亡 率、育龄妇女生育率、结核病患病率等。
④总体中两个指标的总和或均值的比值(ratio): 例如家庭中用于 食品的消费金额在家庭总消费额中所占的比重,这里涉及食品消 费金额与总消费金额两个调查指标。
l 最常见的抽样方案通常是先将总体分层,层内采用二阶或多阶抽 样,其中前几阶抽样是不等概率的,最后一阶抽样是简单随机抽 样或系统抽样,有时最后一阶采用整群抽样等等。
l 因此实际采用的抽样方法都是比较复杂的,掌握了这些基本方法 就可以在实际中灵活地加以应用了。
第三节 误差与精度的表示方法
一、抽样调查中的误差来源
6、不等概率抽样(sampling with unequal probabilities):
当单元大小不相等时,在整群抽样或多阶抽样中常 采用不等概率抽样。最常用的不等概率抽样是按照与 单元大小(规模)成比例的概率进行的抽样,这种抽 样精度较高,数据处理也不一定复杂。
l 以上是对几种基本抽样方法的简单介绍。在实际问题中,很少单 独采用一种抽样方法,而常常是几种抽样方法的有机结合,实际 问题中会有许多变化。例如在某些方法中,入样单元既可以放回 也可以不放回;可以进行等概率抽样,也可进行不等概率抽样。
一、目标总体与抽样总体
l 目标总体 研究对象的全体
l 抽样总体 从中抽取样本的总体
(实际抽样调查所覆盖的总 体)。
目标总体与抽样总体应尽可能一致,抽样总体 由目标总体决定,但在实践中可以构造的抽样 总体却有可能反过来决定调查中的目标总体。
例1:全国城镇单位在岗职工平均工资调查 例2:某省城镇居民收入及消费调查
三、总体指标的类型
l 总体参数(parameter)或指标(characteristic):描述总体特征 的概括性数字度量,是研究者想要了解的总体的某种特征值。抽样 调查的主要目的是通过样本对我们感兴趣的某些总体参数进行估计, 这些总体参数也就是调查的目标量。
l 所关心的总体参数主要有: ①总体总量(population total):也称总体总和,例如全国人 口数,一个地区某年的粮食总产量,我国大熊猫的现存数量等; ②总体均值(population mean):例如职工平均月工资、粮食中 平均残留的农药的含量、某地区粮食的亩产量等;
所有样本均值的均值和方差
x xi 1.0 1.5 4.0 2.5 X
m
16
m
2x

(xi
i1
X)2
Hale Waihona Puke Baidu
(1.0 2.5)2
(1.5 2.5)2
(4.0 2.5)2
0.625 2
m
16
n
比较及结论:
1.样本均值的均值(数学期望)等于总体均值
4、二阶与多阶抽样(two-stage or multi-stage sampling):
假设某工业集团拥有几十家工厂,每个工厂都各自有若干车 间。如果总裁想通过了解若干车间的生产情况以掌握整个集团的 生产进程,最有可能的办法也许是先抽几个工厂,再在被抽中的 工厂中抽取若干车间。这里的抽样分两个阶段进行,我们称第一 次抽样的基本单位—工厂为初级单元,而工厂之下的车间则称为 次级单元或二级单元。
l 多阶抽样的优点是实施比较方便,它既保持了样本的 相对集中,又避免了不必要的浪费,所以精度比整群 抽样高。而缺点是多阶抽样的估计比较困难。
5、系统抽样(systematic sampling):
若总体中的抽样单元按某种次序排列,在规定的范围内随 机抽取一个起始单元,然后按一个确定的规则抽取其他单元,这 种方法称为系统抽样。与其他抽样方法不同的是:这里只有起始 单元是经随机抽取的,而其他样本单元都随着起始单元的确定而 确定。最简单的系统抽样是在取得一个起始单元后,按相等的间 隔抽取其他样本单元,这就是所谓的等距抽样。 l 例:中学数学老师没有时间批改所有学生的作业,但是为了检查 学生的作业,他想出的办法,要求“学号是5的倍数”的同学交 作业或者“学号尾数是3 ”的同学交作业。那么他采用的就是系 统抽样方法。
l 分层抽样特别适用于既要对总体参数进行估计也需要对各子总体 (层)参数进行估计的情形。分层抽样的组织实施都比较方便, 样本散布比较均匀,这些都是分层抽样的优点。分层抽样更重要 的一个优点是它的精度较高,而且它的数据处理也颇为简单。因 此分层技术是应用上最为普遍的技术之一。
l 分层抽样遵循层内单元指标差异较小,而层间差异较大。 l 在一些实际问题中,“层”常是按照调查对象的不同类
二、抽样单元与抽样框
抽样框(sampling frame):抽样总体的具体表现
• 类型:
A、名录框 B、区域框(地域框) C、自然框,如时间、距离
抽样单元大小规模; 调查历史资料
•缺陷: A、重复 B、遗漏
•抽样框应: 包括相关辅助资料。
抽样框是在抽样前,为便于抽样工作的组织,在可能条件下编制的 用来进行抽样的、记录或表明总体所有抽样单元的框架,在抽样框中, 每个抽样单元都被编上号码。
l 简单随机抽样中的估计方法,通常是采用样本均值作为总体均值的 估计,用样本比例作为总体比例的估计,这就是所谓的简单估计。 有时为了提高精度,在有其他辅助变量存在的情况下,也可以用比估 计和回归估计等方法。
2、分层抽样(stratified sampling)
l 将总体中的单元按某种原则划分成若干个子总体,每个子总体称 为层。在每层中独立进行简单随机抽样或其他抽样,这样的抽样 就称为分层抽样。特别,如果每层的抽样都是简单随机抽样,就 称为分层随机抽样。分层抽样的估计先对各层进行,然后再综合 对总体参数进行估计。
抽取样本,如n=2,拟解决的问题:
Ø 样本均值与总体均值的关系如何? Ø 样本均值与总体均值的误差有多大? Ø 样本均值的分布的一般规律是什么?
xi
1.0 1.5 2.0 2.5 3.0 3.5 4.0
p (xi)
0.0625 0.125
0.1875 0.25
0.1875 0.125
0.0625
相关文档
最新文档