第四章 抽样与抽样估计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1)由于性质相同的单元分在同一层,层内差异缩小,可 以提高抽样效率;
(2)可以得到各层子总体的估计;
(3)操作与管理方便; (4)能避免得到一个“差”的样本。 3、缺点: (1)对抽样框的要求比较高,必须有分层的辅助信息; (2)收集或编制抽样框的费用比较高; (3)若调查变量与分层的变量不相关,效率可能降低; (4)估计值的计算比简单随机抽样复杂。

(-σ , +σ )概率是68.27%;
(-2σ , +2σ )概率是95.45%; (-3σ , +3σ )概率是99.73%;
(-1.96σ , +1.96σ )概率是95%;
二、抽样分布

抽样分布是根据所有可能样本计算出来的某一 统计量的数值分布。 抽样分布有极限分布和精确分布两类。极限分 布也叫做大样本分布,它只有正态分布一种形 式;精确分布又叫做小样本分布,其前提是总体 服从正态分布,它是正态分布的导出分布,包括 有t分布、F分布和 2 分布等形式。

函数(分布曲线方程)为:
f ( x) 1

2
e
1 x 2 ( ) 2
当μ =0,σ 2=1时,称该分布为标准正态分布。标准正 态分布的密度函数为
1 2
1 2 x 2
f ( x)
e

任何正态分布,它的样本落在任意区间(a,b)内的概 率等于直线x=a,x=b,横坐标和曲线f(x)所夹的面积(可 由正态分布概率积分表查得)。经计算,正态总体的样本 落在:

通常将反映总体数量特征的综合指标称为总体参
数。常见的总体参数主要有:总体总和;总体均值;总
体比率;总体比例。 一般将反映样本数量特征的综合指标称之为统计


量。统计量是n元样本的一个实值函数,是一个随机变
量,统计量的一个具体取值即为统计值。主要的样本统 计量有:样本总和;样本均值;样本比率;样本比例。
2.各种非概率抽样方法 随意抽样。样本单元的抽选以随意的方式进行。如街道 拦截访问。 志愿者抽样。被调查者都是自愿参与调查。如网上问卷, 自愿回答。 判断抽样。由专家有目的地挑选“有代表性”的样本进 行调查。如典型调查。 配额抽样。从总体的各个子总体中选取特定数量的样本 单元组成样本。如市场调查中,规定男女消费者的样本 各多少。 滚雪球抽样。适合于总体中某种较为稀少的特殊子总 体而又缺少完整的抽样框。抽样时通过已知的少数个体 获得信息逐渐扩大。
四、抽样效率与设计效果
在样本容量相同的情况下,抽样方差越小表明抽样 效率越高。设计效果是设计方案的方差与简单随机抽 样的方差之比。设计效果通常用英文字母Deff表示:
D deff 2 srs
2
五、抽样的类型
非概率抽样:采用非随机的方法从总体 中抽选单元 抽 样 调 查 概率抽样:基于随机的原则从总体中抽 取单元
抽样方法 放回抽样 不放回抽样
考虑顺序
A Nn
N! A P ( N n)!
n N
n A CN
不考虑顺序
AC
n N n 1
N! n!( N n)!
三、抽样框




抽样框是在抽样前,为便于抽样工作的组织,在可 能条件下编制的用来进行抽样的、记录或表明总体所有 抽样单元的框架,在抽样框中,每个抽样单元都被编上 号码。抽样框可以是一份清单(名单抽样框)、一张地 图(区域抽样框)。 编制抽样框是一个实际的、重要的问题,因此必须 要认真对待。 常见的抽样框问题可以概括为四种基本类型: (1)缺失一些元素,即抽样框涵盖不完全; (2)多个元素对应一个号码; (3)空白或存在异类元素; (4)重复号码,即一个元素对应多个号码。 对抽样框存在的缺陷要认真对待,有效处理。
(4)估计值与抽样方差的计算较为复杂。
(六)多相抽样 1、定义:在同一个抽样框内,先抽一个大样本, 收集基本的信息,然后在这个大样本中再抽一个子样本, 收集调查的详细信息。 多相抽样示意图:
第一相样本 。。。。。。。。 。。。。。。。。 。。。。。。。。 。。。。。。。。
。。。。。 。。。。。
第二相样本
(一)非概率抽样



1.非概率抽样及其优缺点 非概率抽样是用非随机的方法抽选样本。 优点: 快速简便; 费用相对比较低; 不需要任何抽样框; 对探索性研究和调查设计的开发很有用。 缺点: 不能对总体进行推断; 由于不知总体单元的入样概率,故不能计算估 计 值的抽样误差。
六、几种主要的概率抽样方法
(一)简单随机抽样 1、定义:简单随机抽样是从总体的N个抽样单元 中,每次抽取一个单元时,使每一个单元都有相等的 概率被抽中,连续抽n次,以抽中的n个单元组成简单 随机样本。 2、优点: (1)比较容易理解和掌握;(2)抽 样框不需要其他辅助信息;(3)理论上比较成熟, 有现成的方差估计公式。 3、缺点: (1)没有利用辅助信息;(2)样本 分散,面访费用较高;(3)有可能抽到较差的样本; (4)抽选大样本比较费时。
二、必要样本量和样本可能数目

样本中包含的抽样单元个数称为样本容量,又称样本 含量或样本大小 。必要样本量是能够满足估计精度要求的最 少样本量。 样本可能数目则是在容量为N的总体中抽取容量为n的 样本时,所有可能被抽中的不同样本的个数。用A表示。当N 和n一定时,A的多少与抽样方法有关,其计算方法列表如下:
3、系统抽样的优点 (1)没有抽样框时可代替简单随机抽样方法简单; (2)不需要辅助的抽样框信息; (3)样本的分布比较好;估计值容易计算。 4、系统抽样的缺点 (1)若抽样间隔与总体的某种周期性变化一致,会得 一个差的样本; (2)不使用辅助信息使抽样效率不高; (3)使用概念框时,不能预先知道样本量; (4)没有一个无偏的方差估计量; (5)当N不能被n整除时会得到样本量不同的样本。
有关基本概念
抽样分布 抽样误差 抽样估计
第一节
有关基本概念
一、总体和样本 二、必要样本量和样本可能数目 三、抽样框 四、抽样效率与设计效果 五、抽样的类型
六、几种主要的概率抽样方法
一、总体和样本
总体是指研究对象的全体`,它是由研究对象中的 单元组成的。总体中包含单元的数目称作总体容量(或 大小);样本是指抽样时按照抽样的规则所抽中的那部 分单元所组成的集合。
。。。。

2、优点: 能显著提高估计值精度(与简单随机抽样相比);能 用来获得抽样框中所没有的辅助信息(特别是分层信息); 适用于某些调查指标的数据收集费用特别高,或 会给被调查者带来较重的回答负担的情况。 3、缺点:
如果需要根据第一相的结果来进行第二相调查,得到
整个调查结果的时间比单相调查长;由于对某些样本单元 访问次数超过一次,故所需费用比一相调查要多;调查的 组织会很复杂;估计值和抽样误差的计算会相当复杂。
(二)概率抽样




概率抽样是从总体中随机抽选样本单元,被抽中的单 元既不取决于调查人员的愿望,也不取决于被被调查者的 态度。其次每一个单元都有一定的概率被抽中。 优点: 可以对总体进行推断,并能计算估计值的抽样误差。 缺点: 相对于非概率抽样,设计比较复杂,而且费用也比较高。 常见的概率抽样方法主要有: 简单随机抽样、系统抽样、与大小(或规模)成比例的 概率(PPS)抽样、整群抽样、分层抽样(STR)、多阶抽样、 以及多相抽样等。
第二节
抽样分布
一、正态分布 二、抽样分布
一、正态分布
如果总体各个体的标志值以总体平均数为中心,形成 钟型对称分布,其分布曲线向两侧扩展,逐渐向横轴逼 近,无限延伸出去,但不接触横轴,则这种分布就叫做 正态分布,或高斯分布、常态分布。服从正态分布的总 体称为正态总体。

如果一个随机变量X服从正态分布,则其分布的密 度
第五章
抽样与抽样估计
重点:不同抽样组织形式的抽样误差计算;总体
均值及比例的区间估计;必要抽样数目的计算方
法。抽样估计的基本理论;抽样误差的含义与计 算方法;区间估计问题。 难点:抽样估计的基本理论;抽样误差的含义与 计算方法;区间估计问题。 所需课时:7课时
本章主要内容
第一节
第二节 第三节 第四节
式中 n 是正整数,Γ (n/2)是Γ (伽马)函数
( y) e t t y 1dt
0

( y 0)
当 y=n/2 时的函数值。
(二)系统ห้องสมุดไป่ตู้样
1、定义:又称等距抽样,对研究的总体按一定 的顺序排列,每隔一定的间隔抽取一个单元的抽样方 法。 2、抽选方法:设总体单元数为N,要抽n个单元 为样本,先计算抽样间隔k=N/n,在1到k之间抽取一 个随机起点r,则被抽中单元的顺序位置是:r,r+k, r+2k,„。
起点r
r+k
r+2k
(五)多阶抽样 1、定义:它是由两个或更多个连续的阶段抽取样本 的方法。
多阶抽样示意图:
第一阶样本 最终样本
总体
2、优点: (1)当群具有同质性时,多阶抽样的效率高于整群抽 样;
(2)样本的分布比简单随机抽样集中,采用面访可以 节约时间和费用;
(3)不需要整个总体单元的名录框,只要群的名录框 和抽中群的单元名录框。 3、缺点: (1)效率不如简单随机抽样; (2)通常不能提前知道最终的样本量; (3)调查的组织较整群抽样复杂;
r+3k
圆形系统抽样方法:当N不能被n整除时,用圆形系 统抽样法可以避免出现样本量可能不一致的情况。把总 体单元假想排列在一个圆上,取 k = N/n 最接近的整数, 作为间隔,然后在1到N之间,抽取随机起点 r,则被抽 中的单元顺序号为: r,r+k,r+2k,„„r+(n-1)k。 如:N=55,n=9,就取k=6,在1到55之间取一个随机 起点。例如r=42,则被抽中的单元是42,48,54,5,11, 17,23,29和35 。
y ~ N (, 2 / n)
(二)样本统计量的精确分布
2 1、 分布
设随机变量Yi~N(0,1)(i=1,2,„,n),且相互独立,则 2 2 Y=∑Y i服从自由度为n的 分布,记作
Y ~ 2 (n)
其概率密度函数为:
n x 1 1 2 2 x e , x 0; n n f x 2 2 2 0 , x 0.
(三)整群抽样 1、定义:由若干个有联系的基本单元组成的集合称为 群,抽样时以群为抽样单元的抽样方法就称为整群抽样。
整群抽样示意图:
黄色为总体 红色为群 白点为基本单元
2、整群抽样的优点:
(1)能大大减低收集数据的费用;
(2)当总体单元自然形成的群时,容易取得抽样框, 抽样也更容易;
(3)当群内单元差异大,而不同群之间的差异小时, 可以提高效率。
(一)样本统计量的极限分布 1、如果总体服从正态分布,且均值和方差均为已知,即
Y ~ N (, 2 )
则可以证明不论样本量大小如何,样本均值都围绕总体 均值而服从正态分布,并且其抽样分布的方差等于总体方差 的n分之一,即 y ~ N (, 2 / n)
2、对于非正态总体,若均值μ 和σ 2有限,则根据中心极限 定理,当样本量n充分大时,样本均值仍然围绕着总体均值 而近似地服从正态分布,即
抽取样本
总体 样本
推断总体


抽样调查中的总体是有限的。在抽样以前,必须根
据实际情况把总体划分成若干个互不重叠并且能组合成 总体的部分,每个部分称为一个抽样单元,不论总体是 否有限,总体中的抽样单元数一定是有限的,而且是已 知的,因此说抽样调查的总体总是有限的。 抽样调查中影响样本代表性的因素有以下几个方面: (1)总体标志值分布的离散程度。 (2)抽样单元数的多少(或称样本量的大小)。 (3)抽样方法。
3、缺点: (1)若群内个单元有趋同性,效率将会降低; (2)通常无法预先知道总样本量,因为不知道群内有 多少单元; (3)方差估计比简单随机抽样更为复杂。
(四)分层抽样
1、定义:在抽样之前将总体分为同质的、互不重叠 的若干子总体,也称为层。然后在每一个层独立地随机 抽取样本。 分层抽样示意图:
2、优点:
相关文档
最新文档