抽样技术基本概念

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(二)调查总体
调查总体也称抽样总体或作业总体,是实 践中可以构造并据以从中抽取样本的总体,它 通常能对所包含的单位进行编号或按一定的标 志进行排序。
4
要注意以下几点: 1、从理论上说,调查总体与目标总体应 该完全一致,但在实践中两者往往存有差异。 2、抽样推断的结论只适合于说明调查总 体,但我们研究的目的是认识目标总体的数量 特征,因此在抽样之前尽量使调查总体与目标 总体保持一致十分重要。基本原则是,调查总 体由目标总体所决定,但在实践中,可以构造 的调查总体却有可能反过来决定调查中的目标 总体,即根据调查总体来调整目标总体。 3、调查总体通常是有限总体,它所包含 的调查单位个数称为总体容量,常用N表示。 4、在实践中,我们还经常要对总体中某 特定的组或类进行调查研究,这样的组或类就 称为研究域或子总体。
9
五、总体指标与样本指标
反映总体数量特征的指标称为总体指标,有时 也称为总体目标量或总体参数;在抽样中常用的总 体指标有: Y Yi 总体总值 总体均值 Y Yi / N 总体比例 P N1 / N 2 总体方差 S 2 (Yi Y ) /( N 1)或S 2 NP(1 P) /( N 1) 反映样本数量特征的指标称为样本指标,有时 也称为样本统计量。相应地常用的样本指标有: 样本总值 y yi 样本均值 y yi / n p n1 / n 样本比例 s 2 ( yi y ) 2 /( n 1)或s 2 np(1 p) /( n 1) 样本方差 10
14
二、抽样分布
(一)抽样分布的形式 抽样分布就是抽样估计量的概率分布,它 由估计量的可能取值和与之对应的概率组成。 对于一个固定的总体,用相同的抽样方法 反复从中抽取容量为n的样本,就会产生m个估 计值,把这些估计值形成频率分布,即形成k (k≤m)种不同估计值及其相应频率的分布, 就是抽样分布。 抽样分布的具体结果要依总体容量大小, 样本容量大小和抽样方式、方法而定。
22
二、抽样误差的表现形式
抽样误差的表现形式一般有三种:抽样实 际误差、抽样标准误和抽样极限误差。 抽样实际误差是指抽样估计值与总体指标 ˆ 值之间的离差,表示为 - 特点: 1、若估计量无偏,所有可能的实际误差 的总和为0; 2、每一次抽样的实际误差是不可知的; 3、抽样实际误差是随机变量。
这里需要说明方差与均方误差的区别:
2 2 ˆ无偏,即E(ˆ) ,则E(ˆ ) E ˆ E(ˆ) , 若估计量 这就是估计量方差V(ˆ)。若估计量ˆ有偏,即E(ˆ) , 2 那么我们就把E(ˆ )定义为均方误差,用MSE(ˆ)来


表示。
ˆ 如果令估计量的偏差为B,即B E() ,那么估计量与 均方误差的关系为: ˆ ˆ MSE() V() B 2
5
二、调查单位与抽样单位
总体是由单位构成的,单位有调查单位与 抽样单位之分。 调查单位就是调查项目的承担者,即我们 想通过调查取得其观测值的单位,它通常是构 成总体的最基本单位。但有时调查单位与基本 单位并不相同。 抽样单位就是用以抽选调查单位进入样本 的中介单位,是调查总体与调查单位之间的联 接单位。在多阶段抽样调查中,抽样单位还可 以分级,即初级单位、次级单位、第三级单位 等等。
当偏差B不超过10%时,B 2 超过1%,均方误差与方差相差不大。
17
还需说明一点:
抽样分布曲线与估计量坐标轴之间的极限 面积为1,或者说抽样分布曲线涵盖所有可能 估计值的概率为100%。 估计量无偏时的方差或估计量偏差不大时 的均方误差越小,表明估计量分布就越集中, 估计值就越靠近总体指标,所抽样本给出的估 计值靠近总体指标的概率就越大。
23
抽样标准误是衡量抽样误差大小的核心指标,是对 总体指标作出区间估计的一个重要因素,狭义上所指的 抽样误差就是抽样标准误。它就是抽样分布或抽样估计 量的标准差,是抽样分布方差或抽样估计量方差(均方 误差)的平方根。 要点: 1、抽样分布的方差或标准差越大(小),估计量的抽 样分布就越分散(集中),抽取样本估计总体的误差平 均来讲就越大(小); 2、抽样标准误与实际抽样误差的关系是:若各个估计 值的实际误差越大(小),则抽样标准误也越大(小); 3、影响抽样误差大小的因素有:(1)总体内在差异; (2)样本容量;(3)抽样方法、方式;(4)估计量。
8
样本的抽取方法有重复抽样与不重复抽样之 分。
所谓重复抽样也称为放回抽样或回置抽样, 就是允许总体(抽样框)中的单位被抽中两次或 两次以上的抽样。 所谓不重复抽样也称为不放回抽样或不回置 抽样,就是只允许总体(抽样框)中的单位最多 被抽取一次的抽样。 样本的抽取还有等概率抽样与不等概率抽样 之分。 如果总体(抽样框)中的每个单位被抽中入 样的概率相等,称为等概率抽样; 如果总体(抽样框)中各单位被抽中入样的 概率不相等,则称为不等概率抽样。
需要注意的几点: 1、在抽样中,总体指标的值是惟一但未
知的,需要通过可知但非惟一的样本指标的值 来进行估计。 2、总体与样本的关系就转化为了总体指 标与样本指标的关系。 3、样本指标是构造总体指标估计量的基 础和依据。
11
第二节
估计量与抽样分布
12
一、估计量
所谓估计量就是以样本指标为基础构造的、用以估 计总体指标的规则或形式,是抽样估计必不可少的因素。 估计量是随机变量。估计量根据某一样本得到的具体结 果称为估计值。 作为优良的估计量有三个基本标准:无偏、一致和 有效。 所谓无偏是指估计量的数学期望等于总体指标,即 由估计量给出的所有估计值的平均数等于总体指标值; 所谓一致也称相合,是指随着样本容量的扩大,估 计值会趋近于总体指标值。 所谓有效是指所选定的估计量比其它估计量有更小 的方差或均方误差。 有时无偏性与有效性之间可能会有矛盾,常常为了 有效性而放弃无偏性 。 13
根据构造的方法不同,抽样估计量有简单 估计量和复合估计量之分。 简单估计量也称直接估计量,就是直接以 调查变量的样本指标作为总体指标的估计量, 例如总体均值的估计量是样本均值,总体比例 的估计量就是样本比例,总体方差的估计量就 是样本方差等。 复合估计量也称间接估计量,就是在调查 变量的样本指标的基础上,再结合辅助变量来 构造一个新的估计量,常用的有比率估计量和 回归估计量两种,它们是有偏的,但通常更有 效。
24
抽样极限误差是指以样本估计总体所允许 的最大误差范围,也即在一次抽样估计时,抽 样估计量所允许取的最高值或最低值与总体指 标之间的绝对离差,常用∆表示。 要点: 1、抽样极限误差实际上就是对估计量可 允许取的最高值或最低值进行了限制,因为每 一次抽样都有一定的精度要求; 2、抽样极限误差取决于两个因素:一是 抽样标准误,即抽样分布本身具有多大的标准 差;二是抽样估计概率保证程度,也称为置信 水平。 3、抽样极限误差与抽样标准误之比的系 数称为抽样概率度,并用t来表示。
6
三、抽样框
抽样框就是根据抽样单位所编制的名录,是抽 样总体的具体表现。 一个好的抽样框有两个基本标准: 一是与目标总体保持一致; 二是能够提供与调查目的有关的尽量多准确、 完整的辅助信息。 抽样框的基本形式有以下几种: (1)名单抽样框,即以名单一览表的形式列出 所有的抽样单位; (2)区域抽样框,即按自然地理区域划分来列 出所有的抽样单位; (3)时间抽样框,即按时间顺序排列抽样单位。 有时还可把几种抽样框结合成为综合抽样框。
7
四、样本
样本是总体的一部分,是从抽样总体中按 一定方法和程序抽取的部分调查单位的集合, 也称为子样。 如果说总体是我们所要研究的对象,那么 样本就是我们所要观察的对象 。 样本中所包含的调查单位数称为样本容量, 常用n表示。 样本容量与总体容量之比称为抽样比,常 用f来表示。 对于同一个总体,用相同的抽样方法反复 从中抽样,可以构成一系列容量为n的样本。 从一个总体中最多可以抽取的容量为n的不同 样本数目,称为样本个数。
26
区间(θ 1,θ 2 )就被称为抽样的置信区 间或估计区间,θ 1 被称为置信区间的下限, θ 2被称为置信区间的上限 。 在正态分布下,估计量关于总体指标对称 分布。我们只要以点估计值加上或减去 ∆ 就可 得到θ 1和θ 2 ,置信区间就被确定了。
25
三、置信区间
抽样估计从形式上看有两种:点估计和区 间估计。 所谓点估计也叫定值估计,就是以所抽样 本资料为依据,直接根据所选择的估计量对总 体指标作出一个确定值的估计; 所谓区间估计就是以点估计为依据,用一 个具有一定可靠程度的区间范围来估计总体指 标θ ,也就是要在一定的概率保证下,想办 法找出两个数值θ 1和θ 2(θ 1≤θ 2),使θ 处 于这两个数值之间,即: Pr(θ 1 ≤ θ ≤ θ 2 )=1- α
19
第三节
抽样误差与置信区间
20
一、抽样中的误差构成
一般地,抽样中的总误差可以简单地分为两 类(暂不考虑估计量偏差时): 一类是抽样误差; 一类是非抽样误差。 它们之间的关系可以图示如下: 总误差 非抽样误差 抽样误差
21
抽样误差是由于抽样的非全面性和随机性所 引起的偶然性误差,即因抽样估计值随样本而异 所造成的误差。偶然性误差的特点是随着样本容 量的增大而趋向于0,或者各估计值的平均数与总 体指标之差为0,是一致性误差。 非抽样误差是由随机抽样的偶然性因素以外 的原因所引起的误差,是抽样调查所特有、而且 所有统计调查都可能产生的误差,它主要是由于 抽样框不够准确、有些单位的观察资料无法取得、 已取得的一些资料不真实等原因引起的样本观察 数据非同质、或残缺、或不真实而产生的误差。 这种误差往往具有系统偏向性。减少和控制非抽 样误差具有很重要的意义。
18 16 14 12 10 8 6 4 2 0 50-60 70-80
3wk.baidu.com% 30% 25% 20%
`
15% 10% 5% 0% 90-100
第二章 抽样技术的基本概念
本章要点
本章对抽样技术的基本概念进行阐述 和介绍,为以后各章的学习奠定理论与 方法基础。具体要求: ①掌握总体、单位、抽样框、样本 等概念,理解它们之间的内在关系,熟 知常用的总体指标和样本指标; ②系统了解估计量、抽样分布、抽 样误差、估计精度、置信区间等概念的 内涵和作用,能够运用它们进行实际的 抽样估计; ③基本掌握和理解样本设计的内容、 原则和效果衡量指标。
18
三、抽样分布定理
通过研究,人们发现了一些重要的抽样分布定理, 常用的有样本均值抽样分布定理和样本比例抽样分布 定理。 样本均值的抽样分布类型一般有三种: 1、正态分布的再生定理; 2、中心极限定理; 3、t分布定理; 对于样本比例,在重复抽样时服从二项分布,在 不重复抽样时服从超几何分布,它们的极限形式都是 正态分布。 正态分布是最重要、最常用的抽样分布。 我们可 以根据正态分布理论,在一定的概率保证下,以所抽 样本所给出的估计值为依据对总体指标作出区间估计。
2
第一节
总体与样本
3
一、总体
总体有目标总体与调查总体之分 。 (一)目标总体 目标总体也称全及总体,是由符合研究目 的的所有具有相同性质或特征的个体所组成的 集合。它是抽样推断的目标所在,即我们想通 过抽样来认识它的数量特征。 目标总体根据所包含的个体数量是否有限, 可以分为有限总体与无限总体。
15
(二)抽样分布的特征 如果以估计量为横坐标轴,以概率为纵坐标轴,就 可以形成抽样分布曲线图。 对于不同的总体,不同的样本容量、抽样方法和估 计量,就会有不同的抽样分布曲线图,即抽样分布形状 不同,最终表现为抽样分布特征不同。 为了进行区别和比较,我们必须用一定的指标来反 映其特征,那就是抽样分布的期望与方差。 抽样分布的期望实际上就是抽样估计量的期望,即 估计量所有可能值的平均数 。 抽样分布的方差实际上就是抽样估计量的方差,是 以估计量的期望为中心、用以反映抽样分布离散程度的 核心指标。它是估计量所有可能值与其期望的离差平方 的平均数 。 16
相关文档
最新文档