第十一章非抽样误差

合集下载

抽样调查-调查中的非抽样误差培训课件PPT课件

抽样调查-调查中的非抽样误差培训课件PPT课件

根据非抽样误差的来源、性质 可分为以下三类:
(1)抽样框误差,即由不完善的抽样框引起的
误差; (2)无回答误差,即由于种种原因没有从被调 查单元获得调查结果,造成调查数据的缺失; (3)计量误差,即所获得的调查数据与其真值 之间不一致造成的误差。
§11.2 抽样框误差
一、概念
抽样调查中的总体有两个: 目标总体—调查研究对象的全体。 抽样总体—从中抽取样本的总体。 (即抽样框) 理想抽样框的标志是目标总体和抽样总 体完全重合。否则抽样框就是不完善的。
●抽样框存在的问题,有些是不容易解决的。 因此抽样框的维护、抽样框使用情况的不断 总结与研讨,对于经常性的调查项目来说是 十分必要的。
●抽样框的不完善并不是不能使用。可以进 行修补、调整。
N1
(3)抽样框误差的影响
设目标总体单元:N
抽样框中单元:N1 抽样框中丢失的单元:N0
N=N1+N0 ■ 总体总量的估计 总体总量的真值是:
W0 (Y1 Y0 ) W0 (1 r)
Y
rW0 (1 W0 )
由上式可以看出,如果丢失单元的均值与
抽样单元的均值相同,即
r
1
,则估计量
Y
是目标变量 Y 的无偏估计。
r 反之,如果 r 1 ,偏倚状况则随着
的变化而变化。
Y
三、不完善抽样框的使用
抽样框不完善并不是不能使用,因为构造一个完 善的抽样框有时是非常困难的。使用不完善抽样框时 若能采用一些补救措施,有助于减小抽样框误差。主 要采用以下三项补救措施:
ቤተ መጻሕፍቲ ባይዱ
N N1 N0
R1
N1 N
, R0
N0 N
则总体均值为: Y R1Y 1 R0Y 0

应用抽样技术_3版(李金昌主编)PPT模板

应用抽样技术_3版(李金昌主编)PPT模板

著名抽样专家简介
17
第十一章非抽样误差
第十一章非抽 样误差
0 1
第一节非抽样 误差构成
0 4
第四节计量误 差分析
0 2
第二节抽样框 误差分析
0 5
本章小结
0 3
第三节无回答 误差分析
0 6
思考与练习
第十一章非抽样误 差
著名抽样专家简介
18
主要参考文献
主要参考文献
19
封底
封底
感 谢 聆 听
第三版前言
07
第一章抽样技术概述
第一章抽样技 术概述
01 第一节什么是抽样 02 第二节抽样技术的
技术
产生与发展
03 第三节抽样技术的 04 本章小结
应用
05 思考与练习
06 著名抽样专家简介
08
第二章抽样技术基本概念
第二章抽样 技术基本概

0 1
第一节总体与 样本
0 4
第四节样本设 计
0 2
16
第十章其他抽样方法技术
第十章其他抽样方法技术
01
第一节样本轮 换
02
第二节双重抽 样
03
第三节随机化 装置
04
第四节交叉子 样本
05 本章小结
06
思考与练习
单击此处添加标题
单击此处添加文本具体内 容,简明扼要的阐述您的 观点。根据需要可酌情增 减文字,以便观者准确的 理解您传达的思想。
第十章其 他抽样方 法技术
第二节估计量 与抽样分布
0 5
本章小结
0 3
第三节抽样误 差与置信区间
0 6
思考与练习
第二章抽 样技术基 本概念

非抽样误差产生的根源及其控制与补救

非抽样误差产生的根源及其控制与补救

非抽样误差产生的根源及其控制与补救李宏伟,李武选(长安大学经济与管理学院,西安710064)摘要:如何降低或消除非抽样误差一直是一个让统计理论工作者更是统计实践活动中工作人员头疼的问题,这也是抽样调查必须面临的现实问题。

为了解决非抽样误差这个难题,文章从这一误差的产生根源入手,对非抽样误差的各种情况进行了原因分析,针对具体情况结合实际提出了可能采取的有效控制手段和事后的常用补救措施来克服这一带有根本性的问题。

关键词:非抽样误差;根源;控制;补救措施中图分类号:F222.3;C81文献标识码:A文章编号:1002-6487(2008)17-0162-02非抽样误差是指在抽样调查过程中,由于违背了随机原则,导致抽取样本的计算结果与要推断总体的真实值之间的差异。

这一问题的出现主要集中在抽样设计和实际调查访问中,客观上体现为抽样调查设计过程和调查过程中的主观随意性或工具的系统性偏差或者相关人员缺乏相应知识和实践经验。

1 非抽样误差的根源这一部分误差是由抽样调查者的主观意识人为造成的,我们虽然无法完全杜绝,但是我们却是可以减少甚至是可以避免的。

一般情况下,只要我们考虑的周到,就可以减少此类误差。

在非随机抽样误差中,我们又可以根据非随机抽样的组织形式具体可分为简便抽样(便利抽样)误差;判断抽样误差;配额抽样误差;滚雪球抽样误差等。

根据以上四种非随机抽样组织形式操作中的各个方面和各个环节,我们可将非抽样误差的根源归集为以下 6 种的具体情况,分别是非随机抽样组织者通盘安排不当、非随机抽样设计者的错误、计量方法不妥和计量工具不准、调查者素质问题、被调查者素质不满意以及数据处理错误等原因。

1.1 非随机抽样组织者通盘安排不当引起的非抽样误差它也可以称为组织者误差主要是指在这种调查的组织者对其组织形式包括简便抽样(便利抽样)、判断抽样、配额抽样、滚雪球抽样等其概念不理解或者过程不熟悉或者所有环节考虑不周到等致使在组织时错误的将一种形式调查在实际中改变为另一种形式或者互相混杂使用导致最终结论与所研究现象实际真值存在较大差异。

第十一章非抽样误差及其控制

第十一章非抽样误差及其控制

第十一章 非抽样误差及其控制数据的准确性与可靠性是抽样调查的生命力之所在。

如前所述,在抽样调查中,除存在抽样误差外,还经常出现一些非抽样误差,主要的非抽样误差产生原因有抽样框不完善、无回答的出现、调查过程的差错以及数据整理登记过程中的差错等。

因此,抽样调查中,不仅要控制抽样误差,而且还要控制非抽样误差。

如何有效地控制非抽样误差,取得准确可靠的数据资料,以及如何对已经取得的数据进行质量评价,一直是抽样调查理论和实践中所经常关注和着力研究解决的重要问题。

第一节 抽样框误差及其控制一、抽样框误差的产生抽样框是有关总体全部单元的名录或地图等的框架,是抽取样本单元的依据。

理想的抽样框(也称抽样总体)应该同所研究现象的总体(也即目标总体)一致,但在实践中,抽样总体与目标总体常常不一致,由此产生的误差就是抽样框误差。

考察抽样框误差的成因,大致有以下几个方面:(1)丢失目标总体单元。

在此情形下,抽样框没有能够覆盖全部目标总体单元,也就是使部分目标总体单元没有包括在抽样框中,因而也就没有机会被选入样本。

由于存在丢失单元,使得总体总和的估计偏低,总体均值的估计也可能会出现偏差。

丢失单元是一种威胁性较大的抽样框误差,具有较强的隐蔽性,不易被发现。

(2)包含非目标总体单元。

有时,抽样框中也可能包含了一些不属于研究对象总体即非目标总体的单元,由此容易导致总体总和的估计偏高。

但这种类型的抽样框误差一般要比丢失单元的威胁性小。

因为在调查中,非目标总体单元往往更容易被发现,并予以剔除。

(3)复合联接。

实践中常可能会遇到这种情况:抽样框中的单元与目标总体单元不完全为一一对应,而是一对多或多对一,即存在复合联接。

在这种情形下,目标总体中各个单元的入样概率可能会受到相应的影响,从而导致非抽样误差的扩大。

但是,有时候采用经过精心设计的有复合联接的抽样框可以提高稀有元素被抽中的概率。

(4)不正确的辅助信息。

一般将不包含辅助信息的抽样框称之为简单抽样框,而将包含辅助信息的抽样框称为复杂抽样框。

市场调查中非抽样误差的产生和控制

市场调查中非抽样误差的产生和控制

市场调查中非抽样误差的产生和控制摘要:非抽样误差直接与市场调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。

本文在具体分析这些阶段导致非抽样误差产生的工作情形后,提出了科学设计调查方案、重视对调查员的培训和管理、减少被调查者误差和做好调查资料的汇总工作等几方面控制非抽样误差的对策。

关键词:非抽样误差;调查方案;调查员;被调查者一、非抽样误差的产生非抽样误差产生的原因多种多样,尤其在实施调查过程中最为常见。

非抽样误差直接与调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。

1.准备阶段准备阶段是整个调查的起始阶段,准备阶段的主要任务是:确定调查任务,设计调查方案,组织调查队伍。

调查设计者首先要列出具体研究目标,从而确定所要研究的问题和识别研究的总体,最后明确调查任务并给整个调查活动一个纲领。

具体说来,设计调查方案包括调查指标的设计、调查总体方案的设计和调查方案可行性研究三方面的内容。

在本阶段可能产生误差的工作主要有:(1)调查设计者可能误解了主办者的目的意图,制定了错误方针,误导研究方向。

(2)目标总体与实际的调查总体不一致。

例如,进行电话访谈时,社区周边的居民用户电话号码可能没有列到电话号码簿中,另一些用户可能已经搬迁而导致电话为空号,因此目标总体和被调查总体出现一定的差异。

(3)调查设计者没有事先预先设定好调查的具体步骤和时间表、可能出现的问题以及未事先培训和挑选恰当的调查员,因而导致计量质量的下降。

(4)预算的限定。

任何调查都有费用,市场调查也同样。

并且由于市场调查的主办者一般都是企业,因此费用上的限制就更为明显。

如果资金短缺,只能缩小研究范围或进一步寻求资金。

上述第一点是调查设计者误解调查主办者的目的,这必然导致系统误差,使调查信度和效度下降。

第二点由于空号的原因,造成缺失值误差。

第三点由于没有预先设定调查步骤和很好的培训访问员,即没有制定标准化的市场调查结构,这样也会降低信度。

非抽样误差

非抽样误差

非抽样误差又称“工作误差”。

指在调查过程中由于种种人为因素所造成的代表性误差及登记性误差的总称。

前者通常是指调查方案设计有缺陷,如题器或指标含义不清、有诱导性;调查员在实施调查中不遵守随机原则,有意多选较好或较差的单位,等等。

后者是指在记录、汇总、计算、抄写调查数据资料时所发生的差错。

人为因素所造成的代表性误差通常表现为一种系统性的偏差。

它与抽样误差由于随机地观察总体中的一部分单位所造成的样本统计量的波动而产生的代表性误差有着明显的不同。

抽样误差是围绕分布中心所表现出的没有方向性的非系统性的误差,工作误差则是稳定的、有方向性的系统性偏差。

避免非抽样误差的主要措施是:(一)严格遵守随机原则,规定应抽选作为样本的调查对象都必须一一调查,不能随便更换、减少或增加,避免有意多选较好或较坏的调查对象来达到自己原定要说明某个问题的目的;(二)搞好问卷设计,严守客观公正的原则,避免题器设计所产生的诱导性因素,并努力使调查项目所涉及的概念指标尽可能地操作化到清晰、明确、唯一的程度; (三)认真培训调查登记人员,做好一切必要的准备工作,尽量不发生填表、登记之类过程中的差错。

原因分析引起非抽样误差的原因很多,比如抽样框不齐全,访问员工作经验有限,被访者不配合访问而加以虚假的回答,问卷设计本身存在缺陷等等。

通常,在技术性调查中,会出现由于缺乏回答知识而产生的非抽样误差。

另外两种类型的非抽样误差是选择误差和数据处理误差。

当调查中包含不恰当的项目时,就会生产选择误差。

假设设计一个抽样调查,来描述有胡须的男人外观。

对“有胡须的男人”的理解,如果有些采访人员认为应包括有小胡子的男人,而其他采访人员则不这样认为,这样,调查的结果资料将有缺陷。

当有登记错误或输入错误时,就会出现数据处理误差。

如将调查表中的资料输入计算机时产生的错误,即为输入错误。

尽管在大多数的调查中,会出现一些非抽样误差,但通过周密的计划可使它们达到最小,这些计划包括注意保证抽样总体与目标总体的一致、遵循良好调查表的设计原则、培训采访人员等。

抽样理论与方法:非抽样误差

抽样理论与方法:非抽样误差

NA
NB
结合调查费用确定各个抽样框的样本量nA,nB和权数WA C nACA nBCB
在总费用给定条件下使方差最小的最优抽样比为
nA
C
S
2 a
(1

)

Sa2b WA2
,
nB
C
Sb2
(1

)

S
2 ab
WB2
NA
CA
NB
CB
WA

n A nA nB
, WB

nB nA nB
分层的总和估计分别为:
Yˆ A
(a)

Na na
yA
(a)
Yˆ A (ab)

Nab nab
yA (ab)
na与nab为落入区域a和区域ab的样本单元数;
yA(a)和yA(ab)为区域a和区域ab的样本观测值总和。
利用抽样框B的样本对区域b和区域ab进行事后分层的总和
估计分别为:
Yˆ B (b)

则相对偏倚可以写为

E(Y) Y W0 (Y1 Y0 ) W0(1 r)
Y
Y
rW0 (1 W0 )
其中
r

Y0 Y1
, W0

N0 N
三、不完善抽样框的使用 1.调整抽样框 2.使用多个抽样框
A AB A
设样本取自A、B两个抽样框。这两个抽样框的单元数分 别为NA,NB。两个抽样框将目标总体划分为三个区域。
➢ 1.非特有性 ➢ 2.非一致性 ➢ 3.难测定性 ➢ 4.难评价性 ➢ 5.全过程性
10.2 抽样框误差
一、 抽样框误差 ➢ 1.丢失目标总体单元; ➢ 2.包含非目标总体单元; ➢ 3.抽样框中的单元与目标总体单元不完全是一一应;

如何减少非抽样误差

如何减少非抽样误差

如何减少非抽样误差如何减少非抽样误差一,非抽样误差的定义:市场调查活动必不可少地会产生误差,如何减少误差,提高精度这是委托方和市场咨询公司最关注的焦点之一。

要减少误差,首先要了解误差来自于哪里?如何对各种误差进行分类?不同类别的误差有什么样的方法可以预防?如果误差已经发生了,采用什么样的方法可以弥补?按最简单的分类方法,误差可以分为两类,一类是抽样误差,另一类是非抽样误差。

所谓的抽样误差是由抽样的随机性引起的,一般意义上来说是无法减少的。

而非抽样误差是指除抽样误差以外所有的误差的总和。

引起非抽样误差的原因很多,比如抽样框不齐全,访问员工作经验有限,被访者不配合访问而加以虚假的回答,问卷设计本身存在缺陷等等。

应该说非抽样误差的产生贯穿了市场调查的每一个环节,任何一个环节出错都有可能导致非抽样误差增加而使数据失真。

我们平时说的控制误差主要指的就是控制非抽样误差。

对于非抽样误差的定义和分类也是到了近代才逐渐清晰和明确起来,最初,鲍德威在1915年提出所谓的误差有四个来源分别是:?获得的信息不正确或不真实?定义和标准不严格、不确切、不适当?样本不能代表总体?部分数据对于总体的估计将要产生的误差在鲍德威的四个误差来源中,前两个都是非抽样误差。

鲍德威对于各种误差提出了比较简略的分类方法,而戴明在他的基础上对非抽样误差进行了比较全面和系统的分类。

戴明认为误差除了抽样误差以外一般应该包括以下部分:?回答的变异性?不同类型和不同水平的访问员?访问员引起的主观偏差?委托方对于数据的期望(人为影响)?问卷设计的缺陷?抽样前后总体发生的变化?无回答的偏差?过时记录的偏差?数据缺乏代表性?解释数据的误差在戴明以后,西方又有许多关于非抽样误差的论文出现,对非抽样误差的成因和分类进行了比较完整的阐述。

一般而言,非抽样误差可以分为三类,分别是:抽样框误差、无回答误差和计量误差。

二,抽样框误差:所谓的抽样框误差指目标总体和抽样总体不一致时产生的误差。

第11章调查中的非抽样误差

第11章调查中的非抽样误差
(四)插补调整
是指在数据整理阶段利用调查结果,采用一定的方式 为无回答的缺失值确定一个合理的估计值,插补到 原缺失数据的位置上。
实际中一般涌均值插补。
补充:敏感性问题调查与随机化回答技术
1、敏感性问题(sensitive question)是指所调查的 内容涉及私人机密而不愿意或不便于公开表态或 陈述的问题,如:社会上的卖淫嫖娼、赌博吸毒、 偷税漏税、婚前性行为等等。
(3)相对偏倚为:
W0(Y1 Y0) W0(1 r)
Y
rW0 (1W0)
分析
1、r=1,丢失单元均值和抽样单元均值相同 时,估计量是目标变量的无偏估计;
2、 r 1 偏倚状况随着r的变化而变化。
r>1估计偏低,r<1估计偏高。
三、不完善抽样框的使用
(一)实行连接
在调查方案设计阶段制定一定的规则,使没有包 含在抽样框中的目标单元与包含在抽样框中的 单元相连接。
二、无回答产生的原因及影响
在数据收集过程中都可能产生无回答误差: 1、查找阶段由于地址不详或已经搬迁而无法找到被
调查者,调查者不熟悉地址等等; 2、接触阶段被调查者由于客观原因无法接受调查或
由于主观原因不愿意接受调查; 3、采访阶段,被调查者对于某些问题不愿意提供答
案或调查人员粗心遗漏一些项目或调查中断等等。
如:对不在抽样框中的学生与被抽中的学生实行 连接
(二)惟一连接 对于抽样框中存在的复合连接,在方案设计中规
定只有唯一的单元被抽中。
(三)使用多个抽样框
设样本来自A、B两个抽样框,两个抽样框的单元总 数分别为NA,NB,目标总体被分成三个部分:区域a、 区域b、区域ab
1、利用抽样框A的样本对区域a、区域ab进行事后分 层的总和估计为:

非抽样误差与现场数据收集质量控制

非抽样误差与现场数据收集质量控制
使用标准化的问卷、检查清单和工具进行数据收集,以确保数据的可比性和一致性。
4. 实时监控与反馈
在数据收集过程中实时监控数据质量,并在发现问题时及时反馈给调查员,以便他们进 行调整和修正。
案例二:数据收集质量控制的实践经验
1 2
5. 事后审核与清理
在数据收集完成后,进行事后审核和清理工作, 以识别并修正潜在的错误和不一致之处。
03
02
定期评估与反馈
对收集到的数据进行定期评估,及 时发现并纠正误差。
建立纠错机制
建立数据纠错机制,对已发现的误 差进行修正和追溯。
04
05 案例分析与实践
案例一:现场数据收集中的非抽样误差分析
总结词
现场数据收集中的非抽样误差分析
VS
详细描述
在现场数据收集过程中,非抽样误差是一 个常见的问题。非抽样误差通常是由于调 查设计、样本选择、数据采集和编码等方 面的错误或缺陷所引起的。这些误差可能 导致数据失真,影响分析结果的准确性和 可靠性。因此,对非抽样误差进行识别、 评估和控制是数据收集质量控制的重要环 节。
在相同的受访者群体上重复进行调查,比较两次调查结果 的一致性程度。通过计算重测信度系数,可以评估非抽样 误差的大小和控制效果。
详细描述
为了评估非抽样误差控制的实际效果,可以采用以下几种 方法进行评估
1. 对比验证
通过与其他已知效度高的调查数据进行对比,验证新方法 的准确性。例如,可以将新方法的数据与传统的现场调查 数据进行对比,观察是否存在显著差异。
非抽样误差与现场数据收集质量控 制
contents
目录
• 非抽样误差概述 • 现场数据收集方法 • 数据收集质量控制 • 非抽样误差的识别与控制 • 案例分析与实践

非抽样误差抽样理论与方法,河南财政学院

非抽样误差抽样理论与方法,河南财政学院

(n
1 1)P2
( m )(1 n
m n
)是V(ˆ
)的无偏估计
A
2021/4/4
30
10.5 计量误差
一、计量误差分类: 设计引起的误差 由调查员引起的误差 由被调查者引起的误差
2021/4/4
31
10.6 离群值的检测和处理
一、 yi离数据中心的相对距离di 法 y1,y2,…,yn是要观测的样本数据 m和s分别是测度数据集中趋势和离散趋势的指标
则相对偏倚可以写为
E(y) Y R0(Y1 Y0 )
Y
Y
2021/4/4
14
1.汉森-赫维茨的再抽样调整 总体均值的估计值
Y
1 n
(n1 y1
n0
y
' 0
)
w1
y1
w0
y
' 0
V(Y)
V1
(y)
E1
(w0
k
n
1
s02
)
1
n
f
S2
W0
k
n
1
S02
S02 为总体中无回答层的方差 k n0
得k的最优值kopt
c0 (S2 W0S02 ) S0(2 c c1W1)
给定V,使C达到最小值,得nopt 2021/4/4
N(S2
(k 1)W0S02 ) NV S2
18
例:第一个样本用邮寄方式取得,预计回答率为50%。希
望达到的精度月容量为1000的简单随机样本(全部回答)
所达到的精度一样。邮寄一张问卷的费用是0.1美元。派
估计分别为:
Yˆ B (b)
Nb nb
yB (b)

抽样调查-第11章 调查中的非抽样误差

抽样调查-第11章 调查中的非抽样误差

r
Y
Y
1 n
n i 1
yi
此时估计量的偏倚为:E(Y)YW0(Y1Y0)
Y 的相对偏倚可以写为:
W0(Y1 Y0) W0(1r)
Y
精选r完整W p0pt课件(1W0)
9
由上式可以看出,如果丢失单元的均值与
抽样单元的均值相同,即
r
1
,则估计量
Y
是目标变量 Y 的无偏估计。
r 反之,如果 r 1,偏倚状况则随着
精选完整ppt课件
18
三、降低无回答的措施
主要措施是预防,预防措施有: ●问卷设计得具有吸引力; ●注意适当的长度; ●充分利用调查组织单位的权威性和影响力; ●注意调查员的挑选; ●做好调查员的培训; ●注意调查过程的监控; ●奖励措施; ●再次调查。
精选完整ppt课件
19
四、对存在无回答数据的调整
6
N1
(3)抽样框误差的影响
设目标总体单元:N
抽样框中单元:N1 抽样框中丢失的单元:N0
N=N1+N0 ■ 总体总量的估计 总体总量的真值是:
N1
N1
N0
Y Yi Yi Y1Y0
i1
i1
现从抽样框中的N1个单元中采用简单随机
抽样抽出容量为n的一个样本,由于n取自于N1
对总体总量的估计为:
精选完整ppt课件
7
Y
N1 n
n i1
yi
显然此时的估计是有偏的,偏倚为:
E(Y)YY1YY0
这表明估计量低估了总体总量,令
r
Y0 Y1
,W0
N0 N
Y的相对偏倚可以写为
Y0
W0r
Y

11-第十一章_非抽样误差

11-第十一章_非抽样误差

(
)
(11.3)
这表明此时估计量低估了总体总和。若令 r 为丢失单元指标均值 Y 0 与抽样 框单元指标均值 Y A 之比:
r=
Y0 YA
又 W0 是丢失单元占全部目标总体单元的比重:
3
W0 =
N0 N
则 N A y A 的相对偏倚可表示为:
-
Y0 W0 r =Y W0 r + (1 - W0 )
2
多或多对一的现象。例如在一项入户调查中若目标总体单元系独立的家庭 户, 而抽样框采用的按地区的门牌号, 那么一个家庭也许有两个或两个以上 的住所, 在一个门牌号内也可能住着两户或更多户的家庭。 这种情况称为抽 样框(抽样总体)与目标总体存在着复合连接。 4. 有些复杂抽样框还包含辅助信息(当采用分层抽样、不等概率抽样 以及使用比估计或回归估计等情形) ,如果这些辅助信息不完全或不正确, 不仅不能提高抽样的效率,反而会降低估计的准确性,从而导致误差。 *11.2.2 丢失总体单元引起的抽样框误差 丢失目标总体单元是抽样框误差中影响最为显著而且也较难进行补救 的一种,为此我们对它作稍微深入的研究。 首先我们对丢失目标总体单元引起的误差进行定量分析。 我们主要分析 由此产生的估计量的偏倚。 设目标总体由 N A 个抽样总体单元以及另外 N 0 个没有包含在该抽样总 体的丢失单元组成, N = N A + N 0 ,则总体总和
ˆ (a ) = N y (a ) Y A a A
(11.7)
7
ˆ (ab) = N y (ab) Y A ab A
(11.8)
其中 y A ( a ) 与 y A ( ab) 分别是落在区域 a 与区域 ab 样本观测值的平均数。 类似地根据从框 B 的样本,对区域 b 的总和 Yb 与对区域 ab 的总和 Yab 的估 计分别为:

非抽样误差产生的原因及控制.

非抽样误差产生的原因及控制.

非抽样误差产生的原因及控制抽样调查是目前我国搜集统计资料的一种主要方法,但抽样调查的结果始终要受到抽样误差和非抽样误差的影响。

抽样误差是由于样本随机性引起的,根据样本数据计算的对总体目标量的估计是随样本而异的,由此产生的误差即是抽样误差。

抽样误差是不可避免的,其大小可以通过调查样本容量,改变抽样方式等加以控制。

非抽样误差是指除抽样误差以外。

由于各种原因引起的。

非抽样误差由于其产生的原因及其复杂且具有不易观测和非随机性等特点而难以控制。

两种误差构成了总方差,两者之间呈此消彼长的关系。

一般情况下同时减少两类误差是很困难的。

非抽样误差占据了很大的一部分,怎样通过降低非抽样误差,从而降低总方差,有着非常重要的现实意义。

一、非抽样误差分类自1902年K?皮尔逊首次讨论非抽样误差这个概念以来,在非抽样误差的分类上。

主要有以下几种:(一)希里1957年把非抽样误差分为3类:1、范围误差:指由于样本单位的遗漏或重复产生的误差。

2、确定误差:指在资料收集、编辑、编码和计算输入阶段所产生的样本单位特征值的测量误差和回答偏差。

3、替代误差:由于对缺失数据进行替代和(或)在最后估计阶段对缺失数据进行替代所产生的误差。

(二)科克伦把非抽样误差分为3类:1、对被抽选出的样本中的一些单位未能进行计量而产生的误差2、一个单位的计量误差。

3、对调查结果进行编辑、编码和汇总过程中产生的误差。

(三)戴伦纽斯1988年把非抽样误差按调查活动分为3类:1、资料搜集过程中产生的误差。

2、测量过程中产生的误差。

3、资料加工过程中产生的误差。

在我国比较常见的分类方式有两种:第一,按性质和处理方法不同分为抽样框误差、无回答误差和计量误差第二,按产生的环节不同分为设计误差、调查误差和汇总误差。

、各类非抽样误差产生的原因1、调查设计过程中引起的误差设计阶段误差是由于这一阶段某些失误而导致调查结果产生的偏误,调查设计有两个主要环节,即调查设计和抽样设计。

从非抽样误差看调查质量

从非抽样误差看调查质量

从非抽样误差看调查质量当调查描述的结果与事实出现差异,便产生了调查误差。

调查的数据质量与调查误差成反比关系。

调查误差主要包括:抽样误差和非抽样误差。

所以,调查质量与抽样误差和非抽样误差存在以下关系:调查质量=1/调查误差=1/(抽样误差+非抽样误差)。

可见,抽样误差和非抽样误差只要有一方或者双方同时增大,就会使得调查质量下降。

抽样误差是由于调查设计时有意识地只研究总体中的一部分,由部分推断总体,从而产生的误差,它是可以事先计算并加以控制的。

只要选定了抽样方法,就能根据相应的公式计算出误差值的大小;只要在经费许可的范围内,增加样本容量、改变抽样方法就能对它实现有效的控制。

专业调查人员,一般都会考虑抽样误差的控制,并在调查报告中加以说明。

除了抽样误差以外的其它所有调查误差都属于非抽样误差,通常指的是在调查程序发展和执行中出现的错误和不足,例如调查问卷的设计不完善、从样本单位获取信息失败、数据处理和分析错误等等。

非抽样误差的研究历史不是很长,发展进程比较缓慢。

国外虽然早在56 世纪初就关注到这个问题,但在其后的四十年左右时间里一直处在宣传阶段;76年代以后,一些学者才开始进行具体的专题研究,然而研究的进展依旧缓慢;直到86 年代末至今,研究的成果才逐渐增多,深度不断加强。

目前外国专家学者已经针对非抽样误差提出了一些优秀的研究理论和模型。

国外的调查人士在实践中也非常重视非抽样误差,在很多调查报告中都会专门介绍对它的控制情况。

我国学者从96 年代中期进入这个研究领域,近年来也取得了一些成果,但主要集中在分析和处理无回答问题方面。

因此,进一步做好非抽样误差的研究和控制工作,具有重大的学术价值和现实意义。

在我国调查行业,业界人士对非抽样误差的认识和控制工作做得不够,一个非常重要的原因在于,非抽样误差是难以计算和控制的。

它普遍存在于各种形式的调查中,可能发生在从计划、实施,直到数据处理的每一个调查环节。

大体来讲,非抽样误差主要有三种类型:抽样框误差、无回答误差和计量误差。

浅谈抽样调查中的非抽样误差

浅谈抽样调查中的非抽样误差

浅谈抽样调查中的非抽样误差[摘要]在统计实践中,由于调查经费和时间的限制,往往不可能采取全面调查,而只能采取抽样调查的方法,抽样调查过程中由于抽样总体的代表性及人为因素的影响,必不可少地会产生误差。

因此从理论上讲非抽样误差应该是可以避免的,但在实际工作过程中是很难做到的,本文主要谈非抽样误差产生的原因及应对的办法。

[关键字]抽样调查;分类;原因;对策1统计误差的分类统计误差即调查误差。

统计误差的来源是多方面的,按最简单的分类方法,误差分为抽样误差和非抽样误差。

抽样误差是由于抽样的随机性引起的,一般意义上来说是不可避免、难于消灭,只能加以控制的。

随着科学的进步,对于抽样误差的控制和测算,已发展出了非常深厚的理论体系。

而非抽样误差是指除抽样误差以外所有的误差总和,应该说非抽样误差的产生贯穿了调查的每一个环节,任何一个环节出错都有可能导致非抽样误差增加而使数据失真,某种程度上讲,非抽样误差决定着一项调查活动的成败。

非抽样误差是由于调查程序执行中的错误和不足引起的。

2非抽样误差产生的原因引起非抽样误差的原因很多,概括起来,主要有以下原因:2.1设计阶段引起的误差。

调查设计有两个主要环节,即调查方法设计与抽样设计。

设计误差主要有调查设计误差和抽样设计误差。

调查设计误差主要指问卷设计产生的误差。

在问卷调查中,由于问卷设计有缺陷、指标的概念和范围不明确等,造成调查员或被调查对象对调查目的理解上的偏差而提供不正确的信息。

抽样设计阶中的问题主要是抽样框的问题。

一个理想的抽样框所包含的单元应与总体单元完全一致,但是实际工作中使用的抽样框与真正应有的调查抽样框之间存在一定的偏差,它或包含了某些不属于我们调查对象的单元,或丢失了一些应该列入调查范围的调查对象。

2.2调查阶段产生的误差。

调查过程中产生误差的成因主要有:①调查员操作程序不规范,在调查中不按照规范要求进行操作,如没有按照事先预定好的步骤进行访问、没有完全按照问卷上的措辞进行访问、调查员为了得到答案对被调查者进行诱导;记录误差,即调查员在听、理解和记录被调查者回案时产生的误差,如被调查者对某问题还没有给出准确的答案时或调查员没有及时记录被调查者的回答时,调查员就根据自己的意识或理解填上答案;因调查员的访问技巧而产生的误差,典型的如开放题的答案,需要更多的信息时调查员没有进一步询问而产生的误差;调查员作弊造成的误差。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非抽样误差就是由抽样误差以外因素引起的, 因样本观察数据非同质、或残缺、或不真实而产生 的误差。 为了使非抽样误差问题简单化,我们可以按照 抽样调查的过程来考察其来源。
◆抽样方案设计阶段 ◆数据收集阶段 ◆数据处理阶段
第十一章非抽样误差
◆在抽样方案设计阶段,非抽样误差的来源: (1)抽样框的编制与准备不够充分完善; (2)问卷设计不够科学合理。
第十一章非抽样误差
二、抽样框误差的影响
(一)丢失单位的影响
在假定不存在其他原因的抽样框误差时,丢失单位 对抽样效果的影响主要取决于两个方面:丢失单位 的分布特征和丢失单位数所占的比重。其中,对总 体均值的估计只与前者有关,而对总体总值的估计 则与两者都有关。
第十一章非抽样误差
(1)丢失单位是目标总体中的一个随机样本,具有 与目标总体相同的期望与方差,则其对总体均值的 估计影响不大,但对总体总值的估计会低估。
第十一章非抽样误差
无回答误差。
(二)无回答的成因
1、遗漏了被调查者; 2、被调查者地址不详; 3、调查内容未达被调查者; 4、被调查者拒绝回答; 5、回答不准确或不知如何回答; 6、忘记回答。
以上各种原因,有的属于客观性,有的则属于主 观性;有的属于有意识,有的则属于无意识;有的 属于调查人员方,第有十一的章则非抽属样于误差被调查者方。
非抽样误差
抽样框误差无回答误差计量误差
其中计量误差包括抽样方案设计阶段有缺陷的问卷设 计、数据收集阶段有错误的调查数据和数据处理阶段 工作上的差错所带来的误差,也就是调查性误差。
第十一章非抽样误差
二、非抽样误差的特点
• 非特有性 :为非抽样调查所特有; • 非一致性 :使抽样估计结果产生偏差 ,并且样本
第十一章非抽样误差
第十一章非抽样误差
(2)丢失的单位是特殊群体,不具有与目标总体相同 的期望与方差,那么对目标总体总值、均值的估计 会产生偏差。
第十一章非抽样误差
目标总体总值估计量的偏差为:
N 1 E (y 1 ) N Y N 1 Y 1 N Y N W 0 Y 0
偏差率为:
-NW 0Y0=-W 0Y0=- W 0e
YT
Y W 0e+W 1
第十一章非抽样误差
第十一章非抽样误差
(二)包含异质单位的影响
(二)包含异质单位的影响
第十一章非抽样误差
• 如果是目标总体总值的估计,则其估计量偏差和
偏差M 率( 分y ) 别 E 为M :1 Y 1 M Y M 1 Y 1 M 0 Y 0
M 0Y0 Q0 r M 1Y1 Q1
二、无回答误差的影响
为了测定无回答对抽样的影响,先把总体分为两层: 回答层与无回答层。 就调查项目而言,如果无回答不是故意造成的(即 与调查内容无直接关系),且无回答现象不集中于某类 特殊单位组成的群体,那么就可以认为这种无回答是由 随机因素引起的,这时无回答对抽样的影响是因实际有 效的样本容量减少而使估计量方差增大,但却不会造成 估计量偏差。估计量方差增大的程度取决于无回答率。 如果无回答是故意造成的(即与调查内容直接有 关),或无回答现象集中于某类特殊的群体,那么无回 答层与回答层之间第就十存一在章非明抽显样误的差非随机性差异,这时,
• 包含非目标总体单位:过涵盖,空名单,异质单位; 如果在抽样框中同时出现“丢失单位”和“异质单位”, 那么也许可能会相互抵消一部分,形成“净涵盖误差”。
• 复合联接 :目标总体中的一个调查单位与抽样框中的 多个抽样单位相联接,或抽样框中的一个抽样单位与 目标总体中的多个调查单位相联接;
• 不够准确或不够完善的辅助信息;
越大产生偏差的可能性越大; • 难测定性 :难以对其进行描述和测定,具有很强
的隐蔽性; • 难评价性 :非抽样误差的存在使得对抽样效果的
评价与衡量复杂化; • 全过程性 :存在于抽样调查的所有阶段。
第十一章非抽样误差
第二节 抽样框误差分析
第十一章非抽样误差
一、抽样框误差的成因
• 丢失目标总体中的单位:覆盖不足,丢失单位,使总 体总值的估计值偏低;
第十一章非抽样误差
(三)复合(联三结)的复影合响联接的影响
第十一章非抽样误差
第十一章非抽样误差
第十一章非抽样误差
第十一章非抽样误差
第十一章非抽样误差
三、抽样误差框的控制
重在预防 积极补救 心理准备
第十一章非抽样误差
第三节 无回答误差分析
第十一章非抽样误差
一、无回答误差的成因
(一)无回答的含义
无回答(Nonresponse)是指未能取得所要搜集资 料的一种现象,它包括两种情况: 个体无回答和答。
- 个体无回答也称全无回答,是指被调查者没有接受 调查、造成整张问卷出现空白的 现象;
- 项目无回答也称部分无回答,是指被调查者回答了 问卷中的部分调查项目未能回答其它调查项目的现象。
不论是个体无回答还是项目无回答,都将导致调查 数据残缺不全,从而最终影响估计结果,降低估计精 度或可靠程度。因无回答而造成的估计误差,就称为
很显然,这时的偏差或偏差率都是正的,即若抽 样框中包含了异质单位必定会使目标总体总值的估 计偏高。
第十一章非抽样误差
均值估计量方差会被高估或低估,总值估计量方 差则一定是高估,即:
第十一章非抽样误差
如果在调查中异质单位可以被识别并被予以剔除 的,可以把目标总体看成抽样框中的一个子总体或 域。异质单位的标志值就取0。 在调查中剔除异质单位会增加估计量的方差,原 因在于它使实际的样本容量变小了。增加的量为:
◆在数据收集阶段,非抽样误差的来源: (1)调查数据的残缺; (2)调查数据的错误。
◆在数据处理阶段,非抽样误差存在于对调查资料的整 理、分组、计算、编码和计算机录入等过程中,是一 种工作上的差错。第十一章非抽样误差
把上述三个阶段的各种非抽样误差加以归纳,可 以概括为抽样框误差、无回答误差和计量误差三类。
本章要点
本章对非抽样误差的构成和各种非抽样误差 的影响进行分析。具体要求: ①正确理解非抽样误差的涵义、来源和特点; ②对抽样框误差、无回答误差和计量误差的 成因及其对抽样的影响有比较系统的理解; ③掌握控制非第一节 非抽样误差构成
第十一章非抽样误差
一、非抽样误差的来源
相关文档
最新文档