抽样调查-第11章调查中的非抽样误差
抽样调查的理论与方法参考答案
抽样调查的理论与方法参考答案一、填空题 1随机原则 概率估计 总体数量特征 非全面调查 2调查对象的全部单位 全及总体 有限总体 无限总体 3单位数目 30个 4总体数量特征 确定()∑-=N i Y Y i N 121 5样本数量特征 随机变量 ()∑-=-N i y y i n 1211统计量 6有顺序不重复抽样 无顺序不重复抽样 7比值比较 差值比较 8偶然性 规律性 9不可能事件 必然事件 10常数 统计规律性 11稳定性 稳定值 12随机因素 所有可能事件 13离散随机变量 连续随机变量 14非负 1 15统计量 样本平均数 16不重复抽样 重复抽样 17代表性误差 反比关系 18正比关系 反比关系 19概率度(平均误差μ的倍数) 固定 误差范围(允许误差,误差置信限) 20总体相应指标值 {}αθθθ-=≤≤121P 21精确程度 可靠程度 置信系数 可靠程度 22样本平均数 区间估计 所在区间 抽样调查资料对比全面调查资料 23总体均值 总体方差 24)1(2N n n -δ或)1(2Nn n S -, )1(1)1()1(N n n P P n P P ----或, )1()1(N n n P P Z --或)1(1)1(Nn n P P Z --- 25总体的方差 要求的概率保证程度 给定的抽样误差范围 26样本方差 27固定的顺序和间隔 选择排队标志 28有关标志排队法 无关标志排队法 29抽取样本方便易行 样本单位在总体中均匀地分布30随机原则 系统偏差 31随机原则 较好的代表性 32各系统样本内部方差的平均值sy ωα2 sy ωα2 各系统样本的内部方差 系统样本 内部各单位的差别 33各部分K 个个体 各个部分的差别 系统样本内部的差异 34单纯随机抽样 抽样原理 35总体在第i 层的权数或权重 每一层的总体单位数 总体单位数 36比较均匀 层内方差 37选择分层标志 调查的核心项目 与调查项目关系密切的项目 引起分散的主要原因 38各个单位标志值的差异 最小 该层标志变异指标 39越少 调查费用 40调查费用 抽样误差 41层内方差 层间方差 42调查变量 层数的选择 43单纯随机抽样 全面调查 44各群内部调查变量的各个标志值 各个群内部各个标志值 总体的群 45被调查总体 均匀 总体可能取到的值 46均匀分布在总体各个部分 低于 群内部差别大而群间差别小 47各个群内部单位数相等 总体单位 群平均数Y 随机抽样估计 48总体单位数 49大样本 50总体单位 抽样群数 抽样群数 51横向 纵向 52有偏 抽样分布 53增大相关系数ρ的值,X 、Y 的相关程度 54分别比估计 组合比估计55线性 回归方程 样本指标 总体指标56辅助变量的选择 较好的线性 有关资料57性质不同 密切线性关系 基期指标58回归系数b 样本相关系数 越高 59r=0 r ≠0 60等于 小于61小于 分别回归估计 组合回归估计 62居民家计调查 居民家庭 63三阶段系统抽样 系统抽样64抽取各阶段样本 实割实测 推算产量65近三年粮食平均亩产 当年预计亩产 相应总体各单位的累计播种面积 累计播种面积样本单位数66抽样误差 调查误差 实割实测67系统抽样68中轴对称 69多阶段抽样 系统抽样 双重抽样 70整群随机抽样 系统抽样二、单项选择题 1 C 2 A 3 B 4 D 5 A 6 B 7 A 8 B 9 C 10 C 11 B 12B 13 D14 B 15 C 16 C 17 B 18 C 19 C 20 C 21 B 22 B 23 C 24C 25 A 26 C 27 B 28 D 29 D 30 A 31 B 32 C 33 C三、简答题 1抽样调查是建立在随机原则基础上,从总体中抽取部分单位进行调查,并依据概率估计原理,应用所得到的资料,对总体的数量特征进行推断的一种调查方法。
市场调查中非抽样误差的产生和控制
市场调查中非抽样误差的产生和控制作者:戢运丽来源:《中国市场》2008年第09期摘要:非抽样误差直接与市场调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。
本文在具体分析这些阶段导致非抽样误差产生的工作情形后,提出了科学设计调查方案、重视对调查员的培训和管理、减少被调查者误差和做好调查资料的汇总工作等几方面控制非抽样误差的对策。
关键词:非抽样误差;调查方案;调查员;被调查者一、非抽样误差的产生非抽样误差产生的原因多种多样,尤其在实施调查过程中最为常见。
非抽样误差直接与调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。
1.准备阶段准备阶段是整个调查的起始阶段,准备阶段的主要任务是:确定调查任务,设计调查方案,组织调查队伍。
调查设计者首先要列出具体研究目标,从而确定所要研究的问题和识别研究的总体,最后明确调查任务并给整个调查活动一个纲领。
具体说来,设计调查方案包括调查指标的设计、调查总体方案的设计和调查方案可行性研究三方面的内容。
在本阶段可能产生误差的工作主要有:(1)调查设计者可能误解了主办者的目的意图,制定了错误方针,误导研究方向。
(2)目标总体与实际的调查总体不一致。
例如,进行电话访谈时,社区周边的居民用户电话号码可能没有列到电话号码簿中,另一些用户可能已经搬迁而导致电话为空号,因此目标总体和被调查总体出现一定的差异。
(3)调查设计者没有事先预先设定好调查的具体步骤和时间表、可能出现的问题以及未事先培训和挑选恰当的调查员,因而导致计量质量的下降。
(4)预算的限定。
任何调查都有费用,市场调查也同样。
并且由于市场调查的主办者一般都是企业,因此费用上的限制就更为明显。
如果资金短缺,只能缩小研究范围或进一步寻求资金。
上述第一点是调查设计者误解调查主办者的目的,这必然导致系统误差,使调查信度和效度下降。
抽样调查-调查中的非抽样误差培训课件PPT课件
根据非抽样误差的来源、性质 可分为以下三类:
(1)抽样框误差,即由不完善的抽样框引起的
误差; (2)无回答误差,即由于种种原因没有从被调 查单元获得调查结果,造成调查数据的缺失; (3)计量误差,即所获得的调查数据与其真值 之间不一致造成的误差。
§11.2 抽样框误差
一、概念
抽样调查中的总体有两个: 目标总体—调查研究对象的全体。 抽样总体—从中抽取样本的总体。 (即抽样框) 理想抽样框的标志是目标总体和抽样总 体完全重合。否则抽样框就是不完善的。
●抽样框存在的问题,有些是不容易解决的。 因此抽样框的维护、抽样框使用情况的不断 总结与研讨,对于经常性的调查项目来说是 十分必要的。
●抽样框的不完善并不是不能使用。可以进 行修补、调整。
N1
(3)抽样框误差的影响
设目标总体单元:N
抽样框中单元:N1 抽样框中丢失的单元:N0
N=N1+N0 ■ 总体总量的估计 总体总量的真值是:
W0 (Y1 Y0 ) W0 (1 r)
Y
rW0 (1 W0 )
由上式可以看出,如果丢失单元的均值与
抽样单元的均值相同,即
r
1
,则估计量
Y
是目标变量 Y 的无偏估计。
r 反之,如果 r 1 ,偏倚状况则随着
的变化而变化。
Y
三、不完善抽样框的使用
抽样框不完善并不是不能使用,因为构造一个完 善的抽样框有时是非常困难的。使用不完善抽样框时 若能采用一些补救措施,有助于减小抽样框误差。主 要采用以下三项补救措施:
ቤተ መጻሕፍቲ ባይዱ
N N1 N0
R1
N1 N
, R0
N0 N
则总体均值为: Y R1Y 1 R0Y 0
《调查理论与方法》综合练习题
综合练习题第一章——第三章一、名词解释1、调查对象2、调查期限3、描述性调查4、探索性调查5、观察调研6、询问调研7、实验调查8、因果性调查二、简答题1、什么是市场调查?有哪些类型?2、一手资料和二手资料有何不同?3、探索性调查、描述性调查和因果性调查各在市场调查中扮演什么角色?分别应用于何种情况?4、何时适宜开展市场调查?何时不宜开展市场调查?5、选择市场调查方法应该遵循什么原则?6、确定调查对象和调查单位时应该注意什么问题?7、简述市场调查方案的内容。
三、以下各种情况,应该执行那种调查?1、确定消费者对一种新的碳酸饮料的反应;探索性调查2、确定广告对销售的作用;因果性调查3、确定购物中心的目标市场区域。
描述性调查第四章调查方法一、名词解释1、回归效应2、失员效应3、面访调查4、自填式问卷5、外来变量6、深层访谈法7、德尔裴法 8、投影技法9、自由联想法 10、引导联想法11、漫画测试法 12、完成技法13、照片归类法 14、控制联想法15、观察法 16、焦点小组访谈二、简答题1、如何对已有资料进行评估?2、焦点小组访谈对主持人的要求有哪些?3、评价焦点小组访谈法的优缺点。
4、深层访谈法与焦点小组访谈法的区别是什么?5、简述德尔裴法的实施步骤。
6、什么是德尔裴法?简述其优缺点?7、简述投影技法的基本原理及有缺点?8、头脑风暴法与焦点小组访谈法的区别是什么?9、入户面访调查的误差包括哪几个方面?如何对这些误差进行控制?10、从时间、费用、回答率三个方面对电话调查、面访调查和自填式问卷调查进行评价。
从时间上来看,电话调查的时效最高,其次是面访调查,最后是自填式问卷调查;从费用上看,面访调查的成本最高,其次是电话调查,最后是自填式问卷调查;从回答率上看,面访调查的回答率最高,其次是电话调查,自填式问卷调查的回答率最低。
11、网络调查的优点是什么?12、为什么网络调查的结果经常不被人们认可?这是由网络的局限性造成的:(1)网络调查存在样本的代表性问题;(2)存在无限制样本问题;(3)网络的安全性也阻碍了网络调查的发展;(4)问卷长度受到限制。
整理[所有分类]统计调查技能培训班练习题
统计调查技能培训班练习题第二章:1、调查设计的首要任务是()。
A.确定调查的精度B.清楚地说明调查的信息需求C.确定调查的操作性定义D.建立调查的分析方案2、操作性定义主要是规定()。
A.调查所涉及的新概念B.调查所要测量的对象C、调查所要测量的内容D.B和C3、在定义“贫困人口”后,需要进一步定义“收入”和“家庭”,如何定义这两个概念,取决于()。
A.对贫困人口的定义B.调查数据的使用者和主要用途C.调查的精度要求D.调查的时间限制4、建立分析方案通常采用()的形式。
A.规划书B.计划分析列表C.计算机分析软件D.客户要求的格式5、调查的具体主题与()有关。
A.要进行调查的变量B.问卷设计和样本设计C.数据收集方法的选择D.与上述各项都有关6、计划列表可以帮助确定问卷的()。
A.问题排列顺序B.回答问题的详尽程度C.回答指南D.问题提问方式第三章1、普查和抽样调查的主要区别在于()。
A.二者的成本不同B.二者的精度不同C.二者调查的总体单元数不同D.二者的时效性不同2、当总体中具有某一特征的单元较普遍时,适宜采用()。
A.抽样调查B.普查C.先采用抽样调查,再采用普查D.先采用普查,再采用抽样调查3、非抽样误差()。
A.仅在抽样调查中存在B.仅在普查中存在C.在抽样调查和普查中都存在D.在抽样调查和普查中都不存在4、目标总体与被抽样总体()。
A.在理想状态下,两个总体应该相对应B.无论在什么情况下,两个总体都没有差别C.前者一般小于后者D.两者都是实际调查时从中抽取样本的总体5、在抽样框中,识别资料是()。
A.帮助调查者唯一识别抽样框中某个单元的项目B.用于抽样框中进行分类抽选的项目C.用来寻找抽样框中某个单元的项目D.是对调查有帮助的项目6、实际目录框是()。
A.实际的总体单元的目录B.在调查实际进行时才出现的总体的项目C.概念性的总体单元的目录D.可以加以定义的总体单元的目录7、在使用区域框进行抽样调查时,需要使用指示单元,它是()。
第十章(非抽样误差)
西蒙斯随机化回答模型
沃纳模型中随机化回答的两个问题是同一敏感问题的两个方面,有些被 调查者仍可能有疑虑不肯合作,而且从精度方面考虑,当P与0.5很接近 时,方差大,而太远,增加了疑虑。所以西蒙斯(W.R.Simmons)进行了 改进,将第二个问题改为与所要调查的敏感性问题完全无关的另一个 非敏感性问题。西蒙斯随机化回答模型中两个问题一般表述为: I 你具有特征A吗? II 你具有特征B吗? 其中特征A为敏感性问题,特征B为无关问题。需要估计的是特征A的比例, 特征B的比例为在设计时要求已知。两个问题在随机化过程中出现的比例 仍假设为P: (1-P),其中P为已知。 仍以调查考试作弊为例,两问题的设置
• 例:某电影公司调查学生每月看电影的次 数,随机抽取了1000人, • 进行问卷调查,其中800人作了回答,回答 的均值为2.5;若对无回答 • 的200人中,又随机抽取了50人进行面访, 结果这50人的平均每月看 • 电影次数为1.2次,求偏倚的估计值。
此例指出了调整无回答误差的一个途径。即可通过多次访问。
2.
3.
根据非抽样误差的来源、性质和处理方法不 同常分为以下三类: (1)抽样框误差 (2)无回答误差 (3)计量误差
抽样框误差
抽样框:一份包含全部抽样单元的清单或图示 ( 抽样框是用来抽取抽样单元的依据。) 目标总体:希望从中获取信息的总体 调查总体(抽样总体):实际调查所覆盖的总体。
理想状态下,两个总体应该完全一致。调查总体与目标总体 一般不完全相同。因此就产生了抽样框误差。主要如下
若用Ny1估计总体总和,偏倚为 E ( Ny1 ) Y NR0 (Y1 Y0 ) 以上两种估计量的相对偏倚都是 R0 (Y1 Y0 ) / Y
根据以上分析,无回答的偏倚大小由两方面决定。一为回答率,二为 回答层与无回答层均值的差异。无论何种情况,降低无回答率对于减 少估计量的偏倚是重要的。
卫生统计学第十一章统计设计
做答人数:0
做对人数:0
所占比例: 0
题号: 3 本题分数: 1.7
下列说法正确的是
A. 因抽样误差随抽样样本含量的增大而减小,所以在抽样研究中总是考虑样本含量越大越好
做答人数:0
做对人数:0
所占比例: 0
题号: 2 本题分数: 1.7
实验设计的四原则是
A. 收集、整理、分析、结论
B. 齐同、对照、重复、随机
C. 设计、操作、计算、推断
D. 对照、随机、操作、归纳
E. 对照、随机、操作、汇总
正确答案: B
D. 分组原则、随机原则、重复原则、均衡原则
E. 对照原则、随机原则、分组原则、均衡原则
正确答案: A
做答人数:0
做对人数:0
所占比例: 0
题号: 12 本题分数: 1.7
将实验和对照在同一受试对象身上进行的对照称为
A. 空白对照
B. 实验对照
做答人数:0
做对人数:0
所占比例: 0
题号: 14 本题分数: 1.7
将受试对象完全随机分配到各个处理组中进行实验观察或分别从不同总体中随机抽样进行对比观察,此种设计为
A. 随机区间设计
B. 完全随机设计
C. 配对设计
D. 配伍组设计
E. 以上均不对
做答人数:0
做对人数:0
所占比例: 0
题号: 7 本题分数: 1.7
抽样调查必须遵循
市场调查中非抽样误差的产生和控制
市场调查中非抽样误差的产生和控制摘要:非抽样误差直接与市场调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。
本文在具体分析这些阶段导致非抽样误差产生的工作情形后,提出了科学设计调查方案、重视对调查员的培训和管理、减少被调查者误差和做好调查资料的汇总工作等几方面控制非抽样误差的对策。
关键词:非抽样误差;调查方案;调查员;被调查者一、非抽样误差的产生非抽样误差产生的原因多种多样,尤其在实施调查过程中最为常见。
非抽样误差直接与调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。
1.准备阶段准备阶段是整个调查的起始阶段,准备阶段的主要任务是:确定调查任务,设计调查方案,组织调查队伍。
调查设计者首先要列出具体研究目标,从而确定所要研究的问题和识别研究的总体,最后明确调查任务并给整个调查活动一个纲领。
具体说来,设计调查方案包括调查指标的设计、调查总体方案的设计和调查方案可行性研究三方面的内容。
在本阶段可能产生误差的工作主要有:(1)调查设计者可能误解了主办者的目的意图,制定了错误方针,误导研究方向。
(2)目标总体与实际的调查总体不一致。
例如,进行电话访谈时,社区周边的居民用户电话号码可能没有列到电话号码簿中,另一些用户可能已经搬迁而导致电话为空号,因此目标总体和被调查总体出现一定的差异。
(3)调查设计者没有事先预先设定好调查的具体步骤和时间表、可能出现的问题以及未事先培训和挑选恰当的调查员,因而导致计量质量的下降。
(4)预算的限定。
任何调查都有费用,市场调查也同样。
并且由于市场调查的主办者一般都是企业,因此费用上的限制就更为明显。
如果资金短缺,只能缩小研究范围或进一步寻求资金。
上述第一点是调查设计者误解调查主办者的目的,这必然导致系统误差,使调查信度和效度下降。
第二点由于空号的原因,造成缺失值误差。
第三点由于没有预先设定调查步骤和很好的培训访问员,即没有制定标准化的市场调查结构,这样也会降低信度。
非抽样误差产生的原因及控制.
非抽样误差产生的原因及控制抽样调查是目前我国搜集统计资料的一种主要方法,但抽样调查的结果始终要受到抽样误差和非抽样误差的影响。
抽样误差是由于样本随机性引起的,根据样本数据计算的对总体目标量的估计是随样本而异的,由此产生的误差即是抽样误差。
抽样误差是不可避免的,其大小可以通过调查样本容量,改变抽样方式等加以控制。
非抽样误差是指除抽样误差以外。
由于各种原因引起的。
非抽样误差由于其产生的原因及其复杂且具有不易观测和非随机性等特点而难以控制。
两种误差构成了总方差,两者之间呈此消彼长的关系。
一般情况下同时减少两类误差是很困难的。
非抽样误差占据了很大的一部分,怎样通过降低非抽样误差,从而降低总方差,有着非常重要的现实意义。
一、非抽样误差分类自1902年K?皮尔逊首次讨论非抽样误差这个概念以来,在非抽样误差的分类上。
主要有以下几种:(一)希里1957年把非抽样误差分为3类:1、范围误差:指由于样本单位的遗漏或重复产生的误差。
2、确定误差:指在资料收集、编辑、编码和计算输入阶段所产生的样本单位特征值的测量误差和回答偏差。
3、替代误差:由于对缺失数据进行替代和(或)在最后估计阶段对缺失数据进行替代所产生的误差。
(二)科克伦把非抽样误差分为3类:1、对被抽选出的样本中的一些单位未能进行计量而产生的误差。
2、一个单位的计量误差。
3、对调查结果进行编辑、编码和汇总过程中产生的误差。
(三)戴伦纽斯1988年把非抽样误差按调查活动分为3类:1、资料搜集过程中产生的误差。
2、测量过程中产生的误差。
3、资料加工过程中产生的误差。
在我国比较常见的分类方式有两种:第一,按性质和处理方法不同分为抽样框误差、无回答误差和计量误差。
第二,按产生的环节不同分为设计误差、调查误差和汇总误差。
二、各类非抽样误差产生的原因1、调查设计过程中引起的误差设计阶段误差是由于这一阶段某些失误而导致调查结果产生的偏误,调查设计有两个主要环节,即调查设计和抽样设计。
第11章调查中的非抽样误差
是指在数据整理阶段利用调查结果,采用一定的方式 为无回答的缺失值确定一个合理的估计值,插补到 原缺失数据的位置上。
实际中一般涌均值插补。
补充:敏感性问题调查与随机化回答技术
1、敏感性问题(sensitive question)是指所调查的 内容涉及私人机密而不愿意或不便于公开表态或 陈述的问题,如:社会上的卖淫嫖娼、赌博吸毒、 偷税漏税、婚前性行为等等。
(3)相对偏倚为:
W0(Y1 Y0) W0(1 r)
Y
rW0 (1W0)
分析
1、r=1,丢失单元均值和抽样单元均值相同 时,估计量是目标变量的无偏估计;
2、 r 1 偏倚状况随着r的变化而变化。
r>1估计偏低,r<1估计偏高。
三、不完善抽样框的使用
(一)实行连接
在调查方案设计阶段制定一定的规则,使没有包 含在抽样框中的目标单元与包含在抽样框中的 单元相连接。
二、无回答产生的原因及影响
在数据收集过程中都可能产生无回答误差: 1、查找阶段由于地址不详或已经搬迁而无法找到被
调查者,调查者不熟悉地址等等; 2、接触阶段被调查者由于客观原因无法接受调查或
由于主观原因不愿意接受调查; 3、采访阶段,被调查者对于某些问题不愿意提供答
案或调查人员粗心遗漏一些项目或调查中断等等。
如:对不在抽样框中的学生与被抽中的学生实行 连接
(二)惟一连接 对于抽样框中存在的复合连接,在方案设计中规
定只有唯一的单元被抽中。
(三)使用多个抽样框
设样本来自A、B两个抽样框,两个抽样框的单元总 数分别为NA,NB,目标总体被分成三个部分:区域a、 区域b、区域ab
1、利用抽样框A的样本对区域a、区域ab进行事后分 层的总和估计为:
25、抽样调查测试题及答案
中级经济师基础知识第 1题:多选题(本题2分)在城乡住户收支调查中,非抽样误差的可能来源有( )。
A、抽样框遗漏掉部分城乡住户B、部分高收入住户拒绝接受调查C、调查人员有意作弊D、被调查住户提供虚假数据E、抽样的随机性【正确答案】:ABCD【答案解析】:非抽样误差是指除抽样误差以外,由其他原因引起的样本统计量和总体真值之间的差异。
本题可采用排除法,排除“随机性”即可选择。
第 2题:单选题(本题1分)下列关于简单随机抽样的表述正确的是( )。
A、总体的每个单位入样概率不相同B、是最基本的随机抽样方法C、利用了抽样框更多的辅助信息D、适用个体之间差异较大的调查【正确答案】:B【答案解析】:简单随机抽样需要重点掌握:(1)它是最基本的随机抽样方法, 每个单位的入样概率相同 (2)不放回简单随机抽样每个单位最多只能被抽中一次,比放回抽样有更低的抽样误差。
(3)适用条件: 抽样框中没有更多可以利用的辅助信息;调查对象分布的范围不广阔;个体之间的差异不是很大第 3题:多选题(本题2分)抽样统计中,估计量的性质包括( )。
A、一致性B、相关性C、无偏性D、有效性E、密集性【正确答案】:ACD第 4题:单选题(本题1分)在调查某城市小学教师亚健康状况时,从该城市的200所小学中随机抽取40所,每个被抽取小学中的所有教师都参与调查,这样抽样方法属于( )。
A、简单随机抽样B、整群抽样C、分层抽样D、等距抽样【正确答案】:B【答案解析】:抽样调查中的抽样方法。
整群抽样是先将总体划分为互不重叠的群,抽样时直接抽取群,对抽中的群调查其全部的基本单位。
第 5题:单选题(本题1分)以下各项中不属于抽样调查的特点的是( )。
A、时效性差B、经济性好C、适应面广D、准确性高【正确答案】:A【答案解析】:抽样调查可以迅速、及时的获取所需要的信息。
由于工作量小,调查的准备时间、调查时间、数据处理时间等都可以大大缩减,从而提高数据的时效性。
如何减少非抽样误差
如何减少非抽样误差如何减少非抽样误差一,非抽样误差的定义:市场调查活动必不可少地会产生误差,如何减少误差,提高精度这是委托方和市场咨询公司最关注的焦点之一。
要减少误差,首先要了解误差来自于哪里?如何对各种误差进行分类?不同类别的误差有什么样的方法可以预防?如果误差已经发生了,采用什么样的方法可以弥补?按最简单的分类方法,误差可以分为两类,一类是抽样误差,另一类是非抽样误差。
所谓的抽样误差是由抽样的随机性引起的,一般意义上来说是无法减少的。
而非抽样误差是指除抽样误差以外所有的误差的总和。
引起非抽样误差的原因很多,比如抽样框不齐全,访问员工作经验有限,被访者不配合访问而加以虚假的回答,问卷设计本身存在缺陷等等。
应该说非抽样误差的产生贯穿了市场调查的每一个环节,任何一个环节出错都有可能导致非抽样误差增加而使数据失真。
我们平时说的控制误差主要指的就是控制非抽样误差。
对于非抽样误差的定义和分类也是到了近代才逐渐清晰和明确起来,最初,鲍德威在1915年提出所谓的误差有四个来源分别是:?获得的信息不正确或不真实?定义和标准不严格、不确切、不适当?样本不能代表总体?部分数据对于总体的估计将要产生的误差在鲍德威的四个误差来源中,前两个都是非抽样误差。
鲍德威对于各种误差提出了比较简略的分类方法,而戴明在他的基础上对非抽样误差进行了比较全面和系统的分类。
戴明认为误差除了抽样误差以外一般应该包括以下部分:?回答的变异性?不同类型和不同水平的访问员?访问员引起的主观偏差?委托方对于数据的期望(人为影响)?问卷设计的缺陷?抽样前后总体发生的变化?无回答的偏差?过时记录的偏差?数据缺乏代表性?解释数据的误差在戴明以后,西方又有许多关于非抽样误差的论文出现,对非抽样误差的成因和分类进行了比较完整的阐述。
一般而言,非抽样误差可以分为三类,分别是:抽样框误差、无回答误差和计量误差。
二,抽样框误差:所谓的抽样框误差指目标总体和抽样总体不一致时产生的误差。
第十一章 抽样
总体参数和样本统计量
总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。 样本统计量:根据样本分布计算的指标。是随机变量。
总体
样本
参数
统计量 平均数 标准差、方差
X
、2
p
S、 S2
( x x )2 s2 n 1 ( x x )2 f s2 f 1
小故事:一次失败的二战士兵调查
二战期间,美国军方委托社会学家对军队士兵进行一项抽样调查。 在进行抽样之前,研究者对军方提供的总体名单未作认真考察, 他们在不知道该单位名册是按照十个士兵组成的一个班内的军队 军衔级别进行排序的(如上士、中士和下士)的情况下,就确定 将名单混在一起作为抽样框。 具体调查过程中,研究者按照等距抽样的规则计算出抽样间距是 10,于是在每十个士兵选择出一个作为样本,这个抽样间距正好 与班内的军衔级别重合,结果导致样本中的士兵全部是上士,中 士和下士一个都没有。 显然,这个抽样没有实现具有代表性的样本,而是一个上士士兵 调查的样本,最后的调查结果不是说明所有士兵的情况,最多只 能说明军衔是上士的那些士兵的情况。调查宣告失败。
63 32 79 72 43 93
74 50 07 45 51 25
71 37 78 93 09 23
47 71 44 09 03 93
62 32 53 15 90 78
67 75 38 62 74 47
要从94家上市公司中抽取12家作为调查样本,可 先将94空公司由1至94编号N=94,然后在乱数表上 任意上一点一行(或一列)中一个数字作为起点 数,从这个数字按上下或左右顺序读起,每出现 两个数字,即为被抽中的单位码号。假定本例是 从第四行左边第五个数字向右顺序读起,则所抽 取单位是:68 27 31 05 03 72 93 15 55 59 56 35 ,此过程中的96因大于94,舍 去不用是因为在顺序抽取的过程中,遇到比编号 大的数字,应该舍去。
非抽样误差及其控制
另一方面,在经常性抽样调查中,不论调查 对象是人或者物,如果样本使用时间过长, 必然会使调查资料的提供者产生厌烦心理。 因此,除非他们具有较高的思想境界和受到 强有力的物质刺激,否则,一般情况下他们 可能表现为:或者不愿意继续配合调查,或 者有意无意地提供一些不完全正确的资料, 或者形成一种回答问题的思维定势,等等。 从而造成调查质量下降,使非抽样误差进一 步加大。因此,作为对全新样本和固定样本 的折衷,就引出样本轮换的问题。
一、调查误差及其影响
在调查工作过程中,由于测量工具的不准确,调 查员的某些工作失误(如计量错误、计算错误、 记录错误等),以及由于被调查者没有提供真实 情况等因素影响,常使调查结果的准确性受到损 害,产生一定的误差,这类误差就是调查误差, 也称之为登记性误差。
二、调查误差的控制
(一)随机子抽样方法 (二)交叉子样本方法 (三)数值异常情况
如果无回答层和回答层在所研究标志方面 没有显著差异,则无回答的影响不大。但 如果无回答层与回答层存在显著差异(大 多数情况下是这样),则由于无回答层没 有提供样本数据,而在估计总体参数时会 产生较大的影响。其最重要的后果是:(1) 估计量可能成为有偏的,因为样本中没有 调查到的部分可能与被调查到的部分显著 不同;(2)由于实际调查到的样本比目标 样本小,所以估计误差就可能会增大。
子样本轮换是从总体中抽出若干套子样本, 每次调查一定数量的子样本,逐次轮换其中 的部分子样本。
子样本轮换实际上就是每次采用交叉子样本, 它不仅能有效地减少和控制估计偏差,而且 由于每个交叉子样本都能代表总体,即使有 的子样本资料搜集不到,也可用其他的子样 本甚至一个子样本来推断总体。同时,用交 叉子样本还可以考察非抽样误差发生的程度。 因此,在三种样本轮换方法中,子样本轮换 是比较好的一种方法。
卫生统计学-调查设计
调查研究
对研究对象不施加任何干预措施,在完全
“自然状态”下对研究对象的特征进行观察、 记录,并对观察结果进行描述和对比分析。
调查了解某市1984年40岁以上居民冠心病患
病率。
4
调查研究
只能对研究对象进行“被动”的观察,不能
对人群进行随机分组。
不能人为地施加处理因素。
可对人群进行随机抽样。
充分运用表格,尽量打勾,减少文字。
性别:□男 □女
38
调查问卷的设计及评价
调查问卷的评价
调查问卷是否准确可靠地获得了调查所需的信息。
信度:调查问卷测量结果的可靠性、稳定性和 一致性。 效度:调查问卷的有效性和正确性。 可接收性:被调查者对调查表的接受程度。 简单、熟悉、易懂、快速
调查问卷的设计及评价
调查问卷中问题的形式:
开放式问题:
关于吸烟与健康的问题: 1. 你对在公共场合吸烟有什么看法? 回答:_____________________________ 2. 你认为吸烟有害健康吗? 回答:______________________________ 优点:自由式,准确性高,信息量大。 缺点:结果难以量化。有的问题比较难回答,造成缺失。 29
17
调查设计的基本内容和步骤
2.4 确定调查对象数量
在保证抽样调查结果具有一定可靠性的前提下, 确定的最少样本例数。 估计方法:经验法、查表法和公式估算法。 不同的调查目的和调查指标类型,公式估算所需 的条件并不一致。
18
调查设计的基本内容和步骤
2.5 拟定调查问卷
调查项目(item):根据调查指标确定的调查 具体内容。
20
调查设计的基本内容和步骤
抽样调查答案
抽样调查答案本页仅作为文档封面,使用时可以删除This document is for reference only-rar21year.March抽样技术第1、2章试题一、单选题1.非概率抽样的优点(D)A.能计算抽样误差B.能从概率的意义上控制误差C.样本数据能对总体情况进行推断D.操作简单,不需要抽样框,经济、快速,调查数据的处理也容易2.概率抽样与非概率抽样的根本区别是(B)A、是否能保证总体中每个单位都有完全相同的概率被抽中B、是否能保证总体中每个单位都有事先已知或可以计算的非零概率被抽中C、是否能减少调查误差D、是否能计算和控制抽样误差3.以下哪种抽样不属于非概率抽样(C)A、判断抽样B、方便抽样C、不等概率抽样D、配额抽样3.抽样调查的根本功能是(C)A、获取样本资料B.、计算样本资料C、推断总体数量特征D、节约费用4.下列不属于概率抽样的是(B)A、不等概率抽样B、滚雪球抽样C、系统抽样D、整群抽样5.下列抽样框中不属于名录框的是(A)A、时间B、学生名单C、公司名录册D、电话号码簿6.用样本统计量对总体参数进行估计时产生的误差是(C)A、总体方差B、样本方差C、估计量方差D、偏倚7.以下抽样方法不属于非概率抽样的是(C)A、目的抽样B、随意抽样C、随机抽样D、判断抽样8.下列说法错误的是(C)A、对于无偏估计量,均方误差等于方差B、抽样误差是抽样方法本身所引起的误差,是由于样本不能完全代替总体而导致的误差C、抽样方差是依据样本方差计算,而方差估计量是依据总体方差计算D、抽样标准误差是抽样方差的平方根9.下列关于非概率抽样和概率抽样说法正确的是(A)A、非概率抽样的一个重要应用是充当预调查角色,作为开发概率抽样的厨师步骤。
B、概率抽样是指按照一定的概率以随机原则抽取样本,也称为等概率抽样。
C、随机与随便的本质区别就在于,是否按照给定的抽样概率,通过一定的随机化程序抽取样本单元。
D、非概率抽样的偏倚较小,有利于评价样本的代表性。
随机抽样和非随机抽样专业知识讲座
一、抽样调查的一般理论 二、随机抽样 四种方法:简单随机抽样
类型抽样 机械抽样 整群抽样 三、非随机抽样法 三种方法: 任意抽样法
判断抽样法 配额抽样法 四、抽样误差和样本容量确定
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
第一节 抽当之样处,调请查联系的本一人或般网站原删理除。
确
选
概率抽样
定实 数
择
必施 据
抽
要调 处
样
非概率抽样
的
查
理
方
样
法
本Hale Waihona Puke 容量三、抽样调查的一般程序
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
随机抽样 当之处,请联系本人或网站删除。
一、随机抽样的概念及特点
(一)概念:随机抽样又称概率抽样 (二)特点
1.随机抽样是按随机原则进行抽样的; 2.随机抽样具有统计推算的原则。 二、随机抽样方法
非随机抽当之样处,和请随联系机本人抽或网样站的删除比。 较
抽样方 法
非随机抽 样
作用
研究总体的 局部现象
抽样原则 误差判断 应用
非随机抽 出样本, 主观性强
不能计算 和判断抽 样误差
可随时随 地采用
随机抽样 以部分推 随机抽出
断总体
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
●事先制定一些规则,对发现的抽样框问题进 行现场处理;
●使用多个抽样框进行抽样。
§11.3 无回答误差
一、概念
无回答误差是指在调查中由于各种原因, 调查人员没能够从入选样本的单元处获得所 需要的信息,由于数据缺失造成估计量的偏 差。
无回答误差是一种重要的非抽样误差,这 种现象十分普遍,对估计量的危害也比较大, 所以国际上对这方面的讨论一直比较热烈, 目前这种讨论还在继续。
第十一章 调查中的非抽样误差
§11.1 引言
非抽样误差是指除抽样误差以外的,由于 各种原因引起的误差。
在概率抽样、非概率抽样、其他全面调 查和非全面调查已及普查中,非抽样误差都 有可能存在。
同抽样误差相比,非抽样误差有如下特点:
1、非抽样误差不是由于抽样的随机性带来的,所以在 抽样调查中,它不可能随着样本量的增大而减小;
R0
相对偏倚
( y1 )
R0 (Y 1 Y Y
0)
由上式可以看出:无回答偏倚主要来自两
个方面:一个是回答层与无回答层之间的数量
差异 (Y 1 Y 0 ) ;一个是无回答率 R0 。
三、降低无回答的措施
主要措施是预防,预防措施有: ●问卷设计得具有吸引力; ●注意适当的长度; ●充分利用调查组织单位的权威性和影响力; ●注意调查员的挑选; ●做好调查员的培训; ●注意调查过程的监控; ●奖励措施; ●再次调查。
(1)抽样框误差,即由不完善的抽样框引起的
误差; (2)无回答误差,即由于种种原因没有从被调 查单元获得调查结果,造成调查数据的缺失; (3)计量误差,即所获得的调查数据与其真值 之间不一致造成的误差。
§11.2 抽样框误差
一、概念
抽样调查中的总体有两个: 目标总体—调查研究对象的全体。 抽样总体—从中抽取样本的总体。 (即抽样框) 理想抽样框的标志是目标总体和抽样总 体完全重合。否则抽样框就是不完善的。
,W0
N0 N
Y的相对偏倚可以写为
Y0
W0 r
Y
rW0 (1 W0 )
r
由上式可知,总体总和的相对偏倚取决于
r 和 W0
■ 总体均值的估计
在抽样框存在丢失单元情况下,均值估计量为:
r
Y
Y
1 n
n i 1
yi
此时估计量的偏倚为:E(Y ) Y W0 (Y 1 Y 0 )
Y 的相对偏倚可以写为:
W0 (Y1 Y0 ) W0 (1 r)
Y
rW0 (1 W0 )
由上式可以看出,如果丢失单元的均值与
抽样单元的均值相同,即
r
1
,则估计量
Y
是目标变量 Y 的无偏估计。
r 反之,如果 r 1 ,偏倚状况则随着
的变化而变化。
Y
三、不完善抽样框的使用
抽样框不完善并不是不能使用,因为构造一个完 善的抽样框有时是非常困难的。使用不完善抽样框时 若能采用一些补救措施,有助于减小抽样框误差。主 要采用以下三项补救措施:
N N1 N0
R1
N1 N
, R0
N0 N
则总体均值为: Y R1Y 1 R0Y 0
回答层样本(n1 ) 总体样本(n)
无回答层样本(n0 )
根据回答层单元计算出的样本均值为 y1
用 y1作为总体真值 Y 得估计量,其偏倚
为:
偏倚(y1) E(y1) Y Y1 (R1Y1 R0Y 0 ) R0 (Y1 Y 0 )
●抽样框存在的问题,有些是不容易解决的。 因此抽样框的维护、抽样框使用情况的不断 总结与研讨,对于经常性的调查项目来说是 十分必要的。
●抽样框的不完善并不是不能使用。可以进 行修补、调整。
N1
(3)抽样框误差的影响
设目标总体单元:N
抽样框中单元:N1 抽样框中丢失的单元:N0
N=N1+N0 ■ 总体总量的估计 总体总量的真值是:
2、在抽样调查中,由于非抽样误差的影响,往往造成 估计量的有偏;
3、有些非抽样误差难以识别和测定。如抽样框是不完 善的,而调查设计人员并没有意识到;
4、有些非抽样误差成因复杂,对其研究不够,因此, 在很多时候非抽样误差比抽样误差造成的影响更严重, 对此必须引起高度重视。
根据非抽样误差的来源、性质 可分为以下三类:
有意无回答对数据质量的影响很大,回答 者和不回答者之间往往存在系统性差异。这 种不回答不仅减少了有效样本量,造成估计 量方差增大,而且会带来估计偏倚。
无意无回答可以看成是随机的,这种不回 答虽然会造成估计量方差增大,但通常认为 不会带来估计偏倚。
二、无回答产生的原因及影响
如果把采集数据的过程划分为查找、接触和采 访三个阶段,三个阶段都有可能出现无回答。
二、抽样框误差的类型及影响 (1) 抽样框误差的类型
● 丢失目标总体单元。 ● 包含非目标总体单元。 ● 抽样框中的单元与目标总体单元不一一对
应。(存在一对多或多对一的情况) ●不正确的辅助信息。(如分层抽样、不等 概抽样、比率估计和回归估计等所需的辅助 信息)
(2)对抽样框误差的基本认识
●有些误差来自构成抽样框资料本身,而不 是由于抽样设计的问题。
1、查找阶段 调查人员无法找到被调查者, 主要原因有地址不详、被调查者搬迁、调查人 员不熟悉地址; 2、接触阶段 被调查生病、对调查不感兴趣 或别的原因拒访; 3、采访阶段 调查开始后被调查者对某些问题 不愿提供答案、调查员由于粗心遗漏(N1) 总体(N)
无回答层(N0)
N1
N1
N0
Y Yi Yi Y1 Y0
i 1
i 1
现从抽样框中的N1个单元中采用简单随机 抽样抽出容量为n的一个样本,由于n取自于N1 对总体总量的估计为:
Y
N1 n
n i 1
yi
显然此时的估计是有偏的,偏倚为:
E(Y ) Y Y1 Y Y0
这表明估计量低估了总体总量,令
r
Y0 Y1
从无回答的内容来看可分为:
单元无回答 (被调查单元没有参入或拒绝受调查,他 们交的是一份白卷) 项目无回答
(被调查单元虽然接受了调查,但对其 中的一些项目没有回答)
从无回答的性质来看可分为:
有意无回答 (有意无回答常常与调查内容有关,如对调 查内容反感,或涉及个人隐私不愿意回答)
无意无回答 (无意无回答常常与调查内容无关,之所以 无回答是因为被调查者生病或很忙,无法接 受调查)