第11章调查中的非抽样误差
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相对(y偏 1)R 倚 0(Y Y 1Y0)
将总体分为“回答层”和“无回答层”,对总体总量 估计带来的偏倚为:
偏 ( y ˆ 1 ) 倚 N ( y ˆ 1 ) E N Y N 0 ( Y 1 R Y 0 )
相对 (y ˆ) N 偏 0 (Y R 1 Y 倚 0 ) R 0 (Y 1 Y 0 )
其中WA,WB为适当的权数,且WA+WB=1 4、估计量的方差近似表达为:
V (Y ˆ) N n A A 2S a 2 (1 )W A 2 S a 2 bN n B B 2S b 2 (1 )W B 2 S a 2b
其中,α、β分别为重叠部分的单元占抽样框
单元的比例:
Nab, Nab
2、可能在数据采集阶段产生,如:无法找到被调查 者或被调查者不在家或者不愿意接受调查(无回答 是数据收集阶段产生非抽样误差的主要原因);
3、可能产生在数据处理与分析阶段,如:对数据的 审核、整理、编码及录入引起误差。
非抽样误差的分类
按照来源、性质分三类: (1)抽样框误差——抽样框不完善; (2)无回答误差——没有从调查单元获得调查
(二)惟一连接 对于抽样框中存在的复合连接,在方案设计中规
定只有唯一的单元被抽中。
(三)使用多个抽样框
设样本来自A、B两个抽样框,两个抽样框的单元总 数分别为NA,NB,目标总体被分成三个部分:区域a、 区域b、区域ab
1、利用抽样框A的样本对区域a、区域ab进行事后分 层的总和估计为:
YˆA(a)
2、随机化回答(randomized response)的基本特 征是被调查者对所调查问题采取随机回答的方式, 避免在没有任何保护的情况下直接回答敏感性问 题,从而既保护了被调查者的隐私和机密,又取 得了真实的资料。
沃纳随机化回答模型
该模型是由沃纳(S.L.Warner)首先提出的。被调 查者对两个与敏感性特征有关的问题给出肯定或 否定的答案,问题经常以下面的形式出现:
Yˆ
1 n(n1y1
n0y0)
1y1
0y0
V(Yˆ) 1 f n
S2 W0
(k 1) n
S02
(S2为总体方差S, 02为总体中无回答层差 的)方
(二)加权调整
即通过给每个回答数据赋以不同的权数然后进行数据 处理,从而调整由于无回答引起的偏差。
(三)相关推估法
主要用于项目无回答时。思路是寻找与无回答问题变 量有关联的其他调查问题变量,利用调查数据建立 起变量之间的回归方程,对项目无回答变量值进行 推估。
分析
1、r=1,丢失单元均值和抽样单元均值相同 时,估计量是目标变量的无偏估计;
2、 r1 偏倚状况随着r的变化而变化。
r>1估计偏低,r<1估计偏高。
三、不完善抽样框的使用
(一)实行连接
在调查方案设计阶段制定一定的规则,使没有包 含在抽样框中的目标单元与包含在抽样框中的 单元相连接。
如:对不在抽样框中的学生与被抽中的学生实行 连接
3、无回答从性质上分为有意无回答和无意无回答。有意无回 答往往是因为对内容反感或涉及个人隐私不愿意回答,它对 数据质量产生很大的影响;而无意无回答往往是被调查者生 病、不在家或很忙无法接受调查。
二、无回答产生的原因及影响
在数据收集过程中都可能产生无回答误差: 1、查找阶段由于地址不详或已经搬迁而无法找到被
越大偏倚就越大。
三、降低无回答的措施
1、问卷设计合理,激起被调查者的兴趣 2、利用调查组织者的权威性扩大影响、激发参与意识 3、选择合适的调查员,做好调查前的培训 4、对调查过程进行监控 5、采用奖励措施 6、再次调查,一般对被调查者要尝试三次仍不成功才
可以将其放弃 7、替换被调查单元,替换原则应该是调查设计时就规
当P
1 2
时, ˆ
1 2P 1
m n
(1
P),
估计量的方差为:
V
(ˆ )
(1 n
)
P(1 P) n(2P 1)2
,
方差的第一部分为直接 回答敏感性问题的方差 ,
第二部分为采用随机化 回答技术而引起的方差 的增加。
例题
• 某高校教务处采用沃纳随机化回答技术 欲调查某学期期末考试作弊人数的真实 比例。设计中直接提“你在期末考试中 作过弊,对吗?”问题的比例为P=3/4, 样本量n=200,调查结果回答“是”的人 数为60人,请估计曾经作过弊的人数的 比例,并给出90%的置信区间。
11.3 无回答误差
一、概念
1、无回答误差是指在调查中由于各种原因,调查人员没有能够 从入选样本的单元获得所需要的信息,由于数据缺失而造成 的估计量的偏误。
2、无回答从内容来看分为单元无回答和项目无回答。所谓单 元无回答是指被调查单元没有参与或拒绝接受调查而造成数 据缺失;项目无回答指被调查者虽然接受了调查但是有些项 目没有回答。
调查者,调查者不熟悉地址等等; 2、接触阶段被调查者由于客观原因无法接受调查或
由于主观原因不愿意接受调查; 3、采访阶段,被调查者对于某些问题不愿意提供答
案或调查人员粗心遗漏一些项目或调查中断等等。
将总体分为“回答层”和“无回答层”
1、总体均值为:NN 1N 0,R 1N N 1,R 0N N 0
11.1 引言
一、概念
抽样误差(sampling error)是由于样本的随机性引 起的样本统计量的数值与总体目标量真值之间的 差异。它随着样本容量的增大而减小。
非抽样误差(non-sampling error)是指除了抽样误 差之外,由于其他各种原因而引起的误差,是所 有调查都可能存在的误差。
非抽样误差的特点
Na na
yA(a)
YˆA(ab)NnaabbyA(ab)
2、利用抽样框B的样本对区域b、区域ab进行事后分
层的总和估计为:
YˆB(b)
Nb nb
yB(b)
YˆB(ab) NnaabbyB(ab)
3、目标总体的总和估计为:
Y ˆ Y ˆ A ( a ) W A Y ˆ A ( a ) W b B Y ˆ B ( a ) Y ˆ b B ( b )
二、抽样框误差的类型及影响
(一)类型 1、丢失目标总体单元(少或漏),这种误差不易被察觉,
可能造成总量估计偏低,均值估计有偏; 2、包含非目标总体单元(多),容易造成总量估计偏高,
但比较容易察觉; 3、复合连接(重复),指抽样框中的单元与目标总体单元
不完全一一对应,一个抽样框单元与多个目标单元连接 或一个目标单元与多个抽样框单元连接,如:入户调查 中常出现的一门多户或一户多个住处等等; 4、不正确的辅助信息,有些抽样如分层臭氧、比率估计和 回归估计等等需要辅助信息,若信息不完全或不正确就 会影响抽样效果。
2、如果n个被调查者中共有m个回答“是”,那 么,敏感性问题1回答“是”的比例π可以按 照条件概率得到。
沃纳模型的估计量
Pr(是) Pr( 抽到红球 ) Pr(是 抽到红球 ) Pr( 抽到白球() 是 抽到白球)
即:Pr(是) P (1 P)(1 )
m Pˆ (1 P)(1 ˆ)
n
1、对总体N总N 和1的N估0,计(N0为丢失的单元的 ) 数目
(1)总体总和的真值
N1
N0
Y Yi Yi Y1Y0
(2)总体总和的样本估计值 (3)偏倚
i1
i1
Yˆ
N1 n1
n1 i1
yi
(4)相对偏倚
E (Y ˆ)YY 1Y Y 0
Y0 W0r Y rW 0(1W0)
分析
1、总体总和和估计的相对偏倚取决于r和 W0两个因素。
欢迎
本章结构
➢ 11.1 引言 ➢ 11.2 抽样框误差 ➢ 11.3 无回答误差(补充敏感问题调查) ➢ 11.4 计量误差 ➢ 11.5 离群值的检测和处理
学习目标
• 理解调查中的误差来源 • 掌握抽样框误差的类型及不完善抽样框
的使用 • 掌握无回答误差的来源、影响及弥补措
施 • 掌握敏感性问题调查模型 • 了解计量误差的来源
NA
NB
5、结合调查费用来确定各抽样框的样本量na、nb和 权数WA
总费用函数为: CnA C A nBC B
在总费用给定的条件下使总方差最小的最优抽样比为:
nA
C
Sa2(1)Sa2bWA2
NA
CA
权数分别为:
nB
C
Sb2(1)Sa2bWB2
NB
CB
W An A n An B,W Bn A n Bn B
(四)插补调整
是指在数据整理阶段利用调查结果,采用一定的方式 为无回答的缺失值确定一个合理的估计值,插补到 原缺失数据的位置上。
实际中一般涌均值插补。
补充:敏感性问题调查与随机化回答技术
1、敏感性问题(sensitive question)是指所调查的 内容涉及私人机密而不愿意或不便于公开表态或 陈述的问题,如:社会上的卖淫嫖娼、赌博吸毒、 偷税漏税、婚前性行为等等。
问题1:你具有特征A吗?(如:问题1:你在考试中 曾作过弊,对吗?)
问题2:你具有特征 A 吗?(问题2:你在考试中 不曾作过弊,对吗?)
设计一个随机化装置使两个问题出现的概率比为 P:(1-P);
但只有被调查者才知道自己回答的是哪个问题.
具体操作
1、在一密闭的容器中放入两种颜色不同(红色 和白色),但大小、形状和重量完全相同的球, 红球和白球的比例为P:(1-P)(球的比例事先设 定),抽到红球如实回答1,抽到白球如实回 答2。
1、具有普遍性,由于它不是由于样本的随机性 带来的,因而它不随样本容量的增大而减小;
2、非抽样误差的存在往往造成估计量的有偏 (如:无回答);
3、具有隐蔽性,难以识别或测定; 4、产生原因复杂。
非抽样误差的产生
1、可能在调查及抽样设计阶段产生,如:问卷设计 不合理造成词义含糊;抽样设计中抽样框不完善 (这是一个重要原因);抽样设计中使用了不准确 的辅助信息等等;
西蒙斯随机化回答模型
(无关问题的随机化回答模型)
西蒙斯(W.R.Simmons)在沃纳模型基础上进行改进, 将第二个问题改为与所调查的敏感性问题完全无关的 另外一个非敏感性问题.两个问题的一般陈述为:
问题1:你具有特征A吗?(特征A为敏感性)
问题2:你具有特征B吗?(特征B为非敏感性)
YR1Y1R0Y0
2、从总体中抽取容量为n的简单随机样本,n1来自 “回答层”,n0来自“无回答E 层(y”1),Y则1
用来作为总体均值的估计的偏倚为:
B ( y 1 ) E ( y 1 ) Y Y 1 ( R 1 Y 1 R 0 Y 0 ) R 0 ( Y 1 Y 0 )
相对偏倚为:
(二)对抽样框的一些基本认识
1、建立抽样框事先要做好充分的研究和资料搜集 2、抽样框的维护、使用需要不断总结与研讨 3、有些不完善的抽样框还可以使用,但是需要一
定的财力、人力来修补、调整; 4、抽样框误差有时会被解释成其他形式的误差
(三)抽样框误差的影响
只对丢失目标总体单元的抽样框引起的误差进行分析:
定好的; 8、对敏感性问题采用随机化回答技术
四、对存在无回答数据的调整(了解)
பைடு நூலகம்
(一)在抽样调整
是指在第一次无回答的单元中随机抽取一个子样本,通过更 加细致、更充分的工作获得该子样本的数据作为无回答层 的代表值,然后将第一次调查中的回答层与第二次无回答 层调查所得数据结合起来对总体参数进行估计的方法。
2、r=1即丢失单元均值与抽样框单元均值 相等时,相对偏倚为- W0
3、r<1,相对偏倚的绝对值也小于W0 的绝对值。
2、对均值估计的影响
(1)在抽样框存在丢失单元时,均值的估计
为:
Yˆ
1 n1
n1 i1
yi
(2)估计量的偏倚为:
E(Y ˆ)YW 0(Y1Y0)
(3)相对偏倚为:
W0(Y1Y0) W0(1r) Y rW 0(1W0)
N Y
Y
说明:1、总量估计的相对偏倚与均值估计的相对偏
倚相等,但绝对偏倚是均值估计绝对偏倚的N倍;
2、导致无回答偏倚的因素有两个:“回答层” 与
“无回答层”之间数量(的Y1 差Y0)异
及无回答率R0
3、如果无回答单元与回答单元目标变量的数量特征
没有明显的差异,则无回答可以看成是由于随机原
因所致,不会造成偏倚,而如果两者不一致,差异
结果,造成数据的缺失; (3)计量误差——所获得的数据与其真值之间
不一致。
11.2 抽样框误差
一、概念: 1、抽样框是有关总体全部单元的名录或地图等的
框架,是抽取样本单元的依据。 2、理想的抽样框(也称抽样总体)应该同所研究现
象的总体(也即目标总体)一致,但在实践中,抽 样总体与目标总体常常不一致,由此产生的误 差就是抽样框误差。 3、现实中完善的抽样框往往难以得到