第十一章非抽样误差及其控制
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十一章 非抽样误差及其控制
数据的准确性与可靠性是抽样调查的生命力之所在。如前所述,在抽样调查中,除存在抽样误差外,还经常出现一些非抽样误差,主要的非抽样误差产生原因有抽样框不完善、无回答的出现、调查过程的差错以及数据整理登记过程中的差错等。因此,抽样调查中,不仅要控制抽样误差,而且还要控制非抽样误差。如何有效地控制非抽样误差,取得准确可靠的数据资料,以及如何对已经取得的数据进行质量评价,一直是抽样调查理论和实践中所经常关注和着力研究解决的重要问题。
第一节 抽样框误差及其控制
一、抽样框误差的产生
抽样框是有关总体全部单元的名录或地图等的框架,是抽取样本单元的依据。理想的抽样框(也称抽样总体)应该同所研究现象的总体(也即目标总体)一致,但在实践中,抽样总体与目标总体常常不一致,由此产生的误差就是抽样框误差。
考察抽样框误差的成因,大致有以下几个方面:
(1)丢失目标总体单元。在此情形下,抽样框没有能够覆盖全部目标总体单元,也就是使部分目标总体单元没有包括在抽样框中,因而也就没有机会被选入样本。由于存在丢失单元,使得总体总和的估计偏低,总体均值的估计也可能会出现偏差。丢失单元是一种威胁性较大的抽样框误差,具有较强的隐蔽性,不易被发现。
(2)包含非目标总体单元。有时,抽样框中也可能包含了一些不属于研究对象总体即非目标总体的单元,由此容易导致总体总和的估计偏高。但这种类型的抽样框误差一般要比丢失单元的威胁性小。因为在调查中,非目标总体单元往往更容易被发现,并予以剔除。
(3)复合联接。实践中常可能会遇到这种情况:抽样框中的单元与目标总体单元不完全为一一对应,而是一对多或多对一,即存在复合联接。在这种情形下,目标总体中各个单元的入样概率可能会受到相应的影响,从而导致非抽样误差的扩大。但是,有时候采用经过精心设计的有复合联接的抽样框可以提高稀有元素被抽中的概率。
(4)不正确的辅助信息。一般将不包含辅助信息的抽样框称之为简单抽样框,而将包含辅助信息的抽样框称为复杂抽样框。复杂抽样框中的辅助信息可以用于分层抽样、不等概率抽样,以及使用比估计和回归估计等。如果辅助资料不完全或不正确,则不但不能提高抽样估计的效率,反而会降低估计的准确性。
(5)抽样框陈旧。有时由于构成抽样框的抽样单元资料“老化”,抽样框所提供的信息与现实情况差距较大,也会导致抽样框误差。并且这类误差也可能进一步引起前面四类抽样框误差中的一种或几种同时发生。 二、抽样框误差的确定
(一)丢失目标总体单元时的影响
前已指出,丢失目标总体单元是抽样框误差中威胁最为严重的一种。现设目标总体是由N A 个抽样总体单元及另外N 0个没有包含在抽样框中的单元(即丢失单元)组成,即N=N A +N 0,则总体总和应为
0A A N N i i i
i
Y Y Y Y Y =++∑∑
其中A Y 为抽样总体总和,0Y 为丢失单元总和,i Y 为第i 单元的观测值。现从抽样框的N A 个单元中随机抽取n A 个单元组成样本,则A Y 的无偏估计。当用N AYA 来估计Y 时,结果就会出现
大小为0Y 的偏差,即
0()AyA A E N Y Y Y Y -=-=-
这表明Y 被低估了。如果以r 表示丢失单元与抽样框中单元的均值之比,即/O A r Y Y =又以W 0表示丢失单元占全部目标总体单元的比重,即00/W N N =,则总和估计量AyA N 的相对偏差可表示为
0000(1)
r
Y W Y rW W -=-+- 当估计总体均值Y 时,用A y 估计Y 的偏差为
0()A A O Y Y W Y Y -=-;
此时的相对偏差为
0000()(1)
(1)A O Y Y W W r rW W Y
--=+- 表10.1与表10.2分别给出了不同的丢失单元比重W 0对总体总和与均值估计的相对偏差。其
中关于Y 0与N 0的值可依有关资料进行估计,对此,后面将专门讨论。
(二)包含非目标总单元时的影响
如果以M 0表示抽样框中所含非目标总体单元数,M T 表示抽样框中所含目标总体单元数,则抽样框所含全部单元数0T M M M =+,在抽样框中不存在丢失单元,也没有复合联接时,0T M N =则抽样总体总和F Y 可表示为
00T
M M M F i i i i
i
i
Y Y Y Y Y Y ==+=+∑∑∑
其中,0Y 是非目标总体单元观测值之和,Y 是目标总体总量,i Y 为第i 单元的观测值。现从抽样框的M 个单元中随机抽取m 个单元组成样本,则
m
F i i
M
M y Y m
=
∑
为F Y 的无偏估计。当用F M y 来估计Y 时,就会产生
()F F E M y Y Y Y Y -=-
=
的偏差,这表明Y 被高估了。如果以u 表示非目标总体单元与目标总体单元均值之比,0Q 表示非目标总体单元占抽样总体单元的比重,即
0M Q m =
,0Y u Y
= 则总和估计量F M y 的相对偏差可表示为
000
1u Y Q Y Q =- 当估计总体均值Y 时,以F y 估计Y 的偏差为
00()F Y Y Q Y Y -=-
此时的相对偏差为
000()
(1)Q Y Y Q u Y
-=-
表10.3和表10.4分别给出了不同的0Q 与u 时总体总和与均值估计的相对偏差。
表10.3 总和估计中的相对偏差
在实际调查中,如果将那些被选入样本的非目标总体单元剔除,而以样本中剩余的属目标总 体单元的资料进行估计,由于减少了样本容量则会使估计的误差增大。令: i Y 若i 是目标总体单元 i Y '= 0 否则
则总体总和估计为
ˆm
i i
M Y
Y m
'=∑
此时有
222000ˆ()[(1)(1)]y M V Y Q S Q Q Y m
=-+- 其中
2
21()1T
M y i T i
S Y Y M =--∑ 同完善的抽样框(即00Q =)相比,包含非目标总体单元抽样框使得估计误差增大