如何减少非抽样误差

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

如何减少非抽样误差

如何减少非抽样误差

一,非抽样误差的定义:

市场调查活动必不可少地会产生误差,如何减少误差,提高精度这是委托方和市场咨询公司最关注的焦点之一。

要减少误差,首先要了解误差来自于哪里?如何对各种误差进行分类?不同类别的误差有什么样的方法可以预防?如果误差已经发生了,采用什么样的方法可以弥补?

按最简单的分类方法,误差可以分为两类,一类是抽样误差,另一类是非抽样误差。所谓的抽样误差是由抽样的随机性引起的,一般意义上来说是无法减少的。而非抽样误差是指除抽样误差以外所有的误差的总和。引起非抽样误差的原因很多,比如抽样框不齐全,访问员工作经验有限,被访者不配合访问而加以虚假的回答,问卷设计本身存在缺陷等等。应该说非抽样误差的产生贯穿了市场调查的每一个环节,任何一个环节出错都有可能导致非抽样误差增加而使数据失真。我们平时说的控制误差主要指的就是控制非抽样误差。

对于非抽样误差的定义和分类也是到了近代才逐渐清晰和明确起来,最初,鲍德威在1915年提出所谓的误差有四个来源分别是:

?获得的信息不正确或不真实

?定义和标准不严格、不确切、不适当

?样本不能代表总体

?部分数据对于总体的估计将要产生的误差

在鲍德威的四个误差来源中,前两个都是非抽样误差。鲍德威对于各种误差提出了比较简略的分类方法,而戴明在他的基础上对非抽样误差进行了比较全面和系统的分类。戴明认为误差除了抽样误差以外一般应该包括以下部

分:

?回答的变异性

?不同类型和不同水平的访问员

?访问员引起的主观偏差

?委托方对于数据的期望(人为影响)

?问卷设计的缺陷

?抽样前后总体发生的变化

?无回答的偏差

?过时记录的偏差

?数据缺乏代表性

?解释数据的误差

在戴明以后,西方又有许多关于非抽样误差的论文出现,对非抽样误差的成因和分类进行了比较完整的阐述。一般而言,非抽样误差可以分为三类,分别是:抽样框误差、无回答误差和计量误差。

二,抽样框误差:

所谓的抽样框误差指目标总体和抽样总体不一致时产生的误差。理想的抽样框需要满足以下要求,就是所有的抽样单位必须覆盖目标总体,对于较为简单的单阶段抽样,抽样框要求每个目标总体单位都应该对应着一个抽样单位,抽样单位必须相互独立,互不重叠,并且唯一地与目标总体相连接。如果目标总体与抽样总体不一致时就产生了抽样框误差。抽样框误差在简单抽样框和复杂抽样框中都会出现。所谓的简单抽样框主要适用于简单随机抽样,就是抽样框没有任何辅助信息,只是对样框内的数据按原样随机排列。复杂抽样框指抽样框附加了一些辅助信息。这些信息将使抽样更符合总体的特征值。举一个简单的例子,比如要抽查上海市所有零售企业的销售状况,假如事先知道上海市零售企业规模的分布情况,就可以根据这个分布比例采用分层抽样的方法。如

果分布比例是正确的,那么分层抽样的精度要高于简单随机抽样,而如果比例不正确,那么误差更大。这里的分布比例就是所谓的辅助信息。

抽样框误差有五个来源,分别是:

?不能覆盖目标总体单位

所谓的不能覆盖目标总体单位,指的是目标总体单位没有出现在抽样样本中,那么他们就不可能在随后的抽样过程中被选中,导致数据丢失。

?与不能覆盖相对应的就是,抽样样本包含了非目标总体单位

包含非目标总体单位主要是由于目标总体的变化产生的误差。相对于不能覆盖的误差而言,包含非目标总体单位误差比较容易被发现。

?复合联接

复合联接的意思就是一个目标总体单位联接着一个以上的抽样单位。比如,有的家庭拥有两个住所、两个地址,那么他们被选中的概率就是一般家庭的两倍。复合联接的对象如果具有某些特征值就会使样本失真,导致均值发生偏差。

?抽样框老化

统计数据有很强的即时性,随着时间的推移,抽样框必须更新,否则就会老化不符合实际情况使抽样不精确。最典型的例子,就是随着城市建设的大规模展开,许多地区已经被改造,地址发生了完全的变化,如果依旧按以前的抽样框去抽样,那么精度就会非常难以控制。

?辅助信息不正确

前面四种抽样框误差会发生在简单抽样框也会发生在复杂抽样框,而辅助信息不正确只可能出现在复杂抽样框内。一般,较大规模和较复杂的抽样必须

采用复杂抽样框,就是必须要有辅助信息。如果辅助信息不准确,就会导致复杂抽样的效果反而不及简单随机抽样。

建立一个准确、及时的抽样框是减少误差的基础,在现实生活中,有缺陷的抽样框并非不能用,关键看如何去弥补和弥补的成本有多高。

减少抽样框误差一般有以下一些方法:

?联接丢失单位

这种方法主要适用于不能覆盖总体单位而引起的误差。所谓联接丢失单位的意思就是把抽样样本丢失的个体和抽样样本中某个值相联结,比如说上海最近兴建了某几个小区,而事先在抽样的过程中并不知晓,那么可以把这几个小区与最相近小区相联接,如果最近小区被抽中,那么就可以视为新建小区被抽中并接受相应的调查。联接丢失单位最重要的基础是在抽样的过程中能发现被丢失的单位,如果不能发现,那么联接丢失单位也就无从谈起。

?采用辅助样框

有许多时候,一个样框不能含盖抽样的总体,比如进行商业调查时,商委系统的名录一般只包括国有和集体企业的情况,而对于一般私营或有外资介入经营的商业网点的情况不太了解,那么如果对全上海的商业网点进行调查,就必须要采用辅助样框,即在国有集体企业的样框之外,增加一个私营和外资商业网点的样框,把两个样框合在一起进行抽样。辅助样框最大的问题是抽样目标会重叠,他可能既隶属于主样框又隶属于辅助样框,该目标总体被选中的可能性就增大。

?及时更新样框

这是解决样框老化和辅助信息不准确最有效的方法。当然样框更新需要较大的资金投入。所以一般样框更新可以采用分批更新,一年更新样框的20%,分5年更新样框的方式。

?对复合联接的处理

复合连接一般又可以分为两种情况,一是所谓的多对一,就是一个目标单位与一个以上的抽样单位相连接,一对多的情况则相反。多对一的错误在抽样调查中对数据精确性的影响更大,所以这里主要讨论如何解决多对一的复合联

接误差。最简单的方式就是利用复合联接的调查数据对目标总体单位数以及目标总体总量和均值进行估计。另外一种方法就是确定唯一的联接规则,让多个抽样单位只有一个进入到抽样总体中,比如对拥有多户地址的家庭可以确定其最近一次居住的地址为抽样对象。

三,无回答误差:

所谓的无回答误差就是指的数据丢失,数据丢失的原因有两种,一是有意不回答,二是无意不回答。有意识不回答,主要指被调查者拒绝访问或拒绝就某一个问题给予回答。无意识不回答则可能受访者不在家或者是访问者疏忽,导致数据遗漏。

相关文档
最新文档