单一插补方法与多重插补方法的对比及分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

单一插补方法与多重插补方法的对比及分析

0.缺失数据说明

Little和Rubin根据缺失机制的不同,缺失数据可分为三大类:完全随机缺失数据(MCAR),随机缺失数据(MAR)以及非随机缺失数据(NMAR)0MCAR表示某些变量数据的缺失完全不依赖于变量或者回答者的貞•实情况,是严格意义上的随机缺失:MAR表示某些变量数拯的缺失与回答者的真实情况是独立的:NMAR则表示变量数据的缺失与回答者的真实情况之间有相关的联系,并不是随机缺失的。

实际情况中,缺失数据对数据分析造成较大的影响,主要表现在两个方而:数据统计的功效以及会带来有偏估计。Kim和Curry(1997)发现当有2%的数据缺失时,若采用列表删除的方法,将会带来%全部信息的丢失。Quinten和Raaijmakers (1999)的研究表明10%~35% 的数据缺失会带来35%~98%的信息丢失。可见,对缺失的数据不进行处理会给整个数据结构带来巨大的影响。故而,在数据分析中,对缺失数拯的处理至关重要,同时该部分也是目前新兴学科一一数据挖掘技术的重要组成部分。

在处理缺失数拯时,为了方便处理,一般假定缺失机制为MAR或者MCAR,这样可利用数理统计方法进行处理。缺失数据的处理方法可分为三大类:直接删除法、插补法、基于模型的预测方法。英中直接删除法最为便捷,同时也是最为粗糙的方法,该方法易造成貞•实信息的大量丢失,仅仅适用于极少量的数据缺失情况。相比而言,插补法和基于统计模型的预测方法比较常用,也较为有效。根据每个缺失值的替代值个数,可将插补方法分为单一插补和多重插补。

1.单一插补与多重插补概念

单一插补是指采用一左方式,对每个由于无回答造成的缺失值只构造一个合理的替代值,并将其插补到原缺失数拯的位宜上,替代后构造岀一个完整的数据集。

多重插补是由哈佛大学的Rubin教授在1977年首先提出的,该方法是从单一插补的基础上衍生而来的。指给每个缺失值都构造m个替代值(m>l),从而产生了m个完全数据集, 然后对每个完全数拯集采用相同的数据分析方法进行处理,得到m个处理结果,然后综合这些处理结果,基于某种原则,得到最终的目标变量的估计。

多重插补可分为三个阶段:(1)对目标变量的估计,(2)创建完全数据集,(3)目标变量的确左。其中最关键的阶段为目标变量的估计,该阶段需要确泄估计缺失值的方法,即缺失值是以何种方法或者

模型被估汁岀来,该阶段直接影响统讣推断的有效性。

理想的多重插补一般都按照以下方案进行:每个插补模型,对无回答Y[,m]的m次插补, 实际就是从Y["]的后验预测分布中进行m次独立重复抽取,即从与数据和无回答机制相对应的贝叶斯模型中独立抽取参数和无回答数值。实践中在选择模型时应考虑三个重要问题:模型是显性的还是隐性的,是可忽略的还是不可忽略的,以及插补模型是否适当显性模型在数理统计中经常使用的方法,比如正态线性回归、多元正态模型等。隐性模型被认为是潜在的隐含的"修补”特左数据结构的方法,比如非参数方法、最近距离法等。尽管在理论上显性模型被认为是理想的多重插补技术,但实践中经常采用的却是隐性模型,或是显性模型和隐性模型的结合。例如,Herzog和Rubin曾在美国普査局的热卡法的基础上,改进生成一种结合显性回归模型和隐性配对模型反复插补的方法。

插补模型,无论是显性还是隐性,都可按照无回答机制分为可忽略的模型和不可忽略的模型。例如,X是数据中所有单元都回答的变量,Y有回答也有无回答。可忽略的(Ignorable) 模型假设具有相同X值的回答者和无回答者的差异都是随机的。不可忽略的(Non-ignorable) 模型则假设即使具有相同的X 值,回答者和无回答者之间的Y值具有系统差异。在实际数据中,如果没有直接证据能验证无回答机制的假设,可以利用多个模型来研究其敏感性。

插补模型,无论是显性还是隐性,可忽略或是不可忽略,必须是适当的模型,才可能得出有效推断。使用适当插补模型的本质在于,在利用模型进行重复插补时可以正确反映抽样的变异性,从而才能得岀有效推论。例如在可忽略的无回答假设下,具有相同X值的回答者和无回答者的Y值差异都是随机的,但是从相同X值的Y回答值中随机抽取插补值,忽路了抽样变异性,即被抽取的相同X值的Y 回答值与相同X值的总体Y值的随机差异性。要正确反映这种变异性,才能在既定无回答机制下得岀多重插补的有效推断。利用近似贝叶斯靴环法(ABB)可以满足这一要求。

在可忽略的无回答机制下,假设收集相同X值的n个单位的资料,英中有n[,r]个回答者, n[,m]=n-nLr]个无回答者。ABB首先从n[,r]个回答值中有放回随机抽取n[,r]个值,作为Y的n[,r]个可能值,再从该n[,r]个可能值中有放回随机抽取n[,m]个无回答插补数据。这里从n[,r] 个可能值而不是n[,r]个回答值中抽取插补值,至少在简单随机大样本条件下可以反映不同插补之间的变异性。ABB还可用于不可忽略机制的无回答的插补,比如在第一步不是简单随机抽取,而是按照Y的某函数(比如Y[2])独立抽取n[,r]个值。这样就可以生成偏态分布的无回答,比如无回答者的Y值大于相同X值的回答者的Y值。

2.单一插补方法分类

均值插补:

分为无条件均值插补和有条件均值插补。无条件均值插补指用所有有回答单元的均值来代替缺失值,若在MCAR条件下,该方法为无偏估计。然而,由于插补值是所有有回答的均值,该数值过于集中,扭曲了变量的经验分布,总体方差和协方差被低估。为了得到更精确的数值,学者提出了有条件均值插补,分为分层均值插补、回归均值插补和BUCK方法。其中,分层均值插补:在插补之前,对变量按照某种规律进行分层,然后用每一层中的均值来代替本层中的缺失值。回归均值插补:在单调缺失数据模式下,利用回归的预测值来代替缺失值。BUCK方法:

将回归插补推广到更一般的无回答数据模式,首先基于回答单元获得样本均值U和协方差阵工,然后使用这些估计,对每一种无回答数据模式汁算含有无回答的变量关于回答变量的最小二乘线性回归,在此基础上,用回归预测值代替无回答值。

随机插补

与条件均值插补方法类似,只不过在均值插补的基础上加上随机项,该方法通过增加缺失值的随机性,改善缺失值分布过于集中的缺陷。同样可分为两类:分层随机插补和随机回归插补。其中随机回归插补可表示为:

yik= Ok0.1.2-k-1 + 7 .pkjl2 -k- iyij + Cik

热卡插补

该方法指从每一个缺失数据的估计分布中抽取插补值替代缺失值,使用回答单元的抽样分布作为未回答单元的抽取分布。从回答单元中产生插补值所采用的抽样方式决左了在热卡插补下有关总体参数估计疑的性质,根据获得插补值的不同,热卡插补又可分为:随机抽样热卡插补、分层热卡插补、最近距离热卡插补和序贯热卡插补。

冷卡插补

冷卡插补表示从以前的调查数据中获取信息,如历史数据。同样该方法不能消除估汁偏差。

演绎插补

相关文档
最新文档