缺失数据的多重插补方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要:插补法是对缺失数据的调整方法,多重插补弥补了单一插补的缺陷,采用一系列可能的数据集来填充每一个缺失数据值,反映了缺失数据的不确定性。本文介绍了多重插补程序的三种数据插补方法:回归预测法、倾向得分法和蒙特卡罗的马氏链方法,并且对多重插补的插补效果进行推断,指出多重插补存在的问题。
关键词:多重插补;缺失数据
一、引言
在数据处理和数据分析中经常会出现缺失数据(missingdata)或不完全数据(incompletedata),从抽样调查的角度,把这些数据归结为无回答数据集。一般把无回答分为“单位无回答”和“项目无回答”。“项目无回答”是指被调查单位虽然接受了调查,但只回答了其中的一部分而非全部的问题,或者对某些项目提供的资料是无用的。对于“项目无回答”,如果重新调查来获得准确数据,会浪费大量的时间、人力和财力,是不现实的。因此对“项目无回答”的弥补处理多采用插补法(imputationmethod)。
插补法是指采取一定的方式为调查中的每一个缺失数据寻找一个合理的替补值插补到原缺失数据的位置上,对得到的“完全数据集”使用完全数据统计分析方法分析并进行统计推断的一种方法。
插补的目的并不是预测单个缺失值,而是预测缺失数据所服从的分布。通过插补,一方面,填补了缺失数据的空白,使得原来有缺失数据的数据集成为一个完整数据集,弥补了统计分析的不便;另一方面,减少了由于数据缺失造成的估计量的偏差。
二、多重插补的提出
迄今为止,学术界已提出并发展了30多种插补方法。在抽样调查中应用的主要是单一插补和多重插补。
单一插补指对每个缺失值,从其预测分布中抽取一个值填充缺失值后,使用标准的完全数据分析进行处理。单一插补方法大致可以归为两类:随机插补和确定性插补,具体包括:均值插补、热卡插补、冷卡插补、回归插补和模型插补等。但是单一插补假定好像缺失值在完全数据分析中是已知的,并未反映出位置缺失数据的预测的不确定性,容易扭曲变量关系,无法反映无回答模型的不确定性,并且参数估计的估计方差结果将是有偏的。
多重插补法则弥补了单一插补的缺陷,考虑了缺失数据的不确定性,提出了处理缺失数据的另一种有用的策略。美国哈佛大学统计学系的Rubin教授70年代末首先提出多重插补的思想。它是给每个缺失值都构造m个插补值(m>1),这样就产生出m个完全数据集,对每个完全数据集分别使用相同的方法进行处理,得到个处理结果,再综合这个处理结果,最终得到对目标变量的估计。
与单一插补相比,多重插补构造m个插补值的目的是模拟一定条件下的估计量分布,应用完全数据分析方法和融合数据收集者知识的能力,根据数据模式采用不同的模型随机抽取进行插补,能够反映在该模型下由缺失值导致的附加(额外)变异,增加了估计的有效性;同时在多个模型下通过随机抽取进行插补,简单地应用完全数据方法,可以对无回答的不同模型下推断的敏感性进行直接研究。
1987年,Rubin提出了多重插补程序,它是用一系列可能的数据集来填充每一个缺失数据值(这样也突出了所需插补值的不确定性);然后使用完全数据的标准程序去分析这些多重插补数据集;最后对这些分析结果归纳、综合。需要注意的是无论使用哪一种完全数据分
缺失数据的多重插补方法
文/乔丽华傅德印
析,从不同插补数据集得到的综合结果的处理程序实质是一致的,这样就形成了有效的统计推断。
三、多重插补机制
多重插补并没有试图去通过模拟值去估计每个缺失值,而是提出缺失数据值的一个随机样本,这种程序的实施恰当地反映了由于缺失值引起的不确定性,使得统计推断有效。
多重插补推断包括了3个不同步骤:
——
—对缺失数据填补m次,产生m个完整的数据集
——
—使用标准程序去分析这m个完整数据集
——
—综合这个完整数据集的结果,用于推断
由多重插补的步骤可知,多重插补所面临的主要问题是如何得到缺失数据的多个插补模版。由于缺失数据模型的类型决定了多重插补的插补机制,因此为正确地进行插补,需要首先明确数据缺失机制,LittleandRuth(1987)把缺失数据确定为三种独特类型:完全随机缺失数据(MCAR)、随机缺失数据(MAR)和不可忽略的漏填数据。而MCAR可以看作是MAR的一个特例,对于MCAR,缺失数据值是所有数据值的一个简单随机样本,缺失性并不决定于数据集中的任何一个变量。
SAS多重插补程序假设缺失数据是随机缺失的(MAR),即观测值的缺失概率是依赖于观测值本身,而不是缺失值。同时它假定数据模型的参数和缺失数据示性参数f是可分的(有区别的)。即已知的值并不能为参数f提供额外的信息,反之亦然。如果随机缺失和有区别的假设都得到满足,则缺失数据机制可认为是可忽略的。
在满足上述假设下,多重插补程序提供了插补缺失数据的三种方法:回归预测方法(regressionpredictmethod),倾向得分法(PropensityScoremethod)与蒙特卡罗的马氏链方法(MCMC)。
(一)回归预测法
当一个个体观测值的变量缺失则意味着后面的变量均缺失时,认为此数据集是单调缺失模式。即对第i
个单元,变量Y
j缺失,则对该单元,所有的后续变量Y
k
(k>j)都缺失。对于单调缺失数据模式可以选择多元正态假设的参数回归方法来实施插补。
在回归模型中,回归模型的拟合是将以前的变量作为协变量来建立具有缺失数值的每个变量,以结果模型为基础,模拟一个新的回归模型,用于插补每个变量的缺失值。
由于数据缺失是单调模式,则对有缺失的每个变
量重复进行这一过程即可。即对有缺失的变量Y
j,利用
无缺失的观测值建立一个回归模型:
Y
j
=!
0
+!
1
Y
1
+!
2
Y
2
+∧+!
j-1
Y
(j-1)
该模型的回归参数估计为!"
0
,!"1,!"
2
,∧,!"(j-1),相应的
协方差阵为"2
j
Vj,Vj是通常的X'X阵,X来自解释变量
Y1,Y2,∧,Y
(j-1)
和截矩项。
对每一步插补,从缺失数据的后验预测分布中抽取
新的参数!
*0
+!
*1
+!
*2
+∧+!
*(j-1)
和"2
*j
。即根据!"
0
,!"1,!"
2
,∧,!"(j-1)和"2j及Vj模拟得到。然后缺失值通过下式替
代:
!
*0
+!
*1
Y
1
+!
*2
Y
2
+∧+!
*(j-1)
Y
(j-1)
+zi"*j
其中y
1
,y2,∧,yj-1是前j-1个变量的观测值,zi是一正态
偏离。
(二)倾向得分法
倾向得分法是在给定的观测协变量时,指定给一个特殊处理的条件概率。在倾向得分法中,对每个缺失
变量都赋予一个倾向得分,以代表观测值缺失的概率,
并根据倾向得分对观测值进行分组,然后应用近似贝
叶斯自助法(bootstrap)插补。
对于一个单调缺失模式,使用下面步骤对每个缺失
变量Y
j
进行插补:
1、先构造一个示性变量Rj,对其有下面规定:
Rj=
0Yj有缺失
1其
"
它
2、拟合一个逻辑斯回归模型
logit(pj)=!
0
+!
1
Y
1
+!
2
Y
2
+∧+!
(j-1)
Y
(j-1)
这里p
j
=pr(Rj=0|Y1,Y2,∧,Yj-1)且log(p/(1-p))
3、对每个观测值建立一个倾向得分,以表示其缺
失概率。
4、基于这些倾向得分把观测值划分为固定数目的
分组。
5、对每一组都使用近似贝叶斯bootstrap法插补:
在第k组,令:
Yobs代表缺失变量Yj的非缺失的已观测值,其观
测值数目为n
1
。
Ymis代表缺失变量Yj的缺失观测值(未观测值),
其观测数目为n
0
。
近似贝叶斯bootstrap插补方法,首先从Y
obs
中随
机有放回地抽取n
1
个观测值,建立一个新的数据集Y*obs这是对从缺失数据的后验预测分布得到的参数的
非参数模型,然后用Y*
obs
来随机替代Y
mis
的n
0
个插补值,并对有缺失值的每个变量连续地重复实施。
倾向得分方法只使用与是否有缺失的插补变量值相联系的协变量信息。它并不使用变量间相关性系数,