缺失数据的多重插补方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要:插补法是对缺失数据的调整方法,多重插补弥补了单一插补的缺陷,采用一系列可能的数据集来填充每一个缺失数据值,反映了缺失数据的不确定性。
本文介绍了多重插补程序的三种数据插补方法:回归预测法、倾向得分法和蒙特卡罗的马氏链方法,并且对多重插补的插补效果进行推断,指出多重插补存在的问题。
关键词:多重插补;缺失数据
一、引言
在数据处理和数据分析中经常会出现缺失数据(missingdata)或不完全数据(incompletedata),从抽样调查的角度,把这些数据归结为无回答数据集。
一般把无回答分为“单位无回答”和“项目无回答”。
“项目无回答”是指被调查单位虽然接受了调查,但只回答了其中的一部分而非全部的问题,或者对某些项目提供的资料是无用的。
对于“项目无回答”,如果重新调查来获得准确数据,会浪费大量的时间、人力和财力,是不现实的。
因此对“项目无回答”的弥补处理多采用插补法(imputationmethod)。
插补法是指采取一定的方式为调查中的每一个缺失数据寻找一个合理的替补值插补到原缺失数据的位置上,对得到的“完全数据集”使用完全数据统计分析方法分析并进行统计推断的一种方法。
插补的目的并不是预测单个缺失值,而是预测缺失数据所服从的分布。
通过插补,一方面,填补了缺失数据的空白,使得原来有缺失数据的数据集成为一个完整数据集,弥补了统计分析的不便;另一方面,减少了由于数据缺失造成的估计量的偏差。
二、多重插补的提出
迄今为止,学术界已提出并发展了30多种插补方法。
在抽样调查中应用的主要是单一插补和多重插补。
单一插补指对每个缺失值,从其预测分布中抽取一个值填充缺失值后,使用标准的完全数据分析进行处理。
单一插补方法大致可以归为两类:随机插补和确定性插补,具体包括:均值插补、热卡插补、冷卡插补、回归插补和模型插补等。
但是单一插补假定好像缺失值在完全数据分析中是已知的,并未反映出位置缺失数据的预测的不确定性,容易扭曲变量关系,无法反映无回答模型的不确定性,并且参数估计的估计方差结果将是有偏的。
多重插补法则弥补了单一插补的缺陷,考虑了缺失数据的不确定性,提出了处理缺失数据的另一种有用的策略。
美国哈佛大学统计学系的Rubin教授70年代末首先提出多重插补的思想。
它是给每个缺失值都构造m个插补值(m>1),这样就产生出m个完全数据集,对每个完全数据集分别使用相同的方法进行处理,得到个处理结果,再综合这个处理结果,最终得到对目标变量的估计。
与单一插补相比,多重插补构造m个插补值的目的是模拟一定条件下的估计量分布,应用完全数据分析方法和融合数据收集者知识的能力,根据数据模式采用不同的模型随机抽取进行插补,能够反映在该模型下由缺失值导致的附加(额外)变异,增加了估计的有效性;同时在多个模型下通过随机抽取进行插补,简单地应用完全数据方法,可以对无回答的不同模型下推断的敏感性进行直接研究。
1987年,Rubin提出了多重插补程序,它是用一系列可能的数据集来填充每一个缺失数据值(这样也突出了所需插补值的不确定性);然后使用完全数据的标准程序去分析这些多重插补数据集;最后对这些分析结果归纳、综合。
需要注意的是无论使用哪一种完全数据分
缺失数据的多重插补方法
文/乔丽华傅德印
析,从不同插补数据集得到的综合结果的处理程序实质是一致的,这样就形成了有效的统计推断。
三、多重插补机制
多重插补并没有试图去通过模拟值去估计每个缺失值,而是提出缺失数据值的一个随机样本,这种程序的实施恰当地反映了由于缺失值引起的不确定性,使得统计推断有效。
多重插补推断包括了3个不同步骤:
——
—对缺失数据填补m次,产生m个完整的数据集
——
—使用标准程序去分析这m个完整数据集
——
—综合这个完整数据集的结果,用于推断
由多重插补的步骤可知,多重插补所面临的主要问题是如何得到缺失数据的多个插补模版。
由于缺失数据模型的类型决定了多重插补的插补机制,因此为正确地进行插补,需要首先明确数据缺失机制,LittleandRuth(1987)把缺失数据确定为三种独特类型:完全随机缺失数据(MCAR)、随机缺失数据(MAR)和不可忽略的漏填数据。
而MCAR可以看作是MAR的一个特例,对于MCAR,缺失数据值是所有数据值的一个简单随机样本,缺失性并不决定于数据集中的任何一个变量。
SAS多重插补程序假设缺失数据是随机缺失的(MAR),即观测值的缺失概率是依赖于观测值本身,而不是缺失值。
同时它假定数据模型的参数和缺失数据示性参数f是可分的(有区别的)。
即已知的值并不能为参数f提供额外的信息,反之亦然。
如果随机缺失和有区别的假设都得到满足,则缺失数据机制可认为是可忽略的。
在满足上述假设下,多重插补程序提供了插补缺失数据的三种方法:回归预测方法(regressionpredictmethod),倾向得分法(PropensityScoremethod)与蒙特卡罗的马氏链方法(MCMC)。
(一)回归预测法
当一个个体观测值的变量缺失则意味着后面的变量均缺失时,认为此数据集是单调缺失模式。
即对第i
个单元,变量Y
j缺失,则对该单元,所有的后续变量Y
k
(k>j)都缺失。
对于单调缺失数据模式可以选择多元正态假设的参数回归方法来实施插补。
在回归模型中,回归模型的拟合是将以前的变量作为协变量来建立具有缺失数值的每个变量,以结果模型为基础,模拟一个新的回归模型,用于插补每个变量的缺失值。
由于数据缺失是单调模式,则对有缺失的每个变
量重复进行这一过程即可。
即对有缺失的变量Y
j,利用
无缺失的观测值建立一个回归模型:
Y
j
=!
0
+!
1
Y
1
+!
2
Y
2
+∧+!
j-1
Y
(j-1)
该模型的回归参数估计为!"
0
,!"1,!"
2
,∧,!"(j-1),相应的
协方差阵为"2
j
Vj,Vj是通常的X'X阵,X来自解释变量
Y1,Y2,∧,Y
(j-1)
和截矩项。
对每一步插补,从缺失数据的后验预测分布中抽取
新的参数!
*0
+!
*1
+!
*2
+∧+!
*(j-1)
和"2
*j。
即根据!"
0
,!"1,!"
2
,∧,!"(j-1)和"2j及Vj模拟得到。
然后缺失值通过下式替
代:
!
*0
+!
*1
Y
1
+!
*2
Y
2
+∧+!
*(j-1)
Y
(j-1)
+zi"*j
其中y
1
,y2,∧,yj-1是前j-1个变量的观测值,zi是一正态
偏离。
(二)倾向得分法
倾向得分法是在给定的观测协变量时,指定给一个特殊处理的条件概率。
在倾向得分法中,对每个缺失
变量都赋予一个倾向得分,以代表观测值缺失的概率,
并根据倾向得分对观测值进行分组,然后应用近似贝
叶斯自助法(bootstrap)插补。
对于一个单调缺失模式,使用下面步骤对每个缺失
变量Y
j
进行插补:
1、先构造一个示性变量Rj,对其有下面规定:
Rj=
0Yj有缺失
1其
"
它
2、拟合一个逻辑斯回归模型
logit(pj)=!
0
+!
1
Y
1
+!
2
Y
2
+∧+!
(j-1)
Y
(j-1)
这里p
j
=pr(Rj=0|Y1,Y2,∧,Yj-1)且log(p/(1-p))
3、对每个观测值建立一个倾向得分,以表示其缺
失概率。
4、基于这些倾向得分把观测值划分为固定数目的
分组。
5、对每一组都使用近似贝叶斯bootstrap法插补:
在第k组,令:
Yobs代表缺失变量Yj的非缺失的已观测值,其观
测值数目为n
1。
Ymis代表缺失变量Yj的缺失观测值(未观测值),
其观测数目为n
0。
近似贝叶斯bootstrap插补方法,首先从Y
obs
中随
机有放回地抽取n
1
个观测值,建立一个新的数据集Y*obs这是对从缺失数据的后验预测分布得到的参数的
非参数模型,然后用Y*
obs
来随机替代Y
mis
的n
0
个插补值,并对有缺失值的每个变量连续地重复实施。
倾向得分方法只使用与是否有缺失的插补变量值相联系的协变量信息。
它并不使用变量间相关性系数,
对单个个体插补变量的分布的推断是有效的,但并不适合于变量间存在相关关系的分析。
(三)蒙特卡罗的马氏链方法
MarkovchainMonteCarlo(MCMC)产生于物理过
程,它是用于研究分子间的稳态分布的。
在统计中,用于通过马氏链从多维和其它难以处理的概率分布中产生伪随机(非随机结果)。
一个马氏链就是一个随机变量序列,其中每一个元素或变量的分布依赖于前面的变量值。
在MCMC中,构建了一个对各变量的分布而言都足够长的马氏链,使一个普通的分布更加稳定,而这个稳态分布就是所要求的分布。
从有关的分布中,通过马氏链的反复模拟得到结果。
假定数据服从多元正态分布,则数据扩充算法(data
augmentationalgorithm)被用于贝叶斯推断,通过下面步
骤来插补缺失数据。
1、
插补步骤:i—step(imputationstep)使用估计的均值向量和协方差矩阵,插补步骤对每个观测值独立地模拟其缺失值。
即如果对观测值使用Yi
(mis)
代表有缺失值的变量。
已观测值变量用Yi(obs)来表示,则i—step从给定Yi(obs)下的条件分布Yi(mis)中得到Yi(mis)。
2、
后验步骤(p—step)posteriorstep此步骤从完整样本估计量中模拟一个后验分布均
值向量和协方差矩阵,这些新的估计量随后被用在i—
step中。
若没有提供参数的先验信息,则使用一个不提
供信息的先验分布或选择其它有先验信息的分布。
例如:协方差的先验信息有助于得到一个近似奇异协方差矩阵的协变量的稳定推断。
两步骤反复迭代是为使结果对一个多重插补数据集而言更加可靠。
其目的是对稳态分布反复收敛,然后去模拟缺失数据的一个近似独立的结果。
插补原理为:
已知第t次迭代的现有参数估计量!(t),i—step从P
(Ymis|Yobs,!(t))中得到Ymis(t+1),即
Ymis(t+1)~P{Ymis|Yobs,!(t)}
p—step则从P{!|Yobs,Ymis(t+1)}得到!(t+1)
!(t+1)~P{!|Yobs,Ymis(t+1)}
这样就创建了一个马氏链(Y(1)mis,!(1)),(Y(2)mis,!(2)),…,收敛于分布P{Ymis,!|Yobs}。
当我们掌握的数据是任意型缺失模式,则可经常性的选择是MCMC方法,即使用模拟迭代。
对于正态数据,从贝叶斯预测分析中使用模拟建立多重插补值,处理这种数据集的另外一种方法是使用MCMC方法去插补足够多的值使得缺失数据模式单调化。
四、多重插补的推断及插补效果
与单变量推断(单一推断)相似,多重推断(基于Walk检验)也可以从个插补数据集中得到。
对个插补值,我们可以计算出m个不同参数Q的点估计和方差估计
集合。
令Q%i和U%i
(i=1,2,∧,m)为第i次插补集的点估计量和方差估计量,然后得到多重插补的点估计量Q,Q为m个完全数据估计量的平均。
即:
Q
"=1m
m
i=1
#Q
%i令U
"为组内插补方差,则U"=1
m
m
i=1
$Q
%i
令B为组间插补方差,则B=
1m
m
i=1
$(!
%i
-!%)2
因此,总方差T为:T=U"+(1+1m
)B统计量(!
%i-!%)T-1
2
近似服从自由度为Vm的t分布:
(!
%i-!%)T-
1
2
~t(Vm)
其中Vm=(m-1)[1+
U
"(1+m-1)B
]2
当完全数据的自由度V0很小且仅有一小部分比例的缺失数据时,计算出自由度Vm可能比V0还要大,而这显然是不恰当。
Barnard和Rubin(1999)建议使用调整的自由度Vm*。
Vm*=[
1Vm+1V%
obs
]-1
这里V%obs
=V0+1V0+3V0(1-r),r=(1+m-1)
T
B而判断插补的效果如何则取决于替补值和缺失值的近似程度,可以用比率r来衡量:
r=
(1+m-1)B
U
"比率r是由于无回答引起的方差的相对增加值(方差增加的相对量)。
如果Q没有缺失信息,则r值B值都为0,当m较大或r较小时,自由度Vm将较大,分布近似正态的。
无回答的另外有用的统计量Q是的缺失信息部分
!!=r+2/(Vm+3)
r+1
相对效率是使用m个有限插补估计,而不是使用无穷量的插补估计,它近似是m和!的函数,从而得到完全有效插补值。
RE=(1+!
m
)-1
当m和r取不同值时,相对效率结果见表1。
五、多重插补存在的问题
多重插补推断假定分析者模型和插补模型是相同的,但实际应用操作时,两个模型并不完全相同。
例如,假设三元数据集Y
1
、Y2、Y3、Y1、Y2是完全观测
数据,而Y
3有缺失值,一个插补者创建插补模型Y
3
=Y1·
Y2,而分析人员后面则使用模型Y3=Y1,在这种案例中,分析者假设Y
3
、Y2是独立的,即无相关关系。
如果假设是真的,则插补模型仍然适用,尽管有些保
守,但是它反映了Y
3和Y
2
关系的估计的附加不确定性,
因此源于多重插补的推断也还是有效的。
另一方面,假设分析者模型为Y
3
=Y1,而Y3和Y2相
关,则模型Y
3
=Y1将是有偏的,分析者模型将是不恰当,适当的结果只能从合适的分析者模型中产生。
此外,另外一种情形也会发生:即插补者假设多于分
析者。
例如,插补者建立的多重插补模型为Y
3
=Y1,即插补者假设是独立的,即无相关关系。
但分析者在分析时模拟
的模型为Y
3
=Y1·Y2。
当假设成立时,插补模型为正确的模
型,推断应保留;如果假设不成立,即假设Y
3
,Y2是相关的,则建立在不正确的假定下的插补值将使分析者相关关系的估计值与0有偏。
这样,建立在不正确模型下的多重插补值,会导致不正确的结论。
因此在实施插补时应包括尽可能多的变量,当引入了不重要的变量时,因为不重要的预测值而丧失的精度,对获得的多重插补数据集的分析的总的有效性(总效用)而言,代价是相对较小的。
分析者通过对插补者模型的描述将获得插补中所含变量信息,将了解哪几种变量间的关系可以简单的归于0,因此多重插补数据集的插补者模型的描述是有用的。
综上,虽然多重插补在实施时比较复杂,难以掌握,但是随着计算机技术的迅速发展,相应的插补专业软件的出现以及多重插补本身的优势,多重插补将成为处理缺失数据的主要手段。
参考文献:
[1]谢邦昌著.张尧庭、董麓改编.抽样调查的理论及其应用方法[M]中国统计出版社.1998.3
[2]金勇进缺失数据的插补调整[J]数理统计与管理,2001.5
[3]冯士雍、倪加勋、邹国华抽样调查理论与方法[M].中国统计出版社.1998
[4]JudithT.LesslerWilliamD.Kalsbeek著金勇进译倪加勋校调查中的非抽样误差[M].中国统计出版社.
1997.10
[5]傅德印.政府统计数据质量体系研究[M].甘肃人民出版社.2000
[6]庞新生.多重插补处理缺失数据方法的理论基础探析[J]理论新探2005.
[7]Little,R.J.A.andRubin,D.B.(1987),StatisticalAnaly
siswithMissingData,NewYork:JohnWiley&Sons,
Inc.
[8]TiandongLi.ComparisonofMultipleImputationand
OtherImputationMethodDepartmentofMeasurement,AppliedStatisticsandEvaluationUniversityofMary
land,CollegePark
[9]DonaldB.Rubin.MultipleImputationforNonresponseinSurveys[M].JohnWiley,1987.
(作者单位:兰州商学院)
表1多重插补推断的相对效率
!
m10%20%30%50%70%30.96770.93750.90910.85710.810850.98040.96150.94340.90910.8772100.99010.98040.97090.95240.9346200.99500.99010.98520.97560.9662。