缺失数据插补方法的比较研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DOI:10.13546/ki.tjyjc.2020.18.002
理论探讨
缺失数据插补方法的比较研究
宋亮,万建洲
(南阳理工学院数学与统计学院,河南南阳473000)
摘要:文章通过对样本数据缺失值问题的分析,在随机缺失模式下选择科学有效的插补法对数据缺失问题进行研究,然后以市场中顾客对商品E喜爱度作为调查对象,构建模型对其进行实证分析,并在与多重插补法结合运用的基础上研究不同缺失率下的插补效果。
结果显示,随着缺失率的提高,调查中所获得的数据可用性减少,同时插补法的效果也随之降低。
在四种插补法中,EM插补和多重插补的插补效果优于其余两种,同时运用模型与多重插补相结合的插补效果也不错。
因此根据不同的缺失率,需要选择合适的插补法对数据进行插补。
关键词:抽样调查;缺失值;插补法;逻辑回归分析
中图分类号:0212.1文献标识码:A文章编号:1002-6487(2020)18-0010-05
0引言
样本数据出现缺失在各行各业都有不同程度的体现。
如机械自身原因导致数据错误,内容无法引起被调査者的兴趣,或是涉及隐私,还有可能是在录入数据阶段错录或漏录等,这些事件造成的数据缺失都会使分析的复杂性呈几何级数的增加,甚至得到错误结论等。
一旦数据出现缺失,最直接的方法是删除。
我们用到的很多软件也默认这种处理,但是这种方法的弊端就是当变量很多或者数据缺失比重较大时,就会导致大量个案被删除,从而影响结论的可靠性,因此对数据的缺失值进行插补也许是一种更好的模型。
本文在梳理相关文献的基础上做了以下几方面工作:第一,基于不同缺失率条件的限制,在单一变量缺失和多变量缺失的前提下,对四种插补方法的插补效果进行比较分析;第二,对于插补效果评价较好的多重插补法,基于真实调査的数据,建立回归模型在多变量数据缺失的情况下进行实证分析;第三,将R软件的程序代码应用于实际案例进行分析,包括对缺失数据的预分析、缺失值的处理和处理结果的定量分析,从而达到较好的缺失值处理效果。
1常见的缺失数据插补方法
随着信息全球化和大数据时代的到来,国内外越来越多的学者开始重视缺失数据问题,并对此问题开展了卓有成效的研究。
目前常见的插补法有均值插补法、回归插补法、EM算法和起源于贝叶斯推断的多重插补法。
本文正
基金项目:国家自然科学基金资助项目(11901320);河南省教育厅高等学校重点科研项目(19A110028);河南省科技厅基础与前沿项目(162300410076)
作者简介:宋亮(1981—),女,河南南阳人,硕士,副教授,研究方向:应用数学。
Strategies and Methods for Quality Control of Family Follow-up Survey
Shi Yi,Liu Hongyan
(China Population and Development Research Center,Beijing100081,China)
Abstract:With the increasing attention paid to family issues by the academia and society,and in China,more and more surveys are conducted on the basis of family,among which family follow-up survey is paid more and more attention.On the basis of discussing the evolution of the International Family Follow-up Survey,This paper takes five typical surveys as the research objects,such as the Panel Study of Income Dynamics,the German Socioeconomic Panel,the British Household Panel Study,the European Community Household Panel Study and the South African Income Dynamics Survey to analyze the influence of sample tracking principle,sample maintenance strategy,access technique and data evaluation method on survey quality,and then puts forward strategies and methods to improve the quality of surveys from the"ante-after effect"perspective.
Key words:family development;follow-up survey;quality assessment;survey design
10统计与决策2020年第18期•总第558期
理世探讨丿
是基于这四种插补方法进行讨论。
1.1均值插补法
均值插补一般采用在调查过程中得到的样本数据平均值或者众数作为其替代值对数据进行插补。
均值插补的插补值计算方程为:
其中,0,为是否回答的描述符号表示,几=1代表“是”,0,=0代表“否”,®是个数。
1.2回归插补法
此种方法是根据样本中缺失变量和已得到变量构建回归方程,即根据已有的样本数据,对调查中目标变量的缺失值进行估算。
构建自变量不(i=1,2,...,m)与目标变量Y的关系,且第k个缺失值的插补估算值可表示为:
_丹_
Zt=ao+》a占
1=1
由上式得出,对于相同的心(i=1,2,...,m),回归变换后,得出相同的估计值,其结果与均值插补一致。
所以在回归过程中需要增加随机因素,以此来填补该插补法中的缺陷。
此时该回归方程表示为:
儿=ao+》a,.X*+6
1=1
其中,6表示构建数据集。
1.3EM算法
EM算法是一种迭代算法,用来计算极大似然估计或后验概率分布。
其工作原理是把存在缺失值的数据集插补为完整数据集进行问题处理。
该方法在已获得数据条件下,能有效找到最优值。
其运算先设定以下基础:p(0fY)表示参数e后验分布;p(z/e,r)表示数据z的条件分布;p(e/Y,Z)表示e的添加后验分布。
第一步称为E步,目的是求t+1次迭代的期望:
Q(0/0W,r)=E(\ogp(0/Y)/0v\Z)=J i ogp(6/Y,Z>p(Z/6>®, r)dz
第二步为m步:在上步迭代的e中寻找一个值卅+",使得下式成立:
y)=max0&/e®,y)
其中,6"为第t次迭代后得到的估计值。
反复循环E步和M步,直至飯严/泸,X)-财泸,y)||充分小。
EM算法适用于大样本,且需要注意收敛率。
EM算法在处理实际缺失数据问题时有着很好的效果,但其缺点是只适用于大样本数据,且计算复杂,一般需要通过软件来完成。
1.4多重插补法
它主要是运用若干个插补值从而形成完整的数据集,随之完成对缺失数据的插补。
首先需要根据一定条件下的估计值分布去构造若干个插补值,从而判断其实际后验分布。
多重插补在现实过程中有很大的使用空间,因为其构造的若干插补估计值在一定程度上完好地体现了缺失值的不确定性。
并且多重插补对参数的联合分布作了估计,降低了先验分布的影响。
所以多重插补的插补效果还是较好的。
2数据来源及研究方法
2.1数据来源
顾客对商品的满意程度是一个多维度的概念,总体满意度源自对外部环境、商品自身和购买者内心体验等不同方面的满意度,因此针对顾客对商品的满意程度的评价应该是由多个指标构成的复杂体系。
课题组经过多次研讨论证,编制了《顾客对商品满意度调查问卷》。
问卷共分为三个部分,第一部分阐述问卷调查的目的,与被调查者建立信任;第二部分是被调查者的基本信息指标Cl、Cl、C3,第三部分为本文设计的16个评价指标C4、C5.........C19,见表1。
为了照顾了被调査者的辨别力,本文采用最为常见的Likert5点问卷法,其中1表示“非常不满意”,2表示“不太满意”,3表示“一般”,4表示“比较满意”,5表示“非常满意”。
表1顾客对商品的满姦度相关指标播述
指标描述指标描述
C1顾客的性别C11对服务人员的满意度C2顾客的年龄C12市场距离
C3顾客的家庭人数C13商品的产地
C4商品颜色C14商品大小形状
C5个人收入的满意度C15市场社会风气的满意度C6市场建设的满意度C16市场治安的满意度
C7顾客对市场商品的喜爱度C17个人购买倾向
C8市场环境的满意度C18商品的消耗力
C9
C10
对商品的需求度
个人消费水平
C19商品的受欢迎程度为了保证问卷数据的质量,问卷发放对象为我校家住各省份的城市居民家庭学生代表。
共发出问卷600份,回收有效完整问卷576份。
样本覆盖了不同性别、年龄、收入、学历以及区域的城市居民,无缺失数据部分,具备一定的代表性,适合本文的研究。
2.2研究方法
为了对比缺失数据插补方法的效果,需要将前述的数据集进行处理。
根据调查问卷所获得的完整数据集,在完整数据集上应用R软件随机构造出缺失率存在差异的非完整数据集,分别用不同插补方法对其缺失数据进行插补,并对比分析原始数据和插补后的数据,得到插补后参数估计结果的偏差、均方误差、错分率等适于评判插补效果的指标,以此来判断能否使用此种插补方法所构造的新的完整数据集,使得调查问卷依旧有效可用。
3缺失数据插补方法的比较
3.1缺失率不一样时,单变量缺失模式插补效果比较分析
只有1个变量不完整为单变量缺失,在此预设插补值
统计与决策2020年第18期•总第558期11
花探讨}
偏差及均方误差为评估标准。
设C7为缺失变量,应用R 软件在C7完整数据集上生成缺失率为10%与50%的数据集。
剩余15个变量是否与之相关a,是本文要处理的第一个问题。
结果见表2。
表2各变■与C7相关性检验表
变量Pearson相关系数变量Pearson相关系数
C50.32*C110.35*
C60.35*C150.38*
C80.54*C160.42*
C100.32*C170.51*
注:*表示在0.01旳显著性水平下显著柏关,下同,
3.1.1缺失率为10%时,插补效果比较
当缺失率10%时,分别使用不同的插补法对该数据集进行插补。
在变量C7的完整数据集上构建缺失率为10%的数据集,完整数据集共有576个实例,变量C7包含45个缺失数据,缺失率为10%,符合文本要求。
而其余变量即C5、C6、C8、CIO、Clk C15、C16和C17为完整数据集。
下面分别用四种插补法对缺失数据部分进行插补。
其偏差误差和均方误差结果见表3。
表3缺失率为10%的插补效果
多重插补法EM算法回归插补法均值插补法
均方误差0.7110.7130.7410.722偏差0.0089-0.00210.01490.0167
由表3可知,不同的插补方法所得的插补效果也不同。
因为插补偏差越小,其与原始数据越接近,所以可以得知插补效果最好的是EM算法,最差的是均值插补法。
而插补均方误差表示插补估计值与调査数据之差平方的期望值,由此可以得出多重插补法的插补效果较好叫综合10%缺失时插补后的完整数据集的估计量,EM 算法和多重插补法的插补效果明显优于另外两种插补法。
评价插补效果的方法还可以利用CART分类树。
显然,分类错分率越低,插补效果就越好。
表4缺失率为10%插补后数据集的分类错分率
多重插补法EM算法回归插补法均值插补法错分率(%)34.0333.9835.2134.52
由表4得知,EM算法的错分率最低,回归插补法的最高。
即缺失率为10%时,EM插补法插补效果最好,多重插补次之。
3.1.2缺失率为50%时,插补效果比较
根据C7变量.利用R软件构建缺失率为50%的数据集,C7变量存在数据缺失,缺失数据为275个.即缺失率达到50%,其余变量为完整数据集,符合文本要求。
并在缺失率为50%的基础上,运用各插补法对数据集进行插补。
表5为偏差和均方误差的插补结果。
表5缺失率为50%的插补效果
多重插补法EM算法回归插补法均值插补法
均方误差0.7290.7510.7720.909偏差-0.271 1.108 1.109-1.101
由表5得出,多重插补的偏差值最小,其他插补法偏差相差不大。
所以得岀结论:均值插补、回归插补和EM 插补在缺失率达到50%时其插补效果都不好。
均值插补法在缺失率达到50%时,因为样本有效数据很少,所以它基本无效。
因此在缺失率为50%时,多重插补的效果较好。
表6缺失率50%时插补后数据集的分类错分率
均值插补回归插补多重插补EM插补错分率(%)41.2739.2622.2626」5由表6可知,多重插补的错分率最低,均值插补的最高。
即缺失率为50%时,综合上述分析,多重插补法效果最好。
同样方法也可分析缺失率为20%,30%、40%的插补效果.对不同缺失率下的插补法比较分析得出:多重插补在缺失率不同的情况下其插补效果都相对较好,相反的均值插补在不同缺失率下得到的插补效果都不是很好叫3.2不同缺失率下,多变量缺失模式插补效果比较
本文研究在顾客对商品喜爱程度背景下进行多变量缺失插补,缺失变量为C7.Clio
表7各变■与C11间相关系数检验表
变量Pearson相关系数变量Pearson相关系数
C60.38*C150.48*
C80.39*C160.68*
C100.46*C170.61*
由表7可知,与两变量相关性较高的变量为C6、C8、CIO、C15、C16、C17o多变量缺失模式为完整数据集中存在2个及以上变量存在缺失值。
先运用R软件在完整数据集上生成缺失率为10%与50%的数据集。
表8多变■缺失下不同插补法偏差统计
缺失率(%)多重插补法EM算法回归插补法均值插补法100.03020.04510.02270.1995
500.05650.06120.1432 1.3428
由表8可知,缺失率为10%时,回归插补法插补值偏差最小,其插补效果优于多重插补法;缺失率为50%时多重插补法偏差最小,即其插补效果最好。
表9多变量缺失下不同插补法均方误差统计
缺失率(%)多重插补法EM算法回归插补法均值插补法100.6850.6970.7110.724
500.7820.8120.8290.815
由表9可知,在多变量缺失模式、不同的缺失率下,多重插补法的均方误差最小,均值插补法的均方误差较大,说明在此情况下多重插补法效果最好,而均值插补法的插补效果较差。
同样方法也可分析缺失率为20%.30%、40%的插补效果,对不同缺失率下的插补法比较分析得出:在单一变量缺失模式时,数据集缺失率越大,多重插补法表现出的插补效果越好。
对于多变量缺失,不同的缺失率下多重插补法的插补效果最好。
无论是单一变量缺失还是多变量缺失,EM算法的插补效果次之叫
3.3逻辑回归模型下多重插补效果的实证分析
3.3.1模型的建立
根据市场调查中顾客对商品喜爱程度的调查问卷,分析得知C7与C5、C6、C8、CIO、Cll、C15、C16和C17具有较高相关性,构建C7为因变量的数学模型。
结合实证来分析逻辑回归模型下多重插补法的插补效果,首
12统计与决策2020年第1R期•总第558期
「晅矗麻讨}
先需要根据已有变量构建逻辑回归模型,并在此基础上进行多重插补以及估计相关参数。
设C7为目标变量,并与自变量C5、C6、C8、C10、Cll、C15、C16和C17进行逻辑回归分析。
运行R软件:
g加.so/<-g加(C7~C5+C6+C8+C1O+C11+C15+ C16+C17,data客对商品的喜爱度)得:
表10回归索数的估计与检验结果
估计标准误差r值P 截距0.2947140.053241 3.984 6.95*10-7**
C50.0992340.019856 4.4797.12*10-5♦*
C60.1098580.023587 5.1240.97*10^**
C80.1598430.031548 6.124 3.01*10-7♦♦
C100.0071200.034539-0.8990.21486
C110.0478130.031254 1.0970.31237
C150.0698540.030485 3.0070.01173**
C16-0.0198750.031289-1.0150.40158
C17-0.0105790.033584-0.4050.69544
注:"**”表示0.001的显著水平。
下表同。
观察P值,可以考虑去除CIO、Cll、C16、C17这4个因素的影响。
用剩余变量重新构建模型。
运行可得相应变量回归系数如表11所示。
表11回归系数的估计与检验结果
估计标准误差r值P 截距0.254890.05946 4.389 1.22*10-6**
C50.094830.01984 4.423 1.39*10-6**
C60.099560.02319 4.584 1.98*10'6**
C80.112560.02651 4.485 5.01*10-7"
C150.085430.02867 2.8710.0112**
由表11可知,p<0.001,各变量回归系数都很显著,则可知其模型拟合效果较好。
又因为龙"educed模型包含于gIm.sol模型,借助anova()函数进行卡方验证,以此来判定这两个模型是否有显著差别,这些利用R软件可以得到。
表12卡方检验结果
残差自由度残差偏差自由度偏差P值153159.658000 251959.14630.395840.4328
由表12得出拟合效果不显著(p=0.4328)),两个模型的拟合程度相当。
因此得出其模型为:g加(C7~C5+C6 +C8+C15)
3.3.2基于逻辑回归模型的多重插补实证分析
结合多重插补法与逻辑回归模型,构建随机种子。
根据多重插补法进行插补,形成完整的数据集,并给岀缺失数据的置信区间,通过R软件可以得到。
运用R软件中mice包进行多重插补,数据使用调查问卷涉及顾客对商品喜爱度的数据,并运用R软件随机生成不完整数据集进行实证分析。
(1)缺失率为10%时,多重插补实证分析
在C5、C6、C7变量的完整数据集上运用R软件生成缺失率为10%的数据集,所有数据的图像可由R软件中的matrixplot()函数生成,得出C5、C6、C7中存在缺失值。
缺失数据表格由R软件中的md.pattem()函数生成。
其中完整数据用“1”表示,非完整数据用“0”。
由表13得出,共有438个完整实例不包含任何缺失数据。
缺失值有138个,存在于C5、C6、C7三个变量中,每个变量均存在46个缺失数据。
对其进行多重插补,得到无缺失的插补结果,和原来完整集进行对比,见表14o
表13缺失率为10%的随机缺失数据模型
C8C15C1C6C5 438111110
40110111
41111011
39111101
2110012
4110102
3111002
00464646138
表14缺失率为10%多董插补结果对比分析
回归系数标准差r值自由度P值截距0.1984560.090154 2.26548499.76482 2.19562*10-3 C50.1998450.040235 6.20472954.86513&00468*10~7 C60.1634520.051489 3.31597217.91831 3.95987*10-2
C80.3195670.03489710.46952241.568920.0001
C150.1643150.038562 3.956548401.12375 2.21156*10"
lo95加95数目缺失比率方差贡献率截距0.0301620.402358NA0.20641850.2054581
C50.1623780.298456460.30189150.2491837
C60.0615690.243894460.49618730.5047943
C80.2743950.41459700.09118190.1041059
C150.0799510.19946200.06184870.0496185由表14得出,这些变量的回归系数都较显著,标准误差较小,即插补结果与预期结果大体一致。
根据Rubin关于缺失值的定义,表14中最后两项代表缺失信息的部分和缺失数据的方差贡献率,所以需要越小越好。
由此得知在缺失率为10%时,针对三个变量数据缺失,多重插补插补效果较好。
(2)缺失率为50%时,多重插补实证分析
在C5、C6、C7完整数据集基础上利用R软件随机生成缺失率50%的数据集,缺失值的表格由R软件中的a"erw()函数生成。
表15缺失率为50%的随机缺失数据模型
C8C15C6C7C5
88111110 66110111 75111011 60111101 68110012 75111002 83110102 58110003 00276276276828由表15可知88个数据完整,其中C5、C6、C7存在828个缺失数据。
对其进行多重插补,结果见如页表16所示。
当缺失率为50%时,进行多重插补后对其生成的一组完整的数据集进行分析。
由结果得知各变量回归系数都
统计与决策2020年第18期•总第558期13
表16缺失率为50%的多重插补结杲对比分析
回归系数标准差f值自由度P值截距0.1648290.13469820.989231&9458450.23917854
C50.2984180.1066528 2.895683 4.9136130.00964138 C60.2049510.0891173 2.564912 6.1528190.02999157 C80.1928580.0762814 4.0641869.0632870.00298446 C150.1648230.0592518 3.81761329.1583670.00069181 lo95加95数目缺失比率方差贡献率截距-0.0921810.3951151NA0.6918470.5918117 C50.10151960.49281562760.9018160.8432191 C60.01958270.40691872760.8193840.8131297 C80.10854940.346262800.7264490.6619183 C150.09518150.237951300.3795460.2916171
较显著,即经过多重插补后的插补效果与预测插补效果大
致相同。
但是随着缺失率提高,样本缺失数据扩大,会导
致多重插补的效果变差,随机性也加强,从而导致插补结
果出现不确定性,所以得出缺失率越低其插补效果越好。
随着缺失率的增加,当缺失率为50%时,样本中有效的数据太少,致使插补过程中随机性增强,插补效果的不确定性也越发凸显。
4结论
本文将逻辑回归模型与多重插补结合,得出其插补效果,即在缺失率为10%时,多重插补效果较好,此时所做调查问卷经过有效插补仍然可以用来分析顾客对商品的喜爱程度;在缺失率增大至50%时,插补效果变差。
这表明随着缺失率的提高,市场调査可获得的有效数据减少,最终得到的插补效果也不好。
又因为多重插补过程中存在随机性,随着缺失率的上升,其插补的结果越来越不尽人意。
为了使插补结果能够尽可能地符合实际情况,还可以在数据的起源、变换及影响因素等各个方面下功夫,最大限度地了解其样本特征,从而进行有效插补。
参考文献:
[1]Little J A,Rubin D B.Statistical Analysis With Missing Data[M].New
York:John Wiley&Sons Inc,2002.
[2]Rubin D B.Multiple Imputation for Nonresponse in Surveys[M].New
York:John Wiley&Sons Inc,1987.
[3]金勇进,邵军.缺失数据的统计处理[M]•北京:中国统计出版社,
2009.
[4]庞新生•缺失数据多重插补处理方法的算法实现[J].统计与决策,
2012,⑹.
[5]张晓琴,王敏.基于主成分分析的成分数据缺失值插补法[J].应用概
率统计,2016,32(1).
[6]朱高培,朱乐乐,孟马承,等.基于Monte Carlo模拟的四种完全随机
双变量缺失数据处理方法的比较[J].中国卫生统计,2018,35(5). [7]潘传快,祁春节,李思璇.正态线形模型下缺失值的Bootstrap多重插
补与比较[J].统计与决策,2017,(10).
[8]花琳琳,施念,杨永利,等.不同缺失值处理方法对随机缺失数据处
理效果的比较[J].郑州大学学报(医学版),2012,47(3).
(责任编辑/浩天)
Comparative Research on Interpolation Method of Missing Data
Song Liang,Wan Jianzhou
(School of Mathematics and Statistics,Nanyang Institute of Technology,Nanyang Henan473000,China)
Abstract:Through the analysis of the missing data of sample data,this paper chooses scientific and effective interpolation method to study the problem of missing data under the random missing mode,and then uses the customer's preference for the products in the market as a survey target to construct a model for conducting empirical analysis.Finally,on the basis of combining with multiple interpolation method,the paper makes a study on the interpolation effect under different missing rate.The results show that,with the increase of the missing rate,the availability of data from the survey decreases,and the effectiveness of the interpolation method is also reduced accordingly.Among the four interpolation methods,the interpolation effect of EM interpolation and multiple interpolation is better than the other two,and at the same time,the interpolation effect of the combination of the model and multiple interpolation is also good.Therefore,it is necessary to select the proper interpolation method to interpolate the data according to different missing rates,
Key words:sample survey;missing value;interpolation;logistic regression analysis
14统计与决策2020年第18期•总第558期。