数学建模中缺失数据
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数学建模中的缺失数据
摘要:高职院校参加全国大学生数学建模的学校越来越多,学生也在不断的增加,为了能够让学习数学建模的学生能更全面的把握处理缺失数据的方式方法,有必要对缺失数据的产生、检测及处理做一个梳理。而本文是基于spss软件对缺失数据的检测和处理进行介绍。
关键词:缺失数据缺失值异常值检测处理
中图分类号:g64 文献标识码:a 文章编号:1673-9795(2013)04(a)-0065-02
在大学生数学建模和实际生活中,大量的信息都直接或者间接的和数据建立密切的联系,我们要从这些数据中寻找所关心的问题答案,往往我们是通过建立适当的数据模型来完成的。而对数据预处理中缺失数据的处理是我们建立适当数据模型必不可少的前提条件,如果不考虑缺失数据,将严重影响结果的稳定性。
对数据中有明显或明显不合理的数据以及漏填的数据都可看做
缺失数据。对缺失数据进行处理时,必须了解缺失数据出现出现的原因,这是决定所选择的缺失数据处理方法是否合适的一个关键因素,此外还有变量的分布和范围也是决定所选的缺失数据处理方法是否合适的另一个关键因素。当数据缺失的原因已知时,在数据分析的过程中加以正确考虑,产生的分析结果才不会产生较大的偏倚。当然,如果缺失数据的产生的原因不明确时,那么我们就只能在对数据作合理猜测基础上对数据进行分析。
对于缺失数据的类型上来说可以为两类:一类是缺失值;另一类是异常值。
1 缺失值
1.1 缺失值出现的主要原因
缺失值产生的原因多种多样,主要有设备和人为两类因素,比如数据存储的失败,存储器损坏,或者由于计算机故障导致某时间段数据未能收集,也有在收集数据过程中没有采集到相关的数据和数据录入人员漏录了数据等等。
1.2 缺失值检测
在spss中,默认缺失值通常以黑点表示,只需要对数据进行升序(或降序)排列,通过快速浏览数据列表便可以发现以黑点表示的缺失值集中在一起,记录下缺失值所在的变量即数据的列,便于后面的处理;也可以通过分析窗口中的描述统计功能,统计出每个变量有无缺失值以及有效值和缺失值的个数。
1.3 缺失值的处理
(1)剔除缺失值的观测单位,即删除spss数据列表中缺失值所在的数据行。
如果数据缺失问题可以通过简单的删除小部分样本来达到目的,那么这种方法是有效的,在spss的统计分析程序中,打开options 按钮,便会出现缺失值的处理栏(missing values)。通常有三个选项:一是exclude cases listwise,即按列表排除个案,表示对所有的分析过程剔除分组变量和因变量中所有带有缺失值的观测
量数据;二是exclude cases pairwise,即按对排除个案,同时剔除带缺失值的观测量及与缺失值有成对关系的观测量。在当前分析过程中用到的变量数据中剔除带有缺失值的观测量数据,在其他分析过程中可能包含缺失值;三是replace with mean,即使用均值替换,将分组变量的缺失值单独分为一组,在输出频数表的同时输出缺失值。
(2)对缺失值进行估后计填补。
在数据分析中,面对大量的数据,因为一个属性值的缺失而放弃大量的其它属性值,这种删除是对信息的极大浪费,所以产生了对缺失值进行估计后填补的思想,主要有两种插补方法。
第一,在建模过程中,通过对问题的深入分析,查阅相关的文献报道凭借知识经验进行合理估计。
第二,是通过spss提供的替换缺失值选项进行估计,对于定距型数据采用均值,对于非定距型采用众数来补齐缺失值,通常有如下五种替代方法:一是series mean,即以列的算术平均值进行替代;二是mean of nearly point,即以缺失值邻近点的算术平均值进行替代;三是median of nearly point,即以缺失值临近点的中位数替代;四是linear interpolation即根据缺失值前后的两个观察值进行线性内插法估计和替代;五是linear trend atpoint,即用线形回归法进行估计和替代。
(3)缺失值分析过程中填补。
在spss的分析工具栏下有针对缺失值的分析窗口,该窗口主要
用于对缺失值的估计,主要方法有四种:
第一,是listwise,即按列表状态删除,缺失值较少,样本够大,把缺失的样本完全去除,如果任何一个变量含有缺失数据,把相应的个案,从分析中剔除,对缺失值占的比例小,十分有效,到底多少,比例合适?有局限性,以减少样本样本量来换取信息的完备,会造成资源的大量浪费,严重影响到数据的客观性和结果的正确性。
第二,是pairwise,即配对状态,其中一条记录中有一变量缺失,将在统计时删除该条信息,但在进行其它统计量时不受影响。
第三,是em,即期望最大化,可用于缺失较多,有效样本足够保证其服从正态分布,该估计方法是通过观测数据的边际分布对未知参数进行极大似然估计,该方法比删除个案和均值插补更具有吸引力,但缺点是只适用于大样本。
第四,是regression,即回归,没有足够的样本的话,缺失值较少,缺失因素比较明确,选中的连续性变量为自变量,缺失的变量为因变量,考虑残差,回归替换法首先需要选择若干个预测缺失值的自变量,然后建立回归方程估计缺失值。即用缺失数据的条件期望对缺失值进行替换,与之前的几种方法相比,该方法利用了数据库中尽量多的信息,其弊端为一是容易忽视随机误差,在缺失信息增多会变得更加严重;二是必须假设缺失值所在的变量与其他变量存在线性关系,但实际上这种关系并不一定存在。
2 异常值
2.1 异常值出现的原因
异常值是指各变量中与整体数据相距太远的极值,由于它的夸大作用,常常会歪曲统计结果,导致分析结果犯错误,而这类数据的出现主要来源于在数据输入的过程中输入不正确,或在不同的数据格式之间进行转换时,错误的将代号当成了实际观测值,以及在数据采集过程中,由于被采集者对问题的误解等因素,而得到不在该属性值范围内的数据。
2.2 异常值的检测
在spss中,我们可以对数据进行升序(或降序)排列,通过快速浏览,发现那些明显大于或者小于该属性值的数据,也可以用散点图、箱图(凡是与四分位数值的距离超过1.5倍四分位数间距的都会被定义为异常值,在输出的图形中会用记号标示)、q-q图(当数据符合指定分布时,q-q图中各点近似呈一条直线等检测有无极端值)等进行异常值的检测。
2.3 减少异常值方法
数学建模中不可能将数据逐一进行核查,因此我们可在合理分析的情况下,查阅相关文献,根据经验估计是减少异常值的一种途径,同时也可以借助于软件解决,尽量减少异常值对模型的影响,通过上面的检查方法检测出来的异常值在spss中通常有如下四种处理方式:
第一,是将异常值在变量视图中进行定义,可以定义三个离散型的数值作为缺失值,也可以定义一个连续性的范围再加上一个离散