常见数据预处理技术分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2019年1月

较大的发展空间。但是由于计算较复杂,所以在未来神经网络要投入更大精力去发展。一旦神经网络拥有较成熟的技术。我相信,我们一定会大大减少股市风险,提高投资收益。

参考文献

[1]胡照跃.人工神经网络在股票预测中的应用[D].中北大学,2016.

[2]王莎.BP神经网络在股票预测中的应用研究[D].中南大学,2008.

[3]孟慧慧,叶德谦,刘娜.基于神经网络的股票预测系统研究[J].微计算机信息,2007(03):240~241+305.

[4]姚培福,许大丹.BP神经网络在股票预测中的应用研究[J].广东自动

化与信息工程,2006(01):7~9.

[5]张健,陈勇,夏罡,何永保.人工神经网络之股票预测[J].计算机工程,1997(02):52~55.

收稿日期:2018-12-16

常见数据预处理技术分析

周泉锡(中国农业大学,北京100083)

【摘要】大数据时代对于数据的精度和有效性要求更为苛刻,因此数据的预处理过程必不可少,只有科学规范的预处理过程,才能使数据分析深层挖掘的结论更为合理可靠。本文对几种常见数据的预处理方法进行着重分析,阐明对其预处理的基本方法与必要性,从而为数据的深层次挖掘提供更科学可行的数据信息。

【关键词】大数据;预处理技术;重复数据;噪声数据;不完整数据

【中图分类号】TP311.13【文献标识码】A【文章编号】1006-4222(2019)01-0017-02

1引言

随着信息科学的发展和网络技术的进步,伴随着“互联

网+”技术在各个领域的逐步渗透,当前已经迈入了大数据的

时代。大数据时代对数据的处理不单单是数量上要求提升,同

时也包括了对数据质量上要求的跨越式提升。大数据问题和

模型的处理本质上对数据质量要求的更为苛刻,这体现在其

要求数据的完整性、独立性、有效性。所谓数据完整性是指数

据包括所有需要采集的信息而不能含有缺省项;所谓数据独

立性是要求数据间彼此不互相重复和粘连,每个数据均有利

用价值;所谓数据有效性则是指数据真实,并且各个方向上不偏离总体水平,在拟合函数上不存在函数梯度的毛刺现象。针对上述情况的需求,数据的预处理工作尤为重要,一方面数据的预处理工作可以帮忙排查出现问题的数据,另一方面,在预处理过程中可以针对出现的“问题数据”进行数据优化,从而变成所需要的数据,从而提高对于大数据的数据质量。

2大数据技术

2.1大数据概念

大数据技术指的是以多元形式获得的数据,且这种多渠道搜集得到庞大的数据组,是无法通过简单的数据搜集和信息采集而得到,需要具有更强的决策力、洞察发现力、流程处理能力的新处理方式。大数据的信息资产往往是具有海量、多样化、高增长率的特点,意义在于提高系统庞大信息的加工能力,从而完成数据“增值”。涉及的主要技术载体为云计算为基础的数据挖掘技术,其中包括:分布式处理系统、分布式数据库、云存储和虚拟化技术。其数据的结构分为:结构化数据、半结构化数据和非结构化数据,目前非结构化数据在比例上攀升,并逐渐显示出主导作用。

2.2大数据处理过程

大数据处理技术的一般处理流程如图1所示。

大数据处理的过程有许多种定义模式,这里取通俗的一种即从数据本身出发,从数据来源获取数据→对数据进行大数据预处理→数据存储→数据处理→数据表达。大数据的处理技术离不开海量数据,从数据本身出发技术流程的关键在于首先从数据来源获得数据,其手段大致分为:专业数据机构获取、国家统计局获取、企业内部数据获取以及互联网获取。数据获取后便需要对获取的数据进行预处理工作,使剔除和用科学方法替代无用数据,从而使样本更具有合理性,从而得出的结论具有更高水平的置信度。在完成了数据的预处理过程后,便要对数据进行处理,这里的处理方式为云计算处理,采用分布式处理方式,在大型计算机组的配合下,完成高效率的存储。将存储数据进行处理,通过回归、拟合、插值等算法建立数学模型,从而对所求的方向进行科学合理的统计、分析、预测,进行深层次的数据挖掘,从而找到更深层意义的数据价值。将所得到的数据和对数据的挖掘进行数据表达,从而构建和完善整个大数据的体系。

从整个大数据的处理流程来看,数据预处理技术的水平决定了数据的真实性、完整性,对后续的数据分析起到十分关键的作用。

3大数据预处理技术

大数据的预处理过程比较复杂,主要过程包括:对数据的分类和预处理、数据清洗、数据的集成、数据归约、数据变换以及数据的离散化处理,如图2所示。数据的预处理过程主要是对不能采用或者采用后与实际可能产生较大偏差的数据进行替换和剔除。数据清洗则是对“脏数据”进行分类、回归等方法进行处理,使采用数据更为合理。数据的集成、归约和变换则是对数据进行更深层次的提取,从而使采用样本变为高特征性能的样本数据。而数据的离散化则是去除数据之间的函数

图1大数据处理

流程图

通信设计与应用17

2019年1月

图3问题数据分

图2大数据预处理过

联系,是拟合更有置信度,不受相关的函数关系的制约而产生的复合性,本文主要针对重复数据、噪声数据和不完整数据进行预处理技术分析,如图3所示。

3.1重复数据的预处理

重复数据即指多次出现的数据,对于整体样本所占权重比其他数据大,更容易产生结果的倾向性,因此对于重复数据常用的方式是剔除,或者按比例降低其权重,进行数据的重新布局形成概率分布。对于一般数量可控的重复数据,通常采用的方式为简单的比较算法剔除。

对于重复的可控数据而言,一般通过代码实现对信息匹配比较,进而确定剔除不需要的数据。在大数据云处理这样的模式背景下可以完成相关操作,但是对于存储空间和运行速度的考验非常大,因此这种有限可控数据的个人PC 端操作不在适用。应用比较成功的是一种混合删除机制(Hy-Dedup ),Hy-Dedup 的魅力在于它将在线删除和离线删除技术结合,并且先通过在线删除技术节约存储空间,然后通过离线删除技术将未能在线删除和删除不彻底的重复数据删掉。将重复数据剔除后的数据通过云存储或者本地存储的方式留下,从而保证数据的完整性,具体的操作如图4所示。

为了防止流数据的碎片化,通常会记录重复最大数据长度的次数用Vw 存储,记录顺序读取的长度值用Vr 存储。同时设立阈值Z=撞(RLd+(1-r )Lr )/N ,其中:Ld 和Lr 是重复序列的平均长度以及平均读取长度,Z 是读和写延迟的平衡点,也是我们需要得到的阈值信息,r 是所有请求之间的写比率,N 为估算间隔。Ld 和Lr 根据Vw 和Vr 得到的数据进行计算,从而得到准确结果,进而判断阈值信息如果删减率减少超过了50%,则将Ld 和Lr 置0,该方法准确而且大规模分块式地解决了重复数据在大数据模式下的剔除问题。

3.2噪声数据的预处理

噪声数据是指严重偏离其他数据的数据信息,其表现为离群点、毛刺或者竞争现象。解决这个问题的常用方法是回归和分箱,离群点分为三大类:全局离群点、集体离群点和情景离群点,全局离群点和集体离群点是往往特别需要关注的信息。

3.2.1离群点的检测方式

离群点的主要检测手段是基于统计的离群点检测、基于密度的离群点检测、基于距离的离群点检测和基于偏差的离群点检测。纵观整个离群点的检测方式来看,用代码识别容易的便是基于距离的离群点检测,这里可以通过简单的计算代码和云计算的方式结合得到大数据时代常用的离群点检测手段。

3.2.2离群点的回归处理

回归是指根据大多数数据拟合的近似函数来进行对数据偏离总体较严重的样本进行替换的方式,其最主要的方式是线性回归,当然二次回归等其他方式的回归在理论上也可以达到较高的准确度,因此回归也是一个处理问题噪声数据的重要手段。

3.3不完整数据的预处理

在大数据处理数据的背景中还存在着另外一种无法直接运用的数据,便是缺失数据,缺失数据即数据不完整,存在信息丢失,而无法完成相关的匹配和计算的数据,例如信息统计中的年龄和性别丢失的情况。缺失数据的处理主要有四种方式:均值补差、利用同类均值补差、极大似然估计、多重补差。

从简单意义上讲均值补差和利用同类均值补差是思维简单的处理方式,在实际应用中也比较广泛。极大似然估计是在概率上用最大可能的方式处理数据的缺失问题,由于存在局部极值而且收敛速度过慢,计算较为复杂。但多重补差的观念主要体现在对于每一个缺失值提供一个可能的替换值,确保其无关性,构成替换阈,在根据其自由组合,从而对每一个替换结果进行总体预测,对结论进行总体评判。这种思想的体现就是多重补差,来源于贝叶斯极大似然,却比该方法的预判性上产生更多的多元化操作。

4总结

本文详细论述了在大数据背景下的数据预处理方法,对其中的操作进行了解释。当然从个人观点看,在处理噪声数据的方法上,可以结合Naive Bayes 的概率算法和ADABOOST 的迭代手段,通过不断地进行权重的调节来规范数据,从而把噪声数据替换。

数据预处理是大数据处理的关键环节,通过文章对大数据处理技术及其预处理阶段的一些典型常见技术进行分析与总结,可以知道,目前大部分都是基于几类典型问题进行特定的数学处理。但实际上由于实际收集数据受外部环境影响大,造成数据随机性变化、数据质量很难保证,同时又由于各个行业对数据的要求不同,需要结合特定应用需要采取科学合理的数据预处理方法,才能为数据处理提供高质量的数据源,因此在应用过程中需要结合实际领域进行选取数学方法进行灵活应用。

参考文献

[1]林子雨.大数据技术基础[M].清华大学出版社,2013.

[2]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报:工学版,2014,48(6):957~972.

[3]孔钦,叶长青,孙赟.大数据下数据预处理方法研究[J].计算机技术与发展,2018(5).

收稿日期:2018-12-21

图4重复数据删除过

通信设计与应用

18

相关文档
最新文档