大数据时代亟需强化数据清洗环节的规范和标准

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

日期:2015-10-10 文章来源:国研网文章录入:李金金[ 关闭 ]

海量数据的不断剧增形成大数据时代的显著特征。而大数据的生产和交易的重要前提之一是数据的清洗。目前,我国已经形成了基本的数据清洗产业格局,但因各自利益的追求,导致仍存在不少问题。因此,我国未来应重点强化数据清洗环节的规范和标准,推动大数据产业的健康发展。

海量数据不断剧增是未来的发展趋势

在席卷全球的信息化浪潮中,互联网、移动互联网、云计算、物联网等技术迅猛发展、加速创新,其中积淀的数据爆炸式增长,成为重要的生产要素和社会财富,堪称信息时代的矿产和石油。据预测,中国2015年可能突破10EB数据保有量,且每两年会翻一番。

针对这种史无前例的数据洪流,如何挖掘信息时代的“数字石油”,将大数据转换为大智慧、大市场和大生态,是我们这个时代的历史机遇。2015年6月24日,国务院常务会议通过的《互联网+”行动指南意见》明确提出,要加强新一代信息基础设施建设和云计算、大数据的应用。此外,根据中国信息通信研究院(原工信部电信研究院)6月21日发布的《中国大数据发展调查报告》,2014年我国大数据市场规模达到84亿元人民币,预计2015年将达到115.9亿元人民币,增速为38%。

大数据交易显现出对数据清洗的迫切需求

大数据已经渗透到各个行业和业务职能领域,成为重要的生产因素。数据的来源主要有政府数据、行业数据、企业数据和从数据交易所交换的数据。

在数据交易方面,2014年2月20日,国内首个面向数据交易的产业组织——中关村大数据交易产业联盟成立。同时成立的中关村数海大数据交易平台是国内首个重点面向大数据的数据交易服务平台,目前有1203家数据提供商。

2015年4月14日,全国首家以大数据命名的交易所,即贵阳大数据交易所正式挂牌成立,并在当日成功完成了首笔数据交易。值得注意的是,贵阳大数据交易所交易的并不是底层数据,而是基于底层数据,通过数据的清洗、分析、建

模、可视化出来的结果。而采取这一过程的目的,就是为了解决数据交易和使用过程中保护隐私及数据所有权的问题。

以传统方式构建的基本架构对数据进行清洗

大数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。然而,由于网民数量的增加、业务应用的多样化和社交网络的繁荣,单个文件(比如日志文件、音视频文件等)变得越来越大,硬盘的读取速度和文件的存储成本越来越显得捉襟见肘。与此同时,政府、银行和保险公司等内部存在海量的非结构化、不规则的数据;而只有将这些数据采集并清洗为结构化、规则的数据,才能提高公司决策支撑能力和政府决策服务水平,使之发挥应有的作用。

因此,目前的数据清洗主要是将数据划分为结构化数据和非结构化数据,分别采用传统的数据提取、转换、加载(ETL)工具和分布式并行处理来实现。其总体架构如图1所示。

图1 大数据清洗总体架构

具体来讲,结构化数据可以存储在传统的关系型数据库中。关系型数据库在处理事务、及时响应、保证数据的一致性方面有天然的优势。

非结构化数据可以存储在新型的分布式存储中,比如Hadoop的HDFS。分布式存储在系统的横向扩展性、降低存储成本、提高文件读取速度方面有着独特的优势。

此外,就是结构化数据和非结构化数据之间的数据迁移。如果要将传统结构化数据,例如关系型数据库中的数据导入到分布式存储中,可以利用sqoop等工具,先将关系型数据库(mysql、postgresql等)的表结构导入分布式数据库(Hive),然后再向分布式数据库的表中导入结构化数据。

对不同质量的原数据进行分类以适应清洗工作

数据清洗在汇聚多个维度、多个来源、多种结构的数据之后,就可以对数据进行抽取、转换和集成加载。在这个过程中,除了更正、修复系统中的一些错误数据之外,更多的是对数据进行归并整理,并储存到新的存储介质中。其中,分清和掌握数据的质量至关重要。

常见的数据质量问题可以根据数据源的多少和所属层次(定义Scheme层和实例sample层)分为四类。

第一类,单数据源定义层:违背字段约束条件(比如日期出现1月0日)、字段属性依赖冲突(比如两条记录描述同一个人的某一个属性,但数值不一致)、违反唯一性(同一个主键ID出现了多次)。

第二类,单数据源实例层:单个属性值含有过多信息、拼写错误、空白值、噪音数据、数据重复、过时数据等。

第三类,多数据源的定义层:同一个实体的不同称呼(比如冰心和谢婉莹,用笔名还是用真名)、同一种属性的不同定义(比如字段长度定义不一致、字段类型不一致等)。

第四类,多数据源的实例层:数据的维度、粒度不一致(比如有的按GB记录存储量,有的按TB记录存储量;有的按照年度统计,有的按照月份统计)、数据重复、拼写错误。

除此之外,还有在数据处理过程中产生的“二次数据”,其中也会有噪声、重复或错误的情况。数据的调整和清洗也会涉及到格式、测量单位和数据标准化与归一化的相关事情,以致对实验结果产生比较大的影响。通常这类问题可以归结为不确定性。不确定性有两方面内涵,包括各数据点自身存在的不确定性,以及数据点属性值的不确定性。前者可用概率描述,后者有多重描述方式,如描述属性值的概率密度函数,以方差为代表的统计值等。

对不同质量类型的数据采用不同的清洗方法

针对以上数据质量中普遍存在的空缺值、噪音值和不一致数据的情况,可以采用人工检测、统计学方法、聚类、分类、基于距离的方法、关联规则等方法来实现数据清洗。

以往的人工检测方法不但要花费大量的人力、物力和时间,也会在数据清洗过程中产生很多衍生错误。最近,可视化作为一种有效的展示手段和交互手段,可以用来提高数据错误识别和清理的效率,如图2所示。

图2 可视化方法直接影响数据质量的探究

图2中,a为社交网络图,无法显示任何数据异常;b为关联矩阵图,可以显示源数据的内部结构,但不利于寻找错误;c将源数据按照矩阵视图重排,比较容易发现矩阵右下角的数据缺失。

其他方法的优劣对比如表1所示。

表1 数据清洗方法的对比

根据缺陷数据类型分类,可以将数据清洗分为异常记录检测和重复记录检测两个核心问题。

异常记录检测。包括解决空值、错误值和不一致数据的方法。

相关文档
最新文档