大数据综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据研究综述
151094 夏塑杰
摘要:我们正在经历着一个数据爆炸的时代。海量数据的涌现切实地影响着我们的工作、生活,也为国家经济、社会发展带来了机遇。本文阐述了大数据的定义,介绍了其应用领域;归纳出了大数据的一般处理框架,针对云计算、GFS、MapReduce、BigTable等核心技术进行详述;最后总结了大数据时代面临的挑战。
关键词:大数据;数据处理;云计算
Research overview of big data
Abstract: We are experiencing a data explosion era. The emergence of huge amounts of data is really affecting our work and life and also bringing opportunities for the national economic and social development. This paper first expounded the definition of big data and introduces its application field. Secondly this paper Summed up the general framework of the big data processing and gave a detailed introduction of the key technology of the big data such as cloud computing、GFS、MapReduce、BigTable. Finally, the challenges in the big data era were pointed out. Key Words: big data; data processing; cloud computing
引言:
近20年来,随着科学和技术的迅猛发展,各个领域都出现了大规模的数据增长,包括光学观测、健康医护、科学传感器、互联网和金融公司以及供应链系统等。国际数据公司(IDC)报告称[1],2011年全球被创建和复制的数据总量为1.8ZB(1ZB≈1021B),在短短5年间增长了近9倍,而且预计这一数字将每两年至少翻一番。同时非结构化的数据所占的比重越来越大,尤其在互联网应用中,非结构化数据大幅增长,截止 2012 非结构化数据占互联网整个数据量的75%以上[2]。2012年3月29日,美国政府发布了“大数据
研究发展倡议”[3],正式启动“大数据发
展计划”,拟投资2亿美元在大数据的研究上,以培养更多的大数据研发与应用人才。2013年,中国科技部正式启动863项目“面
向大数据的先进存储结构及关键技术”,启动5个大数据课题。这说明了我们正处于一
个信息爆炸的时代,大数据的发展已经受到了世界范围内的广泛关注,发展趋势不可阻挡。1.大数据的定义和应用领域
大数据本身是一个抽象的概念,关于大数据目前并没有一个很明确的定义。一般意义上[4],大数据是指无法在有限时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。不同的研究人士,由于各自关注的点不同,对大数据有不同的定义。但是大家都普遍认为,大数据有4“V”特征。即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低)[5-10]。
维基百科中给出的定义为:所涉及的资料规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。
麦肯锡公司的定义为[3]:大数据是指无法在一定时间内用传统数据库软件工具对
其内容进行采集、存储、管理和分析的数据集合。
IDC公司在其2011年发布的报告中[11],将大数据定义为:大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或
分析,提取各种各样的大量数据的经济价值。
其实大数据的关键并不在于如何去定义,而是如何去利用大数据,从中获取价值。
大数据应用,是利用大数据分析的结果,为用户提供辅助决策,发掘潜在价值的过程。大数据的应用有着结构化数据分析、文本分析、网站分析、多媒体分析、网络分析和移动分析构成的6个关键分析领域[4]。在具体领域,大数据在企业内部、物联网、在线社交网络、医疗健康、制造业等领域有着广泛的应用。
2.大数据的处理框架
2.1大数据的处理流程
目前,中国人民大学网络与移动数据管
理实验室(WMDAM)[12]开发了一个学术空
间“ScholarSpace”,从计算机领域收集的相关文献可以总结出大数据处理的一般流
程[13]。在此基础上,刘智慧[14]和孟小峰[15]都总结了大数据的一般处理流程,基本可以分为:数据提取与集成、数据分析和数据解释三个阶段。
2.1.1 数据提取与集成
多样性是大数据的一个重要的特点,这
就决定了经过各种渠道获取的数据种类和
结构都十分复杂,这给之后的数据分析带来了很大的困难。通过数据的提取与集成这一步骤,首先将这些结构种类复杂的数据转换为单一的或者是便于处理的结构[14]。这些多样性的数据中并不是所有信息都是必须的,因此在数据提取与集成中要对数据进行清洗和“去噪”。
数据的提取与集成方法是处于不断的发
展之中的,从数据集成模型来看,现有的数据抽取与集成方式可以大致分为以下4种类
型[16]:基于物化或ETL方法的引擎、基
于联邦数据库或中间件方法的引擎、基于数据流方法的引擎及基于搜索引擎的方法。
2.1.2 数据分析
数据分析是大数据处理流程中最核心的
部分,是大数据应用的基础。它的目的在于提取有用的数据的值,提供相关的建议,通过对不同领域数据集的分析可能会产生不同级别的潜在价值[17]。
经过数据提取和集成以后得到的数据为
原始数据,根据不同的应用需求对这些数据进行分析。传统的数据分析方法有数据挖掘、智能算法、统计分析、机器学习等。但是随着大数据时代的到来,这些传统的方法面临着许多挑战,比如大数据时代的算法需要调整;得到的数据结果好坏的衡量等。在数据分析的技术方面,Google公司无疑是走在前沿的,Google于2006年率先提出了“云计算”的概念,其开发了一系列的云计算技术[18],其内部各种数据应用都是依托于此。这些技术包括:分布式文件系统GFS[19]、分布式
数据库BigTable[20]、批处理技术MapReduce[21]等。这些技术平台的产生,
提供了对大数据进行处理、分析很好的手段。
2.1.3 数据解释
虽然数据分析是大数据处理的核心,但
是用户们最关心的还是大数据结果的解释
与展示。比较传统的数据处理方法有以文本形势输出结果和电脑显示输出结果,但是随着大数据时代的到来,数据分析结果往往是海量的,而且之间的关系极其复杂。传统的数据解释方法显得力不从心,孟小峰[15]提出可以从下面两个方面提升数据解释能力:1)可视化技术。通过对分析结果的可视化用形象的方式向用户展示结果,而且图形化的方式比文字更易理解和接受。常见的可视化技术有:历史流、标签云等。
2)让用户一定程度上参与具体的分析过程。可以采用人机交互技术,利用交互式数据分析过程引导用户逐步地进行分析,使得用户在得到结果的同时更好地理解分析结
果的由来。
2.2 大数据处理模式
大数据的应用类型有很多,主要的处理
模式可以分为对静态数据的批量处理和对
流式数据的处理[22-23]。
2.2.1 批处理
大数据的批处理适用于数据的先储存后
计算,实时性要求不高但对数据的准确性和全面性要求高的场景。批量数据通常具有三个特征[24]:第一,数据量巨大,从TB级别跃升到PB级别,数据已静态形势储存,很少