大数据处理技术的发展现状及比较分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据处理技术的发展现状及比较分析

摘要:随着科技发展的日新月异,大数据技术也日趋成熟。大数据处理技术作

为大数据技术的重要组成部分,本文比较了Hadoop、Storm、Spark等几种主要

的大数据处理技术的发展历程,并对其优劣情况和应用前景进行了比较,并对其

未来应用价值进行了展望。

关键词:大数据;关键技术;比较研究

进入新世纪以来,以信息技术为特征的新一轮科技革命极大地改变了人类传

统的生活方式,并极大地影响了人类社会的方方面面。以大数据技术为代表的新

一代信息技术广泛应用于商业、金融、医疗和社会服务等多个领域,并对传统数

据的采集、分析、存储和应用等方面提出了更高的要求。目前大数据的定义尚无

定论,Gartner、Mckinsey、IDC等研究机构都试图从不同的角度对于大数据进行

科学定义,中国的大数据技术发展起步更晚,2012年5月“香山科学会议”才第一

次正式开创了国内对于大数据研究的“先河”。

时至今日,大数据技术作为一个综合性电子信息技术的统称,内容十分丰富,内涵十分广泛,所包含的技术种类不胜枚举。但是即使大数据技术种类繁多,门

类复杂,但是几乎每一项大数据技术都离不开数据处理,目前国际国内主流的数

据处理技术比较有限,不同的技术种类存在着某些差异性,值得梳理并分类总结。

一、大数据处理技术发展现状

大数据处理技术作为大数据技术的核心技术之一,历经了多个历史阶段。大

数据处理技术总体上可以分为:大数据收集整理技术、大数据管理贮存技术、大

数据挖掘技术、大数据分析和可视化技术等。上述技术都依靠相对成熟的处理技

术实现,大数据处理需要通过多途径、多部门联络配合实现。

云计算处理技术。2006年8月,Google在国际搜索引擎大会上首次提出了“云计算”的概念,该技术主要是通过借助互联网,将网络中多个不同的存储节点

联合起来形成一个有效的协同的技术体系,从而实现仅访问单个节点就形成网络

处理的效果。

分布式数据库系统。为了克服传统数据处理技术的不足,Google公司、Amazon公司和Yahoo公司都纷纷推出了属于自己的分布式数据库系统,比较著

名的主要有:Bigtable系统、Dynamo系统、PNUTS系统等,上述系统均在自身业

务范围内得到了广泛的应用。

非关系数据库系统。进入21世纪之后,菲关系型数据库系统得到了更加广泛的应用,该系统具有更加快捷的处理能力、更加灵活的技术应用和更加丰富的处

理路径。比较著名的非关系数据库系统主要包括Redis、Hbase、MongoDB等,上

述技术进一步拓展了大数据技术的应用场景,具有更加广阔的应用前景。

二、不同大数据处理技术的比较

从目前主流的集中大数据处理技术来看,各自具有不同的优缺点,其应用范

围也存在不小的差异,需要对其进行充分整合才能得出比较满意的处理效果。

Hadoop技术比较适合于大规模的数据体系,Hadoop技术本身具有较强的批

处理能力,现有的许多大数据处理系统都是基于该技术展开的,并且Hadoop技

术是基于Java的技术语言编写的,其核心技术是MAP和HDFS技术,具有比存储海量数据的能力,该技术主要是通过首先对新采集的数据执行Spliting操作开展

数据初步处理,随后通过Map分区处理,然后通过Key-Value对数据集合进行综

合输出,并对结果进行综合归集实现对大数据的处理。虽然Hadoop技术可以实

现大规模数据的批量化处理,但是其处理的时效性较差,无法在短期内实现对超

大规模数据的集中处理,因此影响了其应用前景。

Storm技术相对于Hadoop技术,具有更强的时效性,能实现对数据的实时处理,并且具有较高的容错机制。与后者具有很大不同的特点在于,Hadoop技术

采取同时向多个数据节点发送批量处理指令,这种分散式节点发送与反馈技术无

法在短期内处理大量数据。而Storm技术是通过拓扑结构来实现对数据流的转换,这种方式比较适合于数据集群结构的综合处理与运用。Storm技术具有较好的批

量并行处理能力,但其在处理稳定性和灵活度方面存在不足,从而限定了其应用

范围。

Spark技术是由美国加州大学伯克利分校研发成功,并于2010年正式推向市场,该技术通过直接面向用户的内存式计算框架,该框架由Scala语言写成,利

用RDD技术所形成的一系列API组成,随着Spark技术的发展与成熟,后期由研

发出Spark Streaming技术,该技术将数据流转化为超低量的毫秒级数据集的批量

计算,从而实现了有效的智能化交互式自动数据收集。Spark技术虽然在数据处

理方面体现出了由于以往技术的显著特点,但是对于系统软硬件基础条件的要求

比较苛刻,其应用前景仍有待观察。

三、改进大数据处理技术的对策建议

毋庸置疑,大数据处理技术对于人类社会发展的影响是相当巨大的,但是社

会经济的发展对于大数据处理技术本身提出了更高的要求,突出体现在对于数据

时效性和完整性的控制方面,现有大数据处理技术在处理单元,存储结构等方面

都存在着需要改进的方面。其次,目前制度法规在监管大数据处理技术时还存在

着适用法律不足,存在法制盲区,需要进一步丰富法律规范,实现对大数据处理

技术的有效监管。此外,随着人们经济活动类别的复杂性提升,对于数据处理的

保密性要求也越来越高,大数据处理技术需要更新以适应人们对于隐私保护的特

殊要求。另一方面,大数据处理技术存在着一定的排他性技术壁垒,因此需要加

大新技术的研发,不断拓展大数据处理技术的应用场景,从而更好地适应形势的

需要。最后,大数据时代的数据安全性,也在很大程度上决定了大数据处理技术

的应用前景,大数据在存储、传输和分析环节会涉及到多个技术节点,每一个技

术节点都将面临来自于外界数据风险的技术挑战,因此需要多部门协同确保大数

据处理技术的安全,从而实现整个大数据处理环节的数据绝对安全。

参考文献:

[1]陈明奇,姜禾,张娟.大数据时代的美国信息网络安全新战略分析[C].第27次全国

计算机安全学术文流论文集.2012,32-35.

[2]刘军.Hadoop大数据处理[M].人民邮电出版社,2013,45-60.

[3]陈为,沛则潜,陶煜波,大数据丛书:数据可视化[M].电子工业出版社,2013,29-37.

[4]玛登国,张敏,李昊,大数据安全与隐私保护[J].计算机学报,2014,246-257.

[5]Thomas.H.Davenport.Paul.Barth.Randy.Bean.How Big Data is Different[J].MIT Sloan Management Review,2012,54.

[6]Philip.Russom. Big Data Analytics[M]. TDWI Best Practices Report USATDWI.2011.

相关文档
最新文档