大数据处理技术的发展现状及比较分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据处理技术的发展现状及比较分析
摘要:随着科技发展的日新月异,大数据技术也日趋成熟。大数据处理技术作
为大数据技术的重要组成部分,本文比较了Hadoop、Storm、Spark等几种主要
的大数据处理技术的发展历程,并对其优劣情况和应用前景进行了比较,并对其
未来应用价值进行了展望。
关键词:大数据;关键技术;比较研究
进入新世纪以来,以信息技术为特征的新一轮科技革命极大地改变了人类传
统的生活方式,并极大地影响了人类社会的方方面面。以大数据技术为代表的新
一代信息技术广泛应用于商业、金融、医疗和社会服务等多个领域,并对传统数
据的采集、分析、存储和应用等方面提出了更高的要求。目前大数据的定义尚无
定论,Gartner、Mckinsey、IDC等研究机构都试图从不同的角度对于大数据进行
科学定义,中国的大数据技术发展起步更晚,2012年5月“香山科学会议”才第一
次正式开创了国内对于大数据研究的“先河”。
时至今日,大数据技术作为一个综合性电子信息技术的统称,内容十分丰富,内涵十分广泛,所包含的技术种类不胜枚举。但是即使大数据技术种类繁多,门
类复杂,但是几乎每一项大数据技术都离不开数据处理,目前国际国内主流的数
据处理技术比较有限,不同的技术种类存在着某些差异性,值得梳理并分类总结。
一、大数据处理技术发展现状
大数据处理技术作为大数据技术的核心技术之一,历经了多个历史阶段。大
数据处理技术总体上可以分为:大数据收集整理技术、大数据管理贮存技术、大
数据挖掘技术、大数据分析和可视化技术等。上述技术都依靠相对成熟的处理技
术实现,大数据处理需要通过多途径、多部门联络配合实现。
云计算处理技术。2006年8月,Google在国际搜索引擎大会上首次提出了“云计算”的概念,该技术主要是通过借助互联网,将网络中多个不同的存储节点
联合起来形成一个有效的协同的技术体系,从而实现仅访问单个节点就形成网络
处理的效果。
分布式数据库系统。为了克服传统数据处理技术的不足,Google公司、Amazon公司和Yahoo公司都纷纷推出了属于自己的分布式数据库系统,比较著
名的主要有:Bigtable系统、Dynamo系统、PNUTS系统等,上述系统均在自身业
务范围内得到了广泛的应用。
非关系数据库系统。进入21世纪之后,菲关系型数据库系统得到了更加广泛的应用,该系统具有更加快捷的处理能力、更加灵活的技术应用和更加丰富的处
理路径。比较著名的非关系数据库系统主要包括Redis、Hbase、MongoDB等,上
述技术进一步拓展了大数据技术的应用场景,具有更加广阔的应用前景。
二、不同大数据处理技术的比较
从目前主流的集中大数据处理技术来看,各自具有不同的优缺点,其应用范
围也存在不小的差异,需要对其进行充分整合才能得出比较满意的处理效果。
Hadoop技术比较适合于大规模的数据体系,Hadoop技术本身具有较强的批
处理能力,现有的许多大数据处理系统都是基于该技术展开的,并且Hadoop技
术是基于Java的技术语言编写的,其核心技术是MAP和HDFS技术,具有比存储海量数据的能力,该技术主要是通过首先对新采集的数据执行Spliting操作开展
数据初步处理,随后通过Map分区处理,然后通过Key-Value对数据集合进行综
合输出,并对结果进行综合归集实现对大数据的处理。虽然Hadoop技术可以实
现大规模数据的批量化处理,但是其处理的时效性较差,无法在短期内实现对超
大规模数据的集中处理,因此影响了其应用前景。
Storm技术相对于Hadoop技术,具有更强的时效性,能实现对数据的实时处理,并且具有较高的容错机制。与后者具有很大不同的特点在于,Hadoop技术
采取同时向多个数据节点发送批量处理指令,这种分散式节点发送与反馈技术无
法在短期内处理大量数据。而Storm技术是通过拓扑结构来实现对数据流的转换,这种方式比较适合于数据集群结构的综合处理与运用。Storm技术具有较好的批
量并行处理能力,但其在处理稳定性和灵活度方面存在不足,从而限定了其应用
范围。
Spark技术是由美国加州大学伯克利分校研发成功,并于2010年正式推向市场,该技术通过直接面向用户的内存式计算框架,该框架由Scala语言写成,利
用RDD技术所形成的一系列API组成,随着Spark技术的发展与成熟,后期由研
发出Spark Streaming技术,该技术将数据流转化为超低量的毫秒级数据集的批量
计算,从而实现了有效的智能化交互式自动数据收集。Spark技术虽然在数据处
理方面体现出了由于以往技术的显著特点,但是对于系统软硬件基础条件的要求
比较苛刻,其应用前景仍有待观察。
三、改进大数据处理技术的对策建议
毋庸置疑,大数据处理技术对于人类社会发展的影响是相当巨大的,但是社
会经济的发展对于大数据处理技术本身提出了更高的要求,突出体现在对于数据
时效性和完整性的控制方面,现有大数据处理技术在处理单元,存储结构等方面
都存在着需要改进的方面。其次,目前制度法规在监管大数据处理技术时还存在
着适用法律不足,存在法制盲区,需要进一步丰富法律规范,实现对大数据处理
技术的有效监管。此外,随着人们经济活动类别的复杂性提升,对于数据处理的
保密性要求也越来越高,大数据处理技术需要更新以适应人们对于隐私保护的特
殊要求。另一方面,大数据处理技术存在着一定的排他性技术壁垒,因此需要加
大新技术的研发,不断拓展大数据处理技术的应用场景,从而更好地适应形势的
需要。最后,大数据时代的数据安全性,也在很大程度上决定了大数据处理技术
的应用前景,大数据在存储、传输和分析环节会涉及到多个技术节点,每一个技
术节点都将面临来自于外界数据风险的技术挑战,因此需要多部门协同确保大数
据处理技术的安全,从而实现整个大数据处理环节的数据绝对安全。
参考文献:
[1]陈明奇,姜禾,张娟.大数据时代的美国信息网络安全新战略分析[C].第27次全国
计算机安全学术文流论文集.2012,32-35.
[2]刘军.Hadoop大数据处理[M].人民邮电出版社,2013,45-60.
[3]陈为,沛则潜,陶煜波,大数据丛书:数据可视化[M].电子工业出版社,2013,29-37.
[4]玛登国,张敏,李昊,大数据安全与隐私保护[J].计算机学报,2014,246-257.
[5]Thomas.H.Davenport.Paul.Barth.Randy.Bean.How Big Data is Different[J].MIT Sloan Management Review,2012,54.
[6]Philip.Russom. Big Data Analytics[M]. TDWI Best Practices Report USATDWI.2011.