国外大数据研究热点及发展趋势探析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

国外大数据研究热点及发展趋势探析
黄永勤
【摘要】大数据时代的到来引起了业界和学界的广泛关注,大量研究成果不断涌现。

对Web of Science数据库中收录的国外研究大数据的相关文献进行分析和综述。

通过绘制关键词的知识图谱,梳理了国外大数据研究的5个热点:“大数据源起、概念和特点”、“生物信息学”、“云计算”、“MapReduce和Hadoop”、“可视化”,并揭示了它们的研究现状、现存问题和发展方向。

最后从大数据技术、大数据工程、大数据科学和大数据应用四个维度探讨了未来研究的整体发展趋势。

%With big data causing widespread attention in industry and academia, a large number of achievements have emerged. This pa-per analyzes research papers of big data overseas in the WoS Database. By drawing a knowledge map, the author finds five hot research is-sues, including the concept and features of big data, bioinformatics, cloud computing, MapReduce and Hadoop, visualization, and points out their research status, problems and development direction. Finally, the author discusses the future research trends from four dimensions including big data technologies, big data projects, big data science and big data applications.
【期刊名称】《情报杂志》
【年(卷),期】2014(000)006
【总页数】7页(P99-104,78)
【关键词】大数据;知识图谱;Web of Science;可视化
【作者】黄永勤
【作者单位】南京政治学院上海校区军事信息管理系上海 200433
【正文语种】中文
【中图分类】G250
0 引言
传感器数量的不断增加、智能手机的渐渐普及、数字化办公的迅速拓展等因素,使得计算机数据呈指数级增长。

IBM 公司研究结果称人类每天产生2.5EB(1 EB
=260 B)的数据量[1];Cisco 公司在 2012 年 5 月预测全球每年的IP 流量约1.3ZB(1 ZB =270B),并预测2015 至2016 年将增长到超过330EB。

数量剧增、数据类型多样化,传统关系型数据库已不能适应实践需求,数据存储和检索面临难题。

同时,数据中蕴含的丰富知识、相互联系等等没有得到充分发掘,数据收集、管理和分析已成为政府机构、企业组织面临的紧迫挑战。

在移动互联网、物联网、社交网络、云计算的催生下,大数据时代翩然而至,并引来业界和学术界的广泛关注,研究领域涉及计算机科学、信息科学、管理科学、心理学等。

经过近几年的发展,有关大数据的学术研究成果显著,杨绎[2]、韩芳芳[3]、王新才[4]等分别对国内大数据研究的现状进行了总结。

然而,目前国内仍没有对国外大数据研究热点系统梳理的成果,本文试图引入文献计量学研究方法,通过构建关键词的共词网络,并利用近年新兴的词频聚类和知识图谱可视化技术,以形象、科学的分析方法展示学科的结构、关系和演化规律,挖掘和展示国外大数据研究的热点,以期对该领域的研究有一个系统而全面的认识,为后续大数据研究方向的发展提供参考。

1 数据获取及分析
图1 关键词时序分布图
选择 Web of Science(包含 SCI 、SCIE 、SSCI 、A&HCI 和 CPCI)作为来源数据库,以“big data”为主题或标题进行检索。

经利用HistCite 软件对遗漏文献进行补全、剔重和清洗数据,最后获得论文496 篇(注:数据采集、处理时间
为:2013 年12 月1 日—7 日,纳入分析的论文指具有摘要、关键字等论文标准规范的文献)。

此外,为了准确分析“关键词”,作者进行了格式统一、合并去重等处理,如“data-mining”统一为“data mining”等。

最后获得673 个关键词,表1 列举了词频≥5 次的关键词,图 1 为 CiteSpace[5]绘制的关键词时序图。

表1 频次≥5 之高频关键词表02 cloud computing 26 0.14 performance 6 0.关键词词频中心度关键词词频中心度big data 65 0.29 model 7 0.09 bioinformatics 14 0.06 science 5 0.01 mapreduce 26 0.12 ontology 6 0.18 visualization 12 0.04 component 5 0.07 networks 11 0.02 social media 5 0.02 data mining 9 0.04 privacy 5 0.01 systems 9 0.06 information 5 0.05 hadoop 9 0.03 twitter 5 0.03 由表1 和图1 可知,一些早期的成果为大数据的出现奠定了基础,如2000-2005 年间的遗传算法、神经网络算法、数据库、数据仓库、数据挖掘、信息分类等热点主题;2005 年UGC(user generated content)模式的兴起,社交媒体的“泛滥”成为数据量激增的有力推手;2006年云计算的热浪席卷信息界,存储和处理海量数据成为可能;2008 年Nature 杂志推出了Big Data 专刊,大数据开始受到业界和学术界的广泛关注,但早期的探索停留在概念的讨论、技术的改进和应用以及未来的展望;随后,研究和应用范围开始逐步拓展,如自然科学(天文学等)、社会服务、商业应用、政治选举等;2010 -2012 年间,MapReduce 和Hadoop 一直是大数据研究领域的技术热点,如今更多的研究关注算法的改进、运算的优化和模型的构
建等;2012 -2013 年间,出现了一些新的研究方向,如语义网、可视化、学科教育、人才培养、知识集成、用户隐私保护、信息分析、顶层设计等。

可见,大数据这一概念尽管出现时间较短,但发展十分迅速,学科研究范畴不断扩展,体系越发完善;研究成果与应用实践深度融合,使得大数据应用科学化,同时应用实践也促进学术研究的深入化。

总体呈现出一种体系化、科学化和深入化的发展态势,下文将进一步探讨。

2 研究热点综述
借助Ucinet 和Pajek 的数据转换功能,应用VOS-viewer 绘制图2 所示热点主题知识图谱,颜色越深则表示热度越高。

利用CiteSpace 和HistCite 软件,探索大数据研究领域中的高共被引核心文献、高被引文献和最新文献,从而进一步梳理研究热点。

囿于篇幅,笔者重点对图2 中五个热点主题展开分析。

图2 大数据研究热点分布图
2.1 大数据的源起、概念和特点“大数据”这一术语并不是一个新的概念,它伴随着近年来信息爆炸式增长而走热。

早期引用可追溯到Apache Nutch 项目,当
时的网络检索索引更新需要批量处理和分析大量数据集。

1997 年IEEE 第八次会
议上,美国NASA研究员Michael Cox 对可视化领域中设备存储能力的局限,将其称为大数据问题[6],这是首次提及“big data”这一术语。

随后,美国加利福尼亚大学 John Mashey 教授也在计算机科学部门研讨会上发表了大数据对基础设施建设压力的文章[7]。

2011 年麦肯锡公司发布报告[8],诠释了大数据的发展潜力和发展策略,并将其定义为:大小超出了典型数据库软件的采集、储存、
管理和分析等能力的数据集。

美国麻省理工学院计算机科学和人工智能实验室的Sam Madden 教授[9]也赞同此观点,并在总结3V 定义(规模性 volume、多
样性variety、高速性velocity)的基础上,进一步强调了数据量大、变化快和传统工具难处理的特点。

国际数据公司(IDC)认为还应加上价值性(value),IBM 则认为
应具有真实性(veracity)[1]。

“4V +1C”的定义增加了复杂性(complexity)。

Forrester 公司的首席研究员Mike Gautlieri 认为3V 等描述在IT 和商业领域缺
乏实用性,他提出 SPA(Store、Process、Access)[10]框架进行描述,认为大
数据是具备高性能存储、处理和使用所有数据的前沿领域,其可以支撑行业的高效运营、决策支持、风险规避和服务用户,相比其他概念描述,Gautlieri 注重诠释
用户的可使用性。

综上所述,大数据是指超出了传统方式分析和处理能力的数据[11],很难削足
适履适用于现有数据库架构,传统的软件工具难以捕捉、存储、管理和分析,必须考虑新的处理手段和工具。

同时,大数据的数据获取由传统的抽样转变为所有数据,对数据的要求也由精确性向混杂性转变,而分析、处理则由注重因果关系的追寻转变为相关关系的探索和对事物发展趋势的预测[12]。

2.2 生物信息学自然科学领域一直是产生数据的活水源泉,物理和化学领域中每天产生的大量实验数据,以及天文和气象科学中星体轨道参数、卫星云图等,在“大数据”概念出现以前就早已满足如今界定的3V 特征。

近年,生物信息学(Bioinformatics)也伴随生物医学领域数据的指数增长而持续走热,大数据作为一种技术手段引入自然科学研究中。

2.2.1 应用实践及现状大数据与生物学科的交融,目前突出的应用表现在以下
三个方面:
a.研究层面,基因分析迈向“去抽样化”方向发展,科学家尝试应用大数据技术方案高效分析DNA和RNA 所有数据,而不再是采样分析。

新一代DNA测序子
项目(NGS)中,Aaron McKenna[13]尝试将 MapReduce 架构嵌入基因分析工具集(GATK),应用GATK 来处理和分析DNA 序列海量数据,取得了很好的成效。

b.应用层面,硅谷的新兴科技公司23andme 率先将DNA 序列精准排序商业化,以应对遗传密码中导致的疾病,Goran Hrovat[14]在 Apriori 算法和线性递归
模型的基础上,运用大数据可视分析技术探索病人数据,为医院的管理和决策服务。

c.实验数据管理层面,热门的生物信息数据库网页(如VectorBase、GeneDB 等)已经成为生物学家获取实验数据的主要来源之一,调查显示仅一个月内就有近750000 的访问者浏览超过2000 万个分主页,Eric E. Schadt[15]通过租用Amazon S3 平台,开展了云技术和异构计算方案处理生物数据的实践。

2.2.2 生物信息管理学科的兴起生物信息管理(Biocuration)是大数据背景下新
兴热门的领域,它指通过对生物数据的有效组织、分析和展示,使得数据更利于计算机处理,更便于人的理解[16]。

如今对生物学数据的有效管理已经成为生物
学研究中不可或缺的部分,也因此产生了生物数据信息专门的管理者(Biocurators),其角色包括收集和提炼最新文献信息、对基因和蛋白质结构等数
据组织并标签、对数据预处理并导入数据库、架构数据结构从而便于检索和利用、有效数据抽验等[17]。

美国伊利诺伊大学的图书与信息学院已为培养专业的生
物数据管理人才,率先设置生物信息专业硕士学位,并开设了相关课程[18]。

2.3 云计算“云计算(cloud computing)”于2006年被Google 的Eric E Schmidt 首次提出后,就受到广泛推崇。

云计算在 GFS(Google File System)、Big-Table 和MapReduce 基础上发展而来,是一种基于互联网而能够无处不在、无时无刻、便捷、按需获取计算资源的共享池模式[19]。

2.3.1 研究现状及应用实践云计算方案着重解决了大数据的存储和处理两大难题。

a.基于云的大数据存储。

云计算的关键技术之一GFS 是基于Linux 的专有分布
式文件系统,它奠定了云存储的基础[20];Tolga Soyata[21]设计了一种基于移动云的混合架构(MOCHA),为解决大量移动终端数据存储和未来单兵信息化作战的数据交换提供了启发;Swarnava Dey[22]基于云“key - value”存储和传
感器网络,探索了多媒体的存储和监控。

b.基于云的大数据处理。

云计算的关键技术——MapReduce,它能高效利用网络节点完成并行处理和分析大规模数据集。

现有研究中,“云”多作为应用和开发的平台,如 Divyakant Agrawal[23]探索了集成在云平台之上的DBMS 应对密集网络应用程序中的大数据处理问题;Ramanathan Sugumaran[24]借助Amazon EC2 处理3 -D 空间数据,为大数据非结构化数据处理带来了新的思路。

2.3.2 挑战与发展在大数据使用的整个信息流环节中,云计算在信息存储和数据处理两个环节发挥无可替代的作用,也正因为有云计算的超强计算能力大数据才突显出自身的价值。

虽然云计算已经发展到较为成熟的阶段,但面临大数据的新挑战,其还有很大的提升空间,如标准化API 接口更好适应数据锁定、修复大型分布式系统的漏洞、提高存储容量的伸缩性、改善磁盘I/O 负载均衡、扩充闪存容量、升级数据的保密性和可审计性、突破数据转换瓶颈、确保性能稳定等。

其次,数据管理中跨平台数据操作的灵活性、安全性、适用性以及数据重组语义的一致性也是目前一个亟待解决的难题。

最后,大数据的兴起也将推动云计算的发展,更多的目光将投向云计算与经典算法、分析技术和可视化展示的方向发展,目前云计算正向着“分析即服务(Analysis as a Service,AaaS)”的 cloud 2.0 时代迈进。

2.4 MapReduce 和 Hadoop MapReduce 是 Google提出的一种编程模型,利用“Map(映射)”和“Reduce(化简)”的思想实现大规模数据集的并行运算[25]。

基于MapReduce 和GFS,Apache 开发了一个开源分布式计算框架Hadoop[26],高容错性、高传输性、低廉硬件等优点使Hadoop 迅速成为大数据的主要解决方案。

2.4.1 研究现状分析现有研究成果,笔者发现主要集中在以下三个主题。

a.算法创新与实践。

代表性成果如 Zhao Weizhong[27]为检测大型社区网络(如 Twitter)提出了一种并行结构的聚类算法;一些类似MapReduce 的系统如Apache Mahout 在顶层嵌入了机器学习的新算法,加州伯克利大学的Spark 集
成了统计算法等服务。

b.二次开发及应用。

如 Rubao Lee[28]开发了一个被称作Ysmart 的系统,该系统能高效率完成SQL 到MapReduce 的数据转换;Pedro Ferrera[29]探索了 MapReduce 元组拓展模型,并应用开源框架Pangool 开展了设计和实证,发现新的模型能增强灵活性,而且保持Hadoop 的处理能力。

c.与传统技术的承接和融合。

Qin Xiongpai[30]阐述了将RDBMS 和MapReduce 融合成一个统一的大数据分析系统的思想,并在Hadoop 中对数据进行了OLAP 分析和查询实验;Anirban Mukherjee[31]讨论了传统POSIX 集群文件系统与Hadoop 文件系统的比较,并在共享存储模型之上的大数据分析进行实验。

2.4. 2 缺陷与改进虽然 MapReduce 模型和Hadoop 工具在解决大数据问题发挥着举足轻重的作用,但仍有以下两个缺陷值得研究和改进:a.数据统计分析和展示方面。

MapReduce 模型和Hadoop 工具缺乏像数据库中数据管理的精细化特征,同时在数据统计和结果展示方面仍然有很大提升空间,探索与统计分析软件(如 R 语言、SAS、Matlab 等)以及可视化工具(如标签云、Clustergra 等)的集成与合作会成为未来的发展趋势。

b.算法优化与创新方面。

原始的MapReduce 支持迭代计算的性能较差,在处理超高维度数据的分类和聚类计算时需要对算法进行改进,比如决策树递归算法只能在Map 内部操作实现,这会造成Map的单个节点内存消耗随决策树深度不断递增而增加,存在溢出风险。

此外,在社会网络实时全图更新挖掘中,MapReduce 容易产生大量不必要的序列化和反序列化开销。

许多系统在实际应用中都会改进MapReduce 模型,如华盛顿大学的HaLoop 在利用缓存和创建索引方式减少读写次数等方面做了尝试。

经典算法如K-means 、遗传算法、神经网络算法等已经难以满足大数据分析的需求,算法的改进和创新已经是应对大数据处理和分析的一个重要挑战。

2.5 可视化
2.5.1 研究概述可视化是一个新兴热门的研究领域,主要成果分布在以下三个
方向。

a.多学科应用。

在医学领域 Jessica Nielson[32]探索了神经损伤移植中海量
数据的可视化;Robert F Stark[33]将地理空间与计算机网络结合起来,并设计
了可视化显示不同地理位置大型算机网络健康监控的系统。

b.可视化分析。

2005 年 Pirolli 在文章[34]中提出了情报分析概念模型,John Stasko[35]在 Pirolli 的理论基础上开发了可视化分析系统(Jigsaw),用于情报的可视化分析。

c.信息可视化。

Samet Ayhan[36]融合数据仓库和商业智能(BI)等技术,对航空领域大数据分析和可视化决策支持进行了研究;Shinnosuke Takeda[37]设计了一个可视化工具(ITF)用于分析和展示数据的时间和层次结构。

2.5.2 趋势展望上文分析的三个研究方向中,最热门的是“可视化分析”与“信息可视化”,它们是两个不同的概念。

可视化分析是通过可视化技术来帮助用户进行有效地理解、推理和分析;信息可视化则更多关注知识的可视化展现和图形
的设计。

未来,在分析阶段:将更多关注最优化整合各相关领域的技术,从而形成
一体化[38]的可视化分析解决方法;其次是针对各具体领域,在数据流动和分析
工作的交互过程中,探索适合的可视化交互手段,同时对分析处理过程可视化管理。

而在知识呈现阶段:将以用户或决策者为中心对知识进行可视化,增强其吸引力和
易读性,从而支持高效决策;此外,可视化技术和语义网的结合,将资源可视化提
供和利用也将成为未来的发展趋势。

3 发展趋势探讨
如今“大数据”已不再是单纯描述数据特征的词汇,而是一个多学科交融的热点研究领域,其背后有着复杂和深刻的新理念。

在前文阐述的体系化、科学化和深入化
发展态势的结论之上,笔者进一步对技术领域研究的普遍要素进行概念抽象,从“技术、工程、科学和应用”四个维度分析大数据的研究现状与挑战,探讨未来研究的侧重点和发展趋势,如图3 所示。

图3 大数据发展规划模型
a.纵向维度。

“大数据技术”是大数据实践活动中应用的技术方案和工具等,基于信息流程视角,其相关技术涵盖数据采集、存储、传输、清洗、检索、处理和展示等多方面。

虽然云计算、NoSQL、Hadoop 等技术在大数据存储和处理的应用开启了新的纪元,但这些技术在算法优化、分析统计、语义处理、知识可视化呈现等方面还存在很多不足,这些问题在未来的研究中仍会成为关注的焦点。

b.横向维度。

“大数据应用”指大数据在实践中的具体应用,目前相关应用已在政治、经济、社会管理、军事活动和科学研究等领域开启了新的探索。

目前数据源质量、个人隐私、数据公正公平等问题让人堪忧,微软首席研究员Danah Boyd 教授对大数据提出了“冷思考”,号召大家客观理性对待大数据[39]。

未来大数据应用的涉及面将会更广泛,也更注重解决实际问题,如移动互联网平台的深层次开发和利用、数据平等获取使用、涉密与公开权衡、社交媒体言论实时监管、新媒体资源的整合、网络舆情实时引导和应对、国家安全防卫、政治选举、自然灾害预警、交通管理以及社会公共卫生安全等。

c.宏观维度。

“大数据工程”指大数据的规划建设运营管理的系统工程,研究领域涉及宏观层面的系统规划和投入,微观层面的具体实施和建设等。

具体而言,国家层面:法律法规、通用标准、政策制定、基础平台建设、产业链集成等会进一步完善;顶层设计层面:系统化地规划大数据工程、制定标准、创新管理模式、优化人才培养、合理布局学科建设等问题会成为未来研究的重点。

d.微观维度。

“大数据科学”研究大数据网络发展和运营过程中发现和验证大数据规律,以及它与自然和社会活动间的关系,主要在理论层面探索规律,进而指导
实践。

系统科学地搭建和完善大数据科学相关理论、方法、流程、模型,并探寻指导实践应用是未来的难点,但也是极为重要的关键点。

大数据已经开始掀起一股新的信息浪潮,对大数据的研究和探索也将继续广泛而深入。

通过前文的总结和分析,笔者发现目前的研究热点主要集中在对大数据理念的探讨、生物信息学的应用、云计算和Hadoop 等相关技术的实践、及可视化分析和展示的研究。

整体而言,现阶段的注意力主要停留在大数据技术和大数据应用层面,商业应用是主要的推动力量,业界和学界普遍关注新的技术手段来解决实践应用中的大数据问题。

而大数据工程和大数据科学两个维度的研究目前较为稀少,相关成果只涉及数据开放和利用政策、学科教育、人才培养等部分内容,笔者相信未来会得到进一步重视。

参考文献
【相关文献】
[1] Zikopoulos P,Eaton C.Understanding Big Data:Analytics for Enterprise Class Hadoop and Streaming Data[M].McGraw-Hill Osborne Media,2011.
[2]杨绎.基于文献计量的“大数据”研究[J].图书馆杂志,2012,31(9):29 -32.
[3]韩芳芳,范群,韩青青.我国大数据领域研究论文的计量分析[J].图书馆学研究,
2013(8):2 -7.
[4]王新才,丁家友.大数据知识图谱:概念,特征,应用与影响[J].情报科学,2013(9):1.[5] Chen C.CiteSpace II:Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature [J]. Journal of the American Society for Information Science and Technology,2006,57(3):359 -377.
[6] Cox M,Ellsworth D. Application - controlled Demand Paging for Out-of-core Visualization[C].Proceedings of the 8th Conference on Visualization'97.IEEE Computer Society Press,1997:235-ff.
[7] Mashey J R. Big Data and the Next Wave of InfraS -tress[C].Computer Science Division Seminar,University of California,Berkeley,1997.
[8] Manyika J,Chui M,Brown B,et al.Big Data:The Next Frontier for Innovation,Competition,and Productivity[R]. McKinsey Global Institute,2011.
[9] Sam Madden.From Databases to Big Data[J].IEEE Internet Computing,2012,16(3):4 -6.
[10] Mike Gautlieri.Big Data in 2013:What to Expect[J].Information Management,2013(3/4):20.
[11] Zikopoulos P,Eaton C.Understanding Big Data:Analytics for Enterprise Class Hadoop and Streaming Data[M].McGraw-Hill Osborne Media,2011.
[12] Mayer-Schönberger V,Cukier K.Big Data:A Revolution that Will Transform how We Live,Work,and Think[M]. Eamon Dolan/Houghton Mifflin Harcourt,2013.[13] McKenna A,Hanna M,Banks E,et al.The Genome Analysis Toolkit:a MapReduce Framework for Analyzing Next-generation DNA Sequencing Data
[J]. Genome research,2010,20(9):1297 -1303.
[14] Hrovat G,Stiglic G,Kokol P,et al. Contrasting Temporal Trend Discovery for Large Healthcare Databases[J]. Computer Methods and Programs in Biomedicine,2014,113(1):251 -257.
[15] Schadt E E,Linderman M D,Sorenson J,et al.Cloud and Heterogeneous Computing Solutions Exist Today for the Emerging Big Data Problems in Biology [J]. Nature Reviews Genetics,2011,12(3):224 -224.
[16] Howe D,Costanzo M,Fey P,et al.Big Data:The Future of Biocuration [J].Nature,2008,455(7209):47 -50.
[17] Salimi N,Vita R. The Biocurator:Connecting and Enhancing Scientific Data [J].PLoS computational biology,2006,2(10).
[18] Heidorn P B,Palmer C L,Wright D. Biological Information Specialists for Biological Informatics[J]. Journal of Biomedical Discovery and collaboration,2007,
2(1):1.
[19] Armbrust M,Fox A,Griffith R,et al. A View of Cloud Computing [J].Communications of the ACM,2010,53(4):50 -58.
[20] Ghemawat S,Gobioff H,Leung S T.The Google File System[C].ACM SIGOPS Operating Systems Review. ACM,2003,37(5):29-43.
[21] Soyataa T,Muraleedharana R,Langdonb J,et al.COMBAT:Mobile-Cloud-based Compute/coMmunications Infrastructure for BAT-tlefield Applications[C]. Proc. of SPIE Vol.2012,8403:84030K-1.
[22] Dey S,Chakraborty A,Naskar S,et al.Smart City Surveillance:Leveraging Benefits of Cloud Data Stores[C]. Local Computer Networks Workshops (LCN Workshops),2012 IEEE 37th Conference on.IEEE,2012:868 -876.
[23] Agrawal D,Das S,El Abbadi A. Big Data and Cloud Computing:Current State
and Future Opportunities[C]. Proceedings of the 14th International Conference on Extending Database Technology.ACM,2011:530 -533.
[24] Sugumaran R,Burnett J,Blinkmann A. Big 3D Spatial Data Processing Using Cloud Computing Environment[C]. Proceedings of the 1st ACM SIGSPATIAL International Workshop on Analytics for Big Geospatial Data.ACM,2012:20 -22.[25] Dean J,Ghemawat S. MapReduce:Simplified Data Processing on Large Clusters [J]. Communications of the ACM,2008,51(1):107 -113.
[26] White T. Hadoop:The Definitive Guide:The Definitive Guide[M].O'Reilly Media,2009.
[27] Zhao WZ,Martha V,Xu XW.PSCAN:A Parallel Structural Clustering Algorithm for Big Networks in MapReduce [C]. Advanced Information Networking and Applications (IEEE AINA),IEEE 27th International Conference on.IEEE,2013:862 -869.[28] Lee R,Luo T,Huai Y,et al.Ysmart:Yet Another Sql-to-mapreduce Translator [C]. Distributed Computing Systems (ICDCS),2011 31st International Conference on.IEEE,2011:25 -36.
[29] Ferrera P,de Prado I,Palacios E,et al.Tuple MapReduce:Beyond classic MapReduce[C]. Data Mining (ICDM),2012 IEEE 12th International Conference on.IEEE,2012:260 -269.
[30] Qin X,Wang H,Li F,et al.Beyond Simple Integration of RDBMS and MapReduce- -Paving the Way toward a Unified System for Big Data Analytics:Vision and Progress[C]. Cloud and Green Computing (CGC),2012 Second International Conference on.IEEE,2012:716 -725.
[31] Mukherjee A,Datta J,Jorapur R,et al.Shared Disk Big Data Analytics with Apache Hadoop[C]. High Performance Computing(HiPC),2012 19th International Conference on.IEEE,2012:1 -6.
[32] Nielson J,Inoue T,Paquette J,et al. Big - data Visualization for Translational Neurotrauma[C]. Journal of Neurotrauma.140 Huguenot Street,3RD FL,New Rochelle,NY 10801 USA:Mary Ann Liebert,INC,2013,30(15):A61 -A62.
[33] Stark R F,Wollocko A,Borys M,et al.Visualizing Large Scale Patterns and Anomalies in Geospatial Data:VAST 2012 Mini Challenge#1 Award:Honorable Mention for Good Visual Design[C].Visual Analytics Science and Technology (VAST),2012 IEEE Conference on.IEEE,2012:271 -272.
[34] Pirolli P,Card S.The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[C].Proceedings of International Conference on Intelligence Analysis.2005,5:2 -4.
[35] Stasko J,Görg C,Liu Z. Jigsaw:Supporting Investigative Analysis Through Interactive Visualization[J]. Information Visualization,2008,7(2):118 -132.
[36] Ayhan S,Pesce J,Comitz P,et al.Predictive Analytics with Aviation Big Data [C].Integrated Communications,Navigation and Surveillance Conference (ICNS),2013.IEEE,2013:1 -13.
[37] Takeda S,Kobayashi A,Kobayashi H,et al.Irregular Trend Finder:Visualization Tool for Analyzing Time - series Big Data[C].Visual Analytics Science and Technology (VAST),2012 IEEE Conference on.IEEE,2012:305 -306.
[38] Aigner W,Miksch S,Muller W,et al.Visual Methods for Analyzing Time - oriented Data[J]. Visualization and Computer Graphics,IEEE Transactions on,2008,14(1):47 -60.
[39] Boyd D,Crawford K. Critical Questions for Big Data:Provocations for a Cultural,Technological,and Scholarly Phenomenon[J].Information,Communication &Society,2012,15(5):662 -679.。

相关文档
最新文档