互联网大数据文献综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
互联网大数据文献综述
大数据分析的趋势
亮点
大数据分析中的当前的最先进技术的概述。
大数据分析的规模和应用前景趋势。
在硬件上的现况和未来的发展趋势,如何帮助我们解决大规模数据集。
讨论目前采用的软件技术和未来趋势,以解决大数据分析应用。
关键词:
大数据分析数据中心分布式系统
摘要:
大数据分析是并行的分布式系统未来的主要应用之一。数据仓库目前应用的规模已经超过EB级,并且其规模还在不断增长。当数据集和相关应用程序超出了他们的规模,给这些的构成要求和软件开发方法的考虑带来了重大挑战。数据集通常是分布式,它们的大小和安全考虑到分布式技术来得到保证。数据经常驻留在不同的平台上计算,对网络能力,容错性,安全性和访问控制的考虑是在许多应用中的关键。在其他应用程序中,分析任务的截止时间主要与数据质量有关。对于大多数新兴应用程序,数据驱动的模型和方法,能够大规模操作的方法,到目
前还未找到。即使知道可以缩放的方法,验证结果又是一个重大的问题。硬件平台的特性和软件堆栈从根本上影响数据分析。在这篇文章中,我们提供了一个概述的最先进的硬件和软件的趋势在大数据分析应用程序前景的应用。
引言
随着互联网关键的技术的发展,计算作为一个实用程序的设想在上世纪90年代中期开始形成。在网格计算时代的早期人们通常认为硬件作为主要资源。网格计算技术专注于分享、选择和聚合各种各样的地理上分布的资源。这些资源包括超级计算机、存储和其他设备,用来解决在科学、工程和商业的大规模计算密
集型问题。这些框架的一个关键特性是他们的支持透明跨域管理和资源管理能力。“数据即资源”的概念被普及在p2p系统。Napster、Gnutella,和Bit Torrent 允许节点共享多媒体数据内容通常直接彼此以分散的方式。这这些框架强调互操作性和动态性,降低成本,资源共享特定的沟通和协作,聚集。然而,在这些平台上,匿名,隐私问题和扩展性问题的考虑是次要的。
最近,云计算环境的可靠性、服务的健壮性被(通常的访问来自客户机的浏览器)来自于客户端,大规模生产的移动设备和通用计算机的访问检验。云计算的服务观念概述为“基础架构即服务”(云计算资源在云中可用),数据即服务(数据在云中可用)和软件即服务(访问程序在云中执行)。从服务提供者的角度来看这提供了相当大的好处(在硬件和管理的成本降低),整体资源的利用率,以及更好的客户端接口。云环境的计算底层通常依赖于高效和弹性的数据中心架构,基于虚拟化的计算和存储技术,高效利用商品硬件组件。目前的数据中心通常规模为成千上万的节点,计算在云计算中经常跨越多个数据节点。
新兴的基于云的环境与分布式数据中心托管的大型数据仓库,同时也为分析提供强力的处理有效的并行/分布式算法的需要。潜在的社会经济效益的大数据分析,与多样性的应用提出是很大的挑战,在本文的其他部分我们重点强调数据分析问题的规模和范围。我们描述了常用的硬件平台上执行分析应用的相关情况,并考虑存储,处理,网络和能量。然后,我们专注于应用程序,即虚拟化技术,运行时系统/执行环境和编程的软件基础模型。我们在多样性数据分析的应用中,对健康和人类福利进行计算机建模与模拟得出一个简短的结论。
1.1数据分析的规模和范围
最近保守的研究估计,在2008年世界上的企业服务器系统已经能处理了
9.57 ×10^21字节的数据。这一数字预计将从这基础上每两年翻了一番。举一个例子,沃尔玛的服务器每过一个小时就要处理超过一百万客户交易,这些信息插入到数据库,存储超过2.5 PB的数据与167座国会图书馆的书籍数量相当。在欧洲核子研究中心的大型强子对撞机每年将产生大约15千兆字节的数据,足以填满超过170万个双层DVD。每天,Facebook产生近500 TB的用户日志数据和数百万TB的图像数据。每分钟,在YouTube有100小时的视频被上传,有135000小时的视频被观看。每一秒,有超过28000个多媒体(MMS)消息被发送。在2012大约4600万的移动应用程序被下载了,每一个应用程序收集到更多的数据。推特的服务上有超过5亿5000万的活跃用户,他们每秒钟产生9100条推特。eBay系统每一天处理超过100 PB的数据。在其他领域,波音喷气发动机每运转30分钟能产生10 TB的操作信息。其中,如果每一天有25000的航班,仅仅数据传感器和机器生产的足迹信息的数据,在横渡一次大西洋将产生几百TB的数据。
这些例子只是惊鸿一瞥,来自不同数据源的生态系统的数据集在迅速扩张。结构化数据(例如,金融,电子医学记录,政府统计),半结构化数据(例如,文本,微博,电子邮件),非结构化(例如,音频和视频),和实时数据(如网络痕迹,一般的监测日志)。如果有组织和适当的分析的话,所有这些应用都有可能提供宝贵的见解。在当今广泛公认需要有效分析的大型数据集的应用程序。这些应用包括医疗保健分析(例如,个性化基因组学),业务流程优化,和社会网络为基础的建议。然而,预测表明数据增长将在很大程度上超过了可预见的成本改善,密度的存储技术,来处理它可用的计算能力和相关的能源熵。例如,在2002和2009之间数据流量增长了56倍,相比,相应的计算能力的增加是16倍(主
要是跟踪穆尔的法律)。相比之下,1998至2005数据中心的规模的增长是每年173%。这些趋势推断,大概需要13年对于计算能力的增加才能满足需求。然而,能源效率并不是像预期在同一时间内增加25倍。这产生几乎40倍的严重的不匹配的增加在数据分析能源足迹上。
负载特性。大数据工作负载的全面研究,可以帮助他们理解对硬件和软件设计的影响。由数值计算的“七个小矮人”,MEHUL,Shah等。试图定义一组“数据小矮人”即关键数据处理内核用来提供当前和未来的数据中心的负载特性的报道。在2010年借鉴一组广泛的负载特性,他们建立了一套分类尺寸(响应时间,访问模式,工作组,数据类型,读与写,处理复杂度),并得出结论,五个工作负载模型可以令人满意的覆盖以数据为中心的工作负载:(一)在PB级规模的分布式排序,(二)在内存中的索引搜索,(三)推荐系统,具有较高的处理负载和规则的通信模式,(四)顺序访问为基础的数据复制(五)视频上传和流交互应答率的服务器。在联机分析处理(OLAP)的工作负载可以表示为(1)、(3)、(4)的组合、在线事务处理(OLTP)的工作量只能部分捕获,在未来可能需要另一个类别,在内存索引和查询支持捕获一些这些负载特性的方面,但工作集因为太大而不能放在内存中。
1.2. 设计考虑
在未来,大的规模、范围和性质(负载特性)的大数据分析应用,能独立的分别对硬件系统,软件系统和架构设计提供有趣的见解。
对硬件的影响。数据访问模式和访问数据的频率(冷与热数据)可以驱动未来的内存层次结构的优化:数据一般为热数据;但是随着时间的推移,它变成了归档,冷的数据,最适合存储在NVM中。然而,有显着的例外的周期性或客户