大数据及其挑战
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
需要进一步研究。
2.2 大数据的处理技术
由于海量数据的数据量和分布性的特点,使得传统的数据管理技
术不适合处理海量数据。
海量数据对分布式并行处理技术提出了新的挑战,开始出现以
MapReduce 为代表的一系列研究工作。MapReduce 是 2004 年由谷
歌公司提出的一个用来进行并行处理和生成大数据集的模型。
2012年 3月 29 日美国总统办事机构 (EOP) 公布了 《大数据的 研究和发展计划》,强调了联邦政府五大部门在大数据研发上的投资承 诺,初始启动经费 2 亿美元,描述了联邦政府十二个关键部门开展大数 据研发应用的行动计划,展示了大数据研发应用将从以往的商业行为上 升到美国国家战略部署的总体蓝图,其重要性堪比当年的“信息高速公 路计划”,这标志着大数据已经上升到国家战略层面。
[参考文献]
[1] 王珊等.架构大数据:挑战、现状与展望[J].计算机学报,2011. [2] 马帅,李建新,胡春明.大数据科学与工程的挑战与思考.中国计算机学会 通讯,2011. [3] Today's Challenge in Government: What to do with Unstructured Information and Why Doing Nothing Isn’ t An Option,Noel Yuhanna, Principal Analyst, Forrester R esearch, Nov.2010. [4] Floratou A,Patel J M,Shekita E J,Tata Sandeep.Column oriented storage tech- niques for MapR educe.PVLDB,2011. [5] Jens Dittrich,Jorge- Arnulfo Quiané- R uiz,Alekh Jindal, Yagiz Kargin, Vinay Setty, J(o)rg Schad. Hadoop+ + : Making a yellow elephant run like a cheetah (without it even noticing).PVLDB,2010.
根据 IDC的研究结果,2011 年创造的信息数量达到 1800EB,每 年产生的数字信息量还在以 60%的速度高速增长,到 2020 年,全球 每年产生的数字信息将达到 35ZB。
海量数据到大数据的发展过程是一个从量变到质变的过程。数据 发展已有多年,每年都以翻倍的速度在增长。过去增长以往的技术能够 对它比较好的管理,但一旦到达一个临界点以后就产生了一个质变,过 去的技术已经符合不了当前的发展趋势,需要新的技术来满足新的数量 级的需求。于是大数据的概念应运而生。
1 什么是大数据 总的来说,大数据是一个体量特别大,数据类别特别大的数据集, 并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处 理。 大数据的特点有四个层面:第一,数据体量巨大。从 TB 级别,跃 升到 PB 级别。第二,数据类型繁多。前文提到的网络日志、视频、图 片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断 监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1 秒 定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将 其归纳为 4 个“V”— ——Volume,Variety,Value,Velocity。 2 大数据的挑战 2.1 大数据的存储 大数据通常可达到 PB 级的数据规模,因此,海量数据存储系统也 一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简 便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。 当前互联网中的数据向着异质异构、无结构趋势发展,图像、视 频、音频、文本等异构数据每天都在以惊人的速度增长。不断膨胀的信 息数据使系统资源消耗量日益增大,运行效率显著降低。海量异构数据 资源规模巨大,新数据类型不断涌现,用户需求呈现出多样性。 目前海量异构数据一般采用分布式存储技术。目前的存储架构仍 不能解决数据的爆炸性增长带来的存储问题,静态的存储方案满足不了 数据的动态演化所带来的挑战。因而在海量分布式存储和查询方面仍然
架构方面逐渐面临着史无前例的考验,它给 IT 企业带来了颠覆性的改
革。大数据是未来技术发展打开的新大门,是 IT 行业发展的必经之点,
在“数据科学”领域,大数据管理及处理能力已经成为引领网络时代 IT
发展的核心。相信大数据管理和分析将成为与国计民生紧密相关的研究
领域。
中图分类号:TP391
文献标识码:A
51 TECHNOLOGY WIND
成立了大数据工作组,将会开展工作寻找针对数据中心安全和隐私问题
的解决方案。
3 结语
大数据不仅仅是大的数据,而是数据量 ((Volume)、数据种类多
样 (Variety)、要求实时性强 (Velocity) 、蕴藏的商业价值大 (Val-
ue),大数据将带来新的技术发展。大数据的急剧蔓延使得企业在存储
数据从一开始就是信息时代的象征,但在过去几年,信息量呈现 爆炸式增长。在美国 17 个经济部门中的 15 个部门,员工超过 1,000 人的企业存储了平均 235 太字节的数据,超出了美国国会图书馆的藏 书。2011 年 Internet World 统计互联网用户近 20 亿,社交网站 Facebook 活跃用户已突破 8 亿。沃尔玛每小时处理 100 万件交易,大 约有 2.5PB 的数据存入数据库,这个数据量是美国国会图书馆的 167 倍。
MapReduce 作为典型的离线计算框架,无法满足许多在线实时
计算需求。目前在线计算主要基于两种模式研究大数据处理问题:一种
基于关系型数据库,研究提高其扩展性,增加查询百度文库量来满足大规模数
据处理需求;另一种基于新兴的 NoSQL 数据库,通过提高其查询能力
丰富查询功能来满足有大数据处理需求的应用。
2.3 大数据的安全
数据安全是互联网中大数据管理的重要组成部分。然而随着互联
网规模不断扩大,数据和应用呈现出指数级增长趋势,给动态数据安全
监控和隐私保护带来了极大的挑战。
大数据分析往往需要多类数据相互参考,而在过去并不会有这种
数据混合访问的情况,因此大数据应用也催生出一些新的、需要考虑的
安全性问题。
云安全联盟 (CSA) 是科技公司和公共部门机构的联盟,它已经
科技前沿
大数据及其挑战
李晓辉 1 王淑艳 2
(1.长春大学计算机科学技术学院,吉林长春 130022;2.吉林农业科技学院,吉林吉林
132101)
[摘 要] “大数据”是继云计算、物联网之后 IT 产业又一次颠覆性的技术变革。文章描述了信息从海量数据到大数据的质变,介绍了大数据 的定义和大数据特点,从数据的存储、数据的处理技术和数据的安全几个方面探讨了大数据带来的挑战。 [关键词] 大数据;分布式;MapR educe;安全隐私