大数据的发展和应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据的发展和应用
摘要:大数据具有规模大、种类多、生成速度快、价值巨大但密度
低的特点。随着互联网的壮大以及云计算等技术的发展促进了移动
云终端的进步。大数据正成为时下越来越人们的领域。在前几十年
就有很多学者语言到了它的到来,它正在成为一种不可避免的趋势。它将给我们的生活等各个方面带来前所未有的改变,但是在此之前
也有一些问题需要我们去解决。
关键词:大数据、云计算、数据、分析、移动终端、挑战
正如我们过去大量生产汽车一样,人类正被信息淹没,却渴望知识。早在1982年世界预测大师、未来学家约翰奈斯比特就提到我们现在
大量生产信息,而在2012年3月22日,奥巴马宣布美国政府投资
2亿美元启动“大数据研究和发展计划”。这是继1993年美国宣布“信息高速公路”计划后的有一次重大科技发展部署。美国政府认
为大数据是“未来的新石油”,并将对大数据的研究上升为国家意志。Internet的出现缩短了人与人、人与世界之间的距离,整个世
界练成一个“地球村”,人们通过网络无障碍交流、交换信息和协
同工作。与此同时,借助Internet的告诉发展、数据库技术的成熟
和普及、高内存高性能的存储设备和存储介质的出现,人类在日常
学习、生活、工作中产生的数据量正以指数形式增长,呈现爆炸状态。
1简介
在过去的20年里,各个领域都出现了大规模的数据增长,包括
医疗保健和科学传感器、用户生成数据、互联网和金融公司、供应
链系统等,与此同时,数据也成为一种新的自然资源,亟待我们对
其加以合理、高效、充分的利用,使它能够给人们的生活工作带来
更大的效益和价值。在这种背景下,数据的数量不仅以指数形式递增,而且数据的结构越来越趋于复杂化,这就赋予了大数据不同于
以往普通数据更加深层的内涵。据著名咨询公司IDC的统计,2011
年全球被创建和复制的数据总量为1.8ZB,其中75%来自于个人(主
要是图片、视频和音乐),远远超过人类有史以来所有印刷材料的
数据总量。Google 公司通过大规模集群和MapReduce 软件,每月
处理的数据量超过400PB;百度每天大约要处理几十 PB 数据;Facebook 注册用户超过 10亿,每月上传的照片超过10亿张,每
天生成300TB 以上的日志数据;淘宝网会员超过3.7 亿,在线商品
超过 8.8 亿,每天交易数千万笔,产生约20TB数据。与传统的数
据集合相比,大数据通常包含大量的非结构化数据,且大多数据需
要更多的实时分析。
我们经常在公共媒体领域听到大数据这一话题,包括《经济学人》、《纽约时报》、《全国公共广播电台》。《自然》和《科学》杂志也分别开放了特俗专栏来讨论大数据带来的挑战和重要性。
1989年,Gartner Group和Howard Dresner首次提出“商业智能”
这一术语,商业智能通常被理解为企业中现有的数据转化为知识,
帮助企业做出明智的业务经营决策的工具,主要是将企业所掌握的
信息转换成竞争优势,,提高企业决策能力、决策效率、决策准确性。为了将数据转化为知识,需要利用数据仓库、联机分析处理工
具和数据挖掘等技术。随着互联网络的发展,企业收集到的数据越
来越多、数据结构越来越复杂,一般的数据挖掘技术已经不能满足
大型企业的需要,这就使得企业在收集数据之余,也开始有意识的
寻求新的方法来解决大量数据无法存储和处理分析的问题。由此,
IT界诞生了一个新的名词----大数据。
对于大数据的概念目前来说,并没有一个明确的定义,经过多
个企业、机构和数据科学家对于大数据的理解,虽然描述不尽相同,但是有一个普遍共识,即大数据的关键是在种类繁多、数量庞大的
数据中快速获取自己想要的信息。其中IDC将大数据定义为:为更
经济地从高频率的、大容量的、不同结构和类型的数据中获取价值
而设计的新一代架构和技术。2011 年, McKinsey 公司的研究报告
中将大数据定义为“超过了典型数据库软件工具捕获、存储、管理
和分析数据能力的数据集”. 这种定义是一种主观定义, 没有描述
与大数据相关的任何度量机制, 但是在定义中包含了一种演化的观
点 (从时间和跨领域的角度),说明了什么样的数据集才能被认为是
大数据。
从数据到大数据,不仅仅是数量上的差别,更是数据质量的提升。传统意义上的数据处理方式包括数据挖掘、数据仓库、联机分
析处理等,而在大数据时代,数据已经不仅仅是需要分析处理的内容,更重要的是人们需要借助专用的思想和手段从大量看似杂乱、
繁复的数据中收集、整理和分析数据足迹,以支撑社会生活的预测、规划和商业领域的决策支持等。
在现今的IT界,各个企业对大数据有着不同的解读,但都觉得
大数据有4V特征,即Volume(容量大)、Variety(种类多)、Velocity(速度快)和Value(价值密度低)。其中Volume是指大
数据巨大的数据量与数据完整性。Variety意味着要在海量、种类
繁多的数据间发现其内在关联,在互联网时代,各种设备连成一个
整体。Velocity即更快地满足实时性需求。Value是其中最重要的
一点,即指大数据的价值密度低,因为数据量巨大,所以真正有价
值的东西就显得越少。
2国内外现状
国外的现状:
早在 2009 年, 联合国就启动了“全球脉动计划”, 拟通过大
数据推动落后地区的发展, 而 2012 年1月的世界经济论坛年会也
把“大数据, 大影响”作为重要议题之一。在美国, 2009 年至今, (美国政府数据库) 全面开放了 40 万政府原始数据集, 大
数据已成为美国国家创新战略、国家安全战略以及国家信息网络安
全战略的交叉领域和核心领域. 2012 年 3 月, 美国政府提出“大
数据研究和发展倡议”, 发起全球开放政府数据运动, 并投资 2 亿
美元促进大数据核心技术研究和应用, 涉及 NSF,DARPA等 6 个政
府部门和机构, 把大数据放在重要的战略位置。英国政府也将大数
据作为重点发展的科技领域, 在发展 8 类高新技术的 6 亿英镑投
资中, 大数据的注资占三成。 2014 年 7 月, 欧盟委员会也呼吁各
成员国积极发展大数据, 迎接大数据时代, 并将采取具体措施发
展大数据业务。例如建立大数据领域的公私合作关系,依托“地平
线 2020”科研规划, 创建开放式数据孵化器; 成立多个超级计算
中心,在成员国创建数据处理设施网络。
在学术界, 美国麻省理工大学计算机科学与人工智能实验室建
立了大数据科学技术中心 (ISTC). ISTC 主要致力于加速科学与医
药发明、企业与行业计算, 并着重推动在新的数据密集型应用领域
的最终用户体验的设计创新。大数据 ISTC 由 MIT 作为中心学校,研究专家们来自MIT、加州大学圣巴巴拉分校、波特兰州立大学、
布朗大学、华盛顿大学和斯坦福大学等 6 所大学. 通过明确和资助
领域带头人,提供合作研究中心的方式,目标是发掘共享、存储和
操作大数据的解决方案, 涉及 Intel, Microsoft, EMC 等多家国际
产业巨头。同时, 英国牛津大学成立了首个综合运用大数据的医药
卫生科研中心, 该中心的成立有望给英国医学研究和医疗服务带来
革命性变化, 它将促进医疗数据分析方面的新进展, 帮助科学家更
好地理解人类疾病及其治疗方法. 该中心通过搜集、存储和分析大
量医疗信息, 确定新药物的研发方向, 减少药物开发成本, 同时为
发现新的治疗手段提供线索. 而以英国为首的欧洲核子中心也在匈