大数据介绍

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据介绍

早在1958年,信息产业的蓝色巨人IBM公司就提出商业智能(Business Intelligence)的概念。商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。学术界认为商业智能是帮助企业提高决策能力和运营能力的概念、方法、过程以及软件的集合,其主要目标是将企业所掌握的信息转换成竞争优势,提高企业决策能力、决策效率、决策准确性。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘(Data Mining)等技术。然而,随着越来越多的企业利用这些技术,数据的增长已经完全失去控制,对业务运行也造成了影响。这就使得企业不仅要关注自身数据的流失,也要有意识地开始积累数据,并且寻求新的方法来解决大量数据无法存储和无法计算的问题。由此,在IT业界诞生了一个新名词——大数据(Big Data)。

由维基百科可知,“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”该定义可以从两个角度来分析:一方面是数据容量的不断扩大,数据集合的范围已经从兆字节(MB)到吉字节(GB)再到太字节(TB),甚至还有拍字节(PB)、艾字节(EB)和泽字节(ZB)的计数单位出现。著名咨询公司IDC的研究报告称,未来十年全球大数据将增加50倍。仅在2011年,就有1.8ZB(也就是1.8万亿GB)的大数据创建产生。这相当于每位美国人每分钟写3条微博,而且还是不停地写2.6976万年。在未来十年,管理数据仓库的服务器的数量将增加10倍以便迎合50倍的大数据增长。另一方面,日益增长的集成式大数据已不再适宜于用当前管理数据库的工具来进行分析处理。其难点包括:数据的抓取,存储,检索,共享,分析以及可视化等。维基百科还认为这一趋势将持续发展,其原因在于越来越庞大的数据集合可以使信息分析员更准确而地预测商业活动趋势,预防疾病的爆发,打击犯罪活动等。

从维基百科的定义中不难看出大数据所面临的问题都源自数据的增长与应对增长的技术矛盾。IBM同样也指出:大数据来自方方面面,从搜集天气情况的感测器,接入社交媒体网站的指令,数码图片,在线的视频资料,到网络购物的交易记录,手机的全球定位系统信号等等。IBM总结大数据的特点为:多样化(Variety)、快速化(Velocity)和大量化(Volume)。多样化是指大数据的内涵超越了结构化数据的概念,其实质包括各类非结构化的数据:文本,音频,视频,点击流量,记录文件等。快速化是指通常具有时效性,企业必须把握好对数据流的掌控应用,从而才能最大化地挖掘利用大数据所潜藏的商业价值。大量化是指大数据的规模特点在于数量庞大,未来企业将不可避免地迎接数据浪潮的冲击。

较早提出大数据概念还有以数据管理技术见长的EMC公司。其对大数据的工作定义为:“数据集,或信息,它的规模、发布、位置在不同的孤岛上,或它的时间线要求客户部署新的架构来捕捉、存储、整合、管理和分析这些信息以便实现企业价值。”根据IDC一份EMC赞助的报告,消费者和企业所累积的数据量预计在未来十年内将增加44倍。虽然在这里大数据变化的程度大小问题已不具备任何新颖的地方,但是大数据的变化也是形式上的问题。数据不仅超越我们过去认知的日益密集的使用和更大的规模,而是与数据从模拟到数字的转型有关,而且需要用新的途径来挖掘企业价值。通常情况下,大数据可以分成三种类型:一是结构化数据,即行数据,存储在数据库里,可以用二维表结构来实现的数据。甲骨文、微软都有这样的数据库管理,用以分析和研究。二是半结构化数据,这种数据包括电子邮件、办公处理文档,以及许多存储在Web上的信息。半结构化数据是基于内容的,可以被搜索。三是非结构化数据,包括图像、音频和视频等可以被感知的信息。据统计,企业中20%的数据是结构化的,80%是非结构化或半结构化的。当今世界结构化数据增长率大概是32%,而非结构化数据增长则是63%,至2012年,非结构化数据占有比例将达到互联网整个数据量的75%以上。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的

渠道和技术的不断涌现和应用。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。

可以说,大数据源自于更加密集和更大规模的海量存储,它涉及到数据类型从模拟到数字的转换,以及利用新方法获取商业价值的需求。大数据的出现与当今信息的快速增长和在信息中寻求财富的需求是分不开的。大数据是一个巨大市场,蕴涵了巨大的商机。大数据不仅会在个体消费中起到重要作用,同样也会为国家经济和国民生活带来巨大的利益。可以为世界经济创造重大的价值,提高公司和公共部门的产量和竞争力,并为消费者创造庞大的经济附加值。

目前,全球许多企业都已经在争夺大数据资源。IBM公司因其在传统工业企业信息化方面的成就,已经拥有了大量可供分析的数据;而谷歌公司则从互联网搜索引擎的信息采集中获得了大数据。

相关文档
最新文档