大数据和大数据技术分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据和大数据技术分析

本篇论文快速导航:题目:大数据处理下新型管理模式探究第一章:基于大数据处理的管理模式创新研究绪论第二章:大数据和大数据技术分析第三章:大数据带来的管理变革和挑战第四章:基于大数据处理的管理模型第五章:基于大数据处理的管理模式下信息处理框架设计总结/参考文献:大数据与新型管理模式的结合总结与参考文献

第2 章大数据和大数据技术分析

由于信息技术和网络的飞速发展,我们身边所有有的事物都开始与数据有关。打电话、发短信、网络购物、网络办公…… 我们的生活和工作实实在在被大量的数据影响着,数据开始成为了重要的资源,大数据就这样被提出。

如何真确理解大数据,如何解决大数据问题,是我们将要分析的。

2.1 大数据简介

1)大数据的定义

对于大数据的定义,到目前为止仍就没有统一的标准,常用的定义有以下几点:

百度百科的定义:大数据又称为巨量资料,它们无法在有效时间内通

过传统手段或主流工具使数据得到采集,也无法进行处理和管理,进而得出有效信息帮助企业进行经营决策[4].

维基百科的定义:大数据指那些数量过于巨大,因而无法通过人工等手段,在一定时间内将其截取、处理、管理并整理成简单且易于人们理解的信息的数据。因此,大数据也可称为巨量数据或海量数据[5].

权威研究机构Gartner 的定义:大数据是是一种新的信息资产,其主要特点是高增长率和海量。大数据的主要目的是为了使企业在全新处理模式下的决策能力和洞察发现能力的加强和流程的优化。对于大数据问题,是不限于一个维度上,远远高出传统信息技术处理数据能力的极端信息管理和信息处理问题[6].

互联网周刊的定义为:通常所指的大数据就是指大量的数据(TB 级或更大)及处理大量数据的相关技术,其特点可以用通用的“4V” 来概括。然而,真正的大数据远远不止这些,它涵盖了所有在小数据基础上无法解决的事情,也就是说,我们所说的大数据,是一种以新的方式方法,对海量数据进行采集分析,从而获取数据中的价值,提供服务,是一种前所未有的,给社会带来巨大变革的方式。[7]麦肯锡的定义:大数据是一个数据集合,其集合中的数据无法通过传统的数据处理工具在有效时间内得到采集、存储和管理等处理[7].

无论从哪一种定义上来看,大数据都并非一种全新的技术或者一种全新的产品,大数据只是信息数字化时代高速发展所面临的一些问题的概括,一种普遍面临的现象而已,这一点和本世纪之初就早已出现的& dquo;海量数据& rdquo;有某些相同之处。那么海量数据与大数据的有什么区别呢?大数据除了包括海量数据中的结构化和半结构化数据之外还包括非结构化和交互数据。

从上世纪60 年代至80 年代中期,随着信息技术的进步。数据处理的方式也在不断演进。由最开始的应用程序直接管理数据的文件存储方式到具有面向性、集成性、飞易失性、时变性等特点的数据库存储方式,然后伴随着Web2.0 的兴起,人们开始广泛应用基于Web2.0 的非关系型数据库等数据存储技术。到目前,由于社交网络的快速发展和移动终端的普及,数据关系到人们生活的方方面面,数据量呈指数形态爆发式增长,面对这样海量的且纷繁复杂的数据,传统的数据处理方式已经逐渐无法适应,对于如何去发现数据中所存在的价值和了解数据之间存在的规则和关系,以往的方法都都无法很好

解决。然而大数据技术很好的解决了这个难题。

故而我们认为,所谓大数据,就是一种利用分布式计算构架,依托云计算的分布式处理、分布式数据库、云存储和虚拟化等相关技术,通过数据挖掘与分析,从大量化、多类别的数据中提取价值的IT 领域的一种新的技术构架。

2)大数据的基本特征

大数据的特点可以概括为4V+1C即数量(Volume)、速度

(Velocity)和种类(Variety)、价值性(Value)、复杂complexity)[5].

Volume指的是数据巨大的数据量以及其规模的完整性。大数据聚合在一起的数据量是十分庞大的,根据IDC 的定义至少要有超过100T 的可供分析的数据,更多的也认为大数据至少应到达PB 的规模。大的数据量,是大数据的基本属性。

Velocity 所指的有两个层面,其一是数据的获取速度快,其二是在数据量庞大的情况下,数据的分析和处理速度的快速,即数据的实时分析。

Variety 指数据的类别繁多,由于数据来源的多样化,数据的种类和格式也日渐丰富,除了结构化数据,非结构化和半结构数据大量存在,例如地理位置信息、视频信息、图片信息等。

Value 可以从两个方面来讲,即数据的低价值密度和高价值性。就是通过整合分析大量数据才能得出有重要实际应用价值的信息。

由于大数据“4V” 特性的存在,使得针对大数据的处理和分析变得更加困难,传统的关系型数据库系统已经无法处理,需要根据不同

的业务场景和业务需要,使用不同的分析处理方法,这样一来,其复杂度便大大增加了。

2.2 大数据处理技术

2.2.1 海量数据的存储

正如前面所描述的,大数据时代的首要特点就是海量的数据,由于互联网的发展,不同应用特性的用户规模、数据存储规模也不尽相同,大数据时代的互联网应用的中海量数据我们可以归纳出以下特性:

(1)用户群体大,增长速度快。eBay 的页面点击率在过去10 年之内的平均增长率达到了日均10 亿次,虽然页面的点击次数并不能

同客户人数划等号,但是页面点击率同增长率也可以从一定程度上反应用户的增长规模[6].

(2)数据总量大,增长速度快。这其中包括静态数据处理的图

片和视频共享,大量信息互动服务的SNS数据的存储总量已达到TB 级别甚至PB 级别。随着互联网技术的迅速发展,使得这些数据量变得越来越大[6].

(3)数据类型多样化。面对Web2.0 时代,我们需要处理的不仅有大量

相关文档
最新文档