大数据发展难题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据走红背后面临发展难题
时间:2013-06-28 08:14 来源:中云网 作者:吴雅军分享到: QQ空间 新浪微博 腾讯微博 人人网 0
随着信息化技术的不断进步,数字化已经渗透到人们生活中的各个方面,人们的一举一动都在产生着大量的数据。可以毫不夸张地说,人类社会正在逐步步入一个被互联网和通讯技术引爆的大数据时代。时下,大数据成为最为“时髦”的话题,几乎达到了言必谈大数据的地步。

2012年被很多人称为是“大数据之年”。那么,2013年,会成为中国大数据的落地元年吗?有人认为,无论是从产业进程,企业应用态势、市场增长趋势还是用户关注度来说,2013年都可谓是大数据落地的元年。也有人对此持怀疑态度,认为这又将是一个市场炒作的概念。我个人认为,大数据时代的来临已经毋庸置疑。但是,从目前的实际情况来看,中国的大数据尚处于早期应用和探索时期,鲜有落地案例。大数据还面临着产业发展方向不明确,应用分析缺乏核心技术及创新能力、大数据人才缺乏等问题。因此,总的来看,大数据市场化、产品化发展前景无限,但是,实现真正的落地还将有一段很长的道路要走。














钱景与挑战并存,如何应对大数据时代?
时间:2013-06-28 08:23 来源:中云网 作者:Hosen分享到: QQ空间 新浪微博 腾讯微博 人人网 0


近年来,大数据概念风生水起,炙手可热,发展也是红红火火,其井喷势头甚至要盖过云计算了。

大数据钱景巨大

倘若把2012年比作大数据落地扎根之年,那么2013年其将迎来其萌芽成长,乃至遍地开花结果的一年。多家IT调查机构预测称,大数据市场每年至少40%以上的速度高增,2012年大数据市场规模约为50亿美元,到今年将翻一番。

大数据技术商机巨大,钱景十分光明。据不完全统计的数据显示,大数据产业每年将为美国医疗系统带来3000亿美元的增益;为欧洲公共管理部门带来2500亿欧元的净收入;为世界零售业增加30%的纯利润;为全球制造业减少50%的产品研发等成本;而个人地理位置信息的利用,也将为服务商带来超过1000亿美元的收益,为“地球村”用户带来超过7000亿美元的价值。

当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术的挖掘与运用,是实现“四化”同步发展的重要保证。而大数据是新一代信息技术的集中反映,是一个应用驱动性很强的服务领域,具有无穷潜力的新兴产业领域,这是我国实现跨越式发展

的宝贵机会。

然而如今大数据竞争日益激烈,机会稍纵即逝,如何把控大数据的走势、演变,未雨绸缪运筹帷幄,捷足先登抓住“壁虎的尾巴”,关系一个IT厂商、一个用户单位乃至一个国家的竞争力与前途。

技术决定产品的发展,更是决定大数据的命运。作为大数据一项根本技术,Hadoop技术今年市场将达到前所未有的高峰,Hadoop技术将深入地应用到企业的软件架构中,大规模地使用Hadoop是个必然趋势。调查显示,以Hadoop为代表的分布式存储与计算成为最受关注的数据管理新技术,比例达到29.86%;其次是以SAP HANA为代表的内存数据库技术,占到23.30%;云数据库排名第三,比例为16.29%。此外,列式数据库技术、NoSQL也将获得发展。另外其它相关大数据的技术,数据可视化服务、众包模式(Crowdsourcing Model)也将成为应用趋势,RDBMS(关系型数据库管理系统)供应商将东山再起。可以说,大数据产品化、市场化、应用化将日益明显,逐渐成形。

大数据与云计算作为一对十分抢眼的“姊妹花”,今年将深度融合。大数据处理离不开云计算技术,云计算为大数据提供弹性可扩展的基础设施支撑环境以及数据服务的高效模式;大数据则为云计算提供了新的商业价值与应用技术。二者将形影不离,完美融合。

而作为大数据的硬件基础与支撑,数据管理集成产品--大数据一体机将加快推出与逐步成熟。自云计算和大数据概念被提出后,针对该市场推出的软硬件一体化设备就呼声四起,产品开发不断。在这一两年里,数据仓库一体机、NoSQL一体机和其它一些将多种技术结合的一体化设备将进一步快速发展。IBM的PureSystems、SAP的HANA Appliance、Oracle的Exadata正上演一体机市场的“三国演义”,而浪潮、华为、太极等国产IT商也在全力抢食一体机市场。

可以预见的是,今年大数据市场规模将进一步膨胀,一些新的细分市场今年将出现。例如,以数据分析和处理为主的高级数据服务,将出现以数据分析作为服务产品提交的分析即服务(Analyze as a Service)业务;将多种信息整合管理,创造对大数据统一的访问和分析的组件产品;基于社交网络的社交大数据分析;甚至会出现基于大数据的技能培训、人才教育及教授数据分析课程等市场业务。

大数据问题与挑战仍不小

不过作为一个新生领域,尽管大数据意味着大机遇,拥有巨大的应用价值,但同时也遭遇工程技术、管理政策、资金投入、人才培养等诸多领域的大挑战。只有解决这些基础性的挑战问题,才能充分利用这个大机遇,让大数据为企业为社会充分发挥的最大价值与贡献。

一、当今大数据的运用仍面

临多种技术难关的束缚。主要有大数据的去冗降噪技术;大数据的新型表示方法;高效率低成本的大数据存储;大数据的有效融合;非结构化和半结构化数据的高效处理;适合不同行业的大数据挖掘分析工具和开发环境;大幅度降低数据处理、存储和通信能耗的新技术等。这些技术问题目前都难于有效解决与完善。

有些行业的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,而当前技术尚难以用传统的方法描述与度量,处理的复杂度很大。

二、全社会开放与共享数据还很难,这让数据质量大打折扣。数据增值的关键在于整合,但自由整合的前提是数据的开放。在大数据的时代,开放数据的意义,不仅仅是满足公民的知情权,更在于让大数据时代最重要的生产资料、生活数据自由地流动起来,准确全面应用起来,以推动知识经济和网络经济的发展,促进中国的经济增长由粗放型向精细型转型升级。然而战略观念上的缺失、政府机构协调困难、企业对数据共享的认识不足及投入不够、科学家对大数据的渴望无法满足等都是大数据在当前我国发展应用中不得不面对的困难。

三、大数据应用领域仍窄小,应用费用过高,制约大数据应用。国内能利用大数据背后产业价值的行业主要集中在金融、电信、能源、证券、烟草等超大型、垄断型企业,其他行业谈大数据价值为时尚早。随着企业内部的资料量愈来愈大,日后大数据将成为IT支出中的主要因素,特别是数据储存所耗费的成本,很可能造成企业负担,甚至望而却步。因此有远见的CIO必须预先做好准备。

四、开放与隐私如何平衡,亦是一大难题。任何技术都是双刃剑,大数据也不例外。如何在推动数据全面开放、应用和共享的同时有效地保护公民、企业隐私,逐步加强隐私立法,将是大数据时代的一个重大挑战。

大数据时代,当如何应对?

可以说,真正启动大数据在企业和社会的全面应用,面临的不仅仅是技术和工具问题,更重要的是要转变经营思维和组织架构,才能真正地挖掘这座大数据“金矿”。那么在大数据时代,我们要做哪些应对之策,以握战略制胜之点?

确定企业的短中期目标和标准

大数据的资源极大繁杂丰富,如果企业没有明确的目标,就算没有走入迷途至少会觉得非常迷茫。因此,首先,要确定企业运用大数据的短中期目标,定义企业的价值数据标准,之后再使用那些能够解决特定领域问题的工具。逐步推广,步步为营,不要把理想定得太高,否则失望会愈大。

储备好大数据相关技

术人才

企业运用大数据为营销管理服务之前,技术团队要到位是基础。企业管理团队要能够非常自如地玩转数据。许多人认为社交媒体营销人是个有趣的工作,其实它是个艰苦的活儿。社交化空间非常注重数据、衡量标准和数据可视化等问题。要能熟悉驾驭,首先要确保企业技术人员已经接受过相关技能培训,了解如何最大化利用大数据的作用和潜力为企业营销管理服务。

解决碎片化问题

企业启动大数据营销管理一个最重要的挑战,是数据的碎片化、零杂化。许多公司组织中,数据都散落在互不连通的数据库中,而且相应的数据技术也都存在于不同部门中,如何将这些孤立错位的数据库打通、互联,并且实现技术共享,才是能够最大化大数据价值的关键。管理者当留意的是,数据策略要成功提升网络营销管理成效,要诀在于无缝对接网络企业管理与营销的每一步骤,从数据收集、到数据挖掘、应用、提取洞悉、报表等。

培养内部整合能力

要做好大数据的应用管理,其一,要有较强的整合数据的能力,整合与来自企业各种不同的数据源、各种不同结构的数据,如客户关系管理、搜索、移动、社交媒体、网络分析工具、普查数据以及离线数据,这些整合而得的数据是定向更大目标受众的基础;其二,要有研究探索数据背后价值的能力。未来营销管理成功的关键将取决于如何在大数据库中挖掘更丰富的营销价值。像是站内、站外的数据整合、多方平台的数据接轨、结合人口与行为数据去建立优化算法等都是未来的发展重点;其三,探索出来之后给予精确行动的管理指导纲领,同时通过此纲领进行精确快速实时性行动。

而从社会、国家领域而言,我国亟须在国家层面对大数据给予高度重视,特别需要从政策制定、资源投入、人才培养等方面给予强有力的支持;另一方面,建立良性的大数据生态环境是有效应对大数据挑战、用好大数据的主要出路,需要科技界、工业界以及政府部门在国家政策的引导下共同努力,通过消除壁垒、成立联盟、大数据质量标准、建立专业组织等途径,建立和谐的大数据生态系统。

总之,谁率先具备从各种各样类型的数据中快速获得有价值信息的能力与机会,谁就是赢家!


一、大数据发展的潜力无限

信息化技术的跨越式发展,使我们置身于数据大爆炸的时代,这也为大数据的市场化、产品化提供了前所未有的发展契机,使其潜力无限。

1.信息资源爆炸性增长为大数据发展提供良好契机

大数据是信息技术与互联网产业发展到特定阶段的产物,从互联网到物联网,从云计算到大数据,

信息技术正在从产业边缘走向产业核心。而随着信息技术向产业高端的突飞猛进,大数据势必成为重塑竞争优势的新引擎。

大数据因为紧扣物联网、网络社交通信、多媒体等信息产生工具海量出现的大背景,因此,拥有良好的发展契机。再加上其拥有可以帮助人们从大体量,高复杂的数据中提取价值的优势,解决了求解信息资源爆炸性增长难题的技术手段问题,因而受到人们的高度关注和热切期待。

2.政府、企业部门对海量数据的重视利用为大数据的发展提供了沃土

随着信息的数量及复杂程度快速扩大,从海量数据中提取信息的能力正快速成为战略性的强制要求。如何从繁乱的数据中快速获得战略、决策信息,成为制胜对手的关键。目前,越来越多的政府、企业已经意识到隐藏在这个数据山脉中的金矿,数据分析能力日益受到重视。如何盘活数据资产,使其为国家治理、企业决策服务,成为“大数据”时代的核心问题。

随着越来越成熟的数据分析产品出现,企业以及政府部门将会切身体会到大数据分析带来的实惠。如果有标杆企业、成功案例的出现,势必将极大推动大数据技术在企业、政府部门中的应用。

3.大数据在行业中的逐渐应用使其优势凸显

大数据凭借其在优化操作流程、降低成本以及更准确的市场定位等方面的优势,逐渐走向各个行业并得以应用。如:在零售行业,对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;在互联网行业,对大数据的分析可以为商家制定更加精准有效的营销策略并提供决策支持;在服务行业,对大数据的分析可以帮助企业为消费者提供更加及时和个性化的服务。随着大数据在各行各业中的逐步应用,其优势将被人们熟知并凸显。

总的来说,大数据具备良好的市场发展基础,未来发展潜力无限。但是,我们在看到其美好发展前景的同时,也不能忽视其在发展过程中面临的问题。

二、大数据发展的挑战不断

1.大数据市场培育缺乏明确的方向

当前,社会各界对大数据产业的关注度比较高,但是,对于如何开发和建设大数据产业的方向并不明确。现今,大数据的应用主要集中在电商企业,其在基础科学研究、重点关键行业、政府部门的价值和作用尚未得到充分认识。

2.大数据技术应用困难重重

目前,我国的大数据缺乏核心技术的支持,在大数据应用分析方面的技术创新亦不够。因此,在大数据技术应用方面将面临重重困难。具体如下:

·数据收集方面,如何从海量信息中找出有价值的信息,去伪存真;

·数据存储方面,如何达到低成本、低能耗、高可靠

性及安全性的目标;

·数据处理方面,如何从大量动态且模棱两可的数据中综合信息,导出可理解的内容;

·结果呈现方面,如何实现数据挖掘算法在不同行业中的通用,实现结果的可视化。

3.大数据应用中的安全问题更为突出

大数据不仅意味着更多数据,它也意味着更复杂、更敏感的数据,还意味着可能向成功渗入的网络的攻击者暴露更多数据。随着大数据的增长,潜在的安全管理问题也将更为突出。大数据时代,安全问题将更为复杂。大数据平台在提供服务的同时,也在收集和汇聚大量的数据,这些数据包括企业运营数据、客户信息,个人的隐私和各种行为的细节记录,如消费习惯、阅读习惯甚至生活习惯。这些数据的集中存储增加了数据泄露风险。因此,如何保护用户的隐私成了大数据时代发展过程中不可回避的问题。

4.大数据方面的人才缺乏

在大数据市场,无限增长的数据与有限增长的IT人员、创新型人才之间的矛盾将进一步加大。目前来看,大数据技术与应用方面的人才缺口较大,理解与应用大数据的创新型人才更是稀缺。

5.产品不成熟、缺乏成功案例

目前的大数据市场产品尚不成熟,且缺乏成功案例,这是大数据市场化、产品化面临的最大难题。没有成熟的产品,没有成功的案例可以借鉴,其接受度将会大打折扣。

2012年到2013年,从云计算落地到大数据爆发,人们在大数据高效分析所获得的商业和社会价值方面达到高度一致。大数据具备良好的发展条件及优势,未来,需要在优化大数据的发展环境、明确产业发展方向、技术创新以及人才培育等方面下功夫,否则,大数据的市场化、产品化就将成为看似美好的空中楼阁。总的来说,大数据时代下,高效、安全、节能、可靠的数据中心,是未来发展的方向。






《大数据——战略?技术?实践》抢鲜看之四:第1章概述之“什么是大数据”(1)
发表于:2013年05月27日 09:49 转发 11
从今天开始我们将正式转载本书的正文部分第1-2章的所有内容。
第1章是概述,首先介绍大数据的定义。虽然不同的企业和领域对大数据的定义不尽相同,但都广泛提及了大数据在3 个主要维度上的特征,即3V——Volume(数量)、Variety(种类)、Velocity(速度)。随后,基于不同的结构对大数据进行了分类,并列举了各种行业实例。本章还提纲挈领介绍了堆栈式4 层大数据技术架构,即:基础层、管理层、分析层和应用层,及各层特点。最后分析了大数据带来的机遇和挑战。
那我们首先从第1.1节什么是大数据开始吧。
#0 《大数据——战略?技术?实践》

抢鲜看之预告篇
#1 《大数据——战略?技术?实践》抢鲜看之一:编委会、前言
#2 《大数据——战略?技术?实践》抢鲜看之二:序一、目录一
#3 《大数据——战略?技术?实践》抢鲜看之三:序二、目录二
#4 《大数据——战略?技术?实践》抢鲜看之四:第1章概述之“什么是大数据”(1)

第1 章|
概 述|

“大数据”,一个看似通俗直白、简单朴实的名词,却无疑在全球引领了又一轮数据技术革新的浪潮。人类的数字世界[1]可以包括上载到YouTube 上的手机中的图像和视频、用于高清电视的数字电影、ATM 中的银行数据、机场和重要活动的安全录像(比如:奥林匹克运动会)、欧洲原子能研究机构(CERN)中大型强子对撞机的亚原子碰撞记录、高速公路收费记录、通过数字电话线路传输的语音通话、用于通常沟通使用的文本,等等。
根据IDC《数字世界》研究项目在2012 年的统计[1],2010 年全球数字世界的规模首次达到了ZB(1 ZB = 1 万亿GB)级别,即1.227 ZB;而2005 年这个数字只有130 EB,基本上5 年增长10 倍。这种爆炸式的增长意味着到2020 年我们的数字世界规模将达到40 ZB,即15 年增长300 倍!如果单就数量而言,40 ZB 相当于地球上所有海滩上的沙粒数量的57 倍。如果用蓝光光盘保存所有这40 ZB 数据,这些光盘的重量(不包括任何光盘套和光盘盒)将相当于424 艘尼米兹级航空母舰(满载排水量约10 万吨)。或者相当于世界上每个人拥有5,247 GB 的数据。无疑,我们已经进入了大数据时代。

 1.1 什么是大数据
进入本节前不妨思考一下下面几个问题:
?多大的数据才算大数据?有没有一个明确的界限?1 TB 或者是1 PB?谁说了算?
?大数据只是因为“大”吗?除了“大”还有什么其他特征使其成为“大”难题?
?大数据永远是大数据吗?1GB 的数据说:“我在10 年前也‘大’过”。


基本知识:字节大小[2](每一个都比其前面一个大1,000 倍)
1 B = 一个字符或一粒沙子
1 KB = 一个句子或几撮沙子
1 MB = 一个20 页的幻灯片演示文稿、一本小书或一大汤勺沙子
1 GB = 书架上9 米长的书或者整整一鞋盒子的沙子
1 TB = 300 小时的优质视频、美国国会图书馆存储容量的十分之一或者一个操场沙箱
1 PB = 35 万张数字照片或者一片1.6 公里长的海滩
1 EB = 1999 年全世界生成的信息的一半或上海到香港之间的海滩
1 ZB = 无法想象,或者几乎全世界所有的海滩之和。

 1.1.1 大数据的定义及特征
大数据这个名词的出现至少是5 年以上的历史了,然而仿佛至今业界对其也

没有一个统一认同的完美定义。这好像是个不可思议的事情,因为表面看来“大数据”这个词汇已经直白得不能再简单了。难道这个“大”字只是个表象,而其内在蕴含着丰富的意义?让我们来看看众多权威机构和企业对大数据给予的不同定义。
麦肯锡[3]说:“大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。这是一个被故意设计成主观性的定义,并且是一个关于多大的数据集才能被认为是大数据的可变定义,即:并不定义大于一个特定数字的TB 才叫大数据。因为随着技术的不断发展,符合大数据标准的数据集容量也会增长;并且定义随不同的行业也有变化,这依赖于在一个特定行业通常使用何种软件和数据集有多大。因此,大数据在今天不同行业中的范围可以从几十个TB 到几个PB。”
IBM[4]说:“可以用3 个特征相结合来定义大数据:数量(Volume)、种类(Variety)和速度(Velocity),或者就是简单的3V 或V3,即庞大容量、极快速度和种类丰富的数据。”如图1-1 所示。


数据量
:如今存储的数据数量正在急剧增长,毫无疑问我们正深陷在数据之中。我们存储所有事物:环境数据、财务数据、医疗数据、监控数据等。有关数据量的对话已从TB 级别转向PB 级别,并且不可避免地会转向 ZB 级。现在经常听到一些企业使用存储集群来保存数PB的数据。随着可供企业使用的数据量不断增长,可处理、理解和分析的数据比例却不断下降。

数据的多样性
:与大数据现象有关的数据量为尝试处理它的数据中心带来了新的挑战:它多样的种类。随着传感器、智能设备以及社交协作技术的激增,企业中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括单击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。简言之,种类表示所有的数据类型。

数据的速度
:就像我们收集和存储的数据量和种类发生了变化一样,生成和需要处理数据的速度也在变化。不要将速度的概念限定为与数据存储库相关的增长速率,应动态地将此定义应用到数据——数据流动的速度。有效处理大数据需要在数据变化的过程中对它的数量和种类执行分析,而不只是在它静止后执行分析。
最近,IBM 在以上3 V 的基础上归纳总结了第四个V——Veracity(真实和准确)。“只有真实而准确的数据才能让对数据的管控和治理真正有意义。随着社交数据、企业内容、交易与应用数据等新数据源的

兴起,传统数据源的局限性被打破,企业愈发需要有效的信息治理以确保其真实性及安全性。”[5]
IDC[6]说:“大数据是一个貌似不知道从哪里冒出来的大的动力。但是实际上,大数据并不是新生事物。然而,它确实正在走进入主流,并得到重大关注,这是有原因的。廉价的存储、传感器和数据采集技术的快速发展、通过云和虚拟化存储设施增加的信息链路,以及创新软件和分析工具,正在驱动着大数据。大数据不是一个‘事物’,而是一个跨多个信息技术领域的动力/活动。大数据技术描述了新一代的技术和架构,其被设计用于:通过使用高速(Velocity)的采集、发现和/或分析,从超大容量(Volume)的多样(Variety)数据中经济地提取价值(Value)。”
这个定义除了揭示了大数据传统的3 V 基本特征,即Volume(大数据量)、Variety(多样性)、Velocity(高速),还增添了一个新特征:Value(价值)。
一个大数据实现的主要价值可以基于下面3 个评价准则中的1 个或多个进行评判:
?它提供了更有用的信息吗?
?它改进了信息的精确性吗?
?它改进了响应的及时性吗?
Gartner[7]说:“实际上,大数据,或者说‘极限信息’(Extreme Information)具有12 个维度。”图1-2 展示了极限信息管理的3 个层次和12 个象限。
“最下面一层‘量化指标’指的是大数据的基本特征,即大数据量、多样性和高速,这也就是传统的3V 的概念。另外还加上了‘复杂性’(Complexity),包括空间维、时间维等多种数据复杂性。大数据解决方案应首先考虑以这些问题为出发点。然而,解决这4 个方面的问题只是大数据解决方案的基础,用以支撑起大数据平台,在这之上还有很多问题需要解决。”
“第二层‘访问权限管理和控制’ 有很多关于访问权限的问题。数据的敏感性是一个很基础的问题,但到了现在为止,基于现有的技术和管理手段,还没有对数据的敏感性进行分析的优秀的解决方案。共享协议:数据将会以什么形式、什么格式和时间点,通过什么样的接口实现这些共享和数据的交换,这是大数据的重点问题之一。数据交换的所有方式都是以标准的协议来支持的,因为在大数据的时代,数据的来源本身是多样性的,数据的格式甚至是无法管理的,还有很多的数据是来自于企业的外部,来自于互联网的提供商,到底如何通过这些协议自动化地将数据放到数据仓库里面来,所以这种情况下数据的共享协议是一个很关键的问题。热点数据:在大数据的时代,数据的管理跟传统的方式有了非常明显的差别。传统的数据管理会把单独

的时间点作为一个热点数据,但是在大数据的时代,热点数据有可能是并行的多个。这些热点数据本身之间实际上是有可能有联系的。因为各种事件的相互触发所以很有可能这些热点数据同时出现,而且是相互关联的,甚至于有可能是可以预测的。所以说在大数据时代,热点数据的管理也是一个重要的话题。”

“最上面一层‘质量管理’,应该说,也是在传统的数据管理里非常重要的一个方面。这里面提到的有关的有效性、有效期限,这些都有明确的技术工具来解决的。但到现在为止,在这些方面,还是非常地依赖于传统的数据仓库的工具,而没有专门针对大数据的工具和技术能够解决这些问题。所以产生的结果是,现在产生的大数据的应用,一方面是受制于用户接受的程度本身,另外一方面也是受制于技术。现在来看,很多用户仍然必须要依赖于传统的数据管理的解决方案,而只能拿大数据的技术作为一个前台来做一些预处理。因为它缺少相应的技术和工具的支持。所以,大数据从12 个象限的角度来说,还是起步中的起步,因为里面还有一些非常基本的问题到现在还没有解决。大数据的形态有很多,现在仍然是非常雏形的阶段。数据的集成,尤其是跨行业、跨不同的部门、跨各种技术能集成起来的机会还是非常少的。”
EMC[8]说:“大数据并不是一个准确的术语;相反,它是对各种数据(其中大多数是非结构化的)永不休的积聚的一种表征。它用以描述那些呈指数级增长,并且因太大、太原始或非结构化程度太高而无法使用关系数据库方法进行分析的数据集。不论是数TB 还是数PB,数据的精确数量不如最终结果及数据如何使用重要。”
EMC 的大数据定义更强调大数据中的价值(Value),特别是商业价值。大数据之所以流行,其主要的原因就是它能够给企业的核心业务带来直接的价值。具体的讲,大数据能够帮助企业:发现新的收入增长点;
?优化和完善现有的收入和/或利润空间;
?获得超过其竞争对手的竞争优势。
上述定义中已经提到大数据有多种特征,其中最具代表性的是3 个V。除了上述业内主流的以大数据3V 特征为基础的定义,还有使用3S 或者3I 描述大数据特征的定义。
3S 分别是Size(大小)、Speed(速度)和Structure(结构)。实际上,这个维度的特征与3V 是异曲同工的,除了用词的不同,并没有太大的差别。
大数据的3I[9]指的是:
(1)Ill-defined(定义不明确的):多个主流的大数据定义都强调了数据的规模需要超过传统方法的处理能力。而随着技术的进步,数据分析的效率不

断提高,符合大数据定义的数据规模也会相应的不断变大,因而并没有一个明确的标准。
(2)Intimidating(令人生畏的):从管理大数据到使用正确的工具获取它的价值,利用大数据的过程充满了各种挑战。
(3)Immediate(即时的):数据的价值会随着时间快速衰减。因此为了保证大数据的可控性,需要通过减少数据收集到获得数据洞察之间的时间,使得大数据成为真正的即时大数据。这意味着能尽快地分析数据对获得竞争优势是至关重要的。
总而言之,大数据是个动态的定义,不同行业根据其应用的不同有着不同的理解,其衡量标准也在随着技术的进步而改变。下面我们来观察一下大数据存在的形式


相关文档
最新文档