云计算与大数据
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
云计算与大数据
胡经国
本文作者的话
本文是根据有关文献和资料编写的《漫话云计算》系列文稿之一。
现作为云计算学习笔录,奉献给云计算业外读者,作为进一步学习和研究的参考。
希望能够得到大家的指教和喜欢!
下面是正文
一、大数据的定义
表述1
“大数据”是指一个数据集,它的尺寸大到已经无法由传统的数据库软件工具去采集、存储、管理和分析。
“Big Data” referes to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. MGI May,2011 "大数据''是指一个数据集,它的尺寸的增长已经让现有的数据库管理工具相形见细,这些困难包括:数据采集、存储、搜索、分享、分析和可视化。
Big data are datasets that grow so large that they become awkward to work with using on-hard database management tools. Difficulties include capture, storage, search, sharing, analytics, and visualizing. Wikipedia
表述2
大数据(big data),是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
从数据的类别上看,大数据是指无法使用传统流程或工具处理或分析的信息。
它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
表述3
大数据是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到掘取、管理、处理、并整理成为帮助企业经营决策达到更积极目的的资讯。
表述4
麦肯锡公司:大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。
表述5
美国咨询公司麦肯锡对大数据的定义,就是从个体数据集的大体量入手
的:大数据是指那些很大的数据集,大到传统的数据库软件工具已经无法采
集、存储、管理和分析。
传统数据库有效工作的数据上限,一般来说在10〜100TB;因此,10〜100TB通常成为大数据的门槛。
无独有偶,IDC在给大数据做定义时,也设在100TB。
其实,这种方法未
必科学。
不管怎样,有一个简单明晰的数值来指导企业大数据的判断,总是好事。
表述6
维基百科对大数据的定义:所谓大数据在当今的互联网业是指这样一种现象:一个网络公司日常运营所生成和积累用户网络行为数据“增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、存储、搜索、共享、分析和可视化等方面。
”这些数据量是如此之大,已经不是以我们所熟知的多少G和多少T为单位来衡量,而是以P, E或Z为计量单位,所以称之为大数据。
表述7
国际数据公司(IDC)从大数据的4V特点来定义,即:海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。
表述8
大数据是指以多元形式、从许多来源搜集而来的往往具有实时性的庞大数据组。
在企业对企业销售的情况下,这些数据可能得自社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。
这些数据,并非公司顾客关系管理数据库的常态数据组。
表述9
大数据是指所涉及的数据量规模巨大到无法通过人工、在合理时间内达到掘取、管理、处理、并整理成为人类所能解读的信息。
大数据的特征,除了巨大、快速、多样多变之外,没有其他。
因此,大数据本质上还是数据。
表述10
故名思意,大数据便是数量巨大,类型众多,结构复杂的数据集合。
数据具有较小的价值;而数据集合因为数量的众多,量变引起的质变,所以其价值无可估量。
表述11
大数据是所有数据的集合,具有4V特征,即数据量大(Volume)、数据类型多样(Variety )、生成速度快(Velocity ),以及蕴含巨大价值(Value )o
二、大数据的特性
1、大数据4V特性解读(1)
大数据的4V特性是:Volume (大量)、Velocity (高速)、Variety (多样)、Value (价值)。
大数据的4V特性,或者说大数据的特性有四个层面:
⑴、数据体量巨大
从TB级别,跃升到PB级别。
最小基本单位是状3按顺序给出所有单位:bit (比特,二进制信息单位)、Byte (字节,1 字节=8 位二进制)、KB、MB、GB、TB、PB、EB、ZB、YB、 BB、 NB、 DB。
它们按照进率1024 (=21)来计算,即:
1 Byte = 8 bit
1KB (Kilobyte,千字节)=1024 Bytes = 1024B
1MB (Megabyte,兆字节,简称兆)=1024 KB
1GB (Gigabyte,吉字节)=1024 MB
1TB (Terabyte,太字节)=1024 GB
1PB (Petabyte,拍字节)=1024 TB
1EB (Exabyte,艾字节)=1024 PB
1ZB (Zettabyte,泽字节)=1024 EB
1YB (Yottabyte,尧字节)=1024 ZB
1BB (Brontobyte)=1024 YB
1NB=1024 BB
1DB=1024 NB
⑵、数据类型繁多
包括网络日志、视频、图片、地理位置信息等等。
⑶、价值密度低
以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
⑷、处理速度快
要求满足1秒定律。
1秒定律,或称秒级定律,是指对大数据处理速度有要求;一般要求在秒级时间范围内给出分析结果,时间太长就失去价值了。
这个速度要求是大数据处理技术和传统数据挖掘技术最大的区别。
2、大数据4V特性解读(2)
虽然有多种解读,但业界一般认为,大数据有4V特性:Volume (容量), Variety (种类),Velocity (速度)和最重要的Value (价值)。
⑴、Volume (容量)
Volume是指大数据巨大的数据量与数据完整性。
IT业界所指的数据,诞生不过60多年。
而一直到个人电脑普及之前,由于存储、计算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号,并未形成数据。
几十年
前,气象、地质、石油物探、出版业、媒体业和影视业是大量、持续产出信号的行业,但那时90%以上采用的是存储模拟信号,难以通过计算设备和软件进行直接分析。
拥有大量资金和人才的政府和企业,也只能把少量最关键的信号,进行抽取、转换、装载到数据库中。
尽管业界对达到怎样的数量级才算是大数据并无定论,但在很多行业的应用场景里,数据集本身的大小并不是最重要的,是否具有完整性才是最重要的。
⑵、Variety (种类)
Variety意味着要在海量、种类繁多的数据间发现其内在关联。
互联网时代,各种设备通过网络连成了一个整体。
进入以互动为特征的Web2.0时代,个人计算机用户不仅可以通过网络获取信息,还成为了信息的制造者和传播者。
这个阶段,不仅是数据量开始了爆炸式增长,数据种类也开始变得繁多。
这必然促使我们对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的关联性,把似乎没有用的数据变成有用的信息,以支持我们做出的判断。
⑶、Velocity (速度)
Velocity可以理解为更快地满足实时性需求。
数据的实时化需求正越来越清晰。
对普通人而言,开车去吃饭,会先用移动终端中的地图查询餐厅的位置,预计行车路线的拥堵情况,了解停车场信息甚至是其他用户对餐厅的评论。
吃饭时,会用手机拍摄食物的照片,编辑简短评论发布到微博或者微信上。
还可以用LBS (基于位置的服务)应用查找在同一间餐厅吃饭的人,看有没有好友在附近……
如今,通过各种有线和无线网络,人和人、人和各种机器、机器和机器之间产生无处不在的连接。
这些连接不可避免地带来数据交换。
而数据交换的关键是降低延迟,以近乎实时(这意味着小于250毫秒)的方式呈献给用户。
⑷、Value (价值)
比前面3个V更重要的就是Value。
它是大数据的最终意义:获得洞察力和价值。
大数据的崛起,正是在人工智能、机器学习和数据挖掘等技术的迅速发展驱动下,呈现这么一个过程:将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。
就大数据的价值而言,就像在沙子里淘金,大数据规模越大,真正有价值
的数据相对越少。
所以真正好的大数据系统,重要的不是越多越好,其实越少越好。
开始数据要多,最好还是要少,把ZB、PB最终变成一个比特,也就是最后的决策。
这才是最关键的。
3、大数据的海量、多样性、高速、易变性
⑴、海量
企业面临着数据量的大规模增长。
例如,IDC最近的报告预测,到2020 年,全球数据量将扩大50倍。
目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。
简而言之,存储1PB数据将需要两
万台配备50GB硬盘的个人电脑。
止匕外,各种意想不到的来源都能产生数据。
例如,从巴塞罗那至沙特首府利雅得的单程航行中,一架商用喷气飞机上收集的传感器数据量将超过1PB。
当用一次飞行的数据量,乘以每天所有飞行的航班数,数据总量将非常惊人。
⑵、多样性
普遍认为,人们使用互联网搜索是形成数据多样性的主要原因。
这一看法部分正确。
然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。
其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。
⑶、高速
高速描述的是数据被创建和移动的速度。
在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。
企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。
根据IMS Research研究机构关于数据创建速度的调查,通过跟踪互联网设备的激活量,发现联网设备增长的第二波浪潮正在加速到来。
本轮增长后,将涌现更多新型互联网设备增长的浪潮。
据预测,到2020年,全球将拥有220亿部互联网连接设备。
⑷、易变性
大数据具有多层结构。
这意味着大数据会呈现出多变的形式和类型。
相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。
传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软件识别。
目前,企业面临的挑战是,处理并从以各种形式呈现的复杂数据中挖掘价值。
4、大数据七大特性
⑴、容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息。
⑵、种类(Variety):数据类型的多样性。
⑶、速度(Velocity):指获得数据的速度。
⑷、可变性(Variability):妨碍处理和有效地管理数据的过程。
⑸、真实性(Veracity):数据的质量。
⑹、复杂性(Complexity):数据量巨大,来源多渠道。
⑺、价值(value):合理运用大数据,以低成本创造高价值。
5、记者访谈:大数据有多大
据报道,有记者就大数据有关问题进行了访谈。
记者:对于大数据,有一个形象的说法:现在即使是一个孩子,也可以把一个小小的存储器放入书包,随身携带TB级的数据去学校上课,甚至把整个
人类文明背上都不是问题。
经过大量数据的训练和装备,未来的电子产品或者机器可以成为“大有裨益的终身数据伴侣:它可以预测你是想要一包方便面还是一颗感冒药;你想去旅游还是选择最不堵车的路线去看球赛;甚至还能以你的名义饱蘸激情投入工作。
大数据这个概念,看似从字面就能理解;但确实以前没有这么火过。
首先,我们想知道的是,大数据到底有多大?
吴甘沙:互联网搜索、电子商务交易平台和微博等社交网站,产生的各种数据内容,经常被用来证明大数据之大。
其实,在传统产业和我们的生活中,大数据也比比皆是。
以北京交通为例,北京市交通智能化分析平台,它的数据源来自路网摄像头/传感器、地面公交、轨道交通、出租车,以及省际客运、旅游、化危运
输、停车、租车等运输行业等。
4万辆浮动车,每天产生2000万条记录;交通卡刷卡记录,每天1900万条;手机定位数据,每天1800万条;出租车运营数据,每天100万条;高速ETC (Electronic Toll Collection,(不停车)电子收费(系统))数据,每天50万条……这些,从数据体量和速度上,也达到了大数据的规模。
发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、前人所不能的机会。
这也正是大数据最主要的特点。
比如,交通状况与其它领域的数据都存在较强的关联性。
有研究发现,可以从供水系统数据中发现,晨洗的高峰时间,加上一个偏移量,通常是40〜45 分钟,就是交通早高峰时间。
同样,可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量来估计出晚上的堵车时点。
国外的研究甚至发现了交通事故率与睡眠质量的关联,以及与社交网络情感波动的相关性。
记者:IT业界所指的数据,诞生不过60多年。
而一直到个人电脑普及
前,由于存储、计算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号,并未形成数据。
大数据有没有一个“门槛”?一些定义准确吗?
吴甘沙:国际数据统计机构IDC,对全世界每年创建和复制的信息的体
量,做了估计和预测:2011年1.8ZB, 2012年2.828。
按照每两年翻一番的速度,2020年将达到40ZB。
这个数据怎么算出来的?IDC秘而不宣。
1.8ZB什么概念?相当于4500亿张DVD,或6500万年的高清视频,或是1130亿台装满数据的iPad。
如果把这些iPad覆盖到足球场,并往上堆叠,高度将达到10.3公里,比珠穆朗玛峰还高。
思科公司也有一个类似的预测:2016年数据移动的总量达到1.3ZB。
其实,所有这些数据加起来都不如谷歌的前CEO施密特说法有感染力:从人类文明曙光到2003年数以万年计的时间长河里,人类一共产生了5EB (天知道他怎么算出来的),而到2010年每两天人类就能产生5EB的数据。
这类数据的预测,对于存储和网络企业的投资者来说,无疑能提升信心;但对其他人来说,没有太大意义。
他们更关心的是个体行业、企业和个人数据的状况。
美国咨询公司麦肯锡对大数据的定义,就是从个体数据集的大体量入手的:大数据是指那些很大的数据集,大到传统的数据库软件工具已经无法采集、存储、管理和分析。
传统数据库有效工作的数据上限,一般来说在10〜100TB;因此,10〜100TB通常成为大数据的门槛。
无独有偶,IDC在给大数据做定义时,也设在100TB。
其实,这种方法未
必科学。
不管怎样,有一个简单明晰的数值来指导企业大数据的判断,总是好事。
6、大数据的三种特性
⑴、大数据特性之一:数据的完整性和综合性
大数据的特性之一是数据的完整性和综合性。
很多业内朋友一谈起大数据,就习惯性地盘点起自己那点存货,或者那些可以直接从自身服务中可以获取的东西。
考虑到目前互联网的发展还在非常初级的阶段,现有网络服务都是简化、扭曲、片面地对现实世界的浓缩和裁剪。
由此产生的数据是零乱的、破碎的、局部的;其中所含有的含金量是极其有限的。
如果同意这个世界上的万事万物可以而且正在被数据化和网络化,那么由此产生的大数据就必然是完整的和综合的。
它不仅包括网络公司通过自身服务所获得的用户行为数据,而且包括社会的、经济的、政治的、自然的方方面面的数据。
这些数据当然分散在不同企业、机构和政府部门手中,汇聚整合在一起绝非易事。
但操作上的困难并不能否定大数据本身的完整性和综合性。
今天之所以讨论大数据时代的到来,是因为互联网发展到目前阶段使得现实世界数据化发展到了一定程度,各种信息终端普及到了一定程度,数据获取的成本降到了一定程度,使得完整和综合的数据不仅是一种理想,也正在变为现实。
⑵、大数据特性之二:数据的开放性和公共性
大数据的特性之二是数据的开放性和公共性。
正是因为完整、综合的大数据难以由一家公司、机构或政府部门所获得,所以大数据必然产生于一个开放的、公共的网络环境之中。
这种开放性和公共性的实现,取决于若干个网络开放平台或云服务以及一系列受到法律支持或社会公认的数据标准和规范。
任何封闭的或单向获取的数据,都不可能是大数据,无论这些数据的规模有多大。
⑶、大数据特性之三:数据的动态性和及时性
大数据的特性之三是数据的动态性和及时性。
天体物理学和理论物理学早就依赖于从宇宙间获取的大量数据。
类似的学科还有:环境生态学、医药学和自控技术。
但是,这和我们今天讨论的大数据不是一回事。
今天的大数据是基于互联网的及时动态数据,不是历史的或严格控制环境下产生的东西。
所以,今天我们谈论的大数据是完整综合的、开放公共的、动态及时的。
这样的大数据是我们过去从未有机会获取利用过的全新挑战,也是我们未来应该努力去争取利用的全新战略机会。
如果有人以为过去积累的那点数据就是大数据,或者过去积累的数据处理利用能力和经验就可以在大数据时代自然领先,那不是无知就是狂妄。
三、大数据的价值
1、记者访谈:大数据的价值在于获得洞察力和价值
据报道,有记者就大数据有关问题进行了访谈。
记者:虽然有多种解读,但业界一般认为,大数据有四个“V”字开头的特性:Volume (体量),Velocity (速度),Variety (种类),Value (价值)。
这其实也是大数据概念的组成。
Volume是指大数据巨大的数据量与数据完整性;
Velocity可以理解为更快地满足实时性需求;而Variety则意味着要在海量、种类繁多的数据间发现其内在关联;Value最重要,它是大数据的最终意义——获得洞察力和价值。
简单说,大数据4个V:就是体量大,快速化,类型杂,价值大。
张亚勤:体量容易理解。
速度可以理解为更快地满足实时性需求。
数据的实时化需求正越来越清晰。
对普通人而言,开车去吃饭,会先用移动终端中的地图查询餐厅的位置,预计行车路线的拥堵情况,了解停车场信息甚至是其他用户对餐厅的评论。
吃饭时,会用手机拍摄食物的照片,编辑简短评论发布到微博或者微信上,还可以用LBS(Location Based Services,基于位置服务)应用查找在同一间餐厅吃饭的人,看有没有好友在附近……
通过各种有线和无线网络,人和人、人和各种机器、机器和机器之间,产生无处不在的连接;这些连接不可避免地带来数据交换。
而数据交换的关键,是降低延迟,以近乎实时——意味着小于250毫秒的方式呈献给用户。
类型杂必然促使我们对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的关联性;把似乎没有用的数据变成有用的信息,以支持我们做出的判断;最终形成大数据的价值——获得洞察力和价值。
大数据的崛起,正是在人工智能、机器学习和数据挖掘等技术的迅速发展驱动下,呈现这么一个过程:将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。
所以,真正好的大数据系统,重要的不是越多越好,其实越少越好,最终变成一个决策,这才是最关键的。
2、大数据价值具体体现
大数据最核心的价值,在于对于海量数据进行存储和分析。
相比现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。
大数据的价值并不在“大”,而在于“有用”。
价值含量、挖掘成本,比数量更为重要。
对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。
大数据的价值具体体现在以下几个方面:
⑴、对为大量消费者提供产品或服务的企业,可以利用大数据进行精准营销;
⑵、对做小而美模式的中长尾企业,可以利用大数据做服务转型;
⑶、在面临互联网压力之下必须转型的传统企业,需要与时俱进充分利用大数据的价值。
3、大数据和高性能的分析对企业有益的情况
在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。
企业组织利用相关数据和分析,可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。
例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:
一⑴、及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美
元。
⑵、为成千上万的快递车辆规划实时交通路线,躲避拥堵。
⑶、分析所有SKU,以利润最大化为目标来定价和清理库存。
⑷、根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。
⑸、从大量客户中快速识别出金牌客户。
⑹、使用点击流分析和数据挖掘来规避欺诈行为。
链接:SKU
SKU(Stock Keeping Unit,库存量单位),即库存进出计量的基本单元,可以是以件,盒,托盘等为单位。
SKU是大型连锁超市DC (配送中心)物流管理的一个必要的方法。
现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。
单品:对一种商品而言,当其品牌、型号、配置、等级、
花色、包装容量、单位、生产日期、保质期、用途、价格、产地等属性与其他商品存在不同时,可称为一个单品。
链接:点击流分析
点击流数据(Clickstream Data),随着Web技术的不断发展,电子商务活动客户对企业网站的每一次点击都会被企业网络服务器记录在日志中,由此产生了点击流数据。
对于一个网站来说,点击流分析(Clickstream Analysis),有时也叫做点击流分析学(Clickstream Analytics),是收集、分析和汇报有关访客访问哪个页面、访问页面的顺序以及每个访客鼠标连续点击的结果(即点击流)的整体数据的过程。
点击流分析有两种水平,分别是访问流量分析和电子商务分析。
链接:数据挖掘
数据挖掘(Data Mining,DM),又译为资料探勘、数据采矿。
它是数据库知识发现(Knowledge-Discovery in Databases,KDD)中的一个步骤。
数据挖掘一般是指从大量的数据中,自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
四、云计算与大数据的关系
1、云计算与大数据的关系概说
云计算和大数据是一个硬币的两面。
云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用。
云计算是大数据成长的驱动力,而另一方面,由于数据越来越多、越来越复杂、越来越实时,这就更加需要云计算去处理,所以二者之间是相辅相成的。
30年前,存储1TB数据的成本,大约是16亿美元。
如今存储到“云”上,只需要不到100美元。
但是,存储下来的数据,如果不用云计算进行挖掘和分析,就只是僵死的数据,没有太大价值。
目前,云计算已经普及并成为IT行业主流技术,其实质是在计算量越来越大、数据越来越多、越来越动态、越来越实时的需求背景下被催生出来的一种基。