大数据的产业价值(上).doc
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据的产业价值(上)
清华大学教授
大家好,我是来自清华大学的汪东升,今天我们讨论的题目是“大数据的产业价值”。
目前,“云计算”、“物联网”、“智慧城市”、“互联网+”、“工业2.0”以及“大数据”这些热词,我们几乎每天都能听到。
很多政府报告,包括各种媒体,都把这些热词称为第三次浪潮,也是第三次的革命,也有些报告指出这是弯道超车的一个机会。
为此,我结合这些热词,以大数据为重点探讨一下大数据的产业价值以及与其他热门名词的相互关系,以便于我们在弯道的时候做到真正超车。
我主要介绍以下三个方面:第一,大数据及其相关概念的理解;第二,大数据的产业价值;第三,问题与建议。
一、大数据及其相关概念的理解
(一)大数据概念及其特点
这是我们从阿里PPT上摘录的一页。
这是目前互联网上每60秒发生的事情,大家都能体验到。
比如全球IP网一分钟可以传送639TB以上的数据,我们用Facebook、微信、 Twitter 等社交媒体、社交网络发生若干次的访问,增量也是非常巨大的。
比如苹果的应用下载 4.7万亿次,以及其他方面的应用都是海量的数据。
可以这样讲,在2015年要用五年时间才能看完互联网上一秒内所存的视频,可见信息量之大,以及增长速度之快。
由于数据量不断增加,会出现数据爆炸,知识反而是贫乏的,同时难以决策,对我们的决策带来更大的困难。
从数据角度来说,可以有利于行业细分、数字化、多媒体、多维度、大规模和细粒度。
从数字中,我们得到一些关联、模式、趋势、相关性关系以及分类,继而为决策提供支持,包括市场定位、资金分配、产品选择、广告营销、时机选择以及位置选择。
因此我们说,大数据时代到来了。
1、大数据概念的发展脉络
大数据概念的发展脉络,我们简单地归结为以下这几个流程:2008年,最初是在《Nature》自然杂志上推出了一些大数据的装刊,对大数据的基本概念作了一些阐述;2010年4月21日,这个概念首次列入维基百科的条目,并指出“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据结合”;2011年2月,Science推出专刊,说明大数据对于科学研究的重要性;在2011年5月,麦肯锡全球研究院发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域》,推动了工业性和学术界对大数据的关注,报告提出,大数据是指具有以下三个特征的数据:大数据量、快速增长及多数据来源和类型;2011年11月,IBM在产品发布会上主推大数据的概念,并概括为4个v的特性,也就是大规模、多样化、快速增长以及潜藏价值;2012年,美国国家科学基金发布大数据指南,指出大数据是海量、多样、分布、异构的数据。
2、大数据的构成
所谓大数据是指大交易数据、大交互数据和大数据处理的统称。
大交易数据包括在线的交易处理、在线的分析处理以及数据仓库等。
大交互数据就是我们经常用的Facebook、
Twitter等等这些社交媒体数据。
这些数据集成在一起对于大数据的集成、分析以及决策提供了方便。
从这张图上可以看出大数据的构成,大数据包括交易数据和交互数据在内的所有数据集,因此大数据等于海量数据加上复杂类型的数据。
所谓海量交易数据,就是我们经常用的数据库数据,企业内部的经营交易信息,主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态历史数据,我们进行查询统计能了解过去发生的事情。
另外一种是海量交互数据,比如Facebook、Twitter、LinkedIn 以及微信等等,以及其他来源的社交媒体或社交构成,它包括呼叫详细记录CDR、设备和存储传感信息、GPS 和地理定位映射信息、通过管理文件传输管理文件协议的海量图片文件,还有点击数字量、科学信息、电子邮件等等,可以预测未来,这些数据大多数是非结构化的数据。
对于这样的结构化数据和非结构化数据需要进行海量数据的处理,大数据的涌现已经催生出了设计用于数据密集型处理的架构,比如一些科研架构,我们经常说的就是Hadoop等。
3、大数据的基本概念
关于大数据没有标准的定义,这是一个英文的定义:大数据是一种数据,它具有可扩展性、多样性、复杂性的特点,它需要一种新的架构、新的技术、新的算法以及新的分析工具去管理这些数据,同时从中抽取隐含在内的重要信息,这就是大数据的概念,它谈不上是一个定义。
关于大数据的概念,我们的理解是:大数据是指数据海量、计算复杂的数据集合,在一定时间内难以依靠已有数据处理技术来进行有效的采集、管理和分析,通常可以用4v特点来表示。
这也不是一个标准的定义,只是一个概念,目前数据量不断地增大,类型不断地增多,我们现在的技术、结构和算法还无法支撑它、分析它,这是一个难题。
4、大数据的特点
4v特性主要是规模巨大、产生高速、形式多样、信息价值这4个v特性。
规模巨大是指,非结构化数据的超大规模比结构化数据增长10倍到50倍;产生高速是指速度产生是非常巨大的,实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效,要求它的实时性;形式多样也就是我们所说的异构性,数据包括文本、图象、视频、机器数据,模式不明显,语法语义也不连贯;信息价值就是大量不相关的信息,对未来趋势与模式的深度复杂分析,通过这些分析能得到我们所用的信息。
因此,大数据就像“航母”,利用起来威力巨大,放着不动也消耗巨大。
(1)规模巨大
首先,规模是巨大的,从TB级别到PB一直到ZB的级别。
关于数据的度量尺度,我们可以看一下, TB是10的12次方, PB是10的15次方,ZB达到10的21次方。
大数据包括互联网的数据,2011年产生量是1.8ZB,以每本书10兆字节来计算,这个数据相当于700万个中国国家图书馆的容量,可见它的数据是非常大的。
同时还有医疗保健数据、海洋气象数据以及基因工程等方面的数据。
美国国立基金研究所宣布,“千人基金计划”所产生的数据总量已达到200TB,成为世界上最大的人类基因变异数据集。
(2)产生高速
数据持续产生高速,并要求实时处理。
我们看一下电信运营数据,联通上网记录每秒83
万条,每月1万亿条,大概300TB的容量;天文数据五年的总数据量可以达到15PB;还有企业运行数据,到2000年时,全球新产生的数据量为1000PB到2000PB,到2010年全球企业一年存储的数据量超过7000PB,这是产生高速的一个特点。
(3)形式多样
数据来源和数据通道也是多方面的,比如多样化的数据来源,从Twitter、谷歌、Facebook、手机等等各种终端来的数据也是非常丰富多彩的。
因此下一个特点是形式多样,各种类型的数据,包括语音、图片、音频、视频、地理位置信息等非结构化数据,个性化数据占绝大多数。
大数据时代,数据呈爆炸的趋势,internet一分钟发生了639TB的网络流量,同时有两亿封邮件、70万份的Facebook更新、30小时的YouTube新增视频、70万个谷歌搜索,可见数据是爆炸性的增长,不断产生的。
(4)信息价值
从信息的价值角度来说,可用信息在数据总量中的比例低,其潜在价值是巨大的。
每一个信息给我们的信息量是非常小的,但是把它们归结在一起,通过有效的手段进行提取分析会得到非常有用的高效信息。
以视频为例,7X24小时的全程视频监控中,可能有用的数据仅仅只有一两秒,有用信息在数据总量中的比例低,但是潜在的价值是非常大的,比如大量的视频中我们可以找到犯罪嫌疑人,杀人恶魔周克华就是从这种视频监控的海量信息中查找出来的。
大数据时代的市场空间非常巨大,数据已经成为一种资产,像货币和黄金一样,“21世纪的原油”这种说法可不是随便说的,说明数据对于我们国家的战略、对国民技术发展起到非常重要的作用,就像原油一样。
全球未来5年58%的增速,到2017年可以达到500亿美元。
中国2013年增速为138%,2016年市场将达到100亿,这就是2012年到2017年的增速情况,几乎呈线性增长。
2012年到2017年,中国的大数据市场规模也非常巨大,2011年被称为中国大数据的市场元年,2012年到2016年迎来了大数据飞速发展时期,2012年中国大数据市场规模达到4.7亿元,2013年大数据市场迎来增速138%的飞跃,到2016年整个市场规模逼近百亿。
这是2012年各行业大数据的市场规模,政府、互联网、电信、金融的大数据市场规模较大,4个行业将占据一半的市场份额,由于各个企业都存在大数据应用需求,潜在市场空间是非常巨大的,这里面包括政府、互联网、电信、流通、金融、医疗、制造、零售、教育、能源等等各个方面的市场规模情况。
刚才我们总结了大数据的4v特点,同时大数据在不同行业中也呈现出不同的特点,在银行、保险、政府、零售、批发等应用中的数据特点是不一样的。
比如在数据量方面,健康医疗的数据量是失踪的,不是特别多,而在银行保险方面,数据量是非常大的;对于速度的要求,比如银行、保险的速度也非常快,对批发这种行业来说,它的数据产生速度就相对要小很多;同时,各个行业没有利用的所谓“黑数据”也不一样。
(二)相关概念与关系分析
从计算机发展来看,大数据经过架构化、数字化、网络化以及智慧化发展的流程。
智慧化反映的特点就是移动互联网、云计算、物联网和大数据。
大数据不是独立存在的,它的产生、处理以及利用一定要与我们所接触的一些概念相关联,相关概念包括云计算、物联网以
及与大数据之间的关系,这三者是相辅相成的。
这是我在西安看到的一个出租车,出租车上面的广告牌同时出现“关爱社会、关爱自然”,这就是所谓的云广告,这种视觉效果非常好,一般来说出租车广告牌我是不看的,但是每辆出租车同时出现的字我就会关注,这是所谓云广告的具体应用。
马航失事的飞机叫MH370,如果云计算应用于飞机的黑匣子,那么与我们现在用的黑匣子技术相结合是非常圆满的一件事情,空中乘客可以上网,这种云匣子可以通过各种传感信息、湿度、温度以及摄像等等数据及时地传到地面上,从技术角度来说已经不成任何问题,这对以后查找事故信息是非常方便的。
另外,云计算过去对于维护、人员、培训、运维等等方面会带来很大的好处,同时在安检的可靠性、水电、安保方面也有很大的优点。
什么是云计算?云计算概念也是众说纷纭,没有统一的定义,现在很多定义尝试着从学术架构、工程师、开发人员、管理人员等不同的角度去定义。
这是维科百科的定义:云计算是一种基于互联网的计算方式,通过这种方式共享了软硬件资源和信息,可以按需提供给计算机和其他设备。
我们认为,云计算是指服务的交互和使用模式,用户通过网络以按需、易扩展的方式获得所需的服务。
因此,云计算不是概念,不是操作,不是口号,不是超级计算,也不是网格计算。
云计算包括后续提出的海计算、框计算、风计算等等,它应该是一种新的创新模式、商业模式、新的运营模式,是成本、效用、应用至上,是大众参与的一个舞台。
云计算的实质,简单说就是计算虚拟化、存储虚拟化、网络虚拟化的结合,继而实现数据更新的虚拟化过程。
我把住房和云计算结合在一起,目的是说明云计算和这种概念一起接受的容易程度。
从住房角度来说,我国住房小康指数各个城市的住房自有率是不同的,
《中国家庭金融调查报告》中国住房自有率是89.68%,世界平均是60%,瑞士是31%,随后是瑞典和德国。
住房自有率最高的是亚美尼亚,1998年达到最高值96.3%。
住房自有率高的国家几乎都是经济水平发展比较低的转轨国家,而住房自有率低的国家则是经济发达的国家。
由于发达国家人口流动性强,为了减少住房买卖的麻烦,很多人宁愿租房而不是买房。
相反,落后国家人口流动性差,拥有自有住房的家庭反而更可能居住在自己拥有的家庭中。
因此,虽然云计算在我们国家风起云涌,也用得比较好,其实在接受程度上应该说是和住房一样,还是有一定的难度。
举例说明,比如北京北五环的房子一平方在5万以上,120平方的房子需要600万以上的钱去购买,假如我不买房,靠600万靠投资理财,假如每年有5%到10%的收益,那一年可以收30-60万的收益。
考虑到物价的增长,我把这些钱放到一个地方进行理财,靠这些利息完全可以在北京租房的价格下进行租房,比如每个月用租金一万,相比120平方的住房,无需物业费、维修、维护、折旧的房产税等等,这就是租房和住房的概念。
所谓租房的概念,就像云计算资源一样具有服务的意识和理念,买房和租房这种理念和云计算资源的租用其实是一样的。
另外,从住房的云计算做的比较,云计算安全是最重要的,那是不是云计算就一定安全?以住房为例说明云计算的安全问题,这也是一个双刃剑。
比如现在我可以不住房,可以租房或者住宾馆。
以住宾馆为例,假如一年用30万到60万住宾馆,其实我未必每天都住,我可以想住就住,可以不住的时候可以住在朋友家或者父母家里面,客房的卫生、餐饮都不用管,
这也都是云计算能提供的方便,同时我可以拎包入住,这就是云计算所说的PaaS、SaaS 的概念。
安全是双刃剑,为什么?有的人说云计算是非常安全的,我不认可,有人说住在家
里非常安全我也不认可。
宾馆安全还是家里安全?我们认为宾馆是安全的,因为宾馆有保安
我们家里没有保安,但是如果把钱放在宾馆里面,放在床上和放在家里,这时候安全度又是
不一样的。
这就说明了宾馆里面可能还会存在内鬼,那云计算也是如此,云计算的基础设施、
安全设施是非常完备的,从总体来看是安全的,但是你的数据放在云里面,对这种云的管理
来说又是不安全的,因为它可能有内鬼。
云计算的关键技术包括虚拟化、安全、可靠、绿色节能等等很多方面。
云计算安全问题
是云计算得以应用发展的一个最大障碍,表现在几方面:第一,虚拟化技术带来新的安全威
胁;第二是数据集中存储引发的安全问题;第三是云服务和管理和调度产生的安全问题,以
及传统安全威胁的一些新特点,会引起新的问题。
这是对云计算面临的问题进行的一个设计
图,从使用者角度来说,隐私数据保护和数据安全,运行环境的安全以及内容安全,都是他
所关心的。
这个安全问题主要是在这么几个方面:云计算安全问题主要在用户角度、运营商
角度、国家和第三方监管部门的角度都存在着安全,这个安全就像一个多米诺骨牌效应,一
旦这三方面有一方面倒塌,那整个安全就有很大的问题。
在云计算方面主要存在的问题有哪些?简单的说,目前我国的形势是重设施、轻应用,
行业地域特色要求云计算发展模式的差异化,但是花钱买服务和服务意识的加强还有待于提
高。
另外,安全隐私是大问题,安全的意识、技术和立法方面还有所欠缺,以及云计算个性
化和标准化的矛盾也是目前存在的主要问题。
我们还经常提到一些概念,比如智慧城市带动行业云的发展,智慧城市需要数据的融合。
目前,各个城市、各个部门存在的大量信息孤岛也存在了很多大数据,是智慧城市产生大数
据的一个源泉,同时也是大数据为智慧城市提供重要的一个基础。
智慧城市要求物联网和云
计算的结合,云计算是物联网的基础,物联网则是一种应用,云手机、云电视是一种终端多
样化的体现,云服务器虚拟化是一种成本架构。
有人经常会问我,我的单位是不是一定要有
云?是不是一定要把我的信息存到云里面?我说未必,这要根据情况来看,根据你的成本结
构,根据你的访问速度等等,进行综合化的考虑。
另外大数据的收集、存储、管理、分析离
不开云计算,云是大数据的重要来源,也是归宿之一。
这是一个简单的云计算、物联网和大数据的关系。
云计算、物联网的核心是数据,数据
不能以单独形式存在,云计算是一种计算和业务模式,物联网是一种应用模式,而大数据则
是财富、资产和隐性货币。
这是三者之间关联的示意图,这是我在一本书上看到的,这里是
一个大脑,前面的视觉、触觉、听觉等等,就相当于物联网进行虚拟的听觉系统、虚拟的视
觉系统、虚拟的感觉系统、虚拟的运行系统,通过物联网进行音频、视频等内容的采集。
后
面是传统的互联网介入,笔记本、台式机进入物联网也是获取数据,还有移动物联网通过手
机终端、IPAD等等也可以获取一些数据。
这些数据就是大数据的来源之一。
这些大数据在我
们大脑里经过软件以及硬件的处理就可以提供一些决策信息,挖掘出有用的东西,这个大脑
就相当于云计算平台,是处理和获取大数据的一个平台,在这个平台基础上大数据进行存储、
组织、管理,同时对大数据进行分析,这就是三者之间的关联示意。