大数据下的资源整合和知识共享(上)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据下的资源整合和知识共享(上)
张晨中国科学院软件研究所助理研究员
本次课程的主要目的在于,介绍一下什么是大数据,以及大数据有哪些本质特征。

然后在大数据时代下,它给各行各业带来了哪些影响,这个影响是巨大而深远的。

随着互联网、云计算、大数据等方法的兴起与普及,现代人类社会数据的增长速度已经远远超过以往任何一个时期。

有数据表明,现在互联网上的数据,每一年增长50%,也就是说每两年翻一番,所以说这个速度增长得是非常快的。

同时,数据的体量也是很大。

那么IDC就是国际数据公司,美国的市场调查公司预测,,在2020年全球的数据会达到35个ZB。

ZB是什么级别呢?就是一万亿的GB。

因为我们都知道,电脑的内存一般都是由GB来标示的,这样数据是非常大的,海量。

此外数据的类型也非常多。

比如说互联网上,原来有传统的结构化数据,保存在数据库里面。

现在随着互联网时代的到来,有很多非结构化数据,比如说,新闻、论坛上的一些文本数据,还有视频、音频、用户的点击流、行为数据等,这些数据非常复杂。

在这样一个情况下,大数据这一概念就应运而生了。

现在是大数据时代,它给各行各业,尤其是传统行业,带来了很大的影响,同时也带来了很大的问题,我们称之为大数据带来的大问题。

这些大问题,是很难用传统的方法解决的。

所以给人工智能带来了很大的机遇。

人工智能作为大数据的技术的核心,它承载着解决这些大问题的关键所在。

这里指到的人工智能,主要指的就是大数据的存储技术,比如大数据的挖掘技术,还有继续学习,以及大数据的展示,就是可视化,今天来谈一谈大数据的技术。

首先给各位解释一下一些热词。

比如说什么是“互联网+”,什么是云计算,什么是物联网,什么是工业4.0,还有我们时下热炒的中国制造2025,以及最后给出一个大数据的定义。

然后分析一下国际上,对于大数据的案例以及涉及的相关技术。

大数据涉及我们日常生活中的方方面面,所以今天主要讲一下大数据与政治、文化娱乐,还有公共卫生之间的一些关键。

第三部分,着重对大数据的一些实际项目,进行深入解析,主要聚焦在两个方面,第一个方面是智慧城市,第二个方面是智能社会。

一、热词解释
(一)“互联网+”
首先介绍一下,什么是“互联网+”。

“互联网+”是由2015年3月5日,第十二届全国人民代表大会第三次会议上,国务院总理李克强首先提出来的,他在政府报告中指出,“互联网+”代表一种全新的经济形态,即充分发挥互联网在生产要素配置中的优化和集成作用,将互联网的创新成果深度融合于经济社会各领域之中,从而提升实体经济的创新力和生产力,形成更广泛的以互联网为基础的基础设施和实现工具的经济发展新形态。

互联网行动将重点促进以移动互联网、云计算、物联网、大数据等,与现代制造业相结合。

这里的结合,不是简单的结合,而是一种有机的结合。

它的目的是为了实现产业创新。

那么,到底什么是“互联网+”呢?网络上有个很好的总结。

比如说互联网+时代,“互联网+展销会”就是阿里巴巴,“互联网+商场”就是天猫,“互联网+旅行社”就是携程,“互联网+餐厅”是美团,等等。

那么,互联网到底能够加些什么东西呢?这个slice可以看到,互联网什么实体行业都能够加。

比如说“互联网+商场”,有淘宝、京东商城、天猫。

“互联网+书店”,就是卓越亚马逊。

“互联网+吃饭”,有百度外卖、饿了么、还有大众点评。

“互联网+出行”,就有打车软件,比如说优步、滴滴打车、易到、租车,还有途牛旅行网,这是“互联网+旅游”。

“互联网+支付”,有支付宝,还有余额宝。

“互联网+通信”,几乎每个人人手一个的微信,“互联网+社交”就是微博。

可以说,李克强总理提出的“互联网+”是一个狭义的互联网,因为它是“互联网+现代制造业”。

其实互联网上的“互联网+”,是一种真正的广义上的“互联网+”。

它代表了互联网与任何传统的实体行业的有机结合。

那么,互联网给传统行业带来的影响是什么呢?虽然互联网仅仅出生了30周年,但是它给我们传统行业带来的影响是巨大而深远的。

比如说邮政行业不努力,顺丰就替它努力。

顺丰发明了丰巢,就是利用互联网打通线上与线下的壁垒鸿沟。

银行不努力,支付宝就替它努力。

通讯行业不努力,微信就替它努力。

出租车行业不努力,滴滴快的就替它努力,这说明了什么呢?“互联网+”的影响,它是倒逼这些行业去提高效率,加快创新,这里要注意,而不是代替传统行业。

百度干了广告的事,淘宝干了超市的事,阿里巴巴干了批发市场的事。

这是什么意思呢?就是说互联网已经成为了我们国民经济的一个大的引擎,它是属于一种效率的引擎,创新的引擎。

举个例子,看看它对金融行业有哪些影响,比如说马云发明了支付宝还有余额宝,这样就给普通人民大众带来了比银行更高的收益率。

余额宝在峰值的时候,它的年化收益率是7%。

最近虽然有所下降,但也稳定在2个点以上。

而银行的传统活期,收益率才0.35%,所以说它促进银行进行一个创新改进。

同时,马云发明的支付宝,它比银行更加便捷,因为它的支付还有转帐,是没有手续费的,所以这种方式能够促进银行进行创新。

再来看第二个,零售行业,它对零售行业带来的影响,也是非常巨大的。

我记得80年代出生的人,上大学买电脑都要去中关村去买,当时都是要攒机。

但是现在已经发生了天翻地覆的变化,传统的零售商纷纷部署线上,进行转型电商O2O,这样的话能够砍掉中间环节,使得利润更高。

所以像苏宁易购、国美在线,基本上都是用“互联网+”的思想来进行整合。

那么我们这里给出一个“互联网+”的一个完全定义。

“互联网+”就是互联网与传统行业相融合的一种新形势和新形态。

它是移动互联网、大数据、物联网等与传统行业的结合,是对传统行业的颠覆和改造,但是它不是代替传统行业。

所以说它是一种化学反应,而不是物理反应,它是一种要素的重组。

互联网引发了企业生存环境和企业竞争思维的变化,可以说“互联网+”的思维变革,将使得人们更加关注事物之间的相关关系,而忽略一些因果关系,这也是大数据时代的一种显著特征,它冲击了乃至颠覆了传统的思维模式。

所以说这里的“互联网+”并不是简单的
“互联网+传统行业”,而是一种有机的结合。

所有行业都需要面对“互联网+”时代的竞争特点,进行有效的决策与规划。

这里我举个例子:小米,小米就是利用互联网思维颠覆了传统行业的一个典型。

雷军作为小米的创始人,他将互联网思维凝聚为七个字:专注、极致、口碑、快。

什么意思呢?专注,他跟传统的手机制造商不一样,比如说原来的诺基亚,同一时期推出的机型有50种,但是并不是每一种大家都喜欢,而小米呢,他就专注于做一个机型,所以说他得到了成功。

那么极致是什么意思呢?就是目标聚焦在在线电商、电商直销、O2O,这样就砍掉了很多中间环节。

传统的手机销售商,把手机卖给中间商,中间商再卖给零售商,然后再到消费者手中,这样中间就增加了很多的关卡。

而小米聚焦在电商直销,这样的话利润会更高,而且消费者得到的实惠也更大。

此外,他构建了一个小米的生态圈,来支持到他的网上电商。

小米生态圈包括电商平台、移动互联网,还有智能硬件,从物流、服务等各个方面来支持它。

第三个思维叫口碑,是什么意思呢?小米创建了一个粉丝中心。

粉丝中心现在在线的活跃粉丝用户已经达到30万,也就是说他将用户的需求放在第一位。

比如说他的开发,是将很多用户,比如说发烧友聚集在内的。

发烧友提供一些建议,然后他再进行改进。

此外,还有一个就是他的产品,是叫产品集大成。

这是什么意思呢?就是说他将整个用户的使用过程,囊括在他的生产过程中,使得他的产品能够满足不同用户的不同需要,这也是跟传统的手机制造商不一样。

比如说传统手机制造商,虽然也是以用户为中心,但是传统的广播式的推销,这样的话是不适合新一代在互联网上的用户的。

第四点,什么叫快呢?他的产品创新非常快。

他遵循的是快速迭代、开放众包的方式,也就是将整个API公布出来,让大家都参与这个产品的研发过程。

所以,他的产品,他的小米的操作系统,米优,每个星期就发布一个新版本。

但是比如说传统的诺基亚,它的系统可能三五年都不更新一次,这在现代是无法想象的。

还有比如说苹果现在一年更新一次,还有谷歌是半年更新一次,这样就突出了互联网思维的一个优势所在。

它每个星期就推出一个新产品,这样的话用户的黏性就会更大,这就是“互联网+”的思维。

(二)“云计算”
云计算作为大数据领域的底层支撑,它是什么意思呢?美国国家标准与技术研究院定义,云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池,这里的资源包括网络、服务器、存储、应用软件、服务等等。

这些资源能够被广大用户快速地使用,而我们只需要投入很少的管理工作,或与服务供应商进行很少的交互。

这里的云其实指的就是互联网,Internet,那么云计算这个思想最初是由麦肯锡在上个世纪60年代提出来的。

他的思想就是将强大的计算能力当作一种公共事业。

那么就类似于水和电,用户其实自己需要生产水和电,只需要花钱买就行了。

同样地,这种强大的计算资源我们也不需要自己有,我们只需要花钱买,通过Internet访问就行了。

那么现在有很多云计算的资源,比如说国外的谷歌、亚马逊,国内的比如百度云、阿里云、360,等等。

再来看一下互联网的核心技术。

互联网有几个核心技术,第一个是虚拟化技术。

虚拟化是云计算最重要的核心技术之一。

虚拟化是一种在软件中仿真计算机硬件的一种模式。

它以
虚拟资源为用户提供服务的计算形式,虚拟化的好处是什么呢?它能够增强系统的弹性和灵活性,从而降低成本,改进服务,并且提高资源的利用效率。

第二点技术,分布式数据存储技术。

云计算的另一大优势,就是能够快速、高效地处理海量数据。

为了保证数据的高可靠性,云计算通常会采用分布式的存储技术,就是将数据存储在不同的物理环境中,也就是存储在不同的电脑里面。

这种模式不仅摆脱了硬件设备的限制,同时它的扩展性更好。

比如说一个电脑坏掉了,其他的电脑还能够正常工作。

在后面会详细介绍一下HDFS,就是Hadoop的分布式文件系统,这就是时下最热门的一个分布式的数据存储技术。

第三个技术,分布式的并行编程模式,也就是分布式的计算技术。

他是在存储技术的基础之上进行一个分布式的计算,分布式的计算技术的初衷就是为了更高效地利用软性硬件资源,让用户更加快速、更简单地使用、应用或者服务。

而MapReduce就是当前云计算主流的编程模式之一。

MapReduce的思想就是将任务自动进行分解,分解成一些子任务,然后把这些子任务通过Map和Reduce两步实现,给它分配到各种分布式的物理设备中,从而进行一个任务的动态的并行的调度与分配。

第四个核心技术是大规模的数据管理。

前面是存储与计算,现在需要一个数据库进行数据的管理。

大数据除了有结构化的数据,还有很多非结构化数据,比如说文本、视频、音频等用户点击流,那么我们需要一个适合非于结构化数据的数据库。

HBase就是很典型的一个大规模的数据管理。

第五点就是分布式的资源管理。

在多结点的并发施行环境中,各个结点的状态需要同步。

这里的结点指的就是屋里设备,比如说电脑。

同时我们要在单个结点出现故障的时候,系统需要有效的机制保证其他结点不受影响。

第六点,信息安全。

大数据时代,信息安全是非常重要的一个因素,大家都在考虑。

因为随着互联网时代的到来,用户对于这种个人隐私保护的意识越来越强。

第七点,云计算平台管理。

云计算系统的平台管理技术,需要具有高效调配大量服务器资源,使其更好地协同工作的能力。

其中方便的部署和开通新业务,快速发现并且恢复系统故障,通过自动化、智能化手段来实现大规模的系统可靠的运营,是云计算平台管理技术的关键。

这里需要指出的是,通过利用不同的云计算平台管理技术,云可以分为公有云、私有云和混合云。

什么是公有云呢?一句话说就是所有人都能够访问的云,它通常是免费的,或者说是特别便宜的,用户只要能够上网,联上Internet就能够使用。

比如我们常见的阿里云、百度云,等等。

私有云就是为某一类或者某一个特定用户而定制的这样一个云,从而它能够对数据安全性、可靠性提供更好的控制,但是并不是所有人都能用,而且价格比较昂贵。

混合云就是结合二者,二者都有。

(三)“物联网”
物联网简单地讲就是物物相连的互联网。

就是利用局部网络或者互联网等通信技术,把一些设备,比如说传感器、控制器、机器,还有人,以及其他的物,通过一种新的方式连在一起,从而形成人与物、物与物相连,实现信息化远程管理控制和智能化的网络。

如图,物联网从逻辑上分成了三个层级,最底层是属于一种感知层,它这底下有很多种设备,比如传感器、控制器、机器,还有人,等等。

比如说摄像头、读卡器、红外线感应器,那么中间这一层是网络层,也就是利用一些有线网络、互联网,或者是无线网络,将感知层中的这些设备给它连起来。

上层就是应用层,就是在连起来之后做一些实际的应用,比如说环境的监测、公共安全、智能家具,等等。

那么右边这个图就举了一个例子,智能家居。

这是什么意思呢?就是你家里的这些所有设备,都通过一个手机连在了一起。

包括家里的各项传感器,比如说温度传感器、湿度传感器、空气质量传感器,都可以通过手机进行一个时时的监控与操作。

比如说有一个场景,你在下班之前,你希望家里面把空调先打开,然后把热水器开开,这些都可以通过物联网来实现。

同时物联网它每个设备之间也是有一个协作关系的,比如说天黑了,通过互联网就能够把家里的灯打开。

比如北京空气差的话,空气净化器就能够自动打开。

并且家里边如果有摄像头的话,如果家里进入了小偷,它能够通过手机来实施报警,这就是物联网的一个具体的应用。

(四)“工业4.0”
工业4.0其实是物联网的一个应用。

工业4.0是由德国联邦教研部及联邦经济技术部在2013年汉诺威工业博览会上提出来的。

它指的是利用物理物联信息系统,也就是利用物联网,将生产中的供应、制造、销售、信息数据化、智慧化,最后达到快速有效、个人化的产品工艺。

4是相对于前3次的,人类的工业革命而指出来的。

比如说大规模工业革命,在18世纪末,它是随着蒸汽机驱动的机械制造设备的出现,比如说1784年,第一台纺织机出现。

第二次工业革命称为电器革命。

它是随着基于劳动分工的电力驱动的大规模生产的出现,比如说内燃机,它是在20世纪初。

第三次工业革命,就是20世纪70年代,是用一些信息技术,比如电子和IT技术来实现制造流程的进一步自动化。

比如说1969年,第一个可编程逻辑的控制器PLC,那么这个工业4.0呢,就称之为我们现在的第四次工业革命。

它是基于信息、物理融合系统,它是基于大数据和物联网传感器融合的系统,在生产中大规模使用。

(五)“中国制造2025”
我们国家也有自己的工业4.0,那就是中国制造2025。

2015年5月19日,经李克强总理签批,中国国务院印发了《中国制造2025》,它可以说是工业4.0在我国的一个本地化的延伸与扩展。

它部署全面推进实施制造强国战略,这是我们制造强国战略的第一个十年的行动纲领。

报告明确了,智能制造是未来制造业发展的重点方向。

中国在2015年已经启动智能制造试点,2016年会扩大试点,在2017年将全面推广。

大家可以看一下这个金字塔,它分了三层。

第一,分别对应了这种制造业的低端、中端和高端。

大家可以看到在高端是由美国、德国等国家把控的品牌、核心技术和专利标准,而我国目前还是聚焦在低端,比如原材料、劳动密集型的基础加工服务。

所以说中国制造2025,它的核心目标就是推动产业结构迈向中高端,坚持创新驱动、智能转型、强化基础、绿色发展,加快从制造大国转向制造强国。

那么中国制造2025它的关键就在于将互联网应用到工业领域,也就是“互联网+工业”。

我们都知道以“互联网+”为核心的产业互联网,已经逐步开始向工业、制造业等领域延伸。

那么当前主要是在零售业,还有金融业发挥作用。

比如说支付宝、淘宝,等等。

那么“互联网+”软硬件一体化,将推动新的工业体系的形成。

所以说工业4.0即智能工业,将成为产业互联网的重要组成部分。

大家可以看一下左下角这个图,智能工业,它连接了很多时下热门的领域。

比如说大数据、云计算、物联网、无人机、无人汽车,等等。

右边这个图,很明显地告诉大家,中国制造2025所重点看的十大重点领域。

比如说新一代的信息技术,还有高档的数控机床和机器人,等等,那么这些都是“互联网+工业”的一个未来的发展方向。

(六)“大数据”
什么是大数据?其实古人在很早以前就讲到了什么是大数据。

比如说夫子曰:夫道,覆载万物者也,洋洋乎大哉。

不同同之之谓大。

还有现在2012年维基百科上对大数据也有一个定义。

它是说在可以忍受的这样一个时间片断里面,使用已有的软硬件的方法或者架构是难以捕获管理和处理这样的数据的。

同样地它对大数据集也给出了一个定义,大的、分散的、复杂的、持续的还有分布式的数据集,由一些仪器、传感器、互联网交易、e-mail,还有点击流、视频流等所产品的叫大数据。

但是其实在研究界,对于大数据的定义是没有一个完整而严格的定义,因为它实在是太复杂了。

先来看一看大数据的缘起,也就是说我们人类社会第一次使用大数据解决实际问题是什么呢?是叫John Snow,BBC对他的评价就是,他的重要性在于他使用了统计学的力量,也就是大数据的力量,解决了1854年的伦敦祸乱。

1854年伦敦SOHO区发生了很严重的祸乱,并且传播得非常快,死了很多人。

那么当时的主流意见是,祸乱是通过空气传播的。

而John Snow这个人,他通过了大数据的方法,他的具体方法是什么呢?就是挨家挨户地走访调查,并且结合了水质调研,还有发病死亡的人群分布图,还有地图,还有PUI进行结合,最后发现了祸乱的根源其实不是通过空气传播,而是通过水传播。

比如说,他画了一个发布人群分布图。

图上的红色的点,就代表这个地方死了人,然后红色点越大,就代表死的人越多。

他对这个图进行一个统计分析,利用了大数据的区略图的方法,最终找到了三个结点。

这三个十字路口,他用PUI数据进行比对,发现这地方有三口井。

最后结合水质调查,就发现了祸乱的根源其实是通过水源传播的。

那么这个图也是我们人类历史上,第一个利用大数据画出来的图,叫做John Snow图,它是一种发病人群分布图。

他在SOHO区找到了这样的祸乱的根源。

所以说他是第一个利用大数据技术来解决实际问题的,找到了祸乱的根源,最终解决了祸乱。

前面讲到,大数据现在没有一个严格的定义,但是研究界可以给出大数据的一些特征。

也就是说符合什么样的特征,可以当作大数据。

2011年这个人就指出了大数据的3“V”特征:volume,什么意思呢?volume的意思就是数据的容量越来越大,这里的数据指的是我们传统的结构化数据,再加上互联网的一些非结构化数据,这里给出了一些统计数据。

比如说地球上至今总共的数据量,在2006年个人数据才刚刚迈进TB时代,全球一共新产生了约180亿B的数据。

大家知道TB是等于1024GB。

到了2011年,这个数字达到了惊人的1.8ZB,而到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB。

1ZB等于10亿的TB,所
以说数据的容量是非常大,越来越大。

所以说这么大的数据已经给我们,传统方法带来了很大的挑战。

这是大数据的第一个特征,volume。

大数据第二个特征,velocity。

它的意思是数据量的增长是越来越快的,同时需要我们算法或者技术也好,处理的速度和响应的速度也是越来越快。

这也同样给出了一些骇人听闻的统计数据。

比如说在互联网上,每天有5亿个聊天记录产生,每天有3000TB的数据产生,每分钟有5000万笔交易发生。

每分钟有1100万个状态更新,比如说我们在朋友圈上发一个状态,这也都是。

同时每秒钟在各搜索引擎上有6万9千个搜索查询,比如我们搜一个key word。

所以说,互联网上的数据每一年都增长50%,每两年翻一番,这就它的第二个特征,速度非常快,增长的速度。

那么大数据的第三个特征variety,意思是数据的种类越来越多,我们原来数据处理里面,都是存储在数据库的报表等结构化数据,但是随着2.0时代的到来,数据已经从结构化到半结构化,到非结构化的转变。

有很多增加的数据,比如说传感器数据,音频、视频、日志文件、点击流,以及其他任何有用的信息。

举个例子,现在我们客户数据库中,不仅要保存名称和地址等结构化信息,还要保存一些用户所从事的职业、兴趣爱好,他的喜好是什么,以及他的社会关系,也就是他的朋友圈是什么,这样的数据就特别复杂、特别大,这是大数据的第三个特征,三V。

基于大数据的三V特征,我们能够给出大数据,其实还有一个隐含的特征,就是value,我们称之大数据为价值洼地。

这什么意思呢?就是数据量虽然很大,但是它的价值密度很低,同时它的价值总量是很高的,它对于商业有很大的商业价值。

比如美国的互联网数据,每年能给,这个数据是由麦肯锡在2011年的统计得出来的。

美国的互联网数据每年能给互联网供应商提供100个billion美元的税收,同时能给终端用户提供高达700 billion的个人收入。

所以说大数据在美国健康医疗、欧洲公共事业服务部,还有零售业以及制造业都带来很大的价值,后面我们会讲到他到底在哪些行业,带来哪些价值。

这是大数据带来的大价值,美国奥巴马政府,他希望将大数据战略从政治角度提升到一个国家的意志。

所以他在2014年1月组织了研究界以及工业界的很多人才,编写了一本书,于5月出版。

它的名字叫作《大数据抓住机遇维持价值》。

这本书可以说是美国的白皮书,它强调了大数据的巨大应用价值,在治疗疾病、预防犯罪、提高行业和政府的管理效率,以及提升教育系统质量方面,带来很大价值。

这个价值主要体现在哪里呢?奥巴马政府将数据称之为未来的,国际上的一种新石油。

也就是说在这个数据里面,能够提取非常大的价值,它将一个国家数据所保持的体量、活性,还有解释运用的能力,称作未来国家综合实力的一个体现。

同时,将这种大数据当作和陆权、海权、空权等国家的核心资产。

但是另外一个方面,这本白皮书也指出了大数据对个人隐私构成了严重的威胁。

比如说商业公司、政府部门,对公民的个人隐私数据的无节制地采集。

如果我们上网,上了一个主题网站,注册了信息,那么这个信息很可能就被这个网站卖给其他人了。

同时,金融、零售等商业的企业和企业部门滥用这种数据,这样已经带来很大的恶果。

比如说新的种族和阶层歧视。

所以说白宫大数据报告,这个白皮书最后给奥巴马政府提出六点建议,都是与隐私有。

相关文档
最新文档