大数据时的大变革
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
+ 脸书此次幕后试验的曝光,是一个警醒的明示。用户、互联网企业
以及政府之间的权衡,是一个当即也是长期去努力协作的过程。在 个人隐私和道德制约的前提下,“大数据“时代,不是一个滥用数 据的时代,而是一个需要善用数据的时代。
+ 大数据属于谁?
+ 数据独裁
卓越的才华并不依赖大数据, 大数据扼杀创新。
如果对不可量化的事物进行量化, 我们将失去全面了解该事物的机会。
一、认识大数据(续)
+ + + + + +
+
+ + +
每天有2940亿封电子邮件发出,如果这些是纸质信件,在美国需要花费两年 时间处理; 每天有200万篇博客在网上发布,这些文章相当于《时代》杂志刊发770年的 总量; 每天有2.5亿张照片上传至社交网站Facebook,如果都打印出来,摞在一起能 有80个埃菲尔铁塔那么高; 每天有86.4万小时视频被上传至视频网站Youtube,相当于不间断播放视频98 年; 每天有1.87亿个小时的音乐会在流媒体音乐网站Pandora上播放,如果一台电 脑从公元元年就开始播放这些音乐会,到现在还没完没了地接着放; 谷歌翻译每天处理的文字数量,每天翻译次数达十亿次,相当于一百万册图书, 超过了全世界的专业翻译人员一年能够翻译的文字规模; 百度每天的关键词搜索量50亿,谷歌33.3亿; 未来:物联 网每天产生 淘宝天猫双11那一天营业额达191亿人民币。中国小商品城全年成交额才 的数据将会 580.03亿元人民币; 是海量的。 累积起来,互联网一天之内产生的信息总量,可以装满1.68亿张DVD光盘。 „„
4. Velocity 实时获取需要的信息
大数据区分于传统数据最显著的特征。如今已是ZB 时代,在如此海量的数据面前,处理数据的效率就 是企业的生命
大数据包括: 交易数据和交互数据 集在内的所有数据集
大数据 = 海量数据 + 复杂类型的数据
海量交易数据: 企业内部的经营交易信息主要包括联机交易数据和联机 分析数据,是结构化的、通过关系数据库进行管理和访 问的静态、历史数据。通过这些数据,我们能了解过去 发生了什么。 海量交互数据: 源于Facebook、Twitter、LinkedIn及其他来源的社交 媒体数据构成。它包括了呼叫详细记录CDR、设备和传 感器信息、GPS和地理定位映射数据、通过管理文件传 输Manage File Transfer协议传送的海量图像文件、 Web文本和点击流数据、科学信息、电子邮件等等。可 以告诉我们未来会发生什么。 海量数据处理: 大数据的涌现已经催生出了设计用于数据密集型处理的 架构。例如具有开放源码、在商品硬件群中运行的 Apache Hadoop。
+ 大数据时代没有隐私
爱德华· 斯诺登
+ 70万人,无人告知的在线实验,全球第一大社交网络脸
书(Facebook)隐秘进行的情感测试近日曝光天下,业 界一片哗然。 + 2012年,脸书(Facebook)的幕后试验旨在公测70万用 户在面对相应的NewsFeed中的情感反应和行为引导。具 体说来,脸书(Facebook)在页面上人为的设置一些正 面或是负面的情感性关键词,同时控制用户在自己的 News Feed中得阅读内容,从而观察用户在自身Post中得 行为表达。经过大约一周的数据收集,脸书的数据分析 员可以观察到用户对于社交网络上的情绪反应。对于70 万用户情绪被消无声息的如此操控,脸书(Facebook) 的行为无疑遭到了强烈的指控。
一、认识大数据(续)
什么是大数据? 什么是大数据(big-data)?人们并未形成统一的认识, 一般而言,它是指规模远远超过传统数据库软件处理能 力的海量数据集合。这一概念首要是针对信息化社会数 据“爆炸式”增长,体量巨大而提出的。对于数据多大 能称之为“大数据”,业界并没有统一的认识,通常认 为100TB(太字节)是大数据的门槛。 简而言之,传统方法无法处理的数据即为大数据。 据美国政府估计,全球每年由各类设备产生的数据达 到约1.2ZB(1ZB=12亿TB)。若用1粒沙代表1B数据, 1PB(相当于1000T)相当于1英里长、100码宽的沙滩, 而1.2ZB的数据就如同一片浩瀚的沙漠。
Initiative),拟投入2亿美元用于研究开发科学探索、环境和生物医学 、教育和国家安全等重大领域和行业所急需的大数据处理技术和工具 ,把大数据研究上升到为国家战略。
+ 2012年10月,中国计算机学会于成立大数据专家委员会,并在2012
年12月发布调研报告,说明数据科学的热点问题和发展趋势。
2012年3月29日,白宫 发布美国政府的大数据计 划。 通过提高从大型复杂的 数字数据集中提取知识和 观点的能力,承诺帮助加 快在科学与工程中的步伐, 加强国家安全,并改变教 学研究。
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。 第二层面是技术,技术是大数据价值体现的手段和前进的基石。 第三层面是实践,实践是大数据的最终价值体现。
大数据处理技术让大数据能够为我所用, 大数据时代终于开启了。
大数据与云计算
大数据与云计算
• 云计算的模式是业务模式,本质是数据处理技术。 (肉体+灵魂) • 数据是资产,云为数据资产提供存储、访问和计算。
• 盘活资产,使其为国家治理、企业决策、个人生活服 务,是大数据核心议题,也是云计算的最终方向。
如果将云计算与大数据进行一些比较,最明显的区分在两个方面: 第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务 。然而大数据必须有云作为基础架构,才能得以顺畅运营。 第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是 一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品,而大数 据的决策者是业务层。
• 中国工程院院士邬贺铨说道,“智慧城市是使用智能计算技术使得城 市的关键基础设施的组成和服务更智能、互联和有效,随着智慧城市 的建设,社会将步入“大数据”时代。” • • • • • 智慧政务 智慧交通 智慧电网 智慧教育 智慧医疗
智慧城市必将产生 大数据,利用大数 据的思维来改变公 共管理部门的形象 。
“大数据”的诞生:
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个 开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也 在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如 今,这个概念几乎应用到了所有人类智力与发展的领域中。 21世纪是数据信息大发展的时代,移 动互联、社交网络、电子商务等极大拓 展了互联网的边界和应用范围,各种数 据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动 互联网(微博)、物联网(传感器,智 慧地球)、车联网、GPS、医学影像、 安全监控、金融(银行、股市、保险)、 电信(通话、短信)都在疯狂产生着数 据。
+ 《红楼梦》含标点87万字(不含标点853509字) + 每个汉字占两个字节:1汉字=16bit = 2*8位 + + +
+
+
=2bytes 1GB 约等于671部红楼梦 1TB 约等于631,903 部 1PB 约等于647,068,911部 美国国会图书馆藏书(151,785,778册)(2011年4 月:收录数据235TB ) 1EB = 4000倍美国国会图书馆存储的信息量
金融 服务 食品 安全 医疗 卫生 军事
消费 行业
交通 环保
电子 商务 气象
虽然大数据是一个重大问题,真正 的问题是让大数据更有意义 目前大数据管理多从架构和并行等 方面考虑,解决高并发数据存取的性 能要求及数据存储的横向扩展,但对 非结构化数据的内容理解仍缺乏实质 性的突破和进展,这是实现大数据资 源化、知识化、普适化的核心 非结构化海量信息的智能化处理: 自然语言理解、多媒体内容理解、机 器学习等
2. Variety
结构化数据、半结构化数据和非结构化 数据
如今的数据类型早已不是单一的文本形式,订单、 日志、音频,对处理能力提出了更高的要求
3. value 沙里淘金,价值密度低
以视频为例,一部一小时的视频,在连续不间断监 控过程中,可能有用的数据仅仅只有一两秒。如何 通过强大的机器算法更迅速地完成数据的价值“提 纯”是目前大数据汹涌背景下亟待解决的难题
源自文库
我国的应对
最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯 锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重 要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者 盈余浪潮的到来。 “麦肯锡的报告发布后,大数据迅速成为了计算机行业争相传诵的热门概念, 也引起了金融界的高度关注。”随着互联网技术的不断发展,数据本身是资产, 这一点在业界已经形成共识。“如果说云计算为数据资产提供了保管、访问的场 所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服 务, 事实上,全球互联网巨头都已意识到了“大数据”时代,数据的重要意义。 包括EMC、惠普(微博)、IBM、微软(微博)在内的全球IT 巨头纷纷通过收购“大 数据”相关厂商来实现技术整合,亦可见其对“大数据”的重视。 “大数据”作为一个较新的概念,目前尚未直接以专有名词被我国政府提 出来给予政策支持。不过,在工信部发布的物联网“十二五”规划上,把信息 处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、 数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键 技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与 “大数据”密切相关。
大数据时代 ----生活、工作与思维的大变革
• • • •
一、认识大数据 二、大数据时代的变革 三、大数据时代的挑战 四、大数据的应用
+ + + + + + + + + +
何为大?—数据度量 1Byte = 8 Bit 1KB = 1,024 Bytes 1MB = 1,024 KB = 1,048,576 Bytes 1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes 1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes 1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes 1EB = 1,024 PB = 1,152,921,504,606,846,976 Bytes 1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes 1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes
+ 2007年,图灵奖获得者Jim Gray,提出“数据密集型科学发现
(Data-Intensive Scientific Discovery)” 将成为科学研究的第四范 式,“数据科学”拉开了帷幕。
+ 2008年,《Nature》杂志出版专刊,讨论大数据处理相关的一系列
技术问题和挑战。
+ 2012年3月底,美国政府发布了大数据研发专项研究计划 (Big Data
8/24/2017
大数据的4V特征
+“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度
低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特 点的数据,才是大数据。
1. Volume 数据量巨大
全球在2010 年正式进入ZB 时代,IDC预计 到2020 年,全球将总共拥有35ZB 的数据量
1. 大数据比云计算更为落地 2. 大数据不仅仅是“大”
3. 软件是大数据的引擎
4. 大数据的应用不仅仅是商业化服务
5. 管理大数据“易”,理解大数据“难”
和数据中心(Data Center) 一样,软件 是大数据的驱动力, 软件改变世界
通过用户行为分析实现精准管理、科学决策和人 性化服务是大数据的典型应用,大数据在各行各 业特别是公共服务领域具有广阔的应用前景
以及政府之间的权衡,是一个当即也是长期去努力协作的过程。在 个人隐私和道德制约的前提下,“大数据“时代,不是一个滥用数 据的时代,而是一个需要善用数据的时代。
+ 大数据属于谁?
+ 数据独裁
卓越的才华并不依赖大数据, 大数据扼杀创新。
如果对不可量化的事物进行量化, 我们将失去全面了解该事物的机会。
一、认识大数据(续)
+ + + + + +
+
+ + +
每天有2940亿封电子邮件发出,如果这些是纸质信件,在美国需要花费两年 时间处理; 每天有200万篇博客在网上发布,这些文章相当于《时代》杂志刊发770年的 总量; 每天有2.5亿张照片上传至社交网站Facebook,如果都打印出来,摞在一起能 有80个埃菲尔铁塔那么高; 每天有86.4万小时视频被上传至视频网站Youtube,相当于不间断播放视频98 年; 每天有1.87亿个小时的音乐会在流媒体音乐网站Pandora上播放,如果一台电 脑从公元元年就开始播放这些音乐会,到现在还没完没了地接着放; 谷歌翻译每天处理的文字数量,每天翻译次数达十亿次,相当于一百万册图书, 超过了全世界的专业翻译人员一年能够翻译的文字规模; 百度每天的关键词搜索量50亿,谷歌33.3亿; 未来:物联 网每天产生 淘宝天猫双11那一天营业额达191亿人民币。中国小商品城全年成交额才 的数据将会 580.03亿元人民币; 是海量的。 累积起来,互联网一天之内产生的信息总量,可以装满1.68亿张DVD光盘。 „„
4. Velocity 实时获取需要的信息
大数据区分于传统数据最显著的特征。如今已是ZB 时代,在如此海量的数据面前,处理数据的效率就 是企业的生命
大数据包括: 交易数据和交互数据 集在内的所有数据集
大数据 = 海量数据 + 复杂类型的数据
海量交易数据: 企业内部的经营交易信息主要包括联机交易数据和联机 分析数据,是结构化的、通过关系数据库进行管理和访 问的静态、历史数据。通过这些数据,我们能了解过去 发生了什么。 海量交互数据: 源于Facebook、Twitter、LinkedIn及其他来源的社交 媒体数据构成。它包括了呼叫详细记录CDR、设备和传 感器信息、GPS和地理定位映射数据、通过管理文件传 输Manage File Transfer协议传送的海量图像文件、 Web文本和点击流数据、科学信息、电子邮件等等。可 以告诉我们未来会发生什么。 海量数据处理: 大数据的涌现已经催生出了设计用于数据密集型处理的 架构。例如具有开放源码、在商品硬件群中运行的 Apache Hadoop。
+ 大数据时代没有隐私
爱德华· 斯诺登
+ 70万人,无人告知的在线实验,全球第一大社交网络脸
书(Facebook)隐秘进行的情感测试近日曝光天下,业 界一片哗然。 + 2012年,脸书(Facebook)的幕后试验旨在公测70万用 户在面对相应的NewsFeed中的情感反应和行为引导。具 体说来,脸书(Facebook)在页面上人为的设置一些正 面或是负面的情感性关键词,同时控制用户在自己的 News Feed中得阅读内容,从而观察用户在自身Post中得 行为表达。经过大约一周的数据收集,脸书的数据分析 员可以观察到用户对于社交网络上的情绪反应。对于70 万用户情绪被消无声息的如此操控,脸书(Facebook) 的行为无疑遭到了强烈的指控。
一、认识大数据(续)
什么是大数据? 什么是大数据(big-data)?人们并未形成统一的认识, 一般而言,它是指规模远远超过传统数据库软件处理能 力的海量数据集合。这一概念首要是针对信息化社会数 据“爆炸式”增长,体量巨大而提出的。对于数据多大 能称之为“大数据”,业界并没有统一的认识,通常认 为100TB(太字节)是大数据的门槛。 简而言之,传统方法无法处理的数据即为大数据。 据美国政府估计,全球每年由各类设备产生的数据达 到约1.2ZB(1ZB=12亿TB)。若用1粒沙代表1B数据, 1PB(相当于1000T)相当于1英里长、100码宽的沙滩, 而1.2ZB的数据就如同一片浩瀚的沙漠。
Initiative),拟投入2亿美元用于研究开发科学探索、环境和生物医学 、教育和国家安全等重大领域和行业所急需的大数据处理技术和工具 ,把大数据研究上升到为国家战略。
+ 2012年10月,中国计算机学会于成立大数据专家委员会,并在2012
年12月发布调研报告,说明数据科学的热点问题和发展趋势。
2012年3月29日,白宫 发布美国政府的大数据计 划。 通过提高从大型复杂的 数字数据集中提取知识和 观点的能力,承诺帮助加 快在科学与工程中的步伐, 加强国家安全,并改变教 学研究。
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。 第二层面是技术,技术是大数据价值体现的手段和前进的基石。 第三层面是实践,实践是大数据的最终价值体现。
大数据处理技术让大数据能够为我所用, 大数据时代终于开启了。
大数据与云计算
大数据与云计算
• 云计算的模式是业务模式,本质是数据处理技术。 (肉体+灵魂) • 数据是资产,云为数据资产提供存储、访问和计算。
• 盘活资产,使其为国家治理、企业决策、个人生活服 务,是大数据核心议题,也是云计算的最终方向。
如果将云计算与大数据进行一些比较,最明显的区分在两个方面: 第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务 。然而大数据必须有云作为基础架构,才能得以顺畅运营。 第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是 一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品,而大数 据的决策者是业务层。
• 中国工程院院士邬贺铨说道,“智慧城市是使用智能计算技术使得城 市的关键基础设施的组成和服务更智能、互联和有效,随着智慧城市 的建设,社会将步入“大数据”时代。” • • • • • 智慧政务 智慧交通 智慧电网 智慧教育 智慧医疗
智慧城市必将产生 大数据,利用大数 据的思维来改变公 共管理部门的形象 。
“大数据”的诞生:
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个 开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也 在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如 今,这个概念几乎应用到了所有人类智力与发展的领域中。 21世纪是数据信息大发展的时代,移 动互联、社交网络、电子商务等极大拓 展了互联网的边界和应用范围,各种数 据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动 互联网(微博)、物联网(传感器,智 慧地球)、车联网、GPS、医学影像、 安全监控、金融(银行、股市、保险)、 电信(通话、短信)都在疯狂产生着数 据。
+ 《红楼梦》含标点87万字(不含标点853509字) + 每个汉字占两个字节:1汉字=16bit = 2*8位 + + +
+
+
=2bytes 1GB 约等于671部红楼梦 1TB 约等于631,903 部 1PB 约等于647,068,911部 美国国会图书馆藏书(151,785,778册)(2011年4 月:收录数据235TB ) 1EB = 4000倍美国国会图书馆存储的信息量
金融 服务 食品 安全 医疗 卫生 军事
消费 行业
交通 环保
电子 商务 气象
虽然大数据是一个重大问题,真正 的问题是让大数据更有意义 目前大数据管理多从架构和并行等 方面考虑,解决高并发数据存取的性 能要求及数据存储的横向扩展,但对 非结构化数据的内容理解仍缺乏实质 性的突破和进展,这是实现大数据资 源化、知识化、普适化的核心 非结构化海量信息的智能化处理: 自然语言理解、多媒体内容理解、机 器学习等
2. Variety
结构化数据、半结构化数据和非结构化 数据
如今的数据类型早已不是单一的文本形式,订单、 日志、音频,对处理能力提出了更高的要求
3. value 沙里淘金,价值密度低
以视频为例,一部一小时的视频,在连续不间断监 控过程中,可能有用的数据仅仅只有一两秒。如何 通过强大的机器算法更迅速地完成数据的价值“提 纯”是目前大数据汹涌背景下亟待解决的难题
源自文库
我国的应对
最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯 锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重 要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者 盈余浪潮的到来。 “麦肯锡的报告发布后,大数据迅速成为了计算机行业争相传诵的热门概念, 也引起了金融界的高度关注。”随着互联网技术的不断发展,数据本身是资产, 这一点在业界已经形成共识。“如果说云计算为数据资产提供了保管、访问的场 所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服 务, 事实上,全球互联网巨头都已意识到了“大数据”时代,数据的重要意义。 包括EMC、惠普(微博)、IBM、微软(微博)在内的全球IT 巨头纷纷通过收购“大 数据”相关厂商来实现技术整合,亦可见其对“大数据”的重视。 “大数据”作为一个较新的概念,目前尚未直接以专有名词被我国政府提 出来给予政策支持。不过,在工信部发布的物联网“十二五”规划上,把信息 处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、 数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键 技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与 “大数据”密切相关。
大数据时代 ----生活、工作与思维的大变革
• • • •
一、认识大数据 二、大数据时代的变革 三、大数据时代的挑战 四、大数据的应用
+ + + + + + + + + +
何为大?—数据度量 1Byte = 8 Bit 1KB = 1,024 Bytes 1MB = 1,024 KB = 1,048,576 Bytes 1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes 1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes 1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes 1EB = 1,024 PB = 1,152,921,504,606,846,976 Bytes 1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes 1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes
+ 2007年,图灵奖获得者Jim Gray,提出“数据密集型科学发现
(Data-Intensive Scientific Discovery)” 将成为科学研究的第四范 式,“数据科学”拉开了帷幕。
+ 2008年,《Nature》杂志出版专刊,讨论大数据处理相关的一系列
技术问题和挑战。
+ 2012年3月底,美国政府发布了大数据研发专项研究计划 (Big Data
8/24/2017
大数据的4V特征
+“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度
低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特 点的数据,才是大数据。
1. Volume 数据量巨大
全球在2010 年正式进入ZB 时代,IDC预计 到2020 年,全球将总共拥有35ZB 的数据量
1. 大数据比云计算更为落地 2. 大数据不仅仅是“大”
3. 软件是大数据的引擎
4. 大数据的应用不仅仅是商业化服务
5. 管理大数据“易”,理解大数据“难”
和数据中心(Data Center) 一样,软件 是大数据的驱动力, 软件改变世界
通过用户行为分析实现精准管理、科学决策和人 性化服务是大数据的典型应用,大数据在各行各 业特别是公共服务领域具有广阔的应用前景