01-04 数据大爆炸
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍 布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方
式。
18
1.1 什么是大数据
例子:斯隆数字巡天
DR9 sky coverage
19
1.1 什么是大数据
例子:斯隆数字巡天 斯隆数字巡天是使用位于新墨西哥州 阿帕奇山顶天文台的2.5米口径望远镜进行 的红移巡天项目。 该项目开始于2000年,计划观测25%的天空,获取超过一 百万个天体的多色测光资料和光谱数据。斯隆数字巡天的星系 样本以红移0.1为中值,对于红星系的红移值达到0.4,对于类 星体红移值则达到5,并且希望探测到红移值大于6的类星体。
22
1.1 什么是大数据
大数据的价值 未来,数据可能成为最大的交易商品。但数据量大并不 能算是大数据,大数据的特征是数据量大、数据种类多、非 标准化数据的价值最大化。因此,大数据的价值是通过数据
共享、交叉复用后获取最大的数据价值。在他看来,未来大
数据将会如基础设施一样,有数据提供方、管理者、监管者, 数据的交叉复用将大数据变成一大产业。据统计,到2017年, 此数据预计会上涨到530亿美元。
Kilo、Mega、Giga、Tera、Peta、Exa、Zetta 、Yotta、Bronto
1BB = ?B
290B ≈1027B
6
googol
100 10
7
汉字大数
一、十、百、千、万、 十进制 亿、兆、京、垓、秭、 穣、沟、涧、正、载、极、 万进制 恒河沙、阿僧祇、那由他、 不可思议、无量大数 1无量大数=10? 1068
大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。 对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是 需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增 长率和多样化的信息资产。
16
1.1 什么是大数据
特点
大数据的4个“V”,或者说特点有四个层面: 第一,数据体量巨大。从TB级别,跃升到PB级别; 第二,数据类型繁多。前文提到的网络日志、视频、图片、 地理位置信息等等。 第三,价值密度低。以视频为例,连续不间断监控过程中,
1
参考教材
作 者:郭晓科
主编
作 者:[美] Anand Rajaraman David Ullman 著,王斌 译 出 版 社:人民邮电出版社 出版时间:2012-9-1 ISBN:9787115291318
[美] Jeffrey
出 版 社:清华大学出版社 出版时间:2013-1-1 ISBN:9787302302308
29
1.1 什么是大数据
大数据的治理 ■数据的积累 许多大数据应用都会涉及到法规遵从问题,这些法规通 常要求数据要保存几年或者几十年。比如医疗信息通常是为 了保证患者的生命安全,而财务信息通常要保存7年。而有 些使用大数据存储的用户却希望数据能够保存更长的时间,
因为任何数据都是历史记录的一部分,而且数据的分析大都
20
1.1 什么是大数据
斯隆数字巡天的贡献 涵盖了南银极周围7500平方度的星空 记录到近二百万个天体的数据, 包括:80多万个星系 10多万个类星体的光谱数据
21
1.1 什么是大数据
大数据的价值 社交网络兴起,大量的UGC(互联网术语,全称为User Generated Content,即用户生成内容的意思)内容、音频、 文本信息、视频、图片等非结构化数据出现了。 物联网的数据量更大,加上移动互联网能更准确、更快地 收集用户信息,比如位置、生活信息等数据。 谷歌搜索、Facebook的帖子和微博消息使得人们的行为和 情绪的细节化测量成为可能。 挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更 符合用户兴趣和习惯的产品和服务,并对产品和服务进行针 对性地调整和优化,这就是大数据的价值。大数据也日益显 现出对各个行业的推进力。
பைடு நூலகம்15
1.1 什么是大数据
简介
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。 大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据, 这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。 大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像 MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
“大数据”应用还存在实时性的问题。特别是涉及到与
网上交易或者金融类相关的应用。有很多“大数据”应用环 境需要较高的IOPS性能,比如HPC高性能计算。
27
1.1 什么是大数据
大数据的治理
■安全问题
某些特殊行业的应用,比如金融数据、医疗信息以及政 府情报等都有自己的安全标准和保密性需求。虽然对于IT管 理者来说这些并没有什么不同,而且都是必须遵从的,但是, 大数据分析往往需要多类数据相互参考,而在过去并不会有 这种数据混合访问的情况,大数据应用催生出一些新的、需 要考虑的安全性问题,要求企业级闪存性能和可靠性,实现 简单、透明的应用加速,既安全又方便。
个 十 百 千 万 下数 (十进制)
中数 (万进制) 上数 (平方进)
1
1 1
亿
(十万,不用)
兆
(百万,中国大陆)
10
10 10
102
102
103
103
104
104
105
108 108
106
(万万,通用)
(万亿,日韩台新)
1012
102 103 104
1016
11
汉字大数
一、十、百、千、万、 十进制 亿、兆、京、垓、秭、 万进制 穣、沟、涧、正、载、极、 ( 中数 ) 恒河沙、阿僧祇、那由他、 不可思议、无量大数 1无量大数=10? 1068
24
1.1 什么是大数据
大数据的治理
■元数据。大数据治理需要创建可靠的元数据,避免出现窘
境,例如,一家企业重复购买了相同的数据集两次,而原因仅 仅是该数据集在两个不同的存储库内使用了不同的名称。 ■隐私。企业需要严格关注遵守隐私方面的问题,例如利用 社交媒体进行数据分析。
■数据质量。考虑到大数据的庞大数量和超快速度,组织需
28
1.1 什么是大数据
大数据的治理
■成本问题 对于那些正在使用大数据环境的企业来说,成本控制是关键 的问题。想控制成本,就意味着我们要让每一台设备都实现更高 的“效率”,同时还要减少那些昂贵的部件。目前,像重复数据 删除等技术已经进入到主存储市场,而且现在还可以处理更多的 数据类型,这都可以为大数据存储应用带来更多的价值,提升存 储效率。在数据量不断增长的环境中,通过减少后端存储的消耗, 哪怕只是降低几个百分点。当今,数据中心使用的传统引导驱动 器不仅故障率高,而且具有较高的维修和更换成本。如果用它替 换数据中心的独立服务器引导驱动器,则能将可靠性提升多达100 倍。并且对主机系统是透明的,能为每一个附加服务器提供唯一 的引导镜像,可简化系统管理,提升可靠性,并且节电率高达 60%,真正做到了节省成本的问题。
可能有用的数据仅仅有一两秒。
第四,处理速度快。1秒定律。最后这一点也是和传统的数据 挖掘技术有着本质的不同。
业界将其归纳为4个“V”——Volume, Variety, Value, Velocity
17
1.1 什么是大数据
例子
包括网络日志,RFID,传感器网络,社会网络,社会数据,互联网文 本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组 学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察, 医疗记录;摄影档案馆视频档案;和大规模的电子商务 。
12
汉字大数
一、十、百、千、万、 十进制 亿、兆、京、垓、秭、 穣、沟、涧、正、载、极、 平方进 恒河沙、阿僧祇、那由他、 (上数) 不可思议、无量大数
1无量大数=10? =
16 4*2 10 =10262144
13
中文小数
分、厘、毫、丝、忽、微、纤、 沙、尘、埃、渺、莫、模糊、逡 巡、须臾、瞬息、弹指、刹那、 六德、空虚、清静、阿赖耶、阿 摩罗、涅盘寂静 1涅盘寂静=10-? 10-24
是基于时间段进行的。要实现长期的数据保存,就要求存储 厂商开发出能够持续进行数据一致性检测的功能以及其他保
证长期高可用的特性。同时还要实现数据直接在原位更新的
功能需求。
30
1.1 什么是大数据
大数据的治理
■灵活性 大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才 能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大 数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个 部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了, 因此它必须能够适应各种不同的应用类型和数据场景。
14
1.1 什么是大数据
简介
早在1980年,著名未来学家阿尔文· 托夫勒便在《第三次浪潮》一书中,将大数据热
情地赞颂为“第三次浪潮的华彩乐章”。
不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。 美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番, 而目前世界上90%以上的数据是最近几年才产生的。
8
十进制 一、十、百、千、万、 亿、 万进制 兆、京、垓、秭、 穣、沟、涧、正、载、极、 亿进制 恒河沙、阿僧祇、那由他、 不可思议、无量大数
1无量大数=10?
10128
9
兆
1) 百万,如兆赫、MB 2) 万亿 3) 亿亿
10
下数者,十十变之。若言十万曰亿,十亿曰兆,十兆曰京也。 中数者,万万变之。若言万万曰亿,万亿曰兆,万兆曰京也。 上数者,数穷则变。若言万万曰亿,亿亿曰兆、兆兆曰京也。 ——《五经算术》
2
主要内容
3
1.数据大爆炸
1. 数 据 大 爆 炸
4
1.1 什么是大数据
大数据(big data),或称巨量资料,指的是所涉及
的资料量规模巨大到无法透过目前主流软件工具,在合
理时间内达到撷取、管理、处理、并整理成为帮助企业 经营决策更积极目的的信息。
5
KB: MB: GB: TB:
210B ≈103B 220B ≈ 103KB ≈ 106B 230B ≈ 103MB ≈ 109B 40 3 12 2 B ≈ 10 GB ≈ 10 B
管理员需要与法律顾问和高级管理人员配合工作,制定有关可
接受的信息使用方法的策略。
26
1.1 什么是大数据
大数据的治理 ■容量问题
这里所说的“大容量”通常可达到PB级的数据规模,因
此,海量数据存储系统也一定要有相应等级的扩展能力。与 此同时,存储系统的扩展一定要简便,可以通过增加模块或 磁盘柜来增加容量,甚至不需要停机。 ■延迟问题
23
1.1 什么是大数据
大数据的治理
利用ApacheHadoop等开放源码技术,通过传感器、RFID、
社交媒体、呼叫中心记录和其他来源提供的新型数据创造价值。
出于这样的目的,许多组织开始启动自己的大数据治理计划。 所谓大数据治理,指的是制定策略来协调多个职能部门的 目标,从而优化、保护和利用大数据,将其作为一项企业资产。 这些计划必须解决以下问题:
要确定哪种级别的数据质量属于“足够好”的质量。
25
1.1 什么是大数据
大数据的治理 ■信息生命周期管理。大数据治理计划需要制定存档策略, 确保存储成本不会超出控制。除此之外,组织需要设定保留计
划,以便按照法规要求合理处置数据。
■管理人员。最终,企业需要招募大数据管理员。例如,石 油与天然气公司内的勘探开采部门的管理员负责管理地震数据, 包括相关元数据在内。这些管理员需要避免组织因不一致的命 名规范而付款购买已经拥有的外部数据。除此之外,社交媒体
数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上
有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃 至空气中化学物质的变化,也产生了海量的数据信息。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行 专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于 提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
■应用感知 最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施, 比如针对政府项目开发的系统,还有大型互联网服务商创造的专用服务器等。 在主流存储系统领域,应用感知技术的使用越来越普遍,它也是改善系统效率 和性能的重要手段,所以,应用感知技术也应该用在大数据存储环境里。