大数据时代-120631
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高可扩展性 和高可用性
低成本建设 运维
支持水平扩展,可简单的通过 添加服务节点来扩展数据容量和 负载能力 数据库升级不影响服务持续
基于X86设备,价格低廉 开源系统,节省许可费用
NoSQL
NoSQL是Not Only SQL的缩写,而不是Not SQL,它不一定遵循传统数据库的一 些基本要求,比如说遵循SQL标准、ACID属性、表结构等等。相比传统数据库, 叫它分布式数据管理系统更贴切,数据存储被简化更灵活,重点被放在了分布式数 据管理上。
什么是Big Data
大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理 和处理的数据集合
1. Volume
数据量巨大
全球在2010 年正式进入ZB 时代,IDC预计 到2020 年,全球将总共拥有35ZB 的数据量
2. Variety
结构化数据、半结构化数据和非结构化 数据
如今的数据类型早已不是单一的文本形式,订单、 日志、音频,能力提出了更高的要求
•
严格把控质量关,让生产更加有保障 。2020 年10月 下午7时 24分20 .10.161 9:24October 16, 2020
•
作业标准记得牢,驾轻就熟除烦恼。2 020年1 0月16 日星期 五7时24 分21秒 19:24:2 116 October 2020
•
好的事情马上就会到来,一切都是最 好的安 排。下 午7时24 分21秒 下午7 时24分1 9:24:21 20.10.1 6
•
一马当先,全员举绩,梅开二度,业 绩保底 。20.10. 1620.1 0.1619: 2419:24 :2119:2 4:21Oct-20
•
牢记安全之责,善谋安全之策,力务 安全之 实。202 0年10 月16日 星期五7 时24分 21秒Fr iday, October 16, 2020
•
相信相信得力量。20.10.162020年10月 16日星 期五7 时24分2 1秒20. 10.16
3. value
沙里淘金,价值密度低
以视频为例,一部一小时的视频,在连续不间断监 控过程中,可能有用的数据仅仅只有一两秒。如何 通过强大的机器算法更迅速地完成数据的价值“提 纯”是目前大数据汹涌背景下亟待解决的难题
4. Velocity
实时获取需要的信息
大数据区分于传统数据最显著的特征。如今已是ZB 时代,在如此海量的数据面前,处理数据的效率就 是企业的生命
谢谢大家!
大数据技术将被设计用于 在成本可承受 (economically)的条件 下,通过非常快速 (velocity)的采集、发现 和分析,从大量化 (volumes)、多类别 (variety)的数据中提取 价值(value),将是IT 领 域新一代的技术与架构
云计算与大数据
蓝蓝的天上白云飘 白云下面数据跑
各大IT 企业纷纷推出自身的大数据分析产品,包 括Google、IBM、EMC、Oracle、微软、惠普、 SAP、Teradata ,这些企业几乎囊括了目前全 球最顶尖的搜索服务、数据库、服务器、存储设 备、企业解决方案的主要提供商,足以显示大数 据在产业界的汹汹来势
什么是Big Data技术
企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从 这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合
年…
每天亚马逊上将产生 6.3 百万笔订单… 每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB… Google 上每天需要处理24PB 的数据…
Big Data时代到来
数据量增加
数据结构日趋复杂
大量新数据源的出现则导致了非结构化、半结构化数据 爆发式的增长
大数据时代
Is coming……
Big Data时代到来
在web 2.0的时代,人们从信息的被动接受者变成了主动创造者
全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年… 每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年… 推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16
商业价值
结构化数据向非结 构化数据演进,使 得未来IT投资重点 不再是建系统为核 心,而是围绕大数 据为核心; 海量数据可以在各 个部门创造重大的 财物价值,未来投 资倾斜。源自文库
用户行为分析
用户行为分析
用户行为分析
用户行为分析
用户行为分析
用户行为分析
用户行为分析
用户行为分析
•
树立质量法制观念、提高全员质量意 识。20. 10.1620 .10.16F riday, October 16, 2020
根据IDC 监测,人类产生的数据量正在呈指数级增
长,大约每两年翻一番,这个速度在2020 年之前会
继续保持下去。这意味着人类在最近两年产生的数
据量相当于之前产生的全部数据量
TB PB EB
ZB
▪ 这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴 ▪ 大数据时代正在来临..
•
人生得意须尽欢,莫使金樽空对月。1 9:24:21 19:24:2 119:24 10/16/2 020 7:24:21 PM
•
安全象只弓,不拉它就松,要想保安 全,常 把弓弦 绷。20. 10.1619 :24:211 9:24Oct-2016-Oct-20
•
加强交通建设管理,确保工程建设质 量。19: 24:2119 :24:211 9:24Fri day, October 16, 2020
一个分布式系统不可能满足一致性、可用性和分区容错性这 三个需求,最多只能同时满足两个
——Eric Brewer
CAP博弈
分区容错性是不能牺牲的
Amazon Dynamo是一个经典的分布式Key-Value 存储系统,具备去 中心化,高可用性,高扩展性的特点,但是为了达到这个目标在很多 场景中牺牲了一致性。
片的定位
B+树 Chubby file:保存root tablet的位置 root tablet:元数据表的第一个分片 其它的元数据片
NoSQL数据库
NoSQL数据库
• 使用现状
商业价值
在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要么 被大数据驱动的新生代商业格局淘汰。
•
安全在于心细,事故出在麻痹。20.10. 1620.1 0.1619: 24:2119 :24:21 October 16, 2020
•
踏实肯干,努力奋斗。2020年10月16 日下午7 时24分 20.10.1 620.10. 16
•
追求至善凭技术开拓市场,凭管理增 创效益 ,凭服 务树立 形象。2 020年1 0月16 日星期 五下午7 时24分 21秒19 :24:212 0.10.16
传统基于盘阵的存储设备,造价 昂贵,且市场垄断严重,建设成本 居高不下,扩容成本尤其高 许可和维护花费高昂
大数据存储的 核心需求
不保证遵循ACID原则,提高 并发读写性能
高并发读写
高效率存储 和访问
Schema-Free存储适应不同数 据类型 舍弃SQL标准功能,尽量简化 数据操作,提升效率 MapReduce实现高效访问
Big Table
为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千 台服务器。
数据模型
支撑技术
Key-Value映射:
(row:string, column:string, time:int64)→string
Bigtable的表会根据行键自动划分为片(tablet), 片是负载均衡的单元。
支付宝这样的交易和账务数据则是非常敏感的,通常不能容忍超过秒 级的不一致
Key Value
分布式存储系统 查询速度快、存放数据量大、支持高并发 不能进行复杂的条件查询 辅以实时搜索引擎进行复杂条件检索、全文检索,可替代并发性能较低的关 系型数据库,节省几十倍服务器数量
B+ Tree Hash算法
RDBMS VS. NoSQL
保证一致性的开销过大,难以实 现高并发 存储性能受限于控制器,性能难 以保证
关系型表单存储难以适应不同数 据类型 上亿行数据的超级达标效率极低
无法简单的通过添加服务节点来 扩展数据容量和负载能力,难以进 行横向扩展 数据库升级需要停机维护和数据 迁移,导致服务中断
Big Data名词由来
2011年5 月,在“云计算相遇大数据” 为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念
20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data
Big Data名词由来
1
并购进行技术整合
2
自身提高研发实力
相较于“大数据”一词在 2011 年才开始蹿红 不同,在计算机研究领域和产业界,“大数据” 早已众人皆知,各大IT 巨头纷纷布局大数据业 务,通过收购大数据相关厂商来实现技术整合, 以图抢占全新的制高点
用GFS来存储日志和数据文件 按SSTable文件格式存储数据 用Chubby管理元数据
参考文献: 《The Chubby lock service for loosely-coupled distributed systems》
——Google论文
Big Table
Big Table集群
一个供客户端使用的库 一个主服务器(master server) 许多片服务器(tablet server)
•NoSQL运动两个核心理论基础:
•Google的BigTable BigTable提出了一种很有趣的数据模型,它将各列数据进行排序存
储。数据值按范围分布在多台机器,数据更新操作有严格的一致性保证。
•Amazon的Dynamo Dynamo使用的是另外一种分布式模型。Dynamo的模型更简单,
它将数据按key进行hash存储。其数据分片模型有比较强的容灾性,因 此它实现的是相对松散的弱一致性:最终一致性。
周俊凌
腾讯在天津投资建立亚洲最大的数据中心; 新浪推出企业微博产品,提供精准的数据分析服务。
商业价值——淘宝
马云的判断来自于数据分析
双“十一”背后的技术讨论
Ocean Base
系统逻辑架构
性能对比
系统物理架构
商业价值
政府、金融、电信等行业投资建立大数据的处理分析手段,实现综合治理、业务开拓等目 标;应用到制造等更多行业。
Hadoop 数据应用策略、数据流技术
机器学习算法 ——百度首席科学家 威廉.张
Hadoop 数据采集、数据存储、数据 处理
——Yahoo!北京全球软件 研发中心架构师 韩轶平
标准的虚拟化及分布式存储 内存计算技术
——SAP中国区企业信息 管理咨询资深顾问 杜韬
持续创新传统的企业级数 据仓库产品线 收购Aster Data Hadoop、MapReduce ——Teradata首席客户官
如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝 藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数 据的积淀,云计算也只能是杀鸡用的宰牛刀!
分布式
“云计算”(Cloud Computing)是分布式处理(Distributed Computing)、 并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或 者说是这些计算机科学概念的商业实现。
——百度百科
A
Availability
CAP
C 理论 P
Consistency
Partition Tolerance
分布式计算是一门计算机科学,它研 究如何把一个需要非常巨大的计算能 力才能解决的问题分成许多小的部分, 然后把这些部分分配给许多计算机进 行处理,最后把这些计算结果综合起 来得到最终的结果。
大数据时代下的系统需求
•High performance –高并发读写的需求 高并发、实时动态获取和更新数据
•Huge Storage –海量数据的高效率存储和访问的需求 类似SNS网站,海量用户信息的高效率实时存储和查询
•High Scalability && High Availability –高可扩展性和高可用性的需求 需要拥有快速横向扩展能力、提供7*24小时不间断服务