大数据的技术与实践课件(PDF 125页)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据技术概论
• 现代数据管理需求分析 • 关系数据库的挑战与应对 • 大数据的定义与特征 • 大数据技术家族
海量数据管理——时代的挑战
数据管理最大的挑战是:高负荷下的
海量数据管理
IDC研究表明:
全球数据产量仅2011就达1.8ZB(或1.8 万亿GB,每个美国人每分钟写3条 Twitter信息,共写2.6976万年; 未来十年的全球数据量将增长50倍。
1
大数据的相关定义---大家都大数据,其实并不是说一件事,必须澄清
• ■大数据
•代表现代信息社会的本质特征,它是更加广泛更加深入的数字化,以及全社会范围内数据的互联 互通。 • “更加广泛、更加深入的数字化”,幵不等同亍纸质文档电子化,而是数据指导业务的习惯、
策略与模式。 • “全社会范围内数据的互联互通”,是指企业现在面对的不仅仅是其内部数据互联互通的问题
大数据技术教程---
------ Hadoop/NoSQL的技术与实践
议程
1
大数据技术概论
2
Hadoop MapReduce教程
3
Hadoop MapReduce技术分析
4
NoSQL教程
5
NoSQL技术分析
6
大数据与关系数据库及技术趋势分析
7
大数据技术新进展
8
大数据与新一代企业数据架构规划
补充与答疑
部分产品实现资源精细化管理,支持混合负载 大多数情况下更适合亍批量操作为主的OLAP场景
企业交易操作支持与数据管理 复杂BI报表与分析需求
Oracle ExaData,IBM PureData,TeraData,EMC GreenPlum
10
大数据技术概论
• 现代数据管理需求分析 • 关系数据库的挑战与应对 • 大数据的定义与特征 • 大数据技术家族
主要有两类情况:
挑战
•一类是原有数据种类量的增加 •另一类是过去我们没关心或没能力关心 的数据:如Weblog,社交媒体,实时位 置,智能设备、传感器计量等
• 海量管理能力,多类型,变化快,高可用性,低成本,高端可扩展性
很多传统的技术已经难以应对!
4
大数据技术概论
• 现代数据管理需求分析 • 关系数据库的挑战与应对 • 大数据的定义与特征 • 大数据技术家族
技术体系完整、成熟、可靠 可严格保证数据完整性与一致性 可非常容易地建立二级索引,执行复杂的连接、排序、分组等操作 SQL对复杂数据操作需求只需要说明“要什么”,无需说明“怎么做”,不需要进行开发
不是天然为分布式与幵行设计,水平扩展性受限,可管理数据量与负载量难以适应大规模需求 SQL引擎可支持的数据需求场景有限 关系模型不适合存储与处理许多非结构化/半结构化的场景
企业交易操作与数据管理支持 复杂BI报表与分析需求
Oracle,DB2,Informix,MySQL,SQL Server
6
关系数据库的基本特征简单示例
7
MPP架构示例--TeraData
Shared Disk新架构示例---ExaData
技术理念


技术特征
• •

• 优势


局限性

适用场景
对大数据的整体理解---立体的多面体
1 2
3 4
1、思维和习惯
利用数据进行分析决策的习惯。
2、业务模式
数据驱劢业务的一种商业模式。
3、全部数据
通过合法渠道收集和获得的所有类型的包含内外部所有的大规模数据。
4、技术平台
获取大数据的平台(互联网)承载服务、吸引用户、产生数据和处理大数据的平台 (仅是个技术问题),根据数据特点和处理需要选择的各种技术组合起来的统一平 台。
(如企业数据总线数据集成等),而是数据在全社会范围内的互联互通问题,而这与互联网密 丌可分。如果仅仅局限在企业内部的数据,都不能把握大数据的真正能力。
• ■大数据技术
•狭义地讲,大数据技术指近年来出现与流行的、以低成本易扩展及反关系范式模型为核心特征的 新的数据管理方法,其以Hadoop为主要代表; •广义地讲,大数据技术指用于有效支持上述“大数据”管理不处理需求的数据管理技术的统称, 它可以是指某一项独立具体的技术,也可以是指多项技术面向某种需求的有机组合,包括了经典 RDBMS,改进型RDBMS,Hadoop,NoSQL以及其它。
14
大数据技术概论
• 现代数据管理需求分析 • 关系数据库的挑战与应对 • 大数据的定义与特征 • 大数据技术家族
大数据技术的内容
大 数 据= 技 术
RDBMS Hadoop
NoSQL
NewSQL 分布式文件 新技术(超越 Hadoop)
大变小 小变大
关于各种技术适用场景的判断,没有一种说法是绝对正确或是企业可以直接借鉴的, 必须了解原理后,自行判断!!!
议程
1
大数据技术概论
2
Hadoop MapReduce教程
3
Hadoop MapReduce技术分析
4
NoSQL教程
5
NoSQL技术分析
6
大数据与关系数据库及技术趋势分析7大 Nhomakorabea据技术新进展
8
大数据与新一代企业数据架构规划


代表产品

改进型RDBMS
在保证关系模型、SQL体系与写时模式约束的前提下,提高经典RDBMS的水平扩展性与幵发负载支 持能力 保持经典RDBMS的一切原有特性 引入分布式数据存储特性 引入分布节点幵行操作特性 通常采用软硬件一体化的一体机模式
保持经典RDBMS的一切原有优势
水平可扩展性大大提高
13
大数据的核心数据特征
抛开业务模式,就数据本身来讲,相比“小数据”,大数据具 有如下核心特征:
• 大:数据量大。面对与处理比过去更大的数据量
• 广:类型与来源广泛。面对与处理多种类型,多种来源的 数据
• 联:全社会互联互通。不再只面对企业内部孤立的数据资 源,而是包括企业内外部的全社会的互联互通
技术理念



技术特征
• •




优势


局限性



适用场景


代表产品

经典RDBMS
遵守Codd十二规则,采用基亍二维表的范式化模型存储数据,模型设计以追求数据完整性、一致 性、低冗余性为目标,强调事务的强一致性与参照完整性,对复杂数据操作要求能方便实现。
数据操作遵循ACID(原子性、一致性、隔离性、持久性)原则 数据操作基亍SQL语言实现,支持复杂的SQL查询处理 模式(Schema)固定 强事务,强一致性保证 强大的索引、执行计划与优化引擎机制 数据抽象与物理存储层相对独立,数据分页存放
相关文档
最新文档