H3C MPP分布式数据库解决方案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

DataEngine MPP分布 式数据库
MPP + Share Nothing 架构
PB级大 数据处理
能力
列式存储 与计算引

完美的 SQL标准
支持
存储与计 算分离
自动数据 库设计与
优化
库内机器 学习
时序数据 与GIS数 据处理
数据类型
数据源和 数据通道
结构化数据
JSON、Apache AVRO、Apache Parquet、XML等
5 5
H3C MPP 数据库产品
产品1
DataEngine MPP
产品2
SeaSQL MPP
高级分析功能 性能敏感型客户
ZZKK敏感行业 价格敏感型客户
Confidential 秘密
6 6
01 H3C MPP 概述 02 H3C MPP 解决方案介绍
MPP核心思路:蚂蚁搬家,群策群力;分而治之处理海量数据,并行处理提高处理效率。
Confidential 秘密
3 3
ACID & 实时性
结构化
MPP的定位
半结构化
非结构化
OldSQL
(oracle/DB2/SQL Server)
NewSQL/MPP
(H3C MPP/Greenplum/Teradata)
支 持 负
网载

络均




Segment Host
Confidential 秘密
100% 对等
– 无需专有节点
– 所有节点都参与数据装 载/查询
– 线性扩展
• 更多的节点数=更多的数据 容量 & 更高的计算能力

• 可以轻松从几个节点到上千 节点、或从几个TB到数10PB

规模扩展和收缩

– 一键扩展集群
777.224.51 52.92 74.26 23.4152.49 89.23
87.1 12.1 21.19 31.25 34449 56.50 24.51 52.92 74.26 152.49 89.23
H3C MPP 分布式数据库解决方案
01 H3C MPP数据库介绍 02 H3C MPP数据库解决方案介绍
Confidential 秘密
2 2
传统关系型数据库
MPP来龙去脉
问题一:传统数据库无 法处理不断增长的海量 数据,5-10T基本是其 能处理的最大量;
MPP分布式数据库
Confidential 秘密
7 7
H3C MPP 分布式数据库架构
用户
IT人员
开发人员
业务分析师
数据科学家
数据分析应用
SQL
用户程序
商业智能报表工具
原生应用接口 ANSI SQL /VSQL/ODBC/JDBC/OLEDB
编程语言
机器学习
人工智能
Python/R/Java/Perl/C
MPP应用场景
处理的业务场景类型? 查询、分析、预测业务
查过去 对海量数据快速查询与分析, 帮助客户敏捷的获取关键信息;
盯现状 业务整体情况分析,出年报表、 月报表、周报表,用户画像等,
辅助业务决策;
Confidential 秘密
预未来 基于海量历史数据和机器学习 算法,对未来业务的预测分析,
辅助业务决策;
2019/06/01 2019/06/01
Run-length Encoding
0000001 0 2 2 4
10 10 19 25 49 50 51 52 67 68 70
Delta Encoding
12.34 33.0
12.3411.2 777.2 23.4 33.087.1 12.1 21.19 11.231.25 34449 56.50
本地文件 系统
HDFS
Spark
内存存储
自定义存 储
其他关系 型数据库
Confidential 秘密
ETL
Kafka
8 8
无共享大规模并行计算和可扩展性
传统MPP数据库架构
H3C MPP架构
客户端 网络
Master Host
Standby Master Host

客生
户 端
……
价格
120.34 234.50 345.21 100.00 99.99 129.99
……
编码信息
32343245 34566432 75443748 74635258 44859334 94532745
……
可节省近2个量级CPU和I/O资源消耗,分析查询性能比传统行式数据库快50到1000倍。同时,CPU和 I/O资源的大幅节约,也大幅提升了数据装载、数据导出、数据处理和备份恢复等操作的性能。

• 一键加入和删除节点并自动
完成数据重分布,扩展过程
不需要中断正在运行的业务
9 9
列式存储和计算
用户ID
00000001 00000002 00000003 00000004 00000005 00000006
……
日期
2019/04/02 2019/04/03 2019/04/04 2019/04/04 2019/04/05 2019/04/06
Interconnection Network
分布式架构
集中式架构
问题二:传统数据库为 交易业务而设计,擅长 记录交易记录,无法应 对不断增长的查询和分 析应用需求;
数据
MPP定义:即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据
根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同 计算,作为整体提供数据库服务。
Confidential 秘密
10 10
主动压缩
根据数据类型、基数、排序自动进行数据压缩,支持12+压缩算法,通常压缩比可以做到 10:1以上
日期
用户ID
价格
Clickstream
10
2019/06/01
2019/06/01 2019/06/01 2019/06/01 2019/06/01 2019/06/01 2019/06/01 2019/06/01 2019/06/01 2019/06/01 2019/06/01
NoSQL Hadoop
Confidential 秘密
扩展能力
数据类型:结构 化和半结构化 针对场景:OLAP 实时性:要求高 数据大小:TB到 10PB之间
4 4
MPP能力范围
能处理什么类型的数据数据? 结构和半结构化数据
MPP应用场景
能处理数据量的范围? TB级到10PB级数据量
相关文档
最新文档