【精品】2019年Pivotal5Greenplum混合交易与分析处理(HTAP)之路大数据报告PPT(获奖作品)图文

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Greenplum 7: 预计 2020年底
• 内核升级: PostgreSQL 9.5 (几乎结束),PostgreSQL 9.6 • 行级安全控制 • BRIN 索引 • 全新的DR机制 • OLAP 性能、并发 • 单机单segment部署(基于PostgreSQL 9.6 并行扫描) • 物化视图 • Greenplum 联邦 • 混合负载、OLTP 能力持续增强 •…
Greenplum 混合交易/分析处理 (HTAP)之路
Pivotal 研发总监 Pivotal 高级软件工程师
Pivotal
PivotalR
BOSH
KUBO
一 、大纲
• Greenplum 介绍 • Greenplum 架构 • Greenplum 路线图 • Greenplum 混合负载(HTAP)优化
10/11/12: J百度文库T、pluggable 存储、分区 (Greenplum 8.0)
Greenplum 6 性能:TPCB 60x;单条查找 3.5x https://greenplum.cn/2019/05/14/greenplum-6-oltp-60x/
HashJoin
Motion receiver
Hash
SeqScan students
Gang 1
QE:s1
Motion sender
SeqScan classes
Segment 1
QE:s2
Motion Sender
HashJoin
Motion receiver
Hash
SeqScan students
pg_catalog sales
customers
pg_catalog sales
customers
master
pg_catalog sales
customers
segment
pg_catalog sales
customers
segment
分布式数据存储:数据分布
sales c1 c2 c3
segment segment segment segment segment segment
QE:s1
Motion sender
SeqScan classes
Segment 2
分布式 ACID: 2阶段提交 A(原子性) 和 D(持久性)
分布式事 务管理器
all prepared
阶段 1
segment
par es prete: y
1 yes
ve o
prep evo et ar yes :
Hadoop 市场是SQL市场,是分析型数据市场
● Hadoop 含义的演进: HDFS/MR/Hive/Hbase ● Hadoop 发布在技术未成熟前已经过时(Gartner 2017) ● 70%的Hadoop部署未达成目标(整合困难,技能不足) ● Strata+Hadoop Strata (2018 年) ● Cloudera:75% 的 Hadoop 市场是 SQL 市场, ● Facebook: 95+% Hive ● Spark: 即使是 Spark, Spark SQL 70%
segment 2 yes
分布式事 务管理器 done
阶段 2
i comamc k
t
com t ackmi
segment com1m
it
segment com2 mi
t
分布式ACID:全局快照 + Lock I(隔离性)
Global snapshots Used slot
分布式ACID:全局快照 + 全局锁管理器 C
SELECT s.name student_name, c.classname FROM students s, classes c WHERE s.id=c.student_id
分布式查询处理:查询执行
QD Gather receiver
Master
Gang 2
QE:s2
Motion Sender
大数据 ≈ 分布式数据库
Greenplum 架构
Greenplum: 是集群化的 PostgreSQL
集群化 – 为用户提供一个逻辑上透明的数据库
Greenplum 极简拓扑
Greenplum 最突出的架构特色:MPP(大规模并行处理)
对用户透明的分布式数据库
1. 分布式数据存储 2. 分布式查询处理 3. 分布式ACID
Greenplum 路线图
Greenplum 6: 预计 2019年7月发布
• 内核升级: PostgreSQL 8.4, 9.0, 9.1, 9.2, 9.3, 9.4, 9.4.20 • 基于流复制的全新高可用机制:扩展性强、无代码侵入性 • 在线扩容:不停机、不停业务、数据移动量少(一致性Hash) • 混合负载增强(HTAP):性能提升60x • 流式数据支持:Kafka gpkafka Greenplum • 磁盘配额 • Zstd 压缩算法 • 灵活的数据分布:横向 + 纵向 • Kubernetes 原生支持:SIGMOD paper • 数据库内建机器学习、深度学习增强(Apache MADLib) • GPCC (Greenplum Command Center)
Bruce Momjian Marc Fournier
Greenplum: 2003年创立,基于 PostgreSQL 的分布式集 群
Scott Yara 创始人
Luke Lonergan 创始人
Ray Feng Greenplum中国研发创始人
Gartner 2019 排名: 经典分析全球第三;实时分析并列第四;前十唯一开源
Greenplum 介绍
数据库领域牛人: 4位图灵奖得主
Charles Bachman Edgar ’Ted’ Codd Jim Gray
1973
1981
1998
Michael Stonebraker 2014
PostgreSQL
Thomas Lockhart Jolly Chen Vadim Mikheev Jan Wieck Andrew Yu Tom Lane
分布式查询处理:分布式查询优化
CREATE TABLE students (id int, name text) DISTRIBUTED BY (id); CREATE TABLE classes(id int, classname text, student_id int) DISTRIBUTED BY (id);
相关文档
最新文档