Greenplum 数据库开发基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Segment
Segment Host Segment Host Segment Host
❖ 每段(Segment)存放一部分用户数据 ❖ 一个系统可以有多段 ❖ 用户不能直接存取访问 ❖ 所有对段的访问都经过Master ❖用户查询SQL的执行
Segment Host
Interconnect - Gigabit Ethernet Switch
完全共享 例如: SMP服务器
来自百度文库
共享磁盘 例如: Informix XPS Oracle RAC DB2 pureScale
网络
DB
DB DB DB DB
SAN/FC
磁盘
SAN/共享磁盘
MPP
无共享 例如:
Greenplum
Master
网络
DB DB DB DB
磁盘 磁盘 磁盘 磁盘
注:蓝灰色表示共享资源
的基础
Hash分布
CREATE TABLE … DISTRIBUTED BY (column [,…]) 同样数值的内容被分配到同一个Segment上
master instance
client
gigabit ethernet (private LAN)
segment host
primary segment mirror segment
segment host
primary segment mirror segment
segment host
primary segment mirror segment
▪ 完全支持数据库技术接口标准,例如: SQL, ODBC, JDBC, OLEDB等。同时,广泛 地支持各个BI和ETL软件工具。
构
LAN Client
Master Host
Interconnect—千兆以太网交换机
Segment Host Segment Host Segment Host Segment Host
• 最易于扩展的架构
– BI和数据分析的最佳选择
• 增加节点实现线性扩展
– 增加节点可线性增加存储、查询和加载性能
Greenplum基本架构
MPP (Massively Parallel Processing) Shared-Nothing Architecture
SQL MapReduce
Master Severs
护
master host
global catalog Greenplum Master
segment host 1
Segment 1 (primary)
Segment 2 (mirror)
segment host 2
Segment 2 (primary)
Segment n (mirror)
segment host n
Interconnect
❖ Greenplum数据库之间的连接层 ❖ 进程间协调和管理
LAN
❖ 基于千兆以太网架构 ❖ 属于系统内部私网配置 ❖ 支持两种协议:TCP or UDP
系架构
standby master host
standby master
synch process
master host
▪ 所有数据均匀分布到所有节点,每个节点都计算自己的部分数据,所以并行处理 无需人工干预,系统自动完成。
❖ 无需复杂的调优需求,只需要加载数据和查询
▪ DBA工作量极少,无需复杂的调优工作和维护工作。
❖ 扩展性 ▪ 可线性扩展到10,000个节点
▪ 每增加一个节点,查询、加载性能都成线性增长
❖ 客户端访问及第三方工具支持
Master/Standby 镜像保护
primary master host
standby master host
System Catalogs
System Catalogs
Transaction Logs
synchronization process
Transaction Logs
Standby 实时与 Master 节点的 Catalog 和事务日志保持同步 Standby 节点用于当 Primary Master 节点损坏时提供 Master 服务
Segment n (primary)
Segment 1 (mirror)
每个Segment的数据冗余存放在另一个Segment上,数据实时同步 当Primary Segment失败时,Mirror Segment将自动提供服务 Primary Segment恢复正常后,使用gprecoverseg –F 同步数据。
...
Query planning & dispatch
Network Interconnect
Segment Severs
...
Query processing & data storage
External Sources
Loading, streaming, etc.
... ...
性
❖ 并行处理由系统自动完成,无需人工干预
MPP无共享架构的优势
Interconnect Loading
• 数据分布在所有的并行节点上
– 每个节点只处理其中一部分数据
• 最优化的I/O处理
– 所有的节点同时进行并行处理 – 节点之间完全无共享,无I/O冲突
• 自动化的并行处理机制
– 内部处理自动化并行,无需人工分区或优化 – 加载与访问方式与一般数据库相同
客户端接口和程序
Client
psql pgAdmin III ODBC/Datadirect JDBC Perl DBI Python libpq OLE DB
Master Host
Master Host
访问系统的入口 建立与客户端的连接和管理 SQL的解析并形成执行计划 执行计划向Segment的分发 收集Segment的执行结果 协调工作处理过程 Master不存储业务数据,只存储系 统目录表和元数据(数据字典)
Greenplum 数据库开发基础
2014年10月
学习 ·创造 ·超越 ·共享
1
目录
Greenplum概述和数据分布 数据加载和外部表 客户端工具
Greenplum数据库基础 Greenplum与Oracle
优化策略 其他要点及示例
MPP架构
MPP (Massively Parallel Processing) Shared-Nothing Architecture