Greenplum数据仓库技术架构介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Greenplum数据仓库技术架构介绍
OLAP 在互联网公司的实践与思考
1
一
数据仓库体系架构
二
Fra Baidu bibliotek
Greenplum体系架构
三
Greenplum状态描述
四
Greenplum运维体系
五
Greenplum开发规范
2
数据仓库体系架构
数据仓库架构要点
• 数据生命周期 • 业务数据特点 • OLAP场景举例 • OLAP架构示意 • 数据流转过程 • 具体技术实现
17
Greenplum现状说明
Greenplum集群现状概述
• 三大Greenplum集群体系
➢ 公司IDC_01机房Greenplum体系 ➢ 公司IDC_02机房Greenplum体系 ➢ 公司IDC_03机房Greenplum体系
18
Greenplum现状说明
三大Greenplum集群定位分类
5
数据仓库体系架构
OLAP场景举例
• 业务相关场景
Ø 用户状态 (注册数,活跃数,并发量,峰值) Ø 金币状态 Ø 道具/物品状态 Ø 对账状态 Ø 活动反馈
• 架构相关场景
Ø 不同数据量,不同事务特点,不同查询需求 Ø 历史数据归档与冷热分离 Ø 实时与延时需求的权衡
6
数据仓库体系架构
数据架构示意图
业务数据特点
• 现在的数据 —— OLTP
Ø 实时,在线系统,客户使用 Ø 事务小,频率高,并发高
• 过去的数据 —— OLAP
Ø 非实时(T+1,或小时级),离线系统,分析决策 Ø 事务大,频率相对小,并发低
• 未来的数据 —— 趋势分析
Ø 非实时,离线+在线流系统,趋势分析 Ø 算法分析,持续计算
11
greenplum体系架构
postgresql体系结构
12
greenplum体系架构
postgresql体系结构
• pg结构组成
➢ 连接关系系统 ➢ 编译执行系统 ➢ 存储执行系统 ➢ 事务系统 ➢ 系统表
• pg逻辑和物理结构
➢ instance实例 - user - tablesapce ➢ database - schema - table,view,function - data row ➢ 物理文件 - oid - 表空间 - 数据文件命名
• 体系架构相同 • 年表划分相同 • 平台整体定位
• 定位不同,多集群配合形成逻辑大集群
21
Greenplum现状说明
Greenplum多层业务规划图
22
一
数据仓库体系架构
二
Greenplum体系架构
三
Greenplum状态描述
四
Greenplum运维体系
五
Greenplum开发规范
23
Greenplum运维体系
运维要点
• 环境规划与部署 • 系统状态监控 • 数据库备份 • 数据传输与同步 • 任务调度
- 构建系统 - 监控系统 - 保障系统 - 流转系统 - 计算系统
24
8
数据仓库体系架构
架构的具体技术实现
• 轻量级数据仓库 —— Inforbright
– 与MySQL数据库结合,易使用,冷热分离 – 数据库归档,只能load,不支持DML – 对特定OLAP类查询有很好的支持作用
• 通用性数据仓库 —— Greenplum
– 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能
• greenplum的核心功能
➢ 无共享MPP ➢ 多态存储 ➢ 高效数据加载 (gpfdist+外部表,每小时4TB+) ➢ 分布分区 ➢ 数据压缩 ➢ 外部访问
16
一
数据仓库体系架构
二
Greenplum体系架构
三
Greenplum状态描述
四
Greenplum运维体系
五
Greenplum开发规范
13
greenplum体系架构
greenplum的体系结构
14
greenplum体系架构
greenplum的体系结构
15
greenplum体系架构
greenplum的体系结构
• greenplum的架构特点
➢ MPP ShareNothing 海量并行处理+完全无共享 ➢ cpu计算能力 ➢ 数据从Disk上的I/O吞吐性能 ➢ master管理节点 ➢ segment数据节点
• 公司IDC_01机房Greenplum体系
➢ 公司第一套Greenplum集群,网络环境为千兆网 ➢ 数据来源为OLTP库,针对小数据量传输和计算,部分实时交互操作 ➢ 以对账业务为主,统计计算为辅
• 公司IDC_02机房Greenplum体系
➢ 针对数据来源主要是kfk产生csv文件的业务,不直接从数据库传数 ➢ 以重点业务线、活动数据、非OLTP业务数据的任务计算为主
7
数据仓库体系架构
数据流转过程
• 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面
• 7 结果数据的交互 —— OLTP,趋势分析 • 8 OLAP数据流转 —— dbsync平台
- 数据认识 - 业务认识 - 业务需求 - 整体框架 - 数据流转 - 实现方式
3
数据仓库体系架构
数据生命周期与业务归类 时间维度:过去 - 现在 - 未来 (数据的生命周期)
• “现在”的数据 —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析
4
数据仓库体系架构
9
一
数据仓库体系架构
二
Greenplum体系架构
三
Greenplum状态描述
四
Greenplum运维体系
五
Greenplum开发规范
10
greenplum体系架构
体系结构要点
• postgresql体系结构 • pg逻辑和物理结构 • Greenplum体系结构 • GP架构特点与功能
- 单元结构 - 单元分解 - 集群结构 - 集群特点
• 公司IDC_03机房Greenplum体系
➢ 数据来源来源为OTLP库库,针对大数据量传输和计算,采用T+1方式 ➢ 以核心业务的数据计算、统计为主
19
Greenplum现状说明
数据架构示意图
20
Greenplum现状说明
三大Greenplum集群关系
• 数据来源不同 • 数据处理不同 • 时效速度不同
OLAP 在互联网公司的实践与思考
1
一
数据仓库体系架构
二
Fra Baidu bibliotek
Greenplum体系架构
三
Greenplum状态描述
四
Greenplum运维体系
五
Greenplum开发规范
2
数据仓库体系架构
数据仓库架构要点
• 数据生命周期 • 业务数据特点 • OLAP场景举例 • OLAP架构示意 • 数据流转过程 • 具体技术实现
17
Greenplum现状说明
Greenplum集群现状概述
• 三大Greenplum集群体系
➢ 公司IDC_01机房Greenplum体系 ➢ 公司IDC_02机房Greenplum体系 ➢ 公司IDC_03机房Greenplum体系
18
Greenplum现状说明
三大Greenplum集群定位分类
5
数据仓库体系架构
OLAP场景举例
• 业务相关场景
Ø 用户状态 (注册数,活跃数,并发量,峰值) Ø 金币状态 Ø 道具/物品状态 Ø 对账状态 Ø 活动反馈
• 架构相关场景
Ø 不同数据量,不同事务特点,不同查询需求 Ø 历史数据归档与冷热分离 Ø 实时与延时需求的权衡
6
数据仓库体系架构
数据架构示意图
业务数据特点
• 现在的数据 —— OLTP
Ø 实时,在线系统,客户使用 Ø 事务小,频率高,并发高
• 过去的数据 —— OLAP
Ø 非实时(T+1,或小时级),离线系统,分析决策 Ø 事务大,频率相对小,并发低
• 未来的数据 —— 趋势分析
Ø 非实时,离线+在线流系统,趋势分析 Ø 算法分析,持续计算
11
greenplum体系架构
postgresql体系结构
12
greenplum体系架构
postgresql体系结构
• pg结构组成
➢ 连接关系系统 ➢ 编译执行系统 ➢ 存储执行系统 ➢ 事务系统 ➢ 系统表
• pg逻辑和物理结构
➢ instance实例 - user - tablesapce ➢ database - schema - table,view,function - data row ➢ 物理文件 - oid - 表空间 - 数据文件命名
• 体系架构相同 • 年表划分相同 • 平台整体定位
• 定位不同,多集群配合形成逻辑大集群
21
Greenplum现状说明
Greenplum多层业务规划图
22
一
数据仓库体系架构
二
Greenplum体系架构
三
Greenplum状态描述
四
Greenplum运维体系
五
Greenplum开发规范
23
Greenplum运维体系
运维要点
• 环境规划与部署 • 系统状态监控 • 数据库备份 • 数据传输与同步 • 任务调度
- 构建系统 - 监控系统 - 保障系统 - 流转系统 - 计算系统
24
8
数据仓库体系架构
架构的具体技术实现
• 轻量级数据仓库 —— Inforbright
– 与MySQL数据库结合,易使用,冷热分离 – 数据库归档,只能load,不支持DML – 对特定OLAP类查询有很好的支持作用
• 通用性数据仓库 —— Greenplum
– 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能
• greenplum的核心功能
➢ 无共享MPP ➢ 多态存储 ➢ 高效数据加载 (gpfdist+外部表,每小时4TB+) ➢ 分布分区 ➢ 数据压缩 ➢ 外部访问
16
一
数据仓库体系架构
二
Greenplum体系架构
三
Greenplum状态描述
四
Greenplum运维体系
五
Greenplum开发规范
13
greenplum体系架构
greenplum的体系结构
14
greenplum体系架构
greenplum的体系结构
15
greenplum体系架构
greenplum的体系结构
• greenplum的架构特点
➢ MPP ShareNothing 海量并行处理+完全无共享 ➢ cpu计算能力 ➢ 数据从Disk上的I/O吞吐性能 ➢ master管理节点 ➢ segment数据节点
• 公司IDC_01机房Greenplum体系
➢ 公司第一套Greenplum集群,网络环境为千兆网 ➢ 数据来源为OLTP库,针对小数据量传输和计算,部分实时交互操作 ➢ 以对账业务为主,统计计算为辅
• 公司IDC_02机房Greenplum体系
➢ 针对数据来源主要是kfk产生csv文件的业务,不直接从数据库传数 ➢ 以重点业务线、活动数据、非OLTP业务数据的任务计算为主
7
数据仓库体系架构
数据流转过程
• 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面
• 7 结果数据的交互 —— OLTP,趋势分析 • 8 OLAP数据流转 —— dbsync平台
- 数据认识 - 业务认识 - 业务需求 - 整体框架 - 数据流转 - 实现方式
3
数据仓库体系架构
数据生命周期与业务归类 时间维度:过去 - 现在 - 未来 (数据的生命周期)
• “现在”的数据 —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析
4
数据仓库体系架构
9
一
数据仓库体系架构
二
Greenplum体系架构
三
Greenplum状态描述
四
Greenplum运维体系
五
Greenplum开发规范
10
greenplum体系架构
体系结构要点
• postgresql体系结构 • pg逻辑和物理结构 • Greenplum体系结构 • GP架构特点与功能
- 单元结构 - 单元分解 - 集群结构 - 集群特点
• 公司IDC_03机房Greenplum体系
➢ 数据来源来源为OTLP库库,针对大数据量传输和计算,采用T+1方式 ➢ 以核心业务的数据计算、统计为主
19
Greenplum现状说明
数据架构示意图
20
Greenplum现状说明
三大Greenplum集群关系
• 数据来源不同 • 数据处理不同 • 时效速度不同