企业IT数据库上云技术实践
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
增量抽数算法 PD算法 整合算法
增量抽数主键算法 DLT->SDI算法 稽核对数算法
算法引入,效率提升
拉式贴源集成算法组合
4
+云
基于云原生的重新选型
数据底座
6
数据库上云需要大量的投入和积累
DDD领域建模专题 云数据实时同步专题
融合数据共享专题 数据库高性能专题
数据库上云战场
解决方案专题
分布式访问专题 数据主权专题
GaussDB(for Influx) (开放生态)
GaussDB(for Redis) (开放生态)
数据仓库服务 GaussDB(DWS)
RDS:开源数据库服务 RDS for MySQL/PostgreSQL
公有云
HCSO
HCS
集团内部的数据库业务从自建转向直接使用云服务
云MySQL:
类别 实例数 CPU 内存 存储
主题库(高斯) 数据湖(高斯)
③入湖(湖内搬迁) ①入湖(推式入湖)
ERP(高斯)
重构
C.存储过程
存储过程:1000~5000行
6
集团去O上云三部曲,应对O(n³)复杂性
STEP1: 清理解耦
识别低流量无用数据资产 OLTP和OLAP解耦 老系统解耦 存量系统逐步封版本
STEP2: 新能力
+运营(面向场景的运营服务) +治理(元数据驱动) +AI(基于AI提升效率) +云(使用云云原生能力)
Graph Database
In-Memory Database
数据联接
Data warehouse
数据共享
TimeSeries Database
大数据
6
成果: +治理 +运营 +AI +云的数据库迁移方案
1
场 景
企业场景
数据集市场景 实时流场景 IOC运营分析场景 数据主题场景 IOT构建场景 数据仓库构建场景 非结构化文档分析场景 海量离线分析场景 DataLab场景 自助入湖场景 安全隐私场景
SQL语法改造 跨AZ的读写和高可用
DWS
TimeSeries Database
Graph Database
大数据
分类
整体架构设计 切换策略
前端应用改造
后端服务改造
数据库设计
分布式方案 上线方案 高可用
数据工具
工作项
数据域架构整体梳理 DDD领域模型设计
数据库选型 软件包的去O方案 具体切换策略和计划
前端功能解耦 前端交互体验优化
中台服务化 数据处理代码实现逻辑
观点:
1. 数据库总体市场空间依然强劲增长, 中国数据库市场增 长 迅速,远超全球市场
2. 中国数据库市场其中45%以上是云服务形态 ,云数据库 增速远超整个数据库市场增速。
3. OLTP和OLAP有融合的趋势,大数据和数据库走向一体化
云化数仓SnowFlake
$500M ↑ 237%
2020年,云化数仓Snowflake 估价120亿美金
2
流程IT数据库上云进展
GaussDB:基于统一的DFV技术架构打造的自研数据库服务
关系型数据库服务
GaussDB(openGauss) (开源生态)
GaussDB(for MySQL/PostgreSQL) (开放生态)
非关系型数据库服务
GaussDB(for Mongo) (开放生态)
GaussDB(for Cassandra) (开放生态)
数据比对/修复专题 实时数仓计算专题
分布式事务专题 分布式访问中间件专题
数据归档清理专题 数据切换策略专题
数据集成 CDC
数据融合 任务调度
工具链专题
数据迁移 实时计算
ETL 数据服务
数据稽核
分布式 中间件
RDBMS
In-Memory Database
数据库专题
KV Database
Document Database
企业IT数据库上云技术实践
技术创新,变革未来
企业数据库市场以及上云趋势分析
关系型
70%
2021年, 70%的企业应用仍 然首选关系型数据库
开源
25%
2022年,开源RDBMS产品 占据25%的RDBMS收入
公有云
50%
2021, 云RDMBS占据50% 的RDBMS收入
场景融合
75%
操作型/分析型场景中的数据 库,重合度达75% in 2019
云数据库和传统非云数据库能力有区别(分布式),不能简单直接搬迁。
B.ETL
JOB:单个ETL任务逻辑
数据应用
15+IOC应用
数据中台 数据湖
(OLAP)
数据源 (OLTP)
2022年
EDW
2020年
离线区 OPBI
2021年
实时区 DWI
③入湖(湖内搬迁)
2020年~2022年
ERP,EFIN,SCM…(重构)
1
+治理
2
数据治理(标准,规范)
源端数据库类型
数据库对象类型
工
目标端数据库类型
具
是否隐私/绝密数据
离线\批量
链
数据量
唯一索引
增量时间戳
……
2
数据领域-方法论
3
数据设计(代码,SQL)
+运营
针对海量重复场景的运营
拉式贴源增量集成场景 拉式贴源全量集成场景
推式集成场景 CDC实时集成场景
3
+AI
算法引入和注入,效率提升
STEP3: 迁移
领域迁移策略(核心-> 非核心) 场景迁移策略(简单->复杂) 上下游协同,关联影响分析 平滑迁移+并行系统保障
自研服务
自研单体
软件包
场景服务
电商应用
经营分析
运营分析
实时分析
自助分析
数据感知
RDBMS
KV Database
数据建模
数据底座
数据加工
Document Database
云数据基础设施
PB级
上述为集团内部迁移到云的部分数据
3
企业去O上云的复杂度 O(n³) 交易+分析+集成
1. 应用复杂度
数仓 20W+作业依赖 (A),主要是(B) ETL作业,或者(C) 存储过程作业
A.调度
调度: 复杂JOB依赖
2. 交易和分析的依赖
数据/服务的上下游依赖,业务对象重构带来模型变化
3. 数据库层面的挑战
传统数仓TeraData
$478M ↓ 12%
Teradata 布 2019财 年 第 四 季度财报,全年收入19亿美 元,同比下降12%
数据来源:Gartner
预计到2025年中国区数据库市场Fra Baidu bibliotek间总计约104亿美金(以Gartner为 基数),其中OLTP约62亿、OLAP约24亿、NoSQL约18亿
云-MySQL 5K+
6W U+ TB级 4PB+
云PostgreSQL:
类别
云-PG
实例数
400
CPU 内存 存储
5K U+ TB级 TB级
云 MongoDB:
类别 实例数 CPU 内存 存储
云-Mongo 4K+
3W U+ TB级 PB级
云DWS(高斯A):
类别 集群数量 节点数 数据量
云-PG 27 500