大数据时代云数据库HBase架构

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据时代云数据库HBase架构
技术创新,变革未来
提纲
• 业务挑战带来的架构演进 • 大数据数据库的实际案例
业务的挑战 - 存储量/并发计算增大
计 算 力
ECS 索引
Spark
存储量大 分 布式复杂 成 本高
MySQL 存储
磁盘
ES/Solr
HBase
列 存
分布式化 - 大 数 据 方 案 事务
Cube数据库-Kylin
时序数据库-OpenTSDB
图数据库-JanusGraph
分布式Region - HBase
分布式索引 - ES&Solr Spark 提供 计算 能 力
分布式文件接口:HDFS&API
• •
存储与计算分离 - 存储按需计费 分层负责-规避工程复杂性-构建各
自核心竞争力
分布式安全隔离保障层:QOS
分布式数据库
应对的办法
分布式
提供扩展性
计 算 力 延 伸 算子+SQL
分层设计
降低复杂性
云化
复用资源&弹性 降低成本
基本架构
• 基于存储计算分离
• •
HDFS 与 分布式Region\分布式索引分离 SQL\时空\ 图\ 时序\Cube与分布式Region\ 检索分离
SQL 标准的SQL入口
时空数据库-GeoMesa
异地容灾
节点 资源 节点 节点 节点
同城容灾
节点 资源 节点
资源
存储集群 热 资源 存储集群 热
• • •
降低成本 存储集群 冷热搭配
资源
可 用 区 A
资源 资源 资源
资源
存储集群 热
冷数据/ 备份
可 用 区 A
可 用 区 B
பைடு நூலகம்冷数据/ 备份
资源多租户、与其它业务共享资源
可 用 区 B
资源 资源 存储集群 冷 资源 存储集群 冷
客户案例 - 某大数据⻛控公司
Spark 算法训练
ApsaraDB-HBase
ECS实时查询 返回结果
APP ECS Spark SQL 报表

HBase数据 (在线实时大数据存储)
• •
用户画像、指纹等 爬虫、手机等原始信息 200T+

数 据 量

客户案例 - 某社交公司
Spark Streaming 实时关系写入
可 用 区 C 杭州区域 北 北 京 区 域
支持的场景
推荐画像 对象存储
1B~100M 海 海 量 存 储 网 页 ⻚ 图 片 片 网 新闻 文 档 病毒 万列稀疏矩阵 用户特征
消息/ 订单存储
强同步、海海量数据
聊天消息 订单/ 保单存储
Feeds流
高并发请求访问 朋友圈
HBase
NewSQL
SQL、二二级索引、动态列
ApsaraDB-HBase
主备集群
定期回补关系
ECS 推荐关系 ApsaraDB-HBase
ECS
推荐关系 实时feed
• •
SLA要 求 高 99.99,双集群保障 单集群读写高峰QPS 1000w+

数 据量:30T
客户案例 - 某基金公司
同步 批量快速加载 ODPS
SQL实时查询
ApsaraDB-HBase & Phoenix
运维自动化
自动守护服务
在线扩容节点/磁盘
可用性检测\容量报警
内核在线升级
15分钟快速交付
指标可视化
专家24小时在线服务
• • • • • • • • • •
千万并发 PB存储 KV基础存储 动 态 列 强同步 稀疏表 SQL 二二级索引 Read Replicas <100M的对象存储
时序数据
高 并 发 \海 海 量 存 储 传感器 股票K线 监控数据
索引查询、元数据库
时空数据
高 并 发 \海 海 量 存 储
Cube分析
数据量变大
100T
业务的挑战 - 非结构化业务增多
计算力
ECS 检索
Graph 时序 工程成本 复杂性 NewSQL
MySQL 存储 事务
关系 非关系
时空
业务的挑战 - 引 入 更 多 的 数 据
复杂性 计算复 杂性
Hadoop& Spark
Kylin(满足读延迟)
灵活性
分布式 灵活性 延迟<读, 写> 延迟<读, HBase&分布式索引写>
ECS
• 交易易订单查询 • 单表
10000亿 + 多个索引字段
• 二级索引
• 数据量:100T
客户案例 - 某公司报表系统
离线build cube 再数据同步到HBase中 ODPS ApsaraDB-HBase
实时查询
Report
Blink
• • •
离线建好Cube
实时更新
数据量20T左右
ApsaraDB HBase保障
分布式文件系统:盘古
纯SSD SSD&SATA 混合 纯SATA
解决成本的方案

分级存储
高压缩比 基础设施共享 - 库存压力分担 存储与计算分离 - 按需计费 优化性能
分级存储
按需计费
高 压 缩

• • •
HDFS&API QOS 盘古 纯SSD SSD&SATA 混合 纯SATA
云数据库基本部署结构
高 并 发 、 海 海 量 存 储
轨迹
气 气 象 网 网 格
实时报表

客户案例- 某 车 联 网 网 公 司
分析 物联网网套 件
流计算 数据清洗
ApsaraDB-HBase
轨迹
• 100万台车,每辆车
10s上传一一次,每次1KB 车辆ID + 时间
• 1年年数据存储300T+,6个月月以上数据低频访问,分级存储的能力 • Rowkey设计:Sub(Hash(车辆ID),5)+
相关文档
最新文档