HBase技术原理介绍及案例分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
l 源自文库的 GC 算法: ZenGC l 对象重?用
详情参?见: https://yq.aliyun.com/articles/277268
诊断系统
HBase
API)
HBase
Graph (HGraphD
B)
时空 (GeoMesa)
时序 (OpenTSD
B)
Solr 全?文索引/?二级索引
多模式层: 提供各种模型转换,贴切业务 索引引擎: 提供索引?支持,基于 Lucene 存储引擎: 提供 KV ?支持,基于 LSM
SSD
HDD
OSS
……
分布式? 文件层: 保障低成本、与上层分离、共享降低成本
传统关系数据库
分布式云 HBase
数据模型 数据规格
关系模型 ~ 1T,~亿?行行
多数据模型 -关系、时序、时空、图 ~ 10PB,~ 万亿?行行
服务能?力力 技术架构
~100K TPS 主备
~1000M TPS 集群架构、存储计算分离,扩展性强
Schema
较少修改
主要场景
ERP 、CRM 、BOSS 、 交易易等强事务场景
多模式
Wide column (宽表) SQL (关系) Time series (时序) Geo (时空) Graph (图) Document (?文档)
服务化
开箱即?用
SLA 保障 全球部署 全可?用区
开放全托管
资源独享 多语?言?支持
(覆盖?大部分语?言
Go……)
稳定可靠
独享 CPU 、memory 稳定 单?行行写0.2k 99 .9?毛刺<刺3ms 单?行行写0.2k 平均 < 1ms 单 集群 SLA 99 .9% 双集群容灾 SLA 99.99% 数据可靠性 9 个 9 ?自动负载均衡、热点迁移 ?支持备份恢复 ?小版本在线热升级
阿里云 ApsaraDB HBase VS 传统数据库
全栈式 融合流、 分析能?力力 ApsaraDB HBase
多种数据模型、灵活
多模式 ApsaraDB HBase
?自动分区、运维简单
NewSQL
超过单机数据量量及TPS 引?入运维复杂性、扩展不不平滑
分库分表
基本 CURD 需求 单机数据库
功能
HBase技术原理介绍及案例分析
技术创新,变革未来
? 目录 / Contents
01
基本介绍
02
企业级特性
03
HBase ?生态
04
典型案例例
基本介绍
阿里云 ApsaraDB HBase 为大数据而生
新挑战
新需求
? 企业数据快速膨胀 ? 数据价值需要挖掘 ? 业务快速迭代 ? 互联?网及物联?网快速发展 ? 内核 ?人才缺乏
u ?支持RDS 插?入、修改、删除操作 u ?支持RDS加列列、删列列
冷热分离
HBase
存储计算分离
元 ?高效云盘VS OSS 1GB?/ 月 成本对
0.8
?比
0.7
0.7
0.6
0.5
成本下降 3.5 倍
0.4
0.3
0.2
?高效云盘(热数据 )
OSS( 冷数据 )
0.2
0.1
0
2 副本云盘 OSS
?无需定义、完全动态 修 改对服务可?用性?无影响
数据量量?大、 并发?高 - 物联?网、?车联?网、 互 联?网、历史数据等数据驱动的场景
阿里云 ApsaraDB HBase
云数据库 HBase 版是基于 Apache HBase 深度优化的全托管云数据库, ?支持多种模 式 (SQL、?二级索引、全?文查询、图、时序、时空、分析),在物?网联、?车联?网、 ?用户画像、对象存储、 AI、Feeds 等场景有 ? 广泛应 ? 用。
? 读写 API 完全不不变 ? 满?足数百 TB 数据的冷数据 ? 写? 入 QPS > 20W ,读单台 QPS 低 < 50 ? Get 平均延迟< 20ms,满?足实时写?入及读取
建表 DDL :
create ‘ test',"info", CONFIGURATION=>{'HFILE_STORAGE_POLICY'=>'CO LD'}
类型 YGC CMS FGC
停顿时间 100ms+ 100~500ms 20s-180s
频率 5s 5min 7 ~ 60 Days
类型 YGC CMS FGC
停顿时间 10ms 100ms N/A
频率 5s 5H N/A
l 通过 HBase 本身来分配和回收主要内存
l BucketCacheV2 , CCSMap
企业级特性
数据备份恢复
l 误操作 l 软件问题 l 磁盘设备问题 l ……
备份
l 备份对集群没有影响 l 可以完整恢复 ? 一个新的集群 l 备份延迟:最?长 1?小时(后续改进为1m) l 恢复时间:?大部分?一天内,最?长 3 天 l 单表备份恢复(规划之中)
全量量
增量量
实时数据同步
Spark
? 海? 量量数据需要存储 ? ?非结构化数据 ? ?高可展性 ? 灵活数据模型 ? 在线存储与离线计算结合
SQL 模型
图模 型
时序模 型
时空 模型
百万 列列
万亿?行行
~10 亿 QPS
?小对象 存储
?高可展 ~10PB
稀疏 表
读写 毫秒
动态 列列
LSM
分布式 架构
?高压 缩?比 1:10
存储计 算分离
主备 多活 异地容灾
业务
HBase
Z K
HDFS
集群 1
互为主备
同城
HBase
Z K
HDFS
集群 2
l 提?高服务可?用性 l 满?足集群级别的容灾 l 可以通过单集群组装为多集群 l 备集群 可以满?足分析的需求 l 异步同步,最终?一致性 l 延迟 200ms 以内 l 异地容灾(待?支持)
延迟
RDS MySQL
RDS SQL Server
RDS PostgreSQL
复杂 分析
异步 实时 同步
ApsaraDB
HBase&Phoenix
……
l 多 RDS 可以同步到 ?一个 HBase 集群 l 异步实时同步,平均延迟 ?小于 200ms l ? 支持跨可 ?用区、异地实时同步 l 指标监控、可视化 l 在线配置即可 ? 生效 l ? 自动同步到 HBase :
计算
平台内置 Spark 引擎 Spark 算?子下推到HBase ?支持流计算、离线计算服 务化
阿里云 ApsaraDB HBase 产品架构
备份 恢复 安全 双活
OLAP/SQL/ 流/ 批
Spark
MLlib
Graph
分析层: ? 支持复杂分析、算 ?子下推
SQL (Phoenix)
KV (HBase
详情参?见: https://yq.aliyun.com/articles/277268
诊断系统
HBase
API)
HBase
Graph (HGraphD
B)
时空 (GeoMesa)
时序 (OpenTSD
B)
Solr 全?文索引/?二级索引
多模式层: 提供各种模型转换,贴切业务 索引引擎: 提供索引?支持,基于 Lucene 存储引擎: 提供 KV ?支持,基于 LSM
SSD
HDD
OSS
……
分布式? 文件层: 保障低成本、与上层分离、共享降低成本
传统关系数据库
分布式云 HBase
数据模型 数据规格
关系模型 ~ 1T,~亿?行行
多数据模型 -关系、时序、时空、图 ~ 10PB,~ 万亿?行行
服务能?力力 技术架构
~100K TPS 主备
~1000M TPS 集群架构、存储计算分离,扩展性强
Schema
较少修改
主要场景
ERP 、CRM 、BOSS 、 交易易等强事务场景
多模式
Wide column (宽表) SQL (关系) Time series (时序) Geo (时空) Graph (图) Document (?文档)
服务化
开箱即?用
SLA 保障 全球部署 全可?用区
开放全托管
资源独享 多语?言?支持
(覆盖?大部分语?言
Go……)
稳定可靠
独享 CPU 、memory 稳定 单?行行写0.2k 99 .9?毛刺<刺3ms 单?行行写0.2k 平均 < 1ms 单 集群 SLA 99 .9% 双集群容灾 SLA 99.99% 数据可靠性 9 个 9 ?自动负载均衡、热点迁移 ?支持备份恢复 ?小版本在线热升级
阿里云 ApsaraDB HBase VS 传统数据库
全栈式 融合流、 分析能?力力 ApsaraDB HBase
多种数据模型、灵活
多模式 ApsaraDB HBase
?自动分区、运维简单
NewSQL
超过单机数据量量及TPS 引?入运维复杂性、扩展不不平滑
分库分表
基本 CURD 需求 单机数据库
功能
HBase技术原理介绍及案例分析
技术创新,变革未来
? 目录 / Contents
01
基本介绍
02
企业级特性
03
HBase ?生态
04
典型案例例
基本介绍
阿里云 ApsaraDB HBase 为大数据而生
新挑战
新需求
? 企业数据快速膨胀 ? 数据价值需要挖掘 ? 业务快速迭代 ? 互联?网及物联?网快速发展 ? 内核 ?人才缺乏
u ?支持RDS 插?入、修改、删除操作 u ?支持RDS加列列、删列列
冷热分离
HBase
存储计算分离
元 ?高效云盘VS OSS 1GB?/ 月 成本对
0.8
?比
0.7
0.7
0.6
0.5
成本下降 3.5 倍
0.4
0.3
0.2
?高效云盘(热数据 )
OSS( 冷数据 )
0.2
0.1
0
2 副本云盘 OSS
?无需定义、完全动态 修 改对服务可?用性?无影响
数据量量?大、 并发?高 - 物联?网、?车联?网、 互 联?网、历史数据等数据驱动的场景
阿里云 ApsaraDB HBase
云数据库 HBase 版是基于 Apache HBase 深度优化的全托管云数据库, ?支持多种模 式 (SQL、?二级索引、全?文查询、图、时序、时空、分析),在物?网联、?车联?网、 ?用户画像、对象存储、 AI、Feeds 等场景有 ? 广泛应 ? 用。
? 读写 API 完全不不变 ? 满?足数百 TB 数据的冷数据 ? 写? 入 QPS > 20W ,读单台 QPS 低 < 50 ? Get 平均延迟< 20ms,满?足实时写?入及读取
建表 DDL :
create ‘ test',"info", CONFIGURATION=>{'HFILE_STORAGE_POLICY'=>'CO LD'}
类型 YGC CMS FGC
停顿时间 100ms+ 100~500ms 20s-180s
频率 5s 5min 7 ~ 60 Days
类型 YGC CMS FGC
停顿时间 10ms 100ms N/A
频率 5s 5H N/A
l 通过 HBase 本身来分配和回收主要内存
l BucketCacheV2 , CCSMap
企业级特性
数据备份恢复
l 误操作 l 软件问题 l 磁盘设备问题 l ……
备份
l 备份对集群没有影响 l 可以完整恢复 ? 一个新的集群 l 备份延迟:最?长 1?小时(后续改进为1m) l 恢复时间:?大部分?一天内,最?长 3 天 l 单表备份恢复(规划之中)
全量量
增量量
实时数据同步
Spark
? 海? 量量数据需要存储 ? ?非结构化数据 ? ?高可展性 ? 灵活数据模型 ? 在线存储与离线计算结合
SQL 模型
图模 型
时序模 型
时空 模型
百万 列列
万亿?行行
~10 亿 QPS
?小对象 存储
?高可展 ~10PB
稀疏 表
读写 毫秒
动态 列列
LSM
分布式 架构
?高压 缩?比 1:10
存储计 算分离
主备 多活 异地容灾
业务
HBase
Z K
HDFS
集群 1
互为主备
同城
HBase
Z K
HDFS
集群 2
l 提?高服务可?用性 l 满?足集群级别的容灾 l 可以通过单集群组装为多集群 l 备集群 可以满?足分析的需求 l 异步同步,最终?一致性 l 延迟 200ms 以内 l 异地容灾(待?支持)
延迟
RDS MySQL
RDS SQL Server
RDS PostgreSQL
复杂 分析
异步 实时 同步
ApsaraDB
HBase&Phoenix
……
l 多 RDS 可以同步到 ?一个 HBase 集群 l 异步实时同步,平均延迟 ?小于 200ms l ? 支持跨可 ?用区、异地实时同步 l 指标监控、可视化 l 在线配置即可 ? 生效 l ? 自动同步到 HBase :
计算
平台内置 Spark 引擎 Spark 算?子下推到HBase ?支持流计算、离线计算服 务化
阿里云 ApsaraDB HBase 产品架构
备份 恢复 安全 双活
OLAP/SQL/ 流/ 批
Spark
MLlib
Graph
分析层: ? 支持复杂分析、算 ?子下推
SQL (Phoenix)
KV (HBase