企业级云端数据仓库的架构实践

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

技术创新,变革未来

企业级云端数据仓库的架构实践

议题

•云端数据仓库•HashData架构和实现•HashData落地场景•总结和展望

云端数据仓库:市场

《2017年互联⽹趋势》

云端数据仓库:技术

•多维度弹性

•⾼并发

•⼏乎⽆限的计算和存储能⼒

•秒级的增删节点

•统⼀的数据存储和处理平台

•结构化、半结构化和⾮结构化数据

•避免数据孤岛

•真正的服务

•⽤户只需关⼼加载数据、分析数据

基础设施管理、性能调优、⾼可⽤等交给数据仓库服务本身AWS

Redshift

Google

BigQuery

HashData公司简介

ݪلਧ໐ஞࢫᴚᤈӱᕪḵහഝᤈ॒ ቘᥢཛྷӫဳ ԭԯᒒහഝՙପጱڠڡ໐ஞࢫᴚԆᥝኧᤈᛔ3L Y R W D O̵ԅᰂᣟኪמᚆრ̵Ի᭗ᒵ܉ӡᕆጱහഝପᤈᤈݪلᤈ᭗ԭ۹Ղग़ᤈ7HUDGDWD̵,%0̵

ԯᦇᓒړᤈ॒ හഝପᤈय़හഝՙପᵙᤈྯ ॠ1Պ+ጱ॒ᤈ64/ັᧃ

හഝӫਹᕟ౮

HashData数据仓库

•完全托管的PB级数据仓库服务

•访问接⼝开放

•100%兼容开源的PostgreSQL和Greenplum

Database

•系统架构云原⽣

•计算、存储分离

•对象存储作为数据持久层

•独⽴元数据服务:在线升级和扩容

•⼀致性哈希数据分布:秒级扩容

HashData设计理念

数据存储层•⽬标数据

•⽤户表数据;

•运⾏时临时数据;•对象存储

•表空间与Bucket映射;•深度优化

•增删改查;

•多Buckets;

元数据服务层•⽬标数据

•表到数据对象的映射;

•数据字典;

•统计信息;

•会话状态;

•锁状态;

•持久化

•分布式K-V数据库

元数据架构

计算集群•资源形态

•物理服务器

•虚拟机

•容器

•纯粹的计算资源

•按需创建、删除;

•弹性伸缩;

•集群间资源隔离;•本地缓存

•SSD优化;

•⼩⽂件合并;

某国有⼤⾏:⾼并发

✴原理:

✴每个计算节点参与到每条查询的执⾏中;

✴系统⽀持的并发查询数量由单个计算节点的硬件资源决定;

✴扩⼤集群规模不能提⾼并发查询数量,虽然能够降低单条查询的延迟(有时候因为调度的开销,甚⾄可能⽐原来慢);✴原理:

✴多集群共享统⼀存储架构;

✴不同集群间不竞争CPU、内存和IO资源;

✴多个物理集群组成⼀个逻辑集群;

某国有⼤⾏:弹性

✴原理:

✴数据按照哈希取模的算法均匀分布在各个计算节点;

✴扩容的时候,所有原有数据都需要从磁盘中读出来,重新哈希分布,打散到各个节点(包括新添件的节点),再次写回磁盘,引⼊⼤量的

磁盘IO和⽹络IO

;✴原理:

✴⼀致性哈希算法避免了数据重新逻辑分组;

✴共享存储避免了数据重新物理移动;

某国有⼤⾏:⾼可⽤

✴原理:

✴计算节点失败,任务调度到备份节点(Mirror节点);

✴全新节点替代失败节点时,数据需要从Mirror节点同步到新的节点;✴原理:

✴数据持久化到共享存储;

✴动态调整计算节点与数据分⽚之间的映射关系;

某国有⼤⾏:数据共享

✴原理:

✴Shared-Nothing:每个集群的数据保存在集群中每个计算节点本地的磁盘;

✴集群与集群之间数据⽆法做任何有效共享;✴原理:

✴Shared-Everything:任何⼀个计算集群都能够访问任何⼀份数据;

✴集群之间保证事务的强⼀致性;

某国有⼤⾏:成果

•成果:

•30+计算集群;

•20+PB数据;

•6000+计算节点;

•2000+并发访问;

•计算资源节省30%,存储资源节省50%;并发任意扩展,数据随⼼共享

某⼤省移动DPI平台:Hadoop •挑战:

•存储成本显著上升;

•数据分析能⼒弱,需要

多个组件联合使⽤;

•计算存储紧耦合,导致

系统⽆法灵活扩容;

某⼤省移动DPI平台:HashData •⽬标:

•更⼤的数据存储量,

同时降低存储成本;

•提升分析实时性和并

发访问;

•负载业务资源隔离;

相关文档
最新文档