企业级云端数据仓库的架构实践
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
技术创新,变革未来
企业级云端数据仓库的架构实践
议题
•云端数据仓库•HashData架构和实现•HashData落地场景•总结和展望
云端数据仓库:市场
《2017年互联⽹趋势》
云端数据仓库:技术
•多维度弹性
•⾼并发
•⼏乎⽆限的计算和存储能⼒
•秒级的增删节点
•统⼀的数据存储和处理平台
•结构化、半结构化和⾮结构化数据
•避免数据孤岛
•真正的服务
•⽤户只需关⼼加载数据、分析数据
•
基础设施管理、性能调优、⾼可⽤等交给数据仓库服务本身AWS
Redshift
BigQuery
HashData公司简介
ݪلਧ໐ஞࢫᴚᤈӱᕪḵහഝᤈ॒ ቘᥢཛྷӫဳ ԭԯᒒහഝՙପጱڠڡ໐ஞࢫᴚԆᥝኧᤈᛔ3L Y R W D O̵ԅᰂᣟኪמᚆრ̵Ի᭗ᒵ܉ӡᕆጱහഝପᤈᤈݪلᤈ᭗ԭ۹Ղग़ᤈ7HUDGDWD̵,%0̵ ԯᦇᓒړᤈ॒ හഝପᤈय़හഝՙପᵙᤈྯ ॠ1Պ+ጱ॒ᤈ64/ັᧃ හഝӫਹᕟ౮ HashData数据仓库 •完全托管的PB级数据仓库服务 •访问接⼝开放 •100%兼容开源的PostgreSQL和Greenplum Database •系统架构云原⽣ •计算、存储分离 •对象存储作为数据持久层 •独⽴元数据服务:在线升级和扩容 •⼀致性哈希数据分布:秒级扩容 HashData设计理念 数据存储层•⽬标数据 •⽤户表数据; •运⾏时临时数据;•对象存储 •表空间与Bucket映射;•深度优化 •增删改查; •多Buckets; 元数据服务层•⽬标数据 •表到数据对象的映射; •数据字典; •统计信息; •会话状态; •锁状态; •持久化 •分布式K-V数据库 元数据架构 计算集群•资源形态 •物理服务器 •虚拟机 •容器 •纯粹的计算资源 •按需创建、删除; •弹性伸缩; •集群间资源隔离;•本地缓存 •SSD优化; •⼩⽂件合并; 某国有⼤⾏:⾼并发 ✴原理: ✴每个计算节点参与到每条查询的执⾏中; ✴系统⽀持的并发查询数量由单个计算节点的硬件资源决定; ✴扩⼤集群规模不能提⾼并发查询数量,虽然能够降低单条查询的延迟(有时候因为调度的开销,甚⾄可能⽐原来慢);✴原理: ✴多集群共享统⼀存储架构; ✴不同集群间不竞争CPU、内存和IO资源; ✴多个物理集群组成⼀个逻辑集群; 某国有⼤⾏:弹性 ✴原理: ✴数据按照哈希取模的算法均匀分布在各个计算节点; ✴扩容的时候,所有原有数据都需要从磁盘中读出来,重新哈希分布,打散到各个节点(包括新添件的节点),再次写回磁盘,引⼊⼤量的 磁盘IO和⽹络IO ;✴原理: ✴⼀致性哈希算法避免了数据重新逻辑分组; ✴共享存储避免了数据重新物理移动; 某国有⼤⾏:⾼可⽤ ✴原理: ✴计算节点失败,任务调度到备份节点(Mirror节点); ✴全新节点替代失败节点时,数据需要从Mirror节点同步到新的节点;✴原理: ✴数据持久化到共享存储; ✴动态调整计算节点与数据分⽚之间的映射关系; 某国有⼤⾏:数据共享 ✴原理: ✴Shared-Nothing:每个集群的数据保存在集群中每个计算节点本地的磁盘; ✴集群与集群之间数据⽆法做任何有效共享;✴原理: ✴Shared-Everything:任何⼀个计算集群都能够访问任何⼀份数据; ✴集群之间保证事务的强⼀致性; 某国有⼤⾏:成果 •成果: •30+计算集群; •20+PB数据; •6000+计算节点; •2000+并发访问; •计算资源节省30%,存储资源节省50%;并发任意扩展,数据随⼼共享 某⼤省移动DPI平台:Hadoop •挑战: •存储成本显著上升; •数据分析能⼒弱,需要 多个组件联合使⽤; •计算存储紧耦合,导致 系统⽆法灵活扩容; 某⼤省移动DPI平台:HashData •⽬标: •更⼤的数据存储量, 同时降低存储成本; •提升分析实时性和并 发访问; •负载业务资源隔离;