(完整word版)H3C大数据产品技术白皮书
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
H3C大数据产品技术白皮书
杭州华三通信技术有限公司
2020年4月
1 H3C大数据产品介绍 (1)
1.1 产品简介 (1)
1.2 产品架构 (1)
1.2.1 数据处理 (2)
1.2.2 数据分层 (3)
1.3 产品技术特点 (4)
先进的混合计算架构 (4)
高性价比的分布式集群 (4)
云化ETL (4)
数据分层和分级存储 (5)
数据分析挖掘 (5)
数据服务接口 (5)
可视化运维管理 (5)
1.4 产品功能简介 (6)
管理平面功能: (7)
业务平面功能: (8)
2 DataEngine HDP 核心技术 (9)
3 DataEngine MPP Cluster 核心技术 (9)
3.1 MPP + SharedNothing 架构 (9)
3.2 核心组件 (10)
3.3 高可用 (11)
3.4 高性能扩展能力 (11)
3.5 高性能数据加载 (12)
3.6 OLAP 函数 (13)
3.7 行列混合存储 (13)
1 H3C大数据产品介绍
1.1 产品简介
H3C大数据平台采用开源社区Apache Hadoop2.0和MPP分布式数据库混合计算框
架为用户提供一套完整的大数据平台解决方案,具备高性能、高可用、高扩展特性,可以为
超大规模数据管理提供高性价比的通用计算存储能力。H3C大数据平台提供数据采集转换、
计算存储、分析挖掘、共享交换以及可视化等全系列功能,并广泛地用于支撑各类数据仓库
系统、BI系统和决
策支持系统帮助用户构建海量数据处理系统,发现数据的内在价值。
1.2 产品架构
第一部分是运维管理,包括:安装部署、配置管理、主机管理、用户管
HSCZEFKfl上連平fr
KB
笹堆芒12
i』」Rt巽
^jpRctiuce Spjrk sirem
CRM SGM
生产记〒
曲.M-噸
Hadaap2.0
■1 j j
ET辛
SE
mifi
Kettle
H3C大数据平台包含4个部分:
理、服务管理、监控告警和安全管理等。
第二部分是数据ETL,即获取、转换、加载,包括:关系数据库连接Sqoop、日志采集Flume、ETL工具Kettle 。
第三部分是数据计算。MPP采用分析型分布式数据库,存储高价值密度的结构化数据;Hadoop存储非结构化/半结构化数据和低价值密度结构化数据。计算结果都存到数据仓库,数据仓库中的数据可直接用于分析和展示。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。
第四部分数据服务,包括:机器学习、数据挖掘、数据检索、数据可视化、即席分析、SQL和API,为应用层提供服务和中间件调用。
1.2.1数据处理
对于大数据管理平台,应该建立一套标准化、规范化的数据处理流程,例如: 如何采集内部和外部数据、结构化和非结构化数据;如何清洗采集来的脏数据和无效数据;如何对不同来源的数据进行打通;如何对非结构化的数据进行结构化加工;如何在结构化数据的基础上进行商业建模和数据挖掘等等。大数据管理层在一条数据总线上构建了一条完整的大数据处理流水线。这条流水线从数据的采集、清洗到加工处理,把原始杂乱无章的数据加工成结构化的数据组件,供上层的大数据应用来拼装调用,让企业拥有创造数据资产的能力。
1.2.2数据分层
ODS层:数据来源于各生产系统,通过ETL工具对接口文件数据进行编
码替换和数据清洗转换,不做关联操作。未来也可用于准实时数据查询。
轻度汇总层:主题域内部基于明细层数据,进行多维度的、用户级的汇总
明细数据层:主题域内部进行拆分、关联。是对ODS操作型数据按照主
题域划分规则进行的拆分及合并。
信息子层:报表数据、多维数据、指标库等数据来源于汇总层。汇总层:主题域之间进行关联、汇总计算。汇总数据服务于信息子层,目的是为了节约信息子层数据计算成本和计算时间。
应用层:应用系统的私有数据,应用的业务数据。精细化营销做为大数据平台的一个上层
应用,由大数据平台提供数据支撑。
1.3 产品技术特点
先进的混合计算架构
采用Hadoop和MPP融合技术架构,对半结构化和非结构化数据支持并行计算和低成本存储,提供低时延、高并发的查询和分析功能;对结构化数据采用MPP分布式列存储,支持分布式计算、智能索引等功能,实现高性能结构化数据分析处理。集成Map
Reduce、Spark、Storm、Tez等多种计算框
架,利用YARN资源管理做统一管理,可在同一份数据集上运行多种计算。
离线计算、内存计算和流式计算并存,能满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。
高性价比的分布式集群
基于X86服务器本地的计算与存储资源,计算集群可以动态调整,从数台到数千台之间弹性扩展,按需构建应用,减少总体成本;同时,在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供计算和存储的高可靠保证,具备较强的容错性。
云化ETL
将不同业务系统中分散、零乱、标准不统一的各种源数据中的数据进行汇聚。支持从
DBMS、互联网、物联网、企业生产系统等各种数据源中提取数据。各类数据经过抽取、清洗和转化后,实现多对多地加载到包含但不限于大数据集群和各类关系型数据库中。该过程由一个统一的操作接口封装,经过无代码的可视化配置后,可实现自动化地、分布式地执行整个ETL
作业流程。