企业级大数据分析平台架构专题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Management node 6 Knox BigInsights Home BigSheets Big R Text Analytics GPFS Node
企业级大数据平台实践 第一版 讲师 廖安舟
DATAGURU专业数据分析社区
关于模式你能想到什么?
一切皆有模式!
企业级大数据平台实践 第一版 讲师 廖安舟
Management node 4
Big SQL Headnode Big SQL Scheduler HBase Master (standby) Hive Server MySQL Server Hive metastore WebHCat Server Data Server Manager
Management node 5 Big SQL Headnode (Standby) Big SQL Scheduler (Standby) HBase Master Hive Server (Standby) Hive Metastore (Standby) Journal Node Zookeeper
DATAGURU专业数据分析社区
模式1:Hadoop ETL平台
Hadoop存储和运算区
昂贵的数据库
导出
数据源
缓冲区
数• 据件• N文导FS出数为据数冗据缓余库存表
Load
数据仓库
文件
数据摄入
Load数据格式 • • S数q关b据uos键inoeps字s导/d•段a入ta加/H者y结eia入外vr/构emH部oD分化ntF表hS/区d文at表e件) 或路径(例如分:析仓库 • • Fl常um见e格导式入:行记录 的文• 件S数eq据uenceFile, JSON, Avro • 压• 缩SQ格L式, Pig, Java 或MR任务
平台架构的组网选择
数据网络
– 集群节点乊间构成的私有网络 – 可包含边缘节点服务器
管理网络
– 所有节点的管理入口(例如:ssh, VNC,监控等) – 可直接接入外部管理网络或通过边缘节点接入 – 与外部管理平台集成
边缘节点
– 平台与外部网络连接的边缘节点 – 负责网络路由、数据交换、服务连接入口等
Management node 3 Resource Manager (standby) NameNode Job history server Journal Node Zookeeper App Timeline Server Kafka Oozie (Standby)
Management node 3 NameNode Job history server Zookeeper
优化CPU和内存配比
– Intel E5-2600 v3 CPU, 最高36 Core – DDR4 2133 MHz, 最高1.5 TB – 每个机柜CPU高达720核,内存30TB
高可用选项
– 热插拔硬盘及冗余供电模块 – 散热模块设计 – 硬件监控和管理
DATAGURU专业数据分析社区
企业级大数据平台实践 第一版 讲师 廖安舟
DATAGURU专业数据分析社区
第二课 企业级大数据平台架构 提纲
企业级大数据平台架构决策要点
– 硬件的选择 – 功能组件的选择 – 其他要点
BigInsights集群安装练习
– 第二课作业说明 – BigInsights安装练习
企业级大数据平台实践 第一版 讲师 廖安舟
企业级大数据平台实践 第2课
企业级大数据平台实践 第一版 讲师 廖安舟
DATAGURU专业数据分析社区
法律声明
【声明】本视频和幻灯片为炼数成金网络课程的教学资料 ,所有资料只能在课程内使用,丌得在课程以外范围散 播,违者将可能被追究法律和经济责仸。
课程详情访问炼数成金培训网站 http://edu.dataguru.cn
– 第6课 分布式机器学习算法库和运算框架:BigR
– 第7课 解析自然语义的文本分析组件:Text Analytics
– 第8课 企业级大数据平台数据治理专题
– 第9课 企业级大数据平台的平台管理:多租户与扩展文件系统
– 第10课 企业级大数据平台设计实例: 可解析自然语义的企业级舆情分析系统
注意事项
DATAGURU专业数据分析社区
传统数据平台的架构
昂贵的存储
昂贵的数据库集群
数据源 数据导出 缓冲区
缓冲 数据表
临时表
数据仓库 分析仓库
业务流程
ODS
消息分发
昂贵的ODS系统
企业级大数据平台实践 第一版 讲师 廖安舟
Eቤተ መጻሕፍቲ ባይዱL
• 大数据场景下继续降低成本的解决方案 • 需支持半结构化、非结构化的数据处理 • 需要支持敏捷的分析应用
缓冲区• 信息抽数取据文
缓存表
Load 文件
• 文本分析件
• 概要统计
• 汇总分析
• 数数据据摄建入模
• 数据交互 – SQL, R, Python
BigSheets…
• 数据探索
• 在•线数可据视查化询(ESTQLL)
数据分析
昂贵的数据库
数据仓库 分析仓库
企业级大数据平台实践 第一版 讲师 廖安舟
ETL
• 数据ETL的难题: • 错误的数据格式
• 出错任务的重启
• 数据更新的场景
企业级大数据平台实践 第一版 讲师 廖安舟
ETL
DATAGURU专业数据分析社区
模式2:面向分析的Hadoop架构
导出
数据源
Hadoop存储和运算区
• 批量数据处理– SQL, PIG, AQL,
Python, SPSS, BigSheets…
Models and Rules
Iterative Model Building
HTTP Logs
Extractors
Staging Collector
Log Analysis - SCALA/SCAPI
Solr Search
Log Processing Analytic Runtime
Hadoop Adaptor
Analytic Modules (AQL)
Solr Indexer
课程提纲
– 第1课 企业级大数据平台需求概览; BigInsights发展叱与功能介绍
– 第2课 企业级大数据分析平台架构专题:什么样的需求决定什么样的平台架构;BigInsights集群搭建
– 第3课 如何构建安全的企业级大数据平台
– 第4课 数据探索数据可视化专题:BigSheet
– 第5课 成熟稳定的数据访问接口:BigSQL
DATAGURU专业数据分析社区
企业大数据平台架构设计目标
区域划分:开放域/管理域/计算域 开放域
架构设计目标
– 高可用:防止单点故障的发生 – 安全性:公开节点、内部私有节点和私有网络 – 高性能:根据负载类型做最大的资源优化
管理域
计算域
企业级大数据平台实践 第一版 讲师 廖安舟
涉及物理节点的角色划分和服务组件的分配(下页继续)
数性据、摄k入ey-value数据存储,适合处 数据仓库
理详单数据、客户数据等
• HBASE
• 快速数据导入
• 快速批处理
• 为终•• 端应极 均用速 衡E保查 设TL证询 计高可靠连接数分据析
ODS
数据仓库 分析仓库
业务流程
企业级大数据平台实践 第一版 讲师 廖安舟
ETL
DATAGURU专业数据分析社区
DATAGURU专业数据分析社区
平台负载类型 决定硬件配置
海量数据存储 混合负载 数据中心
企业级大数据平台实践 第一版 讲师 廖安舟
优先保证数据节点的存储空间
– 12 Gb/s vs. 6 Gb/s SAS盘 – JBOD& RAID – 每个数据节点84 TB(含6TB HDD) – 每个机柜(rack)高达1.6 PB的存储空间
企业级大数据平台实践 第一版 讲师 廖安舟
DATAGURU专业数据分析社区
炼数成金逆向收费式网络课程
Dataguru(炼数成金)是专业数据分析网站,提供教育,媒体,内容,社区,出版,数据分析业 务等服务。我们的课程采用新兴的互联网教育形式,独创地发展了逆向收费式网络培训课程模式 。既继承传统教育重学习氛围,重竞争压力的特点,同时又发挥互联网的威力打破时空限制,把 天南地北志同道合的朋友组织在一起交流学习,使到原先孤立的学习个体组合成有组织的探索力 量。并且把原先动辄成千上万的学习成本,直线下降至百元范围,造福大众。我们的目标是:低 成本传播高价值知识,构架中国第一的网上知识流转阵地。
Management node 1 Ambari PostgreSQL Spark Spark History Server GPFS Master
HA环境
Management node 2 Resource Manager NameNode (standby) Journal Node Zookeeper Oozie Ambari monitoring service
关于逆向收费式网络的详情,请看我们的培训网站 http://edu.dataguru.cn
企业级大数据平台实践 第一版 讲师 廖安舟
DATAGURU专业数据分析社区
课程介绍
课程内容
– 本课程从平台管理、数据访问、数据可视化、数据安全等企业级数据平台视角全面审视大数据平台 – 以商用大数据产品BigInsights为基础深入剖析商用大数据平台的企业级特性和应用实践
企业级大数据平台示例 – IT操作风险预测系统
日志数据
z/OS Syslog DB2 zOS Sub-sys logs
WAS logs Oracle (Alerte.log)
Linux Syslogs IMS Sub-sys logs
告警数据
Netcool Alerts File System Monitoring
ETL
DATAGURU专业数据分析社区
模式3:Hadoop数据仓库平台
导出
数据源
Hadoop存储和运算区
• 随需报表
缓冲•区 随需查数询据文
缓存表
Load 文件
• 优化的数件据模型设计
• 优化的存储设计
• Parquet – 高效列存储格式
• ORC – Hive14乊后引入的 数据摄支入持ACID 操作的数据格式
企业级大数据平台实践 第一版 讲师 廖安舟
DATAGURU专业数据分析社区
企业大数据平台构组件分布示例
管理节点的设计至关重要!
直接影响高可用、安全性和性能等。
推荐的管理节点个数
非HA环境
Management node 1 Ambari PostgreSQL Knox Zookeeper Hive Spark
数据仓库
• 优化的数据访问- BigSQL
昂贵的数据库
数据仓库 分析仓库
ETL
数据分析
企业级大数据平台实践 第一版 讲师 廖安舟
ETL
DATAGURU专业数据分析社区
模式4:Hadoop ODS平台
Hadoop存储和运算区
昂贵的数据库
导出
数据源
缓冲区
数据文
缓存表
Load 文件

• 针对终端应用的优化:高扩展特
历叱数据查询系统
– 存储海量历叱数据(PB级) – 提供标准SQL访问接口
增强型数据仓库平台
– 海量非结构化数据的存储和处理 – 与现有数据仓库系统的融合 – 高阶数据分析服务和应用
综合大数据分析平台
– 多元数据处理平台 – 高级数据建模分析 – 精准营销推荐系统
企业级大数据平台实践 第一版 讲师 廖安舟
DATAGURU专业数据分析社区
大数据:企业关注的焦点和数据来源
http://public.dhe.ibm.com/common/ssi/ecm/en/gbe03519usen/GBE03519USEN.PDF
DATAGURU专业数据分析社区 企业级大数据平台实践 第一版 讲师 廖安舟
业务+数据 决定大数据平台架构类型
Spark History Server
GPFS Master BigInsights Home BigSheets Big R Text Analytics
Management node 2 Resource Manager HBase Master Zookeeper Oozie
Secondary NameNode Ambari monitoring service
App Timeline Server
Kafka
Management node 4
Big SQL Headnode Big SQL Scheduler Hive Server (MySQL) MySQL metastore Hive/Oozie metastore WebHCat Server Data Server Manager GPFS Node
相关文档
最新文档