网易Hadoop大数据架构
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
流计算服务
• •
Hive, spark, impala,hbase元数据打通
Sloth流计算服务化平台 通过增量计算的方式,来完成流计算任务 使用SQL作为开发方式,完全与离线SQL兼 容,支持 window/join/subquery/having/retractin g等复杂SQL功能
•
数仓体系内,用户无需在不同的系统一之间
04
未来技术规划
网易大数据平台未来规划
得益开源 回馈开源
全面Spark 内存计算
Flink为基础的 实施计算体系
新硬件(GPU,FPGA )加速计算
Tensonrflow on Yarn
实时算法平台
统一计算平台
Thanks!
网易Hadoop大数据架构
技术创新,变革未来
数据业务架构
数据应用
网易新闻
网易云音乐
网易考拉
网易云课埻
……
数据平台
网易有数 / 网易猛犸
数据存储计算服务
数据采集
日志
Database
直接导入
其他仓库
……
网易大数据体系
Hadoop 开源组件
自研组件
猛犸数据 开发平台
有数敏捷数据 分析平台
01 数据平台
•
自研系统与开源组件结合
kafla服务 化
精细化的 yarn调度器
扩展 Ranger 统一授权
Spark高可 用 多租户
……
Sloth——流计算服务化平台
Sloth 特点
SQL开发 与离线SQL兼容 DDL UDF Having Join Subquery
执行引擎 扩展Flink
SQL解析 扩展Calcite
自劣分析
数据管理 内存计算 Spark
权限管理
多租户管理
统一资源管理与调度 Yarn
分布式数据库 HBase 实时/增量接入 NDC和DataStream 非结构化数据 如音频文件
元数据管理 数据质量校验 DQC
秘钥管理 Kerberos
运维监控 Amber
自研系统与开源组件的结合
统一元数据服务
•
增量计算模型
Whole
考拉要对所有商家按销售额做分类统计,销售额在[0,100]区间内的归为一类,
[100,200]区间的的归为一类,以此类推,通过计算输出每个区间内的商家个数。
这个任务可以用SQL定义为:
-- stage1:计算每个商家的销售总额
敏捷可视化分析: 常见流程
数据
初步分析
可视化
图像
感知
新想法
知识
进一步分析
假定
明确问题
探索与分析
数据
可视化 可视化循环模型(Wijk & D. Keim)
用户
敏捷可视化分析:解决方案
网易有数
敏捷可视化分析工具
目标
保证分析的时效性 让更多的人能够完成可视化分析
需求
易用性:简单易懂的交互操作,缩短数据建模,查询,可视 化的时间 高性能:高速的数据提取能力 连贯性:尽可能在一个场景下完成这些工作
做元数据同步
•
不同组件组件之前,数据全增量同步
统一元数据服 务
流计算服务
•
数据安全与权限
•
一站式
数据安全与权 限 一站式
• •
HDFS/Hive/Impala/Spar等组件自劢 权限
同步 支持到列级别的权限控制,支持数据自劢加 密,即使被拖库,也不用担心敏感数据泄露
一站式的数据平台,数据地图 基于ambari开发的一站式的统一部署,监 控,运维体系
Sloth 增量计算
输入数据
离线计算
流式计算
增量计算
Sloth 增量计算
输入数据
离线计算
流式计算
增量计算
Sloth 增量计算
输入数据
离线计算
流式计算
增量计算
Sloth 增量计算
输入数据
离线计算
流式计算
增量计算
SlothPyhsicalPlan
02 数据开发平台
猛犸——数据开发平台
可视化 数据集成
INSERT INTO tmp SELECT seller_id, sum(payment) as total FROM source GROUP BY seller_id;
-- stage2: 计算每个销售额区间内的商家个数
SELECT count(seller_id) as num, total/100 as range FROM tmp GROUP BY (total/100);
网易大数据体系
大数据应用开发层 数据加工 数据计算 资源管理 数据存储 数据集成 数据源
分布式文件系统 HDFS和Kudu 全量/非实时接入 Sqoop 结构化数据 如RDBMS备库 半结构化数据 如JSON 数据集成 离线计算 Hive 大数据开发套件(可视化IDE) 作业流开发
数据开发
任务运维 流式计算 Sloth
元数据 和数据地图
数据权限 与安全
猛犸——数据集成
猛犸——元数据和血缘
猛犸——细粒度的权限控制
猛犸总结
• • •
灵活数据管理
可视化数据集成 元数据管理,数据地图,血缘分析 细粒度权限控制
业务验证 业务验证
• • •
灵活数据管理
行业标准 覆盖全网易互联网 业务场景 十万级任务调度能力
可视化模型开发和 调度
• • •
经过多个不同领域业务的考验,行之有效 完备的产品化机制 完善的服务与培训机制
支持常用的Hadoop组件,兼容行业标准 降低学习门槛 灵活部署,适合大、中、小各种规模业务 应用
行业标准
灵活数据管理
• • •
可视化数据集成 元数据管理,数据地图,血缘分析 细粒度权限控制
03 敏捷数据分析平台