网易互联网数据中台实践

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据质量
时效性
是指数据的时效对应用的满足程度,可以分n数据任务结束时间和 运行时长。
01
完整性
是指需要的数据已完整记录,可以分n记录数完整性和字段值完 整性。
04
02
一致性
是指系统内外部数据源s间的数据一致程度,可以分n指标一致性 和信息一致性。
03
准确性
是指数据在数仓k的值和实际值是否相同,可以分n口径实现 结果和数据逻辑合理性。
2BAQE
19
4UKIM
缓存
结果缓存
元数据缓存
异构数据源使用场景
模型路由
/S
2BAQE
大数据量明细数据的查询场景
MUS:5 小数据量的 灵活查询场景
1PEEM9KSL z互式
多维分析场景
4UKIM 离线聚合 多维分析场景
REDIQ 大列表TNON场景
服务监控
• 数据k台概览 • 元数据k心 • 数据服务 • 全链路数据质量k心 • 数据资产管理
原子指标 (销售量)
百度文库维度 (商品)
• 指标和维度命名规范 • 指标口径要清晰(p例或S:5)
维度属性 (商品ID,名称)
• 数据k台概览 • 元数据k心 • 数据服务 • 全链路数据质量k心 • 数据资产管理
n什么要有数据服务
可维护性
• 打通u数据应用W指标W数仓表的全链路监控 • 表变更,f知道谁访问这个表b
接入效率
• 所有需求一个接口 • S.4 高效率接入
安全隐患
• 底层表直接暴漏 • 对数仓的访问缺少权限控制
指标口径
• 相同指标在多个表k存在 • 指标口径f统一 • 指标重用率低,数仓重复加工
数据服务架构
应用层
用户行n分析系统
元数据k心
逻辑模型
条件解析 结果返回
物理模型
WNPkEP
• f知道数据含r • 找f到数据 • f知道哪个数据更有价值 • f清楚数据的更新频率 • 大量重复建设 • …
解决找数据问题
指标系统
指标方法论
时间周期 (昨日)
h务过程 (e单)
修饰类型 (终端类型)
修饰词 (OC)
派生指标 (昨日OC端销售量)
h务模块 (电商h务)
数据域 (z易域)
用户运营
商品运营
市场运营
供应链
管理层
数据智能
用户行n分析系统
数据产品
用户精准投放系统
商品运营系统 商品舆情系统
推广渠道管理系统
供应链决策协同系统
活动实时直播
高层看板 VIOAOO
搜索推荐 风控
h务面m的问题
指标口径f 统一
数据重复 建设
取数效率低
数据产品 故障频发
成本指数 增长
落地产品
指标系统+数据服务
01
多种数据源支持
• 能够覆盖网易所有的数据源,甚至包括4AFkA,REDIQ, 2BAQE等SCHELA KEQQ 4V系统
数据血缘
• 静态血缘 动态血缘 • 血缘支持时间戳,可以按照时间戳读取,过期 • 血缘覆盖率以及血缘采集性能
元数据k心架构图
数据地图
一个复杂的h务有成千dc张表
网易互联网产品数据k台实践
• 数据k台概览 • 元数据k心 • 数据服务 • 全链路数据质量k心 • 数据资产管理
互联网h务数据架构
电商
供应链决策协同系统
用户行n分析
精准投放
+.S
+.S


.W.

o 站
.W.
8.S
8.S
音t
传媒
猛犸大数据开发计算平台
数据产品: 以电商n例
h务场景
数据质量提升s前的状态
• 超过)0%的问题是由h务和产品发现
• 收集的问题k存在研发BSG的占比达50%
数据质量稽查规则
完整性
• 表数据量波动监控和绝对值监控 • o键唯一监控 • 字段n空,n0的监控 • 数据完整性监控,订单%&小时,终端覆盖
一致性
• 同一个指标在f同模型f一致监控 • 相关指标趋势监控,比如ST和OT走势一致 • 聚合逻辑一致性监控 • f同数据源对同一个实体的值一致
指标异常 • 故障恢复时间的请准预估
全链路数据质量监控
• 全链路任务状态监控 • 任务甘特图
• 数据k台概览 • 元数据k心 • 数据服务 • 全链路数据质量k心 • 数据资产管理
元数据k心
数据源
Hive metastore!
元数据k心
大数据计算
හഝ‫ݎ‬ሿ!
හഝ԰᭗!
හഝလቘ!
网易元数据k心设计原则
数据标签
• 通过l富的f同类型的标签,完善数据特征体系 • 指标标识、数仓的o题域、分层信息,是否是数仓维护的推荐
表都以标签形式存在
g大数据系统集成
• gRAMGEP结合,允许通过自定r标签的方式对数据进行动态授权 • 数据传输、自助分析g元数据k心集成 • 基于元数据k心,构建数据质量k心、数据资产管理k心、数据
地图
0 5
02
多租户,多h务线
• 能够支持电商(考拉、i选)、互娱(音t、游戏)、传 媒、教育
数据地图+自助查询
数据质量k心
资产管理
k台产品架构
互联网h务数据k台架构
供应链决策协同系统
用户行n分析
精准投放
电商数据k台
音t
传媒
统一元数据
猛犸大数据开发计算平台
共享数据资产
数据k台实施效果
100%数据产品指标覆盖,统一h务口径和取数口径定r,消除指标vr性 基于数据地图,100%实现自助取数 全链路数据跟踪,回答“数据准f准b”“哪y数据故障b”“什么时候恢复b”,加速数据故障的排查定位,助力)).(%S5+达成 所有数据产品接入统一查询服务,做到所有对数仓的访问,可管理、可追踪,通过逻辑模型g物理模型的分离,大幅提高指标的重用性 构建元数据k心,通过资产分析、看清数据资产、降低数据管理成本、追踪数据价值,消灭低价值的资产,成本节约%0%以d
商品运营系统
查询服务
逻辑执行计划 结果聚合
CNNPDIMARNP WNPkEP
OpenApi modelName! OrderBy!
Fields! Distinct!
FliterList!
Limit!
Offset!
物理执行计划 物理执行
WNPkEP
权限校验 日志管理 访问控制 监控报警
数据源
MUS:5
准确性
• 数值计算逻辑监控:商品只能归属一个BU • 数据格式的监控,比如I9,UR5 • 维表的监控 • 数据异常监控,比如日期还没发生
时效性
• 任务延迟监控 • 表产出时间的监控 • 源数据延迟监控
全链路数据质量监控
• 覆盖数据产出的完整生命周期 • 全链路数据血缘的实时监控 • 快速u解哪y数据产品的哪y
相关文档
最新文档