AI技术加持,让数据中心网络运维无忧(华为周睿)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DB
Node -4:
时间戳1
时间戳N
基于时间维度的网络快照跟踪:正常 VS 异常,变更是最直接的反映;NetDiff解决方案基于Telemetry实现管理面(配置)、控制面 (SYSLOG、GRPC)、转发面(ERSPAN、NetStream)的变更实时管理,基于变更快速感知
Use Case1:注入ARP表项不足导致业务互访失败
异常检测
Decision
手动恢复 基于意图闭环
故障1-3-5:AI驱动网络,挖掘“数据”价值
第一步:异常检测,识别业务异常 100
异常
50 正常区域
0
TCP业务连接中断数出现异常跳变
第二步:聚类,群障特征挖掘
W3应用,目标网段为10.100.10.8/28
源地址为VPC1的会话
某特定端口的会话
FabricInsight
AI技术加持,让数据中心网络运维无忧
周睿 华为NCE分析业务产品总监
生产系统上云,事后故障处理方式无法满足业务0中断诉求
6.48
2.8
0.09 0.63 1.1
1.6
2.0
媒体 医疗 零售 制造 电信 能源 金融
来源: Network Computing, the Meta Group and Contingency Planning Research
Logistical Regression
异常检测
根因分析
ห้องสมุดไป่ตู้
网络预测 网络优化
故障运维知识
统一数据平台(ODAE)
订阅
设备
ERSPAN 流数据
Telemetry/SYSLOG 网络状态感知 Configuration 配置变更感知
采集 分析器
采集服务
数据接收
分发/缓冲
Kafka
数据分发/缓冲
分析/AI运算
... 人工查看监控数据 人工逐点抓包 联合业务侧排查
客户 投诉
Bottom-up的网络视角,网络遭投诉后被动响应; 基于KPI的监控发现不了异常,仍需联合业务侧进行排查
方案
Top-down的 业务视角
基于Telemetry 秒级识别异常
故障根因 一键诊断
故障推理 正常流与异常流路径比对
故障根因一键诊断
异常
Overlay分析
BD/VNI/VRF资源及运 行状态
物理设备 稳定运行
网络资源稳 定,可预测
协议无异常
业务管理面 无异常
周五晚
周末 图2:某银行案例
周一
理论上,基于业务量小时的会话数变化比例识别业务异常趋势,可在业
务量激增业务性能下降严重前,提前预警
业务分析
业务建链失败
网络健康度建模
业务转发面 无异常
障类型。
故障1-3-5:AI+知识推理,实现故障根因快速定位
Collect
Analysis
华为30+年运 维专家经验
真实局点故障 持续学习训练
知识推理引擎
知识1 知识2 知识3 知识4
故障流路径建模
根因分析 风险预测
网络数据
业务流数据/Telemetry数据..
AI 引擎
智能识别连通类Issues
场景与挑战
某企业业务扩容后出现连接中断,如何查找根因?
❶ 断点确认:ping,trace路由排查
❷ 故障排查:登录网关命令行排查,发 现存在ARP未学到
网络管理员人 ❸ 故障定界:与应用侧联合排查是否存
工定位耗时
在VM下线
❹ 日志检索:数百万日志逐条排查,发 现扩容后ARP达到上限
10 min 20 min 20 min 60 min
Telemetry 数据中心网络基础设施
AI分析
AI驱动的故障预测 AI驱动的流量预测 AI驱动的根因分析 AI驱动的异常识别 AI驱动的异常检测
故障1-3-5:“业务流->路径->设备”关联分析
应用行为分析
网络-应用流关联
网络状态评估
邮件
视频
在线游戏
即时通讯
VR/AR
人工智能
应用是否运行正常? 应用体验是否正常?
基于大数据+AI技术,重构网络运维面
机器学习算法 时序分解
EWMA+3-Sigma
DBSCAN
Pearson Correlation Analysis
Gaussian Process Regression
LSTM NN + EnforcementLearning
Linear Regression
K-means
服务器
服务器
服务器 服务器
服务器
故障类型:
网络安全类, 3 表项类, 5 整网类, 7
资源规格类, 14
硬件类, 14
配置类, 17
配置类 非Fabric类 硬件类 资源规格类 整网类 表项类 网络安全类
非Fabric类, 15
2018-2019年累计演练150+次,根据华为30+年运维经验、
7800+数据中心客户的网络故障场景,梳理总结7大类,75种故
体检:面向“未发生故障”,基于5层模型打造主动预防的网络健康度
如何在服务等级下降过程中,服务中断前,发现问题
8小时的服务性能下降
业务中断1小时
30
20
10
0
图1:某运营商案例 接到业务投诉,排查发现中断前数小时已出现KPI下降,但传统手段难 以给出合理的异常阈值,无法判断其为异常行为,被动等待投诉
在线故障学习 Ares guardian
Online learning 在线学习
Data factory 数据工厂
ARES 故障注入
统一南向采集
Insight
外置云端训练 带标签数据
Telemetry数据
故障注入
故障自动化注入,故障标签、故障现象数据 自动化收集,根因特征自动化挖掘
• 故障注入:自动注入打标签、自动生产故障 数据
故障识别
已发生故障
故障恢复
容量预测
未发生故障
健康管理
看病:Ares Guardian故障训练工具,实现故障自动注入与学习
Characteristic Learning 故障特征生成
在线故障诊断 知识库 推理引擎
故障特征
Fault 1: characteristic: xx1 Fault 2: characteristic: xx2 Fault n: characteristic: xxn
• 故障自识别:学习认知故障,自动挖掘故障 模式与监控数据关联关系,故障模式自识别
• 故障自恢复:学习免疫故障,根据识别根因 Ares协同自动训练恢复动作,故障自恢复
故障1-3-5:基于故障演练实现故障知识的持续积累
攻
防
演练组网:
服务器
PE
BL
BL
Spine
Spine
SL
SL
L
L
L
L
L
FW
FW
LB
2
流路径
1
3
ECMP网络每条流的实时网络路径 每条链路承载的业务?
Insight
Analysis
业务 时延
丢包
网络路径中设备的运行状态? 拥塞/丢包发生在哪里?
故障1-3-5:网络即“数据库”,NetDiff解决方案
Node -1:
网络快照1
配置
FIB
网络快照N 日志
网银区
Node -2:
配置
Node -3: FIB
故障0容忍
每小时停机损失百万美元
人工故障识别 人工抓包定位 人工逐步隔离
故障发现难
异常流 占
全网流 3.65%
30% 传统运维 可以识别
70% 传统运维 无法识别
故障定位难
数据中心网络智能运维势在必行
看病:故障1-3-5
1分钟故障识别,3分钟故障定位,5分钟故障恢复 根因分析
体检:网络健康度
基于业务体验评估网络健康,定期体检,主动预防 故障预测
当前TCP会话数 历史TCP会话数
手机APP升级后访问 web页面cache失效
周末因业务量小, 影响不大
周一业务激增,出 现大量web访问失 败
设备分析 网络分析 协议分析
单板、风扇、电源、存 储、光模块等设备状态
设备CPU/内存; 端口流量、错包; 队列深度;表项资源
(ARP/FIB)等
MLAG状态; OSPF/BGP故障及邻居
Spark Streaming 实时数据处理
Spark 离线数据处理
AI算法
存储
Druid/HDFS 原始数据 汇聚数据 分析数据
展点体验
欢迎莅临以下展点体验:
展厅
展区
展点
Hall 2 联接+AI AI加持的1-3-5智能运维
Hall 3 智慧金融 智简DCN,重构运维面
16
Thank you.
Bottom-up的网络视角,定位信息分散 依靠人工经验从各异常指标中判断故障根因
定位耗时长
方案
Telemetry 实时采集业务流
网络变更 实时可视
故障根因 一键诊断
查看故障推理 正常流与异常流路径比对
故障根因一键诊断
Use Case2:注入路由环路导致外网访问业务失败
场景与挑战
客户报障某应用访问失败,网络管理员通过监控排查未发现 异常,联合应用侧耗时数小时发现是存在三层环路导致。