iMaster NCE-FabricInsight智能运维系统解决方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
芯片 TCAM 利用率
端口
包数 / 字节数 / 丢包数 / 错包 数 / 广播包数 / 组播包数 / 单 播包数
队列
AI ECN 光模块 丢包行为
Buffer Size
Guaranteed Buffer / Headroom Buffer / PFC反压 帧数 / PFC死锁监控次数 / PFC 死锁恢复次数 / ECN 报文数
收/发光功率,电流, 电压, 温度
拥塞丢包感知
默认周期
1 min 1 min 1 min
功能:
异常数 问题抑制与合并 问题通知
输出: 异常
Telemetry监控
网络健康度
Telemetry 主动监控,网络实时可视
运维服务APP
VIP 业务保障
高效数据采集
基于GRPC主动准实时订阅 , 性能佳,效率高
SNMP Telemetry
丰富数据类型
八大维度数据采集, 常规指标主动管理
直观状态呈现
iMaster NCE-FabricInsight,提供DCN的智能运维方案
运维服务APP
网络健康度评估
• 风险评估 • 故障分析 + 闭环联动 • 五层健康评估体系
VIP业务保障
• 业务意图验证 • 数据面建模 • 业务意图管理
运维服务App
• VMTracker • ChangeDiff • LogInsight
人工故障识别 人工抓包定位 人工逐步隔离
故障0容忍
每小时停机损失百万美元
故障发现难
>85%的网络故障业务投诉后才发现
异常流 占
全网流 3.65%
30% 传统运维 可以识别
70% 传统运维 无法识别
故障定位难
一个故障定位平均耗时76min
基于AI的数据中心网络智能运维
SNMP协议 5分钟轮询周期
传统网管
网络配置数据
(Running Config)
网络拓扑数据
(物理拓扑/协议链路/Overlay 隧道)
Telemetry机制 – 更实时,更高效
网络Metrics数据
(CPU/MEM/Bandwidth/Buffer)
网络转发表信息
(FIB/ARP)
SYSLOG 数据
(Level 0 – 4)
Telemetry监控
基于动态基线智能检测异常,历 史趋势对比呈现,便于网络调优
测量对象 设备 单板 芯片 端口 队列
光模块 丢包行为
表项
测量指标 CPU 利用率/ 内存利用率 CPU 利用率/ 内存利用率 FIB / MAC 表项利用率 TCAM 利用率 收/发包数/ 字节数 / 丢包数/ 错包数 / 广播包数/ 组播包数/ 单播包数 Buffer Size 收/发光功率,电流, 电压, 温度 拥塞丢包感知 FIB / ARP 表项详情
AI智能数据分析
Telemetry 数据可视化
异常检测
ODAE 数据分析引擎 数据处理框架
FusionInsight 大数据平台 Spark
智能分析框架 Kafka
Druid 引擎 HDFS
流量预测
AI引擎 机器学习算法库
机器学习框架
Telemetry多维数据采集
网络资源数据
(设备/单板/端口/协议/Overlay)
华为iMaster NCE-FabricInsight智能运维系统解决方案
人工主导的传统运维亟待向AI使能的智能运维演进
6.48
2.8
0.09
0.63
1.1
1.6
2.0
媒体 医疗 零售 制造 电信 能源 金融
来源: Network Computing, the Meta Group and Contingency Planning Research
基于Telemetry技术,监控AI ECN关键KPI指标, 覆盖 ECN/PFC/Buffer/Headroom/Deadlock 多个维度
智能无损DCN Telemetry Metrics 集合
测量对象
测量指标
设备 单板
CPU 利用率 / 内存利用率
CPU 利用率 / 内存利用率 FIB / MAC 表项利用率
5 /15 min 分钟级轮询,无法满足业务实时诉求
数据 生成
Near realtime 准实时数据获取
准实时的数据获取能力,是分析器进行数据分析的关键依赖
基于机器学习算法的异常检测
Telemetry监控
网络健康度
运维服务APP
VIP 业务保障
数据集&预处理
构建动态基线
异常检测
输入: 功能:
指标时间序列数据 (val,time)
iMaster NCE-FabricInsight
Telemetry 秒级数据采集
网络全场景数据可视
7大维度指标分析+动态基线
以设备为中心 每天巡检2小时
智能化
以业务为中心 全面网络健康度评估
分钟级识别风险 五层评估模型+AI算法
被动响应 依赖人工定位
主动运维 自动化排障
故障1-3-5处理
AI算法+专家经验
识别指标异常的设备
建立Benchmark,对比基线指标趋势,识别异常指标 丢包行为CE6865-48S8CQ-EI/CE8850-64CQ-EI/CE6857/CE8861/CE8868/CE9860支持
Telemetry监控
网络健康度
Leabharlann Baidu
智能无损DCN Telemetry指标监控
运维服务APP
VIP 业务保障
默认周期 1 min
设备版本 V200R005C00
1 min
V200R005C10
1 min
V200R005C10
1 min
V200R005C00
100 ms 30 min 10 s 动态订阅
V200R005C00 V200R005C00 V200R005C00 V200R019C10
八大维度关键指标实时监控,网络状态尽在掌控
网络健康度
基于Telemetry技术,满足实时分析诉求
运维服务APP
VIP 业务保障
SNMP 简单统计呈现,人工决策 非结构化数据,编解码效率低
数据 分析
传输 格式
Telemetry方式 数据智能分析,自动化排障 GPB二进制编解码,传输高效
<Pull> 请求应答模式,采样间隔大
数据 采集
<Push+gRPC> 一次订阅,持续数据推送
采集频率自动识别 缺失值自动填充 降噪数据: 对极端异常数据
降噪 特殊适配: 在节假日等额外
处理数据
输出: 数据特征(取值稳定或周期稳定) 指标采集周期
功能: 周期稳定指标算法:时间序列 分解
取值稳定指标算法:Gaussian 回归
通过算法构建基线边界 调整基线敏感度
输出: 预测下一采集间隔的基线边界