再谈网络故障诊断
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
再谈网络故障诊断
电子科技大学 2015.11.24
目录
一、智能故障诊断 二、MLBR方法 三、RMBR方法
1
提纲
智能故障诊断:业内的工作
2
智能故障诊断
宽带网络现状
服务日 益丰富
规模日 益扩大
客户对上 层应用服 务质量要 求提高
宽带网络 服务质量
不达标
如何提高对网络性能状况的感知度? 如何了解终端用户的感受?(浏览网页,下载文 件,音视频,……)
如何验证向用户提供的SLA承诺? 如何为重点客户提供定期的网络质量报告?
如何进行长时间 (7×24)的性能监测以提前发现问题?
如何精准快速进行质量劣化等故障 的定位和根因分析?
3
智能故障诊断
WEB iTV CDN VoIP网关
一张网络
浏览器/PAD iTV STB VoIP终端
智能故障诊断:三个目的 故障识别(fault identification) ,或故障发现 故障测试(testing) ,或故障确认 告警相关性分析(alarm correlation) ,或故障定位
4
智能故障诊断
智能故障诊断:两个研究点
MLR异常 端到端业务 iTV投诉
故障传播
丢包率
承载网 路径劣化
故障根因分析
光衰异常 传输网 PON分光器
5
智能故障诊断
常见的智能诊断故障诊断方法
6
智能故障诊断
小结:从故障诊断方法的角度,可以分为两类人。
“不懂网络的人”的方法
机器学习、贝叶斯网络 基于案例的推理
“懂网络的人”的方法
基于规则的推理、基于模型的推理
7
智能故障诊断
小结:从故障诊断依据的信息,也可以分为两类人。
“懒人”所依据的信息
告警事件(目前ISP共识)
“勤快人”所依据的信息
告警事件(“坏”消息) 网络日常运行数据(“好”消息)
8
智能故障诊断——我们的工作
以下汇报我们的两种探索。
探索1:“不懂网络的勤快人”
基于机器学习的故障检测与诊断(MLBR)
探索2:“懂网络的勤快人”
基于模型的故障检测与诊断(RMBR)
9
一. 智能故障诊断
智能故障诊断二. MLBR方法
二MLBR方法三. RMBR方法
探索1:基于机器学习的故障诊断方法LMBR (Machine-Learning Based Reasoning) (M hi L i B d R i)
MLBR的两个出发点:网络故障的规律是可学习可挖掘的的两个出发点:
网络故障的规律是可学习、可挖掘的。
宽带网络的运行数据测量已经解决了故障状态数据采集的问题,剩下的就是对规律的学习和对知识的应用。
数据->学习->知识->应用
网络OSS大
数据
故障识别规则
故障预警
用户投诉数
据
知识(决策树)
故障定位数
故障定位规则
故障定位
据
核心:故障随机森林诊断算法
MLBR方法
深度集成学习机器学习框架
复杂系统
数据挖掘
机器学习
数理统计
结构
数据
状态
数据
大数据平台
案例
数据
指标
(QoE/KQI/KPI)
阈值处理
函数计算
人工智能
指标处理模型
事件
(Event/Alarm)
压缩、计数、
抑制、关联
事件处理模型()
故障推理
故障推理模型
规则库、故障树、
故障传播图
故障假设选
择
测试和确认故障假设选择模
型
人类专家
决策树与随机森林 建模
①事件量化、指标量化
②为诊断和定位分别选择和定义特征向量,
保证独立性,消除共线性
③用大数据随机森林算法训练故障随机森林
④每个故障随机森林和多个故障森林并行训
练建模
故障推理
•多层次故障随机森林生成①在故障特征向量内的事件发生时触发推理
过程。
•每个故障随机森林并行生成,多个故障随机森林并行生成•两个方向的推理,诊断推理和②用故障诊断随机森林来判断是否发生或即
将发生故障。
③如果发生故障,触发调用故障定位随机森
林来判断故障的位置。
定位推理(根因分析)
主要特色
持续自动优化的,实时、智能的故障监测、定位、
根因分析能力
基于具备内存计算、流式计算能力的分布式大数据
网络测量体系和并行、动态的集群构建
具备非线性动态增长能力的状态数据存储
并行动态的深度、集成机器学习能力
案例1:宽带用户健康档案系统
案例宽带户健康档案系统
问题描述:
某省电信积累了大量的OSS数据,但未发挥作用
日常采集的运行指标多达107种
面对用户投诉,急需解决两个问题:
(1)哪些指标能够有效预警用户投诉?
(2)如何自动找出故障根因,定位故障?
()如何自动找出故障根定位故障