再谈网络故障诊断

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

再谈网络故障诊断
电子科技大学 2015.11.24

目录
一、智能故障诊断 二、MLBR方法 三、RMBR方法
1

提纲
智能故障诊断:业内的工作
2

智能故障诊断
宽带网络现状
服务日 益丰富
规模日 益扩大
客户对上 层应用服 务质量要 求提高
宽带网络 服务质量
不达标
如何提高对网络性能状况的感知度? 如何了解终端用户的感受?(浏览网页,下载文 件,音视频,……)
如何验证向用户提供的SLA承诺? 如何为重点客户提供定期的网络质量报告?
如何进行长时间 (7×24)的性能监测以提前发现问题?
如何精准快速进行质量劣化等故障 的定位和根因分析?
3

智能故障诊断
WEB iTV CDN VoIP网关
一张网络
浏览器/PAD iTV STB VoIP终端
智能故障诊断:三个目的 „ 故障识别(fault identification) ,或故障发现 „ 故障测试(testing) ,或故障确认 „ 告警相关性分析(alarm correlation) ,或故障定位
4

智能故障诊断
智能故障诊断:两个研究点
MLR异常 端到端业务 iTV投诉
故障传播
丢包率
承载网 路径劣化
故障根因分析
光衰异常 传输网 PON分光器
5

智能故障诊断
常见的智能诊断故障诊断方法
6

智能故障诊断
小结:从故障诊断方法的角度,可以分为两类人。
“不懂网络的人”的方法
„ 机器学习、贝叶斯网络 „ 基于案例的推理
“懂网络的人”的方法
„ 基于规则的推理、基于模型的推理
7

智能故障诊断
小结:从故障诊断依据的信息,也可以分为两类人。
“懒人”所依据的信息
„ 告警事件(目前ISP共识)
“勤快人”所依据的信息
„ 告警事件(“坏”消息) „ 网络日常运行数据(“好”消息)
8

智能故障诊断——我们的工作
以下汇报我们的两种探索。
探索1:“不懂网络的勤快人”
„ 基于机器学习的故障检测与诊断(MLBR)
探索2:“懂网络的勤快人”
„ 基于模型的故障检测与诊断(RMBR)
9

一. 智能故障诊断

智能故障诊断二. MLBR方法

二MLBR方法三. RMBR方法

探索1:基于机器学习的故障诊断方法LMBR (Machine-Learning Based Reasoning) (M hi L i B d R i)

MLBR的两个出发点:网络故障的规律是可学习可挖掘的的两个出发点:

网络故障的规律是可学习、可挖掘的。

宽带网络的运行数据测量已经解决了故障状态数据采集的问题,剩下的就是对规律的学习和对知识的应用。

数据->学习->知识->应用

网络OSS大

数据

故障识别规则

故障预警

用户投诉数

知识(决策树)

故障定位数

故障定位规则

故障定位

核心:故障随机森林诊断算法

MLBR方法

深度集成学习机器学习框架

复杂系统

数据挖掘

机器学习

数理统计

结构

数据

状态

数据

大数据平台

案例

数据

指标

(QoE/KQI/KPI)

阈值处理

函数计算

人工智能

指标处理模型

事件

(Event/Alarm)

压缩、计数、

抑制、关联

事件处理模型()

故障推理

故障推理模型

规则库、故障树、

故障传播图

故障假设选

测试和确认故障假设选择模

人类专家

决策树与随机森林 建模

①事件量化、指标量化

②为诊断和定位分别选择和定义特征向量,

保证独立性,消除共线性

③用大数据随机森林算法训练故障随机森林

④每个故障随机森林和多个故障森林并行训

练建模

故障推理

•多层次故障随机森林生成①在故障特征向量内的事件发生时触发推理

过程。

•每个故障随机森林并行生成,多个故障随机森林并行生成•两个方向的推理,诊断推理和②用故障诊断随机森林来判断是否发生或即

将发生故障。

③如果发生故障,触发调用故障定位随机森

林来判断故障的位置。

定位推理(根因分析)

主要特色

持续自动优化的,实时、智能的故障监测、定位、

根因分析能力

基于具备内存计算、流式计算能力的分布式大数据

网络测量体系和并行、动态的集群构建

具备非线性动态增长能力的状态数据存储

并行动态的深度、集成机器学习能力

案例1:宽带用户健康档案系统

案例宽带户健康档案系统

问题描述:

某省电信积累了大量的OSS数据,但未发挥作用

日常采集的运行指标多达107种

面对用户投诉,急需解决两个问题:

(1)哪些指标能够有效预警用户投诉?

(2)如何自动找出故障根因,定位故障?

()如何自动找出故障根定位故障

相关文档
最新文档