利用告警关联分析技术实现网络故障定位

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

利用告警关联分析技术实现网络故障定位
摘要电信网络的规模和复杂程度越来越大,每时每刻,网络上都会发生很多各种各样的故障,每个故障都会导致系统发出一个或多个告警通知网络运行维护人员,面对这些海量的告警数据,必须快速定位故障来源,本文主要研究利用告警关联分析技术实现快速故障定位,更好更快的处理解决故障,提升电信服务的品质。

关键词告警关联:关联规则:集中告警
1引言
电信运营公司为了降低企业的运营成本,提高服务质量,以谋求企业的竞争优势,必须有效地管理好自己的网络,使网络安全,稳定、高效地运行。

但是,随着电信网规模的不断扩大,电信设备、网络结构复杂度的不断提高以及网络带宽的迅速增长,电信网产生的告警数量也不断增多,使得对网络的实时监控和故障管理变得更加困难,面对故障处理反应迟钝,对于问题的处理往往都是采用被动响应式的管理模式,其主要特征是:一般是客户觉察到业务故障,相电信的业务部门投诉和告警(这时往往发生故障有一段时间),业务部门通知后台运行维护部门被动地采取诊断措施。

直到最后故障的解决。

其显著的特点是,由于故障发生到采取恢复措施之间的时间差,导致业务中断的时间较长,效率相对低,对于客户的SLA服务水平不够。

这就必须要有,机制和系统能够接受到海量告警后,及时进行告警关联分析,以最快的速度定位故障。

通信设备作为统一的整体,各个部分相互协作实现各项功能,设备某一部分出现问题影响到功能的实现时,设备中其他相关部分也不能很好的完成预定功能,这些相关部分就会各自发出相关告警,这些告警虽然发生在不同网无之上,发生时间也有一定的先后顺序,但实际上表述的是同一个故障源引发的故障,表达了相同或者相近的意思,因此可以合并成一条或几条,以便于维护人员从浩如烟海的告警中迅速分析出故障发生原因,快速定位故障和解决故障,这就是告警的关联分析技术。

2故障与告警
2.1故障与告警的基本关系
首先要说明的是故障和告警不是同一会事情,告警是一个事件的通知。

在某些故障管理系统中,这个事件就是一些故障。

告警不光只用于网络告警,同样也用于其他领域。

例如:交通运输管理,告警将会提供某个区域内车流量上升的信息。

告警都会有一个生命周期。

一些告警会有一个预先设定的生命周期,另外一些告警的生命周期开始于一个开始(sEt)告警,然后结束于一个清除(cLEAR)告警。

在故障管理中,告警就是一个故障的征兆。

可能是一个单一的故障产生了很多的故障告警。

举例:如图2.1,这张图上,节点x到Y之间的链路断开了。

然后当节点A 试图和B通讯时,发现无法联通,就产生告警。

节点A知道于节点B不能通讯,一定是有什么故障在他们之间产生了,但并不知道故障产生在哪个确切位置。

因此A产生了告警来通知网络管理者。

节点A不知道到底是什么导致故障,这个故障可能是节点A本身。

也可能是节点B。

在这种情况下,这些节点网元只能做简单的测试,但无法定位故障。

所以他们只有发出告警来让网络管理者知道发生了什么事,让网络管理者综合各种情况来判断并定位故障来源。

节点网元B 同样接受不到来自节点网元A的信息,因此节点网元B同样发出一个告警。

节点网元x和节点网元Y同样不能从A、B节点接受信息,因此他们也会产生告警。

大多数情况下,一个网元设备针对一个故障会产生多条告警,就是多条不同类型的告警。

例如:节点网元x可能会发送两条告警,一个告警可能是连接失败,另一个告警可能是数据丢包。

并且故障没有解决前,节点网元x会在每次试图发送信息,并且失败时发送一个故障告警,那么就会有持续不断的告警发出。

我们所说的告警关联要作的工作就是从这些事件的繁多的告警征兆中挑选出我们所需要的告警信息,并且从中找到故障根源。

2.2告警对象介绍
根据TMN(电信管理网)的信息架构定义,告警被认为是一个对象。

告警对象的属性用来描述产生告警的原因。

3告警关联算法
告警关联算法的目的是发现根源故障,排除衍生故障。

该算法设定了一个固定的时间窗口,数值为两分钟,在这个时间窗口内,抽取当前最新的得到的告警,以客户/业务/电路/节点四个层次从资源模型中抽取数据,从该条告警数据的节点出发,根据资源模型中的父子关系,向节点四周的节点逐步搜索,并匹配该时间窗口内其他告警记录,设定拓展的深度为3,那么从该条告警发生节点开始搜索,搜索深度为3,会得到一张与该告警节点关联的告警网状图。

网络故障一定就发生在这张网状图的任意一个节点或任意两个节点之问的链路上。

根据此算法,基于资源模型对告警进行了分组,分组中加入了时间窗口的考虑,并对各告警的跨专业关联进行了分析;分组完成后,基于告警影响的程度大小,影响到最多业务和电路的告警一般是根源告警,这样就判定了根源告警,抑制了衍生告警。

在告警关联实际的工作中,上面的方法也不一定完全能准确对故障定位,首先面对海量告警和巨大的网络,对资源模型中的数据进行网络搜索是一个计算量很多的工作,处理效率低,判断报告警速度慢,影响了快速故障定位。

其次影响到最多业务和电路的告警也不一定是根源告警。

所以必须结合实际工作中掌握的经验。

对于告警的规律,我们将其进行提炼和总结。

可以将这些相关知识通过关联卡片的方式录入到算法中作为算法运行。

当知识库逐步庞大的时候,算法分析出来的告警根源和告警关联关系的结果也将越来越符合实际情况。

具体算法的运行步骤如下:
(1)利用时间关系和资源关系,进行告警分组操作;
(2)进行分组的同时,依照关联卡片中记录的根源告警数据,进行根告警过滤。

将所有可能是根源告警的告警选取出来;
(3)依据关联卡片信息,建立根源一衍生告警之间的具体关联关系:
(4)参考告警影响的业务数量和卡片信息,判定最终根源告警。

5结论
系统利用运维人员经验,填写了关联卡片四百余条记录,并录入了系统,应用于算法分析中。

根据对模拟结果的测试,得到结论,关联卡片能够准确的关联上两条在一条电路上同一端口上的不同告警类型的告警,其中有一条是根告警,并能够准确的关联上一组在一条电路上端口与端口所属网元型号都不同的告警。

据实际应用测试,对系统在15天内的运行结果进行了统计,获取了41组关联分析结果。

在资源数据准确的情况下,得到了100%的分组准确率。

另在具备一定关联卡片知识的前提下,有80%的分组中的根源告警准确定位,具有较高的准确性。

总的来说,本文的告警关联分析算法以实际在网资源数据为基础,结合了时间影响和业务影响的判断,结合运维实际经验的先验知识库,对告警根源和告警关系进行分析判断,具有一定的先进性。

相关文档
最新文档