网管系统告警产生和处理机制

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网管系统告警产生和处理机制

1.1.1告警来源和产生机制

1、SYSLOG日志(被动接收方式)

通过采集服务器的SYSLOG服务,接收网元发送上来的SYSLOG日志记录。告警采集程序通过rules将SYSLOG日志记录解析为告警记录。一条典型的华为端口DOWN告警解析过程:

Jul 15 19:54:11 133.63.254.190 2008 yaan-DC-R-N40 IFNET/5/UPDOWN:Interface Ethernet1/0/5 Turns into DOWN state

针对上面的告警,通过rules,主要解析出如下内容

告警来源IP:133.63.254.190

告警类型:IFNET/5/UPDOWN

告警对象:Ethernet1/0/5

告警原始级别:5

告警描述:Interface Ethernet1/0/5 Turns into DOWN state

2、Snmp Trap告警(被动接收方式)

告警采集在162端口监听并接收网元发送过来的TRAP通知,通过加载相应MIB里的TRAP定义或者厂家提供的TRAP告警翻译规则,转换为相应的告警记录。举例说明:

10.102.16.2:

TRAP[requestID=0, errorStatus=Success(0), errorIndex=0,

VBS[1.3.6.1.2.1.1.3.0 = 229 days, 12:07:02.00;

1.3.6.1.6.3.1.1.4.1.0 = 1.3.6.1.4.1.390

2.1015.1010.1.10.1.17;

1.3.6.1.

2.1.2.2.1.1 = 808584704

]]

根据中兴提供的TRAP告警定义:

(1)1.3.6.1.4.1.3902.1015.1010.1.10.1.17代表zxAnEponOnuErroredSymbolPeriodEvent,即ONU错误符号间隔事件,级别是主要。

(2)808584704 代表索引信息,可进一步定位到具体的ONU设备,如F820(0/4/4/5)。

解析翻译后的告警如下:

告警来源IP:10.102.16.2

告警类型:zxAnEponOnuErroredSymbolPeriodEvent

告警对象:10.102.16.2

告警级别:4

告警描述:10.102.16.2 F820(0/4/4/5) : ONU错误符号间隔事件

3、网元状态Polling告警(主动检测方式)

(1)告警产生

采用定期调度(根据设备的重要程度可设定不同的策略)对设备先进行SNMP连接测试,再进行ICMP PING测试:

a、如果SNMP Ping不通,ICMP Ping也不通,发送网元中断告警;如果只有SNMP Ping

不通,只发送网元不可管理告警

b、如果SNMP Ping通,不管ICMP Ping通不通,都不发送任何告警

c、如果原来只是SNMP Ping不通,但ICMP Ping也开始不通,再发送一条网元中断告警

说明:网元不可管理和网元中断告警,默认只发送一次,不重复发送(即发生次数为1)。(2)告警恢复

对于处于网元不可管理或网元中断状态的设备,同时进行SNMP Ping和ICMP Ping跟踪:

a、如果SNMP Ping通,根据设备的告警状态,发送相应的恢复告警,分两种情况:

设备只有网元不可管理告警:发送网元不可管理恢复告警

设备同时有两种告警:同时发送网元不可管理和网元中断的恢复告警

b、如果SNMP Ping仍不通,但ICMP Ping开始通(也就是说原来两者都不通),发送一条网元中断恢复告警。

4、端口状态Polling告警(主动检测方式)

端口Polling在端口流量采集时进行(检测周期与性能采集周期相同,5min一次)。判断标准:本次端口流量采集采到的端口操作状态跟上次采到的端口状态做对比,如果发生了状态变化则发送告警,即:

如果是up->down,就发端口DOWN告警;如果是down->up,就发恢复告警。告警示例:

告警类型:端口状态

告警描述:如:172.28.12.4 GigabitEthernet0/1/13(端口) 端口down

告警级别:严重

说明:端口状态告警,只发送一次,不重复发送(即发生次数为1)。

5、性能告警(主动检测方式)

告警产生机制:根据性能采集后的数据结果和性能告警设置进行比较,如果满足性能告警设置条件,发送相应的性能告警。

恢复告警:如果发生了“满足性能告警设置条件”->“不满足性能告警设置条件”的变化,则发送相应的恢复告警。

性能告警分类:

(1)阈值性能告警:通过阈值设置产生的性能告警

(2)基线性能告警:偏离基线时产生的性能告警

(3)梯度性能告警:梯度变化满足一定条件时产生的性能告警

(4)高级性能告警:满足给定的组合条件时产生的性能告警

说明:性能告警,如果满足性能告警设置条件,则每5分钟发送一次,直到告警恢复为至。

6、其它告警:翻转告警、资源预警、进程告警等(主动检测方式)

(1)翻转告警:根据翻转设置条件,产生的告警,不能自动恢复。告警类型为“翻转告警”。(2)资源预警:根据资源预警设置条件,判断设备的槽位占有或端口利用率是否超过给定阈值,如果超过,则发送相应的资源预警告警。告警类型为“资源预警”。

(3)采集进程告警:采集进程正常时,能够定时主动发送心跳信息给应用服务器,系统每3分钟检测一次,根据采集进程的心跳信息是否及时更新来判断采集进程是否正常,如果超过设定时间,心跳信息没有更新,则认为进程down,进而产生相应的告警(重复发送)。如

相关文档
最新文档