(完整版)网管系统告警产生和处理机制

合集下载

网管查看及告警问题处理

网管查看及告警问题处理
后未到24小时,没有人工手动确认,在当前告警库中无法查 到相应告警 检查d:\otnm\ui\ini\otnm.ini文件关于告警转储条件设置正确,自动 确认条件是AUTO_CHECK_ALARM_TIME= 1 day(一天自动确认), AUTO_CHECK_ALARM_NUMBER= 3000(已结束未确认告警超过3000条系统自动 确认)将结束未确认告警条目门限修改为10000条后,未再出现自动确认现象。 告警确认不仅只有一个时间参数,还有个条目数参数,目前默认设置 为3000( otnm.ini中的AUTO_CHECK_ALARM_NUMBER=3000),即在一天内如 果告警条目数超过3000条就会自动确认。 注意:修改参数后需重新启动dtserver设置才能生效。 网块中ma与mb的编号设置不正确导致manager2自动停止的 查看d:\otnm\ui\ini\otnm.ini文件中的manager2子项中的ip参数值与数据 库ip地址一致,没有发现异常,后经查看配置文件发现网块参数设置中Ma、 Mb出现如下错误:网块中有两个网元,其中网元编号分别为3和10,而在网 块设置中将ma和mb分别设置为1和2,即ma和mb的编号不是该网块中网元的编 号。修改正确后, manager2可以正常启动且不再停止。 网管无法处理网元编号不在本网块内的网元作为Ma/Mb,在网元 删除或网块调整时,请大家注意调整Ma/Mb的编号。
3
网管问题介绍
网管硬件问题: 网管软件的载体为服务器、硬盘等。对于此类硬件问题,第一要点 就是配置文件的备份及保护,这是恢复网管运行的首要条件。如果 日常维护的备份工作做的好,比如经常定期将配置文件做拷贝备份 的话就无此担忧了。
网管软件问题分类: 功能性问题:网管提供的基本功能,如告警、性能查询等 业务问题:和电路业务相关的问题 对于网管软件类问题,应重点关注操作方法,即问题是否能够通过 一定的操作步骤复现。

联网报警系统原理

联网报警系统原理

联网报警系统原理
联网报警系统是一种利用互联网技术实现远程监控和报警的系统。

它由多个组成部分组成,包括报警器、传感器、控制中心和云服务器。

传感器是联网报警系统的核心部分之一。

通过感知环境中的各种参数和状态变化,传感器能够检测到潜在的危险情况,如火警、煤气泄漏、入侵等。

常见的传感器包括烟雾传感器、红外线传感器、门磁传感器等。

当传感器检测到危险情况时,会产生相应的信号并发送给报警器。

报警器通常具备报警声音、光闪烁等报警方式,以提醒周围人员注意危险情况。

同时,报警器会将报警信号发送给控制中心。

控制中心是联网报警系统的核心部分之一,负责接收和处理来自传感器和报警器的信号。

控制中心可以将信号转发给相关人员,如保安人员、物业管理人员等;还可以通过云服务器向用户发送报警信息。

云服务器是联网报警系统的远程管理中心,负责存储、处理和分发报警信号。

云服务器可以将报警信息即时推送给用户的手机、电脑等终端设备,让用户能够实时了解到危险情况并采取相应的措施。

同时,云服务器也可以记录和保存报警信息,方便用户和相关人员进行事后查看和分析。

联网报警系统的工作原理是通过传感器感知环境并产生信号,
报警器接收信号进行报警,同时将信号发送给控制中心,控制中心再将信号传递给云服务器,最后云服务器推送报警信息给用户。

通过这种方式,联网报警系统实现了远程监控和及时报警的功能,提高了安全性和实用性。

网络告警说明及处理

网络告警说明及处理

常见告警说明及处理目录1告警的查看 (3)2BTS告警的结构 (3)3常见告警说明及处理 (5)3.12993告警处理 (5)3.27745告警处理 (5)3.37601告警处理 (6)3.47602告警处理 (6)3.57604告警处理 (7)3.67949告警处理 (8)3.72725告警处理 (8)3.87743告警处理 (9)3.97744告警处理 (9)3.107607告警处理 (10)3.117767告警处理 (10)1 告警的查看查看告警的常用MML命令有以下几个:❖查看BTS当前告警:ZEOL: BCF IDENTIFICATION: BTS ALARM NUMBER, ALARM CLASS;例如:ZEOL: 21:NR=7745; 查看BCF号为21、告警号为7745、且未被cancel的告警。

ZEOL:30:CLS=AL3; 查看BCF号为30、告警级别为3星、且未被cancel的告警。

❖查看BTS历史告警:ZEOH: DATE, TIME: BCF IDENTIFICATION, OBJECT TYPE, CURRENT STATE OF OBJECT, ALARM NUMBER, ALARM CLASS;例如:ZEOH:2008-3-18,8-30-0; 查看2008年3月18日8时30分之后的告警历史,包括已经cancel的和未被cancel的。

ZEOH::NR=7745; 查看今天的7745告警历史,包括已经cancel的和未被cancel的。

❖查看BSC当前告警:ZAHO: UNIT IDENTIFICATION: ALARM PARAMETER;例如:ZAHO:OMU:CLS=AL2; 查看当前告警级别为2星级、告警对象为OMU、且状态为ON(即未被cancel的)。

ZAHO; 查看当前所有状态为ON的告警。

❖查看BSC历史告警:ZAHP: UNIT IDENTIFICATION: ALARM PARAMETER: DATE, TIME;例如:ZAHP::CLS=AL3:2008-3-18; 查看2008年3月18日0时以后的所有3星级告警,包括已经cancel的和未被cancel的。

1-华为T2000网管告警处理手册0815

1-华为T2000网管告警处理手册0815

华为T2000网管告警处理手册辽宁移动网管中心监控室2008年8月目录一、告警处理原则 (3)二、常见告警处理方法 (4)■NE_NOT_LOGIN 网元未登录告警 (4)■NE_COMMU_BREAK 网元通讯中断 (4)■GNE_CONNECT_FAIL 网关连接失败 (4)一、告警处理原则1、总体原则:如果出现告警处理手册中未提及的告警内容,处理方法为升级成问题单(在有业务网申告的情况下,同时电话通知专业负责人);2、对于某一故障引发的大量传输告警,依照先线路后设备、先单站后单板、先高级后低级的原则进行处理,同时参照附件中的告警关联原则进行初步判断,进行故障处理和定位,需要派发工单至市公司进行处理的,原则上每个地市只派发一个工作单即可,按照《工单填写规范》写清楚告警信息、故障信息、需地市操作工作内容等信息,不用一个告警对应一个工作单;3、监控值班人员发现故障后,先派发故障单给相应监控组,再按手册进行初步处理,需现场工程师进行后续处理的,派发故障配合工单至市公司故障处理组;对于不能独立解决的,应升级为问题单转往技术支持组;已派发故障配合工作单但仍无法解决的,由地市升级为问题单进行处理。

4、对于瞬报的告警可暂不用处理,但应密切注意网络及设备运行情况;对于多次瞬报或闪报的告警,应按照该告警的处理流程进行处理。

5、对于网络改造、工程割接、扩容、新建及系统调测产生的告警,网络部已经下发了公文或监控室接到了传输室的通知邮件,此类告警不需要处理;6、对于已升级为问题单的故障,在专业责任人无法到现场的情况下,监控人员应该在专业责任人允许和指导下,进行故障处理;7、故障处理过程中,涉及到派发集团EOMS工单的相关内容,按照集团EOMS工单填写要求进行工单填写。

二、常见告警处理方法■NE_NOT_LOGIN 网元未登录告警告警原因:NE_NOT_LOGIN为网元未登录告警,当用户退出登录或登录失败时上报此告警,将会导致网元脱管,无法进行故障、性能监控。

完整版网管系统告警产生和处理机制

完整版网管系统告警产生和处理机制

网管系统告警产生和处理机制1.1.1告警来源和产生机制1、SYSLOG日志(被动接收方式)通过采集服务器的SYSLOG服务,接收网元发送上来的SYSLOG日志记录。

告警采集程序通过rules将SYSLOG日志记录解析为告警记录。

一条典型的华为端口DOWN告警解析过程:针对上面的告警,通过rules,主要解析出如下内容告警来源IP: 133.63.254.190告警类型:IFNET/5/UPDOWN告警对象:Ethernet1/0/5告警原始级别:5告警描述:In terface Ethernet1/0/5 Turns into DOWN state 2、Snmp Trap告警(被动接收方式)告警采集在162端口监听并接收网元发送过来的TRAP通知,通过加载相应MIB里的TRAP定义或者厂家提供的TRAP告警翻译规则,转换为相应的告警记录。

举例说明:VBS[1.3.6.1.2.1.1.3.0 = 229 days, 12:07:02.00;1.3.6.1.6.3.1.1.4.1.0 = 1.3.6.1.4.1.3902.1015.1010.1.10.1.17;1.3.6.1.2.1.2.2.1.1 = 808584704]]根据中兴提供的TRAP告警定义:(1) 1.3.6.1.4.1.3902.1015.1010.1.10.1.17 代表zxAnEponOnuErroredSymbolPeriodEvent ,即ONU错误符号间隔事件,级别是主要。

(2)808584704代表索引信息,可进一步定位到具体的ONU设备,如F820(0/4/4/5)。

解析翻译后的告警如下:告警来源IP: 10.102.16.2告警类型:zxAn Epo nOn uErroredSymbolPeriodEve nt告警对象:10.102.16.2告警级别:4告警描述:10.102.16.2 F820(0/4/4/5) : ONU错误符号间隔事件3、网元状态Polling告警(主动检测方式)(1 )告警产生采用定期调度(根据设备的重要程度可设定不同的策略)对设备先进行SNMP连接测试,再进行ICMP PING测试:a、如果SNMP Ping不通,ICMP Ping也不通,发送网元中断告警;如果只有SNMP Ping 不通,只发送网元不可管理告警b、如果SNMP Ping通,不管ICMP Ping通不通,都不发送任何告警c、如果原来只是SNMP Ping不通,但ICMP Ping也开始不通,再发送一条网元中断告警说明:网元不可管理和网元中断告警,默认只发送一次,不重复发送(即发生次数为1)。

(完整word版)阿尔卡特SDH常见告警及处理方法(word文档良心出品)

(完整word版)阿尔卡特SDH常见告警及处理方法(word文档良心出品)

阿尔卡特SDH故障2.1 RUP,RUM,ICP类告警处理告警名称或故障现象:Replaceable Unit Problem机盘故障; Replaceable Unit Missed机盘不在位; Internal Communication Problem 内部通信(控制信号)故障,相应的故障机盘报故障。

告警产生原因:1.原因1 RUM还可能是网管配置了板,但实际配插板2.原因2 机盘硬件故障3.原因 3 ICP有可能是其它盘引起,如1660的矩阵、主控;1662的SYNTH16;1642的MB板告警处理方法:1.原因1 对于RUM首先核实是否现场每插板,如没插板可在网管去配置(对于有配置电路或作为时钟源的,需先删除这些配置),当然现场每插板,由配置了电路或时钟源需仔细核实是否是垃圾数据在删。

2.原因2 替换相应的故障盘3.对于ICP告警如替换故障盘后仍不消失,则需考虑可能是其它的矩阵、主控、SYNTH16、MB盘等引起。

可先对这些怀疑的板做插拔(注意对业务和监控的影响,一般主控盘插拔只影响监控;矩阵和SYNTH16均有保护,如无异常状态或第二处故障,插拔备用也不影响业务(要插拔当前的主用矩阵需先切换成备用角色再插拔,切换后等15分钟让它同步完再操作)),定位到故障板后替换故障板。

2.2 TD, URU, TF告警告警名称或故障现象:设备光口或端口报TD(Transmitter Degraded), URU (Underlying Resource Unavailable), TF(Transmitter Failure)告警。

告警产生原因:1.原因1 如有光模块的机盘,则可能是故障2.原因2 机盘故障告警处理方法:1.原因1 替换光模块2.原因2 替换机盘2.3 LOS, LOF告警处理告警名称或故障现象:LOS(Loss of signal;LOF(Loss Of Frame);MS-AIS;MS-RDI告警告警产生原因:1.原因1 光缆故障2.原因2 对端设备停电或吊死(主要是接入设备)3.原因3 显现硬件故障,相应光板报RUP、RUM、ICP、URU、TD、TF等告警4.原因4 隐性硬件故障5.原因5 光模块吊死告警处理方法:1.原因1 对光及OTDR测试等排查光路故障,清除光缆故障(具体见光缆故障处理)2.原因2 现场开电或环MB板3.原因3 显现硬件故障请替换相应的故障板4.原因4 当光路对光正常,无明显的硬件故障后,则可能是隐性硬件故障。

联网报警解决方案

联网报警解决方案

联网报警解决方案引言随着互联网的快速发展和智能化的进步,安全监控系统也出现了许多新的解决方案。

其中,联网报警系统成为了当前最受欢迎和广泛应用的一种方案。

本文将介绍联网报警解决方案的原理、优势以及应用场景,并给出具体的实施步骤和注意事项。

联网报警的原理联网报警系统利用互联网技术将报警设备与报警中心进行连接,实现实时、远程的警报通知和监控功能。

其工作原理主要包括以下几个步骤:1.传感器监测:报警设备通过各种传感器(如温度传感器、烟雾传感器、红外传感器等)实时监测环境的变化,并将数据传输给报警主机。

2.报警主机控制:报警主机接收传感器发送的数据,并根据设置的规则和阈值判断是否触发报警。

一旦触发报警,报警主机将向报警中心发送警报信息。

3.报警中心接收:报警中心接收报警主机发送的警报信息,并对其进行处理和记录。

4.警报通知:报警中心根据预设的联系方式(如电话、短信、邮件等)将警报信息通知给相关人员,以便及时采取措施。

联网报警的优势与传统的报警系统相比,联网报警系统具有以下几个明显的优势:1.远程监控:联网报警系统可以实现远程监控,无论身在何处,用户都可以通过手机或电脑随时随地查看监控画面,并实施预警措施。

2.实时报警:联网报警系统能够实时监测环境变化,并在发生异常时立即报警,做到及时发现和处理问题,降低损失。

3.智能化管理:联网报警系统可以根据用户需求进行定制化设置,包括监测规则、报警方式、报警联系人等,提升管理效率。

4.数据分析:联网报警系统可以将历史数据进行存储和分析,为用户提供更全面的安全评估和预防措施,提高安全性。

联网报警的应用场景联网报警系统广泛应用于各个领域,包括但不限于:•家庭安防:联网报警系统可以实时监控家庭的安全状况,比如入侵监测、火灾报警、水浸侦测等。

•商业安全:联网报警系统可用于商场、办公楼等场所的安全监控,预防窃盗、火灾等意外事件。

•工业领域:联网报警系统可以监测工业设备的异常状况,提前预警并采取维修措施,避免生产故障。

SDH告警分析与故障处理

SDH告警分析与故障处理

SDH告警分析与故障处理1.告警名称:信号丢失(R-LOS)告警产生的原因:断纤;线路损耗过大,导致收光功率超出灵敏度值;对端站发送方向无系统时钟;对端站激光器损坏,线路发送失效;对端站交叉板没有时钟输出;对端站时钟板工作不正常. 告警处理步骤:测试告警单板的接收光功率,如果光功率正常则检查板上接头有无松动,如果接头良好则更换告警单板;如果光功率很小或接近0mW,检查对端至本站的光缆是否松动;如果光缆线路正常,检查对端站光发送板接头是否松动,如果接头良好则更换对端站光发送板。

2.告警名称:帧丢失(R-LOF)告警产生的原因:光损耗过大;对端站发送信号无帧结构;本端接收方向有故障。

告警处理步骤:检查告警单板接收光功率,如果光功率正常则检查告警单板是否存在问题;如果光功率超出正常范围,则检查对端站至本站光纤及其接口是否损坏;如果光纤及告警单板都正常,则检查对端站光发送板设法存在问题。

3.告警名称:帧失步(R-OOF)告警产生的原因:接收信号损耗偏大;传输过程误码过大;接收方向器件有故障;对端站发送有故障。

告警处理步骤:检查告警单板接收光功率,光功率正常则检查告警单板是否存在问题;如光功率超出正常范围,则检查对端站至本站光纤及其接口是否损坏;如光纤及告警单板都正常,则检查对端站光发送板是否存在问题。

4.告警名称:发送失效(TF)告警产生的原因:光发送模块损坏;告警处理步骤:更换故障单板5.告警名称:再生段误码过量指示(B1-EXC)告警产生的原因:接收信号损耗偏大;对端站光发送电路高频部分有故障;光纤不清洁或与连接器不正确;本站接收电路部分故障。

告警处理步骤:如果同时也出现B2、B3告警,故障往往是线路损耗过大或由光接口板的故障引起,定位方法同出现R-LOS的情况;检查设备工作温度是否过高;如无以上情况,更换故障单板。

6.告警名称:复用段告警指示(MS-AIS)告警产生的原因:对端站发线路AIS信号;对端站发站发方向无时钟或无信号告警处理步骤:检查对端站线路板(ASP等)是否存在问题,可通过复位或更换单板的方法检查告警是否消失;检查本站线路板,先更换光接收板,如未解决再更换ASP板。

II型机网管告警的解释、原因研究和处理方法

II型机网管告警的解释、原因研究和处理方法

网管告警的解释、原因分析和处理方法说明:1.对告警分类的解释●通信类告警:直接影响业务层的告警,指示通信信号在一定的层面上发生了中断或者信号劣化。

●同步类告警:时钟相关故障产生的告警。

●设备类告警:由设备内部故障直接产生的告警,包括电源故障、单板故障、单板脱位、网管配置和设备上安装的硬件不一致故障而产生的告警。

2.告警单板是指网管告警监视窗口中的“检测点单板”,该单板指示告警,但告警来源不一定就是告警单板。

3.告警级别和告警处理:当由故障发生时,设备和网管上常常伴随大量的告警和不同类型的告警。

由于高级别的告警常常会导致低级别的告警,因此故障发生时,必须先将所有告警进行分类;首先对高级别的告警进行处理,然后观察低级别的告警是否消失;如果没有消失,再对低级别的告警进行处理;如果消失,说明低级别的告警是由高级别的告警引起的。

通信中断类告警级别比通信误码类告警级别高,再生段的告警级别比复用段的告警级别高,复用段的告警级别比高阶通道的告警级别高,高阶通道的告警级别比低阶通道的告警级别高。

以下是不同类告警的告警级别的列表。

2.5G光接收信号丢失622M光接收信号丢失155M光接收信号丢失140M电信号丢失45M电信号丢失34M电信号丢失2M电信号丢失CV性能超值帧丢失、不可用时间开始B1 UAS性能超值帧失步OFS性能超值(OFS:帧失步秒)再生段信号劣化B1 SES性能超值B1 ES性能超值B1 BBE性能超值复用段告警指示信号、不可用时间开始复用段远端缺陷指示B2 UAS性能超值B2 FEUAS性能超值复用段信号劣化B2误码过限B2 SES性能超值B2 FESES性能超值B2 ES性能超值B2 FEES性能超值B2 BBE性能超值B2 FEBBE性能超值复用端保护倒换事件AU4通道告警指示信号、不可用时间开始AU4指针丢失远端缺陷指示B3 UAS性能超值B3 FEUAS性能超值复帧丢失VC4高阶通道信号劣化B3 SES性能超值B3 FESES性能超值B3 ES性能超值B3 FEES性能超值B3 BBE性能超值B3 FEBBE性能超值。

网络管理---告警系统

网络管理---告警系统

网络管理—警告系统的设计1设计目标1.数据采集:通过采集计算网络中的配置信息,告警信息,性能信息,反馈给告警中心。

2.数据分析:分析告警信息(原始告警信息,性能数据,配置信息),推理处理并存储记录告警,且实现告警的可确认消除(自动回复/手动恢复)。

3.数据应用:实时监控重要的告警信息,解决并消除告警信息。

根据告警信息记录生成报表统计,向上层提供决策的数据依据。

2 概要设计系统分三层:数据的采集数据处理数据应用数据采集:从系统的网元上采集数据包括:性能数据信息,网元告警信息,拓扑结构的配置信息,向数据处理层的制定临时数据库中传送。

数据处理:从指定的数据库中获得原始数据信息,判断处理。

根据估值(及性能阀值)判断生成警告信息,存储分析并上报告警信息。

实现告警的匹配确认清除,重复告警的归并处理。

数据应用:及时监控重要的告警信息,并处理此告警,反馈告警的确认信息。

根据不同的用户需求展现告警统计信息报表,为决策提供数据支持。

3数据采集层3.1 内容3.1.1配置数据采集的内容及获得该网络中的网元设备,基本信息,与实体形成对应的映射。

用于网络的拓扑信息管理。

网管系统管理采集以下配置数据:3.1.2告警数据采集的内容3.1.2.1告警源需要采集的告警报告分为:网元告警●路由器:●交换机:●配线板:●服务器:cpu , 内存,硬盘,电源,风扇(散热),网卡,光驱,端口,运行的软件服务1.环境告警: 暂保留。

2.通信连接告警(拓扑管理):当某一网元设备持续一定时间不响应网管系统时,网管系统应能自动生成该网元设备的通信连接警。

3.性能告警:当性能指标超出预先设定的范围时,系统触发的告警称为性能告警。

4.设备告警:来自设备红端的告警信息。

3.1.2.2原始告警数据内容原始告警数据是从告警源采集到的未经任何处理的原始告警信息,格式和内容与网元类型相关,原始告警信息将在告警管理应用层进行处理,采集层采集到的告警原始数据至少应包括以下内容:3.1.3性能数据采集的内容针对不同的网元,采集其对应的性能信息。

通信基础知识--告警与处理

通信基础知识--告警与处理

本文由凭湾飞龙贡献通信网络知识凭湾科技故障定位的常用方法●一般要借助于网管(F 或f 网管都有可以),根据网管上显示的单盘告警以及单盘性能,同时还要作好故障定位。

●检查光缆、电缆是否连接正确,网管系统是否正常,排除传输设备外的故障;●检查各站点业务配置是否正确,排除配置错误的可能性;●通过设备性能监视功能来分析故障的原因;●通过环回,将故障最终定位到单站;●通过本站自环测试来定位故障点;●通过更换单元盘等部件来定位故障点。

告警解释1▲LOS:信号丢失,无光功率输入、接收光功率过低、信号劣化于10-3。

OOF:帧失步,搜索不到A1、A2字节,一帧错一个字节就检测一个OOF告警。

LOF:帧丢失,OOF持续3mS以上就会发生LOF。

S-BBE:再生段背景误码块,B1校验到再生段—STM-N有误码块。

MS-AIS:复用段告警指示信号,K2(6-8)=111超过3帧。

MS-RDI:复用段远端信号劣化指示,对端检测到MS-RDI,MS-EXC,由K2(6-8)回发来。

MS-REI:复用段远端误码指示,由对端通过M1字节回发,由B2检测出。

MS-EXC:复用段误码过量,由B2 检测。

告警解释2▲AU-AIS:管理单元告警指示信号,整个AU为全“1”(包括AU-PTR指针)AU-LOP:管理单元指针丢失,连续8帧收到无效指针或NDF。

HP-RDI:高阶通道远端信号劣化指示,收到HP-TIM、HP-SLM。

HP-REI:高阶通道远端误码指示,回送给发端由收端B3字节检测出的误码块。

HP-BBE:高阶通道背景误码块,显示本端由B3字节检测出的误码块。

HP-TIM:高阶通道踪迹字节失配,J1应该收到的和实际所收到的不一致。

HP-SLM:高阶通道信号标签失配,C2应该收到的和实际所收到的不一致。

HP-UNEQ:高阶通道未装载,C2=00H 超过 5 帧。

告警解释3▲TU-AIS:支路单元告警指示信号,整个TU为全“1”(包括TU指针)。

告警、性能产生原理

告警、性能产生原理

目录第一章告警、性能产生原理 (2)1.1综述 (2)1.2高阶部分信号流中告警、性能的产生和检测 (2)1.2.1下行信号流 (3)1.2.2上行信号流程 (6)1.3低阶部分业务信号流及告警、性能信号的产生 (7)1.3.1下行信号流程 (8)1.3.2上行信号流程(从PDH电接口至交叉板) (10)1.3.334M/140M电接口告警信号和2M电接口告警信号的区别 (10)1.4告警信号间的抑制关系 (11)1.5根据信号流定位故障的应用 (12)1.5.1误码问题 (12)1.5.2告警问题 (14)1.5.3小结 (16)第一章告警、性能产生原理1.1 综述在SDH的帧结构中有着丰富的开销字节,包括再生段开销、复用段开销、通道开销。

正是借助于这些开销字节传递的告警、性能信息,使得SDH系统具有很强的在线告警和误码监测能力。

通过对这些告警信息的产生方式和检测方式的了解,可以做到对故障的快速定位。

为了便于对主要告警和性能产生的位置以及产生方式的说明,不妨沿着信号流对这些主要告警和性能作一一描述。

在这里,根据信号流的流向,将之分为下行信号流和上行信号流。

所谓下行信号流,是指信号流向为SDH接口→交叉板→PDH接口这条路由。

与此相反,上行信号流则是指信号流向为PDH接口→交叉板→SDH接口这条路由。

另外,由于在该信号流程中,交叉板不处理任何开销字节。

为了表述具有层次性,我们以它为界线,将信号流分为高阶部分(SDH接口←→交叉板)和低阶部分(交叉板←→PDH接口)加以说明。

两种通用告警AIS告警(全“1”告警),对下一级电路插全“1”,告知该信号不可用。

常见的AIS告警有MS-AIS、AU-AIS、TU-AIS、E1-AIS等。

RDI告警(远端接收缺陷指示),指示对端站检测到LOS(信号丢失)、AIS、TIM(追踪识别符失配)等告警后,而传给本站的回告。

常见的告警有MS-RDI、HP-RDI、LP-RDI等。

OMS网管系统可能存在的告警信息及处理办法

OMS网管系统可能存在的告警信息及处理办法

OMS网管系统可能存在的告警信息及处理办法Topology Error 告警等级:Critical(严重的)发生原因:Duplicate node in subnetwork.(网络中存在重复节点机)处理建议:Alter the node number.(重置节点机序号)可能影响:OTN subnetwork contains duplicate node number.(OTN网络中存在重复节点机序号)Element Disappeared(元件丢失)告警等级:Critical(严重的)处理建议:Check if object is still up and runing,or reachable by OMS.(检查丢失部件是否还在运作中或能否通过OMS系统检测到) 可能影响:OMS does no longer find the object on network..(OMS系统再不能检测网络中的部件)OTN Resynchronisation 告警等级:Critical(严重的)故障原因:OMS中存在光纤主备网络切换处理建议:Search possible cause via other alarm message.(检查可能的其他告警路径)可能影响:Primary or secondary OTN ring resynchronisation.(主备网络不能正常切换)Excessive Code Violation(大量代码错误)告警等级:Minor (次要的)处理建议:Check whether both optical connectors are property connected and whether there is no dust in the connection.(检查光纤接头是否正确连接或是否在连接处存在灰尘)可能影响:The transceiver detects too many errors in the code passing over the fibre.(光收发模块检测到光纤里传输的全是错误代码)FIXED OTR600:Optical Signal Loss(光信号丢失)告警等级: Minor (次要的)处理建议:Check power received.If sufficient.Replace receiving transceiver,if not,check output power of optical transmitter and attennation of optical connection,andrepair where needed.(检查接受功率,如果是正常的,更换接收模块,如果光功率较低,检查发送端模块并注意光纤连接,发现问题及时修复)可能影响:The optical input power reaches sensitivity threshold.(光学输入功率达到临界值)A Code Violation Occurred (发生一个代码错误) 告警等级:Major(一般的)处理建议:Check whether both optical connectors are properly connected and whether there is no dust in the connectors.If ok ,repalce transceiver and/or the transceiverof the node transmitter.(检查两端光连接器件是否正确连接,检查是否在连接处存在灰尘。

常见告警、性能及处理

常见告警、性能及处理

常见告警、性能及处理一:告警处理1.LOS:信号丢失告警。

表示本端接收不到光信号。

主要引起的原因是①光纤断;②对端发送光信号没有;③本端光收模块坏。

处理方法:①先将本端用一根光纤自环,若告警消失,表示本端是好的,问题在对端。

若对端自环也好,则可以肯定两端间光纤的断了;若对端自环不好,也是LOS告警,用光功率计测量其光发功率,若功率过小(-50dB或更低)则可断定光发坏了;若功率正常,则是由于没有时钟引起的,换掉时钟板,告警消失。

②若本端自环还是LOS告警,则是由于光收模块坏了,更换后告警消失。

2.LOF/OOF:帧丢失、帧失步告警。

原因和处理同1。

帧失步:连续5帧以上,找不到正确的A1、A2,则进入帧失步状态。

帧丢失:如果OOF状态持续一段时间,则进入帧丢失状态。

3.MS-AIS:该告警是伴随着远端LOS/LOF出现而出现的,或者从网管上插入该告警。

处理方法:①若本端自环也有该告警,则更换光板。

②本端自环是好的,对端又没有LOS告警,则可能是网管上插入了AIS告警,从网管上将插入AIS操作取消,若此处理不消除告警,则更换远端光板。

③若远端有LOS告警,则按1将LOS告警消除。

4.MS-FERF/RDI:复用段远端接收故障。

产生原因是由于远端有LOS、LOF、MS-AIS告警引起的。

处理方法:按1、2、3方法消除远端告警则可。

实际工程中,我们经常遇到这样的情况:5.B1、B2、B3信号劣化告警。

原因:光板接收光功率过强或过弱,或系统本身所有。

处理方法:将本端自环,适当调节光纤插入深度,若告警消失,则是由于光功率过强或过弱引起,过强加衰减,过弱将光纤洗干净,法兰盘连接处拧紧或换光发功率强的光模块;若不是光功率引起的,则是光板或时钟板所致,更换光板或时钟板则可(误码性能的参数意义见后面详细介绍)。

6.LOM:复帧丢失。

原因:通常由对端交叉板引起。

处理方法:①更换对端交叉板则可。

②检查背板是否断针。

③交叉板是否插好。

常见告警及处理思路

常见告警及处理思路

设备常见告警及处理思路1.设备类告警:1.1 物理端口告警一般是接口未连接或者链路断开造成的这个是2M接口未连接的告警。

输入光功率越限告警1.2网元断链这个是网管上报的告警,存在于网管不能ping通网元管理IP情况1.3 单板告警常见是单板脱位,原因有可能是单板在重启或者已经与主控板通信失败2.隧道类告警2.1 隧道BFD down隧道检测依赖BFD,检测周期是10毫秒,超时周期30毫秒。

如果超过30毫秒未收到对端的BFD报文,认为隧道主用路径故障,在存在备用路径的情况下立即触发隧道路径倒换,出现2.2的告警。

查看命令show mpls traff tunnels tunnel-id X2.2隧道hsb切换隧道HSB路径是一个暂时存在的路径,5分钟后会撤销,隧道在5分钟内重新计算路径,如仍无法计算出路径,隧道将会down,如告警2.3查看命令show mpls traff tunnels tunnel-id X hot-standby2.3 隧道down该告警指隧道A到Z点无法计算出可达路径,隧道失效。

隧道建立依靠IGP以及RSVP-TE协议,可沿隧道路径检查IGP协议是否正常,路由是否正常,接口的RSVP-TE协议是否以及打开,协议运行是否正常。

查看命令show mpls traff tunnels tunnel-id X3.伪线类告警3.1 伪线BFD down该告警依靠伪线上的BFD检查,检侧周期50毫秒,如连续3次未收到对端发来的BFD报文,认为主用伪线故障,在配置了伪线保护组情况并且备用伪线正常情况下触发伪线倒换。

查看命令show mpls l2transport vc pw X3.2 伪线保护组倒换该告警说明伪线正在处于倒换状态,业务流量从备用伪线转发,如主用伪线恢复,在5分钟后会自动回切,该告警消失。

查看命令show l2vpn pw-redundancy-group X detail这个是PEER-BFD会话告警,目前每台汇聚到核心之间都配置了PEER-BFD,出现该告警,原因一般是链路质量了劣化。

(流程管理)网元告警处理流程

(流程管理)网元告警处理流程

14APPLERRERRORREPORTEDBYPROCEDUREFLERROR5 13APPLERRERRORREPORTEDBYPROCEDUREFLERROR 12APPLERRERRORREPORTEDBYPROCEDUREFLERROR138 0FORLOPPMANUALLYINITIATEDFORLOPPRELEASE0 61FORLOPPFORLOPPRELEASEREQUESTEDFROMAPPL1 53FORLOPPMANUALLYINITIATEDFORLOPPRELEASE0 48FORLOPPMANUALLYINITIATEDFORLOPPRELEASE0 44LARGEFUNCTIONCHANGEWITHSIDESWITCH 43LARGECOMMANDORDEREDRESTART 42SMALLREST.OFAPZBLOCKSINSB/SEATFC 24LARGEFUNCTIONCHANGEWITHSIDESWITCH EVENTCODEINF1INF2INF3INF4SIDESTATEDATETIMEACTIVE 19H'4300H'6C02H'0201H'00D1H'002EA-EXPARAL0208220841YES 18H'4300H'6C02H'0201H'00D1H'002EA-EXPARAL0208220838NO 17H'4300H'6C02H'0201H'00D1H'002EA-EXPARAL0208220835NO 16H'4300H'6C02H'0201H'00D1H'002EA-EXPARAL0208210747NO 15H'4300H'6C02H'0201H'00D1H'002EA-EXPARAL0208202259NO 14H'4300H'6C02H'0201H'00D1H'002EA-EXPARAL0208202244NO 13H'4300H'6C02H'0201H'00D1H'002EA-EXPARAL0208202241NO 12H'4300H'6C02H'0201H'00D1H'002EA-EXPARAL0208201421NO 0H'310CH'0000H'0144H'0001H'0000A-EXPARAL0208191235NO 61H'3100H'0146H'0001H'0000H'0002A-EXPARAL0208161158NO 53H'310CH'0000H'0607H'0000H'0000A-EXPARAL0207311619NO 48H'310CH'0000H'0001H'000FH'0000A-EXPARAL0207191537NO 44H'900DH'0000H'0000H'0000H'0000BSINGLE0207122350NO 43H'9003H'0000H'0000H'0000H'0000BSB-SEP0207122246NO 42H'900BH'0000H'0000H'0000H'0000BSB-SEP0207122243NO 24H'900DH'0000H'0000H'0000H'0000BSINGLE0205192223NO END <SURAE:RECTYPE=APPLERR;指令去活该记录,使其状态变为 DEACTIVED A2/APT"WHMSC6*57/GB/0/"3990208231111 CCITT7SIGNALLINGLINKFAILURE LSSPIDSLCST 2-17-255-4HLSTPB0C7ST2C-9 SDL MLSTPB-0,C7BTC4-1 FCODEINFOREASON 100H'0EXCESSIVEERRORRATEWHILSTIN-SERVICE 七、用户非法登陆告警 A2/APZ"WHHLR3*57/GB/0/"0010207132332H'0001-0000 USEREXCEEDEDALLOWEDACCESSATTEMPTS USERSOURCETIME NVT-2000006300813 此告警出现说明用户登陆输入口令不正确,且输入错误达到三次之上。通常这类告警壹段时
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网管系统告警产生和处理机制1.1.1告警来源和产生机制1、SYSLOG日志(被动接收方式)通过采集服务器的SYSLOG服务,接收网元发送上来的SYSLOG日志记录。

告警采集程序通过rules将SYSLOG日志记录解析为告警记录。

一条典型的华为端口DOWN告警解析过程:Jul 15 19:54:11 133.63.254.190 2008 yaan-DC-R-N40 IFNET/5/UPDOWN:Interface Ethernet1/0/5 Turns into DOWN state针对上面的告警,通过rules,主要解析出如下内容告警来源IP:133.63.254.190告警类型:IFNET/5/UPDOWN告警对象:Ethernet1/0/5告警原始级别:5告警描述:Interface Ethernet1/0/5 Turns into DOWN state2、Snmp Trap告警(被动接收方式)告警采集在162端口监听并接收网元发送过来的TRAP通知,通过加载相应MIB里的TRAP定义或者厂家提供的TRAP告警翻译规则,转换为相应的告警记录。

举例说明:10.102.16.2:TRAP[requestID=0, errorStatus=Success(0), errorIndex=0,VBS[1.3.6.1.2.1.1.3.0 = 229 days, 12:07:02.00;1.3.6.1.6.3.1.1.4.1.0 = 1.3.6.1.4.1.3902.1015.1010.1.10.1.17;1.3.6.1.2.1.2.2.1.1 = 808584704]]根据中兴提供的TRAP告警定义:(1)1.3.6.1.4.1.3902.1015.1010.1.10.1.17代表zxAnEponOnuErroredSymbolPeriodEvent,即ONU错误符号间隔事件,级别是主要。

(2)808584704 代表索引信息,可进一步定位到具体的ONU设备,如F820(0/4/4/5)。

解析翻译后的告警如下:告警来源IP:10.102.16.2告警类型:zxAnEponOnuErroredSymbolPeriodEvent告警对象:10.102.16.2告警级别:4告警描述:10.102.16.2 F820(0/4/4/5) : ONU错误符号间隔事件3、网元状态Polling告警(主动检测方式)(1)告警产生采用定期调度(根据设备的重要程度可设定不同的策略)对设备先进行SNMP连接测试,再进行ICMP PING测试:a、如果SNMP Ping不通,ICMP Ping也不通,发送网元中断告警;如果只有SNMP Ping不通,只发送网元不可管理告警b、如果SNMP Ping通,不管ICMP Ping通不通,都不发送任何告警c、如果原来只是SNMP Ping不通,但ICMP Ping也开始不通,再发送一条网元中断告警说明:网元不可管理和网元中断告警,默认只发送一次,不重复发送(即发生次数为1)。

(2)告警恢复对于处于网元不可管理或网元中断状态的设备,同时进行SNMP Ping和ICMP Ping跟踪:a、如果SNMP Ping通,根据设备的告警状态,发送相应的恢复告警,分两种情况:设备只有网元不可管理告警:发送网元不可管理恢复告警设备同时有两种告警:同时发送网元不可管理和网元中断的恢复告警b、如果SNMP Ping仍不通,但ICMP Ping开始通(也就是说原来两者都不通),发送一条网元中断恢复告警。

4、端口状态Polling告警(主动检测方式)端口Polling在端口流量采集时进行(检测周期与性能采集周期相同,5min一次)。

判断标准:本次端口流量采集采到的端口操作状态跟上次采到的端口状态做对比,如果发生了状态变化则发送告警,即:如果是up->down,就发端口DOWN告警;如果是down->up,就发恢复告警。

告警示例:告警类型:端口状态告警描述:如:172.28.12.4 GigabitEthernet0/1/13(端口) 端口down告警级别:严重说明:端口状态告警,只发送一次,不重复发送(即发生次数为1)。

5、性能告警(主动检测方式)告警产生机制:根据性能采集后的数据结果和性能告警设置进行比较,如果满足性能告警设置条件,发送相应的性能告警。

恢复告警:如果发生了“满足性能告警设置条件”->“不满足性能告警设置条件”的变化,则发送相应的恢复告警。

性能告警分类:(1)阈值性能告警:通过阈值设置产生的性能告警(2)基线性能告警:偏离基线时产生的性能告警(3)梯度性能告警:梯度变化满足一定条件时产生的性能告警(4)高级性能告警:满足给定的组合条件时产生的性能告警说明:性能告警,如果满足性能告警设置条件,则每5分钟发送一次,直到告警恢复为至。

6、其它告警:翻转告警、资源预警、进程告警等(主动检测方式)(1)翻转告警:根据翻转设置条件,产生的告警,不能自动恢复。

告警类型为“翻转告警”。

(2)资源预警:根据资源预警设置条件,判断设备的槽位占有或端口利用率是否超过给定阈值,如果超过,则发送相应的资源预警告警。

告警类型为“资源预警”。

(3)采集进程告警:采集进程正常时,能够定时主动发送心跳信息给应用服务器,系统每3分钟检测一次,根据采集进程的心跳信息是否及时更新来判断采集进程是否正常,如果超过设定时间,心跳信息没有更新,则认为进程down,进而产生相应的告警(重复发送)。

如果进程启动,心跳信息恢复,则发送恢复告警。

告警类型为“网管服务进程”。

1.1.2告警数据处理流程告警从采集,到入活动库,最后进入历史库,这个过程称为告警的生命周期。

采集为始,入历史库为终。

从始到终,其数据流程如下图所示:1、收到的所有SYSLOG和TRAP告警都进行记录。

2、只有SYSLOG和TRAP告警需要经过RULES解析和翻译环节,其它告警来源无此过程。

3、被RULES过滤掉的SYSLOG和TRAP告警直接丢弃,而非进入历史库,SYSLOG和TRAP告警在原始库中可以找到(TRAP原始报文默认不入库,如果要入库,需要打开进程参数)。

4、告警先进行重定义,在进行预处理规则过滤,被预处理过滤的告警,直接进入历史库(也可以选择直接丢弃),对应的删除类型为“预处理删除”;没有过滤的告警入活动库,同时发布JMS消息。

5、告警是排队入库的,每次从入库队列中取一定数量的告警依次入库。

分为三种情况:(1)如果活动库中存在相同的告警事件(告警源和事件相同),则进行告警更新(更新发生次数和发生时间);(2)如果活动库中不存在相同的告警事件,则插入一条新的活动告警记录;(3)如果告警为恢复告警,则将活动库中对应的告警事件清除,进入历史库。

6、活动库的告警被删除后,进入历史库。

这里的删除有以下几种情况(1)界面手工删除对应的删除类型为“用户手工删除”。

(2)自动恢复删除收到恢复告警后,自动与对应的活动告警结对合并,合并后的告警入历史库。

合并后的告警,清除时间为恢复告警的发生时间,清除类型为“自动恢复删除”,其余字段保留原告警信息。

也就是说,恢复告警是与成对的活动告警合并成一条告警后入历史库。

(3)告警条件删除根据在告警设置里设置的定时删除规则,定时删除符合条件的活动告警。

对应的删除类型为“告警条件删除”。

(4)告警过多删除低级告警当活动库的告警超过设置的容量时,系统自动启动的删除低级别(未定和警告)告警的策略。

删除的告警的级别为未定和警告。

对应的删除类型为“告警过多删除低级告警”。

(5)成对合并直接入历史库如果收到的某个告警发生和恢复时间非常接近(1秒左右),入库线程从告警队列里取告警后,发现有这种成对的情况,就不再走活动库而是直接合并入历史库,这种情况下告警删除类型为“成对合并直接入历史库”。

(6)等价告警剔重目前仅适用于端口down告警。

当上来某条端口down告警时,但活动库中已经存在该端口的其它PORT_DOWN告警,则该端口down告警直接入历史库,删除类型为“等价告警剔重”。

1.1.3告警关联机制告警关联机制包括:(1)告警结对清除收到恢复告警后,自动与对应的活动告警结对合并成一条告警,合并后的告警从活动库转入历史库,这种情况下告警删除类型为“自动恢复删除”;(2)告警压缩合并收到告警时,自动与活动库中存在的相同告警事件(告警源和事件相同)进行合并,同时更新告警的发生次数和发生时间;(3)告警合并直接入历史库如果收到的某个告警发生和恢复时间非常接近(1秒左右),入库线程从告警队列里取告警后,发现有这种成对的情况,就不再走活动库而是直接合并入历史库,这种情况下告警删除类型为“成对合并直接入历史库”;(4)告警同源处理目前主要用于端口DOWN告警。

端口DOWN告警的来源主要有SYSLOG和端口状态Polling两种,尽管告警类型在不同的厂商定义中不尽相同,但反映的是同一告警事件,系统把这些告警类型归属到同一个告警类型组“PORT_DOWN”,同一个告警类型组下的告警,认为是等价的。

为避免由于SYSLOG日志缺失或解析规则不完整造成的端口DOWN告警不准确,系统采用了端口状态Polling作为辅助手段,对端口状态事件进行监控,但与SYSLOG告警进行了关联处理。

具体策略:a、PORT_DOWN告警类型组下的所有告警类型,可以互相清除,即对于同一个端口,某个告警类型的恢复告警,可以清除其它PORT_DOWN告警。

b、上来某条端口down告警时,但活动库中已经存在该端口的其它PORT_DOWN告警,则该端口down告警直接入历史库,删除类型为“等价告警剔重”。

c、当活动库中存在某个端口的PORT_DOWN告警,而端口状态Polling检测到该端口的操作状态为up时,则发送端口状态恢复告警,用于清除该端口的所有PORT_DOWN告警。

目前PORT_DOWN告警类型组包括的告警类型:。

相关文档
最新文档