第3章 故障定位的基本思路与方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第3章故障定位的基本思路与方法

本章介绍常见故障的基本处理思路和方法。包括:

●对维护人员的要求

●故障定位的基本原则

●故障判断与定位的常用方法

●故障处理的过程示例

3.1 对维护人员的要求

快速定位和及时排除光传送系统的故障,对维护人员的业务技能、操作规范等

都有很高要求。维护人员应做到以下应知应会。

3.1.1 专业技能

1. 熟练掌握SDH的基本原理

参见《光同步数字传送网》主编:韦乐平人民邮电出版社。

2. 熟练掌握传输系统告警信号流及告警产生的机理

参见《OptiX OSN 3500/2500/1500智能光传输系统维护手册告警及性能事

件分册》。

3. 熟练掌握以下常见告警信号的处理

(1)线路告警

●R_LOS

●R_LOF

●R_OOF

●AU_AIS

●AU_LOP

●MS_AIS

●MS_RDI

●B1_EXC

●B2_EXC

●HP_LOM

●HP_SLM

●HP_TIM

●HP_UNEQ

(2)支路告警

●TU_AIS

●TU_LOP

●T_ALOS

●P_LOS

●EXT_LOS

●UP_E1_AIS

●LP_RDI

●LP_SLM

●LP_TIM

●LP_UNEQ

●B3_EXC

(3)保护倒换告警

●PS

(4)时钟告警

●LTI

●SYNC_C_LOS

●SYN_BAD

(5)设备告警

●POWER_FAIL

●FAN_FAIL

●BD_STATUS

告警信号的处理方法,参见《OptiX OSN 3500/2500/1500智能光传输系统维

护手册告警及性能事件分册》。

4. 熟练掌握传输设备和网管的基本操作

参见网管操作手册和网管的联机帮助。

5. 熟练掌握传输常用仪表的基本操作

传输设备在维护中常用的仪表包括:2M误码仪、光功率计、SDH分析仪、示

波器、万用表等,使用方法参见各仪表的使用手册。

3.1.2 工程组网信息

●熟悉组网情况。

●熟悉业务配置。

●熟悉设备运行状况。

●熟悉工程文档,并作好工程文档的维护工作。

3.1.3 故障现场数据的采集与保存

●采集并保存设备的告警及性能事件。

●采集并保存各网元及单板的配置数据。

●采集并保存各网元及单板的运行状态数据。

●采集并保存网管的操作日志。

3.2 故障定位的基本原则

故障定位关键是:将故障点准确地定位到单站。

故障定位的一般原则可总结为四句话:先外部,后传输;先网络,后网元;先

高速,后低速;先高级,后低级。

故障定位的一般原则可总结如下:

●先定位外部,后定位传输。

在定位故障时,应先排除外部的可能因素,如光纤断,对接设备故障或电源问

题等。

●先定位网络,后定位网元。

在定位故障时,首先要尽可能准确地定位出是哪个站的问题。

●先高速部分,后低速部分。

从告警信号流中可以看出,高速信号的告警常常会引起低速信号的告警;因此

在故障定位时,应先排除高速部分的故障。

●先分析高级别告警,后分析低级别告警。

在分析告警时,应首先分析高级别的告警,如紧急告警、主要告警;然后再分

析低级别的告警,如次要告警和提示告警。

3.3 故障判断与定位的常用方法

故障定位的常用方法可简单地总结为:“一分析,二环回,三换板”。

当故障发生时,首先通过对告警、性能事件、业务流向的分析,初步判断故障

点范围。然后,通过逐段环回,排除外部故障或将故障定位到单个网元,以至

单板。最后,更换引起故障的单板,排除故障。

对于较复杂的故障,需要综合使用表3-1所示的方法进行故障定位和处理。

表3-1 复杂故障的定位和处理

3.3.1 告警、性能分析法

SDH信号的帧结构里定义了丰富的、包含系统告警和性能信息的开销字节。因

此,当SDH系统发生故障时,一般会伴随有大量的告警和性能事件信息,通过

对这些信息的分析,可大概判断出所发生故障的类型和位置。

获取告警和性能事件信息的方式有以下两种:

●通过网管查询传输系统当前或历史发生的告警和性能事件数据。

●通过传输设备机柜和单板的运行灯、告警灯的状态,了解设备当前的运

行状况。

1. 通过网管获取告警信息,进行故障定位

通过网管获取故障信息,定位故障的特点是:

●全面:能够获取全网设备的故障信息。

●准确:能够获取设备当前存在哪些告警、告警发生时间,以及设备的历

史告警;能够获取设备性能事件的具体数值。

●如果告警、性能事件太多,可能会面临无从着手分析的困难。

●完全依赖于计算机、软件、通信三者的正常工作,一旦以上三者之一出

问题,通过该途径获取故障信息的能力将大大降低,甚至于完全失去。

下面通过举例,对告警、性能数据分析法给予说明。

在如图3-1所示的链形组网中,网管计算机设在NE1站。

图3-1 链形组网图

故障现象:NE1站和NE4站间的E1业务中断,从NE1站无法登录NE4站,

且NE3站东向光板有MS_RDI告警和HP_RDI告警,NE1站与NE4站间的业

务所对应的E1通道有LP_RDI告警。

分析判断:通过分析告警,可知NE4站没有正确接收到NE3站发出的信号,

而NE3站能正确接收到NE4站发出的信号。可能的故障原因包括:

●NE3站东向光板发送信号有问题。

●光缆线路问题(包括光纤和光纤接头)。

●NE4站光板的接收信号问题。

故障定位:借助于网管软件,可以通过修改业务配置、人工插入告警等方法,

对故障进行定位。例如,若我们怀疑图3-1中NE2站与NE3站间光纤接反(即

NE2站的东向光接口板误接NE3站的东向光接口板),则可以通过网管在NE2

站东向光接口板人工插入HP_RDI,然后通过网管观察NE3站告警上报情况:

●若是西向光接口板上报HP_RDI告警,则说明NE2站的东向发送端接的

是NE3站的西向接收端,光纤连接正确。

●若是NE3站的东向光接口板上报了HP_RDI告警,则说明NE2站东向

发送端接到了NE3站的东向接收端,光纤接反,需要纠正。

注意:

通过网管获取告警或性能信息时,应注意保证网络中各网元的当前网元运行时间设置正确,倘若网元时间设置错误,将会导致告警、性能信息上报错误或根本不上报。

在维护过程中,对某网元重下配置后,应特别注意将该网元的网元时间设为当前时间,否则网元会工作在缺省时间里,而缺省时间并不是当前时间。

相关文档
最新文档