第3章--故障定位的基本思路与方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3章故障定位的基本思路与方法
本章介绍常见故障的基本处理思路和方法。包括:
●对维护人员的要求
●故障定位的基本原则
●故障判断与定位的常用方法
●故障处理的过程示例
3.1 对维护人员的要求
快速定位和及时排除光传送系统的故障,对维护人员的业务技能、操作规等都
有很高要求。维护人员应做到以下应知应会。
3.1.1 专业技能
1. 熟练掌握SDH的基本原理
参见《光同步数字传送网》主编:韦乐平人民邮电。
2. 熟练掌握传输系统告警信号流及告警产生的机理
参见《OptiX OSN 3500/2500/1500智能光传输系统维护手册告警及性能事
件分册》。
3. 熟练掌握以下常见告警信号的处理
(1)线路告警
●R_LOS
●R_LOF
●R_OOF
●AU_AIS
●AU_LOP
●MS_AIS
●MS_RDI
●B1_EXC
●B2_EXC
●HP_LOM
●HP_SLM
●HP_TIM
●HP_UNEQ
(2)支路告警
●TU_AIS
●TU_LOP
●T_ALOS
●P_LOS
●EXT_LOS
●UP_E1_AIS
●LP_RDI
●LP_SLM
●LP_TIM
●LP_UNEQ
●B3_EXC
(3)保护倒换告警
●PS
(4)时钟告警
●LTI
●SYNC_C_LOS
●SYN_BAD
(5)设备告警
●POWER_FAIL
●FAN_FAIL
●BD_STATUS
告警信号的处理方法,参见《OptiX OSN 3500/2500/1500智能光传输系统维
护手册告警及性能事件分册》。
4. 熟练掌握传输设备和网管的基本操作
参见网管操作手册和网管的联机帮助。
5. 熟练掌握传输常用仪表的基本操作
传输设备在维护中常用的仪表包括:2M误码仪、光功率计、SDH分析仪、示
波器、万用表等,使用方法参见各仪表的使用手册。
3.1.2 工程组网信息
●熟悉组网情况。
●熟悉业务配置。
●熟悉设备运行状况。
●熟悉工程文档,并作好工程文档的维护工作。
3.1.3 故障现场数据的采集与保存
●采集并保存设备的告警及性能事件。
●采集并保存各网元及单板的配置数据。
●采集并保存各网元及单板的运行状态数据。
●采集并保存网管的操作日志。
3.2 故障定位的基本原则
故障定位关键是:将故障点准确地定位到单站。
故障定位的一般原则可总结为四句话:先外部,后传输;先网络,后网元;先
高速,后低速;先高级,后低级。
故障定位的一般原则可总结如下:
●先定位外部,后定位传输。
在定位故障时,应先排除外部的可能因素,如光纤断,对接设备故障或电源问
题等。
●先定位网络,后定位网元。
在定位故障时,首先要尽可能准确地定位出是哪个站的问题。
●先高速部分,后低速部分。
从告警信号流中可以看出,高速信号的告警常常会引起低速信号的告警;因此
在故障定位时,应先排除高速部分的故障。
●先分析高级别告警,后分析低级别告警。
在分析告警时,应首先分析高级别的告警,如紧急告警、主要告警;然后再分
析低级别的告警,如次要告警和提示告警。
3.3 故障判断与定位的常用方法
故障定位的常用方法可简单地总结为:“一分析,二环回,三换板”。
当故障发生时,首先通过对告警、性能事件、业务流向的分析,初步判断故障
点围。然后,通过逐段环回,排除外部故障或将故障定位到单个网元,以至单
板。最后,更换引起故障的单板,排除故障。
对于较复杂的故障,需要综合使用表3-1所示的方法进行故障定位和处理。
表3-1 复杂故障的定位和处理
3.3.1 告警、性能分析法
SDH信号的帧结构里定义了丰富的、包含系统告警和性能信息的开销字节。因
此,当SDH系统发生故障时,一般会伴随有大量的告警和性能事件信息,通过
对这些信息的分析,可大概判断出所发生故障的类型和位置。
获取告警和性能事件信息的方式有以下两种:
●通过网管查询传输系统当前或历史发生的告警和性能事件数据。
●通过传输设备机柜和单板的运行灯、告警灯的状态,了解设备当前的运
行状况。
1. 通过网管获取告警信息,进行故障定位
通过网管获取故障信息,定位故障的特点是:
●全面:能够获取全网设备的故障信息。
●准确:能够获取设备当前存在哪些告警、告警发生时间,以及设备的历
史告警;能够获取设备性能事件的具体数值。
●如果告警、性能事件太多,可能会面临无从着手分析的困难。
●完全依赖于计算机、软件、通信三者的正常工作,一旦以上三者之一出
问题,通过该途径获取故障信息的能力将大大降低,甚至于完全失去。
下面通过举例,对告警、性能数据分析法给予说明。
在如图3-1所示的链形组网中,网管计算机设在NE1站。
图3-1 链形组网图
故障现象:NE1站和NE4站间的E1业务中断,从NE1站无法登录NE4站,
且NE3站东向光板有MS_RDI告警和HP_RDI告警,NE1站与NE4站间的业
务所对应的E1通道有LP_RDI告警。
分析判断:通过分析告警,可知NE4站没有正确接收到NE3站发出的信号,
而NE3站能正确接收到NE4站发出的信号。可能的故障原因包括:
●NE3站东向光板发送信号有问题。
●光缆线路问题(包括光纤和光纤接头)。
●NE4站光板的接收信号问题。
故障定位:借助于网管软件,可以通过修改业务配置、人工插入告警等方法,
对故障进行定位。例如,若我们怀疑图3-1中NE2站与NE3站间光纤接反(即
NE2站的东向光接口板误接NE3站的东向光接口板),则可以通过网管在NE2
站东向光接口板人工插入HP_RDI,然后通过网管观察NE3站告警上报情况:
●若是西向光接口板上报HP_RDI告警,则说明NE2站的东向发送端接的
是NE3站的西向接收端,光纤连接正确。
●若是NE3站的东向光接口板上报了HP_RDI告警,则说明NE2站东向
发送端接到了NE3站的东向接收端,光纤接反,需要纠正。
注意:
通过网管获取告警或性能信息时,应注意保证网络中各网元的当前网元运行时间设置正确,倘若网元时间设置错误,将会导致告警、性能信息上报错误或根本不上报。
在维护过程中,对某网元重下配置后,应特别注意将该网元的网元时间设为当前时间,否则网元会工作在缺省时间里,而缺省时间并不是当前时间。