故障定位思路与处理方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
维护手册目录
目录
第3章故障处理思路与方法...................................................................................................... 3-1
3.1 对维护人员的要求 ............................................................................................................. 3-1
3.1.1 加强SDH基本原理,尤其是告警信号流的学习....................................................... 3-1
3.1.2 熟练掌握所维护传输设备的基本操作...................................................................... 3-1
3.1.3 熟悉所维护局的情况............................................................................................... 3-2
3.1.4 故障发生时作好现场数据的采集与保存工作........................................................... 3-2
3.2 故障处理的基本思路——先定位故障,再排除故障........................................................... 3-3
3.2.1 故障处理的关键——故障定位................................................................................. 3-3
3.2.2 故障排除 ................................................................................................................. 3-3
3.3 故障定位的步骤................................................................................................................. 3-4
3.3.1 “先排除外部,后定位传输”................................................................................. 3-4
3.3.2 “先定位单站,后定位单板”................................................................................. 3-4
3.3.3 “先高速部分,后低速部分”................................................................................. 3-4
3.3.4 “先高级别告警,后低级别告警” ......................................................................... 3-4
3.4 故障定位的常用方法.......................................................................................................... 3-6
3.4.1 告警、性能分析法................................................................................................... 3-6
3.4.2 环回法................................................................................................................... 3-12
3.4.3 替换法................................................................................................................... 3-18
3.4.4 配置数据分析法 .................................................................................................... 3-18
3.4.5 更改配置法............................................................................................................ 3-19
3.4.6 仪表测试法............................................................................................................ 3-19
3.4.7 经验处理法............................................................................................................ 3-20
3.4.8 各种故障定位法的比较 ......................................................................................... 3-20
3.5 排除传输设备外部故障的方法 ......................................................................................... 3-22
3.5.1 定位对接设备故障................................................................................................. 3-22
3.5.2 光纤故障的确定 .................................................................................................... 3-23
3.5.3 供电电源故障的确定............................................................................................. 3-24
3.5.4 接地问题的确定 .................................................................................................... 3-24
第3章故障处理思路与方法
正常运行的OptiX光传输设备在多方面的原因影响下(比如受系统外部环境
的影响、部分元器件的老化损坏、维护过程中的误操作等),有时可能会进
入不正常运行的状态。
此时,就需要维护人员能够对设备故障进行正确的分
析、定位和排除,使系统迅速恢复正常。
本章介绍故障处理的基本思路及常用的故障处理方法。
3.1 对维护人员的要求
能否快速定位和及时排除故障,对维护人员的业务技能、操作规范、心理素
质等都是有较高要求的。
3.1.1 加强SDH基本原理,尤其是告警信号流的学习
要求维护人员做到对SDH传输系统告警信号流非常熟悉,平时重视SDH基
础知识、基本原理的学习。
对于影响业务和性能的各单板危急告警、主要告
警,要掌握其产生的机理、相应的告警回传(告警回传指下游告警后对上游
的告警回送,比如MS_RDI)以及对下游信号的影响。
只有对每个告警的机
理、影响都非常熟悉,才能更好地利用这些告警信息,对故障原因做出一个
清晰的判断。
维护手册的第五章“OptiX设备告警产生原理”中详细讲解了SDH光传输系
统的告警信号流。
建议维护人员在从事维护工作前经过专门的OptiX光传输
设备原理和维护培训。
3.1.2 熟练掌握所维护传输设备的基本操作
要求维护人员熟练掌握网管设备、网元设备以及相关测试仪表的基本操作。
需要掌握的基本操作有:告警、性能的设置和查询操作;SDH接入板(线路
板)、PDH接入板(支路板)的内环回和外环回操作;复用段协议的启动和
停止操作;插拔单板操作;误码测试仪的使用等。
维护人员平时要加强对网管操作手册、设备维护手册的学习,多实践、多锻
炼,逐步达到熟练操作的程度。
3.1.3 熟悉所维护局的情况
要求维护人员对所维护局的组网情况、保护方式、业务配置、机房设备的布
局非常清楚。
对设备在各种运行状态下,每个业务的源和宿、占用的时隙以
及经过的站点要非常清楚,平时要注意了解所维护局的情况,加强对工程文
档的学习,作好工程文档的维护工作。
3.1.4 故障发生时作好现场数据的采集与保存工作
在进行故障处理前,要求维护人员首先采集、保存故障现场数据,这是非常
重要的工作。
事实上很常见的一种情况是:由于缺乏故障现场数据,虽然设
备已经恢复正常运行,但故障的真正原因却无法查清!造成设备运行的极大
隐患。
在故障的处理过程中,不可避免地会破坏故障现场数据,而详实的故
障现场数据,对于查清故障原因是很有用的。
需要现场采集保存的主要数据有系统告警及性能数据、各网元及单板的配置
和运行状态数据、网管的操作日志(需要将日志转储)等。
另外,还要求维护人员作好操作记录,将排除故障过程中的每一步操作都认
真记录下来。
保存维护数据对于后续的事故原因析是非常有用的,同时可作
为一个经验保留下来,为以后处理类似故障提供指导。
3.2 故障处理的基本思路——先定位故障,再排除故障
3.2.1 故障处理的关键——故障定位
由于传输设备自身的应用特点——设备与设备之间的距离较远,在没有确定
故障发生在哪里,是无法进行故障排除的。
因此,进行SDH传输设备故障处理,就需要逐步缩小故障发生的范围,最后
确定故障发生点,再进行故障排除;也就是,“先定位故障,再排除故障”。
缩小故障发生的范围,就是先要在传输网中确定故障发生在哪一套设备,再
确定在哪一个板件(单板、电缆、尾纤等),再确认故障定位的正确性,这
样才能排除故障。
因此,故障处理的关键在于故障的定位,故障定位的关键就是将故障点从全
网准确地定位到设备。
在进行故障定位时,将故障点准确地定位到设备是极
其重要的。
在将故障点准确地定位到单站之前,凭空猜测这个站或那个站、
这块板或那块板的问题,都是徒劳的,只会延误问题的解决。
一旦将故障定
位到单站后,就可以集中精力,通过数据分析、硬件检查、更换单板等手段
来排除该站的故障。
3.2.2 故障排除
定位了对于传输设备故障后,故障的排除就很简单。
故障的排除是在进行严谨的推理,确认发生故障点后,进行针对故障发生点
故障排除:
●基本故障排除(排除尾纤、电缆中断,电源故障等);
●采用备用板件替换故障板件。
总结:
故障处理的关键在于故障的定位,故障定位的关键就是将故障点从全网准确
地定位到设备。
3.3 故障定位的步骤
故障定位的一般原则可总结为四句话:
●先排除外部,后定位传输;
●先定位单站,后定位单板;
●先高速部分,后低速部分;
●先高级别告警,后低级别告警。
3.3.1 “先排除外部,后定位传输”
●在定位故障时,应先确定与传输设备连接的设备(如交换机、接入网设
备、无线基站、路由器等)没有发生故障。
●然后,排除传输设备外部的连接故障(如光纤/电缆故障),电源故障,
接地故障等。
传输设备与外的光纤、电缆等接口很多,都很有可能发生故障。
因此,在没
有排除外部故障的可能时,对传输设备的故障定位可能是徒劳的。
3.3.2 “先定位单站,后定位单板”
先从全网的角度定位故障发生在哪一个单站,然后才有可能对发生故障的单
板进行定位。
进行这一步故障定位必须经过严谨的推断,证明故障发生的确实位置;凭空
猜测和不严谨的推断,只会贻误故障处理时间。
3.3.3 “先高速部分,后低速部分”
先观察分析高速部分(光路单元),再分析低速部分(支路单元)。
因为线
路部分的故障往往会引发一连串支路告警,所以应该先从线路告警开始着手
进行分析,定位是否高速部分故障,或者排除高速部分故障的可能。
3.3.4 “先高级别告警,后低级别告警”
在分析告警时,应首先分析告警级别高的告警,然后再分析低级别的告警。
比如先分析危急告警、主要告警,再分析提示告警和一般告警。
高级别告警
会衍生出低级别告警,低级别告警通常不会衍生出高级别告警。
设备出现故障时,往往会出现大量告警、性能事件,但只有其中几个告警是基本告警,与故障息息相关的,可通过这些基本告警直接定位出故障点。
还有一些告警则是由这些基本告警衍生出来的,不能通过它们定位出故障点。
3.4 故障定位的常用方法
故障定位的常用方法有:
●告警、性能分析法
●环回法
●替换法
●配置数据分析法
●更改配置法
●仪表测试法
●经验处理法
其中最为常用的前三种,可简单地总结为:
●一分析;
●二环回;
●三换板。
1. “一分析”
当故障发生时,首先采用“告警、性能分析法”通过对告警事件、性能事件、
业务流向及告警信号流向的分析,逐步判断故障发生的范围;
2. “二环回”
通过对故障的告警、性能分法后,采用“环回法”通过逐段环回,逐步缩小
故障范围,并最终将故障定位到单站,乃至单板;
3. “三换板”
最后采用“替换法”通过换板排除故障。
随故障范围、故障类型的不同,所使用的故障定位方法会有所不同。
下面将
对故障定位方法分别给予介绍。
3.4.1 告警、性能分析法
SDH光同步传输系统相对于PDH很大的一个优点,就是其帧结构里定义了
丰富的、包含系统告警和性能信息的开销字节,当SDH系统发生故障时,一
般会伴随有大量的告警事件和性能数据的产生,通过对这些信息的分析,可
大致判断出所发生故障的类型和位置。
“告警、性能分析法”就是通过对告
警事件、性能事件、业务流向及告警信号流向的分析,逐步判断故障发生的范围的方法。
使用告警、性能分析法,首先要及时、全面、真实地获取故障信息。
故障信息的来源一般有两个渠道:一个渠道是通过网管软件查询传输系统当前或历史发生的告警事件和性能数据;另一个渠道是通过观察设备指示灯的闪烁情况了解设备当前的运行状况。
这两个获取故障信息的途径各有优缺点。
说明:
传输设备的维护人员可大致分为两类:在网管中心使用网管的网络维护人员
和传输机房内的设备维护人员(网元维护人员)。
作为网管中心维护人员,可通过网管查询设备的详细数据,在设备出现故障
时,有大量的告警、性能数据供其分析、定位,因此可以定位到较细、较精
确的故障点,能判断和处理常见的设备故障,对下属站具有一定的技术支援
能力。
而作为设备维护人员,没有网管可供使用,只能通过设备、单板告警灯闪烁
情况来分析定位故障。
1. 通过网管获取告警信息
通过网管软件可对全网传输设备的运行情况进行监控和管理,因此通过网管软件获取的故障信息是非常全面的,不仅是一个站、一块板的故障信息,而是全网设备的故障信息;通过该渠道获取的故障信息也是非常确切的,可以知道当前设备存在什么告警,什么时间发生的,以前曾经发生过什么历史告警,性能不好时指针调整有多少等。
因此,当故障发生时,维护人员使用网管获取故障信息,可以将故障定位到较细、较准确的程度。
但是,通过网管软件获取故障信息,维护人员有时也面临告警、性能事件太多,无从着手分析的情况。
另外,该途径依赖于计算机、软件、网管与网元之间的通信三者的正常工作,一旦以上三者之一出问题,该途径获取故障信息的能力将大大降低,甚至于完全失去。
注意:
通过网管获取告警或性能信息时,应注意保证网络中各网元的当前网元运行时间设置正确,倘若网元时间设置错误,将会导致告警、性能信息不上报。
在维护过程中,对某网元重下配置后,应特别注意将该网元的网元时间设为当前时间,否则网元会工作在缺省时间,而缺省时间并不是当前时间,会出现告警、性能不上报的错误。
下面举例说明告警性能数据分析法。
例1:
(1) 故障现象
在如图3-1所示的链形组网中,网管计算机设在#1站,此时若#1站和#4站间的2M 业务中断,而且网管从#1站无法登录#4站,且#3站东向光板有MS_RDI 告警和HP_RDI 告警,#1站与#4站间的业务所对应的2M 通道有LP_RDI 告警。
(2) 故障判断
根据告警可判断:#4站没有正确接收到#3站发出的信号,而#3站能正确接收到#4站发出的信号。
可能的故障原因是:#3站东向光板发送信号有问题;也可能是光路问题(包括光纤和光纤接头〕;还可能是#4站光板的接收信号问题。
故障的进一步定位可以使用环回法,具体适用请参考“环回法”介绍。
#4#3#2#1
w w w w e e 网管
图3-1 链形组网图
对于告警、性能分析法,除了可以借助于网管软件查询设备产生的告警或性能事件,还可以通过修改配置,人工插入告警对故障进行定位。
比如,若我们怀疑图3-1中#2站的东向光板接#3站的东向光板,则可以通过网管在#2站东向光板人工插入MS_RDI (高阶通道远端接收缺陷指示告警),然后通过网管观察#3站告警上报情况,若是西向光板上报MS_RDI 告警,则说明#2站的东向发送端接的是#3站的西向接收端,光纤连接正确;若是#3
站的东向光板上报了MS_RDI告警,则说明#2站东向发送端接到了#3站的东向接收端,光纤接反,需要纠正。
2. 通过设备上的指示灯获取告警信息,进行故障定位
OptiX光传输系统的设备上,设计有不同颜色的运行和告警指示灯,这些指示灯的亮、灭及闪烁情况,反映出设备当前的运行状况或存在告警的级别。
OptiX 155/622H设备在正面与背面都有相同的指示灯,两组指示灯指示的状态相同。
这些指示灯的颜色及含义如表3-1所示。
表3-1指示灯的颜色及含义
设备的指示灯的闪烁次数都有一定的含义,说明如下。
(1) RUN(运行灯):
当运行灯RUN快速闪动(每秒钟亮灭1次),表示设备SCB板处于未开工状态。
设备SCB板未开工的可能原因是设备上电后,主机软件未加载。
当运行灯RUN亮1秒钟、灭1秒钟(每2秒钟亮灭1次)时,表示设备SCB 板处于开工状态,即单板上电后系统的主机软件加载正常。
(2) YALM、RALM告警灯
当告警灯YALM和RALM都没有亮时,表示本板无告警发生。
当红色告警灯RALM亮时,表示设备有严重告警事件发生。
当黄色告警灯YALM亮时,表示本板有一般告警事件发生。
设备指示灯可帮助维护人员及时了解设备的工作状况,当红灯亮时,表示设备检测到有紧急告警事件发生,如无光信号输入告警或同步源丢失告警等;当黄灯亮时,表示设备检测到有主要或紧急告警事件发生,如支路倒换告警等。
通过观察指示灯的闪烁情况,我们可以大致定位故障的类型和可能的位置。
比如,在发生故障时,发现绿色运行灯进入快闪状态,则可判断故障的原因可能是SCB板主机软件丢失,在进行确认后可通过重新下载主机软件排除故障。
从表3-1可以看出,设备指示灯所能传递的故障信息是有限的。
因此,仅通过观察设备指示灯进行故障定位难度比较大。
但该方法也有优势,维护人员就在设备现场,不依赖任何工具就可实时观察到有什么级别的告警,且在现场
进行各种操作都比较方便。
因此,通过观察设备指示灯的闪烁情况并结合相关仪表的使用,维护人员应能对设备的简单故障进行分析、定位。
使用该方法要求维护人员熟练掌握各告警指示灯的不同闪烁状态所代表的告警信息。
注意:
设备指示灯仅反映设备当前的运行状态,对于设备曾经出现过但当前已结束的故障,无法表示。
3. 两种获取故障信息途径的比较
从上面的介绍可以看出,通过网管与通过观察设备指示灯获取设备故障信息,各有其优、缺点——通过网管软件可以对全网设备的运行状况进行全面的把握,而且对设备本身所存在的具体告警有确切的了解;而在现场通过观察设备指示灯的状态,除了可实时了解到设备的运行情况外,还可以方便地在现场进行各种维护操作。
因此,在实际的故障定位过程中,这两种手段要结合起来使用。
这两种途径的比较如表3-2所示。
排除故障时,需要网管中心的维护人员与各站的设备维护人员共同参与,一般由网管中心的维护人员协调指挥,各站的设备维护人员密切配合,统一行动。
表3-2两种获取故障信息途径的比较
网管设备指示灯
主要使用者网管维护人员设备维护人员
定位作用指挥配合
告警信息全网、大量、确切单站、少量、模糊
历史告警有无
告警时间可以看到无法知道
性能事件可以看到无法知道
计算机、软件、通信状态完全依赖无关
3.4.2 环回法
我们可能会遇到一些问题,使用告警、性能分析法不能解决。
一种是在组网、
业务以及故障信息比较复杂的情况下,伴随故障的发生,可能会产生大量的
告警和性能事件;由于告警和性能事件太多,使得维护人员无从着手分析;
第二种情况恰恰与第一种情况相反,某些特殊的故障,可能没有明显的告警
或性能事件上报,有时甚至查不到任何告警或性能事件。
在这种情况下,告
警、性能分析法是无能为力的。
如果发生上面两种情况,我们不妨试一试另一种比较经典的方法——环回
法。
环回法是SDH传输设备定位故障时最常用、最行之有效的一种方法。
该方法
最大的一个特色就是,故障的定位可以不依赖于对大量告警及性能数据的深
入分析。
作为一名SDH传输设备维护人员,应熟练掌握。
这种方法也有不能
克服的缺陷,使用时会影响正常的业务,因此建议在业务量小的时候使用,
比如在深夜进行。
1. OptiX系统对软件环回操作的支持
对于环回操作,我们需要清楚:软件环回是在单板内部通过软件设置实现,
环回后信号只经过了单板的部分路径,硬件环回相对于软件环回而言环回更
为彻底,因为它是在单板的外部通过人工实现,环回后信号经过了环回单板
的全路径,但它的操作不是很方便,需要到设备现场才能进行;而软件环回
虽然操作方便,但它定位故障的范围和位置不如硬件环回准确。
比如,在单
站测试时,若通过光口的软件内环回,业务测试正常,并不能确定该光板没
有问题因为问题还可能出在光连接器上;但若通过尾纤将光口自环后,业务
测试正常,则可确定该光板正常。
总之,软件、硬件两种环回方式各有所长,我们应根据实际情况灵活应用。
表3-3OptiX光传输系统软件环回操作及应用
支持软件环回的单板软件环回
操作类型
环回级别应用
SDH接口板内环回、外
环回按VC-4通道级
别或整个STM-N
信号环回
将故障定位到单站,且可初步判断线
路板是否存在故障,不需要更改业务
配置。
PDH接口板内环回、外
环回按通道环回可定位交换机故障还是传输故障,且
可初步判断支路板是否存在故障。
不
需要更改业务配置。
交叉单元线路环回、
支路环回按业务通道环回单站故障的定位中,可定位是线路侧
故障还是支路侧故障。
需要更改业务
配置,对操作人员要求较高。
线路板环回可将故障定位到单站,同时可初步定位线路板是否存在故障,因此在实际中使用最多,要求维护人员熟练掌握。
但使用线路环回需要特别注意的是,在对远端站点进行环回操作时,千万要小心,避免环回后发生远端站点ECC通信中断的问题。
一旦远端站点的ECC通信中断,则只能到远端站点现场才能排除环回和恢复ECC通信,从而延误了故障的及时排除。
若按VC-4通道环回——其实是按帧结构中第一个直插列进行环回,则对线路板第一个VC-4环回时,会影响ECC通信。
警告:
由于链形网中,两站间的ECC通讯只有单路径,无备份路径,而在环形网中,两站间的ECC通讯有两条路径,在一侧ECC路径中断后,还可以通过另一侧的ECC路径与网元通讯,因此对链形网的线路板进行软件环回时,需要慎重,对于环形网的线路板进行软件环回时,一般没有此问题。
不过注意,环形网的一侧光纤断开后,将退化为链形网。
支路板环回可用于定位交换机故障还是传输设备故障,同时可用来初步判断支路板是否存在故障,在实际中使用较多,也要求维护人员熟练掌握。
2. “环回法”的步骤
在进行“环回”操作前,首先需确定对哪个通道、哪个时隙环回,应该在哪些位置环回,应该使用哪种环回——外环回、还是内环回。
用环回法定位故障可以分四个步骤进行:
第一步:环回业务通道采样简化
通过咨询、观察和测试等手段,选择其中一个的确有故障的业务通道作为处理、分析的对象。
对于同时出问题的业务,一般都具有一定的相关性,因此只要恢复其中的一个业务,其它的业务常常能自动得到恢复。
采样简化的思路,可以使得故障的分析、处理显得更加清晰,简单。
尤其是在出故障的业务比较复杂的情况下,采样简化的方法更加显得行之有效,甚至是解决问题的出发点或突破口。
环回业务通道采样简化的过程可以描述如下:
(1) 从多个有故障的站点中选择其中的一个站点;
(2) 在此站点,从多个有问题的业务通道中选择其中的一个业务通道。
由于
自环第一个VC-4通道,会影响ECC通信,因此尽量不要选择第一个VC-4通道内的业务。
针对STM-1的设备做环回时要遵循基本操作中环回操作的注意事项。
(2M和VC-4分开说明)
(3) 对所选择出来的业务通道,先分析其中一个方向的业务。
第二步:画业务路径图
画出所采样业务一个方向的路径图。
在路径图中表示出:该业务的源和宿,该业务所经过的站点,该业务所占用的VC-4通道和时隙。
第三步:逐段环回,定位故障站点
根据所画出的业务路径图,采取逐段、逐站环回的方法,定位出故障站点。
第四步:初步定位单板问题
故障定位到单站后,通过线路、支路和交叉单元环回,进一步定位可能存在故障的单板。
最后结合其它方法,确认存在故障的单板,并通过换板排除故障。
3. “环回法”实际应用举例
仍以图3-1为例,介绍“环回法”的应用。
假设组成图3-1链形传输网的四个网元1、2、3、4为OptiX 155/622H设备。
各站点间的时隙分配表如下表3-4所示。
表3-4时隙分配表
该局共用到了一个VC-4的业务;t4表示网元中的第4板位的2M支路板(IU4);支路板后面的数字表示2M通道号,例如“t4:1-16”表示第4板位的支路板上的1到16个2M通道;双箭头线上的数字表示所占用的VC-4中的时隙号。
表中表示的业务为:
(1) 站1的t4支路板上1-16个2M通道,通过第1个VC-4中的1-16
时隙,与站2的t4支路板上1-16个2M通道互通业务;
(2) 站1的t4支路板上17-32个2M通道,通过第1个VC-4中的17-32
时隙,与站3的t4支路板上1-16个2M通道互通业务;
(3) 站1的t4支路板上33-48个2M通道,通过第1个VC-4中的33-48
时隙,与站4的t4支路板上1-16个2M通道互通业务。
注:本手册示例中的业务分配关系,都将以此方法来表示。
现假设1号站与2、3、4站间的业务全部中断,使用“环回法”定位故障的步骤如下:
第一步:中断业务采样。
(1) 现2、3、4站与1站的业务均中断,选取3号站业务进行分析;
(2) 3号站共有16个业务中断,选取t4支路板第1个2M业务进行分析;
(3) 首先分析从1站到3站方向的业务。
第二步:画中断业务路径图
从时隙分配表中可看出,所采样中断业务的源为1号站的t4:17,占用第1个VC-4的第17个2M时隙;经过的中间站点是2号站;业务的宿是3号站的t4:1。
这样可画出中断业务的路径如图3-2所示。