故障处理流程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 概述
随着PTN产品在全球的广泛应用,用户对产品的稳定运行要求也越来越高,相应对我们的维护工程师技能提出更高的要求。

《ZXCTN产品故障排查指导手册》是面向有一定PTN维护基础的中兴售后工程师, 通过对该手册的学习和应用,提高售后工程师的实际故障处
理能力,争取使售后工程师水平在较短时间内有明显提升。

本文分为故障处理流程、故障处理的常见方法、故障处理的常用命令和工具、故障反馈的方式和信息说明,以及常见故障排查和典型案例几个部分
进行描述。

2 故障处理流程2.1 故障处理总流程
图2-1 故障处理总流程图
2.2 紧急故障处理流程
紧急故障处理流程如图2-2所示。

图2-2 ZXCTN产品紧急故障处理流程图
流程说明:
1. 尽快恢复业务
出现紧急故障,承载的业务中断,如果有备用路由,请把业务割接到备用路由上。

2. PTN故障分类说明
除业务类故障外,还有其他OAM类故障,监控类故障等,可以根据其他的故障处理流程进行处理。

3. 设备告警、配置等情况检查
PTN产品配置比较复杂,现场若出现配置问题时,需要仔细排查网管、设备侧配置及运行状态是否正常,然后再转入设备类故障处理。

2.3 故障处理原则
在处理设备故障时,设备维护人员应该遵循一“查看”、二“询问”、三“思考”、四“动手”的基本原则。

1. 查看
维护人员到达现场后,首先应仔细查看设备的故障现象,包括:设备的故障点、告警原因、严重程度、危害程度。

只有全面了解设备的故障现象,
才能透过现象看本质。

2. 询问
观察完故障现象后,应询问现场操作人员,有没有直接原因造成此故障,比如:修改数据,删除文件,更换电路板,停电,雷击。

3. 思考
根据现场查看的故障现象和询问的结果,结合自己的知识进行分析,进行故障定位,判断故障点和故障原因。

4. 动手
在通过前面三个步骤找出故障点后,维护人员可以采取适当的操作来排除故障,如:修改配置数据、更换板件。

2.4 故障定位的基本思路
2.4.1 故障原因
1. 工程问题
工程问题是指由于工程施工不规范、工程质量差等原因造成的设备故障。

此类问题有的在工程施工期间就能暴露出来,有的可能在设备运行一段时
间或某些外因作用下,才暴露出来,为设备的稳定运行埋下隐患。

产品的工程施工规范是根据产品的自身特点并在一些经验教训的基础上总结出来的规范性说明文件,因此,严格按工程规范施工安装,认真细致的
按规范要求进行单点和全网的调试和测试,是防止此类问题出现的有效手段。

2. 外部原因
外部原因是指除传输设备以外导致设备故障的环境、设备因素,包括:(1)供电电源故障,如设备掉电,供电电压过低。

(2)光纤故障,如光纤性能劣化、损耗过高,光纤损断,光纤插头接触不良。

(3)电缆故障,如中继电缆脱落、损断,电缆插头接触不良。

(4)设备接地不良。

(5)设备周围环境劣化。

3. 操作不当
操作不当是指,由于维护人员对设备的了解不够深入,做出错误的判断和操作,从而导致设备故障。

在设备维护工作中,最容易出现操作不当导致的故障。

尤其在改网、升级、扩容时,出现新老设备混用、新老版本混用,因为维护人员不是非常清楚新老设备或版本之间的差别,常常引发故障。

4. 设备对接问题
ZXCTN设备可以接入多种业务信号,如E1/STM-1/FE/GE等。

导致设备对接问题的原因可能有:
(1)光纤连接错位,在维护过程中最常见的原因是光接口插错。

(2)对接设备自身存在问题,如光模块问题、线卡故障等。

(3)对接设备端口配置问题,如协商模式不统一、光模块速率不统一等。

5. 设备原因
设备原因指由于传输设备自身的原因引发故障,主要包括设备损坏和板件配合不良。

其中的设备损坏是指在设备运行较长时间后,因板件老化出现的自然损坏,其特点是:设备已使用较长时间,在故障之前设备基本正常,故障只是在个别点、个别板件出现,或在一些外因作用下出现。

2.4.2 故障定位的原则
由于传输设备自身的应用特点——站点之间的距离较远,因此在进行故障定位时,最关键的一步就是将故障点准确定位到单站。

在将故障点准确的定位到单站后,就可以集中精力来排除该站的故障。

故障定位的一般原则:
1. 排除外部的可能因素,如光纤断、交换故障或电源问题等,再考虑传输
设备的问题。

2. 尽可能准确定位产生问题的站点,再将故障定位到单板。

3. 在分析告警时,应先分析高级别告警,再分析低级别告警。

3 故障处理常用方法
3.1 观察分析法
当系统发生故障时,在设备和网管上将出现相应的告警信息,通过观察设备单板上的指示灯运行情况,可以及时发现故障。

有关指示灯的运行状态
请参见单板指示灯的相关说明。

故障发生时,网管上会记录非常丰富的告警事
件和性能数据信息,通过分析这些信息,并结合PTN设备告警原理机制,初
步判断故障类型和故障点的位置。

通过网管采集告警信息和性能信息时,必须保证网络中各网元的当前运行时间设置和网管的时间一致。

如果时间设置上有偏差,会导致对网元告警、
性能信息采集的错误和不及时。

3.2 仪表测试法
如果无法定位误码是由PTN系统内部产生还是外部其他问题引起,可以通过远端用尾纤自环,本端用仪表测试的办法来确定。

仪表测试法一般用于排除传输设备外部问题。

可以采用如下一些仪表进行辅助查询。

1. 光功率计
先使用网管查询设备光功率大小,一般网管查询的光功率性能和实际功率性能大概有1~2db的误差,若查询后处于临界状态,可以使用光功率计
精确测量该点光功率,以此确认光模块类型、光衰、光放是否合适。

2. ATM数据分析仪/SDH分析仪/数据网络分析仪
根据现场业务种类确定使用何种仪表进行检查测试。

3.3 拔插法
发现某种单板故障时,可以通过插拔单板和外部接口插头的方法,排除因接触不良或处理机异常的故障。

注意
拔插单板时应严格按规范操作,以免由于操作不规范导致板件损坏等其他问题。

3.4 替换法
替换法是指使用一个工作正常的物件替换一个被怀疑工作不正常的物件,从而达到定位故障、排除故障的目的。

这里的物件,可以是一段尾纤、一
块单板或一个设备。

替换法适用于以下情况:
1. 排除传输外部设备的问题,如光纤、接入设备、供电设备等。

2. 故障定位到单站后,排除单站内单板的问题。

3. 解决电源、接地问题。

替换法操作简单,对维护人员要求不高,是比较实用的方法,缺点是要求有可用备件。

3.5 配置数据分析法
更改配置法是通过更改设备配置来定位故障的方法,适用于故障定位到单个站点后,排除由于配置错误导致的故障,可以更改的配置包括时隙配置、
板位配置、单板参数配置。

注意
更改设备配置之前,应备份原有配置,同时详细记录所进行的操作,以便于故障定位和数据恢复。

比如,在升级扩容改造中,如果怀疑新的配置数据有误,可以重新下发原有配置数据,来定位是否是配置数据的问题。

由于更改配置法操作起来比较复杂,对维护人员的要求较高,因此仅用于在没有备板情况下临时恢复业务一般情况不推荐使用。

3.6 经验处理法
在一些特殊的情况下(如由于瞬间供电异常、低压或外部强烈的电磁干扰),设备某些单板的异常工作状态(如业务中断、MCC通信中断等),
可能伴随相应的告警,也可能没有任何告警,检查各单板的配置数据可能也是
完全正常的。

此时,经验证明,通过复位单板、重新下发配置数据或将业务倒
换到备用通道等手段,可有效地及时排除故障、恢复业务。

经验处理法不利于故障原因的彻底查清,除非情况紧急,否则应尽量避免使用。

当维护人员遇到难以解决的故障时,应通过正确渠道请求技术支援,
尽可能地将故障定位出来,以消除隐患。

4 故障处理常用工具
4.1 Telnet命令登录检查
在PTN设备中可以在服务器上通过telnet命令登录到设备侧,在特权模式或者诊断模式下进行设备问题的查询。

1. 登录PTN设备
telnet IP地址;
用户名和密码zte/ecc(也可以使用用户名who/密码who进登录进入到查询模式下,然后输入enable/zxr10登录到特权模式进行查看)。

2. 进入诊断模式
在特权模式下,输入diag/zxr10
5 故障反馈方式和信息说明
5.1 故障反馈方式
1. 可以拨打800热线电话申报故障;
2. 以邮件的方式给故障接口人反馈故障;
3. 在技术支持网站登记故障单;
5.2 信息说明
现场的故障处理人员在遇到需要远程支持人员或研发人员帮助分析故障时,应该按照故障信息采集模板的要求提供故障的详细情况。

相关文档
最新文档