中兴交换机故障分析诊断
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
.专业整理.
.学习帮手. ZXJ10交换机故障预防中兴通讯网络事业部南京用服部
.专业整理.
.学习帮手. 目录
1. 病毒感染 (3)
2. 网络风暴 (4)
3. 传输故障 (5)
4. 对端设备问题 (6)
5. 雷击 (7)
6. 日常维护 (7)
6.1 服务器C盘空间不足 (7)
6.2 服务器数据库空间不足 (8)
6.3 数据未及时备份 (9)
6.4 数据未及时转储 (9)
6.5 机房环境不符合要求 (10)
6.6 线缆松动 (11)
7. 机房停电 (11)
8. 误操作 (13)
8.1 数据配置误操作 (13)
8.2 硬件操作不规范 (14)
9. 未购买维保服务 (14)
前言
随着消费者对通讯服务要求的日益提高,要求我们的通讯设备能够稳定运行,并且在出现业务中断后能迅速恢复。
目前很多故障是由于没有很好的预防导致的,如果能够进行有效预防,则可以大大降低故障发生的概率,并且即使在故障发生以后,也能尽快的恢复业务。下面对常见的会引起重大故障的情况以及预防措施进行介绍,希望能给各个局予以参考。
1.病毒感染
故障现象:
1.服务器或操作终端反应速度慢,无法正常操作;
2.后台程序无法正常运行,报错,或自动退出;
3.计费服务器不能正常登录或计费进程不接收话单,导致立即计费、IP超市不能正常使用;
4.鉴权服务器不能提供实时的服务,造成鉴权、拦截等业务呼叫失败;
5.破坏数据库,尤其是计费库,使数据丢失;
6.话务台、网管前置机等后台终端不能正常使用。
7.计算机自动重启。
影响范围:
1.影响计算机的正常操作,不能进行正常的日常维护;
2.影响实时的业务,如立即计费、鉴权等。
3.影响到话务台、网管前置机等终端。
预防措施:
1.安装中兴通讯指定的防病毒软件,并定期更新病毒库,定期进行全盘病毒扫描;
2.操作系统、数据库打最新的补丁;
3.安装中兴通讯自主研发的网络安全软件,对关键程序、系统进程实时监控,防止病毒感染;
4.后台网络与大网隔离,防止外网病毒入侵;
5.不在ZXJ10后台维护网络上安装、使用其它无关软件;
6.不使用其它媒介(U盘、移动硬盘、软盘等)对服务器和终端进行操作;
7.定期作好数据备份,包括交换机数据和计费设置数据等,以便万一出现故障后能够进行迅速恢复;
8.加强机房操作维护人员管理,强化防病毒意识。
案例1:
现象:XX局ZXJ10V10交换机的IP前置机计费操作失败,影响结算。
处理:检查发现前台积累大量的话单文件,无法完全及时的传送到后台,并且后台话单文件无法进行入库操作,后台计算机反应速度非常慢。经过检查是因为计费服务器感染病毒引起的,该病毒的名字是wom.lovegate,通过杀毒,故障恢复!
点评:该故障就是因为没有做好防病毒工作导致的,由于本局没有立即计费、IP超市、鉴权等实时业务,因此影响还不是很大,只是影响了正常结算和话单及时接收,如果存在上述业务,则影响就很大了,因此平时必须做好病毒预防工作。
案例2:
现象:XX局ZXJ10V10交换机的计费服务器出问题,影响8个点的话吧业务。
处理:经检查,是由于计费服务器染病毒不能正常启动,立即计费终止,话吧用户不能正常使用,杀毒后正常。
点评:这是一起有实时计费业务的案例,对业务的影响就比较大,话吧无法营业。2.网络风暴
故障现象:
1.交换机前后台不能正常通信。
2.前台MP自动重起;
3.MP的CPU占用率高,呼叫困难;
4.计算机速度慢,终端不能从服务器获得数据,或获取数据的速度很慢。
影响范围:
1.前后台通讯;
2.前台MP;
3.后台服务器及操作终端。
预防措施:
1.后台网络与大网隔离,防止广播风暴;
2.作好防病毒工作。
3.操作系统、数据库打最新的补丁;
案例:
现象:XX局ZXJ10交换机MP不能正常启动。
处理:询问现场情况,两个MP均不能正常启动,和服务器通讯中断,将后台网络断开并重启MP后,正常。
点评:事后经分析相关跟踪文件,发现是网络风暴引起的,该交换机的后台维护系统与其它网络相连,当有网络风暴产生时,会直接影响到MP与后台的通讯,并影响到MP本身的工作。
3.传输故障
故障现象:
1.模块间通信中断;
2.模块间通信瞬断;
3.远端用户单元通信阻断;
4.局间业务中断;
5.模块间、局间电话杂音等。
影响范围:
1.模块间电话业务;
2.局间电话业务。
预防措施:
1.加强传输设备的定期检查维护,对于隐患要及时排除;
2.对传输设备进行割接或维护后,要立即对经过该传输设备的所有业务进行测试,及时排除故障,消除隐患;
3.电话用户出现业务故障后,不仅要检查交换设备,还要迅速检查传输设备,以减少影响的时间;
4.在作传输设备割接等工作前,通知到相关的设备主管部门,以做好防范和通信保障措施。
案例1:
现象:XX分公司XX端局ZXJ10下挂一个模块中断,影响约五百用户。
处理:经过了解现场情况,该中断的模块内用户可以互相拨打,DTI板状态正常,在DDF 上给DTI环回也正常。查传输通道有问题,处理后,模块间通信恢复
点评:由于现场及时检查了传输,使得问题较快定位。
案例2:
现象:XX局ZXJ10反映拨打一个局向电话不通。
处理:局内可以正常拨打,该局向电话不能呼入呼出。经查,系传输中断,处理后,恢复正常。
点评:这是一起传输问题引起局间电话不通的案例,因此,首先保障传输安全,才能保障通信畅通。
4.对端设备问题
故障现象:
1.对端误操作,数据配置错误,导致业务不通;
2.对端设置了电路闭塞,导致中继不通;
3.对端做了电路自环,影响中继业务和信令;
4.对端做了升级、重组网、搬迁等中断业务的操作,影响本端业务。
影响范围:
视对端的操作情况而影响不一样,可能会影响本端部分用户,或某个局向的电话业务。
预防措施:
1.在修改数据时要考虑到对各邻接局向的影响;
2.在某个局进行设备割接、升级等工作前,能够通知到其它各邻接局,使各方能有所准备;
3.出现故障后,及时与对端局沟通,双方配合,缩短中断时间。
案例:
现象:XX局某个局向业务中断
处理:经了解该局出中继为PRA,对端局做数据时将对应PRA中继的30B+D用户置为欠费。让对端局将该30B+D用户欠费标志取消后正常。
点评:这是一起对端误操作的案例,在这起案例中,对端局在修改数据时没有考虑到对其它局的影响(也可能是误操作),从而导致电话不通,因此在做数据时要考虑到对邻接局