PTN网元告警分析
烽火PTN设备常见告警解析
目录
• PTN设备简介 • 常见告警分类 • 告警解析及处理 • 案例分析 • 总结与建议
01 PTN设备简介
PTN设备定义
PTN(Packet Transport Network)设备是一种用于传输数据包(如IP、MPLS) 的网络设备,它提供了一种可靠的、低延迟的、高带宽的数据传输解决方案。
02
软件更新通常会修复已知的bug,提高设备的稳定性和安全性, 因此建议用户及时更新。
03
在进行软件更新之前,建议备份重要数据,以防更新过程中 出现意外导致数据丢失。
加强网络监控与维护
建立完善的网络监控体系,实时监测烽火ptn设备 的运行状态和网络流量。
对于异常流量和告警信息,及时进行分析和处理, 确保网络稳定运行。
PTN设备基于分组交换技术,支持多种数据业务,如IP/MPLS、以太网、TDM等 ,能够满足不同业务的需求。
PTN设备功能
高速数据传输
PTN设备支持高速数据传输,能 够提供高带宽、低延迟的数据传
输服务。
可靠性
PTN设备具备较高的可靠性,支持 快速的保护切换和恢复机制,能够 保证数据传输的稳定性和可靠性。
01
网络连接断开告警
设备网络连接断开,无法进行通信。
丢包告警
设备在网络传输过程中出现数据包 丢失现象。
03
02
网络延迟告警
设备网络传输延迟较高,影响数据 传输效率。
IP地址冲突告警
设备IP地址与其他设备冲突,导致网 络通信异常。
04
03 告警解析及处理
硬件告警解析及处理
硬件故障告警:设备硬件故障,如风扇 、电源、板卡等,可能导致设备运行异 常。
华为OptiX PTN950告警分析法
告警分析法是定位故障的常用方法之一。
当设备发生故障时,一般会伴随大量的告警。
通过对告警的分析,可大概判断出发生故障的类型和位置。
通过U2000查询华为OptiX PTN950告警
只要在U2000主拓扑的网元图标上点击右键,就可以查询以下告警信息:
●当前告警
●网元侧历史告警
●网管侧历史告警
具体操作请参见查询华为OptiX PTN950网元当前告警。
通过分析、定位告警产生的原因,清除告警,并排除故障。
注意:
通过U2000获取告警信息时,应注意保证网络中各网元的当前时间与网管时间同步。
倘若网元当前时间与网管时间不同步,将导致信息上报错误。
在维护过程中,对某网元重下配置后,应特别注意将该网元的当前时间与网管时间同步。
否则网元会工作在缺省时间里,而缺省时间并不是当前时间。
烽火PTN设备常见告警解析
可编辑ppt
6
E1J1单盘告警原因及检查
名称:CONTEXT_FAIL
中文解释:建链失败
原因:单盘未正常运行或者仿真芯片没有正常工作
检查方法:
➢ 1、检查单盘配置; ➢ 2、读取E1J1状态、性能,看E1仿真是否正常运行; ➢ 3、软件复位; ➢ 4、插拔单盘; ➢ 5、替换单盘。
可编辑ppt
➢ 1、相应槽位是否有单盘; ➢ 2、相应槽位单盘是否插好; ➢ 3、相应槽位单盘是否工作正常。
可编辑ppt
10
ESJ1单盘告警及解释
可编辑ppt
11
ESJ1单盘告警原因及检查
名称:POWERALM
中文解释:电源故障告警
原因:电源模块的输出出现过压或欠压
检查方法:
➢ 1、读取ESJ1单盘状态、性能,核对相应软硬件版本; ➢ 2、软件复位ESJ1单盘; ➢ 3、插拔单盘; ➢ 4、替换单盘。
可编辑ppt
12
ESJ1单盘告警原因及检查
名称:LINK_LOS 中文解释:链路信号中断 原因:以太网接口接收信号中断 检查方法:
➢ 1、检查网线是否接好; ➢ 2、检查单盘与交叉盘的GE口工作模式是否一致。
可编辑ppt
13
ESJ1单盘告警原因及检查
名称:PK_LOS 中文解释:丢包率过限 原因:交换机内的丢包数超过了设定的门限值 。 检查方法:
PTN设备常见告警解析
可编辑ppt
1
E1J1单盘告警及解释
可编辑ppt
2
E1J1单盘告警原因及检查
名称:POWERALM 中文解释:电源故障告警 原因:1.2V 1.5V 1.8V 2.5V 3.3V 5V任何一路检测到电源值不在设
华为PTN告警处理规范
华为PTN告警处理规范1.ETH_LOS告警解释:ETH_LOS为以太网端口连接丢失告警。
该告警表示以太网端口接收不到以太网信号。
产生原因:以太网端口的电缆或光纤没有连接好。
电缆或光纤故障。
本端网元接收光功率过低。
单板故障。
处理步骤:检查以太网端口的电缆或光纤是否接好,插紧松脱的电缆或光纤。
检查电缆或光纤是否存在故障,更换故障的电缆或光纤。
检查法兰盘或光衰减器是否连接正确,光衰减器的衰减值是否过大。
更换上报告警的处理板。
若告警未消除,更换对端网元对应的处理板。
2.MPLS_TUNNEL_LOCV告警解释:MPLS_TUNNEL_LOCV为Tunnel连通性丢失告警。
连续3个周期内没有收到希望的CV/FFD报文时出现此告警。
产生原因:PW对端停止CV/FFD。
物理链路故障。
PW对端单板正在复位。
业务接口配置错误。
网络出现严重拥塞。
处理步骤:在网管上查看PW对端是否停止了CV/FFD。
在网管上检查该链路两端网元是否存在单板或光模块相关的告警。
若告警未清除,查看光纤或电缆是否故障,更换故障的光纤或电缆。
在网管上检查对端单板是否上报COMMUN_FAIL告警。
若存在,说明对端单板可能正在复位。
清除COMMUN_FAIL告警后,查看本告警是否清除。
对照网元规划表,在网管上查看业务接口是否配置错误。
如果是,重新配置业务接口后,查看告警是否消除。
检查故障Tunnel的带宽是否已被完全占用。
如果是,增大Tunnel带宽配置或消除非法发送大数据量的根源。
查看告警是否清除。
3. BD_STATUS告警解释:BD_STATUS为物理单板离线告警。
当用户在网管上配置了逻辑单板而物理子架上却没有插入实际单板时就会上报此告警。
产生原因:单板正在硬复位。
单板未插上,或单板插上,但与母板接触不良。
板间通讯故障。
处理步骤:在网管的“运行态”槽位视图中查看该单板的工作状态是否为蓝色,若是,则该单板处于硬复位状态。
等待3至5分钟,该单板的工作状态转成绿色后,查看本告警是否消除。
华为PTN告警处理规范
对照网元规划表,在网管上查看业务接口是否配置错误。如果是,重新
配置业务接口后,查看告警是否消除。
检查故障Tunnel的带宽是否已被完全占用。如果是,增大Tunnel带宽 配置或消除非法发送大数据量的根源。查看告警是否清除。
3.
告警解释:BD_STATU为物理单板离线告警。当用户在网管上配置了逻辑单
板而物理子架上却没有插入实际单板时就会上报此告警。
在网管上查看两端端口是否存在LOOP_AL告警,若存在,优化清除LOOP_AL告警后,查看本告警是否清除。
对照网元规划表, 查看上报告警的端口是否错插了纤缆, 造成两端端口工 作模式不一致。
在网管上查看两端网元的相关单板是否存在HARD_BA等硬件类告警。若 存在,更换存在硬件类告警的单板后,查看本告警是否清除。
产生原因:
单板正在硬复位。
单板未插上,或单板插上,但与母板接触不良。
板间通讯故障。
处理步骤:
在网管的“运行态”槽位视图中查看该单板的工作状态是否为蓝色,若 是,则该单板处于硬复位状态。等待3至5分钟,该单板的工作状态转 成绿色后,查看本告警是否消除。
检查相应槽位的单板是否插入。若未插入,请插入相应物理单板,告警 将自动清除。 检查单板与母板是否接触良好, 母板连接器的导针是否歪 斜。修正歪斜的导针,重新插拔单板使之与母板良好接触,告警将自动 清除。
PTN告警处理情况
恢复设备供电或修复链上设备的光缆后消除
未处理自行恢复 恢复设备供电或修复链上设备的光缆后消除 未处理自行恢复
直接清除告警
检测现网设备电源正常,怀疑为误报,已告知中移和华为人员进行检查分析, 部分告警自行恢复 现网检查告警均为LTE业务的工作或保护PW 失效导致,目前检查处理约20条 业务后发现重新配置业务的TUNNEL并更换至PW 后可消除告警,但原 TUNNEL也正常。部分告警自行恢复或闪报。需要华为进行分析故障原因 检查PW 中断原因并处理,多为光缆或停电导致的TUNNEL中断故障导致 未处理自行恢复 处理MPLS_PW_LOCV、PW_APS_DEGRADED、PW_APS_OUTAGE等告 警后消除
次要 次要 重要 次要 重要 紧急 重要 重要 总数
安全管理员组用户修改其他用户密码告警 任务执行失败告警 数据库备份 数据库表记录数达到阈值 数据库日志异常 数据库占用率过高告警(次要) 数据库自增长失效 隧道组断开 总数
告警原因 网管服务器提示告警---性能值越限事件日志越限
TUNNEL两端设备的一端不支持MPLS OAM Y.1731模式
设备掉电导致的设备通信中断或脱管
网元反复复位5次上报该告警 设备掉电导致的设备通信中断或脱管 输出光功率过高或过低
网元默认密码未修改的提示告警
设备电源模块故障或只接一路电源
带保护业务的工作或保护业务中断导致保护降级
PW APS保护业务中的一条PW 中断 PW APS保护业务的主备通道均中断 PW APS保护业务未配置保护通道,现网告警多为 MPLS_PW_LOCV、PW_APS_DEGRADED、 PW_APS_OUTAGE的伴随告警
联系华为人员后反馈不影响业务,可直接清除,彻底解决需要软件升级
烽火-PTN设备常见告警解析).
E1J1单盘告警原因及检查
名称:CONTEXT_FAIL 中文解释:建链失败
原因:单盘未正常运行或者仿真芯片没有正常工作
ESJ1单盘告警原因及检查
名称:PTP_LOS 中文解释:PTP同步丢失
原因:PTP同步丢失 。
检查方法:本地和对端PTP设置是否匹配。
ESJ1单盘告警原因及检查
名称:RX_ERR 中文解释:收坏包过限 原因:交换机接收到的坏包数超过了设定的门限值。 检查方法:检查网管界面上端口的收发包数和门限设置。
GSJ2单盘常见告警及解释
告警名称 POWERALM LINK_LOS TF TMC_LOC TMP_LOC TMS_LOC SCK_LOC TEMP_TCT 中文解释 电源故障告警 连接信号丢失 发送失效 TMC连接确认信号丢失 TMP连接确认信号丢失 TMS连接确认信号丢失 系统时钟丢失 机盘温度过限
GSJ2单盘告警原因及检查
名称:TF
中文解释:发送失效
原因:千兆以太网光模块发送信号失效 检查方法:
ESJ1单盘告警原因及检查
名称:POWERALM 中文解释:电源故障告警
原因:电源模块的输出出现过压或欠压
检查方法:
1、读取ESJ1单盘状态、性能,核对相应软硬件版本; 2、软件复位ESJ1单盘; 3、插拔单盘; 4、替换单盘。
ESJ1单盘告警原因及检查
名称:LINK_LOS 中文解释:链路信号中断
PTN设备常见告警解析
烽火-PTN设备常见告警解析)共50页文档
ESJ1单盘告警原因及检查
名称:PK_LOS 中文解释:丢包率过限 原因:交换机内的丢包数超过了设定的门限值 。 检查方法:
➢ 1、检查网管界面上端口的收发包数; ➢ 2、检查单盘配置中门限设置。
ESJ1单盘告警原因及检查
➢ 1、插拔端子板; ➢ 2、替换端子板; ➢ 3、更换E1J1及IEJ1的槽位。
E1J1单盘告警原因及检查
名称:CONTEXT_PACKET_ LOS
中文解释:本端链路包丢失
原因:
➢ 1、网络环境震荡; ➢ 2、单盘缓存工作不正常; ➢ 3、恢复出来的TDM时钟锁定状态不好。
检查方法:
➢ 1、通过状态监视查看混存里面的包数是否正常; ➢ 2、查看交叉配置是否正确; ➢ 3、查看时钟锁定状态。
原因:电源模块的输出出现过压或欠压
检查方法:
➢ 1、读取ESJ1单盘状态、性能,核对相应软硬件版本; ➢ 2、软件复位ESJ1单盘; ➢ 3、插拔单盘; ➢ 4、替换单盘。
ESJ1单盘告警原因及检查
名称:LINK_LOS 中文解释:链路信号中断 原因:以太网接口接收信号中断 检查方法:
E1J1单盘告警原因及检查
名称:CARD_ABSENT 中文解释:盘不在位 原因:单盘没有上网管 检查方法:
➢ 1、相应槽位是否有单盘; ➢ 2、相应槽位单盘是否插好; ➢ 3、相应槽位单盘是否工作正常。
ESJ1单盘告警及解释
Hale Waihona Puke ESJ1单盘告警原因及检查
名称:POWERALM
中文解释:电源故障告警
原因:单盘未正常运行或者仿真芯片没有正常工作
检查方法:
烽火PTN设备常见告警解析
E1J1单盘告警原因及检查
名称:CONTEXT_FAIL 中文解释:建链失败 原因:单盘未正常运行或者仿真芯片没有正常工作 检查方法:
1. 线路口没有和对端link; 2. 系统口没有和交叉盘link。
检查方法:
1. 线路口时,检查光模块是否有问题,光纤是否有折断,对端的线路口是否有问题,可以用 光纤自环检测;
2. 系统口应该检测交叉盘是否正常工作。
XSJ2单盘告警原因及检查
名称:PK_LOS 中文解释:丢包率过限 原因:当丢包数超过网管配置的告警门限时告警 检查方法:
1. 查看“全局配置块”中的性能门限值; 2. 检查是否有插拔光纤; 3. 检查是否有交叉盘复位。
XSJ2单盘告警原因及检查
名称:PTP_LOS 中文解释:PTP同步丢失 原因:单盘做线路盘时,某条线路link_los或者线路收无光,如果该线路PTP功能打开
,那么这条线路会上报PTP_LOS告警 检查方法:
XSJ2单盘告警原因及检查
名称:TEMP_TCT 中文解释:盘温过限 原因:单盘温度超过网管设置的温度告警门限值 检查方法:
1. 检查网管界面设置的温度告警门限值,可能设置的告警门限太小; 2. 检查机架风扇是否停转; 3. 检查单盘硬件、软件版本是否和网管软件版本匹配。
XSJ2单盘告警原因及检查
1. 此线路是否link_los; 2. 此线路是否收无光; 3. 是否配置了PTP。
XSJ2单盘告警原因及检查
名称:CRC_ERR 中文解释:CRC校验错 原因:如果某端口收到CRC校验错包数超过网管“全局配置块”中设置的“校验错门
PTN 告警分析与建议
是否要下 站点 否 否
处理结果
是 否 否
是
2011-10-26
华为机密,未经许可不得扩散
第2页,共2页
66225048.xls
文档密级:
告警名 DCNSIZE_OVER LAG_MEMBER_DOWN DCN域过大
可能原因
成员端口不能激活也不能作为备用时,上 报此告警,指示原因
ETH_APS_LOST SWDL_PKGVER_MM SWDL_ROLLBACK_FAIL
1、对方没有配置保护; 2、保护通道业务中断; 软件包描述文件中描述的软件版本信息和 实际的软件文件版本信息不一致 网元回滚时有板回滚失败 1、本端物理端口故障; 2、本端没有接收到对端的OAM报文; 3、两端的OAM11-10-26
华为机密,未经许可不得扩散
第1页,共2页
66225048.xls
文档密级:
处理意见 升级SPH505补丁,之后如果还报告警,则 要缩减DCN域 1)检查对端是否配置了保护组,修改配置, 保持两端配置一致; 2)检查保护通道是否存在故障,消除保护通 道的故障; 重新进行一次包加载 重新进行一次包加载 1)检查物理链路是否正常,更换出故障的器 件(比如光纤/单板/光模块等); 2)检查对端设备是否使能了P2P OAM协议, 修改配置,两端配置保持一致;
PTN常见故障及告警处理
结束
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 16
ETH业务故障常见现象
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 17
ETH业务故障常见原因
原因1:单板硬件故障、温度过高或板间通信故障,无法正常工作。 原因2:接收信号丢失。 原因3:以太网网口连接错误,端口协商失败。 原因4:端口配臵了环回。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 19
目录
1
常见故障定位流程 业务故障定位
2
3 4 5 6 7 8
Tunnel故障定位
链路故障定位 保护故障定位 时钟故障定位 带内DCN故障定位 硬件常见告警
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 15
ETH业务故障定位流程
开始 有HARD_BAD/ FPGA_ABN/COMMUN_FAIL/ BD_STATUS单板故障告警? 是 复位/更换单板 ETH 业务恢复? 是
否
否
有R_LOS(光纤接入)/ ETH_LOS( 网线接入) 告警?
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential Page 11
CES业务常见告警(二)
CES_LOSPKT_EXC——CES业务丢包告警 原因1:时钟未同步。 原因2:CES业务两端网元参数配臵不一致。 原因3:Tunnel或PW带宽配臵过低,链路拥塞。 原因4:电缆、光纤或光模块故障导致链路信号变差或中断。
传输常见告警分析及处理
E1端口常见告警
ALM_E1RAI——对端网元E1链路告警
➢ 可能原因:
原因1:对端网元的E1链路上报T_ALOS、LFA、LMFA、UP_E1_AIS或DOWN_E1_AIS告 警,本端网元收到对端网元下插的告警指示ALM_E1RAI。 原因2:物理链路中断。
➢ 处理方法:
步骤1:检查对端网元的E1链路是否存在T_ALOS、LFA、LMFA、UP_E1_AIS或 DOWN_E1_AIS告警,若存在,优先清除对端网元上的告警后,查看本告警是否消 除。 步骤2:查看物理链路是否存在中断。若存在,修复中断的物理链路。
BTS 1 CES
10G/GE
PTN
GE/FE MPLS BTS 2 CES PTN
BTS 3 ETH
10G/GE PTN
PTN
MPLS
PTN
STM-1
PTN BSC
STM-1
PTN
BSC
故障原因: 故故(障1障)光原原纤因因断:;:(2)光模块坏;(3)光衰减过大;
M两A端C层工检作测模到式误不码一越致限,;造线成路协信商号失劣败化;;电光缆纤、性光能纤劣连化接;或光者口对不端洁设净备故障。
PTN设备ETH端口告警 PTN设备SDH及E1端口告警 PTN设备硬件常见告警 PTN设备其他常见告警 PTN业务故障与告警对应关系
硬件常见告警
HARD_BAD——硬件故障告警
➢ 可能原因:
原因1:外接电源失效。 原因2:单板与母板未良好接触。 原因3:单板硬件故障。 原因4:若接口板上报HARD_BAD告警,可能是对应的处理板出现故障。
(对1端)有E1告/T警1业;务未接入; (2)DDF架侧E1/T1接口输出端口脱落或松动; (3)本站E1/T1 接口输入端口脱落或松动; (4)单板故障; (5)电缆故障
苏州移动PTN全网告警分类处理建议
BD_STATUS COMMUN_FAIL FAN_FAIL POWER_ABNORMAL BUS_ERR
HARD_BAD PW_DOWN DOWN_E1_AIS ETH_LINK_DOWN ETH_LOS IN_PWR_ABN LTI MAC_FCS_EXC R_LOS T_ALOS TU_LOP_VC12
硬件问题
检查单板是否插入相应槽位,若存在单板仍有告警,核查单板与母板是否良好接触
或更换单板
硬件问题
检查两端PW配置是否一致,检查网络是否出现严重拥塞
传输问题
检查E1链路故障
传输问题
检查以太链路连接和端口工作模式设置
端口告警
检查物理端口,若端口空闲则可关闭端口或者反转该类告警即可
端口告警
检查收光功率是否正常
关注问题,清理该类告警 关注问题,清理该类告警 关注问题,清理该类告警 关注问题,清理该类告警
TEMP_OVER THUNDERALM
关注问题,清理该类告警 关注问题,清理该类告警
CES_JTRUDR_EXC GNE_CONNECT_FAIL CLK_NO_TRACE_MODE EXT_SYNC_LOS SYNC_C_LOS SYNC_FAIL LASER_MOD_ERR HP_RDI HP_SLM
LMFA
关注问题,排查该类告警
LP_UNEQ_VC12
关注问题,排查该类告警
W_OFFLINE
关注问题,清理该类告警
TIME_NO_TRACE_MODE
关注问题,清理该类告警
TIME_LOCK_FAIL
关注问题,清理该类告警
SWDL_INPROCESS
Hale Waihona Puke 关注问题,清理该类告警SERVICE_OUTAGE
烽火-PTN设备常见告警解析
信号中断
检查方法:
➢ 1、检查有无输入光信号,检查输入光功率; ➢ 2、检查光纤是否折断; ➢ 3、拆下机盘,然后上电检查激光器是否工作正常。
GSJ2单盘告警原因及检查
名称:TF 中文解释:发送失效 原因:千兆以太网光模块发送信号失效 检查方法:
原因:电源模块的输出出现过压或欠压
检查方法:
➢ 1、读取ESJ1单盘状态、性能,核对相应软硬件版本; ➢ 2、软件复位ESJ1单盘; ➢ 3、插拔单盘; ➢ 4、替换单盘。
ESJ1单盘告警原因及检查
名称:LINK_LOS 中文解释:链路信号中断 原因:以太网接口接收信号中断 检查方法:
➢ 1、检查网线是否接好; ➢ 2、检查单盘与交叉盘的GE口工作模式是否一致。
ESJ1单盘告警原因及检查
名称:PK_LOS 中文解释:丢包率过限 原因:交换机内的丢包数超过了设定的门限值 。 检查方法:
➢ 1、检查网管界面上端口的收发包数; ➢ 2、检查单盘配置中门限设置。
ESJ1单盘告警原因及检查
➢ 1、插拔端子板; ➢ 2、替换端子板; ➢ 3、更换E1J1及IEJ1的槽位。
E1J1单盘告警原因及检查
名称:CONTEXT_PACKET_ LOS
中文解释:本端链路包丢失
原因:
➢ 1、网络环境震荡; ➢ 2、单盘缓存工作不正常; ➢ 3、恢复出来的TDM时钟锁定状态不好。
检查方法:
➢ 1、通过状态监视查看混存里面的包数是否正常; ➢ 2、查看交叉配置是否正确; ➢ 3、查看时钟锁定状态。
GSJ2单盘告警及解释(续)
GSJ2单盘告警原因及检查
名称:POWERALM 中文解释:电源故障告警 原因:电源模块输出电压过高或过低 检查方法:
PTN常见网络故障现象
PTN常见网络故障现象
带内DCN
∙检查网管上有网元图标变灰色,网元脱管。
∙网管操作命令没有响应。
若响应中断时间持续超过2分钟,网管与网元通信中断。
∙网管查询信息部分丢失。
MPLS Tunnel
∙查询系统中是否存在HARD_BAD、R_LOS、ETH_LOS、PPP_LCP_FAIL或MP_DOWN 等告警,指示Tunnel使用的物理链路故障。
若存在,优先处理这些告警。
∙查看并处理系统中存在的下列告警。
PW
∙检查PW首末节点间物理链路是否正常,系统中是否存在HARD_BAD、LASER_MOD_ERR、R_LOS或ETH_LOS等告警。
具体操作请参见在U2000上
查询当前告警。
∙若存在,优先处理HARD_BAD、LASER_MOD_ERR、R_LOS或ETH_LOS告警。
∙查询并处理系统中存在的PW_DOWN、PW_DROPPKT_EXC或PW_EXC_TRAFFIC 告警。
∙查看并处理系统中存在的下列告警。
以太网业务
能影响设备接入的其它业务。
线性MSP。
烽火-PTN设备常见告警解析)(精选)共51页文档
56、书不仅是生活,而且是现在、过 去和未 来文化 生活的 源泉。 ——库 法耶夫 57、生命不可能有两次,但许多人连一 次也不 善于度 过。— —吕凯 特 58、问渠哪得清如许,为有源头活水来 。—— 朱熹 59、我的努力求学没有得到别的好处, 只不过 是愈来 愈发觉 自己的 无知。 ——笛 卡儿
烽火-PTN设备常见告警解析)(精选)
16、人民应该为法律而战斗,就像为 了城墙 而战斗 一样。 ——赫 拉克利 特 17、人类对于不公正的行为加以指责 ,并非 因为他 们愿意 做出这 种行为 ,而是 惟恐自 己会成 为这种 行为的 牺牲者 。—— 柏拉图 18、制定法律法令,就是为了不让强 者做什 么事都 横行霸 道。— —奥维 德 19、法律是社会的习惯和思想的结晶 。—— 托·伍·威尔逊 20、人们嘴上挂着的法律,其真实含 义是财 富。— —爱献 生
拉
60、生活的道路一旦选定,就要勇敢地 走到底 ,决不 回头
苏州移动PTN全网告警分类处理建议
硬件问题
检查单板是否插入相应槽位,若存在单板仍有告警,核查单板与母板是否良好接触
或更换单板
硬件问题
检查两端PW配置是否一致,检查网络是否出现严重拥塞
传输问题
检查E1链路故障
传输问题
检查以太链路连接和端口工作模式设置
端口告警
检查物理端口,若端口空闲则可关闭端口或者反转该类告警即可
端口告警
检查收光功率是否正常
日志超限 网管问题 操作问题
关注问题,清理该类告警 关注问题,清理该类告警 关注问题,清理该类告警 关注问题,清理该类告警 关注问题,清理该类告警 关注问题,清理该类告警 关注问题,清理该类告警 关注问题,排查该类告警 关注问题,排查该类告警
HP_UNEQ
关注问题,排查该类告警
J0_MM
关注问题,排查该类告警
LFA
关注问题,排查该类告警
时钟问题
检查时钟配置
时钟问题
时钟源跟踪不上,检查跟踪链路的信号质量,或更换跟踪的时钟线路
时钟问题
所插光模块的类型与单板所支持的光模块类型不匹配;检查端口光模块配置
配置问题
表明对端网元处理板相应通道有业务级告警;核查对端网元告警
传输问题
检查光纤和开销字节C2的配置
配置问题
可能原因:1、对端网元的对应通道未配置业务,2、C2字节发送源网元发送的C2字
节为“0x00”;检查对端业务和C2字节配置
传输问题
检查两端J0开销字节配置是否一致,检查业务配置
传输问题
检查两端E1帧格式是否一致,检查是否单板故障
传输问题
检查两端E1帧格式是否一致,检查是否单板故障
传输问题
检查两端V5字节配置是否一致,检查是否PDH侧未接入业务
PTN告警总结
紧急告警1、ETH_LOS该端口无收光。
2、ETH_LINK_DOWN协商失败原因:两侧端口协商结果不一致,例如一侧为100M全双工,一侧为半双工;单通,光口收或发断。
一端端口报ETH_LOS,而另一侧报ETH_LINK_DOWN。
3、HARD_BAD设备检测到对应告警板位硬件故障4、LSR_NO_FITED未安装光模块5、LSR_WILL_DIE光模块老化告警。
即使用寿命。
6、MPLS_TUNNEL_LOCVTunnel层面告警。
该tunnel中断链路故障。
原因:断纤、链路拥塞等。
7、NE_COMMU_BREAK脱管告警。
网元与网管通讯中断。
8、NE_NOT_LOGIN网元未登陆。
用户未登陆该网元;用户登陆失败;通讯中断。
9、OUT_PWR_ABN输出光功率异常。
单板故障或光功率过高、过低。
10、SWDL_NEPKGCHECK软件问题。
重要告警1、BD_STATUS单板不在位。
2、CFCARD_FAILED对CF卡操作失败而产生的告警CF卡故障;主控故障。
3、CLK_LOCK_FAIL时钟同步失败。
或者上游站未配置时钟,可能产生两侧断纤引起4、COMMUN_FAIL当主控板和其他单板之间的通讯中断时就会上报此告警。
可能单板在处于复位状态。
5、CPU_BUSY当主控板检测到CPU占用率超过上门限时,即上报此告警。
6、DCNSIZE_OVER(PTN-3900)当网关网元的主控板检测到DCN子网内非网关网元的数量超过上限值时,即上报此告警。
7、ETH_APS_SWITCH_FAIL表示保护倒换失败告警。
当端口发送的APS(Automatic Protection Switching)帧中请求信号与收到的APS帧中桥接信号不一致并达到50ms时,表示倒换失败,上报该告警。
(tunnel层面工作和保护同时中断发生倒换失败)8、ETH_APS_TYPE_MISMATCHETH_APS_TYPE_MISMATCH为保护类型信息不一致告警。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
NE_NOT_LOGIN告警解释NE_NOT_LOGIN表示网元未登录。
可能原因∙原因1:网元与网管通讯中断。
∙原因2:用户退出登录或登录失败。
处理步骤∙原因1:网元与网管通讯中断。
解决网元与网管通讯中断方法,参见NE_COMMU_BREAK。
∙原因2:用户退出登录或登录网元失败。
以其他正确的网元用户登录网元。
∙查看告警是否结束,若未结束,请进行下一步。
∙如果故障依然存在,请联系华为工程师。
MPLS_TUNNEL_LOCV告警解释MPLS_TUNNEL_LOCV为Tunnel连通性丢失告警。
连续3个周期内没有收到希望的CV/FFD报文时出现此告警。
对系统的影响∙该告警产生时,会触发MPLS APS倒换,将业务倒换到保护Tunnel。
∙MPLS_TUNNEL_FDI告警将抑制MPLS_TUNNEL_LOCV告警的上报。
可能原因告警MPLS_TUNNEL_LOCV产生的可能原因如下:∙原因1:Tunnel的Ingress节点停止CV/FFD。
∙原因2:物理链路故障。
∙原因3:Ingress节点的单板正在复位。
∙原因4:业务接口配置错误。
∙原因5:网络出现严重拥塞。
∙原因6:CPU占用率饱和,无法处理ARP协议报文。
处理步骤∙原因1:Tunnel的Ingress节点停止CV/FFD。
1.在网管上分别进入上报告警的Tunnel的Ingress节点和Egress节点的“网元管理器”,在功能树中选择“配置 > MPLS管理 > 单播Tunnel管理”。
选择“OAM参数”选项卡。
2.查看两端的“检测方式”和“检测报文类型”参数配置是否一致。
3.查看Ingress节点的“CV/FFD状态”参数。
原因2:物理链路故障。
1.在网管上查看Egress节点是否存在HARD_BAD、ETH_LOS或ETH_LINK_DOWN告警,具体操作请参见在U2000上查询当前告警。
∙原因3:Ingress节点的单板正在复位。
1.在网管上查看Ingress节点是否存在COMMUN_FAIL告警。
∙原因4:接口配置错误。
1.对照网元规划表,查看Tunnel是否配置在正确的接口之上,例如查看下一跳IP地址。
原因5:网络出现严重拥塞。
1.检查故障Tunnel的带宽是否已被完全占用。
2.可选:对于动态Tunnel,查看业务路由是否经过了带宽较低的物理链路。
∙原因6:CPU占用率饱和,无法处理ARP协议报文。
1.在网管上查看是否存在CPU_BUSY告警。
2.如果存在,优先清除CPU_BUSY告警后,查看本告警是否清除。
ETH_LINK_DOWN告警解释ETH_LINK_DOWN为网口连接故障告警。
该告警表示以太网连接错误,端口协商失败。
对系统的影响∙在数据传输时,网口协商失败,无法接收数据,业务中断。
∙ETH_LOS告警将抑制ETH_LINK_DOWN告警的上报。
∙ETH_LINK_DOWN告警将抑制LAG_MEMBER_DOWN和MAC_FCS_EXC告警的上报。
可能原因告警ETH_LINK_DOWN产生的可能原因如下:∙原因1:本端网元和对端网元的端口工作模式不一致,造成协商失败。
∙原因2:端口内环回。
∙原因3:纤缆连接到错误的端口。
∙原因4:单板故障。
处理步骤∙原因1:本端网元和对端网元的端口工作模式不一致,造成协商失败。
1.在网管上查看两端网元的以太网端口工作模式是否一致。
2.若不一致,修改设置,使两端的端口工作模式一致后,查看告警是否清除。
具体操作请参见查询和设置以太网接口工作模式。
∙原因2:端口内环回。
1.在网管上查看两端端口是否存在LOOP_ALM告警,具体操作请参见在U2000上查询当前告警。
2.若存在,优化清除LOOP_ALM告警后,查看本告警是否清除。
∙原因3:纤缆连接到错误的端口。
1.对照网元规划表,查看上报告警的端口是否错插了纤缆,造成两端端口工作模式不一致。
2.重新正确连接纤缆,清除告警。
∙原因4:单板故障。
1.在网管上查看两端网元的相关单板是否存在HARD_BAD等硬件类告警。
2.若存在,更换存在硬件类告警的单板后,查看本告警是否清除。
具体操作请参见部件更换。
ETH_LOS告警解释ETH_LOS为以太网端口连接丢失告警。
该告警表示以太网端口接收不到以太网信号。
对系统的影响∙该告警产生时,以太网端口接收不到数据,业务中断。
∙LSR_NO_FITED和LASER_MOD_ERR告警将抑制ETH_LOS告警的上报。
∙ETH_LOS告警将抑制其它以太网业务的相关告警。
可能原因告警ETH_LOS产生的可能原因如下:∙原因1:以太网端口的电缆或光纤没有连接好。
∙原因2:电缆或光纤故障。
∙可选:原因3:本端网元接收光功率过低。
∙原因4:单板故障。
处理步骤∙原因1:以太网端口的电缆或光纤没有连接好。
1.检查以太网端口的电缆或光纤是否接好,插紧松脱的电缆或光纤。
∙原因2:电缆或光纤故障。
1.检查电缆或光纤是否存在故障,更换故障的电缆或光纤。
∙可选:原因3:本端网元接收光功率过低。
1.在网管上查看对端网元是否存在OUT_PWR_ABN告警。
若存在,优先清除该告警后,查看本告警是否清除。
具体操作请参见在U2000上查询当前告警。
2.若告警未清除,清洁接收光口及光纤头表面。
具体操作请参见检查及清洁光纤连接器。
3.若告警仍未消除,检查法兰盘或光衰减器是否连接正确,光衰减器的衰减值是否过大。
正确使用法兰盘或光衰减器。
4.若告警仍未消除,通过增减光衰减器调整光功率至正常范围内。
原因4:单板故障。
1.更换上报告警的处理板。
具体操作请参见部件更换。
2.若告警未消除,更换对端网元对应的处理板。
OUT_PWR_ABN告警解释OUT_PWR_ABN告警表示输出光功率异常。
对系统的影响该告警产生时,业务的传输性能受到影响,严重时会造成业务的中断。
可能原因告警OUT_PWR_ABN产生的可能原因如下:∙原因1:输出光功率过高或过低。
∙原因2:单板故障。
处理步骤∙原因1:输出光功率过高或过低。
1.更换上报告警的端口的光模块,查看告警是否清除。
具体操作请参见更换可插拔光模块。
∙原因2:单板故障。
1.更换上报告警的单板,查看告警是否清除。
具体操作请参见部件更换。
SWDL_NEPKGCHECK告警解释SWDL_NEPKGCHECK告警表示包加载软件包中某个文件丢失或校验通不过且无法修复。
主机在软件包文件巡检时发现文件丢失或校验通不过时,会自动从其它区的完整软件包进行修复,如果无法修复即上报此告警。
对系统的影响∙该告警产生时,网元将不能完成包加载操作。
∙若主机在软件包文件巡检时发现文件完整,没有丢失,告警将自动清除。
可能原因SWDL_NEPKGCHECK告警产生的原因如下:文件类型不匹配或丢失。
处理步骤∙原因:文件类型不匹配或丢失。
1.检查文件类型是否匹配、文件是否有丢失,如存在不匹配或丢失,重新下载匹配的软件。
2.重新进行软件包加载,更新软件包,查看告警是否清除。
具体操作请参见《升级指导书》。
NE_COMMU_BREAK告警解释网元与网管通讯中断。
对系统的影响无法在网管上管理该网元。
可能原因∙原因1:该网元所属的网关网元无法与网管通讯,导致该网元通讯失败。
∙原因2:该网元主控故障。
∙原因3:该网元与网关网元之间的光纤故障。
∙原因4:网络规模过大,导致网元间ECC通信的规模超过网元处理能力的极限。
处理步骤∙原因1:该网元所属的网关网元无法与网管通讯,导致该网元通讯失败。
1.检查该网关网元是否上报GNE_CONNECT_FAIL告警,若上报该告警,请先结束该告警,参见GNE_CONNECT_FAIL的告警解决方法。
2.在网管上查看当前告警,检查该告警是否结束。
如果告警不能结束,继续下一步。
∙原因2:该网元主控故障。
查看SCC单板面板上的指示灯,若指示灯显示异常,说明SCC单板故障。
具体指示灯对应的状态参见表1。
复位SCC单板,若无效,则更换SCC单板。
具体操作参见相应设备的《部件更换》“更换SCC单板”。
∙原因3:该网元与网关网元之间的光纤故障。
用OTDR仪表测量光纤,通过分析仪表显示的线路衰减曲线判断是否断纤,并判断断纤大致的位置。
若线路出现断纤现象,则更换光纤。
∙原因4:网络规模过大,导致网元间ECC通信的规模超过网元处理能力的极限。
1.将网络规模过大的子网划分为若干个规模较小的子网。
说明:∙按分层、分域的管理原则,将相邻网络划分为同一个子网。
∙建议各子网内的网元数量小于或等于64个网元。
2.在各子网中选择适当的普通网元,并将其转换为网关网元。
说明:当子网中仍具有多个环路和链路时,将处于最多环路和链路的设备设置为网关网元,以避免大量的管理信息需要通过基于DCC这种窄带宽信道传送,从而减少DCN再次发生拥塞的可能性。
3.关闭冗余子网之间的ECC连接。
∙关闭通过扩展ECC(自动/人工)实现的ECC子网之间的互通。
∙关闭通过STM-N光/电口实现的ECC子网之间的互通。
如果故障依然存在,请联系华为工程师。
参考信息MAC_FCS_SD告警解释MAC_FCS_SD为MAC层检测到误码劣化越限告警。
软件定时检测MAC芯片接收字节数和误码字节数,计算误码是否超过劣化门限,超过设置的门限即上报此报警。
对系统的影响∙该告警产生时,业务性能下降,甚至中断。
可能原因告警MAC_FCS_SD产生的可能原因如下:∙原因1:线路信号劣化。
∙可选:原因2:输入光功率不正常。
∙可选:原因3:光纤头表面不清洁。
处理步骤∙原因1:线路信号劣化。
1.在网管上查看是否存在LOOP_ALM告警。
若存在,优先清除LOOP_ALM告警后,查看本告警是否清除。
具体操作请参见在U2000上查询当前告警。
2.若告警未清除,在网管上检查是否存在DOS攻击等。
若存在,消除非法发送大量数据的根源,查看告警是否清除。
3.若告警仍未清除,查看光纤或电缆是否存在故障。
更换故障的光纤或电缆后,查看告警是否清除。
∙可选:原因2:输入光功率不正常。
1.查看上报本告警的端口是否同时上报IN_PWR_ABN告警。
2.若存在,优先清除IN_PWR_ABN告警后,查看本告警是否清除。
∙可选:原因3:光纤头表面不清洁。
1.清洁光纤头表面和处理板接收光口。
具体操作请参见检查及清洁光纤连接器。
LSR_WILL_DIE告警解释LSR_WILL_DIE为激光器寿命即将终止告警。
该告警表示激光器不可用。
对系统的影响∙该告警产生时,业务会出现误码。
若不及时更换光模块,激光器损坏后,会导致业务中断。
∙LSR_NO_FITED和LASER_MOD_ERR告警将抑制LSR_WILL_DIE告警的上报。
可能原因告警LSR_WILL_DIE产生的可能原因如下:∙原因1:激光器老化。
∙原因2:单板的检测电路故障。