PTN常见故障及告警处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 19
目录
1
常见故障定位流程 业务故障定位
2
3 4 5 6 7 8
Tunnel故障定位
链路故障定位 保护故障定位 时钟故障定位 带内DCN故障定位 硬件常见告警
9
10
故障定位典型案例
参考文档
Huawei Confidential Page 5
HUAWEI TECHNOLOGIES CO., LTD.
CESGIES CO., LTD.
Huawei Confidential
Page 6
CES业务常见故障现象
HUAWEI TECHNOLOGIES CO., LTD.
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential Page 11
CES业务常见告警(二)
CES_LOSPKT_EXC——CES业务丢包告警 原因1:时钟未同步。 原因2:CES业务两端网元参数配臵不一致。 原因3:Tunnel或PW带宽配臵过低,链路拥塞。 原因4:电缆、光纤或光模块故障导致链路信号变差或中断。
臵较大的带宽,查看告警是否清除。 原因3:电缆、光纤或光模块故障导致链路信号变差。 检查并确认电缆或光纤与接口良好连接。清洁光纤或光模块后,查看告警是否清除。若告警未 清除,更换相应的电缆、光纤或光模块。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 15
ETH业务故障定位流程
开始 有HARD_BAD/ FPGA_ABN/COMMUN_FAIL/ BD_STATUS单板故障告警? 是 复位/更换单板 ETH 业务恢复? 是
否
否
有R_LOS(光纤接入)/ ETH_LOS( 网线接入) 告警?
是
检查输入光功 率,处理光纤或网 线问题
ETH 业务恢复?
是
否
否
有ETH_LINK_DOWN告警?
是
检查端口的配置, 包括端口属性,端 口工作模式等问题
ETH 业务恢复?
是
否
否
ETH业务配置错误?
是
重新配置ETH业务
ETH 业务恢复?
是
否
否
是否存在环回配置?
是
解除环回
ETH 业务恢复?
是
否
否
联系华为工程师 协助分析处理
Huawei Confidential
Page 14
CES业务常见告警(五)
CES_STRAYPKT_EXC——CES业务错包告警 原因1:CES业务两端网元参数配臵不一致。 原因2:光纤或电缆连接错误。
可能原因:
处理步骤: 原因1:CES业务两端网元参数配臵不一致。 在网管上查看CES业务两端网元参数配臵是否一致,例如“64K时隙”等。若 不一致,修改配臵参数,使两端一致。 原因2:光纤或电缆连接错误。 查看光纤或电缆是否存在连接错误。若存在,恢复正确的连接后,查看告警是 否清除。
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential Page 12
CES业务常见告警(三)
CES_MALPKT_EXC——CES业务畸帧告警 原因1:业务参数配臵错误,比如高阶通道。 原因2:Tunnel或PW带宽配臵过低,链路拥塞。 原因3:电缆、光纤或光模块故障导致链路信号变差或中断。
Page 3
故障定位信息收集
(1)该业务是创建后一直没有通,还是历史上通,突然间不通。 (2)该业务端到端的完整路径,包括源节点、目的节点、transt节点。 (3)完整的业务定位信息,包括业务ID,业务属性。 (4)业务的源宿端口信息。 (5)业务所在的Tunnel和PW信息。
(6)业务涉及的保护信息。
Huawei Confidential
Page 7
CES业务常见故障现象(续)
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 8
CES业务故障常见原因
原因1:单板硬件故障、温度过高或板间通信故障,无法正常工作。 原因2:处理板、接口板的接口接入的信号丢失或恶化。 原因3:承载CES 业务的Tunnel 或PW 中断。 原因4:网元的同步时钟源级别丢失,或同步时钟源丢失。 原因5:承载CES 业务的PW 在单位时间内丢包数、错包数或抖动缓冲 超过阈值。
2
3 4 5 6 7 8
9
10
故障定位典型案例
参考文档
Huawei Confidential Page 2
HUAWEI TECHNOLOGIES CO., LTD.
常见故障定位流程
业务 Tunnel 链路
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 13
CES业务常见告警(四)
CES_MISORDERPKT_EXC——CES业务包乱序告警 原因1:时钟未同步。 原因2:Tunnel或PW带宽配臵过低,链路拥塞。 原因3:电缆、光纤或光模块故障导致链路信号变差或中断。
可能原因:
处理步骤:
原因1:时钟未同步。 在网管上查询是否存在LTI告警或其它时钟相关告警,导致时钟没有同步,缓冲区入与出速率 不一致。 若存在,优先清除LTI告警和时钟相关告警后,查看本告警是否清除。 原因2:Tunnel或PW带宽配臵过低,链路拥塞。
(7)当前告警信息。 (8)各种相关性能计数(如业务涉及的端口性能计数,业务本身的性能 计数等)。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 4
目录
1
常见故障定位流程
2
3 4 5 6 7 8
业务故障定位
Tunnel故障定位 链路故障定位 保护故障定位 时钟故障定位 带内DCN故障定位 硬件常见告警
可能原因:
处理步骤:
原因1:时钟未同步。 在网管上查询是否存在LTI告警或其它时钟相关告警,导致时钟没有同步,缓冲区入与出速率不一致。 若存 在,优先清除LTI告警和时钟相关告警后,查看本告警是否清除。 原因2:CES业务两端网元参数配臵不一致。 在网管上查看CES业务两端网元参数配臵是否一致,例如“64K时隙”等。若不一致,修改配臵参数,使两 端一致。 原因3:Tunnel或PW带宽配臵过低,链路拥塞。 在网管上查看业务所在Tunnel或PW的带宽配臵是否过低。如果是,重新为该Tunnel或PW配臵较大的带宽, 查看告警是否清除。 原因4:电缆、光纤或光模块故障导致链路信号变差。 检查并确认电缆或光纤与接口良好连接。清洁光纤或光模块后,查看告警是否清除。若告警未清除,更换 相应的电缆、光纤或光模块。
1. 查询并处理以下告警: T_ALOS、UP_E1_AIS 、DOWN_E1_AIS 、R_LOS 、
LASER_MOD_ERR、LSR_WILL_DIE、IN_PWR_ABN、TEM_HA 或LSR_BCM_ALM 告警。 原因3:承载CES 业务的Tunnel 或PW 中断。 1. 查询并处理以下告警: MPLS_TUNNEL_LOCV告警。 原因4:网元的同步时钟源级别丢失,或同步时钟源丢失。 1. 查询并处理以下告警: SYNC_C_LOS 或LTI 告警。 原因5:承载CES 业务的PW 在单位时间内丢包数、错包数或抖动缓冲超过阈值。 1. 查询并处理以下告警: CES_LOSPKT_EXC、CES_MISORDERPKT_EXC 、
2014-9-30
Security Level:
PTN常见故障及告警处理
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
目录
1 常见故障定位流程
业务故障定位 Tunnel故障定位 链路故障定位 保护故障定位 时钟故障定位 带内DCN故障定位 硬件常见告警
结束
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 16
ETH业务故障常见现象
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 17
ETH业务故障常见原因
原因1:单板硬件故障、温度过高或板间通信故障,无法正常工作。 原因2:接收信号丢失。 原因3:以太网网口连接错误,端口协商失败。 原因4:端口配臵了环回。
可能原因:
处理步骤:
原因1:时钟未同步。 在网管上查询是否存在LTI告警或其它时钟相关告警,导致时钟没有同步,缓冲区入与出速率不一致。 若存 在,优先清除LTI告警和时钟相关告警后,查看本告警是否清除。 原因2:链路质量下降,抖动变大。 在网管上查询业务所在端口上是否存在IN_PWR_ABN或TEM_HA告警。若存在,优先清除IN_PWR_ABN 或TEM_HA告警后,查看本告警是否清除。 原因3:设臵的缓冲区太小。 在网管上查询缓冲区的配臵数值。根据网络规划,确认是否可以增大“抖动缓冲时间”的数值。如果是, 扩大缓冲区,查看告警是否清除。 原因4:网络侧跳数过多,抖动变大。 若网络侧跳数过多,可能造成CES业务抖动变大。根据网络规划,确认是否可适当减少网络侧跳数。
原因5:接口流量限值配臵过低,源宿两端接口配臵不一致。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 18
ETH业务常见故障处理方法
原因1:单板硬件故障、温度过高或板间通信故障,无法正常工作。 1. 查询并处理以下告警: HARD_BAD、TEMP_OVER、COMMUN_FAIL 或 BUS_ERR 告警。 原因2:接收信号丢失。 1. 查询并处理以下告警:ETH_LOS 、R_LOS 、LASER_SHUT 、 LSR_WILL_DIE MAC_FCS_EXC 告警。 原因3:以太网网口连接错误,端口协商失败。 1. 查询并处理以下告警: ETH_LINK_DOWN 告警。 原因4:端口配臵了环回。 1. 查询并处理以下告警: LOOP_ALM 、ETH_EFM_LOOPBACK 告警。 原因5:接口流量限值配臵过低,源宿两端接口配臵不一致。 1. 查询并处理以下告警: FLOW_OVER 、ETH_CFM_UNEXPERI 告警。
可能原因:
处理步骤:
原因1:业务参数配臵错误,比如高阶通道。 在网管上检查业务参数是否配臵正确,若不正确,重新修改业务配臵参数后,查看告警是否清 除。 原因2:Tunnel或PW带宽配臵过低,链路拥塞。
在网管上查看业务所在Tunnel或PW的带宽配臵是否过低。如果是,重新为该Tunnel或PW配
在网管上查看业务所在Tunnel或PW的带宽配臵是否过低。如果是,重新为该Tunnel或PW配
臵较大的带宽,查看告警是否清除。 原因3:电缆、光纤或光模块故障导致链路信号变差。 检查并确认电缆或光纤与接口良好连接。清洁光纤或光模块后,查看告警是否清除。若告警未 清除,更换相应的电缆、光纤或光模块。
HUAWEI TECHNOLOGIES CO., LTD.
CES_STRAYPKT_EXC 、CES_JTRUDR_EXC 或CES_JTROVR_EXC 告警。
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential Page 10
CES业务常见告警(一)
CES_JTROVR_EXC/ CES_JTRUDR_EXC——CES缓冲上溢/下溢告警 原因1:时钟未同步。 原因2:链路质量下降,抖动变大。 原因3:设臵的缓冲区太小。 原因4:网络侧跳数过多,抖动变大。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 9
CES业务常见故障处理方法
原因1:单板硬件故障、温度过高或板间通信故障,无法正常工作。 1. 查询并处理以下告警:HARD_BAD、TEMP_OVER、COMMUN_FAIL 或BUS_ERR 告警。 原因2:处理板、接口板的接口接入的信号丢失或恶化。