华为PTN告警处理规范

合集下载

华为PTN告警处理规范

华为PTN告警处理规范

华为PTN告警处理规范1.ETH_LOS告警解释:ETH_LOS为以太网端口连接丢失告警。

该告警表示以太网端口接收不到以太网信号。

产生原因:以太网端口的电缆或光纤没有连接好。

电缆或光纤故障。

本端网元接收光功率过低。

单板故障。

处理步骤:检查以太网端口的电缆或光纤是否接好,插紧松脱的电缆或光纤。

检查电缆或光纤是否存在故障,更换故障的电缆或光纤。

检查法兰盘或光衰减器是否连接正确,光衰减器的衰减值是否过大。

更换上报告警的处理板。

若告警未消除,更换对端网元对应的处理板。

2.MPLS_TUNNEL_LOCV告警解释:MPLS_TUNNEL_LOCV为Tunnel连通性丢失告警。

连续3个周期内没有收到希望的CV/FFD报文时出现此告警。

产生原因:PW对端停止CV/FFD。

物理链路故障。

PW对端单板正在复位。

业务接口配置错误。

网络出现严重拥塞。

处理步骤:在网管上查看PW对端是否停止了CV/FFD。

在网管上检查该链路两端网元是否存在单板或光模块相关的告警。

若告警未清除,查看光纤或电缆是否故障,更换故障的光纤或电缆。

在网管上检查对端单板是否上报COMMUN_FAIL告警。

若存在,说明对端单板可能正在复位。

清除COMMUN_FAIL告警后,查看本告警是否清除。

对照网元规划表,在网管上查看业务接口是否配置错误。

如果是,重新配置业务接口后,查看告警是否消除。

检查故障Tunnel的带宽是否已被完全占用。

如果是,增大Tunnel带宽配置或消除非法发送大数据量的根源。

查看告警是否清除。

3. BD_STATUS告警解释:BD_STATUS为物理单板离线告警。

当用户在网管上配置了逻辑单板而物理子架上却没有插入实际单板时就会上报此告警。

产生原因:单板正在硬复位。

单板未插上,或单板插上,但与母板接触不良。

板间通讯故障。

处理步骤:在网管的“运行态”槽位视图中查看该单板的工作状态是否为蓝色,若是,则该单板处于硬复位状态。

等待3至5分钟,该单板的工作状态转成绿色后,查看本告警是否消除。

华为PTN故障处理手册v1.0版

华为PTN故障处理手册v1.0版

华为PTN故障处理手册v1.0公司网络维护中心2010年12月目录一、概述 (5)二、网络故障分析定位方法 (5)2.1 告警分析法 (5)2.2 性能统计分析法 (7)2.3 OAM分析法 (9)2.4 配置数据分析法 (13)2.5 仪表测试分析法 (15)2.6 环回法 (16)2.7 排除法 (17)三、业务中断故障和业务恢复 (18)3.1 流程图 (18)3.2 查询误操作 (20)3.3 检查告警 (20)3.4 检查环回和装载 (21)3.5 检查业务配置 (22)3.6 应急恢复方案 (22)3.6.1 倒换 (22)3.6.2 复位 (23)3.6.3 通过更换单板恢复业务 (23)四、常见故障处理方法 (24)4.1 带DCN故障处理 (24)4.2 MPLS Tunnel故障处理 (29)4.3 PW故障处理 (31)4.4 CES业务故障处理 (33)4.5 以太网业务故障处理 (38)4.6 offload故障处理···············错误!未定义书签。

4.7 时钟故障处理 (42)4.8 QoS故障处理 (44)4.9 线性MSP故障处理 (48)4.10 TPS故障处理 (52)4.11 LAG故障处理 (55)4.12 MPLS APS故障处理 (59)五、部件更换注意事项 (63)4.13 部件分类说明 (65)4.14 更换处理板 (66)4.15 更换子卡 (68)4.16 更换接口板 (70)4.17 更换XCS单板 (71)4.18 更换带有1+1保护的SCA单板 (73)4.19 更换没有1+1保护的SCA单板 (76)4.20 更换风扇板 (79)4.21 更换PIU板 (80)4.22 更换可插拔光模块 (81)4.23 更换CF卡 (83)一、概述PTN网络故障处理在日常维护中显得至关重要,为了更好的开展PTN网络的日常维护,特编制PTN网络故障处理手册。

华为告警处理手册1.0

华为告警处理手册1.0

目录1. MSC SERVER处理分册 (3)1.1 告警箱处于离线状态 (3)1.2、FE端口故障 (3)1.3、WCKI时钟参考源丢失 (4)1.4、控制框与业务框通信失败 (5)1.5、BAM到主机通讯失败 (6)1.6、BAM到主机连接中断 (7)1.7、与NTP服务器断连 (8)1.8、Q922链路故障 (9)1.9、TCP链路故障 (11)1.10、CPU过载 (12)1.11、单板网口协商失败 (13)1.13、许可证文件即将失效 (14)1.14、计费中心长时间未取话单 (16)1.15、心跳中断 (17)1.16、双机倒换 (18)1.17、私网中断 (19)1.18、IP资源失效 (20)1.19、备份连接失败 (21)1.20、单板故障 (22)1.21、许可证即将过期告警 (23)1.22、许可证已经过期告警 (24)1.23、电源输出开关关闭 (25)1.24、H.248 SCTP链路故障 (26)1.25、MGW退出服务 (28)1.26、MTP目的信令点不可达 (29)1.27、MTP路由传输禁止 (31)11.28、MTP链路故障 (32)1.29、MTP缓冲区拥塞 (34)1.30、M2UA链路故障 (35)1.31、SCCP目的信令点禁止 (37)1.32、SCCP子系统禁止 (38)N => 联系对端局点确认其子系统是否恢复。

(40)2. MGW处理分册 (40)2.1 FE级联网口故障 (40)2.2 风扇框通讯故障 (42)2.3 NET单板时钟检测异常 (44)2.4 NET单板时钟失锁 (47)2.5 GE级联光口故障 (48)2.6 NET单板时钟失锁 (50)2.7 NET单板时钟配线故障 (52)2.8 级联光口故障 (54)2.9 GE通道光模块故障 (56)2.10 TDM通道光模块故障 (58)3.11 BLU时钟检测异常 (60)2.12 信令链路故障告警 (62)2.13 SPF扣板链路故障 (64)2.14 L2UA链路组故障 (67)2.15 L2UA链路故障 (68)2.16 单板软件异常告警 (70)2.17 SIWF故障告警 (72)2.18 控制平面拥塞 (74)2.19 单板故障 (75)2.20 告警箱断链 (77)2.21 单板上存在故障的半永久 (78)2.22 参考源丢失 (80)2.23 虚拟媒体网关迁移出业务态 (82)1. MSC SERVER处理分册1.1 告警箱处于离线状态告警含义1. 告警解释当BAM与告警箱之间通信中断时间超过10秒钟后,系统将产生该告警。

华为PTN故障定位指导

华为PTN故障定位指导

HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 4
MLPPP简介及常见故障定位
PPP简介 简介
PPP(Point-to-Point Protocol ):在支持全双 工的同步或异步的点到点 链路上提供传送和封装网 络层数据包的数据链路层 协议。 MP简介 简介 ML-PPP(Multilink-PPP): ML-PPP属于PPP的扩展协 议。通过MLPPP协议可将 多个物理链路捆绑成一个 逻辑链路,扩展传输带宽。 MLPPP属于位于PPP和网 络协议层之间的高级数据 链接协议。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 6
MLPPP常见故障
MLPPP DOWN
查询当前告警, 确认是否存在物理端口告警如
E1端口: T_RLOS VC12通道: BIP_EXC /V5_VCAIS /TU_AIS_VC12/LP_UNEQ_VC12/TU_LOP_VC12 光口: R_LOS
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 13
MPLS案例
土耳其沃达丰TUNNL没有使能导致 没有使能导致ATM业务中断 土耳其沃达丰 没有使能导致 业务中断 1.现象和问题描述 . 土耳其沃达丰在对某条Tunnel进行优化操作后,业务断了 进行优化操作后, 土耳其沃达丰在对某条 进行优化操作后 2. 定位流程
IMA组无法协商: 组无法协商: 组无法协商
查询本端和对端的IMA链路的E1帧格式是否一致;不一致则设置成一致,如果告警 存在则进行下一步处理; 查询该通道是否有E1信号丢失告警;如果有请消除此告警,如果告警依然存在,则 进行下一步处理; 查询IMA组链路的状态;如果异常则进行下一步处理; 通过环回设备电缆的方法检查本通设备是否工作正常;如果异常则进行下一步处理。 若告警未消除,硬复位或插拔该单板,查看告警是否消除。 若告警仍未消除,则本单板故障,更换该单板,告警会自动消除。 如果步骤4正常,则是由于对接参数不匹配引起的协商问题.需要检查如下参数:

PTN告警处理情况

PTN告警处理情况

恢复设备供电或修复链上设备的光缆后消除
未处理自行恢复 恢复设备供电或修复链上设备的光缆后消除 未处理自行恢复
直接清除告警
检测现网设备电源正常,怀疑为误报,已告知中移和华为人员进行检查分析, 部分告警自行恢复 现网检查告警均为LTE业务的工作或保护PW 失效导致,目前检查处理约20条 业务后发现重新配置业务的TUNNEL并更换至PW 后可消除告警,但原 TUNNEL也正常。部分告警自行恢复或闪报。需要华为进行分析故障原因 检查PW 中断原因并处理,多为光缆或停电导致的TUNNEL中断故障导致 未处理自行恢复 处理MPLS_PW_LOCV、PW_APS_DEGRADED、PW_APS_OUTAGE等告 警后消除
次要 次要 重要 次要 重要 紧急 重要 重要 总数
安全管理员组用户修改其他用户密码告警 任务执行失败告警 数据库备份 数据库表记录数达到阈值 数据库日志异常 数据库占用率过高告警(次要) 数据库自增长失效 隧道组断开 总数
告警原因 网管服务器提示告警---性能值越限事件日志越限
TUNNEL两端设备的一端不支持MPLS OAM Y.1731模式
设备掉电导致的设备通信中断或脱管
网元反复复位5次上报该告警 设备掉电导致的设备通信中断或脱管 输出光功率过高或过低
网元默认密码未修改的提示告警
设备电源模块故障或只接一路电源
带保护业务的工作或保护业务中断导致保护降级
PW APS保护业务中的一条PW 中断 PW APS保护业务的主备通道均中断 PW APS保护业务未配置保护通道,现网告警多为 MPLS_PW_LOCV、PW_APS_DEGRADED、 PW_APS_OUTAGE的伴随告警
联系华为人员后反馈不影响业务,可直接清除,彻底解决需要软件升级

PTN 950的告警级别

PTN 950的告警级别

重要告警
次要告警
提示ቤተ መጻሕፍቲ ባይዱ警
该级别告警的产生是由于网络 立即处理。 中的某服务已经受到了严重影 响,并且需要立即进行正确的处 理。例如,某个被管理对象完全 失效,它的功能需要被恢复到正 常运转时的状态,则上报该级别 告警。 该级别告警的产生是由于网络 紧急处理。 中影响服务的条件正在逐渐形 成,并且需要紧急的、正确的处 理。例如,某个被管理对象的功 能产生了严重的衰退,该功能需 要被恢复到正常运转时的状态, 则上报该级别告警。 该级别告警的产生是由于网络 及时查找告警原因,消除隐患。 中出现了一些目前尚未影响服 务的异常状况,但如不进行正确 的处理,则会产生更严重的异常 状况(如业务中断) 。例如,当 检测到的情况并没有使被管理 对象当前的处理能力下降,则上 报该级别告警。 该级别告警的产生是由于在重 经分析后消除潜在威胁。 大异常状况发生之前,系统检测 到了潜在的、会对服务产生影响 的异常状况。在这种情况下,需 要对该异常情况进行判断,并且 解除潜在的威胁,以免发生更严 重的、影响服务的故障。

PTN 950 的告警级别 告警级别用于标识一条告警的严重程度和重要性、 紧迫性, 按告警的严重程度递减的顺序可 以将告警分为以下四个级别:紧急告警、重要告警、次要告警和提示告警。 不同级别的告警及其处理方式如下表所示。 表 1 告警级别 告警级别 紧急告警 定义 处理原则

PTN 告警分析与建议

PTN 告警分析与建议

是否要下 站点 否 否
处理结果
是 否 否

2011-10-26
华为机密,未经许可不得扩散
第2页,共2页
66225048.xls
文档密级:
告警名 DCNSIZE_OVER LAG_MEMBER_DOWN DCN域过大
可能原因
成员端口不能激活也不能作为备用时,上 报此告警,指示原因
ETH_APS_LOST SWDL_PKGVER_MM SWDL_ROLLBACK_FAIL
1、对方没有配置保护; 2、保护通道业务中断; 软件包描述文件中描述的软件版本信息和 实际的软件文件版本信息不一致 网元回滚时有板回滚失败 1、本端物理端口故障; 2、本端没有接收到对端的OAM报文; 3、两端的OAM11-10-26
华为机密,未经许可不得扩散
第1页,共2页
66225048.xls
文档密级:
处理意见 升级SPH505补丁,之后如果还报告警,则 要缩减DCN域 1)检查对端是否配置了保护组,修改配置, 保持两端配置一致; 2)检查保护通道是否存在故障,消除保护通 道的故障; 重新进行一次包加载 重新进行一次包加载 1)检查物理链路是否正常,更换出故障的器 件(比如光纤/单板/光模块等); 2)检查对端设备是否使能了P2P OAM协议, 修改配置,两端配置保持一致;

PTN常见故障处理(阅读)

PTN常见故障处理(阅读)
Page 20
Tunnel常见故障处理方法(续)
原因3:Tunnel 所在的物理链路故障。 1. 查询系统中是否存在HARD_BAD、R_LOS、ETH_LOS、PPP_LCP_FAIL 或 MP_DOWN 等告警,指示Tunnel 使用的物理链路故障。 2. 若存在,优先处理HARD_BAD、R_LOS、ETH_LOS、PPP_LCP_FAIL 或 MP_DOWN 告警。 3. 查看并处理系统中存在的下列告警:MPLS_TUNNEL_BDI、 MPLS_TUNNEL_Excess、MPLS_TUNNEL_FDI、MPLS_TUNNEL_LOCV、 MPLS_TUNNEL_MISMATCH、MPLS_TUNNEL_MISMERGE、 MPLS_TUNNEL_SD、MPLS_TUNNEL_SF、MPLS_TUNNEL_UNKNOWN 4. 检查对端设备是否存在单板故障或网元复位等异常状况。排除对端设备的异 常情况。 原因4:保护倒换失败。 1. MPLS APS 保护倒换失败,参考保护故障处理。
常见原因
原因1:路由失败。 原因2:交叉创建失败。 原因3:Tunnel 所在的物理链路故障。 原因4:保护倒换失败。
Page 19
Tunnel常见故障处理方法
原因1:路由失败。 1. 对照网络规划,检查Tunnel 两端端口参数配置是否正确,例如端口IP。修正不正 确的端口参数后,再次创建Tunnel。 2. 检查Tunnel 首末节点所在的网元间是否存在完整可达的链路。若不存在,修复链 路中残缺或故障的部分。 3. 可选: 确认动态Tunnel 配置的“Route Constraint”条件和“Color”(亲和属性)是 否正确。修正不正确的参数信息,具体操作请参见使用路径方式创建动态MPLS Tunnel 和FRR 保护。 4. 可选: 如果Tunnel 配置了带宽,检查链路带宽是否满足Tunnel 的要求。 原因2:交叉创建失败。 1. 检查网络中是否存在不同的网元使用相同的网段。如果存在,需要修改端口IP地 址。 2. 检查Tunnel 是否配置了不兼容的保护特性。详细内容请参见《版本说明书》。 3. 查看Tunnel 所经过的网元或单板,确认已创建Tunnel 个数是否已经达到了最大值。 如果是,需要重新规划或删除冗余的Tunnel。

PTN常见故障及处理

PTN常见故障及处理

1、NE_NOT_LOGIN告警解释NE_NOT_LOGIN表示网元未登录对系统的影响无法从网元侧查询该告警的配置数据无法在网管上管理该网元可能原因原因1:网元与网管通讯中断解决网元与网管通讯中断方法,参见NE COMMU BREAK原因2:用户退出登陆或者登陆网元失败以其他正确的网元用户登陆网元查看告警是否结束,若未结束,请进行下一步如果故障依然存在,请联系华为工程师MPLS_TUNNEL_LOCV告警解释MPLS_TUNNEL_LOCV 为TUNNEL连通性丢失告警。

连续3个周期内没有收到希望的CV/FFD报文时出现此告警。

对系统的影响该告警产生时,会触发MPLS APS倒换,将业务倒换到保护TUNNELMPLS_TUNNEL_FDI告警将抑制MPLS_TUNNEL_LOCV告警的上报。

可能原因告警MPLS_TUNNEL_LOCV产生的可能原因如下:原因1:TUNNEL的INGRESS节点停止CV/FFD原因2:物理链路故障原因3:INGRESS节点的单板正在复位原因4:业务借口配置错误原因5;网络出现严重拥塞原因6:CPU占用饱和,无法处理ARP协议报文处理步骤:原因1:原因1:TUNNEL的INGRESS节点停止CV/FFD1、在网管上分别进入上报告警的TUNNEL的INGRESS节点和EGRESS节点的“网元管理器”,在功能树中选择“配置》MPLS 管理》单播TUNNEL管理”。

选择“OAM参数”选项卡。

2、查看两端的“检测方式”和“检测报文类型”参数是否一致如果两端的参数。

则。

不一致修改任一节点的参数配置使两端一致后,单击“应用”。

一致继续下一步3、查看INGRESS节点的“CV/FFD状态”参数如果是。

则。

停止右键单击该条TUNNEL,在弹出的菜单中单击‘启动CV/FFD”.查看告警是否清除启动排查下一原因原因2:物理链路故障1、在网管上查看EGRESS节点是否存在HARDBAD、ETH_LOS、或者ETH LINK DOWN告警,具体操作请参见在U2000上查询当前告警。

PTN常见故障及告警处理

PTN常见故障及告警处理

结束
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 16
ETH业务故障常见现象
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 17
ETH业务故障常见原因
原因1:单板硬件故障、温度过高或板间通信故障,无法正常工作。 原因2:接收信号丢失。 原因3:以太网网口连接错误,端口协商失败。 原因4:端口配臵了环回。
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 19
目录
1
常见故障定位流程 业务故障定位
2
3 4 5 6 7 8
Tunnel故障定位
链路故障定位 保护故障定位 时钟故障定位 带内DCN故障定位 硬件常见告警
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 15
ETH业务故障定位流程
开始 有HARD_BAD/ FPGA_ABN/COMMUN_FAIL/ BD_STATUS单板故障告警? 是 复位/更换单板 ETH 业务恢复? 是


有R_LOS(光纤接入)/ ETH_LOS( 网线接入) 告警?
HUAWEI TECHNOLOGIES CO., LTD. Huawei Confidential Page 11
CES业务常见告警(二)

CES_LOSPKT_EXC——CES业务丢包告警 原因1:时钟未同步。 原因2:CES业务两端网元参数配臵不一致。 原因3:Tunnel或PW带宽配臵过低,链路拥塞。 原因4:电缆、光纤或光模块故障导致链路信号变差或中断。

PTN业务故障常用的处理方案

PTN业务故障常用的处理方案

PTN业务故障处理方法
故障定位的基本原则为三句话:先主后次、由外而内、逐步深入。

先主后次:障产生时通常伴随着告警,首先需要分析告警,应首先分析高级别的告警(如紧急告警、主要告警),然后再分析低级别的告警(如次要告警和提示告警)。

由外到内:在界定故障类型时,应先排除外部的可能因素,如链路故障、电源故障、温度过高等;其次是排查配置是否正确,如时钟跟踪、对接参数、门限设置等;最后才是具体定位故障点。

逐步深入:在定位故障点时,遵循逐步缩小范围的原则,先确认是网络侧问题还是用户侧问题,然后进一步定位到是某一段链路问题或故障网元的某块单板问题。

首先,核实网管网元告警是否和业务有关的告警。

查询影响的业务或者是tunnel
核实网元tunnel的连通性,查询tunnel的APS是否正常倒换,保护tunnel是否正常。

查看保护组的状态
通过LSP ping测试tunnel是否正常
设置需要测试参数,正向、反向都需要分别配置。

关注:包长:64、512、1400字节,覆盖长短包。

包数:50。

优先级:0、7,覆盖高低优先级。

核查PWE3业务是否故障。

通过以太OAM测试核实PWE3业务连通性
进入以太OAM测试界面,设置LB参数
查看以太OAM测试结果LB测试信息:没有超时,LB统计信息:发送报文个数和接收报文个数相等
可通过VCCV ping来检测PWE3业务的连通性。

查看运行结果,看业务是否故障。

华为PTN ETH业务故障处理

华为PTN ETH业务故障处理


PW/Tunnel故障:
原因可能是PW/Tunnel down、 业务流经的物理链路中断等等;

报文拥塞:
原因可能是带宽配置过小、同优先级的报文流量过大导致丢包,或网络上流经此端口
的流量超过端口实际的物理流量的范围而丢包等等;

存在物理或逻辑上环路故障(仅针对Elan):
原因可能是网络组网就存在物理环路,或水平分组配置不合理引起逻辑链路上的环 路或报文被环回的情况等等;
Page 9
故障定位流程篇


通用方法介绍
通用流程介绍
(1)硬件故障定位流程
(2)Tunnel/pw故障定位流程
(3)接入侧故障定位流程 (4) ELAN业务层面定位流程 (5)其它故障定位流程
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 10
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Confidential
Page 18
ELine业务典型案例分析篇——现象描述

某运营商网络通过在PTN设备上配置专线业务用以传其时钟数据,也就是将
RNC的时钟数据传输到NodeB,但有些站点会出现业务中断后又自动恢复的问
题 . 组网如下图:
而SynLos告警是NodeB的时钟跟踪不上才会上报的。那么,究竟是业务中断 引起eNodeB的时钟跟踪不上而上报SynLos告警,还是时钟跟踪不上后,而 引起业务中断呢? 由于排除前者非常困难,因为还涉及到中间网络的分析。 那相比前者,确认后者是否NodeB时钟跟踪不上就会中止发送数据 ,及 NodeB时钟跟踪有那些性能要求的问题就更容易些。

华为LTE告警原因和处理建议

华为LTE告警原因和处理建议

华为LTE常见告警处理建议2017-8-15华为LTE常见告警目录1射频单元业务不可用告警 (4)2小区不可用告警 (5)3射频单元维护链路异常告警 (6)4BBU IR接口异常告警 (6)5网元断连 (7)6传输光接口异常告警 (7)7S1接口故障告警 (8)8射频单元IR接口异常告警 (8)9License试运行告警 (8)10以太网链路故障告警 (9)11用户面故障告警 (9)12射频单元时钟异常告警 (10)13基站S1控制面传输中断告警 (10)14射频单元交流掉电告警 (10)15BBU IR光模块收发异常告警 (11)16射频单元驻波告警 (11)17远程维护通道故障告警 (12)18小区服务能力下降告警 (12)19射频单元光模块收发异常告警 (12)20射频单元光接口性能恶化告警 (13)21交流掉电告警 (14)22时钟参考源异常告警 (14)23射频单元硬件故障告警 (15)24射频单元输入电源能力不足告警 (15)25配置数据超出License限制告警 (15)26射频单元ALD电流异常告警 (15)27RRU组网级数与配置不一致告警 (16)28射频单元发射通道增益异常告警 (16)30星卡天线故障告警 (17)31BBU IR光模块/电接口不在位告警 (17)32天线设备维护链路异常告警 (17)33制式间通信异常告警 (18)34配置数据不一致告警 (18)35系统时钟不可用告警 (18)36时间同步失败告警 (19)37射频单元软件运行异常告警 (19)38BBU直流输出异常告警 (19)39单板温度异常告警 (20)40射频单元光模块/电接口不在位告警 (20)41射频单元接收通道RTWP/RSSI过低告警 (21)42BBU单板维护链路异常告警 (21)43BBU光模块收发异常告警 (21)44RRU组网拓扑类型与配置不一致告警 (22)45证书失效告警 (23)46远程维护通道配置与运行数据不一致告警 (23)47系统无License运行告警 (23)48单板不在位告警 (24)49未配置时钟参考源告警 (24)50MAC错帧超限告警 (24)51单板下电告警 (24)52单板硬件故障告警 (25)53版本自动回退告警 (25)54单板类型和配置不匹配告警 (26)55单板软件运行异常告警 (26)56机框类型配置与实际不一致告警 (26)57射频单元工作模式与单板能力不匹配告警 (27)58License Feature不可用告警 (27)59传输光模块不在位告警 (27)61射频单元CPRI接口异常告警 (28)62射频单元光模块类型不匹配告警 (29)63小区重配置失败告警 (29)64BBU IR光接口性能恶化告警 (30)65单板时钟输入异常告警 (30)66射频单元过载告警 (30)67射频单元温度异常告警 (31)68星卡维护链路异常告警 (31)1 射频单元业务不可用告警故障原因:1、配置原因:小区配置与设备支持规格冲突;射频模块在共模SDR配置下, 制式间载波频率间隔、功率规格、载波数规格、带宽规格等配置错误;CPRI速率配置错误;SFN跨框场景下,扇区设备配置错误;ODI配置错误;2、软件原因:License资源不足;3、单板不可用:小区使用的CPRI链路故障;小区使用的基带单元故障;小区使用的射频单元收发通道故障;CPRI带宽不足;CPRI MUX场景单板不支持;数据链路故障;控制链路故障;时钟精度不足;处理建议:1、检查小区和设备规格,更换型号匹配设备;核查配置参数是否有误,调整正确参数配置;2、核查小区LICENSE,增加LICENSE;3、排查CPRI链路、基带单元、射频单元收发通道、CPRI带宽、CPRI MUX场景单板故障;排查数据链路、控制链路故障,;校准时钟精度;2 小区不可用告警故障原因:1、配置原因:小区配置与设备支持规格冲突;射频模块在共模SDR配置下, 制式间载波频率间隔、功率规格、载波数规格、带宽规格等配置错误;小区参数修改引起小区重建;UBBP 单板上的基带工作制式没有包含LTE FDD制式、LTE TDD制式或者NB-IoT制式;LBBP单板上的工作模式没有包含LTE FDD制式、LTE TDD制式或者NB-IoT制式;eNodeB基带资源闭塞或者不可用;基站协议类型和RRU链环协议类型配置冲突;单板不支持配置成LTE FDD 制式+LTE TDD制式;CPRI速率配置错误;当两个小区承载在同一个AAS上,频点配置相同且发射虚天线波束参数相同;使用AAS配置V4R和UST小区,未配置虚天线倾角;多模负荷分担组网,出纤单板有UBBP,但UBBP未配置工作制式;NB-IoT小区所在LBBP单板工作模式没有包含NB-IoT模式;配置到射频模块的载波数量超出RHUB CPRI_E口规格限制;修改eNodeBId后没有复位App;2、软件原因:License资源不足;3、单板不可用:单板不可用;小区使用的CPRI链路故障;小区使用的基带单元故障;小区使用的射频单元收发通道故障;S1信令链路故障;时钟资源不可用(LTE TDD);CPRI带宽不足;CPRI MUX场景单板不支持;处理建议:1、检查小区和设备规格;核查配置参数是否有误;2、核查小区LICENSE;3、排查CPRI链路、基带单元、射频单元收发通道、CPRI带宽、CPRI MUX场景单板故障;排查数据链路、控制链路故障;校准时钟精度;3 射频单元维护链路异常告警故障原因:1、配置原因:链环上配置了多余的射频单元;双模CPRI MUX特性的组网,汇聚关系配置冲突;双模CPRI MUX特性的组网,汇聚方基带单板硬件故障、未安装或未上电、未配置;双模CPRI MUX特性的组网,汇聚方和被汇聚方链环配置的协议类型不一致;链环配置的协议类型和实际所连的射频单元的协议类型不一致;链环的“CPRI线速率”配置为MANUAL 时,前级射频单元模块不具备不等速率级联的能力或者本级射频单元配置的“从口线速率”超出了射频单元能力;链环的“CPRI线速率”配置为非MANUAL时,射频单元无法与当前链环运行的CPRI线速率同步;该射频单元所在链环的CPRI端口被闭塞或被设置断点;该射频单元所在链环的CPRI端口在对端制式被闭塞或被设置断点;该射频单元所在链环的CPRI 端口在当前组网中不支持下联功能;2、软件原因:射频单元故障导致射频单元自动复位,或人工操作导致射频单元复位;3、硬件原因:射频单元交流掉电、射频单元直流掉电、未上电或运行异常;BBU与射频单元之间或者上下级射频单元之间的光纤或者电缆故障;BBU或射频单元光模块故障;射频单元或BBU单板硬件故障;双模CPRI MUX特性的组网,汇聚方基带单板光模块故障;双模CPRI MUX特性的组网,被汇聚方与汇聚方之间BBU背板转发链路资源不足或链路故障;双模CPRI MUX特性的组网,汇聚方和被汇聚方基带单板硬件能力不支持背板汇聚;内存软失效处理建议:1、检查小区和设备配置参数是否有误;2、核查核查软件是否人工复位或者自动复位;3、排查电力,馈线接头、电缆、光模块、CPRI链路、基带单元、基带单板硬件能力不支持背板汇聚、内存软;4 BBU IR接口异常告警故障原因:1、配置原因:多模基站场景下配置错误;用户执行了闭塞CPRI端口的命令;2、硬件原因:在BBU和下级射频单元连接链路采用光接口时,可能是BBU或下级射频单元的光纤接头或光模块未插紧,或光纤链路故障;在BBU和下级射频单元连接链路采用电接口时,可能是BBU或下级射频单元的电缆接头未插紧,或电缆故障;多模场景下,BBU互联线缆异常或者BBU互联端口光模块故障;BBU或下级射频单元运行异常或硬件故障;处理建议:1、检查小区和设备配置参数是否有误;2、现场检查BBU与下级射频单元RRU之间的光路,重点排查两端的光纤、光模块是否存在问题;3、不排除RRU软件或硬件故障导致,可尝试先复位RRU观察告警是否恢复,不行则尝试更换;。

华为交换机告警处理-入门篇

华为交换机告警处理-入门篇

常见告警一:sccp 目的信令点禁止、MTP路由传输禁止、 MTP目的信令点不可达、sccp子系统禁止首先查看目的信令点编码对应局向(本例中编码为AFE10)指令为LST N7DSP:;输出界面:由此我们初步判断是:本端局至JNRZHLR的相关告警由于JNRZHLR至本地端局经常出现此告警,可采用手动恢复,并清除告警。

若是至其他局向出现此告警,则需立即通知维护人员。

(此告警属于严重告警须重视)二:E1/T1 远端告警首先:双击红色圈中的信息会弹出如下对话框:其次:根据框、槽、端口号,可以查找电路文档信息得出进一步详细信息:1)对端局向为:JNIGM3,TID:2016 模块号:29 起始电路:5408 终止电路:54392)交换ddf (对应传输ddf要传输人员再次确认)以上信息均为手工录入信息,其中TID(终端标示)信息是最准确的,为确保电路文档信息正确,可在相应server下进行如下操作来进行验证:LST TKCBYTID (类似于exdep)会出现如下相关信息:(包括局向、中继群、模块号、起始电路号)第三:根据以上信息可以进行以下预处理:1)查看该电路状态:DSP N7TKC(类似于爱立信的stdep)会出现如下信息:电路状态是:空闲、忙均代表正常,若是其他状态如:闭塞、锁定、故障、未知均为故障状态2)根据ddf,联系传输处理3)如果出现传输闪断现象,或者传输人员正在处理该电路时,需要输入如下指令以防止告警不断出现,造成不必要的扣分。

(类似于dtfse)。

切忌:将告警屏蔽后,一定要在文档中标注!4)如何配合传输查看电路一般传输人员为排查线路故障,会要求我们配合查看电路状态一般可以从面板中直接查看电路是好是坏,或者用指令DSP E1PORT(类似于dtstp)如图所示:查看1框13槽23端口绿色:代表wo,红色:代表abl 说明电路是故障的三:提高篇:链路故障SPF扣板链路故障此告警是比较重要的告警,类似于爱立信的C7 link 告警首先双击红色圈中的定位信息,进行初步定位:查找相应的电路、ddf等信息(mgw的告警)1)以上红色圈中的三个参数信息是比较重要的信息:链路名称:JIG4-1这是说明是对端局向是到jig4的接口班组号+E1端口号:确定该链路所在电路,以及相关ddf信息根据以上信息,联系传输处理该电路。

PTN不常见告警处理

PTN不常见告警处理

13-06382-嘉里中心写字楼M-PTN950;上报BD_NOT_INSTALLED告警
13-02499-朝阳黄草湾T-PTN950;3-EG2-1 上报LSR_NO_FITED告警
13-02499-朝阳黄草湾T-PTN950;3-EG2-1 上报FLOW_OVER告警
13-06870-国宏大厦M-PTN1900;2-73CXP上报COMMUN_FAIL$@$
13-04788-芳城园-PTN950;上报S1_SYN_CHANGE$@$
13-00293-北京第六医院-PTN950;7-CXP 上报POWER_ABNORMAL告警
12-00517-东八里庄/D1-01-PTN3900;上报DCNSIZE_OVER告警
是否影响业务
告警解释
tunnel中断
TUNNEL连通性丢失
光模块故障、未安装光模块(在激光器为打开状态)
该端口接收的流量超出预期流量。具体为该端口承载业务带宽某一时刻的峰值超 过该端口的预警门限导致上报此告警
大部分主控故障,主控未升级造成主控与其他单板通信失败
一般为网元断电或者两侧断纤
单板电源模块失效、电源输入异常、子架电源板故障(可能部分单板的局部电源 故障)
13-07155-重庆饭店M-PTN950;7-CXP 上报BUS_ERR告警
13-00987-青蓝大厦M-PTN950;上报CLK_NO_TRACE_MODE告警
13-07028-新永外文化商城M-PTN950;5-EG2-1 上报ETH_LINK_DOWN告警
13-07155-重庆饭店M-PTN950;上报THUNDERALM告警
设备单板故障引起主用的主控报此告警
未配置物理层时钟、设备故障、主控未升级引起

华为PTN常见开局故障处理课件

华为PTN常见开局故障处理课件

故障定位
01
02
03
故障定位概述
故障定位是故障处理的第 一步,主要是通过观察、 检测和诊断等手段确定故 障发生的位置和原因。
故障现象观察
观察设备的指示灯、告警 信息、性能指标等,初步 判断故障的类型和影响范 围。
物理连接检查
检查设备的电源、线缆、 接口等物理连接是否正常, 排除物理连接故障的可能 性。
PTN设备采用MPLS(多协议标签交换)技术,通过标签交换实现数据包的快速转发 和交换。
PTN设备支持多种QoS(服务质量)保障机制,能够根据业务需求提供不同等级的 传输服务。
PTN设备工作原理
PTN设备基于分组交换技术,通过建立和维护LSP(标签交换路径)来实现快速、可 靠的数据传输。
PTN设备采用MPLS(多协议标签交换)技术,通过标签交换实现数据包的快速转发 和交换。
骨干网
PTN设备适用于构建骨干传送网络, 提供大容量、高速率的数据传输服 务,支持各类业务的高质量传送。
PTN设备应用场景
城域传送网
PTN设备适用于构建城域传送网 的核心层和汇聚层,提供高带宽、 低时延、高可靠性的数据传输服务。
接入网
PTN设备适用于接入网的建设,提 供宽带接入、专线接入等多种接入 方式,满足不同用户的需求。
详细描述
检查设备电源和连接线是否正常,确保 电源和连接线无损坏或接触不良。
案例二:软件故障处理
总结词:软件故障通常表 现为设备无法正常加载软 件、软件运行异常或配置 错误。
详细描述
检查软件版本是否与设备 兼容,如有需要升级或降 级软件版本。
检查设备日志文件,查看 是否有异常错误信息,根 据错误信息进行故障定位 和修复。
01

华为PTN 950的告警处理流程

华为PTN 950的告警处理流程

告警处理通用流程
处理华为PTN 950设备的告警时,请参照以下流程。

华为PTN 950告警处理的一般原则
处理告警时,一般需要遵循以下原则:
●先根源告警,后衍生告警。

根据常见告警的相关性规则,先处理由故障或异常事件直接引发的告警(根源告警),后处理其它衍生出来的告警。

●先网管,后网元。

先在网管上远程实施告警原因的排查操作,后对实际网元实施排查。

●先排查常见原因,后排查特殊原因。

根据告警处理的经验和其它告警相关信息,先排查告警的常见原因,后排查告警的特殊原因。

●先软件,后硬件。

告警原因为华为PTN 950设备故障时,先排查软件故障(如复位单板),后排查硬件故障(如更换单板)。

注意:
文中涉及到拔插单板和硬复位的操作,若经过该板的业务没有保护,都将中断业务,请根据实际情况慎重进行此项操作。

说明:
告警处理过程中如存在任何问题,可联系华佳慧科技专业技术工程师处理。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
检查单板是否存在TR_LO(告警,指示单板收到的38M系统时钟故障。若 存在,优先清除TR_LO告警。检查单板是否存在POWER_ABNOR告AL,指示单板电压异常。若存在,优先清除POWER_ABNOR告AL检查单板 是否存在HARD_BA告警,指示单板硬件故障。若存在,硬复位单板后, 查看告警是否清除。若告警未清除,更换上报HARD_BA告警的单板,并
对照网元规划表,在网管上查看业务接口是否配置错误。如果是,重新
配置业务接口后,查看告警是否消除。
检查故障Tunnel的带宽是否已被完全占用。如果是,增大Tunnel带宽 配置或消除非法发送大数据量的根源。查看告警是否清除。
3.
告警解释:BD_STATU为物理单板离线告警。当用户在网管上配置了逻辑单
板而物理子架上却没有插入实际单板时就会上报此告警。
在网管上查看两端端口是否存在LOOP_AL告警,若存在,优化清除LOOP_AL告警后,查看本告警是否清除。
对照网元规划表, 查看上报告警的端口是否错插了纤缆, 造成两端端口工 作模式不一致。
在网管上查看两端网元的相关单板是否存在HARD_BA等硬件类告警。若 存在,更换存在硬件类告警的单板后,查看本告警是否清除。
产生原因:
单板正在硬复位。
单板未插上,或单板插上,但与母板接触不良。
板间通讯故障。
处理步骤:
在网管的“运行态”槽位视图中查看该单板的工作状态是否为蓝色,若 是,则该单板处于硬复位状态。等待3至5分钟,该单板的工作状态转 成绿色后,查看本告警是否消除。
检查相应槽位的单板是否插入。若未插入,请插入相应物理单板,告警 将自动清除。 检查单板与母板是否接触良好, 母板连接器的导针是否歪 斜。修正歪斜的导针,重新插拔单板使之与母板良好接触,告警将自动 清除。
5.
告警解释:ETH_LINK_DOW为网口协商失败。
产生原因:
本端网元和对端网元的端口工作模式不一致,造成协商失败。
端口内环回。
纤缆连接到错误的端口。
单板故障。
处理步骤:
在网管上查看两端网元的以太网端口工作模式是否一致。 若不一致, 修改 设置,使两端的端口工作模式一致后,查看告警是否清除。
电缆、光纤或光模块故障导致链路信号变差或中断。
处理步骤:
在网管上查询是否存在LTI告警或其它时钟相关告警,导致时钟没有同 步,缓冲区入与出速率不一致。 若存在, 优先清除LTI告警和时钟相关告
警后,查看本告警是否清除 在网管上查看CES业务两端网元参数配置是否一致, 例如“64K时隙”等。 若不一致,修改配置参数,使两端一致。
6.
告警解释:CES_CEBOUND_PKT为OSES业务网络侧报文丢失告警。当网络侧
连续丢包超过设置的阈值上限或当连续3s以上没有收到报文,即上报此 告警。
产生原因:
业务承载层中断。
网络侧链路不稳定。
处理步骤:
在网管上查询是否存在ETH_LO、MP_DOV或NPW_DOV告警。若存在,优 先清除ETH_LOSMP_DOW或NPW_DOW告警后,查看本告警是否清除。
华为
告警解释:ETH_LO为以太网端口连接丢失告警。该告警表示以太网端口接
收不到以太网信号。
产生原因:
以太网端口的电缆或光纤没有连接好。
电缆或光纤故障。
本端网元接收光功率过低。
单板故障。
处理步骤:
检查以太网端口的电缆或光纤是否接好,插紧松脱的电缆或光纤。
检查电缆或光纤是否存在故障,更换故障的电缆或光纤。
在网管上查询是否上报告警的单板或主控板是否存在HARD_BA或
COMMUN_FAIL警。若存在,更换上报告警的单板,查看告警是否消除。
4.
告警解释:HARD_BA为硬件故障告警。当单板检测到硬件出现异常且会影响 业务运行时,就会上报该告警。
产生原因:
外接电源失效。
单板与母板未良好接触。
单板硬件故障。
物理链路存在错连。
处理步骤:
在网管上查看业务所在Tunnel或PW的带宽配置是否过低。如果是,重新 为该Tunnel或PW配置较大的带宽,查看告警是否清除。
查看物理链路是否存在错连。 若存在, 修正错误的物理链路后, 查看告警 是否清除。
9.
产生原因:
单板处于硬复位状态。
单板故障。
38M系统时钟故障。
在网管上查看业务所在Tunnel或PW的带宽配置是否过低。如果是,重新 为该Tunnel或PW配置较大的带宽,查看告警是否清除。
检查并确认电缆或光纤与接口良好连接。
8
告警解释:CESPW_REMOTE_LOSPCESPW远端丢包告警。当本端网元收到R比特置位为1的报文时,即上报该告警。
产生原因:
网络拥塞。
若接口板上报HARD_BA告警,可能是对应的处理板出现故障。
处理步骤:
确保正常电源接入后,查看告警是否清除。
拔出故障单板,确认背板上的导针无异常。重新插入单板,使单板与母 板良好接触。
硬复位上报告警的单板,查看告警是否清除。若告警未消除,更换上报 告警的单板。
硬复位接口板对应的处理板,参看告警是否清除。
电源板故障,造成主控板电压异常。
主控板不在位或故障。
主控板的EXT接口直接连接HUB或者交换机。
处理步骤:
查看告警,明确与主控板通信失效的单板。在网管的“运行态”槽位视图 中查看该单板的工作状态是否为蓝色,若是,则该单板处于硬复位状态。 等待3至5分钟,该单板的工作状态转成绿色后,查看本告警是否清除。
检查并确认电缆或光纤与接口良好连接。
7.
告警解释:CES_LOSPKT_EXC单位时间内CES业务的报文丢包数超过阈值告 警。当单板检测到一定周期内(10s),每秒平均帧丢失个数超出上限阈 值(缺省为100)时,即上报此告警。
产生原因:
时钟未同步。
CES业务两端网元参数配置不一致。
Tunnel或PW带宽配置过低,链路拥塞。
检查法兰盘或光衰减器是否连接正确,光衰减器的衰减值是否过大。
更换上报告警的处理板。若告警未消除,更换对端网元对应的处理板。
2
告警解释:MPLS_TUNNEL_LOC\Tunnel连通性丢失告警。连续3个周期内
没有收到希望的CV/FFD报文时出现此告警。
产生原因:
PW对端停止CV/FFD
物理链路故障。
PW对端单板正在复位。
业务接口配置错误。
网络出现严重拥塞。
处理步骤:
在网管上查看PW寸端是否停止了CV/FFD
在网管上检查该链路两端网元是否存在单板或光模块相关的告警。若告 警未清除,查看光纤或电缆是否故障,更换故障的光纤或电缆。
在网管上检查对端单板是否上报COMMUN_FA告L警。若存在,说明对端 单板可能正在复位。清除COMMUN_FA&警后,查看本告警是否清除。
相关文档
最新文档