OptiX OSN2500设备故障定位之告警、性能分析法
OptiX OSN2500设备对接故障的常见原因定位方法
OptiX OSN2500设备对接故障的常见原因定位方法一.常见故障原因设备对接故障的常见原因有两大类:外部原因和设备原因。
发生设备对接故障时,常见的故障现象有:对接的业务不通;开通的业务异常,如话音业务不清晰、上网经常掉线等。
设备对接故障的常见原因如表1所示。
表1 设备对接故障的常见原因故障类别故障原因外部原因对接设备不共地或接地不良光纤或电缆连接错误光纤或电缆不匹配(如单模与多模光纤混用、120Ω与75Ω线缆混用)对接信号衰耗过大或不符合标准要求对接设备的业务配置不正确设备原因对接设备SDH帧结构中开销字节的定义不一致(如C2、J1、J0、H1、H2的设置)对接设备的性能指标不合要求对接设备的时钟不同步对接的光、电接口板型号不匹配对接信号的制式不同单板故障二.故障定位方法1.常用定位方法介绍定位设备对接故障原因的常用方法。
定位设备对接故障原因的常用方法有:告警、性能分析法;仪表测试法;更改配置法;经验处理法;环回法2.故障定位步骤介绍定位设备对接故障原因的标准流程。
3.背景信息按照信号的类型,设备对接可以分为SDH线路侧对接、支路侧对接和辅助接口(如串行接口)对接。
SDH线路侧对接故障处理流程图如图1所示。
PDH支路侧对接故障处理流程图如图2所示。
串行接口对接故障处理流程图如图3所示。
图1SDH线路侧对接故障处理流程图2 PDH支路侧对接故障处理流程图3 串行接口对接故障处理流程4.检查并分析告警和误码发生设备对接故障时,首先应检查上报的告警;通过告警可以初步分析、定位故障。
与对接故障有关的告警及告警产生的可能原因如表1所示。
表1 与对接故障有关的告警及告警产生的可能原因告警名称可能原因R_LOS,R_LOF 光纤、电缆连接故障;光功率不正常;光接口板或光纤类型不匹配;单板故障;时钟丢失AU_LOP 对接设备的信号类型或接口模式不一致,如开销、指针字节定义不一致。
AU_AIS 业务配置错误;光纤、电缆连接故障;单板故障J0_MM 对接设备的J0字节不一致;如果不下插AIS,则不会影响正常的业务。
华为OptiX OSN2500告警和性能管理
华为OptiX OSN2500告警和性能管理OptiX OSN2500支持上报告警和性能事件,可使用户能及时发现和定位设备和网络故障。
CXL板提供声光告警功能,当有紧急情况发生时,提醒网络管理员及时采取相应措施。
SEI单板提供16路外部告警输入接口、4路告警的输出接口、4路机柜告警灯输出接口、告警级联接口,方便设备的运行维护。
OptiX OSN2500设备中各单板均有运行、告警状态指示灯,协助网络管理员及时定位、处理故障。
有支持抑制告警风暴功能,即当上报的告警超过930条,网元会上报提示告警过多的告警。
支持告警抑制功能,防止干扰告警影响问题定位。
同一网元内,如果存在从线路板到支路板/数据板的业务,当线路板产生某些高阶告警时,将抑制掉支路板/数据板产生的低阶告警;如果只是支路板/数据板产生告警,此时该低阶告警不会被抑制,将上报网管。
同时OptiX OSN2500设备支持告警切除功能,可通过主控板按钮或网管接口实现。
OptiX OSN2500设备可自动监测网元间的网线连接情况,若发现故障可自动上报告警,或可查询部分单板的工作温度,支持性能事件上报,或可查询部分单板的电压值,支持性能事件上报。
复用段和TPS倒换后,可以保持工作通道上报告警或性能事件的状态,使业务管理人员只聚焦于业务的状态。
该设备还支持RMON(Remote Monitoring)即远程监控功能,可以在不同的网段间的传送网络监视数据,并支持全网错误诊断,规划和性能事件信息接收等功能。
对于15分钟监视周期,表示OptiX OSN2500设备可以存储16x15分钟的历史性能,即4个小时的15分钟历史性能。
对于24小时监视周期,表示该SDH设备可以存储6x24小时的历史性能,即6天的24小时历史性能。
OSN2500设备CP_SER_SLA_DEG告警
OSN2500设备CP_SER_SLA_DEG告警CP_SER_SLA_DEG告警告警解释CP_SER_SLA_DEG告警表⽰智能业务服务等级降低,此类告警常出现于 OSN2500等华为OSN系列设备智能保护级别降低时告警产⽣。
保护级别恢复时告警消失。
告警属性告警级别告警类型重要服务质量告警参数在⽹管中浏览告警时,选中该告警,在“告警详细信息”中会显⽰该告警的相关参数。
告警参数的格式为“告警参数(16 进制):参数1 参数2…参数n”。
每个参数的含义说明参见下表。
参数名称参数含义参数1、参数2 OSN2500设备业务SLA降低的原因,具体含义如下:0x0101:钻⽯业务只有⼀条LSP有效。
0x0102:钻⽯业务的主⽤和备⽤LSP路由相交。
0x0201:可返回式银级业务的路由与其共享MESH恢复路径的路由相交。
0x0202:可返回式银级业务的共享MESH恢复路径故障。
0x0203:可返回式银级业务的共享MESH恢复路径中断。
0x0301:⾦级业务使⽤了TE链路的⽆保护资源。
0x0302:⾦级业务同环时隙不⼀致。
0x0303:⾦级业务经过的复⽤段保护能⼒降低。
0x0401:关联的两条业务的路由相交。
对系统的影响当告警产⽣时,业务未中断,但服务等级降低。
常见故障现象说明:若⽆对应故障现象,或者故障现象不在本内容列举的故障现象内,请按“处理步骤”中推荐的操作顺序处理。
告警CP_SER_SLA_DEG产⽣的常见故障现象如下表所⽰。
表1 告警CP_SER_SLA_DEG上报现象描述常见故障现象对应原因钻⽯级业务断纤后主备不倒换直接重路由原因1:钻⽯业务(⾮永久1+1)只有⼀条LSP有效。
钻⽯级业务断纤主备都发⽣重路由原因2:钻⽯业务的主⽤和备⽤LSP路由相交。
可返回银级业务中间节点故障后不能恢复到MESH恢复路径原因3:可返回式银级业务的路由与其共享MESH恢复路径的路由相交。
可返回银级业务断纤后不能恢复到MESH恢复路径原因4:可返回式银级业务的共享MESH恢复路径故障。
OptiX2500+(Metro3000)ATM对接故障的定位方法与步骤
OptiX2500+(Metro3000)ATM 对接故障的定位方法与步骤一.常用定位方法仪表测试法:通过ATM 测试仪表来模拟实际业务,通过对发送的数据和接收的数据进行故障判断。
更改配置法:通过更改业务路径方向或是配置参数判断是设备故障还是参数设置错误。
环回法:通过逐段环回来定位故障位置,判断是设备内部原因还是外部原因;而后在故障位置针对故障现象或是告警信息通过更改配置法或是仪表测试法进行定位。
二.故障定位步骤对接故障可以分为业务中断和数据丢包两种故障类型,业务中断故障处理流程图如图1-1所示,数据丢包故障处理流程如图1-2所示。
图1-1业务中断故障处理流程ѵÍñÉÆ«ñÕ϶Î2²°Ð¯ÉÆ«ñÒÏR_LOS ·æ½¯ÉÆ«ñ¸âÎÊ/µç¿ÁÀ¬¼ÒÉÆ«ñÑì³£¸â¸¥ÁÉÉÆ«ñÑì³£¸â¼Ò¾Ú©å/¸âÎÊ¿ÏÌÉÆ«ñŤÄäÉÆÉÆ«ñ«ñÆ弸â¼Ò¾Úºîº©å´¥¿í¸âÎÊ/µç¿ÁÀ¬¼Ò¸ÉÔηüº¸âÎʺî¸â¼Ò¾Ú©å´¥¿í¶Ó¼Òȯª·«ñ²°Ð¯ÉÆ«ñÒÏHP-TIM ¡¢HP-SLM µÇ²ÍÉùɧÄäÑùÅðµÃ·æ½¯Ì³ÑºÈ¯ª·¼Ò¾Ú´¥¾ªÎú²°Ð¯ÉÆ«ñÒÏLCD ·æ½¯²°Ð¯ÑµÍñÁ«½¶«¼ÎîÈεÃÄäÕÂÉÆ«ñÔùÇ«ºÕ·´ºîÉÆÏÞ·ÃÄäÕ²°Ð¯ª½Ì÷ÓªÄäÕÂÉÆ«ñÔùÇ«6²°Ð¯Ì÷ÓªµÃSDH ѵÍñÄäÕÂÉÆ«ñÔùÇ«²°Ð¯ATM À¬¼ÒÄäÕÂÉÆ«ñÔùÇ«£¬VPI/VCI ÕµÉÆ«ñÔùÇ«ºÕ·´ºîÉÆÏÞ·ÃSDH ÄäÕºշ´ºîÉÆÏÞ·ÃATM À¬¼ÒÄäÕÂ345²°Ð¯ATM ÀðÀ¾ÄäÕÂÉÆ«ñÔùÇ«£¬ÀðÀ¾²ÍÉùÕµÉÆ«ñȯÕÂÏÞ·ÃATM ÀðÀ¾ÄäÕ»첰·ð·ö¶Ê¾ÚÉÆ«ñªºº«ºÖ7·´Íºµ¤©åÉÆ«ñ¼â½öÍÉËâ8¼â¾ª¶Ê¾Úº«ºÖ»ËÏ÷ÎÁѺ²¼Ä϶μ®É÷ÀªÎµºªÍª»ÉõÕ§³ÕÉÆ«ñ¶Ó¼Ò¸ÉÔÎÉÆ«ñijù£¾ÉÆÉÆÉÆÉÆÉÆ«ñ«ñ«ñ«ñ«ñ«ñÉÆÉÆATM¶Ó¼Ò¸ÉÔδ¥¿í´«ÉäÌ÷¸Üε̳Ä϶θÉÔοÏÌ1¬ªÉù½Ý¶ª©ü¸ÉÔ띨íÀð³ËÉÆ«ñ«ñ图1-2数据丢包故障处理流程ѵÍñÉù½ÝÉÆ«ñ²úÈú¶ª©ü2²°Ð¯SDH ²ÉÆ«ñÒÏÍïÁèºîÉÆÕ·ÔèµðÔøÉÆ«ñÉƬӺ«¹ïÉÆ«ñÇÓÒÏÍïÁè/Õ·ÔèµðÔø¸â¸¥ÁÉÉÆ«ñÑì³£ÉÆ«ñÆ弸â¼Ò¾Úºîº©å´¥¿íª½È¯ª·µÃÍïÁè/Õ·ÔèµðÔøÍÉËâ·üº¸âÎʺî¸â¼Ò¾Ú©å´¥¿í¶Ó¼Òȯª·«ñÉÆ«ñɪÕÒ²ºÌ¬²¼´¥¿íɪÕÒ̬²¼ÍÉËⲰЯÉÆ«ñÒÏÏÄÓª¶ªÉ§²°Ð¯·ÂÀ¬¼Ò«¼ÎîÈÎÏÄÓªÉÆ«ñ¶ªÉ§Ì¨¸ùº«ºÖ»ì²°³ö¸ÉÔε㲢´¥¿í¸ÉÔεãÍÉËⲰЯª½Ì÷ÓªÄäÕÂÉÆ«ñÔùÇ«6²°Ð¯·ÂÀ¬¼ÒɸÒµÃÀðÀ¾²ÍÉùÉÆ«ñÔùÇ«ºÕ·´ºîÉÆÏÞ·ÃATM ÄäÕÂ345·´Íºµ¤©åÉÆ«ñijù¸ÉÔÎ7»ËÏ÷ÎÁѺ²¼Ä϶μ®É÷ÀªÎµºªÍª»ÉõÕ§³ÕÉÆ«ñ¶Ó¼Ò¸ÉÔÎÉÆ«ñijù?ÉÆÉÆÉÆ«ñ«ñ«ñÉÆATM¶Ó¼Ò¸ÉÔδ¥¿í´«ÉäÌ÷¸Üε̳Ä϶θÉÔοÏÌ1¬ªÑµÍñÕ϶θÉÔ띨íÀð³Ë«ñÉÆÉÆ«ñÉÆ«ñ1.判断故障类型ATM 的故障类型分为两种,一种是ATM 业务完全中断,一种是ATM 业务发生丢包现象,两种类型的故障处理思路不同。
OptiX OSN2500 设备DBMS_ERROR 告警
OptiX OSN2500设备DBMS_ERROR告警
OptiX OSN2500设备DBMS_ERROR告警表示数据库文件校验失败。
告警参数
在网管中浏览告警时,选中该告警,在“告警详细信息”中会显示该告警的相关参数。
告警参数的格式为“告警参数(16进制):参数1 参数2…参数n”。
每个参数的含义说明参见下表。
对系统的影响
OptiX OSN2500设备产生该告警对系统的影响如下:
∙数据库主备备份失败
∙数据库自身无法进行恢复
可能原因
该告警的原因如下:
∙软件异常
∙硬件介质异常
此告警是供研发人员定位系统异常使用的,当OptiX OSN2500设备出现该告警时,需告知华为工程师。
资料由华佳慧SDH设备销售有限公司提供,转载请保留。
华为公司OptiX2500常见告警及产生原因
华为公司OptiX2500常见告警及产生原因华为公司OptiX 2500常见告警及产生原因1、APS_FAIL:告警表明复用段自动保护倒换失败。
原因:复用段节点信息丢失或新旧协议不一致2、APS_INDI:告警表明已经发生了复用段保护倒换。
原因:有R_LOS R_LOF MS_AIS B2_EXC或者有 B2_SD使能或下发了外部倒换命令3、AU_AIS:告警表明线路接收的信号中AU指针全部为“1”产生该告警表明该AU4的业务不可用,系统会向对端回传HP_RDI告警,如果配置有子网连接保护(SNCP),则会发生信号失效(SF)倒换4、AU_LOP:告警表明线路板接收的信号中的AU指针丢失。
该AU4的业务不可用。
系统会向对端回传HP_RDI告警,如果配置有子网连接保护(SNCP),则会发生信号失效(SF)倒换5、B1_EXC:告警表明线路接收的信号中再生段(B1)误码越限。
光口上接收的信号再生段误码(B1)过大,超过了性能门限,导致该光口的业务不可用。
产生该告警后,系统默认会向交叉方向下插AU_AIS。
6、B2_EXC:告警表明线路接收的信号中复用段(B2)误码越限。
光口业务不可用,默认下插AU_AIS,同时将B2误码块数放入回传M1字节,对端会收到MS_REI告警7、BD_STATUS:告警表明系统中已创建逻辑板的单板不在位或离线8、BIP_EXC:告警表明支路板低阶BIP2误码越限较大的低阶通道误码(BIP),会影响该通道的业务使用,产生此告警后,系统会向对端回传LP_REI告警9、HP_LOM:告警表明高阶通道复帧丢失VC12业务的复帧指示丢失,VC12业务不可用。
产生该告警后,单板会向相应通道下插TU_AIS10、HP_RDI:告警表明本端线路收到对端线路回告的高阶通道远端接收失效指示产生该告警表明对端接收到的业务有AU_AIS或AU_LOP或HP_TIM或HP_SLM告警,将向本端回告此告警11、HP_REI:告警表明本端线路收到对端线路回告的高阶通道远端误码指示对端站接收到B3误码12、HP_SLM:告警表明线路板接收的高阶通道信号标记(C2)失配该告警表明本端接收到的高阶开销的C2字节与应收的字节不一致,会造成净荷中的业务不可用。
OptiX OSN2500设备MS_AIS告警
OptiX OSN2500设备MS_AIS告警OptiX OSN2500设备MS_AIS告警表示复用段告警指示,当本站光口接收侧连续5帧接收到的K2字节后三位为“111”时就会上报该告警。
该表示上报告警的光口对应的复用段信号不可用。
在OptiX OSN2500网管中浏览告警时,选中该告警,在“告警详细信息”中会显示该告警的相关参数。
告警参数的格式为“告警参数(16 进制):参数1 参数2…参数n”。
每个参数的含义说明参见下表。
对系统的影响∙该告警产生时,OptiX OSN2500设备业务会中断。
∙产生该告警后,系统会自动向对端站回告RDI信号,对端站会产生MS_RDI告警。
常见故障现象若可能原因无对应故障现象,或者故障现象不在本内容列举的故障现象内,请按“处理步骤”中推荐的操作顺序处理。
告警MS_AIS产生的常见故障现象如表所示。
可能原因告警MS_AIS产生的可能原因如下:∙原因1:上游站点下插至下游站点的AIS告警。
以线路板为例,如图所示NE3网元。
若NE3网元上报MS_AIS告警,沿业务信号流在上游站点(NE2网元)查询是否存在高级别告警。
MS_AIS检测信号流∙原因2:本站接收单板故障。
∙原因3:上游站点主备交叉时钟板均不在位。
∙原因4:上游站点发送单板故障(包括交叉时钟板故障)。
处理步骤1.原因1:上游站点下插至下游站点的AIS告警。
a.在OptiX OSN2500网管查询该告警涉及业务配置信号流向。
沿业务流在上游站点查询是否存在高级别告警,如R_LOS、R_LOF告警。
2.原因2:本站接收单板故障。
a.通过网管硬复位或者直接拔插本站接收单板。
若经过单板的业务没有保护,硬复位单板会导致业务中断。
b.查询告警是否消除。
若告警未消除,可使用环回法定位本站接收单板是否故障。
如图所示,若NE3网元上报MS_AIS告警,内环回上游站点(NE2网元)发送单板(东向线路板)的光口。
环回定位示意图环回操作会导致业务中断。
OptixOSN2500REG单板告警指示灯说明
OptixOSN2500REG单板告警指示灯说明Optix OSN2500REG单板告警指示灯说明单板硬件状态灯(STAT)说明状态描述指示灯说明亮(绿色)单板工作正常亮(红色)单板硬件故障灭单板没有电源输入业务激活状态灯(ACT)说明状态描述指示灯说明亮(绿色)业务处于激活状态,单板正在工作。
灭业务处于非激活状态。
单板软件状态灯(PROG)说明状态描述指示灯说明亮(绿色)FLASH中单板软件或FPGA存储加载正常,或者单板软件初始化正常。
100毫秒亮100毫秒灭(绿色)正在向FLASH中加载单板软件或向FPGA中加载FPGA软件。
300毫秒亮300毫秒灭(绿色)单板软件正在初始化,正处在BIOS引导阶段。
亮(红色)FLASH中单板软件或FPGA丢失,加载单板软件不成功,初始单板软件化不成功。
灭没有电源输入。
业务告警指示灯(SRV)说明状态描述指示灯说明亮(绿色)业务工作正常,没有任何业务告警产生。
状态描述指示灯说明亮(红色)业务有紧急或主要告警。
亮(黄色)业务有次要和远端告警。
灭没有配置业务且没有告警,或没有电源输入。
同步时钟状态灯(SYNC)说明状态描述指示灯说明亮(绿色)时钟工作在自由振荡方式,且没有设置系统时钟优先级表(系统时钟优先级表默认只有内部源)。
时钟工作在跟踪模式,并且正在跟踪优先级表中除内部源以外的其他时钟源。
亮(红色)已经设置了系统时钟优先级表,但是除内部源外,表中的其他时钟源都已经丢失,时钟工作在保持模式或者由振荡模式。
告警切除指示灯(ALMC)状态描述指示灯说明亮(黄色)当前处在告警长期切除状态灭有告警立刻用声音提示以太网指示灯说明指示灯名称状态描述指示灯说明连接状态指示灯-LINK(绿色)亮网线与设备连接成功灭网线与设备没有连接上数据收发指示灯-ACT(橙色)闪烁有数据收发灭没有数据收发主控单元主备状态指示灯(ACTC)说明状态描述指示灯说明亮(绿色)主控单元处于主用状态灭主控单元处于备用状态风机盒运行状态灯(STATE)说明状态描述指示灯说明亮(绿色)风扇运行正常亮(红色)风扇、风扇电源板或风扇控制板异常亮(黄色)低温关断风扇COA面板指示灯说明指示灯状态描述指示灯说明绿色运行灯-RUN 每2秒闪烁1次(绿色)正常运行(开工)每4秒闪烁1次(绿色)数据库保护模式;单板和SCC板通信中断。
OptiX OSN2500以太网业务故障原因及定位方法
OptiX OSN2500以太网业务故障原因及定位方法一.常见故障原因发生以太网业务故障时,通常会导致业务中断或业务劣化。
导致业务中断的主要故障原因如表1所示。
表1导致业务中断的主要原因编号业务中断原因1 端口属性设置被改变或不匹配。
2 物理层出现故障(实际端口工作模式不正确、端口某些参数异常、出线板故障等)。
3 网线或光纤出现故障。
4 单板硬件故障。
5 封装协议不匹配。
6 帧失步或封装错误。
7 端口的默认VLAN ID设置不一致。
8 传输过程大量丢包。
导致业务劣化的主要故障原因如表2所示。
表2导致业务劣化的主要原因编号业务劣化原因1 业务量大,带宽配置不够。
2 带宽充足,但业务突发量大。
3 业务量过大时,对端设备不响应流控造成丢包。
4 单板设备的最大传输包长小于实际设备的传输包长。
5 端口模式和对端设备不匹配,造成工作在异常状态。
6 网线或光纤出现故障。
表2导致业务劣化的主要原因编号业务劣化原因7 单板硬件故障。
8 业务存在回路,而且未启动生成树。
二.故障定位方法1.用定位方法以太网故障处理常用的定位方法包括告警与性能分析法、环回法和仪表测试法等。
告警与性能分析法;RMON(Remote Network Monitoring)性能分析法;网管操作日志分析法;测试帧功能;环回法;仪表测试法;报文分析法;数据设备PING功能2.故障定位步骤以太网故障定位遵循“先外部、再内部”,“先软件、再硬件”,“先单板、再系统”的原则。
导致业务中断的以太网故障定位流程如图1所示。
图1 导致业务中断的以太网故障定位流程图导致业务劣化的以太网故障定位流程如图2所示。
图2 导致业务劣化的以太网故障定位流程图。
OptiX OSN2500误码问题的常见原因及定位方法
OptiX OSN2500误码问题的常见原因及定位方法一.常见故障原因产生误码问题的常见原因有三个方面:外部原因、设备原因和数据配置错误。
产生误码的常见原因如表1所示。
表1 误码问题的常见原因故障类别故障原因外部原因接收光功率过低、过高,色散过大电缆性能劣化环境问题(外部干扰、温度过高/低等)接地不良设备原因线路板、时钟单元、交叉单元、支路板故障风扇异常数据配置时钟配置错误二.常用方法定位误码问题时,常用三种方法:告警与性能分析法、逐段环回法和替换法。
1.告警、性能分析法由于环回法对正常业务有影响,因此处理误码问题时,一般主要通过对误码、性能事件的仔细分析,定位出故障点。
表1列出对分析误码问题非常重要的性能事件和告警。
表1 误码越限告警及性能事件检测位置误码检测位置性能事件告警本端站检测到有误码对端站检测到有误码本端站检测到有误码对端站检测到有误码再生段RSBBE - B1_EXC -复用段MSBBE MSFEBBE B2_EXC MS_REI高阶通道HPBBE HPFEBBE HPCROSSTR HP_REI低阶通道LPBBE LPFEBBE LPCROSSTR LP_REI如图1所示的链形组网中,当网元间有VC-4的业务时,NE2、NE3、NE4各线路板上报的误码性能事件如表2所示,则可以判断出,是NE2往NE3方向的光路有误码。
表2 示例中网元NE2、NE3、NE4上报的误码性能事件网元光板(W)光板(E)NE2 - MSFEBBE、HPFEBBENE3 RSBBE -NE4 MSBBE、HPBBE -2.逐段环回法在条件允许的情况下,可使用环回法快速定位出故障站点。
使用环回法处理误码问题的步骤,与第三章的业务中断故障处理相同,在此不作介绍。
3.替换法在条件允许的情况下,替换法通常都是协助故障定位和检验故障定位准确性的很好方法,包括替换光纤、光器件、单板等。
三.故障定位步骤介绍定位误码故障的标准流程。
OSN2500设备T_ALOS告警处理方法
OSN2500设备T_ALOS告警处理方法
OSN2500设备T_ALOS告警参数具体含义为:参数1固定为0x01,无意义;参数2、参数3代表通道号,参数2表示高位,参数3表示低位。
例如:参数2=0x00,参数3=0x01,表示上报该告警的为该单板1号通道。
T_ALOS告警表示E1或T1接口模拟信号丢失。
如果2Mbit/s或1.5Mbit/s接口没有任何业务输入时,OSN2500设备将上报此告警。
该告警产生后,会造成PDH 业务中断。
OSN2500设备产生该告警的可能原因有:E1或T1业务未接入;DDF架侧E1或T1接口输出端口脱落或松动;电缆故障;接口板故障或单板故障。
具体处理步骤参考如下:
通过OSN2500设备网管查询该告警,确定产生该告警的单板。
检查该单板相应通道的E1或T1业务是否接入,保证相应通道的业务已接入后,再查看告警是否消除。
如果告警未消除,在DDF架处对告警通道的业务自环,即硬件内环回。
如告警消除,表示对端SDH设备有故障,再排除对端设备故障后,查看告警是否消除。
如果告警未消除,在接口板处对该通道进行自环,如果告警消除,表示信号电
缆连接故障,排除OSN2500设备信号电缆连接故障后,查看告警是否消除。
如果告警未消除,则需更换上报该告警的单板。
若OSN2500设备此告警仍未消除,检查对端设备是否故障。
如有必要,需更换对端站单板。
如果告警未消除,在网管上对该通道进行内环回设置(注意:以上环回操作都会导致业务中断),如果告警消除,表示接口板故障,重新插拔、更换接口板后,查看告警是否消除。
华为OSN2500设备HARD_BAD告警的原因与处理不步骤
华为OSN2500设备HARD_BAD告警的原因与处理不步骤可能原因有如果上报告警的为单板,告警HARD_BAD产生的可能原因如下:∙原因1:业务单板与母板接触不良、版本不配套或者故障。
∙原因2:交叉单板和母板接触不良或者故障。
∙原因3:主控单板和母板接触不良或者故障。
∙原因4:网元电源工作异常。
如果上报告警的为ODU,告警HARD_BAD产生的可能原因如下:原因5(ODU):ODU故障。
处理步骤1.在华为OSN2500的网管上查询告警。
确定上报告警的板位号,以及告警参数的含义。
具体操作参见《任务集》浏览网元当前告警。
2.原因1:业务单板与母板接触不良、版本不配套或者故障。
1.查询单板软件版本和主机软件版本,确认两者是否配套。
具体操作参见《任务集》查询单板信息报表。
如果……则……两者不配套,联系华佳慧工程师,升级相关软件版本。
查询告警是否消除。
若告警未消除,继续下一步。
两者配套,继续下一步。
2.重新拔插告警参数1对应的业务单板。
拔插单板具体操作参见《安装指南》拔出单板和《安装指南》插入单板。
查询告警是否消除。
3.若告警未消除,更换该业务单板。
具体操作参见《任务集》现场更换单板。
4.查询告警是否消除。
若告警未消除,转5。
1.原因2:交叉单板和母板接触不良或者故障。
1.重新拔插华为OSN2500安装的交叉单板。
拔插单板具体操作参见《安装指南》拔出单板和《安装指南》插入单板。
查询告警是否消除。
2.若告警未消除,更换交叉单板。
具体操作参见《部件更换》更换CXL单板。
3.查询告警是否消除。
若告警未消除,转5。
2.原因3:主控单板和母板接触不良或者故障。
1.重新拔插主控单板。
拔插单板具体操作参见《安装指南》拔出单板和《安装指南》插入单板。
查询告警是否消除。
2.若告警未消除,更换主控板。
具体操作参见《部件更换》更换CXL单板。
3.查询告警是否消除。
若告警未消除,转5。
1.原因4:网元电源工作异常。
1.华为OSN2500设备的电源电压不稳定,如网元掉电后又快速上电,会导致单板检测电压异常而上报该告警。
OSN2500设备A LOC告警处理介绍
OSN2500设备A LOC告警处理介绍OSN2500设备A_LOC告警为业务上行方向总线时钟丢失告警,是华为OSN1500、OSN3500、OSN7500等OSN系列比较常见的告警,属于重要级别告警。
在华为OSN2500设备网管中浏览告警时,选中该告警,在“告警详细信息”中会显示该告警的相关参数。
告警参数的格式为“告警参数(16 进制):参数1 参数2…参数n”。
每个参数的含义说明如下:参数1 表示光口号,固定为0x01;参数2、参数3 表示通道号。
参数2表示高位,参数3表示低位。
例如:参数2=0x00,参数3=0x01,表示上报该告警的为该单板1号通道。
华为SDH设备产生该告警时,单板通道所承载的业务会中断。
造成此告警的原因可能有以下几点:①与该业务通道对接的PDH设备故障;②业务类型配置错误;③业务交叉配置错误;④单板硬件故障;⑤交叉时钟板故障。
处理步骤如下:步骤1 检查本业务通道对接的PDH设备是否正常,如有故障优先排除,查看告警是否消除。
步骤2 在华为OSN2500设备网管中查看该告警,根据告警参数确定产生告警的单板通道号。
步骤3 检查该通道的业务配置是否正确,确保本端和对端的业务类型设置一致,并确保交叉配置正确,查看告警是否消除。
步骤4 若告警未消除,在网管上查看上报告警的单板是否存在其他硬件故障告警,硬复位该单板后,查看告警是否消除。
需注意的是:若经过单板的业务没有保护,硬复位单板会导致业务中断。
步骤5 若告警仍未消除,更换该单板。
步骤6 若告警仍未消除,硬复位交叉时钟板后,查看告警是否消除。
注意:如果没有工作正常的备交叉板进行保护,硬复位交叉时钟板可能会引起业务完全中断。
步骤7 若华为OSN2500设备告警仍未消除,则交叉时钟板故障,更换交叉时钟单板后,告警会自动消除。
OptiX2500+(Metro3000)故障处理的过程示例
OptiX2500+(Metro3000)故障处理的过程示例对于传输设备的故障处理来说,不管对于哪种类型的故障,其处理过程都是大致相同的。
在处理故障时,首先排除传输设备外部的问题,然后将故障定位到单站,接着定位单板问题,最终将故障排除。
1.排除传输设备外部故障在进行传输设备的故障定位前,首先排除外部设备的问题。
这些外部设备问题包括:接地、光纤、中继线、交换机、电源故障等问题。
分离传输设备问题还是交换机问题方法1:可以通过自环交换机中继接口来判断。
如果中继接口自环后,交换机中继板状态异常,则为交换机问题。
如果中继接口自环后,交换机中继板状态正常,则一般为传输设备或中继电缆的问题。
方法2:通过测试传输设备2M/34M/140M 业务通道的好坏,来判断是否是交换机故障。
测试时,使用电口环回的方法,如图1-1所示。
图1-1 电口环回的方法RXTX OptiX 设备RX TXSDH 分析仪/误码测试仪OUTIN RXTX SDH 单元交叉单元PDH 单元OptiX 设备OUTIN NE1NE2交换机RX TX PDH 单元交叉单元SDH 单元在站点NE2选择一故障业务通道,进行挂表测试,在站点NE1的支路板上把对应业务通道设置为内环回,这样就隔离了交换机。
如果环回后仪表显示业务正常,则说明传输设备没有问题,故障可能在交换机或中继电缆;如果业务仍不正常,则说明传输设备可能有问题。
光纤故障的排除对于怀疑断纤的情况,此时,线路板必然有R_LOS 告警。
为进一步定位是线路板问题还是光纤问题,可采取如下方法。
方法1:使用OTDR (Optical Time-Domain Reflectometer )仪表直接测量光纤。
可以通过分析仪表显示的线路衰减曲线判断是否断纤,以及断纤的位置。
但需注意,OTDR 仪表在很近的距离内,有一段盲区。
注意:测试时,需要断开与线路板相连的尾纤,因为OTDR 的发光功率比较大,线路板接收光功率过载,会导致线路板损坏。
OSN2500设备BUS_ERR告警
OSN2500设备BUS_ERR告警本内容介绍OSN2500设备BUS_ERR告警,该告警为交叉总线错误告警。
当交叉板检测到业务板发送给交叉板的总线异常时就会产生此告警。
告警属性告警参数在网管中浏览告警时,选中该告警,在“告警详细信息”中会显示该告警的相关参数。
告警参数的格式为“告警参数(16 进制):参数1 参数2…参数n”。
每个参数的含义说明参见下表。
对系统的影响∙产生该告警时,经过相关总线的业务将会中断或有误码。
∙如果产生III型BUS_ERR将会置坏单板。
∙如果产生II型BUS_ERR将会触发主备倒换。
常见故障现象说明:若可能原因无对应故障现象,或者故障现象不在本内容列举的故障现象内,请按“处理步骤”中推荐的操作顺序处理。
可能原因BUS_ERR告警产生的可能原因如下:∙原因1:业务板与交叉板软件版本不匹配。
∙原因2:交叉板软件版本和逻辑版本不匹配。
∙原因3:业务板故障。
∙原因4:交叉板故障。
∙原因5:扩展子架与主子架间的电缆故障。
∙原因6:业务板到交叉板的母板总线损坏。
处理步骤1.在网管上查询告警,确定上报告警的交叉板槽位。
根据告警参数1确定交叉板对应的业务板,根据告警参数4确定BUS_ERR的告警类型。
2.原因1:业务板与交叉板软件版本不匹配。
∙若告警参数4的取值为“0x01”或“0x02”,继续下一步。
∙若告警参数4的取值为“0x03”,转3。
c.分别查询上报告警的交叉单板的软件版本,以及告警参数1指示的业务单板的软件版本。
根据产品软件版本配套关系表,确定两者是否配套。
原因2:交叉板软件版本和逻辑版本不匹配。
.查询交叉板的逻辑版本与软件版本。
根据产品软件版本配套关系表,确定两者是否配套。
原因3:业务板故障。
.检查告警参数1指示的业务单板及上报告警的交叉板是否已插紧。
确认单板插紧后,查询告警是否消除。
a.若告警未消除,复位业务单板。
查询告警是否消除。
b.若告警未消除,更换业务单板。
查询告警是否消除。
OptiX OSN2500设备故障定位之PRBS功能测试法
OptiX OSN2500设备故障定位之PRBS功能测试法PRBS功能测试法是判断和定位故障的方法之一。
1.概述伪随机码测试(PRBS)模块相当于一个简单的自发自收的非成帧业务的仪表。
在开局或问题定位时,可以做到无仪表测试,一般用于网络的自检和维护。
实现了PRBS(Pseudo Random Bit Sequence)功能的网元,可以作为一个简单的仪表,分析业务通道是否有故障。
既可以分析本网元,也可以分析整个网络的情况。
2.PRBS功能测试法应用PRBS测试法分为低阶业务PRBS功能测试和高阶业务PRBS功能测试。
启用低阶或者高阶PRBS功能后,在相应位置进行环回,就可以进行交叉方向、支路方向、线路方向测试。
根据是否检测到误码判断相应测试通道的工作状态。
低阶业务PRBS功能测试:PRBS模块集成在支路板实现,如图1所示。
图1低阶业务PRBS测试信号流由支路板发起的PRBS功能测试,可以向两个方向发送。
向电口侧发送:经电缆或别的网元环回,可检测支路板发送方向的端口是否工作正常。
单板向该支路的发射(Tx)端口方向发送固定的伪随机码,在该支路端口的接收(Rx)端口接收伪随机码,如图2所示。
图2低阶业务支路方向PRBS测试向交叉方向发送:经高阶交叉芯片,从低阶交叉芯片返回,也可经低阶交叉芯片调度到其他单板(可以是支路板或线路板),从其他单板环回。
返回到交叉板后,再回到发起PRBS测试的支路板校验结果。
可检测高、低阶交叉芯片以及其他业务单板(支路板或线路板)通道是否正常。
如图3所示,单板在该通道向交叉方向发送固定的伪随机码,在该通道的下行方向接收伪随机码。
图3低阶业务交叉方向PRBS测试高阶业务PRBS功能测试:PRBS功能模块集成在线路板实现。
由线路板实现:由线路板发起的线路方向高阶PRBS测试用于检测线路板的某一高阶通道是否工作正常,可以向光口侧发送,经光纤或别的网元环回,可检测线路板发送方向的通道是否可用,如图4所示。
optix2500+倒换后告警分析
某工程局方人员在测试中发现2500+设备复用段倒换后,产生了不同的告警现象。
出现此现象的原因与2500+设备处理高阶开销的方式有关。
现分析如下:一、问题描述该工程组网图如下图所示:在“1-A ”站,将9槽位的S16板(对“4-D ”)的收纤拔下,然后恢复,9槽位S16板所有告警立即结束;而将10槽位的S16的收纤拔下,然后恢复,10槽位的S16板上有HP-TIM 、B3-EXC 、HP-UNEQ 等告警,这些告警不是随R-LOS 告警一起结束,而是要等10分钟后随PS 告警一起结束。
具体告警情况:HVOC2-5有HP-TIM 和B3-EXC 等告警。
断同一网元不同两侧的光缆,倒换后出现了不同的告警现象。
二、原因分析1、高阶开销的终结方式:出现以上的现象与2500+设备处理高阶通道的开销方式和业务配置的方式有关。
为了适应多种业务对传输通道透明性的要求,2500+设备在配置为VC4业务属性类别时,对高阶开销缺省为不终结处理。
而在配置VC12/VC3业务属性类别时,则采用了高阶开销终结的方式。
高阶开销终结,是指SDH 设备将接收(下游信号)到的开销信号进行处理、终结,发送(指交叉连接,上游信号)给对端的则是SDH 设备本身的缺省开销。
高阶开销不终结,是指SDH 设备对接收到的开销信号不进行处理,直接进行转发给对端。
从两种方式的开销处理可以看出,开销终结将不能保证接收和发送的开销一致,而不终结则可保证接收和发送的开销相一致。
2500+MSP1-A2-B3-C4-D1-EXT2-EXT3-EXT采用高阶开销不终结的方式传递业务,可以简化设置,并能够避免业务在某些无法设置的情况下导致中断。
因VC4业务的C2类型很多,为方便对接,我司在配置为VC4业务时缺省的设置高阶通道开销都是不终结的。
VC4的C2字节类型见附件。
2、高阶开销的传送举例:A B C DVC4VC4下图所示:A站有一个VC4的ATM业务经过B站,C站到达D站。
华为OSN2500设备TU_AIS告警
华为OSN2500设备TU_AIS告警华为OSN2500设备TU_AIS告警为TU告警指示。
如果单板检测出TU通道全为1时,上报此告警。
告警参数在华为OSN2500网管中浏览告警时,选中该告警,在“告警详细信息”中会显示该告警的相关参数。
告警参数的格式为“告警参数(16 进制):参数1 参数2…参数n”。
每个参数的含义说明参见下表。
对系统的影响该告警会造成华为OSN2500设备单板通道上的业务中断。
常见故障现象若无对应故障现象,或者故障现象不在本内容列举的故障现象内,请按“处理步骤”中推荐的操作顺序处理。
告警TU_AIS产生的常见故障现象如表所示。
可能原因告警TU_AIS产生的可能原因如下:•原因1:上游网元告警下插至下游网元的AIS信号。
图1 TU_AIS告警的检测1•原因2:业务交叉配置异常。
图2 TU_AIS告警的检测2•原因3:对端发送单板故障(包括交叉时钟板故障)。
•原因4:本端接收单板故障(包括交叉时钟板故障)。
处理步骤1.在华为OSN2500网管上查询告警。
确定产生该告警的单板,并根据告警确定上报告警的通道。
2.原因1:上游网元告警下插至下游网元的AIS信号。
a.沿着业务流向,在本网元及上游网元查询是否存在导致TU_AIS下插高级别告警。
3.原因2:业务交叉配置异常。
a.沿着业务流向,查询业务交叉配置是否正确。
如图2所示,检查NE1与NE2网元间的业务配置。
若NE1与NE2传送一个2Mbit/s业务。
NE1将该2Mbit/s业务复用至线路的第48个VC12时隙中,NE2下载业务时配置到线路的第49个VC12时隙中。
当NE2的该时隙未配置业务,则NE2该通道产生TU_AIS告警。
当NE2该时隙配置了其他2Mbit/s业务,则NE2产生串线问题。
4.使用环回法沿业务信号流定位最初产生TU_AIS告警的网元。
环回操作会导致业务中断。
如果上游网元配置的其他业务使用的通道和本网元上报告警的通道为相同的VC4通道,上游网元不能使用环回法。
optix2500+高级培训手册故障定位基本思路与方法
目录第2章故障定位基本思路与方法 (1)2.1对维护人员的要求 (1)2.2故障定位的基本思路 (2)2.2.1 故障定位的关键 (2)2.2.2 故障定位的原则 (3)2.3故障定位的常用方法 (3)2.3.1 告警、性能分析法 (3)2.3.2 环回法 (7)2.3.3 替换法 (12)2.3.4 配置数据分析法 (13)2.3.5 更改配置法 (13)2.3.6 仪表测试法 (14)2.3.7 经验处理法 (14)2.3.8 1.3.8 各种故障定位法的比较 (14)2.4故障处理的过程及其方法 (15)2.4.1 排除传输设备外部故障 (15)2.4.2 故障定位到单站 (17)2.4.3 故障定位到单板并最终排除 (17)第1章故障定位基本思路与方法OptiX光传输系统经过工程安装期间技术人员的精心安装和调测,都能正常稳定地运行。
但有时由于多方面的原因,比如受系统外部环境的影响、部分元器件的老化损坏、维护过程中的误操作等,都可能导致OptiX光传输系统进入不正常运行的状态。
此时,就需要维护技术人员能够对设备故障进行正确分析、定位和排除,使系统迅速恢复正常。
本章介绍故障定位的基本思路及其常用的处理方法。
1.1 对维护人员的要求故障的快速定位和及时排除,对维护人员的业务技能、操作规范、心理素质等均提出较高要求。
1. 加强SDH基本原理,尤其是告警信号流的学习要求维护人员做到对SDH传输系统告警信号流非常熟悉。
对于影响业务和性能的各单板危急告警、主要告警,要掌握其产生的机理、相应的回传以及对下游信号的影响。
只有对每个告警的机理、影响都非常熟悉,才能更好地利用这些告警信息,对故障原因做出一个清晰的判断。
比如,对于MS-AIS告警,我们需知道,该告警是复用段告警指示信号,其产生的机理是系统检测到了复用段开销中K2字节的低3位为全“1”,其回传是MS-RDI。
系统检测到MS-AIS告警后,将下插全“1”信号,导致下游的高阶、低阶通道信号均为全“1”。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
OptiX OSN2500设备故障定位之告警、性能
分析法
告警、性能分析法是定位故障的方法之一。
SDH信号的帧结构里定义了丰富的、包含系统告警和性能信息的开销字节。
因此,当SDH系统发生故障时,一般会伴随有大量的告警和性能事件信息,通过对这些信息的分析,可大概判断出所发生故障的类型和位置。
获取告警和性能事件信息的方式有以下两种:
1)通过网管查询传输系统当前或历史发生的告警和性能事件数据。
2)通过传输设备机柜和单板的运行灯、告警灯的状态,了解设备当前的运行状况。
1.通过网管获取告警信息,进行故障定位
通过网管获取故障信息,定位故障的特点是:
1)全面:能够获取全网设备的故障信息。
2)准确:能够获取设备当前存在哪些告警、告警发生时间,以及设备的历史告警;能够获取设备性能事件的具体数值。
3)如果告警、性能事件太多,可能会面临无从着手分析的困难。
4)完全依赖于计算机、软件、通信三者的正常工作,一旦以上三者之一出问题,通过该途径获取故障信息的能力将大大降低,甚至于完全失去。
下面通过举例,对告警、性能数据分析法给予说明。
在如图1所示的链形组网中,网管计算机设在NE1站。
图1链形组网图
故障现象:NE1站和NE4站间的E1业务中断,从NE1站无法登录NE4站,且NE3站东向光板有MS_RDI告警和HP_RDI 告警,NE1站与NE4站间的业务所对应的E1通道有LP_RDI告警。
分析判断:通过分析告警,可知NE4站没有正确接收到NE3站发出的信号,而NE3站能正确接收到NE4站发出的信号。
可能的故障原因包括:
1)NE3站东向光板发送信号有问题。
2)光缆线路(包括光纤和光纤接头)有问题。
3)NE4站光板接收信号有问题。
故障定位:借助于网管软件,可以通过修改业务配置、人工插入告警等方法,对故障进行定位。
例如,若我们怀疑图1中NE2站与NE3站间光纤接反(即NE2站的东向光接口板误接NE3站的东向光接口板),则可以通过网管在NE2站东向光接口板人工插入HP_RDI,然后通过网管观察NE3站告警上报情况:
1)若是NE3站的西向光接口板上报了HP_RDI告警,则说明NE2站的东向发送端接的是NE3站的西向接收端,光纤连接正确。
2)若是NE3站的东向光接口板上报了HP_RDI告警,则说明NE2站的东向发送端接的是NE3站的东向接收端,光纤接反,需要纠正。
警告:通过网管获取告警或性能信息时,应注意保证网络中各网元当前时间与网管时间同步,倘若网元当前时间与网管时间不同步,将会导致告警、性能信息上报错误。
在维护过程中,对某网元重下配置后,应特别注意将该网元的网元当前时间与网管时间同步,否则网元会工作在缺省时间里,而缺省时间并不是当前时间。
2.通过设备上的指示灯获取告警信息,进行故障定位
OptiX OSN设备上有不同颜色的运行和告警指示灯,这些指示灯的状态,反映出设备当前的运行状况或存在告警的级别。
指示灯的状态及含义请参见《OptiX OSN2500智能光传输系统硬件描述》。
3.两种获取故障信息途径的比较
从上面的介绍可以看出,通过网管与通过观察设备指示灯这两个途径获取设备故障信息,各有其优点。
因此,在实际的故障定位过程中,这两种手段要结合起来使用。
排除故障时,需要网管中心的维护人员与各站的设备维护人员共同参与,一般由网管中心的维护人员协调指挥,各站的设备维护人员密切配合,统一行动。
两种途径的比较如表1所示。
表1通过网管和指示灯获取故障信息途径的比较
项目网管设备指示灯主要使用者网管维护人员设备维护人员
定位作用主要配合
告警信息全网、大量、确切单站、少量、模糊
历史告警有无
告警时间可以看到无法知道
性能事件可以看到无法知道
计算机、软件、通信完全依赖无关。