SDH传输系统网元脱管分析及处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

SDH传输系统网元脱管分析及处理
孙青
【摘要】在SDH传输系统的日常维护中,网元脱管属于常见故障,但网元脱管的原因有很多,在处理此类故障时需要维护人员有一个清晰的思路才能找到问题症结的所在,对网元脱管的常见原因进行分析并提出处理方案.
【期刊名称】《上海铁道科技》
【年(卷),期】2012(000)004
【总页数】3页(P56-58)
【关键词】SDH;传输系统;网元脱管
【作者】孙青
【作者单位】上海铁路局上海通信段
【正文语种】中文
【中图分类】TN914.332
1 传输网管系统概述
SDH(Synchronous Digital Hierarchy,同步数字体系)是一种将复接、线路传输及交换功能融为一体、并由统一网管系统操作的综合信息传送网络,简称传输网络,也是目前铁路通信中应用最广的传输通道承载网络。

传输系统网管主要由网管终端(含服务器或工作站)、传输通道(可以是LAN或WAN)以及网络设备(含GNE以及NE)组成,其网络结构如图1所示:
图1 传输网管系统网络结构示意图
如图1所示,网管终端在上层应用TCP/IP协议实现服务器和工作站的互通,在下层应用嵌入控制通路(Embedded Control Channel ECC)协议栈实现工作站与网元(NE)节点的通信,SDH设备之间的通信使用ECC,其中网关网元(GNE)与网管服务器直接相连,也可以通过LAN或WAN相连,非网关网元与网关网元通过数字通信通路(DCC)连接,网管终端和网关网元之间通过TCP/IP协议传递信息,网关网元和非网关网元之间通过ECC通信,从而实现网管和非网关网元之间的通信。

而ECC主要用于SDH网元间的通信,传送TMN信息,实现网管对非网关网元的管理.
2 网元脱管概述
网元脱管是指传输系统网管无法对网络中传输网元(主机)进行正常的管理。

其现象在网管上表现为网元变灰、网元无法登陆。

一般情况下,网元脱管不会引起传输设备所承载的业务中断,但是会导致网管无法实时监控脱管的网元,脱管网元的运行状态和告警信息也无法及时上传至网管。

网元脱管所造成的影响不仅与其在网络拓扑结构中的位置有关,而且影响的范围也不同,会影响单个或多个网元的监控,如果处理不及时,有可能会造成更大的通信故障。

3 网元脱管的分析及处理
网元脱管按影响范围可以分为单网元脱管和多网元脱管2类,对于不同的故障范围有着不同的处理思路,需要区别对待。

3.1 单网元脱管
单网元脱管只涉及到某一单个网元,因此该类故障的定位及处理方法较为简单,常见的原因有网元ID设置错误、主控板故障、光接口板故障、网元用户不正确、所属网关设置不正确等。

本文结合现场故障处理经验总结归纳了单网元脱管的故障处理流程可供维护人员借鉴,具体处理流程如图2所示。

图2 单个网元脱管故障处理流程图
下面将以金山线“新桥客站房”单网元脱管为例对单网元脱管的故障处理情况进行介绍。

金山线传输系统网络拓扑如图3所示。

图3 金山支线传输系统拓扑图
按照图2所示的处理步骤,处理人员首先检查确认了“新桥客站房”至“新桥信号楼”两个网元之间的ECC链路不通,随后安排人员在现场查询客站房设备,发现设备运行正常,无异常告警,端口DCC资源获取也正常;然后维护人员检查了本站设备与临站设备对接光口的再生段J0,发现“新桥客站房”光纤连接鸳鸯导致ECC链路不通。

至此,故障原因找到了,最后维护人员将“新桥客站房”4槽位和5槽位收侧的光纤调换了位置,使相应单板的再生段J0字节实际的收发与现场物理连接一致后确认该网元ECC链路管理里面可以看到上游站“新桥信号楼”网元,网元状态正常,故障处理完毕。

3.2 多网元脱管
相对于单网元脱管,多网管脱管的故障成因就复杂很多,故障处理也较为困难,常见的多网元脱管原因有网关网元故障、管理网元数量太多、ECC风暴、网元互踢以及ECC误码等,下面将逐一进行介绍。

3.2.1 网关网元故障
如果传输网络中某一个网关网元下的所有网元都处于脱管状态,最大的原因就可能是该网关网元本身发生了故障,比如该网关网元主控板故障,网线、网卡故障,IP 地址设置不正确等,在日常故障处理过程中可以按照上述可能出现的情况依次排查即可解决。

3.2.2 管理网元数量太多
造成传输网络中大面积网元脱管的另一个可能的原因就是某网关服务器下挂的管理网元太多,由于网管终端的管理能力以及ECC处理能力都是有限的,一般建议控
制在400网元以下,其中网关网元要控制在64个以下,如果超过64个网管侧会上报GNE MGR LIMIT OVER告警,表明网关网元所管理的非网关网元数目越限,主要是提醒用户组网过大避免发生ECC风暴。

但是现网一般很难做到64个网元
以下,例如,上海局某传输系统网管曾管理网元303个,但是网关网元只有2个,造成在日常的维护中经常出现大面积网元瞬间脱管现象,后多设置了2个网关网元,并合理分配了每个网关网元处理的网元区域,关断区域间的ECC通道,各网
关网元分别使用路由器将网管数据汇聚到网管服务器上,问题就得到了有效的解决。

3.2.3 ECC风暴
ECC风暴的根本原因是ECC本身不适合大组网导致的。

如果网络规模过大,会造
成ECC路由计算能力下降,当网络发生变化时,路由广播信息不断在整个网络中
广播,会造成路由不断重新计算、路由表收敛时间过长最终导致ECC风暴。

要解决ECC通信不畅和ECC风暴问题,最好的方式便是划分ECC子网。

通过ECC关断技术将各子网之间的ECC路由信息隔离,成为相互独立的ECC通信网,每个子网保持50个网元左右。

这样便可以保证网元之间的ECC通信顺畅,避免ECC风暴的发生。

对于ECC风暴的判断:网络中出现过导致ECC信息变化的因素,如某站光路中断、停电等;网管上除了网关网元是绿色的外,其余绝大部分站点都是灰的,特别是多个网关网元都一样的现象更是如此(因为多个网关网元的主控板不大可能同时故障),类似的现象90%是因为ECC振荡引起的;数据查询判断:使用命令ecc-get-route查询,每次查询时总的路由条数应该发生变化;观察部分典型路由的距离,有的会有应该走短径没有走而走了长径;用命令ecc-get-bdinfo查询,部分光口的状态为rx_f、unstable等。

利用上面两个步骤,基本上能定位出是否是ECC振荡问题;例如:某网络的ECC超过了300个,在一定的时期无法进行ECC 分割,在网络断纤等情况下,网络路由信息大量刷新,如果不进行人为干涉,一般
不会自行恢复,需要掌握一些手段来迅速消除ECC振荡。

常用的解决ECC风暴的方法有2个。

方法一:调整ECC最大距离
传输设备缺省的ECC最大距离是64,这个距离是一个最大范围,在具体的网络中往往不需要这么大,而且这个最大距离会影响到ECC路由的搜索范围。

在设置了ECC最大距离后,就能够在一定程度上缩小网络ECC路由刷新的范围,从而能够降低ECC风暴发生的可能性;而在ECC风暴发生的时候,把ECC最大
距离设置成为5,在网络初步稳定后,再逐渐调整最大距离,让网络逐渐稳定。

一般来说,网络正常工作的时候,长度设置为21即可,但是需要注意的是,这个方法在长环断纤的时候,可能会因为某些ECC最大距离过长导致无法登陆,此时,
可以临时更改一下。

方法二:关闭骨干节点周围的ECC链路
这个方法可以迅速消除ECC振荡,在关闭的时候,对网络的光纤连接要掌握清楚,首先关闭的是那些接入层的环路,要把一部分设备完全从现有的ECC网络中完全
隔离开来,待ECC不再振荡后,逐渐放开(注意关闭远端光口,而不要关闭到网
管方向的路由,防止网管无法登陆打开已经关闭的 ECC);
3.2.4 网元互踢
不同的网管服务器使用相同的网元用户登录同一个网元导致的网管上出现有规律的频繁脱管时就可以认为发生了网元互踢。

由于上海局内范围大,多个传输系统在两个或者多个地方各有服务器,因为更换主控板或者升级主控造成自行创建的网元用户丢失,而网管却仍然在使用以前创建的这些网元用户登录此网元。

此时网元的图标不变成灰色,但是图标左上角会出现“未登录”的提示,网管频繁瞬报NENOT-LOGIN告警,异常事件也会频繁上报“用户退出网元登录”事件,以上
三种现象可以判断出该网元与其他终端或者网管所使用的用户冲突了,解决的办法,
可以切换至其他网元用户处理。

3.2.5 ECC误码
当传输网络中频繁发生多网元脱管或者间歇性脱管的现象时,如果已经排除了网元互踢或ECC风暴的原因,那么就需要重点检查是否存在ECC误码了。

ECC误码主要有两个方面:一是线路板侧的ECC误码;另外就是主控板上的ECC误码。

线路板侧的ECC误码是指接收到SDH帧的开销就有错误,这个可通过查询到的历史性能数据看到;主控板侧ECC误码是指主控接收时产生了的ECC误码。

可通过命令cmget-chanerror执行多次,间隔为10 s左右,一般至少执行30次后查询并比对输出的参数,其中 LG、NO、CR、AB、UN、MRF都表示误码字段,如果这些字段在查询过程中不断增长,说明有误码,一直不增长,说明没有误码。

4 结束语
传输网络是铁路通信的基础承载网,而传输网管对传输网络的设备起着实时监控的作用,是传输网络的中枢神经。

网元的脱管会造成传输网管无法及时获取脱管网元的运行状态及告警信息,对传输网络承载的业务有着较大的影响,对传输网络的安全也有很大的威胁,本文对造成网元脱管的原因进行了分析并针对每种原因提出了解决思路和方法,有助于及时定位并排除故障,避免影响的扩大。

相关文档
最新文档