如何提高传输网络可用性
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如何提高传输网络可用性
传输网络是网络通信的基础,为各种通信业务提供传输通道,传输网络的质量对未来的业务发展有着深远的影响。本文主要从如何衡量传输网络可用性、如何提高传输网络可用性等方面进行阐述。
一、网络可用性指标定义
平均故障间隔时间:MTBF(MeanTimeBetween Failures),即在规定的条件下和规定的时间内,系统累计运行时间与故障次数之比。
平均修复时间:MTTR(MeanTimeToRepair),即在规定的条件下和规定的时间内,产品在任一规定的维修级别上,修复性维修总时间与在该级别上被修复产品的故障总数之比。
可用度:A(Availability),指可维修产品在规定的条件与时间内,维持其规定功能的能力,它综合反映可靠性和维修性。计算方法:产品能工作时间与能工作时间、不能工作时间的和之比。如:A=MTBF/(MTBF+MTTR)。
年停机时间:DT(Downtime),在一年内,产品由于故障维修而处于不能工作的全部时间之和。停机时间跟可用度之间换算关系:年停机时间=(1-A)×8760×60(分钟)。
通常所指的产品可用性包括可靠性和可维修性两个方面。可靠性用MTBF来衡量,可维修性用MTTR来衡量,而可用性则用可用度A来衡量。
二、网络可用性的相关因素分析
评估和建设一个高可用性的网络是一个庞大的系统工程,需要对设备可靠性、网络介质的可靠性、网络拓扑结构、设备运行环境、管理和服务等多方面进行综合分析和改进。一般在确定网络模型之后,影响整个网络可用性的几个主要因素如图1所示。
图1网络可用性影响因素
网络可靠性影响因素大致可以分为:
(1)传输介质因素:光纤、光纤连接器、电缆等;
(2)设备因素:硬件板卡失效、软件失效等;
(3)网络设计因素:网络的整体规划、网络解决方案等;
(4)电网及运行环境因素:电网可用率、设备运行环境等;
(5)备件、维护及服务等因素:备件策略、操作人员培训、网络维护、客户服务;
(6)其他一些不可抗力因素:地震、战争、洪水等。
三、网络可用性的提高
通过前面的简单介绍可知,影响网络可用性的因素众多,所以实际分析时应从多个方面入手,抓住最重要的因素,在网络可用性和建设成本之间找到一个平衡点。
1.提高传输介质的可靠性
对于一条端到端的电路,对可用性影响最大的是传输介质。传输介质包括光纤、光纤连接器、电缆、电缆连接器及其他传输线。
实际上,传输介质特别是光纤的可靠性,远远要比设备可靠性低。一般认为光纤失效率跟传输距离是成正比关系的。根据GR-418标准提供的光纤可靠性指标是400FITs/km,即相当于每285km平均每年失效一次。根据互联网上公布的国外某运营商的数据,2003年光纤失效率为422FITs/km,光纤的平均维修时间为13小时。可见光纤的失效率高、光纤维修时间长。传输介质
中,除了光纤之外,光纤连接器也很容易失效,经常会由于连接器松动、灰尘、连接错误等造成光纤连接失效。
相比于光纤而言,电缆和电缆连接器比光纤指标还要差,其受到人为影响的可能性更大。电缆一般集中在传输网的业务落地侧,不过随着光口交换机、路由器的出现,传输电缆的用量在逐渐减少。一些咨询公司和运营商的统计数据表明,对于一个端到端的电路而言,光纤的失效往往在网络失效中占有非常大的比例,大部分都超过整个网络失效的50%,有的甚至在80%以上。所以提高网络可用性首先要考虑的是提高传输介质的基本可靠性。
下面是针对光纤等传输介质所提出的一些改进建议:
(1)减少光纤和连接器的失效,控制采购质量;
(2)减少光缆保护盲点,如采取接入层成环、入大楼管道双路由等保护措施;
(3)控制由于人为因素造成的传输介质失效(比如挖断等人为破坏);
(4)局内采取各种控制措施:室内光缆的有效保护、光缆/
电缆的正确标识、提高插拔光纤/电缆的规范性、室内尾纤的合理布放等;
(5)建立快速的维护响应队伍,减少光纤故障后的维修时间。
2.提高设备基本可靠性
除了光纤之外,设备也是影响网络基本可靠性的主要因素。设备的硬件和软件都可能失效,对于不同的通信设备,软硬件失效比例是不同的。一般而言,传输设备硬件失效率要比软件失效率高一些,而路由器设备的软件失效率要比硬件失效率高。根据GR-418提供的数据,传输设备软硬件失效比例为1:3。
硬件失效与很多的因素相关,最主要的是器件的基本失效。器件失效率可以根据温度、静电影响、环境等参考相应标准(GJB299、TR-332)进行预计。除器件的基本失效之外,还有其他原因会间接影响到器件失效,如硬件的设计、制造、工艺、环境、EMC等。
软件的失效是由于软件设计过于复杂、对异常情况考虑不完善、软件的BUG等导致。一般是通过CMM流程的质量控制和对软件可靠性的度量、分析、测试来保证软件可靠性。软件失效除了可能导致板卡的功能失效之外,还可能导致系统或者整个网络的功能失效,并且软件失效后一般影响较大,故障难以定位。
因为上述一些因素的影响,设备制造商在生产设备的过程中需通过各种设计流程、质量保证流程、闭环等措施保证设备的可靠性。华为公司对于提高设备可靠性方面的主要保障措施主要表
现在:通过完善的集成产品开发流程保证设备软硬件设计的可靠性;通过系统可靠性设计优化系统结构,充分考虑网络的解决方案;通过全面采购控制、设计规范等保证器件可靠性和应用的规范;提供闭环的问题处理、跟踪流程,保证问题及时解决和跟踪;通过FIT测试、老化试验、环境试验、HALT试验等措保障设备可靠性;设计中全面考虑故障检测、隔离、恢复设计,提高设备故障管理能力;通过CMM流程保证软件开发的规范,通过对软件的度量、分析和FIT测试保证软件可靠性;考虑设备支持计划性的在线升级、补丁、扩容等功能;对关键部件采用1+1保护提高设备可靠性,比如交叉板卡1+1,电源接入模块1+1等。所以,设备商的实际研发能力、完善的可靠性保障流程也应该是运营商在采购设备时考虑的重要因素。
四、优化网络拓扑结构
随着客户需求的变化、传送技术的发展以及市场竞争的加剧,传输网络将逐步从SDH向ASON演进,网络保护也将从1+1保护逐步向MESH组网保护发展。届时网络设计已经不再是将简单的几个设备连接在一起组成一个网络那么简单,而是需要根据实际的网络结构和现状,提供一个低成本、高可用性、高利用率的解决方案。
由于光纤介质的失效是整个网络中影响最大的,因此首先应该对光纤传输距离较长的网络进行网络保护,比如MSP、SNCP、