网络可用性,可靠性分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
综述:如何提高传输网络可用性
--------------------------------------------------------------------------------
2004年09月07日 10:41 通信世界
华为技术有限公司 陈华
传输网络是网络通信的基础,为各种通信业务提供传输通道, 传输网络的质量对未来的业务发展有着深远的影响。本文主要从如何衡量传输网络可用性、如何提高传输网络可用性等方面进行阐述。
用UC每月免费发短信 新浪点点通天气
为什么美国人打错靶? 一拍时尚广场开业大吉
一、网络可用性指标定义
平均故障间隔时间:MTBF( Mean Time Between Failures),即在规定的条件下和规定的时间内,系统累计运行时间与故障次数之比。
平均修复时间:MTTR(Mean Time To Repair),即在规定的条件下和规定的时间内,产品在任一规定的维修级别上,修复性维修总时间与在该级别上被修复产品的故障总数之比。
可用度:A(Availability),指可维修产品在规定的条件与时间内,维持其规定功能的能力,它综合反映可靠性和维修性。计算方法:产品能工作时间与能工作时间、不能工作时间的和之比。如:A=MTBF/(MTBF+MTTR)。
年停机时间:DT(Downtime),在一年内,产品由于故障维修而处于不能工作的全部时间之和。停机时间跟可用度之间换算关系:年停机时间=(1-A)×8760×60(分钟)。
通常所指的产品可用性包括可靠性和可维修性两个方面。可靠性用MTBF来衡量,可维修性用MTTR来衡量,而可用性则用可用度A来衡量。
二、网络可用性的相关因素分析
评估和建设一个高可用性的网络是一个庞大的系统工程,需要对设备可靠性、网络介质的可靠性、网络拓扑结构、设备运行环境、管理和服务等多方面进行综合分析和改进。一般在确定网络模型之后,影响整个网络可用性的几个主要因素如图1所示。
图1 网络可用性影响因素
网络可靠性影响因素大致可以分为:
(1) 传输介质因素:光纤、光纤连接器、电缆等;
(2) 设备因素:硬件板卡失效、软件失效等;
(3) 网络设计因素:网络的整体规划、网络解决方案等;
(4) 电网及运行环境因素:电网可用率、设备运行环境等;
(5) 备件、维护及服务等因素:备件策略、操作人员培训、网络维护、客户服务;
(6) 其他一些不可抗力因素:地震、战争、洪水等。
三、网络可用性的提高
通过前面的简单介绍可知,影响网络可用性的因素众多,所以实际分析时应从多个方面入手,抓住最重要的因素,在网络可用性和建设成本之间找到一个
平衡点。
1. 提高传输介质的可靠性
对于一条端到端的电路,对可用性影响最大的是传输介质。传输介质包括光纤、光纤连接器、电缆、电缆连接器及其他传输线。
实际上,传输介质特别是光纤的可靠性,远远要比设备可靠性低。一般认为光纤失效率跟传输距离是成正比关系的。根据GR-418标准提供的光纤可靠性指标是400FITs/km,即相当于每285km平均每年失效一次。根据互联网上公布的国外某运营商的数据,2003年光纤失效率为422FITs/km,光纤的平均维修时间为13小时。可见光纤的失效率高、光纤维修时间长。传输介质中,除了光纤之外,光纤连接器也很容易失效,经常会由于连接器松动、灰尘、连接错误等造成光纤连接失效。
相比于光纤而言,电缆和电缆连接器比光纤指标还要差,其受到人为影响的可能性更大。电缆一般集中在传输网的业务落地侧,不过随着光口交换机、路由器的出现,传输电缆的用量在逐渐减少。一些咨询公司和运营商的统计数据表明,对于一个端到端的电路而言,光纤的失效往往在网络失效中占有非常大的比例,大部分都超过整个网络失效的50%,有的甚至在80%以上。所以提高网络可用性首先要考虑的是提高传输介质的基本可靠性。
下面是针对光纤等传输介质所提出的一些改进建议:
(1) 减少光纤和连接器的失效,控制采购质量;
(2) 减少光缆保护盲点,如采取接入层成环、入大楼管道双路由等保护措施;
(3) 控制由于人为因素造成的传输介质失效(比如挖断等人为破坏);
(4) 局内采取各种控制措施:室内光缆的有效保护、光缆/电缆的正确标识、提高插拔光纤/电缆的规范性、室内尾纤的合理布放等;
(5) 建立快速的维护响应队伍,减少光纤故障后的维修时间。
2. 提高设备基本可靠性
除了光纤之外,设备也是影响网络基本可靠性的主要因素。设备的硬件和软件都可能失效,对于不同的通信设备,软硬件失效比例是不同的。一般而言,传输设备硬件失效率要比软件失效率高一些,而路由器设备的软件失效率要比硬件失效率高。根据GR-418提供的数据,传输设备软硬件失效比例为1:3。
硬件失效与很多的因素相关,最主要的是器件的基本失效。器件失效率可以根据温度、静电影响、环境等参考相应标准(GJB299、TR-332)进行预计。除器件的基本失效之外,还有其他原因会间接影响到器件失效,如硬件的设计、制造、工艺、环境、EMC等。
软件的失效是由于软件设计过于复杂、对异常情况考虑不完善、软件的BUG等导致。一般是通过CMM流程的
质量控制和对软件可靠性的度量、分析、测试来保证软件可靠性。软件失效除了可能导致板卡的功能失效之外,还可能导致系统或者整个网络的功能失效,并且软件失效后一般影响较大,故障难以定位。
因为上述一些因素的影响,设备制造商在生产设备的过程中需通过各种设计流程、质量保证流程、闭环等措施保证设备的可靠性。华为公司对于提高设备可靠性方面的主要保障措施主要表现在:通过完善的集成产品开发流程保证设备软硬件设计的可靠性;通过系统可靠性设计优化系统结构,充分考虑网络的解决方案;通过全面采购控制、设计规范等保证器件可靠性和应用的规范;提供闭环的问题处理、跟踪流程,保证问题及时解决和跟踪;通过FIT测试、老化试验、环境试验、HALT试验等措保障设备可靠性;设计中全面考虑故障检测、隔离、恢复设计,提高设备故障管理能力;通过CMM流程保证软件开发的规范,通过对软件的度量、分析和FIT测试保证软件可靠性;考虑设备支持计划性的在线升级、补丁、扩容等功能;对关键部件采用1+1保护提高设备可靠性,比如交叉板卡1+1,电源接入模块1+1等。所以,设备商的实际研发能力、完善的可靠性保障流程也应该是运营商在采购设备时考虑的重要因素。
四、优化网络拓扑结构
随着客户需求的变化、传送技术的发展以及市场竞争的加剧,传输网络将逐步从SDH向ASON演进,网络保护也将从1+1保护逐步向MESH组网保护发展。届时网络设计已经不再是将简单的几个设备连接在一起组成一个网络那么简单,而是需要根据实际的网络结构和现状,提供一个低成本、高可用性、高利用率的解决方案。
由于光纤介质的失效是整个网络中影响最大的,因此首先应该对光纤传输距离较长的网络进行网络保护,比如MSP、SNCP、MESH等。除了保护光纤失效外,还要考虑对于掉电可能性大的站点增加节点保护。对于可靠性要求高的网络可以考虑采用MESH组网保护。下面提供几种增强网络可用性的组网方法。
(1) 增强网络保护能力以减少光纤、节点失效的影响;
(2) 重要业务节点之间采用1+1MSP链保护;
(3) 通过采用小环加小环的组网方式代替大环组网,减少光纤失效影响;
(4) 减少传输路径长度和传输节点个数,用大容量设备取代背靠背转接。
总之,网络的设计需要针对网络的运行环境、网络的定位、不同的客户需求等进行综合分析,以便给出满足客户需求的解决方案。
五、提高电网与设备运行环境
环境因素的影响包括多个方面,最主要的是电网环境
因素。这方面在国内尤为严重,有运营商的统计数据表明,在部分电源条件不好(如使用农村电力、机房无蓄电池)的本地网络,掉电事故占所有事故的50%以上,部分地方比例更高。而且电网的失效往往会导致整个设备掉电,甚至导致整个站点或者机房所有设备的失效。除了电网事故直接导致网络上节点的失效外,还有其他一些直接导致设备失效的原因如:火灾、地震、台风、洪水等不可抗拒的因素。
其他环境因素一般指环境温度、湿度、盐雾、粉尘等。这些因素会间接的逐步影响设备可靠性,比如缩短设备使用寿命、导致器件失效率增加、加快设备腐蚀等。
以下是针对环境因素所提供的改进方法:
(1) 通过对设备配备蓄电池、油机等备用电源,减少设备掉电导致的节点故障;
(2) 通过优化组网方式,如增加备份节点,相互备份的重要站点不要放于同一机房等;
(3) 对于重要的节点要提供空调环境;
(4) 通过环境改造,减少高温高湿、盐雾粉尘和腐蚀性气体对设备的影响。
六、提高备件、维护、服务水平
在建设一个网络的同时,必须配备相应的备件。备件方式和备件策略的好坏直接影响到最终板件失效后的维修时间。备件离故障点越近,故障的维修时间就越短,网络的可用性就会越高,但是如果备件的库存太多又会增加库存的成本。需根据实际情况确定备件更换率、周转时间、备件成本等因素,综合分析确定备件策略。
维护操作异常是人为造成设备失效的主要原因。维护操作的异常包括因操作流程的不规范导致直接发生事故,维护人员维护不及时导致事故以及割接和扩容导致业务中断等。
服务水平是体现设备商综合能力的重要因素,服务的好坏直接影响到一个网络的可靠运营。比如对设备的定期巡检、对用户需求的快速响应、对设备问题的快速定位和及时处理、对客户的定期培训和交流等都会间接的提高网络的可用性。
下面是针对备件、维护、服务等方面的改进措施。
(1) 优化维护体制,建立快速响应的维护队伍,减少业务中断时间。包括对设备的维修和传输介质的维修;
(2) 通过提高维护队伍的分布、技术水平,增加对维护人员的技术、流程培训,从而减少操作事故、减少故障定位时间;
(3) 制定完善的备件策略,减少备件响应时间;
(4) 采购设备时考虑设备制造商提供的服务水平;
可靠性是网络信息系统能够在规定条件下和规定的时间内完成规定的功能的特性。可靠性是系统安全的最基于要求之一,是所有网络信息系统的
建设和运行目标。网络信息系统的可靠性测度主要有三种:抗毁性、生存性和有效性。 抗毁性是指系统在人为破坏下的可靠性。比如,部分线路或节点失效后,系统是否仍然能够提供一定程度的服务。增强抗毁性可以有效地避免因各种灾害(战争、地震等)造成的大面积瘫痪事件。 生存性是在随机破坏下系统的可靠性。生存性主要反映随机性破坏和网络拓扑结构对系统可靠性的影响。这里,随机性破坏是指系统部件因为自然老化等造成的自然失效。 有效性是一种基于业务性能的可靠性。有效性主要反映在网络信息系统的部件失效情况下,满足业务性能要求的程度。比如,网络部件失效虽然没有引起连接性故障,但是却造成质量指标下降、平均延时增加、线路阻塞等现象。 可靠性主要表现在硬件可靠性、软件可靠性、人员可靠性、环境可靠性等方面。硬件可靠性最为直观和常见。软件可靠性是指在规定的时间内,程序成功运行的概率。人员可靠性是指人员成功地完成工作或任务的概率。人员可靠性在整个系统可靠性中扮演重要角色,因为系统失效的大部分原因是人为差错造成的。人的行为要受到生理和心理的影响,受到其技术熟练程度、责任心和品德等素质方面的影响。因此,人员的教育、培养、训练和管理以及合理的人机界面是提高可靠性的重要方面。环境可靠性是指在规定的环境内,保证网络成功运行的概率。这里的环境主要是指自然环境和电磁环境。
如何衡量网络可用性
通常涉及到两方面的考虑。一个是设计时的考虑:对关键路径可用性值的理论估算。另一个是运维中的考虑:从用户的角度,对实际服务可用性的测量。
关键路径可用性值的理论估算
估算时采用 元件可用性→组件可用性→系统可用性 的估算进程。
其中元件可用性包括元件的平均持续工作时间(MBTF)和维护水平(MTTR),组件可用性在元件可用性和组件构成关系上构成,系统可用性则在组件可用性和可用性连接关系上构成。
下图为关键路径理论可用性计算示例。由实际的网络连接图简化成可用性逻辑关系图,将具体设备的可用性值代入可用性逻辑关系图可计算出关键路径可用性。图中列出了组件串、并联时可用性计算公式。
服务可用性的实际测量
实际运维中往往从最终用户的角度测量服务可用性,根据网络提供的不同服务,建立不同的可用性模型,而实测的原始数据往往还需要根据故障发生时间、用户是否得到通知等进行修