智能化网络管理技术概述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
智能化网络管理技术概述
摘要故障管理是计算机网络的管理最基本、最重要的功能。文中针对网络故障管理实行研究,并提出了网络故障管理智能化的方法,为网络故障智能化的进一步发展奠定了基础。
关键词网络故障智能化事件知识库
一个网络管理系统有五大功能域:故障管理、配置管理、性能管理、计费管理和安全管理其中,故障管理是最基本,也是最重要的功能。目的是保证网络能够连续可靠地运行。如果网络服务意外中止,将会对生产、生活造成很大影响,这就需要一套科学的故障管理策略,即时发现故障、排除故障。
现在一些网管软件趋向于将专家系统等人工智能技术引入到网络故障诊断和排除中。提升网络故障的智能水平有助于网络高效、可靠地运行。网络管理的智能化也是发展的必然趋势。为此本文针对网络故障智能化管理实行研究,并提出了建立事件知识库提升故障管理的智能水平的方法,为网络故障智能化的进一步发展奠定了基础。
1.计算机网络故障管理技术研究
(1)故障管理概述
故障是指软、硬件的缺陷;错误则是软硬件的不准确输出;失效是指所有和某故障相关的错误造成的网络的非正常运行。网络故障按生命周期可分为永久故障、暂时故障和瞬间故障三类;按故障对网络造成的空间失效范围的大小,可将失效分为四类:任务失效、基本网络部件失效、结点失效和子网失效。故障管理的主要任务是即时发现并排除网络故障。一般说来,故障管理包括以下几个内容:故障监测和捕获故障产生相关的事件和报警;定位分析故障、记录故障日志;如有可能排除故障等。
(2)故障管理的类型
故障类型指的是具有某种特征的故障的分类。通常我们能够根据故障
发生来源的不同,将它们划分为两大类,即硬故障(harderrors)和软
故障(softerrors)。
硬故障是指网络的硬件设备在工作过程中产生的各种错误。这些错误
与该设备的作用有密切关系,网络系统的复杂性也正是因为设备的多
样性而体现出来的。根据这网络设备的作用,我们也能够将故障简单
分为以下三类:
①连接设备故障
这种故障的现象主要是网络的物理连接出现问题,也能够称为通路故障。造成故障的原因可能是电缆线断开、收发器断开或不能正常工作
以及其它连接设备间的接口出问题等等。根据这类故障的来源不同,
我们又能够将该类型的故障细分为线路故障、网络接口故障、收发器
故障、路由器故障等等,该类故障是故障管理的最主要对象。
②共享设备故障
这种故障的表现是用于资源共享的设备出现问题,不能提供或享受所
需的服务。同样,该类型的故障也能够细分为服务器故障(打印机故障、文件服务器故障等)、工作站故障等等。
③其它设备故障。包括电源故障、监控器故障、测试仪故障、分析仪
故障等等。
软故障是指网络系统软件运行出错。软故障的发现和处理是在管理过
程中逐渐被人们所理解的,因为软件属于一种无形的东西,问题的表
现不如硬件那么直观。从这个意义上看,软故障的识别和诊断更加困难。故障管理中所处理的软故障主要针对与网络通讯和服务相关的系
统软件,它能够直接根据网络软件来划分,包括通讯协议软件故障、
网络文件系统(FNS)故障、文件传输软件故障、域名服务系统(DNS)等等,其中通讯协议软件故障是系统研究的重点。这种错误通常是在协
议软件运行时遇到某个异常条件(如缓冲队列满)或协议软件本身未提
供可靠机制而导致传输失败,报文丢失。
故障类型并不是一成不变的,随着网络在复杂性和规模上提升,网络
故障管理的要求也在持续增加。新的技术、设备的应用使故障的类型、故障原因、故障源等各方面都发生了变化,这就要求故障管理系统必
须增加新的内容。
(3)故障管理的功能
故障管理的根本目标在于排除网络中出现的各种故障,达到这个目标
要求系统至少必须具备检测、隔离和纠正故障的水平。
故障检测(detection)是指对系统的性能和状态实行检查和测试,根
据结果和一定的识别规则判断系统是否故障。故障检测要求管理系统
监视网络的工作,考查网络的状态及其变化,一旦发现系统出现故障
马上实行报警。
故障隔离(isolation)是指确定故障发生的位置,通俗地说就是指出
谁发生了故障,如哪个子网、哪个设备或者设备的哪个部件,对于软
故障则指明哪个系统出了问题。因为网络是一个复杂的系统,故障类型、原因、故障源多种多样,而且不同故障的表现可能完全相同,这
就导致了故障隔离的复杂性。隔离系统理应尽可能地缩小故障源的范围。
故障纠正(correction)是指纠正所发生的错误,恢复系统的正常工作。故障纠正建立在前两者的基础之上,当前所采取的手段除了实行硬件
维修、系统重启、一定水准的恢复外,还包括一些非技术性的活动,
如人员的使用和技术培训以及设备生产厂商的支持等。
(4)影响故障管理的因素
与网络管理一样,故障管理也必须考虑三方面的因素:过程、设备和
工具、人员。成功的故障管理策略是这三者的完整结合,而不但仅是
其中的某一个方面。
过程主要指为实现故障管理功能而实行的操作,下一节介绍的内容就
属于故障管理的过程。了解管理的一般过程是开发一个实用的故障管
理系统的基础。
设备和工具指的是实行故障管理的软硬件工具,包括故障检测设备、
维修设备、实用的故障管理系统等。设备和工具在故障管理中起着非
常重要的作用,它能够协助管理员和工程师实施管理功能,排除故障,保障网络系统正常运转。下面介绍的就是几种专用的物理设备:
①时间域反射测量仪(TDR)。通过显示物理介质传输信号的波形表明
设备或链路是否故障。
②网络监视器。监视网络上各结点的状态,得到网络的各种统计数字,以确定是否故障。
③网络分析仪。实时分析结点的收发报文,协助管理者跟踪和隔离故障。管理人员在故障管理中的任务主要是维护管理系统和工具的运行,并在它们的协助下完成故障排除和系统恢复工作。
2.智能化网络管理的概述
为了能够更有效地对各种大型复杂的网络实行管理,很多研究人员将
人工智能技术应用到网络管理领域。虽然全面的智能化的网络管理距
离实际应用还有相当长的一段路要走,但是在网络管理的特定领域实
施智能化,尤其是基于专家系统技术的网络管理是可行的。
用于故障管理的专家系统由知识库、推理机、知识获取模块和解释接
口四大主要部分组成。专家系统以其实时性、协作管理、层次性等特点,特别适合用在网络的故障管理领域。但同时专家系统也面临一些
难题:
(1)动态的网络变化可能需要经常更新知识库。
(2)因为网络故障可能会相关到其它很多事件,很难确定与某一症状
相关的时间的开始和结束,解释和综合消息复杂。