排除企业网络故障

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

排除企业网络故障

了解网络故障的影响

企业网络要求

大多数企业都依靠网络来提供对共享资源的持续、可靠访问。网络正常运行时间是指网络可用并能提供预期功能的时间。网络中断时间则是指网络没有按要求运作的时间。网络性能下降可能对业务造成负面影响。

如果没有稳定可靠的网络,许多组织便无法访问客户数据库和财务记录,而这些都是员工日常工作所需的资料。网络中断还会导致客户无法下订单或获取需要的信息。停机时间将造成效率低下、客户信心受挫,往往导致客户被竞争对手抢走。

人们使用多种不同的度量来衡量停机时间对企业造成的损失。每家公司的实际损失会随着具体发生的时间而变化,如星期几、日期和时刻。

大型企业一般跨越许多不同的时区,随时都有员工、客户和供应商访问其网络。对这些组织而言,任何一次停机都会造成极大的损失。导致网络中断的因素有多种。包括:

天气和自然灾害

安全入侵

人为灾难

电源浪涌

病毒攻击

设备故障

设备配置错误

资源缺乏

要满足正常运行时间的要求,网络设计和实施必须经过精心规划。

为了确保通信正确、有效,最好为所有关键组件和数据路径设置冗余功能。冗余功能可消除单点故障。

三层式分层网络设计模型将不同网络设备和链路的功能分开,从而确保网络高效运行。此外,采用企业级设备也能够提供高度的可靠性。

即便网络设计周密,也无法避免的会出现一些网络中断情况。为了尽量缩短停机时间并确保快速恢复,必须做额外的一些工作。

要确保服务等级,企业应该与主要供应商签订服务等级协议(SLA)。SLA 中根据服务等级明确定义了对网络的期望值,包括可接受的停机时间、恢复时段以及是否应发生停机等。SLA 通常会指定未达到承诺的服务等级时的惩罚措施。

网络中断不仅与ISP 所提供的服务未达要求有关。很多时候,问题都是由本地网络中某设备的关键部件故障而引发的。为了减少此类停机事件,设备的所有关键部件都应需要质保,以确保关键组件能够得到快速更换。

业务连续性计划是一份用于规定发生意外的人为或自然灾害(例如停电或地震)时应采取哪些措施的方案。业务连续性计划详细说明了在灾难后如何继续运营业务,同时将对客户的影响降至最小。其中明确指出了在发生灾难性故障后如何重建网络。确保业务运作的方法之一是在其它位置设立冗余备份站点,以防主站点发生故障。

监控和主动维护

确保正常运行的方法之一是监控当前网络运行情况并执行主动维护。

监控网络的目的是观察网络性能,将其与预先确定的基线进行比较。如果发现背离基线的任何反常现象,都表示网络可能存在问题,需要进一步研究。一旦网络管理员找到降低性能的源头,就能够采取纠正措施来防止出现严重的网络中断情况。

有许多工具可用来监控网络性能级别和收集数据。这些工具包括:

网络实用程序

数据包嗅探工具

SNMP 监控工具

上述每一组工具都具有不同的功能,能够提供不同类型的信息。结合使用这些工具可对当前网络性能有全方位的了解。

网络管理员定期执行主动维护来检查和维护设备。如此一来,管理员就能及早发现弱点,从而避免后期造成致命错误导致网络瘫痪。就像汽车的定期保养一样,主动维护能延长网络设备的寿命。

网络监控工具、技术和程序依赖于是否具有完整、准确而且最新的网络文档。此类文档包括:

物理和逻辑拓扑图

所有网络设备的配置文件

基线性能等级

最好在网络刚搭建好时确定基线网络性能等级,并在执行重大变更或升级后重新确定。执行基线测试时,网络管理员会使用正常负载级别,以及网络中常见的协议和应用程序。

许多复杂的工具和步骤都可用来确定性能基线。某些程序能够对不同类型的流量执行多种不同的测试。这些测试可确定网络在精确定义的负载和条件下的性能。其它一些工具(例如简单的ping)准确度稍差,但其提供的信息足以让管理员注意到潜在问题。

ping 和tracert 之类简单的网络实用程序可提供有关网络或网络链路的性能信息。多执行几次这些命令,可以看出数据包在两个位置之间传送所用时间的差别。不过这些命令并不能说明为什么会产生这样的时间差异。

数据包嗅探工具能够监控网络不同部分的流量类型。此类工具能指出特定类型的流量是否过大。它可以检查数据包的内容,方便用户快速找出流量的源头。

此类工具还可对这一情况加以纠正,避免网络拥塞加剧。例如,流量嗅探工具可检测网络中的某种流量或特定的事务是否不在预计之内。此检测可阻止潜在的拒绝服务攻击,避免其影响网络性能。

简单网络管理协议(SNMP) 可监控网络中的各个设备。兼容SNMP 的设备使用代理来监控针对特定条件预定义的一系列参数。这些代理收集信息并将其存储在称为管理信息库(MIB) 的数据库中。

SNMP 按固定间隔轮询设备,以收集有关受管参数的信息。SNMP 还会针对超出预定义阈值或条件的特定事件发送陷阱消息。

例如,SNMP 监控着一个路由器接口的出错情况。网络管理员为该接口定义了可接受的错误级别。如果错误超出该阈值级别,SNMP 会将该情况的陷阱信息发送到网络管理站(NMS)。NMS 会警告网络管理员。某些SNMP 系统会触发一些事件(例如设备自动重配置)来消除故障。大多数企业级网络管理系统都使用SNMP。

目前存在许多免费或商业的主动网络监控工具。这些工具可监控流量类型、流量负载、服务器配置、流量模式以及许多其它情况。正确的网络监控计划以及恰当的工具可帮助网络管理员评估网络的健康状况,检测出存在的任何问题。

故障排除和故障域

任何故障排除工作的目的都是快速恢复运作、将对最终用户的影响降至最低。要达到这一目标往往需要设法争取时间来确定故障原因,以便快速重建功能。

在某些情况下,设置临时解决方案可以争取到一定时间来研究和纠正问题。

设计企业网络时,冗余功能至关重要。在冗余环境中,如果一条链路断开,流量可立即切换到冗余链路。这种临时解决方案使网络能继续工作,同时管理员也有时间来检查故障链路并纠正问题。如果有备用设备或配置文件的备份,当特定设备或配置发生故障时,便可快速恢复连接。

并非每种情况都具有或适用快速解决方案。必须始终将网络及网络所提供资源的安全放在第一位。如果快速解决方案降低了安全性,那么最好花时间研究其它解决方案。

在业务连续性计划中详细列出安全考量。该计划中应包括:

潜在问题的记录

出现故障时应采取的恰当措施的描述

公司的详细安全政策

各项措施的具体安全风险

当设计企业网络时,需限制故障域的规模。故障域是指受网络设备故障或误配置影响的网络区域。此域的实际大小取决于设备以及故障或误配置的类型。排除网络故障时,需确定问题的范围,将问题隔离到特定的故障域。

如果第2 层交换机和边界路由器同时发生故障,它们会影响到不同的故障域。

LAN 网段上第2 层交换机的故障仅会影响到广播域内的用户,对网络其它区域没有任何影响。然而边界路由器的故障将导致公司内的所有用户无法连接本地网络外的网络资源。

该路由器对网络的影响较大,故障域也较大。在正常情况下,应首先为故障域较大的资源排除故障。

在某些条件下,故障域的大小并不是确定故障排除顺序的决定性因素。如果对业务关键的服务器所连接的交换机出现故障,那么应先纠正此问题,然后再解决边界路由器的问题。

故障排除过程

当企业网络出现故障时,必须快速有效地排除故障,以免停机时间过长。网络技术人员可使用多种不同的结构化或非结构化的问题解决技术来排除故障。包括:

相关文档
最新文档