路由器网络诊断步骤和故障排除
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
路由器网络诊断步骤与故障排除
1.1路由器常见故障分类
在路由器出现的故障中,大体可以分为两类:一类是硬故障,一类是软故障。
这里的分类方法并没有严格的标准,只是为了方便而已,在实践中应该具体问题具体分析。
1.硬故障
我们把路由器本身部件存在问题的情况归在这一类里。
常见的硬故障通常表现在硬件上。
通常有这么几种:
1)系统不能正常加电
表现为当打开路由器的电源开关时,路由器前面板的电源灯不亮,风扇不转。
这时要重点检查电源系统。
看供电插座是否有电,电压是否在规定的X围内。
如果供电正常,应该检查电源线是否完好,接触是否牢靠,必要时可以换一根,如果还不行,可以判定问题应该出在路由器的电源上。
可以看看路由器电源保险是否完好,如果烧了应该更换。
如果还不行只好送修。
2)部件损坏
这类情况在硬件故障中是比较常见的一类。
这里的部件往往是接口卡。
表现为当把有问题部件插到路由器中时,系统其他部分都工作正常,但无法正确识别有问题的部件,这时往往是因为部件本身有问题。
还有一种情况,就是部件可以被正确识别,但做完配置后(保证配置正确),接口就是不能正常工作,这时往往是因为存在物理故障。
要确认以上这两种情况,最好用相同型号的好的部件替换怀疑有问题的部件,就可以确认问题是否存在。
3)系统软件损坏
这种故障似乎应该归入软件故障,但由于这种情况往往是路由器本身存在的问题,且与硬件紧密相关,我们不妨把它归类于此。
以cisco的路由器为例,如果路由器开机后总是进
入rmon状态,这时往往说明系统软件IOS存在问题。
4)其它
这里所要提到的是这样一些情况,有时我们在对系统软件进行升级时,发现系统无论怎样也不能完成升级,这时不妨检查一下你要升级的软件的大小是否超过了你的路由器的NVRAM的容量。
如果超过了,你是无论如何也升不了级的,这时应该先扩充NVRAM的
容量然后再升级系统软件。
这个问题容易被忽略。
2.软故障
1)功能无法实现
在有些时候,你要作某些特定的配置(如NAT),你反复检查,确认配置正确,可相应的功能就是实现不了,这时先不要急着怀疑设备有问题,最好先找一找系统软件的版本号,并查找相关的说明,看一看你所使用的版本的软件是否支持这个功能。
因为路由器的系统软
件往往有许多版本,每个版本支持不同的功能。
如果你当前的软件版本不支持这个功能,那就应该找到相应的软件,先进行升级。
2)网络规划存在问题
有些时候,你的配置似乎没有问题,可路由器就是不能正常工作,或者工作不稳定,总出现一些莫名其妙的问题。
这时不妨先不要急着反复调试,不如回过头来看看你的网络规划,看看这上面是不是有问题。
比如是不是有重复使用的网段,网络掩码的计算是否正确等等,往往问题就迎刃而解了。
3)配置问题
这种问题是最常见的,就是你的配置的确存在问题。
比如线路两端路由器的参数不匹配或参数错误等等,这种情况只要认真细致地查找,总可以解决。
1.2网络故障诊断概述
网络故障诊断,从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行。
网络故障通常有以下几种可能:物理层中物理设备相互连接失败或者硬件及线路本身的问题;数据链路层的网络设备的接口配置问题;网络层网络协议配置或操作错误;传输层的设备性能或通信拥塞问题;上三层或网络应用程序错误。
诊断网络故障的过程应该沿着OSI七层模型从物理层开始向上进
行。
首先检查物理层,然后检查数据链路层,以此类推,设法确定通信失败的故障点,直到系统通信正常为止。
网络诊断可以使用多种工具:路由器诊断命令,网络管理工具和包括局域网或广域网分析仪在内的其它故障诊断工具。
查看路由表,是开始查找网络故障的好办法。
ICMP的ping、trace命令和Cisco的show命令、debug命令是获取故障诊断有用信息的网络工具。
如何监
视网络在正常条件下的运行细节和出现故障的情况,监视哪些内容呢?利用showinterface命
令可以非常容易地获得待检查的每个接口的信息。
showbuffer命令提供定期显示缓冲区大
小、用途及使用状况。
showproc命令和showprocmem命令可用于跟踪处理器和内存的使
用情况。
可以定期收集这些数据,在故障出现时用于诊断参考。
故障诊断步骤
第一步,首先确定故障的具体现象,分析造成这种故障现象的原因的类型。
例如,主机不响应客户请求服务。
可能的故障原因是主机配置问题、接口卡故障或路由器配置命令丢失等。
第二步,收集需要的用于帮助隔离可能故障原因的信息。
从网络管理系统、协议分析跟踪、路由器诊断命令的输出报告或软件说明书中收集有用的信息。
第三步,根据收集到的情况考虑可能的故障原因,排除某些故障原因。
例如,根据某些资料可以排除硬件故障,把注意力放在软件原因上。
第四步,根据最后的可能故障原因,建立一个诊断计划。
开始仅用一个最可能的故障原
因进行诊断活动,这样可以容易恢复到故障的原始状态。
如果一次同时考虑多个故障原因,
试图返回故障原始状态就困难多了。
第五步,执行诊断计划,认真做好每一步测试和观察,每改变一个参数都要确认其结果。
分析结果确定问题是否解决,如果没有解决,继续下去,直到故障现象消失。
网络分层诊断技术
物理层的故障主要表现在设备的物理连接方式是否恰当;连接电缆是否正确;Modem、CSU/DSU等设备的配置及操作是否正确。
确定路由器端口物理连接是否完好的最佳方法是
使用showinterface命令,检查每个端口的状态,解释屏幕输出信息,查看端口状态、协议
建立状态和EIA状态。
查找和排除数据链路层的故障,需要查看路由器的配置,检查连接端口的共享同一数据链路层的封装情况。
每对接口要和与其通信的其它设备有相同的封装。
通过查看路由器的配
置检查其封装,或者使用show命令查看相应接口的封装情况。
排除网络层故障的基本方法是:沿着从源到目标的路径,查看路由器路由表,同时检查路由器接口的IP地址。
如果路由没有在路由表中出现,应该通过检查来确定是否已经输入
适当的静态路由、默认路由或者动态路由。
然后手工配置一些丢失的路由,或者排除一些动
态路由选择过程的故障,包括RIP或者IGRP路由协议出现的故障。
例如,对于IGRP路由,
选择信息只在同一自治系统号(AS)的系统之间交换数据,查看路由器配置的自治系统号
的匹配情况。
1.3路由器接口故障排除
串口故障排除
串口出现连通性问题时,为了排除串口故障,一般是从showinterfaceserial命令开始,
分析它的屏幕输出报告内容,找出问题之所在。
串口报告的开始提供了该接口状态和线路协
议状态。
接口和线路协议的可能组合有以下几种:
1.串口运行、线路协议运行,这是完全的工作条件。
该串口和线路协议已经初始化,
并正在交换协议的存活信息。
2.串口运行、线路协议关闭,这个显示说明路由器与提供载波检测信号的设备连接,
表明载波信号出现在本地和远程的调制解调器之间,但没有正确交换连接两端的协议存活信息。
可能的故障发生在路由器配置问题、调制解调器操作问题、租用线路干扰或远程路由器
故障,数字式调制解调器的时钟问题,通过链路连接的两个串口不在同一子网上,都会出现
这个报告。
3.串口和线路协议都关闭,可能是电信部门的线路故障、电缆故障或者是调制解调器
故障。
4.串口管理性关闭和线路协议关闭,这种情况是在接口配置中输入了shutdown命令。
通过输入noshutdown命令,打开管理性关闭。
接口和线路协议都运行的状况下,虽然串口链路的基本通信建立起来了,但仍然可能由于信息包丢失和信息包错误时会出现许多潜在的故障问题。
正常通信时接口输入或输出信息包不应该丢失,或者丢失的量非常小,而且不会增加。
如果信息包丢失有规律性增加,表明通过该接口传输的通信量超过接口所能处理的通信量。
解决的办法是增加线路容量。
查找其它原因发生的信息包丢失,查看showinterfaceserial命令的输出报告中的输入输出保持队列
的状态。
当发现保持队列XX息包数量达到了信息的最大允许值,可以增加保持队列设置的大小。
以太接口故障排除
以太接口的典型故障问题是:带宽的过分利用;碰撞冲突次数频繁;使用不兼容的帧类型。
使用showinterfaceethernet命令可以查看该接口的吞吐量、碰撞冲突、信息包丢失、和
帧类型的有关内容等。
1.通过查看接口的吞吐量可以检测网络的带宽利用状况。
如果网络广播信息包的百分比很高,网络性能开始下降。
光纤网转换到以太网段的信息包可能会淹没以太口。
互联网发生这种情况可以采用优化接口的措施,即在以太接口使用noiproute-cache命令,禁用快速
转换,并且调整缓冲区和保持队列的设置。
2.两个接口试图同时传输信息包到以太电缆上时,将发生碰撞。
以太网要求冲突次数很少,不同的网络要求是不同的,一般情况下发现冲突每秒有三五次就应该查找冲突的原因了。
碰撞冲突产生拥塞,碰撞冲突的原因通常是由于敷设的电缆过长、过分利用、或者“聋”节点。
以太网络在物理设计和敷设电缆系统管理方面应有所考虑,超规X敷设电缆可能引起更多的冲突发生。
3.如果接口和线路协议报告运行状态,并且节点的物理连接都完好,可是不能通信。
引起问题的原因也可能是两个节点使用了不兼容的帧类型。
解决问题的办法是重新配置使用相同。
帧类型。
如果要求使用不同帧类型的同一网络的两个设备互相通信,可以在路由器接口使用子接口,并为每个子接口指定不同的封装类型。
1.4异步通信口故障排除
互连网络的运行中,异步通信口的任务是为用户提供可靠服务,但又是故障多发部位。
异步通信口故障一般的外部因素是:拨号链路性能低劣;网交换机的连接质量问题;调
制解调器的设置。
检查链路两端使用的调制解调器:连接到远程PC机端口调制解调器的问题不太多,因为每次生成新的拨号时通常都初始化调制解调器,利用大多数通信程序都能在发出拨号命令之前发送适当的设置字符串;连接路由器端口的问题较多,这个调制解调器通常等待来自远程调制解调器的连接,连接之前,并不接收设置字符串。
如果调制解调器丢失了它的设置,应采用一种方法来初始化远程调制解调器。
简单的办法是使用可通过前面板配置的调制解调器;另一种方法是将调制解调器接到路由器的异步接口,建立反向telnet,发送
设置命令配置调制解调器。
showinterfaceasync命令、showline命令是诊断异步通信口故障使用最多的工具。
show interfaceasync命令输出报告中,接口状态报告关闭的唯一的情况是,接口没有设置封装类
型。
线路协议状态显示与串口线路协议显示相同。
showline命令显示接口接收和传输速度
设置以及EIA状态显示。
showline命令可以认为是接口命令(showinterfaceasync)的扩展。
查看showline命令输出的EIA信号可以判断网络状态。
确定异步通信口故障一般可用下列步骤:检查电缆线路质量;检查调制解调器的参数设置;检查调制解调器的连接速度;检查rxspeed和txspeed是否与调制解调器的配置匹配;
通过showinterfaceasync命令和showline命令查看端口的通信状况;从showline命令的
报告检查EIA状态显示;检查接口封装;检查信息包丢失及缓冲区丢失情况。
CISCO路由之排除路由故障
2.1静态路由故障
1.静态路由和有类别查找
当路由选择表进程检查一条使用中间地址(路由选择表中作为下一跳引用的IP地址)的可解析的静态路由时,这个检查总是在有类别方式下完成的,无论是否使用ipclassless
命令如果在路由选择表中有类别方式下的中间地址不能解析,则删除该静态路由。
使用showiproute查看路由选择表。
使用debug可以显示某个网络宕掉了。
如果使用无类别方式并有一条默认路由存在,那么具有高管理距离的备份表态路由将永远不会在主静态路由失效时装入到路由选择表中。
这是因为任何静态路由,即便是指向不存在的中间地址的静态路由,都会使用默认路由进行解析。
CISCO路由选择表进程每60S调用一个检查路由选择表的静态路由功能来根据动态变
化的路由选择表安装或删除静态路由。
2.静态路由和中间地址
静态路由可以使用中间网络地址或出接口来创建。
大多数情况下,使用出接口在路由选择表进程中解析静态路由更加有效。
只要中间IP地址可以在路由选择表中解析,它不必是真实的下一跳路由器的接口。
静态网络路由(如中间地址)必须最终被解析为路由选择表中一条具有出接口的路由。
每当路由选择表进程需要为x.x.x.0/24网络使用静态路由表项时,它还需要解析中间地
址y.y.y.y,称为递归查找。
一次额外的路由查找或许对路由选择进程的性能没有多少影响。
但是,采取多次递归查找来获得解析的静态路由可能会影响性能。
3.静态路由优化
为避免递归查找:串行网络:使用出接口
以太网络:同时使用中间地址和出接口
4.反复的静态路由安装和删除
尽可能地使用出接口而不是中间地址来配置静态路由。
5.使用丢弃路由
有时网络中有环路的产生。
通过周期性的查看路由器接口上的计数器可以看到路由选择环路的结果。
clearcountersserial0/0
showinterfaceserial0/0
路由环路的问题在网络中产生了一个黑洞。
一旦IP头中的生存期(TTL)减到0就丢
弃分组。
解决1:有类别模式的路由选择(noipclassless)——在用户网络路由器上使用noip classless.路由器在至少一个已知子网存在时不会使用任何超网或默认路由。
但不是首选。
因
为它改变了所有分组的路由选择表查找行为。
解决2:使用一条丢弃路由——当路由选择表中没有特定的匹配,而且使用一条超网或默认路由来转发那些分组并不合适时,一条丢弃路由把分组送给了null0,即比特桶。
iproutex.x.0.0255.255.0.0null0
iproutex.x.0.0255.255.0.0null0200
后一个命令行配置仅在主路由失效时使用的另一条丢弃路由。
通过将静态路由的默认管理距离改为比所使用的动态路由选择协议的管理距离更高的一个值来实现。
2.2排除RIP故障
1.不兼容的版本类型
debugiprip
showipprotocols对检查接口上发送和接收的RIP分组版本十分有用。
如果R1不支持V2的版本,只能接收RIPv1分组,那么R2配置成RIPv1和RIPv2.
可在接口级指定发送和接收RIP分组的特定版本
interfacee0
ipripsendversion12
ipripreceiveversion12
2.不匹配的认证密钥
RIPv2的一个选项是可以认证的RIPv2更新,为了增强安全性,当使用认证时,必须在
双方配置口令。
这个口令被称为认证密钥。
如果这一密钥与另一方的密钥不匹配,双方都将忽略RIPv2更新。
在接口上配置ipripauthenticationkey-chaincisco
用debugiprip调试。
3.达到RIP的路数限制
RIP度量标准的最大值是15跳。
无法克服这个问题。
可以使用非15跳限制的路由选择协议。
IGRP最大跳数是255,
EIGRP最大跳数是224,二者默认都是100.
4.不连续网络
当主网络被另一个主网络分隔开时,被称为不连续网络。
解决1:使用静态路由
解决2:在路由器之间的链路地址改为左右不连续网络中的一部分。
解决3:在两台路由器上用noauto-summary配置启用RIPv2的无类别路由选择版本。
routerrip
version2
networkx.x.x.0
noauto-summary
解决4:使用无类别路由选择协议。
如OSPF,EIGRP,IS-IS替代RIPv1路由选择协议。
5.不合法的源地址
当RIP告诉路由选择表安装路由时,它执行源合法性检查。
如果源所在子网与本地接
口不同,RIP则忽略更新并且不在路由选择表中安装从这个源来的路由。
当一方是有编号而另一方是无编号时,必须关闭这个检查。
routerrip
novalidate-update-source
6.翻动(flapping)路由
路由翻动是指路由选择表中一条路由的不断删除和再插入。
为了检查路由是否真的翻动,检查路由选择表并查看路由的寿命(age)。
如果寿命被不断的重置为00:00:00,这
就意味这路由正在翻动。
RIP有180S没有收到一条路由,那么该路由将保持240S,然后被清除。
使用showinterface来检查接口统计值。
最常见帧中继环境分组丢失。
使用showiprouterip可以检查RIP多久没有更新。
使用showinterfaceserial0可查看到接口上有大量的广播分组是否被丢弃。
帧中继情况
下,可能需要调整帧中继广播队列。
在非帧中继的环境中,可能需要增加输入或输出保留队列。
7.大型路由选择表
接口上使用ipsummary-address汇总路由。
2.3排除EIGRP故障
1.不匹配的K值
EIGRP为了建立它的邻居关系,计算EIGRP度量标准的K常数值必须相同。
K1-带宽K2-负载K3-延迟K4,K5-可靠性
routereigrp1
networkx.x.x.x
metricweights011110
2.不匹配的AS编号
EIGRP不会与具有不同自治系统编号的路由器形成任何邻居关系。
3.活动粘滞
(1)确定问题
可能的原因有:。
坏的或拥塞的链路;。
低的路由器资源,如路由器上的低内存和高CPU处理。
长的查询X围。
过多的冗余
默认活动粘滞定时器只有180S.
使用showipeigrptopologyactive命令帮助故障排除EIGRP活动粘滞错误,仅在问题发
生时有用,用户一次只有180S的时间来确定。
邻居有一个r跟在后面表示它没有应答查询。
(2)故障排除方法
追踪查询,一跳接一跳,在每一跳找出活动路由的状态。
(3)最终解决方案
尽可能手工汇总路由并有一个分层次的网络设计。
EIGRP汇总的网络越多,主收敛发生时需要做的事情越少。
4.重复的路由ID
EIGRP只是为了外部路由而使用路由器ID的概念来防止环路。
EIGRP基于路由器上回
环接口的最大IP地址来选择路由器ID.如果路由器没有回环接口,则选择所有接口中最大的激活IP地址作为EIGRP的路由器ID.
debugipeigrp可以看到接口上通告某个网络。
经验法则:永远不要在网络的两个地方配置相同的IP地址。
2.4排除OSPF故障
1.不匹配的参数
使用debugipospfadj命令能够看到大多数的不匹配问题。
(1)hello/dead间隔不匹配——匹配才可以形成邻居。
(2)不匹配的认证类型——OSPF下有MD5和纯文本认证。
routerospf1
area0authenticationmessage-digest
networkx.x.0.00.0.255.255area0
(3)不匹配的区域ID——区域信息在OSPF的HELLO分组中发送。
不同,不会形成
邻接。
(4)不匹配的短截/传输/NSSA区域选项——当OSPF与一个邻居交换HELLO分组时,
它所交换的一项内容是由8比特表示的可选能力。
选项字段之一是E比特,即OSPF短截标志。
当E比特置0时,该路由关联的区域是一个短截区域,外部LSA不允许进入这个区域。
2.OSPF状态问题
成为邻居的路由器不保证交换链路状态更新。
一旦路由器决定与一个邻居形成邻接,它就开始交换其链路状态数据库的一份完整拷贝。
(1)OSPF陷入ATTEMPT——仅对neighbor语句的NBMA网络有效。
陷入ATTEMPT
是指一台路由器试图通过发送它的HELLO来联系邻居但是它没有收到响应。
showipospfneighbor查看。
原因:错误配置neighbor;NBMA上的单播连通性断了,这可能是由错误的DLCI,访
问列表或转换单播的NAT引起的。
(2)OSPF陷入INIT——INIT状态表示路由器收到来自邻居的HELLO分组,但是双
向通信并没有建立.
原因:。
一方访问列表阻止了HELLO;。
一方的多播能力失效(一个交换机故障);。
仅在一方启用了认证;。
一方的frame-relaymap/dialermap语句缺少了broadcast关键字。
一方的HELLO在第2层丢失了。
(3)OSPF陷入2-WAY——双向状态是指路由器在HELLO分组的邻居字段中见到了
自己的路由器ID.类似于所有路由器的优先级都为0,则不会发生选举,所有路由器停留在
双向状态中。
解决:确保至少一台路由器具有一个至少为1的IPOSPF优先级。
(4)OSPF陷入EXSTART/EXCHANGE——在EXSTART或EXCHANGE状态的OSPF
邻居正处于尝试交换DBD(数据库描述)分组的过程中。
原因:。
不匹配的接口MTU。
邻居上重复的路由器ID。
无法用超过特定MTU长度进行PING。
断掉的单播连通性,它可能是因为错误的DLCI,访问列表或转换单播的NAT
(5)OSPF陷入LOADING——邻居没有应答或邻居的应答从未到达本地路由器,路由
器也会陷入LOADING状态。
常有"%OSPF-4-BADLSA"控制台信息。
原因:。
不匹配的MTU。
错误的链路状态请求分组
3.点到点链路的一方是无编号的
interfaces0
ipunnumberedloopback0
解决:双方都需要成为一个有编号点到点链路或一个无编号点到点链路。
4.ABR没有产生一个类型4的汇总LSA
类型4的汇总LSA的一个功能是宣告到其他区域的ASBR的可达性。
如果同一个区域中存在ASBR则不需要类型4的LSA.
showipospfdatabaseexternal命令的输出显示在路由器的外部OSPF数据库中是否存在
路由。
showipospfdatabaseasbr-summary命令的输出显示路由是否有类型4的LSA.
检查R是否真是ABR.如果是,则产生类型3或类型4的汇总LSA.showipospf
5.转发地址不能通过区域内或区域间路由获知
当OSPF获得一条外部LSA时,它在将该路由装入路由选择表之前要确定转发地址可通过一条OSPF区域内或区域间路由获知。
如果转发地址不能通过区域内或区域间路由获知,OSPF不会将路由装入路由选择表中。
有可能的解决:。
不在ABR上进行汇总。
在ASBR上过滤再分布入OSPF中的直接子网
routerospf1
redistributeripsubnets
6.路由汇总问题
两种类型汇总:。
可执行在ABR上的区域间路由汇总。
可执行在ASBR上的外部路由汇总
(1)区域间汇总
routerospf1
area3rangex.x.x.0255.255.255.0
通过showipospf可以查看
(2)外部汇总
routerospf1
summary-addressx.0.0.0255.0.0.0
7.CPUHOG问题
产生在:。
邻居形成过程。
LSA刷新过程
8.SPF计算和路由翻动
只要拓扑有变化,OSPF就运行SPF算法再次计算最短路径优先树。
,可能引起链路的不稳定。
原因:。
区域内的接口翻动。
区域内的邻居接口翻动。
重复的路由器ID
使用showipospf命令可查看在一个给定区域中SPF算法运行的次数;
使用debugipospfmonitor来隔离一个翻动的LSA;
使用showlog命令显示由接口引起的翻动。
解决:。
修复正在翻动的链路。
重新定义区域边界
2.5排除IS-IS故障
1.IS-IS邻接问题
通常由链路故障和配置错误引起。
showclnsneighbors显示所有希望与被调查的路由器成为邻接的邻居
debugisisadj-packets命令来调试
2.部分或所有邻接没有形成
步骤1——检查链路故障。
showipinterfacebrief
步骤2——检查配置错误。
showrun
步骤3——检查不匹配的1级和2级接口。
步骤4——检查区域的错误配置。
步骤5——检查错误配置的子网
步骤6——检查重复的系统ID
3.邻接陷入INIT状态
常见原因:不匹配的接口MTU和认证参数。
showclnsneighbors可看到
步骤1——检查认证debugisisadj-packets
步骤2——检查不匹配的MTUdebugisisadj-packets
步骤3——检查IS-IS的HELLO填充禁止(命令同上)
使用showclnsinterface查看接口上的HELLO填充状态
4.ES-IS邻接形成代替了IS-IS邻接形成
在IP环境中运行IS-IS的CISCO路由器仍然监听ES-IS协议所产生的ISH.当物理层和
数据链路层工作时,即使没有建立IS-IS邻接的适当条件,仍能形成ES-IS邻接。