交换机运行维护与故障排查
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
RG-S5760 系列交换机运行维护与故障排查
前言
本文针对RG-S5760 系列交换机产品,介绍如何进行运行维护、自检、产品故障的定位与排除,供客支工程师在实际工作中参考。
内容简介
编号章节名内容简介
1 运行维护及自检介绍产品日常维护与自检的方法、输出信息解释、产品出现紧急故障时所采用的恢复方法。
2 基本功能维护针对基本故障,介绍故障的处理逻辑、方法以及案例。
3 硬件转发功能维护这部分主要是对交换机的硬件转发原理,以及部分底层命令信息收集的指导,以及在判断软件问题时常需要收集的信息。
4 协议功能维护针对功能模块故障,介绍故障的处理逻辑、方法以及案例。
阅读在阅读本文档之前,希望您能够基本了解该产品所涉及的技术原理。
参考文档如下:
RG-S5760 系列交换机用户手册
锐捷交换机软件版本升级操作指导
1运行维护及自检
1.1产品状态自检
1.1.1产品自检一览表
硬件诊断项目及命令
诊断项目及命令说明
设备指示灯观察所有的系统运行灯及模块灯的运行状况,status 状态灯常亮,插入模块的模块指示灯常亮,具体信息请参考《安全
智能万兆多层交换机交换机RG-S5760 硬件说明书V
1.0.pdf 》。
Show device 查看模块运行状况,由于S5760 不支持扩展模块,从设备列表中是否正常连接其他设备。
风扇电源状态由于S5760 暂不提供show 命令,通过指示灯以及外观检查
系统状态诊断项目及命令
诊断项目及命令说明
show cpu 查看CPU 利用率,RGOS10.x 以后提供对功能模块的CPU 占用信息的详细描述。
Show cpu-protect 【】查看设备CPP 保护的阀值以及协议报文送CPU 的队列优先级,对于硬件的丢弃送CPU 的报文速率暂时无法显
示。
Show memory 内存利用率,RGOS 10.X 平台提供对功能模块的Memory 暂用信息详细描述,Memory 占用见各功能模块介绍部分。
Show logging 查看日志信息,正常情况下无严重出错日志记录,查看有无端口频繁震荡等情况。
Show mac-address-table 查看交换机MAC 地址表,观察交换机学习MAC 地址的情况,默认情况下MAC 的老化时间为300s 。
Show arp 查看交换机的ARP 地址表,观察交换机学习ARP 地址的情况,重点关注ARP 地址的老化时间。
Show clock 查看系统的日期和时间信息。
如果发现系统时间有误,可及时调整。
Show running 显示交换机当前生效的配置参数。
当用户完成一组配置之后,如果需要验证配置是否正确,则可以执行show running 命令查看当前生效的参数。
对于某些正在生效的配置参数,如果与缺省工作参数相同,则不显示。
对于某些参数,虽然用户已经配置,但如果这些参数对应的功能没有生效,则不显示。
Show version 显示系统的版本信息。
用户可以通过该命令查看软件的版本信息、发布时间、交换机的基本硬件配置、设备运行时间等信息。
接口状态诊断项目及命令
断项目及命令说明
show interface 1 、以太网端口是否协商出了半双工?端口默认为自协商,如果此时协商出的结果为半双工,很可能两端配置不一致,是否存在一端强制一端协商的情况,将两端配置成一致。
如果厂商兼容问题需深入排查解决。
2 、端口是否有大量的错误报文,包括收和发,是否迅速增加检查
线路,中间连接的光电转换器;检查两端配置是否一致?
3 、光电复用接口是否up
4 、端口流量信息,观察是否有广播报文环路等状况。
Show vlan 互联Trunk 端口的两端设备允许通过的VLAN 配置为一致,
并且两端PVID 配置为一致。
Show spanning-tree interface xxx 确认和PC 连接的端口设置为Edge Port 或者BPDUfilter (BPDUguard )开启。
和非交换机设备连接的链路开启BPDUfilter (BPDUguard )。
Show interface status 互联Trunk 端口的两端设备允许通过的VLAN 配置为一致,并且两端PVID 配置为一致。
协议状态诊断项目及命令
协议状态诊断项目及命令说明
show ip protocols 显示设备目前正在运行的路由协议进程及具体参数。
Show vrrp 握手时间是否设置成3 秒?两端的vrrp 握手时间是否一致?
两端master 或slave 状态是否正确?是否出现都是两边master 的状态?是否和思科的PVST+ 互通?对于兼容性问题请参考《MSTP+VRRP 维护白皮书》
Show ip router 确认路由表数量,路由表是否有频繁震荡的情况,缺省路由是否正常
Show ip ospf neighbor 查看设备OSPF 邻居建立状态,进一步的信息可以在功能维护部分详细排查。
1.1.2设备启动自检信息
设备启动过程log 信息:
设备的启动。
Ruijie#reload
Processed with reload? [no]y
System bootstrap ...
Nor Flash ID: 0x00010049, SIZE: 2097152Byte
Press Ctrl+B to enter Boot Menu ......
Load Ctrl Program ...
// BOOT只在交换机产品中存在,类似于PC机中的BIOS,位于产品的ROM芯片中,用于系统引导功能,系统上电后CPU的第一条指令就会跳转到这里执行,此后完成系统硬件初始化,然后引导CTRL运行。
Executing program, launch at: 0x01000000
Ctrl Version: RGOS 10.3(4), Release(43933)
1 NAND chips(chip size : 33554432) detected
Press Ctrl+C to enter Ctrl Menu ......
Main Program rgos.bin, Load Main Program ...
// CTRL只在交换机产品中存在,由BOOT程序引导运行,主要加载交换机中的交换芯片驱动包,支撑产品的TFTP功能方便主程序的下载升级(在S86等机箱式产品中还用于主控板和线卡间的同步功能),然后加载系统MAIN程序运行的功能。
也位于产品的ROM芯片中。
Executing program, launch at: 0x00010000
Ruijie General Operating System Software
Release Software (tm), RGOS 10.3(4), Release(43933), Compiled Thu
21:09:23 CST 2008 by ngcf49
Copyright (c) 1998-2008 by Ruijie Networks.
All Rights Reserved.
Decompiling or Reverse Engineering is Not Allowed.
*Oct 25 16:51:13: %7: 1 NAND chips(chip size : 33554432) detected //设备主程序加载完毕后,会检测设备是否配置堆叠,堆叠选举功能会占用较长时间,启动时间还和堆叠成员数相关,如果而没有堆叠建
议将堆叠配置删除。
Stack System is electing....................
*Oct A25 16:S5S3:09: %DEVICE-5-ECHANGED: DERVICE S5760 (1) is UP.
//堆叠选举完成,配置加载成功后,主设备显示启动完毕,进入运行模式。
堆叠的备份设备进入CTRL模式,无法配置
*Oct 25 16:53:24: %SYS-5-WARMSTART: System warmstart.
Ruijie>
Ruijie>
如果设备在软件启动过程中遇到软件崩溃,需要捕获详细的debug 信
息,可以在ctrl 模式下打开ctrl 层的debug 调试开关。
Executing program, launch at: 0x01000000
Ctrl Version: RGOS 10.3(4), Release(43933)
1 NAND chips(chip size : 33554432) detected
Press Ctrl+C to enter Ctrl Menu
====== Ctrl Menu("Ctrl+Z" to upper level) ====== ************************************************
TOP menu items.
************************************************
0. T.
1. XModem utilities.
2. Run Main.
3. Run an Executable file.
4. utilities.
5. Scattered utilities.
************************************************
Press a key to run the command:
//输入CTRL+Q,进入命令行配置模式。
Hot Commands:
------------------------------------------------------------
Ctrl>help
Total commands:
debug Open or Close the t switch.
setmain Set Main .
version Show current version information.
reload Reload tools.
setbaud Set CTRL Baudrate tools.
format Format flash .
rename Rename or Move a file.
rm Remove a file.
ls List information about the files.
load Load main or a binary .
xmup Upload file / FlashROM through XModem.
xmdown Download programs through XModem.
help Dump command list OR show a command's details t programs through TFTP.
hotcmd List current hot commands.
quit Quit from CLI command line.
Ctrl>Ctrl>help debug
Syntax: debug (-on | -off)
Usage Details:
on: Open fset debug message.
off: Close fset debug message.
Examples:
debug -on
debug -off
Ctrl>Ctrl>debug –on
Ctrl>Ctrl>quit
1.2系统灾难恢复
1.2.1系统密码恢复
RG-S5760 交换机初始无密码,如密码忘记,通过以下步骤进行恢复:在设备使用过程中,如果忘记密码,可以采取如下步骤恢复密码。
1.加电启动,同时按住“ ctrl ”和“ c ”键进入ctrl 模式,通过Xmoden 将
配置文件config.text 下载到PC 。
*Oct 25 2
System bootstrap ...
Nor Flash ID: 0x00010049, SIZE: 2097152Byte
Press Ctrl+B to enter Boot Menu ......
Load Ctrl Program ...
Executing program, launch at: 0x01000000
Ctrl Version: RGOS 10.3(4), Release(43933)
1 NAND chips(chip size : 33554432) detected
Press Ctrl+C to enter Ctrl Menu
====== Ctrl Menu("Ctrl+Z" to upper level) ======
************************************************
TOP menu items.
************************************************
0. T.
1. XModem utilities.
2. Run Main.
3. Run an Executable file.
4. utilities.
5. Scattered utilities.
************************************************
Press a key to run the command: 1
====== Ctrl Menu("Ctrl+Z" to upper level) ====== ************************************************ XModem utilities.
************************************************
0. Upgrade CTRL.
1. Upgrade Main program.
2. Download a special .
3. Down to memory and jump to run.
4. Upload a PC.
************************************************
Press a key to run the command: 4
Plz enter the
Now, begin upload special XModem... Starting xmodem transfer. Press Ctrl+C to cancel. Transferring test...
1152 bytes 192 bytes/sec 00:00:06 0 Errors
OK, upload !
2.将下载的配置文件删除密码字段部分,回到主菜单文件操作项,删除
配置文件
config.text 。
3.加载主程序,启动交换机配置文件,系统恢复为无配置状况,再将配置
文件重新粘贴添加。
1.2.2版本升级及回退
相关内容请参考《锐捷交换机RGNOS 10.2 版本升级操作指导》。
1.3故障处理基本逻辑
1.3.1流程图
1.3.2流程介绍
流程简介
S5760 系列交换机产品问题,通常可以遵循上述流程进行故障定位。
硬件问题分为设备本身、互联设备的问题和线路连接问题。
开机无法通过自检;
设备接口损害或者雷击烧毁;风扇噪音或停转;电源无输出或警示灯长亮;
此类故障排查可参考《安装手册》。
对于比较明显的硬件故障可以直接定位,对于确认的高端产品硬件故障按照硬件故障处
理流程处理,有些硬件故障无法直接定位在配置和软件排查过程中可能深入分析后才能确认。
配置/环境/已知问题
首先查询交换机现有版本的release 及《锐捷交换机预警通告》,《锐捷交换机FAQ 》,通过结合网络环境以及配置分析,确认是否为现有版本上已知的BUG 或功能限制,并同TAC 确认解决方式。
排除上述问题的可能性后,则对配置功能进行深入分析,针对某功能的特性、设备兼容等专项故障维护,参见后续故障排查章节。
软件问题
如配置正确,现场工程师经过多方排查(参见后续故障排查章节),仍无法解决问题,提供充分必要的数据分析信息,在服务事件管理系统提交CASE ,请TAC 工程师协助处理。
1.4网络联通性
1.4.1 Ping
功能简介Ping 功能用来检查IP 网络连接及主机是否可达。
通常,如果不能Ping 到某台主机,则不能对这台主机进行Telnet 或者FTP 操作。
Ping 是通过向目的地发送ICMP ECHO-REQUEST 报文,如果到目的地网络连接正常,目的地主机接收到ICMP ECHO-REQUEST 报文后,向源主机响应ICMP ECHO-REPLY 报文。
可以用Ping 命令测试网络连接是否出现故障或网络线路质量等,其输出信息包括:
目的地对每个ECHO-REQUEST 报文的响应情况,如果在超时时间内没有收到响应报文,则输出“·····”,否则输出“!!!!!”
最后的统计信息,包括发送报文个数,接收到响应报文个数,响应报文数百分比和响应时间的最小,最大和平均值
功能示例
Ping 不可达的输出
S5760#ping 192.168.197.5
Sending 5, 100-byte ICMP Echoes to 192.168.197.5, timeout is 2 seconds: < press Ctrl+C to break >
.....
Success rate is 0 percent (0/5)
Ping 可达的输出
S5760#ping 192.168.197.1
Sending 5, 100-byte ICMP Echoes to 192.168.197.1, timeout is 2 seconds: < press Ctrl+C to break >
!!!!!
Success rate is 100 percent (5/5), round-trip min/avg/max = 1/4/10 ms 功能维护
如果出现无法Ping 通的情况,可以通过以下方法来确认问题的所在:
查看目的地址的所属接口是否是UP 的
查看链路中是否存在IP 地址冲突
查看是否正确的学习到对端的MAC 地址
查看从本机到目的地址是否存在路由
查看目的网络是否存在回程路由
如果上述步骤中都没有发现问题,则可以打开Debug ip packet ,Debug ip
icmp ,Debug ip error 调试开关来查看报文的收发流程。
Debug 命名请参考《S5760 命令参考手册》。
1.4.2 Traceroute
功能简介Traceroute 命令用来测试数据包从发送主机到目的地所经过的
网关,主要用于检查网络连接是否可达,以及辅助分析网络在何处发
生了故障。
Traceroute 命令的执行过程:首先发送一个TTL 为1 的数据包,因此
第一跳发送回一个ICMP TTL-expired 超时报文以指明此数据包不能
被发送(因为TTL 超时),之后此数据包被重新发送,TTL 为2 ,
同样第二跳返回TTL 超时,这个过程不断进行,直到到达目的地。
执行这些过程的目的是记录每一个ICMP TTL 超时报文的源地址,
以提供一个IP 数据包到达目的地所经历的路径。
功能示例
S5760#Traceroute61.154.22.36
< press Ctrl+C to break >
Tracing the route to 61.154.22.36
1 192.168.12.1 0 msec 0 msec 0 msec
2 192.168.9.2 4 msec 4 msec 4 msec
3 192.168.9.1 8 msec 8 msec
4 msec
4 192.168.0.10 4 msec 28 msec 12 msec
5 202.101.143.130 4 msec 1
6 msec 8 msec
6 202.101.143.154 12 msec 8 msec 24 msec
7 61.154.22.36 12 msec 8 msec 22 msec
从上面的结果可以清楚地看到,从源地址要访问IP地址为61.154.22.36 的主机,网1络数据包都经过了哪些网关(1-6 ),同时给出了到达该网关所花费的时间。
功能维护
网络中某些网关不通的Traceroute 例子:
S5760#Traceroute –d202.108.37.42
< press Ctrl+C to break >
Tracing the route to 202.108.37.42
1 192.168.12.1 0 msec 0 msec 0 msec
2 192.168.9.2 0 msec 4 msec 4 msec
3 192.168.110.1 16 msec 12 msec 16 msec
4 * * *
5 61.154.8.129 12 msec 28 msec 12 msec
6 61.154.8.1
7
8 msec 12 msec 16 msec
7 61.154.8.250 12 msec 12 msec 12 msec
8 218.85.157.222 12 msec 12 msec 12 msec
9 218.85.157.130 16 msec 16 msec 16 msec
10 218.85.157.77 16 msec 48 msec 16 msec
11 202.97.40.65 76 msec 24 msec 24 msec
12 202.97.37.65 32 msec 24 msec 24 msec
13 202.97.38.162 52 msec 52 msec 224 msec
14 202.96.12.38 84 msec 52 msec 52 msec
15 202.106.192.226 88 msec 52 msec 52 msec
16 202.106.192.174 52 msec 52 msec 88 msec
17 210.74.176.158 100 msec 52 msec 84 msec
18 202.108.37.42 48 msec 48 msec 52 msec
从上面的结果可以清楚地看到,从源地址要访问IP 地址为202.108.37.42
的主机,网络数据包都经过了哪些网关(1-17 ),可能是网关4 设备的CPU 利用率过高,或中间路由器不返回ICMP TTL-expired 包。
2基本功能维护与故障排查
2.1以太网接口维护
2.1.1端口协商
电口:支持10/100/1000M 协商及强制手工配置;
光口:速率千兆,支持强制设置双工和流控;
2.1.2流控设置
交换机是基于存储转发的, 因此很关键的问题是在缓冲存储器大小一定的情况下, 如何合理的使用缓冲存储器,以避免由于用完这个存储器资源而出现丢包现象在实际运用中, 当流量超过了网络的最大传输能力时,网络吞吐量将会下降。
例如在一个交换机中,如果流量是突发性的且都流向一个端口,那么缓冲区将溢出,并将导致吞吐量下降和数据包丢失。
数据包丢失对于吞吐量性能具有负面效应,对于那些使用像TCP / IP 这样的存取方法的应用而言尤为如此。
在TCP / IP 中,如果一个数据包丢失了,发送方的TCP / IP 最终会发现数据包没有被送到,并将重发这些帧。
即使帧丢失率很小,也将导致很大的吞吐量下降。
一个简单的流量控制机制会带来很大的好处, 流量控制是交换机用于限制网络访问的机制, 它通过对缓冲区设置上限, 修改发送速率或将发送源关闭一段预定的时间来实现.
流量控制是当交换机的端口出现拥塞时, 才会起作用. 当交换机的各个端口都是一对一的同速率转发, 不出现拥塞时, 是不会产生流控的。
S5760 系列交换机默认关闭端口流控,当网络结构为非对称网络时,建议打开流控。
观察流控是否打开的方法为:
show interface fastethernet xx
Ruijie#show interface GigabitEthernet 0/1
Index(dec):1 (hex):1
GigabitEthernet 0/1 is DOWN , line protocol is DOWN Hardware is marvell GigabitEthernet
Interface address is: no ip address
MTU 1500 bytes, BW 1000000 Kbit
Encapsulation protocol is Bridge, loopback not set
Keepalive interval is 10 sec , set
Carrier delay is 2 sec
RXload is 1 ,Txload is 1
Queueing strategy: FIFO
Output queue 0/0, 0 drops;
Input queue 0/75, 0 drops
Switchport attributes:
interface's description:""
medium-type is copper
lastchange time:0 Day:22 Hour:57 Minute:49 Second
Priority is 0
admin duplex mode is AUTO, oper duplex is Unknown
admin speed is AUTO, oper speed is Unknown
flow control admin status is OFF,flow control oper status is Unknown broadcast Storm Control is OFF,multicast Storm Control is OFF,unicast Storm Control is OFF
5 minutes input rate 0 bits/sec, 0 packets/sec
5 minutes output rate 0 bits/sec, 0 packets/sec
1444606 packets input, 395920698 bytes, 0 no buffer, 0 dropped Received 478336 broadcasts, 0 runts, 0 giants
0 input errors, 0 CRC, 0 frame, 0 overrun, 0 abort
0 packets output, 0 bytes, 0 underruns , 0 dropped
0 output errors, 0 collisions, 0 interface resets
2.1.3端口状态监控
通过以下三条命令,可以查看端口当前的link- 状态,协商状态,及数据包转发统计信息。
show interface fastethernet xx
Ruijie#show interface GigabitEthernet 0/1
Index(dec):1 (hex):1端口索引
GigabitEthernet 0/1 is DOWN , line protocol is DOWN端口状态指示
Hardware is marvell GigabitEthernet
Interface address is: no ip address
MTU 1500 bytes, BW 1000000 Kbit
Encapsulation protocol is Bridge, loopback not set Keepalive interval is 10 sec , set
Carrier delay is 2 sec
RXload is 1 ,Txload is 1
Queueing strategy: FIFO
Output queue 0/0, 0 drops;
Input queue 0/75, 0 drops
Switchport attributes:
interface's description:""
medium-type is copper
lastchange time:0 Day:22 Hour:57 Minute:49 Second
Priority is 0
admin duplex mode is AUTO, oper duplex is Unknown
admin speed is AUTO, oper speed is Unknown
flow control admin status is OFF,flow control oper status is Unknown //端口协商控制说明
broadcast Storm Control is OFF,multicast Storm Control is OFF,unicast Storm Control is OFF风暴控制状态
5 minutes input rate 0 bits/sec, 0 packets/sec
5 minutes output rate 0 bits/sec, 0 packets/sec
1444606 packets input, 395920698 bytes, 0 no buffer, 0 dropped Received 478336 broadcasts, 0 runts, 0 giants
0 input errors, 0 CRC, 0 frame, 0 overrun, 0 abort
0 packets output, 0 bytes, 0 underruns , 0 dropped
0 output errors, 0 collisions, 0 interface resets
端口收发数据统计
show interface couter
查看端口的数据包统计详细说明
Interface : GigabitEthernet 0/1//基于接口的收发流量统计
5 minutes input rate :458 bits/sec, 0 packets/sec
5 minutes output rate :0 bits/sec, 0 packets/sec//基于数据包类型统
计
InOctets : 23798
InUcastPkts : 0
InMulticastPkts : 0
InBroadcastPkts : 189
OutOctets : 0
OutUcastPkts : 0
OutMulticastPkts : 0
OutBroadcastPkts : 0
Undersize packets : 0
Oversize packets : 0
collisions : 0
Fragments : 0
Jabbers : 0
CRC alignment errors : 0
AlignmentErrors : 0
FCSErrors : 0
dropped packet events (due to lack of resources): 0
//基于数据包长度统计
packets received of length (in octets):
64 : 18
65-127 : 138
128-255 : 24
256-511 : 9
512-1023 : 0
1024-1518 : 0
show interface staus
端口的物理状态信息
S3760#sh interfaces status
Interface Status Vlan Duplex Speed Type
------------------------ -------- ---- ------- --------- ------
GigabitEthernet 0/1 up 1 Full 1000M copper
GigabitEthernet 0/2 down 1 Unknown Unknown copper
2.2常见故障处理一:端口LINK状态异常
2.2.1故障说明
以太网端口连接后,无法link ,或者link 不稳定,link 后协商的速率不正常;
2.2.2诊断流程
Link down
1.首先确认配置是否有问题,如端口被shut down ,光电复用口未切换到
合适状态
2.检查两端端口的自协商是否打开,建议双方交换机的端口将自协商打
开。
至少需要保证两台交换机的端口的工作状态是一致的
3.重新插拔线缆(网线或者光纤或者光模块),看是否可以Linkup 。
此
举可以确定是否由于这些部件未良好连接导致的问题
4.尝试更换网线或者光纤(或者光模块、扩展模块),看是否可以Linkup
5.把线缆更换到本机的其他端口上,看是否可以正常Linkup 。
如果其
他端口可以Linkup ,很大可能是端口硬件故障。
如果无法Link, 需要更换RJ45 线(需要尝试正线和反线),确认光纤线的TX 、RX 的正确连接
6.如果是长线,则改为短线进行和其他正常端口连接,看是否Link 正常
7.把对端更换到其他正常端口上,看是否可以正常Linkup
8.或者使用测试设备对网线或者光纤的衰减进行测试,并和标准值比较,
以确认线缆是否损坏
2.3常见故障二:端口丢包/错帧,或ping包延迟大
2.3.1故障说明
网络访问缓慢,检查用户接入端口或者上联端口出现丢包及CRC 错误。
2.3.2诊断流程
1.确认网络拓扑是否有问题
2.确认软件配置是否有问题
3.通过端口LED 指示灯观察或者通过Console 口进入主程序界面,使
用Show interfaceGi 0/1 counters ( 假设Gi 0/1 故障) 来确认是否有CRC 等错误。
以及是发送还是接收错误。
务必保存串口信息,以备后续分析。
2.4常见故障三:光模块无法link-up或出现大量CRC
2.4.1故障现象
光模块无法link-up 或出现大量的CRC.
2.4.2诊断流程
1.确认光纤线是否和光模块匹配, 不能使用单模光纤连接两个多模光模
块,多模信号在单模光纤上衰减非常大
2.确认光模块安装是否到位
3.确认光模块指标是否符合现场环境. 因为光纤通信是比较精密的技
术,若现场环境恶劣(尤其是灰尘),对通信质量会有较大的影响,应该尽可能避免在这种环境下使用,若要用,需要做好对光纤和光模块接口的保护工作
4.确认交换机互连光口的端口配置是否匹配, 主要要留意光电复用口是
否已经切换为光口、互连的两个光口的速率配置是否对称
5.将互连光口的端口配置为自适应,确认是否解决
6.更换其中一个光模块所处端口,确认是否解决
7.更换光纤线,确认是否解决
8.将其中一个光模块换到第三台设备上,确认是否解决
9.插入第三个光模块,确认第三个光模块和其他两个模块的连接情况1 0.测试光模块的TX 端、光模块的TX 端接光纤后的光强,现场需要
有测试光强的设备
11.上述步骤可依现场条件选择执行。
完成上述步骤后,基本可以定位出
故障点,若为光纤线问题,提交客户处理,若为光模块问题,使用吹气球(即皮老虎)或强风(可用风扇)吹或吸光模块TX 光口、RX 光口,然后在测试光模块的连接情况。
(光口上的灰尘会引起光模块连接不上,使用这种方法可以排除灰尘问题)记录所做的全部操作和操作过程中所产生的信息, 以备后续分析。
2.5二层转发功能维护
2.5.1查看MAC地址表
可通过show mac-address-table 命令来查看MAC 地表。
S5760#show mac-address-table
Vlan MAC Address Type Interface
---------- -------------------- -------- -------------------
1 0000.5e00.0154 DYNAMIC GigabitEthernet 0/1
1 0000.5e00.01cc DYNAMIC GigabitEthernet 0/1
2.5.2常见故障排查
二层转发是基于MAC+VID 的转发流程,有多种因素可能导致二层转发异常,一般来说有以下几种情况:
物理端口损坏,导致数据无法正常转发;
生产树block 端口以及安全功能如mac 地址过滤,dot1x ,端口安全等原因导致端口无法正常转发;
对于问题一,可参考端口状态一章进行排查,问题二则通过以下步骤对信
息进行收集,并结合二层转发原理进行分析处理。
1.查看设备基本运行状态:Show cpu ,show memory
2.查看端口状态及收发报文:统计Show interface counters,show interface
3.查看vlan 配置,Show interface ,show vlan
4.查看mac 表,Show mac-address-table 查看STP 状态,Show
spanning-tree interface
3硬件转发功能维护与故障排查
3.1底层命令简介
通过上层和底层相关表项的对应,能快速的定位问题的原因。
如上层mac 地址表对应底层的fdbtable 表,上层路由表对应底层的vs dump v4disprefix 表,上层ACL 应用表对应底层的PCL 表。
在交换机日常运行和维护过程中可能遇到下述几种情况,需要使用底层排查:
1.上层show mac-address-table 表项中,有目的mac ,但是交换机不
转发数据,可通过底层fbdtable 命令查看底层mac 表项是否正确2.上层路由表中,有目的ip 网段,但是交换机却不转发数据,可通
过使用底层vs dumpv4disprefix 命令排查底层路由表是否正确 3.
上层应用了acl 策略(如:acl ,端口安全,arp-check 等),交换机数据转发时,应用不生效。
可通过acl show acl 命令查看底层PCL 应用是否匹配。
后续章节针对底层作重点介绍。
3.2基本命令
使用debug ssp remote 进入底层调试模式:
Debug ssp remote 的为管理层进行处理,不会对网络应用照成影响,但由于该调试模式可能会输出大量信息,建议将控制台的波特率调整为115200bps 。
Ruijie#debug ssp remote //该命令为隐藏命令
Ruijie(ssp-debug)#?//?帮助键
SSP debug commands:
access-list Access-list deubug clis//底层pcl调试命令
addcpuacl Add cpu acl
arp Arp set debug
assert Ssp assert on/off
cascdedeviceinfo Print cascde device info
cfgdevtab Configure device table
ctrl_packet Ctrl packet format
d1xdump Dump dot1x user information
//查看dot1.x认证在线用户表项
d1xsetuser Set dot1x user
dbgsave Save debug config
debug Turn on/off the debug switch
default Set a command to its defaults
device Set current operated pp device
dot1x Dot1x debug //dot1.x调试命令
dpk Packet debug//底层debug报文调试命令
drlbrg Drl brg debug cmd
dumpcpuacl Dump cpu netif acl
dumpfdbshadow Dump mac address shadow table dumpl3port L3port dump //查看三层接口
dumpmsgbucket Dump mac address shadow table dumpregen Ssp dumpreg on/off
dumpsspen Ssp dumpssp on/off
dumpstacken Ssp dumpstack on/off
enablelearn Enable device address learn
end Exit from SSP debug command mode
exit Exit from SSP debug command mode
fdbtable Dump chip fdb table//底层MAC表
hash Macadd [mac addr] [vid]
igs Igs debug
int Enable/disable show cpu rx/tx packets interrupt loopback Set port loopback mode
mirror Mirror debug
mllwrite Write mll to hw
msg Disable/enable aa/na msg
nbr-coa Nbr-coa debug clis
no Negate a command or set its defaults
pbr Pbr debug
phyidentifier Read phy identifier
pk Enable/disable show cpu rx/tx packets
port Init port des & buffer
port-range Security ACL’s port-range lookup
privlan Private-vlan module debug information
qos Qos debug
readmem Read memory
readphy Read phy register
readreg Read pp register
readtable Read pp table reg
resetallport Reset all port
resetport Reset port
route Route dump
//路由调试命令,通过该命令可以查看ipv4,ipv6的单播路由和多播路由
send_pk Send/mail a packet to other cpu
setbasedevice_id Configure base id
setcascadeport Set device id
setdeviceid Set device id
setdevicetable Configure device table
setsourceidtable Configure sourceid table
showdes Show cpu tx/rx des
stmem Show memory statis
stp Stp debug//stp调试命令
stptable Dump chip stp table//查看stp状态
vlantable Dump chip vlan table
writemem Write memory
writephy Write phy register
writereg Write pp register
writetable Write pp table reg
3.2.1 L2部分
该部分介绍上层和底层mac 地址表对应关系的应用举例,以及底层mac 表中各参数的意义。
通过表项的查看,可判断底层转发是否正确。
上层MAC表
通过show mac-address-table 命令查看mac 地址表
Ruijie#show mac-address-table
Vlan MAC Address Type Interface
---------- -------------------- -------- -------------------
10000.0000.0002 DYNAMIC GigabitEthernet 0/1
10000.0000.0003 DYNAMIC GigabitEthernet 0/1
10000.5e00.0154 DYNAMIC GigabitEthernet 0/1
10000.5e00.01cc DYNAMIC GigabitEthernet 0/1
10011.0a81.af63 DYNAMIC GigabitEthernet 0/1
1 0014.a552.7400 DYNAMIC GigabitEthernet 0/1
10018.f3a8.0f67 DYNAMIC GigabitEthernet 0/1
1001b.210b.8b5a DYNAMIC GigabitEthernet 0/1
1001b.210b.8c2e DYNAMIC GigabitEthernet 0/1
1001b.fca6.b678 DYNAMIC GigabitEthernet 0/1
1 001c.bf5f.7e4c DYNAMIC GigabitEthernet 0/1
底层MAC表项
底层通过fbdtable+[counter] 命令查看
由于FDB 表项巨大,因此设定个参数,目的是避免在不知道表项个数情况下,输入了该命令,只能等待全部打印完成才能退出
Ruijie(ssp-debug)#fdbtable 20
%current device is:0
=== HW MAC TABLE READ dev 0 (address N/A) ===
)v sk ag Vid MAC dv sId tr p_t sp dQ sQ Vidx S m dC sC A U R 01248)1 0 1 0x00100:14:a5:52:74:00 00 00 P 000 0 0 0 0x000 0 - 0 0 0 0 0 02600)1 0 1 0x00100:00:00:00:00:02 00 00 P 000 0 0 0 0x000 0 - 0 0 0 0 0 03484)1 0 1 0x00100:1b:21:0b:8c:2e 00 00 P 000 0 0 0 0x000 0 - 0 0 0 0 0 03516)1 0 1 0x00100:1b:21:0b:8b:5a 00 00 P 000 0 0 0 0x000 0 - 0 0 0 0 0 05720)1 0 1 0x00100:1b:fc:a6:b6:78 00 00 P 000 0 0 0 0x000 0 - 0 0 0 0 0 09908)1 0 1 0x00100:00:5e:00:01:cc 00 00 P 000 0 0 0 0x000 0 - 0 0 0 0 0 11052)1 0 1 0x00100:00:00:00:00:03 00 00 P 000 0 0 0 0x000 0 - 0 0 0 0 0 13096)1 0 0 0x001 00:1b:21:0c:f2:35 00 00 P 000 0 0 0 0x000 0 - 0 0 0 0 0 14180)1 0 1 0x00100:00:5e:00:01:54 00 00 P 000 0 0 0 0x000 0 - 0 0 0 0 0
14648)1 0 1 0x00100:11:0a:81:af:63 00 00 P 000 0 0 0 0x000 0 - 0 0 0 0 0 End of table - num of entries : 21 , 21 valid ,0 skip ,1 Aged , 0 sp === Display only the first 20 entries ===
static mac address num : 2
v //等于1表示该表项有效
sk //等于1表示硬件查找FDB时,可以跳过改表项,若等于1那么这条表象也相当于无效的
ag //老化时间
Vid //vlanid
MAC //MAC地址
dv //对于S5760-24都是等于0,
tr //对于单播地址显示“T”或“P”,若是“T”,则表示这条MAC地址是挂在Ap口上“P”表示非Ap口;对于组播地址会显示“X”
p_t //显示端口号,或ap口号,注意这里端口号与面板上的端口不一定对应,存在一定的映射关系
Vidx //只对于组播地址,用于表示该组播地址对应的转发表
S //等于1表示是静态地址
dC //目的mac匹配中的控制命令,0-转发,1-镜像到cpu,2-只送cpu,3和4-丢弃其它无意义
sC //源mac匹配中的控制命令,0-转发,1-镜像到cpu,2-只送cpu,3和4-丢弃,其它无意义
R //等于表示会触发路由,在我们的交换机中,如果等于1,那
么只会是网络mac地址,即本机的MAC地址之一
其他可不需要了解
底层L2 表和上层路由表的对应关系,用不同的颜色标识
3.2.2 L3部分
交换机三层数据转发通过查找底层l3 表,来正确转发。
下述部分介绍上层路由表和底层路由表的对应关系的应用举例。
上层路由表
三层路由表的通过show ip route 查看
Ruijie#show ip route
Codes: C - connected, S - static, R - RIP, B - BGP
O - OSPF, IA - OSPF inter area
N1 - OSPF NSSA external type 1, N2 - OSPF NSSA external type 2
E1 - OSPF external type 1, E2 - OSPF external type 2
i - IS-IS, su - IS-IS summary, L1 - IS-IS level-1, L2 - IS-IS level-2
ia - IS-IS inter area, * - candidate default
Gateway of last resort is no set
•2.2.2.2/32 [110/1] via 192.168.204.111, 00:01:13, VLAN 1
•111.1.1.1/32 [110/1] via 192.168.204.111, 00:01:13, VLAN 1 C192.168.204.0/24 is directly connected, VLAN 1
C192.168.204.101/32 is local host.
底层路由表
Ruijie(ssp-debug)#route softwareroute v4uc
print all ipv4 uc prefix table//打印出ipv4的前缀路由
print all ipv4 uc next table//打印ipv4的下一跳列表
vrid:0,0.0.0.0/0 nhid: 0, nhptr: 0x6ffcc00
nh 0x6ffcc00 ispyrt:0, nh_id:0, nh_num:1, refcnt:2
nhip0.0.0.0
cmd 4, dmac 0000.0000.0000, weight 1, arppter 0, istt 0, ttid 0, phyid 0x0,
vid 0, ttl 0, vidx 0, mtu 0, enrpf 0, rpfcmd 0, mll 0, flag 0, vrid 0 //目的网段为0.0.0.0,下一跳为0.0.0.0表示不可达
vrid:0,192.168.204.0/24 nhid: 1, nhptr: 0x6ff8800
nh 0x6ff8800 ispyrt:0, nh_id:1, nh_num:1, refcnt:2
nhip 0.0.0.1
cmd 5, dmac 0000.0000.0000, weight 1, arppter 0, istt 0, ttid 0, phyid 0x0,
vid 0, ttl 0, vidx 0, mtu 0, enrpf 0, rpfcmd 0, mll 0, flag 0, vrid 0 //目的网段为192.168.204.0,下一跳为0.0.0.1,表示为本地路由
vrid:0,2.2.2.2/32 nhid: 4, nhptr: 0x6986800
nh 0x6986800 ispyrt:0, nh_id:4, nh_num:1, refcnt:3
nhip192.168.204.111
cmd 0, dmac 00d0.f8a4.9e81, weight 1, arppter 0, istt 0, ttid 0, phyid 0x1000001,
vid 1, ttl 0, vidx 0, mtu 1500, enrpf 0, rpfcmd 0, mll 0, flag 20, vrid 0
//目的网段为2.2.2.2,下一跳为192.168.204.111
vrid:0,111.1.1.1/32 nhid: 4, nhptr: 0x6986800
nh 0x6986800 ispyrt:0, nh_id:4, nh_num:1, refcnt:3
nhip192.168.204.111
cmd 0, dmac 00d0.f8a4.9e81, weight 1, arppter 0, istt 0, ttid 0, phyid 0x1000001,
vid 1, ttl 0, vidx 0, mtu 1500, enrpf 0, rpfcmd 0, mll 0, flag 20, vrid 0
//目的网段为111.1.1.1,下一跳为192.168.204.111
vrid:0,192.168.204.101/32 nhid: 3, nhptr: 0x6986c00
nh 0x6986c00 ispyrt:0, nh_id:3, nh_num:1, refcnt:1
nhip 0.0.0.1
cmd 5, dmac 0000.0000.0000, weight 1, arppter 0, istt 0, ttid 0, phyid 0x0,
vid 0, ttl 0, vidx 0, mtu 0, enrpf 0, rpfcmd 0, mll 0, flag -2147483630, vrid 0
//目的网段为192.168.204.101,下一跳为0.0.0.1,表示为本地路由部分注释如下:
Nhid //是内部用,软件内部将路由分成2部分,即prefix和
nexthop,一条prefix只能关联一条nexthop,而一个nexthop可以。