博科交换机Loseoflink丢失链路故障排除
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Brocade Switches –如何确定是SFP 或是光纤线导致“Loss of Link(丢失链接)”问题
问题描述: 一个有问题的SFP或光纤线会造成丢失与主机,存储或另一台交换机的连接问题,在交换机的error log中可能有如下显示:
2007/12/06-23:50:56, [FW-1424], 7682,, WARNING, SWITCH_1, Switch status changed from HEALTHY to MARGINAL 2007/12/06-23:50:56, [FW-1436], 7683,, WARNING, SWITCH_1, Switch status change contributing factor Marginal ports: 1 marginal ports. (Port(s) x )
问题解决方法: 首先确定是由于SFP还是光纤线的问题造成链接丢失,执行下面的命令:
检查porterrshow命令的输出:
如果仅是"enc out "单独报错主要是因为光纤线的问题。
如果是"enc out "和"crc err "组合报错主要是GBIC/SFP的问题。
要确定是源端还是目标端SFP报错,需要再检查"portshow x" 的输出(x代表有问题端口号)
如果下面两对参数 "Lr_in " 和 "Ols_out " 以及 "Lr_out " 和"Ols_in " 的值相同,则表明SFP运行正常如果一个数值明显高于另一个, 连接问题可能出现在交换机连接的对端("in" > "out") 或是交换机本身("out" > "in").
注意:如果”Ols_in”的值高于“Lr_out”的值,问题的根源大多数情况与连接的设备相关,(sending those offline sequences) 并且交换机通过"link reset"对此做出响应。
参数解释:
enc_out -> Encoding error outside of frames
crc err -> Frames with CRC errors
Lr_in -> Link reset In (primitive sequence), does not apply to FL_Port
Lr_out -> Link reset Out (primitive sequence), does not apply to FL_Port
Ols_in -> Offline reset in (primitive sequence), does not apply to FL_Port
Ols_out -> offline reset out (primitive sequence), does not apply to FL_Port
清除crc err等信息
有两个命令可以实现,一个命令是statsclear,清掉所有端口的计数值,实践中发现有些平台下不能使用,估计跟firmware或设备类型有关,另一个命令是portstatsclear,后面需要加端口号,缺点是只能清除单个端口的计数值,这个命令在所有firmware及所有类型设备都可以用
Porterrshow
用来展示交换机上面所有端口错误统计信息,详细解释如下:
Frame(tx/rx):tx代表端口发送的数据帧,rx代表端口收到的数据帧。
Enc_in:8b/10b或者64b/6bb数据帧帧内编码错误。
在正常情况下20分钟会出现一次这个报错,交换机端口(offline/online)会产生这个错误。
Crc_err:数据帧CRC校验错误。
根据实际统计,如果crc_err和enc_out同时出现,通常代表
GBIC/SFP有硬件问题。
Crc_g_eof:数据帧CRC校验错误,但是数据帧EOF是正常的。
Too_long:数据帧总长度超过2148字节或者workload长度超过2112字节。
Too_short:小于36个字节长度的帧(workload字节长度等于0)。
Bad_eof:数据帧EOF错误。
Enc_out:8b/10b或者64b/66b数据帧帧外编码错误。
在正常情况下20分钟会出现一次这个报错,交换机端口(offline/online)会产生这个报错,另外在HBA卡和交换机端口速率不同,而又使用
的是静态配置端口速率的时候也会产生这个错误。
单一的这个报错反映光纤线可能有问题;如果
是Enc_out和crc_err同时报错代表GBIC/SFP有硬件问题。
Disc c3:Class 3被交换机丢弃的数据帧。
常见情形帧的目标地址不可达或者源端口还没有FLOGI
交换机。
这个参数仅仅代表有丢包发生,不能用来判定问题的具体原因。
Link-fail:当交换机端口在LR Receive State时间超过R_A_TOV就会产生这个错误。
这个错误经常
和loss of signal或者loss of sync同时出现。
Loss sync:bit或者transmission-word synchronization失败都会产生这个错误。
当交换机端口(offline/online)会产生这个问题。
Loss sig:链路收不到信号。
当交换机端口(offline/online)会产生这个问题。
Frjt:用于class 2。
代表数据帧无法处理。
Frbsy:用于class 2。
数据帧无法在E_D_TOV时间内传输出去,超时后会产生这个问题。
小结
1.Loss sync,Loss sig,Link-fail这三个错误在链路初始化的过程中都会产生。
当链路不稳定时候,通常这些错误计数器比较高。
2.Frjt,Frbsy用于class 2。
SAN存储通常使用的是class 3,所以这两个错误很少见。
3.Enc_out和Crc_err两个计数器同时比较高,通常需要更换GBIC/SFP。
4.Disk c3只能代表链路有丢包现象。
原因可能有很多种,具体问题具体分析。
如果这个值过高,链路性能可能会受到影响。