F5常见故障检测方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

F5常见故障检测方法
F5常见故障检测文档
北京华胜天成科技股份有限公司2007年7月16日
目录
1 主要故障现象 (3)
1.1 V4.5系统常见的故障现象 (3)
1.2 V9系统常见故障 (3)
2 故障处理和报错信息的收集 (3)
1.3 V4.5系统收集内容 (3)
1.4 V9系统硬件检测程序收集内容 (4)
1.5 故障信息收集和常见故障解决方法 (4)
1.5.1 电源故障 (4)
1.5.2 风扇故障 (4)
1.5.3 CF卡有坏块(V4.5系统) (4)
1.5.4 光纤接口损坏 (5)
1.5.5 系统启动故障 (5)
1.5.6 CPU温度过高造成系统挂起 (6)
3 注意事项 (7)
这篇文章介绍了硬件故障的处理和报错信息的收集,用于向F5 Support提出RMA或DOA 申请,软件以及系统设置方面的故障这里没有包括。

本文主要分以下三个方面:
●常见故障现象
●故障处理和报错信息的收集
●注意事项
1主要故障现象
分为两个部分:V4.5系统和V9系统。

V4.5系统对应的机型为 F5 1000、2400、5100系列。

V9系统对应的机型为 F5 1500、3400、6400、6800系列
1.1 V4.5系统常见的故障现象
●电源故障
●风扇故障
●CF存储卡故障
●光纤端口故障
●系统启动故障
1.2 V9系统常见故障
●电源故障
●风扇故障
●CPU温度过高的故障
●系统启动故障
●机器内部的板卡故障
2故障处理和报错信息的收集
1.3 V4.5系统收集内容
对于V4.5的系统由于没有专项的检测程序,所以我们要收集以下主要内容:
●QKVIEW的运行结果(机器能够启动进入OS)
●LOG文件(机器能够启动进入OS)
●观察机器故障时的前面板状态灯的情况、风扇工作情况、电源和电源风扇的工作情

●CONSOLE口的输出内容
●有条件的话,对故障机器拍照(针对一些特殊的故障现象)
1.4 V9系统硬件检测程序收集内容
●硬件检测程序EUD的运行结果(机器能够启动或使用外置USB 光驱运行)
●CONSOLE口的输出内容
●观察机器故障时的前面板状态灯的情况、风扇工作情况、电源和电源风扇的工作情
况以及前面板液晶屏幕的显示内容
●有条件的话,对故障机器拍照(针对一些特殊的故障现象)
●启动进入系统后,运行一些命令的结果
1.5 故障信息收集和常见故障解决方法
1.5.1电源故障
现象:开机无反应、风扇不工作、CONSOLE口无输出等。

这种故障比较明显,只需观察机器故障时的前面板状态灯、风扇工作情况、电源和电源风扇的工作情况以及前面板液晶屏幕的显示内容并记录下来即可。

1.5.2风扇故障
故障现象:Bigip2400 正常运行报FAN1、2、3及CPU FAN failure,但通过观察风扇行运行良好。

分析原因:这种故障情况首先要观察风扇是否工作,由于风扇工作,考虑此现象可能是误报,但不排除风扇转速低的问题。

如风扇确实不工作或转速过低可运行/usr/local/bin/system_check –d 命令并将运行结果保存起来,还要保存系统LOG文件以便用于RMA操作。

由于F5风扇好与坏的阈值为1000转,但由于2400没有测定风扇转速的命令。

所以只能通过测试方式来断定风扇好坏。

解决方法:解决误报的方法有两种,第一种是升级最新的系统,通常情况下升级完系统后就会解决问题,如果升级完成仍旧风扇失败可以断定此现象为风扇转速过低,需要更换硬件来解决。

第二种方法是在用户无法进行系统的升级或已经可以断定为风扇误报的情况下可以进行操作。

具体方法为:使用VI对/etc/crontab 文件进行编辑,把其中 */2 * * * * root /usr/local/bin/system_check –q 这一行关闭。

具体就是在这一行先前加#注释,然后保存退出。

此方种虽然能够不让机器报错,但它关闭了系统检测此方法不是最好的方法,最终方法为升级系统版本。

1.5.3CF卡有坏块(V4.5系统)
现象:系统提示文件系统故障。

系统启动过程中,出现如下信息,可确认CF卡有错误。

..numdirs is zero, try using an alternate superblock
Automatic file system check failed!
Initiating automatic fsck -y.
** /dev/rwd0g
numdirs i/var: filesystem not clean, cannot mount read/write s zero, try using an alternate s/var: filesystem not clean, cannot mount read/write uperblock
***** FILE SYSTEM STILL DIRTY *****
/dev/wd0g on /var: filesystem not clean, cannot mount read/write
/dev/wd0g on /var: filesystem not clean, cannot mount read/write
对于这种故障,F5 SUPPORT要求在单用户模式下运行diskdefect命令来修复,具体命令如下:
# /sbin/diskdefect -a -swcv wd0,
执行后还要运行CompactFlash Repair Utility命令进行检测,命令为:
#/sbin/hwtest/cfrepair wd0
执行结果的最后三行如下:这说明还有2016个坏扇区
** Sectors scanned: 1000755
** Bad sectors found: 2016
** Bad sectors fixed: 0
需要将所作的过程和结果保存下来用于做RMA操作。

1.5.4光纤接口损坏
现象:光纤连接中断,无数据流量,端口状态灯不亮。

多出现于2400机型对于这种故障的确认缺乏有效的检测命令,要申报F5的RMA 需要收集qkview的运行结果,里面有各个网络接口的连接状态,现场有条件的话拍摄故障机器照片。

其他网络接口故障的信息收集也与此相同。

1.5.5系统启动故障
现象:系统启动过程中止,console口输出信息如下:
System is booting, please wait...
Hit any key to stop autoboot: 0
kernel.core_uses_pid = 0
kernel.core_pattern = /var/core/%e.sccp.core
Host Console Shell --- Press ( for command menu.
对于这种故障可以进行的操作是通过网络重新安装系统,V9的系统还可以使用外置USB 接口的CD-ROM/DVD来重新安装系统。

如果无法重装系统则需申请F5公司的RMA操作。

以上介绍的故障都是V4.5的系列为主,V9系列机型的故障检测相对容易,因为V9操作系统有了专用的硬件检测程序End User Diagnostics(EUD),所以故障的检测均以运行EUD为主。

1.5.6CPU温度过高造成系统挂起
现象:系统启动后报警,Cpu 1: temperature (99) is too high. 然后系统挂起。

这个故障多见于6400系列,在其他机型也偶有出现。

进入系统后要运行两个命令来确认故障点:
#system_check –d
#b platform
运行结果示例如下
root@bigip:Active] config # system_check -d
Cpu 1: temperature 26, fan_speed 6750
Cpu 2: temperature 99, fan_speed 6750
Chassis fan 101: status 1 - (good)
Chassis fan 102: status 1 - (good)
Chassis fan 103: status 1 - (good)
Chassis fan 104: status 1 - (good)
Chassis fan 105: status 1 - (good)
Chassis fan 106: status 1 - (good)
Chassis power supply 101: status 1 - (good)
Chassis power supply 102: status 2 - (not present)
Chassis temperature 101: temperature 35
Chassis temperature 102: temperature 28
[root@bigip:Active] config # b platform
PLATFORM INFORMATION --
| Type D63a
| Chassis: serial bip218733s
| 200 Level part number: 200-0215-03 REV B
| Switch board: serial PCA0101MP8F9 part PCA-0101-01 REV A
| Host board: serial TY6FB35A0063 part MOB-0018-03 REV A | Annunciator board: serial 91022566 part OEM-0029-05 REV A
| base MAC: 00:01:D7:5E:5E:C0
+-> CPU 1 temp 26degC fan speed 6750rpm
+-> CPU 2 temp 99degC fan speed 6750rpm
|
| CHASSIS TEMPERATURE
| (101) 35degC (102) 27degC
|
| CHASSIS FAN
| (101) active (102) active (103) active (104) active (105) active | (106) active
|
| POWER SUPPLY
| (101) active (102) missing
通过察看输出结果,可以看到这两个命令可以有效检测CPU温度和散热风扇的转速,机箱内部温度和风扇的状态以及电源工作情况。

3注意事项
EUD的版本尽量使用最新的。

因为旧版本的EUD对于F5公司新出的机器支持的不好,旧版本的EUD在检测第8项的时候会报错,例
如9.1.2系统的EUD,而新版本则不会。

下面为EUD的检测菜单:
01 - Hardware Report
02 - Run the switchboard CPLD tests
03 - Verify switchboard I2C devices
04 - Verify PCI devices
05 - Run the System Ram test
06 - Run the LCD functionality test
07 - Internal Packet Path test
08 - Run the Disk Drive test
09 - Run the PVAx memory tests
10 - Run the SSL test
11 - Run the FIPS test
12 - Run the Compression test
13 - S.M.A.R.T test
14 - Run fsck on all drive partitions
15 - Run all of the above applicable Non User Interactive tests
16 - Run all of the above applicable tests
17 - Display Test Report Log
18 - Exit EUD Test and Reboot System
6400及以上机型的电源为可更换模块,对于此类机型申请电源故障的RMA请求,F5公司只更换电源模块。

相关文档
最新文档