IP-SAN 存储系统常见故障判定方法总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DMS 150存储故障诊断说明
对于DMS 150存储而言,当在运行过程中出现异常,存储本身即会发出报警声提醒网管多加留意,下面罗列出DMS150的一些常见故障表现,供网管参考:
1.DMS150存储中的某块硬盘发生掉电故障:
首先DMS150会立即发出报警声,同时, DMS150存储前面板硬盘指示灯也会相对应的将该块硬盘指示灯标识为熄灭状态,供网管及时判断;
2.DMS150存储中的一块硬盘发生损坏故障:
首先DMS150会立即发出报警声,若此时DMS150存储前面板各硬盘指示灯无异常,不好作出及时判断时,我们可重启DMS150,按TAB键进入RAID卡的配置界面(首次进入,需输入密码0000),进入如下菜单-》PHYSICAL DRIVES -》VIEW DRIVE INFORMATION 中可以检查到所有硬盘,当有硬盘损坏或没有正常连接到卡上时,显示的硬盘数量会发生变化,在硬盘信息前会有类似CH01等编号信息与前面板的硬盘位置相对应,如果缺少某个编号硬盘,可确定该块硬盘损坏或丢失,与此同时,RAID卡会有哔哔声持续报警
显示状态良好硬盘截图
显示第二块硬盘损坏截图(表现为第二块硬盘编号消失)
3.DMS150 出现不完全(Incomplete)RAID SET情况的说明:
在我们对DMS 105/150更换硬盘的时候,有时查看RAID SET的配置信息,这时候我们可能会发现有多余的RAID SET信息存在,这是因为我们新插入的硬盘或者误拔出的硬
盘存在配置信息(而此时热备盘已经订上去了)所致,如图所示:
此时RAID SET的信息是Incomplete
此时RAID SET的信息是Incomplete,表示不完全的或者不正确的RAID SET配置信息,我们直接删除该RAID SET就可以了!
4.DMS150 冗余电源其一损坏故障:
DMS150采用的是2+1冗余电源模式,若其中一个电源出现了问题,DMS150会发出长鸣声提醒网管电源出现了问题;
5.DMS150 RAID卡损坏故障:
DMS150会立即发出报警声,该声音在RAID卡方位尤其明显,我们可以通过报警声的位置来判断是否为RAID卡出现故障;
6.DMS150 网卡损坏故障:
DMS150网卡正常时,网卡灯为黄绿闪烁状态,此时网络链路为千兆;网卡灯为两绿,表明网线有问题,此时网络链路为百兆;网卡灯不亮,表明网卡发生故障;
DMS 150本身属于一款内嵌式iscsi存储,在我们的IP-SAN网络中大量应用,排除存储本身的问题外,在IP-SAN网络中依然存在许多关于iscsi方面的故障,在附录中,
总结出了在IP-SAN网络中所常见的诸多面故障的简单判断,供网管参考:
附录一 IP-SAN 存储系统常见故障日志分析总结Windows系统日志
iSCSI的日志在windows系统日志中的“事件来源”为iscsiprt和msiscsi。
相关磁盘的系统日志“事件来源”为“Disk”,通常点击日志中的/fwlink/events.asp 可以得到日志的详细描述。
对于windows客户端,常见的iSCSI日志(windows系统日志)有:
1.OS向SCSI设备发送了task management,发送task management的原因有几种:
SCSI命令在既定时间内没有返回响应(见下面的描述)。
Cluster的成员主机发现SCSI磁盘被其他主机reserve,试图解除这种reserve,通常发生在心跳盘的仲裁中。
Windows日志对应的描述为:
事件类型: 错误
事件来源: iScsiPrt
事件种类: 无
事件 ID: 39
描述:
Initiator sent a task management command to reset the target. The target name is given in the dump data.
2.SCSI 命令响应超时,引起SCSI命令超时的原因有几种:
磁盘或磁盘阵列故障,导致命令超时。
SCSI卡或RAID卡故障,导致命令执行错误。
SCSI连接故障(如iSCSI网络故障、SCSI线质量问题、终结器设定错误等)导致命令超时
Windows日志对应的描述为:
事件类型: 错误
事件来源: iScsiPrt
事件种类: 无
事件 ID: 9
描述:
Target did not respond in time for a SCSI request. The CDB is given in the dump data.
3.iSCSI重连:iSCSI连接丢失又重新连接的原因有:
网络故障,导致通讯暂时中断后恢复
Target端掉电或重起
Windows日志对应的描述为:
事件类型: 信息
事件来源: iScsiPrt
事件种类: 无
事件 ID: 34
描述:
A connection to the target was lost, but Initiator successfully reconnected to the target. Dump data contains the target name.
4.SCSI设备离线,导致的原因有:
磁盘阵列正在重起
RAID卡、SCSI卡的Firmware正在做Chip Recovery
该LUN所在的磁盘故障、无法online。
Windows日志对应的描述为:
事件类型: 错误
事件来源: Disk
事件种类: 无
事件 ID: 15
描述:
设备 \Device\Harddisk7\DR11 的访问功能尚未就绪。
5.SCSI设备执行的命令返回一个非OK的响应,其可能性很多,常见的有:
设备刚被复位,返回Unit Attention提示。
磁盘或控制器报警。
传输特性变化等。
Windows日志对应的描述为:
事件类型: 警告
事件来源: Disk
事件种类: 无
事件 ID: 51
描述:
传呼期间在设备 \Device\Harddisk3\DR7 上检测到一个错误。
附录二 iSCSI控制器系统日志
iSCSI控制器系统日志记录了系统的启动信息和iscsi相关服务的日志,例如:
1.网卡的连接状态变化,如
eth3: e1000_watchdog: NIC Link is Up 1000 Mbps Full Duplex
2.iSCSI的操作日志,包括正常的客户端login、logout、discovery或nopin timeout(客
户端关机等)如:
Nov 24 13:01:56 kernel: 10.10.2.5 login on target 1025.
Nov 24 13:02:14 kernel: 10.10.2.5 discovery.
Nov 24 13:26:23 kernel: nopin timeout, disconnect target 0 from 10.10.2.31:1068.
3.iSCSI客户端的异常操作记录:
试图login到不存在的target或无访问权限的target
Nov 23 19:32:00 kernel: [6142]:: ***NOTICE*** 10.10.3.51 try login wrong targetname 2, reject 试图login到其他主机的session中(通常由于有主机已使用与该机同名的initiatorName登录到该Target,修改为使用不同的initiatorName连接即可):
Nov 24 15:59:47 kernel: [15235]:: ***NOTICE*** 10.10.2.42 login target 1 reject while a same iscsi-session on 10.10.2.5 exist
客户端使用了Task Management:
Nov 24 17:16:30 kernel: [5115]:: ***NOTICE*** iscsi_rx_14(from 10.10.1.2) Got TM Req I:1 F:6 L:0x0000000000000000 IT:219 RT:4294967295 S:216 RS:0
4.Target端系统管理员操作或自动设定的项目,
LUN-Mapping:
Nov 24 16:35:34 kernel: append Rule: src 10.10.0.0 mask 255.255.0.0 target 1024 rw
Nov 24 16:35:34 kernel: append Rule: src 10.10.0.0 mask 255.255.0.0 target 1025 rw
Nov 24 16:35:34 kernel: append Rule: src 10.10.0.0 mask 255.255.0.0 target 0 rw
Nov 24 16:35:34 kernel: append Rule: src 10.10.0.0 mask 255.255.0.0 target 1 rw
Nov 24 16:35:34 kernel: append Rule: src 10.10.1.1 mask 255.255.255.255 target 2 rw
Nov 24 16:35:34 kernel: append Rule: src 10.10.1.2 mask 255.255.255.255 target 2 rw
Nov 24 16:35:34 kernel: append Rule: src 10.10.1.1 mask 255.255.255.255 target 3 rw IP Group
group master 10.10.1.209
groupping grpmask 255.255.0.0
groupping srcmask 255.255.255.0
set maxweight to 8
add group[0] include: default 10.10.1.202
add group[1] include: default 10.10.1.203
add group[2] include: default 10.10.1.204
add group[3] include: default 10.10.1.210
5.iSCSI控制器SCSI硬件的一些日志:
客户端initiator Task Management后,根据配置,该命令如发向对应的磁盘,日志会有记录,如:
Nov 24 17:16:27 kernel: mptscsih: ioc0: attempting target reset! (sc=f5310500)
Nov 24 17:16:27 kernel: scsi0 : destination target 0, lun 0
Nov 24 17:16:27 kernel: command: cdb[0]=0x0:
Nov 24 17:16:28 kernel: mptscsih: ioc0: target reset: SUCCESS (sc=f5310500)
SCSI HBA卡与磁盘阵列命令交互发生超时:
Aug 17 14:56:36 kernel: mptscsih: ioc0: attempting task abort! (sc=f52fe980)
Aug 17 14:56:36 kernel: scsi0 : destination target 0, lun 0
Aug 17 14:56:36 kernel: command: cdb[0]=0x28: 28 00 00 03 26 7f ad ce 02 00
6.其它日志:
控制器重起命令:
Dec 12 15:35:44 dc-mon: SOMEONE REBOOT THE CONTROLLER.
控制器电源按钮按下日志:
Nov 28 14:47:41 dc-mon: POWEROFF PRESSED, IGNORE.
双控相关日志,如:
Dec 12 15:40:34 dc-mon: masterip set 10.10.1.209@eth0
Dec 12 15:43:07 dc-mon: masternic eth0 link down, use backup eth1
Dec 12 15:43:14 dc-mon: masternic eth1 link down, no backup
附录三关于磁盘故障的检测
磁盘故障一般都有一个渐进的过程,由于RAID控制器都有一定的容错功能,根据RAID的设定,故障可以在不同的时期报告,磁盘故障可以从三个地方检查:
z磁盘阵列或RAID控制器的管理界面,磁盘故障达到既定的警戒值时时,将在磁盘阵列或RAID控制器的管理界面中有相关的日志,以及LCD面板或声响的报警,但什么情况下记录及报警取决于控制器对磁盘错误的检查设定。
ziSCSI控制器的日志,如果有SCSI命令超时,一种可能是磁盘将有故障,如:Aug 17 14:56:36 kernel: mptscsih: ioc0: attempting task abort! (sc=f52fe980)
Aug 17 14:56:36 kernel: scsi0 : destination target 0, lun 0
Aug 17 14:56:36 kernel: command: cdb[0]=0x28: 28 00 00 03 26 7f ad ce 02 00
z客户端(initiator)系统日志,该日志可能会报来源Disk,ID为51的警告错误,虽然该错误比较笼统,不能详细定位,但可以引起早期的注意。
DMS日志错误再次总结
常见日志有3类异常:
1、Dec 14 10:16:39 kernel: [1087]:build_conn_sess:1116: ***ERROR*** iscsi_thr_0 Could not get peer name for socket c1a61e40
在建立连接后,socket异常,应该是IP冲突导致的。
2、Dec 18 15:25:03 kernel: [25368]:: ***NOTICE*** 10.10.1.4 login target 4 reject while
a same iscsi-session on 10.10.1.10 exist
这类异常是不同主机使用了相同的initiator-name连盘,确认10.10.1.4和10.10.1.10使用了不同的主机名,删除10.10.1.4的永久连接,重建即可,还有10.10.1.16和18,应该检查直到日志中无此错误。
3、Dec 21 18:01:36 archttp32: ArecaRaidCtrl Event(WARNING): 2007-12-21 18:1:29 Controller#1(PCI) IDE Channel #16 Device Inserted
第16块盘有拔插动作,如无人为拔插,需要检查一下磁盘或背板。