DELL服务器PERC-5-6RAID操作系统下诊断硬盘故障(tty)手册

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

= 0x08, // Adaptive Read ahead
MR_LD_CACHE_WRITE_CACHE_BAD_BBU = 0x10, // write caching ok if bad BBU
MR_LD_CACHE_ALLOW_WRITE_CACHE = 0x20, // write caching allowed
三、实例
不同型号的 LSI 阵列卡及不同版本的固件,其产生的 TTY 日志会有所差别,但是整体结构 是相同的。下面我们用几个实例加以说明。 例 1:Perc5i 阵列卡 tty 日志
Page 3 of 31
How to analyze tty log
Dell internal use
Page 4 of 31
MR_LD_CACHE_ALLOW_READ_CACHE = 0x40, // read caching allowed
比如,DCP=01 VD 设置成 Write Back enabled + no Read Ahead.
如果 DCP=0C VD 设置成 Write Through + Adaptive Read Ahead.
MegaCLI –FwTermLog -Dsply | -Clear -aN|-a0,1,2|-aALL MegaCLI –AdpEventLog –GetEventlogInfo | –GetEvents | GetSinceShutdown| GetSinceReboot | IncludeDeleted | Clear -aN|-a0,1,2|-aALL
o look for operations starting/stopping/aborting/failing o Physical disks changing state o Virtual disks changing state o Enclosure events 是否有磁盘报错 是否有大量“timeout”提示 是否有大量 SCSI 芯片/SAS1068 芯片的“reset”报错 电池是否正常
Errors/Events:记录阵列卡各类警告,错误信息,包括以下内容:
RAID Firmware Events (AENs) ,阵列卡固件产生的日志,比如: 02/02/06 16:32:40: EVT#04918-02/02/06 16:32:40: 4=Configuration cleared
How to analyze tty log
Dell internal use
如何分析阵列卡 tty 日志
DELL Enterprise Service November , 2008
Page 1 of 31
How to analyze tty log
Dell internal use
一、什么是 tty 日志?
How to analyze tty log
Dell internal use
注意: MR_LD_CACHE_WRITE_BACK
= 0x01, // write back
MR_LD_CACHE_READ_AHEAD
= 0x04, // Read Ahead
MR_LD_CACHE_READ_ADAPTIVE
MPI events: SAS1068 在有物理链接状态更改时产生日志通知阵列卡,比如: 06/24/05 16:55:21: MPI_EVENT_SAS_SES: PhyNum 0 port 0 portWidth 0
Page 2 of 31
How to analyze tty log
Dell internal use
How to analyze tty log
Dell internal use
Page 5 of 31
How to analyze tty log
ຫໍສະໝຸດ Baidu
Dell internal use
Page 6 of 31
How to analyze tty log
Dell internal use
Page 7 of 31
2.tty 日志结构: Boot Sequence:记录阵列卡每次启动的过程,依次包括以下内容:
卡的识别信息:类型,固件版本等 MFC values 电池的信息:设计值,当前值,当前状态等 设备初始化信息:加载 DM(Device Module)和 MPT 模块,运行 DISM 模块初始化磁盘, 并在结束后输出 GPT 表(Global Persistence Table) 读出并导入 DDF 配置数据 结束自检,同步 Raid 卡和主机系统时间
二、剖析 tty 日志
提示:在开始分析 tty 日志前,请先熟悉附录 1 中的术语解释。 1.从阵列卡 tty 日志中,我们需要重点查看以下项目:
PERC 固件版本 MFC values :控制器出厂缺省值 MD1000 ZEMM 固件版本(如果连接) Server 背板固件版本 硬盘固件版本 AENs – 以 “EVT#”开头的事件:
Page 9 of 31
How to analyze tty log
CCP 不一定始终和 DCP 相同,比如当电池坏或者在充放电时,CCP 会显示 VD 是 WT 模式, 直至电池恢复。
Page 8 of 31
How to analyze tty log
Dell internal use
例 2:物理及虚拟磁盘报错的 tty 日志 …….. 09/11/08 9:05:03: DEV_REC:Medium Error DevId[4] Tgt 4 retires=0 09/11/08 9:05:03: ErrLBAOffset (0) LBA(306d10) BadLba=306d10 09/11/08 9:05:03: EVT#00297-09/11/08 9:05:03: 113=Unexpected sense: PD 04(e1/s4), CDB: 28 00 00 30 6d 10 00 00 50 00, Sense: f0 00 03 00 30 6d 10 0a 00 00 00 00 11 00 01 80 00 0 CDB 28 指读操作,尝试读 LBA00306d10 后的 50h 个 block
阵列卡 tty 日志指“RAID firmware debug log”,也叫作“firmware terminal log”。通过它,再结合卡的 adapter event log,我们就可以查看阵列卡启动和运行过程 中的所有相关信息、报警或者错误。
tty 日志的抓取既可以用我们目前常用的脚本 MegaLogR,也可以用 OMSS 或者 LSI 公版工具 MegaCLI:
……..
这是一个最常见的关于磁盘的报错,日志里提示发现 Enclosure0,slot 4 号磁盘(PD 04)在地址 LBA306d10 处有“medium error”,并伴随 Sense 报警,读命令返回的 Sense 数字里,左起第 3 个 代表 sense key,第 13 个代表 sense code(ASC),第 14 个代表 sense code qualifier (ASCQ)。 所以 PD 04 磁盘的 sense key=3,ASC=11,ASCQ=0。 Sense: f0 00 03 00 30 6d 10 0a 00 00 00 00 11 00 01 80 00 0 再通过 DSN 或者 wikipedia 网站(见附 2),我们就可以查出这表示第四块磁盘出现了坏道,导致 不可恢复的读错误:Medium Error - unrecovered read error 接下来,该 PD04 磁盘被阵列卡固件下线,成 failed 状态,同时虚拟磁盘 VD01 状态也由 optimal 变成 degraded: 09/11/08 9:05:35: EVT#00300-09/11/08 9:05:35: 87=Error on PD 04(e1/s4) (Error f0) 09/11/08 9:05:35: EVT#00301-09/11/08 9:05:35: 81=State change on VD 01/1 from OPTIMAL(3) to DEGRADED(2) 09/11/08 9:05:35: EVT#00302-09/11/08 9:05:35: 251=VD 01/1 is now DEGRADED 09/11/08 9:05:35: EVT#00303-09/11/08 9:05:35: 114=State change on PD 04(e1/s4) from ONLINE(18) to FAILED(11) 本例中,四号磁盘多次发生“target reset”—tasktype=3,直至客户重新插拔作 rebuild: 09/11/08 13:33:33: MPT_TaskMgmtPostRoutine DevId 4 Msg 1e Addr a0f41c40 CurDevQDepth 0, chipQcount 0 taskType=3 …… 09/11/08 15:28:55: EVT#00305-09/11/08 15:28:55: 112=Removed: PD 04(e1/s4) 09/11/08 15:28:55: EVT#00306-09/11/08 15:28:55: 248=Removed: PD 04(e1/s4) Info: enclPd=08, scsiType=0, portMap=10, sasAddr=5000c50005fe1f6d,0000000000000000 09/11/08 15:28:55: EVT#00307-09/11/08 15:28:55: 114=State change on PD 04(e1/s4) from FAILED(11) to UNCONFIGURED_BAD(1) …… 09/11/08 15:30:16: MPT_EventDeviceStatusChange: Device Inserted Tgt 4 Sas 5000c500:05fe1f6d …… 09/11/08 15:30:25: EVT#00308-09/11/08 15:30:25: 91=Inserted: PD 04(e1/s4) 09/11/08 15:30:25: EVT#00309-09/11/08 15:30:25: 247=Inserted: PD 04(e1/s4) Info: enclPd=08, scsiType=0, portMap=10, sasAddr=5000c50005fe1f6d,0000000000000000 09/11/08 15:30:25: EVT#00310-09/11/08 15:30:25: 114=State change on PD 04(e1/s4) from UNCONFIGURED_BAD(1) to UNCONFIGURED_GOOD(0) 09/11/08 15:30:25: EVT#00311-09/11/08 15:30:25: 114=State change on PD 04(e1/s4) from UNCONFIGURED_GOOD(0) to OFFLINE(10) 09/11/08 15:30:25: EVT#00312-09/11/08 15:30:25: 106=Rebuild automatically started on PD 04(e1/s4) 09/11/08 15:30:25: EVT#00313-09/11/08 15:30:25: 114=State change on PD 04(e1/s4) from OFFLINE(10) to REBUILD(14) 09/11/08 15:30:41: EVT#00314-09/11/08 15:30:41: 103=Rebuild progress on PD 04(e1/s4) is 1.33%(16s)
相关文档
最新文档