磁盘阵列故障分析处理报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
@@@@@@磁盘阵列
故障分析处理报告
报告提交人:@@@
现场工程师:@@@@@@
提交日期:2009年03月31日——————————————————————————一、故障描述
2009年3月22日@@@@平安城市项目使用的两台NAS存储服务器,其中有一台设备出现物理磁盘丢失现象,我方与海康威视技术人员及相关人员到现场进行调试了解,具体情况如下:
@@@@平安城市项目所使用的存储服务器的型号是:
DS-A1016R;采用RAID 5 冗余磁盘阵列;磁盘存储阵列和存储管理服务器通过ISCSI 协议做IP SAN网络数据存储;其中有一台NAS存储服务器设备出现磁盘丢失阵列报错现象。
二、处理过程
3月22日晚上10点,出现磁盘阵列无法读写数据的情况。现场通过查找NAS 存储服务器事件日志记录发现第二块阵列控制卡的第3块和第8块物理磁盘有扇区坏道报错记录,导致NAS存储服务器出现磁盘丢失阵列报错现象;出现两块物理磁盘有坏道扇区情况下必须将有坏道的磁盘扇区
克隆到无坏道的磁盘扇区下,才能重新重构阵列恢复丢失的数据;
第 1 页共 5 页
3月23日将第3块硬盘克隆到新硬盘,整个克隆过程大概需要6个小时。克隆完毕后,将克隆好的新硬盘装回磁盘阵列柜,重启磁盘阵列柜,磁盘阵列自动启动阵列重构。阵列重构是根据RAID5的冗余校验信息,自动修正磁盘的错误数据。因为磁盘阵列空间比较大,重构需要大概2天半时间。但3月24日凌晨1点半,重构进度达9%的时候,访问第2张控制卡的第7块硬盘报错,重构中止。查看硬盘状态,并没有显示第7快硬盘有坏道。但查看日志时,发现访问第7块硬盘时,多次出错。因此初步判定第7块硬盘校验数据出错,硬盘有损坏的征兆,但不明显。
3月24日将第7块硬盘克隆到新硬盘。克隆完毕后,将克隆好的新硬盘装回磁盘阵列柜,重启磁盘阵列,磁盘阵列自动启动重构。但3月25日凌晨2点半,重构进度达17%
的时候,访问第2张控制卡的第8块硬盘报错,重构中止。第8块硬盘有多个坏扇区,需对第8块硬盘进行克隆。
3月25日将第8块硬盘克隆到新硬盘。克隆完毕后,将克隆好的新硬盘装回磁盘阵列柜,重启磁盘阵列,磁盘阵列自动启动重构。此次重构比较顺利,到3月27日中午重构完毕。
因3月26日系统终验,而磁盘阵列在重构的过程中,能同时读写数据,因此,3月26日凌晨0点开始把数据备份到另一台磁盘阵列。
3月27日中午重构完成时,虽然阵列状态显示正常,数据能正常读写,系统依然报“盘位丢失”错误。海康威视技术人员通过阵列系统命令行界面,修复了系统错误。NAS存储服务器数据文件已得到恢复,并显示系统正常。考虑到数据的重要性,我们把数据全部备份到另一台磁盘阵列,并在刚修复的磁盘阵列柜上重建阵列。
三、故障情况分析
RAID5多用于OLTP(联机事务处理系统),其基本特征是支持大量并发用户添加和修改数据。但存取数据一般是数十条记录,其工作单位是简单的事务。因此
RAID5适合大文件的存储。但在此次系统应用中,将磁盘阵列用于卡口的图片存
储。图片小文件读写非常频繁,而且是逐张读写,非批量读写,因此,容易引起硬盘损坏。
在系统维护过程中,偶尔出现手动强制关机情况。硬盘在高速运作的过程中,
突然停电,可能会引发磁盘坏扇区。
通常磁盘在读写时发生坏扇区的情况即表示此磁盘故障,不能再作读写,甚至
有很多系统会因为不能完成读写的动作而死机,但若因为某一扇区的损坏而使工作不能完成或要更换磁盘,则使得系统性能大打折扣,而系统的维护成本也未免过高。坏扇区转移是当磁盘阵列系统发现磁盘有坏扇区时,以另一空白且无故障的扇区取代该扇区,以延长磁盘的使用寿命,减少坏磁盘的发生率以及系统的维护成本。所
以坏扇区转移功能使磁盘阵列具有更好的容错性,同时使整个系统有最好的成本效益比。该磁盘阵列柜出现磁盘坏扇区时,会出现系统错误,而无法读写数据。因此,该磁盘阵列柜的坏扇区修复功能不强。
为了加强容错的功能以及使系统在磁盘故障的情况下能迅速的重构数据,以维持系统的性能,一般的磁盘阵列系统都可使用热备份的功能,所谓热备份是在建立磁盘阵列系统的时候,将其中一块磁盘指定为后备磁盘,此一块磁盘在平常并不操作,但若阵列中某一块磁盘发生故障时,磁盘阵列即以后备磁盘取代故障磁盘,并自动将故障磁盘的数据重构在后备磁盘之上,因为反应快速,加上快取内存减少了磁盘的存取,所以数据重构很快即可完成,对系统的性能影响不大。在此次系统应用中,没意识到热备盘的重要性,没使用热备盘。因此系统出现错误的时候,手动添加热备盘,并进行重构。在故障处理过程中,发现重构过程缓慢。尽管在重构时,仍能读写数据,但不能大量的读写数据,影响了系统的正常使用。因此,该磁盘阵列柜的重构功能需进一步优化。
3月27日中午重构完成时,虽然阵列状态显示正常,数据能正常读写,系统依然报“盘位丢失”错误。海康威视技术人员通过阵列系统命令行界面,修复了系统错误。因此,
此次故障,可能由硬盘损坏以及磁盘阵列柜控制系统故障共同引起。
由于磁盘阵列目前使用的是希捷SV35.3系列硬盘非存储专业级硬盘,在阳江平安项目中要求是24×7小时不停地保存读写数据,对硬盘的性能、质量要求都非常高,从硬盘的长时间工作可靠性、抗震性能(因为磁盘阵列的盘工作在狭小的空间里,特别是抗共振能力尤为重要)、磁盘阵列多硬盘并发读写一起工作的固有技术设计角度考虑,应采用专业存储级硬盘。
四、经验总结
1、RAID5不太适合小文件的频繁读写。因此可在应用系统使用缓存机制,进行文件批量读写。
2、在日常维护过程中,尽量避免强制关机。
3、添加热备盘,当阵列出现其中一块磁盘有物理坏道后NAS存储服务器能够自行的重构阵列恢复数据。可避免晚间或无人守护时发生磁盘故障所引起的种种不便。
4、建议采用希捷专业级存储硬盘Barracuda ES系列。