磁盘阵列故障报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

美孚磁盘阵列柜组

错误分析报告

报告提交人:

现场工程师:

提交日期:2016年9月11日

一,故障描述

2016年9月6号接到值班室工作人员的报告,发现我公司所施工的英飞拓磁盘阵列机柜发出故障红灯警报。出现物理磁盘数据丢失,出现问题我公司十分的重视。积极寻找解决故障的方法,努力设法解决所造成的损失。

主柜损坏的位置为第一行第三列、第二行第二列,扩展柜损坏的位置为第一行第一列、第一行第三列、第二行第二列。磁盘阵列的配置为RAID5冗余磁盘阵列,储管理服务通过ISCSI 协议做nrv SAN存储。

二,解决过程

2016.09.6 CCTV系统两台DVR工作指示灯经常连续跳跃,怀疑不正常工作,因此安全技术员立即和张工沟通,并联系维修服务商,要求立即到厂紧急查看服务商到厂。对设备进行检查,发现三套磁盘阵列(A/B/C)中,有五块硬盘指示灯故障报警(磁盘阵列损坏硬盘五块,A损坏两块,BC三块硬盘损坏)。对系统进行重启,系统重新恢复工作,原DVR连续跳跃指示灯恢复常亮状态。磁盘故障指示灯亮:查看硬盘状态查到第五块硬盘时发现没有磁盘损坏但是出现了多次的报错。所以判断磁盘有损坏的征兆,但是不是很明显

1-15路摄像机只有0904 06:00左右以后录像,且18:00前呈断续录像状态,16-18路摄像机最早视频为07月07日,19-39路摄像机另一部分摄像机录像数据为04月15日系统调试完成后数据将第3块硬盘克隆到新硬盘整个克隆的过程需要6个小时。克隆完毕将新的硬盘重新装回磁盘阵列柜中,重新启动磁盘阵列柜。磁盘阵列柜是根据raid5的冗余校验信息的自动修正盘的错误信息的

发现C磁盘阵列所对应的盘符下的所有存储录像存储时间均为0904号,且每一路CCTV每一分钟均有2- 6个不等的300M数据包被保存,而正常情况下,每一路CCTV每半小时至一小时才保存300M数据,然后检查磁盘磁盘阵列,发现磁盘阵列对应的存储路径一切正常。判断与磁盘阵列无关然后检查硬盘录像机,端口有无异常ip是否存在冲突。最后通过光端机的查到摄像机存在间歇性短路,更换摄像机即可解决问题。

因此,可以确认系统C磁盘阵列早期录像均被系统突然频繁断续录

像的数据所覆盖。

09.07维修服务商对故障硬盘进行更换,A/B各故障一块的磁盘阵列更换后立即恢复正常,C磁盘阵列故障依然存在。联系生产厂商,提出两种解决方式:

1.对存在故障的C磁盘阵列进行格式化,重新设置Raid,优点是速度快,100%修复,缺点是里面的数据全部清空。然后在进行重新排查硬盘当排查到扩展柜第六块时发现硬盘状态正常查看并没有报错的信息。

2.对设备在工作状态中进行“自修复”,优点是磁盘数据保留,但是其缺点为修复时间较长,需要24小时以上。

我们采用第二种方式,经过24+10小时的系统自恢复更换损坏硬盘,开始备份到另一台磁盘阵列柜上至09月08日,系统已恢复正常。

三,故障分析

通过对损坏的磁盘的分析和现场的检查,在正常磁盘阵列的工作状态中突然的断电对磁盘阵列是致命的伤害。在工程的初期为了预防突然的断电情况在设计时在机房中加入了UPS不间断电源。设计预期的断电时间为持续供电两到三小时左右,对于大范围的断电并没有足够的措施磁盘阵列RAID5适合大文件的存储。但在此次系统应用中,将磁盘阵列用于卡口的图片存储。图片小文件读写非常频繁,而且是逐张读写,非批量读写,因此,容易引起硬盘损坏。在系统维

护过程中,偶尔出现手动强制关机情况。硬盘在高速运作的过程中,突然停电,可能会引发磁盘坏扇区。通常磁盘在读写时发生坏扇区的情况即表示此磁盘故障,不能再作读写,甚至有很多系统会因为不能完成读写的动作而死机,但若因为某一扇区的损坏而使工作不能完成或要更换磁盘,则使得系统性能大打折扣。坏扇区转移是当磁盘阵列系统发现磁盘有坏扇区时,以另一空白且无故障的扇区取代该扇区,以延长磁盘的使用寿命,减少坏磁盘的发生率以及系统的维护成本。坏扇区转移功能使磁盘阵列具有更好的容错性,同时使整个系统有最好的成本效益比。该磁盘阵列柜出现磁盘坏扇区时,会出现系统错误,而无法读写数据。因此,该磁盘阵列柜的坏扇区修复功能不强。为了加强容错的功能以及使系统在磁盘故障的情况下能迅速的重构数据,以维持系统的性能,一般的磁盘阵列系统都可使用热备份的功能,所谓热备份是在建立磁盘阵列系统的时候,将其中一块磁盘指定为后备磁盘,此一块磁盘在平常并不操作,但若阵列中某一块磁盘发生故障时,磁盘阵列即以后备磁盘取代故障磁盘,并自动将故障磁盘的数据重构在后备磁盘之上,因为反应快速,加上快取内存减少了磁盘的存取,所以数据重构很快即可完成,对系统的性能影响不大。在此次系统应用中,没意识到热备盘的重要性,没使用热备盘。因此系统出现错误的时候,手动添加热备盘,并进行重构。在故障处理过程中,发现重构过程缓慢。尽管在重构时,仍能读写数据,但不能大量的读写数据,影响了系统的正常使用。因此,该磁盘阵列柜的重构功能需进一步优化。其次,连续的读写和不间断的工作对硬盘的要求也是十分

的严格应该使用专业的磁盘阵列存储硬盘。此次故障中多块硬盘的老化也是造成故障的主要原因之一。对于长时间工作的硬盘应该经常性的检查,时间久了时候就会有机能的下降和硬盘坏道的出现。对于时间较旧的硬盘应该及时的更换。

四、后续措施

1.督促服务商对系统出现这种现象的原因进行说明,并提出改进和

预防措施

2.部门内部加强系统工作状态检查,由原来的早上例行检查,变更

为早晚各一次的检查

3.和维修部沟通,在磁盘阵列有故障时需优先安排紧急维修,避免

累积到两块以上的磁盘一起损坏

4.培训值班保安,对机房进行日常检查,发现异常及时汇报

相关文档
最新文档