应用：RAID5磁盘阵列的故障以及修复要点

合集下载

RAID5同时坏两块硬盘的处理办法

RAID5同时坏两块硬盘的处理办法
两块盘坏掉一般来说处理的方法都是先尝试强行online那块后坏的，然后rebuild恢复raid后，再利用这个机会换掉那块先坏的，再rebuild。这样所有盘都Online了，不过最好还是换了那块后坏的，再重新rebuild一次。不过不是每次都那么幸运，能够强行Online成功。如果把先出问题的那块强行ONLINE，并对后出问题的盘rebuild的话，数据就完全被毁掉了。通常来说RAID5中两块，或两块以上硬盘同时出现问题的几率是非常低，但并不代表这种情况不会发生。最常见的情况是一块硬盘先出问题，在没有发现，或是未及时更换之前，又一块硬盘出现问题，造成服务器瘫痪。这时候一定要分析哪块盘是后出问题的，因为这块盘上的数据才是最“新鲜”的，与RAID中其他硬盘的数据组合后才是完整，并且可以正常使用的。
3、在处理故障时应将服务器与网络的连接切断，因为在恢复网络，受损硬盘修复的过程中，会有用户登录至服务器，进行数据操作，从而产生新的数据，这样就有可能产生新的逻辑错误，对于故障的排除非常不利。
4、经过此次故障，我们认为任何先进的技术手段都不可能是万无一失的，如果要确保数据安全，就一定要做好备份工作，最好每天作一次数据库的异地备份；并至少备好一块新硬盘，以便在第一块硬盘出现错误时就能及时换上，进行数据恢复，防止以上类似事件的再次发生.
四、个案总结
在经过了长达6小时的紧张的数据抢救后，我们终于成功的恢复了数据，经过此次惊心动魄的数据拯救后，我们痛定思痛，总结了以下几条经验：
1、在出现问题后不能紧张，应冷静分析故障原因，全面了解硬件知识，作出正确合理的判断，以最小的代价解决问题。在我们此次故障处理过程中，我们对故障的进行了合理的分析，运用了服务器硬盘可热插拔的性能特点，在保证另两块硬盘数据完整的基础上，进行了正确的数据拯救，从而确保了故障的圆满解决。

RAID5读出错处理

RAID5读出错处理流程1Raid5读出错后的流程：前提：假设RAID5有3个数据盘和1个校验盘，此次读4k数据恰好都在第一个数据盘上。

1.1首次读出错：1.此时各缓存状态：2.在哪发现错误：在raid5_end_read_request中，一旦发现bio的BIO_UPTODATE被清掉了，说明发生了读错误。

3.如何处理：i.清除该dev.flags中的R5_UPTODATE标记ii.想要重试read,不过要做一些前期检查：如果阵列已经处于降级状态，那么肯定没有足够的数据去恢复这个dev的数据，因为不需要重试read了。

如果该缓存对应的dev已经标记为R5_ReWrite,那说明本次读就已经是重读了，我们也不需要重试读目前整个RAID-5设备发生读错误的dev超过了stripe_head的总数，说明必然存在某stripe_head上有两个dev发生了读错误，这种情况也不需要重试读了如果不做重试，相应清除清除缓存对应dev.flags的R5_ReadError和R5_ReWrite标记并调用md_error。

iii.检查完之后，将dev.flags设置为R5_ReadError，重新处理这个条带。

1.2重构原数据过程：第一次遍历handle_stripe5：1.在handle_stripe中，遍历每个dev的状态时，会把R5_ReadError标记的dev认作是一个失效磁盘；2.其他磁盘发现这个失效磁盘上还有读请求，就把自己标记为want_read。

3.除失效dev之外的其他devs都下发rbio。

uptodate+!Locked4.当这些读请求都成功返回后，其状态为第二次遍历handle_stripe5:1.在handle_stripe中，当发现失效磁盘上还有读请求时，在判断其他devs是否都已经处于uptodate状态，判断成功，就把本失效dev.flags标记为want_compute2.对缓存中的数据进行计算得到失效dev的数据，并把内容拷贝到失效dev的缓存，把其状态标记为uptodate。

RAID阵列服务器故障数据恢复

RAID阵列服务器故障数据恢复RAID阵列服务器故障数据恢复由于服务器数据恢复的复杂性和技术难度较高，在服务器阵列出现故障时，一定要找有经验的专业数据恢复中心提供数据恢复帮助。

服务器中存储的数据一般都比较重要，一旦被彻底损坏，将造成无法挽回的损失。

目前国内服务器数据恢复行业，对于处理数据库数据恢复尚处于摸索阶段，特别是企业级服务器数据恢复时就表现出束手无策的一面。

比如当服务器SCSI、SAS硬盘出现逻辑层、坏道层、物理层、固件层等严重问题造成数据丢失时，利用单一的设备就无法进行复杂的服务器数据恢复，这是目前全球服务器数据恢复的难点和瓶颈，也是目前国内服务器数据恢复行业一直努力研发的方向。

SDII服务器恢复系统目前全球最先进的服务器数据恢复技术，一直牢牢掌握在美国SecuData手中。

作为全球最大的存储数据恢复安全技术研发机构，SecuData多年来一直致力于打造易用、高性能、专业的高端智能存储数据恢复安全产品，旗下产品旗下涵盖数据恢复、数据分析、计算机取证等全系专用尖端智能系统设备，SDII服务器SAS/SCSI恢复系统是SECUDATA2010年的全新力作，SDII 服务器SAS/SCSI恢复系统完美融入了SCPR（阵列恢复控制）、SCPF（服务器硬盘固件修复）、SRF（服务器硬盘视频恢复）、服务器硬盘物理故障数据恢复、服务器硬盘坏道数据恢复、服务器硬盘数据库数据恢复、服务器硬盘扇区缺陷数据恢复、服务器硬盘阵列掉线数据恢复、服务器硬盘阵列信息丢失数据恢复等众多全球领先核心技术，是全球第一台专门针对服务器SAS/SCSI硬盘存储逻辑恢复、缺陷扇区恢复、固件故障恢复、物理故障恢复、视频恢复五位合一的专业智能恢复平台。

他同时配套全球顶级的“无缝共享服务平台”，使用者可在此平台获取技术升级、技术支持、相关远程服务等配套支持。

服务器数据恢复重要性随着电子政务、电子商务及全球信息化的发展，越来越多的国家职能部门、企事业单位及大型企业配备企业级服务器数据安全尤为重要了服务器用于自身信息系统的建设。

raid5数据恢复

最近，由于服务器机房搬迁，管理员在搬迁过程中清理了服务器和磁盘阵列设备。

连接新机房的线路后，服务器无法识别raid，也没有启动raid。

工程师对设备进行了简单的初步检查，发现数据丢失的原因是raid信息丢失。

采用双周期验证方法验证了raid中的冗余性。

那么，如何恢复RAID5数据呢？跟小编学
方法/步骤
1首先将SCSI硬盘柜直接连接到无RAID功能的SCSI扩展卡上，然后在专用（Windows 2003修改版）维修平台上以单盘模式连接服务器阵列中的所有硬盘。

如何恢复RAID5数据
2为了保护RAID5的原始数据，避免由于数据恢复操作而改变原始数据，在所有数据恢复过程中，所有硬盘都必须以只读模式完全镜像，并且图像也以以下方式存储在设备上：冗余保护。

如何恢复RAID5数据
三。

然后从图像文件中分析原始团队的双环检测参数，构建虚拟团队平台。

如何恢复RAID5数据
4在虚拟RAID平台中，删除脱机磁盘并解释文件系统。

此时，可以导出raid数据。

如何恢复RAID5数据
5将磁盘阵列连接到安装了RAID5阵列的服务器，然后重新配置RAID。

最后，所有数据通过网络DD、NFS、samba、FTP、SSH和其他数据传输方法传输回新的RAID。

服务器磁盘阵列常见问题及解决方法

一般问题下表说明您可能遇到的一般问题，以及建议的解决方案。

BIOS 启动错误消息
下表说明有关启动时可能显示的 BIOS 错误消息、其问题以及建议的解决方案。

SCSI 电缆和连接器问题
如果您的 SCSI 电缆或连接器发生问题，请先检查电缆连接。

如果问题仍然存在，请访问 Dell 网站，以获得有关合格的小型计算机系统接口 (SCSI) 电缆及连接器的信息，或与您的 Dell 代表联系以获得信息。

系统 CMOS 启动顺序
系统启动顺序是由系统 CMOS 公用程序决定。

请按照下列说明更改启动顺序：
1.系统启动时，按。

2.从 System（系统）菜单左方，选择 Boot Sequence（启动顺序）。

3.突出显示您要更改的设备，并使用 Shift-Up/Down 箭头来更改设备的顺序。

4.按返回窗口左方。

5.务必按以确认启动顺序。

如果您按而非，将不会保存您的更改。

6.按 Save/Exit（保存/退出）。

7.系统将重新启动。

预测性故障报告
自我监控、分析及报告技术 (SMART) 用于检查硬盘驱动器，寻找潜在驱动器故障的早期征兆。

SMART 是硬盘驱动器本身的一项功能，不受 RAID 控制器的控制。

所有传送到驱动程序的 SMART 消息都会传送到操作系统中。

操作系统问题
下表说明您可能遇到的操作系统问题，以及建议的解决方案。

RAID5同时坏两块硬盘的处理办法

RAID5‎同时坏两块‎硬盘的处理‎办法两‎块盘坏掉一‎般来说处理‎的方法都是‎先尝试强行‎o nlin‎e那块后坏‎的，然后r‎e buil‎d恢复ra‎i d后，再‎利用这个机‎会换掉那块‎先坏的，再‎r ebui‎l d。

这样‎所有盘都O‎n line‎了，不过最‎好还是换了‎那块后坏的‎，再重新r‎e buil‎d一次。

不‎过不是每次‎都那么幸运‎，能够强行‎O nlin‎e成功。

如‎果把先出问‎题的那块强‎行ONLI‎N E，并对‎后出问题的‎盘rebu‎i ld的话‎，数据就完‎全被毁掉了‎。

通常来说‎R AID5‎中两块，或‎两块以上硬‎盘同时出现‎问题的几率‎是非常低，‎但并不代表‎这种情况不‎会发生。

最‎常见的情况‎是一块硬盘‎先出问题，‎在没有发现‎，或是未及‎时更换之前‎，又一块硬‎盘出现问题‎，造成服务‎器瘫痪。

这‎时候一定要‎分析哪块盘‎是后出问题‎的，因为这‎块盘上的数‎据才是最“‎新鲜”的，‎与RAID‎中其他硬盘‎的数据组合‎后才是完整‎，并且可以‎正常使用的‎。

当‎R AID5‎中两块硬盘‎出现故障时‎数据恢复一‎例廉价‎冗余磁盘阵‎列RAID‎（Redu‎n dant‎Arra‎y of ‎I nexp‎e nsiv‎e Dis‎k）是一种‎容量大、速‎度快、可靠‎性高的外部‎存储器，现‎已在各种高‎性能的服务‎器、工作站‎及大中型计‎算机中得到‎广泛应‎用。

其中‎的RAID‎5级为无独‎立校验磁盘‎的奇偶校验‎磁盘阵列，‎采用数据分‎块和独立存‎取技术，能‎在同一磁盘‎上并行处理‎多个访问请‎求，较适用‎于访问请求‎频繁的场合‎，如医院信‎息系统（H‎I S）。

由‎于此技术特‎点：在一个‎硬盘出现错‎误时，当插‎入新硬盘，‎能利用其他‎硬盘上信息‎对受损数据‎进行恢复，‎但当两块硬‎盘出现错误‎时，要恢复‎数据就会有‎一定的困难‎了，我们医‎院在不久前‎就出现过类‎似现象。

【精品】服务器阵列-RAID故障数据恢复技巧

服务器阵列-R A I D故障数据恢复技巧服务器阵列 RAID故障数据恢复技巧-.Ihd166 { display:none; }当RAID出现故障时，硬件厂商经常会初始化你的系统或重建（REBUILD）你的RAID，那么，会造成数据无法恢复的巨大损失，因此，当RAID出现故障时，一定要正确处理。

RAID的目的就是利用磁盘空间的冗余实现数据容错，不过这是在所有的磁盘或卷没有任何问题的前提下实现的。

当RAID卷中的单个磁盘出现故障后，尽管数据可能暂时不会受到威胁，但是磁盘冗余已经没有了。

此时任何不当的操作都可能毁掉已经存放的数据。

因此，在充分享受RAID所带来的安全好处时，还应该想到它危险的一面。

RAID磁盘阵列设备，在使用过程中，经常会遇到一些常见故障，这也使得RAID在给我们带来海量存储空间的应用之外，也带来了很多难以估计的数据风险。

本文将重点介绍RAID常见故障及相关处理方式。

RAID故障注意事项1、数据丢失后，用户千万不要对硬盘进行任何操作，将硬盘按顺序卸下来（贴好标记），用镜像软件将每块硬盘做成镜像文件，也可以交给专业数据恢复中心进行。

2、不要对Raid卡进行Rebuild操作，否则会加大恢复数据的难度。

3、标记好硬盘在Raid卡上面的顺序。

4、一旦出现问题，可以拨打专业公司（恩特尔数据恢复中心）的咨询电话找专业工程师进行咨询，切忌自己试图进行修复，除非你确信自己有足够的技术和经验来处理数据风险。

常见Raid 数据丢失故障情况服务器配置网1、软件故障：a．突然断电造成RAID磁盘阵列卡信息的丢失。

b．重新配置RAID阵列信息，导致的数据丢失。

c．磁盘顺序出错，导致系统不能识别数据。

d．误删除、误格式化、误分区、误克隆、文件解密、病毒损坏等情况，导致数据丢失。

2、硬件损坏：a．raid硬盘报红灯错误，硬盘检测报错情况。

b．raid硬盘出现坏道，导致数据丢失。

c．raid一般都会有几块硬盘，同样有故障允许损坏的硬盘数量（如RAID5允许损坏其中一块），当超出损坏的硬盘数量后，RAID数据将无法正常读取。

RAID卷的常见状态及解决方法

RAID卷的常见状态及解决方法
（1）良好
卷运转正常且没有检测到已知的错误，在基本卷和动态卷中都会显示这种状态。

（2）良好（未知分区）
卷不能被识别，这可能是由于使用了由其他操作系统创建的分区。

可以将其删除重新创建。

（3）良好（有风险）
卷是可用的，但系统已经检测到磁盘上存在I/O错误。

（4）未知
引导扇区被破坏，这可能是由于磁盘损坏或引导扇区病毒造成。

（5）重新同步
该状态应用于镜像卷。

重新同步会使两个镜像上的数据完全相同。

（6）格式化
卷正在被格式化，并显示格式化进度。

（7）正在重新生成
该状态应用于RAID-5卷，它在替换一个故障磁盘并且包括将丢失的信息写到该卷的一个新成员之后发生。

当重新生成过程正在进行时应避免对该卷的访问，重新生成过程完成时，这个卷将返回到良好状态。

（8）失败的重复
该状态应用于镜像卷和RAID-5卷。

它表明其中一个磁盘出现故障并且该卷不再容错。

尽管这个卷仍是可以访问的，但该卷中另一个磁盘的故障将造成数据的丢失。

只要一有可能就应该替换这个磁盘并重新同步或重新生成该卷。

（9）失败的重复（有危险）
该状态应用于镜像卷和RAID-5卷。

它表明这个卷不再容错且检测到磁盘存在I/O 错误。

建议更换出现故障的磁盘。

（10）失败
该状态应用于基本卷和动态卷。

它表明该卷不能启动且需要人工修复。

磁盘阵列故障分析处理报告

@@@@@@磁盘阵列故障分析处理报告报告提交人:@@@现场工程师:@@@@@@提交日期:2009年03月31日——————————————————————————一、故障描述2009年3月22日@@@@平安城市项目使用的两台NAS存储服务器,其中有一台设备出现物理磁盘丢失现象,我方与海康威视技术人员及相关人员到现场进行调试了解,具体情况如下:@@@@平安城市项目所使用的存储服务器的型号是:DS-A1016R;采用RAID 5 冗余磁盘阵列;磁盘存储阵列和存储管理服务器通过ISCSI 协议做IP SAN网络数据存储;其中有一台NAS存储服务器设备出现磁盘丢失阵列报错现象。

二、处理过程3月22日晚上10点,出现磁盘阵列无法读写数据的情况。

现场通过查找NAS 存储服务器事件日志记录发现第二块阵列控制卡的第3块和第8块物理磁盘有扇区坏道报错记录,导致NAS存储服务器出现磁盘丢失阵列报错现象;出现两块物理磁盘有坏道扇区情况下必须将有坏道的磁盘扇区克隆到无坏道的磁盘扇区下,才能重新重构阵列恢复丢失的数据;第 1 页共 5 页3月23日将第3块硬盘克隆到新硬盘,整个克隆过程大概需要6个小时。

克隆完毕后,将克隆好的新硬盘装回磁盘阵列柜,重启磁盘阵列柜,磁盘阵列自动启动阵列重构。

阵列重构是根据RAID5的冗余校验信息,自动修正磁盘的错误数据。

因为磁盘阵列空间比较大,重构需要大概2天半时间。

但3月24日凌晨1点半,重构进度达9%的时候,访问第2张控制卡的第7块硬盘报错,重构中止。

查看硬盘状态,并没有显示第7快硬盘有坏道。

但查看日志时,发现访问第7块硬盘时,多次出错。

因此初步判定第7块硬盘校验数据出错,硬盘有损坏的征兆,但不明显。

3月24日将第7块硬盘克隆到新硬盘。

克隆完毕后,将克隆好的新硬盘装回磁盘阵列柜,重启磁盘阵列,磁盘阵列自动启动重构。

但3月25日凌晨2点半,重构进度达17%的时候,访问第2张控制卡的第8块硬盘报错,重构中止。

RAID5同时坏两块硬盘的处理办法

RAID5同时坏两块硬盘的处理办法
两块盘坏掉一般来说处理的方法都是先尝试强行online那块后坏的，然后rebuild恢复raid后，再利用这个机会换掉那块先坏的，再rebuild。这样所有盘都Online了，不过最好还是换了那块后坏的，再重新rebuild一次。不过不是每次都那么幸运，能够强行Online成功。如果把先出问题的那块强行ONLINE，并对后出问题的盘rebuild的话，数据就完全被毁掉了。通常来说RAID5中两块，或两块以上硬盘同时出现问题的几率是非常低，但并不代表这种情况不会发生。最常见的情况是一块硬盘先出问题，在没有发现，或是未及时更换之前，又一块硬盘出现问题，造成服务器瘫痪。这时候一定要分析哪块盘是后出问题的，因为这块盘上的数据才是最“新鲜”的，与RAID中其他硬盘的数据组合后才是完整，并且可以正常使用的。
2、在处理问题时应遵循由简单到复杂，由安全到危险的原则，应确保不破坏数据的原则下进行故障处理。硬盘内的数据信息对我们医院来说，是非常重要的，处理故障的过程也就是我们拯救数据的过程，因此我们在故障处理过程中没有进行一味的蛮干，在清除磁盘阵列信息的同时，并没有对硬盘内数据进行任何操作，从而确保了数据的安全性。
3、关闭磁盘阵列柜，将磁盘阵列柜上的所有四块硬盘全部拔除，启动主域服务器，正常进入NT，打开磁盘阵列柜，用NT下的HP NetRaid管理软件，将硬盘ID0进行热插拔，软件能检测到此硬盘，并无任何错误提示，依次将硬盘ID1，ID2，ID3进行热插拔，但在进行至硬盘ID2时软件检测不到此硬盘，立刻将其拔除，换上一块新硬盘，此时四块硬盘状态为Ready，全部选中后新建RAID5信息，成功后将硬盘ID2状态置为Failed，然后进行Rebuild，运用RAID5技术恢复这块真正失效的硬盘上的数据。但当进度到达50％左右时，出现错误提示，重新启动服务器，进入NT后，系统自动进行CHKDSK，出现修复硬盘信息，无任何错误提示，在磁盘正常自检后访问D盘成功。此时时间18：00分左右。

raid5数据恢复

raid5数据恢复Raid 5是最常见的raid方式之一，它本身也具有一定的数据保护机制，如果其中的一块盘坏了，插上新磁盘后，将会自动通过其他磁盘上的校验码实现数据恢复。

但是，这样的机制对于数据保护机制是不够的，万一出现下面这些情况怎么办呢？依次或同时出现多个磁盘的失败引电压的不稳定造成了系统的故障由于过大温差引起的硬件故障RAID数据被删除或格式化在服务器和NAS的固件上发送故障RAID控制器发生故障新初始化RAID 5需要恢复数据德国的一家专门进行raid 5数据恢复的公司总结了一些常见的raid5恢复问题三个硬盘中有两个坏了，是从RAID 5中恢复数据的可能吗？在大多数情况下，在两个有缺陷的磁盘上可以恢复数据。

但是，至少需要清洁室中的两个故障硬盘驱动器中的一个被恢复。

之后，可以从碎片和奇偶校验数据中挽回剩余的RAID 5数据。

我们尽可能使用手动和专有的半自动程序保存数据。

这使得恢复的数据质量非常高。

RAID 5数据恢复有多昂贵？RAID 5数据恢复的成本取决于RAID 5配置（标准或特定）有缺陷的硬盘（或SSD）已经执行数据恢复尝试（通常会导致更多的努力）是数据覆盖，例如重建失败？经过RAID 5分析后，我们可以确定需要多少努力来恢复数据。

同时，您将收到RAID 5数据恢复的固定价格。

哪些文件系统允许RAID 5数据恢复？在RAID 5阵列发生故障的情况下，使用操作系统（Windows，Linux，MacOS等）和RAID卷上使用的文件系统在数据恢复中起初不起决定性作用。

所以这是可能的所有文件系统。

当涉及到删除数据，格式化的RAID驱动器和其他逻辑损坏（快照删除等）时，所使用的文件系统与数据恢复工作以及成功的可能性相关得多。

这些文件系统通常是RAID 5数据恢复NTFS（Windows）FAT32（Windows）Ext3，Ext4BtrFS（各种NAS制造商，Windows，Linux）HFS / HFS +（苹果/ Mac）APFS（也是Mac）vmFS（vmWare文件系统）RAID 5消失了，我可以交换磁盘进行测试吗？在很多情况下，任意更换RAID 5中的磁盘顺序都会导致RAID数据的大量恶化。

RAID磁盘阵介绍及RAID5数据恢复

软RAID(software-based RAID)是基于软件的RAID。它可能是最普遍的被使用的RAID阵列，这是由于现在的很多服务器操作系统都集成了RAID功能。比如Microsoft Windows NT，Windows 2000，Windows 2003，Novell Netware和Linux。
（2）、RAID 0的另一方式
是用n块硬盘选择合理的带区大小创建带区集，最好是为每一块硬盘都配备一个专门的磁盘控制器,在电脑数据读写时同时向n块磁盘读写数据,速度提升n倍。提高系统的性能。
2、RAID 1
RAID 1称为磁盘镜像：把一个磁盘的数据镜像到另一个磁盘上，在不影响性能情况下最大限度的保证系统的可靠性和可修复性上，具有很高的数据冗余能力，但磁盘利用率为50%，故成本最高，多用在保存关键性的重要数据的场合。RAID 1有以下特点：
块长度（block size）选择了4种可能的组合16, 32, 64或128.奇偶校验块的旋转方向（parity rotations to probe）:有向前（forward）、向后（backward）2种情况。所以在列表上一共列出了48 (6*4*2)种可能的组合。如果结果数据有意义，每个组合都将被检测.每个检测都有一个平均值，这个值叫"entropy"（平均值）.着个值越小表示越接近正确的raid参数值。
注意:如果在物理驱动器上有坏扇区，建立磁盘的镜像文件将是我们的首选方法。
如果我们不知道raid参数,保留这个值，不改变块长度和奇偶校验的旋转方向。
例如raid 5阵列由3块硬盘组成,挂在我们的计算机上作为独立的物理硬盘hd130:, hd131:, hd132:
又例如: raid 5阵列由3个镜像文件组成,它预先建立在我们的逻辑驱动器e上：drive1.img, drive2.img,

磁盘阵列故障修复方法

磁盘阵列故障修复方法探析[摘要] 磁盘阵列是由多个稳定性较高的磁盘，组合成一个大型的磁盘组，磁盘阵列具有扩充性及容错机制两大功能，不同的raid 级别数据容错及读写速度不一样，误操作和硬件故障同样会引起的阵列数据丢失，本文探讨了在磁盘阵列各种故障情况下修复方法。

[关键词] 磁盘阵列容错机制故障修复方法1.引言raid是将n台硬盘通过raid 卡（或是软件）组合成虚拟的单台大容量的硬盘使用，其功能是让n台硬盘同时读取，加快数据存取速度及提供容错性， raid是最重要用途是数据存储和备份。

磁盘阵列是由多个稳定性较高的磁盘，组合成一个大型的磁盘组，在储存数据时，将数据切割成许多区段，分别存放在各个硬盘上，磁盘阵列还能利用同位检查，在阵列中任一个硬盘故障时，可重构数据，在数据重构时，将故障硬盘内的数据，经计算后重新置入新硬盘中，磁盘阵列在停机情况下可处理以下动作：◇自动检测故障硬盘。

◇重建硬盘坏道的资料。

◇支持不须停机的硬盘热备空间（hot spare）。

◇支持不须停机的硬盘热备盘自动替换（hot swap）。

◇在线扩充硬盘容量。

2.磁盘阵列的工作原理利用raid技术不仅可以增大存储容量，提高数据传输速率，同时采取冗余信息的方式提供了容错机制，提高了数据存储的可靠性。

实现raid可用两种方法，一种是硬件raid，用专门的控制器raid 卡来完成；另一种是软raid，用软件的方法来实现。

磁盘阵列主要用到以下几种技术：（1）条带化存储raid通过条带化存储和奇偶校验两个措施来实现其冗余和容错的目标。

条带化存储可以以一次写入一个数据块的方式将文件写入多个磁盘。

条带化存储技术将数据分开写入多个驱动器，从而提高数据传输速率并缩短磁盘处理总时间。

（2）奇偶校验奇偶校验通过对所有数据进行冗余校验实现确保数据的有效性。

利用奇偶校验，当raid系统的一个磁盘发生故障时，其它磁盘能够重建该故障磁盘。

（3）磁盘镜像镜像是将数据同时写入两个驱动器的技术，如果一个磁盘发生故障，镜像磁盘将接替它进行运行。

【252期】磁盘阵列恢复方法以及注意事项

【252期】磁盘阵列恢复方法以及注意事项转自：中国存储资讯/美亚柏科想要弄清楚磁盘阵列恢复，首先就得知道什么是磁盘阵列，磁盘阵列多用于存储服务器，数据服务器等企业级大数据存储领域，磁盘阵列是把多块独立的物理硬盘按不同方式组合起来形成一个逻辑硬盘，当磁盘瘫痪或硬件损坏后，为了恢复存储在阵列平台的数据被称之为磁盘阵列数据恢复，而磁盘阵列能够提供比单个硬盘有着更高的性能和提供数据冗余的技术。

对于做数据恢复人员来讲，最怕的是什么，那就是在客户发现数据丢失后，没有停止对其他的操作，而是随意根据自己的理解或者是某些未证实的方法进行随意操作，导致数据恢复难上加难。

因此，如果你的服务器或存储平台组建了RAID磁盘阵列，无论因哪种原因导致的磁盘阵列瘫痪，请勿进行侥幸心理尝试或执行盲目性无安全操作，这是十分危险的事情!在RAID数据恢复案例统计中发现，不能恢复的RAID数据往往是再次的操作导致的。

一旦发现磁盘阵列发现问题，请立即停止一切操作，咨询相关技术人员，确定好后再操作。

那么当磁盘阵列不正常或无法启动的时候，该如何有效的保护数据不被破坏呢，先简单介绍下几种可能会对磁盘阵列数据恢复造成数据破坏的操作：1.强制Online这个操作是很容易对阵列造成数据破坏的，尤其是当有2块或以上的盘掉线的时候，如果不知道哪个盘先掉，哪个盘后掉的话，一但破坏了，数据将有可能变成旧的，而且无法恢复。

2.Rebuild比如：RAID5阵列，4块盘，Rebuild操作的实际意义是，用其中3块盘做异或运算，将结果写到另一块盘中。

这里要求，用来做异或运算的3块盘的数据一定要是正确的，如果其中有一块或多块不正确哪么异或出来的结果也就是不正确的。

3.更换RAID卡或主机目前大部分RAID卡都是支持这种操作的，在阵列正常的情况下这个操作是不会破坏数据的。

但是，在阵列已经瘫痪或是无法正常工作的时候，这个操作将有可能导致RAID对硬盘做不正常的Rebuild和校验，所以当阵列出现问题的时候，要准确判断是阵列卡有问题，还是硬盘有问题，不要轻易去尝试更换RAID卡或主机。

raid5技术手册

rd5技术手册1. 简介1.1 RD5概述- RD（冗余磁盘阵列）是一种数据存储技术，通过将多个硬盘组合在一起来提供更高的性能和容错能力。

- RD5是其中最常用的级别之一，它使用分布式奇偶校验算法实现数据冗余，并兼顾读写性能。

2. 原理与结构2.1 数据条带化原理- 数据被划分为固定大小的块并依次保存到不同物理驱动器上。

2.2 分布式奇偶校验算法- 每个数据块都有一个对应的奇偶校验块，在发生故障时可以利用这些信息进行恢复操作。

3. 工作流程及优势3.１写入过程：－客户端向RD控制器发送写请求；－控制器计算出相应位置并执行写入操作；３.２读取过程：－客户端向RD控制博士送去请示；–控制台查找相关忆单所属设备以后从中选取需要讲求内容。

4 . 配置要求与注意事项４.１配置要求——至少需要３块以上的硬盘；——所有磁盘容量必须相同，最好使用高速硬件设备。

４.２注意事项－RD5在写入操作时会有性能损失，并且故障恢复时间较长。

5. 故障处理与数据恢复５.１硬盘故障处理- 当一个硬盘发生故障时，系统可以通过奇偶校验信息来计算出缺失的数据并进行自动修复。

５.２数据恢复–在替换了失败驱动器后, RD控制器将重新该驱动器上存储的数据。

6. 性能评估和优化策略６－１性能评估方法- 带宽：读取/写入吞吐量、响应时间等指标；- IOPS（每秒输入输出次数）: 随机I/O 和连续I/O 的比例;7 . 应用场景及案例分析８ . 参考文献附件：1. 示例代码实现RD5技术2. 相关图表和示意图法律名词及注释：1) 冗余磁盤阵列 (Redundant Array of Independent Disks, RD): 是一种利用多个硬盘驱动器组合而成的存储技术，提供更高性能和容错能力。

2) 奇偶校验 (Parity Check): 一种用于检测或纠正数据传输中错误的方法。

在RD5中使用分布式奇偶校验算法来实现数据冗余。

磁盘阵列常见故障与技巧

磁盘阵列常见故障与技巧：在选择IDE磁盘阵列卡（IDE RAID卡）来确保数据安全的人越来越多，如何正确使用IDE RAID卡也是个学问。

下面我们就以采用HPT370A/372控制芯片的Rocket100 RAID卡为例来给大家做些讲解常见故障与技巧。

安装需知先找一个空闲的PCI插槽将该卡插进去并将硬盘用硬盘线和该卡安装连接好，安装完适配卡后，在启动计算机的过程中，你会看到该适配卡已成功安装并被系统识别。

而在系统开机时，其控制器的BIOS会显示硬盘状态的信息，按CTRL+H即可进入结构非常清楚的设置菜单，在这里你可以设定磁盘阵列：两个硬盘可以选择条带模式（RAID 0）和镜像模式（RAID 1），有三块硬盘的话只能选跨越扩充或条带模式，而四块就可以选跨越模式、条带模式或条带结合镜像模式（RAID 0+1），而选用RAID 1的话硬盘必须进行同步化。

常见安装故障排除当Rocket100 RAID卡被识别后，板上BIOS开始检测连接设备。

请注意屏幕上出现的设备，如果所连接设备全部正确扫描出，则说明设备已正确连接并被系统识别，再安装好驱动之后你即可使用RAID功能了。

而如果其中有的设备没有被识别出，你可打开机箱，将所连接设备的电源线是否插牢，必要时换一个电源插头试一试；所连接设备的数据线是否正确连接并已插牢，必要时换一根数据线试一试；如果一根数据线上接有两个设备，请确认这两个设备的主从跳线是否设置冲突（一根数据线上的两个设备必须为一主一从）。

硬盘容量的选择考虑到系统的操作性能及磁盘的利用率，我们建议你最好使同样容量的硬盘。

但你如果一定要用不同容量的磁盘，需要注意的是整个阵列的容量要由该阵列中最小容量的硬盘决定，例如在由3个磁盘组成的RAID 0阵列中，总容量等于最小磁盘的容量的3倍。

在RAID 1阵列中，目标盘的容量不能小于源盘的容量。

该阵列的总容量就等于最小磁盘的容量。

但是JBOD是个例外，两个或更多的不同容量的硬盘可以组合起来，形成一个逻辑单盘。

RAID5读出错处理

RAID5读出错处理RAID5读出错处理流程1Raid5读出错后的流程：前提：假设RAID5有3个数据盘和1个校验盘，此次读4k数据恰好都在第⼀个数据盘上。

1.1⾸次读出错：1.此时各缓存状态：2.在哪发现错误：在raid5_end_read_request中，⼀旦发现bio的BIO_UPTODATE被清掉了，说明发⽣了读错误。

3.如何处理：i.清除该dev.flags中的R5_UPTODATE标记ii.想要重试read,不过要做⼀些前期检查：如果阵列已经处于降级状态，那么肯定没有⾜够的数据去恢复这个dev的数据，因为不需要重试read了。

如果该缓存对应的dev已经标记为R5_ReWrite,那说明本次读就已经是重读了，我们也不需要重试读⽬前整个RAID-5设备发⽣读错误的dev超过了stripe_head的总数，说明必然存在某stripe_head上有两个dev发⽣了读错误，这种情况也不需要重试读了如果不做重试，相应清除清除缓存对应dev.flags的R5_ReadError和R5_ReWrite标记并调⽤md_error。

iii.检查完之后，将dev.flags设置为R5_ReadError，重新处理这个条带。

1.2重构原数据过程：第⼀次遍历handle_stripe5：1.在handle_stripe中，遍历每个dev的状态时，会把R5_ReadError标记的dev认作是⼀个失效磁盘；2.其他磁盘发现这个失效磁盘上还有读请求，就把⾃⼰标记为want_read。

3.除失效dev之外的其他devs都下发rbio。

uptodate+!Locked4.当这些读请求都成功返回后，其状态为第⼆次遍历handle_stripe5:1.在handle_stripe中，当发现失效磁盘上还有读请求时，在判断其他devs是否都已经处于uptodate状态，判断成功，就把本失效dev.flags标记为want_compute2.对缓存中的数据进⾏计算得到失效dev的数据，并把内容拷贝到失效dev的缓存，把其状态标记为uptodate。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

应用：RAID5磁盘阵列的故障以及修复要点
磁盘阵列也会发生故障，在发生故障时我们应该怎么做呢？本文将为大家简单介绍RAID5磁盘阵列的故障以及修复要点。

下面是文章的主要内容。

1.若单个硬盘失效，尝试热插拔，即拔下来再插上去;如果不能解决，则进入RAID配置界面，将该硬盘进行ForceOnLine操作;如果不能解决，尝试更换其它硬盘插槽(一定不要改变磁盘顺序);如果不能解决，尝试将该硬盘格式化后插入，然后使用ReBuild操作;如果不能格式化，基本是硬盘物理错误严重，尝试更换硬盘后重建数据。

RAID5磁盘阵列允许硬盘的热插拔。

更换损坏的硬盘时，首先拔下硬盘托架(硬盘固定在托架上)，从托架上卸下损坏的硬盘，再把完好的硬盘安装在托架上，插入阵列里。

如果一切正常，这时RAID5磁盘阵列会马上自动进入数据重建状态。

这个过程会进行数个到20几个小时。

这里要注意几点：
(1) 更换损坏硬盘前，必须查看阵列的当前状态，保证除损坏的硬盘外，其他硬盘处于正常的ONL在线状态。

(2) 更换坏盘必须及时。

(3) 更换的新硬盘必须是完好的。

(4) 在阵列数据重建完成之前，不能插拔任何硬盘。

2.如果多块硬盘失效，先将部分(不要全部同时上线)硬盘强制上线，然后进入操作系统尝试读取数据，如果能够读取，再将其它硬盘上线，然后重建数据。

3.如果SCSI卡损坏导致配置信息丢失，更换卡后，尝试从硬盘读取配置信息(需要阵列支持此功能)。

4.如果所有磁盘上线后，操作系统无法访问RAID(资源管理器中无相应盘符)，尝试进入“计算机管理”-->“磁盘管理”查看阵列状态;如果处于“未初始化”状态，可以尝试使用数据恢复软件逐磁道扫描以恢复数据，此时万万不可进行RAID初始化操作。

5.不要过于依赖RAID，如有条件或特别重要的资料，仍需要刻录光盘或使用磁带机以备万一。

6.如有条件，最好给阵列加配UPS。

7.出现问题以后，不要急于开始RAID数据修复及RAID配置，先给厂家打免费电话，寻求帮助，以及到各大数据恢复公司的网站查询，自己不能确定的操作不要去尝试，以免造成更大的损失，导致不可挽回的错误，给自己留下遗憾
8，热备盘的更换
热备盘总是和RAID5磁盘阵列对应起来，如果不是RAID5级别的阵列，就没有必要创建热备盘。

因为当别的硬盘损坏、热备盘自动起用时，需要用RAID5磁盘阵列中未损坏的硬盘对热备盘进行数据重建。

注意在数据重建过程中不能插拔阵列中的非损坏硬盘!
一旦正常开始数据重建，我们就可以更换损坏的硬盘了，更换后的硬盘会自动成为新的热备盘。

9，阵列的扩容
如果当前阵列是RAID0级别的，而且阵列中还有空余的插槽，我们就可以对阵列进行扩容，这时Array的右键菜单中就有允许添加新磁盘的命令，我们按照提示进行操作就可以了。

RAID1和RAID5级别的阵列不能扩容。

10，磁盘阵列创建和维护应该注意的问题
目前流行的RAID级别是RAID0、RAID1和RAID5，在IBM的ServerRAID卡上还可以实现RAID1E和RAID5E的阵列，进一步增加了阵列的可靠性和数据的安全性。

如果条件允许，我们推荐“RAID5+热备盘”的阵列创建方案，这样在数据丢失前，我们有2次更换硬盘的机会。

对于一般的应用，只用RAID5磁盘阵列也可以，可以同时提供数据的存取性能、可靠性和最大的磁盘空间。

管理员必须经常观察阵列的状态，包括用眼睛观察阵列的黄色警告灯和在管理软件里查看驱动器的状态。

出现故障，及时排除。

无论是什么级别的阵列，在排除故障前，都建议做好数据备份。

特别是重要的数据，必须做好可靠的数据备份。

一旦出现硬盘下线(Defunct)，必须更换该硬盘，更换下来的硬盘绝对不能再次在阵列中使用，有时虽然硬盘黄灯不再报警，但是该硬盘已经是极不可靠的了。

在起初购买硬盘阵列的时候，除过正常使用的硬盘，建议多买几块同型号的硬盘，妥善保存备用。

因为现在的硬件更新换代特别快，如果几年后阵列硬盘损坏，再购买同型号的硬盘有可能是一件困难的事情，不是就是市场上根本找不到货源，就是价格特别昂贵。