[磁盘阵列磁盘红灯故障]磁盘阵列RAID10详解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

[磁盘阵列磁盘红灯故障]磁盘阵列RAID10
详解
篇一: 磁盘阵列RAID10详解
磁盘阵列RAID10优势全面详解当前影响计算机运算速度的不是CPU,也不是内存而是硬盘。

,校验数据平均分布在每块硬盘上。

以n块硬盘构建的RAID 5阵列可以有n-1块硬盘的容量,存储空间利用率非常高。

任何一块硬盘上的数据丢失,均可以通过校验数据推算出来。

RAID5提供了冗余性,磁盘空间利用率较高,读写速度较快。

由于奇偶校验块是平均分布在每个磁盘上的,因此存在着数据条带的顺序和校验块的位置方向的问题,不同的厂家或系统在设计RAID5时有不同的组织方式。

RAID5的关键参数有:
◇盘序――每块硬盘的组织顺序,在拆卸前应做好标记。

◇块大小――分割数据块进行存储时的大小单位,可能为十几KB 到上百KB。

◇组织方式――数据块和奇偶校验块存放的方式。

◇起始位置――第一个奇偶校验块的起始位置。

4.磁盘阵列的常见故障[)与修复方法
复杂的RAID 系统有着特定的容错机制保护磁盘数据,但由于误操作和硬件故障引起的数据丢失还是经常发生。

虽然RAID提供了容错
功能,如果用户没有认真地作备份,忽视了RAID潜在危险,当RAID 故障时都是一场大的灾难。

磁盘阵列设备,在使用过程中,经常会遇到一些常见故障,很多情况下是超出了阵列的冗余能力,这也使得RAID在给我们带来海量存储空间的应用之外,也带来了很多难以估计的数据风险,这里将重点介绍RAID常见故障及相关处理方式。

以RAID5为例,常见有三种基本工作状态,即容错,临界和重建,这三种状态定义如下:
容错
即容错阵列状态,所有硬盘处于激活状态,阵列具备冗余性,此时任何一个硬盘的故障均不会影响数据可用性。

临界
即无容错阵列状态,阵列中某个硬盘单元已经失效,阵列中剩下的硬盘均处于激活状态,但已无法进行XOR奇偶数据写入。

重建
即阵列重建/确认状态,一个空闲硬盘正被合并到阵列中。

当重建完成后,阵列将回复到容错状态。

4.1 磁盘阵列一般异常处理
以RAID5为例,如果磁盘阵列中某块磁盘发生故障,系统会使其停止运转,此时系统的工作效率将会下降,如果感觉道系统反映速度明显下降了,就应当首先检查磁盘阵列的工作情况。

如果使用的RAID系统支持热插拔,则可直接将坏硬盘拆下,换上
一个好硬盘即可,系统会自动更新数据。

如果不支持热插拔,则需关机后更换硬盘,然后开机。

4.2 硬件阵列的故障原因及修复方法
磁盘阵列卡出错
磁盘阵列出错的具体原因有阵列卡损坏、阵列卡电池电力耗尽、槽口控制芯片损坏、板载的控制程序出错。

当发生阵列卡损坏时,随意更换新的阵列卡也易造成磁盘ID号紊乱。

操作系统故障
当发生系统故障甚至是系统崩溃时,一些用系统自带功能创建的磁盘阵列或者用第三方软件组建的磁盘阵列会发生数据丢失。

磁盘故障
由于管理不善和服务器相对稳定的特性对管理者造成麻痹,发生超出允许数量坏硬盘的事故发生,如Raid-5损坏两块硬盘,一旦RAID 阵列出现故障,硬件服务商只能给客户重新初始化或者REBUILD,这样客户数据就会无法挽回。

硬件磁盘阵列故障修复方法
磁盘阵列中最常见故障是“掉盘”,出现这类故障可以用以下基本方法解决:
检查硬盘驱动器是否损坏,比如有坏道,如果有坏盘则需更换好盘。

检查机壳或背板是否损坏。

检查SCSI 电缆或是SA TA线缆,如果长时间使用变软,可能会造
成接触不良。

检查电源,如果电源供电异常,就更换电源。

如果使用的不是同型号同容量的硬盘或不是企业级的硬盘,则有可能工作不稳定或是读写有延迟造成掉盘,请更换为同型号和容量得企业级硬盘。

硬盘固件版本与RAID卡不匹配,造成阵列RAID信息不稳定,可通过升级硬盘固件方式解决。

温度高,散热不好,造成硬盘控制芯片不稳定,解决办法是加强散热,例如在硬盘上加装散热装置。

RAID卡本身的问题,卡坏了、卡的驱动或设置不正确、卡的BIOS 没有刷新等,可通过换卡方式解决磁盘故障。

4.3 软件RAID的故障原因与修复方法
主硬盘发生故障
主硬盘发生故障导致系统不能启动时,有两种处理方法。

第一种是将主硬盘拆下来,将镜像硬盘上的硬盘ID号改成主硬盘的硬盘ID号,然后将镜像硬盘安装到主硬盘所在的位置,重新加电启动操作系统。

第二中是将镜像磁盘从服务器硬盘托架上拆下来,安装到其他的服务器上,找到镜像硬盘下的Boot.ini文件,修改文件中的操作系统启动位置参数,保存,变镜像硬盘为主硬盘,加电实现系统的启动。

系统启动后,应及时更换已坏的硬盘,按照上述方法重新做一次硬盘软镜像。

镜像盘发生故障
镜像硬盘发生故障时,系统可继续运行。

但不能实现数据的冗余备份,应及时对已坏的镜像磁盘进行更换,按照上述方法重新做一次硬盘软镜像。

当实现软件RAID5的磁盘发生故障时,不影响系统的正常使用和数据的安全性。

用户可以更换有故障的磁盘,重新插入新的磁盘,不需要用户做任何工作,系统可以通过计算机自动将发生故障磁盘上的数据全部恢复到新的磁盘上。

正确地判断出故障情况是非常重要的,它是RAID数据恢复的必要前提。

可以通过观察、询问和经验判断的方法来分析故障的形成原因及过程,然后再选择正确的修复手段。

由于磁盘阵列故障往往不是单一原因造成,常规的故障修复手段只能恢复阵列状态,而不能恢复阵列数据,即使让磁盘阵列恢复到正常使用状态,但这些操作往往会导致阵列底层数据的彻底损坏,所以必须根据具体情况制订相应的解决方案,切不可贸然实施阵列修复。

在修复过程中,首先要把硬盘组的盘序弄清楚,然后要设定好RAID 5的组织方式,比如反向动态校验,正向校验等,可以根据磁盘上数据块的大小和内容来分析判断,组织方式确定下来后,起始位置和数据块大小也可以确定,最后可根据磁盘顺序、数据块大小、起始位置来修复磁盘阵列。

5.结束语
本文简单介绍了磁盘阵列的构成原理和容错机制,并对实际运行中
磁盘阵列出现故障的原因进行了详细的分析,并给出了具体故障处理方法,为读者提供了磁盘阵列出现故障时解决故障的思路。

参考文献:
[1]北道.学会三招恢复硬盘活力.网络与信息,2005:56-57.
[2]贾鹏.修复硬盘数据实战.电脑爱好者,2001:53.
[3]水月子.数据拯救大行动用Pc3000和EasyRecovery轻松修复硬盘,电脑爱好者,2006:30―31.
[4]田玉梅,王石生.微机硬盘常见故障的分析及处理.山西电子技术阴,2001:47―48.
[5]曹伟,吉根云.硬盘物理坏磁道修复的终极法.电脑知识与技术,2005:73―76.
作者简介:
何欢:,男,讲师,硕士,四川南江人,重庆电子工程职业学院计算机工程中心主任,主要研究方向为网络与信息安全、数据恢复技术、云安全、信息安全管理。

何倩:,男,讲师,硕士,重庆江北人,重庆电子工程职业学院计算机系教师,主要研究方向为数据恢复,网络与信息安全,信息安全管理。

篇三: 磁盘阵列RAID10详解
磁盘阵列RAID10优势全面详解
当前影响计算机运算速度的不是CPU,也不是内存而是硬盘。

为了是硬盘能有更好的性能表现人们开使使用一种新的磁盘技术——磁盘阵列技术。

下面为大家详细介绍各种磁盘阵列技术的特点。

当时,RAID是解决我们存储问题的灵丹妙药。

通过RAID,我们可以将文件系统扩展得更大,获得更高的吞吐率,甚至还可以增加冗余度以便让我们可以承受磁盘损失的风险--这种风险在这段时间发生得尤其经常。

随着NAS和SAN设备的兴起,我们已经不是很需要那种深入到物理存储然后调整物理存储以满足系统需求的技能了。

这不是一件好事。

我们仅仅是将存储卸载到外部设备,这并不能改变我们需要深入理解存储的事实,我们还是需要在理解的基础上调整存储以满足系统的特定需求。

过去五到十年来,人们似乎误以为RAID某种程度上相当于系统备份。

其实它不是。

RAID是一种容错形式。

备份和容错是不同的概念。

备份让你可以在灾难发生后恢复数据。

容错是减少灾难发生的概率。

你可以想象成容错是在悬崖顶部立一条护栏,而备份是在悬崖底部设立一座医院。

护栏和医院都是你想要的,但是它们是完全不同的事物。

一旦我们开始在驱动器上实施RAID,无论是本地连接的还是存储网络上的远程设备,如今的我们可以根据业务需要选择四种主要的RAID解决方案:RAID 1;RAID 5;RAID 6;RAID 10。

市场上还有其他类型的RAID,比如RAID 0,不过如果你真正理解你的驱动器子系统需求的话,你就知道RAID 0只适用于很罕见的场合。

RAID 50和51也被人们所使用,但是更加少见。

十年前,RAID 1和RAID 5是很常见的,但是如今我们有更多的选择。

RAID类型
现在我们一个一个来分析这些RAID,并讨论基本的数据。

在我们的例子中,我们使用”n”来表示阵列中驱动器的数量,用”s”来表示单个驱动器的大小。

通过这些符号,我们可以描述任何阵列的可用存储空间,让存储容量的比较更加方便。

RAID 1
在这种RAID类型中,驱动器被镜像。

如果你有两个驱动器,那么它们同时一起做所有事情,也就是”镜像”。

镜像可以非常稳定,因为它的流程非常简单,但是和完全不使用RAID的情况比起来,它需要
你购买双倍的驱动器,因为你要将第二个驱动器指定为冗余驱动器。

这种RAID的好处就是你可以确保你在磁盘上写入的每个数据都被重复写入,从而达到数据保护的目的。

通过RAID 1,我们的可用容量计算是。

RAID 1所能提供的相对于非RAID驱
动器的性能提升很小。

RAID 1的写入速度和非RAID系统相当,而读取速度在大部分情况下差不多是非RAID系统的两倍,因为在读取操作过程中,驱动器可以并行地访问,从而提高了吞吐率。

RAID 1限定于双驱动器设置。

RAID 5
带校验码的条带化。

在这种类型的RAID中,数据通过复杂的条带写入到阵列中的所有驱动器,同时分布式校验块留在所有驱动器上。

通过这么做,RAID 5可以使用指定大小的三块以上磁盘的阵列,而且只牺牲与单个校验磁盘相当的存储容量。

但是校验码是分布式的,它并不单独存在于任何一块物理磁盘。

鉴于其成本经济性,RAID 5经常被使用。

在大型阵列中,RAID 5所带来的容量损失是比较少的。

和镜像不同,带校验码的条带化需要计算每条写入条带,这带来了一些系统开销。

因此,RAID 5的吞吐
量并不是那么容易计算,很大程度上需要依赖于系统在进行校验码计算时候的计算能力。

计算RAID 5的容量很容易:就是*s)。

一个RAID 5阵列可以承受阵列中任何单个磁盘的故障和损失。

RAID 6
带双校验码的冗余条带化。

RAID 6和RAID 5很像,不过使用的是两个校验块而不是一个校验块,从而提高了对抗磁盘故障的保护能力。

RAID 6是RAID家族的新成员。

RAID 6是在几年前在其他的RAID 类型标准化后加入的。

RAID 6比较特殊,因为它可以承受阵列中任意两块驱动器的故障,并同时防止数据丢失。

但是为了提高冗余度,RAID 6阵列需要牺牲阵列中相当于两块驱动器的容量,并要求阵列拥有最少四块驱动器。

我们可以用*s)来计算RAID 6的可用容量。

RAID 10
带条带化的镜像。

从技术上来说,RAID 10是复合RAID,结合了无校验码条带和RAID 1。

在阵列中只有两块驱动器的情况下,许多厂商也使用RAID 10这个术语,不过实际上这种阵列只是RAID 1,因为只有阵列中拥有四块以上驱动器条带化才会开始运作。

通过RAID 10,驱动器必须是一对一对地添加,因此阵列中驱动器的数量只可能是偶数。

RAID 10可以承受占驱动器总数一半的驱动器故障和损失,同时最多只能承受每对驱动器中一个驱动器的故障和损失。

RAID 10没有校验码计算,这使得它相对于RAID 5或RAID 6有性能上的优势,对阵列驱动器计算性能的要求也更低。

在所有常见的RAID类型中,RAID 10提供了最高的读取性能,因为在读取操作中,阵列中的所有驱动器都可以同时使用。

但是它的写入性能要更低。

RAID 10的容量计算和RAID 1相同,即。

在如今的企业中,无论RAID软件或硬件是否已经实施,很少有IT 部门需要考虑上述四种基本设置以外的驱动器设置。

以前,RAI
D阵列决策中最主要的考量就是可用容量。

这是因为当年驱动器比较贵而且容量比较小。

如今,驱动器都很大,存储容量基本上不是问题,至少不像几年前那样。

驱动器的成本也下降了许多,因此购买更多的驱动器以实现更
高的冗余度也基本上不成问题。

当容量是主要顾虑的时候,RAID 5是比较受欢迎的选择,因为和其他阵列类型相比,RAID 5损失的容量比例最小。

如今,我们有其他方面的顾虑,主要是数据安全性和性能。

花稍微更多一点钱来确保数据保护是比较明智的选择。

RAID 5只能承受一块驱动器的故障和损失。

对于拥有三块驱动器的阵列,RAID 5的安全性只比RAID 1差一些。

我们可能可以接受三块驱动器中损失一块。

三块驱动器损失一块和两块驱动器损失一块相比好像没那么让人害怕。

但是如果是更大的阵列呢,比如说16块驱动器?如果我们只能承受16块驱动器中损失一块,那我们有理由怀疑系统的可靠性。

RAID 6可以填补这个安全性空白。

RAID 6在用于大型阵列的时候,不会牺牲多少存储容量和性能,同时还提供可以承受任意两块驱动器故障/损失的保护能力。

带校验码的条带化RAID的支持者经常引用这些数字来安抚客户的管理层,称RAID 5/6可以提供足够”物廉价美”的存储子系统。

但是用户还有其他因素需要考虑。

对RAID 10的分析
在RAID的可靠性--这个也是很少被讨论的话题--讨论中,几乎完全被忽视的一个问题就是校验码计算的可靠性。

在RAID 1或RAID 10的情况下,系统不需要”计算”来创建带校验码的条带。

系统以稳定的方式简单地写入数据。

当一块驱动器发生故障的时候,它的伙伴会接过工作负荷,在替换驱动器之前,驱动器性能会有一些下滑。

系统没有会影响现有驱动器成员的重建流程,也没有校验条带重建流程。

带校验码的RAID阵列需要有一定的计算操作来算出操作的数据是什么以及应该将哪些数据放到驱动器。

虽然这种计算非常简单,但是有出错的可能性。

如果RAID 1或RAID 10阵列控制发生故障,从理论上来说,系统有可能在驱动器的内容中写入坏数据。

但是由于控制器本身没有进行驱动器变动的进程,因此这种情况发生的可能性非常小,因为除了创建镜像外,系统没有”重建”流程。

当带校验码的阵列执行重建操作时,它们会执行复杂的进程来逐步审视阵列的整个内容,然后将丢失的数据写回到被替代的驱动器。

就其本身来说是个简单的步骤,应该不需要担心。

我和其他一些人首先注意到的是稍微不同的情境,即由于与阵列的连接器松动所导致的磁盘连接性的丢失。

随着时间的流逝,服务器中的驱动器有可能会
松动,尤其是持续服务好几年以后。

在极端的情况下,如果阵列控制器认为一个或更多的驱动器相继发生故障,驱动器中的好数据会被坏校验数据所覆盖,然后返回在线并进行重建。

在这种情况下,驱动器本身其实没有发生故障,也没有数据丢失。

理论上来说其实只要重新调整一下驱动器的位置就可以了。

在热插拔系统中,在故障磁盘移除和替换的基础上,驱动器重建的管理经常是自动的。

因此,在没有人工干预的情况下,这种丢失和替换驱动器的流程可能会发生-- 而重建流程会开始。

在这种流程下,驱动器系统会蒙受风险,如果驱动器阵列再发生这种情况,根据驱动器的状况,系统可能会开始条带化坏数据,并覆盖正常的文件系统。

对于服务器管理员来说,最痛苦的莫过于看到没有驱动器故障的系统仅仅因为不必要的重建操作而丢失整个阵列。

理论上来说,这种情况不应该发生,而管理员应采取措施来防止这类事件发生。

但是判断底层驱动器控制器的情况,判定驱动器当前和
过去的情况,以及判断驱动器所承载的数据的质量并不是那么容易,还是有可能发生错误。

虽然这种事情发生的概率不高,但是它还是有发生的可能,并使得RAID 5和RAID 6系统的风险计算几乎变得不可能。

除了阵列可以容许的驱动器故障/损失数量外,我们必须考虑校验码错误的风险。

随着驱动器变得更加可靠,校验码错误风险显得更加醒目。

此外,RAID 5和RAID 6校验码需要计算,带来了系统负担。

校验码的计算通常是由专门的RAID硬件来执行的。

这种计算带来了驱动器子系统的延迟性,不过延迟性的大小很大程度上取决于硬件与软件的设置。

这使得我们几乎无法比较RAID之间的性能水平,因为每种设置都是独一无二的。

如今,RAID决策中最大的问题就是我们可以方便地获得有关存储效率和驱动器容错的指标,但是有关可靠性和性能的指标却几乎无法获得。

这里面隐藏的危险是人们经常关注那些可以方便衡量的因素而忽视那些无法方便衡量的因素,尽管这些无法方便衡量的因素有可能带来重大影响。

所有类型的RAID都有自己的立足之地,关键是考虑使用背景并对风险有完整的理解。

我们应该争取从现在行业中广泛使用的RAID 5
转变到RAID 10。

驱动器现在很便宜,而数据损失所带来的成本很昂贵。

相关文档
最新文档