存储容错

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

西安工业大学
容错技术与存储容错
姓名:李丽莎
学号:1206210398
专业:计算机应用技术
容错技术与存储容错
摘要:大量数据需要传输和存储,在传输和存储过程中会出现各式各样的错误。

为了避免和减少这些错误的发生,增加系统的可靠性,由此出现了容错机制。

本文就容错的概念,容错技术,存储容错系统和常见的两种容错系统进行了探讨,深入理解了容错的机制和内涵。

关键词:数据存储;容错技术;容错系统
1、容错技术的概况和历史
容错FT(Fault Tolerant)就是当系统由于种种原因出现了数据、文件损坏或丢失时,能够自动地将这些损坏或丢失的文件和数据恢复到发生事故以前的状态,使系统能够连续正常运行的一种技术。

容错技术一般利用冗余硬件交叉检测操作结果。

上世纪80年代,第一代容错技术开始进入商用领域。

1993年,英特尔 I860处理器在Stratus的硬件级容错体系结构中成功应用。

1996年,容错技术得到HP的支持,共同推出Stratus Continuum系列,将Stratus容错结构结合HP PA -RISC对称多处理技术。

进入21世纪以来,制造、中小企业、能源、交通等领域对服务器,特别是中低端IA服务器的需求激增,过去仅仅可以应用在RISC平台、HP-UX环境下的容错产品也面临着新的挑战。

如今,NEC通过与美国容错公司多年的合作,于2001年推出了业界第一台基于IA架构、支持Microsoft Win-dows Server 2000标准操作系统环境的容错服务器。

2、常见的容错技术
常见的容错技术有双重文件分配表和目录表技术、快速磁盘检修技术、磁盘镜像技术、双工磁盘技术等。

2.1 双重文件分配表和目录表技术
硬盘上的文件分配表和目录表存放着文件在硬盘上的位置和文件大小等信息,如果它们出现故障,数据就会丢失或误存到其他文件中。

通过提供两份同样的文件分配表和目录表,把它们存放在不同的位置,一旦某份出现故障,系统将做出提示,从而达到容错的目的。

2.2 快速磁盘检修技术
这种方法是在把数据写入硬盘后,马上从硬盘中把刚写入的数据读出来与内存中的原始数据进行比较。

如果出现错误,则利用在硬盘内开设的一个被称为“热定位重定区”的区,将硬盘坏区记录下来,并将已确定的在坏区中的数据用原始数据写入热定位重定区上。

2.3 磁盘镜像技术
磁盘镜像是在同一存储通道上装有成对的两个磁盘驱动器,分别驱动原盘和副盘,两个盘串行交替工作,当原盘发生故障时,副盘仍旧正常工作,从而保证了数据的正确性。

2.4 双工磁盘技术
它是在网络系统上建立起两套同样的且同步工作的文件服务器,如果其中一个出现故障,另一个将立即自动投入系统,接替发生故障的文件服务器的全部工作。

3、存储容错系统
3.1 存储容错系统
存储容错系统实现了存储级的HA,能够在两套存储间自动持续复制数据,实现存储镜像及数据的实时同步;在主存储节点故障时,RSS容错存储系统可自
动将数据访问路径导向备用存储节点,从而保障系统可持续访问存储设备。

3.2 存储容错系统的特点
存储容错系统的特点如下:
(1)安全、高性能的数据存储架构
全冗余的存储架构,通过存储镜像及实时同步技术,构建存储HA架构,消除存储设备单点故障;性能卓越的RAID处理系统和端到端的8G通能力,可在复杂的SAN应用环境下提供高效的数据吞吐服务。

(2)快速数据同步和故障切换
采用独立的数据管理架构,数据同步、路径切换、数据恢复过程由专用的系统管理,几乎不消耗任何应用主机资源。

基于高速SAN网络的数据同步和恢复,秒级故障切换。

(3)与现有IT环境的无缝集成
可动态融入FC SAN网络,为SAN中任意主机透明提供容错存储,对于用户已有的存储设备,UDSAFE RSS可通过Transparent透明卷迁移功能实现在线数据接管,无需对原存储迁移数据,重新配置RAID并恢复数据。

(4)弹性的容量管理与灵活的扩展性
具有独特的自动精简配置技术,可实现容量超额分配与动态占用,简化存储管理,提升存储资源利用率;并可实现存储容量的动态扩展,具有很大的灵活性。

(5)丰富的数据保护功能
支持快照,卷拷贝,远程复制等数据保护技术,可轻松实现数据备份及数据容灾。

4、常见的容错系统
4.1 网络存储系统容错
海量网络存储系统,跟任何一个系统一样,要安全可靠。

海量网络存储系统的可靠性其实显的更加的重要,海量网络存储系统管理着庞大的数据,在这个视数据为生命的时代,可靠性的要求是不言而喻的。

如何让浩瀚的网络数据可靠安
全,这就要从容灾容错机制着手,设计一种比当前有效的、安全的保障机制。

网络存储系统中不论硬件设备还是软件都不可避免存在故障的发生,但并不是故障发生就一定意味着该系统完全失效。

“容错”就是容许存在某些错误,因此,容错计算就可以理解为即使有硬件故障或数据丢失,系统仍能正常运行。

我们可以利用冗余机制来实现容错功能从而提高系统的可靠性。

“冗余”按汉语字面理解就是“多余,没有用的”,显然,这种解释在这里是讲不通的。

其实,它是实现容错技术提高系统可靠性的最主要手段。

冗余主要包括软件冗余,硬件冗余和数据冗余。

硬件冗余主要是通过网络接口和网络链路冗余来实现可靠的网络I/O 通道。

数据冗余是指数据之间的重复,也就是说除了正常的数据之外,还有一些多余的数据,网络存储系统中数据冗余主要有复制和编码两种方式。

复制主要是指将同样的数据存储多份。

目前P2P存储系统和分布式文件系统通常使用复制来提高系统的性能和文件访问的容错。

由存储节点组成的文件系统分布于整个广域网中,同时想要访问大文件的多个客户也分布于整个广域网中。

文件系统使用的标准策略是把文件分割成n个固定大小的块,这些块被复制k份分布在整个系统中。

单个文件被分割成8个数据块,标号从1到8,每个数据块被复制到8个存储节点中的任意四个节点上。

编码方式的冗余是指将数据通过一定的编码算法计算出校验数据,然后原始数据和校验数据分布存储在整个系统中。

编码方式有很多种,目前存储系统中主流的编码技术是基于奇偶校验的RAID 技术,数据存储分布冗余通过存储虚拟化技术构建相应级别的RAID来实现。

常见的RAID技术有RAID1、RAID3、RAID5。

RAID5解决了容错问题,而且有三分之二的存储容量。

4.2 GFS容错机制
GFS容错机制主要有Master容错和Chunk Server容错。

4.2.1 Master容错
具体来说,Master上保存了GFS文件系统的三种元数据。

1)命名空间
(Name Space),也就是整个文件系统的目录结构。

2)Chunk与文件名的映射表。

3)Chunk副本的位置信息,每一个Chunk默认有三个副本。

首先就单个Master来说,对于前两种元数据,GFS通过操作日志来提供容错功能。

第三种元数据信息则直接保存在各个Chunk Server上,当Master启动或Chunk Server向Master注册时自动生成。

因此当Master发生故障时,在磁盘数据保存完好的情况下,可以迅速恢复以上元数据。

为了防止Master彻底死机的情况,GFS还提供了Master远程的实时备份,这样在当前的GFS Master出现故障无法工作的时候,另外一台GFS Master可以迅速接替其工作。

4.2.2 Chunk Server容错
GFS采用副本的方式实现Chunk Server的容错。

每一个Chunk有多个存储副本(默认为三个),分布存储在不同的Chunk Server上。

副本的分布策略需要考虑多种因素,如网络的拓扑、机架的分布、磁盘的利用率等。

对于每一个Chunk,必须将所有的副本全部写入成功,才视为成功写入。

在其后的过程中,如果相关的副本出现丢失或不可恢复等状况,Master会自动将该副本复制到其他Chunk Server,从而确保副本保持一定的个数。

尽管一份数据需要存储三份,好像磁盘空间的利用率不高,但综合比较多种因素,加之磁盘的成本不断下降,采用副本无疑是最简单、最可靠、最有效,而且实现的难度也最小的一种方法。

GFS中的每一个文件被划分成多个Chunk,Chunk的默认大小是64MB,这是因为Google应用中处理的文件都比较大,以64MB为单位进行划分,是一个较为合理的选择。

Chunk Server存储的是Chunk的副本,副本以文件的形式进行存储。

每一个Chunk以Block为单位进行划分,大小为64KB,每一个Block对应一个32bit的校验和。

当读取一个Chunk副本时,Chunk Server会将读取的数据和校验和进行比较,如果不匹配,就会返回错误,从而使Client选择其他Chunk Server上的副本。

参考文献
[1] 周敬利,余胜生.网络存储原理与技术[M].北京:清华大学出版社,2005
[2] 李二补.数据存储系统中可靠性和容错性研究.山西:山西三维集团
[3] 赵文辉,徐俊,周加林.网络存储技术[M].北京:清华大学出版社,2005。

相关文档
最新文档