CAS的基本架构

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

CAS的基本架构
所谓固定内容(Fixed Content),简言之就是具有长时间保存价值的不可更改的数据对象。

在人类社会的信息化过程中,固定内容的信息数量正急剧增长,同时它们所需保存的时间也比以前大为延长。

固定内容的数据对象可以分为以下三类:
(1)电子文档,主要包括电子图书、合同契约、电子邮件及附件,以及诸如工程绘图的CAD/CAM等。

(2)数字记录,主要包括医学检查图像、图片、地震/油气藏/天文/卫星地球物理图像信息等。

(3)多媒体,主要包括音频、视频等。

如何对如此庞大的固定内容信息进行高效的存储、管理、检索,这无疑对网络存储方案服务商提出了全新的更高的要求,主要包括:
•存取性要保证在任何时间、任何地点都能对这些固定内容信息快速、便捷地访问。

•可靠性和完整性要确保对信息内容不得有任何修改,且所存取的任何固定内容信息都必须符合一定的规范或标准。

•持久性和可扩展性能够持续地对整个固定内容存储系统数据进行访问和可用,整个存储系统具有较强的可扩展能力,可以非常容易地升级至PB级,必须保证避免因可能的设备更新而产生的数据遗失问题。

•可管理性和可维护性必须满足商业应用的连续性和灾难恢复需求,需要最小化的存储管理,自动化程度尽可能地高。

•位置无关性对任何固定内容信息的访问必须与存储数据的物理地址/逻辑地址无关,而仅与数据内容有关。

RAS特性即整个固定内容存储系统的设计和使用自始至终都必须保证可靠性、可用性和可服务性(Reliability-Availability-Serviceability,RAS)。

由上述固定内容的存储需求可以看出,传统的网络存储解决方案很难同时满足这些需求,传统上的DAS以及NAS和SAN网络存储技术都是基于文件数据或块数据且面向事务处理应用而设计的,而非专门针对固定内容存储需求定身而制。

NAS、SAN和CAS之间的技术特性对比如下表所示。

NAS、SAN和CAS技术特性对比
从表中可以清楚地看出,内容寻址存储完全针对固定内容而设计,无论是从其寻址类型、数据内容可变性、传输类型,还是从其典型应用方面,下图可以很形象地说明这点。

面向固定内容的CAS网络存储技术促进了面向对象网络存储时代的到来。

内容寻址存储服务器上的每一固定内容数据片断都代表了一个数据对象,在对其存储时系统自动为其赋予一个全局惟一的数字标识符,或称做数字指纹。

对于网络存储系统的客户端而言,只需使用这一数字标识符/数字指纹经由CAS网络存储系统的应用软件服务器来实现对固定内容的存取即可。

CAS技术及产品介绍-3
EMC Centera的主要术语
熟悉Centera的术语是深入了解、设计并使用CAS技术的关键。

在EMC公司的Centera所提供的开发文档里,主要涉及到以下一些术语:
EMC公司的Centera网络存储系统
内容地址(Content Address)用于操纵Centera上的对象数据的惟一标识符,该标识符是通过MD5算法得出的。

如:<blob md5=“7SF52B8FRN1V8xCOOTTEK808N2I”/>。

内容地址主要对Centera上的C-Clib进行处理,该地址一般保存在数据库上,通过API调用该内容地址得以传递给Centera服务器以备所需之时取回所存的固定内容数据对象。

这里应该着重指出的是应用软件保存的是CDF而不是Blob的内容地址!实际上Blob的内容地址已经内嵌在CDF之中了。

•内容描述符文件(Content Descriptor File,CDF)用于保存元数据的XML文件,主要包含XML标签(Tag)和属性(Attribute)。

•标签(Tag)指内容描述符文件CDF中的XML标签,由用户来定义。

如:<Application_Name>ImageStore2004</Application_Name>。

•属性(Attribute)指内容描述符文件CDF中的XML属性,由用户定义。

如:<My_App name= “ImageStoreServer”/>。

•Blob(Binary Large Object)这个概念在Centera中非常关键,是指存储在Centera 上的对象,是所存储对象的不同比特序列。

•C-Clip是包含CDF及其相关Blob的整个封装。

术语实例
EMC Centera的内容寻址技术
EMC公司Centera网络存储系统是世界上第一款针对固定内容的CAS网络存储解决方案。

Centera的CentraStar软件操作环境采用了一种创造性的内容寻址系统来简化存储管理,确保存储内容的惟一性,提供了固定内容存储需求从TB级至PB级的可扩展性。

Centera网络存储系统大大降低了管理整个存储系统的开销。

Centera网络存储系统实现了软硬件的完美结合,非常理想地解决了固定内容存储需求。

对于网络存储客户而言,Centera系统的重要价值在于它的软件系统,通过丰富的API,用户可以非常容易地实现对整个网络存储系统的使用和管理。

当存储一个数据对象时,Centera首先根据所存储数据的二进制内容,按照特定算法计算出一个128比特的奇偶校验,接着,Centera把这一比特序列转换成一个独特的27个字符的标识符,叫做内容地址。

这个内容地址源自所存储数据片断的内容本身,同样对于数据片断而言也是惟一的标志或称做数字标签、数字指纹,如下图所示。

Centera所实现的内容寻址技术可以有效地隔离对存储数据的非法访问。

所存储数据的内容地址并不是对该数据的目录、文件名或数据类型的简单映像。

客户端上的用户不具有
Centera上的任何账号,更不可能对Centera进行浏览或管理。

客户端用户存取Centera上的数据的惟一途径是通过存储系统的应用软件来进行——由该应用软件通过内容描述符文件(CDF)的27个字符内容地址来具体完成存取动作。

内容寻址(Content Addressing)是Centera区别于其他网络存储技术的关键所在,而其他网络存储技术如SAN、NAS等都是基于位置寻址(Location Addressing)的,基于内容寻址的网络存储技术降低了整个存储系统理解、管理、操纵存储介质上的信息的物理或逻辑位置的难度。

内容寻址技术的优点主要包括以下几点:
● 确保内容的可靠性
一个内容对象有且仅有一个内容地址,对所存储内容的任何修改都会被系统检测到,因为这个修改会产生一个不同的内容地址。

● 提供了全局惟一、位置独立的标识符
通过内容地址对所存储的内容进行寻址就导致了一个与存储内容相独立的内容索引,并且这个内容地址也与操作系统、文件系统和应用软件相独立。

● 单一实例存储
Centera只维护所存储内容的一个副本和一个映像,假设一个存取操作试图为30个不同的客户端用户存储同样内容的数据,那么对于所有这30个客户端用户而言,每一个用户的内容描述符文件CDF中的元数据是不同的,但数据对象本身只在存储系统上保存一份。

由于采用特定的算法,每一个所存储内容的片断只有惟一一个内容地址与之对应,如下图所示。

这种情形就为整个网络存储系统带来了前所未有的容量节省和简单管理,这也就是Centera 之所以如此备受业界关注的重要原因之一。

正如SAN完全为优化块数据、而NAS完全为优化文件数据而设计一样,CAS完全为固定内容存储而设计。

内容寻址存储CAS提供了一种全新的高效的信息管理手段,完全适合于固定内容存储需求。

内容寻址技术大大降低了应用软件操纵和管理存储介质上所存储信息的物理地址的难度。

内容寻址存储的信息单元地址的计算是这样的:首先对所存储内容片断执行一个特定算法,从而得到一个数据单元的惟一ID(也称数字签名);由这一ID与存储信息的元数据(metadata)一起构成所访问数据的实际有效地址。

应用程序或用户只有通过数据单元的ID 才能存取固定内容数据。

通过对所存储数据片断的内容执行特定算法而得到数据单元惟一
ID的另外一个特别之处在于,当有相同内容数据要存储时,系统会对所存储内容的本身按照特定算法进行解析,进而得到同样数据的同样标识符,这就避免了同样数据的重复存储。

内容寻址存储CAS的这一特别之处对于固定内容而言其重要性不言而喻。

EMC Centera的RAIN体系结构
Centera系统的体系结构主要由四个部分组成:所要存储的数据对象、应用软件服务器、Centera存储服务器和客户端数据库。

整个数据的存储可以分为五个过程:
(1)由应用软件服务器创建或使用数据对象;
(2)应用软件服务器在IP通路上通过一套Centera的标准API把数据对象发送给Centera 存储服务器;
(3)Centera存储服务器按照特定算法针对所存储的数据内容片断的本身生成全局惟一的内容地址;
(4)Centera存储服务器把这一内容地址返回给应用软件服务器;
(5)内容地址由应用软件服务器保存在专用数据库中,以备客户端用户存取。

整个Centera网络存储系统的工作流程如下图所示。

Centera的CAS网络存储服务器采用了一套独特的可以避免任何单点故障(No-Single-Points-of-Failure)的RAIN(Redundant Array of Independent Nodes,独立节点的冗余阵列)存储体系结构,与CentraStar操作环境一起实现了一套集TB-PB安全高效扩展、自管理、自修复和自动重配置与一体的内容寻址存储系统。

整个系统由很多节点构成,所有节点分为存储节点(Storage Nodes)和访问节点(Access Nodes),其中前者主要用于存储和保护数据,而后者主要为外部提供API访问。

RAIN系统包含构成如下图所示。

RAIN 中的每一个节点都包含一套高端配置的计算机系统(典型配置:2GHz P4 CPU/512MB RAM/320GB EIDE/10/100BT NIC)和运行在Centera之上的操作环境CentraStar——在整个Centera中处于核心和关键地位。

Centera的软硬件在一个机柜内实现了一套P2P透明的集群环境,而这个机柜对于CAS网络存储客户端用户而言不过是一个“黑箱”罢了。

Centera的初始配置容量为2.9TB,并且还可以非常便捷地扩充至几百TB甚至PB。

一个机柜就能装有8、16、24或32个完全一样的节点,可以分别提供3.8TB、7.7TB、11.5TB或15.4TB的映像存储容量。

Centera的每一个节点都具备数据处理能力,都拥有1TB的原始数据存储能力,并具有通过一个私有LAN与CAS 网络存储系统的其他集群节点进行互连。

当需要向CAS网络存储系统增加存储容量时,新容量就作为“构建块”加入Centera的自配置系统,运行在Centera上的驻留软件就会通知整个网络存储系统有新的容量添加进来,并立刻为系统可用。

Centera大大简化了网络存储系统的规划和管理,用户不必关心RAID类型,也不必担心LUN 绑定,更不用考虑创建何种文件系统。

应用程序和存储管理员可以从繁重的超大容量文件系统管理和极为复杂的多网络存储拓扑结构中解脱出来。

据估计,在采用Centera的CAS网络存储系统中,一个管理员能够管理几百TB甚至PB级的数据,而在传统网络存储解决方案中仅能有效管理20TB~50TB的数据量。

概括地讲,基于RAIN结构的CAS网络存储系统的特点主要包括以下几点:•透明的P2P集群存储环境;
•自配置功能;
•各个节点均冗余;
•通过镜像和奇偶保护手段来加强内容保护;
•通过CDF+Blob来加强自诊断和自恢复能力;
•远程监控能力;
•不可能发生任何单点故障。

EMC Centera存储系统的应用
通过以上分析可以看出,面向固定内容存储的Centera网络存储系统较传统网络存储技术能够更好地适应信息急剧增长的实际需求,具有广阔的发展前景,可以广泛地应用到企业级
内容/文档管理、HSM解决方案、PC备份和归档、E-mail服务、医疗成像等诸多领域,典型的Centera固定内容寻址存储的体系结构如下图所示。

下面以Centera为例,简要地介绍一下CAS的具体应用。

(1)企业级内容/文档管理
Centera在这类商业应用中使存储内容的可靠性和信息保存符合一般的企业级存储需求,并可以与应用程序简单地集成在一起,提高了可访问性;它高效率地利用存储设备;自配置、自管理和自恢复带来了低管理开销;存储内容与位置无关并使商业服务具有连续性。

典型的Centera商业应用如下图所示。

(2)E-mail服务
Centera对电子邮件业务主要有以下功能:对邮件的透明化归档处理,无需用户插手;高效存储消除了大量邮件副本的存在,正好适合这类应用的需求;存储内容的可靠和保存;提高了可访问性;高效率的存储利用;自配置、自管理和自恢复所带来的低管理开销;大规模可扩展性。

Centera的电子邮件服务如下图所示。

(3)医疗成像
Centera对医疗成像系统的影响主要包括以下几个方面:存储内容的可靠性和保存符合一般的企业级存储需求;非常容易地访问大量归档信息;大规模可扩展性;自配置、自管理和自恢复所带来的低管理开销;保证技术的长久适应性。

Centera的医疗成像应用如下图所示。

相关文档
最新文档