CAS的基本架构
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
CAS的基本架构
所谓固定内容(Fixed Content),简言之就是具有长时间保存价值的不可更改的数据对象。在人类社会的信息化过程中,固定内容的信息数量正急剧增长,同时它们所需保存的时间也比以前大为延长。
固定内容的数据对象可以分为以下三类:
(1)电子文档,主要包括电子图书、合同契约、电子邮件及附件,以及诸如工程绘图的CAD/CAM等。
(2)数字记录,主要包括医学检查图像、图片、地震/油气藏/天文/卫星地球物理图像信息等。
(3)多媒体,主要包括音频、视频等。
如何对如此庞大的固定内容信息进行高效的存储、管理、检索,这无疑对网络存储方案服务商提出了全新的更高的要求,主要包括:
•存取性要保证在任何时间、任何地点都能对这些固定内容信息快速、便捷地访问。
•可靠性和完整性要确保对信息内容不得有任何修改,且所存取的任何固定内容信息都必须符合一定的规范或标准。
•持久性和可扩展性能够持续地对整个固定内容存储系统数据进行访问和可用,整个存储系统具有较强的可扩展能力,可以非常容易地升级至PB级,必须保证避免因可能的设备更新而产生的数据遗失问题。
•可管理性和可维护性必须满足商业应用的连续性和灾难恢复需求,需要最小化的存储管理,自动化程度尽可能地高。
•位置无关性对任何固定内容信息的访问必须与存储数据的物理地址/逻辑地址无关,而仅与数据内容有关。
RAS特性即整个固定内容存储系统的设计和使用自始至终都必须保证可靠性、可用性和可服务性(Reliability-Availability-Serviceability,RAS)。
由上述固定内容的存储需求可以看出,传统的网络存储解决方案很难同时满足这些需求,传统上的DAS以及NAS和SAN网络存储技术都是基于文件数据或块数据且面向事务处理应用而设计的,而非专门针对固定内容存储需求定身而制。NAS、SAN和CAS之间的技术特性对比如下表所示。
NAS、SAN和CAS技术特性对比
从表中可以清楚地看出,内容寻址存储完全针对固定内容而设计,无论是从其寻址类型、数据内容可变性、传输类型,还是从其典型应用方面,下图可以很形象地说明这点。
面向固定内容的CAS网络存储技术促进了面向对象网络存储时代的到来。内容寻址存储服务器上的每一固定内容数据片断都代表了一个数据对象,在对其存储时系统自动为其赋予一个全局惟一的数字标识符,或称做数字指纹。对于网络存储系统的客户端而言,只需使用这一数字标识符/数字指纹经由CAS网络存储系统的应用软件服务器来实现对固定内容的存取即可。
CAS技术及产品介绍-3
EMC Centera的主要术语
熟悉Centera的术语是深入了解、设计并使用CAS技术的关键。在EMC公司的Centera所提供的开发文档里,主要涉及到以下一些术语:
EMC公司的Centera网络存储系统
内容地址(Content Address)用于操纵Centera上的对象数据的惟一标识符,该标识符是通过MD5算法得出的。如:
•内容描述符文件(Content Descriptor File,CDF)用于保存元数据的XML文件,主要包含XML标签(Tag)和属性(Attribute)。
•标签(Tag)指内容描述符文件CDF中的XML标签,由用户来定义。如:
•属性(Attribute)指内容描述符文件CDF中的XML属性,由用户定义。如:
•Blob(Binary Large Object)这个概念在Centera中非常关键,是指存储在Centera 上的对象,是所存储对象的不同比特序列。
•C-Clip是包含CDF及其相关Blob的整个封装。
术语实例
EMC Centera的内容寻址技术
EMC公司Centera网络存储系统是世界上第一款针对固定内容的CAS网络存储解决方案。Centera的CentraStar软件操作环境采用了一种创造性的内容寻址系统来简化存储管理,确保存储内容的惟一性,提供了固定内容存储需求从TB级至PB级的可扩展性。Centera网络存储系统大大降低了管理整个存储系统的开销。
Centera网络存储系统实现了软硬件的完美结合,非常理想地解决了固定内容存储需求。对于网络存储客户而言,Centera系统的重要价值在于它的软件系统,通过丰富的API,用户可以非常容易地实现对整个网络存储系统的使用和管理。
当存储一个数据对象时,Centera首先根据所存储数据的二进制内容,按照特定算法计算出一个128比特的奇偶校验,接着,Centera把这一比特序列转换成一个独特的27个字符的标识符,叫做内容地址。这个内容地址源自所存储数据片断的内容本身,同样对于数据片断而言也是惟一的标志或称做数字标签、数字指纹,如下图所示。
Centera所实现的内容寻址技术可以有效地隔离对存储数据的非法访问。所存储数据的内容地址并不是对该数据的目录、文件名或数据类型的简单映像。客户端上的用户不具有
Centera上的任何账号,更不可能对Centera进行浏览或管理。客户端用户存取Centera上的数据的惟一途径是通过存储系统的应用软件来进行——由该应用软件通过内容描述符文件(CDF)的27个字符内容地址来具体完成存取动作。
内容寻址(Content Addressing)是Centera区别于其他网络存储技术的关键所在,而其他网络存储技术如SAN、NAS等都是基于位置寻址(Location Addressing)的,基于内容寻址的网络存储技术降低了整个存储系统理解、管理、操纵存储介质上的信息的物理或逻辑位置的难度。
内容寻址技术的优点主要包括以下几点:
● 确保内容的可靠性
一个内容对象有且仅有一个内容地址,对所存储内容的任何修改都会被系统检测到,因为这个修改会产生一个不同的内容地址。
● 提供了全局惟一、位置独立的标识符
通过内容地址对所存储的内容进行寻址就导致了一个与存储内容相独立的内容索引,并且这个内容地址也与操作系统、文件系统和应用软件相独立。
● 单一实例存储
Centera只维护所存储内容的一个副本和一个映像,假设一个存取操作试图为30个不同的客户端用户存储同样内容的数据,那么对于所有这30个客户端用户而言,每一个用户的内容描述符文件CDF中的元数据是不同的,但数据对象本身只在存储系统上保存一份。由于采用特定的算法,每一个所存储内容的片断只有惟一一个内容地址与之对应,如下图所示。这种情形就为整个网络存储系统带来了前所未有的容量节省和简单管理,这也就是Centera 之所以如此备受业界关注的重要原因之一。
正如SAN完全为优化块数据、而NAS完全为优化文件数据而设计一样,CAS完全为固定内容存储而设计。
内容寻址存储CAS提供了一种全新的高效的信息管理手段,完全适合于固定内容存储需求。内容寻址技术大大降低了应用软件操纵和管理存储介质上所存储信息的物理地址的难度。内容寻址存储的信息单元地址的计算是这样的:首先对所存储内容片断执行一个特定算法,从而得到一个数据单元的惟一ID(也称数字签名);由这一ID与存储信息的元数据(metadata)一起构成所访问数据的实际有效地址。应用程序或用户只有通过数据单元的ID 才能存取固定内容数据。通过对所存储数据片断的内容执行特定算法而得到数据单元惟一