虚拟化存储系统
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
虚拟化存储系统
华中科技大学
集群与网格计算XX省重点实验室信息存储系统教育部重点实验室
2003年12月
1. 课题研究背景
当今社会,信息正以超乎人们想象的速度增长,这对信息存储系统的容量和速度提出了空前的要求,由此引发的各种问题也随之而来。人们对信息数据日益广泛的需求导致存储系统的规模变得越来越庞大,管理越来越复杂,信息资源的爆炸性增长和管理能力的相对不足之间的矛盾日益尖锐。同时,这种信息资源的高速增长也对存储系统的可靠性和扩展性提出了挑战,信息资源的共享也显得越来越重要。
在广域网中存在大量相互独立的数据孤岛,它们之间的数据资源不能共享,存储空间不能得到有效使用,数据的传输性能不足。存储虚拟化是指将用户看到的存储资源同具体的物理存储设备分隔开来,为存储用户提供统一的虚拟存储池。它是具体存储设备或存储系统的抽象,展示给用户一个逻辑视图,同时将应用程序和用户所需要的数据存储操作和具体的存储控制分离。存储虚拟化的任务首先是在多个物理存储设备或存储系统上创建一个抽象层,屏蔽复杂性,简化管理;其次是对存储资源进行优化。本课题研究了广域网X围和存储局域网(SAN)内部的存储虚拟化技术,以及支撑这种技术的文件系统。
据统计,在企业网、局域网内部采用分布式存储技术的企业,其存储服务器、磁盘阵列甚至PC的存储空间利用率一般只达到50%,很多设备甚至还达不到,用户投资被大量浪费。由于文件服务器系统缺乏对并行I/O的支持,在大量用户访问或遭到恶意访问攻击时,系统将很快达到饱和而无法完成服务。通过存储虚拟化技术,不仅可以简化异构存储管理的复杂性,更可以高效充分地利用存储空间。通过在互连网络环境中引入分布式RAID功能,能够实现数据有效备份和容灾,提高信息的安全可靠性。通过将三级存储设备虚拟为二级存储,可以为用户提供快速海量存储。
局域网的网络存储技术基本上可以分NAS和SAN两大类,而NAS和SAN又各有其优缺点。因此,提供一种技术将NAS和SAN统一整合起来是一个很有意义的研究课题。
在由高速串行SCSI接口构建的SAN中,如果没有SAN管理软件的管理和调度,只要存在两台主机,就必然存在共享冲突的问题,存储设备就无法正常工作,光纤通道的优点就无法体现出来。相反,如果SAN管理软件管理调度得当,FC 所具有的优势就能被充分发挥出来,在此基础上,还可在系统中增添如并行存储、
负载平衡和数据迁移等功能,将使系统具有非常高的性能,全方位解决在信息高速公路中服务器存储系统的瓶颈问题。
SAN的管理问题,已成为当前学术界和产业界最为重要的一个热点。但是,目前处于领先地位的Veritas、IBM和HP等国外著名公司的SAN管理软件产品,多采用静态/动态配置的分布式管理策略,即把存储网络中的存储设备集合成为磁盘池(disk pool)并划分为卷(Volume)空间后把各卷配置给SAN中的各台主机,卷只能被其拥有主机进行读写操作,不同主机之间不能直接共享同一卷中的数据,而只能通过传统文件服务器的C-S模式共享卷中的数据。采用配置文件进行分布式管理的SAN系统实现了存储设备和存储空间的共享,但还不具备文件共享和元数据共享的能力。
随着客户对数据的依赖性迅猛增长,数据存储的可靠性和可用性正日益成为企业信息化进程中的一个关键环节。而文件系统作为连接底层物理磁盘与上层应用层之间的纽带,在信息存储中起着至关重要的作用,如何为文件系统提供故障恢复功能以及如何提高文件系统的可用性成了目前亟待解决的关键问题。
在863项目“存储虚拟化及其文件系统研究”的资助下,我们对存储虚拟化及其相关技术进行了深入研究。经过两年的探索、研究和开发,本项目组成功研制了虚拟化存储系统。
2. 系统总体结构
虚拟化存储系统可以将分布在互联网上的各种存储资源整合成具有统一逻辑视图的高性能存储系统,因此又成为GDSS(Global Distributed Storage System)系统。整个系统主要包括存储服务点SSP(Storage Service Point)、全局命名服务器GNS(Global Name Server)、资源管理器RM(Resource Manager)、认证中心CA(Certificate Authority)、客户端、存储代理SA(Storage Agent)以及可视化管理,如图1所示。
SSP是整个系统的入口,对系统所有模块的访问都通过SSP,它主要提供FTP 接口、CA接口、RM接口和GNS接口;系统中SSP的个数可以根据需要动态增加;SSP接管了传统方案中GNS的部分功能,减轻了GNS的负载,提高了系统的可扩展性。
GNS负责系统的元数据管理,主要包括元数据操作接口、元数据容错系统、
元数据搜索系统。
RM包括资源调度模块和副本管理模块,其主要负责资源的申请和调度,同时提供透明的副本创建和选择策略。副本技术减少了文件数据访问延迟和带宽消耗,有助于改善负载平衡和可靠性。尤其是动态的副本创建机制,即自动的选择存储点以创建副本,并根据用户的特征而自动变化创建策略,为副本机制提供了更高的灵活性。
客户端目前支持三种形式:通用FTP客户端、文件访问接口和特制客户端。用户通过系统提供的特制客户端,不但能够进行用户组操作,具有搜索和共享等功能,还可以获得更高性能的服务。
CA包含证书管理系统,主要负责系统的安全性和数据的访问控制,同时它记录了用户的注册信息。
SA屏蔽了存储资源的多样性,为系统提供统一存储访问接口,同时提供了文件操作方式和扩展的FTP操作方式,另外它对文件复制管理操作提供支持,为高效传输提供服务。同时SA这一级实现了局域存储资源的虚拟化,包括统一SAN 和NAS,分布式的磁盘虚拟化、磁带库虚拟化和SAN内部共享管理等。
图1:虚拟化存储系统整体架构
3.系统功能及关键技术
GDSS系统的功能模块划分如图2所示。
图2:系统功能模块图