LoongStore集群存储系统_白皮书_jun09
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录
一、前言 (3)
1.1非结构化数据爆炸性增长 (3)
1.2集群化趋势 (3)
二、常见存储架构 (4)
2.1直接连接存储(DAS) (4)
2.2网络附加存储(NAS) (4)
2.3存储区域网(SAN) (5)
三、集群存储趋势的发展 (6)
四、LOONGSTORE集群存储系统 (7)
4.1L OONG S TORE系统架构 (7)
4.2L OONG S TORE集群存储系统组件介绍 (8)
4.2.1 LeoFS分布式文件系统 (8)
4.2.2 负载均衡软件 (9)
4.2.3 灵活冗余软件 (9)
4.2.4 故障自动恢复软件 (9)
4.2.5 大目录支持软件 (9)
4.3L OONG S TORE集群存储系统功能及特点 (10)
4.3.1 海量数据高效管理 (10)
4.3.2 海量文件高效检索 (10)
4.3.3 数据读写性能 (10)
4.3.4 数据全局共享 (11)
4.3.5 数据安全性 (11)
4.3.6 系统可扩展性 (11)
4.3.7 系统可维护性 (12)
4.3.8 与现有环境无缝兼容 (12)
4.3.9 系统的整体拥有成本 (12)
五、总结展望 (13)
一、 前言
1.1 非结构化数据爆炸性增长
随着各种业务类型越来越丰富,电子数据正在飞速增长,而其中增长最快的部分就是非结构化数据。
以往传统的数据如数据库、文档、邮件等结构或者半结构化数据典型的一般都是数MB或者GB级,但是非结构化数据的单个文件大小以及总数据量的增长非常迅速,比如目前音视频这类常见数据随着音视频清晰度逐步提高,单个视频文件就达数十GB;而像地震资料这类科学计算数据单个文件就达上百GB,这样总体数据量就轻易达到数十TB甚至数百TB。
海量的非结构化数据迫切的需要能够简便进行存储和管理,企业需要一个能够容纳海量数据的存储平台。
1.2 集群化趋势
由于集群架构具备良好的扩展性和性价比优势,目前集群技术已经被广泛的应用到了各行各业。
企业相关业务已经从传统的昂贵而且专用的“大型机”、“小型机”转换到了使用Linux和Windows操作系统的通用集群化架构,极大的提升了整体计算处理能力,并且能够良好的支撑业务不断发展带来的需求。
集群架构给企业带来灵活的计算处理能力的同时,也给企业提出了新的需求。
集群架构强大的计算处理能力必须围绕着数据运转。
当计算集群中业务高并发的对数据进行访问,如果数据不能够被快速的获取和共享将会严重影响业务运转效率,耗费大量的计算处理资源。
从集群化的趋势中可以看企业也需要一个具备灵活扩展能力和高效数据IO能力的大规模存储平台支持强大的集群计算处理能力。
二、 常见存储架构
随着人类社会文明的不断进步,社会信息化水平的飞速提高和“知识大爆炸”对信息存储提出了前所未有的需求,存储行业近年来也呈现出一片繁荣的景象,纵观当前主要的存储技术,主要包括以下三个比较流行的存储架构,即:以服务器为中心的DAS、以数据为中心的NAS、以网络为中心的SAN。
2.1 直接连接存储(DAS)
DAS 设备设计来为部门级的IT 环境提供直接的小数据池的访问,存储设备是通过电缆(通常是SCSI接口电缆)直接连接到服务器。
对于小的数据中心,这可能是一种可接受的解决方案,但当存储规模增长时,企业就需要一个一个地增加DAS 设备,而这些系统之间又不能直接通信而形成各个独立的信息孤岛,导致存储系统的管理工作烦琐而重复,严重制约了生产效率的提高。
而且一旦服务器出现故障,信息资源也将被埋葬在崩溃的服务器中不能访问。
目前这种以网络服务器为中心的存储方式已经不能适应来自应用越来越高的要求。
2.2 网络附加存储(NAS)
NAS是一种较为简易的数据共享解决方案。
NAS通过NFS/CIFS协议给前端应用提供全局的文件共享,来满足多应用服务器之间的业务协作。
传统的NAS是一种单服务器的方式为应用提供存储服务,其性能受限于该服务器的配置。
在业务访问量较大的情况下,NAS将很快成为业务的性能瓶颈。
NAS是一种提供数据全局共享的一种解决方案。
NAS即便使用两台NAS服务器同时提供服务,但是由于两台NAS实际上不能同时对相同的卷进行访问,导致其性能与传统的单台NAS 相差无几。
同时NAS也存在最大存储容量、单卷存储容量、文件数量等诸多限制。
在数据不断增长的情况下,这些限制将会给数据的统一管理维护带来不少困难。
2.3 存储区域网(SAN)
SAN提供通过2Gb/s、4Gb/s的光纤通道给应用的是块级的访问接口。
在应用端看到的是一块硬盘,实际使用时还需要对该硬盘进行格式化处理。
SAN具有如下几个特点:
1.数据不能共享:该方案利用存储光纤网络连接应用服务器和光纤盘阵,相比DAS
更具灵活性和可扩展性。
但是SAN仍然不具备数据共享能力,而且由于SAN系统
高昂的价格,以及不同厂商之间的设备兼容性问题,限制了在很多领域的使用。
相对来说,SAN更加适合作为数据库这类结构化数据的存储。
2.使用维护复杂:SAN使用了大量专用、复杂的硬件,并且各厂家之间的兼容性较差,
这就需要较高的系统构建成本、运营维护成本,兼容性的问题也会对系统将来的
升级带来不便。
三、 集群存储趋势的发展
直接连接存储 (DAS)、存储区域网络 (SAN) 和网络连接存储 (NAS) 都是典型的存储方法,大多数 IT 管理人员在谈到存储架构时都会想到它们,但是随着非结构化数据和数字内容的爆炸性增长,而且由于非结构化内容的存储规模和复杂程度不断提高,传统存储系统显得捉襟见肘。
从当前常见的存储技术来看,NAS和SAN主要是为含有小型文件和高级别事务(例如关系数据库和电子邮件服务器)的结构化数据设计的。
而非结构化数据具有传统存储系统在设计时并未考虑到的独特特征,包括大型文件和数据量、高吞吐量要求、读取密集型访问方式以及大量并行文件访问。
特别是对于互联网、流媒体、高性能计算、能源等数据密集型、高并发访问的行业用户来说,容量与性能的线性扩展是传统存储系统不可逾越的鸿沟。
在这种强烈的市场需求背景下,集群存储得到了快速发展,已经被广泛视为是新一代的企业级存储架构。
其中集群技术应用于数据中心的服务器设备上已经有几年的历史了,效果显著。
而集群存储作为集群技术的发展和延伸,具备了灵活的扩展性和极高的性价比。
集群存储系统通过由若干个存储系统组成的cluster,能够让企业在兼顾性价比的同时轻松实现性能与容量的在线无缝扩展,还有效解决了文件共享的效率问题。
集群存储就是将多台存储设备中的存储空间聚合成一个能够给应用服务器提供统一访问接口和管理界面的存储池,应用可以通过该访问接口透明地访问和利用所有存储设备上的磁盘,可以充分发挥存储设备的性能和磁盘利用率。
数据将会按照一定的规则从多台存储设备上存储和读取,以获得更高的并发访问性能。
集群存储的优势主要体现在提高并行或分区I/O的整体性能,特别是工作流、读密集型以及大型文件的访问,通过采用更高性价比的通用硬件来控制整体成本。
目前,能源行业、广电行业和科学计算、互联网等领域的很多创新企业成了集群存储市场上首批用户,并且从集群存储带来的种种优势中获得了非常高的投资回报率。
四、 LoongStore集群存储系统
LoongStore 存储系统是一款针对海量数据存储应用而设计的大规模通用集群存储系统,采用通用硬件设备作为基本的构建单元,为应用提供全局统一的文件系统映像和完全与本地磁盘兼容的访问接口(POSIX兼容)。
LoongStore 存储系统能够为用户提供PB 级的存储容量,并根据用户应用发展的趋势,适时按需进行在线动态扩展;世界领先的元数据服务器集群技术消除了现有存储系统中所存在的单目录下文件数量、小文件处理速度等种种限制,提供了近乎无限的文件存储数量和极高的文件检索速度,是业界唯一一款能够高效支持千万级大目录的存储系统(单目录下可轻松创建千万数量级的文件,并能对文件进行高速随机检索)。
同时LoongStore 存储系统采用了自主研发的全系统规模数据高可用技术,彻底消除存储系统中的单点故障,结合特有的自动故障探测和快速故障恢复技术,确保用户的应用持续稳定地运行;
4.1 LoongStore系统架构
LoongStore存储系统主要由应用服务器集群、智能存储服务器集群、元数据服务器集群三大部分组成。
图表 1 系统架构图
应用服务器集群:运行客户应用程序的集群,进行特定的计算、信息处理及业务服务等。
应用服务器上需要安装LoongStore的应用服务器模块高效的访问存储。
智能存储服务器集群:存储用户的实际数据,是整个LoongStore存储系统的存储资源提供者。
当应用服务器进行数据访问时,存储服务器集群提供实际的数据IO服务。
数据IO 压力能够非常均衡的分布在存储服务器集群之间。
元数据服务器集群:管理文件系统的元数据(包括文件目录树组织、属性维护、文件操作日志记录、授权访问等),管理整个存储系统的命名空间,对外提供单一的系统映像,并负责整个存储集群的管理监控。
元数据服务器协调指挥应用服务器和存储服务器之间的活动,并且元数据服务器集群能够均衡的负担整个LoongStore集群存储系统的相关元数据访问负载。
LoongStore集群存储系统采用了数据路径(读,写)和控制路径(元数据)分离的架构,这种存储系统带外架构让数据通过以太交换网络直接在应用服务器和后端存储服务器之间进行传输,消除了性能瓶颈,提高了数据吞吐能力。
4.2 LoongStore集群存储系统组件介绍
4.2.1 LeoFS分布式文件系统
LoongStore集群存储系统的核心是享有专利的LeoFS分布式文件系统,它把文件的活动分散到许多存储服务器中。
LeoFS将多个元数据服务器构成集群来协调指挥文件活动,平衡系统性能和管理可用性。
这种基于集群的方法消除了性能瓶颈并减轻了LoongStore集群存储系统的管理负担。
LeoFS的关键功能包括:
¾将数据跨所有可用的存储服务器虚拟化,因此LoongStore存储系统在客户端服务器前面表现为一个单一的统一的存储空间。
当更多的存储服务器加入时,LoongStore
的全局文件系统名字空间无缝地增长。
¾元数据服务器集群, 动态地将多个元数据服务器连接在一起,使之成为一个单一的集群的存储网络,因此达到最大的可扩展性和可用性。
¾带外的元数据服务器集群架构,使服务器节点与存储服务器之间进行直接的和高度并行的数据访问。
4.2.2 负载均衡软件
现有的诸多存储系统一般都不具备存储容量动态扩展的能力,而且经过动态扩展之后如果没有数据动态负载均衡的功能,即使存储系统的容量增长,性能不会随之增长。
LeoFS负载均衡软件是专门针对存储扩展性需求较高的应用环境而提供。
当存储系统按需在线动态扩展容量之后,管理员可以选择在合适的时间启动或者停止负载均衡软件,该功能将数据在存储服务器之间迁移,直到数据分布较为均衡停止。
通过LeoFS负载均衡软件的数据迁移工作,LoongStore集群存储系统的性能能够随着容量的增长而线性增长。
4.2.3 灵活冗余软件
灵活冗余软件是一种高效的数据保护方式,通过将冗余数据同时存放到不同的存储服务器上来对数据进行保护,不但消除了单点故障,还能够提高数据并发访问性能。
冗余数据存放在不同的服务器上防止数据丢失和存储服务中断。
而且用户可以将不同的数据设置不同的冗余数据等级,当冗余等级越高,数据就能够在极端恶劣的情况保证数据的完整性和服务的连续性。
4.2.4 故障自动恢复软件
故障自动恢复软件内置有一整套完整的故障恢复流程,能够自动探测集群存储系统内各类可能出现的故障,如磁盘损坏、系统宕机、网络中断等。
该软件一旦发现了软硬件故障就会立刻启动相应的故障处理恢复流程对数据进行相应的恢复保护,确保数据的完整性,并且整个恢复过程完全不影响业务连续运行。
而且由于故障自动恢复软件能够提供的是整个集群全局的数据恢复,充分的利用了集群内的空闲资源进行相应的处理,能够高出RAID技术五倍的数据恢复速度确保数据完整性,为业务长期稳定运行打下基础。
4.2.5 大目录支持软件
传统的存储方案(如NAS)都存在着文件数量、单目录下文件数量等诸多限制,并且当存储系统内文件数量到达一定数量时,文件的检索效率就会急剧下降,从而影响了业务的运行效率。
LeoFS大目录支持软件打破了存储系统在面向海量小文件时的种种限制,提供了几乎无
限的单目录文件数量支持、高效的文件检索效率支持,帮助企业解决海量小文件存储带来的烦恼。
4.3 LoongStore集群存储系统功能及特点
4.3.1 海量数据高效管理
随着资料处理业务的增多,存储系统中将积累大量的数据,这就需要存储系统能够容纳海量的数据。
LoongStore集群存储系统单卷可支持PB级的存储空间,高效的管理上百亿个文件,单目录可以高效支持千万级的文件数量。
这些特性对于检索效率要求较高的应用非常重要。
4.3.2 海量文件高效检索
当数据量不断增长,存储系统里面的文件数量也会快速增长。
当存储系统内的文件数量增长到数千万以上时,文件的检索查找等操作将会给文件系统带来巨大的压力,特别是一个目录下面存放的文件超过一定数量甚至会造成文件查找效率急剧下降。
LoongStore 集群存储系统拥有世界领先的多元数据服务器集群技术和高效的海量文件检索技术,在存放上百亿文件的同时保持极高的文件检索效率。
LoongStore集群存储系统能够在单个目录下高效管理上千万个文件的存储系统,在单目录下存放上千万数量文件时,仍然能够提供每秒数万的文件检索效率。
4.3.3 数据读写性能
鉴于项目中多个计算节点需要共享访问数据,并发访问的程度较高,这给存储系统带来较大的IO压力。
LoongStore集群存储系统通过多台存储服务器提供同时数据存取服务的方法以满足大量应用服务器的并发访问需求。
在应用服务器端,当应用程序往存储系统上写文件时,文件将会被根据一定大小进行分片存放到多台存储服务器上;在应用程序读文件时,则并发的从多个服务器上读取数据。
由于大量的数据IO请求都被分散到多台存储服务器上,使得所有的存储服务器上的磁盘性能和网络带宽都可以同时得到充分的利用,这样LoongStore集群存储系统的聚合带宽由多台的存储服务器上的IO带宽相加而成,从而克服
了NAS的单一出口点所造成性能瓶颈,可以满足多台应用节点并发访问的带宽需求。
通过实现多存储服务器的并发数据访问支持,消除了传统存储系统中常见的负载不均导致的热点数据问题。
LoongStore通过数据在存储服务器集群中的条带化分布实现高效、全面的负载均衡功能,充分利用硬件和网络的性能,发挥出最高IO吞吐量。
4.3.4 数据全局共享
LoongStore大规模集群存储系统采用文件系统全局命名空间,所有计算节点都可看到一致文件系统视图。
数据的全局共享可以加强各计算节点之间的协作,提高了作业的运行效率。
而且数据的统一管理也方便用户数据的统一管理,并简化应用系统的开发。
4.3.5 数据安全性
基于数据安全性方面的考虑,用户可以通过LoongStore配置工具设置数据相应的安全等级,选择将数据和校验数据分别存放在不同的存储服务器上。
LoongStore存储系统可以同时使用多条高速数据通道,可消除网络层的单点故障,进一步提高系统的高可用性。
在这样的情况下,即使出现存储服务器宕机、网络中断、磁盘损坏时,仍然能够保障数据完整性和数据服务的持续运行。
例如,在运行中存储服务器由于磁盘损坏而丢失了该磁盘上的部分数据,LoongStore集群存储系统将会立刻发现该异常并自发的启动数据恢复流程,利用存放于其它存储服务器中该部分数据的校验数据重新生成一份以保证数据仍有一定的冗余度。
由于LoongStore的数据恢复是基于真实丢失的数据,并且数据恢复是通过整个存储集群同时并发进行,所以相对于传统的RAID技术具备更快的数据重建速度,这也能够有效提升数据的安全性。
通过将数据和校验数据存放在不同存储服务器的方法可以对一系列的软硬件故障(网络、主机、磁盘等)进行自动的隔离,消除了存储系统的任何单点故障,而且也无需配置任何复杂的配置。
4.3.6 系统可扩展性
LoongStore集群存储系统可以支持动态的扩展存储容量,而无需中断应用的运行。
用户可以通过LoongStore的配置工具动态添加存储服务器以扩大系统的容量和规模,而且随着
存储服务器数据的增多,整套系统的聚合带宽也会线性的增长,完全可以满足业务不断发展所产生的容量和性能需求。
而工业标准的通用硬件良好的兼容性和可获得性方便了整套存储系统将来的使用和扩展,LoongStore支持在1小时内部署上百TB的存储系统,无缝的在线增加存储容量。
4.3.7 系统可维护性
LoongStore存储系统配有简单易用的图形化管理和监控界面,支持通过专用的安全通道进行远程配置和全系统监控,能够智能的发现各类软硬件故障并进行处理,减少了管理员的工作量。
4.3.8 与现有环境无缝兼容
LoongStore存储系统的设计是面向通用的硬件和软件环境,如使用通用的以太网络作为数据传输通道可以确保充分利用现有的环境,并且可以无需对环境做出任何修改。
另外LoongStore能够直接支持Linux、Windows等常用的操作系统之间进行数据共享,无需对操作系统做任何修改,所以能够无缝的接入到企业现有的软硬件环境。
4.3.9 系统的整体拥有成本
LoongStore大规模集群存储系统能够极大的降低构建和运维成本,主要有以下几点:¾极大地提高了数据可用性:通过LoongStore内置的高可用和故障自动恢复功能等卓越的功能,极大减少了系统由于维护或备份恢复所需的大量时间,从而彻底提
高了企业的生产效率。
¾数据的充分共享:数据可以被前端的各种类型的主机共享,无需在Linux和Windows系统之间进行数据迁移。
这允许一个数据拷贝被所有人员与进程共享,
大大减少了对不同环境下相同的数据的多种形式的管理费用。
¾存储的运维成本:由于LoongStore采用了通用、企业级的硬件构建,具有极高的性价比和兼容性。
管理员可以轻易的掌握LoongStore的运维管理,使得培训支出
上的费用大大减少。
五、 总结展望
非结构化数据的爆炸性增长对存储系统带来更高的要求: GB级的IO带宽、PB级
的存储容量、百亿级的文件数量、千万级的目录规模、完全透明的访问和数据共享、 高可靠性、智能化的管理、良好的可扩展性等等。
现有的存储系统很难同时满足这
些要求。
LoongStore集群存储系统采用了大量自主研发的先进技术,提供极高的I/O性能和可 扩展性,使用简便,能够无间断的为用户提供性能稳定的存储服务,在满足用户需
求的同时有效降低了系统的单位拥有成本和管理成本,使得用户能够更加经济有效
地进行信息基础设施建设,有效提升了企业的核心竞争力。
如果您想进一步了解LoongStore存储系统,请来电或者发邮件咨询北京龙存科技
有限责任公司销售部门, 我们将协助您构建最适合贵公司的存储系统。
Copyright @ 2009 龙存科技版权所有
北京龙存科技有限责任公司确认本出版物中信息其发行到目前为止是准确的。
本出版物可能包含技术错误或印刷错误。
这些信息无需告知即可进行修改。
相关更改将定期增加到文档中另行发表。
龙存科技可能在任何时候对本出版物中提及的产品和程序进行改进或变化。
未经许可,禁止复制本出版物。
本出版物中的信息按其原样提供,龙存科技对于文中的信息不提供任何保证,并明确拒绝特殊目的的暗示性商业性保证。
LoongStore是龙存科技的注册商标。
关于龙存科技更多的信息,请访问
龙存科技的联系方式:
地址:北京市海淀区静淑院路2号502A
电话:010-*******
e-mail:sales@。