LoongStore集群存储系统_白皮书_jun09
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录
一、前言 (3)
1.1非结构化数据爆炸性增长 (3)
1.2集群化趋势 (3)
二、常见存储架构 (4)
2.1直接连接存储(DAS) (4)
2.2网络附加存储(NAS) (4)
2.3存储区域网(SAN) (5)
三、集群存储趋势的发展 (6)
四、LOONGSTORE集群存储系统 (7)
4.1L OONG S TORE系统架构 (7)
4.2L OONG S TORE集群存储系统组件介绍 (8)
4.2.1 LeoFS分布式文件系统 (8)
4.2.2 负载均衡软件 (9)
4.2.3 灵活冗余软件 (9)
4.2.4 故障自动恢复软件 (9)
4.2.5 大目录支持软件 (9)
4.3L OONG S TORE集群存储系统功能及特点 (10)
4.3.1 海量数据高效管理 (10)
4.3.2 海量文件高效检索 (10)
4.3.3 数据读写性能 (10)
4.3.4 数据全局共享 (11)
4.3.5 数据安全性 (11)
4.3.6 系统可扩展性 (11)
4.3.7 系统可维护性 (12)
4.3.8 与现有环境无缝兼容 (12)
4.3.9 系统的整体拥有成本 (12)
五、总结展望 (13)
一、 前言
1.1 非结构化数据爆炸性增长
随着各种业务类型越来越丰富,电子数据正在飞速增长,而其中增长最快的部分就是非结构化数据。以往传统的数据如数据库、文档、邮件等结构或者半结构化数据典型的一般都是数MB或者GB级,但是非结构化数据的单个文件大小以及总数据量的增长非常迅速,比如目前音视频这类常见数据随着音视频清晰度逐步提高,单个视频文件就达数十GB;而像地震资料这类科学计算数据单个文件就达上百GB,这样总体数据量就轻易达到数十TB甚至数百TB。海量的非结构化数据迫切的需要能够简便进行存储和管理,企业需要一个能够容纳海量数据的存储平台。
1.2 集群化趋势
由于集群架构具备良好的扩展性和性价比优势,目前集群技术已经被广泛的应用到了各行各业。企业相关业务已经从传统的昂贵而且专用的“大型机”、“小型机”转换到了使用Linux和Windows操作系统的通用集群化架构,极大的提升了整体计算处理能力,并且能够良好的支撑业务不断发展带来的需求。
集群架构给企业带来灵活的计算处理能力的同时,也给企业提出了新的需求。集群架构强大的计算处理能力必须围绕着数据运转。当计算集群中业务高并发的对数据进行访问,如果数据不能够被快速的获取和共享将会严重影响业务运转效率,耗费大量的计算处理资源。从集群化的趋势中可以看企业也需要一个具备灵活扩展能力和高效数据IO能力的大规模存储平台支持强大的集群计算处理能力。
二、 常见存储架构
随着人类社会文明的不断进步,社会信息化水平的飞速提高和“知识大爆炸”对信息存储提出了前所未有的需求,存储行业近年来也呈现出一片繁荣的景象,纵观当前主要的存储技术,主要包括以下三个比较流行的存储架构,即:以服务器为中心的DAS、以数据为中心的NAS、以网络为中心的SAN。
2.1 直接连接存储(DAS)
DAS 设备设计来为部门级的IT 环境提供直接的小数据池的访问,存储设备是通过电缆(通常是SCSI接口电缆)直接连接到服务器。对于小的数据中心,这可能是一种可接受的解决方案,但当存储规模增长时,企业就需要一个一个地增加DAS 设备,而这些系统之间又不能直接通信而形成各个独立的信息孤岛,导致存储系统的管理工作烦琐而重复,严重制约了生产效率的提高。而且一旦服务器出现故障,信息资源也将被埋葬在崩溃的服务器中不能访问。目前这种以网络服务器为中心的存储方式已经不能适应来自应用越来越高的要求。
2.2 网络附加存储(NAS)
NAS是一种较为简易的数据共享解决方案。NAS通过NFS/CIFS协议给前端应用提供全局的文件共享,来满足多应用服务器之间的业务协作。传统的NAS是一种单服务器的方式为应用提供存储服务,其性能受限于该服务器的配置。在业务访问量较大的情况下,NAS将很快成为业务的性能瓶颈。
NAS是一种提供数据全局共享的一种解决方案。NAS即便使用两台NAS服务器同时提供服务,但是由于两台NAS实际上不能同时对相同的卷进行访问,导致其性能与传统的单台NAS 相差无几。
同时NAS也存在最大存储容量、单卷存储容量、文件数量等诸多限制。在数据不断增长的情况下,这些限制将会给数据的统一管理维护带来不少困难。
2.3 存储区域网(SAN)
SAN提供通过2Gb/s、4Gb/s的光纤通道给应用的是块级的访问接口。在应用端看到的是一块硬盘,实际使用时还需要对该硬盘进行格式化处理。SAN具有如下几个特点:
1.数据不能共享:该方案利用存储光纤网络连接应用服务器和光纤盘阵,相比DAS
更具灵活性和可扩展性。但是SAN仍然不具备数据共享能力,而且由于SAN系统
高昂的价格,以及不同厂商之间的设备兼容性问题,限制了在很多领域的使用。
相对来说,SAN更加适合作为数据库这类结构化数据的存储。
2.使用维护复杂:SAN使用了大量专用、复杂的硬件,并且各厂家之间的兼容性较差,
这就需要较高的系统构建成本、运营维护成本,兼容性的问题也会对系统将来的
升级带来不便。
三、 集群存储趋势的发展
直接连接存储 (DAS)、存储区域网络 (SAN) 和网络连接存储 (NAS) 都是典型的存储方法,大多数 IT 管理人员在谈到存储架构时都会想到它们,但是随着非结构化数据和数字内容的爆炸性增长,而且由于非结构化内容的存储规模和复杂程度不断提高,传统存储系统显得捉襟见肘。从当前常见的存储技术来看,NAS和SAN主要是为含有小型文件和高级别事务(例如关系数据库和电子邮件服务器)的结构化数据设计的。而非结构化数据具有传统存储系统在设计时并未考虑到的独特特征,包括大型文件和数据量、高吞吐量要求、读取密集型访问方式以及大量并行文件访问。特别是对于互联网、流媒体、高性能计算、能源等数据密集型、高并发访问的行业用户来说,容量与性能的线性扩展是传统存储系统不可逾越的鸿沟。
在这种强烈的市场需求背景下,集群存储得到了快速发展,已经被广泛视为是新一代的企业级存储架构。其中集群技术应用于数据中心的服务器设备上已经有几年的历史了,效果显著。而集群存储作为集群技术的发展和延伸,具备了灵活的扩展性和极高的性价比。集群存储系统通过由若干个存储系统组成的cluster,能够让企业在兼顾性价比的同时轻松实现性能与容量的在线无缝扩展,还有效解决了文件共享的效率问题。
集群存储就是将多台存储设备中的存储空间聚合成一个能够给应用服务器提供统一访问接口和管理界面的存储池,应用可以通过该访问接口透明地访问和利用所有存储设备上的磁盘,可以充分发挥存储设备的性能和磁盘利用率。数据将会按照一定的规则从多台存储设备上存储和读取,以获得更高的并发访问性能。
集群存储的优势主要体现在提高并行或分区I/O的整体性能,特别是工作流、读密集型以及大型文件的访问,通过采用更高性价比的通用硬件来控制整体成本。
目前,能源行业、广电行业和科学计算、互联网等领域的很多创新企业成了集群存储市场上首批用户,并且从集群存储带来的种种优势中获得了非常高的投资回报率。