高性能计算云平台解决方案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高性能计算云平台

解决方案

目录

1概述 (3)

1.1建设背景 (3)

1.2设计范围 (3)

1.3总体设计原则 (3)

2系统平台设计 (4)

2.1项目需求 (4)

2.2设计思想 (5)

2.3云存储系统方案 (6)

2.4系统优势和特点 (6)

2.5作业调度系统方案 (8)

3系统架构 (9)

3.1cStor系统基本组成 (9)

3.2cStor系统功能描述 (10)

3.3Jobkeeper系统基本组成 (17)

4系统安全性设计 (20)

4.1安全保障体系框架 (20)

4.2云计算平台的多级信任保护 (21)

4.3基于多级信任保护的访问控制 (25)

4.4云平台安全审计 (28)

5工作机制 (31)

5.1数据写入机制 (31)

5.2数据读出机制 (32)

6关键技术 (33)

6.1负载自动均衡技术 (33)

6.2高速并发访问技术 (33)

6.3高可靠性保证技术 (33)

6.4高可用技术 (34)

6.5故障恢复技术 (34)

7接口描述 (35)

7.1POSIX通用文件系统接口访问 (35)

7.2应用程序API接口调用 (35)

8本地容错与诊断技术 (36)

8.1 cStor高可靠性 (36)

8.2 cStor数据完整性 (36)

8.3 cStor快照技术 (37)

8.4 Jopkeeper故障处理技术 (37)

9异地容灾与恢复技术 (39)

9.1cStor数据备份与恢复系统功能 (39)

9.2cStor异地文件恢复 (40)

1概述

1.1建设背景

云存储平台与作业调度为本次高性能计算总体解决方案的一部分。主要针对海量的数据的集中存储、共享、计算与挖掘,建立一套具有高可靠、可在线弹性伸缩,满足高吞吐量并发访问需求的云存储与计算平台。为数据存储和高效计算提供便捷、统一管理和高效应用的基础平台支撑。

1.2设计范围

本技术解决方案针对海量数据集中存储、共享与计算,提供从系统软硬件技术架构、原理、硬件选型、网络接入以及软件与应用之间的接口等方面的全面设计阐述。

1.3总体设计原则

针对本次工程的实际情况,充分考虑系统建设的建设发展需求,以实现系统统一管理、高效应用、平滑扩展为目标,以“先进、安全、成熟、开放、经济”为总体设计原则。

1.3.1先进性原则

在系统总体方案设计时采用业界先进的方案和技术,以确保一定时间内不落后。选择实用性强产品,模块化结构设计,既可满足当前的需要又可实现今后系统发展平滑扩展。

1.3.2安全性原则

数据是业务系统核心应用的最终保障,不但要保证整套系统能够7X24运行,而且存储系统必须有高可用性,以保证应用系统对数据的随时存取。同时配置安全的备份系统,对应用数据进行更加安全的数据保护,降低人为操作失误或病毒袭击给系统造成的数据丢失。

在进行系统设计时,充分考虑数据高可靠存储,采用高度可靠的软硬件容错设计,进行有效的安全访问控制,实现故障屏蔽、自动冗余重建等智能化安全可靠措施,提供

统一的系统管理和监控平台,进行有效的故障定位、预警。

1.3.3成熟性原则

为确保整个系统能够稳定工作,软件平台将使用先进、完善、易于管理和稳定可靠的云存储资源管理系统,对于与应用的集成接口,提供统一的通用稳定访问接口。1.3.4开放性原则

系统建设具有开放性的标准体系,提供符合POSIX标准的通用文件系统访问接口,开放的应用API编程接口,提供人性化的应用和管理界面,以满足用户需求。遵循规范的通用接口标准,使全系统中的硬件、通信、软件、操作平台之间的互联共享。充分考虑系统的升级和维护问题,维护采用在线式的,即在系统不停止工作的情况下,可以更换单元备件。系统的维护和升级操作由系统管理员即可完成。

1.3.5经济性原则

现有业务系统存储数据量较大,且数据的增长速度较快。因此在建设系统存储架构时,应从长远的角度考虑,建设一个长期的存储架构,除了可以应对存储硬件设备的升级速度外,还必须考虑到对前期存储设备的投资保护,在保证不断提供功能和性能提高的同时,存储架构在较长的时间内能够保持相对稳定。结合先进的云平台技术架构优势,根据本次项目建设的实际容量需求设计,同时充分考虑应用发展需求,实现系统可弹性在线平滑升级。通过软件实现在较廉价普通服务器上实现高度容错,同时能够在较低冗余度的情况下实现高度可靠容错,大大节约和降低系统建设的硬件成本。

2系统平台设计

2.1项目需求

2.1.1容量需求

针对本次建设实际数据容量,一期拟建设48TB裸容量数据存储平台,主要存储数据。

2.1.2吞吐量需求

为满足多用户或应用整体吞吐带宽需要,确保数据访问流畅,系统需提供多用户或应用并发访问高吞吐带宽设计,系统能够有效利用网络带宽,性能可通过规模增加实现平滑增长。

2.1.3扩展性需求

未来根据业务应用的变化和发展,需要快速实施系统资源的升级,可以在业务服务不间断的状态下平滑扩展,不会导致架构发生根本性变化,为不断产生和变化的业务需求提供持续的支持,支持业务系统的快速整合和部署对核心系统基础架构的特别要求。

2.1.4低成本需求

要求系统能够以低硬件成本、低维护成本实现高可靠高性能应用要求,充分提高资源利用率,简化管理,并能灵活、可持续扩展。

2.1.5可维护性需求

要求系统具有自适应管理能力,安装、维护、升级简易方便,提供统一易用的WEB 配置管理监控平台,实现智能化管理。

2.1.6接口需求

要求能够提供通用的文件系统接口,方便用户及应用系统访问,减少与应用集成或开发工作量,实现系统快速部署与集成。

2.2设计思想

采用业界成熟先进的云平台架构思想,采用软件实现对大量普通商用服务器存储空间资源进行虚拟化整合,实现软硬件故障高度容错,将系统控制流与数据流分离,同时使得数据在逻辑上集中、物理上分散,每台服务器同时对外提供服务,以达到多并发高吞吐量的性能要求,采用自注册机制、故障自动屏蔽、自动冗余重建技术实现系统自我维护和平滑扩展,系统服务7×24小时不间断。系统采用先进的编解码容错技术,可根据数据可靠性要求设置适当的冗余编解码策略进行系统部署,可以以极小的磁盘和硬件冗余度,实现高度的可靠性数据容错。

相关文档
最新文档