中科曙光基因数据分析与存储平台方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因数据分析与存储平台
建设方案
目录
1 平台建设需求分析 (3)
1.1 平台组成 (3)
1.2 系统应用分析 (4)
2 系统方案设计 (7)
2.1 系统配置表 (7)
2.2 系统拓扑图 (10)
2.3 系统方案说明 (11)
3 系统技术参数 (12)
3.1 总体指标 (12)
3.2 刀片机箱 (12)
3.3 计算刀片 (12)
3.4 四路节点 (12)
3.5 管理登录节点 (12)
3.6 存储节点 (13)
3.7 集群网络 (13)
3.8 机柜配电 (13)
3.9 集群软件 (13)
3.10 系统集成实施与售后服务 (15)
1平台建设需求分析
1.1平台组成
生物信息学研究平台可分为测序平台和分析平台两部分,测序平台以基因测序仪为核心,完成基因测序,获得原始数据;分析平台以高性能计算软硬件系统为核心,完成数据的分析处理,获得分析结果。
其中,基因数据存储与分析平台即生物信息高性能计算系统通常包括:
✧计算子系统(刀片节点、胖计算节点、管理登陆节点)
✧存储子系统(在线存储系统、备份存储系统)
✧网络子系统(高速计算存储网络、低速管理网络)
✧管理调度系统(操作系统、集群管理系统、作业调度系统、KVM)
✧基础软件环境(编译器、数学库、并行环境等)
✧应用软件环境(生物信息平台软件、应用软件与基因组数据资源)
✧集群基础设施(机柜、配电系统)
✧机房环境(机房、制冷、监控、消防、隔音、供电等)
1.2系统应用分析
生命科学做为21世纪最重要的科学分支之一,高性能计算在生命科学的研究和发展中起来非常重要的作用。由于测序技术的飞速发展,人类发现的基因序列数目按照指数级增长,那么对于如此数量庞大的基因进行同源性搜寻,比对,分析,遗传发育分析等等,往往伴随着巨大的数据处理量和并行计算量。同时,由于生命科学的研究对象往往是蛋白质和DNA的大分子,对这些分子的三维结构的预测,动力学特性、热力学特性、在生命过程中如何发生作用,这些科学问题也要借助于高性能计算机。所以高性能计算机在生命科学研究中,应用非常广泛,扮演着及其重要的角色。
生物信息学研究平台应用包括测序仪离线处理、序列搜寻比对分析、质谱仪原始资料处理、分子对接(药物设计)、电子显微镜图象处理等等,其中最为主要的仍是测序仪离线处理和序列搜寻比对分析,也是基因数据存储与分析平台承担的主要任务。
基因数据存储与分析平台应用的主要特点为:
1.计算量大,序列比对等大部分任务在双路节点上可以获得较高的计算效率;
2.序列拼接等部分应用需要大内存的节点,部分应用需要单节点1TB以上的内存;
3.数据访问量巨大,对存储性能、容量要求高,数据增长速度非常快;
4.开源软件众多,安装复杂,需要相应的基因组数据资源;
5.部分应用的工作流程较为复杂,自动化较低。
2系统方案设计
2.1系统配置表
方案思想:在当前预算下,结合平台应用的特点和对软硬件的需求,搭建符合应用特点的、满足使用需求、并且尽可能完整的基因组分析和存储平台。
2.2系统拓扑图
2.3系统方案说明
●系统配置Intel 2600v3与4800v3 CPU,刀片节点80个计算核心、胖节点56个计算核心,双精度浮点峰值5.2992万亿次;
●配置1台2TB大内存节点与5台128GB双路节点;
●配置1台FDR IB接口的存储节点,提供96TB存储裸容量;
●配置FDR IB计算存储网络和千兆以太网管理网络;
●系统配置一套Gridview集群管理软件,提供管理、监控、告警和作业调度等功能,方便集群使用和管理;
●提供生物信息应用程序运行所必需的常用编译器、数学库等基础软件环境的安装调试服务,保证应用程序的稳定、高效运行;
●提供生物信息应用软件平台,部署行业应用软件和基因组数据资源;
●软硬件3年质保与售后服务,提供对生物信息分析的应用支持。
3系统技术参数
3.1总体指标
提供完整的基因数据存储与分析软硬件平台,包含计算、存储、网络、集群管理与作业调度软件、应用开发环境、运维管理软件、应用软件系统、基础基因组数据资源以及机柜配电等基础设施。
3.2刀片机箱
1.机架式刀片机箱,高度5U,支持10个双路计算刀片
2.配置支持N+1或N+N冗余热拔插的电源和风扇模块;
3.配置以太网交换模块,对外提供6个千兆端口和2个万兆上联端口;
4.配置IB网络直通模块,对外提供10个FDR IB接口;
5.配置管理模块,可实现远程虚拟介质、远程KVM、刀片状态、故障定位、开
关机等全方位管理控制监视功能。
3.3计算刀片
提供5个双路计算刀片,每节点配置2颗E5-2640v3 8核2.6GHz处理器,128GB DDR4 2133内存,1块300GB 10K 2.5英寸热插拔SAS硬盘,2个千兆以太网端口,1个FDR IB端口。
3.4四路节点
4U机架式四路服务器系统,配置4颗E7-4850v3 14核2.2GHz处理器;
支持96个内存插槽,配置2TB DDR3 1600或以上内存;
24个2.5寸SATA/SAS/SSD硬盘,2G Cache SAS RAID,配置2块600GB 2.5英寸10K SAS硬盘;
支持11个PCI-E扩展槽,配置2个万兆以太网口,1个FDR IB端口;
配置4个电源模块(可实现N+N或N+1冗余),上架导轨。
3.5管理登录节点
2U机架式服务器,配置2颗Intel Xeon E5-2620v3 6核处理器(2.4GHz),32GB