北工大高性能计算暨云计算平台简介-青岛报告
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于Hadoop的图像检索与地理信息查询系统的并行算法设 计与实现 生物分子相互作用复杂网络的并行模块划分方法 飞秒激光与等离子的相互作用机制的数值模拟 建筑工程有限元分析软件OpenSees的并行优化 多孔介质化-力耦合问题的并行算法研究 喷涂中液滴形成和撞击的并行计算模拟 变速箱减振降噪优化设计程序的并行化 并行计算在识别飞行物着陆点的中应用 大规模锂电池生产管理中优化组合解决方案 基于大规模数据库的人脸识别研究
ssh/nfs
Mpich 2/ ITM OpenMP Monitori /Hadoop ng Agent
Torque-server
计算节 点
7
1*2.83 GHz
1GB
10 GB
Windows xp/ Windows 2003/ RHEL 5.4-32bit/ RHEL 5.4-64bit/ RHEL 5.2-32bit
盘阵:23* 450GB/15K RPM FC硬盘,RAID5;高速缓存:2GB
网络资源 ◦ 1套 Voltaire 20Gb Infiniband高性能网络 ◦ 1套Force10 万兆以太网 ◦ 2套Force10 千兆以太网
平台类型 应用类型
A区 云计算平台 B区 高 性 能 计 算 平 台
◦ 用户可以通过资源模板,定制所需的软件环境,实现自动部署
建设目标 总体结构及硬件基础设施 高性能计算平台简介 云计算平台简介
北京工业大云应用及高性能应用实践
实践1:第二届北京工业大学IBM杯并行计算大赛 ◦ 共10个学院,29个参赛小组 ◦ 自选课题, 86%来源于实际项目需求 ◦ 应用类型多样,并行环境需求异构
实践4:基于高性能计算平台及云计算平台的密度 泛函理论第一性原理计算
◦ 计算原理和特征
设计 从电子结构出发,应用量子力学理论,只借助于基本常量和 Becoming reality 具有所需性能 某些合理的近似进行计算,如实地把固体作为电子和原子核 的新材料 组成的多粒子系统,求出系统的总能量,根据总能量与电子 结构和原子核构型的关系,确定系统的状态。 预测已知材料的新性能/特征 涉及到大量的矩阵计算,运算效率和BLAS链接库有着很大的 关系,大多数并行采用能带分割的并行模式并混合平面波系 理解和解释材料性能 数并行。
◦ 基于A区,采用IBM云计算技术,提供并行应用 调试/运行环境
学院 电 生 激 建 机 机 机 数 材 控 命 光 工 电 电 电 理 料
应
用
软 件 环 境 Linux Hadoop + Hbase Linux + MPI + Boost_1_34_1 Linux + MPI + Pvm Linux + MPI + OpenMPI + OpenMP + Opensees Linux + MPI + Fortran90 Linux + MPI Windows XP + MPI Windows XP + MPI + Vc++6.0 Linux + MPI Linux + MPI + Opencv
◦ 通信密集型 ◦ 内存密集型
针对不同类型的高性能应用的计算需求,在B、C、 D区分别定制不同的软硬件配置方案
利用高性能作业调度和管理技术,为应用合理分配 计算资源,提高应用运行效率。
高性能计算服务门户 高性能计算门户 典型高性能应用门户 高性能应用软件(Anasys, Nastran)
门户层
在平台投入运行后,硬件设施的分区方案可根据各区应用的资源使用情况, 进行动态调整,灵活配置
建设目标 总体结构及硬件基础设施 高性能计算平台简介 云计算平台简介
北京工业大云应用及高性能应用实践
为用户的高性能应用提供稳定、高效的运行环境。 可支持的高性能应用类型
◦ 计算密集型
◦ I/O密集型
◦ 在线同时管理虚拟机群数最大为32个
◦ 虚拟机群平均部署时间约为30分钟
◦ 通过蓝云提供的细粒度资源供给功能,仅使用
了50-65%的硬件资源,满足所有29个参赛小组 的高性能资源需求。
实践2: 《并行计算源自文库本科/研究生课程虚拟教学 试验环境
◦ 学生总人数64人
◦ 部署环境
4个虚拟计算节点(0.5core,1GB内存,15GB硬盘) 本科:windows+MPICHI2 研究生:linux+MPICHI2
”
实践3: 云计算趋势对电子政务框架的影响及实施路 径研究
◦ 与北京市经信委合作研究
◦ 研究成果将对北京市“十二五”信息化建设规划起到重 大影响作用
◦ 研究基于云计算技术的电子政务架构 ◦ 制定基于云计算技术的电子政务的实施路径
实践3:首届 基于云平台的量子化学软件设计应用培训 班
◦ 由北京工业大学网格中心和宏剑公司共同主办
ssh/nfs
Mpich2 / ITM OpenMP Monitori /Hadoop ng Agent
Torque-client
0
15分钟
30分钟
high-resolutioned Mandelbrot set and Julia set parallel volume rendering
◦ 共计部署于84个刀片服务器 ◦ 虚拟机群规模8-100个节点
√
√
From first principles!
第一性原理计算
在节点数目大于4 后,其并行效率会剧烈下降。 主要是由第一性原理计算密集型、通信密集型的 计算特点导致,而云平台的虚拟化技术会增加了 计算任务和底层的额外时间,特别是当节点数较 多时,浪费在程序与底层之间、多节点之间的网 络交换的时间将增加导致整体效率非常低。 由于第一性原理计算VASP程序在每一步并行之后 虚拟集群环境配置: 需要互相对比数据进行自洽,随着节点数的增加, 70个节点(单核CPU 2.83GHz,内存 各个节点之间的网络交换时间和穿越虚拟层的时 间都将大大增加,导致了系统时间的增加,同时 Redhat Linux 5.5 影响运算时间,最终导致了云平台多节点并行效 率的低下。 千兆以太网
高性能应用层 作业管理层 基础管理层
作业管理(LSF)
并行编译器及并行库(MPI)
系统管理(Xcat)
文件管理(GPFS)
硬件资源(计算、存储、网络)
节点操作系统层
◦ 目前安装RadHat Enterprise Linux 5.5
基础管理层
◦ 系统管理软件---xcat
用于高性能机群的系统管理和配置,可通过网络实现机群系统软件 的自动部署以及节点的远程启动/关闭。
建设目标 总体结构及硬件基础设施 高性能计算平台简介 云计算平台简介
北京工业大云应用及高性能应用实践
高性能计算平台和云计算平台的硬件遵循分区规划、 统一管理的建设思路
以机群为主体架构
总计算能力达到23TFlops,总存储能力达到40TB, 目前规模位居全国高校前列
计算资源 ◦ 252台IBM HS21刀片服务器
计算机
虚 单个虚拟机硬件配置 拟 机 CPU 内存 硬盘 个 数
单个虚拟机软件配置 操作系统 集群配 置 并行环 境 监控 作业调 度
头节点
1
1*2.83 GHz
2GB
30 GB
Windows xp/ Windows 2003/ RHEL 5.4-32bit/ RHEL 5.4-64bit/ RHEL 5.2-32bit
◦ 部署时间:2小时;运行时间:超过3个月
◦ 师生反响
任课教师:“基于云平台提供虚拟试验环境,是一种全新的
教学手段。基于北工大云计算平台为本科/研究生《并行计算 》课程的实践环节自动部署所需的并行计算基础环境,有助 于教师在有限的学时内,将教学内容集中于并行计算环境之 上的并行算法设计和并行编程技术,贯彻了该门课程的教学 宗旨,提升了教学效率;同时,基于统一的平台环境,对学 生的课程设计进行检测,有助于优化该门课程的考核评价体 系。” 学生代表:“云平台提供的虚拟机集群为我们提供了很好的 软硬件环境,避免了我们在硬件准备、集群搭建和并行环境 配置方面耗费过多时间和精力,使我们能集中精力进行并行 程序的开发和调试。同时,通过无线校园网接入,我们可以 在学校任何地方随时访问云平台,提高了我们的学习效率。
计算资源 存储资源 网络资源
10TB 1套千兆以太网 SAN存储、 2台I/O服务器 1套万兆以太网
企业云应用、开 84台 发测试云 刀片服务器 数据密集型高性 70台 能应用 刀片服务器 通信密集型高性 98台 能应用 刀片服务器
C区
D区
1套Infiniband 高 30TB SAN存 性能通信网络 储、 6台I/O服务器 内存密集型高性 3台大内存机 1套Infiniband 高 能应用 架服务器 性能通信网络、 1套万兆以太网
服务目标及建设情况 总体结构及硬件基础设施 高性能计算平台简介 云计算平台简介
北京工业大云应用及高性能应用实践
以服务的形式,面向用户多样化的应用需求,提供 定制的、个性化运行环境。
典型应用场景
◦ 为高性能计算相关课程教学提供试验环境 ◦ 为并行编程用户提供调试环境
◦ 为规模较小的计算密集型高性能应用提供运行环境
◦ 40多名学员参加 ◦ 基于高性能计算平台和云计算平台为参加学员提供ADF2010的 运行环境 ◦ 比较ADF2010在高性能计算平台和云计算平台的性能可扩展性
◦ 测试结果表明,典型高性能应用更适于运行在高性能计算平台。
在相同的问题规模和计算资源规模下,基于高性能平台 的应用运行效率要优于云平台,最大提升4.8倍。
◦ MPI并行程序库
用于MPI并行作业运行时环境
◦ OpenMP并行程序库
用于OpenMP并行作业运行时环境
◦ 作业管理软件---LSF
用于机群作业管理,资源监控,计费管理,可支持多机群协同管 理
可提供多类高性能作业(如MPI作业等)的全生命周期管理 机群使用情况的报表生成和智能化分析 多分区、多机群协同管理 多种形式的计费管理 提供基于web、命令行等多种形式的用户界面 降低用户的使用门 槛,提供系统好用性。
北京工业大学网格中心 2011-6-9
建设目标 总体结构及硬件基础设施 高性能计算平台简介 云计算平台简介
北京工业大云应用及高性能应用实践
建设目标 总体结构及硬件基础设施 高性能计算平台简介 云计算平台简介
北京工业大云应用及高性能应用实践
服务教学科研 开展科学研究 支撑服务北京
◦ 为门户网站、企业信息系统等提供托管运行环境
利用虚拟化技术,以虚拟机的形式为用户动态提供 计算资源服务
利用自动部署技术,构建用户所需的软件运行环境
◦ 在2个管理服务器上安装IBM BlueCloud,管理范围覆盖A区. ◦ 目前,基于xen虚拟机管理器,可提供的软件环境
操作系统:Windows XP/Windows 2003/RHEL 5.4-32bit/RHEL 5.4-64bit/RHEL 5.2-32bit 并行计算环境:MPICH1/MPICH2/OpenMP/Hadoop 监控系统:ITM Monitoring Agent 集群配置:SSH/NFS/Torque
安装于管理域的1台管理服务器上,管理范围覆盖B,C,D区。
◦ 文件管理软件—GPFS并行文件系统
用于对SAN存储域中所存文件数据的高效读写。 在存储域的6台I/O服务器上部署GPFS server,在B,C,D区的所有节 点上部署GPFS client,管理范围覆盖B,C,D区。
作业管理层
CPU:2路,4核,主频2.83GHZ;内存:16GB;硬盘:146GB
CPU: 16颗,4核,主频2.13GHZ;内存:512GB;硬盘:3*146GB
◦ 3台IBM X3950M2大内存机架服务器
存储资源 ◦ 4台IBM TotalStorage DS4700-70A磁盘阵列 ◦ 基于SAN架构的存储网络系统
在2个管理服务器上安装LSF Master,在B,C,D区的所有节 点上部署LSF Slave,管理范围覆盖B,C,D区,实现多分区 计算资源的统一调度管理。
高性能应用层
◦ 目前安装Anasys, Nastran等高性能应用商业软件
◦ 最终将实现与作业管理系统LSF的集成,通过LSF实现应用 软件运行时的资源分配和作业调度