作业调度系统-曙光

合集下载

曙光作业管理-调度系统安装配置手册

曙光作业管理-调度系统安装配置手册

Torque + Maui配置手册之抛砖引玉篇本文将以应用于实际案例(南航理学院、复旦大学物理系、宁波气象局)中的作业调度系统为例,简单介绍一下免费开源又好用的Torque+Maui如何在曙光服务器上进行安装和配置,以及针对用户特定需求的常用调度策略的设定情况,以便可以起到抛砖引玉的作用,使更多的人关注MAUI这个功能强大的集群调度器(后期将推出SGE+MAUI版本)。

本文中的涉及的软件版本Torque 版本:2.1.7 maui版本:3.2.6p17。

1. 集群资源管理器Torque1.1.从源代码安装Torque其中pbs_server安装在node33上,TORQUE有两个主要的可执行文件,一个是主节点上的pbs_server,一个是计算节点上的pbs_mom,机群中每一个计算节点(node1~node16)都有一个pbs_mom负责与pbs_server通信,告诉pbs_server该节点上的可用资源数以及作业的状态。

机群的NFS共享存储位置为/home,所有用户目录都在该目录下。

1.1.1.解压源文件包在共享目录下解压缩torque# tar -zxf torque-2.1.17.tar.gz假设解压的文件夹名字为: /home/dawning/torque-2.1.71.1.2.编译设置#./configure --enable-docs --with-scp --enable-syslog其中,默认情况下,TORQUE将可执行文件安装在/usr/local/bin和/usr/local/sbin下。

其余的配置文件将安装在/var/spool/torque下默认情况下,TORQUE不安装管理员手册,这里指定要安装。

默认情况下,TORQUE使用rcp来copy数据文件,官方强烈推荐使用scp,所以这里设定--with-scp.默认情况下,TORQUE不允许使用syslog,我们这里使用syslog。

基于HPC Profile标准的网格批作业服务的研究与实现

基于HPC Profile标准的网格批作业服务的研究与实现

曙光 4 0 A装有 L F 而内部 实验集群装有 MSC S 00 S, C 。
以及三期工程 即将安装的曙光 5 0 A 应用何 种作业 00
互不 兼容 ,互操作 性差【。例如 中心 内部试验机群 使 1 】
用的是 e o u ig网格 中间件 , 是 e o u ig C mp t n 但 C mp t n
作 _ J 务互操 作 ,提升现有 网格应用 系统的可扩展性和 网格 中间件 的互操作性。 ,l l ̄ k 关键词 : 网格 ;H C Po i ;批作业服 务 ;中间件互操作 P rf e l
Re e r h a d I lm e t to f i thS r ieBa e n HPC r fl s a c n mp e n a i no dBac e vc s do Gr Po e i
Ce tr hi p rd sg sa d r aie ac rd o e a in e vc s a d g i d lwa e itr peai n n e ,t spa e e i n n e l sb th g i p r t s sr ie n rd mi d e r n e o rto z o b s d o te HPC r fl tn a d he ,i p r d s t e s a a i t n itr pea ii f t e g i ae n h P o e sa d r .T n t u g a e c lb l y a d n e o r blt o h rd i h i y mide r . d lwa e Ke wo ds y r :
L F 业调度器的 e gn Fa S OS之间基 于不 同的服务开发标准 , 因而不能通过 e o p tn 直接调 用 G C m u ig OS网格服务实现互操作 ,

作业调度系统PPT课件

作业调度系统PPT课件

PBS 的基本原理
PBS 的优缺点
• 支持系统级检查点功能(需底层操作系统支持) • 很好的大规模扩展性 • 独立的调度模块** • 支持作业依赖 • 符合POSIX 1003.2d 标准 • -只支持Unix类操作系统 • -多集群协作功能有限 • -不支持用户级检查点功能
术语
• 节点(node)
(CPU类型、内存大小、数量等) • 系统资源丰富(节点/CPU) • 用户不同类型的作业(串行/并行) • 用户可以使用资源的限制
任务管理系统的功能
• 单一系统映象
– 机群松散的结构的整合
• 系统资源整合
– 异构系统的整合
• 多用户的管理
– 用户提交的任务的统一安排,避免冲突
• 用户权限的管理
– 非授权用户的控制
[root@node1 /public/OpenPBS_2.3.16]#./configure --enable-gui -set-server_home=/var/spool/pbs --enable-docs --xlibraries=/usr/X11R6/lib64
其中,--x-libraries=/usr/X11R6/lib64是在X86_64 (AMD64或 EM64T)上安装时,需要指明系统64位库的位置。
• 调度器:为作业分配资源
作业管理系统的结构
作业特性比较
内容
• 任务管理系统概述 • 作业调度系统 • PBS作业调度系统 • 作业调度系统的使用
PBS作业调度系统
• PBS最初由NASA的Ames研究中心开发, 为了提供一个能满足异构计算网络需要的 软件包。它力求提供对批处理的初始化和 调度执行的控制,允许作业在不同主机间 的路由。

曙光Gridview2.0安装维护手册2.0

曙光Gridview2.0安装维护手册2.0

Gridview2.0 安装维护手册Gridview2.0安装维护手册目录1、系统安装 01-1、安装条件 01-2、GRIDVIEW2.0安装前设置 01-3、GRIDVIEW2.0安装 (5)1-3--1、管理节点安装 (5)1-3--2、计算节点安装 (7)1-4、安装后的验证 (8)1-4--1、管理节点验证 (8)1-4--2、计算节点验证 (9)2、系统卸载 (10)2-1、管理节点卸载 (10)2-1--1、卸载步骤—计算中心版 (10)2-1--2、卸载步骤—数据中心版......................................................... 错误!未定义书签。

2-2、计算节点卸载 (10)2-2--1、批量卸载—计算中心版......................................................... 错误!未定义书签。

2-2--2、手动卸载—计算中心版......................................................... 错误!未定义书签。

2-2--3、批量卸载—数据中心版......................................................... 错误!未定义书签。

2-2--4、手动卸载—数据中心版......................................................... 错误!未定义书签。

3、系统维护 (11)3-1、配置文件 (11)3-1--1、安装配置文件 (11)3-1--2、PORTAL相关配置文件 (12)3-1--3、告警预处理相关配置文件 (12)3-1--4、LOG配置文件 (13)3-1--5、采集相关配置文件 (13)3-1--6、HIBERNATE配置文件 (16)3-1--7、作业调度管理进程配置文件 (18)3-2、设备信息导入及参数设置 (19)3-2--1、设备信息导入 (20)3-2--2、采集参数设置 (22)3-2--3、告警参数设置 (22)3-2--4、设备使用配置 (23)Gridview2.0安装维护手册3-3、运行状态检查 (24)3-3--1、采集器运行状态检查 (24)3-3--2、告警预处理服务运行状态检查 (25)3-3--3、TOMCAT服务运行状态检查 (25)3-3--4、作业调度管理进程状态检查 (25)3-4、故障处理 (25)3-4--1、网络故障 (25)3-4--2、应用程序故障 (25)3-5、系统日志 (26)3-5--1、采集系统日志 (27)3-5--2、告警预处理系统日志 (28)3-5--3、作业调度管理进程系统日志 (28)1、系统安装1-1、安装条件➢本软件支持的操作系统1-2、Gridview2.0安装前设置●确定集群各个节点的ip地址配置正确,确定集群各个节点的/etc/hosts文件内容完整并且正确。

【高性能计算中心】高性能计算中心建设方案总体设计

【高性能计算中心】高性能计算中心建设方案总体设计

【高性能计算中心】高性能计算中心建设方案总体设计高性能计算中心建设方案总体设计1目录21.1建设目标根据用户的实际应用需求,拟扶植高机能计算系统一套,该系统包罗以下指标:计算系统主要由刀片集群组成,辅以大批的SMP胖节点和前后处理节点,其中刀片集群峰值达到16.12TFLOPS,胖节点峰值达到1.17TFLOPS。

建设存储系统一套,需要使用稳定可靠并行存储系统,总容量达到288TB,访问带宽达到3.0GBps。

扶植文件服务器存储系统一套,需要使用稳定可靠的磁盘阵列服务器,总容量达到21TB。

前后处理节点4台,每台配置高端显卡。

收集系统应根据应用需求,配置最先进的FDR 56 Gbps Infiniband收集,为了包管可管理性和可靠性,应配置单一大端口Infiniband交换机。

管理收集考虑机能和布线的最佳挑选,使用万兆上联方案。

根据用户应用需求,配置功能强大作业调度系统,并配置可实现与现有应用集成的webportal,可实现基于图形化的互动作业,提高用户使用体验。

1.2方案选型说明1.2.1高性能计算系统选型本次投标的高性能计算系统为曙光的整体解决方案,XXX(以下简称“XXX”)是一家在天津注册,在XXX 和XXX大力推动下,以国家“863”计划重大科研成果为基础组建的高新技术企业。

XXX做为国内抢先的高机能计算解决方案供应商,具有丰富的高机能项目经验和齐全的高机能计算解决方案,承担了多个国家重大超等计算机的扶植事情,其扶植的“曙光4000A”,“曙光5000A”和“曙光星云”等多个系统的扶植,多次入选全球Top500计算排行榜的前列。

曙光在国内高性能计算市场占有很大的市场份额,从2009年至今,连续4年夺得中国TOP100排行榜的第一名,超过了国内国际所有竞争对手。

曙光作为一个自主创新的国产的高机能计算解决方案供应商,也更符合本项目的自助可控、保密的要求。

31.2.2存储系统选型本次投标的并行存储系统为曙光Parastor200存储系统,存储系统作为高性能计算系统的存储介质,数据的可靠性和稳定性是第一位的。

机群作业管理系统的评价体系

机群作业管理系统的评价体系
标准: 支持作业依赖;自 动的负载平衡: 完整的安全认证:提供了完整的 A I P,方便新 的调度器的开发:提供用户影像功能。使 P S能用于用户不一致的系统中 B
1 LF od r g iy 负 . S ( a Sai Fci) 2 L h n al t 载共享软件LF 加拿大平台 S 是由 计算公司 研制 与开发的,由Tr t大学开发的Uoi系统发 on oo ta p 展而来。从强大的功能和广泛使用的角
( 中国科学院计算技术研究所,国家智能计算机研究开发中心,北京,108 ) 000
摘 要: 首先简单介绍当今颇具代表性和影响力的几种机群作业管理系统 P S L F B , , S
L A L V L R和 C N O ,以及我们开发的曙光系列超级服务器机群作业管理系统 J S , O D E EE ODR OS 接着介绍机群作业管理系统的评价体系,然后运用这一评价体系,比较和分析了当今有代表性 的一些作业管理系统和曙光系列超级服务器作业管理系统 J s ,并由此得出了一些对于今后 os 研制机群作业管理系统具有重要指导意义的结论。 关链词:作业管理,评价体系,机群
组成。工作站主人可以自愿加入或退出。C N O 监测网络中所有工作站的状态,一 O D R 旦某台计算机被认为空闲,便把它纳入到资源池 (O L P O )中。在资源池中的工作站被
用来执行作业。当工作站的主人开始使用该工作站时,C N O O D R便将运行在该工作站 上的作业迁移到其它节点上继续运行,从而避免了对工作站主人的影响。所有这些特征 并不需要修改底层的U I NX操作系统核心, 只需在用户级进行, 而且不需修改用户程序, 只需与 C N R提供的库函数重新链接。 O DO CN O 的主要特征是:充分利用工作站的空闲时间;用户只需与库函数重新链 ODR 接便可利用 C N O O D R提供的检查点和进程迁移功能:对于远程执行的进程,本地的执 行环境被保留: C 作站主人对该工作站拥有最高优先级和完全的控制权;作业保证彻底 完成,不会因为系统的故障或工作站的退出而终止;本地磁盘空间不会被 C N O O D R作 业所占用:对网络资源、数据传送和检查点操作的有效监控:对网络资源、C U 的协 P

曙光 6000 超级计算机使用手册 - 清华大学深圳研究生院

曙光 6000 超级计算机使用手册 - 清华大学深圳研究生院

曙光6000超级计算机使用手册系统运行部2012年12月12日目录一、基本环境二、系统软件环境2.1 操作系统 (5)2.2 作业调度系统 (5)2.3编译器和并行实现 (5)2.4 数学库 (6)三、使用方法3.1 登录和传输文件 (8)3.2 编译 (12)3.3 作业提交 (13)3.4 作业管理 (23)附件A.常用的作业提交模板1.普通串行计算 (25)2.普通MPI并行作业 (25)3.多个计算步骤的计算脚本 (25)4.共享内存并行作业 (26)5. 4. OpenMP+MPI 混合并行作业 (26)附录B:商用软件使用方法1.Fluent软件 (28)2.ANSYS软件 (30)3.CFX软件 (33)4.ABAQUS软件 (35)5.MARC软件 (37)6.NASTRAN软件 (39)7.LSDYNA软件 (41)8.DYTRAN软件 (43)9.ADF软件 (45)10.HFSS软件 (47)国家超级计算深圳中心采用由中科院和曙光公司联合研制的曙光6000超级计算系统,该系统整体计算能力实测峰值为1.271千万亿次浮点运算(1.271PFLOPS)。

于2011年11月16日投入运行。

本文主要介绍曙光6000超级计算系统的使用方法和环境。

一、基本环境为了方便管理和使用,曙光6000超级计算系统高性能计算区分成5个逻辑分区,分别为科学计算分区(GK)、工程计算分区(GG)、生命科学计算(GS)、胖节点分区(Fn)以及龙芯计算分区(Lx)。

其中GK、GG、GS分区的每个计算节点由2颗Intel5650六核心处理器组成、主频2.66GHz,配置24GB DDR3内存以及1块Nvidia C2050 GPGPU卡,一块本地149G的 SAS硬盘,一块QDR IB子卡。

胖节点分区(Fn)共配置128台4路A840 SMP计算节点,每个计算节点配置4颗AMD 6136 八核心处理,主频2.4GHz,内存128GB。

一个复杂的PBS脚本

一个复杂的PBS脚本

命令行登录
图形化登录
使用VNC Viewer工具 输入服务器IP:端口号,然后点击OK
图形化登录
输入登录密码
图形化登录-图形化界面登录成功
右键、open terminal打开命令操作窗口
图形化登录-图形化界面命令窗口
图形化登录开启方法
启用VNC步骤: 1、su - username 2、vncserver (注意,第一次运行会提示设置密码) 运行完后,注意生成的ID号,然后即可以用VNC viewer客户 端工具连接了。 高级操作: 1、vncserver -kill :ID号 (杀掉刚刚生成的图形连接ID号) 2、示例使用: vncserver -geometry 1920x1080 -depth 24 :5 指定分辨率1920x1080,指定端口ID为5; 3、改图形化登 录密码:vncpasswd
系统登录
管理节点登录IP: 10.14.83.152 用户名:(需要申请) 密码:(需要申请) 登录方式:ssh命令行登录、VNC图形化界面登录;
登录工具:putty命令行登录、VNC Viewer图形化登录;
Linux to Windows文件传输工具:winscp
命令行登录-putty工具
命令行登录
文件传输工具
文件传输工具
并行软件环境
操作系统: Red Hat Enterprise Linux Server release 6.4 系统位数:64位 编译器:Intel 14,安装路径/public/software/intel,也可以 使用which icc或which ifort查看详细路径; GCC编译器,使 用which gcc查看详细路径; Open-MPI 1.6.3安装路径 /public/software/mpi/openmpi1.6.3-intel/,也可以使用 which mpirun查看详细路径 作业调度系统:torque;

华东师范大学超算中心 - MPI 使用情况说明

华东师范大学超算中心 - MPI 使用情况说明

华东师范大学超算中心MPI使用情况说明
华东师大超算中心MPI使用情况说明
曙光公司为华东师大提供了丰富的MPI通讯库。

主要有如下几种:
1. INTEL MPI
是INTEL公司提供的高性能MPI,同时支持Infiniband、TCP两种网络,安装路径为/data/soft/compiler/mpi/impi/3.2.2.006
2. HP-MPI
目前是Platform旗下的MPI产品,版本2.2.7,环境变量设定参考
/data/share/env_hpmpi;
3. MV APICH2
是MPI接口在Infiniband网路上的MPI2实现版本,在Infiniband上具有较高的性能。

安装路径为
/data/soft/compiler/mpi/mvapich2/1.4rc2/icc.ifort/
4. OpenMPI
是MPI2实现的高性能的MPI,可以运行于任何网络上。

安装路径为
下面将以cpi为例,介绍不同的MPI利用作业调度系统运行的方法。

5. 作业调度系统上MPI使用举例5.1 INTEL MPI
环境变量设定为:
测试脚本为:
5.2 HP MPI
环境变量设定为:
测试脚本为:
5.3 MVAPICH2
环境变量设定为:
运行脚本为:
5.4 OpenMPI
环境变量设定为:
运行脚本为:。

材料模拟计算软件VASP

材料模拟计算软件VASP
程序的主要功能如下: 以平面波为基础的自洽赝势积分; 超软赝势; 实现全电子投影增强波(PAW)方法,覆盖 了周期表中的所有元素; 局 域 密 度 近 似 ( L D A ) 和 广 义 梯 度 近 似 (GGA); 自旋限制和自旋极化; 半相对论性和完全自旋轨道相对论性; 非共线磁力; 关联体系的LDA (GGA)+U计算; 块状体系、表面、界面和分子(超单元结 构); 总能量,力场和完全的压力张量; 格参数和原子位置的同时松弛; 从头计算性的分子动力学; 产生Monkhorst-Pack特殊K点; 在K空间中和拖尾效应(smearing)或四面 体方法(具有Blöchl校正)结合;
1. 背景介绍
VASP(Vienna Ab-initio Simulation Package )是使用 赝势和平面波基组,进行从头量子力学分子动力学 计算的软件包。直接购买的费用大约4万人民币。
VASP的原型是Mike Payne在MIT开发的程序包。 这个程序包产生了两个分支,一个是VASP,一个 是CASTEP。当VASP开始发展的时候,CASTEP这个 名字还没有产生。1989年,Juergen Hafner把VASP的 原型代码从剑桥带回了维也纳,但VASP的真正开 发是在1991年开始的。这个时候,CASTEP实际上 已经进一步发展了很多,但是VASP是基于1989年版 的CASTEP开发的,这个版本的CASTEP只支持局域 赝势和Car-Parrinello型的急速下降算法。1995年, VASP的名字被确定下来,并且成为一个稳定而通用 的从头计算工具。1996年,VASP的FORTRAN 90语 言版本出现,并且开始进行MPI并行化。但是,开 始进行并行化工作的人,J.M. Holender,“抄袭”了 CASTEP的通讯内核,从而引起了CASTEP和VASP的 纠纷。1997年1月,VASP的并行化在英国完成。 1998年,VASP的通讯内核被完全重写,以去除 CASTEP的部分,这导致了VASP对T3D/T3E通讯不再 特别有效率。1999年,投影增强波(PAW)方法被 采用。目前,维也纳大学(University of Vienna)Prof. Dr. Juergen Hafner 和 Prof. Dipl.Ing. Dr. Georg Kresse 研 究组以及德国的Friedrich-Schiller-University的Jürgen Furthmüller研究组共同开发并发展VASP。它是用赝 势平面波方法进行分子动力学模拟的软件包。与同 类的软件相比,它比较早的实现了超软赝势,计算 量相对于一般的模守恒赝势方法大为减少。VASP加 入了对PAW方法的支持,这使得VASP的应用更为广 泛。

昆明超算分中心用户试用说明

昆明超算分中心用户试用说明

昆明超算分中⼼⽤户试⽤说明昆明超算分中⼼⽤户试⽤说明昆明超算分中⼼采⽤的是曙光5000系列的⾼性能集群计算机系统,其整体计算能⼒理论峰值为10T flops。

2009年12⽉完成安装,现已投⼊试运⾏。

本⽂主要介绍该计算机的整体的软硬件环境,以及机器的使⽤⽅法。

1机器基本软硬件环境1.1硬件部署昆明超算分中⼼采⽤60台曙光⼑⽚服务器、两台曙光8路胖节点为计算服务器,10台机架式服务器作为IO、登陆管理及⽹格服务器,⽹络系统由千兆⽹和Infiniband⾼速⽹构成,存储系统为100T的盘阵。

具体安装配置情况如下:1)计算节点:Node1⾄Node060为曙光TC2600⼑⽚服务器(4路4核,32G内存),Node61、Node62为8路4核胖节点,配置128G内存,供需要⼤内存的计算任务使⽤。

共⽤1024个核供⾼性能计算使⽤,可提供9万亿次的理论计算能⼒。

2)IO节点(Node63⾄Node68):4台机架式服务器组成Lastre并⾏⽂件系统IO节点,连接84T盘阵;另有两部服务器构成HA双机节点,连接16T盘阵(NSF⽂件系统),为Solexa测序仪提供⾼可靠的IO传输保障。

3)管理及登陆节点:Node69为⽤户登陆节点;Node70为管理节点,曙光配置的集群管理系统Gridview,Platform 公司的LSF作业管理系统等管理软件安装部署在该节点上。

5)存储系统:配置了100T盘阵,其中84T部署为并⾏⽂件系统Lustre (做完raid6加热备后,剩余约60T),16T的空间部署为⽹络⽂件系统NFS (做完raid6加热备后,剩余约12T),挂载在双机节点的/Solexa 下,保证测序数据的实时⾼可靠传输。

6)⽹络配置:系统配置两套⽹络,千兆⽹和Infiniband⽹。

超算中⼼⽹络以光纤与研究所内⽹连接。

1.2系统软件部署1)操作系统:计算节点和前端接⼊节点的操作系统均为64位SuSE Linux Enterprise Server 10,提供了⼀个标准的64位Linux 操作环境,⽤户需要事先适当熟悉命令⾏⽅式的基本Linux操作,特别是⽂件⽬录操作,并应该会熟练使⽤⼀种编辑器(vi等)。

曙光GPGPU高性能计算解决方案

曙光GPGPU高性能计算解决方案

曙光GPGPU高性能计算解决方案曙光信息产业(北京)有限公司2010年5月目录1.曙光方案优势 (4)1.1.CPU和GPU计算能力均衡设计 (4)1.2.采用水冷散热设计 (4)1.3.采用低延迟Infiniband设计 (5)1.4.配置了丰富的集群软件 (5)1.5.专业的高性能计算厂商 (5)2.曙光公司与中国高性能计算 (7)3.GPGPU的应用及其产品 (9)4.曙光百万亿次GPGPU高性能计算解决方案 (12)4.1.总体设计原则 (12)4.2.方案配置 (13)4.2.1.系统总体布置图 (13)4.2.2.方案一(260T) ...............................................................错误!未定义书签。

4.2.3.方案二(193T) ...............................................................错误!未定义书签。

4.3.曙光GHPC1000高性能计算机 (14)4.3.1.概述 (14)4.3.2.特性与优势 (16)4.3.3.技术规格 (17)4.4.计算系统 (17)4.4.1.概述 (17)4.4.2.技术特色 (18)4.4.3.技术规格 (19)4.5.网络系统 (21)4.6.存储系统 (24)4.7.软件系统 (28)4.7.1.Gridview服务器综合管理系统 (28)4.7.2.PowerConf服务器节能软件 (35)5.机房建设方案 (38)5.1.水冷机柜方案 (38)5.1.1.概述 (38)5.1.2.高效节能的水冷机柜系统 (39)5.1.3.水冷机柜产品介绍 (40)5.1.4.冷机柜解决方案 (43)5.1.5.机房物理环境要求及水冷机柜系统设备参数 (45)5.2.风冷机柜方案 (47)5.2.1.机柜尺寸和摆放要求 (47)5.2.2.机房环境要求 (49)5.2.3.供电和环境要求 (50)6.用户服务方案 (51)6.1.售后服务承诺 (51)6.1.1.概要 (51)6.1.2.保修期限和服务方式 (51)6.1.3.服务流程及响应时间 (52)6.1.4.有偿服务收费标准 (54)6.2.技术支持及服务项目 (55)6.2.1.硬件升级服务项目 (55)6.2.2.系统软件支持服务项目 (55)6.2.3.应用软件及解决方案支持服务项目 (56)6.2.4.应用开发和移植支持服务项目 (56)7.培训方案 (57)7.1.概述 (57)7.2.培训目标 (58)7.3.培训教材 (58)7.4.项目实施前培训 (58)7.4.1.培训方式 (58)7.4.2.培训地点 (59)7.4.3.培训人数 (59)7.4.4.培训内容 (59)7.4.5.培训时间 (60)7.5.现场培训 (61)1.曙光方案优势1.1. CPU和GPU计算能力均衡设计曙光GHPC 1000高性能计算平台采用通用CPU和专用GPU均衡设计,既保证了GPU的处理性能,又兼顾了通用CPU的计算能力。

材料计算软件的曙光TC2600刀片服务器解决方案

材料计算软件的曙光TC2600刀片服务器解决方案

材料计算软件的曙光TC2600刀片服务器解决方案随着计算机硬件技术的发展和计算方法的突飞猛进,基于量子力学的计算模拟手段已经被广泛应用于化学、材料物理以及有关的其它学科。

曙光刀片服务器为材料计算提供了一种优异的平台,它在众多方面超越了传统机架式服务器,是高密度、高性能的新一代服务器产品。

刀片服务器由于物理形态上的高度集成,可以根据物理化学领域应用的不同的特色进行灵活配置,极大地丰富材料计算服务器的解决方案1. 背景概述1.1. 计算化学和材料物理进入20世纪以后,由于受到物理学理论的飞跃尤其是量子力学的发展的影响,研究人员广泛地应用了当代科学的理论、技术和方法,在认识物质的组成、结构、合成和测试等方面都有了长足的进展,而且在理论方面取得了许多重要成果。

随着计算机硬件技术的发展和计算方法的突飞猛进,基于量子力学的计算模拟手段已经被广泛应用于化学、材料物理以及有关的其它学科在解释和预测材料结构、物理性质和化学行为中。

现在根据量子化学计算可以进行分子的合理设计,如药物设计、材料设计、物性预测等。

Kohn和Pople等人开创的密度泛函理论(Density Functional Theory, DFT)在过去的20年里得到了广泛的应用,包括固体物理、化学、生物等学科,都能看到密度泛函理论的影响。

与传统的量子力学方法不同的是密度泛函理论的基本变量是单粒子密度,通过体系的单粒子密度而不是波函数来描述体系基态的性质,如总能量等。

因此密度泛函理论降低了量子化学计算的计算量。

随着高性能计算技术的平民化浪潮以及并行软件逐渐普及,高性能计算已经成为上述领域中的除了理论和实验外的主要研究手段。

1.2. 曙光TC2600刀片服务器曙光高性能机群采用机群体系结构,由若干台高性能服务器(节点机)和高速互连网络连接到一起,通过作业调度系统形成单一系统映象的高性能计算机,并通过监控系统和一组机群管理软件对其进行有序管理。

曙光公司的服务器产品线非常丰富,通常机群中的节点机可以采用双路、四路,甚至高端的八路服务器选择,另外对于整体解决方案中,数据的前后处理也可以采用曙光图形工作站组成一个完整的曙光机群解决方案。

深圳超算HPC使用手册v3.2

深圳超算HPC使用手册v3.2

2
目录
目录......................................................................................................3 1. 基本环境........................................................................................ 5 2. 系统软件环境................................................................................ 7
分区名
GG 分区
GK 分区
FN 分区
YW 分区
节点数
960
640
128
520
CPU 型号
Intel5650
Intel5650
AMD 6136
Intel5650
CPU 核数
12
2.66GHz
2.66GHz
2.4GHz
2.66GHz
内存
24G
24G
128G
48G
IB 网络
20G
20G
20G
20G
本地硬盘
149G
149G
300G
149G
共享硬盘
256T
835T
256T
1800T
5
曙光 6000 超级计算主机系统的存储分为两种:每个计 算节点配备的本地磁盘和由存储节点建立的高速并行文件 系统。
其中本地硬盘不建议普通用户大量使用,仅供计算节点 操作系统使用(以及计算所需的临时文件),用户的所有操 作都应该在账号所对应的$HOME(该$HOME 所在的位置 为高速并行文件系统)下进行,用户登录时,会自动被引导 到自己账号的$HOME 下面。

超级计算机系统架构分析

超级计算机系统架构分析

参考资料O 天河一号 - 百科 O 天河一号 - 维基百科O 我国首台千万亿次超级计算机系统天河一
号研制成功 O TOP500 见证全球超级计算机十五年 O 勇闯天河 探秘“天河一号”超级计算机 O 超级计算机的多层架构抽象及描述
小组成员
O 唐
翰(PPT制作及资料查找) O 李宇龙(PPT制作及资料查找) O 黄宏愿(纲要制作及资料查找) O 杨锐晨(PPT讲解及资料查找)
系统架构
O 组织架构
O 理论基础架构
O 软件架构
组织架构
O 处理器(CPU),峰值速度达1206TFlops, 内存总容量为 98TB,Linpack实测性能为563.1TFlops。其计算量若由一台 微型计算机来执行大约连续计算160万年才能完成。“天河 一 号”是采用并行体系结构的超级计算机,采用的是AMD的 图形核心。其特殊之处在于多阵列、可配置、协同并行,实 现了“CPU+GPU”的异构协同计算,提 高了计算效能。 O “天河一号”超级计算机采用了多阵列、可配置、协同并行 体系结构,系统由计算阵列、加速阵列和服务阵列组成,其 中计算阵列、服务阵列分别由采用通用处理器 (CPU)的计算 节点机、服务节点机构成,加速阵列则由基于图形加速处理 器(GPU)的大量加速节点机构成,实现了“CPU+GPU”的异构 协同计算,提 高了计算效能。此外,“天河一号”采用了便 于维护和高密度的刀片式(Blade)结构,每个机位都有几十个 可热插拔的刀片,每个“刀片”实际上就相当于一 块计算机 主板,组成一台配置有处理器、内存等模块的节点计算机。
GPU计算卡
“天河一号A”占据了HPC TOP500的第一,那么它制胜 的关键是什么?那就是GPU部分采用了NVIDIA Tesla M2050/M2070计算模块解决方案,核心威力在于会 以二十分之一的功耗与十分之一的成本即可实现超级 计算能力,从而为部门集群与数据中心的部署提供 了 全球最高的计算密度。至于Tesla M2050与M2070计 算模块,它们是基于代号为“Fermi”的GPU核心,双精 度性能超过四核x86 CPU十倍。值得一提的是它拥有 ECC存储器,保证了数据的一致性。在进行GPU计算时, 所有的标准优势和最高可靠性都可以实现,无缝紧密 地集成了系统监 控与管理工具,其中包括各种各样的 架上型与刀片式系统。此外,这些系统还包含了用户 所需的远程监控与远程管理功能,从而可满足高性能 计算与大型数据中心以 及横向扩展等部署需求。

一.PBS脚本编写使用二.曙光Gridview作业调度中间件

一.PBS脚本编写使用二.曙光Gridview作业调度中间件
echo This jobs is $PBS_JOBID@$PBS_QUEUE cd $PBS_O_WORKDIR mpirun -np 16 -machinefile $PBS_NODEFILE ./vasp
PBS脚本举例(续1)
有时在PBS脚本中,需要对PBS环境变量的内容进行改造
比如,$PBS_NODEFILE,该文件内容格式为: node1 node1 node2 node2 对于一般MPI程序,可直接将 $PBS_NODEFILE 作为 MPI 的 ”-machinefile”参数,如上例所示
cd /tmp/$PBS_JOBID mpirun -np 16 -machinefile $PBS_NODEFILE $HOME/bin/vasp
cp -rf /tmp/$PBS_JOBID/* $PBS_O_WORKDIR/ for node in `cat $HOME/$PBS_JOBID.nodes` do ssh $node rm -rf /tmp/$PBS_JOBID done rm $HOME/$PBS_JOBID.nodes
qsub提交的作业的最初队列名称
qsub提交的作业的绝对路径 作业被PBS系统指定的作业号 用户指定的作业名,可以在作业提交的时候用qsub –N <作业名> 指定,或者在PBS脚本中加入#PBS –N <作业名>。 PBS系统指定的作业运行的节点名。该变量在并行机和机群中使 用。当在PBS脚本中用#PBS –l nodes=2:ppn=2指定程序运行的 节点数时,可以使用$PBS_NODEFILE在脚本中引用PBS系统 指定的作业运行的节点名。比如: #PBS –l nodes=2:ppn=2 mpirun –np 4 –machinefile $PBS_NODEFILE <程序名> PBS脚本在执行时的队列名

Gridview_2.6_安装手册

Gridview_2.6_安装手册

Gridview 2.6 安装手册声明本手册的用途在于帮助您正确地使用曙光软件产品(以下称“本产品”),在安装和第一次使用本产品前,请您务必先仔细阅读随机配送的所有资料,特别是本手册中所提及的注意事项。

这会有助于您更好和安全地使用本产品。

请妥善保管本手册,以便日后参阅本手册的描述并不代表对本产品版本和配置的任何说明。

有关本产品的实际版本和配置,请查阅相关协议、装箱单、产品规栺配置描述文件,或向产品的销售商咨询。

如您不正确地或未按本手册的指示和要求安装、使用或保管本产品,或让非曙光授权的技术人员修理、变更本产品,曙光将不对由此导致的损害承担任何责任。

本手册中所提供照片、图形、图和揑图,仅用于解释和说明目的,可能与实际产品有些差别,另外,产品实际规栺和配置可能会根据需要不时变更,因此与本手册内容有所不同。

请以实际产品为准。

本手册中所提及的非曙光网站信息,是为了方便起见而提供,此类网站中的信息不是曙光产品资料的一部分,也不是曙光服务的一部分,曙光对这些网站及信息的准确性和可用性不做任何保证。

使用此类网站带来的风险将由您自行承担。

本手册不用于表明曙光对其产品和服务做了任何保证,无论是明示的还是默示的,包括(但不限于)本手册中推荐使用产品的适用性、安全性、适销性和适合某特定用途的保证。

对本产品及相关服务的保证和保修承诺,应按可适用的协议或产品标准保修服务条款和条件执行。

在法律法规的最大允许范围内,曙光对于您的使用或不能使用本产品而发生的任何损害(包括,但不限于直接或间接的个人损害、商业利润的损失、业务中断、商业信息的遗失或任何其他损失),不负任何赔偿责任。

对于您在本产品之外使用本产品随机提供的软件,或在本产品上使用非随机软件或经曙光认证推荐使用的专用软件之外的其他软件,曙光对其可靠性不做任何保证。

曙光已经对本手册迚行了仔细的校勘和核对,但不能保证本手册完全没有任何错误和疏漏。

为更好地提供服务,曙光可能会对本手册中描述的产品之软件及本手册的内容随时迚行改迚和/或修改,恕不另行通知。

OpenPBS作业管理系统介绍

OpenPBS作业管理系统介绍

谢谢
当前任务状态
• 得到PBS的当前状态:qstat
当前节点状态
• pbsnodes - {a|l }] [ -s server ] -a 列出所有结点及其属性,属性包括“state” 和“properties” -c 清除结点列表中的“offline”或“down”状态 设置,使结点可以被分配给作业。 -l 以行的方式列出被标记的结点的状态 -o 将指定结点的状态标记为“offline”。这将 帮助管理员暂时停止某些结点的服务。 -r 清除指定结点的“offline”状态 -s 指定服务器
OpenPBS作业管理系统
曙光信息产业(北京)有限公司 技术支持中心 戴荣
提纲
• • • • • • OpenPBS作业管理系统简介 OpenPBS作业管理系统的安装与配置 OpenPBS作业脚本 OpenPBS常用命令 OpenPBS服务器管理 OpenPBS图形界列级的访问控制
• • • • s q qname acl_host_enable=true s q qname acl_hosts+=hostname.domain s q qname acl_user_enable=true s q qname acl_users+=user@hostname.domain • s q qname acl_group_enable=true • s q qname acl_groups=group_name,[…] 缺省为允许所有组
OpenPBS服务器管理
PBS服务器管理命令
设置服务器级的访问控制
• s s acl_host_enable=true 指明是否使用acl_hosts属性,缺省为 false • s s acl_hosts+=hostname.domain 缺省值允许所有的主机 • s s acl_user_enable=true • ss acl_users+=user@hostname.domain
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

任务管理系统的比较
管理实现级别 调度方式 管理层次 负载均衡方式 资源共享 服务质量Qos 机群一致性的层次 对用户权限、资源和作业的 高级管理策略 系统结构规模可扩展 对作业类型的限制 进程级 透明,基于最小负载 低级,仅根据局部信息 支持动态负载均衡 仅能够共享硬件资源 可能造成大作业饥饿,无Qos 入口不一致,仍为多机系统;可以提供 存储一致性 无法实现 如果规模过大,会遇到前述的O(㎡) 的通讯问题,难以扩展 如前述,不适合于系统调用较多的程序 (如I/O密集型) 作业级 可以基于网络拓扑/程序特性/负载/自 定义策略调度 高级,根据全局信息 支持静态负载均衡;如有checkpoint 功能,可支持动态负载均衡 可以共享硬件、软件和证书等资源 只要策略适当,可以保证Qos 提供单一系统入口和存储一致性 能够很好地实现 通讯量与系统规模成线形放缩,可以 很好的扩展 对程序类型无限制
任务管理系统的功能
• 单一系统映象
– 机群松散的结构的整合
• 系统资源整合
– 异构系统的整合
• 多用户的管理
– 用户提交的任务的统一安排,避免冲突
• 用户权限的管理
– 非授权用户的控制
任务管理系统的简史
任务管理系统的分类
• 基于进程级别的调度
– 由机群中的操作系统或者运行时Runtime内部支持,对运行的 作业进行监控;以实现机群内的透明调度、以及自动优化进 程的分配和平衡负载
• 系统启动脚本 /etc/init.d/openpbs • Server的系统启动脚本 /etc/init.d/pbs_server • Scheduler系统启动脚本 /etc/init.d/pbs_sched • Mom系统启动脚本 /etc/init.d/pbs_mom
Server端设置 Server端设置
服务进程配置和启动文件
• 系统配置文件/etc/pbs.conf
#!/bin/sh pbs_home=/var/spool/pbs 指定系统的pbs的设置的目录位置 pbs_exec=/usr/local 指定pbs可执行程序的目录位置 start_server=1 start_sched=1 当为1是表示守护进程启动,0为守护进程不启动 start_mom=1
• 编译安装
[root@node1 /public/OpenPBS_2.3.16]# make [root@node1 /public/OpenPBS_2.3.16]# make install
PBS在机群上安装 PBS在机群上安装
由于节点系统相同,因而可以用如下SHELL script在 node2~node8上安装; #!/bin/bash for i in `seq 2 8` do echo “node$i ---------------------------------“ rsh node$i “cd /public/openpbs; make install” echo “------------------------------------------“ echo “” done
qmgr命令(管理员使用) qmgr命令(管理员使用) 命令
• 输入qmgr进入交互式模式后即可输入各种命令
(,属性 动作 对象类型 对象名 属性 操作符 值(,属性 操作符 值)……
• qmgr动作:
create set print 创建一个对象 设置对象的属性 打印对象的属性 delete unset list 删除一个对象 除去对象的属性 列出对象的属性
内 容
• • • • 任务管理系统概述 作业调度系统 PBS作业调度系统 作业调度系统的使用
作业管理的组成
• 资源管理器:管理集群的硬件资源及认 证信息等 • 队列管理器:管理当前所有已提交但还 未完成的作业 • 调度器:为作业分配资源
作业管理系统的结构
作业特性比较
系统特性 支持异构平台 用户操作接口 支持DRMAA 支持POSIX批处 理API标准 源代码开放 用户文档支持 支持批处理作业 支持交互式作业 支持海量作业组 支持并行作业 支持PVM/MPI SGE Unix & NT,多 硬件 API/GUI/CLI/W EB,管理复杂 支持 支持 开放 非常详细 支持 支持 支持 支持 支持,功能强 LSF Unix & NT,多 硬件 API/GUI/CLI/W EB,管理方便 不支持 不支持 不开放 非常详细 支持 支持 支持 支持 OPEN PBS 仅Unix ,多硬件 PBS PRO 仅Unix ,多硬 件 API/GUI/CLI,功 API/GUI/CLI/W 能少 EB ,管理方便 支持 支持 开放 较简单 支持 不支持 不支持 支持 支持 支持 付费后开放 详细 支持 支持 支持 支持 支持,功能强
PBS的技术特色 PBS的技术特色
• 力求控制对批处理的初始化和调度执行,允许作业在不同主机间 对批处理的初始化和调度执行, 对批处理的初始化和调度执行 在不同主机间 的路由。 的路由。 • 独立的调度模块 独立的调度模块存有各个可用的排队作业、运行作业和系统资源 使用信息,并且允许系统管理员定义资源和每个作业可使用的数 量。 。 • 在作业调度策略上,PBS提供了默认的公平共享和独占 公平共享和独占FIFO调度 公平共享和独占 调度 策略, 策略,还提供了TCL、BACL、C三种过程语言和调度类,与定义 了一些调度需要的函数和完整的API,方便实现新的调度策略。 实现新的调度策略。 实现新的调度策略 • 提供文件传送,File Stage-in 和Stage-out。 , 。 • 满足POSIX1003.2d 标准,支持作业依赖,和完整的安全认证。 作业依赖, 安全认证。 , 作业依赖 安全认证 • 提供用户映射 用户映射功能,使PBS 能用于用户不一致的系统中。 用户映射 。
术 语
• 节点(node) 一个单一的操作系统映像,一个统一的虚拟内存映像一个个或多 个cpu,一个或多个IP地址的计算机系统被称之为一个节点。通常 执行主机(execution host)也被称之为节点。 • 节点属性 队列、服务器和节点都有与自己相关的属性,这些属性提供控制 信息。与节点相关的属性有:状态、类型、虚拟处理器的个数、 作业列表(本节点被分配给的作业)以及节点的特性。…… • 节点特性 为了提供一组节点的分配的方法,零个或者多个特性被赋给每个 节点。这个特性不过是一串对于PBS没有含义的字母和数字的组 合(第一个字符必须是字母)。
PBS的结构 PBS的结构
PBS 的组成
• • • • 服务器:pbs_server 调度器:pbs_sched 执行器:pbs_mom 命令行:用户脚本,管理命令等
PBS 的基本原理
PBS 的优缺点
• • • • • • • • 支持系统级检查点功能(需底层操作系统支持) 很好的大规模扩展性 独立的调度模块** 支持作业依赖 符合POSIX 1003.2d 标准 -只支持Unix类操作系统 -多集群协作功能有限 -不支持用户级检查点功能
• 对象类型和操作符
server queue node 服务器 队列 节点 = += -=
PBS队列设置 PBS队列设置
• 导入server配置文件: [root@node1 root]# qmgr < queue.conf • 输出配置文件: [root@node1 root]# qmgr –c “print server” > queue.conf • 配置文件例子:
on unprivileged port
on privileged port long time tover端的动态设置
• PBS要能正常运行还需要通过qmgr命令的server进行配 置,设置一些属性。输入qmgr命令进入配置交互命令。 下面是让PBS可以正常运行的一些步骤。
创建队列 打开和启动队列 打开调度 设置默认队列 create queue 队列名 queue_type = Excuttion set queue 队列名 enable=t, started=t set server scheduling=t default_queue=队列名 set server default_queue=队列名
mom端设置 mom端设置
• mom配置目录: /var/spool/pbs/mom_priv/ • mom配置文件: /var/spool/pbs/mom_priv/config
# MOM server configuration file # if more than one value, separate it by ## rule is defined by the name $ideal_load 1.5 $max_load 2 ## host allowed to connect to Mom server $restricted *. ## log event : # 0x1ff log all events + debug events # 0x0ff just all events $logevent 0x0ff ## host allowed to connect to mom server $clienthost node1 ## alarm if the script hang or take very $prologalarm 30 comma.
PBS 安装
• 解压源文件包
[root@node1 /public]# tar -zxvf openpbs-2.3.16.tar.gz
• 编译设置
[root@node1 /public/OpenPBS_2.3.16]#./configure --enable-gui -set-server_home=/var/spool/pbs --enable-docs --xlibraries=/usr/X11R6/lib64 其中,--x-libraries=/usr/X11R6/lib64是在X86_64 (AMD64或 EM64T)上安装时,需要指明系统64位库的位置。
相关文档
最新文档