高性能计算集群(PC Cluster)用户指南
某高校高性能集群部署文档
某高校高性能计算集群部署文档(瘦节点部分)2012年11月25日目录1.文档更新历史........................................................................................................ 错误!未定义书签。
2.集群概览 (5)3.准备工作 (5)3.1.对所有节点的内置硬盘建立RAID (5)3.2.收集物理信息 (6)4.部署管理节点操作系统 (6)4.1.安装操作系统 (6)4.2.系统安装完之后配置 (7)5.安装配置Platform HPC集群管理软件 (8)5.1.安装包准备 (8)5.2.执行安装程序 (8)5.3.安装过程中的操作 (8)6.使用Platform HPC做操作系统分发 (9)6.1.配置网络接口 (9)6.2.为刀片机HS22操作系统分发 (12)6.3.对刀片组HS12操作系统分发 (16)6.4.对IO节点做系统分发 (20)6.5.对Login节点做系统分发 (23)7.使用Platform HPC维护操作系统分发 (26)7.1.移除已经部署的操作系统 (26)7.2.重新部署操作系统 (26)7.3.部署新的机器 (27)7.4.维护部署模板内容 (28)8.GPFS配置方法 ...................................................................................................... 错误!未定义书签。
8.1.XIV近线存储划分 ..................................................................................... 错误!未定义书签。
8.2.XIV存储驱动安装 ..................................................................................... 错误!未定义书签。
并行超算云服务 简明使用手册说明书
并行®超算云服务简明使用手册(2019夏季版)北京并行科技股份有限公司目录1并行®超算云服务简介 (1)2并行®超算云服务登陆超算 (3)2.1内部集成的webssh (3)2.2第三方登录软件 (3)3并行®超算云服务文件传输 (6)3.1WinSCP (6)3.2并行快传 (8)4并行®超算云服务作业提交 (11)4.1命令行提交作业 (11)4.2集成界面提交作业 (11)4.3一些商业软件作业提交 (12)4.4可视化功能 (13)5并行®超算云服务计费中心 (15)6并行®超算云服务其他功能 (16)6.1配置 (16)6.2关于 (16)6.3注销 (16)6.4显示桌面 (16)6.5联系客服 (16)6.6关注超算动态 (17)7.并行®超算云服务常见问题 (19)1并行®超算云服务简介并行®超算云服务是使用最新HTML5技术开发的新一代超算用户使用界面,可以直通国内各大超算以及自己的私有云系统,具有高速稳定的链路,开通快、登陆快、操作快、传输快、计算快、分析快等特点,无需使用VPN,一键点击登陆超算,给用户使用超算资源提供良好的体验。
温馨提示:点击链接https:///下载安装客户端通过联系销售获得并行账号(登录并行®超算云服务的账号)和超算账号,之后我们会将您的并行账号和密码、超算账号以及可以使用的队列分区以邮件方式发送给您。
按照后面小节提供的方法即可方便快捷使用超算资源。
一般用户登陆并行®超算云服务后,默认已经绑定可以使用的超算账号;如果您的账号没有绑定对应的超算账号,您及时在专属微信群联系我们进行绑定处理。
如果有不需要的超算账号需要解绑,可以按照以下方法进行操作:点击账号管理图标,点击相应账号右边的×号(下图红框所示)即可解绑。
图1-1解绑超算账号流程图2并行®超算云服务登陆超算并行®超算云服务提供多种登陆超算的方法,包括内部集成的webssh和第三方登录软件:Putty、Xshell、secureCRT。
高性能计算集群(HPC_CLUSTER)
高性能计算集群(HPC CLUSTER)1.1什么是高性能计算集群?简单的说,高性能计算(High-Performance Computing)是计算机科学的一个分支,它致力于开发超级计算机,研究并行算法和开发相关软件。
高性能集群主要用于处理复杂的计算问题,应用在需要大规模科学计算的环境中,如天气预报、石油勘探与油藏模拟、分子模拟、基因测序等。
高性能集群上运行的应用程序一般使用并行算法,把一个大的普通问题根据一定的规则分为许多小的子问题,在集群内的不同节点上进行计算,而这些小问题的处理结果,经过处理可合并为原问题的最终结果。
由于这些小问题的计算一般是可以并行完成的,从而可以缩短问题的处理时间。
高性能集群在计算过程中,各节点是协同工作的,它们分别处理大问题的一部分,并在处理中根据需要进行数据交换,各节点的处理结果都是最终结果的一部分。
高性能集群的处理能力与集群的规模成正比,是集群内各节点处理能力之和,但这种集群一般没有高可用性。
1.2 高性能计算分类·高性能计算的分类方法很多。
这里从并行任务间的关系角度来对高性能计算分类。
1.2.1 高吞吐计算(High-throughput Computing)有一类高性能计算,可以把它分成若干可以并行的子任务,而且各个子任务彼此间没有什么关联。
因为这种类型应用的一个共同特征是在海量数据上搜索某些特定模式,所以把这类计算称为高吞吐计算。
所谓的Internet计算都属于这一类。
按照Flynn的分类,高吞吐计算属于SIMD(Single Instruction/Multiple Data,单指令流-多数据流)的范畴。
1.2.2 分布计算(Distributed Computing)另一类计算刚好和高吞吐计算相反,它们虽然可以给分成若干并行的子任务,但是子任务间联系很紧密,需要大量的数据交换。
按照Flynn的分类,分布式的高性能计算属于MIMD(Multiple Instruction/Multiple Data,多指令流-多数据流)的范畴。
山西省超算中心用户使用手册
图 1.1.1 运行 SSH Secure Shell Client 的界面
2、按 Enter 键或者点击菜单栏中的 如下窗口:
按钮,如图 1.1.1 所示。弹出
1
图 1.1.2 连接集群系统窗口
3、依次输入 Host Name(本中心集群系统的 IP 地址,即 183.175.153.10) 、合法的 User Name(需要用户在线注册或直接到本中心申请)以及 Port(22) ,如下图 1.1.3 所示。
1.3 Gridview Web 登录
用户也可以通过 WEB 方式登入 GridView 集群管理系统,对集群进行管理、监控、配 置和使用等操作。 1、在 WEB 浏览器的地址栏中输入 URL,即可出现登录界面,如图 1.3.1 所示: http://183.175.153.10:6080/gridview_portal
2
1 集群系统登录
登录集群系统的 IP 地址为:183.175.153.10,用户可以通过以下几种方式登录集群 系统(示例均为使用本 IP 的实例)。
1.1 命令行终端登录
Windows 用户可以用 SSH Secure Shell Client,PuTTY,SecureCRT 等 SSH 客户端软件 登录。推荐使用 SSH Secure Shell Client,它集成了 SFTP 文件上传下载的功能。下面就以 SSH Secure Shell Client 为例详细介绍登录过程。 1、 运行 SSH Secure Shell Client 程序,打开出现如下界面:
图 1.1.3 登录窗口
2
4、如图 1.1.3 所示,点击 Connect 按钮后,进入界面 1.1.4。
图 1.1.4 输入密码提示框
高性能计算集群的配置与使用教程
高性能计算集群的配置与使用教程高性能计算(High Performance Computing,HPC)集群是一种强大的计算工具,能够处理大规模的数据和执行复杂的计算任务。
本文将介绍高性能计算集群的配置和使用方法,并为您提供详细的教程。
1. 配置高性能计算集群配置高性能计算集群需要以下几个步骤:1.1 硬件要求选择适合的硬件设备是配置高性能计算集群的第一步。
您需要选择性能强大的服务器,并确保服务器之间能够互相通信。
此外,还需要大容量的存储设备来存储数据和计算结果。
1.2 操作系统安装选择合适的操作系统安装在每个服务器上。
常用的操作系统有Linux和Windows Server,其中Linux被广泛使用于高性能计算集群。
安装操作系统后,您还需要配置网络设置、安装必要的软件和驱动程序。
1.3 服务器网络连接为了保证高性能计算集群的正常工作,需要配置服务器之间的网络连接。
您可以选择以太网、光纤等网络连接方式,并确保每个服务器都能够互相访问。
1.4 集群管理软件安装为了方便管理和控制高性能计算集群,您需要安装相应的集群管理软件。
常用的集群管理软件有Hadoop、Slurm和PBS等。
这些软件可以帮助您管理任务队列、分配资源和监控集群的运行状态。
2. 使用高性能计算集群配置完高性能计算集群后,您可以开始使用它进行计算任务。
以下是使用高性能计算集群的一般步骤:2.1 编写并提交任务首先,您需要编写计算任务的代码。
根据您的需求,可以选择编写Shell脚本、Python脚本或其他编程语言的代码。
编写完毕后,您需要将任务提交到集群管理软件中。
2.2 监控任务状态一旦任务提交成功,您可以使用集群管理软件提供的监控功能来跟踪任务的状态。
您可以查看任务的进度、资源使用情况和错误信息等。
2.3 调整任务与资源如果您发现任务需要更多的计算资源或运行时间,您可以根据需要调整任务的资源配置。
集群管理软件通常提供了资源调整的功能,您可以根据任务的实际情况进行调整。
浪潮ClusterEngine集群服务平台用户使用手册
浪潮ClusterEngine集群服务平台用户使用手册浪潮(北京)电子信息产业有限公司-1-尊敬的用户:衷心感谢您选用了浪潮ClusterEngine 集群管理平台!本手册介绍了ClusterEngine 集群管理平台的运行环境、实现功能和使用方法,可使使用者更好地了解本软件的各种特性,充分的发挥本软件的作用。
浪潮(北京)电子信息产业有限公司拥有本手册的版权。
本手册中的内容如有变动恕不另行通知。
如果您对本手册有疑问或建议,请向浪潮(北京)电子信息产业有限公司垂询。
浪潮(北京)电子信息产业有限公司二零一二年十二月目录第1章整体介绍 (4)1.1软件介绍 (4)1.2系统拓扑图 (6)1.3系统要求 (7)第2章ClusterEngine 主界面介绍 (8)第3章作业提交模块 (8)3.1脚本作业提交 (9)3.2模板提交 (11)第4章作业管理模块 (12)第5章Checkpoint管理模块 (17)第6章应用管理模块 (17)6.1VASP作业模块 (17)6.2Fluent作业 (28)6.3Atom作业 (31)第7章监控模块 (38)7.1动态信息 (38)7.2实况信息 (39)7.3历史信息 (43)7.4节点监控 (44)第8章监控面板模块 (54)第9章报警面板模块 (54)第10章管理工具模块 (54)10.1集群Shell (54)10.2远程桌面 (57)第11章文件管理模块 (59)第12章用户管理模块 (64)第13章报表统计模块 (64)13.1缴费管理 (64)13.2记账配置 (67)13.3记账统计 (69)第14章配置中心模块 (71)第15章大屏幕监控模块 (71)-3-第1章整体介绍1.1软件介绍浪潮ClusterEngine 集群管理平台是专为浪潮天梭系列 HPC 产品定制的一款作业管理软件,该软件采用B/S架构,通过浏览器(IE,firefox等)进行操作,可以管理集群系统中的软硬件资源和用户提交的作业,根据集群中的资源使用情况来合理的调度用户提交的作业,从而达到提高资源的利用率和作业的执行效率的作用。
HPC高性能计算集群实施指导手册
HPC高性能计算集群实施指导手册目录1、基本系统参数设置.........................................................................................................- 1 -1.1、ulimit系统进程资源限制 ...................................................................................- 1 -1.2、关闭selinux服务 ................................................................................................- 1 -1.3、配置本地yum源.................................................................................................- 1 -2、NIS服务配置 ..................................................................................................................- 2 -2.1、NIS服务器端的配置 ...........................................................................................- 2 -2.2、NIS客户端的配置管理 .......................................................................................- 4 -2.3、NIS客户端的属性设置 .......................................................................................- 6 -3、NFS配置 .........................................................................................................................- 8 -3.1、NFS软件包安装 ..................................................................................................- 8 -3.2、编辑NFS服务器配置文件..................................................................................- 8 -3.3、启动服务..............................................................................................................- 8 -3.4、在客户端中挂载NFS服务器中的共享目录......................................................- 9 -4、配置Kdump服务 ...........................................................................................................- 9 -4.1、Kdump安装 .........................................................................................................- 9 -4.2、Kdump配置 ...................................................................................................... - 10 -4.3、安装分析转存储文件所需的rpm包 .............................................................. - 11 -5、配置Rsyslog服务........................................................................................................ - 11 -5.1 服务端配置......................................................................................................... - 11 -5.2、客户端配置....................................................................................................... - 12 -5.3、日志轮询服务logrotate................................................................................... - 13 -1、基本系统参数设置1.1、ulimit系统进程资源限制修改/etc/security/limits.conf文件,添加如下内容:* soft memlock unlimited* hard memlock unlimited* soft stack unlimited* hard stack unlimited1.2、关闭selinux服务运行如下命令修改/etc/selinux/config文件,关闭selinuxsed -i s/=enable/=disabled/g /etc/selinux/configsed -i s/=enforcing/=disabled/g /etc/selinux/config可以使用以下命令查看selinux服务状态sestatus1.3、配置本地yum源上传对应操作系统的ISO文件到/public/sourecode目录将操作系统ISO文件挂载到/mnt目录mount –t iso9660 –o loop /public/sourcecode/xxx.iso /mnt创建/public/sourcecode/yum目录,并将安装盘内容拷贝到这个目录cp –rp /mnt/Packages/* /public/sourcecode/yum创建yum源配置文件/etc/yum.repo.d/Local.repo,内容如下:生成yum本地缓存,命令如下:yum makecache2、NIS服务配置2.1、NIS服务器端的配置NIS软件包安装查看系统中是否已经安装下列三个软件:ypserv NIS服务器软件, 一般默认是不安装的,需要安装yp-tools 提供对NIS服务器的查询和管理软件ypbind NIS客户端需要使用软件包rpm –qa | grep ^yp安装ypserv前需要利用rpm –qa | grep portmap 命令(6.0之后的版本使用rpcbind)确认portmap(rpcbind)已经安装。
clusconf-1.5.1用户手册
1. 测试全网是否完全通过 (--test-net|-tn) 2. 显示集群信息 (--sys-info|-si) 3. 显示整个集群的 cpu 负载(负载大于 5%的进程) (--disp-cpu|-dc) 4. 同步整个集群的用户 (--sync-user|-yu) 5. 添加一个用户到整个集群 (--useradd|--adduser|-au|-ua username) 6. 删除一个用户到整个集群 (--deluser|--uerdel|-du|-ud username) 7. 同步整个集群的时间 (--sync-time|-yt)
8. 同步整个集群的某个文件 (--sync-file|-yf file|files|path|paths) 9. 在整个集群上执行相同的命令 (--sync-do|-yd command)
2.3 IPMI 配置及管理功能
1. 配置 ipmi IP 地址(--set-ipmi|-si) 2. 显示 ipmi 的 IP 地址及显示电源状态(--ipmi-info|-ii) 3. IPMI 远程开机(--ipmi-poweron|-in) 4. IPMI 远程关机(--ipmi-poweroff|-if) 5. IPMI 远程智能开机,可根据集群的角色自动规划开机顺序(--ipmi-ipoweron|-iin) 6. IPMI 远程智能关机,可根据集群的角色自动规划开机顺序(--ipmi-ipoweroff|-iif)
4.3配置 nfs.cfg 文件
如果需要给集群配置 nfs,使用(--set-nfs) 或一键配置集群(--set-all)中调用配置 nfs 的功 能(详情查看 5.2),需要编辑<installdir>/etc/nfs.cfg 文件,默认为/opt /clusconf/etc/nfs.cfg,配置 如下:
HPC高性能计算系列二之联想Intellegent+Cluster解决方案
14% - 16%
19% - 21%
调试 到投产
集成,配置和测试 上架, 线缆连接,网络连接 软件 集成,配置和应用测试 集成配置和测试中间件 应用部署和安装
45% 45% 29%
Implement
Configure/test
74 – 93
74 – 80
12%
10% - 11%
Cluster & HA
Intel Xeon Phi
nVIDIA
Mellanox Infiniband
NeXtScale
x86 平台
7
iDataPlex dx360 M4 System x3550/x3650
FlexSystem X3750 M4/x3850
Intelligent Cluster 大大降低HPC项目的风险
Intelligent Cluster具有更好的用户体验 ---- 降低销售风险和售后服务费用,提升服务质量 1. 在投标前,系统配置及方案经过专家验证,确保方案可行; 2. 在交付用户前,整机系统经过严格的测试,避免到达用户现场后出现更换故障部件的情况,有利于增 强System x产品高质量形象; 3. 由中国本地工厂服务团队提供的专业上架及布线服务,确保系统具有良好整洁的外观,提升用户体验 (见下图); 4. 整机系统到达用户现场后可以直接加电,仅需要少量甚至不需要集成商参与,可以减少系统实施所产 生的外部费用; 5. 集群系统部署及辅助用户业务安装的工作基本可以远程实现,不需要或短时间在用户现场工作,从而 降低LBS或GTS的内部实施费用
Customer Benefits
LENOVO Intelligent Cluster
$ €¥£
帮助您的应用快速上线
生物信息学高性能计算系统使用介绍
13
What is Cluster(集群)?
多台计算机通过高速网络连成一个并行计算系统
System1 CPUs
System2 CPUs
System3 CPUs
Memory Bus
... Chipset Memory
I/O Bus
Memory Bus
Memory Bus
... Chipset Memory
各计算节点的公共目录 /disk1 和 /disk2,容量均为8T
2021/4/10
26
平台的任务管理系统 SGE
任务管理系统:自动分配计算资源来运行用户的计算任务
Sun Grid Engine (SGE) LSF OpenPBS
本平台安装的是SGE 用户在进行生物信息学计算之前,需要编写SGE计算脚本 文件,通过提交脚本文件来使用计算资源。
万兆网络交换机
数据库系统 高性能服务器
高性能计算系统
刀片式服务器集 群(Cluster)
存储系统 磁盘存储阵列
12
生物信息学平台硬件与软件系统
Our Platform
Hardware
浪潮天梭高性 能服务器集群 (cluster)
Software
Linux系统: • Rocks cluster • CentOS • RedHat AS 4
5
专家、教授、研究人员
专家教授
胡福泉 易东 饶贤才 谭银玲 许雪青
主要负责人、教学与研究人员
邹凌云 倪青山 朱军民 伍亚舟
6
生物信息中心情况简介 生物信息学平台的构建 数据库检索系统的使用 高性能计算系统的使用 生物信息学分析实例 Q&A
BIC TMMU 2021/4/10
高性能计算集群
⾼性能计算集群,英⽂原⽂为High Performance Computing Cluster,简称HPC Cluster,是指以提⾼科学计算能⼒为⽬的计算机集群技术。
HPC Cluster是⼀种并⾏计算(Parallel Processing)集群的实现⽅法。
并⾏计算是指将⼀个应⽤程序分割成多块可以并⾏执⾏的部分并指定到多个处理器上执⾏的⽅法。
⽬前的很多计算机系统可以⽀持SMP(对称多处理器)架构并通过进程调度机制进⾏并⾏处理,但是SMP技术的可扩展性是⼗分有限的,⽐如在⽬前的Intel架构上最多只可以扩展到8颗CPU。
为了满⾜哪些"计算能⼒饥渴"的科学计算任务,并⾏计算集群的⽅法被引⼊到计算机界。
著名的"深蓝"计算机就是并⾏计算集群的⼀种实现。
由于在某些廉价⽽通⽤的计算平台(如Intel+Linux)上运⾏并⾏计算集群可以提供极佳的性能价格⽐,所以近年来这种越来越受到⽤户的青睐。
⽐如壳牌⽯油(Shell)所使⽤的由IBM xSeries组成的1024节点的Linux HPC Cluster是⽬前世界上计算能⼒最强的计算机之⼀。
HPC Cluster向⽤户提供⼀个单⼀计算机的界⾯。
前置计算机负责与⽤户交互,并在接受⽤户提交的计算任务后通过调度器(Scheduler)程序将任务分配给各个计算节点执⾏;运⾏结束后通过前置计算机将结果返回给⽤户。
程序运⾏过程中的进程间通信(IPC)通过专⽤进⾏。
HPC Cluster中使⽤的服务器通常可以分为⽤户节点、节点、存贮节点和计算节点四种。
它们的⾓⾊分别是: ⽤户节点: 提供⽤户界⾯的计算机。
它从⽤户那⾥接受任务,运⾏调度器(在本地或独⽴的"控制节点"上)将任务分派到其它计算机,并将运算结果返回给⽤户。
管理节点: 提供管理功能的计算机。
它应该能够使管理员从这⼀计算机对集群中的任意⼀台计算机进⾏监视和操作,并处理集群中所有计算机的⽇志和报警信息。
HPC解决方案服务 用户指南
HPC解决方案服务用户指南发布日期2021-03-29目录1 产品介绍 (1)1.1 什么是HPC-S² (1)1.2 HPC-S²应用场景与使用限制 (3)1.3 HPC-S²与其他服务的关系 (3)2 快速入门 (5)2.1 概述 (5)2.2 方法一:购买高性能计算解决方案 (6)2.3 方法二:使用已有节点部署HPC集群 (10)3 用户指南 (13)3.1 查看部署进度 (13)3.1.1 查看集群创建进度 (13)3.1.2 查看已有节点部署集群的进度 (13)3.1.3 查看集群扩容的进度 (14)3.1.4 查看集群缩容的进度 (14)3.2 查看HPC集群 (14)3.2.1 查看集群详情页面 (14)3.2.2 查看集群的节点信息 (15)3.2.3 管理集群的共享存储信息 (15)3.3 集群管理 (15)3.3.1 集群扩容 (15)3.3.2 停止集群 (17)3.3.3 启动集群 (18)3.3.4 删除集群 (18)3.4 节点管理 (19)3.4.1 停止节点 (19)3.4.2 启动节点 (19)3.4.3 重启节点 (20)3.4.4 节点删除 (20)3.5 共享存储 (21)3.5.1 管理共享存储 (21)4 常见问题 (23)4.1 为什么集群被删除后还在计费? (23)4.2 在部署/创建集群过程中出现某个节点未加入集群或者不存在需要怎么办? (23)4.3 集群云服务器节点创建完成,但在部署过程中失败了能否修复? (23)4.4 集群创建任务提交失败,提示“Insufficient EIP quota”怎么办? (24)4.5 集群创建提交失败,提示集群配额不足怎么办? (24)4.6 集群的管理节点为运行状态,但是集群异常提示“master node cannot reached”怎么办? (24)5 修订记录 (25)1产品介绍1.1 什么是HPC-S²HPC解决方案服务高性能计算(High-performance computing,简称HPC)是一个计算机集群系统,通过管理节点对计算任务进行分解,交给不同的计算节点进行计算,以此来解决大型计算问题。
高性能计算集群部署与维护指南
高性能计算集群部署与维护指南部署和维护高性能计算集群是一个关键且复杂的任务。
高性能计算集群不仅需要具备足够的计算能力,还需要具备可靠的硬件和软件基础设施,以及一些必要的管理和维护方法。
本文将为您提供一个高性能计算集群的部署和维护指南,帮助您顺利完成这项任务。
1. 计划和设计:在部署高性能计算集群之前,首先需要进行充分的计划和设计。
这包括确定计算集群的规模和配置要求,选择适当的硬件和软件解决方案,以及规划网络和存储等基础设施。
同时,还需要考虑集群的可扩展性和故障恢复能力,以及对能源消耗和性能优化的要求。
2. 硬件选型和采购:选择合适的硬件是部署高性能计算集群的关键一步。
根据集群规模和配置要求,选购高性能计算节点、网络设备、存储设备等。
确保硬件能够满足计算需求,并具备良好的可靠性和扩展性。
另外,注意与供应商的合作,确保供货和售后服务。
3. 软件部署和配置:选择合适的软件解决方案是高性能计算集群的另一个关键因素。
根据需要,选择适合的操作系统、分布式文件系统、队列调度系统等。
同时,进行正确的软件配置和优化,以提高计算性能和资源利用效率。
确保软件的兼容性和稳定性,并及时更新和升级。
4. 网络和存储配置:高性能计算集群的网络和存储配置对计算性能有重要影响。
配置高带宽、低延迟的网络设备,确保节点间的快速通信和数据传输。
同时,选择适当的存储设备和存储系统,以满足集群的存储需求,并优化数据访问和传输。
合理规划网络拓扑和存储架构,以提高整体性能和可靠性。
5. 安全和访问控制:高性能计算集群的安全非常重要。
采取必要的安全措施,防止未经授权的访问和数据泄露。
建立适当的访问控制和用户身份认证机制,确保集群只能被授权的用户访问。
同时,定期进行安全审计和漏洞修复,保持集群的安全性和稳定性。
6. 监控和故障诊断:建立有效的监控和故障诊断系统,可以帮助及时发现和解决集群的问题。
监控各个节点的运行状态和资源利用情况,及时发现故障和瓶颈。
高性能计算集群的使用方法及性能调优
高性能计算集群的使用方法及性能调优高性能计算集群是一种用于处理大规模计算任务的分布式计算环境。
它能够利用多台计算机的计算资源来达到高性能计算的目的。
对于需要进行大规模数据处理、复杂模拟与计算的任务,如天气预测、基因序列分析等,使用高性能计算集群可以显著提升计算效率。
本文将介绍高性能计算集群的使用方法以及性能调优的一些技巧,帮助用户充分利用集群资源,提高计算效率。
一、高性能计算集群的使用方法1.选择合适的集群:在选择使用高性能计算集群之前,需要根据自己的任务需求和预算来选择合适的集群。
可以考虑集群的硬件配置、网络带宽、存储容量等因素,以及集群提供的服务支持。
2.提交任务:在使用高性能计算集群之前,需要准备好需要计算的任务。
一般来说,任务会被拆分为多个小的计算单元,每个计算单元可以在集群中的不同节点上运行。
可以使用集群提供的作业调度系统来提交任务。
3.编写任务脚本:在提交任务之前,需要编写一个任务脚本。
这个脚本可以用来描述任务的运行环境、所需资源以及运行的流程。
脚本可以使用编程语言或者脚本语言编写,提供了一个自动化的方式来管理和运行任务。
4.调试和优化:在提交任务之后,可以通过监控任务的运行状态来进行调试和优化。
可以根据任务的运行日志来分析任务的瓶颈,找出性能瓶颈并进行优化。
5.结果分析:在任务完成之后,需要对结果进行分析。
可以使用数据分析工具来处理和可视化结果,以便更好地理解和解释结果。
二、高性能计算集群的性能调优1.任务并行化:高性能计算集群通常有多个计算节点,可以将任务拆分为多个子任务,并将这些子任务分配到不同的计算节点上并行运行。
通过合理划分任务,可以充分利用集群的计算资源,提高计算效率。
2.数据分区与通信优化:针对需要处理大规模数据的任务,在划分任务的同时,还需要考虑数据的分布和通信的开销。
可以将数据分布在集群的不同节点上,以减少数据传输的开销。
同时,可以选择合适的通信模式和算法来减少通信的延迟和带宽占用。
Veritas Cluster Server入门手册
一、VCS 入门基本知识
VCS 全称 VERITAS Cluster Server,顾名思义,就是 起到集群管 理的功能。 Symantec 的 VCS 集成在 SFHA 产品中,当然也可以单独购买 VCS,主要是一个 HA 的角 色。
VCS 是一个商用的企业级软件解决方案,它可提供全面的可用性管理,把计划的 和非计划的停机时间降到最低。该产品能满足发展的但严格的世界电子商务模式所要 求的正常工作时间。电子商务需要增加不停机时间以保证为顾客进行各种服务;不管 哪种企业,多大规模,VERITAS Cluster Server (VCS)都能为他们的“无间断商务” 发挥重要作用。
3
2、VCS 基本概念
要搞懂 VCS,需要对下列这些基本概念搞清楚: (1)Cluser:就是集群,一个集群就是一群机器来共享同一组硬件存储设备,VCS 监 控这所有机器上运行的程序,出现任何问题,就将它在另一台机器上运行。一个集群 是通过同一个 cluster-ID 来识别的。这一组机器通过各种心跳线来保持通讯。 (2)Resources and resource types,资源包括硬件和软件资源,例如硬盘,网卡, 数据库,IP 地址,程序等等各种概念,这些都可以被 VCS 控制,状态基本就是两 种:ONLINE 和 OFFLINE。VCS 的作用就是监控这些资源。资源的概念是逻辑的,例如, 可以将 IP 地址和网卡设成一个资源。 (3)Agents 针对各种资源,可以开发各种 Agent,VCS 就是通过 Agent 来控制各种资 源,例如导入数据库,启动等等各种操作。有个朋友说过一句”Agent 的成熟度决定 了一个产品的成熟度”,呵呵,很有道理啊 (4)Resource Dependencies ,任何东西都有依赖性,何况资源阿,例如启动一个 web 服务资源,应该先把网卡和 IP 启动吧,如果网卡资源有问题,这台机器上所有的资 源产不多都应高 FAILOVER 了,这就是依赖性。 (5)Heartbeat 心跳,主流的保持集群同步的方式,就看大家谁做的好了。VERITAS 整 个通讯基本都是自己写的,主要包括 LLT(LOW Latency Thansport)和 GAB (Group Membership and Atomic Broadcast)。LLT 依赖于 MAC 地址实现稳定的底层协议,GAB 基于 LLT,实现 VCS 资源的同步。关于 LLT 和 GAB 有很多内容,这里就不叙述了。 (6)Splitbrian 恩,如果一个集群由于网络原因被分成了 2 个和多个部分,资源该在 哪些机器上启动呢,这个问题涉及内容很多,以后再讨论。
超算集群pbs使用指南
PBS用户指南1、PBS队列介绍目前部署在超算集群上有六个队列,队列名称分别是batch、old、oldfat、fat、newfat、gpu。
batch :默认队列,一般用来做作业测试;old :此队列共有58个计算节点,每个节点内存为24G,cpu核数为12核,此队列一般用于对内存需求不太大的作业;此队列对应的节点为c0101—c0142,c0301—c0332,除开有故障的节点,共计58个。
oldfat :此队列共有1个胖节点,每个节点内存为125G,cpu核数为32核;此队列对应的节点为c0401。
fat :此队列共有3个胖节点,每个节点内存为1T,cpu核数为40核,此队列一般用于对内存需求较大的作业;此队列对应的节点为fat01、fat02、fat03。
newfat:此队列共有2个胖节点,每个节点内存为1T,cpu核数为48核,此队列一般用于对内存需求较大的作业;此队列对应的节点为fat04、fat05。
gpu :此队列共有1个计算节点,每个节点内存为125G,cpu核数为20核,主要用于视频编码,图形处理等应用。
此队列对应的节点为gpu01。
2、PBS命令介绍PBS提供4条命令用于作业管理。
(1)qsub ——用于提交作业脚本命令格式:qsub [-a date_time] [-c interval] [-C directive_prefix][-e path] [-I] [-j join] [-k keep] [-l resource_list] [-m mail_options][-M user_list][-N name] [-o path] [-p priority] [-q destination][-r c][-S path_list] [-u user_list][-v variable_list] [-V][-W additional_attributes] [-z][script](2)qstat ——用于查询作业状态信息命令格式:qstat [-f][-a][-i][-n][-s][-R][-Q][-q][-B][-u]参数说明:-f jobid列出指定作业的信息-a 列出系统所有作业-i 列出不在运行的作业-n 列出分配给此作业的结点-s 列出队列管理员与scheduler所提供的建议-R 列出磁盘预留信息-Q 操作符是destination id,指明请求的是队列状态-q 列出队列状态,并以alternative形式显示-au userid列出指定用户的所有作业-B 列出PBS Server信息-r 列出所有正在运行的作业-Qf queue列出指定队列的信息-u 若操作符为作业号,则列出其状态。
中国惠普-微软集群系统 操作指南
中国惠普-微软集群系统操作指南中国惠普有限公司CONTENTSCONTENTS (2)集群配置备忘录 (3)1.WINDOWS2003系统安装 (6)1.1.S MART S TAR CD简介 (6)1.2如何使用S MART S TART? (7)1.3安装操作系统 (9)2.磁盘阵列柜的配置 (22)2.1.1.使用ACU配置阵列 (22)3.群集安装 (29)3.1安装概述 (29)3.2网络配置 (30)3.3设置磁盘 (36)3.4安装域控制器和DNS服务器 (38)3.5配置集群 (44)4.ORACLE的安装 (59)集群配置备忘录机器配置:NODE ACPU 内存硬盘阵列卡HBA卡网卡INTELXEON71403.4G*48G 73G*2 E200 FCA2214 x2 HP 373T x2NODE BCPU 内存硬盘阵列卡HBA卡网卡INTEL XEON 71403.4G*4 8G 73G*2 E200 FCA2214x2 HP373Tx2注意事项:1、在路局级集群中,FCA2214 HBA在SAN环境中要将HBA的跳线跳到2、3上,在直接连接方式,要将HBA的跳线跳到1、2上(靠近档片的方向地方是1)。
2、在开机自检的时候,检到HBA(Q2340)时候出现提示按CTRL+Q进入HBA的BIOS中,在第一项Controlling Setting中有Advance Option中有如下图选项,注意红圈部分一定保证是YES状态。
软件配置:NODE ADL580G4 本身2个73G的硬盘做RAID10 (划分为区C:)安装WIN2003 企业版+SP1HP NC373T(NIC1)(千兆网卡)作对外通信,地址:192.168.0.1HP NC373T(NIC2) 用作两台主机之间的心跳线 IP地址:10.10.10.10主机名为:DL580G4-2P-1域名:NODE BDL580G4 本身2个73G的硬盘做RAID10 (划分为区C:)安装WIN2003 企业版+SP1HP NC373T(NIC1)(千兆网卡)作对外通信,地址:192.168.0.2HP NC373T(NIC2) 用作两台主机之间的心跳线 IP地址:10.10.10.11主机名为:DL580G4-2P-2域名:SMART ARRAY MSA1000集群存储 (8块146G硬盘配置)6个硬盘做RAID5,2个硬盘做RAID0,分成二个逻辑盘:划分100M 做集群的心跳分区(盘符Q)一个700G分区存放ORACLE等相关测试数据(盘符E)集群信息:共享IP地址:192.168.0.1001. Windows2003系统安装1.1.SmartStar CD简介SmartStart CD是HP 专门用于Proliant 服务器的工具软件光盘, SmartStart CD可以帮助用户简单的部署和管理服务器, SmartStart CD包含以下功能:1.部署操作系统: SmartStart 可以以向导的方式, 帮助用户轻松的部署Windows2000/2003 操作系统, 并把HP System Insight Manager 系统管理平台的客户端(Agent), 以及服务器内部集成硬件的驱动程序集成到操作系统中, 使用户一次安装就可装好所有必要的工具软件和驱动程序;2.设置阵列: SmartStart 内置Array Configuration Utility (ACU) 阵列设置工具, 可以使用图形GUI界面对服务器内置的HP Smart Array阵列卡以及外置的HP Modular SmartArray 磁盘阵列进行RAID设置;3.阵列诊断: SmartStart 内置Array Diagnostics Utility (ADU) 阵列诊断工具, 可以对服务器内置的硬盘, HP Smart Array阵列卡, 以及外置的HP Modular Smart Array 磁盘阵列进行故障诊断, 硬件检测;4.系统诊断: SmartStart 内置Insight Diagnostics 系统诊断工具, 可以对服务器的所有部件进行故障检测并生成报告;5.系统擦除: SmartStart 内置Erase Utility 系统擦除工具, 可以轻松的恢复服务器的出厂设置, 以便系统恢复.6.安装驱动: SmartStart CD内置服务器支持软件包ProLiant Support Pack(PSP), PSP集成了Prolaint服务器的所有集成硬件及大部分选件的驱动程序, 支持Windows和Linux,可以一个步骤就安装好所有选定的驱动程序及工具软件.1.2如何使用SmartStart?节点A开机,把SmartStart CD放入光驱, 重启服务器, SmartStart CD具备系统引导功能, 会自动从光盘引导系统并开始设置过程, 引导界面如下图所示, 可以选择用SmartStart CD引导, 也可以选择从硬盘引导, 如果此步骤不做任何操作, 过5秒后, 会自动从SmartStart引导.出现这个页面时, 选择English, 按按钮继续出现这个页面时, 按按钮接受使用协议继续:接下来就进行SmartStart的具体操作了.1.3安装操作系统本章将介绍SmartStart CD的主要功能:在上一章接受协议后, 将出现下图所示画面, 画面下方有3个按钮, 其中:点击按钮可以部署服务器,按钮可以对服务器进行配置, 检测等操作1.在上图中点击,出现如下图画面。
联想LiCO5.1.0用户手册
联想智能超算平台用户手册V5.1.0日期:2018/05/03版本号:v1.0目录1.产品简介 (4)1.1.名词解释 (4)1.2.前提和假定 (5)1.3.运行环境 (5)2.使用说明 (5)2.1.登录 (5)2.2.登出 (6)2.3.修改密码 (7)2.4.查看集群资源及队列状态 (7)2.5.上传作业程序 (8)2.6.上传容器镜像 (12)2.7.提交作业 (14)2.7.1.提交General 作业 (14)2.7.2.提交Common 作业 (16)2.8.提交HPC 作业 (19)2.8.1.提交MPI 作业 (19)2.8.2.提交ANSYS 作业 (21)2.8.3.提交COMSOL 作业 (24)2.9.提交AI 作业 (27)2.9.1.提交TensorFlow 作业 (27)2.9.2.提交Caffe 作业 (31)2.9.3.提交Intel Caffe 作业 (33)2.9.4.提交MXNet 作业 (34)2.9.5.提交Neon作业 (36)2.9.6.GPU作业监控 (38)2.10.作业生命周期管理 (40)2.10.1.取消作业 (40)2.10.2.重新运行作业 (41)2.10.3.删除作业 (42)2.11.训练AI 图像分类模型 (42)2.11.1.导入图像数据集 (43)2.11.2.创建网络拓扑 (47)2.11.3.训练模型 (50)2.11.4.参数调整 (54)2.11.5.测试及导出模型 (55)2.11.6.管理预训练模型 (57)2.12.自定义模板 (58)2.12.1.创建自定义模板 (59)2.12.2.发布自定义模板 (66)2.13.专家模式 (66)2.13.1.命令行提交作业 (69)2.13.2.作业文件编写 (70)2.14.VNC 管理 (70)3.注意事项 (71)3.1.用户相关目录的绝对路径 (71)3.2.解决作业提交失败 (71)3.3.VNC 查看或删除失败 (72)3.4.SLURM 命令参考 (72)3.5.Caffe 网络拓扑定义参考 (72)3.6.GPU监控数据来源 (72)前言欢迎使用联想智能超算平台(以下简称LiCO),LiCO 致力于提供简单、易用、丰富的高性能计算及人工智能平台。
银河群星高性能计算服务系统YHStarW10T技术方案用户手册国家超级计算长沙中心
中心软件的使用方法
4、读入.cas、.dat文件
中心软件的使用方法
中心软件的使用方法
中心软件的使用方法
5、进行并行计算:点击solve->Iterate,设置需要 计算的步数其他参数后,点击Iterate进行计算
中心软件的使用方法
中心软件的使用方法
(2)命令行方式: a.首先编写一个可自动执行的命令文件. vi fluent_test file/read-case sample.cas file/read-dat sample.dat it 10 file/write-case sample_end.cas file/write-dat sample_end.dat exit
中心软件的使用方法
(2)命令行方式: b.编辑machinefile vi machinefile node1-b node1-b node1-b node1-b node1-b node1-b
中心软件的使用方法
c.编写作业运行脚本 vi task #!/bin/sh export
IBA_MPIRUN=/usr/local/mvapich_zm/bin/mp irun_rsh export IBA_MPILIB=/usr/local/mvapich_zm/lib/sh ared
同时,系统会在当前目录下生成一个类似于slurm-23371.out的文件,系统会将
拟输出到屏幕的内容保存到这个文件中,其中23371是作业ID号。
用户作业管理
注意: ➢ 任务数n=节点数N*单个节点的CPU核数.
yhrun -N 1 -n 8 -w node4 job_name
➢ 用户在提交作业时,一定要指明所需的节点数,即在命令行设置 参数-N,以防作业提交出错.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高性能计算集群(PC Cluster)用户指南大气科学系应越第二版2008-12目录-认识cluster-使用cluster-linux常用命令-软件-文件传输第一章:认识cluster1.什么是cluster系统cluster一般由一台主机(master)和多台节点机(node)构成,是一种松散耦合的计算节点集合。
为用户提供网络服务或应用程序的单一客户视图,同时提供接近容错机的故障恢复能力。
通常cluster的每台机器通过相应的硬件及软件互连,每个群集节点都是运行其自己进程的独立服务器。
这些进程可以彼此通信,对网络客户机来说就像是形成了一个单一系统,协同起来向用户提供应用程序、系统资源和数据。
cluster概念的提出在70年代主要是为了进行一些大运算量的科学计算。
随着网络的发展,之后的cluster系统还被用作网络服务器,发挥其故障恢复和均衡负载的能力。
使用PC机构建cluster的好处在于开发成本低,而且由于每台节点机都是普通的PC机,在某一台机器发生故障的时候,可以方便的进行维护,而不影响整个系统的运行。
大气科学系的cluster系统,由16台64位的PC机组成。
其中一台主机(master),15台节点机(node01∼node15)。
这16台机器每台有两个4核的CPU,也就是说每个节点上可以同时提供8个CPU。
操作系统使用的是CentOS的Linux发行版。
图1为大气科学系cluster目前的结构。
其中console 和c0101∼c0107是大气系早期的cluster系统,节点安装的是RedHat的Linux发行版,precluster曾经作为门户机,目前已经更新为CentOS的操作系统。
登录master的IP地址为162.105.245.3,这个地址由于物理大楼的IP变动比较频繁,所以可能会时不时改变,而precluster的IP地址162.105.245.238则比较稳定。
这两个地址目前都可以从校外访问。
cluster的应用主要集中在并行计算上。
虽然单个节点的单CPU运算效率比普通的笔记本或是台式机都高很多,但是cluster当初被设计出来就是为了进行多CPU协同运算的,而不是仅仅为了提高单CPU的运算效率。
所以我们鼓励用户在cluster上进行并行计算,而把一些单CPU也能解决的工作Figure1:大气科学系cluster结构交给自己的PC机完成。
由于master负担了在node**间传递文件和用户信息的重要任务,所以我们应该尽量不要用master主机长时间运行程序,尤其是占用CPU较多的程序,以免进程占用太多CPU而影响其他用户的登陆和文件的传输。
2.linux操作系统Linux是开源的操作系统,由内核和外部模块构成核心功能,linux上的软件运行以后台进程的方式进行。
软件源代码由编译器编译成可执行文件(bin)存放在文件系统中,供用户调用执行。
对于维持系统基本功能的服务(service),比如httpd,通常以守护进程(daemon)的方式开机后自动在后台执行。
用户同系统的交互由SHELL来完成,这有点类似Windows DOS系统的命令行。
用户登录服务器后,通过在SHELL中输入命令来进行操作。
linux的用户分为两种:超级用户(root)和普通用户。
root用户拥有所有的权限,普通用户的权限在帐号被创建的时候可以进行相应的设置。
linux系统中的所有文件都被赋有一定的属性,这些属性包括拥有这个文件的用户(user)、组(group)、读写运行的访问权限、最近修改的时间等。
其中访问权限的功能非常强大。
可以说linux系统的安全就依赖于这样一套严备的体系。
访问权限在linux系统中由一个10位的字符串表示,第一位表示文件的类别:-表示普通文件(file);d表示文件目录(directory);l表示链接(symbolic link)。
后面的9位分为3组rwx,第一组为文件所有者的访问权限,第二组为文件所有者所在群组的访问权限,第三组为其他用户的访问权限。
每组的3个字母:r代表可读权限(readable);w代表可写权限(wriatable);x代表可执行权限(executable)。
例如:[yingyue@master:~]#ls-ltotal3-rw-------2yingyue dataop4096May172008demo.txt-rwxrwx---1yingyue dataop4096May172008do.exedrwxr-xr-x7yingyue dataop4096May172008homelrwxrwxrwx1yingyue dataop8May172008link->home/ [yingyue@master:~]#从上例我们可以看到,用户yingyue隶属于dataop用户组,其家目录下有一个home文件目录,两个普通文件。
demo.txt文件只能被yingyue读写,并且不能被执行(rw-)。
do.exe文件可以被yingyue以及所有隶属于dataop的用户读写以及执行,但是不能被其他用户读写执行。
在cluster上,用户可以设置自己家目录中的文件的访问权限,而对别的用户的文件的访问,则根据权限设置的不同而不同。
另一个linux操作系统的特点是链接(symbolic link),指向一个链接的文件路径会被自动定向到源文件的位置。
比如上面例子中link为一个指向home目录的链接。
cluster的主机和节点之间的文件共享是通过autofs服务实现的。
在/etc/auto.misc里定义了本地机器挂载的网络文件目录。
/etc/exports里定义了别的机器能够挂载的本机的目录。
挂载的文件目录在/misc里可以找到。
cluster的机器为了管理方便,将/misc下的目录链接到了/mnt下。
用户的信息由master通过yp服务统一管理,每台节点机的/home都挂载为master机器上的/home。
用户自己家目录的实际存放点是散布在节点机上的,在/home下链接到实际地点。
在master的/usr/local上安装了的软件,用户可以通过修改PATH环境变量直接调用。
附录中列出了目前安装的软件列表。
第二章:使用cluster当管理员向你提供了用户名和密码后,这表示你已经获取了访问和利用cluster上计算资源的途径。
为了展开cluster上的科研工作,我们需要做一些准备工作。
1.本地准备工作为了登录cluster,在本地的PC机上需要安装链接服务器SHELL的client程序。
对于windows用户,可以使用的软件有:•SSH Secure Shell Client下载地址:/download/SSHSecureShellClient-3.2.3.exe•SecureCRT下载地址:/download/securecrt612.exe•Putty下载地址:/download/putty.exe•其他任何附带ssh控制台的软件,比如Ultra Edit等。
Figure2:SSH Secure Shell Client登录设置对于linux用户,可以直接使用系统命令行中的ssh服务:[user@redhat:~]$ssh yingyue@162.105.245.3yingyue@162.105.245.3’s password:Last login:Fri Dec516:01:252008from162.105.139.33[yingyue@master:~]#纯字符的SHELL命令行通常已经能够满足大多数的调试运行软件的用户。
如果用户需要获取cluster的图形界面(X11tunnelling),还需要安装X window client软件,目前windows下可使用的软件有:•XWin32•XManager2.服务器端当准备好链接服务器的client软件之后,最重要的事情是用passwd命令改自己的密码,这是为了保证你的资源安全。
当遇到问题需要管理员解决时也不需要提供自己的密码,因为他有办法越过你的权限。
你的密码应该只有你一个人知道。
修改密码的方法如下:[yingyue@master:~]#yppasswdChanging NIS account information for yingyue on master.Please enter old password:Changing NIS password for yingyue on master.Please enter new password:Please retype new password:The NIS password has been changed on master.[yingyue@master:~]#linux系统中的密码在键入时不会显示。
注意不能使用passwd命令,因为那样修改后的密码只能在你运行passwd命令的那台机器上生效。
cluster上使用yppasswd命令作用是通过yp服务使修改后的密码被传递到各个节点。
修改完密码后,可以管理一下自己的家目录,linux系统中,当登录用户为yingyue时,∼、∼yingyue和/home/yingyue是等效的家目录路径。
在家目录中,一般会有一个.cshrc文件存放csh的环境变量。
csh是SHELL的一种,其语法比较接近C语言,linux的SHELL还有sh、bash、tcsh等多种,其中bash的使用比较广泛,对应的配置文件是.bashrc。
目前cluster上的用户默认SHELL是csh,如果你需要改变这一设置请联系管理员。
关于.cshrc文件的详细介绍请参考下一部分内容。
登录cluster后,可以通过rsh命令切换到各个节点,比如从master上rsh登录到node02节点:[yingyue@master:~]#rsh node01Last login:Tue Nov2513:14:03from master[yingyue@node01:~]#至此,可以在家目录中建立目录,存放要运行的软件和数据。
值得注意的是,如果软件和数据在cluster上已经存在,可以直接调用而不用拷贝到家目录中,这样可以节省硬盘空间的开支。
在平时的使用中,维护自己的家目录是非常重要的,对于软件的编译和运行,一个有条有理的目录能够帮助你顺利完成自己的计算任务。
所以我们有必要熟悉linux操作系统的命令。
第三章:linux常用命令linux操作系统自带的系统命令有很多,然而常用的只有不超过30个。
这些命令大致分为文件操作和进程管理两大类。
1.文件操作•man[command]查看command命令的说明文档(manual page)•ls-[options][directory]列出目录里的文件,有兴趣的话可以研究一下ls的选项。