曙光作业管理-调度系统安装配置手册
曙光天阔A620r-G用户手册V1.0
曙光天阔A620r-G服务器用户手册曙光信息产业有限公司使用前,请仔细阅读本说明书并妥善保管,以备将来使用本手册适用于A620r-G服务器版权所有©2010曙光信息产业有限公司。
使用本手册时,敬请首先详阅“声明及注意事项”部分。
开始使用本手册则代表您已经阅读并同意“声明及注意事项”部分中所提到的信息。
本手册受版权法保护,本手册的任何部分未经曙光信息产业有限公司授权,不得擅自复制或转载。
本手册中提到的信息,如因产品升级或其他原因而导致变更,恕不另行通知。
“曙光”,“DAWNING”,及图标是曙光信息产业有限公司的注册商标。
“AMD”,“Opteron”及图标是Advanced Micro Devices公司的注册商标。
其他注册商标均由其各自的商标持有人所有。
声明及注意事项感谢您选用曙光服务器!曙光服务器将给您带来强大的应用支持和全新的性能体验。
为了您能够更安全、方便的使用曙光服务器,在使用之前,请详细阅读本节所提示的信息。
曙光服务器在设计和制造过程中均遵循了严格的标准,以保证您所使用的服务器拥有卓越的品质和完美的“SUMA”特性。
但是服务器属于精密电子设备,在使用过程中仍然可能因为各种原因而导致异常,所以请务必明确以下事项:1、请将服务器放置在阴凉、干燥、通风、洁净、无强磁场的环境中使用,这有助于服务器的稳定运行,并将可以延长服务器的使用寿命;2、请使用带接地保护的三芯电源线与插座,并使用220V 交流电,不正确的电源设置可能会导致漏电、烧毁、爆炸甚至人身伤害;3、请不要在服务器正在运行时插拔背板连线或是移动服务器,否则将可能造成服务器当机或是部件损坏;4、请尽量避免频繁重启或开关机,以延长服务器的使用寿命;5、请用户及时备份重要数据,曙光信息产业有限公司不为任何情况导致的数据丢失负责;6、请使用正版操作系统及软件,并进行正确配置。
曙光信息产业有限公司对由于操作系统和软件引起的服务器故障不负有维护责任;7、请不要自行拆开机箱及增减服务器硬件配置,曙光信息产业有限公司不为因此而造成的硬件及数据损坏负责;8、当服务器出现故障时,如果您不能确定故障的原因,请及时与曙光技术支持部门联系以获得帮助;9、如主板CMOS电池失效,请使用与本机配备的电池相同型号的电池进行更换,替换下的电池请妥善回收处理。
曙光IPMI系统管理平台用户使用指南(总10页)
曙光I P M I系统管理平台用户使用指南(总10页)-CAL-FENGHAI.-(YICAI)-Company One1-CAL-本页仅作为文档封面,使用请直接删除用户使用指南目录概述........................................................................................................................... 错误!未指定书签。
智能平台管理接口(IPMI)................................................................... 错误!未指定书签。
基板管理控制器(BMC)....................................................................... 错误!未指定书签。
IPMI的相关配置 ...................................................................................................... 错误!未指定书签。
获取/配置IP地址等信息........................................................................ 错误!未指定书签。
1.在BIOS下进行配置 ........................................................................ 错误!未指定书签。
2.用DOS工具进行获取/配置 ........................................................... 错误!未指定书签。
3.在windows操作系统下配置 ......................................................... 错误!未指定书签。
曙光集群简明使用手册ppt课件
2020/2/20
曙光集群系统使用和管理
8/56
集群系统的体系结构
2020/2/20
曙光集群系统使用和管理
9/56
集群系统的物理架构
(InfiniBand)
2020/2/20
曙光集群系统使用和管理
10/56
曙光集群的计算系统
计算节点
一般为双路或四路 刀片或机架式服务 器,为计算系统的 主力。
SMP 胖节点 一般用于一些有大 内 多存核内、处容高理I的O需或求单,机 满足一些特殊应用 的需求。
计算 系统
2020/2/20
曙光集群系统使用和管理
GPGPU节点
GPU即图形处理单元, GPGPU的意思为使用显 卡做通用计算,由于 GPU卡具有更多计算核 心数,更高的能效比和 更强的浮点计算能力, 所以对于适合GPU,并 在GPU上移植成功的应 用软件提供更高的性能
14/56
曙光集群网络拓扑图(示例)
2020/2/20
曙光集群系统使用和管理
15/56
曙光集群用户视图(示例)
2020/2/20
曙光集群系统使用和管理
16/56
三、曙光集群的使用
• 远程登录系统 • 上传下载数据 • Linux常用命令 • 安装和运行程序 • 使用作业调度
2020/2/20
曙光集群系统使用和管理
VNC是一款优秀的远程控制工具软件,由AT&T的欧洲研究实验室开 发,是基于UNIX和Linux操作系统的免费开放源码软件,远程控制能 力强大,高效实用。
11/56
曙光集群功能节点
管理节点
•用于运行系统级的管 理软件,性能要求不 高,但可靠性要求高, 数量少
曙光Raid配置手册
曙光R a i d配置手册一、曙光服务器Raid配置说明1.1、Raid配置途径本手册适用于曙光天阔I640r-G服务器,raid卡型号是Adapetc 52445,其它供参考使用,配置RAID可通过两种途径,第一种通过IPMI远程配置,第二种进行本地操作配置RAID;如何通过IPMI实现远程配置RAID,相见曙光IPMI配置手册,进入Bios以后,操作同本地一样。
1.2、Raid规划方案本服务器共24块硬盘,前两块硬盘划分一个磁盘组,做Raid1,供安装系统使用;第3块至第22块硬盘,分三组,每组7块硬盘,做Raid5,做存储用;第24块做热备,供其它磁盘损坏备用。
注:服务器磁盘,从0数字键开始,至23共24块;这里描述的第几块,是从自然块1开始的,请不要混淆。
二、曙光服务器Raid配置操作步骤2.1、初始化磁盘驱动器步骤:第一步:开机启动如下图,按Ctrl + A键进入Raid设置界面第二步:进入Raid设置界面,如下图选择Array Configuration Utility第三步:选择Array Configuration Utility后,按回车键,进入下图界面,选择Initialize Drives 第四步:选择Initialize Drives后,同样按回车键,进行驱动器初始化,进入下图界面按空格键和翻页键选择所有磁盘第五步:选择所有磁盘后,按回车键,如下图,均输入Y同意第六步:均同意后,进入下图,正在初始化磁盘驱动器2.2、创建磁盘阵列根据Raid规划方案进行磁盘组划分2.2.1、创建系统磁盘阵列步骤:第一步:在初始化磁盘驱动器后,返回主界面,如下图,选择Create Array,按回车键进入磁盘组选择界面第二步:进入进入磁盘组选择界面后,按空格键选择前两块磁盘,作为一组,如下图第三步:选择两块磁盘后,按回车键进入下图,选择Raid1,按回车即可确定第四步:选择好阵列类型后,设置阵列名称,如下图,按空格后键输入阵列名称,按回车键确定第五步:设置好阵列名称后,按回车键进入阵列磁盘单位的选择,如下图选择TB,按回车键确定第六步:完成第五步后,按回车键进入读缓存的设置,如下图选择Enable MaxIQ,按回车键确定第七步:如上图按任意键后,进入写缓存设置,如下图选择Enable always,按回车键确定根据提示,按Y键同意即可第八步:如下图进入raid初始化设置,选择Quick Init,按回车键确定,选择Done完成设置按任意键返回主界面。
曙光 6000 超级计算机使用手册 - 清华大学深圳研究生院
曙光6000超级计算机使用手册系统运行部2012年12月12日目录一、基本环境二、系统软件环境2.1 操作系统 (5)2.2 作业调度系统 (5)2.3编译器和并行实现 (5)2.4 数学库 (6)三、使用方法3.1 登录和传输文件 (8)3.2 编译 (12)3.3 作业提交 (13)3.4 作业管理 (23)附件A.常用的作业提交模板1.普通串行计算 (25)2.普通MPI并行作业 (25)3.多个计算步骤的计算脚本 (25)4.共享内存并行作业 (26)5. 4. OpenMP+MPI 混合并行作业 (26)附录B:商用软件使用方法1.Fluent软件 (28)2.ANSYS软件 (30)3.CFX软件 (33)4.ABAQUS软件 (35)5.MARC软件 (37)6.NASTRAN软件 (39)7.LSDYNA软件 (41)8.DYTRAN软件 (43)9.ADF软件 (45)10.HFSS软件 (47)国家超级计算深圳中心采用由中科院和曙光公司联合研制的曙光6000超级计算系统,该系统整体计算能力实测峰值为1.271千万亿次浮点运算(1.271PFLOPS)。
于2011年11月16日投入运行。
本文主要介绍曙光6000超级计算系统的使用方法和环境。
一、基本环境为了方便管理和使用,曙光6000超级计算系统高性能计算区分成5个逻辑分区,分别为科学计算分区(GK)、工程计算分区(GG)、生命科学计算(GS)、胖节点分区(Fn)以及龙芯计算分区(Lx)。
其中GK、GG、GS分区的每个计算节点由2颗Intel5650六核心处理器组成、主频2.66GHz,配置24GB DDR3内存以及1块Nvidia C2050 GPGPU卡,一块本地149G的 SAS硬盘,一块QDR IB子卡。
胖节点分区(Fn)共配置128台4路A840 SMP计算节点,每个计算节点配置4颗AMD 6136 八核心处理,主频2.4GHz,内存128GB。
曙光服务器安装手册
曙光服务器安装系统手册
所需工具(pe U盘,sever 2008系统安装光盘,中科曙光服务器导航光盘)安装过程中,如果遇到其他问题拨打客服电话(400-816-0466)
1开机进入系统自检,自检2次后按下f7键进入bios。
2 第一步:
选择u盘作为第一启动项,进入pe 先格式化硬盘和分盘,如果被光驱位占用了c盘的盘符
右键计算机-管理
右键光驱把占用c盘的驱动器路径给个新的。
(不用c盘)以免后期使用,会出现某些问题。
如果其他盘占用c 盘符同理.
第二步
插入安装光盘,等系统自检二次后,按下f7 进入bios ,选择光盘作为第一首选项启动进入到“put any key ......”这个页面。
按下任意键进入-安装程序。
选择自定义高级安装,进入后由于没有安装radio 驱动是没有显示硬盘的-所以选择加载驱动程序。
插入导航光盘,然后选择drivers文件夹,具体看当时的系统选择不同的radio ,然后选择下一步安装.
第三步拿出曙光导航光盘,放入server2008光盘安装-选择-系统盘即可。
第四步进入系统后-可能没有网卡驱动,需要安装,插入u盘。
右键“以太网控制器”更新驱动程序-软件-选择20_0_CD文件夹,点击确定。
(如果没有驱动,请联系客服)
安装成功后,下边的黄色标志,变为白色以后,就可以正常上网了,安装结束,成功!
2016/8/29
钱豪杰。
OpenPBS作业管理系统介绍
创建队列
• 自动创建队列 #cd /var/spool/pbs #qmgr <pbs_config.sample
PBS的使用步骤
• 准备:编写描述改作业的脚本,包括作业名, 需要的资源等。 • 提交:使用qsub命令将该作业提交给PBS服务 器 • 排队:服务器将该任务排入适当的队列 • 调度:服务器检查各工作节点的状态是否符合 该作业的要求,并进行调度。 • 执行:当条件满足时,作业被发给相应的执行 服务器执行。程序运行时执行服务器会收集程 序的标准输出和标准错误流,等程序结束时, 将这些信息返回给用户。
MPI作业脚本
# Sample PBS script for MPICH #PBS -l nodes=16 #PBS -j oe #PBS -m ae #PBS -M dawning@ NP=$(wc -l $PBS_NODEFILE | awk '{print $1}') echo "nodes ($NP cpu total):" sort $PBS_NODEFILE | uniq cd $PBS_O_WORKDIR mpirun -machinefile $PBS_NODEFILE -np $NP <filename>
安装服务器端
• 用源码来安装 #./configure --set-serverhome=/var/spool/pbs --set-defaultserver=server_name #make #make install
服务器端的目录结构
服务器端的配置
• 向/var/spool/pbs/server_name中添加服 务器节点的主机名 • 将集群中所有计算节点的主机名加入 /var/spool/pbs/server_priv/nodes中,每 个节点一行,如 node01 np=2 • 将/var/spool/pbs/mom_priv/config中的, $clienthost改为$clienthost server_name
光路调度系统操作手册
中国移动传输网管系统光路调度使用说明中国移动传输网管传输工作组1光路调度系统1.1.1机房内光路调度场景描述:系统可以支撑同一机房内的尾纤直连的光路调度操作方法:步骤1:光路设计人登录系统系统,新建一张光路调度单:填写调单标题和要求完成时间,点击保存;步骤2:进入调单明细页面,选择调度类型为“新增”,点击“+”按钮;步骤3:进入光路编辑页面,起止点选择同一机房,填写基本信息内容,业务类型选为普通业务;步骤4:点击进入路由设计页面;路由设计页面呈现机房内的跳纤界面,页面两侧显示所选机房下的设备端子和传输端口。
步骤5:分别选择两侧传输端口或ODF端子,点击“添加左侧端口”、“添加右侧端口”按钮,然后选中两侧端口或端子,点击“连接",可以添加传输端口到端子之间的跳纤,同时支持传输端口间的直连,端子与ODF端子之间的跳纤。
步骤6:保存光路,进入调度单tab页,点击“直接派发”;步骤7:光路施工人登录系统,在待处理工单列表选中单据进入,点击“受理”;选中光路,点击“填写回单",选择施工结果为“已处理”,点击“确定”;步骤8:点击“竣工提交”,成功提交,工单流转至光路调单待归档工位。
步骤9:光路设计人登录系统,在待处理工单列表选中单据进入,选中光路,点击“回写”,选中回写结果为“占用”,“确定”进入调度单tab页,点击“传输竣工归档”,调度单成功归档,调度完成。
1.1.2机房间光路调度场景描述:系统可以支撑同一局内不同机房间的光路调度操作方法:步骤1:光路设计人登录系统系统,新建一张光路调度单:填写调单标题和要求完成时间,点击保存;步骤2:进入调单明细页面,选择调度类型为“新增”,点击“+”按钮;步骤3:进入光路编辑页面,起止点选择同一站点下的不同机房,()“如郑州市北环10楼机房—郑州市北环11楼机房”填写基本信息内容,业务类型选为“传输系统"(两端都是传输设备的情况)(其他两种业务类型:“普通业务”适合两端都不选择设备端口,“光纤出租”适合一端有端口,一端无端口);步骤4:点击进入路由设计页面,预占光纤{由于河南楼内光缆不做光缆系统处理,无法按光缆系统搜索光纤},指定传输设备端口后,双击机房选中设备端口和一个ODF端子分别进行设备端口和ODF端子的关联,两端都需要做连接;步骤5:保存光路,进入调度单tab页,点击“直接派发”;步骤6:光路施工人登录系统,在待处理工单列表选中单据进入,点击“受理”;选中光路,点击“填写回单”,选择施工结果为“已处理”,点击“确定";步骤7:点击“竣工提交”,成功提交,工单流转至光路调单待归档工位.步骤8:光路设计人登录系统,在待处理工单列表选中单据进入,选中光路,点击“回写",选中回写结果为“占用”,“确定"进入调度单tab页,点击“传输竣工归档”,调度单成功归档,调度完成。
pbs作业管理系统--曙光
PBS在机群上安装
由于节点系统相同,因而可以用如下SHELL script在 node2~node8上安装; #!/bin/bash for i in `seq 2 8` do echo “node$i ---------------------------------“ rsh node$i “cd /public/openpbs; make install” echo “------------------------------------------“ echo “” 2013-7-21 16 done
Server端设置
• 初始化server: (第一次运行或者重新配置) /usr/local/sbin/pbs_server –t create
• Server配置目录 /var/spool/pbs/server_priv/ • 节点属性声明:/var/spool/pbs/server_priv/nodes node2 R220A np=2 node3 R220A np=2 node4 dualcore np=4 node5 dualcore np=4 node6 R4280A np=4 node7 R4280A np=4
入口不一致,仍为多机系统;可以提供 存储一致性
无法实现
系统结构规模可扩展
对作业类型的限制 2013-7-21
如果规模过大,会遇到前述的O(㎡) 的通讯问题,难以扩展
如前述,不适合于系统调用较多的程序 (如I/O密集型)
通讯量与系统规模成线形放缩,可以 很好的扩展
对程序类型无限制 6
内 容
• 任务管理系统概述 • PBS作业调度系统 • 作业调度系统的使用
2013-7-21
曙光公司服务器产品用户手册说明书
I240-G20用户手册DAWNING INFORMATION INDUSTRY CO.,LTD.声明本手册的用途在于帮助您正确地使用曙光公司服务器产品(以下称“本产品”),在安装和第一次使用本产品前,请您务必先仔细阅读随机配送的所有资料,特别是本手册中所提及的注意事项。
这会有助于您更好和安全地使用本产品。
请妥善保管本手册,以便日后参阅。
本手册的描述并不代表对本产品规格和软硬件配置的任何说明。
有关本产品的实际规格和配置,请查阅相关协议、装箱单、产品规格配置描述文件,或向产品的销售商咨询。
如您不正确地或未按本手册的指示和要求安装、使用或保管本产品,或让非曙光公司授权的技术人员修理、变更本产品,曙光公司将不对由此导致的损害承担任何责任。
本手册中所提供照片、图形、图表和插图,仅用于解释和说明目的,可能与实际产品有些差别,另外,产品实际规格和配置可能会根据需要不时变更,因此与本手册内容有所不同。
请以实际产品为准。
本手册中所提及的非曙光公司网站信息,是为了方便起见而提供,此类网站中的信息不是曙光公司产品资料的一部分,也不是曙光公司服务的一部分,曙光公司对这些网站及信息的准确性和可用性不做任何保证。
使用此类网站带来的风险将由您自行承担。
本手册不用于表明曙光公司对其产品和服务做了任何保证,无论是明示的还是默示的,包括(但不限于)本手册中推荐使用产品的适用性、安全性、适销性和适合某特定用途的保证。
对本产品及相关服务的保证和保修承诺,应按可适用的协议或产品标准保修服务条款和条件执行。
在法律法规的最大允许范围内,曙光公司对于您的使用或不能使用本产品而发生的任何损害(包括,但不限于直接或间接的个人损害、商业利润的损失、业务中断、商业信息的遗失或任何其他损失),不负任何赔偿责任。
对于您在本产品之外使用本产品随机提供的软件,或在本产品上使用非随机软件或经曙光公司认证推荐使用的专用软件之外的其他软件,曙光公司对其可靠性不做任何保证。
曙光存储配置步骤
曙光存储调试主要步骤本文引用设备为DS600-G10一、产品简介1.产品介绍DS600-G10是曙光公司推出的FC、IP一体化的网络存储产品,采用先进的设计理念和体系架构,融入热插拔双控制器,8Gb FC、1Gb/10Gb ISCSI接口,多核处理器,以及Flash缓存保护等多项先进的数据处理和传输技术,保证了系统的高可靠性、高性能和强大的扩展能力,既能通过高效的FC方式接入,又能兼容便捷的IP存储环境,同时实现FC接入和IP 接入,实现IP和FC存储的有效融合。
2.硬件组成DS600-G10磁盘阵列分为单控制器、双控制器两种配置,每个控制器含4个千兆iSCSI主机接口,另可选配2个8G FC主机接口3.控制接口4.管理DS600-G10磁盘阵列DS600-G10磁盘阵列采用内置嵌入式Web管理软件Sugon RAID Manager,不需要在主机端安装任何组件,只需使用浏览器登录磁盘阵列控制器,即可实现对磁盘阵列的全面管理。
可以使用浏览器登录到DS600-G10磁盘阵列管理界面。
默认网络设置为:IP:10.0.0.1子网掩码:255.255.255.0输入默认用户名/密码后,单击登录按钮,弹出安全提示,单击“是”,进入软件主界面。
默认用户名:administrator默认密码:password5.RAID配置DS600-G10磁盘阵列建议系统工程师使用高级选项创建RAID,以便于后期维护管理。
点击管理界面“存储”选项,在显示界面点击“磁盘阵列->创建磁盘阵列”按钮,如下图所示:点击“存储->逻辑驱动器->创建磁盘阵列”如下图所示,进入逻辑驱动器创建界面。
在磁盘组选择界面,选择可配置磁盘阵列(DA),点击下一步,进入RAID 配置界面。
在弹出界面,输入RAID 分区名称,选择RAID级别,输入创建分区容量,调整条带、扇区、读写策略等参数,RAID 建立完毕后,可根据需求建立热备磁盘,以保证设备的安全可靠性。
华师大高性能计算集群作业调度系统简明手册 华师大高性能计算集群
华师大高性能计算集群作业调度系统简明手册华师大高性能计算集群采用曙光的Gridview作业管理系统,其中集成了torque+Maui,是十分强大的作业调度器。
下面将依次介绍华师大的的作业调度系统的设定,使用,以及相关作业调度命令一:华师大作业调度系统队列策略设定由于华师大的超级计算中心共分三期建设,其作业调度设定较为复杂:CPU 节点名(pestat可查看) 节点Core个数队列备注第一期E5450 b110-b149b210-b2298(2*4) mid1,huge第二期E5640 b310-b339b410-b439 8(2*4) mid2,hugeA(需申请)其中hugeA队列提交后需经批准第三期X5675,GPU(c2050)a110-a149a210-a249a310-a339a410-a44712(2*6) mid3,small,serial,gpuhugeB(需申请),shu(私有队列)itcs(私有队列)其中hugeB队列提交后需经批准shu和itcs为私有队列,不向公共用户开放在命令行输入cchelp 可以查看详细的华师大的作业调度系统策略,如下二:作业调度系统的使用华师大计算中心共有两个登陆节点login(59.78.189.188)和login1(59.78.189.187),供用户登陆提交相关作业。
一般来说,可直接使用命令行提交作业。
不过为了规范和易于管理,建议使用PBS脚本进行作业提交,提交命令为qsub **.pbs(pbs脚本文件)。
下面将简要的分别给出串行作业和并行作业的PBS样本(已放至/home/目录下),仅供参考,更多高级功能,请自行查阅相应手册。
1.串行作业pbs脚本样本#PBS -N test \\表示该作业名称为test。
#PBS -l nodes=1:ppn=1 \\表示申请1 个节点上的1 颗CPU。
#PBS -j oe \\表示系统输出,如果是oe,则标准错误输出(stderr)和标准输出(stdout)合并为stdout#PBS –q serial \\表示提交到集群上的serial 队列。
OpenPBS作业管理系统介绍
谢谢
当前任务状态
• 得到PBS的当前状态:qstat
当前节点状态
• pbsnodes - {a|l }] [ -s server ] -a 列出所有结点及其属性,属性包括“state” 和“properties” -c 清除结点列表中的“offline”或“down”状态 设置,使结点可以被分配给作业。 -l 以行的方式列出被标记的结点的状态 -o 将指定结点的状态标记为“offline”。这将 帮助管理员暂时停止某些结点的服务。 -r 清除指定结点的“offline”状态 -s 指定服务器
OpenPBS作业管理系统
曙光信息产业(北京)有限公司 技术支持中心 戴荣
提纲
• • • • • • OpenPBS作业管理系统简介 OpenPBS作业管理系统的安装与配置 OpenPBS作业脚本 OpenPBS常用命令 OpenPBS服务器管理 OpenPBS图形界列级的访问控制
• • • • s q qname acl_host_enable=true s q qname acl_hosts+=hostname.domain s q qname acl_user_enable=true s q qname acl_users+=user@hostname.domain • s q qname acl_group_enable=true • s q qname acl_groups=group_name,[…] 缺省为允许所有组
OpenPBS服务器管理
PBS服务器管理命令
设置服务器级的访问控制
• s s acl_host_enable=true 指明是否使用acl_hosts属性,缺省为 false • s s acl_hosts+=hostname.domain 缺省值允许所有的主机 • s s acl_user_enable=true • ss acl_users+=user@hostname.domain
曙光集群用户使用手册
1. 登录和文件传输登录方式为ssh,与telnet功能类似,推荐的登录工具为putty或者Secure Shell (,绿色版无需安装)在地址栏输入本集群的登录地址(node1对应的局域网IP),点击“打开”,就会出现登录窗口,输入用户名、密码即可。
文件传输为sftp,与传统ftp类似,但其协议更安全可靠,推荐工具为。
(,绿色版无需安装)输入登录地址222.222.21.29,输入用户名和密码,端口填22(本软件支持ftp,端口为21),点击快速连接,即可使用,操作办法与常用ftp工具类似。
2. 图形窗口支持Linux推荐使用vnc。
vnc可以将用户的操作状态保持在服务器端,即使断开连接也不会影响到正在进行的操作、计算等。
登录到linux服务器中,在命令行运行vncserver。
第一次运行时需要输入VNC登陆用的密码:根据提示输入新的vnc密码。
此密码与用户登录密码无关,将在登录vnc时需要。
此处提示的node1:2即为vnc成功打开的端口。
运行vncclient,输入登录服务器地址和端口号,点确定,输入前面设置的密码,即进入了图形窗口。
注意:1、在第一次启动了vncserver之后,vnc的连接一直可用,全部图形窗口保持在Linux 服务器上。
因此,只在每次服务器重新启动后运行一次vncserver即可,由于用户较多,请勿启动多个。
2、如果需要使用node2的图形界面,可执行ssh -X node2。
3. 作业提交3.1. Fluent3.1.1. 图形方式运行首先通过VNC登陆到图形界面,如果没有Terminal的话在桌面点击左键选择Xterm,输入以下命令即可运行:此处myhosts为用户指定的host文件,内容如下所示:node1node1node1node1node2node2node2node2-t8即指定8个核心参与计算,分别为node1上的4个核心和node2上的4个核心。
在图形界面下导入cas和data文件,修改和设置边界条件等并计算(和在windows下操作单机版Fluent相同,略):注:通过VNC使用图形界面方式运行fluent时,无需保持PC机与服务器的连接,只要vncserver没有重新启动,即可随时连接到原有的窗口。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Torque + Maui配置手册之抛砖引玉篇本文将以应用于实际案例(南航理学院、复旦大学物理系、宁波气象局)中的作业调度系统为例,简单介绍一下免费开源又好用的Torque+Maui如何在曙光服务器上进行安装和配置,以及针对用户特定需求的常用调度策略的设定情况,以便可以起到抛砖引玉的作用,使更多的人关注MAUI这个功能强大的集群调度器(后期将推出SGE+MAUI版本)。
本文中的涉及的软件版本Torque 版本:2.1.7 maui版本:3.2.6p17。
1. 集群资源管理器Torque1.1.从源代码安装Torque其中pbs_server安装在node33上,TORQUE有两个主要的可执行文件,一个是主节点上的pbs_server,一个是计算节点上的pbs_mom,机群中每一个计算节点(node1~node16)都有一个pbs_mom负责与pbs_server通信,告诉pbs_server该节点上的可用资源数以及作业的状态。
机群的NFS共享存储位置为/home,所有用户目录都在该目录下。
1.1.1.解压源文件包在共享目录下解压缩torque# tar -zxf torque-2.1.17.tar.gz假设解压的文件夹名字为: /home/dawning/torque-2.1.71.1.2.编译设置#./configure --enable-docs --with-scp --enable-syslog其中,默认情况下,TORQUE将可执行文件安装在/usr/local/bin和/usr/local/sbin下。
其余的配置文件将安装在/var/spool/torque下默认情况下,TORQUE不安装管理员手册,这里指定要安装。
默认情况下,TORQUE使用rcp来copy数据文件,官方强烈推荐使用scp,所以这里设定--with-scp.默认情况下,TORQUE不允许使用syslog,我们这里使用syslog。
1.1.3.编译安装# make# make installServer端安装设置:在torque的安装源文件根目录中,执行#./torque.setup root以root作为torque的管理员账号创建作业队列。
计算节点(Client端)的安装:由于计算节点节点系统相同,因而可以用如下SHELL script (脚本名字为torque.install.sh)在其余计算节点上安装:创建torque.install.sh脚本#vi torque.install.sh#!/bin/shcd /home/dawning/torque-2.1.7make install使用如下命令:npssh -on node1..32 sh /home/dawning/torque.install.sh 将在每个节点上安装TORQUE。
1.1.4.TORQUE配置1.1.4.1 在计算节点上配置TORQUE:在每个计算节点,必须配置MOM daemon信任pbs_server daemon,可以通过编辑/var/spool/torque/server_name来实现,把node33写入该文件即可。
#cat /var/spool/torque/server_namenode33其余的配置参数写入/var/spool/torque/mom_priv/config 文件。
配置计算节点的数据管理,数据管理允许作业的数据在计算节点和PBS_Server之间传递。
对于共享文件系统,如NFS,可以通过在mom_priv/config 中用$usecp参数来指定如何映射用户的根目录。
$usecp *:/home /home这里集群的mom_priv/config内容如下:# MOM server configuration file# if more than one value, separate## rule is defined by the name## host allowed to connect to mom server on privileged port# note: IP address of host running pbs_server it by comma.$pbsserver 10.0.68.33$clienthost node33#ideal processor load and max processor load$ideal_load 7$max_load 8## host allowed to connect to Mom server on unprivileged port#Specifies hosts which can be trusted to access mom services as non-root.#By default, no hosts are trusted to access mom services as non-root.$restricted *.node33## Log event :# 0x1ff : log all events + debug events# 0x0ff : just all events$logevent 0x0ff## alarm if the script hang or take very long time to execute$prologalarm 30## Specifies which directories should be staged$usecp *:/home /homeServer端资源管理配置指定计算节点为了让pbs_server与每个计算节点进行通信,它需要知道要和那些机器联络,集群中的每个计算节点都必须在nodes文件中指定,一个1行。
#rsh node33#cd /var/spool/torque/server_priv#for i in `seq 1 32`;do echo node$i np=2;done > nodes#cat nodesnode1 np=8node2 np=8node3 np=8node4 np=8node5 np=8node6 np=8node7 np=8node8 np=8node9 np=8node10 np=8node11 np=8node12 np=8node13 np=8node14 np=8node15 np=8node16 np=8node17 np=8node18 np=8node19 np=8node20 np=8node21 np=8node22 np=8node23 np=8node24 np=8node25 np=8node26 np=8node27 np=8node28 np=8node29 np=8node30 np=8node31 np=8node32 np=8np=8是说每个节点有8个CPU(其余的以线程来跑)。
指定作业的提交节点为node33,node34,node35:[root@node33 ~]# qmgr -c 'set server submit_hosts = node33'[root@node33 ~]# qmgr -c 'set server submit_hosts += node34'[root@node33 ~]# qmgr -c 'set server submit_hosts += node35'1.1.5.系统自动启动脚本1.Server的系统启动脚本/etc/init.d/pbs_server该脚本单独启动/重新启动/暂停/查看状态TORQUE中Server的守护进程#cp contrib/init.d/pbs_server /etc/init.d/编辑pbs_server:#vi /etc/init.d/pbs_serverPBS_DAEMON=/usr/local/sbin/pbs_serverPBS_HOME=/var/spool/torque要确保这两个变量设定正确。
2.Mom系统启动脚本/etc/init.d/pbs_mom,在计算节点执行。
该脚本单独启动/重新启动/暂停/查看状态TORQUE中Mom的守护进程。
#cp contrib/init.d/pbs_mom /etc/init.d/#vi /etc/init.d/pbs_momPBS_DAEMON=/usr/local/sbin/pbs_momPBS_HOME=/var/spool/torquePBS_SERVER端测试:重启pbs_server,使刚才的配置生效。
>/etc/init.d/pbs_server restart# verify all queues are properly configured> qstat -q# view additional server configuration> qmgr -c 'p s'# verify all nodes are correctly reporting>pbsnodes -a# submit a basic job - DO NOT RUN AS ROOT> su - testuser>qstat2. 调度器系统MAUI的安装配置2.1.1.在共享目录下解压缩MAUI# tar -zxf maui-3.2.6p17.tar.gz假设解压的文件夹名字为: /home/dawning/maui-3.2.6p172.1.2.编译要是MAUI和TORQUE无缝的结合在一起,确保管理节点(PBS SERVER)上TORQUE的路径设置正确,#./configure --with-pbs=/usr/local#make#make install2.1.3.MAUI自启动脚本[root@node33 maui-3.2.6p17]# cp etc/maui.d /etc/init.d/[root@node33 maui-3.2.6p17]# vi /etc/init.d/maui.d#!/bin/sh## maui This script will start and stop the MAUI Scheduler## chkconfig: 345 85 85# description: maui#ulimit -n 32768# Source the library functions. /etc/rc.d/init.d/functionsMAUI_PREFIX=/usr/local/maui# let see how we were calledcase "$1" instart)echo -n "Starting MAUI Scheduler: "daemon $MAUI_PREFIX/sbin/mauiecho;;stop)echo -n "Shutting down MAUI Scheduler: "killproc mauiecho;;status)status maui;;restart)$0 stop$0 start;;*)echo "Usage: maui {start|stop|restart|status}"exit 1esac2.1.4.与MAUI结合的node33上TORQUE设置在TORQUE的qmgr上[root@node33 maui-3.2.6p18]# qmgrMax open servers: 4Qmgr: set server managers += root@*.node33Qmgr: set server operators += root@*.node33Qmgr: set server scheduling=TrueQmgr: quit要确保set server scheduling=True这条,这条语句确保了可以使用MAUI调度。