高性能计算机和曙光GHPC1000集群系统.
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机箱结构-整体示意图
GPU卡1
主板1
电源1 电源2
风扇
GPU卡2 主板2 硬盘 机箱前部
整机方案细节描述—主板规格
• 主板技术规格
– Form Factor:大约 16.7”x6.8” (42.3cm x 17.3cm)
– CPU:最高支持2颗AMD barcelona or shanghai 处理器
系统整体配置
节点:
计算节点1(A620r-T): 43×2=86台 GPU显卡:GTX295
计算节点2(A620r-T): 16×2=32台 GPU显卡:C1060
IO节点(A620-H):1台
存储:
DS6310EE 容量:
1台 16TB
网络:
计算网:
Infiniband 36口IB交换机
也称为:巨型计算机、超级计算 机
目前任何高性能计算和超级计算 都离不开使用并行技术,所以高 性能计算机肯定是并行计算机。
1.2 流行的高性能计算机架构
并行向量机 SMP DSM(NUMA) MPP,节点可以是单处理器的节点,也可以是SMP,
DSM Cluster 混合架构
1993—2006年 高性能计算机在TOP500中的变化
建立RAID(续)
4、DS6310系列磁盘阵列支 持同一磁盘组(RAID)中 不同的LUN采用不同的参数。 为LUN设置别名,选择相应 的Raid级别、容量、条带大 小、扇区大小、读写策略以 及首选控制器ID后(启用 LUN关联后此项被激活), 点击“更新”按钮。按照相 同的方式设置其它的LUN, 设置完成后点击“下一步” 按钮。
MB - 2048 MB Cache ,配置Cache保护电池; • 3U 机架安装机柜,带有 16个磁盘托架 ; • 可以通过SAS 4×扩展接口连接最多4个16盘位的扩展柜,80块
SAS/SATA2硬盘 • 通过盘阵内嵌的Dawning RAID Manager 实现轻松的部署和管理,支
持串口管理 ; • 支持后台同步;重建;冗余检测;SMART condition polling;在线
计算结点2:A620r-T
曙光GPU计算节点A620r-T:16台
GPU处理单元:1×Nvidia C1060 GPU卡 处理器:1颗AMD Opteron 2378 2.4G四
核处理器 内存:16G内存 硬盘:1×160GB SATA 热插拔 网络:集成2×1000M Infiniband:集成DDR 20Gb/s HCA
网络管理
DS6310系列磁盘阵列的管理 端口支持虚拟IP技术,可将一台 磁盘阵列上的两个控制器的管理 端口绑定在一个虚拟的IP上,虚 拟IP与两个控制器的IP无关,他 们可以设置在一个网段中,也可 以不在。
在“管理端口”标签中所查 看以及设置的都是虚拟IP。
点击“端口配置”进行虚拟 IP的设置。
网络管理(续)
内存:16GB DDR2-667 硬盘:1×146GB SAS 热插拔 HBA:1×12Gb/s SAS 4x HBA卡 网络:2×千兆 IB:20Gb IB HCA
磁盘阵列
曙光DS6310EE盘阵(16T):
企业级存储系统,热插拔Raid控 制器
性能:4个SAS 4x主机通道 扩展性:最大扩展至80个驱动器 可靠性:Cache镜像及掉电保护 容量:16块1TB SATA磁盘
1.3 集群技术的趋势
• MPP/PVP在构造大规模系统,应用饱和性能方面具有优 势,资金充足的依然会选择 ;
• 大型的CC-NUMA系统将逐渐走向衰落:它的优势是大物 理内存,大量CPU共享内存的高效编程对用户是一件困难 的事;大规模并行计算的效率问题;不适合构造更大的系 统;价格高,优势丧失;
高性能计算机和曙光GHPC1000集 群系统
技术支持中心 张新凤 曙光信息产业(北京)有限公司
目录
• 1 高性能计算简介
–1.1 什么是高性能并行计算机 –1.2 流行的高性能计算机架构 –1.3 集群技术的趋势
• 2 本项目GHPC1000集群系统介绍
1.1 什么是高性能并行计算机
由众多部件组成,具有运算速度快、存储容量大、可 靠性高的特性。
扩容
• 支持在线扩展逻辑磁盘的容量,方便用户应用系统的规划与调整;
• 支持RAID级别迁移,降低用户维护成本,降低系统重新规划带来的数 据丢失风险;后台RAID迁移:支持RAID0、5、10、50、1E之间互相迁 移;
登陆管理软件
IP:10.0.0.1 子网掩码:255.255.255.0 用户:administrator 密码:password
– Chipset:Nvidia nForce3600 – 内存:16 DIMM插槽,支持DDR2 533/667
ECC REG – LAN:2 Gigabit LAN – Infiniband: Mellanox InfiniHost III Lx DDR
MT25204A0-FCC-D single port
集成ES1000图形控制器 32MB显存
600W 电源
可选IPMI管理卡
说明:均为Low Profile扩展卡。 可选1+1冗余电源
核心架构图
DS6310EE/DS6312EE
• SAS-SAS磁盘阵列,单控/双控; • 处理器:Intel IOP 341,主频1.2GHz • 接口 :每控制器 4个SAS 4×主机端口,1个SAS 4×扩展接口 • 驱动器接口 :SAS ,支持SAS/SATA硬盘 • Raid级别:0、1、1E、5、6、50、60 • 热插拔控制器;DS6310EE单控,DS6312EE冗余双控; 每控制器512
存储系统
Infiniband
计算节点
冗余的企业级后端存储架构
业界主流的nfs网络文件系统 IO节点:1台 盘阵容量:16T
A620r-H : 产品技术规格
处理器 L2/L3 L2/L3 芯片组 内存/Max 网卡
扩展性能
显卡 电源 监控
规格
备注
支持2路Opteron 2000系列普通功耗处理 器
View:允许用户查看所有的信息,但不能进 行任何操作;
Maintenance:允许用户进行重建、PDM、 介质巡检以及冗余检查等维护操作;
Power:允许用户进行创建(不允许删除) RAID、LUN,更改RAID级别,改变Stirpe size,改 变RAID、LUN、物理磁盘以及控制器组件等操作。
可选SAS RAID卡,支持RAID5,6
集成SATA 控制器,支持HostRAID0,1, 5
最大支持6块硬盘做HostRAID
最大12个热插拔硬盘位
可支持SATAII,SAS
2个1000M(Nvidia)
2×PCI-E x16插槽(x8速率) 3×PCI-X 133/100插槽 1×PCI 32插槽
建立RAID(续)
5、确认无误后点击“提交” 按钮完成设置,树形菜单中 也有了相应RAID的选项—— “磁盘阵列0”。
• SMP系统存在访存瓶颈,导致可扩展性的限制 ,不能用 于构建更大的并行机器(64路以上)
• 集群系统由于无可比拟的性价比优势占据主流位置。
目录
• 1 高性能计算简介 • 2 本项目GHPC1000集群系统介绍
设计目标及设计思路
基于通用CPU + 专用GPU的高性能计算集群 GPU峰值速度:183TFlops(单精度) 高性能、高可靠的高性能计算平台
详见配置表
系统整体拓扑图
计算结点1:A620r-T
曙光GPU计算节点A620r-T:43台
GPU处理单元:1×Nvidia GTX295 GPU卡
处理器:1颗AMD Opteron 2378 2.4G四核处理器
内存:16G内存 硬盘:1×160GB SATA 热插拔 网络:集成2×1000M Infiniband:集成DDR 20Gb/s HCA
– SATA:4-SATA2 Support Raid 0,1,5 – PCIE: 1全长全高 PCI-Ex16 (支持双卡宽度,每机
箱支持2片卡)
– IPMI 2.0
图片仅供参考
曙光天阔GPU-SERVER主板
存储系统
I/O结点
曙光A620r(1台) :
处理器:2×AMD Opteron 2378 2.4G
固件升级(续)
确认无误后点击下一步, 当进度达到100%后,重启 磁盘阵列完成操作。
建立RAID
DS6310系列磁盘阵列支持RAID0、1、10、1E、5、50、6通过先进的RAID 虚拟管理技术,在创建RAID时,每颗物理磁盘可以被分割成不同的区域,这 些不同的区域可以用来创建不同RAID级别的逻辑磁盘,每组逻辑磁盘的Stripe Size以及缓存使用方式可以自行设定。
网络管理(续)
在“维护模式”标签中所查看 以及设置的都是控制器的真实IP。
点击相应控制器“端口配置” 进行真实IP的设置。
固件升级
在“固件更新”标签中可以升 级控制器的FIRMWARE。
固件升级(续)
使用HTTP方式进行固 件升级,选择HTTP升级方 式后点击“下一步”
固件升级(续)
点击“浏览”按钮,选择 升级文件后点击“提交”上传 文件。
Super:允许用户进行所有的操作。
“密码”标签中可进行修改用户密码的操作,需要注意的是,权限为“Super”的 用户可以修改自身其他用户的密码(包括其他Super user),而其它用户只能修改自 身的密码。需要修改时,先在“信息”标签中点击相应的用户,然后点击“密码” 标签进行相应的操作即可;只有权限为Super的用户可以进行删除其他用户的操作 (包括其他Super user),点击“删除”标签进行相应操作;“会话”标签中可以查 看当前登录到系统用户列表。
快速配置:用户可以选择少量的 参数进行RAID创建;
高级配置:完全由用户自定义 RAID参数。
建立RAID(续)
3、在“磁盘阵列别名”输入栏中 设置RAID别名,并在“物理驱动 器”框中选择磁盘,左边的框中为 备选磁盘,右边的框中为已选磁盘, 在左边的框中点击期望选择的磁盘 (可以使用CTRL与Shift键复选), 点击“>>”按钮,点击“下一步”。
登陆后会弹出安全警报,点击“是”才能正常登陆管理软件。
登陆后界面
总体管理
(关闭、重启系统,恢复出厂设置)
点击树形菜单中的“管 理工具”,在出现的界面中 可进行DS6310存储系统大部 分的管理操作,如:关闭、 重启系统,恢复出厂设置等。
用户管理
只有权限为“Super”的用户可以进行创建用 户的操作,点击“创建”标签,即可进行创建操作, 新用户在创建时可选择4种权限,分别为:
96口IB交换机 20Gb IB 网卡
管理网:
千兆以太网 48口交换机
1套 1台 1台 119块
1套 3台
水冷和支撑系统:
水冷机柜
6个
控制系统系统:
SKVM 系统 1套
集群控制台
1套
软件系统:
操作系统 GridView管理系统 Powerconf节能软件系统 GNU编译器 并行环境 CUDA开发环境
512K / core,共享2MB L3
4核巴塞罗那处理器
512K / core,共享6MB L3
4核上海处理器
NVIDIA nForce3600
16×DIMMs / 64GB
支持DDR2 533/667 ECC、Reg
DVD-RW,可选USB-DVD驱动器,USB 软驱
集成SAS 控制器,支持HostRAID0,1, 1E
建立RAID(续)
1、点击树形菜单中的“磁盘阵列” 选项,出现如图所示界面,其中 “信息”标签显示当前存储系统的 已有的RAID的基本信息;
2、点击“创建”标签,或标签 旁边的下拉菜单,选择创建方式;
自动配置:以默认配置与参数创 建RAID,如果有足够的磁盘数量, 将会创建热备盘(RAID0除外), 用户无法选择参数;
DS6310系列磁盘阵列的管理端口支持虚拟IP技术,可将一台磁盘阵列上的 两个控制器的管理端口绑定在一个虚拟的IP上,虚拟IP与两个控制器的IP无关, 他们可以设置在一个网段中,也可以不在。默认虚拟IP为10.0.0.1,子网掩码 255.255.255.0,控制器默认真实IP为10.0.0.2/3,子网掩码:255.255.255.0。