高性能集群拓扑及组成介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
CISC处理器和RIS C处理器,属于系统的核心部件,类似于服务器的主板,一般处理
器,内存,接口芯片都在控制器上,中高端磁盘阵列一般采用双控制器,或者多控 制器架构。 主机接口:用于连接主机(服务器),构建服务器不磁盘阵列之间的数据交换通道, 通常有SCSI、FC、SAS、iSCSI几种类型。 扩展接口:用于连接磁盘扩展柜,扩大存储空间;通常有FC、SAS两种类型(扩 展柜接口类型一般和主柜一样,SAS扩展柜连接距离短)。 电源,风扇 :为整个磁盘阵列柜提供电力,磁盘阵列一般为冗余电源设计,用于 散热。 硬盘:FC,FC-SATA,SAS,SATA,SATA-SAS.
第三天 OMG,机器死 机,要来的终究 会来的…..
第七天,运气不 错,居然坚持了 4天!
有CluSnap
第一天 断点1
第二天 断点2
第三天 机器失效! 意料之中!
第五天 算完!
高速非易失性缓存(Cache)的作用
t 第一个 断点1 ∆t t 第二个 断点2 ∆t t
T(运算时间)=t+∆t+t+∆t+t=3t+2∆t 如果一个运算需要设置N个检查点,则系统的损耗时间为:N×∆t 以一个需要32GB内存大小的应用为例,在通常的系统中,建立一个检查 点需要32000/40=800秒的时间,如果你每天需要设置24个检查点,则需 要额外消耗800×24≈5小时! 高速非易失性缓存技术可以大大降低将5小时降低为15分钟!
2、节点介绍
节点—刀片TC5600
正视图
曙 光 天 潮 TC5600 机架式刀片HPC服 务器是曙光公司开 发的一款突破传统 服务器理念的HPC 刀片产品
后视图
TC5600整体视图
后视图 TC5600系统组成 网络背板 PDU模块 风扇电源模组 刀片机箱 系统风扇模组在 系统后部 正视图
TC5600各部件规格
机箱后部 有2个可 从机箱外 部拆卸的 热插拔散 热风扇
机箱内部4 个热插拔智 能风扇,可 随机箱内部 的温度进行 转速的调节
3、存储系统介绍
存储系统组成
Clusnap+FC SAN存储
曙光CluSnap集群容错模块
上帝保佑我能算完! 第一天 平安无事! 无CluSnap 我很有底!
第二天 居然还平 安无事?
TC5600刀片规格
TB60-G
处理器 处理器数量 内存 芯片组 磁盘 VGA Intel平台twin刀片
支持Intel Xeon 5500/5600系列处理器; 最多2×2个,可选1×2个 提供2×12个内存插槽,最大2×96GB(192GB )DDR III 800/1066/1333 内存; Intel 5520系列高端芯片组; 提供2×2个2.5”热插拔SATA/SSD磁盘; 集成图形控制器 Intel 82576双千兆以太网控制器,全面支持虚 拟化和IO加速; 板载PHY芯片,支持IPMI百兆以太网网口; 支持板载Infiniband Connector,可选40Gb QDR/20Gb DDR IB网络连接 板载BMC管理芯片;
机箱后视图 网络背板
PDU模块
风扇电源模组
刀片机箱
系统风扇
TC5600整体规格
外形特征
重量(满配) 散热模块 电源模块 网络互联 计算刀片 计算能力 存储能力 以太网模块
标准42U机柜,尺寸:600×1100×2000(宽*深*高);
800kg; 12组独立的风扇模块,每个风扇模块均可独立维护,整机最大风 量:1万立方米/小时; 整机采用4组电源模块,每个电源模块可提供10个AC热插拔电源 ,分别为10个计算刀片供电; 每个电源模块供电能力9kW,220V/50Hz; 可同时支持以太网和Infiniband网络; 每机架最大可支持40个twin刀片; 每机架共160CPU/960Core、7.68TB memory; 每机架可提供高达11.25万亿次计算能力; 内部存储能力:160TB本地存储容量; 外部存储能力:支持主流存储产品; 整机采用4组以太网模块,每个以太网模块提供40个千兆+20个百 兆以太网接口,每个模块为10个计算刀片提供网络互联;
主流存储架构
DAS架构 NAS架构
SAN架构
DAS架构
DAS是Direct Attached Storage的缩写,即“直接连接存
储”。它是挃将外置存储设备通过连接电缆,直接连接到一台 计算机上。采用直接外挂存储方案的服务器结构如同PC机架构, 外部数据存储设备采用SCSI技术,或者FC(Fibre Channel)技术, 直接挂接在内部总线上的方式,数据存储是整个服务器结构的
• GPU为什么比CPU快?
W580I主要技术
双路intel xeon 5500/5600处理器 高达12根DDR3内存插槽,最高支持96GB内存容量(Unbuffered内存 最高24GB) 双intel 5520 芯片组,包括双intel 36D chip 和 ICH10R
高达9个PCI扩展插槽,其中4个全速PIC-E x16,并符合PCI-E 2.0规范,
网络
系统管理 电源 外形尺寸
760W电源;
420mm×720mm×43mm 15kg
重量(满配 )
TC5600产品特点
刀片统一散热
TC5600刀片HPC服务器 采用具有自主知识产权的 机柜级front-to-back散热 技术,内部无需风扇,也 有效提高了设备可靠性
高效电源管理
TC5600刀片采用统一的 电源管理策略提高了系统 电源效率及机房配电系统 的相间平衡率
一部分 。
DAS架构
结构示意:
DAS架构
结构特点:
DAS方式实现了机内存储到存储子系统的跨越,但是缺点依然有很多: ������扩展性差,服务器不存储设备直接连接的方式导致出现新的应用需求时,只能 为新增的服务器单独配置存储设备,造成重复投资。 ������资源利用率低,DAS方式的存储长期来看存储空间无法充分利用,存在浪费。 丌同的应用服务器面对的存储数据量是丌一致的,同时业务发展的状况也决定这
曙光图形工作站技术特点-系统散热
• 结构与散热优势
– GPU卡本身发热量和功耗都比较大,最大的可能达到单卡300W左右,对系统散热和功 耗控制带来极大的问题 – 特别是现在CPU与GPU数量的配比逐渐增高,也导致了在单一系统中需求更多的GPU
• 曙光产品采用标准的4U产品改良设计
– 空间上可支持更多的GPU卡,目前系统本身最大可支持4片GPU卡 – 散热上采用高效能系统风扇,并且分为内扇和外扇两部分
NAS架构
NAS系统拥有一个与用的服务器,服务器上安装着一个优 化的文件系统和“瘦”操作系统,其作用类似于一个与用的文
件服务器。这种与用文件服务器去掉了通用服务器原有的大多
数计算功能,仅仅提供文件系统功能,用于存储服务。而丏, NAS系统中的核心操作系统是经过特殊定制的,与门服务于文 件请求丏不主要的网络环境兼容。
灵活运行环境
可安全运行在环境温度 30摄氏度的机房中,有 效降低了环境设备耗能 ,提高了数据中心总效 能,降低了运营成本
新型的 HPC刀片 产品
超高计算密度
每机架在标准42U空间 内提供80个DP节点, 每机架可提供高达 11.25万亿次计算能力
TC5600使用说明
1 安装好机箱 2 打开风扇电源模组 3 打开刀片节点 4 安装系统使用 1 VGA接口 2 主面板 3 硬盘仓 4 节点卡扣 7 节点指示灯 8 Power按钮及ID按钮 9 USB接口
中国矿大高性能集群各子模块介绍
1、集群拓扑结构图
矿大高性能集群拓扑图
• • • •
71个刀片计算节点:2颗6核 2.66GHz CPU/24GB内存;2个胖计算节点:4颗4核1.86GHz CPU/32GB内存; 2个GPU计算节点:2块NV C2050 GPU; 4个登录、管理刀片节点; Clusnap存储系统: 52TB裸存储; 网络: 双向40Gb infiniband 计算网络、千兆管理网络、百兆IPMI监控网络; 其它: Gridview集群管理系统;机房基础设施(机柜、UPS、空调散热系统等)
存储数据量的变化。因此,出现了部分应用对应的存储空间丌够用,另一些却有
大量的存储空间闲置。 ������可管理性差,DAS方式数据依然是分散的,丌同的应用各有一套存储设备。管
理分散,无法集中。
������异构化严重,DAS方式使得企业在丌同阶段采购了丌同型号丌同厂商的存储设 备,设备之间异构化现象严重,导致维护成本据高丌下
存储系统结构
存储结构图
控制器A
后端
控制器B
前端
SATA SAS FC SCSI
X86 Poserpc Iop Pmc ..
FC SAS ISCSI IB
Windows Linux Mac ..
外接式磁盘阵列柜各组成部分作用
控制器:处理IO请求、进行RAID运算,监控和管理整个外接式磁盘阵列柜,分为
I840r—GP前视图
• A:超薄光驱槽位 B:网卡指示灯 C:前面控制面板 D:前置VGA 接口 • E:前置USB 接口(3 个) F:5.25 英寸设备扩展位 G:2.5 英寸硬盘位
GPU计算节点-W580I
• 什么是GPU?
– GPU英文全称Graphic Processing Unit,中文翻译为“图形处理器”。GPU 是相对于CPU的一个概念,由于在现代的计算机中(特别是家用系统,游 戏的发烧友)图形的处理变得越来越重要,需要一个专门的图形核心处 理器,所以就把专门处理图形部分的处理器叫做GPU。
可支持4片全高,全长,双宽专业图形卡戒GPU计算卡 主板集成3网卡,其中2个intel 千兆网卡(RJ45)用亍数据传输,第三 个为管理接口 主板集成BMC,可实时监控服务器硬件的运行健康状态
W580I技术特点-多卡支持
• 强大的系统总线带宽
– 多达9个PCI插槽 – 4个PCI-E 2.0 X16规格的插槽,支持全长、全高、 双宽图形卡
对于用户的价值
多核=多线程,利亍业务整合 总线带宽加倍,摆脱瓶颈,提高性能 高速网络I/O,有利亍虚拟化 更大的内存容量,有利亍数据库应用 极强的扩展能力,满足用户各种扩展 需求 更大的数据存储空间,有利亍数据库 应用 冗余电源配置,使整机可靠性倍增
硬盘数量
电源容错配置
8个SFF硬盘
可选冗余配置
性能更强劲、扩展Fra Baidu bibliotek自由、维护更方便
四路胖计算节点-I840r-GP服务器
13
规格
I840r-GP
最大CPU内核数量 CPU总线 QPI总线速率 Intel I/O 加速技术 内存规栺 PCI Express扩展槽 32 全独立互连总线 最大6.4GT/s 第二代I/O加速技术 最大512GB DDR3 REG (64 DIMM) 10
TC5600使用说明
对各个节点进行操作的方式 KVM本地操作 本地KVM
连接好KVM和刀片节点 的VGA和USB接线,即 可对TC5600进行本地操 作
KVM远程操作 远程KVM
通过TCP/IP网络协议可 以登录到节点的BMC芯 片,进而打开节点的管理 控制台,对节点进行远程 操作
KVM远程操作时确保客户端和刀片节点 BMC芯片的IP能够ping通,利用网络登 录带到BMC芯片中,进而登录节点
FC SAN存储-DS6310FE
FC SAN存储-DS6310FE
磁盘阵列概念和优点
• 磁盘阵列是一种把若
干硬磁盘驱劢器挄照 一定要求组成一个整 体,整个磁盘阵列由 阵列控制器管理的系 统. 1.传输速率快 2.储存容量可提升 3.提升I/O每秒的数量 4.增加数据安全性及 稳定性 5.大量数据快速及简 易管理 6.增加可用运时间, 减少维护
NAS架构
结构示意:
以太网
NAS架构
适用范围: 小型局域网络,广域网 邮件系统、办公OA,校园网,文档归档,VOD等 异构平台共享 对性能要求丌是极高的应用 基于文件系统,丌适合数据库应用
SAN架构
所谓的SAN(storage area network),即存储 区域网络,是挃在网络服务器群的后端,采用光纤 通道等存储与用协议连接成高速与用网络,使网络 服务器不多种存储设备直接连接。 SAN的最大特点就是可以实现网络服务器不存 储设备之间的多对多连接,而丏,这种连接是本地 的高速连接。 SAN架构的优势在于:强大的扩展性、多种存 储设备的集中和新架构支撑下的新型数据应用方式。