计算机机房设计与管理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
超级计算机机房设计与管理
前言
建设和营运一座性能优越、适度冗余、高效节能,规范管理的绿色计算机机房是机房运维经理们希望和追求。
计算机机房从形式上可分为超级计算机机房、数据机房(数据中心)及通用计算机机房;从其功能上可分为连续运行机房和在线式不间断运行机房;各类计算机机房的设计、施工、管理各有其特点,也具有计算机机房的共性;
本文主要阐述超级计算机机房设计原则,以及目前国内、外大型超级计算机机房设计与建设的案例,解读超级计算机机房设计的指导思想及设计目标;也将上海超级计算中心十年的管理体会,与国内同行进行交流,抛砖引玉,期待各位专业人士批评指正,旨在不断提高超级计算机机房基础设施的管理水平,创建一个安全可靠、高效节能的绿色机房。
一、计算机机房设计目标和指导思想
功能决定形式已被计算机机房设计者共同认同的设计原则,各类计算机的功能差异,所要需求的机房环境也有很大差异;例如:超级计算机组其特点是规模大、耗电高、装机密度高(目前)、单柜重量大;而数据中心其特点是机房面积大、机柜数量多、单机耗电低、供电保障要求高;所以,在不同的机房设计中,都必须按照各自需求进行量身定制。
设计者在建设方的要求下,根据计算机机房的特定要求,即机房
供电形式、冷却方式、机房承重、温度、湿度、洁净度、噪声、振动、静电、电磁干扰等条件及其控制精度,在设计中遵循以下原则;安全性、可靠性、灵活性、扩展性、国际标准性及开放性、通讯容量需求控制、美观舒适、经济合理、环保节能;以满足IT设备环境要求,力争将本单位的机房建设成为一个具有国内外领先水平的智能化数据机房。
一)供电系统设计
1、超级计算中心供电设计
案例:上海超级计算中心200T超级计算机机房设计中,主要为200T超级计算机机房建筑工程、供电系统、冷却系统、及其他相关设备工程。
根据“魔方”曙光5000A超级计算机供电的重要性,供电等级为一级负荷,由市电提供二路10KV独立电源同时供电,100%冗余;当一路电源故障时,另一路能满足一、二级负荷的供电要求,一、二级负荷均设双电源自动切换供电。
机房的供电系统要求,能保证对机房内的用电设备供电在一般情况下都不会间断。新增“魔方”曙光5000A超级计算机和相关设备的电力供电系统由新增供电系统提供,经ATS箱转换后的电源到机房配电柜(含机房约50%插座供电),主机、网络设备、水冷机柜内循环等由UPS装置供电。
UPS系统采用在线式,当市电供电电源断电后,UPS机组能够持续供电30分钟(电池配置按UPS全负荷15分钟计算)。
使用自动切换装置ATS切换后提供的动力电源,作为制冷设备、循环水泵、机房精密空调和通风等设备供电。
使用自动切换装置ATS切换后提供的另一路电源,为机房区域的照明插座配电。
一级负荷中应急和疏散照明,采用集中式供电的EPS装置作为备用电源;
这是一个较典型的超级计算中心的供电案例,其供电示意系统图如下:
超级计算中心供电示意图
其特点为:
装机容量大,供电保障系数取决于市电供电可靠性,目前上海市东供电的市电可靠性为99.7%,采用二路供电100%冗余的形式,
基本上能满足计算机组的要求,当二路供电中断时,UPS机组可提供30分钟的供电能力,确保机组能安全关机并完成数据保存。
2、数据中心供电设计
数据中心根据其在线服务的特点,在供电系统设计中,强化了供电的保障性,以真正做到在任何情况下,机房供电不间断;其供电系统示意图如下:
其特点为:
供电系统保障性强,满足数据中心的不间断供电需求;在市电供电中断时,由发电机组自主供电,可长时间保障计算机房供电;UPS 机组保障功能,在断电时,设备切换时的供电支撑且保证电源质
量;该系统结构复杂、设备繁琐、造价高且管理成本高。
3、国外IT机房供电设计
案例:某超级计算中心、数据中心供电设计示意图:
其设计特点为:
市电单路供电,供电系统设备(变压器、低配开关、UPS机组100%备份),柴油发电机组热备份;一旦市电中断后,柴油发电机组在几分钟内,完成启动、入网供电,保证计算机机房在任何情况下,供电不中断;其优点显而易见,但机电设备的可靠性是保障机房供电不间断的前提。
综上所述,计算机机房供电保障,不仅仅是系统设计的完善性,还要考虑到机电设备的可靠性、完整性和可用性。
二)计算机机房的制冷设计
1、案例介绍
“魔方”曙光5000A超级计算机由42个节点机柜、10个互联网络机柜、12个存储机柜组成;该机组采用AMD“巴塞罗那”4核芯片、4路刀片系统,单机柜安装5箱刀片服务器,每箱布置10个刀片服务器,单机柜最大功耗25KW;
“魔方”曙光5000A超级计算机制冷系统,采用42台水冷机柜,单柜最大制冷量为25KW;10台智能冷冻水热交换机组,每台机组热交换量为100KW(N+1运行模式);三台风冷—水冷机组,每台制冷量521KW(N+1运行模式);水冷系统配置一、二次泵(N+1运行模式)及二台10m³储冷罐;构成一套大型智能化水冷制冷系统,该系统具有制冷量大、温湿度智能控制、安全性高(确保机柜内无结露、断电后水冷系统延迟制冷、机柜风扇冗余设计等安全措施)、节能效果良好。
该机房冷却系统(高性能水冷机柜)的工作原理为:高性能水冷机柜是将服务器前部设计为冷空气进风道,节点机从前面将冷空气吸入,带走节点机产生的热量变成热空气吹出,热空气被机柜后置的风扇吸入,并吹入安装在水冷机柜下方(或侧方)的表冷器,通过空气/水热交换器变成冷空气,再吹入服务器前部冷空气进风道;由于此项的设计使冷源更加靠近服务器,热交换后的冷空气直接吹到服务器的前部,大大提高了制冷效率;
水冷机柜的冷源由外部冷水机组提供(7-12℃)冷冻水,经过水-水板式交换器(CoolTrans设备),向水冷机柜提供(12-16℃)冷却水,作为水冷机柜的冷源,水冷机柜内通过空气/水热交换器变成(16-22℃)冷空气冷却服务器。
整套冷却系统由:高性能水冷机柜、水-水板式交换器、水冷冷水机组(超算中心本次采用风冷水冷机组,无室外冷却塔)、室外冷却塔、循环水泵、控制器及管道等组成。
2、水冷系统设计思路
传统的机房冷却方式已无法满足高密度装机且单柜功耗25KW 的冷却要求;理论上,单机柜功耗超过12KW时,采用地板上开孔的风冷形式已无法满足机柜的冷却的要求;一般设计机房采用风冷(精密空调)时,每平方制冷量设计为1500W,单机柜发热量为6KW,最高不超过8KW;
考虑到“魔方”曙光5000A超级计算机采用刀片服务器,单机柜最大功耗25KW;只有通过定点冷却的方式将刀片服务器散发的热