数据中心供电系统现状和存在的问题

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据中心供电系统现状和存在的问题
一、过度规划和生命周期成本问题
1供电系统普遍存在过度规划和设备利用率低下的问题
“一次到位”的方式规划采购供电设备。

在投入运行初期，预计负载量只是设计容量的30%，实际负载量又只是预计负载量的30%。

最初装机运行时，实际负载量仅为9%左右。

在第5年时预计负载量增加到设计容量的80%左右，而实际负载量只达到设计容量的28%。

2空间或占地面积的问题
如何提高IT设备所占空间与其他基础设施所占空间的比例？基础设施所占据的空间大小变得愈来愈重要，不能直接产生利润的基础设施竟会比直接产生利润的IT设备所占用的空间还大。

3装配速度问题
构建一个数据中心，要经历规划设计、施工建设、设备安装调试等全过程，用户必须提前6个月购买这些系统和设备。

若其中间环节稍有差迟，用户的启用时间就会被推迟。

通常情况下，数据中心的实际建设一般要9～18个月或更长的时间。

用户希望能够缩短从做出决定进行修建到实际建成并投入运行的时间。

4能源效率问题
•供电系统的能耗（包括输入变压器、UPS系统、谐波治理、各级转换开关、线缆、各级配电等）占数据中心总能耗的22%左右，见本书第五部分第52个问题；
•供电系统效率低的最重要的原因是供电设备容量利用率低下；
•以UPS设备主机为例:满负荷时的标称效率可达92%，实际的输出容量仅是额定容量的60%,如果1+1冗余配置，实际的输出容量降到额定容量的30%,此时的UPS
工作效率低于85%,所以一个复杂的供电系统的效率只有75%左右。

5服务费用问题
因大型数据中心基础设施所具备的复杂性特征，其维护工作要求配备技术娴熟、经验丰富并经过高级培训的技术人员，因此，其服务费用居高不下。

随着系统使用年限的增加，用户的运营费用不断上升。

服务费用是按照设备的装机容量来报价的，即使用户实际只用到了UPS50%以下甚至只有10%的容量。

这是导致实际使用单位容量服务费高的主要原因。

6投资风险问题
•对未来业务的不可知性，导致了对IT设备及电力基础设施投资的风险；
•目前的电力基础设施需要大量投资，但没有可变通及灵活的退出策略；
•许多用户都在试图寻求能够在项目启动失败时提供简单而经济的退出策略；
•对于当前的基础设施的变动，要么技术上不可行，要么将需要一笔很大的开支，因为现有的数据中心基础设施并不能搬迁，而是需要重新购买。

二、供电系统的适应性及可扩展性
1系统和部件的标准化与规范化
系统的设计风险、电力基础设施的复杂性、产品的多样性、导致了大量的现场工程设计工作和设计方案的多样性，大大地增加了用户或技术顾问公司、设计院的负担，工程师会因设计的复杂性和资源配置问题而承担极大的风险。

用户希望有一种方案能够使得所有部件标准化、规范化，这不仅可降低设计和施工的工作量，还可以因设计方案的标准化、规范化而降低设计和组建的风险。

2不可预测的功率密度问题
功率密度随着技术的发展而增大，且无法准确预见。

这种情况带来两方面的问题：一方面是不同区域或不同机柜内的功率密度会变得不均衡，这样会在数据中心内因大量热损耗而
引起局部温升，即形成过热点；第二方面的问题是，功率密度的不均衡为设备的配电提出了挑战。

不仅机架配电需要相应变化，对于UPS的配置也提出了更高的要求。

电力基础设施能否适应这种不断变化呢？
3如何适应不断变化的其他需求
技术革新通常每隔1.5～3年就发生一次。

机柜内的设备升级更换时会导致许多其他问题。

例如UPS扩容时就可能发生以下三个方面问题：第一是新旧UPS系统的兼容问题；第二是新扩容的UPS与现场环境匹配问题，以及输入输出布线是否需要改变房屋结构等问题；第三是UPS扩容升级过程中会不会被迫中断现有业务。

三、供电系统可用性的问题
1断路器数量增加以及断路器指标的离散性问题
每个断路器都是一个单路径故障点。

另外，相同指标而不同厂商的断路器，其运行过程中的实际动作稳定值也存在着很大差异，这在很大程度上影响了数据中心路保护机制。

情况最糟糕时，下游断路器可能不会动作，而最终导致上游的断路器动作，结果发生大面积负载掉电的情况。

2操作人员人为操作失误的问题
超过54%的宕机故障都是人为因素造成的。

其中，大部分是由于目前数据中心复杂性极高而又缺乏处理这类复杂系统的专业技术人员等原因造成的。

除此之外，针对如此复杂的系统，对人员进行的培训也远远没有达到所需要的水平。

再加上这些行业内的人员的高流动率，我们就很容易理解“人为因素”是宕机或可用性降低的首要原因了。

3如何把UPS与IT设备负载之间的故障点减至最少
许多负载宕机的故障发生在UPS与IT设备负载之间。

过去，用户通常在UPS以及发电机之间引入冗余设备，但是他们往往容易忽略终端配电一级的单路径故障点，例如他们在
UPS和IT设备负载之间设置多个断路器，而且UPS和IT设备负载之间的距离很长。

所以希望冗余设施距离负载能够更近一些，减少UPS和IT设备之间的断路器数量。

4减少大面积断电的故障点
现实中不可能完全避免宕机，一旦宕机发生，我们希望故障的影响尽量局限在小面积的用电设备。

集中式供电有许多优点，但是它的致命缺陷是一旦UPS系统发生故障，所有设备均会因停电而宕机；分布式供电能够解决大面积业务中断的危险，但是存在着不易管理等缺点，用户希望能够消除并控制自己电源系统的故障。

5UPS对供电系统的谐波干扰问题
每台UPS都相当于系统内部的一个谐波干扰源。

无功和谐波电流对供电系统的影响是多方面的，包括导致电网电压畸变，干扰系统内其他用电设备，影响变压器、发电机、电动机、电容器的正常运行，使其损耗增大、发热、绝缘老化，缩短使用寿命，导致异步电机转矩降低，振动加剧，噪声增大，引起继电保护自动装置误动作，导致电子设备运行不正常；对通信线路、测量线路产生辐射干扰，影响电能计量精度等；无功电流的存在必然增加电网容量和系统配置容量，增大能源损耗和运行成本；附加的滤波器，不仅重量、体积和成本都显著增大，而且还存在着电路发生振荡的可能。

谐波电流还是造成系统零地电压差增大的主要原因。

6用户内部以及用户与厂商之间的信息共享问题
由于各种设备安装的复杂性，故障发生时对故障根源的分析变得非常困难。

用户指出，基础设施部件中存在着太多的变化，希望能够通过全球统一标准的系统收集数据和比较结果，并且规范校正和处理的措施。

他们希望同一机构内不同场地的机房能够使用同样设备，不同部门的管理人员能够相互分享管理经验及故障处理经验，也希望设备供应商能够提供这些技术知识。

四、设备选用和安装使用问题
1采购配置设备时仍然存在着一些错误的观念和误导
例如确定选用UPS的性能标准时，受厂家的误导，把厂家宣传的产品能达到的某些最高性能指标做为自己选用的标准；简单地以UPS电路结构形式定优劣；忽视UPS对电网的适应能力和电力污染问题；忽视对设备可靠性的考察等。

要知道，不恰当的提高某些性能指标的标准，是要付出成本和可靠性为代价的。

2系统设计缺欠造成潜在的质量问题
设计不规范，系统配置不尽合理，存在着诸多隐患。

诸如：所有设备都是串连的，形成多个单路径故障点；各相接的设备输入输出阻抗不匹配，因相互影响而降低可靠性或者不得不降容使用；因配置了输入谐波电流大和启动冲击电流大的设备，不仅污染电网，而首先是在系统内部形成严重的相互干扰；系统中电力传输线（包括数据传输线）过长和布局零乱而易产生干扰和发生人为事故；系统中配置了大量的断路器，由于质量问题，或者在容量和动作时间方面配置得不合理，使系统有时发生不明的故障。

3缺乏可量化的可靠性衡量指标
用户特别是运维人员感到，安全性和可靠性是当前供电系统最主要的问题。

但是在选用设备时却没有可量化的可靠性指标作为选用的依据。

以UPS产品为例，UPS设备厂家提供的可靠性指标是平均无故障时间MTBF，但是，它是一个概率指标，对用户来说这项指标是不可测量验证的，因而最终是不可信的。

一种常见的现象是，用户刻意选用高可靠的设备，而实际运行后却故障频繁。

用户希望有一种可信的可量化的可靠性指标。

五、UPS对供电系统的可管理性问题
1UPS输出的分路管理问题
用户对其数据中心内的分支电路的超载问题比较关心，每天都有越来越多的设备插入系
统中，导致分支电路的负载增加甚至过载，分支路断路器因过载动作，本支路内连接的机柜所有设备就会宕机。

甚至会发生保护该过载电路的断路器不动作而引起上游断路器动作，这将使更多的机柜或更大面积的设备发生宕机。

2监控负载机架的电源状态
机架使用量大的用户希望能够有安装在本地的显示装置。

用户希望能够在巡查过程中看到每一个机柜的各个输出插座的电流情况，从而查明设备是否在正确的范围内工作。

3线缆管理的问题
随着业务的发展，IT设备被不断地追加安装，考虑到高密度服务器数量有进一步增加的趋势,在极端情况下，一个机架上甚至可以安装200多个刀片式服务器。

而所有这些服务器都需要1根或2根电源线及几根网络电缆，这样就使数据中心的电缆数目大大增加，成为管理和宕机风险方面令管理人员头痛的问题。

4预防性故障分析问题
预防性的故障分析是电源系统难以实现的一个课题，用户一直依赖劳动力密集的预防性维护操作、红外线探测等作为他们检查核实潜在问题的方法，而这些乏味的重复性工作又往往需要受过专业训练、经验丰富的工程师完成。

用户希望电源系统应该具备足够的智能水平以及自我诊断能力，以便能够在故障实际发生之前发现并通知这些潜在故障。

六、可服务性的问题
1减少平均维修时间MTTR的问题
平均维修时间是指从故障发生、故障报警到管理员发现并判断故障位置和原因，从而通过更换部件使系统恢复正常的平均时间。

很多用户开始认识到，故障判断后，部件的更换往往是减小平均维修时间的关键。

供应商在多数情况下能够完成反映时间的承诺，在4h内能赶到现场，但问题是是否携带了合适的备件。

用户经常会发现服务工程师因带错备件无功而
返的情况出现。

如果用户自身在装机时购买常用部件，但用户端的储存条件又不能保证备件的“完好性”，另外，自备配件也会占据用户宝贵的空间。

总之，用户希望能更准确地解决故障并尽可能地缩短修复时间。

2降低系统的复杂性问题
基础设施是非常复杂的，同时，许多子系统和各部件也同样有越来越复杂的趋势。

在并机系统、多模块UPS系统、负载总线同步装置和大型近代开关等之间，准确迅速地判断故障是非常困难的事情。

比如，将UPS转入旁路状态，对那些不十分熟悉现场的操作人员来说，简直就是一种挑战。

系统的复杂性会带来两方面的影响，第一，系统越复杂，操作人员和管理人员产生人为失误的可能性就越大；第二，系统越复杂，系统发生故障时对故障进行定位诊断所需要的时间越长，从而使修复时间加长。

用户非常希望能够降低数据中心基础设施的复杂程度以及提高操作的容易程度。

3提高使用维护水平与提高设备技术水平同等重要
从使用维护情况来看，供电设备（主要指UPS）已经具备的智能管理和通讯管理功能没有得到充分的发挥。

当今的UPS已经从原来所谓的独立电源设备发展成今天具有多种通讯方式管理和与IT系统无缝集成的网络设备，但是在实际应用和运行维护中，权威人士估计对UPS的智能管理和通讯功能的应用率大概只有30%。

在UPS供电系统各类故障的起因中，人为原因造成的故障占很大的比例，人为故障的原因可归结为维护人员对所配置的UPS 的基本性能了解不够、对UPS监测监控信息和显示功能不熟悉、选用配置UPS以及系统中其他设备时存在选型不当的问题、对UPS运行时的常规维护要求不清楚且对维护规章制度执行不严格等。

4供应商之间的相互推诿的问题
目前由于系统的复杂性，数据中心的设计者和用户要与越来越多的设备厂商打交道，各
厂商的设备之间的配合以及各厂商的工程师与工程师之间的配合变得越来越复杂了。

当系统中的某一个环节出现问题时，各厂商的工程师往往从自身利益角度出发，而不是从整个系统的角度出发来判断、认定和解决问题。

他们往往会自觉或不自觉地推卸责任。

各方面的工程管理人员，往往在解决问题的现场会上唇枪舌战，使本来复杂的问题变得更加复杂而难以解决。

争论的焦点往往会从判断问题、发现解决问题的方案本身到发现其他设备的缺陷上面去，甚至有的用户抱怨说，在这种情况下他们已经从一方职员变成为一个必须善于斡旋的“政治家”。