DCS服务器硬件老化及预防
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DCS 服务器硬件老化及预防
任何电子元器件,包括电路板都会老化,因此计算机硬件老化是计算机使用中无法避免的客观问题。
服务器也是计算机的一种,并且服务器在系统中往往承担着比较重要的作用,所以服务器硬件老化的问题应该引起我们的足够重视,并且在日常维护中去分析、预防。
我厂DCS系统使用的服务器为DELL Poweredge系列的服务器。
DCS服务器为双机冗余,在DCS系统中最主要的作用是数据存储,我们可以简单的理解为服务器是各操作员站与各控制站(现场设备)之间的桥梁。
若两台DCS!务器同时出现故障情况,那在操作员站上的实时数据将停止刷新,现场设备将失去监控。
按照《国家电网公司电力安全工作规程》15.2.4 中的有关规定,此情况下若无其他监控手段,则应立即停机停炉。
我厂实际生产中要求必须在半小时内处理正常,无法处理正常或在要求时间内无法处理则应停机停炉。
一、故障记录:
1、2011年1月17日15:29 , #2机组DCS系统出现所有操作员站界面失灵,几乎所有设备无法监视参数及进行操作。
经检查发现为两台服务器同时故障引起,经处理后于15:49 恢复正常。
2、2011年5月12日9:18 , #1机组两台DCS!务器均显示红色(故障或离线),A服务器网络也为红色,但各控制站设备均可正常监控。
处理过程中出现两台服务器同时故障的短暂2分钟,期间各控制站设备无法正常监控。
处理后两台服务器于9:20 恢复正常,进行服务器切换也正常。
3、2013年5月12日23:40,公用DCS系统B服务器故障,检查服务器死机且无法启动,根据故障代码判断SAS-5I 卡坏,检查卡件发现一电容饱,更换电容后,5 月13日02:50 服务器启动运行正常。
4、2013年6月1日同样处理#1机组DCS系统B服务器发生故障的SAS-5I 卡,维修后正常。
二、故障分析:
我们可以发现尽管服务器的硬件一般较为稳定,出现两台服务器同时故障的情况几乎很少(一般是发现、处理不及时才导致同时出现),但实际生产使用中的确出现了危及
机组安全健康运行的严重状况。
从故障发生时间点来看,头两次故障发生时间较接近,后两次故障发生时间也较接近;从故障点来看,前两次的故障硬件可能为网卡,后两次的故障硬件为SAS-5I 卡,4次故障集中在2 个故障点上,故障点比较集中。
也就是说,故障在爆发时间与爆发点上都有着集中爆发的特征。
那么,我们该怎样来预防和进行事故反措呢?
三、预防与反措:
1、预防:
①加强日常巡检:
值班人员每天巡检时要注意在工程师站中查看DCS 系统的设备日志、系统状态等,在服务器柜中查看服务器的状态,并在服务器的C 盘中查看服务器的工作日志,确保服务器正常运行。
这样可以在服务器故障时及时发现,避免延误处理时间扩大故障的危害。
②定期查找相关信息:现在互联网科技发达,可以简单方便的搜索到与我们使用的服务器的相关的各种信息。
例如我们可以定期的查询“Poweredge 2900故障”之类的关键字,能了解到可能存在的故障点并针对故障点去做一些如备件采购等预防工作。
③服务器备用:
目前在仓库及办公室总共有3 台Poweredge 1900的服务器,可作为临时备用服务器。
由于故障可能发生在#1、#2、公用或脱硫DCS 系统,所以无法进行提前安装。
平时要熟悉MACSV 软件服务器端的安装及设置、服务器下装的操作步骤等,以减少将备用服务器投入使用所需的时间。
④零散硬件备用:
可结合②中的故障点或以前出现过的故障点,针对性的采购零备件。
若故障刚好发生在存有零备件的故障点上,则可马上进行更换。
这样故障处理时间将比③大大减少。
2、反措:
故障出现后,我们的处理原则是尽快恢复对现场设备的监控,也就是尽快让一台服务器恢复正常。
在此前提下,具体可以分为几种情况:
① 双服务器故障:
此情况下现场设备失去监控,须立即重启服务器来进行下一步处理。
因无法判断
哪台服务器为正常,所以应立即重启任意一台服务器。
重启完两台服务器后若均恢复正常且已恢复对现场设备的监控,则保持现状,后续再进行服务器切换等试验;若只有一台服务器正常且已恢复对现场设备的监控,则对故障服务器进行维修处理,尽快使其投入使用;若两台均无法恢复正常,则重复重启操作,判断能否在要求的时间里处理正常,并将情况及时汇报值长及相关领导。
② 单服务器故障:
此情况下现场设备仍可监控,但服务器失去冗余。
若正常的服务器也故
障,则会扩大为①的危险状况。
因此我们也要抓紧处理故障服务器,同时要防止处理过程中出现事故扩大的情况。
处理步骤是先判断出故障服务器是哪台,再对故障服务器进行重启观察,有必要再进行维修处理。
具体如下:
在工程师站使用工程师站离线查询软件,分别查询2 台服务器的最近1-2 小时的“全日志”,“全日志”中出现空缺的为故障服务器。
重启动此故障服务器,重启完观察服务器状态,恢复正常的话则切换服务器看能否正常投用;如若无法正常投用则应马上切换回原服务器,再对故障服务器进行维修处理。
这样做可以避免重启错服务器导致重启过程现场设备失去监控。
四、总结:我们要重视服务器硬件老化问题,通过认真细致的日常工作去预防服务器故障的发生。
做好事故预想,做好备件采购,对处理过程步骤了然于心,在遇到故障情况勿惊慌失措,在有条件的情况下集结专业力量迅速冷静的处理,尽快排除故障保证机组的健康稳定运行。
热控专业郑凯宇。