IBM P570小型机典型故障案例的分析与处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IBM P570小型机典型故障案例的分析与处理
摘要:根据近年来本地区P570主机的典型故障及处置方法,总结了一套P570
小型机典型故障的维护管理的经验,提高了信息系统检修质量和健康水平。同时
总结管理思路,与时俱进,完善运维体系、加强运维管理、提升信息安全运维水平,保证系统安全及可靠运行,为电力网数据信息安全交互提供了有力保障。
关键词:故障处理,运维管理
引言
P570小型机作为具有很高的可靠性与稳定性能,做为本公司核心服务器,它
具有较高的专业性、复杂性、实时性、不间断性等特点,是电力企业普遍采用的
服务器。随着使用年限的增加,设备老化等原因会造成整个系统可靠性降低,硬
件设备发生故障的频率也越来越高。现根据近年来本地区P570主机机常出现的
一些典型故障及处理方法,总结出一套P570小型机典型故障的维护管理经验,
提高了信息系统检修质量和健康水平,确保信息系统安全稳定运行。同时我们在
此运维基础上,扩展了信息系统基础安全运维的管理思路。
1 小型机典型故障处理及运维管理提升
统计570小型机自2007年投运到目前为止,共发生电源故障、风扇故障、背板故障、HBA卡故障、硬盘故障等94次,随着公司推进运维检修精细化管理工作,加强对信息设备状态的监视,准确掌握信息设备的状态,当主机系统发生故
障时,依靠专业的管理经验,可以在最短的时间内查明故障原因,迅速将系统恢
复到正常工作状态,是保证设备及软件安全、稳定、高效运行的关键。同时完善
小型机设备的运维管理制度,是对小型机系统稳定运行的有效保障。除了采用技
术手段外,我们还需建立有效的安全管理机制,“三分技术,七分管理”是信息安
全领域的管理的精髓,在实际的工作中如何“管理”到位,更需要在实践中总结经验,不断的更新,两者有机的结合起来,通过管理提升我们发现,小型机的设备
故障主动发现率由38%上升到93%(如图1),说明通过运维管理的提升设备故
障的主动发现率有了显著的提升,确保了处理故障和更换备件的宝贵时间。
图1采用管理提升前后故障发现率对比
运维过程中发现各地市典型发生的故障,如P570小型机的CEC柜电源模块故障是最常见的故障之一,我公司原八块电源模块已全部陆续更换,其间还发生过同一CEC柜两路冗余电
源都发生故障的宕机事件,如果管理及巡视得当,处理方法的得当会减少事故的发生,并且
减少系统恢复时间;交换机模块故障也是常见故障,但由于双通道的原因很难会被人发现,
具有很强的隐蔽性;HA故障也偶有发生,需耐心排查、调试;本文还列举两类硬件故障,分别是使机器宕机或无法启动的硬件故障和仅对系统产生功能影响机器的硬件故障。通过以下
故障在运维过程中不断总结经验同时完善运维制度和安全管理机制。
1.1、电源模块常见故障
小型机的每个CEC柜都有两路电源,互为冗余,如两路冗余电源发生一块电源模块故障,此时不影响系统及运行,但应立即报修、密切观察、加强巡视,待备件到场立即更换;
如在同一CEC柜的两路冗余电源都发生故障系统必将宕机,此时应立即报修,等待备件
到场,如果参考以往经验及设备特性,进一步进行后故障时刻的思考,得出结论:可将一路
故障电源与未发生故障的CEC柜进行调换,开机恢复分区,恢复系统运行,待备件到场后再
进行备件更换,本方案可以提前3到4小机恢复系统的运行,我们将此经验方法更新在相应“专项应急预案”中。
1.2、小型机光纤交换机常见故障
光纤交换机故障灯亮时,可检查各光纤模块指示灯(在光纤模块左侧)有无亮黄灯,如
果有说明本光纤模块故障,可以用备用模块进行替换。如光纤交换机故障灯亮,各光纤模块
指示灯正常,可至电EMC报修,鉴于光纤模块的故障率较高,发生较频繁的现象,总结经验完善管理,得出结论:可常备一两个光纤交换机模块,在发生故障,确认故障后及时进行替换,此项工作可在“运行规程”当中完善。
1.3、HA故障
在执行任何事件脚本出现异常而无法正常运行HA时,采取以下步骤:
(1)关闭所有有关HA的应用进程,如手工停止有关进程,手工停止数据库。
(2)umount所有共享vg上的文件系统。
(3)执行varyoffvg将共享vg从服务器离线。
(4)执行smitty clstop选择Shutdown mode为"forced"方式关闭HA。
(5)用命令
a) # ps -ef
b) # lsvg -o
c) # lssrc -g cluster
d) # netstat –i
(6)查看以上操作是否执行完整,如果有些相关进程未关闭可以使用kill将其杀掉(不
能保证系统保持运行正常,可能出现系统宕机)。
(7)查看双机系统物理连接是否完好。
(8)通过以上命令关闭所有有关HA进程后,重启HA smitty clstart,重新验证HA是否
正常。
(9)通过以上各个步骤的操作HA依然不能正常工作,关机重启系统。
HA故障处理涉及到系统应用及数据库,在操作过程中命令较繁杂,总结经验完善管理,
得出结论:规范操作HA启动及相关数据库、应用服务的命令,完善小型机关于HA及应用服务启、停等操作的“作业指导书”。
1.4、其它硬件故障
机器宕机或无法启动的硬件故障:主板、CPU、I/O柜(包含本地盘、光驱、PCI插槽等
的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等。这些设备的损坏等将使系统无法完成自检、引导和启动,液
晶显示屏上都将有错误信息,如果是工作状态下出现这些硬件损坏,系统将被挂起或宕机。
处理方法:观察液晶屏上的错误码或使用命令:errpt –dH 查看错误信息。如果故障机是双机
系统,可以将损坏机器上的服务切换到备机,然后修复故障机器后再恢复系统。至电IBM进
行硬件故障报修。
仅对系统产生功能影响机器的硬件故障:网卡、本地硬盘有坏块、显卡、SSA卡和其他
外围设备。些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对
于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。处理方法:观察液晶屏上的错误码或
使用命令:errpt –dH 查看错误信息。如故障机不影响正常运行,迅速至电IBM进行硬件故障报修,密切观察、加强巡视。故障机不能正常运行所提供的服务,如是双机系统,可以将损
坏机器上的服务切换到备机,至电IBM进行硬件故障报修,修复故障机器后再恢复系统。
以上故障的发生处理起来较复杂,需专业工程师诊断处理,故障后总结经验,得出结论:规范硬件故障处理流程,完善与及时更新流程及联系人及电话,做好故障处理分析,完善相
应“应急预案”,如各地市发生较频繁可纳入“典型故障处理”文档。
结束语
本文通过IBM P570小型机典型案例故障分析处理,在总结近年来处置应对各类突发事件
的经验的基础上,进行全面地性能监控和分析、建立完善的设备档案、设定周全的应急方案,同时全面分析小型机可能引发突发事件的各类危险源,结合实际,制定切实可行的应对措施
和科学规范的处置经验,同时在积累与总结中完善安全运维管理机制。为电力网信息安全交
互提供有力保障。
作者简介
张彬彬(1973.11-),女,汉族,内蒙古人,本科,工学学士,高级工程师,从事计算
机应用工作。