IBM小型机故障描述以及解决办法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IBM小型机故障描述以及解决办法
针对基础支柱产业,生产系统的高度实时性是产生维保的主要动因,针对财政银行等综合决策系统,数据高可用性是产生维保的主要动因。据统计,2012年国内有10万个各级政府机构和150万家企业,目前许多客户已经历了买设备、上应用发展到今天保运行阶段。IBM在服务器市场占有率高达79%,针对IBM小型机的维保,市场最成熟,技术积累最丰富。
维保主要分为两部分:日常维护、故障修复
日常维护部分:虽然小型机在运行态很少改动配置,但经常监控运行状态却是至关重要的,通过规律的监控,通过与业务联系,一方面可以预测小型机负载压力,把握运行规律,另一方面可以预测故障的发生点而及时修复,将故障终止,消灭在萌芽状态,使得业务连续和高可用。专业的巡检可以判断系统运行的瓶颈,从而为可能增长的业务量及时提供硬件升级方案,来避免瓶颈的出现。
日常维护主要方式是巡检,分周巡检、月度巡检以及季度巡检。月度巡检以月为时间单位进行例行巡检,对小型机运行状态以及故障监测,使用一般指标,巡检比较及时;周巡检以周为时间单位,频次高,对小型机状态监测度最高,动态把握最明确,缺点是对人力资源耗费比较大;季度巡检为深度巡检,系统整体信息比较准确,但是频率低对系统实时状态把握度较差,加之月度巡检在没季度的最后一次巡检都是深度巡检,月度巡检就弥补了季度巡检的实时性缺陷。
IBM小型机故障:任何小型机都有一定的故障率,即使是IBM、HP所发布的零宕机产品也不能保证百分之百无故障。随着使用时间的增加,机房环境,电子元器件老化等原因,导致故障,尤其意外断电对电子元器件的冲击更大。
按故障性质分,可分为隐性故障和显性故障,隐性故障可能有未检测到的故障点,或者因为电子元器件使用寿命的增长突然崩溃而导致的故障。隐性故障最典型的是关机后导致不能重启进入系统,应对方法是定期巡检,排查隐性故障,易损部件制定科学的周期进行更换操作等。显性故障指系统识别出,并在FCU 工作台显示出的故障情况,亦都是隐性故障发生跳变或产生结构性故障后系统给出的提示,此时需尽快根据故障代码对系统进行修复。
按故障层次分,可分为环境故障、硬件故障、操作系统故障、数据库故障、应用故障、网络故障等。
环境故障指因外部环境变化导致的系统停机,一般指不可抗力,比如地震、火山、海啸等。另外意外断电、火灾、机房空调故障导致散热失效、老鼠咬断电线导致短路等。对环境故障的处理以防范为主。在每次维保合同签订之后第一次巡检,金支点都会针对机房环境做一个详细的体检。
硬件故障指小型机、存储硬件因器质性损坏、老化引起的功能缺失、宕机等故障。也是小型机维保过程中频次最高发的故障之一。针对硬件故障有一整套方案应对,比如备件、备机两个系统,确保一旦发现硬件故障能及时更换备件,故障严重时备机替换支撑应用。
操作系统故障:因操作系统配置,系统升级、固件版本升级等引发的系统故障。
数据库故障:因数据库配置欠缺优化、数据库并发数据量大等造成应用数据读取、查询、写入等故障。
应用故障:因应用程序bug,设计缺陷等造成的应用不能正常访问、数据丢失等故障。
网络故障:因网络设备宕机、损坏等造成的数据库、应用不能正常访问或数据丢失的故障。
IBM小型机故障解决流程:
首先根据以下这些方面来考虑故障定位:
˃I弄清楚系统发生了什么问题
˃I系统现在能做什么不能做什么
˃I故障什么时候发生的
˃I有没有做平时不同的操作
˃I故障有没有规律定时还是不定时发生的频率有多高
˃I是一台机器出现故障还是多台机器故障故障现象是否相同
˃I最近有没有做改动如安装了新的硬件软件改变了系统的一些设置
故障信息的收集
收集故障信息对于判断诊断故障原因修复系统非常重要,以下列出几种常见故障查询方法
˃I系统故障记录(errorlog),用于巡检时的故障检测,或者发生故障后能进入系统状态时的故障检测,因为errdemon进程在系统启动时自动运行,记录包括硬件软件及其他操作信息故障记录,文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析;errpt 也可列出简短出错信息(普通用户权限也可使用)使用方法如下:
#errpt -d H 列出所有硬件出错信息
#errpt -d S 列出所有软件出错信息
#errpt -aj ERROR_ID 列出详细出错信息
#errpt -aj 0502f666 <--- ERROR_ID用大小写均可
˃I控制面板上的LED 上有8位代码,通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码,,小型机I/O柜上的显示面板上的Checkpoints 信息Error Code可通过查看系统服务手册、系统诊断手册来定位系统故障,控制面板代码在开机就会显示,不能进入系统时常以此方法进行故障定位˃I SMS (System Management Service) 故障记录
当主控台出现键盘图标后(LED 显示E1F1时)按1键,选择"Utilities"-"Error Log", 抄下8位故障代码
在SMS 中还可以更改系统启动顺序表,有镜像备份的可以直接通过修改启动顺序先进入到镜像系统盘恢复应用运行,再处理有故障的系统盘。
˃I 运行故障诊断程序(Diagnostic) 对系统硬件进行检查和诊断
当发现有硬件故障时应立即使用diag
#diag > 选高级诊断Advance Diagnostic)> 选问题诊断Problem Determination) 或选系统检查System Verification)
(选PD 会对系统错误记录进行分析)
diag运行后会给出SRN 代码故障设备名称及百分比地址代码等
故障解决办法个例
˃I 系统不能启动
系统启动阶段示意图
系统停在Stage1,可能为电源系统板CPU内存等硬件故障,记录故障代码通知维保工程师;系统停在Stage2可能是启动顺序表(bootlist)损坏或I/O子系统故障,可尝试进入SMS菜单检查启动顺序表并修改,若在选择bootlist时没有硬盘设备可选,或显示的硬盘信息不正确则可能是硬盘故障若根本没有SCSI设备可选,则链路有问题;系统停在Stage3可能是硬盘数据损坏系统设置文件出错或I/O子系统故障。
˃I 系统停在551555或557
发生在系统启动的第三阶段(Stage3)可能是
文件系统损坏
文件系统日志(jfslog)损坏
˃I rootvg中有坏硬盘
用系统光盘或系统备份带启动(必须与硬盘中的操作系统版本一致)
启动后选择选项3
"StartMaintenanceModeforSystemRecovery"
>"AccessaRootVolumeGroup"
>"Accessthisvolumegroupandstartashell
beforemountingthefilesystems"
格式化文件系统日志(jfslog)
#/usr/sbin/logform/dev/hd8
检查修复文件系统