IBM P570小型机典型故障案例的分析与处理
IBM小型机常见故障的基本定位
一故障得定义。
弄清楚系统发生了什么问题、系统现在能做什么?不能做什么?ﻫ、故障什么时候发生得?.有没有做平时不同得操作?.故障有没有规律?定时还就是不定时?发生得频率有多高?、就是一台机器出现故障还就是多台机器故障?故障现象就是否相同?ﻫ.最近有没有做改动?如安装了新得硬件、软件,改变了系统得一些设置。
二故障信息得收集ﻫ1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。
ﻫ2)系统故障记录(errorlog)errdemon进程在系统启动时自动运行ﻫ记录包括硬件、软件及其她操作信息ﻫ故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别得机器上分析errpt 命令得使用(普通用户权限也可使用)ﻫ#errpt|more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC00 T0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failureﻫ9DBCFDEE 0701000000T 0 errdemon Error logging turned onﻫ038F25800624131000 U H scdisk0 UNDETERMINED ERRORAA8AB2410405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年)ﻫT(类型): P 永久; T 临时; U 未知(永久性得错误应引起重视)C(分类): H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息ﻫ#errpt -d S 列出所有软件出错信息ﻫ#errpt—aj ERROR_ID列出详细出错信息ﻫ# errpt -aj 0502f666 <-—-ERROR_ID用大小写均可ﻫ例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51ﻫSequence Number: 95ﻫMachine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResourceType: hscsiLocation: 00-08ﻫVPD: <—-- Virtal Product Data ﻫDeviceDriverLevel、、.。
IBM-POWER6-570小型机硬件管理与维护
lsdev -C | grep mem #查看物理内存状态
lsattr -El mem0
#查看物理内存属性
lsdev -C | grep proc #查看物理CPU状态
lsattr -El procX
#查看物理CPU属性
pmcycles –m
#查看逻辑CPU属性
第14页,共24页。
PCI adapters
用,逻辑设备名允许访问。
lsdev -C
第20页,共24页。
热拔插设备更换
#lsdev -C | grep cd0
#rmdev -l cd0
#lsdev -C | grep cd0
#mkdev -l cd0 #lsdev -C | grep cd0
#rmdev -dl cd0
#diag #lsdev -C | grep cd0 #cfgmgr #lsdev -C | grep cd0
#查看设备状态
#将设备从available转为defined
#将设备从defined转为available
#彻底删除
第21页,共24页。
磁盘
FC 5756 IDE Slimline DVD-ROM Drive
FC 5757 IBM 4.7 GB IDE Slimline DVD-RAM Drive
多么痛的领悟:十三起惨痛宕机案例
多么痛的领悟:十三起惨痛宕机案例01AIX 下NTP 设置不当导致的多个集群宕机事情发生在一段时间之前,接到朋友电话,用户有三套oracle rac 集群运行在 aix 小机上,本地两套,同城机房两套,做完设备搬迁后的一天晚上,其中本地和同城的两套rac 突然就整个重启了,而且发生在同一时间点。
网络、小机、存储、数据库分属不同的维保厂商,这就开始了扯皮。
各家就开始从自己的方向自证无过错。
我去之前内心也比较倾向于 oracle 的网络心跳出了问题,crs 抢 vote disk 的时候触发了重启。
但由于是小机方的代表,仅从aix 层面做了排查,未发现明显原因。
对各主机宕机的时间做了一个梳理,去和oracle 的事件日志去比对。
暂时没查到什么东西。
宕机产生的dump 发到了IBM 原厂,IBM 后来出了个报告,根据dump 内容定位触发宕机的进程为cssd。
oracle dba 重点看了那个进程的日志,发现宕机时间前后,时间突然变更,提前了40多秒。
dba 确认,时间变更过多,cssd 进程会导致系统重启,怀疑和时间同步有关。
经检查,3套 aix 的 rac 集群使用了同一个 ntp server,但有一套没发生问题。
对比检查差异,发现没问题的那套主机集群使用xntpd 方式配置了时间同步。
出问题的主机则直接使用了ntpdate 命令做时间更新,并写入了 crontab 定期执行。
检查 /var/adm/cron/log 日志,发现定时任务的执行时间和 cssd 故障时间一致。
检查时间服务器,发现搬迁后,时间服务器的时间产生了较大偏差,xntpd 方式的时间同步在时间偏差大时不会去强制同步,ntpdate 命令的方式没有这个限制,会直接进行同步。
最终导致了 cssd 进程检测到过大时间偏差后触发了宕机。
经验分享:配置时间同步时,建议使用xntpd 服务的方式,不用直接在定时任务里写 ntpdate,因为 ntpdate 比较粗暴,发生故障时较大的时间偏差会导致应用出现问题,触发无法预知的后果。
IBM操作系统常见维护案例1
IBM操作系统常见维护案例IBM 小型机作为联通现在主要使用的服务器,下面浅谈一下在维护中所遇到的几则典型案例。
(一)HBA卡故障及更换一、系统环境操作系统:IBM Aix 5.2存储:Emc Dmx 1000存储交换机:EMC 32口二、故障:主机无法看到连接到存储的逻辑硬盘设备,看到的逻辑硬盘设备为defined三、解决方法:1、查看系统日志:#Errpt –dH3074FEB7 1125202009 T H fscsi1 ADAPTER ERROR# errpt -aj 3074FEB7 |more---------------------------------------------------------------------------LABEL: FSCSI_ERR4IDENTIFIER: 3074FEB7Date/Time: Thu Nov 25 20:20:09 BEISSequence Number: 607732Machine Id: 0052901A4C00Node Id: JNHXDBAClass: HType: TEMPResource Name: fscsi1Resource Class: driverResource Type: efscsiLocation: 14-08-01DescriptionADAPTER ERRORProbable CausesADAPTER HARDW ARE OR CABLEADAPTER MICROCODEFIBRE CHANNEL SWITCH OR FC-AL HUBFailure CausesADAPTERCABLES AND CONNECTIONSDEVICERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLES AND THEIR CONNECTIONSVERIFY DEVICE CONFIGURATION查看emc powerpath路径:# powermt displaySymmetrix logical device count=22CLARiiON logical device count=0================================================================= ----- Host Bus Adapters --------- ------ I/O Paths ----- ------ Stats ------### HW Path Summary Total Dead IO/Sec Q-IOs Errors=================================================================0 fscsi0 optimal 22 0 - 0 01 fscsi1 failed 21 21 -0 21 通过日志查看,确定为连接光纤或fscsi1卡问题2、通过光纤及存储交换机(端口查看、并更换端口方式)检查后,确定hba卡故障3、定位设备槽位及设备wwn号# lscfg -vpl fcs1DEVICE LOCATION DESCRIPTIONfcs1 14-08 FC AdapterPart Number.................00P4494EC Level....................ASerial Number...............1D3150C2D8Manufacturer................001DFRU Number.................. 00P4495Network Address.............10000000C933579FROS Level and ID............02C03951……………………………….Device Specific.(YL)........U0.1-P2-I2/Q1PLATFORM SPECIFICName: fibre-channelModel: LP9002Node: fibre-channel@1Device Type: fcpPhysical Location: U0.1-P2-I2/Q14、查看该hba卡连接的设备:hdisk2 Defined 14-08-01 EMC Symmetrix FCP Raid1hdisk3 Defined 14-08-01 EMC Symmetrix FCP RaidS……………………………………………………………………..hdisk24 Defined 14-08-01 EMC Symmetrix FCP RaidS5、删除坏hba识别的磁盘#rmdev -Rdl hdisk*6、删除hba卡#rmdev -Rdl fcs17、停机后更换hba卡8、运行cfgmgr检测新的hba卡设备9、查看新设备的wwn号,并将emc存储绑定新hba卡wwn#symmask -wwn 10000000C933579F replace 10000000C930D1EF10、运行emc powerpath软件,识别emc逻辑硬盘#emc_cfgmgr#powermt config11、查看硬盘设备,如果存在,连接正常。
P系列常见问题解决方法
P系列常见问题解决方法如何关闭IBM小型机面板告警灯(为橘红色)1、进diag,选task,找到identify and attention indicators2、用命令/usr/lpp/diagnostics/bin/usysfault -s normal3、先检查有没有什么问题,如果没有问题,就这样处理diag-> Task Selection-> Identify and Attention Indicators中找到Set System Attention Indicator to NARMAL(第二项),按回车,使前面出现个"+",然后用"ESC+7",一会就好了,灯灭了后就用"ESC+0"退出即可准确定位设备和解除报警有一环境需要重新打标签,AIX5L可以亮灯以确认你所找到的卡是不是在这槽位上。
实施如下:1.亮灯#lsslot -c pci#lsslot -c slot#lsdev -Cc adapter#ifconfig -a#diag-->Task Selection-->Hot Plug Task-->PCI Hot Plug Manager-->Identify a PCI Hot Plug Slot-->选择你所要标识的设备,回车-->命令运行,设备就会闪灯;按回车完成〔即不闪灯〕,或者Q 退出。
2.关闭小型机橙色告警灯#diag-->Task Selection-->Identify and Attention Indicators-->Set System Attention Indicator to Normal-->回车,选项前变为“+”-->按“F7”提交-->熄灭小型机橙色告警灯[也可以准确定位在报警的设备] EG:#diag-->Task Selection-->Log Repair Action-->sys0 System Objectsysplanar0 System Planar-->回车,选项前变为“+”-->按“F7”提交;选项前变为“*”停用SENDMAIL。
AH联通IBM_P570小型机风扇更换方案报告
安徽联通IBM P570 风扇更换方案(v 100220)版本说明目录更换方案说明 (2)1准备工作.................................................................................................................... 错误!未定义书签。
2更换步骤说明............................................................................................................. 错误!未定义书签。
一、准备工作:由于是在线系统为了将影响减到最小,请务必在实施前要求应用商做好所有数据备份及相关备份。
对于重要业务的应用,请在实施前做好其他应急方案,保证业务正常二、更换步骤说明:由于该部件为可热插拔部件,故方案定位在线更换1.打开前面盖板2.从HMC控制台或者HMC口进入ASMI菜单,选择左侧的Concurrent maintenance——Controlpanel,在右侧的选项里选择Remove and click 点击继续,点击保存并退出,这样就给控制面板下电了。
3.再选择左侧的Concurrent maintenance-- IDE Device Control,选择Power off,这样就给光驱下电4.取出液晶面板和光驱5.确定风扇位置,更换风扇(如下图)6.安装光驱和液晶面板,并进入ASMI菜单,选择Concurrent Maintenance,将光驱状态选择为poweron,将液晶面板选为install并保存退出7.查看液晶面板和光驱是否可以重新工作。
Errpt 查看系统有无报错8. 检查应用。
IBM小型机内置RAID更换故障硬盘
一、现象描述✍∙∙一台IBM小型机,带RAID卡,内置3块硬盘,做RAID5,无热备✍∙∙第2块硬盘亮黄色故障灯二、做好rootvg备份(mksysb)和数据备份(强烈建议)备份完数据后,为了安全,停止应用对硬盘的访问三、故障确认✍∙∙执行lsdev –Cc pdisk/hdisk、errpt命令查看系统是否有硬盘报错✍∙∙用diag->Task selection -> RAID Array Manager -> IBM SASDisk Array Manager ->List IBM SASDisk Array configuration检查raid信息和pdisk 的状态hdisk0 0B-08-ff-0,0 Degraded RAID 5 Array 484.2GB pdisk0 0B-08-00-5,0 Failed Array Member 242.8GBpdisk1 0B-08-01-5,0 Active Array Member 242.8GBpdisk2 0B-08-00-3,0 Active Array Member 242.8GB✍∙∙用以下操作再次确认硬盘槽位信息:Diag->Task Selection->RAID Array Manager->IBM SASDisk Array Manager-> Diagnostics and Recovery Options->SCSI andSCSI RAID Hot Plug Manager-> Identify a Device Attached toa SCSI Hot S Device选择对应的硬盘,按F7确认硬盘所在的槽位(磁盘的黄灯在闪烁)四、进行磁盘更换1) 用hot plug把硬盘更换,操作如下:diag?Task Selection?RAID Array Manager?IBM SASDisk Array Manager?Diagnostics and Recovery Options?SCSI and SCSI RAID Hot Plug Manager?Replace/Remove a Device Attached to an SCSI Hot S Device 把故障硬盘更换,回车然后按F3回到上一层菜单SCSI and SCSI RAID Hot Plug ManagerConfigure Added/Replaced Devices2) 更换硬盘后,回到diag->Task selection ->RAID Array Manager ->IBM SASDisk Array Manager ->List IBM SAS Disk Array configuration可以看到pdiskX的状态是failed,比如下图:3) hdisk0 0B-08-ff-0,0 Degraded RAID 5 Array 484.2GB4) pdisk0 0B-08-00-5,0 Failed Array Member 242.8GB5) pdisk1 0B-08-01-5,0 Active ArrayMember 242.8GB6) pdisk2 0B-08-00-3,0 Active ArrayMember 242.8GB7) 用lsdev –Cc pdisk是可以看到pdisk0是available五、对RAID进行重建diag->Task selection ->RAID Array Manager ->IBM SASDisk Array Manager ->Reconstruct a IBM SASDisk Array选择新产生的磁盘pdisk0进行重建(对146GB HDD大概需要4小时)重建有进度显示,可以退出重建在后台执行六、重建完毕后,确认RAID的状态为optimal diag->Task selection ->RAID Array Manager ->IBM SASDisk Array Manager ->List IBM SASDisk Array configuration七、确认硬盘没问题,启动应用。
21-IBM小型机 维护及故障处理集锦
目录声明 (1)IBM (2)1 智能网应用系统在IBM RS/6000上典型问题汇总 (2)1.1 HACMP启动不正常 (2)1.2 NFS在系统启动时不能自动重启 (3)1.3 CPU占用率过高 (3)1.4 TCP/IP 环境有问题,导致应用中调用echo出错 (4)1.5 测试将主机工作网卡线拔掉,备用网卡接管失败 (5)1.6 ftp,telnet失败,但可以ping通 (5)1.7 IBM HDR HACMP双机系统备机启动失败 (7)1.8 HACMP双机环境极其不稳定。
经常发生不必要的网卡切换及双机切换 (8)声明Copyright ©2004华为技术有限公司版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本书内容的部分或全部,并不得以任何形式传播。
®、HUAWEI®、华为®、C&C08®、EAST8000®、HONET®、®、视点®、ViewPoint®、INtess®、ETS®、DMC®、TELLIN®、InfoLink®、Netkey®、Quidway®、SYNLOCK®、Radium®、雷霆®、M900/M1800®、TELESIGHT®、Quidview®、Musa®、视点通®、Airbridge®、Tellwin®、Inmedia®、VRP®、DOPRA®、iTELLIN®、HUAWEI OptiX®、C&C08iNET®、NETENGINE™、OptiX™、iSite™、U-SYS™、iMUSE™、OpenEye™、Lansway™、SmartAX™、边际网™、infoX™、TopEng™均为华为技术有限公司的商标。
IBM服务器故障诊断及排除
IBM服务器故障诊断及排除IBM服务器故障诊断及排除1.引言本文档旨在指导用户进行IBM服务器故障诊断及排除,以保证服务器的正常运行。
本文档涉及多个章节,详细介绍了服务器故障的可能原因和对应的排除方法。
根据实际情况选择适用的章节进行查阅。
2.服务器无法启动2.1 电源故障2.1.1 检查电源连接是否松动2.1.2 检查电源线路是否正常2.1.3 检查电源是否损坏2.2 处理器故障2.2.1 检查处理器是否插入正确2.2.2 检查处理器是否损坏2.3 内存故障2.3.1 检查内存是否插入正确2.3.2 运行内存检测工具进行故障排查3.服务器性能下降3.1 温度问题3.1.1 检查服务器散热是否正常3.1.2 清洁服务器内部灰尘3.2 存储问题3.2.1 运行存储诊断工具对存储进行检测3.2.2 检查存储连接是否松动3.3 网络问题3.3.1 检查网络连接是否正常3.3.2 运行网络诊断工具进行故障排查4.服务器噪音过大4.1 风扇故障4.1.1 检查风扇连接是否松动4.1.2 清洁风扇和散热器4.2 磁盘故障4.2.1 运行硬盘健康检测工具4.3 电源故障4.3.1 检查电源连接是否松动4.3.2 检查电源是否损坏5.服务器操作系统错误5.1 操作系统冲突5.1.1 更新服务器操作系统到最新版本5.1.2 检查软件是否与操作系统兼容5.2 驱动程序故障5.2.1 更新驱动程序到最新版本5.2.2 重新安装驱动程序6.其他故障6.1 BIOS设置错误6.1.1 检查BIOS设置是否正确6.1.2 重置BIOS设置为默认值6.2 电源线路问题6.2.1 检查电源线路是否过载6.3 RD故障6.3.1 运行RD诊断工具进行故障排查6.3.2 替换故障的RD组件附件:本文档附带以下附件供参考:- IBM服务器用户手册- IBM服务器故障诊断工具法律名词及注释:1.电源线路:指连接服务器电源插头和电源插座的电线路。
非常详细的IBM小型机故障定位方法
非常详细的IBM小型机故障定位方法IBM, 小型机, 故障定位一故障的定义.弄清楚系统发生了什么问题.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的操作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。
二故障信息的收集1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。
2)系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION TIMESTAMP: MMDDHHMMYY (月日时分年)论T(类型): P 永久; T 临时; U 未知(永久性的错误应引起重视)C(分类): H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00003)控制面板上的LED 代码.8 位代码,通常系统故障灯会同时亮起。
IBM小型机故障描述以及解决办法
IBM⼩型机故障描述以及解决办法IBM⼩型机故障描述以及解决办法针对基础⽀柱产业,⽣产系统的⾼度实时性是产⽣维保的主要动因,针对财政银⾏等综合决策系统,数据⾼可⽤性是产⽣维保的主要动因。
据统计,2012年国内有10万个各级政府机构和150万家企业,⽬前许多客户已经历了买设备、上应⽤发展到今天保运⾏阶段。
IBM在服务器市场占有率⾼达79%,针对IBM⼩型机的维保,市场最成熟,技术积累最丰富。
维保主要分为两部分:⽇常维护、故障修复⽇常维护部分:虽然⼩型机在运⾏态很少改动配置,但经常监控运⾏状态却是⾄关重要的,通过规律的监控,通过与业务联系,⼀⽅⾯可以预测⼩型机负载压⼒,把握运⾏规律,另⼀⽅⾯可以预测故障的发⽣点⽽及时修复,将故障终⽌,消灭在萌芽状态,使得业务连续和⾼可⽤。
专业的巡检可以判断系统运⾏的瓶颈,从⽽为可能增长的业务量及时提供硬件升级⽅案,来避免瓶颈的出现。
⽇常维护主要⽅式是巡检,分周巡检、⽉度巡检以及季度巡检。
⽉度巡检以⽉为时间单位进⾏例⾏巡检,对⼩型机运⾏状态以及故障监测,使⽤⼀般指标,巡检⽐较及时;周巡检以周为时间单位,频次⾼,对⼩型机状态监测度最⾼,动态把握最明确,缺点是对⼈⼒资源耗费⽐较⼤;季度巡检为深度巡检,系统整体信息⽐较准确,但是频率低对系统实时状态把握度较差,加之⽉度巡检在没季度的最后⼀次巡检都是深度巡检,⽉度巡检就弥补了季度巡检的实时性缺陷。
IBM⼩型机故障:任何⼩型机都有⼀定的故障率,即使是IBM、HP所发布的零宕机产品也不能保证百分之百⽆故障。
随着使⽤时间的增加,机房环境,电⼦元器件⽼化等原因,导致故障,尤其意外断电对电⼦元器件的冲击更⼤。
按故障性质分,可分为隐性故障和显性故障,隐性故障可能有未检测到的故障点,或者因为电⼦元器件使⽤寿命的增长突然崩溃⽽导致的故障。
隐性故障最典型的是关机后导致不能重启进⼊系统,应对⽅法是定期巡检,排查隐性故障,易损部件制定科学的周期进⾏更换操作等。
IBM pSeries 550小型机维修服务成功案例如下
IBM pSeries 550小型机维修服务成功案例如下:案例一、北京市朝阳区CBD商业中心某企业的IBM p550小型机坏了,IBMp550(9113-550)小型机经过我公司的工程师诊断及配件的测试,更换配件,机器能够正常的启动机器,维修成功。
错误现象:上电后,没有任何显示。
液晶屏出现圆点进度状态解决的方法:技术调试。
结论:机器能够正常的启动机器,维修成功。
案例二、北京市朝阳区国贸商业区的某电信应用软件开发商的IBM p550坏了,经过我公司的工程师诊断及配件的测试,机器能够正常的启动机器,维修成功。
错误现象:上电后,没有任何显示解决的方法:更换配件。
结论:维修成功。
案例三、北京市通州区某烟草企业IBM p550小型机HACMP 5.3双机切换问题,经过我公司的工程师诊断及配件的测试,机器能够正常的接管,维护成功。
错误现象:HACMP 5.3双机切换问题解决的方法:技术调试结论:机器能够正常的切换,维护成功。
案例四、安徽省阜阳市某超市企业IBM p550小型机无法启动,经过我公司的工程师诊断及配件的测试,机器能够正常启动,维护成功。
错误代码:B150F22A解决的方法:技术调试结论:机器能够正常的启动,维修成功。
案例五、北京市某科技企业IBM p550小型机无法启动,经过我公司的工程师诊断及配件的测试,机器能够正常启动,维护成功。
错误代码:11001521解决的方法:技术调试结论:机器能够正常的启动,维修成功。
案例六、北京市某科技企业IBM p550小型机无法启动,经过我公司的工程师诊断及配件的测试,机器能够正常启动,维护成功。
错误代码: B114F2DF解决的方法:技术调试结论:机器能够正常的启动,维修成功。
案例六、河北省唐山市某港口企业IBM p550小型机无法启动,经过我公司的工程师诊断及配件的测试,机器能够正常启动,维修成功。
错误代码: B150D601解决的方法:技术调试结论:机器能够正常的启动,维修成功。
ibm服务器故障诊断及排除
ibm服务器故障诊断及排除
第1页
服务器故障诊疗流程
总体诊疗流程 Y 加电问题诊疗 Y 自检问题诊疗 Y 操作系统开启 Y
诊疗 服务器诊疗流 Y
ibm服务器故障诊断及排除
开始诊疗
是否进行总 体诊疗
服务器是否 正常加电
服务器是否 能够完成自
检
操作系统是 否能够正常
开启
服务器是否 有Insight
IBM服务器光通路诊疗面板
指示灯
问题
操作
CNFG
发生硬件配置错误。
CPU
1. 确定CNFG 指示灯是否也 当只有CPU 指示灯点亮时,
才表示微处理器发生故障。
当CPU 指示灯和CNFG 指示
灯都点亮时,表示微处理 器配置无效。
点亮。假如CNFG 指示灯不亮
,表
示微处理器发生故障。
2. 假如CNFG 指示灯点亮, 表示微处理器配置无效。
1. 检验PCI 插槽上指示灯, 第9页
DELL 服务器故障诊疗流程
DELL服务器光通路诊疗
第一行信息 E0000
每二行信息 OVRFLW CHECK LOG
E0119
TEMP AMBIENT
E0119
TEMP BP
ibm服务器故障诊断及排除
原因
LCD 过载信息。 LCD 上最多能够连续显示三则 错误信息。第四则信息显示为 标准过载信息。
IBM 服务器故障诊疗流程
IBM服务器光通路诊疗面板
指示灯
问题
OVER SPEC
因为某个
电源通道
上出现电
源超负荷
情况,所
以关闭了
服务器。
电源功率
IBMP系列小型机故障定位故障排除资料
第三章、故障定位、故障排除根据我们在实际商用系统中碰到问题,我们总结出了以下几种常见故障及其定位方式和解决方法。
3.1硬件故障硬件故障有很多种,对系统产生的影响也不一样,这里按其故障对系统的影响程度分:致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类:其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括:主板、CPU、I/O柜(包含本地盘、光驱、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等注:I/O柜和CEC柜一般在比较高端的小型机才有,如M80,低端的是合一的。
这些设备的损坏等将使系统无法完成自检、引导和启动,液晶显示屏上都将有错误信息,可根据液晶显示屏上的错误码对照Service Guide查的错误原因,如果是工作状态下出现这些硬件损坏,则系统将被挂起或宕机。
其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的硬件包括:网卡、本地硬盘有坏块、显卡、SSA卡和其他外围设备这些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。
故障定位和排除:以上硬件故障信息都可以使用:液晶屏上的错误码或:errpt –dH 查看到根据错误码确定是什么硬件出了故障,对商用系统来讲,由于是双机系统,如果损坏机器是主机可以将此服务器切换成备机,然后修复故障机器,恢复系统。
3.2磁阵故障磁阵引起的故障是目前碰到的最频繁、危害最大的故障,据不完全统计,其故障覆盖到总故障的70%以上,具体来讲,可能引起磁阵故障的环节包括:磁阵硬盘、7133柜子、主机上的SSA卡、连接7133与主机的SSA线、硬盘的位置和ssa线的接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/ssa卡的微码等都可能造成7133的异常。
IBM-小型机日常管理和故障处理
故障处理---故障的定义
弄清楚系统发生了什么问题
– 系统现在能做什么?不能做什么? – 故障什么时候发生的? – 有没有做平时不同的操作? – 故障有没有规律?定时还是不定时?发生的频率有多高? – 是一台机器出现故障还是多台机器故障?故障现象是否相同? – 最近有没有做改动?如安装了新的硬件、软件,改变了系统
Detail Data SENSE DATA 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
13
HMC的使用
14
HMC 使用
Hardware Management Console – 进行P系列小型机的硬件管理、维护,以及逻
8
系统健康检查
#lsattr –El inet0
authm
65536
Authentication Methods
True
hostname
qtsms
Host Name
True
gateway
Gateway
True
route
net,,0,172.40.10.1 Route
True
bootup_option no
Serial Optical Network Interface True
rout6
FDDI Network Interface
True
route属性是否有相应的路由信息。格式为:net,,0,172.16.23.81 如果没有缺省路由,执行命令:
#chdev –l inet0 –a route=0,172.16.23.81 其中172.16.23.81为网关 如果缺省路由不正确,则先删除路由,再增加缺省路由:
IBM P系列小型机_故障定位、故障排除
第三章、故障定位、故障排除根据我们在实际商用系统中碰到问题,我们总结出了以下几种常见故障及其定位方式和解决方法。
3.1硬件故障硬件故障有很多种,对系统产生的影响也不一样,这里按其故障对系统的影响程度分:致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类:其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括:主板、CPU、I/O柜(包含本地盘、光驱、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等注:I/O柜和CEC柜一般在比较高端的小型机才有,如M80,低端的是合一的。
这些设备的损坏等将使系统无法完成自检、引导和启动,液晶显示屏上都将有错误信息,可根据液晶显示屏上的错误码对照Service Guide查的错误原因,如果是工作状态下出现这些硬件损坏,则系统将被挂起或宕机。
其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的硬件包括:网卡、本地硬盘有坏块、显卡、SSA卡和其他外围设备这些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。
故障定位和排除:以上硬件故障信息都可以使用:液晶屏上的错误码或:errpt –dH 查看到根据错误码确定是什么硬件出了故障,对商用系统来讲,由于是双机系统,如果损坏机器是主机可以将此服务器切换成备机,然后修复故障机器,恢复系统。
3.2磁阵故障磁阵引起的故障是目前碰到的最频繁、危害最大的故障,据不完全统计,其故障覆盖到总故障的70%以上,具体来讲,可能引起磁阵故障的环节包括:磁阵硬盘、7133柜子、主机上的SSA卡、连接7133与主机的SSA线、硬盘的位置和ssa线的接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/ssa卡的微码等都可能造成7133的异常。
IBM PC机常见故障原因及排除方法
IBM PC机常见故障原因及排除方法
李克强
【期刊名称】《家用电器科技》
【年(卷),期】1994(000)005
【摘要】IBMPC机常见故障原因及排除方法李克强近年,微机在家庭中已逐渐普及,但由于错误地操作和其它原因使计算机常常发生一些故障。
下面就IBMPC机上出现的一些故障的原因及排除方法予以简单介绍。
1系统无法启动,无电源指示,无任何动作,屏幕无显示信息出现这类故...
【总页数】2页(P39-40)
【作者】李克强
【作者单位】无
【正文语种】中文
【中图分类】TP370.63
【相关文献】
1.拖拉机常见故障原因及排除方法 [J], 王晓东
2.拖拉机变速器常见故障原因与排除方法 [J], 苗云成;刘国伟
3.农用水泵在起动和运行过程中最常见的故障原因及排除方法 [J], 李光新
4.喷油器常见故障原因与预防排除方法 [J], 王国政
5.拖拉机制动系常见故障原因与排除方法 [J], 丁新红
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IBM P570小型机典型故障案例的分析与处理
摘要:根据近年来本地区P570主机的典型故障及处置方法,总结了一套P570
小型机典型故障的维护管理的经验,提高了信息系统检修质量和健康水平。
同时
总结管理思路,与时俱进,完善运维体系、加强运维管理、提升信息安全运维水平,保证系统安全及可靠运行,为电力网数据信息安全交互提供了有力保障。
关键词:故障处理,运维管理
引言
P570小型机作为具有很高的可靠性与稳定性能,做为本公司核心服务器,它
具有较高的专业性、复杂性、实时性、不间断性等特点,是电力企业普遍采用的
服务器。
随着使用年限的增加,设备老化等原因会造成整个系统可靠性降低,硬
件设备发生故障的频率也越来越高。
现根据近年来本地区P570主机机常出现的
一些典型故障及处理方法,总结出一套P570小型机典型故障的维护管理经验,
提高了信息系统检修质量和健康水平,确保信息系统安全稳定运行。
同时我们在
此运维基础上,扩展了信息系统基础安全运维的管理思路。
1 小型机典型故障处理及运维管理提升
统计570小型机自2007年投运到目前为止,共发生电源故障、风扇故障、背板故障、HBA卡故障、硬盘故障等94次,随着公司推进运维检修精细化管理工作,加强对信息设备状态的监视,准确掌握信息设备的状态,当主机系统发生故
障时,依靠专业的管理经验,可以在最短的时间内查明故障原因,迅速将系统恢
复到正常工作状态,是保证设备及软件安全、稳定、高效运行的关键。
同时完善
小型机设备的运维管理制度,是对小型机系统稳定运行的有效保障。
除了采用技
术手段外,我们还需建立有效的安全管理机制,“三分技术,七分管理”是信息安
全领域的管理的精髓,在实际的工作中如何“管理”到位,更需要在实践中总结经验,不断的更新,两者有机的结合起来,通过管理提升我们发现,小型机的设备
故障主动发现率由38%上升到93%(如图1),说明通过运维管理的提升设备故
障的主动发现率有了显著的提升,确保了处理故障和更换备件的宝贵时间。
图1采用管理提升前后故障发现率对比
运维过程中发现各地市典型发生的故障,如P570小型机的CEC柜电源模块故障是最常见的故障之一,我公司原八块电源模块已全部陆续更换,其间还发生过同一CEC柜两路冗余电
源都发生故障的宕机事件,如果管理及巡视得当,处理方法的得当会减少事故的发生,并且
减少系统恢复时间;交换机模块故障也是常见故障,但由于双通道的原因很难会被人发现,
具有很强的隐蔽性;HA故障也偶有发生,需耐心排查、调试;本文还列举两类硬件故障,分别是使机器宕机或无法启动的硬件故障和仅对系统产生功能影响机器的硬件故障。
通过以下
故障在运维过程中不断总结经验同时完善运维制度和安全管理机制。
1.1、电源模块常见故障
小型机的每个CEC柜都有两路电源,互为冗余,如两路冗余电源发生一块电源模块故障,此时不影响系统及运行,但应立即报修、密切观察、加强巡视,待备件到场立即更换;
如在同一CEC柜的两路冗余电源都发生故障系统必将宕机,此时应立即报修,等待备件
到场,如果参考以往经验及设备特性,进一步进行后故障时刻的思考,得出结论:可将一路
故障电源与未发生故障的CEC柜进行调换,开机恢复分区,恢复系统运行,待备件到场后再
进行备件更换,本方案可以提前3到4小机恢复系统的运行,我们将此经验方法更新在相应“专项应急预案”中。
1.2、小型机光纤交换机常见故障
光纤交换机故障灯亮时,可检查各光纤模块指示灯(在光纤模块左侧)有无亮黄灯,如
果有说明本光纤模块故障,可以用备用模块进行替换。
如光纤交换机故障灯亮,各光纤模块
指示灯正常,可至电EMC报修,鉴于光纤模块的故障率较高,发生较频繁的现象,总结经验完善管理,得出结论:可常备一两个光纤交换机模块,在发生故障,确认故障后及时进行替换,此项工作可在“运行规程”当中完善。
1.3、HA故障
在执行任何事件脚本出现异常而无法正常运行HA时,采取以下步骤:
(1)关闭所有有关HA的应用进程,如手工停止有关进程,手工停止数据库。
(2)umount所有共享vg上的文件系统。
(3)执行varyoffvg将共享vg从服务器离线。
(4)执行smitty clstop选择Shutdown mode为"forced"方式关闭HA。
(5)用命令
a) # ps -ef
b) # lsvg -o
c) # lssrc -g cluster
d) # netstat –i
(6)查看以上操作是否执行完整,如果有些相关进程未关闭可以使用kill将其杀掉(不
能保证系统保持运行正常,可能出现系统宕机)。
(7)查看双机系统物理连接是否完好。
(8)通过以上命令关闭所有有关HA进程后,重启HA smitty clstart,重新验证HA是否
正常。
(9)通过以上各个步骤的操作HA依然不能正常工作,关机重启系统。
HA故障处理涉及到系统应用及数据库,在操作过程中命令较繁杂,总结经验完善管理,
得出结论:规范操作HA启动及相关数据库、应用服务的命令,完善小型机关于HA及应用服务启、停等操作的“作业指导书”。
1.4、其它硬件故障
机器宕机或无法启动的硬件故障:主板、CPU、I/O柜(包含本地盘、光驱、PCI插槽等
的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等。
这些设备的损坏等将使系统无法完成自检、引导和启动,液
晶显示屏上都将有错误信息,如果是工作状态下出现这些硬件损坏,系统将被挂起或宕机。
处理方法:观察液晶屏上的错误码或使用命令:errpt –dH 查看错误信息。
如果故障机是双机
系统,可以将损坏机器上的服务切换到备机,然后修复故障机器后再恢复系统。
至电IBM进
行硬件故障报修。
仅对系统产生功能影响机器的硬件故障:网卡、本地硬盘有坏块、显卡、SSA卡和其他
外围设备。
些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对
于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。
处理方法:观察液晶屏上的错误码或
使用命令:errpt –dH 查看错误信息。
如故障机不影响正常运行,迅速至电IBM进行硬件故障报修,密切观察、加强巡视。
故障机不能正常运行所提供的服务,如是双机系统,可以将损
坏机器上的服务切换到备机,至电IBM进行硬件故障报修,修复故障机器后再恢复系统。
以上故障的发生处理起来较复杂,需专业工程师诊断处理,故障后总结经验,得出结论:规范硬件故障处理流程,完善与及时更新流程及联系人及电话,做好故障处理分析,完善相
应“应急预案”,如各地市发生较频繁可纳入“典型故障处理”文档。
结束语
本文通过IBM P570小型机典型案例故障分析处理,在总结近年来处置应对各类突发事件
的经验的基础上,进行全面地性能监控和分析、建立完善的设备档案、设定周全的应急方案,同时全面分析小型机可能引发突发事件的各类危险源,结合实际,制定切实可行的应对措施
和科学规范的处置经验,同时在积累与总结中完善安全运维管理机制。
为电力网信息安全交
互提供有力保障。
作者简介
张彬彬(1973.11-),女,汉族,内蒙古人,本科,工学学士,高级工程师,从事计算
机应用工作。
郝战(1980.09-),男,汉族,江苏本人,工程硕士,工程师,主要从事信息安全管理工作。
王天鹏(1979.05-),男,汉族,江苏本人,助理工程师,从事计算机管理工作。