IBM P系列小型机报错日志解析

合集下载

IBM小型机检查命令

IBM小型机检查命令

三:查看报错信息主要查看硬件的永久性报错#errpt -dH | pg软件的永久性报错#errpt -dS | pg系统报警灯四、机器的序列号# uname -MuIBM,9131-52A IBM,030666C5G五、操作系统版本:#oslevel -r# oslevel -r5300-05注:有时候不能使用是因为系统版本低的原因。

六、其他检测1、执行sysdumpdev –l检查dump是否设置为always allow sysdump;# sysdumpdev -lprimary /dev/hd6secondary /dev/sysdumpnullcopy directory /var/adm/rasforced copy flag TRUEalways allow dump FALSEdump compression ON2、执行sysdumpdev –e检查当前dump大小应该为主dump设备的大小的80%以下;# sysdumpdev -e0453-041 Estimated dump size in bytes: 1704984573、执行lsvg -l rootvg检查有否"stale"状态的逻辑卷;# lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 2 4 2 open/syncd N/Ahd8 jfs2log 1 2 2 open/syncd N/Ahd4 jfs2 40 80 2 open/syncd /hd2 jfs2 8 16 2 open/syncd /usrhd9var jfs2 1 2 2 open/syncd /varhd3 jfs2 8 16 2 open/syncd /tmphd1 jfs2 40 80 2 open/syncd /homehd10opt jfs2 1 2 2 open/syncd /optfwdump jfs2 1 2 2 open/syncd /var/adm/ras/platform4、执行lsps -s检查内存交换区占用情况;# lsps -sTotal Paging Space Percent Used512MB 1%# lsps -aPage Space Physical Volume Volume Group Size %Used Active Auto Type hd6 hdisk0 rootvg 512MB 1 yes yes lv5、执行df -m检查文件系统的分配状况,一般不要超过80%;# df -mFilesystem MB blocks Free %Used Iused %Iused Mounted on/dev/hd4 10240.00 6614.88 36% 18551 2% //dev/hd2 2048.00 667.25 68% 37425 20% /usr/dev/hd9var 256.00 246.13 4% 477 1% /var/dev/hd3 2048.00 1212.24 41% 2864 2% /tmp/dev/fwdump 256.00 255.64 1% 4 1% /var/adm/ras/platform/dev/hd1 10240.00 7713.15 25% 2526 1% /home/proc - - - - - /proc/dev/hd10opt 256.00 205.61 20% 976 3% /opt6、执行lsdev –Cc disk检查硬盘状态为available;# lsdev -Cc diskhdisk0 Available 04-08-00-8,0 16 Bit LVD SCSI Disk Drivehdisk1 Available 04-08-00-5,0 16 Bit LVD SCSI Disk Drive7、执行lsdev –Cc adapter检查PCI卡状态为available;# lsdev -Cc adapterent0 Available 09-08 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902) ent1 Available 09-09 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902) ide0 Available 03-08 ATA/IDE Controller Devicelai0 Available 0C-00 GXT135P Graphics Adaptersisscsia0 Available 04-08 PCI-X Dual Channel Ultra320 SCSI Adapterusbhc0 Available 08-08 USB Host Controller (33103500)usbhc1 Available 08-09 USB Host Controller (33103500)vsa0 Available LPAR Virtual Serial Adaptervsa1 Available LPAR Virtual Serial Adapter8、执行lsdev –Cc tape检查磁带机状态为available;# lsdev -Cc tapermt0 Available 04-08-00-0,0 LVD SCSI 4mm T ape Drive9、执行lsdev – Cc processor检查CPU状态为available;# lsdev -Cc processorproc0 Available 00-00 Processorproc2 Available 00-02 Processor10、执行lsattr –El sys0|grep autorestart检查系统crash后是否自动重新启动;# lsattr -El sys0 |grep autorestartautorestart true Automatically REBOOT system after a crash True# chdev -l sys0 -a autorestart=false修改autorestart值为False;11、执行lsattr –El sys0|grep cpuguard检查CPU GUARD是否开启;# lsattr -El sys0 |grep cpuguardcpuguard enable CPU Guard True# chdev -l sys0 -a cpuguard=false修改cpuguard值为False;12、执行lsattr –El mem0检查内存状态,正常状态size=goodsize;# lsattr -El mem0goodsize 3920 Amount of usable physical memory in Mbytes Falsesize 3920 Total amount of physical memory in Mbytes False13、执行vmstat、iostat、topas观察us,sy,pi,po,内存占用率,硬盘读写速度等检查是否有性能瓶颈;a) CPU性能:使用vmstat,topas来检查;b) 内存使用情况:也是使用topas,vmstat来检查;c) 检查IO平衡使用情况:使用iostat来检查;d) 交换空间使用情况:使用lsps –a来检查;# vmstatSystem configuration: lcpu=4 mem=3920MBkthr memory page faults cpu----- ----------- ------------------------ ------------ -----------r b avm fre re pi po fr sr cy in sy cs us sy id wa1 1 147268 831951 0 0 0 0 0 02 1350 67 0 0 99 0# topasTopas Monitor for host: IBMSim EVENTS/QUEUES FILE/TTYMon Feb 25 16:21:13 2008 Interval: 2 Cswitch 66 Readch 6Syscall 1375 Writech 176Kernel 0.1 |# | Reads 0 Rawin 0User 0.1 |# | Writes 0 Ttyout 176Wait 0.0 | | Forks 0 Igets 0Idle 99.8 |############################| Execs 0 Namei 0Runqueue 0.0 Dirblk 0Network KBPS I-Pack O-Pack KB-In KB-Out Waitqueue 0.0en1 0.2 0.5 0.5 0.0 0.2en0 0.0 0.0 0.0 0.0 0.0 PAGING MEMORYlo0 0.0 0.0 0.0 0.0 0.0 Faults 0 Real,MB 3920Steals 0 % Comp 15.9Disk Busy% KBPS TPS KB-Read KB-Writ PgspIn 0 % Noncomp 2.1 hdisk0 0.0 0.0 0.0 0.0 0.0 PgspOut 0 % Client 2.1hdisk1 0.0 0.0 0.0 0.0 0.0 PageIn 0cd0 0.0 0.0 0.0 0.0 0.0 PageOut 0 PAGING SPACESios 0 Size,MB 512Name PID CPU% PgSp Owner % Used 1.1dtgreet 94318 0.1 1.3 root NFS (calls/sec) % Free 98.8topas 323676 0.0 1.0 root ServerV2 0gil 69666 0.0 0.9 root ClientV2 0 Press:X 131180 0.0 3.6 root ServerV3 0 "h" for helprpc.lock 303278 0.0 1.2 root ClientV3 0 "q" to quitsendmail 233586 0.0 0.9 rootnetm 65568 0.0 0.4 rootxmwlm 188642 0.0 0.8 rootsyncd 127070 0.0 0.5 rootxmgc 49176 0.0 0.4 rootIBM.CSMA 307368 0.0 1.9 rootpsmd 24588 0.0 0.5 rootwlmsched 73764 0.0 0.5 rootj2pg 82000 0.0 2.0 rootusbCfgDe 86080 0.0 0.4 rootdtlogin 90238 0.0 0.4 rootvmptacrt 20490 0.0 0.4 rootaioserve 98496 0.0 0.4 rootlvmbb 102476 0.0 0.4 rootdog 106622 0.0 0.9 root# iostatSystem configuration: lcpu=4 drives=3 paths=2 vdisks=0tty: tin tout avg-cpu: % user % sys % idle % iowait0.0 2.5 0.1 0.1 99.8 0.0Disks: % tm_act Kbps tps Kb_read Kb_wrtnhdisk0 0.1 0.9 0.2 87764 153601hdisk1 0.1 0.6 0.1 8694 153601cd0 0.0 0.0 0.0 0 0# lsps -aPage Space Physical Volume Volume Group Size %Used Active Auto Type hd6 hdisk0 rootvg 512MB 1 yes yes lv14、执行ifconfig -a查看网卡是否启动(UP);# ifconfig -aen0:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN >inet 192.168.3.1 netmask 0xffffff00 broadcast 192.168.3.255tcp_sendspace 131072 tcp_recvspace 65536en1:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN >inet 192.168.7.8 netmask 0xff37ff00 broadcast 192.232.7.255tcp_sendspace 131072 tcp_recvspace 65536lo0: flags=e08084b<UP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT>inet 127.0.0.1 netmask 0xff000000 broadcast 127.255.255.255inet6 ::1/0tcp_sendspace 131072 tcp_recvspace 131072 rfc1323 1#ifconfig en0 up/down修改网卡状态;15、执行netstat -in和netstat -rn观察网络状态;# netstat -rnRouting tablesDestination Gateway Flags Refs Use If Exp GroupsRoute Tree for Protocol Family 2 (Internet):default 192.168.7.253 UG 1 6141 en1 - -127/8 127.0.0.1 U 5 339 lo0 - -192.32.7.0 192.168.7.8 UHSb 0 0 en1 - - =>192.32.7 192.168.7.8 U 2 20955 en1 - -192.168.3.0 192.168.3.1 UHSb 0 0 en0 - - =>192.168.3/24 192.168.3.1 U 0 2 en0 - -192.168.3.1 127.0.0.1 UGHS 7 313 lo0 - -192.168.3.255 192.168.3.1 UHSb 0 4 en0 - -192.168.7.8 127.0.0.1 UGHS 0 1 lo0 - -192.232.7.255 192.168.7.8 UHSb 0 4 en1 - -Route Tree for Protocol Family 24 (Internet v6):::1 ::1 UH 0 0 lo0 - -# netstat -inName Mtu Network Address Ipkts Ierrs Opkts Oerrs Collen0 1500 link#2 0.14.5e.97.1.14 215 0 561 3 0en0 1500 192.168.3 192.168.3.1 215 0 561 3 0en1 1500 link#3 0.14.5e.97.1.15 37254 0 27106 7 0en1 1500 192.32.7 192.168.7.8 37254 0 27106 7 0lo0 16896 link#1 655 0 661 0 0lo0 16896 127 127.0.0.1 655 0 661 0 0lo0 16896 ::1 655 0 661 0 016、执行entstat -d enX检测网卡运行速率与交换机速率是否匹配(网卡速率由10M半工改为自适应时,缺省网关会丢失。

IBM错误代码解释以及解决方法

IBM错误代码解释以及解决方法

IBM错误代码解释以及解决方法IBM的ThinkPad系列笔记本电脑的错误代码解释以及解决方法,希望能对拥有此款“本本”的朋友们有所帮助。

101:中断失败102:时钟失败103:时间中断失败104:保护模式失败105:最后的 8042命令未接受107:NMI 检测失败108:时钟总线检测失败109:Low meg芯片选择检测以上出错部件及解决措施:请检查主板设置是否正确,严重时需要更换主板。

110:平面奇偶出错部件及解决措施:这种情况一般是内存发生问题,请将内存换一个插槽试试。

不过,如果有连接到电脑的扩展部件,请先移除。

111:I/O奇偶出错部件及解决措施:仍然是首先检查内存条是否损坏,然后请检查扩展部件或端口复制器是否损坏。

0175:CRC1错,EEPROM校验错出错部件及解决措施:系统主板,停止POST任务。

1101: A类设备检测失败出错部件及解决措施:重点检查串口设备、通讯接线等部件。

1201: B类设备检测失败出错部件及解决措施:请检查主板上的红外接口是否损坏。

158:设置了SuperVisor密码但没有设置硬盘密码出错部件及解决措施:请重新设置硬盘密码159:硬盘密码与SuperVisor密码不相同出错部件及解决措施:请将硬盘的密码设置为与SuperVisor密码相同。

161:电池失效。

出错部件及解决措施:这当然是电池的问题,请重新更换电池或检查主板上的现用电池是否有漏电现象。

163:时间和日期未设置出错部件及解决措施:重新设置时间和日期。

173:设备数据丢失出错部件及解决措施:在屏幕上选择OK,然后设置时间和日期,必要时需要更换备用电池。

174:设置错误。

出错部件及解决措施:先去检查一下硬件设备是否配置正确,或者检查硬盘的跳线是否设置正确。

0177: SuperVisor密码检验错出错部件及解决措施:系统主板。

1701:硬盘控制器失败1780, 1790:硬盘0出错1781, 1791:硬盘1出错173 192 163出错,出错部件及解决措施:硬盘错误,当然也不排除主板存在错误。

IBM小型机copy directory 过小报错处理方法指引

IBM小型机copy directory 过小报错处理方法指引

IBM小型机copy directory 过小报错处理方法指引AIX报错:F89FB899 0713150016 P O dumpcheck The copy directory is too small.检查办法:使用命令errpt -ajF89FB899 |more查看错误详细信息如下图现象dump文件的copy目录过小,已经无法满足,需要扩容。

查看dump设备及目录[root@qf1:/]# sysdumpdev -lprimary /dev/hd6secondary /dev/sysdumpnullcopy directory /var/adm/rasforced copy flag TRUEalways allow dump TRUEdump compression ONtype of dump traditional[root@qf1:/]# sysdumpdev -lprimary /dev/hd6secondary /dev/sysdumpnullcopy directory /var/adm/rasforced copy flag TRUEalways allow dump TRUEdump compression ONtype of dump traditional查看目前的dump文件大小,copy目录至少要达到以下大小。

[root@qf1:/]# sysdumpdev -e0453-041 Estimated dump size in bytes: 3672742297查看rootvg信息,rootvg上仍有足够的空间划分给dump文件的copy目录:执行扩展操作:1.执行命令smittychfs按enter建选择,因为/var目录只有2G,故选择/var目录扩容到5G选择Number of units ,按ESC+7键编辑更改大小,注意单位为512bytes。

更改完后,回车执行操作。

IBM P570小型机典型故障案例的分析与处理

IBM P570小型机典型故障案例的分析与处理

IBM P570小型机典型故障案例的分析与处理摘要:根据近年来本地区P570主机的典型故障及处置方法,总结了一套P570小型机典型故障的维护管理的经验,提高了信息系统检修质量和健康水平。

同时总结管理思路,与时俱进,完善运维体系、加强运维管理、提升信息安全运维水平,保证系统安全及可靠运行,为电力网数据信息安全交互提供了有力保障。

关键词:故障处理,运维管理引言P570小型机作为具有很高的可靠性与稳定性能,做为本公司核心服务器,它具有较高的专业性、复杂性、实时性、不间断性等特点,是电力企业普遍采用的服务器。

随着使用年限的增加,设备老化等原因会造成整个系统可靠性降低,硬件设备发生故障的频率也越来越高。

现根据近年来本地区P570主机机常出现的一些典型故障及处理方法,总结出一套P570小型机典型故障的维护管理经验,提高了信息系统检修质量和健康水平,确保信息系统安全稳定运行。

同时我们在此运维基础上,扩展了信息系统基础安全运维的管理思路。

1 小型机典型故障处理及运维管理提升统计570小型机自2007年投运到目前为止,共发生电源故障、风扇故障、背板故障、HBA卡故障、硬盘故障等94次,随着公司推进运维检修精细化管理工作,加强对信息设备状态的监视,准确掌握信息设备的状态,当主机系统发生故障时,依靠专业的管理经验,可以在最短的时间内查明故障原因,迅速将系统恢复到正常工作状态,是保证设备及软件安全、稳定、高效运行的关键。

同时完善小型机设备的运维管理制度,是对小型机系统稳定运行的有效保障。

除了采用技术手段外,我们还需建立有效的安全管理机制,“三分技术,七分管理”是信息安全领域的管理的精髓,在实际的工作中如何“管理”到位,更需要在实践中总结经验,不断的更新,两者有机的结合起来,通过管理提升我们发现,小型机的设备故障主动发现率由38%上升到93%(如图1),说明通过运维管理的提升设备故障的主动发现率有了显著的提升,确保了处理故障和更换备件的宝贵时间。

P系列常见问题解决方法

P系列常见问题解决方法

P系列常见问题解决方法如何关闭IBM小型机面板告警灯(为橘红色)1、进diag,选task,找到identify and attention indicators2、用命令/usr/lpp/diagnostics/bin/usysfault -s normal3、先检查有没有什么问题,如果没有问题,就这样处理diag-> Task Selection-> Identify and Attention Indicators中找到Set System Attention Indicator to NARMAL(第二项),按回车,使前面出现个"+",然后用"ESC+7",一会就好了,灯灭了后就用"ESC+0"退出即可准确定位设备和解除报警有一环境需要重新打标签,AIX5L可以亮灯以确认你所找到的卡是不是在这槽位上。

实施如下:1.亮灯#lsslot -c pci#lsslot -c slot#lsdev -Cc adapter#ifconfig -a#diag-->Task Selection-->Hot Plug Task-->PCI Hot Plug Manager-->Identify a PCI Hot Plug Slot-->选择你所要标识的设备,回车-->命令运行,设备就会闪灯;按回车完成〔即不闪灯〕,或者Q 退出。

2.关闭小型机橙色告警灯#diag-->Task Selection-->Identify and Attention Indicators-->Set System Attention Indicator to Normal-->回车,选项前变为“+”-->按“F7”提交-->熄灭小型机橙色告警灯[也可以准确定位在报警的设备] EG:#diag-->Task Selection-->Log Repair Action-->sys0 System Objectsysplanar0 System Planar-->回车,选项前变为“+”-->按“F7”提交;选项前变为“*”停用SENDMAIL。

IBM错误代码解释以及解决方法

IBM错误代码解释以及解决方法

IBM错误代码解释以及解决方法在使用IBM产品或服务的过程中,有时可能会遇到各种错误代码。

这些错误代码可能涉及到不同的问题,需要我们仔细检查和解决。

在本文中,我们将解释一些常见的IBM错误代码,并提供相应的解决方法。

1. 500 - Internal Server Error(内部服务器错误)这个错误代码表示服务器遇到了一个无法处理的问题。

可能的原因包括服务器配置错误、网络连接问题或应用程序错误。

解决方法包括:-检查服务器配置文件,确保配置正确。

-检查网络连接是否正常,尝试重启网络设备。

-使用日志文件来查找潜在的应用程序错误,并修复相应的代码。

2. 404 - Not Found(未找到)这个错误代码表示请求的资源在服务器上不存在。

可能的原因包括文件被误删除、链接错误或服务器配置问题。

解决方法包括:-检查请求的资源是否存在于服务器上。

如果不存在,可以尝试恢复文件或重新上传文件。

-检查链接是否正确。

如果链接错误,可以尝试修复链接或更改链接地址。

-检查服务器配置文件,确保资源的路径和文件名称正确。

3. 403 - Forbidden(禁止访问)这个错误代码表示服务器拒绝了对请求资源的访问。

可能的原因包括权限不足、IP地址被拦截或访问规则被禁止。

解决方法包括:-检查访问权限,确保用户有足够的权限来访问资源。

-检查IP地址是否被服务器拦截。

如果是,则可以尝试解除拦截或添加到允许访问列表。

-检查访问规则,确保没有禁止访问请求资源的规则。

4. 502 - Bad Gateway(网关错误)这个错误代码表示作为代理或网关的服务器从上游服务器接收到了一条无效的响应。

可能的原因包括上游服务器故障、网络连接问题或配置错误。

解决方法包括:-检查网络连接是否正常。

如果网络连接有问题,可以尝试重启网络设备或使用其他网络连接。

-检查代理或网关服务器的配置文件,确保配置正确。

5. 503 - Service Unavailable(服务不可用)这个错误代码表示服务器当前无法处理请求,可能是因为过载或维护。

IBM小型机及操作系统管理

IBM小型机及操作系统管理

IBM小型机及操作系统管理 (3)第一章系统登陆 (3)1.1 使用netterm登录AIX操作系统 (3)1.2 使用Xmanager登录系统 (4)1.3 登陆情况检查 (5)1.3.1 基本信息检查 (5)1.3.2 查看系统登录情况 (5)第二章巡检计划 (5)2.1 巡检计划简介 (5)2.2日巡检计划 (5)2.2.1日巡检目的 (5)2.2.2日巡检操作简述(及详细说明) (6)2.2.3日巡检检查单 (7)2.3月巡检计划 (8)2.3.1月巡检目的 (8)2.3.2月巡检操作简述(及详细说明) (8)2.3.3月巡检检查单 (9)第三章故障处理 (10)3.1 故障级别分类定义 (10)3.2 故障现象列表和相应处理 (10)3.3 故障分级响应处理流程(包括管理、技术流程) (12)3.4 紧急重大故障处理流程(技术方面) (12)第四章软硬件变更 (13)升级与打补丁注意事项 (13)数据与系统参数的修改注意事项 (13)第五章日常维护操作(知识性、摘要性) (13)5.1 常用操作命令 (13)5.2 常用操作步骤 (17)启动 (17)系统关闭 (17)查看系统的错误记录 (17)系统与数据备份 (18)第六章入侵检测方法与命令 (21)6.1 检查/etc/passwd文件中是否有可疑用户 (21)6.2 检查/etc/inet.conf和crontab文件是否被修改 (21)6.3 检查.rhosts、/etc/hosts.equiv、.forward文件是否被修改 (22)6.4 检查是否有危险的Root Suid程序 (22)6.5 检查系统日志 (23)6.6 检查是否有可疑进程 (23)6.7 检查网络连接和开放端口 (23)附录: (24)通信录 (24)相关文档 (24)IBM机房要求 (24)IBM小型机及操作系统管理第一章系统登陆1.1 使用netterm登录AIX操作系统如上图所示,使用NetTerm时,应对每次的操作都使用日志文件记录。

IBM PC_XT微机内存故障分析与修理

IBM PC_XT微机内存故障分析与修理
IBM PC/XT微机内存故障分析与修理
湖北 许再田
1994-06-10
064KB OK
1000000 201
ERROR (RESUME=“F1” KEY)
由错误码后3位201可知故障出在内存。IBM-PC/XT内存配置大多为512KB或640KB。其中系统板有256KB基本配置,扩充板上配置余下的256KB或384KB。每9片64×1位动态存储器RAM芯片为一组,每组第一位是奇偶校验位用“P”表示,其余8位为0-7,每组容64K。错误代码前7个字符指示损坏的某位芯片,第1个字符为:0、1、2、3对应系统板Bank(0~3)4个存储组,第1个字符为4、5、6、7、8、9则对应扩充板上存储器组Bank(0-5)。面第6、7两位字符指出失效芯片的位置,字符00、01、02、04、08、10、20、40、80分别对应存储器中P、0、1、2、3、4、5、6、7各位。从错误代码1000000可知:第1位是“1”对应系统板上内存Bank1组,6、7两位为“00”指出“P”位失效。换掉Bank1组的第一位“P”校验位芯片后,故障随之消失。如图1所示。如果故障出在扩充板上,错误码的6、7两位字符并不能准确指示损坏的芯片,还需逐个Bank组测试。图1是系统板上RAM芯片的排列图。(湖北 许再田)
└─┘ └─┘ └─┘ └─┘
┌─┐ ┌─┐ ┌─┐ ┌─┐
└─┘ └─┘ └─┘ └─┘
┌─┐ ┌─┐ ┌─┐ ┌─┐
└─┘ └─┘ └─┘ └─┘
┌─┐ ┌─┐ ┌─┐ ┌─┐
└─┘ └─┘ └─┘ └─┘
┌─┐ ┌─┐ ┌─┐ ┌─┐
└─┘ └─┘ └─┘ └─┘
┌─┐ ┌─┐ ┌─┐ ┌─┐
Bank3 Bank2 Bank1 Bank0

ERRPT命令产生0315-171错误 案例记录-V100220

ERRPT命令产生0315-171错误 案例记录-V100220

ERRPT命令产生0315-171错误案例记录
(v 100220)
版本说明
目录
版本说明 (2)
1 背景描述 (4)
2 故障主机系统及用户 (4)
3 故障现象 (4)
3.1故障分析 (4)
3.2故障解决方案 (4)
1 背景描述
针对个人处理过的一些IBM常见小问题进行的总结,与大家一同分享。

2 故障主机系统及用户
IBM P690 root用户
3 故障现象
当使用命令errpt -a查看系统的错误报告时,产生错误:0315-171: 不能处理错误日志文件/var/adm/ras/errlog
3.1故障分析
errlog文件破坏,需要重建错误日志文件
3.2故障解决方案
该错误的产生是由于/var/adm/ras/errlog文件被破坏导致的,可以用如下步骤删除现有文件,使系统自动生成一个新的/var/adm/ras/errlog文件:
1. /usr/lib/errstop
2. rm /var/adm/ras/errlog
3. /usr/lib/errdemon.
由于经验有限,就这些,希望给大家一些维护的帮助。

谢谢!。

IBM服务器面板报错解读

IBM服务器面板报错解读

IBM服务器面板报错解读
(2013-05-14 21:39:49)
标签:
it
BRD主板上发生错误。

CNFG发生硬件配置错误。

DASD发生硬盘驱动器错误。

FAN风扇发生故障,或者是运行过慢,或者是
已卸下风扇。

TEMP指示灯可能也会点
亮。

LINK保留。

LOG已将错误消息写入系统事件日志。

查看IMM系统事件日志和系统错误日志,获取有关错误的信息。

MEM 当只有MEM指示灯点亮时,才表示发生
了内存错误。

当MEM指示灯和CNFG指示灯都点亮
时,表示内存配置无效。

O V E R SPEC
由于某个电源通道上出现电源超负荷情
况,所以关闭了服务器。

电源功率超过最
大额定值。

PS电源发生故障。

RAID RAID阵列出错。

SP服务处理器(IMM)发生故障。

TEMP 系统温度已超出阈值级别。

发生故障的风
扇会导致TEMP指示灯点亮。

VRM 模块。

serveraid manger,在Windows下安装,下载最新版本即可,老一点的版本可能需要安装后重启服务器可看到阵列信息。

IBM笔记本数字错误码信息精品文档5页

IBM笔记本数字错误码信息精品文档5页
更换纽扣电池并在BIOS中重新设置日期时间
0251
System CMOS checksum bad—Default configuration used
更换纽扣电池并在BIOS中重新设置日期时间
0252
Password checksum bad
在BIOS中重新设置密码
0260
System timer error
1.移除Mini PCI网卡
2.更换主板
1803
Unauthorized daughter card is plugged in
1.移除安装的CDC子卡
2.更换主板
1803
Unauthorized WAN card is plugged in
1.移除安装的无线广域网子卡
2.更换主板
1810
Hard disk partition layout error.
2
Incorrect drive A type
1.更换软驱
2.更换外置软驱线
3.更换输入输出接口
02F4
EISA CMOS not writable
1.将Bios还原为默认值,并更换纽扣电池
2.更换纽扣电池
3.更换主板
02F5
DMA test failed
1.更换内存
2.更换主板
Bad startup sequence settings
1.运行BIOS并按下F9恢复默认设置,然后按下F10保存设置
0187
EAIA data access error
1.更换主板
0188
Invalid FRID serialization information area or bad CRC2

IBM小型机故障描述以及解决办法

IBM小型机故障描述以及解决办法

IBM小型机故障描述以及解决办法针对基础支柱产业,生产系统的高度实时性是产生维保的主要动因,针对财政银行等综合决策系统,数据高可用性是产生维保的主要动因。

据统计,2012年国内有10万个各级政府机构和150万家企业,目前许多客户已经历了买设备、上应用发展到今天保运行阶段。

IBM在服务器市场占有率高达79%,针对IBM小型机的维保,市场最成熟,技术积累最丰富。

维保主要分为两部分:日常维护、故障修复日常维护部分:虽然小型机在运行态很少改动配置,但经常监控运行状态却是至关重要的,通过规律的监控,通过与业务联系,一方面可以预测小型机负载压力,把握运行规律,另一方面可以预测故障的发生点而及时修复,将故障终止,消灭在萌芽状态,使得业务连续和高可用。

专业的巡检可以判断系统运行的瓶颈,从而为可能增长的业务量及时提供硬件升级方案,来避免瓶颈的出现。

日常维护主要方式是巡检,分周巡检、月度巡检以及季度巡检。

月度巡检以月为时间单位进行例行巡检,对小型机运行状态以及故障监测,使用一般指标,巡检比较及时;周巡检以周为时间单位,频次高,对小型机状态监测度最高,动态把握最明确,缺点是对人力资源耗费比较大;季度巡检为深度巡检,系统整体信息比较准确,但是频率低对系统实时状态把握度较差,加之月度巡检在没季度的最后一次巡检都是深度巡检,月度巡检就弥补了季度巡检的实时性缺陷。

IBM小型机故障:任何小型机都有一定的故障率,即使是IBM、HP所发布的零宕机产品也不能保证百分之百无故障。

随着使用时间的增加,机房环境,电子元器件老化等原因,导致故障,尤其意外断电对电子元器件的冲击更大。

按故障性质分,可分为隐性故障和显性故障,隐性故障可能有未检测到的故障点,或者因为电子元器件使用寿命的增长突然崩溃而导致的故障。

隐性故障最典型的是关机后导致不能重启进入系统,应对方法是定期巡检,排查隐性故障,易损部件制定科学的周期进行更换操作等。

显性故障指系统识别出,并在FCU 工作台显示出的故障情况,亦都是隐性故障发生跳变或产生结构性故障后系统给出的提示,此时需尽快根据故障代码对系统进行修复。

IBM P系列小型机故障的基本定位

IBM P系列小型机故障的基本定位

IBM P系列小型机故障的基本定位一故障的定义.弄清楚系统发生了什么问题.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的操作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。

二故障信息的收集1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。

2)系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION 192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERA TOR OPERA TOR NOTIFICA TIONTIMESTAMP: MMDDHHMMYY (月日时分年)T(类型): P 永久; T 临时; U 未知(永久性的错误应引起重视)C(分类): H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- V irtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834 Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINA TOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINA TION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DA TA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00003)控制面板上的LED 代码.8 位代码,通常系统故障灯会同时亮起。

IBM机器报错信息及解决方法

IBM机器报错信息及解决方法

IBM机器报错信息及解决方法错误码及提示出错部件及解决方法10X101: 中断失败102: 时钟失败103: 时间中断失败104: 保护模式失败105: 最后的8042命令未接受107: NMI 检测失败108: 时钟总线检测失败109: Low meg芯片选择检测系统主板.nm110:平面奇偶检测内存内存插槽如果有接到电脑的扩展部件移除系统主板111:I/O奇偶检测内存扩展部件或端口复制器系统主板.11XX1101: A类设备检测失败串口设备通讯接线系统主板12XX1201: B类检测失败系统主板(红外)158 :即使设置了SuperVisor密码但没有设置硬盘密码设置硬盘密码159 :硬盘密码与SuperVisor密码不相同设置硬盘密码与SuperVisor密码相同161 :电池失效检测备用电池备用电池系统主板.163 :时间和日期未设置设置时间和日期系统主板.173 :设备数据丢失在屏幕上选择OK,然后设置时间和日期备用电池系统主板.174 :设置错误:先进行检测安装的设备列表再改变FRU部件检测设备配置硬盘驱动器系统主板.0175 CRC1错, 停止了POST任务. EEPROM 校验错. 系统主板0177 SuperVisor密码检验错系统主板0178 EEPROM 失效系统主板17XX1701: 硬盘控制器失败1780, 1790: 硬盘0出错1781, 1791: 硬盘1出错硬盘驱动器系统主板183提示输入SuperVisor密码时输入错误输入正确的SuperVisor密码184开机密码检验错进入BIOS设置中重置开机密码185非法的启动顺序进入BIOS设置中重置启动顺序186 1系统主板0187 EAIA 数据读取错误。

读取EEPROM 失败. 系统主板0188非法的RFID 连续信息区域或CRC2错。

EEPROM校验错. 系统主板0189非法的RFID 连续信息区域。

EEPROM校验错. 系统主板0190 电池电量极低错误给电池充电电池仓0193RF天线被移除. 输入supervisor (超级)密码0194笔记本被携带通过安全检测门输入supervisor (超级)密码0195安全保安硬件受到干扰输入SuperVisor(超级)密码进入BIOS 设置工具, 选择Config 选择IBM Security Chip, 选择Clear IBM Security Chip 可清除这个错误安全芯片系统主板0196:安全保安硬件被移除输入SuperVisor(超级)密码进入BIOS 设置工具, 选择Config, 选择IBM Security Chip, 选择Clear IBM Security Chip 可清除这个错误安全芯片系统主板0197非法的远程修改要求远程配置安全保安芯片失败. 确认该操作重0190电池电量低抱错0200硬盘错021x键盘错0230映射内存错0231系统内存错0232扩展内存错0250系统电池错0270时钟测试错0275内存测试错FAN EMOR 风扇8611键盘301硬盘抱错硬盘芯片1701 178 179硬盘控制器失败183提示超级密码时,输入错误。

IBM-小型机日常管理和故障处理

IBM-小型机日常管理和故障处理
37
故障处理---故障的定义
弄清楚系统发生了什么问题
– 系统现在能做什么?不能做什么? – 故障什么时候发生的? – 有没有做平时不同的操作? – 故障有没有规律?定时还是不定时?发生的频率有多高? – 是一台机器出现故障还是多台机器故障?故障现象是否相同? – 最近有没有做改动?如安装了新的硬件、软件,改变了系统
Detail Data SENSE DATA 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
13
HMC的使用
14
HMC 使用
Hardware Management Console – 进行P系列小型机的硬件管理、维护,以及逻
8
系统健康检查
#lsattr –El inet0
authm
65536
Authentication Methods
True
hostname
qtsms
Host Name
True
gateway
Gateway
True
route
net,,0,172.40.10.1 Route
True
bootup_option no
Serial Optical Network Interface True
rout6
FDDI Network Interface
True
route属性是否有相应的路由信息。格式为:net,,0,172.16.23.81 如果没有缺省路由,执行命令:
#chdev –l inet0 –a route=0,172.16.23.81 其中172.16.23.81为网关 如果缺省路由不正确,则先删除路由,再增加缺省路由:

IBM P系列小型机_故障定位、故障排除

IBM  P系列小型机_故障定位、故障排除

第三章、故障定位、故障排除根据我们在实际商用系统中碰到问题,我们总结出了以下几种常见故障及其定位方式和解决方法。

3.1硬件故障硬件故障有很多种,对系统产生的影响也不一样,这里按其故障对系统的影响程度分:致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类:其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括:主板、CPU、I/O柜(包含本地盘、光驱、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等注:I/O柜和CEC柜一般在比较高端的小型机才有,如M80,低端的是合一的。

这些设备的损坏等将使系统无法完成自检、引导和启动,液晶显示屏上都将有错误信息,可根据液晶显示屏上的错误码对照Service Guide查的错误原因,如果是工作状态下出现这些硬件损坏,则系统将被挂起或宕机。

其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的硬件包括:网卡、本地硬盘有坏块、显卡、SSA卡和其他外围设备这些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。

故障定位和排除:以上硬件故障信息都可以使用:液晶屏上的错误码或:errpt –dH 查看到根据错误码确定是什么硬件出了故障,对商用系统来讲,由于是双机系统,如果损坏机器是主机可以将此服务器切换成备机,然后修复故障机器,恢复系统。

3.2磁阵故障磁阵引起的故障是目前碰到的最频繁、危害最大的故障,据不完全统计,其故障覆盖到总故障的70%以上,具体来讲,可能引起磁阵故障的环节包括:磁阵硬盘、7133柜子、主机上的SSA卡、连接7133与主机的SSA线、硬盘的位置和ssa线的接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/ssa卡的微码等都可能造成7133的异常。

IBM-P750小型机日常维护手册[2]

IBM-P750小型机日常维护手册[2]

IBM P750小型机日常维护手册一、服务器硬件运行状态检查1.当服务器处于启动和正常工作状态时,其前面板上的状态灯(与电源灯并排)和各硬盘的状态灯(一排小灯,与各硬盘位置一一对应)应显示为绿色。

2.当服务器的状态灯出现橙黄色时,说明有硬件告警,此时要检查服务器的电源、接线、硬盘等。

如果有硬件故障则需要立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。

3.当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时,则硬盘状态灯将熄灭,或者呈闪烁状态:以1~3秒的频率有规律地、不停地闪烁。

如果发现有服务器硬件状态灯不正常的情况,请及时联系我公司工程师,以便及时进行诊断并解决故障。

二、HMC(硬件管理平台)管理与操作HMC的两种访问途径:1、在机房直接通过显示器和键盘进行管理维护等相关操作2、通过web远程访问,登录HMC web管理界面,访问地址为:https://1、登录HMC1.1 浏览器访问连接HMC后,首页界面如下图所示。

1.2 点击下图所示链接,进入HMC验证登录界面。

用户名:hscroot口令:1.4 成功登录到HMC管理界面如下图所示。

在HMC console右上角有(hscroot | help | log off)链接,单击log off,会出现如下图所示注销界面:选择Log off,系统返回到HMC初始登录界面状态。

3、重启HMC左边导航栏中选择→ HMC Management → shut down or Restart,如下图所示,对HMC进行正常重启及关机操作。

请谨慎对HMC进行关机和重启操作!4、状态栏功能状态栏位于HMC左下角位置,如下图所示,负责监控并反映管理系统资源状态和HMC状态。

单击每个图标状态可以列出详细状态,你可以查到更详细的帮助信息::非法操作,如果任何被管理的主机执行了非法操作,这个图标将会变亮。

IBM P系列小型机黄灯告警分析及处理

IBM P系列小型机黄灯告警分析及处理

IBM P系列小型机黄灯告警分析及处理
吴才远
【期刊名称】《贵州电力技术》
【年(卷),期】2013(016)008
【摘要】提出了IBM P系列小型机日常巡视中常见的黄灯告警问题,并结合各种情况提出了相应的处理方法.
【总页数】3页(P59-61)
【作者】吴才远
【作者单位】凯里供电局,贵州凯里556000
【正文语种】中文
【中图分类】TM76
【相关文献】
1.剖析IBM RS/6000系列小型机逻辑卷管理 [J], 刘涛
2.区间信号机误闪黄灯的故障分析及处理 [J], 何德金
3.IBM小型机虚拟化技术应用实践 [J], 李捷
4.基于IBM小型机虚拟化技术应用探讨 [J], 顾景民;郭利波;王野
5.基于OpenStack构建企业IBM小型机管理平台 [J], 朱振豪
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

项目编号
版本号 1.0
密级机密IBM P系列小型机报错日志解析
作者刘禄川编写时间2012.7.31
审核审核日期
批准批准日期
深圳市紫金支点技术股份有限公司版权所有
一、处理报警流程
1. 首先,每台IBM P系列小型机报警后,会直接在ECC监
控中心显示,工行设备一线人员会收到报警邮件。

2. 工行设备一线人员会将报警日志中的errpt.out文件与vpd
文件发送给我方,并进行电话通知。

3. 我方收到报警日之后,需根据内容进行分析,并把分析结
果以邮件的形式回复给用户。

二、日志分析过程
1.报警日志内容输出事例
LABEL: SC_TAPE_ERR4
IDENTIFIER: 07A33B6A
Date/Time: Mon Jul 23 20:47:22 2012
Sequence Number: 637
Machine Id: 00CECEC44C00
Node Id: br0f07
Class: H
Type: PERM
Resource Name: rmt16
Resource Class: tape
Resource Type: ost
Location: U5791.001.9920XMN-P2-C3-T2-W500507630F794623-L0
VPD:
Manufacturer................IBM
Machine Type and Model......ULT3580-TD4
Serial Number...............
Device Specific.(Z3) (0000)
Description
TAPE DRIVE FAILURE
Probable Causes
ADAPTER
TAPE DRIVE
Failure Causes
TAPE DRIVE
ADAPTER
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
Detail Data
SENSE DATA
0600 0A00 0400 0000 0000 0000 0000 021E 0000 0000 0000 0000 0200 0302 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0004
2.报警日志内容输出各个名词解释
1).LABEL 事件的预定义名称
2).IDENTIFIER 事件的数字标识符
3).Date/Time 事件的日期和时间
4).Sequence Number 事件的唯一编号
5).Machine ID 系统处理器部件的标识号
6).Node ID 系统的缩写名(助记名)
7).Class 错误的一般原因。

可能的错误类型有:
H 硬件
S 软件
O 指示性信息
U 未确定的
8).Type 发生的错误的严重性。

可能有如下错误类型:
PEND 一个设备或部件将很快丧失其可用性
PERF 设备或部件的性能已降级至可接受的水平以下
PERM 不可能恢复的状况。

此类错误通常是最严重的错误,并可能意味着硬件设备或软件模块损坏。

TEMP 多次不成功的尝试之后,被恢复的状况。

此错误类型也用来记录指示性的信息条目,如DASD
设备的数据传输统计。

UNKN 不能确定错误的严重性
INFO 指示性的错误日志条目,和不是错误的结果9).Resource Name 发现错误的资源名称。

对于软件错误,
这是一个软件部件、或一个可执行程
序的名称。

对于硬件错误,这是一个
设备、或系统部件的名称。

10).Resource Class 发现故障的资源通用类。

(如,disk 设
备等)
11).Resource Type 发现故障的资源类型
12).Location Code 设备的路径。

可能有多达四个字段,分
别涉及drawer(抽屉)、slot(插槽)、
connector(连接器)、port(端口)。

13).VPD 关键产品数据(Vital product data)。

该字段的
内容是多种多样的。

设备的错误日志条目比较典
型地,返回关于设备厂商、序列号、工程变动
级别、只读存储器级别等方面的信息。

14).Description 错误的摘要
15).Probable Cause 列出一些可能导致错误的原因
16).User Causes 列出一些用户误操作导致故障的可能原
因。

Actions 描述校正用户导致的错误的推荐操作
17).Install Causes 列出由于不正确的安装或配置过程而
导致故障的可能性原因。

Actions 描述校正安装导致错误的推荐操作
18).Failure Causes 列出硬件、或软件可能的缺陷/故障
Actions 描述校正故障的推荐操作。

对于硬件错误,
会运行诊断程序。

19).Detailed Data 对于每一个错误日志条目都是唯一的
故障数据,如设备sense 数据。

相关文档
最新文档