IBM xSeries服务器故障信息收集指导20070927-B-V1.0
IBM错误代码解释以及解决方法
IBM错误代码解释以及解决方法IBM的ThinkPad系列笔记本电脑的错误代码解释以及解决方法,希望能对拥有此款“本本”的朋友们有所帮助。
101:中断失败102:时钟失败103:时间中断失败104:保护模式失败105:最后的 8042命令未接受107:NMI 检测失败108:时钟总线检测失败109:Low meg芯片选择检测以上出错部件及解决措施:请检查主板设置是否正确,严重时需要更换主板。
110:平面奇偶出错部件及解决措施:这种情况一般是内存发生问题,请将内存换一个插槽试试。
不过,如果有连接到电脑的扩展部件,请先移除。
111:I/O奇偶出错部件及解决措施:仍然是首先检查内存条是否损坏,然后请检查扩展部件或端口复制器是否损坏。
0175:CRC1错,EEPROM校验错出错部件及解决措施:系统主板,停止POST任务。
1101: A类设备检测失败出错部件及解决措施:重点检查串口设备、通讯接线等部件。
1201: B类设备检测失败出错部件及解决措施:请检查主板上的红外接口是否损坏。
158:设置了SuperVisor密码但没有设置硬盘密码出错部件及解决措施:请重新设置硬盘密码159:硬盘密码与SuperVisor密码不相同出错部件及解决措施:请将硬盘的密码设置为与SuperVisor密码相同。
161:电池失效。
出错部件及解决措施:这当然是电池的问题,请重新更换电池或检查主板上的现用电池是否有漏电现象。
163:时间和日期未设置出错部件及解决措施:重新设置时间和日期。
173:设备数据丢失出错部件及解决措施:在屏幕上选择OK,然后设置时间和日期,必要时需要更换备用电池。
174:设置错误。
出错部件及解决措施:先去检查一下硬件设备是否配置正确,或者检查硬盘的跳线是否设置正确。
0177: SuperVisor密码检验错出错部件及解决措施:系统主板。
1701:硬盘控制器失败1780, 1790:硬盘0出错1781, 1791:硬盘1出错173 192 163出错,出错部件及解决措施:硬盘错误,当然也不排除主板存在错误。
IBM服务器故障诊断及排除
IBM服务器故障诊断及排除⒈引言在日常运维管理中,IBM服务器可能会遇到各种故障,影响业务的正常进行。
本文档旨在提供一套完整的指南,以帮助管理员诊断和排除IBM服务器故障。
本文档将详细介绍故障诊断的步骤以及相关的解决方案。
⒉故障诊断流程⑴收集故障信息●收集服务器硬件信息,包括型号、序列号等。
●收集故障发生时的日志信息,如错误代码、系统日志等。
●收集故障发生的具体环境信息,如温度、湿度等。
⑵分析故障现象●根据故障现象描述,确定故障是否与硬件、软件、网络或其他因素有关。
●分析故障现象的时间、地点、频率等因素,以确定是否存在特定模式。
●使用故障现象和已知信息进行故障推断,缩小故障可能的范围。
⑶验证故障原因●使用合适的测试工具和方法,验证故障的真实原因。
●对可能的故障原因进行排除实验,以确定是否能复现故障。
⑷确定解决方案●基于故障的类型和原因,制定详细的解决方案。
●考虑解决方案的可行性和影响,选择最佳的解决方案。
⑸实施解决方案●根据确定的解决方案,执行相应的操作,修复故障。
●监测修复效果,确保故障得到彻底解决。
⒊常见故障类型及解决方案⑴电源故障●故障现象:服务器无法开机或突然关机。
●可能原因:电源供应问题、电源线路故障等。
●解决方案:检查电源线路和连接器是否正常,更换故障电源。
⑵硬盘故障●故障现象:无法识别硬盘、读写错误等。
●可能原因:硬盘损坏、连接问题等。
●解决方案:检查硬盘连接状态,更换损坏的硬盘。
⑶内存故障●故障现象:系统崩溃、应用程序错误等。
●可能原因:内存故障、内存插槽问题等。
●解决方案:进行内存测试,更换故障内存。
⒋附件本文档涉及以下附件:●附件1:IBM服务器型号和序列号清单●附件2:故障现象记录表●附件3:解决方案实施记录表⒌法律名词及注释●故障:指服务器在运行过程中出现的异常现象,影响服务器的正常工作。
●排除:指针对故障进行诊断和解决的过程,以使服务器恢复正常工作。
IBM小型机维护指导书V1[1].0
江西建行IBM小型机日常维护第一篇:日常维护部分第二篇:故障处理部分第三篇:安图特公司技术支持电话第一篇日常维护部分目录第1章AIX系统管理日常工作(检查篇) (1)1.1 常用的命令 (1)1.2 语法介绍 (1)1.2.1 vmstat:检查内存、CPU、进程状态 (1)1.2.2 sar:检查CPU、IO (2)1.2.3 PS:检查进程状态命令 (3)1.2.4 svmon:显示进程占用内存 (3)1.2.5 iostat:显示磁盘IO (4)1.2.6 netstat, entstat:显示网卡信息 (4)1.2.7 no:显示tcpip参数设置 (5)1.2.8 其它命令 (5)第2章AIX系统管理日常工作(LV篇) (6)2.1 IBM AIX系统管理的日常工作 (6)2.1.1 开关机步骤 (6)2.1.2 用户组及用户管理 (6)2.1.3 文件系统维护 (6)2.1.4 系统日常管理 (7)2.1.5 系统备份 (7)2.1.6 定时清洗磁带机 (7)2.1.7 定时检查设备指示灯状态 (7)2.1.8 简单故障的判断 (7)2.1.9 熟悉ibm aix操作系统 (7)2.2 关于IBM AIX的逻辑卷管理 (7)2.3 LVM命令 (8)第3章AIX系统管理日常工作(关键参数检查篇) (10)3.1 AIO参数检查 (10)3.2 磁盘阵列QUEUE_DEPTH参数检查 (11)3.3 用户参数检查 (11)3.4 激活SSA F AST-W RITE C ACHE (12)3.5 IO参数设置 (12)3.6 SYNCD DAEMON的数据刷新频率 (12)3.7 检查系统硬盘的镜像 (12)第4章AIX系统管理日常工作(性能分析篇) (13)4.1 性能瓶颈定义 (13)4.2 性能范围 (14)第5章AIX系统管理日常工作(SHUTDOWN篇) (14)5.1 概念 (14)5.2 关机命令 (14)第6章AIX系统管理日常工作(备份与恢复篇) (15)6.1 用SMIT备份 (15)6.2 手工备份 (15)6.3 恢复系统 (15)第7章HACMP的双机系统的管理和维护 (15)7.1 HACMP双机系统的启动 (15)7.2 HACMP双机系统的关闭 (16)7.3 察看双机系统的当前状态 (16)7.4 HACMP环境下的排错 (17)7.4.1 了解问题的存在 (17)7.4.2 判断问题的出处 (18)第1章AIX系统管理日常工作(检查篇)1.1常用的命令1.2语法介绍1.2.1vmstat:检查内存、CPU、进程状态# vmstat 1 15kthr memory page faultscpu----- ----------- ------------------------ ------------ -----------r b avm fre re pi po fr sr cy in sy cs ussy id wa1 0 28132 81277 0 0 0 0 0 0 132 375 67 65 134 02 0 28132 81277 0 0 0 0 0 0 127 338 131 99 00 02 0 28132 81277 0 0 0 0 0 0 132 316 131 99 00 02 0 28132 81277 0 0 0 0 0 0 120 317 126 99 00 02 0 28132 81277 0 0 0 0 0 0 146 316 127 99 00 02 0 28132 81277 0 0 0 0 0 0 130 317 125 99 00 02 0 28132 81277 0 0 0 0 0 0 135 316 127 99 00 02 0 28132 81277 0 0 0 0 0 0 129 317 124 99 00 02 0 28132 81277 0 0 0 0 0 0 133 304 127 99 00 0r:正在运行的进程b:被阻挡的进程avm:活动的虚内存,单位4kbfre:自由列表,位4kbpo:页换出pi:页换入sy:系统占用CPUid:空闲CPUwa:等待的CPU1.2.2sar:检查CPU、IO例如:sar -u 1 30sar -P ALL 1 10语法:sar -[abckmqruvwyA] inteval repetition-b buffer 活动-c 系统调用-k 内核进程统计.-m 消息及信号量活动-q 正在运行的队列数及等待队列数-r 页交换统计-u CPU利用-P CPU负载.1.2.3PS:检查进程状态命令ps:显示当前SHELL重所有进程ps -ef :显示系统中所有进程,-f显示更详细信息ps -u oracle:显示oracle用户进程ps –emo THREAD:显示线程信息ps au;ps vg:按使用时间显示进程(最近一次调用)ps aux:按使用时间显示进程(进程启动)1.2.4svmon:显示进程占用内存svmon –G:显示系统占用内存svmon -C command_name:显示某个用户进程占用内存svmon -P pid显示某个进程占用内存svmon –S:显示段占用内存1.2.5iostat:显示磁盘IOtty: tin tout avg-cpu: % user % sys % idle %iowait0.0 4.0 0.9 1.3 95.4 2.5Disks: % tm_act Kbps tps Kb_read Kb_wrtnhdisk0 58.4 218.3 41.2 172 920hdisk1 16.8 85.6 21.4 428 0hdisk2 50.6 223.9 55.6 1100 20hdisk3 16.8 85.6 21.4 428 0hdisk4 0.0 0.0 0.0 0 0hdisk5 43.4 279.1 69.8 1396 0hdisk6 0.0 0.0 0.0 0 0hdisk7 16.4 27.2 20.2 0 136hdisk8 0.0 0.0 0.0 0 0hdisk9 9.4 156.0 11.4 0 780hdisk10 16.4 27.2 20.2 0 136cd0 0.0 0.0 0.0 0 01.2.6netstat, entstat:显示网卡信息netstat en0:显示en0信息netstat –s:显示网络信息netstat -m显示网络buffers.netstat -i显示网卡状态netstat -I en0 1显示eno网卡塞(1秒间隔)1.2.7no:显示tcpip参数设置no –a:显示tcpip所有参数当前设置no -o tcp_keepalivetime=7200000设置tcp_keepalivetime等于3600000秒no -d 恢复默认值注:该方法在重启后失效1.2.8其它命令第2章AIX系统管理日常工作(LV篇)2.1 IBM AIX系统管理的日常工作系统管理员对小型机系统的正确管理是系统稳定运行的保障,作为系统管理员应注意以下几个方面:2.1.1开关机步骤在系统管理员控制下进行正确的操作。
IBM错误代码解释以及解决方法
IBM错误代码解释以及解决方法在使用IBM产品或服务的过程中,有时可能会遇到各种错误代码。
这些错误代码可能涉及到不同的问题,需要我们仔细检查和解决。
在本文中,我们将解释一些常见的IBM错误代码,并提供相应的解决方法。
1. 500 - Internal Server Error(内部服务器错误)这个错误代码表示服务器遇到了一个无法处理的问题。
可能的原因包括服务器配置错误、网络连接问题或应用程序错误。
解决方法包括:-检查服务器配置文件,确保配置正确。
-检查网络连接是否正常,尝试重启网络设备。
-使用日志文件来查找潜在的应用程序错误,并修复相应的代码。
2. 404 - Not Found(未找到)这个错误代码表示请求的资源在服务器上不存在。
可能的原因包括文件被误删除、链接错误或服务器配置问题。
解决方法包括:-检查请求的资源是否存在于服务器上。
如果不存在,可以尝试恢复文件或重新上传文件。
-检查链接是否正确。
如果链接错误,可以尝试修复链接或更改链接地址。
-检查服务器配置文件,确保资源的路径和文件名称正确。
3. 403 - Forbidden(禁止访问)这个错误代码表示服务器拒绝了对请求资源的访问。
可能的原因包括权限不足、IP地址被拦截或访问规则被禁止。
解决方法包括:-检查访问权限,确保用户有足够的权限来访问资源。
-检查IP地址是否被服务器拦截。
如果是,则可以尝试解除拦截或添加到允许访问列表。
-检查访问规则,确保没有禁止访问请求资源的规则。
4. 502 - Bad Gateway(网关错误)这个错误代码表示作为代理或网关的服务器从上游服务器接收到了一条无效的响应。
可能的原因包括上游服务器故障、网络连接问题或配置错误。
解决方法包括:-检查网络连接是否正常。
如果网络连接有问题,可以尝试重启网络设备或使用其他网络连接。
-检查代理或网关服务器的配置文件,确保配置正确。
5. 503 - Service Unavailable(服务不可用)这个错误代码表示服务器当前无法处理请求,可能是因为过载或维护。
IBM pSeries问题解决集锦
40. 如何平稳地停止AIX系统运行? .............................................................................20 41.为什么需要为大容量磁盘阵列配置磁带库? .......................................................20 42.HA(高可用性)方案: 心跳线是作什么用的? 如何配置? ....................................20 43.LED 201 故障的解决 .............................................................................................20 44.系统无法正常启动,液晶面板LED显示 551,555 或 557 ...................................21 45./var/adm/wtmp文件太大 ........................................................................................21 46.光盘驱动器错误 0514-062: 指定的设备忙..........................................................21 47.显示设置启动引导顺序.........................................................................................22 48.显示设置启动引导顺序.........................................................................................22 49.系统无法正常启动,液晶面板LED显示 553 ......................................................22 50.系统无法正常启动,液晶面板LED显示 552,554 或 556 ...................................22 51.如何替换损坏的镜像卷组硬盘? ...........................................................................23 52.系统启动时停在LED C31 .....................................................................................23 53.系统无法正常启动, 停在 LED C33. ...................................................................24 54.在AIX中设置中文环境..........................................................................................24 55.如何管理Paging Space ...........................................................................................25 56.如何使.profile文件在CDE中生效? .....................................................................26 57.怎样创建共享库?.................................................................................................26 58. 异步I/O (aio)............................................................................................................27 59."Volume Group Locked" 恢复步骤 .......................................................................27 60.裸设备(Raw Device) ..............................................................................................27 61.如何从 LED 553 恢复 ..........................................................................................28 62.RAID技术简介 .......................................................................................................31 63.使用ftp自动传输文件 ...............................................................................................32 64. 异步I/O (aio)............................................................................................................32 65. 如何用 2104 磁盘阵列做双机热备方案? ............................................................32 66. 如何禁止deadman switch? ......................................................................................35 67. 若两台做HACMP的主机同时启动不同的应用,磁盘阵列应如何配置 ............36 68. HACMP中三类资源组的比较.................................................................................36 69.HACMP有哪些心跳方式..........................................................................................36 70. IBM双机双柜热备份高可用性解决方案 ...............................................................37 71.RS6000 更换硬盘的过程..........................................................................................37 72.AIX系统的备份及恢复.............................................................................................40 73.如何查看系统中是否安装了某个补丁程序? ..........................................................41 74.AIX系统ROOT用户密码丢失的处理办法: ..........................................................41 75. AIX中如何解决不能释放光驱的问题 ....................................................................46 76. 7133-D40 开始LED显示”POST”并报警,................................................................46 77.如何改变hacmp.out文件的路径或文件名? ...........................................................46 78.用串口安装操作系统后无法登录的解决方法!!! ....................................................46 79.更改默认网关............................................................................................................48 80.改变主机IP地址解析顺序 ........................................................................................49 81.安装ML10 补丁后,看不到AIX 4.3.3 安装 4330-10 Maintaince Level 信息......49 82.如何建立系统备份(mksysb)而不保留镜像信息? ...................................................50 83.屏幕上出现提示 :WWpn adree=NULL!,无法用光盘引导进入维护模式..........52
IBM X系列服务器常见问题
2. IBM X345灰尘问题
3.x3650(7979R01)第2个硬盘问题
4.ibm x3650服务器故障是什么问题?
5. IBM X3850系统安装问题(磁盘阵列不能创建)
6. x3850x5连盘柜起不来系统,解决方法。
7. X3850系统坚难的安装过程
8. x3550M2与x3650M2常见问题解答
Q)x3550/x3650M2相对于其上一代的x3550/x3650在性能上有多大的提
升?
A)下图对比了配置不同型号CPU的x3650和x3650M2之间的性能差距,
例如,使用X5570的x3650M2相对于使用X5470的x3650在性能上提高了
68%。
Q)x3550/x3650M2在性能提高的同时会不会比其上一代的x3550/x3650更
(说明):
计算机的大部分问题往往在有些解决错误信息中能找到答案
2.IBM X345灰尘问题
(问题):
两个IBM X345服务器,都是两个硬盘,做的RAID1,一个345上的一个硬盘黄灯闪烁,绿灯有时也亮,另一个硬盘的绿灯基本上不亮,黄灯不亮
(分析):
按照手册说,黄灯长亮才是硬盘坏了,如果黄灯闪烁是在rebuilding,此时,进入LSI RAID管理界面,第一个硬盘显示primr,第二个硬盘显示“OK”;换掉那个黄灯闪烁的硬盘,新硬盘的黄灯也是一样的闪烁,绿灯也闪烁,另一个硬盘的绿灯闪的比以前频繁了,进入LSI RAID界面,第一个硬盘是“primry”;第二个硬盘是“out of sync”。
(分析):
用可启动U盘或可启动光盘可以登录到WINPE环境并且在WINPE下可以看到2个物理硬盘都在!这可以排除硬盘本身的问题因素。
非常详细的IBM小型机故障定位方法
非常详细的IBM小型机故障定位方法IBM, 小型机, 故障定位一故障的定义.弄清楚系统发生了什么问题.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的操作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。
二故障信息的收集1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。
2)系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION TIMESTAMP: MMDDHHMMYY (月日时分年)论T(类型): P 永久; T 临时; U 未知(永久性的错误应引起重视)C(分类): H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00003)控制面板上的LED 代码.8 位代码,通常系统故障灯会同时亮起。
IBM服务器以及故障灯说明和解决办法
IBM服务器以及故障灯说明和解决办法系统故障:机器的前面板!灯亮起来。
有的情况下系统可以正常运行,但是有的情况下系统运行故障。
解决方法:1、重新启动服务器,按F1进入Configuration/Setup Utility;2、查看Error Logs选项下的黄色感叹号开始亮起来的日期以后的错误日志Error Logs;3、如果开机有F2提示可以进入Diagnostics(PC-Doctor)的机型,可以按F2进入诊断程序界面,在Hardware Info.菜单下选择System Error Logs可以将Error Logs保存到软盘上备查,也可以在该界面下查看所有的错误日志Error Logs;4、如果Error Logs中提示系统日志超过75%,没有其它错误日志的报告,在F1进入的Configuration/Setup Utility中,选择POST Error Log 选项后,直接回车选择Clear error logs清除所有的自检日志,同样选择System Error Log,直接回车选择Clear error logs清除所有的系统日志;5、如果Error Logs中有错误记录一定要将日志保存到软盘,退出诊断程序,然后关机,拔掉服务器连接的所有电源线,打开机箱侧面板,插上电源线加电,察看一下光路检测板,看是否有指示灯亮,如果有指示灯亮,一定要记录相应指示灯的名称,将得到的错误日志文件和指示灯信息一起提供给工程师,配合确定故障所在;6、另外一定要注意在打开机箱之前,必须断开服务器的所有的连线,比如电源线等;附加信息:IBM的Netfinity和e(IBM logo)Server的服务器(Netfinity5000及以上型号),e(IBM logo)Server X系列的x220以上服务器都集成有高级管理芯片或高级管理卡。
它们负责监视机器各个部件的工作状态,例如温度,电压等。
当这些指标超过预先设定的值,就会通过管理卡或管理芯片报警。
ibm_x系列服务器报错代码
ibm_x系列服务器报错代码适用机型:所有服务器以下报错信息,只是对目前大部分使用过程中发生橘黄色感叹号灯常亮,技术服务人员联系。
错误代码/症状062 (使用缺省配置的连续三次引导失败。
2. 电池3. 主板 4?微处理器101、102、106 (计时器时标中断失败) 102 (计时器2测试失败) 106 (软盘控制器错误)129 (内置高速缓存(L1 )错误) 2?微处理器 151 (实时时钟错误) 2.主板161(实时时钟电池错误)序 2. 电池 3. 主板162 (设备配置错误)注:请务必装入缺省设置和任何期望的其它设置; 然后,保存配置程序2. 电池3. 发生故障的设备4. 主板 163(实时时钟错误)程序2. 电池3. 主板 164(内存配置更改。
)序2. DIMM3. 主板 175(EEPROM CRC #1 损坏)184(开机密码损坏)程序2.主板X 系列服务器适用的报错信息。
仅供参考,如果服务器或者服务器停止在自检过程中,建议客户尽快跟IBM FRU /操作) 1.运行 Configuration/Setup Utility 程序*主板*主板 *主板1.可选微处理器1.电池1.运行 Configuration/Setup Utility 程1.运行 Configuration/Setup Utility1.运行 Configuration/Setup Utility1.运行 Configuration/Setup Utility 程*主板185(驱动器启动顺序信息毁坏)2.主板187(VPD序列号未设置)2.主板188(EEPROM CRC #2 损坏)2.主板189(试图以无效密码进入系统)2.主板196(微处理器高速缓存不匹配)2?微处理器198(微处理器速度不匹配)2?微处理器199(微处理器未按建议进行配置)2?微处理器201(内存测试错误)2.主板229(内置高速缓存(L2)错误)2.后添加微处理器289(用户或系统禁用了DIMM)2.DIMM3.主板301(键盘或键盘控制器错误)2.主板303(键盘控制器错误)2.主板602(无效的软盘引导记录)2.软盘驱动器3.驱动器电缆4.主板604(软盘驱动器错误)1.运行Configuration/Setup Utility 程序1.运行Configuration/Setup Utility 程序1.运行Configuration/Setup Utility 程序1.运行Configuration/Setup Utility 程序1.确保微处理器为相同的类型和速度1.确保微处理器为相同的类型和速度1.确保微处理器为相同的类型和速度1. DIMM1.微处理器1.运行Configuration/Setup Utility 程序1.键盘1.将PS/2键盘更换为USB键盘1.软盘1.运行Configuration/Setup Utility序和诊断程序2.软盘驱动器3.驱动器电缆4.主板662(软盘驱动器配置错误) 1.运行Configuration/Setup Utility 程序和诊断程序2.软盘驱动器3.驱动器电缆4.主板962(并口配置错误)2.主板1162(串口配置错误)11XX(系统板串口1或2错误)2.主板1601(需要更新BIOS代码)2.主板1602(未安装可选Remote Supervisor Adapter II 电源线,等待30秒钟,重新连接然后重试1762 (硬盘驱动器配置错误,仅IDE)2.硬盘电缆3.运行Configuration/Setup Utility 程序4.主板178X(硬盘驱动器错误,仅IDE)2.硬盘适配器3.硬盘驱动器1.运行Configuration/Setup Utility 程序*主板1.运行Configuration/Setup Utility 程序1.下载并安装最新级别的BIOS代码电缆)*从服务器断开所有服务器和选件1.硬盘驱动器1.硬盘电缆4.主板错误代码/症状/操作1800(没有多余的硬件中断可用于PCI适配器)序2.卸下适配器1801(没有可用于PCI适配器的ROM空间)2.卸下适配器FRU 1.运行Configuration/Setup Utility 程3.禁用适配器BIOS 并运行Configuration/Setup。
IBM服务器故障诊断及排除
IBM服务器故障诊断及排除1、问题描述首先,明确IBM服务器所遇到的故障或问题的具体描述。
例如,服务器无法启动,性能下降,或出现异常噪音等等。
2、故障诊断步骤2.1 硬件检查- 检查电源连接是否正常,确保服务器已正确连接到电源插座,并有稳定的电源供应。
- 检查所有硬件组件是否牢固连接,包括内存模块、硬盘驱动器、扩展卡等。
如果有任何松动或损坏,重新插入或更换相关组件。
- 检查是否有热量积聚或过热的现象,确保服务器周围环境的散热良好。
- 运行IBM系统自检工具,如IBM X-ACT(eXtended Advisorfor Technical Support)或IBM DSA(Diagnostics Standalone Edition),以检测可能的硬件故障。
2.2 软件检查- 检查操作系统是否有任何错误或警告日志。
通过分析这些日志,可以找到与故障相关的特定软件问题。
- 检查服务器上运行的应用程序是否有异常情况,例如崩溃、错误报告或未响应的状态。
- 更新操作系统和驱动程序至最新版本,以修复已知的软件问题和漏洞。
3、故障排除解决方案3.1 服务器无法启动- 检查电源连接是否正常,并确保服务器处于稳定的电源供应下。
- 检查服务器内部硬件组件是否正确连接。
如果有任何松动或损坏,重新插入或更换相关组件。
- 尝试进入BIOS设置并确保启动设备顺序正确配置。
- 检查启动设备是否正确工作,例如检查硬盘驱动器是否正常,或尝试替换硬盘驱动器。
3.2 服务器性能下降- 检查服务器资源利用率,例如CPU、内存、磁盘等,确认是否存在资源过载的情况。
- 检查是否有异常进程或应用程序消耗过多的资源,通过终止或重启相关进程来解决问题。
- 检查是否有磁盘碎片化的问题,运行磁盘碎片整理工具以提升磁盘读写性能。
- 考虑增加服务器硬件配置,例如增加内存容量、更换更快的硬盘驱动器等来提升性能。
3.3 服务器出现异常噪音- 检查服务器内部风扇是否正常工作,并清理任何灰尘或杂物。
服务器故障处理流程及应对措施
服务器故障处理流程及应对措施随着信息技术的不断发展,服务器在企业和组织中扮演着至关重要的角色。
然而,服务器故障是不可避免的,一旦发生故障,将会给企业带来严重的损失。
因此,建立一套完善的服务器故障处理流程及应对措施显得尤为重要。
本文将从故障处理流程和应对措施两个方面进行探讨。
一、服务器故障处理流程1. 故障检测阶段- 监控系统:建立监控系统,实时监测服务器的运行状态,包括CPU利用率、内存使用情况、磁盘空间等指标,一旦发现异常立即报警。
- 日常巡检:定期对服务器进行巡检,检查硬件设备是否正常运行,排除潜在故障隐患。
2. 故障诊断阶段- 收集信息:当接到故障报警后,及时收集相关信息,包括故障现象、发生时间、影响范围等。
- 分析原因:通过日志分析、性能监控等手段,快速定位故障原因,确定故障类型。
3. 故障修复阶段- 制定应急方案:根据故障类型和影响程度,制定相应的应急方案,明确修复措施和时间节点。
- 执行修复:由专业技术人员按照应急方案进行故障修复,确保服务器尽快恢复正常运行。
4. 故障恢复阶段- 验证恢复:修复故障后,进行功能验证和性能测试,确保服务器各项功能正常。
- 汇报总结:对故障处理过程进行总结,分析故障原因,提出改进建议,为避免类似故障再次发生提供参考。
二、服务器故障应对措施1. 备份数据- 定期备份:建立定期备份机制,确保重要数据的安全性,一旦发生故障可以快速恢复数据。
- 多地备份:数据备份应分布在不同地点,防止因某一地点发生灾难导致数据丢失。
2. 灾难恢复计划- 制定计划:建立完善的灾难恢复计划,包括数据恢复、系统恢复等方面,确保在灾难发生时能够迅速应对。
- 定期演练:定期组织灾难恢复演练,提高应急响应能力,确保在关键时刻能够有效应对。
3. 安全防护- 加固防护:加强服务器安全防护措施,包括防火墙、入侵检测系统等,防止恶意攻击导致服务器故障。
- 更新补丁:定期更新服务器系统和应用程序的补丁,修复已知漏洞,提升系统安全性。
ibm服务器故障诊断及排除
ibm服务器故障诊断及排除
第1页
服务器故障诊疗流程
总体诊疗流程 Y 加电问题诊疗 Y 自检问题诊疗 Y 操作系统开启 Y
诊疗 服务器诊疗流 Y
ibm服务器故障诊断及排除
开始诊疗
是否进行总 体诊疗
服务器是否 正常加电
服务器是否 能够完成自
检
操作系统是 否能够正常
开启
服务器是否 有Insight
IBM服务器光通路诊疗面板
指示灯
问题
操作
CNFG
发生硬件配置错误。
CPU
1. 确定CNFG 指示灯是否也 当只有CPU 指示灯点亮时,
才表示微处理器发生故障。
当CPU 指示灯和CNFG 指示
灯都点亮时,表示微处理 器配置无效。
点亮。假如CNFG 指示灯不亮
,表
示微处理器发生故障。
2. 假如CNFG 指示灯点亮, 表示微处理器配置无效。
1. 检验PCI 插槽上指示灯, 第9页
DELL 服务器故障诊疗流程
DELL服务器光通路诊疗
第一行信息 E0000
每二行信息 OVRFLW CHECK LOG
E0119
TEMP AMBIENT
E0119
TEMP BP
ibm服务器故障诊断及排除
原因
LCD 过载信息。 LCD 上最多能够连续显示三则 错误信息。第四则信息显示为 标准过载信息。
IBM 服务器故障诊疗流程
IBM服务器光通路诊疗面板
指示灯
问题
OVER SPEC
因为某个
电源通道
上出现电
源超负荷
情况,所
以关闭了
服务器。
电源功率
IBM报错代码及解决方法
IBM报错代码及解错误代码解释<T40>2010HDD与机器不匹配(微码)0271、0251时间错,sys tem,com check svm bad0175CRCI错,停止了POST任务,EEPROW检验出错8011、8611键盘报错0189码片与BIOS资料不符合1802、1803未经授权的网卡插入0190Criticallpow batter terror锁头BIOS+码片Power on password 开机口令Super user password 超级用户口令HARD DISK password HDD密码1801接上的扩展坞不支持FAN ERROR风扇报错184开机密码检验错误0196安全硬件被移除0193RF ANTENNA HAS……012X键盘报错0188解除方法同0175Termal Sensing error热感应错误(Hard disk drive) initialization error (1)码及解决方法解决方案T43刷更低版本的BIOS,让HDD与之相匹配时间报错,更改时间,更改CMOS电池,再不行就要修时钟电路0175解密狗→码片→BIOSK/B坏,K/B未插,启动过程中某键被压住刷码片/BIOS取下网卡(非集成)→系统→运行→CMD→JMP 1802 <详见前期资料>电池有问题,拔掉电池有问题,则H8坏刷码片+BIOS刷码片+BIOS硬盘解密移除清洁更换风扇进BIOS重设不行就重刷码片进BIOS--CONFIG--IBM SECURISY CHIP--CLEAR IBM SECUFISY CHIP--OK 保存退出进BIOS--设置RF无线为DISABLE时间报错,更改时间,更改CMOS电池,再不行就要修时钟电路更换H8。
【IBM BIOS】错误代码说明书
【IBM BIOS】错误代码说明书.txt真正的好朋友并不是在一起有说不完的话题,而是在一起就算不说话也不会觉得尴尬。
你在看别人的同时,你也是别人眼中的风景。
要走好明天的路,必须记住昨天走过的路,思索今天正在走着的路。
【IBM BIOS】错误代码说明书错误码及提示出错部件及解决方法10X101: 中断失败102: 时钟失败103: 时间中断失败104: 保护模式失败105: 最后的 8042命令未接受107: NMI 检测失败108: 时钟总线检测失败109: Low meg芯片选择检测系统主板.nm110平面奇偶检测内存内存插槽如果有接到电脑的扩展部件移除系统主板111I/O奇偶检测内存扩展部件或端口复制器系统主板.11XX1101: A类设备检测失败串口设备通讯接线系统主板12XX1201: B类检测失败系统主板 (红外)158即设置了SuperVisor密码但没有设置硬盘密码设置硬盘密码159硬盘密码与SuperVisor密码不相同设置硬盘密码与SuperVisor密码相同161电池失效检测备用电池备用电池系统主板.163时间和日期未设置设置时间和日期系统主板.173设备数据丢失在屏幕上选择OK,然后设置时间和日期备用电池系统主板.174设置错误:先进行检测安装的设备列表再改变FRU部件检测设备配置硬盘驱动器系统主板.0175CRC1错, 停止了 POST任务. EEPROM 校验错. 系统主板0177SuperVisor密码检验错系统主板0178EEPROM 失效系统主板17XX1701: 硬盘控制器失败1780, 1790: 硬盘0出错1781, 1791: 硬盘1出错硬盘驱动器系统主板183提示输入SuperVisor密码时输入错误输入正确的SuperVisor密码184开机密码检验错进入BIOS设置中重置开机密码185非法的启动顺序进入BIOS设置中重置启动顺序186 1系统主板0187EAIA 数据读取错误。
IBM-小型机日常管理和故障处理
故障处理---故障的定义
弄清楚系统发生了什么问题
– 系统现在能做什么?不能做什么? – 故障什么时候发生的? – 有没有做平时不同的操作? – 故障有没有规律?定时还是不定时?发生的频率有多高? – 是一台机器出现故障还是多台机器故障?故障现象是否相同? – 最近有没有做改动?如安装了新的硬件、软件,改变了系统
Detail Data SENSE DATA 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
13
HMC的使用
14
HMC 使用
Hardware Management Console – 进行P系列小型机的硬件管理、维护,以及逻
8
系统健康检查
#lsattr –El inet0
authm
65536
Authentication Methods
True
hostname
qtsms
Host Name
True
gateway
Gateway
True
route
net,,0,172.40.10.1 Route
True
bootup_option no
Serial Optical Network Interface True
rout6
FDDI Network Interface
True
route属性是否有相应的路由信息。格式为:net,,0,172.16.23.81 如果没有缺省路由,执行命令:
#chdev –l inet0 –a route=0,172.16.23.81 其中172.16.23.81为网关 如果缺省路由不正确,则先删除路由,再增加缺省路由:
IBM xSeries服务器故障信息收集指导20070927-B-V1.0
IBM xSeries 服务器故障信息收集指导前言收集故障信息对于判断、诊断故障原因,修复系统非常重要。
现场信息收集完整有助于问题的快速解决。
要点1.客户信息2.硬件及配置信息(尽可能详尽)3.软件及配置信息(尽可能详尽)4.周围环境5.完整的故障现象描述。
即用户第一次遇到的故障现象,发现故障后做过的操作(清晰的描述).弄清楚系统发生了什么问题.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的操作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。
故障描述总故障描述:1 故障发生条件,即怎样的环境/操作下可以看到故障现象?2 故障对哪些使用功能的造成什么影响?3 人体对机器部件运行是否正常的描述(整机或相关部件声音、用触摸感觉相关部件发热成度有没有异常,如风扇有没特别响,哪个部件是不是感觉温度很高等)4 故障频率?5 报警信息描述?(从光通路①,post②自检信息)6 客户是如何发现故障的?7 第一次发生故障的时间?8 在第一次发生故障前做过什么操作?(包括硬件的安装与移除、软件或驱动程序的安装)有的话写出它们的名称与对应操作。
9 该客户故障机器共几台?10该客户同类机器共几台?11 有其它客户报相同问题吗?有的话故障机器数量是多少?12 你想补充的话?信息收集表格需要收集给IBM进行分析的文件:一、非NEBS标准的服务器:xSeries服务器(除x343外)1.收集工具的准备a)DSA工具如下附件Dsa110p.exe,其最新的版本请从Web:/pc/support/site.wss/document.do?lndocid=MIGR-59988获得;b)Egather工具请见如下附件Egather2.exe,其最新的版本请从Web:/pc/support/site.wss/document.do?lndocid=MIGR-4R5VKC获得;c)Dumplog工具请见如下附件Dumplog30.exe,其最新的版本请从Web:/support/docview.wss?uid=psg1MIGR-4UD223获得;2.工具的运行环境a)DSA的运行环境:32位Windows2000、Windows2003和WindowsXP系统;b)Egather运行环境:32位Windows NT、Windows2000、Windows2003和WindowsXP系统;如需在Linux平台上收集数据,请从上面的网站上获取Linux的版本Egather;c)Dumplog运行环境:DOS(用该盘启动)、32位Windows2000、Windows2003和WindowsXP系统;如需在其它平台上收集数据,请从上面的网站上获取Linux的相应的版本。
IBM小型机故障描述以及解决办法
IBM小型机故障描述以及解决办法针对基础支柱产业,生产系统的高度实时性是产生维保的主要动因,针对财政银行等综合决策系统,数据高可用性是产生维保的主要动因。
据统计,2012年国内有10万个各级政府机构和150万家企业,目前许多客户已经历了买设备、上应用发展到今天保运行阶段。
IBM在服务器市场占有率高达79%,针对IBM小型机的维保,市场最成熟,技术积累最丰富。
维保主要分为两部分:日常维护、故障修复日常维护部分:虽然小型机在运行态很少改动配置,但经常监控运行状态却是至关重要的,通过规律的监控,通过与业务联系,一方面可以预测小型机负载压力,把握运行规律,另一方面可以预测故障的发生点而及时修复,将故障终止,消灭在萌芽状态,使得业务连续和高可用。
专业的巡检可以判断系统运行的瓶颈,从而为可能增长的业务量及时提供硬件升级方案,来避免瓶颈的出现。
日常维护主要方式是巡检,分周巡检、月度巡检以及季度巡检。
月度巡检以月为时间单位进行例行巡检,对小型机运行状态以及故障监测,使用一般指标,巡检比较及时;周巡检以周为时间单位,频次高,对小型机状态监测度最高,动态把握最明确,缺点是对人力资源耗费比较大;季度巡检为深度巡检,系统整体信息比较准确,但是频率低对系统实时状态把握度较差,加之月度巡检在没季度的最后一次巡检都是深度巡检,月度巡检就弥补了季度巡检的实时性缺陷。
IBM小型机故障:任何小型机都有一定的故障率,即使是IBM、HP所发布的零宕机产品也不能保证百分之百无故障。
随着使用时间的增加,机房环境,电子元器件老化等原因,导致故障,尤其意外断电对电子元器件的冲击更大。
按故障性质分,可分为隐性故障和显性故障,隐性故障可能有未检测到的故障点,或者因为电子元器件使用寿命的增长突然崩溃而导致的故障。
隐性故障最典型的是关机后导致不能重启进入系统,应对方法是定期巡检,排查隐性故障,易损部件制定科学的周期进行更换操作等。
显性故障指系统识别出,并在FCU 工作台显示出的故障情况,亦都是隐性故障发生跳变或产生结构性故障后系统给出的提示,此时需尽快根据故障代码对系统进行修复。
IBM PC服务器故障诊流程
IBM PC服务器故障诊断流程一、状态确定:状态确定是指发生故障的设备是当前是什么状态,是业务正常在跑,前面板有指示灯告警,比如一些冗余部件的故障(硬盘、电源、风扇等等);还是出于宕机状态,不能正常进入到操作系统里面,这里又得分为两种情况讨论,一是设备开机没有自检,直接黑屏;二是开机有自检,自检阶段有POST蜂鸣声或者报错码,面对这种情况可结合前面板LED,光通诊断板,主板LED,POST阶段的一些现象具体问题具体分析。
故障定位侧重于判断坏在哪里;二、故障定位:故障定位的时候,我们用到的手段非常多,下面,利用POST的过程;1、POST阶段复习:广义的POST过程是指从按下电源开关到开始引导系统,共分为三个过程:电源供电阶段→核心部件初始化阶段→狭义POST阶段2、电源供电阶段:从按下电源开关的瞬间开始,设备就开始工作了;电源是动力的源泉,供电系统的良好是设备正常运转的基础;如果问题出现在电源这边,那么之后的一切都进行不下去了;电源问题:供电系统的良好是设备正常运转的基础;只有供电系统OK了,设备才可以开始自检;故障表象:机器开机无电,电源灯不亮,电源风扇不转,按电源按钮开机无反应。
诊断方法及过程:供电系统是一条完整的链路,不是单指电源模块;市电及插座→电源线→电源模块→电源分配板→主板;首先,要确认市电供电是否正常;包括使用的插座或者PDU(power distribution unit)模块;其次,查看电源线是否接好,电源线本身是否OK;诊断方法:替换法+最小化法+指示灯法+排除法;替换法:拿确认完好的备件去替换故障设备上的相应备件;最小化法:将链路裁减至最小(要保障设备能正常运行),再进行故障排除;IBM的问题确定与维护手册诊断章节之未确定的问题当中提供了服务器能够启动的最低配置,以IBM X346(8840)为例,下面为IBM X346(8840)能够启动的最低配置:指示灯法:一般在电源模块上都有相应的指示灯,来表征电源模块的状态;比如AC(交流电)和DC(直流电)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IBM xSeries 服务器故障信息收集指导
前言
收集故障信息对于判断、诊断故障原因,修复系统非常重要。
现场信息收集完整有助于问题的快速解决。
要点
1.客户信息
2.硬件及配置信息(尽可能详尽)
3.软件及配置信息(尽可能详尽)
4.周围环境
5.完整的故障现象描述。
即用户第一次遇到的故障现象,发现故障后做过的操作(清
晰的描述)
.弄清楚系统发生了什么问题
.系统现在能做什么?不能做什么?
.故障什么时候发生的?
.有没有做平时不同的操作?
.故障有没有规律?定时还是不定时?发生的频率有多高?
.是一台机器出现故障还是多台机器故障?故障现象是否相同?
.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。
故障描述
总故障描述:
1 故障发生条件,即怎样的环境/操作下可以看到故障现象?
2 故障对哪些使用功能的造成什么影响?
3 人体对机器部件运行是否正常的描述(整机或相关部件声音、用触摸感觉相关部件发热成度有没有异常,如风扇有没特别响,哪个部件是不是感觉温度很高等)
4 故障频率?
5 报警信息描述?(从光通路①,post②自检信息)
6 客户是如何发现故障的?
7 第一次发生故障的时间?
8 在第一次发生故障前做过什么操作?(包括硬件的安装与移除、软件或驱动程序的安装)有的话写出它们的名称与对应操作。
9 该客户故障机器共几台?
10该客户同类机器共几台?
11 有其它客户报相同问题吗?有的话故障机器数量是多少?
12 你想补充的话?
信息收集表格
需要收集给IBM进行分析的文件:
一、非NEBS标准的服务器:xSeries服务器(除x343外)
1.收集工具的准备
a)DSA工具如下附件Dsa110p.exe,其最新的版本请从Web:
/pc/support/site.wss/document.do?lndocid=MIGR-59988获得;
b)Egather工具请见如下附件Egather2.exe,其最新的版本请从Web:
/pc/support/site.wss/document.do?lndocid=MIGR-4R5VKC获得;
c)Dumplog工具请见如下附件Dumplog30.exe,其最新的版本请从Web:
/support/docview.wss?uid=psg1MIGR-4UD223获得;
2.工具的运行环境
a)DSA的运行环境:32位Windows2000、Windows2003和WindowsXP系统;
b)Egather运行环境:32位Windows NT、Windows2000、Windows2003和
WindowsXP系统;如需在Linux平台上收集数据,请从上面的网站上获取Linux
的版本Egather;
c)Dumplog运行环境:DOS(用该盘启动)、32位Windows2000、Windows2003
和WindowsXP系统;如需在其它平台上收集数据,请从上面的网站上获取
Linux的相应的版本。
3.工具的操作指导
a)故障现像屏幕抓图
i.当现象出现时在键盘上按“Print Screen”,将屏幕显示的内容存入缓存;
ii.打开程序中附件的画图工具,按“Crtl+V”将缓存中的图像粘贴到画布上,并另存为JPG文件。
b)DSA日志
i.将DSA(dsa110p.exe)工具软件拷入目录C:\temp中;
ii.直接运行dsa110p.exe;
iii.点击按钮“Next>”;
iv.接受协议并点击“Next>”;
v.程序将自动运行收集系统和硬件的信息,并在C:\IBM_SUPPORT\目录下生成一个Model_Serial_Date-Time.xml.gz的DSA日志文件,自动结束程
序。
c)Egather日志
i.将下载的Egather2.exe复制到目录C:\temp中;
ii.直接运行Egather2.exe;
iii.该工具会自动转到DOS窗口,如下图;
iv.按“Y”接受所显示的条款,并按“Enter”继续;
v.程序会在Egater2.exe的目录下生存一个其扩展名为EG2的Egather日志文件,比如:IBM-MTM#-S/N#.EG2。
d)Dumplog日志
i.将下面的Dumplog30.exe解压到软盘;
ii.将其软盘放入软驱,运行软盘中的“Autoexec.bat”;
iii.Domplog工具会将其生成的Log信息存入软盘的Server.log中。
注:下次用时需要删除该盘中的Server.log。
e)F2日志
i.打开服务器,当屏幕出现消息 F2 for Diagnostics时按F2;
ii.系统会进入诊断窗口的界面,从顶部菜单选择Hardware Info->System Error Log(或BMC Log);
iii.按“F3”后,再按“Spacebar”;
iv.输入文件名并将日志保存到软盘上。
二、NEBS标准的服务器:x343(8827&8847)
1.收集工具的准备
a)x343 Document and Resource CD;
b)其它工具请参见非NEBS标准服务器部分的收集工具准备(一.1)。
2.工具的运行环境
x343 Document and Resource CD:自启动;
3.工具的操作指导
a)故障现像屏幕抓图
请参阅NEBS标准服务器部分的操作指导a).
b)SEL日志BMC和FRU信息
将下面的附件(X343 SEL,SDR,FRUlog获取方法.rar)解压后参照操作。
c)DSA、Egather和Dumplog日志
其收集的方法请参见前面的非NEBS标准服务器的操作指导b)、c)、d)。