IBM服务器故障诊断及排除

合集下载

IBM服务器黄灯亮解决方法

IBM服务器黄灯亮解决方法

IBM服务器,!黄灯亮解决方法系统故障:机器的前面板!灯亮起来。

有的情况下系统可以正常运行,但是有的情况下系统运行故障。

解决方法:1、重新启动服务器,按F1进入Configuration/Setup Utility;2、查看Error Logs选项下的黄色感叹号开始亮起来的日期以后的错误日志Error Logs;3、如果开机有F2提示可以进入Diagnostics(PC-Doctor )的机型,可以按F2进入诊断程序界面,在Hardware Info.菜单下选择System Error Logs可以将Error Logs 保存到软盘上备查,也可以在该界面下查看所有的错误日志Error Logs;4、如果Error Logs中提示系统日志超过75%,没有其它错误日志的报告,在F1进入的Configuration/Setup Utility中,选择POST Error Log选项后,直接回车选择Clear error logs清除所有的自检日志,同样选择System Error Log,直接回车选择Clear error logs清除所有的系统日志;5、如果Error Logs中有错误记录一定要将日志保存到软盘,退出诊断程序,然后关机,拔掉服务器连接的所有电源线,打开机箱侧面板,插上电源线加电,察看一下光路检测板,看是否有指示灯亮,如果有指示灯亮,一定要记录相应指示灯的名称,将得到的错误日志文件和指示灯信息一起提供给工程师,配合确定故障所在;6、另外一定要注意在打开机箱之前,必须断开服务器的所有的连线,比如电源线等;附加信息:IBM的Netfinity和e(IBM logo)Server的服务器(Netfinity 5000及以上型号),e(IBM logo)Server X系列的x220以上服务器都集成有高级管理芯片或高级管理卡。

它们负责监视机器各个部件的工作状态,例如温度,电压等。

当这些指标超过预先设定的值,就会通过管理卡或管理芯片报警。

服务器故障排查与修复技巧总结

服务器故障排查与修复技巧总结

服务器故障排查与修复技巧总结随着信息技术的不断发展,服务器在现代社会中扮演着至关重要的角色。

然而,服务器故障时有发生,一旦出现故障,可能会给企业和个人带来严重的损失。

因此,掌握服务器故障排查与修复技巧显得尤为重要。

本文将从常见的服务器故障类型入手,总结一些排查与修复的实用技巧,帮助读者更好地解决服务器故障问题。

一、硬件故障1. 电源故障电源是服务器正常运行的基础,一旦出现电源故障,服务器将无法正常启动。

在排查电源故障时,首先要检查电源插头是否插紧,电源线是否受损,电源开关是否正常。

如果以上都没有问题,可以尝试更换电源插座或者电源线,如果问题依然存在,可能是电源模块故障,需要更换电源模块。

2. 内存故障内存是服务器中易损件之一,频繁的读写操作可能导致内存故障。

在排查内存故障时,可以通过服务器管理界面查看内存使用情况,如果发现异常,可以尝试重新插拔内存条或更换内存条。

另外,一些服务器还配备了内存自检功能,可以通过自检功能来排查内存是否正常。

3. 硬盘故障硬盘是存储服务器数据的关键组件,一旦硬盘故障,可能导致数据丢失。

在排查硬盘故障时,可以通过服务器管理界面查看硬盘状态,如果硬盘状态异常,可以尝试重新插拔硬盘或更换硬盘。

此外,一些服务器还配备了硬盘自检功能,可以通过自检功能来排查硬盘是否正常。

二、网络故障1. 网络连接故障网络连接故障是服务器常见的问题之一,可能导致服务器无法正常访问。

在排查网络连接故障时,可以通过ping命令检查服务器与网关之间的连接是否正常,如果ping不通,可能是网线连接不良或网卡故障。

此时可以尝试更换网线或网卡,重新连接网络。

2. DNS解析故障DNS解析故障可能导致服务器无法解析域名,无法正常访问互联网。

在排查DNS解析故障时,可以通过nslookup命令检查服务器的DNS解析是否正常,如果解析失败,可能是DNS配置错误或DNS服务器故障。

此时可以尝试修改DNS配置或更换DNS服务器。

X3850X5服务器无法开机故障处理_微码升级

X3850X5服务器无法开机故障处理_微码升级

IBM X3850 X5服务器无法开机故障处理步骤V1.0一、设备概况二、问题描述接到客户报修,一台IBM X3850X5服务器宕机后无法开机,诊断面板上BRD指示灯亮起,立即赶往现场处理。

经过现场确认,设备电源可以正常加电,但按下开机按钮后无法启动,液晶面板在01、FR间循环显示,断电重新加电现象相同。

通过用客户管理电脑连接IMM管理端口查看日志,有如下报错信息:三、处理步骤通过设备维护手册查询,报错内容“Sensor "CPU 2 VRD" has transitioned to non-recoverable”为CPU板故障,报错内容“Sensor "I/O Board VRD" has transitioned to non-recoverable”为PCI板故障。

这两个故障都可能导致目前无法开机的现象,从时间点看CPU板首先故障,所以CPU 板故障可能性最大并准备备件准备更换,同时准备PCI板现场备用。

CPU板更换步骤如下:1. 现场准备好新的备件。

2. 关闭服务器和外围设备,并根据需要断开电源线和所有外部电缆连接,以更换设备。

3. 卸下顶盖。

4. 卸下顶盖支架)。

5. 卸下电源。

6. 从微处理器板组合件卸下I/O 板滑盖。

7. 卸下内存卡。

8. 卸下ServeRAID 适配器。

9. 卸下中间风扇。

10. 卸下内存卡仓。

11.卸下微处理器。

12. 断开以下电缆连接:前部风扇、可扩展指示灯、操作员信息面板和CD/DVD 电源。

13. 拧松服务器后部的指旋螺钉。

14. 将组合件轻轻向服务器前部滑动;然后使用左侧的微处理器板手柄,从一定角度取出组合件。

15. 更换成新的CPU板,按相反步骤进行安装后加电开机测试。

更换新CPU板后主机可以正常开机,但在启动过程中会有如下报错并无法进入操作系统:按照提示进行RAID卡管理界面,有如下内容提示:以上提示内容原因为RAID卡cache中有脏数据未能正常写入磁盘,选择Discard cache选项丢弃,然后退出管理界面,设备正常进入操作系统。

解决ibm服务器报警

解决ibm服务器报警

AIX yellow attention clear
如果发现前面板有报警灯,请重置告警灯状态 ( 硬件没有报错的状态下!)
1、使用root用户登陆系统,执行“diag”命令,回车继续;
2、看到“Press the F3 key to exit or press Enter to continue.”时,回车继续
“Set System Attention Indicator to Normal”,回车,“Set System
Attention Indicator to Normal”前面出现“+”号,表示选定此项;
4、按“F7”提交。以上步骤可以熄灭小型机橙色告警灯
还有可能就是要进asmi跟hmc来清除了
方法二:
使用root用户登陆系统,执行“diag”命令,回车继续;
1、选择“Task Selection”,回车继续;
2、选择“Identify and Attention Indicators”,回车继续;
3、选择
即可清除日志
关闭面板报警灯方法:System Configuration-->
Service Attention Indicator-->
Turn off the system attention indicator
选项即可关闭前面板的橙色报警灯
二、在AIX下用命令及菜单的处理方法(来自网上,不过自己动手做过)
+ mem0 ——-00-00 –Memory
+ proc0 ——00-00 –Processor
+ L2cache0 —00-00 –L2 cache

服务器故障排查

服务器故障排查

服务器故障排查在日常运维工作中,服务器故障排查是一项至关重要的任务。

当服务器出现故障时,我们需要迅速定位并解决问题,以尽快恢复正常的运行状态。

本文将介绍一些常见的服务器故障排查方法,以帮助您更好地应对各种故障情况。

一、检查硬件问题服务器故障往往与硬件问题有关。

首先,我们可以检查服务器是否存在以下问题:1. 电源问题:确认服务器的电源是否正常连接,电源线是否插牢固,电源是否正常供电。

2. 硬盘问题:检查硬盘是否正常工作,是否被正确连接。

可以尝试重新插拔硬盘,或更换一个已知正常的硬盘进行测试。

3. 内存问题:确保内存条插槽没有松动,内存条是否安装正确。

如果有多个内存条,可以逐个尝试单独使用,以确定是否存在内存故障。

4. 网卡问题:检查服务器的网卡是否连接正常,网线是否插牢固。

可以尝试更换网线或网卡来解决问题。

二、查看系统日志系统日志是服务器记录各种事件和错误的重要来源。

通过查看系统日志,我们可以获得关于服务器故障的一些线索。

以下是查看系统日志的常见方法:1. Linux系统:使用命令"cat /var/log/messages"来查看系统日志。

可以通过关键词搜索来过滤出与故障有关的日志内容。

2. Windows系统:打开“事件查看器”,选择“Windows日志”下的“系统”,查找相关的错误日志。

通过分析系统日志,我们可以了解服务器故障的原因,进一步采取相应的措施来解决问题。

三、网络问题排查有时,服务器故障可能是由网络问题引起的。

在进行网络问题排查时,可以执行以下步骤:1. 检查网络连接:确保服务器与网络中断的设备正常连接。

可以使用ping命令来测试与其他设备的连通性。

2. 检查网络配置:确认服务器的IP地址、子网掩码、网关等网络配置是否正确。

可以通过查看网络配置文件或使用ifconfig命令来检查。

3. 清理ARP缓存:使用命令"arp -d"来清空ARP缓存,以解决由于ARP缓存问题引起的网络故障。

服务器故障排查及解决实践指南

服务器故障排查及解决实践指南

服务器故障排查及解决实践指南在日常工作中,服务器故障是一种常见的问题,可能会给工作和生活带来不便。

因此,了解如何排查和解决服务器故障是非常重要的。

本文将介绍一些常见的服务器故障排查方法和解决实践指南,帮助您更好地处理服务器故障。

一、服务器故障排查1.检查网络连接首先,当服务器出现故障时,需要检查网络连接是否正常。

可以通过ping命令测试服务器是否可以正常访问,如果ping不通,可能是网络连接出现了问题。

可以检查网线是否插好,路由器是否正常工作等。

2.查看服务器状态可以通过登录服务器查看服务器的运行状态,包括CPU、内存、磁盘等资源的占用情况。

如果某个资源占用率异常高,可能是因为某个进程导致的故障。

3.查看日志文件服务器通常会记录各种操作和错误日志,可以通过查看日志文件来了解服务器故障的原因。

可以查看系统日志、应用程序日志等,找出故障的根源。

4.检查硬件设备有时服务器故障可能是由硬件设备故障引起的,比如硬盘故障、内存故障等。

可以通过检查硬件设备的状态来判断是否需要更换硬件设备。

5.使用监控工具可以使用监控工具来监控服务器的运行状态,及时发现服务器故障并进行处理。

监控工具可以监控服务器的各项指标,比如CPU占用率、内存使用情况等。

二、服务器故障解决实践指南1.重启服务器在排查了服务器故障的原因后,如果无法立即解决问题,可以尝试重启服务器。

重启服务器可以清除一些临时数据,有时可以解决一些问题。

2.优化服务器配置如果服务器频繁出现故障,可能是因为服务器配置不足。

可以考虑优化服务器配置,比如增加内存、扩大硬盘容量等,以提高服务器的性能和稳定性。

3.更新系统和应用程序有时服务器故障是由系统或应用程序的bug引起的,可以尝试更新系统和应用程序到最新版本,以修复bug和提高系统的稳定性。

4.备份数据在处理服务器故障时,一定要及时备份重要数据,以防数据丢失。

可以定期备份数据到云端或外部存储设备,确保数据的安全性。

IBM服务器故障诊断及排除

IBM服务器故障诊断及排除

IBM服务器故障诊断及排除⒈引言在日常运维管理中,IBM服务器可能会遇到各种故障,影响业务的正常进行。

本文档旨在提供一套完整的指南,以帮助管理员诊断和排除IBM服务器故障。

本文档将详细介绍故障诊断的步骤以及相关的解决方案。

⒉故障诊断流程⑴收集故障信息●收集服务器硬件信息,包括型号、序列号等。

●收集故障发生时的日志信息,如错误代码、系统日志等。

●收集故障发生的具体环境信息,如温度、湿度等。

⑵分析故障现象●根据故障现象描述,确定故障是否与硬件、软件、网络或其他因素有关。

●分析故障现象的时间、地点、频率等因素,以确定是否存在特定模式。

●使用故障现象和已知信息进行故障推断,缩小故障可能的范围。

⑶验证故障原因●使用合适的测试工具和方法,验证故障的真实原因。

●对可能的故障原因进行排除实验,以确定是否能复现故障。

⑷确定解决方案●基于故障的类型和原因,制定详细的解决方案。

●考虑解决方案的可行性和影响,选择最佳的解决方案。

⑸实施解决方案●根据确定的解决方案,执行相应的操作,修复故障。

●监测修复效果,确保故障得到彻底解决。

⒊常见故障类型及解决方案⑴电源故障●故障现象:服务器无法开机或突然关机。

●可能原因:电源供应问题、电源线路故障等。

●解决方案:检查电源线路和连接器是否正常,更换故障电源。

⑵硬盘故障●故障现象:无法识别硬盘、读写错误等。

●可能原因:硬盘损坏、连接问题等。

●解决方案:检查硬盘连接状态,更换损坏的硬盘。

⑶内存故障●故障现象:系统崩溃、应用程序错误等。

●可能原因:内存故障、内存插槽问题等。

●解决方案:进行内存测试,更换故障内存。

⒋附件本文档涉及以下附件:●附件1:IBM服务器型号和序列号清单●附件2:故障现象记录表●附件3:解决方案实施记录表⒌法律名词及注释●故障:指服务器在运行过程中出现的异常现象,影响服务器的正常工作。

●排除:指针对故障进行诊断和解决的过程,以使服务器恢复正常工作。

服务器故障排查与修复技巧

服务器故障排查与修复技巧

服务器故障排查与修复技巧随着信息技术的不断发展,服务器已经成为现代企业和个人网络生活中不可或缺的一部分。

然而,服务器故障时有发生,一旦服务器出现故障,可能会给工作和生活带来严重影响。

因此,掌握服务器故障排查与修复技巧显得尤为重要。

本文将介绍一些常见的服务器故障排查与修复技巧,帮助您更好地解决服务器故障问题。

一、硬件故障排查与修复1. 电源问题:首先检查服务器的电源线是否插紧,电源插座是否正常供电。

如果电源线和插座都没有问题,可以尝试更换电源线或者插到其他插座中。

如果服务器仍然无法开机,可能是电源模块故障,需要更换电源模块。

2. 内存故障:内存故障是服务器常见的硬件故障之一。

当服务器出现频繁死机或者蓝屏时,可以尝试重新插拔内存条,清洁内存槽,确保内存条插紧。

如果问题依然存在,可能是内存条本身故障,需要更换新的内存条。

3. 硬盘故障:硬盘是服务器存储数据的关键组件,一旦硬盘故障可能导致数据丢失。

当服务器出现读写速度慢或者无法识别硬盘时,可以尝试重新连接数据线,检查硬盘是否正常运转。

如果硬盘发出异常声音或者无法正常工作,可能是硬盘故障,需要更换新的硬盘。

4. CPU故障:CPU是服务器的核心部件,一旦CPU故障可能导致服务器无法正常启动。

当服务器出现频繁死机或者无法开机时,可以检查CPU散热器是否正常工作,清洁散热风扇,确保CPU温度正常。

如果问题依然存在,可能是CPU故障,需要更换新的CPU。

二、软件故障排查与修复1. 操作系统故障:操作系统是服务器的核心软件,一旦操作系统出现故障可能导致服务器无法正常工作。

当服务器出现蓝屏或者无法启动时,可以尝试进入安全模式,进行系统恢复或者重装系统。

如果问题依然存在,可能是系统文件损坏,需要修复系统文件或者重装系统。

2. 网络故障:网络是服务器与外部通信的重要通道,一旦网络故障可能导致服务器无法连接外部网络。

当服务器无法访问外部网络或者网络速度慢时,可以检查网线连接是否正常,重启路由器或者交换机。

IBM_服务器故障诊断及排除

IBM_服务器故障诊断及排除

MBE DIMM Bank MEM CONTROLLER BP ERROR CPU MCKERR
原因 指定冷却风扇出现故障、未正确安装或不存在。 插槽 1 中未安装微处理器。 微处理器出现故障或未正确安装。 指定内存体中安装的内存模块的类型和大小不一致;内存模块出现故障。 内存模块出现故障或未正确安装;系统板出现故障。 背板出现故障或未正确安装。 计算机检测出错;微处理器出现故障或未正确安装;系统板出现故障。
IBM 服务器故障诊断流程
IBM服务器光通路诊断面板
指示灯
问题
操作
OVER SPEC PCI
PS
RAID
由于某个电源通道上出现电 源超负荷情况,所以关闭了 服务器。电源功率超过最大 额定值。
1 .检查电源指示灯以了解是否有错误指示(交流电源指示灯和直流电源指示 灯未同时点亮,或信息指示灯点亮)。更换发生故障的电源。
钮已禁用。服务器接通交流电源后大约三分钟,电源控制按钮便会激活。
– 缓慢闪烁(每秒一次):服务器已关闭,并且已准备就绪,可以开启。您可以按
电源控制按钮以开启服务器。
– 点亮:服务器开启。
– 逐渐变暗直至熄灭:服务器处于省电状态。要唤醒服务器,请按电源控制按钮或
使用IMM Web 界面。
注:如果该指示灯熄灭,并不表示服务器中不存在电流。该指示灯可能已烧毁。要
● 信息指示灯:当该指示灯点亮时,表示发生了一般性事件。光通路诊断面板上的某 个指示灯也会点亮,以帮助找出错误。
●系统错误指示灯:当该指示灯点亮时,表示发生了系统错误。光通路诊断面板上的 某个指示灯也会点亮,以帮助找出错误。
●释放滑锁:将该滑锁滑向左侧可操作光通路诊断面板,该面板位于操作员信息面板 的后面。

IBM X系列服务器常见问题

IBM X系列服务器常见问题
1.IBM X345的LSI控制器问题
2. IBM X345灰尘问题
3.x3650(7979R01)第2个硬盘问题
4.ibm x3650服务器故障是什么问题?
5. IBM X3850系统安装问题(磁盘阵列不能创建)
6. x3850x5连盘柜起不来系统,解决方法。
7. X3850系统坚难的安装过程
8. x3550M2与x3650M2常见问题解答
Q)x3550/x3650M2相对于其上一代的x3550/x3650在性能上有多大的提
升?
A)下图对比了配置不同型号CPU的x3650和x3650M2之间的性能差距,
例如,使用X5570的x3650M2相对于使用X5470的x3650在性能上提高了
68%。
Q)x3550/x3650M2在性能提高的同时会不会比其上一代的x3550/x3650更
(说明):
计算机的大部分问题往往在有些解决错误信息中能找到答案
2.IBM X345灰尘问题
(问题):
两个IBM X345服务器,都是两个硬盘,做的RAID1,一个345上的一个硬盘黄灯闪烁,绿灯有时也亮,另一个硬盘的绿灯基本上不亮,黄灯不亮
(分析):
按照手册说,黄灯长亮才是硬盘坏了,如果黄灯闪烁是在rebuilding,此时,进入LSI RAID管理界面,第一个硬盘显示primr,第二个硬盘显示“OK”;换掉那个黄灯闪烁的硬盘,新硬盘的黄灯也是一样的闪烁,绿灯也闪烁,另一个硬盘的绿灯闪的比以前频繁了,进入LSI RAID界面,第一个硬盘是“primry”;第二个硬盘是“out of sync”。
(分析):
用可启动U盘或可启动光盘可以登录到WINPE环境并且在WINPE下可以看到2个物理硬盘都在!这可以排除硬盘本身的问题因素。

IBM服务器以及故障灯说明和解决办法

IBM服务器以及故障灯说明和解决办法

IBM服务器以及故障灯说明和解决办法系统故障:机器的前面板!灯亮起来。

有的情况下系统可以正常运行,但是有的情况下系统运行故障。

解决方法:1、重新启动服务器,按F1进入Configuration/Setup Utility;2、查看Error Logs选项下的黄色感叹号开始亮起来的日期以后的错误日志Error Logs;3、如果开机有F2提示可以进入Diagnostics(PC-Doctor)的机型,可以按F2进入诊断程序界面,在Hardware Info.菜单下选择System Error Logs可以将Error Logs保存到软盘上备查,也可以在该界面下查看所有的错误日志Error Logs;4、如果Error Logs中提示系统日志超过75%,没有其它错误日志的报告,在F1进入的Configuration/Setup Utility中,选择POST Error Log 选项后,直接回车选择Clear error logs清除所有的自检日志,同样选择System Error Log,直接回车选择Clear error logs清除所有的系统日志;5、如果Error Logs中有错误记录一定要将日志保存到软盘,退出诊断程序,然后关机,拔掉服务器连接的所有电源线,打开机箱侧面板,插上电源线加电,察看一下光路检测板,看是否有指示灯亮,如果有指示灯亮,一定要记录相应指示灯的名称,将得到的错误日志文件和指示灯信息一起提供给工程师,配合确定故障所在;6、另外一定要注意在打开机箱之前,必须断开服务器的所有的连线,比如电源线等;附加信息:IBM的Netfinity和e(IBM logo)Server的服务器(Netfinity5000及以上型号),e(IBM logo)Server X系列的x220以上服务器都集成有高级管理芯片或高级管理卡。

它们负责监视机器各个部件的工作状态,例如温度,电压等。

当这些指标超过预先设定的值,就会通过管理卡或管理芯片报警。

ibm_x系列服务器报错代码

ibm_x系列服务器报错代码

ibm_x系列服务器报错代码适用机型:所有服务器以下报错信息,只是对目前大部分使用过程中发生橘黄色感叹号灯常亮,技术服务人员联系。

错误代码/症状062 (使用缺省配置的连续三次引导失败。

2. 电池3. 主板 4?微处理器101、102、106 (计时器时标中断失败) 102 (计时器2测试失败) 106 (软盘控制器错误)129 (内置高速缓存(L1 )错误) 2?微处理器 151 (实时时钟错误) 2.主板161(实时时钟电池错误)序 2. 电池 3. 主板162 (设备配置错误)注:请务必装入缺省设置和任何期望的其它设置; 然后,保存配置程序2. 电池3. 发生故障的设备4. 主板 163(实时时钟错误)程序2. 电池3. 主板 164(内存配置更改。

)序2. DIMM3. 主板 175(EEPROM CRC #1 损坏)184(开机密码损坏)程序2.主板X 系列服务器适用的报错信息。

仅供参考,如果服务器或者服务器停止在自检过程中,建议客户尽快跟IBM FRU /操作) 1.运行 Configuration/Setup Utility 程序*主板*主板 *主板1.可选微处理器1.电池1.运行 Configuration/Setup Utility 程1.运行 Configuration/Setup Utility1.运行 Configuration/Setup Utility1.运行 Configuration/Setup Utility 程*主板185(驱动器启动顺序信息毁坏)2.主板187(VPD序列号未设置)2.主板188(EEPROM CRC #2 损坏)2.主板189(试图以无效密码进入系统)2.主板196(微处理器高速缓存不匹配)2?微处理器198(微处理器速度不匹配)2?微处理器199(微处理器未按建议进行配置)2?微处理器201(内存测试错误)2.主板229(内置高速缓存(L2)错误)2.后添加微处理器289(用户或系统禁用了DIMM)2.DIMM3.主板301(键盘或键盘控制器错误)2.主板303(键盘控制器错误)2.主板602(无效的软盘引导记录)2.软盘驱动器3.驱动器电缆4.主板604(软盘驱动器错误)1.运行Configuration/Setup Utility 程序1.运行Configuration/Setup Utility 程序1.运行Configuration/Setup Utility 程序1.运行Configuration/Setup Utility 程序1.确保微处理器为相同的类型和速度1.确保微处理器为相同的类型和速度1.确保微处理器为相同的类型和速度1. DIMM1.微处理器1.运行Configuration/Setup Utility 程序1.键盘1.将PS/2键盘更换为USB键盘1.软盘1.运行Configuration/Setup Utility序和诊断程序2.软盘驱动器3.驱动器电缆4.主板662(软盘驱动器配置错误) 1.运行Configuration/Setup Utility 程序和诊断程序2.软盘驱动器3.驱动器电缆4.主板962(并口配置错误)2.主板1162(串口配置错误)11XX(系统板串口1或2错误)2.主板1601(需要更新BIOS代码)2.主板1602(未安装可选Remote Supervisor Adapter II 电源线,等待30秒钟,重新连接然后重试1762 (硬盘驱动器配置错误,仅IDE)2.硬盘电缆3.运行Configuration/Setup Utility 程序4.主板178X(硬盘驱动器错误,仅IDE)2.硬盘适配器3.硬盘驱动器1.运行Configuration/Setup Utility 程序*主板1.运行Configuration/Setup Utility 程序1.下载并安装最新级别的BIOS代码电缆)*从服务器断开所有服务器和选件1.硬盘驱动器1.硬盘电缆4.主板错误代码/症状/操作1800(没有多余的硬件中断可用于PCI适配器)序2.卸下适配器1801(没有可用于PCI适配器的ROM空间)2.卸下适配器FRU 1.运行Configuration/Setup Utility 程3.禁用适配器BIOS 并运行Configuration/Setup。

IBM小型机故障描述以及解决办法

IBM小型机故障描述以及解决办法

IBM⼩型机故障描述以及解决办法IBM⼩型机故障描述以及解决办法针对基础⽀柱产业,⽣产系统的⾼度实时性是产⽣维保的主要动因,针对财政银⾏等综合决策系统,数据⾼可⽤性是产⽣维保的主要动因。

据统计,2012年国内有10万个各级政府机构和150万家企业,⽬前许多客户已经历了买设备、上应⽤发展到今天保运⾏阶段。

IBM在服务器市场占有率⾼达79%,针对IBM⼩型机的维保,市场最成熟,技术积累最丰富。

维保主要分为两部分:⽇常维护、故障修复⽇常维护部分:虽然⼩型机在运⾏态很少改动配置,但经常监控运⾏状态却是⾄关重要的,通过规律的监控,通过与业务联系,⼀⽅⾯可以预测⼩型机负载压⼒,把握运⾏规律,另⼀⽅⾯可以预测故障的发⽣点⽽及时修复,将故障终⽌,消灭在萌芽状态,使得业务连续和⾼可⽤。

专业的巡检可以判断系统运⾏的瓶颈,从⽽为可能增长的业务量及时提供硬件升级⽅案,来避免瓶颈的出现。

⽇常维护主要⽅式是巡检,分周巡检、⽉度巡检以及季度巡检。

⽉度巡检以⽉为时间单位进⾏例⾏巡检,对⼩型机运⾏状态以及故障监测,使⽤⼀般指标,巡检⽐较及时;周巡检以周为时间单位,频次⾼,对⼩型机状态监测度最⾼,动态把握最明确,缺点是对⼈⼒资源耗费⽐较⼤;季度巡检为深度巡检,系统整体信息⽐较准确,但是频率低对系统实时状态把握度较差,加之⽉度巡检在没季度的最后⼀次巡检都是深度巡检,⽉度巡检就弥补了季度巡检的实时性缺陷。

IBM⼩型机故障:任何⼩型机都有⼀定的故障率,即使是IBM、HP所发布的零宕机产品也不能保证百分之百⽆故障。

随着使⽤时间的增加,机房环境,电⼦元器件⽼化等原因,导致故障,尤其意外断电对电⼦元器件的冲击更⼤。

按故障性质分,可分为隐性故障和显性故障,隐性故障可能有未检测到的故障点,或者因为电⼦元器件使⽤寿命的增长突然崩溃⽽导致的故障。

隐性故障最典型的是关机后导致不能重启进⼊系统,应对⽅法是定期巡检,排查隐性故障,易损部件制定科学的周期进⾏更换操作等。

IBM服务器故障诊断及排除

IBM服务器故障诊断及排除

IBM服务器故障诊断及排除1、问题描述首先,明确IBM服务器所遇到的故障或问题的具体描述。

例如,服务器无法启动,性能下降,或出现异常噪音等等。

2、故障诊断步骤2.1 硬件检查- 检查电源连接是否正常,确保服务器已正确连接到电源插座,并有稳定的电源供应。

- 检查所有硬件组件是否牢固连接,包括内存模块、硬盘驱动器、扩展卡等。

如果有任何松动或损坏,重新插入或更换相关组件。

- 检查是否有热量积聚或过热的现象,确保服务器周围环境的散热良好。

- 运行IBM系统自检工具,如IBM X-ACT(eXtended Advisorfor Technical Support)或IBM DSA(Diagnostics Standalone Edition),以检测可能的硬件故障。

2.2 软件检查- 检查操作系统是否有任何错误或警告日志。

通过分析这些日志,可以找到与故障相关的特定软件问题。

- 检查服务器上运行的应用程序是否有异常情况,例如崩溃、错误报告或未响应的状态。

- 更新操作系统和驱动程序至最新版本,以修复已知的软件问题和漏洞。

3、故障排除解决方案3.1 服务器无法启动- 检查电源连接是否正常,并确保服务器处于稳定的电源供应下。

- 检查服务器内部硬件组件是否正确连接。

如果有任何松动或损坏,重新插入或更换相关组件。

- 尝试进入BIOS设置并确保启动设备顺序正确配置。

- 检查启动设备是否正确工作,例如检查硬盘驱动器是否正常,或尝试替换硬盘驱动器。

3.2 服务器性能下降- 检查服务器资源利用率,例如CPU、内存、磁盘等,确认是否存在资源过载的情况。

- 检查是否有异常进程或应用程序消耗过多的资源,通过终止或重启相关进程来解决问题。

- 检查是否有磁盘碎片化的问题,运行磁盘碎片整理工具以提升磁盘读写性能。

- 考虑增加服务器硬件配置,例如增加内存容量、更换更快的硬盘驱动器等来提升性能。

3.3 服务器出现异常噪音- 检查服务器内部风扇是否正常工作,并清理任何灰尘或杂物。

IBM 3583磁带库故障诊断及维修分析

IBM 3583磁带库故障诊断及维修分析

磁带库设备经过长时间的运行,易产生各种各样的故障,导致设备停止运行影响,严重的甚至会出现设备事故。

其故障大致可分为两大类:①硬件故障。

如机械手、电源、主控板、液晶屏、驱动器等。

这类故障往往是非法断电、非法操作等原因所致。

②软件故障。

这类故障是检修的难点,其主要问题在存储系统的软件报错从而使机器无法正常工作等。

1检修前的调查研究调查研究是设备检修的前奏,是故障分析的第一手资料,调查研究正确、全面,对检修工作往往起到事半功倍的效果。

调查研究的主要方法是问、闻、看、听①问,询问设备使用者故障发生前的情形、异常现象、以往故障情况、故障前有否操作失当等。

②闻,是否有绝缘漆、塑料、橡胶等过热、烧焦的刺鼻气味。

③看,察看带库的报错日志。

④听,将带库重启后听是否有异常声音。

通过调查研究,一般说来,直观性一类故障可找出。

2全面检测确定故障范围与故障点复杂带库设备的故障,应根据错误日志和故障现象,分析确定故障的可能范围,查找故障点。

带库设备的主体是由机械手、主控板、电源等构成,电源故障一般简单、直观、易于查找。

一般都是加电后电源无法应等。

其他的故障较难判断 下面已IBM 3583带库维修为例进行分析。

这属于中型磁带库,一般都应用在数据较大的场合,目前应用比较广泛2010年3月份中国移动哈尔滨数据中心机房3583带库故障,机械臂移动磁带时卡带,之后机械臂无法移动。

这种带库机械手故障率较高,但机械手维修较为繁杂,工程师通过对现场机械臂的观察,发现机械臂主控板故障,公司将备件发到客户现场工程师进行更换,更换完机械臂等带库自检完成后,带库运行正常。

北京鑫博腾飞。

ibm服务器故障诊断及排除

ibm服务器故障诊断及排除
ibm服务器故障诊断及排除
ibm服务器故障诊断及排除
第1页
服务器故障诊疗流程
总体诊疗流程 Y 加电问题诊疗 Y 自检问题诊疗 Y 操作系统开启 Y
诊疗 服务器诊疗流 Y
ibm服务器故障诊断及排除
开始诊疗
是否进行总 体诊疗
服务器是否 正常加电
服务器是否 能够完成自

操作系统是 否能够正常
开启
服务器是否 有Insight
IBM服务器光通路诊疗面板
指示灯
问题
操作
CNFG
发生硬件配置错误。
CPU
1. 确定CNFG 指示灯是否也 当只有CPU 指示灯点亮时,
才表示微处理器发生故障。
当CPU 指示灯和CNFG 指示
灯都点亮时,表示微处理 器配置无效。
点亮。假如CNFG 指示灯不亮
,表
示微处理器发生故障。
2. 假如CNFG 指示灯点亮, 表示微处理器配置无效。
1. 检验PCI 插槽上指示灯, 第9页
DELL 服务器故障诊疗流程
DELL服务器光通路诊疗
第一行信息 E0000
每二行信息 OVRFLW CHECK LOG
E0119
TEMP AMBIENT
E0119
TEMP BP
ibm服务器故障诊断及排除
原因
LCD 过载信息。 LCD 上最多能够连续显示三则 错误信息。第四则信息显示为 标准过载信息。
IBM 服务器故障诊疗流程
IBM服务器光通路诊疗面板
指示灯
问题
OVER SPEC
因为某个
电源通道
上出现电
源超负荷
情况,所
以关闭了
服务器。
电源功率

IBMP系列小型机故障定位故障排除资料

IBMP系列小型机故障定位故障排除资料

第三章、故障定位、故障排除根据我们在实际商用系统中碰到问题,我们总结出了以下几种常见故障及其定位方式和解决方法。

3.1硬件故障硬件故障有很多种,对系统产生的影响也不一样,这里按其故障对系统的影响程度分:致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类:其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括:主板、CPU、I/O柜(包含本地盘、光驱、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等注:I/O柜和CEC柜一般在比较高端的小型机才有,如M80,低端的是合一的。

这些设备的损坏等将使系统无法完成自检、引导和启动,液晶显示屏上都将有错误信息,可根据液晶显示屏上的错误码对照Service Guide查的错误原因,如果是工作状态下出现这些硬件损坏,则系统将被挂起或宕机。

其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的硬件包括:网卡、本地硬盘有坏块、显卡、SSA卡和其他外围设备这些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。

故障定位和排除:以上硬件故障信息都可以使用:液晶屏上的错误码或:errpt –dH 查看到根据错误码确定是什么硬件出了故障,对商用系统来讲,由于是双机系统,如果损坏机器是主机可以将此服务器切换成备机,然后修复故障机器,恢复系统。

3.2磁阵故障磁阵引起的故障是目前碰到的最频繁、危害最大的故障,据不完全统计,其故障覆盖到总故障的70%以上,具体来讲,可能引起磁阵故障的环节包括:磁阵硬盘、7133柜子、主机上的SSA卡、连接7133与主机的SSA线、硬盘的位置和ssa线的接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/ssa卡的微码等都可能造成7133的异常。

服务器常见故障的判断与维修汇总

服务器常见故障的判断与维修汇总

服务器常见故障的判断与维修一、造成服务器无法启动的主要原因市电或电源线故障(断电或接触不良)电源或电源模组故障内存故障(一般伴有报警声)CPU故障(一般也会有报警声)主板故障其它插卡造成中断冲突二、服务器无法启动解决办法检查电源线和各种I/O接线是否连接正常。

检查连接电源线后主板是否加电。

将服务器设为最小配置(只接单颗cpu,最少的内存,只连接显示器和键盘)直接短接主板开关跳线,看看是否能够启动。

检查电源,将所有的电源接口拔下,将电源的主板供电口的绿线和黑线短接,看看电源是否启动。

如果判断电源正常,则需要用替换法来排除故障,替换法是在最小化配置下先由最容易替换的配件开始替换(内存、cpu、主板)三、系统频繁重启电源故障(替换法判断解决)内存故障(可从BIOS错误报告中查出)网络端口数据流量过大(工作压力过大)软件故障(更新或重装操作系统解决)四、服务器死机故障判断处理服务器死机故障比较难以判断,一般分为软件和硬件两个方面:* 软件故障首先检查操作系统的系统日志,可以通过系统日志来判断部分造成死机的原因。

电脑病毒的原因。

系统软件的bug或漏洞造成的死机,这种故障需要在判断硬件无故障后做出,而且需要软件提供商提供帮助。

软件使用不当或系统工作压力过大,可以请客户适当降低服务器的工作压力来看看是否能够解决* 硬件故障硬件冲突电源故障或电源供电不足,可以通过对比计算服务器电源所有的负载功率的值来作出判断。

硬盘故障(通过扫描硬盘表面来检查是否有坏道)内存故障(可以通过主板BIOS中的错误报告和操作系统的报错信息来判断)主板故障(使用替换法来判断)CPU故障(使用替换法)板卡故障(一般是SCSI/RAID卡或其他pci设备也有可能造成系统死机,可用替换法判断处理)注意:系统死机故障需要在处理完后需要在一段时间内进行一定压力的拷机测试来尽一步检查故障是否彻底解决。

五、安装操作系统时提示找不到硬盘无物理硬盘设备硬盘线缆连接问题没有安装硬盘控制器驱动或驱动不相符七、为什么用正确的驱动仍然无法加载硬盘控制器驱动查看是否启用了hostraid功能。

IBM P系列小型机_故障定位、故障排除

IBM  P系列小型机_故障定位、故障排除

第三章、故障定位、故障排除根据我们在实际商用系统中碰到问题,我们总结出了以下几种常见故障及其定位方式和解决方法。

3.1硬件故障硬件故障有很多种,对系统产生的影响也不一样,这里按其故障对系统的影响程度分:致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类:其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括:主板、CPU、I/O柜(包含本地盘、光驱、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等注:I/O柜和CEC柜一般在比较高端的小型机才有,如M80,低端的是合一的。

这些设备的损坏等将使系统无法完成自检、引导和启动,液晶显示屏上都将有错误信息,可根据液晶显示屏上的错误码对照Service Guide查的错误原因,如果是工作状态下出现这些硬件损坏,则系统将被挂起或宕机。

其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的硬件包括:网卡、本地硬盘有坏块、显卡、SSA卡和其他外围设备这些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。

故障定位和排除:以上硬件故障信息都可以使用:液晶屏上的错误码或:errpt –dH 查看到根据错误码确定是什么硬件出了故障,对商用系统来讲,由于是双机系统,如果损坏机器是主机可以将此服务器切换成备机,然后修复故障机器,恢复系统。

3.2磁阵故障磁阵引起的故障是目前碰到的最频繁、危害最大的故障,据不完全统计,其故障覆盖到总故障的70%以上,具体来讲,可能引起磁阵故障的环节包括:磁阵硬盘、7133柜子、主机上的SSA卡、连接7133与主机的SSA线、硬盘的位置和ssa线的接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/ssa卡的微码等都可能造成7133的异常。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
点亮该指示灯。
DELL 服务器故障诊断流程
DELL服务器光通路诊断
第一行信息
每二行信息
E0212 E0212 E0212 E0212 E0212
VOLT BATT VOLT BP 12 VOLT BP 3.3 VOLT BP 5 VOLT CPU VRM
E0212 E0212 E0212 E0276 E0276 E0280
锦绣讲堂 修德明道 锦心绣行
道德讲堂
第一讲:道德理论专题——继承和弘扬 中华民族优良道德传统
IBM服务器故障诊断及排除
服务器故障诊断流程
总体诊断流程 Y 加电问题诊断 Y 自检问题诊断 Y 操作系统启动 Y
诊断 服务器诊断流 Y

开始诊断
是否进行总 体的诊断
服务器是否 正常加电
服务器是否 能够完成自
系统板电压超出可接受范围;系统板出现故障或未正确安装。 指定微处理器 VRM 出现故障、不受支持、未正确安装或不存在。
谢谢
状态下的服务器。供电指示灯的状态如下所示:
– 熄灭:未接通交流电,或者电源或指示灯本身出现故障。
– 快速闪烁(每秒四次):服务器已关闭,但未准备就绪,无法开启。电源控制按
钮已禁用。服务器接通交流电源后大约三分钟,电源控制按钮便会激活。
– 缓慢闪烁(每秒一次):服务器已关闭,并且已准备就绪,可以开启。您可以按
●系统错误指示灯:当该指示灯点亮时,表示发生了系统错误。光通路诊断面板上的 某个指示灯也会点亮,以帮助找出错误。
●释放滑锁:将该滑锁滑向左侧可操作光通路诊断面板,该面板位于操作员信息面板 的后面。
●定位器按钮和定位器指示灯:使用该指示灯可用肉眼在其他服务器中找到该服务 器。它还可用于证明受信平台模块(Trusted Platform Module,TPM)的物理存在。 按下此按钮可从本地开启或关闭该指示灯。可以使用IBM Systems Director 来远程
VOLT NIC 1.8V VOLT NIC 2.5V VOLT PLANAR REG CPU VRM MISMATCH VRM MISSING VRM
原因 电池出现故障;系统板出现故障。 背板电压超出可接受范围。
微处理器 VRM 电压超出可接受范围;微处理器 VRM 出现故障或未正确安装; 系统板出现故障。 集成 NIC 电压超出可接受范围;电源设备出现故障或未正确安装;系统板出现 故障。
电源控制按钮以开启服务器。
– 点亮:服务器开启。
– 逐渐变暗直至熄灭:服务器处于省电状态。要唤醒服务器,请按电源控制按钮或
使用IMM Web 界面。
注:如果该指示灯熄灭,并不表示服务器中不存在电流。该指示灯可能已烧毁。要
切断服务器中的所有电流,必须从电源插座断开电源线。
●以太以太网图标指示灯:该指示灯点亮以太网图标。
●以太网活动指示灯: 如果这些指示灯中任意一个点亮,表示服务器正在向连接到对应
于该指示灯的以太网端口的以太网LAN 发送信号,或正在接收来自该以太网LAN
4
的信号。
IBM 服务器故障诊断流程
IBM服务器操作员信息面板
● 信息指示灯:当该指示灯点亮时,表示发生了一般性事件。光通路诊断面板上的某 个指示灯也会点亮,以帮助找出错误。

操作系统是 否能够正常
启动
服务器是否 有Insight
Management Agent报错或 者LED诊断灯
报错
N
总体诊断流程
IBM 服务器故障诊断流程
IBM服务器前视图
IBM 服务器故障诊断流程
IBM服务器操作员信息面板
●电源控制按钮和供电指示灯按下此按钮可手动开启和关闭服务器,或唤醒处于省电
相关文档
最新文档