IBM P服务器故障检测

合集下载

IBM 服务器面板提示灯的报警信息

ps 指示灯：当此指示灯发亮时，表明电源2 出现故障。

temp 指示灯：当此指示灯发亮时，表明系统温度超出阈值级别。

fan：当此指示灯点亮时，表明散热风扇或电源风扇出现故障或运行太慢。

风扇发生故障还会导致over temp 指示灯发亮。

link指示灯：当此指示灯发亮时，网卡出现故障。

vrm 指示灯：当此指示灯发亮时，表明微处理器托盘上的某个vrm 出现故障。

cpu 指示灯：当此指示灯发亮时，表明某个微处理器出现故障。

pci 指示灯：当此指示灯发亮时，表明某个pci 总线发生错误。

mem 指示灯：当此指示灯发亮时，表明发生内存错误。

dasd 指示灯：当此指示灯发亮时，表明某个热插拔硬盘驱动器出现故障。

nmi 指示灯：当此指示灯发亮时，表明出现一个不可屏蔽中断（nmi）。

sp 指示灯：当此指示灯发亮时，表明服务处理器遇到错误。

brd 指示灯：当此指示灯发亮时，表明某个连接的i/o 扩展单元出现故障。

log 指示灯：当此指示灯发亮时，表明您应该查看事件日志或remotesupervisor。

cnfg指示灯：当此指示灯发亮时，表明BIOS配置错误。

raid 指示灯：当此指示灯发亮时，表明阵列卡故障。

over spec 指示灯：当此指示灯发亮时，表明对电源的需求超过了指定的电源供应。

remind 按钮：按下此按钮可重新设置操作员信息面板上的系统错误指示灯并将服务器置于提醒方式。

在提醒方式下，故障并没有清除但系统错误指示灯会闪烁（每 2 秒闪烁一次）而不是持续发亮；如果出现另一个系统错误，则系统错误指示灯将会持续发亮。

ibm服务器全面巡检流程

IBM服务器巡检流程
1、检查系统硬件情况：设备故障灯是否有亮
2、系统错误报告(errlog)
3、有否发给root用户的错误报告(mail)
4、检查hacmp.out,smit.log,boot.log
5、关键系统的文件使用率不大于80%
6、逻辑卷有否stale
7、内存交换区使用率是否超过70%
8、内存交换区的大小是否为物理内存的1.5倍
9、检查备份情况（有否系统备份、用户数据备份、磁带机是否需要清洗）
10、通信（网卡、IP、路由表、ping、/etc/hosts、DNS设置等）
11、是否有数据保护方式如RAID10/RAID5,是否有Hot spare
12、系统DUMP设置是否正确
13、检查系统参数是否正确
1)/etc/enviroment中的TZ不能有夏时制
2)如有数据库：Aio:available
3)HACMP中I/O pacing:High Water Mark/Low Water MArk:33/24
4)HACMP中Syncd:10
5)HACMP中Power Monitor:off
14、检查rootvg是否有镜象
15、检查errdemon,srcmstr是否正常运行
16、机房环境（电压、湿度）
17、系统性能：有否性能瓶颈(topas,vmstat)
18、补丁程序（PTF）、微码（是否需要升级）
19、HACMP测试：Cluster Verification
20、系统硬件诊断
21、运行#snap -ac,生成文件snap+s/n.pax.Z
22、机器清洁。

IBM服务器故障诊断及排除

IBM服务器故障诊断及排除⒈引言在日常运维管理中，IBM服务器可能会遇到各种故障，影响业务的正常进行。

本文档旨在提供一套完整的指南，以帮助管理员诊断和排除IBM服务器故障。

本文档将详细介绍故障诊断的步骤以及相关的解决方案。

⒉故障诊断流程⑴收集故障信息●收集服务器硬件信息，包括型号、序列号等。

●收集故障发生时的日志信息，如错误代码、系统日志等。

●收集故障发生的具体环境信息，如温度、湿度等。

⑵分析故障现象●根据故障现象描述，确定故障是否与硬件、软件、网络或其他因素有关。

●分析故障现象的时间、地点、频率等因素，以确定是否存在特定模式。

●使用故障现象和已知信息进行故障推断，缩小故障可能的范围。

⑶验证故障原因●使用合适的测试工具和方法，验证故障的真实原因。

●对可能的故障原因进行排除实验，以确定是否能复现故障。

⑷确定解决方案●基于故障的类型和原因，制定详细的解决方案。

●考虑解决方案的可行性和影响，选择最佳的解决方案。

⑸实施解决方案●根据确定的解决方案，执行相应的操作，修复故障。

●监测修复效果，确保故障得到彻底解决。

⒊常见故障类型及解决方案⑴电源故障●故障现象：服务器无法开机或突然关机。

●可能原因：电源供应问题、电源线路故障等。

●解决方案：检查电源线路和连接器是否正常，更换故障电源。

⑵硬盘故障●故障现象：无法识别硬盘、读写错误等。

●可能原因：硬盘损坏、连接问题等。

●解决方案：检查硬盘连接状态，更换损坏的硬盘。

⑶内存故障●故障现象：系统崩溃、应用程序错误等。

●可能原因：内存故障、内存插槽问题等。

●解决方案：进行内存测试，更换故障内存。

⒋附件本文档涉及以下附件：●附件1：IBM服务器型号和序列号清单●附件2：故障现象记录表●附件3：解决方案实施记录表⒌法律名词及注释●故障：指服务器在运行过程中出现的异常现象，影响服务器的正常工作。

●排除：指针对故障进行诊断和解决的过程，以使服务器恢复正常工作。

IBM PC服务器故障诊流程

IBM PC服务器故障诊断流程一、状态确定：状态确定是指发生故障的设备是当前是什么状态，是业务正常在跑，前面板有指示灯告警，比如一些冗余部件的故障（硬盘、电源、风扇等等）；还是出于宕机状态，不能正常进入到操作系统里面，这里又得分为两种情况讨论，一是设备开机没有自检，直接黑屏；二是开机有自检，自检阶段有POST蜂鸣声或者报错码，面对这种情况可结合前面板LED，光通诊断板，主板LED，POST阶段的一些现象具体问题具体分析。

故障定位侧重于判断坏在哪里；二、故障定位：故障定位的时候，我们用到的手段非常多，下面，利用POST的过程；1、POST阶段复习：广义的POST过程是指从按下电源开关到开始引导系统，共分为三个过程：电源供电阶段→核心部件初始化阶段→狭义POST阶段2、电源供电阶段：从按下电源开关的瞬间开始，设备就开始工作了；电源是动力的源泉，供电系统的良好是设备正常运转的基础；如果问题出现在电源这边，那么之后的一切都进行不下去了；电源问题：供电系统的良好是设备正常运转的基础；只有供电系统OK了，设备才可以开始自检；故障表象：机器开机无电，电源灯不亮，电源风扇不转，按电源按钮开机无反应。

诊断方法及过程：供电系统是一条完整的链路，不是单指电源模块；市电及插座→电源线→电源模块→电源分配板→主板；首先，要确认市电供电是否正常；包括使用的插座或者PDU（power distribution unit）模块；其次，查看电源线是否接好，电源线本身是否OK；诊断方法：替换法+最小化法+指示灯法+排除法；替换法：拿确认完好的备件去替换故障设备上的相应备件；最小化法：将链路裁减至最小（要保障设备能正常运行），再进行故障排除；IBM的问题确定与维护手册诊断章节之未确定的问题当中提供了服务器能够启动的最低配置，以IBM X346（8840）为例，下面为IBM X346（8840）能够启动的最低配置：指示灯法：一般在电源模块上都有相应的指示灯，来表征电源模块的状态；比如AC（交流电）和DC（直流电）。

服务器故障排查与修复技巧

服务器故障排查与修复技巧随着信息技术的不断发展，服务器已经成为现代企业和个人网络生活中不可或缺的一部分。

然而，服务器故障时有发生，一旦服务器出现故障，可能会给工作和生活带来严重影响。

因此，掌握服务器故障排查与修复技巧显得尤为重要。

本文将介绍一些常见的服务器故障排查与修复技巧，帮助您更好地解决服务器故障问题。

一、硬件故障排查与修复1. 电源问题：首先检查服务器的电源线是否插紧，电源插座是否正常供电。

如果电源线和插座都没有问题，可以尝试更换电源线或者插到其他插座中。

如果服务器仍然无法开机，可能是电源模块故障，需要更换电源模块。

2. 内存故障：内存故障是服务器常见的硬件故障之一。

当服务器出现频繁死机或者蓝屏时，可以尝试重新插拔内存条，清洁内存槽，确保内存条插紧。

如果问题依然存在，可能是内存条本身故障，需要更换新的内存条。

3. 硬盘故障：硬盘是服务器存储数据的关键组件，一旦硬盘故障可能导致数据丢失。

当服务器出现读写速度慢或者无法识别硬盘时，可以尝试重新连接数据线，检查硬盘是否正常运转。

如果硬盘发出异常声音或者无法正常工作，可能是硬盘故障，需要更换新的硬盘。

4. CPU故障：CPU是服务器的核心部件，一旦CPU故障可能导致服务器无法正常启动。

当服务器出现频繁死机或者无法开机时，可以检查CPU散热器是否正常工作，清洁散热风扇，确保CPU温度正常。

如果问题依然存在，可能是CPU故障，需要更换新的CPU。

二、软件故障排查与修复1. 操作系统故障：操作系统是服务器的核心软件，一旦操作系统出现故障可能导致服务器无法正常工作。

当服务器出现蓝屏或者无法启动时，可以尝试进入安全模式，进行系统恢复或者重装系统。

如果问题依然存在，可能是系统文件损坏，需要修复系统文件或者重装系统。

2. 网络故障：网络是服务器与外部通信的重要通道，一旦网络故障可能导致服务器无法连接外部网络。

当服务器无法访问外部网络或者网络速度慢时，可以检查网线连接是否正常，重启路由器或者交换机。

IBM_服务器故障诊断及排除

MBE DIMM Bank MEM CONTROLLER BP ERROR CPU MCKERR
原因指定冷却风扇出现故障、未正确安装或不存在。插槽 1 中未安装微处理器。微处理器出现故障或未正确安装。指定内存体中安装的内存模块的类型和大小不一致；内存模块出现故障。内存模块出现故障或未正确安装；系统板出现故障。背板出现故障或未正确安装。计算机检测出错；微处理器出现故障或未正确安装；系统板出现故障。
IBM 服务器故障诊断流程
IBM服务器光通路诊断面板
指示灯
问题
操作
OVER SPEC PCI
PS
RAID
由于某个电源通道上出现电源超负荷情况，所以关闭了服务器。电源功率超过最大额定值。
1 .检查电源指示灯以了解是否有错误指示（交流电源指示灯和直流电源指示灯未同时点亮,或信息指示灯点亮）。更换发生故障的电源。
钮已禁用。服务器接通交流电源后大约三分钟，电源控制按钮便会激活。
– 缓慢闪烁（每秒一次）：服务器已关闭，并且已准备就绪，可以开启。您可以按
电源控制按钮以开启服务器。
– 点亮：服务器开启。
– 逐渐变暗直至熄灭：服务器处于省电状态。要唤醒服务器，请按电源控制按钮或
使用IMM Web 界面。
注：如果该指示灯熄灭，并不表示服务器中不存在电流。该指示灯可能已烧毁。要
● 信息指示灯：当该指示灯点亮时，表示发生了一般性事件。光通路诊断面板上的某个指示灯也会点亮，以帮助找出错误。
●系统错误指示灯：当该指示灯点亮时，表示发生了系统错误。光通路诊断面板上的某个指示灯也会点亮，以帮助找出错误。
●释放滑锁：将该滑锁滑向左侧可操作光通路诊断面板，该面板位于操作员信息面板的后面。

服务器故障排查的方法和流程

服务器故障排查的方法和流程在日常运维工作中，服务器故障是一个常见的问题，如何快速准确地排查服务器故障并解决问题，是每个运维工程师都需要掌握的技能。

本文将介绍服务器故障排查的方法和流程，帮助读者更好地应对各种服务器故障。

一、故障现象的描述和确认当服务器出现故障时，首先需要对故障现象进行描述和确认。

在用户报告故障时，需要详细了解故障的表现形式，比如服务器无法访问、服务异常、性能下降等。

确认故障现象后，需要进一步核实故障是否真实存在，可以通过监控系统、日志记录等方式来确认故障的发生。

二、故障影响范围的评估在确认故障现象后，需要评估故障的影响范围，确定故障对业务的影响程度。

有些故障可能只是个别用户遇到的问题，而有些故障可能导致整个系统不可用。

评估故障影响范围有助于确定处理故障的优先级和紧急程度。

三、故障原因的分析确定故障现象和影响范围后，需要对故障原因进行深入分析。

故障原因可能包括硬件故障、软件问题、网络异常等多种可能性。

可以通过查看系统日志、性能监控数据、配置文件等方式来定位故障原因。

在分析故障原因时，需要有系统性思维和逻辑分析能力，排除干扰因素，找出真正的问题根源。

四、故障处理的方法和步骤根据故障原因的分析结果，制定相应的故障处理方法和步骤。

不同类型的故障可能需要采取不同的处理方式，比如重启服务器、更换硬件、调整配置参数等。

在处理故障时，需要注意保留现场信息，记录处理过程和结果，以便后续分析和总结经验教训。

五、故障处理后的验证和监控处理完故障后，需要对服务器进行验证和监控，确保故障已经得到解决并且系统正常运行。

可以通过访问测试、性能监控、日志记录等方式来验证故障处理的有效性。

同时，需要持续监控服务器的运行状态，及时发现和处理潜在的问题，确保系统的稳定性和可靠性。

六、故障处理的总结和反思每次处理完故障后，都需要进行总结和反思，分析故障处理过程中的不足和改进之处。

通过总结经验教训，可以提高运维团队的应急响应能力和故障处理效率，避免类似问题再次发生。

IBM服务器以及故障灯说明和解决办法

IBM服务器以及故障灯说明和解决办法系统故障：机器的前面板！灯亮起来。

有的情况下系统可以正常运行，但是有的情况下系统运行故障。

解决方法：1、重新启动服务器,按F1进入Configuration/Setup Utility；2、查看Error Logs选项下的黄色感叹号开始亮起来的日期以后的错误日志Error Logs；3、如果开机有F2提示可以进入Diagnostics(PC-Doctor)的机型，可以按F2进入诊断程序界面，在Hardware Info.菜单下选择System Error Logs可以将Error Logs保存到软盘上备查，也可以在该界面下查看所有的错误日志Error Logs；4、如果Error Logs中提示系统日志超过75%,没有其它错误日志的报告，在F1进入的Configuration/Setup Utility中，选择POST Error Log 选项后，直接回车选择Clear error logs清除所有的自检日志，同样选择System Error Log,直接回车选择Clear error logs清除所有的系统日志；5、如果Error Logs中有错误记录一定要将日志保存到软盘，退出诊断程序，然后关机，拔掉服务器连接的所有电源线，打开机箱侧面板，插上电源线加电，察看一下光路检测板，看是否有指示灯亮，如果有指示灯亮，一定要记录相应指示灯的名称，将得到的错误日志文件和指示灯信息一起提供给工程师，配合确定故障所在；6、另外一定要注意在打开机箱之前，必须断开服务器的所有的连线，比如电源线等；附加信息：IBM的Netfinity和e(IBM logo)Server的服务器（Netfinity5000及以上型号），e(IBM logo)Server X系列的x220以上服务器都集成有高级管理芯片或高级管理卡。

它们负责监视机器各个部件的工作状态，例如温度，电压等。

当这些指标超过预先设定的值，就会通过管理卡或管理芯片报警。

IBM服务器故障诊断及排除

IBM服务器故障诊断及排除1、问题描述首先，明确IBM服务器所遇到的故障或问题的具体描述。

例如，服务器无法启动，性能下降，或出现异常噪音等等。

2、故障诊断步骤2.1 硬件检查- 检查电源连接是否正常，确保服务器已正确连接到电源插座，并有稳定的电源供应。

- 检查所有硬件组件是否牢固连接，包括内存模块、硬盘驱动器、扩展卡等。

如果有任何松动或损坏，重新插入或更换相关组件。

- 检查是否有热量积聚或过热的现象，确保服务器周围环境的散热良好。

- 运行IBM系统自检工具，如IBM X-ACT（eXtended Advisorfor Technical Support）或IBM DSA（Diagnostics Standalone Edition），以检测可能的硬件故障。

2.2 软件检查- 检查操作系统是否有任何错误或警告日志。

通过分析这些日志，可以找到与故障相关的特定软件问题。

- 检查服务器上运行的应用程序是否有异常情况，例如崩溃、错误报告或未响应的状态。

- 更新操作系统和驱动程序至最新版本，以修复已知的软件问题和漏洞。

3、故障排除解决方案3.1 服务器无法启动- 检查电源连接是否正常，并确保服务器处于稳定的电源供应下。

- 检查服务器内部硬件组件是否正确连接。

如果有任何松动或损坏，重新插入或更换相关组件。

- 尝试进入BIOS设置并确保启动设备顺序正确配置。

- 检查启动设备是否正确工作，例如检查硬盘驱动器是否正常，或尝试替换硬盘驱动器。

3.2 服务器性能下降- 检查服务器资源利用率，例如CPU、内存、磁盘等，确认是否存在资源过载的情况。

- 检查是否有异常进程或应用程序消耗过多的资源，通过终止或重启相关进程来解决问题。

- 检查是否有磁盘碎片化的问题，运行磁盘碎片整理工具以提升磁盘读写性能。

- 考虑增加服务器硬件配置，例如增加内存容量、更换更快的硬盘驱动器等来提升性能。

3.3 服务器出现异常噪音- 检查服务器内部风扇是否正常工作，并清理任何灰尘或杂物。

服务器故障诊断及排除.ppt

Y
N
总体诊断流程
IBM 服务器故障诊断流程
IBM服务器前视图
IBM 服务器故障诊断流程
IBM服务器操作员信息面板
●电源控制按钮和供电指示灯按下此按钮可手动开启和关闭服务器，或唤醒处于省电状态下的服务器。供电指示灯的状态如下所示： – 熄灭：未接通交流电，或者电源或指示灯本身出现故障。 – 快速闪烁（每秒四次）：服务器已关闭，但未准备就绪，无法开启。电源控制按钮已禁用。服务器接通交流电源后大约三分钟，电源控制按钮便会激活。 – 缓慢闪烁（每秒一次）：服务器已关闭，并且已准备就绪，可以开启。您可以按电源控制按钮以开启服务器。 – 点亮：服务器开启。 – 逐渐变暗直至熄灭：服务器处于省电状态。要唤醒服务器，请按电源控制按钮或使用IMM Web 界面。注：如果该指示灯熄灭，并不表示服务器中不存在电流。该指示灯可能已烧毁。要切断服务器中的所有电流，必须从电源插座断开电源线。 ●以太以太网图标指示灯：该指示灯点亮以太网图标。 ●以太网活动指示灯：如果这些指示灯中任意一个点亮，表示服务器正在向连接到对应于该指示灯的以太网端口的以太网LAN 发送信号，或正在接收来自该以太网LAN 的信号。
DELL服务器光通路诊断
DELL 服务器故障诊断流程
DELL服务器光通路诊断
4
IBM 服务器故障诊断流程
IBM服务器操作员信息面板
● 信息指示灯：当该指示灯点亮时，表示发生了一般性事件。光通路诊断面板上的某个指示灯也会点亮，以帮助找出错误。 ●系统错误指示灯：当该指示灯点亮时，表示发生了系统错误。光通路诊断面板上的某个指示灯也会点亮，以帮助找出错误。 ●释放滑锁：将该滑锁滑向左侧可操作光通路诊断面板，该面板位于操作员信息面板的后面。 ●定位器按钮和定位器指示灯：使用该指示灯可用肉眼在其他服务器中找到该服务器。它还可用于证明受信平台模块（Trusted Platform Module，TPM）的物理存在。按下此按钮可从本地开启或关闭该指示灯。可以使用IBM Systems Director 来远程点亮该指示灯。

IBM服务器硬件故障检测板详解

故障提示：
ps 指示灯：当此指示灯发亮时，表明电源2 出现故障。

temp 指示灯：当此指示灯发亮时，表明系统温度超出阈值级别。

fan：当此指示灯点亮时，表明散热风扇或电源风扇出现故障或运行太慢。

风扇发生故障还会导致over temp 指示灯发亮。

link指示灯：当此指示灯发亮时，网卡出现故障。

vrm 指示灯：当此指示灯发亮时，表明微处理器托盘上的某个vrm 出现故障。

cpu 指示灯：当此指示灯发亮时，表明某个微处理器出现故障。

pci 指示灯：当此指示灯发亮时，表明某个pci 总线发生错误。

mem 指示灯：当此指示灯发亮时，表明发生内存错误。

dasd 指示灯：当此指示灯发亮时，表明某个热插拔硬盘驱动器出现故障。

nmi 指示灯：当此指示灯发亮时，表明出现一个不可屏蔽中断（nmi）。

sp 指示灯：当此指示灯发亮时，表明服务处理器遇到错误。

brd 指示灯：当此指示灯发亮时，表明某个连接的i/o 扩展单元出现故障。

log 指示灯：当此指示灯发亮时，表明您应该查看事件日志或remotesupervisor。

cnfg指示灯：当此指示灯发亮时，表明BIOS配置错误。

raid 指示灯：当此指示灯发亮时，表明阵列卡故障。

over spec 指示灯：当此指示灯发亮时，表明对电源的需求超过了指定的电源供应。

remind 按钮：按下此按钮可重新设置操作员信息面板上的系统错误指示灯并将服务器置于提醒方式。

在提醒方式下，故障并没有清除但系统错误指示灯会闪烁
（每2 秒闪烁一次）而不是持续发亮；如果出现另一个系统错误，则系统错误指示灯将会持续发亮。

ibm服务器故障诊断及排除

ibm服务器故障诊断及排除
ibm服务器故障诊断及排除
第1页
服务器故障诊疗流程
总体诊疗流程 Y 加电问题诊疗 Y 自检问题诊疗 Y 操作系统开启 Y
诊疗服务器诊疗流 Y
ibm服务器故障诊断及排除
开始诊疗
是否进行总体诊疗
服务器是否正常加电
服务器是否能够完成自
检
操作系统是否能够正常
开启
服务器是否有Insight
IBM服务器光通路诊疗面板
指示灯
问题
操作
CNFG
发生硬件配置错误。
CPU
1. 确定CNFG 指示灯是否也当只有CPU 指示灯点亮时，
才表示微处理器发生故障。
当CPU 指示灯和CNFG 指示
灯都点亮时，表示微处理器配置无效。
点亮。假如CNFG 指示灯不亮
，表
示微处理器发生故障。
2. 假如CNFG 指示灯点亮，表示微处理器配置无效。
1. 检验PCI 插槽上指示灯，第9页
DELL 服务器故障诊疗流程
DELL服务器光通路诊疗
第一行信息 E0000
每二行信息 OVRFLW CHECK LOG
E0119
TEMP AMBIENT
E0119
TEMP BP
ibm服务器故障诊断及排除
原因
LCD 过载信息。 LCD 上最多能够连续显示三则错误信息。第四则信息显示为标准过载信息。
IBM 服务器故障诊疗流程
IBM服务器光通路诊疗面板
指示灯
问题
OVER SPEC
因为某个
电源通道
上出现电
源超负荷
情况，所
以关闭了
服务器。
电源功率

IBM P系列小型机故障的基本定位

IBM P系列小型机故障的基本定位一故障的定义.弄清楚系统发生了什么问题.系统现在能做什么？不能做什么？.故障什么时候发生的？.有没有做平时不同的操作？.故障有没有规律？定时还是不定时？发生的频率有多高？.是一台机器出现故障还是多台机器故障？故障现象是否相同？.最近有没有做改动？如安装了新的硬件、软件，改变了系统的一些设置。

二故障信息的收集1)收集故障信息对于判断、诊断故障原因，修复系统非常重要。

2)系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog，可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION 192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERA TOR OPERA TOR NOTIFICA TIONTIMESTAMP: MMDDHHMMYY (月日时分年）T（类型）: P 永久; T 临时; U 未知（永久性的错误应引起重视）C（分类）: H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可例：LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- V irtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834 Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINA TOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINA TION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DA TA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00003）控制面板上的LED 代码.8 位代码，通常系统故障灯会同时亮起。

IBMP系列小型机故障定位故障排除资料

第三章、故障定位、故障排除根据我们在实际商用系统中碰到问题，我们总结出了以下几种常见故障及其定位方式和解决方法。

3.1硬件故障硬件故障有很多种，对系统产生的影响也不一样，这里按其故障对系统的影响程度分：致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类：其损坏对系统产生致命影响（将使机器宕机或无法启动）的硬件包括：主板、CPU、I/O柜（包含本地盘、光驱、PCI插槽等的柜子）或CEC柜（包含CPU/MEMORY等的柜子）、I/O柜I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等注：I/O柜和CEC柜一般在比较高端的小型机才有，如M80，低端的是合一的。

这些设备的损坏等将使系统无法完成自检、引导和启动，液晶显示屏上都将有错误信息，可根据液晶显示屏上的错误码对照Service Guide查的错误原因，如果是工作状态下出现这些硬件损坏，则系统将被挂起或宕机。

其损坏对仅对系统产生功能影响（机器不会宕机并能正常启动）的硬件包括：网卡、本地硬盘有坏块、显卡、SSA卡和其他外围设备这些设备的损坏只影响特定功能，如网络功能、显示功能、访问磁阵的功能等，对于本地硬盘有坏块的情况，则要看坏块中是否包含了重要的系统文件，如果不是重要系统文件，则系统功能不受影响，但也建议立即更换该硬盘。

故障定位和排除：以上硬件故障信息都可以使用：液晶屏上的错误码或：errpt –dH 查看到根据错误码确定是什么硬件出了故障，对商用系统来讲，由于是双机系统，如果损坏机器是主机可以将此服务器切换成备机，然后修复故障机器，恢复系统。

3.2磁阵故障磁阵引起的故障是目前碰到的最频繁、危害最大的故障，据不完全统计，其故障覆盖到总故障的70%以上，具体来讲，可能引起磁阵故障的环节包括：磁阵硬盘、7133柜子、主机上的SSA卡、连接7133与主机的SSA线、硬盘的位置和ssa线的接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/ssa卡的微码等都可能造成7133的异常。

IBM P系列小型机_故障定位、故障排除

第三章、故障定位、故障排除根据我们在实际商用系统中碰到问题，我们总结出了以下几种常见故障及其定位方式和解决方法。

IBM服务器指示灯报警说明

sp指示灯当此指示灯发亮时表明流处理器遇到错误sp的作用就是处理由cpu传输过来的数据处理后转化为显示器可以辨识的数字信号fan当此指示灯点亮时表明散热风扇或电源风扇出现故障或运行太慢
IBM 服务器指示灯报警说明
一、光通路诊断面板
提醒按钮：该按钮将前面板上的系统错误指示灯置为提醒方式。在提醒方式下，系统错误指示灯每 2 秒闪烁一次，直至问题得到纠正、系统重新启动或发生新的问题。通过将系统错误指示灯置为提醒方式，可确认您已知道发生的上一个故障，但暂时不立即采取措施来纠正问题。提醒功能由 IMM 控制。 NMI 按钮：按下该按钮以强制微处理器发生不可屏蔽中断。它允许您使服务器出现蓝屏并进行内存转储（仅当由 IBM 服务支持人员指导时，才可使用该按钮）。
信息指示灯:如果该指示灯点亮，表示服务器中有某个方面未达到最佳状态，同时光通路诊断会示灯和光通路诊断面板上的指示灯才会熄灭。系统错误指示灯:如果该指示灯点亮，表示发生了系统错误。光通路诊断面板上的一个指示灯也会点亮，以帮助找出此错误。
二、操作员信息面板
电源控制按钮外盖:将此外盖滑动到电源控制按钮上方可防止服务器被意外关闭。电源控制按钮:按下该按钮可手动开启和关闭服务器。。供电指示灯: 如果该指示灯点亮并且不闪烁，表示服务器已开启；如果该指示灯闪烁，表示服务器已关闭并且仍然连接到交流电源；如果该指示灯熄灭，表示没有交流电源或者电源或指示灯本身出现故障。。注:如果该指示灯熄灭，并不表示服务器中没有电源。该指示灯可能已烧毁。要切断服务器的所有电源，必须从电源插座中拔出电源线。以太网图标指示灯:此指示灯可点亮以太网图标。。以太网活动指示灯:如果这些指示灯闪烁，表示在它们指示的端口处存在服务器和网络之间的活动。定位器指示灯:使用该指示灯可以用肉眼在众多服务器中找到目标服务器。可以使用 IBM Director 远程点亮该指示灯，也可以按下定位器按钮手动点亮该指示灯。在启动期间该指示灯也会点亮。在多节点配置中，如果该指示灯闪烁，表示与它对应的服务器是主节点。如果该指示灯持续点亮，表示与它对应的服务器是辅节点。定位器按钮:按此按钮可以手动打开或关闭定位器指示灯。在多节点配置中，按该按钮可以打开或关闭配置中所有节点的定位器指示灯。

IBMP小型机日常维护基础手册

IBM P750小型机日常维护手册一、服务器硬件运行状态检验1.当服务器处于开启和正常工作状态时，其前面板上状态灯（和电源灯并排）和各硬盘状态灯（一排小灯，和各硬盘位置一一对应）应显示为绿色。

2.当服务器状态灯出现橙黄色时，说明有硬件告警，此时要检验服务器电源、接线、硬盘等。

假如有硬件故障则需要立即进行更换和更正，假如查不出具体问题，则需要联络相关教授深入诊疗。

3.当硬盘工作正常时，和各硬盘对应硬盘灯会呈绿色，如无读写，则绿灯一直亮，如该硬盘有读写操作，则绿灯会不规则闪烁，当硬盘损坏时，则硬盘状态灯将熄灭，或呈闪烁状态：以1～3秒频率有规律地、不停地闪烁。

假如发觉有服务器硬件状态灯不正常情况，请立即联络我企业工程师，方便立即进行诊疗并处理故障。

二、HMC（硬件管理平台）管理和操作HMC两种访问路径：1、在机房直接经过显示器和键盘进行管理维护等相关操作2、经过web远程访问，登录HMC web管理界面，访问地址为：https://1、登录HMC1.1 浏览器访问连接HMC后，首页界面以下图所表示。

1.2 点击下图所表示链接，进入HMC验证登录界面。

用户名：hscroot口令：1.4 成功登录到HMC管理界面以下图所表示。

在HMC console右上角有（hscroot | help | log off）链接，单击log off，会出现以下图所表示注销界面：选择Log off，系统返回到HMC初始登录界面状态。

3、重启HMC左边导航栏中选择→ HMC Management → shut down or Restart，以下图所表示，对HMC进行正常重启及关机操作。

请谨慎对HMC进行关机和重启操作！4、状态栏功效状态栏在HMC左下角位置，以下图所表示，负责监控并反应管理系统资源状态和HMC状态。

单击每个图标状态能够列出具体状态，你能够查到更具体帮助信息：：非法操作，假如任何被管理主机实施了非法操作，这个图标将会变亮。

相关主题

服务器故障诊断

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

p系列、系统p预防性维护说明国际商业机器（中国）有限公司文档编号：当前版本号： 3.1最初发布日期2001年12月13日最新修订日期：2011年9月2日一、硬件维护部分：1.检查机房环境：（请参照IBM机房条件及各机型的具体要求）温度：室内温度建议保持在22±2℃湿度：相对湿度应保持在50±5%电源：根据不同机型使用的电源有：200~240V 交流单相；380~415V 交流三相；-48V±5% 直流，实测电压不应超出允许的范围。

零线与火线不能反接，通常是面对插座的左边为零线，右边为火线。

机器必须有良好的接地保护，地线的接地电阻要求小于1欧姆。

因接地电阻测量需要专业仪器，因此以客户提供的测量数值为准，工程师只要确保机柜电源线的地线、机壳（接上电源线后）到建筑物接地端的电阻小于1欧姆就可以了。

新版巡检报告中添加了记录事项为是否双电源(此处指的是双动力源供电，比如电力供给来自不同的发电厂，而不是指设备是不是有冗余电源)，此外，需要记录如果是双动力源是否部署在了各自独立的PDU或者UPS上。

洁净度：机房应保持清洁且有良好的管理与维护。

如机房太脏应提醒客户注意。

设备散热：设备进风口温度是否够低并有足够的气流。

机房内设备的摆放是否符合冷热通道原则（绝对不能让设备排出的热空气排向其它设备的进风口）。

随机工具：对于59X/FHA这类高端机型，随机会附带一些R&V时需要用到的平台，滑轨等工具，巡检时应确认随机工具的当前存储状态，以备不时之需。

2.检查系统硬件情况：先从外观上检查硬件情况，检查设备故障灯是否有亮。

各种设备上都有故障指示灯，通常为橙色并有标记。

高端服务器，如p670/p690/p59x/FHA，应检查UEPO开关上的系统故障指示灯是否亮。

同时检查BPC、BPD、BPR、DCA、MDA等电源子系统的Power-on、Power-in、Power-out、Enable Green LED 等是否长亮。

还要检查部件故障灯，如I/O drawer、PCI卡，硬盘等。

检查是否有人改装过IBM设备（如拆掉面板、开口、拆掉过滤网、改变网络连接等）。

这些改装可能会影响设备的稳定运行，甚至带来严重后果。

对于高端Power5/Power6服务器，还应检查其正面Lightstrip和背面Lightstrip。

有安装的部件（如CPU book）所对应的绿色LED应长亮。

任何故障指示灯（橙色）都应不亮。

同时注意主机的Operator Panel，高端Power5/Power6或其它由HMC管理的机器应检查HMC图形界面的虚拟Operator Panel。

设备发生故障时通常伴有出错代码，必须把所有故障代码记录下来。

除此以外还应注意有否其他异常情况（如硬盘、风扇异常的声音、电缆破损、系统出风是否顺畅、气流是否因为异物遮挡而影响散热效果等）。

•3.检查硬件错误报告error log：无HMC管理的系统可登录到AIX，使用“errpt –d H”命令检查硬件错误报告。

如有，则应使用“errpt –aj err_id |more”命令检查详细的日志。

为了准确判断故障，可对硬件设备运行故障诊断程序，如运行“diag -ed hdisk1”。

诊断程序可对故障记录中的SENSE DATA进行分析并给出SRN、SRC、FRU等。

注：如果故障记录太多，应将故障报告取回作进一步分析。

可用命令：“snap –r; snap –gc”用“mail”命令查看有否发给root用户的错误报告。

用“alog –ot boot”命令和“alog –ot console”命令检查系统的启动记录和主控台的出错信息。

对于Power5以前的主机，如果客户允许停机，则应shutdown主机，进入服务处理器（Service Processor）菜单检查故障记录。

对于Power5、Power6、Power7主机，无须shutdown分区就可以进入ASMI菜单进行检查。

有HMC管理的系统，可进入Service Focal Point进行检查。

HMC V6 步骤如下：在Service Focal Point目录下点击Manage Events打开Manage Serviceable Events窗口。

单击OK，进入Serviceable Events Overview窗口，里面记载了最近的错误日志。

单击一条记录，再选择Selected菜单，选择View Details，察看错误详细信息。

里面的错误信息应详细记录并保存，不可疏忽。

在错误被排除之后应该清除错误信息。

选择Selected菜单，选择Close Event，关闭错误详细信息。

HMC V7 步骤如下：登录后直接点击屏幕左下角的扳手图标，接下来的步骤就跟HMC V6一样了。

确认硬件问题解决后应关闭System Attention Light。

无HMC管理的主机：进入AIX diag菜单，选择Task Selection -> 选择Identify and Attention Indicators -> 选择Set System Attention Indicator to Normal。

有HMC管理的主机在图形界面下deactivate相关主机的Attention LED.4.检查机器清洁度检查机器的清洁程度，如面板上会不会有很多灰尘。

如果机器比较脏，或金属部件有腐蚀的迹象，则需要提醒客户注意改善机房环境。

有需要的话可以请IPR进行专业检测。

某些机型有空气过滤网，如7040/9119，长期使用可能需要更换，否则过滤网堵塞会影响散热效果。

请根据实际情况决定是否更换。

9119的过滤网安装在机柜前门，要确保3块过滤网都安装到位，并且机柜正面上下没有开口，所有冷却气流都应该经过滤网进入。

5.风扇转动情况：从机器相应的散热口检查冷却气流的状态，特别需要注意是否风量小或者无冷却风。

如有异常，应收集IQYY并开出对应PMH。

6.逻辑卷/硬盘检查用“lsvg –o|lsvg –il |grep stale”检查是否有stale状态的逻辑卷。

如有stale状态逻辑卷应立即进行同步修复。

7.是否有deconfig硬件资源：Power5以前的主机用“bindprocessor –q”命令检查是否有CPU被disable。

用“lsattr –El sys0”命令检查CPU GUARD是否设置正确。

AIX 5.2 以前的版本CPU GUARD默认是disable的。

通常系统/分区CPU数目≥3的就应该enable CPU GUARD（如果操作系统为AIX 5.2或以上则CPU≥2时就应该enable CPU GUARD）。

内存用命令lsattr –El mem0查看。

有分区的机器有一定内存overhead，具体计算参考pSeries Planning for Partitioned-System Operations SA38-0626-00Power5、Power6、Power7主机登入ASM menu -> System Configuration -> Hardware Deconfiguration -> Processor Deconfiguration 和Memory Deconfiguration检查是否有被deconfigured的CPU或内存。

同时检查有无其他部件被deconfigured并做相应记录。

8.DUMP信息（详细请参考《AIX操作系统DUMP设置及收集指南》）：系统DUMP设备应该有足够大的空间，可用“sysdumpdev –e”命令估计系统DUMP的大小以检验DUMP设备是否足够大。

对于内存较大的机器，建议建立专用的DUMP设备（如果系统内存大于4GB，则AIX5L会自动建立专用的DUMP设备：/dev/lg_dumplv）。

检查DUMP的拷贝目录（文件系统）是否有足够的空间（如果使用非内存交换区作为Primary DUMP 设备，则无此要求）。

如果要改变DUMP的拷贝目录（文件系统）则必须保证其建立在ROOTVG上。

为确保系统挂机时可以做强制DUMP，请把“always allow dump”设成“TURE”，可在线修改。

DUMP压缩功能除了可以节省空间外，还可以大大缩短AIX做DUMP的时间，建议打开(默认是关闭)，命令为sysdumpdev –C，可在线修改。

9.网络通信：检查网卡状态、IP地址是否正常。

通常不建议使用自适应速率（千兆以太网除外），网卡的设置应与交换机端口的设置匹配。

用“ping”命令检查网卡通信是否正常，如是否丢包，速度是否正常等。

用“netstat –rn”检查路由表是否正常。

检查/etc/hosts文件或DNS设置是否正常。

10.SSA/SCSI/SAS RAID状态（IBM存储服务器请参考存储设备检查指南）：磁盘阵列通常采用RAID1/RAID5/RAID10等数据保护方式。

不建议客户使用RAID0的方式，在RAID0方式下数据没有任何保护。

检查磁盘阵列中的RAID盘是否有坏盘，是否有degrade的状况。

检查磁盘阵列的cache是否打开。

热备盘（hotspare）盘可以提高磁盘阵列的可靠性，强烈建议设置热备盘。

以内置SAS RAID为例步骤如下：检查Disk Array 状态：#diag -> Task Selection -> RAID Array Manager -> IBM SAS Disk Array Manager -> List IBM SAS Disk Array Configuration检查SAS通道状态：#diag -> Task Selection -> RAID Array Manager -> IBM SAS Disk Array Manager -> Diagnostics and Recovery Options -> Show SAS Controller Physical Resources检查cache电池状态：#diag -> Task Selection -> RAID Array Manager -> IBM SAS Disk Array Manager -> Diagnostics and Recovery Options -> Controller Rechargeable Battery Maintenance -> Display Controller Rechargeable Battery Information11.LIC版本信息查看并且记录系统当前的微码版本以及HMC的版本信息（若是高端机器，还需查看并记录BPA的微码版本）12.RIO连接状况在HMC上查看RIO Topology状态，注意检查环路状态及速率。

IBM P服务器故障检测

IBM 服务器 面板提示灯的 报警信息

ibm服务器全面巡检流程

IBM服务器故障诊断及排除

IBM PC服务器故障诊流程

服务器故障排查与修复技巧

IBM_服务器故障诊断及排除

服务器故障排查的方法和流程

IBM服务器以及故障灯说明和解决办法

IBM服务器故障诊断及排除

服务器故障诊断及排除.ppt

IBM服务器硬件故障检测板详解

ibm服务器故障诊断及排除

IBM P系列小型机故障的基本定位

IBMP系列小型机故障定位故障排除资料

IBM P系列小型机_故障定位、故障排除

IBM服务器指示灯报警说明

IBMP小型机日常维护基础手册

IBM 服务器面板提示灯的报警信息