IBM_服务器故障诊断及排除
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
系统板电压超出可接受范围;系统板出现故障或未正确安装。 指定微处理器 VRM 出现故障、不受支持、未正确安装或不存在。
DELL 服务器故障诊断流程
DELL服务器光通路诊断
第一行信息
每二行信息
E0412 E0780 E0
RPM FAN MISSING CPU 1 CPU IERR
E0CF1 E8 EFFF2 E8
E0212 E0212 E0212 E0276 E0276 E0280
VOLT NIC 1.8V VOLT NIC 2.5V VOLT PLANAR REG CPU VRM MISMATCH VRM MISSING VRM
原因 电池出现故障;系统板出现故障。 背板电压超出可接受范围。
微处理器 VRM 电压超出可接受范围;微处理器 VRM 出现故障或未正确安装; 系统板出现故障。 集成 NIC 电压超出可接受范围;电源设备出现故障或未正确安装;系统板出现 故障。
指示灯
问题
操作
无, 但无系统 错误指示灯点 亮。
已发生错误但无法诊断, 或IMM 发生故障。光通路 诊断指示灯不表示该错误。
使用Setup Utility 来查看系统事件日志,获取有关错误的信息。
BRD
主板上发生错误。
1.检查主板上的指示灯,确定引起错误的组件。在下列情况下, BRD 指示灯可能会点亮: ●电池 ●缺少PCI 转接卡组合件 ● 稳压器发生故障
查看IMM 系统事件日志和系统错误日志,获取有关错误的信息。 更换错误日志中指出的所有组件。
IBM 服务器故障诊断流程
IBM服务器光通路诊断面板
指示灯
问题
操作
MEM
当只有MEM 指示灯点亮时, 才表示发生了内存错误。 当MEM 指示灯和CNFG 指 示灯都点亮时,表示内存 配置无效。
1. 确定CNFG 指示灯是否也点亮。如果是,请运行内存测试试验 程序以确定问题。 a. 如果测试报告有内存错误发生,请更换由主板上点亮的指 示灯所指示的故障DIMM。 b. 如果测试报告内存配置无效,请将DIMM 重新插入具有受 支持配置的插槽中。 2. 如果CNFG 指示灯不亮,那么应该出现了以下某种情况: v 服务器未引导且DIMM 故障指示灯点亮。 a. 查看系统事件日志(SEL)中是否存在PFA 日志事件。 b. 重新安装DIMM。 c. 如果问题仍然存在,请将DIMM 移到其他插槽中。 1) 如果主板上与这个新DIMM 插槽对应的DIMM 指示 灯点亮,请更换DIMM。 2) 如果主板上与原DIMM 插槽对应的DIMM 指示灯点 亮,请更换主板(仅限经过培训的技术服务人员)。 v 服务器已引导,发生故障的DIMM 被禁用且其对应的指示灯 点亮。 a. 如果两个DIMM 对应的指示灯都点亮,请查看系统事件 日志以找出有关其中一个DIMM 的PFA,然后更换该 DIMM。否则,请同时更换这两个DIMM。 b. 如果只有一个DIMM 对应的指示灯点亮,请更换该 DIMM。
MBE DIMM Bank MEM CONTROLLER BP ERROR CPU MCKERR
原因 指定冷却风扇出现故障、未正确安装或不存在。 插槽 1 中未安装微处理器。 微处理器出现故障或未正确安装。 指定内存体中安装的内存模块的类型和大小不一致;内存模块出现故障。 内存模块出现故障或未正确安装;系统板出现故障。 背板出现故障或未正确安装。 计算机检测出错;微处理器出现故障或未正确安装;系统板出现故障。
电源发生故障。
1. 检查电源指示灯以了解是否有错误指示(交 流电源指示灯和直流电源指 示 灯未同时点亮)。
2. 确保发生故障的电源已正确安装到位。 3. 更换发生故障的电源。
RAID卡发生故障
RAID卡有错误信息或RAID卡有硬件错误
SP
服务处理器(IMM)发生故 1. 切断服务器的电源;然后将服务器重新连接到电源并重新启动服务器。
1. 检查硬盘驱动器上的指示灯以找出状态指示灯点亮的那个驱动 器,然后重新安装该硬盘驱动器。
2. 重新安装硬盘驱动器底板。 3. 如果该错误仍然存在,请按所示顺序更换以下组件:
a. 更换硬盘驱动器。 b. 更换硬盘驱动器底板
1. 重新安装由主板上风扇接口附近点亮的指示灯所指示的故障风 扇。 2. 更换由主板上风扇接口附近点亮的指示灯所指示的故障风扇。
报错
N
总体诊断流程
IBM 服务器故障诊断流程
IBM服务器前视图
IBM 服务器故障诊断流程
IBM服务器操作员信息面板
●电源控制按钮和供电指示灯按下此按钮可手动开启和关闭服务器,或唤醒处于省电
状态下的服务器。供电指示灯的状态如下所示:
– 熄灭:未接通交流电,或者电源或指示灯本身出现故障。
– 快速闪烁(每秒四次):服务器已关闭,但未准备就绪,无法开启。电源控制按
IBM 服务器故障诊断流程
IBM服务器光通路诊断面板
指示灯
问题
操作
OVER SPEC PCI
PS
RAID
由于某个电源通道上出现电 源超负荷情况,所以关闭了 服务器。电源功率超过最大 额定值。
1 .检查电源指示灯以了解是否有错误指示(交流电源指示灯和直流电源指示 灯未同时点亮,或信息指示灯点亮)。更换发生故障的电源。
2. 查看系统事件日志,获取有关错误的信息。 3. 更换所有发生故障的可更换组件或安装缺少的可更换组件,如
电池或PCI 转接卡组合件。
4. 如果稳压器发生故障,请更换主板。
IBM 服务器故障诊断流程
IBM服务器光通路诊断面板
指示灯
问题
操作
CNFG
发生硬件配置错误。
CPU DASD FAN LOG
当只有CPU 指示灯点亮时, 才表示微处理器发生故障。 当CPU 指示灯和CNFG 指示 灯都点亮时,表示微处理 器配置无效。
服务器故障诊断排除
服务器故障诊断流程
总体诊断流程 Y 加电问题诊断 Y 自检问题诊断 Y 操作系统启动 Y
诊断 服务器诊断流 Y
开始诊断
是否进行总 体的诊断
服务器是否 正常加电
服务器是否 能够完成自
检
操作系统是 否能够正常
启动
服务器是否 有Insight
Management Agent报错或 者LED诊断灯
第一行信息
每二行信息
E0000
OVRFLW CHECK LOG
E0119 E0119 E0119 E0119 E0212 E0212 E0212
TEMP AMBIENT TEMP BP TEMP CPU n TEMP SYSTEM VOLT 3.3 VOLT 5 VOLT 12
原因
LCD 过载信息。 LCD 上最多可以连续显示三则错误信息。第四则信息显示为标准过载信息。 系统环境温度超出可接受范围。 背板温度超出可接受范围。 指定微处理器温度超出可接受范围。 系统板温度超出可接受范围。
系统电源设备的电压超出可接受范围;系统电源设备出现故障或未正确安装。
DELL 服务器故障诊断流程
DELL服务器光通路诊断
第一行信息
每二行信息
E0212 E0212 E0212 E0212 E0212
VOLT BATT VOLT BP 12 VOLT BP 3.3 VOLT BP 5 VOLT CPU VRM
●定位器按钮和定位器指示灯:使用该指示灯可用肉眼在其他服务器中找到该服务 器。它还可用于证明受信平台模块(Trusted Platform Module,TPM)的物理存在。 按下此按钮可从本地开启或关闭该指示灯。可以使用IBM Systems Director 来远程
点亮该指示灯。
IBM
服 务 器 故 障 诊 断 流 程 IBM服务器光通路诊断面板
钮已禁用。服务器接通交流电源后大约三分钟,电源控制按钮便会激活。
– 缓慢闪烁(每秒一次):服务器已关闭,并且已准备就绪,可以开启。您可以按
电源控制按钮以开启服务器。
– 点亮:服务器开启。
– 逐渐变暗直至熄灭:服务器处于省电状态。要唤醒服务器,请按电源控制按钮或
使用IMM Web 界面。
注:如果该指示灯熄灭,并不表示服务器中不存在电流。该指示灯可能已烧毁。要
2 .从服务器卸下可选设备。
PCI 总线或主板上发生错误。 发生故障的PCI 插槽旁的附 加指示灯点亮。
1. 检查PCI 插槽上的指示灯,确定导致错误的 组件。 2. 查看系统事件日志,获取有关错误的信息。 3. 如果无法通过指示灯和系统事件日志中的信息确定发生故障的适配器,请
从发生故障的PCI 总线上逐个卸下适配器,并且每卸下一个适配器都重新 启动一次服务器。
1. 确定CNFG 指示灯是否也点亮。如果CNFG 指示灯不亮,表 示微处理器发生故障。
2. 如果CNFG 指示灯点亮,表示微处理器配置无效。
发生硬盘驱动器错误。硬 盘驱动器发生故 障或缺失。
风扇发生故障,或者是运 行过慢,或者是已卸下风 扇。TEMP 指示灯可能也会 点亮。 已将错误消息写入系统事 件日志
切断服务器中的所有电流,必须从电源插座断开电源线。
wenku.baidu.com
●以太以太网图标指示灯:该指示灯点亮以太网图标。
●以太网活动指示灯: 如果这些指示灯中任意一个点亮,表示服务器正在向连接到对应
于该指示灯的以太网端口的以太网LAN 发送信号,或正在接收来自该以太网LAN
4
的信号。
IBM 服务器故障诊断流程
IBM服务器操作员信息面板
障。
2. 更新IMM 上的固件。
TEMP
系统温度已超出阈值级别。 发生故障的风扇会导致 TEMP 指示灯点亮。
1. 查看错误日志,以确定在哪里测得温度过高情况。如果风扇发生故障, 请进行更换。
2. 确保室温不会太高。了解温度信息。 3. 确保通风孔未堵塞。
DELL 服务器故障诊断流程
DELL服务器光通路诊断
● 信息指示灯:当该指示灯点亮时,表示发生了一般性事件。光通路诊断面板上的某 个指示灯也会点亮,以帮助找出错误。
●系统错误指示灯:当该指示灯点亮时,表示发生了系统错误。光通路诊断面板上的 某个指示灯也会点亮,以帮助找出错误。
●释放滑锁:将该滑锁滑向左侧可操作光通路诊断面板,该面板位于操作员信息面板 的后面。
DELL 服务器故障诊断流程
DELL服务器光通路诊断
第一行信息
每二行信息
E0412 E0780 E0
RPM FAN MISSING CPU 1 CPU IERR
E0CF1 E8 EFFF2 E8
E0212 E0212 E0212 E0276 E0276 E0280
VOLT NIC 1.8V VOLT NIC 2.5V VOLT PLANAR REG CPU VRM MISMATCH VRM MISSING VRM
原因 电池出现故障;系统板出现故障。 背板电压超出可接受范围。
微处理器 VRM 电压超出可接受范围;微处理器 VRM 出现故障或未正确安装; 系统板出现故障。 集成 NIC 电压超出可接受范围;电源设备出现故障或未正确安装;系统板出现 故障。
指示灯
问题
操作
无, 但无系统 错误指示灯点 亮。
已发生错误但无法诊断, 或IMM 发生故障。光通路 诊断指示灯不表示该错误。
使用Setup Utility 来查看系统事件日志,获取有关错误的信息。
BRD
主板上发生错误。
1.检查主板上的指示灯,确定引起错误的组件。在下列情况下, BRD 指示灯可能会点亮: ●电池 ●缺少PCI 转接卡组合件 ● 稳压器发生故障
查看IMM 系统事件日志和系统错误日志,获取有关错误的信息。 更换错误日志中指出的所有组件。
IBM 服务器故障诊断流程
IBM服务器光通路诊断面板
指示灯
问题
操作
MEM
当只有MEM 指示灯点亮时, 才表示发生了内存错误。 当MEM 指示灯和CNFG 指 示灯都点亮时,表示内存 配置无效。
1. 确定CNFG 指示灯是否也点亮。如果是,请运行内存测试试验 程序以确定问题。 a. 如果测试报告有内存错误发生,请更换由主板上点亮的指 示灯所指示的故障DIMM。 b. 如果测试报告内存配置无效,请将DIMM 重新插入具有受 支持配置的插槽中。 2. 如果CNFG 指示灯不亮,那么应该出现了以下某种情况: v 服务器未引导且DIMM 故障指示灯点亮。 a. 查看系统事件日志(SEL)中是否存在PFA 日志事件。 b. 重新安装DIMM。 c. 如果问题仍然存在,请将DIMM 移到其他插槽中。 1) 如果主板上与这个新DIMM 插槽对应的DIMM 指示 灯点亮,请更换DIMM。 2) 如果主板上与原DIMM 插槽对应的DIMM 指示灯点 亮,请更换主板(仅限经过培训的技术服务人员)。 v 服务器已引导,发生故障的DIMM 被禁用且其对应的指示灯 点亮。 a. 如果两个DIMM 对应的指示灯都点亮,请查看系统事件 日志以找出有关其中一个DIMM 的PFA,然后更换该 DIMM。否则,请同时更换这两个DIMM。 b. 如果只有一个DIMM 对应的指示灯点亮,请更换该 DIMM。
MBE DIMM Bank MEM CONTROLLER BP ERROR CPU MCKERR
原因 指定冷却风扇出现故障、未正确安装或不存在。 插槽 1 中未安装微处理器。 微处理器出现故障或未正确安装。 指定内存体中安装的内存模块的类型和大小不一致;内存模块出现故障。 内存模块出现故障或未正确安装;系统板出现故障。 背板出现故障或未正确安装。 计算机检测出错;微处理器出现故障或未正确安装;系统板出现故障。
电源发生故障。
1. 检查电源指示灯以了解是否有错误指示(交 流电源指示灯和直流电源指 示 灯未同时点亮)。
2. 确保发生故障的电源已正确安装到位。 3. 更换发生故障的电源。
RAID卡发生故障
RAID卡有错误信息或RAID卡有硬件错误
SP
服务处理器(IMM)发生故 1. 切断服务器的电源;然后将服务器重新连接到电源并重新启动服务器。
1. 检查硬盘驱动器上的指示灯以找出状态指示灯点亮的那个驱动 器,然后重新安装该硬盘驱动器。
2. 重新安装硬盘驱动器底板。 3. 如果该错误仍然存在,请按所示顺序更换以下组件:
a. 更换硬盘驱动器。 b. 更换硬盘驱动器底板
1. 重新安装由主板上风扇接口附近点亮的指示灯所指示的故障风 扇。 2. 更换由主板上风扇接口附近点亮的指示灯所指示的故障风扇。
报错
N
总体诊断流程
IBM 服务器故障诊断流程
IBM服务器前视图
IBM 服务器故障诊断流程
IBM服务器操作员信息面板
●电源控制按钮和供电指示灯按下此按钮可手动开启和关闭服务器,或唤醒处于省电
状态下的服务器。供电指示灯的状态如下所示:
– 熄灭:未接通交流电,或者电源或指示灯本身出现故障。
– 快速闪烁(每秒四次):服务器已关闭,但未准备就绪,无法开启。电源控制按
IBM 服务器故障诊断流程
IBM服务器光通路诊断面板
指示灯
问题
操作
OVER SPEC PCI
PS
RAID
由于某个电源通道上出现电 源超负荷情况,所以关闭了 服务器。电源功率超过最大 额定值。
1 .检查电源指示灯以了解是否有错误指示(交流电源指示灯和直流电源指示 灯未同时点亮,或信息指示灯点亮)。更换发生故障的电源。
2. 查看系统事件日志,获取有关错误的信息。 3. 更换所有发生故障的可更换组件或安装缺少的可更换组件,如
电池或PCI 转接卡组合件。
4. 如果稳压器发生故障,请更换主板。
IBM 服务器故障诊断流程
IBM服务器光通路诊断面板
指示灯
问题
操作
CNFG
发生硬件配置错误。
CPU DASD FAN LOG
当只有CPU 指示灯点亮时, 才表示微处理器发生故障。 当CPU 指示灯和CNFG 指示 灯都点亮时,表示微处理 器配置无效。
服务器故障诊断排除
服务器故障诊断流程
总体诊断流程 Y 加电问题诊断 Y 自检问题诊断 Y 操作系统启动 Y
诊断 服务器诊断流 Y
开始诊断
是否进行总 体的诊断
服务器是否 正常加电
服务器是否 能够完成自
检
操作系统是 否能够正常
启动
服务器是否 有Insight
Management Agent报错或 者LED诊断灯
第一行信息
每二行信息
E0000
OVRFLW CHECK LOG
E0119 E0119 E0119 E0119 E0212 E0212 E0212
TEMP AMBIENT TEMP BP TEMP CPU n TEMP SYSTEM VOLT 3.3 VOLT 5 VOLT 12
原因
LCD 过载信息。 LCD 上最多可以连续显示三则错误信息。第四则信息显示为标准过载信息。 系统环境温度超出可接受范围。 背板温度超出可接受范围。 指定微处理器温度超出可接受范围。 系统板温度超出可接受范围。
系统电源设备的电压超出可接受范围;系统电源设备出现故障或未正确安装。
DELL 服务器故障诊断流程
DELL服务器光通路诊断
第一行信息
每二行信息
E0212 E0212 E0212 E0212 E0212
VOLT BATT VOLT BP 12 VOLT BP 3.3 VOLT BP 5 VOLT CPU VRM
●定位器按钮和定位器指示灯:使用该指示灯可用肉眼在其他服务器中找到该服务 器。它还可用于证明受信平台模块(Trusted Platform Module,TPM)的物理存在。 按下此按钮可从本地开启或关闭该指示灯。可以使用IBM Systems Director 来远程
点亮该指示灯。
IBM
服 务 器 故 障 诊 断 流 程 IBM服务器光通路诊断面板
钮已禁用。服务器接通交流电源后大约三分钟,电源控制按钮便会激活。
– 缓慢闪烁(每秒一次):服务器已关闭,并且已准备就绪,可以开启。您可以按
电源控制按钮以开启服务器。
– 点亮:服务器开启。
– 逐渐变暗直至熄灭:服务器处于省电状态。要唤醒服务器,请按电源控制按钮或
使用IMM Web 界面。
注:如果该指示灯熄灭,并不表示服务器中不存在电流。该指示灯可能已烧毁。要
2 .从服务器卸下可选设备。
PCI 总线或主板上发生错误。 发生故障的PCI 插槽旁的附 加指示灯点亮。
1. 检查PCI 插槽上的指示灯,确定导致错误的 组件。 2. 查看系统事件日志,获取有关错误的信息。 3. 如果无法通过指示灯和系统事件日志中的信息确定发生故障的适配器,请
从发生故障的PCI 总线上逐个卸下适配器,并且每卸下一个适配器都重新 启动一次服务器。
1. 确定CNFG 指示灯是否也点亮。如果CNFG 指示灯不亮,表 示微处理器发生故障。
2. 如果CNFG 指示灯点亮,表示微处理器配置无效。
发生硬盘驱动器错误。硬 盘驱动器发生故 障或缺失。
风扇发生故障,或者是运 行过慢,或者是已卸下风 扇。TEMP 指示灯可能也会 点亮。 已将错误消息写入系统事 件日志
切断服务器中的所有电流,必须从电源插座断开电源线。
wenku.baidu.com
●以太以太网图标指示灯:该指示灯点亮以太网图标。
●以太网活动指示灯: 如果这些指示灯中任意一个点亮,表示服务器正在向连接到对应
于该指示灯的以太网端口的以太网LAN 发送信号,或正在接收来自该以太网LAN
4
的信号。
IBM 服务器故障诊断流程
IBM服务器操作员信息面板
障。
2. 更新IMM 上的固件。
TEMP
系统温度已超出阈值级别。 发生故障的风扇会导致 TEMP 指示灯点亮。
1. 查看错误日志,以确定在哪里测得温度过高情况。如果风扇发生故障, 请进行更换。
2. 确保室温不会太高。了解温度信息。 3. 确保通风孔未堵塞。
DELL 服务器故障诊断流程
DELL服务器光通路诊断
● 信息指示灯:当该指示灯点亮时,表示发生了一般性事件。光通路诊断面板上的某 个指示灯也会点亮,以帮助找出错误。
●系统错误指示灯:当该指示灯点亮时,表示发生了系统错误。光通路诊断面板上的 某个指示灯也会点亮,以帮助找出错误。
●释放滑锁:将该滑锁滑向左侧可操作光通路诊断面板,该面板位于操作员信息面板 的后面。