aix硬件故障分析和排除

合集下载

AIX性能下降检查解决案例

AIX性能下降检查解决案例

AIX性能下降检查解决案例(客户名称、时间、问题关键字)【处理时间】2016年8月1日【客户名称】华夏信用卡【主机信息】要有详细的硬件描述、数据库版本描述主机:IBM 、8205-E6D 四个Lpar分区操作系统:AIX 7100-03-05数据库:【业务系统】业务系统名称、有版本信息更好【关键字】Lpar、CPU折叠功能、性能优化。

关键字3个【处理人员】系统集成--刘党旗【问题说明】现象:对于使用共享CPU的AIX分区,当系统负载偏低时,基于JAVA的应用程序可能会被延迟执行,交易执行时间变长。

事件分析主要原因是在分区负载偏低时,AIX操作系统的CPU折叠功能只开启一个虚拟CPU,所有线程均被调度到该CPU 的第一个线程中。

解决方案可以通过HMC/ASMI设置,关闭操作系统的CPU折叠功能**折叠功能对系统的影响** 关闭CPUfolding的影响:关闭了系统内核对微分区环境的自动调度优化;所有的VP都会被调度到hypervisor,不管这些VP上是否有实际负载;更高的hypervisor延时,物理资源亲和度也可能受到影响。

** 关闭CPU folding的好处:对于分区sizing非常完美的情形下,比如EC:VP始终控制在不低于1:2,而且处理器池资源从未受限,这时关闭folding可能获得一定的性能收益(主要是通过减少VPM管理开销,以及避免unfold展开CPU 延迟)后续跟踪性能优化明显**折叠功能介绍虚拟处理器管理(VirtualProcessorManagement),也称之为处理器折叠技术(CPUFolding),是一项Power虚拟化特性,用于控制一个LPAR处理使用的VP(VirtualProcessor)数量。

按目前AIX的设置,默认对微分区(即共享处理器分区)开启了处理器折叠功能;而专有处理器分区(dedicatedLPAR)则默认关闭此功能。

处理器折叠技术的作用主要体现在两个方面:1)节能,如果一个物理核心对应的所有VP都处于被折叠状态PowerVMhypervisor可以将这颗核心置于低能耗状态。

服务器硬件故障排查技巧与解决方案

服务器硬件故障排查技巧与解决方案

服务器硬件故障排查技巧与解决方案在服务器管理和维护过程中,硬件故障是不可避免的。

服务器的正常运行对于企业的稳定运作至关重要,因此及时有效地排查和解决服务器硬件故障是服务器管理员的重要任务之一。

本文将介绍一些常见的服务器硬件故障排查技巧和解决方案,旨在帮助管理员更好地应对这些问题。

一、电源故障1. 故障现象:服务器无法开机或突然关机。

2. 解决方案:首先检查电源供应是否正常连接,确认电源线是否损坏。

若排除电源线问题,可以更换电源尝试解决。

另外,还应该检查服务器内部的电源插座是否松动,如果是,则需要重新固定。

二、硬盘故障1. 故障现象:服务器无法识别硬盘或读写速度极慢。

2. 解决方案:首先检查硬盘接口是否松动,如果是,则需要重新连接。

如果接口连接正常,则可以尝试更换接口线或更换硬盘。

在更换硬盘时,需要注意备份服务器中的数据,以免数据丢失。

三、内存故障1. 故障现象:服务器频繁死机或出现蓝屏。

2. 解决方案:首先检查内存条是否插好,如果存在松动,则需重新插好。

其次,可以通过更换内存条的位置来解决内存故障。

此外,还可以通过“memtest”等软件来进行内存测试,以确认是否出现故障。

四、网卡故障1. 故障现象:服务器无法上网或网络连接异常。

2. 解决方案:首先,检查网线是否插紧以及网线是否存在损坏。

如果网线连接正常,则可以尝试更换网线或更换网卡来解决故障。

此外,还需要确保服务器的网卡驱动程序是最新的,如果不是,则需要更新驱动程序。

五、风扇故障1. 故障现象:服务器温度过高,风扇噪音大或停止转动。

2. 解决方案:首先,检查风扇是否插好,如果存在松动,则需重新插好。

其次,可以通过清理风扇周围的灰尘来提高散热效果。

如果风扇仍不能正常工作,则需要更换风扇。

六、CPU故障1. 故障现象:服务器运行缓慢或频繁死机。

2. 解决方案:首先,检查CPU是否插好,如果存在松动,则需重新插好。

其次,可以通过清洁风扇和散热器来提高散热效果。

硬件故障排除技巧

硬件故障排除技巧

硬件故障排除技巧硬件故障总是让人头疼。

尤其是对于非专业人士来说,面对一台出问题的电脑或其他设备,往往不知所措。

但是,只要你掌握了一些基本的硬件故障排除技巧,解决问题就会变得简单。

本文将为大家介绍一些常见的硬件故障排除技巧,帮助你在遇到问题时能够快速解决。

一、检查电源连接电源连接是硬件故障排除的第一步。

确保你的设备已经正确连接到电源插座,并且电源线没有损坏。

有些时候,电源线可能会被踢到或被拉扯,导致松动或断开连接。

如果电源连接没有问题,那么可以考虑检查电源插座是否正常工作。

二、排除硬件冲突硬件冲突是指两个或多个设备使用相同的资源,导致系统无法正常工作。

例如,两个设备同时使用相同的IRQ(中断请求)或IO(输入/输出)端口,就可能导致冲突。

为了解决这个问题,可以尝试更改设备的IRQ或IO端口设置,或者调整设备的驱动程序。

三、更新驱动程序驱动程序是硬件设备与操作系统之间的桥梁。

如果你的硬件设备出现问题,可能是因为驱动程序过时或损坏。

你可以通过访问设备制造商的官方网站,下载并安装最新的驱动程序来解决问题。

或者,你可以使用系统自带的驱动程序更新工具,检查是否有可用的驱动程序更新。

四、清理内部组件硬件故障的一个常见原因是内部组件的积尘。

当灰尘积聚在内部组件上时,会影响设备的散热性能,导致设备过热并停止工作。

定期清理设备的内部组件是保持设备正常运行的关键。

使用尘埃吸尘器或压缩空气罐清洁设备的内部,并确保设备通风良好。

五、检查硬件连接有时,硬件故障可能是由松动或不正确连接的硬件部件引起的。

检查设备的连接线是否完好无损,插头是否插入到正确的端口上。

如果设备使用了无线连接,确保设备与无线网络连接正常。

如果一切连接正常,还可以尝试重新插拔硬件设备,以确保连接没有问题。

六、运行自检程序很多硬件设备都配有自检程序,可帮助你诊断和解决问题。

例如,电脑主板通常带有自检功能,可以通过按下特定的键来运行自检程序。

通过自检程序,你可以了解设备的硬件状态,并查找故障所在。

服务器硬件故障排除和维修的实际案例

服务器硬件故障排除和维修的实际案例

服务器硬件故障排除和维修的实际案例在现代信息技术高速发展的时代,服务器扮演着非常重要的角色。

然而,由于各种原因,服务器硬件故障时有发生。

本文将探讨一些实际案例,介绍了如何排除和维修服务器硬件故障。

案例一:电源故障在公司A的数据中心,突然出现了一台服务器宕机的情况。

通过排查,我们发现服务器无法正常启动。

经过检查,发现电源插头没有插好,导致电源无法供应给服务器。

重新插好电源之后,服务器恢复正常运转。

案例二:硬盘故障公司B的一台服务器报告了硬盘错误的警告信息。

我们迅速采取了措施,通过服务器管理工具检查硬盘状态。

经过分析,发现一个硬盘出现了故障。

我们立即更换了故障硬盘,并进行了数据恢复。

最后,服务器重新正常运行。

案例三:内存故障某天,在公司C的服务器上,我们发现应用程序运行缓慢,出现了频繁的卡顿现象。

我们首先使用服务器监控工具检查服务器的内存使用情况。

通过检查,我们发现一块内存模块出现了问题。

我们立即更换了故障内存,服务器的性能问题也得到了解决。

案例四:风扇故障在公司D的服务器房,我们听到了异常的噪音,通过观察发现服务器后方的风扇停止工作。

我们立即关闭了服务器,并更换了风扇。

经过启动服务器,噪音问题得到了解决。

案例五:主板故障公司E的一台服务器在正常运行中突然关机,并伴随着烧焦的味道。

我们意识到这是一种非常严重的情况。

经过分析,确认主板发生了故障。

我们联系服务器厂商,并更换了主板。

经过一系列测试,服务器重新运行正常。

案例六:网络接口故障在公司F的一台服务器上,我们发现无法远程登陆服务器。

我们首先确认了网络连接是否正常,发现服务器的网卡出现了故障。

我们更换了网卡,服务器恢复了远程访问的能力。

综上所述,服务器硬件故障是一个常见的问题,但通过合适的排除和维修方法,这些问题可以迅速解决。

无论是电源故障、硬盘故障、内存故障,还是风扇故障、主板故障或者网络接口故障,关键在于迅速找到故障点并进行适当的修复或更换。

因此,在维护服务器和保养硬件方面,及时的检查、预防和处理故障是至关重要的。

服务器故障排查与修复技巧

服务器故障排查与修复技巧

服务器故障排查与修复技巧随着信息技术的不断发展,服务器已经成为现代企业和个人网络生活中不可或缺的一部分。

然而,服务器故障时有发生,一旦服务器出现故障,可能会给工作和生活带来严重影响。

因此,掌握服务器故障排查与修复技巧显得尤为重要。

本文将介绍一些常见的服务器故障排查与修复技巧,帮助您更好地解决服务器故障问题。

一、硬件故障排查与修复1. 电源问题:首先检查服务器的电源线是否插紧,电源插座是否正常供电。

如果电源线和插座都没有问题,可以尝试更换电源线或者插到其他插座中。

如果服务器仍然无法开机,可能是电源模块故障,需要更换电源模块。

2. 内存故障:内存故障是服务器常见的硬件故障之一。

当服务器出现频繁死机或者蓝屏时,可以尝试重新插拔内存条,清洁内存槽,确保内存条插紧。

如果问题依然存在,可能是内存条本身故障,需要更换新的内存条。

3. 硬盘故障:硬盘是服务器存储数据的关键组件,一旦硬盘故障可能导致数据丢失。

当服务器出现读写速度慢或者无法识别硬盘时,可以尝试重新连接数据线,检查硬盘是否正常运转。

如果硬盘发出异常声音或者无法正常工作,可能是硬盘故障,需要更换新的硬盘。

4. CPU故障:CPU是服务器的核心部件,一旦CPU故障可能导致服务器无法正常启动。

当服务器出现频繁死机或者无法开机时,可以检查CPU散热器是否正常工作,清洁散热风扇,确保CPU温度正常。

如果问题依然存在,可能是CPU故障,需要更换新的CPU。

二、软件故障排查与修复1. 操作系统故障:操作系统是服务器的核心软件,一旦操作系统出现故障可能导致服务器无法正常工作。

当服务器出现蓝屏或者无法启动时,可以尝试进入安全模式,进行系统恢复或者重装系统。

如果问题依然存在,可能是系统文件损坏,需要修复系统文件或者重装系统。

2. 网络故障:网络是服务器与外部通信的重要通道,一旦网络故障可能导致服务器无法连接外部网络。

当服务器无法访问外部网络或者网络速度慢时,可以检查网线连接是否正常,重启路由器或者交换机。

服务器硬件故障排除与维修

服务器硬件故障排除与维修

服务器硬件故障排除与维修在如今的数字化时代,服务器扮演着连接互联网与用户之间的桥梁的重要角色。

然而,出现硬件故障是常见的情况。

本文将讨论服务器硬件故障的排除与维修方法,帮助读者解决这些问题。

一、服务器硬件故障的种类服务器硬件故障的种类繁多,其中包括但不限于以下几个方面:1. 电源故障:电源问题是服务器硬件故障的常见原因之一。

电源故障可能导致服务器无法正常开机,或者在运行时突然死机。

2. 硬盘故障:硬盘是服务器存储数据的关键部件。

硬盘故障可能导致数据丢失、读写失败或无法访问。

3. 内存故障:服务器的内存承载着临时存储和运行程序所需的数据。

内存故障可能导致运行速度缓慢、蓝屏或系统崩溃。

4. CPU故障:CPU是服务器的大脑,处理数据和指令。

CPU故障会导致服务器性能下降、程序错误或无法启动。

5. 电源供应问题:服务器需要稳定可靠的电源供应。

供电不稳定或不足可能导致服务器工作异常。

二、服务器硬件故障排除步骤当服务器遇到硬件故障时,我们可以采取以下步骤进行排除。

1. 确认故障现象:首先,我们需要仔细观察服务器的表现,如是否频繁死机、发出异常声音或报错信息。

了解故障现象有助于判断问题所在。

2. 检查电源连接:确认服务器与电源插座连接稳固,排除电源线路问题。

3. 确认硬件连接:检查硬盘、内存、CPU等组件是否正确安装,是否有松动或损坏。

4. 进行诊断测试:借助系统管理软件或服务器自带的诊断工具,进行硬件测试,识别故障的具体位置。

5. 换位测试:如果系统管理软件未能明确指出问题,可以尝试将组件相互交换位置,如更换内存插槽,以验证是否是特定部件故障。

6. 更新驱动程序和固件:及时更新服务器的驱动程序和固件有助于提高系统的稳定性和兼容性,解决一些已知的硬件故障问题。

7. 寻求专业故障诊断:如果以上步骤无法解决故障,建议联系厂家的技术支持或专业服务人员进行故障排查,以获得更专业的帮助。

三、服务器硬件故障维修方法当确定服务器出现硬件故障后,我们可以考虑以下方法进行维修。

AIX性能问题诊断及调优

AIX性能问题诊断及调优

在AIX日常运维中,性能问题一直是一个很重要的问题,为了让操作系统能正常平稳高效的运行,便需要一些武功秘籍来进行快速定准并解决问题,本次我们便来讨论一下我们可以用到的武功秘籍。

所谓性能问题,主要几种在CPU、内存、I/O三个大类别,因此我们分类进行讨论。

类别一:CPU检查系统的三把斧头一招便是topas,这个是最常用也是最有效的一招,通过topas的输出可以看到CPU的使用情况。

从topas的输出我们主要关注如下4个指标:那么判定系统忙不忙的一个指标为Idle%,正常情况下,Idle%的值如果低于10%,则这个系统的CPU就需要注意了,此时关注一下是User%高还是Kern%高,如果是User%高,则说明是应用程序占用CPU较多,反之则说明操作系统本身占用CPU较高。

(但是请注意:并不是所有Kern%高都是操作系统本身导致的,也有可能是应用程序调用了系统本身的函数,这样也会把这部分消耗算在Kern%头上)在拍完第一板斧后,我们继续向下分析,拍第二板斧trpof,这个可以理解为精简版的trace,一般情况下执行这个命令对系统负载影响不太大,因此可以用这个工具先粗略看一下相关的进程。

通过tprof可以看出占用CPU排名靠前的进程。

如果root cause还没有找到,那么便使出大招,收trace数据。

在收集trace 数据前请先注意以下原则:①收集trace数据会对当前系统的负载有影响,在CPU已经达到99%时,再收集trace有可能把操作系统搞夯。

②一定要等到问题重现时收集trace,由于trace产生的数据量巨大,因此要收集有效时间段的trace。

如果不确定问题什么时候重现,可以写个判断脚本,收集循环trace。

③用root用户进行trace收集④需要预估trace数据的大小,然后根据预估的空间,在操作系统上找一个空间较大的地方存放数据。

trace数据的大小可以用下列公式算出:预估数据大小=逻辑CPU的个数* 10MB(其中逻辑CPU的个数可以用vmstat | grep -i lcpu命令查看)在执行完上述收集命令后,会生成trace的raw文件。

硬件调试过程中出现的故障及解决措施

硬件调试过程中出现的故障及解决措施

硬件调试是指通过对硬件设备进行测试、分析和调整,以确保硬件设备的正常运行。

在硬件调试过程中,经常会遇到各种各样的故障,这些故障可能会导致硬件设备无法正常使用,严重影响生产和工作效率。

及时发现和解决硬件调试过程中出现的故障是非常重要的。

1. 电源故障电源故障是硬件调试过程中常见的问题,主要表现为设备无法正常开机、电压不稳定或者突然断电等。

在遇到电源故障时,我们可以采取以下措施进行解决:1)检查电源线路,确保连接稳固,并使用电压表检测电压是否正常;2)检查设备内部电源供电模块是否损坏或者老化,如果出现问题需要及时更换;3)排查设备电源管理芯片是否损坏,如果有问题需要重新焊接或更换芯片。

2. 硬件连接故障硬件连接故障是指硬件设备之间的连接出现问题,常见的表现为设备无法正常通讯、数据传输异常等。

遇到硬件连接故障时,我们可以采取以下措施进行解决:1)检查连接线路,确保连接稳固,没有断路或者短路现象;2)检查接口连接是否良好,如果发现问题需要重新插拔连接线或更换连接接口;3)对设备之间的通讯协议进行检测和分析,确保通讯协议设置正确。

3. 硬件部件故障硬件部件故障是指硬件设备内部的主要部件出现故障,例如CPU、内存、主板等。

在遇到硬件部件故障时,我们可以采取以下措施进行解决:1)通过硬件检测工具对部件进行诊断,查找出故障点;2)对故障部件进行更换或修复,确保部件正常运行;3)对故障部件进行检测分析,找出故障原因,并做好记录以便日后预防。

4. 程序驱动故障程序驱动故障是指硬件设备的程序驱动出现问题,导致硬件设备无法正常运行。

在遇到程序驱动故障时,我们可以采取以下措施进行解决:1)检查程序驱动是否安装正确,如果发现问题需要重新安装程序驱动;2)检查程序驱动是否与硬件设备的版本兼容,如果不兼容需要更换适配的程序驱动;3)对程序驱动进行调试和优化,确保程序驱动能够正常运行。

在硬件调试过程中,遇到故障是不可避免的,但是只要能够及时发现并解决问题,就能够确保硬件设备能够正常运行,提高工作效率。

服务器硬件故障排除的实际案例分析与解决方法

服务器硬件故障排除的实际案例分析与解决方法

服务器硬件故障排除的实际案例分析与解决方法在现代科技高速发展的今天,服务器扮演了企业和组织信息管理、存储和处理的关键角色。

然而,由于各种原因,服务器硬件故障时有发生。

本文将以实际案例为基础,探讨服务器硬件故障排除的案例分析和解决方法,旨在帮助读者更好地应对类似问题。

案例一:电源故障在一个小型公司的办公室中,服务器突然无故关机,并无法再次启动。

技术人员立即检查并发现了电源故障导致的问题。

解决方法:1. 首先,切勿慌张,需要检查电源线是否插紧,是否有明显的损坏。

2. 确认电源线正常后,检查服务器电源插头和插槽,确保连接良好。

3. 如果以上步骤都无法解决问题,建议更换电源线或联系供应商进行更深入的维修。

案例二:硬盘故障在一个大型数据中心中,管理员收到警报通知一台服务器的硬盘出现问题。

为了避免数据丢失和业务中断,管理员需要快速解决这个问题。

解决方法:1. 首先,在硬盘问题发生后尽可能立即备份重要数据,以防进一步的损失。

2. 使用服务器管理软件或操作系统自带的硬盘诊断工具,对硬盘进行检测和修复。

3. 如果硬盘问题无法解决,建议及时联系供应商或专业维修人员,进行更换或修复。

案例三:内存故障一家互联网公司的服务器在高峰时段频繁出现宕机现象,经过初步分析,发现是内存故障导致的。

解决方法:1. 首先,将服务器断电,并关闭电源开关,确保安全操作。

2. 仔细检查内存是否插紧,是否有松动、污渍或生锈等问题。

3. 使用内存测试工具对内存进行检测,寻找潜在问题。

4. 如果无法解决内存问题,建议更换或升级内存条。

案例四:散热问题一个企业的服务器在连续运行几小时后突然出现频繁崩溃的情况,经过检查发现是散热问题导致。

解决方法:1. 确保服务器周围通风良好,避免堵塞或灰尘积累。

2. 清洁散热器和风扇,去除尘埃和杂物。

3. 如果以上措施无法解决问题,建议更换散热系统或增加额外的散热器。

通过以上实际案例分析,我们可以看到服务器硬件故障的解决方法多种多样,但总体来说,我们需要保持冷静、细致并采取正确的步骤。

计算机硬件故障排除的常见方法和技巧

计算机硬件故障排除的常见方法和技巧

计算机硬件故障排除的常见方法和技巧计算机硬件故障经常给我们的工作和生活带来很多困扰。

快速、准确地排除故障是我们解决问题的关键。

本文将介绍一些常见的计算机硬件故障排除方法和技巧,希望能够对大家有所帮助。

一、故障现象的观察和记录在排除计算机硬件故障时,首先需要仔细观察故障的现象,包括出现的错误提示、蓝屏的内容、计算机关机或重启等等。

另外,还需要记录故障发生的频率、时间、使用的软件等相关信息,这些信息有助于后续的故障排除。

二、检查硬件连接1. 确认电源线是否插紧,电源是否正常工作。

2. 检查数据线和信号线是否连接牢固,如显示器、打印机、键盘等外接设备的连接。

3. 重插内存条和显卡,确保其与主板连接良好。

三、查看设备管理器打开设备管理器可以帮助我们了解硬件是否正常工作。

如果发现有黄色三角警告符号或问号,说明对应的硬件可能存在问题,需要对其做进一步检查和处理。

四、使用诊断工具1. 内存测试工具:通过运行Memtest86+等工具,可以检测内存是否出现故障。

在启动时,选择从USB或光盘启动,运行测试工具进行内存检测。

2. 硬盘检测工具:如可以使用自带的Windows磁盘检查工具或第三方工具(例如CrystalDiskInfo)来检测硬盘是否有坏道或发生故障。

3. CPU检测工具:诸如CPU-Z、Prime95等工具可以帮助我们检测CPU是否正常工作,是否存在过热等问题。

五、排除软件问题有时候计算机的故障可能是由于软件问题引起的,因此我们需要排除软件故障。

首先可以尝试重新启动计算机,看是否能够解决问题。

如果问题仍然存在,我们可以尝试使用安全模式启动计算机,并逐个排查最近安装的软件,看是否有软件与故障有关联。

六、更新和安装驱动程序如果硬件故障与驱动程序有关,我们需要更新和安装相应的驱动程序。

可以通过设备管理器找到需要更新的硬件设备,选择更新驱动程序。

此外,可以到技术支持网站或硬件制造商的官方网站下载最新的驱动程序,并按照提示进行安装。

AIX维护手册簿 第 5 部分:问题地确定和解决

AIX维护手册簿 第 5 部分:问题地确定和解决

IBM AIX V5.3 系统管理(Test 222)认证指南系列,第 5 部分:问题的确定和解决(上)Shiv Dutta (sdutta@), 技术顾问, IBM2007 年 12 月 20 日本文分两部分向您介绍不同的问题确定工具,以及何时使用它们。

还提供了一些示例,说明如何解释这些命令的输出以及如何采取正确的操作。

本文是摘自 IBM 红皮书《IBM Certification Study Guide eServer p5 and pSeries Administration and Support for AIX 5L Version 5.3》。

问题确定和解决这个部分提供了一些相关的信息以帮助您解决网络、硬件、或者操作系统方面的问题。

网络问题在这一部分中,您将了解系统中网络支持和故障诊断的一些重要的方面,包括修改网络适配器和接口。

请注意,本部分并没有提供网络支持方面的所有内容(因为网络可能是非常复杂的环境),但是为支持专业人员提供了一个很好的起点。

ping 命令ping 命令适用于下列情况:确定网络以及各种外部主机的状态跟踪和隔离硬件和软件问题测试、测量和管理网络ping 命令发送一个 Internet Control Message Protocol (ICMP) ECHO_REQUEST,以便从网络中的某台主机或者网关那里获取一个 ICMP ECHO_RESPONSE。

如果这台主机正在运行,并且位于该网络中,那么它将对 ECHO 请求做出响应。

每个 ECHO 请求包含一个Internet Protocol (IP) 和 ICMP Header,后面紧跟着一个 timeval 结构,以及足够数量的字节以填充数据包。

在缺省情况下,ping 命令每秒发送一个数据报,并为每个接收到的响应输出一行内容。

ping 命令将计算往返时间,以及数据包丢失的统计信息,并在结束时显示简要的汇总信息。

当程序超时、或者收到一个 SIGINT 信号 (Ctrl-C) 时,ping 命令将会结束。

网络问题判断:供系统管理员使用的 AIX 工具第 2 部分:详细的诊断和故障排除

网络问题判断:供系统管理员使用的 AIX 工具第 2 部分:详细的诊断和故障排除

本文介绍一些可以在IBM AIX® 上使用的命令,其中许多命令也可以在其他风格的UNIX® 上使用。

当您的主机与另一个主机的通信发生问题时,这些命令有助于尽可能详细地了解实际情况。

也详细讨论符合逻辑的常见问题诊断方法。

常用缩写词∙ACL: Access control list∙DNS: Domain Name System∙I/O: Input/output∙MAC: Media Access Control∙TCP/IP: Transmission Control Protocol/Internet Protocol对于本文,所有样例命令和输出中使用的目标主机系统都称为testhost。

获得更多信息根据要诊断的网络问题的性质,有时候有必要了解失败的应用程序或命令是否有详细输出、跟踪或调试选项。

例如,ssh (Secure Shell) 和 scp (Secure Copy) 命令有详细输出开关(-v),这可以提供关于客户机和服务器之间的通信、密钥交换和身份验证的大量跟踪信息(见清单 1)。

清单 1. 用提供详细输出的 ssh 会话连接远程主机# ssh —v testhostOpenSSH_4.2p1, OpenSSL 0.9.7d 17 Mar 2004debug1: Reading configuration data /opt/freeware/etc/ssh_config debug1: Connecting to testhost [10.217.1.206] port 22.debug1: Connection established.debug1: permanently_set_uid: 0/0debug1: identity file /root/.ssh/identity type -1debug1: identity file /root/.ssh/id_rsa type 1debug1: identity file /root/.ssh/id_dsa type -1debug1: Remote protocol version 1.99, remote software version OpenSSH_4.1 debug1: match: OpenSSH_4.1 pat OpenSSH*debug1: Enabling compatibility mode for protocol 2.0debug1: Local version string SSH-2.0-OpenSSH_4.2debug1: SSH2_MSG_KEXINIT sentdebug1: SSH2_MSG_KEXINIT receiveddebug1: kex: server->client aes128-cbc hmac-md5 nonedebug1: kex: client->server aes128-cbc hmac-md5 nonedebug1: SSH2_MSG_KEX_DH_GEX_REQUEST(1024<1024<8192) sentdebug1: expecting SSH2_MSG_KEX_DH_GEX_GROUPdebug1: SSH2_MSG_KEX_DH_GEX_INIT sentdebug1: expecting SSH2_MSG_KEX_DH_GEX_REPLYdebug1: Host 'testhost' is known and matches the RSA host key.debug1: Found key in /root/.ssh/known_hosts:14debug1: ssh_rsa_verify: signature correctdebug1: SSH2_MSG_NEWKEYS sentdebug1: expecting SSH2_MSG_NEWKEYSdebug1: SSH2_MSG_NEWKEYS receiveddebug1: SSH2_MSG_SERVICE_REQUEST sentdebug1: SSH2_MSG_SERVICE_ACCEPT receiveddebug1: Authentications that can continue:publickey,password,keyboard-interactivedebug1: Next authentication method: publickeydebug1: Trying private key: /root/.ssh/identitydebug1: Offering public key: /root/.ssh/id_rsadebug1: Authentications that can continue:publickey,password,keyboard-interactivedebug1: Trying private key: /root/.ssh/id_dsadebug1: Next authentication method: keyboard-interactivedebug1: Authentications that can continue:publickey,password,keyboard-interactivedebug1: Next authentication method: passwordroot@testhost's password:debug1: Authentication succeeded (password).debug1: channel 0: new [client-session]debug1: Entering interactive session.Last unsuccessful login: Wed 27 Jan 13:30:23 2010 on ssh from10.216.163.37Last login: Wed 10 Feb 16:05:48 2010 on /dev/pts/0 from 10.216.163.37 ******************************************************************************* ** ** Welcome to AIX Version 5.3! ** ** ** Please see the README file in /usr/lpp/bos for information pertinent to ** this release of the AIX Operating System. ** ** *******************************************************************************#如果可以登录进入有问题的主机(理论上,服务器无法向特定端口发送服务网络请求,但是有时候也可以在发出请求的客户机上报告错误),那么您应该在系统日志中检查相关的消息。

AIX系统硬件故障定位

AIX系统硬件故障定位

一般情况下只有当黄灯亮,tivoli报警的时候我们需要查看Aix系统1.查看机器各种指示灯状态机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有故障的一个依据。

当指示灯的状态不正常时,需要引起注意。

比如,当机器警告灯亮的时候,一般都是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息。

2.使用errpt查看输入errpt |more查看最新的错误日志,以下是例子IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION9DBCFDEE 010******* T O errdemon ERROR LOGGING TURNED ON192AC071 010******* T O errdemon ERROR LOGGING TURNED OFFC092AFE4 010******* I O ctcasd ctcasd Daemon StartedA6DF45AA 010******* I O RMCdaemon The daemon is started.9DBCFDEE 010******* T O errdemon ERROR LOGGING TURNED ON192AC071 010******* T O errdemon ERROR LOGGING TURNED OFF369D049B 010******* I O SYSPFS UNABLE TO ALLOCATE SPACE IN FILE SYSTE1.错误标示符IDENTIFIER:并不唯一,由它来确定使用的错误模板,显然同一种错误的IDENTIFIER是相同的。

2.时间戳TIMESTAMP:错误发生的时间,MMDDhhmmYY,依次表示月日时分年。

3.类型TYPE:错误的类型,或者说严重的程度。

2.类型TYPE:错误的类型,或者说严重的程度。

分为6个:PEND 设备或功能组件可能丢失简写PPERF 性能严重下降PPERM 硬件设备或软件模块损坏,确诊了的PTEMP 临时性错误,经过重试后已经恢复正常TINFO 一般消息,不是错误IUNKN 不能确定错误的严重性U一般情况下我们只需要关注类型为P的错误当发现此类错误的时候,执行errpt –aj|more错误号#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息就可以列出详细错误清单,根据详细错误清单上的信息跟ibm工程师联系,并提供错误信息里面的相关内容来定位问题所在3.执行diag命令查看当服务器未亮黄灯并有硬件报错的时候,我们需要使用diag命令进行系统全面诊断,注意diag 命令需要用root用户执行> 选高级诊断(Advance Diagnostic)> 选问题诊断(Problem Determination)或选系统检查(System Verification)(选PD 会对系统错误记录进行分析)如果有提问是否查看历史纪录,选择yesdiag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。

Aix5L问题排除工具和技巧

Aix5L问题排除工具和技巧

Aix5L问题排除工具和技巧第一章认证纵览本章提供获得IBM高级技术专家认证的一个能力需求的一个纵览。

下来的章节中会对获得IBM Certified Advanced Technical Expert - pSeries and AIX 5L进行全面的复习。

这个级别认证一个高级的在pSeries和AIX的知识和理解方面的宽度和深度。

它考核认证者在多种AIX领域内(包括支持的硬件)的执行深度分析、应用复杂AIX概念、和提供关键问题解决方案的能力。

1.1 认证需求要获得IBM Certified Advanced Technical Expert - pSeries and AIX 5L认证,你必须通过4门考试其中第一门考试是通过其它考试的前提(pSeries AIX System Administration或者pSeries AIX System Support)。

其它3门考试可以在不同的pSeries and AIX主题中选择,下一节将解释这些需求。

1.1.1 必须要求IBM Certified Specialist - pSeries AIX System Administration或者IBM Certified Specialist - pSeries AIX System Support1.1.2 推荐要求6-12个月在多种AIX区域执行深度性能分析和应用复杂AIX概念的经验。

1.1.2 认证考试的信息和注册最新信息请访问如下Web站点:/certify1.1.4 核心需求任选以下3门考试AIX 安装和系统恢复考试代码:233参考SG24-6183 AIX 5L安装和系统恢复AIX 5L性能和系统优化考试代码:234参考SG24-6184 AIX 5L性能和系统优化AIX 5L问题解决工具和技巧考试代码:235本书的主题就是准备这门考试AIX 5L通讯考试代码:236参考SG24-6186 AIX 5L通讯AIX下p系列HACMP考试代码:187参考SG24-6187 AIX下p系列HACMPRS/6000 SP和PSSP V3.1考试代码:188参考SG24-5348 RS/6000 SPp690技术支持考试代码:1951.2 认证教育路线参考网站:/certify/tests/info.shtml第二章客户关系本章讨论如下主题:问题定义从系统中收集信息本章提供给需要帮助用户解决特定问题的系统支持人员。

计算机硬件常见故障及解决方法

计算机硬件常见故障及解决方法

计算机硬件常见故障及解决方法计算机是现代社会中必不可少的工具,但是由于长时间使用或者其他原因,常常会出现一些硬件故障。

下面是一些常见的计算机硬件故障及解决方法。

1.电源问题:-故障现象:计算机无法正常启动,没有任何反应。

-解决方法:首先检查电源插座和电源线是否连接稳固,然后检查电源是否故障,可以将电源线连接到其他计算机上验证。

若电源故障,需要更换新的电源。

2.内存问题:-故障现象:计算机频繁死机或蓝屏。

-解决方法:首先根据故障提示信息,确定是否是内存问题。

然后可以尝试重新插拔内存条,确保其连接稳固。

如果问题依然存在,可以将内存条一个个地从插槽上插下来,重新测试。

若确定内存有问题,需要更换新的内存条。

3.硬盘问题:-故障现象:计算机启动缓慢,无法读取或写入数据。

- 解决方法:可以使用硬盘检测工具(如CrystalDiskInfo)检查硬盘的健康状态。

如果出现问题,可以尝试重新插拔硬盘数据线和电源线,确保连接稳固。

如果问题依然存在,需要更换新的硬盘。

4.显卡问题:-故障现象:计算机显示屏无法正常显示图像,出现花屏或闪屏现象。

-解决方法:首先检查显示器连接线是否接触良好,然后检查显卡是否插入正确,尝试重新插拔显卡,确保连接稳固。

如果问题依然存在,可以尝试更换新的显卡。

5.CPU散热问题:-故障现象:计算机频繁自动关机。

-解决方法:首先检查CPU风扇是否运转正常,清理风扇上的灰尘,确保散热正常。

如果问题依然存在,可以更换新的散热器。

6.主板问题:-故障现象:计算机无法正常启动,没有任何反应。

-解决方法:首先检查电源是否正常工作,然后检查主板上的连接线是否插紧。

可以尝试插拔主板电源和数据线,确保连接稳固。

如果问题依然存在,需要更换新的主板。

7.输入设备问题:-故障现象:键盘或鼠标无法正常工作。

-解决方法:首先检查设备连接线是否插紧,然后尝试重新启动计算机。

如果问题依然存在,可以尝试将设备连接到其他的USB接口或者更换新的设备。

服务器硬件故障排查与处理技巧

服务器硬件故障排查与处理技巧

服务器硬件故障排查与处理技巧随着信息技术的不断发展,服务器在企业和个人生活中扮演着越来越重要的角色。

然而,服务器硬件故障时有发生,一旦出现故障,可能会给工作和生活带来不便甚至损失。

因此,掌握服务器硬件故障排查与处理技巧显得尤为重要。

本文将介绍一些常见的服务器硬件故障排查与处理技巧,帮助大家更好地解决相关问题。

一、服务器硬件故障的分类服务器硬件故障主要包括CPU故障、内存故障、硬盘故障、电源故障、主板故障等。

在排查和处理服务器硬件故障时,首先需要了解故障的具体类型,然后有针对性地进行处理。

1. CPU故障:CPU是服务器的核心部件,一旦出现故障,服务器将无法正常工作。

CPU故障的表现通常包括服务器频繁死机、运行速度变慢等。

2. 内存故障:内存是服务器存储数据的地方,如果内存出现故障,会导致服务器运行缓慢甚至无法启动的情况。

3. 硬盘故障:硬盘是服务器存储数据的主要设备,硬盘故障会导致数据丢失或无法读取数据的情况。

4. 电源故障:电源是服务器正常运行的保障,一旦电源出现故障,服务器将无法正常供电,导致服务器无法启动。

5. 主板故障:主板是服务器的核心部件之一,一旦主板出现故障,会导致服务器无法正常工作。

二、服务器硬件故障排查与处理技巧1. 观察指示灯:服务器通常会配备各种指示灯,通过观察指示灯的状态可以初步判断服务器硬件是否正常。

比如,CPU指示灯常亮或闪烁可能表示CPU故障,内存指示灯异常可能表示内存故障。

2. 检查连接线缆:有时候服务器硬件故障是由于连接线缆松动或损坏导致的,因此在排查故障时,要仔细检查各个连接线缆是否连接牢固。

3. 使用诊断工具:现在市面上有很多专业的服务器硬件故障诊断工具,可以帮助快速定位故障所在。

通过运行诊断工具,可以更准确地找出故障原因。

4. 清洁服务器内部:服务器长时间运行后,内部可能会积聚灰尘,影响散热效果,导致硬件故障。

定期清洁服务器内部,保持散热良好,有助于减少硬件故障的发生。

服务器硬件故障排除技巧与解决方案

服务器硬件故障排除技巧与解决方案

服务器硬件故障排除技巧与解决方案服务器硬件故障是在计算机网络系统中常见的问题之一,它会给企业和个人的信息存储和访问带来诸多困扰。

本文将介绍一些常见的服务器硬件故障,并提供相应的排除技巧和解决方案,以帮助读者更好地处理这些问题。

一、电源故障电源是服务器运行的关键组件之一,当电源发生故障时,服务器将无法启动或突然断电。

为了排除电源故障,我们可以采取以下几个步骤:1. 检查电源线是否连接牢固:确保电源线连接至服务器和电源插座的接口都牢固,没有松动或松脱。

2. 更换电源线和插座:有时,电源线及插座的老化和损坏会导致电源故障,可以尝试更换新的电源线和插座。

3. 检查电源开关和按钮:确认电源开关在打开状态,同时检查服务器前面板上的电源按钮是否正常。

4. 使用备用电源:在排除以上问题后,如果服务器仍无法启动,可以尝试使用备用电源。

二、硬盘故障硬盘是服务器中存储数据的重要组件,一旦硬盘发生故障,可能导致数据丢失或无法读取。

以下是解决硬盘故障的一些技巧:1. 检查连接状态:确保硬盘连接线和电源线连接是否牢固,没有松动或脱落。

2. 使用硬盘工具:有时候,硬盘故障可能是由于分区表错误、文件系统损坏等问题引起的,使用硬盘工具可以修复这些错误。

3. 备份数据:在尝试修复硬盘问题之前,务必先备份服务器中重要的数据,以防止数据丢失。

4. 更换故障硬盘:如果以上方法无法解决问题,很可能是硬盘本身出现了故障,此时需要更换故障硬盘。

三、内存故障内存是服务器中用于存储和读取数据的临时存储器件,当内存出现故障时,服务器可能无法正常运行。

以下是一些处理内存故障的技巧和解决方案:1. 清洁内存插槽:有时候,内存插槽上的灰尘和污垢会导致内存故障,可以使用压缩气罐或小刷子清洁内存插槽。

2. 更换内存条:如果清洁插槽无效,可以尝试更换故障的内存条,确保新的内存条与服务器兼容。

3. 内存排查工具:使用内存排查工具可以帮助识别和修复内存中的错误和问题。

AIX服务器文件损坏故障处理指引

AIX服务器文件损坏故障处理指引

AIX服务器文件损坏故障处理指引本故障处理指引只针对个别系统文件损坏进行文件还原,并不是针对文件系统损坏进行修复处理,请知悉。

通常情况下,当系统某个配置文件权限发生变化或者损坏时,会造成该文件访问不了,某些命令能使用,但是没有内容。

下面以/usr/sbin/目录下的ifconfig、route等配置文件被修改为例,进行配置文件还原。

正常情况下,我们敲击ifconfig、route等命令时,会弹出如下类似信息:如果配置文件被修改了,则会显示类似如下的信息:从截图中,我们可以发现,敲击ifconfig、route命令时并没有报错,可以正常使用,但是没有显示内容,通过smitty tcpip命令查看或者修改本机ip、网关ip,也没有报错,可以执行。

使用netstat –rn查看网关ip时,配置并没有生效。

命令可以执行,也没有报错信息,系统稳定运行,业务也正常,所以就很难定位故障信息。

针对这种没有报错信息,命令执行成功,但是配置不生效的现象。

可以从命令本身出发,一步一步查找出原因。

1.使用which 命令查看ping、route命令所在文件夹# which route/etc/route# which ping/etc/ping[root@localhost:/]#通过截图发现,ping命令,route命令的配置文件都是在/etc目录下。

2.查看该文件的权限# ls -l /etc/routelrwxrwxrwx 1 root system 15 Apr 04 2016/etc/route -> /usr/sbin/route# ls -l /etc/pinglrwxrwxrwx 1 root system 14 Apr 04 2016/etc/ping -> /usr/sbin/ping通过对比其他服务器,发现文件的权限和文件大小是没有发生变化的。

注意:ping命令、route命令的真实文件并不是在/etc目录下,只是在/etc目录下做了一个软连接,相当于Windows系统的快捷方式,真正的配置文件是在/usr/sbin目录下,如果没有注意到这个情况,这个故障就很难排除了。

计算机硬件常见故障及处理方法

计算机硬件常见故障及处理方法

计算机硬件常见故障及处理方法1.电源故障:电源故障是计算机最常见的故障之一、如果电源出现问题,计算机将无法启动或者突然关机。

解决方法是首先检查电源插头是否插稳,然后检查电源线是否损坏。

如果电源线正常,可以尝试更换电源。

2.内存故障:内存是计算机中重要的硬件组件之一,如果内存出现故障,计算机可能会频繁死机或者出现系统崩溃的情况。

解决方法是首先将内存重新安装到插槽中,确保插好。

如果问题仍然存在,可以尝试更换内存或者进行内存测试。

3.硬盘故障:硬盘是计算机中存储数据的重要组件,如果硬盘出现故障,可能导致系统无法启动或者丢失数据。

解决方法是首先检查硬盘连接线是否插好,然后尝试用其他电脑连接或者更换硬盘线。

如果问题仍然存在,可以尝试进行硬盘修复或者更换硬盘。

4.显卡故障:显卡是计算机中控制显示的重要组件,如果显卡出现故障,可能导致屏幕显示异常或者无法显示。

解决方法是首先检查显卡连接线是否插好,然后尝试重新安装显卡驱动程序。

如果问题仍然存在,可以尝试更换显卡或者进行显卡测试。

5.CPU故障:CPU是计算机中核心的处理器,如果CPU出现故障,计算机性能可能会下降或者无法正常启动。

解决方法是首先检查CPU散热器是否正常工作,然后尝试重新安装CPU。

如果问题仍然存在,可以尝试更换CPU。

6.主板故障:主板是计算机的主要部件之一,如果主板出现故障,计算机将无法正常启动或者出现各种异常现象。

解决方法是首先检查主板上的连接线是否插好,然后尝试清洁主板。

如果问题仍然存在,可以尝试更换主板。

7.音频故障:如果计算机没有声音或者声音异常,可能是音频设备出现故障。

解决方法是首先检查音频设备的连接线是否插好,然后尝试更换音频驱动程序。

如果问题仍然存在,可以尝试更换音频设备。

总之,计算机硬件故障是使用计算机过程中常见的问题之一、处理计算机硬件故障的关键在于仔细检查并找到故障的原因,然后采取相应的解决方法。

如果用户无法处理硬件故障,建议寻求专业人士的帮助。

服务器硬件故障排除技巧

服务器硬件故障排除技巧

服务器硬件故障排除技巧在日常工作中,服务器硬件故障是一种比较常见的问题,一旦出现硬件故障,可能会导致服务器无法正常运行,进而影响到整个系统的稳定性和可用性。

因此,及时有效地排除服务器硬件故障至关重要。

下面将介绍一些常见的服务器硬件故障排除技巧,希望对大家有所帮助。

一、检查电源供应1. 确认电源线连接:首先要检查服务器的电源线是否连接牢固,有时候电源线可能会松动或者脱落,导致服务器无法正常供电。

2. 检查电源插座:确认电源插座是否正常供电,有时候插座故障也会导致服务器无法正常开机。

3. 使用电源检测仪:如果以上两点都没有问题,可以使用电源检测仪来检测电源是否正常输出,以确定是否是电源故障导致的问题。

二、检查硬件连接1. 检查数据线连接:确保硬盘、内存条、网卡等硬件设备的数据线连接牢固,有时候数据线松动也会导致硬件无法正常工作。

2. 检查硬件插槽:如果硬件设备是插在插槽上的,可以尝试重新插拔硬件设备,确保插槽没有松动或者脏污导致接触不良。

三、检查硬件状态1. 查看指示灯:服务器硬件设备通常会有指示灯,通过指示灯的状态可以初步判断硬件设备是否正常工作,比如硬盘指示灯闪烁表示硬盘在工作。

2. 使用硬件检测工具:可以使用硬件检测工具对服务器硬件进行全面检测,查看硬件设备的工作状态和健康状况,及时发现问题并进行处理。

四、排除故障1. 逐一排除:如果确定是某个硬件设备出现故障,可以逐一排除其他硬件设备,确定问题所在,然后进行修复或更换。

2. 备份数据:在进行硬件维修或更换之前,一定要及时备份重要数据,以免数据丢失造成不可挽回的损失。

五、定期维护1. 清洁服务器:定期清洁服务器内部和外部,防止灰尘积累导致散热不良,影响硬件设备的正常工作。

2. 更新驱动程序:定期更新服务器硬件设备的驱动程序和固件,保持硬件设备的最新状态,提高系统的稳定性和性能。

通过以上一些常见的服务器硬件故障排除技巧,可以帮助大家更好地应对服务器硬件故障问题,保障服务器系统的稳定运行。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

RS/6000小型机故障的基本定位方法一故障的定义.弄清楚系统发生了什么问题.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的操作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设臵。

二故障信息的收集1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。

2)系统故障记录(errorlog)errdemon进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年)T(类型): P 永久; T 临时; U 未知(永久性的错误应引起重视)C(分类): H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834 Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00003)控制面板上的LED 代码.8 位代码,通常系统故障灯会同时亮起。

某些机型还会同时显示故障设备位臵代码。

.4 位代码,通常是Exxx。

.3 位代码,通常为0yyy,只看后3位。

.8 位和4位代码可查看系统服务手册 (Service Guide)。

3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。

.闪动的 888, 系统崩溃,硬件或软件原因造成。

按reset 键会显示更多内容。

888-102 一般为软件故障(888-102-207 例外)系统会产生一个dump。

888-102-xxx-0C9 系统正在做dump, 请等待。

888-102-xxx-0C0 系统dump完成,可关电重启。

888-103 或 105硬件故障,一般有 SRN 代码及位臵代码。

4)SMS (System Management Service) 故障记录如何进入SMS 菜单当主控台出现键盘图标后(LED 显示E1F1时)按1键。

选择"Utilities"选择"Error Log", 抄下8位故障代码(在SMS 中还可以更改系统启动顺序表)5) MAIL#mail系统会向root用户发mail报告出错信息。

通常系统出现故障后没有进行检查修复,系统会定时提醒root。

6)运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。

当发现有硬件故障时应立即使用diag#diag> 选高级诊断(Advance Diagnostic)> 选问题诊断(Problem Determination) 或选系统检查(System Verification)(选PD 会对系统错误记录进行分析)diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。

对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。

7)其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabyt MAX LVs: 256 FREE PPs: 1 (4 megabytes) LVs: 3 USED PPs: 2168 (8672 megabyt OPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A...lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件组信息# lslpp -L |grep 23100020....devices.pci.23100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt看某个文件组是否已安装,如以太网卡驱动。

也用于查询补丁程序的版本。

lsattr 查看设备参数设臵# lsattr -El ent2busio 0x7fffc00 Bus I/O address False busintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap True lscfg 查看VPD信息(Virtual Product Data)# lscfg -vl ssa1DEVICE LOCATION DESCRIPTIONssa1 30-68 IBM SSA Enhanced RAID Adapter(14104500)Part Number.................097H0645FRU Number..................097H0645 <-- 备件号Serial Number...............C8217227EC Level....................0000F20825Manufacturer................IBM053ROS Level and ID............7201 <-- 微码版本Loadable Microcode Level (04)Device Driver Level (00)Displayable Message.........SSA-ADAPTERDevice Specific.(Z0)........DRAM=032Device Specific.(Z1)........CACHE=0Device Specific.(Z2)........000000062955dab2Device Specific.(YL)........P2-I7 <-- 槽号不同的硬件设备有不同的VPD,所含的格式和信息都不一样。

相关文档
最新文档