AIX系统软硬件问题征兆与解决办法

合集下载

aix硬件故障分析和排除

RS/6000小型机故障的基本定位方法一故障的定义.弄清楚系统发生了什么问题.系统现在能做什么？不能做什么？.故障什么时候发生的？.有没有做平时不同的操作？.故障有没有规律？定时还是不定时？发生的频率有多高？.是一台机器出现故障还是多台机器故障？故障现象是否相同？.最近有没有做改动？如安装了新的硬件、软件，改变了系统的一些设臵。

二故障信息的收集1)收集故障信息对于判断、诊断故障原因，修复系统非常重要。

2)系统故障记录(errorlog)errdemon进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog，可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年）T（类型）: P 永久; T 临时; U 未知（永久性的错误应引起重视）C（分类）: H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可例：LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834 Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00003）控制面板上的LED 代码.8 位代码，通常系统故障灯会同时亮起。

计算机软硬件的故障诊断方法及维护5篇

计算机软硬件的故障诊断方法及维护5篇第1篇示例：计算机软硬件的故障诊断方法及维护随着计算机在我们生活中的普及和应用，我们经常会遇到计算机软硬件出现故障的情况。

这些故障可能会给我们的工作和生活带来不便，因此及时准确地诊断和解决计算机软硬件故障显得尤为重要。

本文将介绍一些常见的计算机软硬件故障诊断方法及维护技巧，帮助大家更好地应对计算机故障。

1.系统崩溃：当计算机系统出现崩溃的情况时，可能是因为软件冲突、病毒感染或硬件故障等原因引起的。

在这种情况下，我们可以尝试重新启动计算机，或者通过安全模式启动系统来解决问题。

如果问题依然存在，可以尝试使用系统恢复功能来修复系统。

2.程序崩溃：当某个程序在运行过程中突然崩溃时，可能是因为程序本身存在bug、所需资源不足或系统配置不当等原因引起的。

我们可以尝试重新启动程序、更新程序版本或卸载重装程序来解决问题。

3.网络故障：当计算机无法连接到网络时，可能是因为网络设置错误、网卡驱动失效或网络设备故障等原因引起的。

我们可以检查网络连接是否正常、重新启动路由器或调整网络配置来解决问题。

1.硬件无响应：当计算机硬件无响应或者出现卡顿情况时，可能是因为硬件故障、驱动程序失效或者系统资源不足等原因引起的。

我们可以尝试重新启动计算机、清理硬件内存或更新硬件驱动来解决问题。

三、计算机软硬件维护技巧1.定期清理硬件：定期清理计算机硬件表面和散热器，保持硬件通风良好，避免灰尘堵塞导致硬件损坏。

2.安装杀毒软件：定期更新杀毒软件库，对计算机进行全面扫描和清理，避免病毒感染导致系统崩溃。

3.及时更新系统和软件：定期更新操作系统和软件版本，修复漏洞和bug，保障计算机系统安全和稳定。

4.备份重要数据：定期备份计算机重要资料和文件，避免意外情况导致数据损失。

计算机软硬件故障诊断方法及维护技巧是我们在使用计算机过程中必须了解和掌握的知识，通过不断学习和实践，我们可以更好地维护计算机硬件和软件，确保计算机长时间稳定运行。

在AIX中,errpt用于报告系统软硬件相关的错误日志信息

在AIX中，errpt用于报告系统软硬件相关的错误日志信息先来看一个实际的输出，不带参数简单列出所有的错误#errptIDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTIONA2205861 1214144307 P S SYSPROC Excessive interrupt disablement time F3931284 1213234807 I H ent1 ETHERNET NETWORK RECOVERY MODEEC0BCCD4 1213234807 T H ent1 ETHERNET DOWNF3931284 1213234807 I H ent1 ETHERNET NETWORK RECOVERY MODEEC0BCCD4 1213233607 T H ent1 ETHERNET DOWN0873CF9F 1212141207 T S pts/1 TTYHOG OVER-RUN0873CF9F 1212141207 T S pts/1 TTYHOG OVER-RUN…使用-a参数查看详细信息#errpt -a | more—————————————————————————LABEL: GOENT_RCVRY_EXITIDENTIFIER: F3931284Date/Time: Thu Dec 13 23:48:47 BEIST 2007Sequence Number: 162Machine Id: 00099476D600Node Id: db158Class: HType: INFOResource Name: ent1Resource Class: adapterResource Type: 14108902Location: U787B.001.DNWA74C-P1-T9VPD:Product Specific.( )…….2-Port 10/100/1000 Base-TX PCI-XAdapterNetwork Address………….000D6051A0F6ROM Level.(alterable)…….DV0210DescriptionETHERNET NETWORK RECOVERY MODERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESDetail DataFILE NAMEline: 204 file: goent_intr.cPCI ETHERNET STATISTICS0001 EF66 0063 0853 0000 0001 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0000 0000 0000 A69D 0000 0000 002C B028 0000 0000 0000 A64B 0000 0000 0000 A597 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0000 0001 0000 0001 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 BB83 08F0 0068 0C00 0000 0000 01A0 0000 0000 0000 0000 0000 0000 0000 C9E1 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000DEVICE DRIVER INTERNAL STATE5555 5555 0000 0000 0000 0000SOURCE ADDRESS0011 25C0 3BDE其中：LABLE：事件名称IDENTIFIER：事件IDDate/Time：发生的时间Sequence Number：事件序列号Machine ID：机器标识Node ID：节点标识Class：事件来源S－软件H－硬件I－信息U－未定的Type：事件类型PEND－设备或组件的可用性损失是急迫的。

AIX系统软硬件问题征兆及解决办法

第一部分、系统启动问题cfgmgr : configures devices and optionally installs device software into the systemlast : display all the previous logins and logoffs that still have entries in /var/adm/wtmp file uptime : show how long the system has been up要在maintenance mode作installing new or updated software and running diagnostic checksalog : trace the boot process and find out if sht went wrong,alog命令调用rc.boot脚本将启动信息导入/var/adm/ras/bootlog中# alog -L 显示定义在alog Database中的logs# alog -o -t 显示启动日志cfgmgr命令：在系统启动阶段，cfgmgr命令配置对使用系统必须的所有设备系统启动包括两个阶段：阶段一：cfgmgr –f 一旦系统启动就不能运行了阶段二：cfgmgr –s ( second boot phase for normal boot )阶段三：cfgmgr –p ( second boot phase for service boot )# cfgmgr –i /usr/sys/inst.images 该命令尝试自动安装设备的软件FOR 新检测到的设备-I 选项指定安装的媒质在哪里在此处有一个seq field ，该field 是一个整数指定了优先权，值越小，优先级越高，0的优先级最低，1的优先级最高# cfgmgr –l scsi0 ( 配置检测到的连接到SCSI0适配卡的设备)-如果你想查找root用户什么时候logged on and off from the console# last root console如果你想决定系统上次shutdown是什么时候# last shutdown为了显示一个启动列表# bootlist –m normal –o如果你想改变你的启动列表# bootlist –m normal fd0 hdisk0 cd0注意：加到bootlist的每一个设备必须处于Avalable的状态如果你怀疑你的系统被shutdown或restarted，你可以使用uptime命令去查明，uptime命令显示系统已经运行了多长时间# mpcfg –df To find out what the status is of your diagnostic flags# mpcfg –cf 11 1 如果你想Fast IPL system，你可以改变diagnostic flag的值注意：mpcfg 和service information相关shutdown-v 或–h Halt the operating system completely-k Avoids shuting down the system-m Bring the system down to maintenance mode-I specifies interactive mode , Display interactive messages to guide the user through the shutdown注意：/etc/rc.shutdown文件由/usr/sbin/shutdown script调用来关闭在关机的时候想中断的进程，该文件的必须是可执行的才能被正确调用安装媒质有问题的征兆：1、安装时意外挂起2、无法从介质读数据3、意外重起如果安装媒质没有问题的话，在你的系统中两个设备可能共享相同的SCSI地址LED Error CodeLED 201 --- Damaged boot image解决方法：1、访问你的rootvg ( 进入system maintenance 模式)2、检查/ 和/tmp文件系统，看看他们是否已经满了，如果是创建更多的空间3、决定bootdisk 通过用命令lslv –m hd54、重新创建boot image 使用bosboot –a –d /dev/hdisk05、检查CHECKSTOP errors in the error log , 如果这样的错误发现的话可能是失败的硬件6、关机重起LED 223-229 --- Invalid boot list1、决定启动磁盘lslv –m hd52、创建新的bootlist 使用bootlist命令LED 551，555，and 557 --- Errors Including corrupted file system and corrupted JFS log1、进入维护模式access rootvg before mounting and file system2、fsck –y /dev/hd1fsck –y /dev/hd2fsck –y /dev/hd3fsck –y /dev/hd4fsck –y /dev/hd9var3、再次Format the JFS log/usr/sbin/logform /dev/hd84、使用lslv –m hd5 去决定boot disk5、重新创建boot imagebosboot –a –d /dev/hdisk0LED 552，554，and 556 --- Super block corrupted or corrupted customized ODM database Fsck1、Repeat steps 1 and 2 for LEDs 551 555 and 5572、If fsck inidicates that block 8 is corrupted, the super block for the file system is cororupted andneeds to be repaired , Enter the command :Dd count=1 bs=4k skip=31 seek=1 if=/dev/hdn of=/dev/hdn3、rebuild your JFS log by using the command :/usr/sbin/logform /dev/hd84、if this solves the problem, stop here ; otherwise ,continue with step 55、Your ODM database is corrupted ,restart your system and 进入maintenance mode6、Mount the root and usr file systemMount /dev/hd4 /mntMount /usr7、copy system configuration to a backup directorymkdir /mnt/etc/objrepos /backupcp /mnt/etc/objrepos/Cu* /mnt/etc/objrepos /backupLED 553 --- corrupted /etc/inittab file1、进入系统维护模式2、检查/ /var /tmp 使用df命令3、检查/inittab文件4、检查execution problems/etc/environment/bin/sh/bin/bsh/etc/fscketc/profile/.profile5、shutdown and reboot第二部分、硬件相关为了列出系统中的磁带(盘)，使用# lsdev –C –c tape（disk）列示在预定义ODM数据库中的设备# lsdev –P –H列示在定制定义ODM数据库中的设备# lsdev –C –H# lspv 显示在系统中的每一个PV along with its physical disk name ,PVID，and with VG it belongs to.# lspv pvname 仅仅显示该PV的信息eg: # lspv hdisk0# lspv –p hdisk0 列示range , state , region , LV name , type , and mount point for each PP on the PVcfgmgr 配置设备在软件层SMS检查和配置系统在硬件层如何进入SMS：1、关机2、如果需要的话插入SMS 软盘，启动机器3、Press F1 得到一个图形化的SMS菜单或Press F4去得到一个ASCII SMS菜单（要眼疾手快）你可以改变访问的口令在SMS菜单，从而只有授权的人才可以访问SMS工具，但如果你忘了这个口令，唯一的解决方法是给主板放电（将电池拿掉）当显示一个定制设备的有效属性时，信息的获得是从Configuration daabase 而不是设备本身，一般来说，chdev with –P or –T flag 将刷新设备的配置，如果没有的话，lsattr 命令显示设备的信息有可能是不准确的,一直到重起后·# lsattr –El rmt0 显示磁带的当前的属性·# lsattr –l rmt0 –D 显示磁带默认的属性·# lsattr –l scsi0 –a bus_intr_lvl –E·# lsattr –l tty0 –a login –R To list possible values of the login attribute for the TTY device tty0# smitty devices 该命令可以使用smit菜单1、安装或配置设备（在IPL之后）2、删除设备3、列示存在的设备4、改变或显示设备的属性5、执行设备相关的问题的决定# /usr/lib/errdemon 启动errdemon# /usr/lib/errdemon –l 决定系统错误日志文件的路径# errpt 产生错误报告# errpt –a # errpt –a –s 0828093001# errpt –a –j AA8AB241(最后为error identifier )# errloger 命令允许你记录管理员的信息到系统错误日志中# diag 执行硬件问题诊断AIX使用syslogd记录系统的信息，在这里有一个/etc/syslog.conf配置文件，该文件控制syslogd进程的行为，系统日志应该被升级通过编辑/etc/syslog.conf文件，在你编辑并增加了条目在/etc/syslog.conf文件，你需要重新启动syslogd进程# smitty tty 增加一个TTY第三部分、系统和软件的安装为了安装BOS，应该启动系统进入Maintenance mode三种安装方法的区别：（1）New and Complete Overwrite Installation情形一、一台新的机器情形二、你想安装到那个硬盘（包含在一个已经存在的卷组）你想完全覆盖掉，或者rootvg 已经损坏情形三、你想重新分配你的硬盘，使你的rootvg更小，分配少些磁盘空间给它安装后要使用Configuration Assistant application手工配置系统相关设置，该程序也可以手工运行，/usr/sbin/install_assist（2）Migration Installation (升级安装)使用该安装方法去升级AIX 3.2 4.1 4.2 4.3 To AIX 5L Version 5.1 升级时保留了已经存在的rootvg卷组，除了/tmp，该方法保留了所有的文件系统，包括rootvg,lv和系统配置文件，同时保留了用户配置文件。

AIX系统维护经验

AIX系统维护经验AIX系统维护经验2007-09-01 17:45:15| 分类：默认分类 | 标签： |字号大中小订阅一、ＡＩＸ系统维护经验１．故障信息的收集收集故障信息对于判断、诊断故障原因，修复系统非常重要。

我们通过检查系统错误报告ｅｒｒｏｒｌｏｇ、发给ｒｏｏｔ用户的错误报告ｍａｉｌ和检查ｈａｃｍｐ．ｏｕｔｓｍｉｔ．ｌｏｇｂｏｏｔ．ｌｏｇ等内容来判断系统是否发生故障，根据故障信息进行相应的处理。

（１）系统故障记录ｅｒｒｄｅｍｏｎ进程在系统启动时自动运行，记录包括硬件、软件及其他操作信息，故障记录文件为/ｖａｒ/ａｄｍ/ｒａｓ/ｅｒｒｌｏｇ，可备份下来或拷贝到别的机器上分析，使用ｅｒｒｐｔ命令（普通用户权限也可使用）。

＃ｅｒｒｐｔ｜ｍｏｒｅ列出简短出错信息＃ｅｒｒｐｔ－ｄＨ列出所有硬件出错信息＃ｅｒｒｐｔ－ｄＳ列出所有软件出错信息＃ｅｒｒｐｔ－ａｊＥＲＲＯＲ＿ＩＤ列出详细出错信息（２）控制面板上的ＬＥＤ代码（３）ＳＭＳ（ＳｙｓｔｅｍＭａｎａｇｅｍｅｎｔＳｅｒｖｉｃｅ）故障记录当主控台出现键盘图标后（ＬＥＤ显示“Ｅ１Ｆ１时”）按１键。

选择“Ｕｔｉｌｉｔｉｅｓ”，选择“ＥｒｒｏｒＬｏｇ”，抄下８位故障代码。

（４）Ｍａｉｌ检查系统出现故障后会向ｒｏｏｔ用户发ｍａｉｌ，报告出错信息。

通常系统出现故障后没有进行检查修复，系统还会定时以ｍａｉｌ方式提醒ｒｏｏｔ用户。

（５）运行故障诊断程序对系统硬件进行检查和诊断，当发现有硬件故障时应立即使用ｄｉａｇ。

＃ｄｉａｇ＞选高级诊断（ＡｄｖａｎｃｅｄＤｉａｇｎｏｓｔｉｃ）＞选问题诊断（ＰｒｏｂｌｅｍＤｅｔｅｒｍｉｎａｔｉｏｎ）或选系统检查（ＳｙｓｔｅｍＶｅｒｉｆｉｃａｔｉｏｎ）ｄｉａｇ运行后会给出ＳＲＮ代码、故障设备名称及百分比数、地址代码等。

（６）其他用于收集系统信息的命令ｌｓｄｅｖ－Ｃ系统设备信息ｌｓｐｖ查看物理卷信息ｌｓｖｇ查看卷组信息ｌｓｌｐｐ查看文件组信息ｌｓａｔｔｒ查看设备参数设置ｌｓｃｆｇ查看ＶＰＤ（ＶｉｒｔｕａｌＰｒｏｄｕｃｔＤａｔａ）信息２．系统硬件故障定位ＩＢＭ小型机硬件故障定位方法包括小型机机柜上的显示面板上的Ｃｈｅｃｋｐｏｉｎｔｓ信息，ＥｒｒｏｒＣｏｄｅ和ＳＲＮｓ。

AIX故障诊断及处理PPT教学课件

断模式时发生的加电自检错误 3. 只有在“diagnostic mode selection”画面中选择
“problem determination selection”或者在 “task selection list”中选择了“run error log analysis”才将执行错误日志分析
第11页/共19页
Diagnostics -> Current shell
第14页/共19页
21.2.3 在并发模式下诊断硬件设备
使用第2、3种方式进入diag主菜单：
第15页/共19页
21.2.3 在并发序 2.高级诊断程序 3.任务选择 4.资源选择
第16页/共19页
TEMP表示在许多次失败尝试后，错误被修复
第6页/共19页
21.1 错误日志
UNKN表示不能确定这种错误的严重程度
INFO表示记录只是一般消息，不是错误的结果
•CLASS
指出一般的错误源
H 表示硬件设备故障或介质错误
S 表示软件故障
O 指一个操作者的通知性错误
U 表示不能确定错误源
第7页/共19页
第13页/共19页
21.2.3 在并发模式下诊断硬件设备
并发模式诊断有3种方法： 1.对某一个具体设备进行诊断，使用如下命令
#diag –d [resource_name] 2.运行diag命令进入诊断程序主菜单 3.使用smit，选择“problem determiniation”->Hardware
下面列出一些简单方法给系统做常规检查，可以避免系统出现真正的问题
1. 使用errpt命令检查错误日志，用errpt –a命令检查任何可疑的详细的错误日志记录
2. 使用df –k命令检查磁盘空间，避免因为文件系统空间被占满导致的系统崩溃

AIX常见故障报错及解决方案

AIX 常见故障报错及解决方案大多数情况下，顺着报错顺藤摸瓜很快就能找出原因，但总有例外，有些报错信息或者日志恰恰让我们南辕北辙。

让我们看看这些案例最终是如何处理的……案例1：图省事，搞出来个大麻烦生产中心有几套VIOS环境，正常运行了1-2年，今日发现有2套进行健康性检查，发现执行命令就hang在哪里不动了，又是内存不够用了。

"0403-031 The forkfunction failed. There is not enough memory available."好奇怪，到底内存被谁用了，vios好端端的就这样了。

都这个样子，重启vios分区吧。

重启完，vios顺利登陆，执行健康性检查没啥问题，可是用nmon看了一下内存使用分配了4个G，使用1个多G,慢慢慢慢的就看到内存使用越来越大，不一会4个G就用完了，重启其他vios分区一个样子，连换页空间都用了。

顿时一头雾水。

到底发生了什么呢？生产中心有几套VIOS环境，正常运行了1-2年.突然出现这种问题，首先想到的是变更。

梳理了近期变更操作，近期新部署了PowerVC,VIOS进行了补丁升级。

VIOS2.1升级到VIOS2.2.3.首先，重启vios分区，在内存没有用完前赶紧检查那个进程使用的内存.排名第一的是vio_daemon,观察了一会发现内存一会就被他占用完了第二，元凶找到了，vio_daemon到底是干啥的，问问IBM800吧，IBM回复问我收集一下系统信息。

1.ioslevel2./etc/security/limits的输出反馈后，IBM告诉我，我遇到了bugvios版本和 /etc/security/limits stack = -1完全符合这个bug特征。

其实这个bug是可以避免的，我们大多数实施AIX的时候,很容易顺手把/etc/security/limits.都改成-1，在大多数情况下，没啥问题，但是就是在这个版本下就容易遇到这个问题。

电脑软硬件常见故障及解决方案

电脑软硬件常见故障及解决方案电脑作为现代人生活中必不可少的工具，经常会遭遇软硬件故障。

下面我将介绍一些电脑常见故障及解决方案。

一、软件故障：1.系统崩溃：当系统停止响应或蓝屏时，可能是系统崩溃。

解决方法是重新启动电脑，如果问题仍然存在，可以尝试进入安全模式或运行系统修复工具修复系统文件。

2.病毒感染：病毒可以导致电脑运行缓慢、文件损坏等问题。

解决方法是安装杀毒软件进行全盘扫描，清除病毒，并定期更新病毒数据库。

3.网络连接问题：如果电脑无法上网，可能是网络设置有问题。

解决方法是检查网络设置，确保IP地址、DNS等配置正确，或者重置网络设置。

二、硬件故障：1.电脑不开机：如果电脑无法开机，可能是电源问题。

解决方法包括检查电源线是否插好，电源开关是否打开，更换坏掉的电源等。

2.硬盘故障：当硬盘出现噪音、无法被识别或读写速度慢时，可能是硬盘出现故障。

解决方法是备份重要数据，更换坏掉的硬盘，并进行格式化和系统重装。

3.内存故障：内存故障会导致电脑运行缓慢或死机。

解决方法是重新插拔内存条，确保其连接稳固，并使用内存测试工具检测内存是否有问题。

4.显卡故障：当显示器出现花屏、闪屏或无法显示图像时，可能是显卡故障。

解决方法是重新插拔显卡，确保连接良好，并更新显卡驱动程序。

5.键盘或鼠标故障：当键盘或鼠标无法正常工作时，可能是连接问题或驱动程序问题。

解决方法是检查连接是否正常，如果是驱动程序问题，可以尝试重新安装驱动程序。

三、维护保养：1.定期清理电脑：电脑内部会积累灰尘，导致散热不良，影响电脑性能。

定期清理电脑，包括清理机箱内部灰尘、清理键盘、鼠标等外部设备。

2.及时更新系统和驱动程序：系统和驱动程序的更新可以修复已知的问题和漏洞，提升系统稳定性和兼容性，建议及时进行更新。

3.注意电脑使用环境：避免在潮湿或尘土较多的环境中使用电脑，这样可以减少硬件故障的发生。

总结起来，软硬件故障是电脑使用中常见的问题，但大部分故障都可以通过简单的操作解决。

计算机软硬件的故障诊断方法及维护

计算机软硬件的故障诊断方法及维护随着计算机在我们日常生活和工作中的广泛应用，计算机软硬件故障的频率也在不断增加。

计算机软硬件故障不仅会影响我们的工作效率，还会给我们带来很大的困扰。

对计算机软硬件的故障诊断方法及维护必须引起重视。

本文将介绍一些常见的计算机软硬件故障诊断方法及维护措施，希望能为大家提供一些帮助。

一、计算机硬件故障诊断方法1. 检查电源计算机无法启动或者突然死机的情况，很可能是由于电源问题造成的。

在这种情况下，我们首先需要检查电源插头是否插紧，线路是否接触良好。

如果发现电源插头受损或者线路接触不良，需要及时更换或修复。

还需要检查电源供应是否正常，排除电源故障的可能性。

2. 检查硬盘硬盘故障是计算机常见的问题之一，如果计算机启动缓慢、文件读写错误等问题出现，就需要检查硬盘是否存在故障。

我们可以通过查看硬盘的SMART信息来判断硬盘的健康状况，如果发现有坏道或者硬盘出现其他异常情况，建议及时更换硬盘。

3. 检查内存内存故障也是常见的计算机硬件问题，当计算机频繁死机或者程序运行缓慢时，需要检查内存是否存在故障。

我们可以通过运行内存检测软件来检查内存的健康状况，如果发现内存故障，需要及时更换或修复内存条。

4. 检查显卡和主板当计算机出现显示问题或者无法正常启动时，可能是由于显卡或者主板故障造成的。

我们可以通过更换显卡或者主板来测试故障原因，如果问题得到解决，就可以确认是由于显卡或者主板故障导致的问题。

5. 检查散热系统散热系统故障会导致计算机温度过高，从而影响计算机的稳定性和性能。

当计算机出现频繁死机或者发出异常噪音时，需要检查散热系统是否存在故障。

我们可以通过清洁风扇和散热片，更换散热导管等方式来维护散热系统，确保计算机的正常运行。

1. 检查系统更新计算机软件故障通常是由于系统更新不及时或者安全性补丁缺失导致的。

当计算机出现软件崩溃或者系统运行缓慢时，需要检查系统是否存在更新，及时安装系统更新和安全性补丁，以提高系统的稳定性和安全性。

AIX性能问题诊断及调优

在AIX日常运维中，性能问题一直是一个很重要的问题，为了让操作系统能正常平稳高效的运行，便需要一些武功秘籍来进行快速定准并解决问题，本次我们便来讨论一下我们可以用到的武功秘籍。

所谓性能问题，主要几种在CPU、内存、I/O三个大类别，因此我们分类进行讨论。

类别一：CPU检查系统的三把斧头一招便是topas，这个是最常用也是最有效的一招，通过topas的输出可以看到CPU的使用情况。

从topas的输出我们主要关注如下4个指标：那么判定系统忙不忙的一个指标为Idle%，正常情况下，Idle%的值如果低于10%，则这个系统的CPU就需要注意了，此时关注一下是User%高还是Kern%高，如果是User%高，则说明是应用程序占用CPU较多，反之则说明操作系统本身占用CPU较高。

(但是请注意：并不是所有Kern%高都是操作系统本身导致的，也有可能是应用程序调用了系统本身的函数，这样也会把这部分消耗算在Kern%头上)在拍完第一板斧后，我们继续向下分析，拍第二板斧trpof，这个可以理解为精简版的trace，一般情况下执行这个命令对系统负载影响不太大，因此可以用这个工具先粗略看一下相关的进程。

通过tprof可以看出占用CPU排名靠前的进程。

如果root cause还没有找到，那么便使出大招，收trace数据。

在收集trace 数据前请先注意以下原则：①收集trace数据会对当前系统的负载有影响，在CPU已经达到99%时，再收集trace有可能把操作系统搞夯。

②一定要等到问题重现时收集trace，由于trace产生的数据量巨大，因此要收集有效时间段的trace。

如果不确定问题什么时候重现，可以写个判断脚本，收集循环trace。

③用root用户进行trace收集④需要预估trace数据的大小，然后根据预估的空间，在操作系统上找一个空间较大的地方存放数据。

trace数据的大小可以用下列公式算出：预估数据大小=逻辑CPU的个数* 10MB(其中逻辑CPU的个数可以用vmstat | grep -i lcpu命令查看)在执行完上述收集命令后，会生成trace的raw文件。

服务器软硬件故障排除技术

服务器软硬件故障排除技术在日常工作中，服务器软硬件故障是一种常见的问题，如果不及时处理，可能会给工作和生活带来不便。

因此，掌握服务器软硬件故障排除技术是非常重要的。

本文将介绍一些常见的服务器软硬件故障排除技术，希望对大家有所帮助。

一、软件故障排除技术1. 重启服务器：在遇到服务器软件故障时，首先可以尝试通过重启服务器来解决问题。

重启服务器可以清除临时数据和缓存，有时可以恢复服务器正常运行。

2. 检查日志文件：服务器软件通常会生成日志文件，记录软件运行时的各种信息。

通过查看日志文件，可以了解软件出现故障的原因，从而有针对性地进行排除。

3. 更新软件版本：有时软件故障是由于软件版本过旧或存在漏洞导致的。

及时更新软件版本可以修复已知的问题，提高软件的稳定性和安全性。

4. 检查配置文件：软件的配置文件是软件正常运行的重要依赖，如果配置文件出现错误或损坏，可能导致软件无法正常工作。

因此，检查配置文件是否正确是排除软件故障的一个重要步骤。

5. 使用诊断工具：有些软件故障比较复杂，需要借助专门的诊断工具来进行排除。

这些诊断工具可以帮助定位故障原因，加快故障排除的速度。

二、硬件故障排除技术1. 检查硬件连接：在遇到服务器硬件故障时，首先要检查硬件的连接是否良好。

有时硬件故障是由于连接不良或接口松动导致的，重新连接硬件可能会解决问题。

2. 清洁硬件设备：服务器硬件设备在长时间运行后，可能会积累灰尘和杂物，影响散热和正常工作。

定期清洁硬件设备可以减少硬件故障的发生。

3. 替换故障硬件：如果经过检查确认硬件设备存在故障，需要及时更换故障硬件。

在更换硬件时，要注意选择兼容性好的硬件设备，确保硬件设备能够正常工作。

4. 运行硬件诊断工具：有些硬件故障比较隐蔽，需要借助硬件诊断工具来进行排除。

这些诊断工具可以帮助检测硬件设备的状态，找出存在问题的硬件设备。

5. 更新硬件驱动程序：硬件设备的驱动程序是硬件正常工作的关键，如果硬件驱动程序过旧或存在问题，可能导致硬件故障。

AIX现场诊断

客户反馈1：系统大概持续使用1个月左右，本地盘disk0,disk1就会变成busy 100%,并且不会降下去。

然后把samba的两个进程smbd,nmbd 直接Kill掉，磁盘使用率就下架下来了，系统就恢复正常了。

当客户发现文件没法上传了，也就是出现磁盘busy100%，他就会立刻重启samba （说不能等，现场分分钟要读里面的图纸）。

然后事后联系我们，说机器是不是有问题，系统是不是有问题:。

客户反馈2：最近磁盘出现busy 100%的频率变高了，经常1,2个礼拜就会有一次，并且杀samba进程也不管用了，每次遇到直接重启。

（每次都是重启以后找我们，说系统刚刚出问题了，实在是因为不能等，所以直接重启机器了）。

客户这系统用途：samba共享了一个/axway文件夹给一些windows客户端上传文件。

同时这个系统上面跑一个应用，应用对外共享/axway里面的文件。

由于没能接触第一时间，再加上客户的表述，重启samba就能恢复。

我这边判断：升级下samba吧，把当前3.0.几的版本升级到3.3.几的最新版本。

客户暂时把业务迁移到B机上了，A机等着我们去处理。

我这边二线给的方案就是让我去升级A机的samba软件。

我去现场处理问题：升级samba，此处省略。

（我倒没准备解决磁盘busy100%的问题，因为每次都是客户说遇到，我从未见过，二来我就是准备升级软件的，多简单的一件事啊，早升级完早回家。

）到现场，我把软件升级好后，先随便检查下系统状态用nmon,+d+t （拿下图做个讲解吧，现场的nmon没截图）文字描述下nmon看到的情况：hdisk0,hdisk1有规律的每隔10几秒就有大量的WWWW，磁盘的速率大概就到1000Kb/。

但是磁盘的busy这项会立刻上升到100%，跟过山车一样，一会100，一会0，一会100，一会0，同时Cpu几乎没啥负担。

看到这些数据，我当时判断，系统在写很多文件，写的数据也不多，因为只有1000K/s就到busy100%了。

计算机软硬件的故障诊断方法及维护

计算机软硬件的故障诊断方法及维护随着计算机在我们日常生活和工作中的广泛应用，计算机软硬件故障成为了许多人不可避免的问题。

遇到计算机故障时，我们往往束手无策，不知道该如何进行诊断和维护。

本文将为您介绍一些计算机软硬件故障的常见诊断方法和维护技巧，希望对您有所帮助。

1. 病毒检测与清除计算机病毒是造成计算机软件故障的常见原因之一。

当计算机软件运行异常、文件损坏、网络速度变慢时，很可能是计算机感染了病毒。

有关病毒的常见症状有：桌面图标丢失、程序无法正常启动、文件变得异常巨大等。

我们可以使用常见的杀毒软件（如360、瑞星、金山等）进行全盘扫描，并将扫描结果中的病毒清除。

在日常使用计算机时，建议定期进行病毒检测，保证计算机的安全。

2. 操作系统故障排查操作系统是计算机软件的核心载体，任何故障都有可能导致计算机不能正常使用。

当我们在使用计算机时遇到蓝屏、死机等症状时，首先可以尝试进行系统恢复。

在Windows系统下，我们可以通过“控制面板-系统和安全-备份和还原”找到系统恢复选项，根据提示进行操作即可。

如果系统恢复无效，我们可以尝试使用Windows PE或者其他PE系统进行故障修复，或者将重要数据备份后重装系统。

在日常使用计算机时，我们还应该定期对操作系统进行更新和维护，以保证系统的稳定性和安全性。

3. 应用程序故障的处理当计算机上的某个应用程序出现闪退、无法启动等问题时，我们可以尝试重新安装该应用程序、更换版本或者使用其他替代软件。

我们还可以通过在管理员权限下运行程序、检查程序所需组件等方法尝试解决问题。

在日常使用计算机时，我们还应该定期对安装的应用程序进行更新和维护，以保证其正常运行。

4. 硬盘检测与维护硬盘是计算机数据的主要存储设备，故障可能带来数据丢失等严重后果。

当我们在使用计算机时遇到硬盘读写速度变慢、文件损坏等问题时，首先可以尝试使用“磁盘清理”、“磁盘碎片整理”等工具进行维护，以清除不必要的文件和优化硬盘性能。

aix_日常管理以及故障处理

aix_日常管理以及故障处理故障的处理RS6000 Admin & PD内容提要"日常管理"故障的处理"系统健康检查"查看硬件情况"检查设备故障灯，一般为橙色并有"有没有异常声响，如硬盘、风扇等。

"有没有破损的电缆等"查看系统故障信息"用errpt命令查看系统出错信息。

"用mail命令查看有否发给root用户的错误报告。

"查看其他的记录文件，如/tmp/hacmp.out。

"检查文件系统"查看有没有“满”的文件系统。

文件系统满可导致系统不能正常工作，尤其是AIX的基本文件系统。

如/ (根文件系统)满则会导致用户不能登录。

"系统健康检查# df -k (查看AIX的基本文件系统)Filesystem 1024-blocks Free %Used Iused %Iused Mounted on /dev/hd4 24576 1452 95%2599 22% //dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 16384 5332 68% 1402 35% /home除/usr文件系统，其他文件系统都不应太满，一般不超过80%。

处理方法1：删除垃圾文件# du -sk * |sort -rn |head查找出当前目录下占空间最大的子目录，逐层往下直到找出占空间最大的文件。

（要区分哪些目录是文件系统的mount point，哪些是文件系统的子目录）删除文件，释放空间。

有时删除文件后空间并不马上释放，这是由于你删除的文件正被某个程序打开。

只有当这个程序停止后空间才释放，有时甚至需要重起系统。

计算机软硬件的故障诊断方法及维护

计算机软硬件的故障诊断方法及维护随着科技的不断发展，计算机已经成为我们生活中不可或缺的一部分。

随着计算机使用的频繁，软硬件故障也日益频繁，给我们的工作和生活带来了诸多不便。

了解计算机软硬件故障的诊断方法及维护是至关重要的。

本文将就此问题做一些探讨，希望能够为大家提供一些帮助和参考。

一、计算机软件故障诊断方法1.重启计算机当我们遇到计算机软件故障的时候，最简单的方法就是重启计算机。

有时候计算机软件出现故障，可能只是暂时性的问题，重启可以解决。

所以，在遇到软件故障的时候，首先可以尝试重启计算机，看看问题是否得到解决。

2.查看错误信息当计算机软件出现故障的时候，系统会产生错误提示信息。

我们可以查看这些错误信息，以便更好地了解故障的原因。

根据错误信息，我们可以进行相应的处理，从而解决软件故障。

3.卸载和重新安装软件如果某个软件频繁出现故障，可以尝试将其卸载并重新安装。

有时候软件本身可能出现了一些问题，重新安装可以解决。

4.清理垃圾文件和注册表垃圾文件和注册表的错误是导致计算机软件故障的常见原因。

我们可以通过运行系统优化软件，对计算机进行清理和修复，以解决这些问题。

5.升级操作系统和软件有时候软件故障是由于操作系统或软件版本过旧导致的，我们可以尝试升级操作系统和软件，看看问题是否得到解决。

1.检查硬件连接当计算机硬件出现故障的时候，首先要检查硬件连接是否良好。

有时候硬件故障是由于连接不良引起的，我们可以重新插拔硬件接口，看看问题是否得到解决。

硬件驱动是计算机硬件正常工作的重要组成部分，当硬件出现故障的时候，我们可以通过检查硬件驱动是否正常来排除故障。

3.使用诊断工具对于一些较为复杂的硬件故障，我们可以使用专门的硬件诊断工具进行检测。

这些工具可以帮助我们更准确地找出硬件故障的原因，从而进行修复。

4.清理硬件计算机硬件长时间使用后可能会积累灰尘，导致故障。

我们可以定期对计算机硬件进行清理，以保持硬件的正常工作。

计算机软硬件的故障诊断方法及维护

计算机软硬件的故障诊断方法及维护计算机是现代社会中必不可少的工具。

由于长时间的使用或者其他原因，计算机的软硬件可能会出现故障。

为了及时解决问题，需要采用适当的故障诊断方法和维护措施。

1. 观察法：软件故障通常会导致系统崩溃、程序无法打开或运行缓慢等问题。

通过观察计算机的表现和错误信息，可以初步确定故障的原因。

2. 重启法：在某些情况下，计算机软件故障可以通过重启来修复，因为重启可以清除系统的缓存和临时文件，使系统恢复到正常状态。

3. 逐步排查法：当计算机出现问题时，可以逐步检查并且关闭正在运行的程序，以确定是哪个程序引起了故障。

通过逐个排除的方法，可以找到故障的根源。

4. 系统还原：在计算机安装了系统还原功能后，可以通过还原系统至之前的时间点解决软件故障。

这种方法可以恢复系统的设置和程序，但也可能导致部分数据的丢失。

对于计算机硬件故障的诊断方法，需要更复杂的操作和专业知识：1. 硬件检测工具：可以使用硬件检测工具对计算机硬件进行全面的检测，包括内存、硬盘、显卡等。

这种工具可以识别和报告硬件故障，并提供相应的解决办法。

2. 硬件替换法：如果已经确定了故障的硬件部件，可以尝试直接替换故障的硬件组件，比如更换一块新的内存条或者硬盘。

这种方法需要有一定的硬件知识和操作技巧。

3. 温度检测法：有些硬件故障会导致计算机发热，此时可以使用温度检测工具检测计算机内部的温度，以确定是否有硬件故障。

如果温度过高，可能需要清洁散热器或者更换散热器。

1. 定期清理：定期清理计算机内部和外部的灰尘，可以防止灰尘积累导致硬件故障。

还需定期清理计算机的硬盘空间，删除垃圾文件和临时文件，以确保系统的正常运行。

2. 安装杀毒软件：安装并定期更新杀毒软件，可以保护计算机免受病毒和恶意软件的侵害。

还可以安装防火墙软件来防御网络攻击。

3. 定期更新：定期更新操作系统和软件程序，可以修复已知漏洞，增强系统的安全性和稳定性。

还需定期更新硬件驱动程序，以获得最新的性能和兼容性优化。

超实用分享｜AIX性能问题诊断及调优秘籍

超实用分享｜AIX性能问题诊断及调优秘籍在AIX日常运维中，性能问题一直是一个很重要的问题，为了让操作系统能正常平稳高效的运行，便需要一些武功秘籍来进行快速定准并解决问题，本次我们便来讨论一下我们可以用到的武功秘籍。

所谓性能问题，主要几种在CPU、内存、I/O三个大类别，因此我们分类进行讨论。

类别一： CPU检查系统的三把斧头一招便是topas，这个是最常用也是最有效的一招，通过topas的输出可以看到CPU的使用情况。

从topas的输出我们主要关注如下4个指标：User% ：主要是应用程序消耗CPU的百分比Kern% ：主要是操作系统本身消耗CPU的百分比Wait% ：主要是有I/O问题时，CPU等待I/O的百分比Idle% ：那么这个一定是空闲的CPU了那么判定系统忙不忙的一个指标为Idle%，正常情况下，Idle%的值如果低于10%，则这个系统的CPU就需要注意了，此时关注一下是User%高还是Kern%高，如果是User%高，则说明是应用程序占用CPU较多，反之则说明操作系统本身占用CPU较高。

(但是请注意：并不是所有Kern%高都是操作系统本身导致的，也有可能是应用程序调用了系统本身的函数，这样也会把这部分消耗算在Kern%头上) 在拍完第一板斧后，我们继续向下分析，拍第二板斧trpof，这个可以理解为精简版的trace，一般情况下执行这个命令对系统负载影响不太大，因此可以用这个工具先粗略看一下相关的进程。

tprof -skeuj -x sleep 10通过tprof可以看出占用CPU排名靠前的进程。

如果root cause还没有找到，那么便使出大招，收trace数据。

在收集trace数据前请先注意以下原则：①收集trace数据会对当前系统的负载有影响，在CPU已经达到99%时，再收集trace有可能把操作系统搞夯。

②一定要等到问题重现时收集trace，由于trace产生的数据量巨大，因此要收集有效时间段的trace。

(零收费)AIX系统日常维护与故障的解决

0104143100 T S SYSPROC
9DBCFDEE
0104143300 T O errdemon
192AC071
0104143000 T O errdemon
C60BB505
0104105800 P S SYSPROC
参数详解
标识‘’：错误归类：硬件：软件：系统信息已经记录：不能确定标识‘’：错误类型 (并且为)：显示系统遇到硬件问题并且无法自动修复 (并且为):系统硬件变为不可用并引起一系列错误系统 (并且为)：显示系统遇到软件问题并且无法自动修复 (并且为)：显示系统遇到软件问题并且已经自动修复
2CCF66F7
0105111300 T H bl0
2BFA76F6
0105111100 T S SYSPROC
9DBCFDEE
0105111300 T O errdemon
192AC071
0104174500 T O errdemon
2CCF66F7
0104143300 T H bl0
2BFA76F6
检查内存交换区( )使用率使用率不要超过。增加交换区，或增加内存。观察内存大小的命令： –
–
系统管理日常健康检查与监控
网络检查查看网卡状态和是否> 注：是指从这个网卡发出去错误包数目的统计
是指从这个网卡发出去的包个数的统计。看它们是否>应该是指网络质量好坏。查看是否通和是否有丢包。路由表查看路由表是否正确，各路由器是否通。核对主机名
系统管理日常健康检查与监控
检查文件系统查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作，

Power服务器硬件故障诊断和AIX常见软环境问题诊断

Date/Time: Mon Aug 15 09:54:12 GMT+08:00 2016 Sequence Number: 14391 Machine Id: 00C26F764C00 Node Id: easapp1 Class: H Type: PERM WPAR: Global Resource Name: hdisk1 Resource Class: disk Resource Type: scsd Location: U789D.001.DQD3A0V-P3-D2 VPD: Manufacturer................IBM Machine Type and Model......ST3146457SS FRU Number..................10N7204 ROS Level and ID............44413033 Serial Number...............3SJ353F5 EC Level....................L36403 Part Number.................10N7203 Device Specific.(Z0)........000005329F001002 Device Specific.(Z1)........0624DA03 Device Specific.(Z2)........0021 Device Specific.(Z3)........10333 Device Specific.(Z4)........ Device Specific.(Z5)........22 Device Specific.(Z6)........L36403
• 网卡：netstat -v，输出较长，建议重定向到文件，然后在其中查找不通的网卡设备号（如ent3），往后翻页，有网口连接状态，可以准确判断物理上是通是断 • HBA卡：fcstat <HBA卡设备名>，如fcstat fcs0

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一部分、系统启动问题cfgmgr : configures devices and optionally installs device software into the systemlast : display all the previous logins and logoffs that still have entries in /var/adm/wtmp fileuptime : show how long the system has been up要在maintenance mode作installing new or updated software and running diagnostic checksalog : trace the boot process and find out if sht went wrong,alog命令调用rc.boot 脚本将启动信息导入/var/adm/ras/bootlog中# alog -L 显示定义在alog Database中的logs# alog -o -t 显示启动日志cfgmgr命令：在系统启动阶段，cfgmgr命令配置对使用系统必须的所有设备系统启动包括两个阶段：阶段一：cfgmgr –f 一旦系统启动就不能运行了阶段二：cfgmgr –s ( second boot phase for normal boot )阶段三：cfgmgr –p ( second boot phase for service boot )# cfgmgr –i /usr/sys/inst.images 该命令尝试自动安装设备的软件FOR 新检测到的设备-I 选项指定安装的媒质在哪里在此处有一个seq field ，该field 是一个整数指定了优先权，值越小，优先级越高，0的优先级最低，1的优先级最高# cfgmgr –l scsi0 ( 配置检测到的连接到SCSI0适配卡的设备)-如果你想查找root用户什么时候logged on and off from the console# last root console如果你想决定系统上次shutdown是什么时候# last shutdown为了显示一个启动列表# bootlist –m normal –o如果你想改变你的启动列表# bootlist –m normal fd0 hdisk0 cd0注意：加到bootlist的每一个设备必须处于Avalable的状态如果你怀疑你的系统被shutdown或restarted，你可以使用uptime命令去查明，uptime 命令显示系统已经运行了多长时间# mpcfg –df To find out what the status is of your diagnostic flags# mpcfg –cf 11 1 如果你想Fast IPL system，你可以改变diagnostic flag的值注意：mpcfg 和service information相关shutdown-v 或–h Halt the operating system completely-k Avoids shuting down the system-m Bring the system down to maintenance mode-I specifies interactive mode , Display interactive messages to guide the user through the shutdown注意：/etc/rc.shutdown文件由/usr/sbin/shutdown script调用来关闭在关机的时候想中断的进程，该文件的必须是可执行的才能被正确调用安装媒质有问题的征兆：1、安装时意外挂起2、无法从介质读数据3、意外重起如果安装媒质没有问题的话，在你的系统中两个设备可能共享相同的SCSI地址LED Error CodeLED 201 --- Damaged boot image解决方法：1、访问你的rootvg ( 进入system maintenance 模式)2、检查/ 和/tmp文件系统，看看他们是否已经满了，如果是创建更多的空间3、决定bootdisk 通过用命令lslv –m hd54、重新创建boot image 使用bosboot –a –d /dev/hdisk05、检查CHECKSTOP errors in the error log , 如果这样的错误发现的话可能是失败的硬件6、关机重起LED 223-229 --- Invalid boot list1、决定启动磁盘lslv –m hd52、创建新的bootlist 使用bootlist命令LED 551，555，and 557 --- Errors Including corrupted file system and corrupted JFS log1、进入维护模式access rootvg before mounting and file system2、fsck –y /dev/hd1fsck –y /dev/hd2fsck –y /dev/hd3fsck –y /dev/hd4fsck –y /dev/hd9var3、再次Format the JFS log/usr/sbin/logform /dev/hd84、使用lslv –m hd5 去决定boot disk5、重新创建boot imagebosboot –a –d /dev/hdisk0LED 552，554，and 556 --- Super block corrupted or corrupted customized ODM databaseFsck1、Repeat steps 1 and 2 for LEDs 551 555 and 5572、If fsck inidicates that block 8 is corrupted, the super block for the file system is cororupted and needs to be repaired , Enter the command :Dd count=1 bs=4k skip=31 seek=1 if=/dev/hdn of=/dev/hdn3、rebuild your JFS log by using the command :/usr/sbin/logform /dev/hd84、if this solves the problem, stop here ; otherwise ,continue with step 55、Your ODM database is corrupted ,restart your system and 进入maintenance mode6、Mount the root and usr file systemMount /dev/hd4 /mntMount /usr7、copy system configuration to a backup directorymkdir /mnt/etc/objrepos /backupcp /mnt/etc/objrepos/Cu* /mnt/etc/objrepos /backupLED 553 --- corrupted /etc/inittab file1、进入系统维护模式2、检查/ /var /tmp 使用df命令3、检查/inittab文件4、检查execution problems/etc/environment/bin/sh/bin/bsh/etc/fscketc/profile/.profile5、shutdown and reboot第二部分、硬件相关为了列出系统中的磁带(盘)，使用# lsdev –C –c tape（disk）列示在预定义ODM数据库中的设备# lsdev –P –H列示在定制定义ODM数据库中的设备# lsdev –C –H# lspv 显示在系统中的每一个PV along with its physical disk name ,PVID，and with VG it belongs to.# lspv pvname 仅仅显示该PV的信息eg: # lspv hdisk0# lspv –p hdisk0 列示range , state , region , LV name , type , and mount point for each PP on the PVcfgmgr 配置设备在软件层SMS检查和配置系统在硬件层如何进入SMS：1、关机2、如果需要的话插入SMS 软盘，启动机器3、Press F1 得到一个图形化的SMS菜单或Press F4去得到一个ASCII SMS菜单（要眼疾手快）你可以改变访问的口令在SMS菜单，从而只有授权的人才可以访问SMS工具，但如果你忘了这个口令，唯一的解决方法是给主板放电（将电池拿掉）当显示一个定制设备的有效属性时，信息的获得是从Configuration daabase 而不是设备本身，一般来说，chdev with –P or –T flag 将刷新设备的配置，如果没有的话，lsattr 命令显示设备的信息有可能是不准确的,一直到重起后·# lsattr –El rmt0 显示磁带的当前的属性·# lsattr –l rmt0 –D 显示磁带默认的属性·# lsattr –l scsi0 –a bus_intr_lvl –E·# lsattr –l tty0 –a login –R To list possible values of the login attribute for the TTY device tty0# smitty devices 该命令可以使用smit菜单1、安装或配置设备（在IPL之后）2、删除设备3、列示存在的设备4、改变或显示设备的属性5、执行设备相关的问题的决定# /usr/lib/errdemon 启动errdemon# /usr/lib/errdemon –l 决定系统错误日志文件的路径# errpt 产生错误报告# errpt –a # errpt –a –s 0828093001# errpt –a –j AA8AB241(最后为error identifier )# errloger 命令允许你记录管理员的信息到系统错误日志中# diag 执行硬件问题诊断AIX使用syslogd记录系统的信息，在这里有一个/etc/syslog.conf配置文件，该文件控制syslogd进程的行为，系统日志应该被升级通过编辑/etc/syslog.conf文件，在你编辑并增加了条目在/etc/syslog.conf文件，你需要重新启动syslogd进程# smitty tty 增加一个TTY第三部分、系统和软件的安装为了安装BOS，应该启动系统进入Maintenance mode三种安装方法的区别：（1）New and Complete Overwrite Installation情形一、一台新的机器情形二、你想安装到那个硬盘（包含在一个已经存在的卷组）你想完全覆盖掉，或者rootvg 已经损坏情形三、你想重新分配你的硬盘，使你的rootvg更小，分配少些磁盘空间给它安装后要使用Configuration Assistant application手工配置系统相关设置，该程序也可以手工运行，/usr/sbin/install_assist（2）Migration Installation (升级安装)使用该安装方法去升级AIX 3.2 4.1 4.2 4.3 To AIX 5L Version 5.1 升级时保留了已经存在的rootvg卷组，除了/tmp，该方法保留了所有的文件系统，包括rootvg,lv和系统配置文件，同时保留了用户配置文件。