AIX简单故障排查
Aix服务器检查命令
Aix服务器检查命令AIX系统巡检注意事项巡检一般又厂商或者代理商来做。
第一:首先是机房温度以及湿度的检查,当然这些一般情况都没问题。
参考值:温度(摄氏℃)10 ℃-40℃湿度 8% -80%第二:就是关于电源的检测,这个只要不是新装机,一般没问题。
参考值:零-地电压小于1V火-地电压 200-240V补充:当然59系列的机器相间380V,相地240V。
第三:关于报错。
主要查看硬件的永久性报错#errpt -dH | pg软件的永久性报错#errpt -dS | pg还有系统又没又报警灯(如果不正常,在后面的帖子将会细讲)第三:机器的序列号:#uname -Mu第四:操作系统版本:#oslevel -r注:又时候不能使用是因为系统版本低的原因第五:其他检测执行sysdumpdev –l 检查dump是否设置为always allow sysdump执行sysdumpdev –e检查当前dump大小应该为主dump设备的大小的80%以下执行lsvg -l rootvg检查有否"stale"状态的逻辑卷执行lsps -s检查内存交换区占用情况执行df –k检查文件系统的分配状况,一般不要超过80%执行lsdev –Ccdisk检查硬盘状态为available执行lsdev –Ccadapter检查PCI卡状态为available执行lsdev –Cctape检查磁带机状态为available执行lsdev – Ccprocessor检查CPU状态为available执行 lsattr –El sys0|grep autorestart检查系统crash后是否自动重新启动执行lsattr –El sys0|grep cpuguard检查CPU GUARD是否开启执行lsattr –El mem0检查内存状态正常size=goodsize执行 vmstat 2iostat,topas观察us,sy,pi,po,内存占用率,硬盘读写速度等检查是否有性能瓶颈执行netstat –in和netstat –rn观察网络状态执行entstat –d enX检测网卡运行速率与交换机速率是否匹配(网卡速率由10M半工改为自适应时,缺省网关会丢失。
AIX巡检命令
1、主机型号与序列号检查:#uname –uM2、系统错误报告检查:#errpt #errpt –aj ID号3、Mail信息检查:#mail 看mail有没有error与warning信息。
4、检查smit.log,bootlog。
#cd /var/adm/ras 用vi编辑器查看相关日志看是否有error与warning信息。
5、检查hacmp.out:查看/tmp/hacmp.out文件看是否有error与warning信息6、文件系统检查:#df –k文件系统应该保持在90%以下,超过90%应注意清理。
7、逻辑卷:有否“stale”状态的逻辑卷:#lsvg –o |lsvg –i |grep STALE 看输出STALE是否全为0.全为0表示vg正常。
8、.内存使用情况:#svmon –G 内存使用率不应超过70%9、Swap使用情况:#lsps –a swap空间占用率不应超过70%10、系统性能检查:#topas#vmstat 主要看kthr 参数参数:若r 数值偏大,表明CPU太忙,若b 数值偏大,表明系统I/O出现瓶颈。
%user+sys%接近100%表cpu瓶颈。
如果pi(page-in )和po(page-out ) 参数将不是0,同时avm 和fre 数值的比值悬殊很大,fre 数值很小.#iostat 看% tm_act值, 其表示某个硬盘处于active状态的百分比11、网络状况检查:#netstat –in#netstat -rn12、数据安全检查#ls –l /image.data 检查系统备分日期。
#lsvg –l rootvg 检查rootvg是否镜像13、磁带机清洁的检查:命令:#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
14、Dump设置检查。
最为详细的AIX 巡检流程
当AIX开始启动时,显示面板上的代码为 0xxx ,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。
Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。用diag命令进行检测,diag步骤如下:
最为详细的AIX 巡检流程
1、 检查系统硬件情况:设备故障灯是否有亮
可用diag命令检查系统硬件运行情况
每个月用diag命令检查一下系统硬件的运行情况,及时发现硬件可能出现的故障。
硬件故障
通常将硬件故障分为以下几个类别
IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRN。
4、检查hacmp.out,smit.log,boot.log
hacmp.out查看:# lssrc -g cluster
smit.log查看:在tmp里面查看有无smit.log,用vi查看
boot.lot查看:# alog -o -t boot
(找到时间最近的字节不为零的文件,vi查看
Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息。
IPL 流程
当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:
.Phase 1: Service Processor 的初始化
SRNs (Service request numbers,服务请求码)当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。
IBM AIX简单故障维护手册
AIX简单故障维护手册由于IBM RS6000机器机型多,出现故障的情况有很多种类。
为了规范故障维护步骤,简化维护过程,编写本手册以供参考。
由于AIX故障种类多,不能一一列举,这里简单介绍部分故障判断,定位,解决方法。
一.故障的定义.弄清楚系统发生了什么问题?.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的操作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。
检查机器是否存在故障一般情况下,可以通过以下几种方法来收集错误信息1、查看机器各种指示灯状态机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有故障的一个依据。
当指示灯的状态不正常时,需要引起注意。
比如,当机器警告灯亮的时候,一般都是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息。
2、查看系统故障记录收集信息errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息。
故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析。
也可以使用errpt 命令来查看(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年)T(类型): P 永久;T 临时; U 未知(永久性的错误应引起重视)P:Permanent;T:Temporary;U:Unknow。
AIX系统日常检查
AIX系统日常检查AIX系统日常检查工作是维护操作系统重要的一部分,可以把系统故障排除在萌芽阶段,以下日常检查的步骤。
(1)硬件检查检查各指示灯状态和各物理设备的可用情况(2)文件系统是否满使用df -k 命令可以以k为单位检查文件系统的使用率。
(大于90%以上,需要调整)使用lsvg –o |lsvg –il|grep stale命令检查文件系统完整性,检查有无stale(非同步)的逻辑卷,如果有stale的逻辑卷需要用syncvg同步,如果同步失败,需要根据具体情况采取相应措施。
(3)检查系统出错日志使用errpt|more命令检查IDENTIFIER 为错误编号,当需要检查详细信息时常会用到。
TIME STAMP 为时间标签,它记录的是出错时间,其格式:月月日日时时分分年年T:为Type,它记录的是错误类型P:为永久错误,需引起注意T:为临时错误。
C:为Class,它记录的是错误种类,如H:HardwareS:SoftwareO:Errloger command messagesU:undeterminedRESOURCE_NAME 为错误来源DESCRIPTION 为错误描述#errpt -aj <IDENTIFIER> 查看系统详细记录内容其中IDENTIFIER为错误编号,如 #errpt -aj 0426104399#errpt -dH 查看系统所有的硬件出错记录(4)检查系统合法/非法登录情况使用last命令检查登录地点。
(5)检查系统是否有巨大的core文件生成使用find / -name core -print命令检查。
对core文件,一般直接删除即可。
(6)系统性能检查可以使用topas命令来查看cpu性能、内存使用情况和IO平衡使用情况等。
(7)HACMP双机软件检查1、每台主机共享的卷组是否活动 #lsvg –o或者#lspv2、每台主机的IP地址: #netstat –i或者ifconfig -a。
AIX故障排除--LED解释
RS/6000液晶显示屏上显示代码(LED)的含义本文介绍RS/6000启动过程中机器上的液晶显示屏代码的含义。
本文代码不针对具体机型。
IPL ROM CRC comparison error (irrecoverable).RAM POST memory configuration error or no memory found (irrecoverable).RAM POST failure (irrecoverable).Power status register failed (irrecoverable).A low voltage condition is present (irrecoverable).IPL ROM code being uncompressed into memory.End of bootlist encountered.RAM POST is looking for 1M bytes of good memory.RAM POST bit map is being generated.L2 cache is not detected. (The display shows a solid 21c for 5 sec)IPL control block is being initialized.NVRAM CRC comparison error during AIX.IPL(Key Mode Switch in Normal mode).Reset NVRAM by reaccomplishing IPL in Service mode. For systems with an internal, direct-bus-attached(DBA)disk,IPLROM attempted to perform an IPL from that disk before halting with this three-digit display value. Attempting a Normal mode IPL from Standard I/O planar attached devices specified in NVRAM IPL Devices List.Attempting a Normal mode IPL from SCSI attached devices specified in NVRAM IPL Devices List.Note: May be caused by incorrect jumper setting for external SCSI devices or by incorrect SCSI terminator.REFER FFC B88Attempting a Normal mode restart from 9333 subsystem device specified in NVRAM device list. Attempting a Normal mode IPL from IBM 7012 DBA disk attached devices specified in NVRAM IPL Devices List.Attempting a Normal mode restart from Ethernet specified in NVRAM device list.Attempting a Normal mode restart from Token Ring specified in NVRAM device list. Attempting a Normal mode IPL from NVRAM expansion code.Attempting a Normal mode IPL from NVRAM IPL Devices List; cannot IPL from any of the listed devices, or there areno valid entry in the Devices List.Attempting a normal mode IPL from FDDI specified in NVRAM IPL device list.Attempting a Normal mode restart from adapter feature ROM specified in IPL ROM devices list. Attempting a Normal mode restart from Ethernet specified in IPL ROM devices list.Attempting a Normal mode IPL from Standard I/O planar attached devices specified in Rom Default Device List.Attempting a Normal mode IPL from SCSI attached devices specified in IPL ROM Default Device List.Attempting a Normal mode restart from 9333 subsystem device specified in IPL ROM device list. Attempting a Normal mode IPL from IBM 7012 DBA disk attached devices specified in IPL ROM Default Device List.Attempting a Normal mode restart from Ethernet specified in IPL ROM default devices list. Attempting a Normal mode restart from Token Ring specified in IPL ROM default device list. Attempting a Normal mode restart from Token Ring specified by the operator.System failed to restart from the device chosen by the operator.Attempting a normal mode IPL from FDDI specified in IPL ROM device list.Attempting a Service mode restart from adapter feature ROM.Attempting a Normal mode IPL from devices specified in the NVRAM IPL Devices List.Unknown tape drive being identified or configured. Unknown display being identified or configured. Unknown input device being idenor configuredUnknown adync device being idenor configured。
AIX常见故障
CDE 不能启动解疑(一)环境AIX V4.x问题在CDE界面登录后,系统挂起或极慢,怎么解决?解答可尝试用以下的方法去解决:首先重启机器,并用命令行方式进入。
1. 用df命令检查是否有文件系统满,特别是/及/var文件系统,如是,请清理或扩大之。
2. 用如下命令hostnameuname -ncat /etc/hosts检查是否在机器名的设置上有冲突3. 用smitty mktcpip 命令检查TCP/IP的设置是否正确,如设置了DNS 域名解析,要保证DNS服务器能被访问到。
如是新装机,网络配置不完善时,建议先不使用DNS。
4. 如果以上方法还不成功,可以重安装X11.base.rte,X11.Dt.rte 和X11.Dt.helpinfo 一试。
如何平稳地停止AIX系统运行?环境产品:RS/6000软件: AIX问题如何平稳地停止AIX系统运行?解答您可以使用shutdown 或是reboot 指令来将服务及系统离线.shutdown 指令有许多参数来控制如何停止系统. 依照预设值, 它会警告使用者1分钟, 接着终止运行中的处理程序, 同步化档案系统, 并且停止CPU的动作. 您可以用-r 参数来使系统关机后立即开机, 或是下reboot 指令.# shutdown -m +5 系统五分钟后关闭至单一使用者模式# shutdown -r 关机后重新开机# shutdown now 立即关机# shutdown -k 放弃关机环境产品:RS6000, AIX平台:RS6000版本:AIX 4.3.3问题 AIX 4.3.3 的中文输入解答在AIX 4.3.3 中, 中文输入已不再使用shift+F1---F4, 而改变为ctrl+F1--F4: CTRL + [F2] : 智能 ABCCTRL + [F4] : 拼音输入;CTRL + [F5] : 五笔输入;CTRL + [F6] : 郑码输入CTRL + [F7] : 表形码输入;CTRL + [F9] : 内码输入;CTRL + [F10] :英文半角;CTRL + [F11] :设置输入特性; CTRL + [F12] :选择菜单; libc.a 文件恢复。
AIX性能问题诊断及调优
在AIX日常运维中,性能问题一直是一个很重要的问题,为了让操作系统能正常平稳高效的运行,便需要一些武功秘籍来进行快速定准并解决问题,本次我们便来讨论一下我们可以用到的武功秘籍。
所谓性能问题,主要几种在CPU、内存、I/O三个大类别,因此我们分类进行讨论。
类别一:CPU检查系统的三把斧头一招便是topas,这个是最常用也是最有效的一招,通过topas的输出可以看到CPU的使用情况。
从topas的输出我们主要关注如下4个指标:那么判定系统忙不忙的一个指标为Idle%,正常情况下,Idle%的值如果低于10%,则这个系统的CPU就需要注意了,此时关注一下是User%高还是Kern%高,如果是User%高,则说明是应用程序占用CPU较多,反之则说明操作系统本身占用CPU较高。
(但是请注意:并不是所有Kern%高都是操作系统本身导致的,也有可能是应用程序调用了系统本身的函数,这样也会把这部分消耗算在Kern%头上)在拍完第一板斧后,我们继续向下分析,拍第二板斧trpof,这个可以理解为精简版的trace,一般情况下执行这个命令对系统负载影响不太大,因此可以用这个工具先粗略看一下相关的进程。
通过tprof可以看出占用CPU排名靠前的进程。
如果root cause还没有找到,那么便使出大招,收trace数据。
在收集trace 数据前请先注意以下原则:①收集trace数据会对当前系统的负载有影响,在CPU已经达到99%时,再收集trace有可能把操作系统搞夯。
②一定要等到问题重现时收集trace,由于trace产生的数据量巨大,因此要收集有效时间段的trace。
如果不确定问题什么时候重现,可以写个判断脚本,收集循环trace。
③用root用户进行trace收集④需要预估trace数据的大小,然后根据预估的空间,在操作系统上找一个空间较大的地方存放数据。
trace数据的大小可以用下列公式算出:预估数据大小=逻辑CPU的个数* 10MB(其中逻辑CPU的个数可以用vmstat | grep -i lcpu命令查看)在执行完上述收集命令后,会生成trace的raw文件。
AIX性能分析与故障诊断
性能分析与故障诊断
§ 1 系统性能分析
§1.1 一般性能分析过程 §1.2 性能分析工具 § 2 系统故障诊断 §2.1 故障诊断工具
性能分析与故障诊断(2)
掌握基本的性能调试工具 掌握基本的故障诊断工具
1.1 一般性能分析过程
vmstat sar nice ps vmstat ps lsps svmon
errpt 常用选项
列出错误日志的详细信息 # errpt –a 显示具体某个错误项的详细信息 # errpt -a -j E18E984F
diag 命令
diag 命令(2)
强大功能的用来检测硬件问题 简捷的菜单界面
Telnet问题诊断
如果网络上的客户端可以ping通服务器,但是 telnet不成功,显示拒绝连接的消息,有可能原因是:
若b 数值偏大,表明系统I/O出现瓶颈
vmstat(4)
CPU 瓶颈 如果sy 和us参数的数值加起来接近100,表示系统 CPU使用率太高,同时也会看到r 的数值也大于1
内存瓶颈 内存不足,换页将变得频繁,这时pi(page-in )和 po(page-out ) 参数将不是0,同时avm 和fre 数值的 比值悬殊很大,fre 数值很小.
svmon
iostat
查看系统I/O状态信息
用途:报告CPU统计信息和整个系统、适配 器、tty设备、磁盘和CD-ROM的输入/输出 统计信息
iostat(2)
TTY的I/O状态 -tin
每秒从tty那里读取的字符数
-tout
每秒写到tty那里的字符数
(其中tty设备包括真实(real)和虚拟 (pseudo)的tty)
vmstat(2)
AIX常用的系统状态查询命令
mpcfg -cf 11 1 -changes to fast IPL on SMP machines (smp)
mv fn (path fn) -move and rename a file
cfgmgr -will auto config devices
cfgmgr -v & -(-v) shows processes (&) puts in background
chps -s xx hd# -increase paging space (xx=# of addt'l PPs)
cp oldfn newfn -copy a file
ping自己网卡地址(ip地址)
ping其它机器地址,如不通,在其机器上用diag检测网卡是否有问题。
在同一网中,subnetmask应一致。
网络配置的基本方法:
(1)如需修改网络地址、主机名等,一定要用chdev命令
# chdev –l inet0 –a hostname=myhost
# chdev -l en0 -a netaddr='9.3.240.58' -a netmask=255.255.255.0’
# netstat -rn
列出网卡状态及路由信息等。
# netstat -in
列出网卡状态及网络配置信息。
# df -k
列出已加载的逻辑卷及其大小信息。
# mount
列出已加载的逻辑卷及其加载位置。
# uname -a
列出系统ID号,系统名称,OS版本等信息。
# hostname
网络问题判断:供系统管理员使用的 AIX 工具第 2 部分:详细的诊断和故障排除
本文介绍一些可以在IBM AIX® 上使用的命令,其中许多命令也可以在其他风格的UNIX® 上使用。
当您的主机与另一个主机的通信发生问题时,这些命令有助于尽可能详细地了解实际情况。
也详细讨论符合逻辑的常见问题诊断方法。
常用缩写词∙ACL: Access control list∙DNS: Domain Name System∙I/O: Input/output∙MAC: Media Access Control∙TCP/IP: Transmission Control Protocol/Internet Protocol对于本文,所有样例命令和输出中使用的目标主机系统都称为testhost。
获得更多信息根据要诊断的网络问题的性质,有时候有必要了解失败的应用程序或命令是否有详细输出、跟踪或调试选项。
例如,ssh (Secure Shell) 和 scp (Secure Copy) 命令有详细输出开关(-v),这可以提供关于客户机和服务器之间的通信、密钥交换和身份验证的大量跟踪信息(见清单 1)。
清单 1. 用提供详细输出的 ssh 会话连接远程主机# ssh —v testhostOpenSSH_4.2p1, OpenSSL 0.9.7d 17 Mar 2004debug1: Reading configuration data /opt/freeware/etc/ssh_config debug1: Connecting to testhost [10.217.1.206] port 22.debug1: Connection established.debug1: permanently_set_uid: 0/0debug1: identity file /root/.ssh/identity type -1debug1: identity file /root/.ssh/id_rsa type 1debug1: identity file /root/.ssh/id_dsa type -1debug1: Remote protocol version 1.99, remote software version OpenSSH_4.1 debug1: match: OpenSSH_4.1 pat OpenSSH*debug1: Enabling compatibility mode for protocol 2.0debug1: Local version string SSH-2.0-OpenSSH_4.2debug1: SSH2_MSG_KEXINIT sentdebug1: SSH2_MSG_KEXINIT receiveddebug1: kex: server->client aes128-cbc hmac-md5 nonedebug1: kex: client->server aes128-cbc hmac-md5 nonedebug1: SSH2_MSG_KEX_DH_GEX_REQUEST(1024<1024<8192) sentdebug1: expecting SSH2_MSG_KEX_DH_GEX_GROUPdebug1: SSH2_MSG_KEX_DH_GEX_INIT sentdebug1: expecting SSH2_MSG_KEX_DH_GEX_REPLYdebug1: Host 'testhost' is known and matches the RSA host key.debug1: Found key in /root/.ssh/known_hosts:14debug1: ssh_rsa_verify: signature correctdebug1: SSH2_MSG_NEWKEYS sentdebug1: expecting SSH2_MSG_NEWKEYSdebug1: SSH2_MSG_NEWKEYS receiveddebug1: SSH2_MSG_SERVICE_REQUEST sentdebug1: SSH2_MSG_SERVICE_ACCEPT receiveddebug1: Authentications that can continue:publickey,password,keyboard-interactivedebug1: Next authentication method: publickeydebug1: Trying private key: /root/.ssh/identitydebug1: Offering public key: /root/.ssh/id_rsadebug1: Authentications that can continue:publickey,password,keyboard-interactivedebug1: Trying private key: /root/.ssh/id_dsadebug1: Next authentication method: keyboard-interactivedebug1: Authentications that can continue:publickey,password,keyboard-interactivedebug1: Next authentication method: passwordroot@testhost's password:debug1: Authentication succeeded (password).debug1: channel 0: new [client-session]debug1: Entering interactive session.Last unsuccessful login: Wed 27 Jan 13:30:23 2010 on ssh from10.216.163.37Last login: Wed 10 Feb 16:05:48 2010 on /dev/pts/0 from 10.216.163.37 ******************************************************************************* ** ** Welcome to AIX Version 5.3! ** ** ** Please see the README file in /usr/lpp/bos for information pertinent to ** this release of the AIX Operating System. ** ** *******************************************************************************#如果可以登录进入有问题的主机(理论上,服务器无法向特定端口发送服务网络请求,但是有时候也可以在发出请求的客户机上报告错误),那么您应该在系统日志中检查相关的消息。
AIX常见故障报错及解决方案
AIX 常见故障报错及解决方案大多数情况下,顺着报错顺藤摸瓜很快就能找出原因,但总有例外,有些报错信息或者日志恰恰让我们南辕北辙。
让我们看看这些案例最终是如何处理的……案例1:图省事,搞出来个大麻烦生产中心有几套VIOS环境,正常运行了1-2年,今日发现有2套进行健康性检查,发现执行命令就hang在哪里不动了,又是内存不够用了。
"0403-031 The forkfunction failed. There is not enough memory available."好奇怪,到底内存被谁用了,vios好端端的就这样了。
都这个样子,重启vios分区吧。
重启完,vios顺利登陆,执行健康性检查没啥问题,可是用nmon看了一下内存使用分配了4个G,使用1个多G,慢慢慢慢的就看到内存使用越来越大,不一会4个G就用完了,重启其他vios分区一个样子,连换页空间都用了。
顿时一头雾水。
到底发生了什么呢?生产中心有几套VIOS环境,正常运行了1-2年.突然出现这种问题,首先想到的是变更。
梳理了近期变更操作,近期新部署了PowerVC,VIOS进行了补丁升级。
VIOS2.1升级到VIOS2.2.3.首先,重启vios分区,在内存没有用完前赶紧检查那个进程使用的内存.排名第一的是vio_daemon,观察了一会发现内存一会就被他占用完了第二,元凶找到了,vio_daemon到底是干啥的,问问IBM800吧,IBM回复问我收集一下系统信息。
1.ioslevel2./etc/security/limits的输出反馈后,IBM告诉我,我遇到了bugvios版本和 /etc/security/limits stack = -1完全符合这个bug特征。
其实这个bug是可以避免的,我们大多数实施AIX的时候,很容易顺手把/etc/security/limits.都改成-1,在大多数情况下,没啥问题,但是就是在这个版本下就容易遇到这个问题。
aix_日常管理以及故障处理
aix_日常管理以及故障处理故障的处理RS6000 Admin & PD内容提要"日常管理"故障的处理"系统健康检查"查看硬件情况"检查设备故障灯,一般为橙色并有"有没有异常声响,如硬盘、风扇等。
"有没有破损的电缆等"查看系统故障信息"用errpt命令查看系统出错信息。
"用mail命令查看有否发给root用户的错误报告。
"查看其他的记录文件,如/tmp/hacmp.out。
"检查文件系统"查看有没有“满”的文件系统。
文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。
如/ (根文件系统)满则会导致用户不能登录。
"系统健康检查# df -k (查看AIX的基本文件系统)Filesystem 1024-blocks Free %Used Iused %Iused Mounted on /dev/hd4 24576 1452 95%2599 22% //dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 16384 5332 68% 1402 35% /home除/usr文件系统,其他文件系统都不应太满,一般不超过80%。
处理方法1:删除垃圾文件# du -sk * |sort -rn |head查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。
(要区分哪些目录是文件系统的mount point,哪些是文件系统的子目录)删除文件,释放空间。
有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。
只有当这个程序停止后空间才释放,有时甚至需要重起系统。
超实用分享|AIX性能问题诊断及调优秘籍
超实用分享|AIX性能问题诊断及调优秘籍在AIX日常运维中,性能问题一直是一个很重要的问题,为了让操作系统能正常平稳高效的运行,便需要一些武功秘籍来进行快速定准并解决问题,本次我们便来讨论一下我们可以用到的武功秘籍。
所谓性能问题,主要几种在CPU、内存、I/O三个大类别,因此我们分类进行讨论。
类别一: CPU检查系统的三把斧头一招便是topas,这个是最常用也是最有效的一招,通过topas的输出可以看到CPU的使用情况。
从topas的输出我们主要关注如下4个指标:User% :主要是应用程序消耗CPU的百分比Kern% :主要是操作系统本身消耗CPU的百分比Wait% :主要是有I/O问题时,CPU等待I/O的百分比Idle% :那么这个一定是空闲的CPU了那么判定系统忙不忙的一个指标为Idle%,正常情况下,Idle%的值如果低于10%,则这个系统的CPU就需要注意了,此时关注一下是User%高还是Kern%高,如果是User%高,则说明是应用程序占用CPU较多,反之则说明操作系统本身占用CPU较高。
(但是请注意:并不是所有Kern%高都是操作系统本身导致的,也有可能是应用程序调用了系统本身的函数,这样也会把这部分消耗算在Kern%头上) 在拍完第一板斧后,我们继续向下分析,拍第二板斧trpof,这个可以理解为精简版的trace,一般情况下执行这个命令对系统负载影响不太大,因此可以用这个工具先粗略看一下相关的进程。
tprof -skeuj -x sleep 10通过tprof可以看出占用CPU排名靠前的进程。
如果root cause还没有找到,那么便使出大招,收trace数据。
在收集trace数据前请先注意以下原则:①收集trace数据会对当前系统的负载有影响,在CPU已经达到99%时,再收集trace有可能把操作系统搞夯。
②一定要等到问题重现时收集trace,由于trace产生的数据量巨大,因此要收集有效时间段的trace。
AIX日常检查指导
/usr/sbin/vmo -o maxclient%=20 -o minperm%=10 -o maxperm%=20 -o strict_maxperm=1
mkitab "vmocfg:2:once:/usr/sbin/vmo -o maxclient%=20 -o minperm%=10 -o maxperm%=20 -o strict_maxperm=1"
2、选择“Identify and Attention Indicators”,回车继续;
3、选择“Set System Attention Indicator to Normal”,回车,“Set System
Attention Indicator to Normal”前面出现“+”号,表示选定此项;
n Display next message.
q Quit
文件系统使用率
#df-g
%Used为文件系统的使用率。所有文件系统的使用率不能大于80%
逻辑卷状态
#lsvg -l rootvg
不能有“stale”状态的逻辑卷
内存交换区使用率
#lsps–a
使用率不能超过70%
网络
通信
网卡状态
#ifconfig-a
4、按“F7”提交。以上步骤可以熄灭小型机橙色告警灯
电源灯
常亮
HBA卡
工作灯闪烁工作。
网卡
工作灯闪烁工作。
系统其它扩展卡
三、磁盘阵列硬件状态检查
项目
方法或结果
故障告警灯
故障灯不亮
电源灯
常亮
控制器
故障灯不亮
硬盘灯
所有硬盘指示灯一样,无红色或异常颜色告警
AIX系统常见启动问题及解决
AIX系统常见启动问题及解决AIX系统启动问题基本的启动进程和有序关机:基本命令:alog、cfgmgr、last、bootlist、uptime、mpcfg、shutdowna、alog:对系统日志进行读写。
rc.boot通过alog命令把引导信息重定向到/var/adm/ras/bootlog# alog -L 显示定义在alog Database中的logs# alog -o -t 显示启动日志cfgmgr命令:在系统启动阶段,cfgmgr命令配置对使用系统必须的所有设备系统启动包括两个阶段:阶段一: cfgmgr –f 一旦系统启动就不能运行了阶段二: cfgmgr –s ( second boot phase for normal boot ) 阶段三: cfgmgr –p ( second boot phase for service boot )# cfgmgr –i /usr/sys/inst.images 该命令尝试自动安装设备的软件 FOR 新检测到的设备-I 选项指定安装的媒质在哪里在此处有一个seq field ,该field 是一个整数指定了优先权,值越小,优先级越高,0的优先级最低,1的优先级最高# cfgmgr –l scsi0 ( 配置检测到的连接到SCSI0适配卡的设备 ) -如果你想查找root用户什么时候logged on and off from the console# last root console如果你想决定系统上次shutdown是什么时候# last shutdown为了显示一个启动列表# bootlist –m normal –o如果你想改变你的启动列表# bootlist –m normal fd0 hdisk0 cd0注意:加到bootlist的每一个设备必须处于Avalable的状态如果你怀疑你的系统被shutdown或restarted,你可以使用uptime命令去查明,uptime命令显示系统已经运行了多长时间# mpcfg –df To find out what the status is of your diagnostic flags# mpcfg –cf 11 1 如果你想Fast IPL system,你可以改变diagnostic flag的值注意: mpcfg 和 service information相关shutdown-v 或–h Halt the operating system completely-k Avoids shuting down the system-m Bring the system down to maintenance mode-I specifies interactive mode , Display interactive messages to guide the user through the shutdown注意: /etc/rc.shutdown文件由 /usr/sbin/shutdown script调用来关闭在关机的时候想中断的进程,该文件的必须是可执行的才能被正确调用安装媒质有问题的征兆:1、安装时意外挂起2、无法从介质读数据3、意外重起如果安装媒质没有问题的话,在你的系统中两个设备可能共享相同的SCSI地址LED Error CodeLED 201 --- Damaged boot image解决方法:1、访问你的rootvg ( 进入 system maintenance 模式 )2、检查 / 和 /tmp文件系统,看看他们是否已经满了,如果是创建更多的空间3、决定 bootdisk 通过用命令 lslv –m hd54、重新创建 boot image 使用 bosboot –a –d /dev/hdisk05、检查 CHECKSTOP errors in the error log , 如果这样的错误发现的话可能是失败的硬件6、关机重起LED 223-229 --- Invalid boot list1、决定启动磁盘 lslv –mhd52、创建新的bootlist 使用 bootlist命令LED 551,555,and 557 --- Errors Including corrupted file system and corrupted JFS log1、进入维护模式access rootvg before mounting and file system2、fsck –y /dev/hd1fsck –y /dev/hd2fsck –y /dev/hd3fsck –y /dev/hd4fsck –y /dev/hd9var3、再次Format the JFS log/usr/sbin/logform /dev/hd84、使用 lslv –m hd5 去决定 boot disk5、重新创建boot imagebosboot –a –d /dev/hdisk0LED 552,554,and 556 --- Super block corrupted or corrupted customized ODM databaseFsck1、Repeat steps 1 and 2 for LEDs 551 555 and 5572、If fsck inidicates that block 8 is corrupted, the super block for the file system is cororupted and needs to be repaired , Enter the command :Dd count=1 bs=4k skip=31 seek=1 if=/dev/hdn of=/dev/hdn3、rebuild your JFS log by using the command :/usr/sbin/logform /dev/hd84、if this solves the problem, stop here ; otherwise ,continue with step 55、Your ODM database is corrupted ,restart your system and 进入 maintenance mode6、Mount the root and usr file systemMount /dev/hd4 /mntMount /usr7、copy system configuration to a backup directorymkdir /mnt/etc/objrepos /backupcp /mnt/etc/objrepos/Cu* /mnt/etc/objrepos /backupLED 553 --- corrupted /etc/inittab file1、进入系统维护模式2、检查 / /var /tmp 使用 df命令3、检查 /inittab文件4、检查 execution problems /etc/environment/bin/sh/bin/bsh/etc/fscketc/profile/.profile5、shutdown and reboot。
网络问题判断:供系统管理员使用的 AIX 工具第 1 部分:网络故障排除基础
作为IBM AIX® 系统管理员,有时候会遇到与 LAN 或 WAN 中的问题相关或由其直接导致的问题,这是不可避免的。
在这些情况下,在求助于网络管理员之前,最好对问题进行初步诊断,这有助于识别问题的根源,至少可以给出进一步研究的大方向。
常用缩写词∙BIND:伯克利因特网名称域∙DNS:域名系统∙LAN:局域网∙RFC:请求评注∙TCP/IP:传输控制协议/互联网协议∙WAN:广域网向网络管理员求助之后,他可能要求您帮助进行分析,所以您一定要掌握相关的诊断工具。
本文介绍一些可以在 AIX 上使用的命令,其中许多命令也可以在其他风格的UNIX® 上使用,它们可以帮助解决与 TCP/IP 网络相关的问题。
对于本文,所有示例命令和输出中使用的目标主机系统都称为testhost。
有人在吗?诊断任何网络相关问题的第一步都是检查目标主机是否正在运行。
可以使用ping 检查是否可以通过网络访问某一主机(见清单 1)。
这个命令向主机发送一个 Internet Control Message Protocol (ICMP) 回显请求数据包,然后等待回显回复。
成功的 ping 意味着:∙您的主机有一个活跃的网络适配器,可以使用它发送请求。
∙目标主机正在运行,而且在您使用的 IP 地址上配置了活跃的网络适配器。
∙如果使用主机名而不是 IP 地址,就说明名称解析对于这个主机是有效的。
∙在您的主机和目标主机之间有双向路由。
∙在两个主机之间的路由上或在这两个主机上运行的防火墙不会阻挡 ICMP 通信流。
成功的 ping 的输出还有助于判断网络延迟,因为它会报告收到回显回复花费的时间。
响应时间长很可能意味着与目标主机交换数据的应用程序的性能会比较差。
清单 1. ping 一个有响应的主机# ping testhostPING testhost: (10.217.1.206): 56 data bytes64 bytes from 10.217.1.206: icmp_seq=0 ttl=253 time=0 ms64 bytes from 10.217.1.206: icmp_seq=1 ttl=253 time=0 ms64 bytes from 10.217.1.206: icmp_seq=2 ttl=253 time=0 ms64 bytes from 10.217.1.206: icmp_seq=3 ttl=253 time=0 ms----testhost PING Statistics----4 packets transmitted, 4 packets received, 0% packet lossround-trip min/avg/max = 0/0/0 ms#如果没有收到回显回复,就说明不满足上述一个或多个条件,ping 失败了(见清单 2)。
AIX现场诊断
客户反馈1:系统大概持续使用1个月左右,本地盘disk0,disk1就会变成busy 100%,并且不会降下去。
然后把samba的两个进程smbd,nmbd 直接Kill掉,磁盘使用率就下架下来了,系统就恢复正常了。
当客户发现文件没法上传了,也就是出现磁盘busy100%,他就会立刻重启samba (说不能等,现场分分钟要读里面的图纸)。
然后事后联系我们,说机器是不是有问题,系统是不是有问题:。
客户反馈2:最近磁盘出现busy 100%的频率变高了,经常1,2个礼拜就会有一次,并且杀samba进程也不管用了,每次遇到直接重启。
(每次都是重启以后找我们,说系统刚刚出问题了,实在是因为不能等,所以直接重启机器了)。
客户这系统用途:samba共享了一个/axway文件夹给一些windows客户端上传文件。
同时这个系统上面跑一个应用,应用对外共享/axway里面的文件。
由于没能接触第一时间,再加上客户的表述,重启samba就能恢复。
我这边判断:升级下samba吧,把当前3.0.几的版本升级到3.3.几的最新版本。
客户暂时把业务迁移到B机上了,A机等着我们去处理。
我这边二线给的方案就是让我去升级A机的samba软件。
我去现场处理问题:升级samba,此处省略。
(我倒没准备解决磁盘busy100%的问题,因为每次都是客户说遇到,我从未见过,二来我就是准备升级软件的,多简单的一件事啊,早升级完早回家。
)到现场,我把软件升级好后,先随便检查下系统状态用nmon,+d+t (拿下图做个讲解吧,现场的nmon没截图)文字描述下nmon看到的情况:hdisk0,hdisk1有规律的每隔10几秒就有大量的WWWW,磁盘的速率大概就到1000Kb/。
但是磁盘的busy这项会立刻上升到100%,跟过山车一样,一会100,一会0,一会100,一会0,同时Cpu几乎没啥负担。
看到这些数据,我当时判断,系统在写很多文件,写的数据也不多,因为只有1000K/s就到busy100%了。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一.故障的定义.弄清楚系统发生了什么问题.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的操作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。
检查机器是否存在故障一般情况下,可以通过以下几种方法来收集错误信息1.查看机器各种指示灯状态机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有故障的一个依据。
当指示灯的状态不正常时,需要引起注意。
比如,当机器警告灯亮的时候,一般都是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息。
2.查看系统故障记录收集信息errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息。
故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析。
也可以使用errpt 命令来查看(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年)T(类型): P 永久; T 临时; U 未知(永久性的错误应引起重视)C(分类): H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDW ARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINA TION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00003.控制面板上的LED 代码.一般为8 位代码,通常系统故障灯会同时亮起。
某些机型还会同时显示故障设备位置代码。
.4 位代码,通常是Exxx。
.3 位代码,通常为0yyy,只看后3位。
.8 位和4位代码可查看系统服务手册(Service Guide)。
3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。
.闪动的888, 系统崩溃,硬件或软件原因造成。
按reset 键会显示更多内容。
888-102 一般为软件故障(888-102-207 例外)系统会产生一个dump。
888-102-xxx-0C9 系统正在做dump, 请等待。
888-102-xxx-0C0 系统dump完成,可关电重启。
888-103 或105硬件故障,一般有SRN 代码及位置代码。
4.SMS (System Management Service) 故障记录当主控台出现键盘图标后(LED 显示E1F1时)按1键。
进入SMS 菜单选择"Utilities"选择"Error Log", 抄下8位故障代码(在SMS 中还可以更改系统启动顺序表)5.MAIL#mail系统会向root用户发mail报告出错信息。
通常系统出现故障后没有进行检查修复,系统会定时提醒root。
6.运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。
当发现有硬件故障时应立即使用diag#diag> 选高级诊断(Advance Diagnostic)> 选问题诊断(Problem Determination) 或选系统检查(System Verification)(选PD 会对系统错误记录进行分析)diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。
对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。
7.查看系统重要记录日志在某些情况下,系统的错误日志无法记录一些错误信息,这时,就需要查看相关的系统日志。
这些日志包括系统启动日志,smit日志,HACMP切换日志等等,以下对这些日志进行说明a.系统启动日志系统启动日志记录系统在启动过程中的详细信息,包括设备识别,内核加载,文件系统装载,后台进程的启动等信息。
这些信息在错误日志没有完整的记录,但是通过查看启动日志,可以得到详细的信息。
查看系统启动日志的命令为alog -o -t bootb.smit.logsmit.log记录了通过smit菜单执行命令的过程和结果信息。
通过查看smit.log可以知道在系统上进行操作的历史信息,查看这些命令执行的结果是否正常,从而判断是否存在隐患或故障。
Smit.log在系统根目录下,通过cat命令就可以查看。
c.HACMP.OUTHacmp.out文件记录HACMP发生切换时候的详细过程和结果信息。
查看hacmp.out文件可以知道系统出现什么原因而引起切换,从而判断是否有故障发生。
二.判断故障类别1.硬件故障通常将硬件故障分为以下几个类别IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRN。
Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在I/O柜的显示面板上一系列信息。
IPL 流程当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:.Phase 1: Service Processor 的初始化Phase 1 开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。
在这个步骤会显示8xxx 或9xxx checkpoints代码。
. Phase 2: 由Service Processor 引导的硬件初始化Phase 2 开始于按下I/O柜上的白色电源开关。
在这个步骤会显示9xxx checkpoints 。
91FF 是最后的代码标志着第三步骤的开始. Phase 3: 系统固件的初始化在Phase 3, 一个系统处理器接管控制并继续初始化系统资源,在这个步骤会显示Exxx。
E105是最后的代码标志着第四步骤AIX启动的开始。
在这个过程中还会显示各种位置码(位置码代表着系统的每一个部分). Phase 4: AIX 启动当AIX开始启动时,显示面板上的代码为0xxx ,同时位置码会出现在第二行。
当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。
Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。
SRNs (Service request numbers,服务请求码)当系统运行有错误发现时,SRNs码会以xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。
用diag命令进行检测,diag步骤如下:#diag> 选高级诊断(Advance Diagnostic)> 选问题诊断(Problem Determination) 或选系统检查(System Verification)(选PD 会对系统错误记录进行分析)diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等2.操作系统故障系统无法正常操作,命令无法正常执行,或者系统频繁的报系统问题,都有可能是操作系统故障造成的。
软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。
1)文件系统空间不够。
查看有没有“满”的文件系统。
特别是/、/var、/tmp,不要超过90%。
文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。
如/ (根文件系统)满则会导致用户不能登录。
用df –k 查看。
# df -k (查看AIX的基本文件系统)Filesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 24576 1452 95% 2599 22% //dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 16384 5332 68% 1402 35% /home除/usr文件系统,其他文件系统都不应太满,一般不超过80%。