巡检常用命令
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IBM AIX 小型机巡检常用命令及流程
第一:首先是机房温度以及湿度的检查,当然这些一般情况都没问题。
参考值:温度(摄氏℃)10 ℃-40℃
湿度8% -80%
第二:就是关于电源的检测,这个只要不是新装机,一般没问题。
参考值:零-地电压小于1V
火-地电压200-240V (补充:当然59系列的机器相间380V,相地240V)第三:关于报错。主要查看硬件的永久性报错#errpt -dH | pg
软件的永久性报错#errpt -dS | pg
还有系统又没又报警灯
第三:机器的序列号:#uname -Mu
第四:操作系统版本:#oslevel -r 注:有时候不能使用是因为系统版本低的原因
第五:其他检测
执行sysdumpdev –l (检查dump是否设置为always allow sysdump)
执行sysdumpdev –e (检查当前dump大小应该为主dump设备的大小的80%以下)
执行lsvg -l rootvg (检查有否"stale"状态的逻辑卷)
执行lsps -s (检查内存交换区占用情况)
执行df –k (检查文件系统的分配状况,一般不要超过80%)
执行lsdev –Cc disk (检查硬盘状态为available)
执行lsdev –Cc adapter (检查PCI卡状态为available)
执行lsdev –Cc tape (检查磁带机状态为available)
执行lsdev – Cc processor (检查CPU状态为available)
执行lsattr –El sys0|grep autorestart (检查系统crash后是否自动重新启动)
执行lsattr –El sys0|grep cpuguard (检查CPU GUARD是否开启)
执行lsattr –El mem0 (检查内存状态正常size=goodsize)
执行vmstat 2
iostat,topas观察us,sy,pi,po,(内存占用率,硬盘读写速度等检查是否有性能瓶颈)
执行netstat –in和netstat –rn (观察网络状态)
执行entstat –d enX (检测网卡运行速率与交换机速率是否匹配)(网卡速率由10M 半工改为自适应时,缺省网关会丢失。更改网卡速率后需要在系统中执行smitty route 操作重新激活缺省路由。如果进行网卡速率的调整,请务必小心。)
执行ping命令(检查网络连接状况)
执行lsdev –C|grep aio (检查异步IO是否可用)
执行lssrc –g cluster (查看是否有三个进程均为active状态)(这个主要看起了几个HA的进程了,有的时候是一个或两个)
执行/usr/sbin/cluster/clstat –a (查看cluster状态是否正常)
检查/etc/hosts, 确保双机配置中IP别名不会存在包含关系(share_ip1包含了share_ip)执行#more /usr/es/adm/cluster.log #more /usr/es/sbin/cluster/history/*
#cat /tmp/hacmp.out (检查这三个日志中是否有error或者fail.)
检查7133面板上的指示灯,如果黄灯亮则需要诊断问题
HOTspare 磁盘检测
1、检查是否有raid保护# smitty ssaraid--->List All Defined SSA RAID Arrays
2、检查是否有Hot Spare # smitty ssaraid--->List Components in a Hot Spare Pool
对于7133,执行Smitty ssaraid? List All Defined SSA RAID Arrays查看7133 raid状态,正常应该为good状态。
对于7133,执行Smitty ssaraid?Change/Show Use of an SSA Physical Disk查看7133硬盘状态,正常应该为member或者spare状态
对于FastT,分别登录上两个controller (登陆方法后面详细讲解),查看是否有错误日志。
记录检查结果
cpu (主频*数量)#lsattr -El proc0
内置磁盘个数:#lsdev -Cc disk
网卡信息:#lsdev -Cc adapter
系统属性:#lsattr -E -l sys0
1.系统错误报告(Error Log)的检查:
硬件故障检测命令:# errpt -d H -T PERM
若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户
软件故障检测命令:# errpt -d S -T PERM
若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户
2.有否发给root用户的错误报告(mail):
#mail (1).观察所有未读消息,注意有关diagela的消息。(2).常用命令:
h [] Display headings of group containing message
t [] Display messages in or current message.
n Display next message.
q Quit (3).对发现的问题详细分析,结果报告给客户
3.文件系统的检查:
命令:# df k %Used为文件系统的使用率。所有文件系统的使用率不能大于80%
4.通信系统的检测:
(1).网卡的状态
命令:#ifconfig a
输出判断:
en0: flags=e080863
inet 192.9.200.2 netmask 0xffffff00 broadcast 192.9.200.255
en1: flags=e080863
inet 192.9.201.1 netmask 0xffffff00 broadcast 192.9.200.255
主备网卡的flag为UP属正常。同时检查ip地址和netmask是否正确。
(2).路由的检测
命令:#lsattr El inet0
authm 65536 Authentication Methods True
hostname h24 Host Name True
gateway Gateway True
route net,,0,172.16.23.81 Route True
bootup_option no Serial Optical Network Interface True
rout6 FDDI Network Interface True
(3).网络的检测
命令:#ping [ip address]
输出判断:用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。
5.系统DUMP设置的检查
命令:#sysdumdev l
输出判断:结果应为
primary /dev/hd6
secondary /dev/sysdumpnull
copy directory /var/adm/ras
forced copy flag TRUE
always allow dump FALSE
dump compression OFF
若不正确请用下列命令修改:#sysdumdev P p /dev/hd6 s /dev/sysdumpnull
6.系统硬件诊断:
命令顺序为:(1).#diag (2).Enter (3).Diagnostic Routines (4).System Verification (5).All Resources (6).F7
输出判断:结果应为No trouble was found.
7.补丁程序(PTF)的检查