巡检常用命令

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

IBM AIX 小型机巡检常用命令及流程

第一:首先是机房温度以及湿度的检查,当然这些一般情况都没问题。

参考值:温度(摄氏℃)10 ℃-40℃

湿度8% -80%

第二:就是关于电源的检测,这个只要不是新装机,一般没问题。

参考值:零-地电压小于1V

火-地电压200-240V (补充:当然59系列的机器相间380V,相地240V)第三:关于报错。主要查看硬件的永久性报错#errpt -dH | pg

软件的永久性报错#errpt -dS | pg

还有系统又没又报警灯

第三:机器的序列号:#uname -Mu

第四:操作系统版本:#oslevel -r 注:有时候不能使用是因为系统版本低的原因

第五:其他检测

执行sysdumpdev –l (检查dump是否设置为always allow sysdump)

执行sysdumpdev –e (检查当前dump大小应该为主dump设备的大小的80%以下)

执行lsvg -l rootvg (检查有否"stale"状态的逻辑卷)

执行lsps -s (检查内存交换区占用情况)

执行df –k (检查文件系统的分配状况,一般不要超过80%)

执行lsdev –Cc disk (检查硬盘状态为available)

执行lsdev –Cc adapter (检查PCI卡状态为available)

执行lsdev –Cc tape (检查磁带机状态为available)

执行lsdev – Cc processor (检查CPU状态为available)

执行lsattr –El sys0|grep autorestart (检查系统crash后是否自动重新启动)

执行lsattr –El sys0|grep cpuguard (检查CPU GUARD是否开启)

执行lsattr –El mem0 (检查内存状态正常size=goodsize)

执行vmstat 2

iostat,topas观察us,sy,pi,po,(内存占用率,硬盘读写速度等检查是否有性能瓶颈)

执行netstat –in和netstat –rn (观察网络状态)

执行entstat –d enX (检测网卡运行速率与交换机速率是否匹配)(网卡速率由10M 半工改为自适应时,缺省网关会丢失。更改网卡速率后需要在系统中执行smitty route 操作重新激活缺省路由。如果进行网卡速率的调整,请务必小心。)

执行ping命令(检查网络连接状况)

执行lsdev –C|grep aio (检查异步IO是否可用)

执行lssrc –g cluster (查看是否有三个进程均为active状态)(这个主要看起了几个HA的进程了,有的时候是一个或两个)

执行/usr/sbin/cluster/clstat –a (查看cluster状态是否正常)

检查/etc/hosts, 确保双机配置中IP别名不会存在包含关系(share_ip1包含了share_ip)执行#more /usr/es/adm/cluster.log #more /usr/es/sbin/cluster/history/*

#cat /tmp/hacmp.out (检查这三个日志中是否有error或者fail.)

检查7133面板上的指示灯,如果黄灯亮则需要诊断问题

HOTspare 磁盘检测

1、检查是否有raid保护# smitty ssaraid--->List All Defined SSA RAID Arrays

2、检查是否有Hot Spare # smitty ssaraid--->List Components in a Hot Spare Pool

对于7133,执行Smitty ssaraid? List All Defined SSA RAID Arrays查看7133 raid状态,正常应该为good状态。

对于7133,执行Smitty ssaraid?Change/Show Use of an SSA Physical Disk查看7133硬盘状态,正常应该为member或者spare状态

对于FastT,分别登录上两个controller (登陆方法后面详细讲解),查看是否有错误日志。

记录检查结果

cpu (主频*数量)#lsattr -El proc0

内置磁盘个数:#lsdev -Cc disk

网卡信息:#lsdev -Cc adapter

系统属性:#lsattr -E -l sys0

1.系统错误报告(Error Log)的检查:

硬件故障检测命令:# errpt -d H -T PERM

若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户

软件故障检测命令:# errpt -d S -T PERM

若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户

2.有否发给root用户的错误报告(mail):

#mail (1).观察所有未读消息,注意有关diagela的消息。(2).常用命令:

h [] Display headings of group containing message

t [] Display messages in or current message.

n Display next message.

q Quit (3).对发现的问题详细分析,结果报告给客户

3.文件系统的检查:

命令:# df k %Used为文件系统的使用率。所有文件系统的使用率不能大于80%

4.通信系统的检测:

(1).网卡的状态

命令:#ifconfig a

输出判断:

en0: flags=e080863

inet 192.9.200.2 netmask 0xffffff00 broadcast 192.9.200.255

en1: flags=e080863

inet 192.9.201.1 netmask 0xffffff00 broadcast 192.9.200.255

主备网卡的flag为UP属正常。同时检查ip地址和netmask是否正确。

(2).路由的检测

命令:#lsattr El inet0

authm 65536 Authentication Methods True

hostname h24 Host Name True

gateway Gateway True

route net,,0,172.16.23.81 Route True

bootup_option no Serial Optical Network Interface True

rout6 FDDI Network Interface True

(3).网络的检测

命令:#ping [ip address]

输出判断:用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。

5.系统DUMP设置的检查

命令:#sysdumdev l

输出判断:结果应为

primary /dev/hd6

secondary /dev/sysdumpnull

copy directory /var/adm/ras

forced copy flag TRUE

always allow dump FALSE

dump compression OFF

若不正确请用下列命令修改:#sysdumdev P p /dev/hd6 s /dev/sysdumpnull

6.系统硬件诊断:

命令顺序为:(1).#diag (2).Enter (3).Diagnostic Routines (4).System Verification (5).All Resources (6).F7

输出判断:结果应为No trouble was found.

7.补丁程序(PTF)的检查

相关文档
最新文档