主机巡检指南-整理版

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

主机巡检
机房温度
机房内一般都有温度湿度计,通过温度计查看机房温度是否正常,一般保持在21到24摄氏度即可。

IBM小型机巡检命令
1、查看前面板告警灯是否正常
1)通过直接到机房查看机器前面板是否有黄色告警灯;
2)通过命令查看:
#/usr/lpp/diagnostics/bin/usysfault
如果返回fault,说明有告警灯,如果返回为normal,说明无告警灯。

有告警灯说明机器在运行过程中可能出现过不正常的现象,不能说明机器有故障,是否有故障,要具体查看错误日志。

如果有告警灯,需要清除告警灯,清除方法:
#/usr/lpp/diagnostics/bin/usysfault -s normal
2、查看是否有错误日志
#errpt
该命令显示有错误的类型,如果错误为P H,就需要关注,有可能有硬件错误,还需要关注发生错误的时间,如果是很久以前的错误,有可能是以前的故障,维修完后没有清除错误日志。

每个错误前有一个错误ID,查看具体的某个错误详细信息,输入命令:
#errpt -aj 错误ID
如果要查看所有错误的详细信息,输入命令:
#errpt -a
这个命令的输出可能较多,是所有错误日志的详细信息输出。

建议在后面加上参数,使用分屏查看,命令如下:
#errpt -a | more (空格键翻页) 或者#errpt -a | pg (回车键翻页)
#errclear 0 清除错误日志
3、查看是否有mail故障
系统运行中,如果出现不正常情况,会给root用户发送mail,通过命令:
#mail
可以查看是否有root用户的mail,一般root用户的mail保存在/var/spool/mail/root文件中,可以通过more或者vi查看。

命令如下:
#more /var/spool/mail/root 或#vi /var/spool/mail/root (退出vi,先按esc,再输入:q! 回车)4、查看文件系统是否满
文件系统达到100%,不及时处理,可能引起系统宕机,查看方法:
#df -k
如果占用率达90%以上,需马上处理或清理垃圾文件,如果清理后还很大,需扩容文件系统来保证系统正常运行。

(特别是/、/var、/tmp,不要超过90%)
5、查看分页空间利用率
分页空间,或叫虚拟内存,是AIX系统的一个机制,必须存在,否则系统将出现故障,查
看虚拟内存的占用率,可用这个命令来查看:
#lsps -s
如果想查看虚拟内存分布在具体哪块硬盘上,用以下命令查看:
#lsps –a
6、检查rootvg 是否镜像,是否有stale的逻辑卷
# lsvg –l rootvg 注:下例中rootvg 未镜像
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 1 1 1 closed/syncd N/A
hd6 paging 24 24 1 open/syncd N/A
正常的逻辑卷的状态应为sync,如果逻辑卷出现了stale的状态,说明该逻辑卷不同步,具体引起不同步的原因,需进一步检查
7、检查系统性能(使用下述两种方法之一即可)
#topas 整体性能
#sar CPU性能
#vmstat 内存性能
#iostat I/O性能
# vmstat 2 5 # iostat 2 5
8、查看内置磁带机是否需清洗
要到机房查看磁带机是否亮黄灯,或通过命令查看磁带机使用时间
#/usr/lpp/diagnostics/bin/utape
查看选择到display磁带机那个光条,敲回车,便可以看到用了多长时间,想要退回到命令行,敲ESC+0
9、查看rootvg的大小和剩余空间
# lsvg rootvg
10、查看是否有mksysb备份
这个通过系统无法查看,只能通过做备份时的记录或询问管理员是否备份。

通过根目录下的smit.log日志,查看做备份的记录,但是这个只能看到什么时候做过备份,磁带是否还在,或磁带是否正常,是否过期,是无法确定的。

11、查看双机状态
#lssrc -g cluster
如果有HACMP的进程存在,且进程为active,则HACMP正常,若没有,说明未启动HACMP,具体原因待进一步检查。

#tail –f /tmp/hacmp.out 双机日志
查看双机时间是否同步:分别在双机的两台主机上输入命令
#date 可以看到时间,IBM建议相差时间不超过2分钟,如果时间相差过多的话,也不能说是不正常,不要随便修改时间,有可能造成应用或者数据库的不正常。

12、查看IP地址
#ifconfig –a 查看出口网卡的状态是否为up
如果查看系统中有几个网卡,可以通过命令:
#lsdev -Cc adapter |grep ent
该命令,可查看机器中网卡数量。

13、查看机器CPU和内存数量
查看CPU数量:
#lsdev -C | grep proc
#lsdev -Cc processor
#prtconf
以上3条命令,任意一条即可。

还可以通过命令
#bindprocessor -q查看激活的CPU数,如果命令bindprocessor -q的输出是以前三条命令查看的CPU数的2倍,说明机器的CPU为双核,如果和以上三条命令输出的CPU数相同,说明为单核CPU,P5的机器,一般都是双核CPU。

查看内存
#lsattr -El mem0 或#lsattr -El sys0 -a realmem
14、查看系统信息
#hostname 主机名
#oslevel 操作系统的版本
#instfix -i | grep AIX_ML 查看AIX操作系统的补丁
# prtconf 注:记录system model、Machine Serial Number 查看主机型号序列号
System Model: IBM,9113‐550
Machine Serial Number: 104997E
HP小型机巡检命令
1、查看HP服务器的机型,输入命令:
#model
HP小型机一般分为两种,如果是PA架构的CPU,机器命令为RP系列,如果为安腾架构的CPU,机器命令为RX系列。

2、查看内存大小和CPU个数,输入命令:
#print_manifest | more
通过这个命令,可以看到机器的CPU数,内存大小以前机器内的其他部件。

3、查看系统错误日志
HP小型机的操作系统HP-UX,的错误日志保存在/var/adm/syslog/syslog.log中,可以通过more或者vi命令查看。

4、查看文件系统空间
文件系统空间如果满了,系统继续运行的话,有可能引起系统宕机,所以应及时清理文件系统空间,通过以下命令查看文件系统空间:
#bdf
通过这个命令,可以清楚的看到文件系统的占用率,如果达到90%以上,就需要清理文件系统中的垃圾,或者扩文件系统。

5、查看swap空间利用率
swap空间,也就是页面文件,查看的命令:
#swapinfo -atm
可以看到swap空间的利用率
6、查看是否有stale状态的逻辑卷
Stale状态的逻辑卷说明逻辑卷状态不正常,查看的命令为:
#vgdisplay -v | more
可以看到每个逻辑卷的状态,以及卷组的利用率,卷组由哪几块硬盘组成。

7、查看CPU利用率
CPU性能是决定机器性能的一个重要因素,查看CPU的利用率,用命令:
#sar 1 10
1表示1秒刷新一次,10表示刷新10次,并且在显示10次之后,会出一个平均值。

也可以通过命令top查看,q键可以退出top界面。

8、查看系统卷组vg00的空间
#vgdisplay vg00
这个命令可以显示出vg00的PE数,PE为卷组的组成单位,要查看vg00的具体大小,需要用total的PE个数,乘以PE数的大小。

查看vg00的剩余空间,需要用free的PE个数,乘以PE数的大小。

9、查看双机的状态
如果两台机器做了双机,就需要查看双机的状态,用命令:
#cmviewcl
正常情况下,每个节点和PKG下面的状态,均为running,如果状态为down,说明不正常,如果状态为starting,说明包正在启动中。

要查看双机详细的状态,用命令:#cmviewcl -v
通过这个命令,可以查看双机的状态,还可以查看双机中网卡的状态。

10、查看系统中网卡的状态和数量
要查看系统中网卡的状态和数量,输入下面这个命令:
#lanscan
可以显示网卡的数量和状态,正常情况下,状态应为up
如果要查看系统的IP地址,输入这个命令:
#netstat -in
可以看到系统中每个网卡的IP地址。

SUN小型机巡检命令
1、查看SUN小型机的机器型号,输入命令:
#prtdiag -v |more
在最上面,可以看到SUN小型机的具体型号,通过这个命令,还可以看到系统中的CPU、内存等相关信息。

2、查看SUN小型机操作系统solaris的IP地址,用命令:
#ifconfig -a
通过这个命令,可以看到网卡的IP地址和网卡的状态,正常的话,状态应为UP。

3、查看SUN小型机的CPU具体信息,用命令:
#psrinfo -v
可以看到CPU的数量和主频,如果正常的话,状态应为online。

4、查看SUN小型机的内存大小
#prtconf |grep size
输出的大小即为机器的内存大小。

5、查看硬盘的个数、大小和状态
查看系统中硬盘(也包括识别到的存储中的LUN),用命令:
#iostat -En
会显示每个硬盘的大小,solaris系统中,硬盘标记为c*t*d*s*
每一行硬盘信息下面,会有一个hard error个数之类的,一般情况下,为0,如果非0,也正常,可能硬盘在运行过程中,出现拷贝错误之类的信息,如果这个数字持续不停的增加,增长到很大的话,那说明硬盘可能有故障了。

要查看识到的硬盘,也可以用命令:
#format </dev/null
6、查看swap空间,用命令:
#swap -l

#swap -s
这两台命令配合起来查看,一个显示了大小,一个显示了占用率。

7、查看solaris系统的错误日志
SUN小型机solaris系统的错误日志保存在/var/adm/messages中,可以用more或者vi查看。

这个文件并不是一个,最新的为messages,老的为messages.0,点后面的数字越大,说明日志越老。

另外,用命令:
#prtdiag -v | more
也可以查看系统硬件的情况,如果正常,会在硬件后面显示okey,如果不正常,会报failed或者其他warning等不正常的信息。

8、查看文件系统空间
和IBM的AIX一样,solaris系统查看文件系统空间同样用命令:
#df -k
如果满了,需要及时清理。

9、查看微码版本,用命令:
#prtconf -V
用这个状态,就可以查看到系统微码,即OBP的版本。

10、查看操作系统版本,用命令:
#more /etc/release
这个命令可以看到solaris详细的版本
11、查看solaris系统的补丁,用命令:
#showrev -p | more
这个命令显示的补丁可能很多,如果要查看系统是否打了某个补丁,用命令:
#showrev -p | grep 补丁名
如果打了这个命令,就会显示这个补丁,如果没有打这个补丁,就无输出。

12、查看系统的system文件是否备份
System文件直接影响着系统的运行状态,需要对其进行备份,查看是否备份,用命令:
#ls -l /etc/system*
如果备份了,输出的除了system文件外,还应该有system.bak或system.old等。

如果没有做备份,应对其进行备份,用命令:
#cp /etc/system /etc/system.bak
13、查看双机状态,SUN的双机,一般用sun cluster,要查看sun cluster的版本,用命令:
#scinstall -pv
要查看双机具体的配置,用命令:
#scrgadm -p
通过这个命令,可以看到双机具体的配置。

LINUX系统巡检
1、查看CPU主频和个数
#more /proc/cpuinfo
2、查看内存大小
#more /proc/meminfo
3、查看分区情况
#fdisk -l
4、查看文件系统
#df -k
5、查看系统日志
Linux的系统日志保存在/var/log/messages下,可以用more和vi查看#more /var/log/messages
6、查看系统版本
#ls -l /etc/*release
查看显示的文件即为版本文件,用more 查看
#more /etc/*release
7、查看linux系统的IP地址
#ifconfig –a。

相关文档
最新文档