IBM巡检命令

合集下载

IBM小型机检查命令

IBM小型机检查命令

三:查看报错信息主要查看硬件的永久性报错#errpt -dH | pg软件的永久性报错#errpt -dS | pg系统报警灯四、机器的序列号# uname -MuIBM,9131-52A IBM,030666C5G五、操作系统版本:#oslevel -r# oslevel -r5300-05注:有时候不能使用是因为系统版本低的原因。

六、其他检测1、执行sysdumpdev –l检查dump是否设置为always allow sysdump;# sysdumpdev -lprimary /dev/hd6secondary /dev/sysdumpnullcopy directory /var/adm/rasforced copy flag TRUEalways allow dump FALSEdump compression ON2、执行sysdumpdev –e检查当前dump大小应该为主dump设备的大小的80%以下;# sysdumpdev -e0453-041 Estimated dump size in bytes: 1704984573、执行lsvg -l rootvg检查有否"stale"状态的逻辑卷;# lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 2 4 2 open/syncd N/Ahd8 jfs2log 1 2 2 open/syncd N/Ahd4 jfs2 40 80 2 open/syncd /hd2 jfs2 8 16 2 open/syncd /usrhd9var jfs2 1 2 2 open/syncd /varhd3 jfs2 8 16 2 open/syncd /tmphd1 jfs2 40 80 2 open/syncd /homehd10opt jfs2 1 2 2 open/syncd /optfwdump jfs2 1 2 2 open/syncd /var/adm/ras/platform4、执行lsps -s检查内存交换区占用情况;# lsps -sTotal Paging Space Percent Used512MB 1%# lsps -aPage Space Physical Volume Volume Group Size %Used Active Auto Type hd6 hdisk0 rootvg 512MB 1 yes yes lv5、执行df -m检查文件系统的分配状况,一般不要超过80%;# df -mFilesystem MB blocks Free %Used Iused %Iused Mounted on/dev/hd4 10240.00 6614.88 36% 18551 2% //dev/hd2 2048.00 667.25 68% 37425 20% /usr/dev/hd9var 256.00 246.13 4% 477 1% /var/dev/hd3 2048.00 1212.24 41% 2864 2% /tmp/dev/fwdump 256.00 255.64 1% 4 1% /var/adm/ras/platform/dev/hd1 10240.00 7713.15 25% 2526 1% /home/proc - - - - - /proc/dev/hd10opt 256.00 205.61 20% 976 3% /opt6、执行lsdev –Cc disk检查硬盘状态为available;# lsdev -Cc diskhdisk0 Available 04-08-00-8,0 16 Bit LVD SCSI Disk Drivehdisk1 Available 04-08-00-5,0 16 Bit LVD SCSI Disk Drive7、执行lsdev –Cc adapter检查PCI卡状态为available;# lsdev -Cc adapterent0 Available 09-08 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902) ent1 Available 09-09 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902) ide0 Available 03-08 ATA/IDE Controller Devicelai0 Available 0C-00 GXT135P Graphics Adaptersisscsia0 Available 04-08 PCI-X Dual Channel Ultra320 SCSI Adapterusbhc0 Available 08-08 USB Host Controller (33103500)usbhc1 Available 08-09 USB Host Controller (33103500)vsa0 Available LPAR Virtual Serial Adaptervsa1 Available LPAR Virtual Serial Adapter8、执行lsdev –Cc tape检查磁带机状态为available;# lsdev -Cc tapermt0 Available 04-08-00-0,0 LVD SCSI 4mm T ape Drive9、执行lsdev – Cc processor检查CPU状态为available;# lsdev -Cc processorproc0 Available 00-00 Processorproc2 Available 00-02 Processor10、执行lsattr –El sys0|grep autorestart检查系统crash后是否自动重新启动;# lsattr -El sys0 |grep autorestartautorestart true Automatically REBOOT system after a crash True# chdev -l sys0 -a autorestart=false修改autorestart值为False;11、执行lsattr –El sys0|grep cpuguard检查CPU GUARD是否开启;# lsattr -El sys0 |grep cpuguardcpuguard enable CPU Guard True# chdev -l sys0 -a cpuguard=false修改cpuguard值为False;12、执行lsattr –El mem0检查内存状态,正常状态size=goodsize;# lsattr -El mem0goodsize 3920 Amount of usable physical memory in Mbytes Falsesize 3920 Total amount of physical memory in Mbytes False13、执行vmstat、iostat、topas观察us,sy,pi,po,内存占用率,硬盘读写速度等检查是否有性能瓶颈;a) CPU性能:使用vmstat,topas来检查;b) 内存使用情况:也是使用topas,vmstat来检查;c) 检查IO平衡使用情况:使用iostat来检查;d) 交换空间使用情况:使用lsps –a来检查;# vmstatSystem configuration: lcpu=4 mem=3920MBkthr memory page faults cpu----- ----------- ------------------------ ------------ -----------r b avm fre re pi po fr sr cy in sy cs us sy id wa1 1 147268 831951 0 0 0 0 0 02 1350 67 0 0 99 0# topasTopas Monitor for host: IBMSim EVENTS/QUEUES FILE/TTYMon Feb 25 16:21:13 2008 Interval: 2 Cswitch 66 Readch 6Syscall 1375 Writech 176Kernel 0.1 |# | Reads 0 Rawin 0User 0.1 |# | Writes 0 Ttyout 176Wait 0.0 | | Forks 0 Igets 0Idle 99.8 |############################| Execs 0 Namei 0Runqueue 0.0 Dirblk 0Network KBPS I-Pack O-Pack KB-In KB-Out Waitqueue 0.0en1 0.2 0.5 0.5 0.0 0.2en0 0.0 0.0 0.0 0.0 0.0 PAGING MEMORYlo0 0.0 0.0 0.0 0.0 0.0 Faults 0 Real,MB 3920Steals 0 % Comp 15.9Disk Busy% KBPS TPS KB-Read KB-Writ PgspIn 0 % Noncomp 2.1 hdisk0 0.0 0.0 0.0 0.0 0.0 PgspOut 0 % Client 2.1hdisk1 0.0 0.0 0.0 0.0 0.0 PageIn 0cd0 0.0 0.0 0.0 0.0 0.0 PageOut 0 PAGING SPACESios 0 Size,MB 512Name PID CPU% PgSp Owner % Used 1.1dtgreet 94318 0.1 1.3 root NFS (calls/sec) % Free 98.8topas 323676 0.0 1.0 root ServerV2 0gil 69666 0.0 0.9 root ClientV2 0 Press:X 131180 0.0 3.6 root ServerV3 0 "h" for helprpc.lock 303278 0.0 1.2 root ClientV3 0 "q" to quitsendmail 233586 0.0 0.9 rootnetm 65568 0.0 0.4 rootxmwlm 188642 0.0 0.8 rootsyncd 127070 0.0 0.5 rootxmgc 49176 0.0 0.4 rootIBM.CSMA 307368 0.0 1.9 rootpsmd 24588 0.0 0.5 rootwlmsched 73764 0.0 0.5 rootj2pg 82000 0.0 2.0 rootusbCfgDe 86080 0.0 0.4 rootdtlogin 90238 0.0 0.4 rootvmptacrt 20490 0.0 0.4 rootaioserve 98496 0.0 0.4 rootlvmbb 102476 0.0 0.4 rootdog 106622 0.0 0.9 root# iostatSystem configuration: lcpu=4 drives=3 paths=2 vdisks=0tty: tin tout avg-cpu: % user % sys % idle % iowait0.0 2.5 0.1 0.1 99.8 0.0Disks: % tm_act Kbps tps Kb_read Kb_wrtnhdisk0 0.1 0.9 0.2 87764 153601hdisk1 0.1 0.6 0.1 8694 153601cd0 0.0 0.0 0.0 0 0# lsps -aPage Space Physical Volume Volume Group Size %Used Active Auto Type hd6 hdisk0 rootvg 512MB 1 yes yes lv14、执行ifconfig -a查看网卡是否启动(UP);# ifconfig -aen0:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN >inet 192.168.3.1 netmask 0xffffff00 broadcast 192.168.3.255tcp_sendspace 131072 tcp_recvspace 65536en1:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN >inet 192.168.7.8 netmask 0xff37ff00 broadcast 192.232.7.255tcp_sendspace 131072 tcp_recvspace 65536lo0: flags=e08084b<UP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT>inet 127.0.0.1 netmask 0xff000000 broadcast 127.255.255.255inet6 ::1/0tcp_sendspace 131072 tcp_recvspace 131072 rfc1323 1#ifconfig en0 up/down修改网卡状态;15、执行netstat -in和netstat -rn观察网络状态;# netstat -rnRouting tablesDestination Gateway Flags Refs Use If Exp GroupsRoute Tree for Protocol Family 2 (Internet):default 192.168.7.253 UG 1 6141 en1 - -127/8 127.0.0.1 U 5 339 lo0 - -192.32.7.0 192.168.7.8 UHSb 0 0 en1 - - =>192.32.7 192.168.7.8 U 2 20955 en1 - -192.168.3.0 192.168.3.1 UHSb 0 0 en0 - - =>192.168.3/24 192.168.3.1 U 0 2 en0 - -192.168.3.1 127.0.0.1 UGHS 7 313 lo0 - -192.168.3.255 192.168.3.1 UHSb 0 4 en0 - -192.168.7.8 127.0.0.1 UGHS 0 1 lo0 - -192.232.7.255 192.168.7.8 UHSb 0 4 en1 - -Route Tree for Protocol Family 24 (Internet v6):::1 ::1 UH 0 0 lo0 - -# netstat -inName Mtu Network Address Ipkts Ierrs Opkts Oerrs Collen0 1500 link#2 0.14.5e.97.1.14 215 0 561 3 0en0 1500 192.168.3 192.168.3.1 215 0 561 3 0en1 1500 link#3 0.14.5e.97.1.15 37254 0 27106 7 0en1 1500 192.32.7 192.168.7.8 37254 0 27106 7 0lo0 16896 link#1 655 0 661 0 0lo0 16896 127 127.0.0.1 655 0 661 0 0lo0 16896 ::1 655 0 661 0 016、执行entstat -d enX检测网卡运行速率与交换机速率是否匹配(网卡速率由10M半工改为自适应时,缺省网关会丢失。

IBM小型机巡检命令

IBM小型机巡检命令

IBM小型机巡检命令一、检查机房温度和湿度参考值:温度(摄氏℃)10 ℃-40℃湿度8% -80%二、检查电源的检测参考值:零-地电压小于1V火-地电压200-240V三:查看报错信息主要查看硬件的永久性报错#errpt -dH | pg软件的永久性报错#errpt -dS | pg系统报警灯四、机器的序列号# uname -MuIBM,9131-52A IBM,030666C5G五、操作系统版本:#oslevel -r# oslevel -r5300-05注:有时候不能使用是因为系统版本低的原因。

六、其他检测1、执行sysdumpdev –l检查dump是否设置为always allow sysdump;# sysdumpdev -lprimary /dev/hd6secondary /dev/sysdumpnullcopy directory /var/adm/rasforced copy flag TRUEalways allow dump FALSEdump compression ON2、执行sysdumpdev –e检查当前dump大小应该为主dump设备的大小的80%以下;# sysdumpdev -e0453-041 Estimated dump size in bytes: 1704984573、执行lsvg -l rootvg检查有否"stale"状态的逻辑卷;# lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 2 4 2 open/syncd N/Ahd8 jfs2log 1 2 2 open/syncd N/Ahd4 jfs2 40 80 2 open/syncd /hd2 jfs2 8 16 2 open/syncd /usrhd9var jfs2 1 2 2 open/syncd /varhd3 jfs2 8 16 2 open/syncd /tmphd1 jfs2 40 80 2 open/syncd /homehd10opt jfs2 1 2 2 open/syncd /optfwdump jfs2 1 2 2 open/syncd /var/adm/ras/platform4、执行lsps -s检查内存交换区占用情况;# lsps -sTotal Paging Space Percent Used512MB 1%# lsps -aPage Space Physical Volume Volume Group Size %Used Active Auto Type hd6 hdisk0 rootvg 512MB 1 yes yes lv5、执行df -m检查文件系统的分配状况,一般不要超过80%;# df -mFilesystem MB blocks Free %Used Iused %Iused Mounted on/dev/hd4 10240.00 6614.88 36% 18551 2% //dev/hd2 2048.00 667.25 68% 37425 20% /usr/dev/hd9var 256.00 246.13 4% 477 1% /var/dev/hd3 2048.00 1212.24 41% 2864 2% /tmp/dev/fwdump 256.00 255.64 1% 4 1% /var/adm/ras/platform/dev/hd1 10240.00 7713.15 25% 2526 1% /home/proc - - - - - /proc/dev/hd10opt 256.00 205.61 20% 976 3% /opt6、执行lsdev –Cc disk检查硬盘状态为available;# lsdev -Cc diskhdisk0 Available 04-08-00-8,0 16 Bit LVD SCSI Disk Drivehdisk1 Available 04-08-00-5,0 16 Bit LVD SCSI Disk Drive7、执行lsdev –Cc adapter检查PCI卡状态为available;# lsdev -Cc adapterent0 Available 09-08 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902) ent1 Available 09-09 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902) ide0 Available 03-08 ATA/IDE Controller Devicelai0 Available 0C-00 GXT135P Graphics Adaptersisscsia0 Available 04-08 PCI-X Dual Channel Ultra320 SCSI Adapterusbhc0 Available 08-08 USB Host Controller (33103500)usbhc1 Available 08-09 USB Host Controller (33103500)vsa0 Available LPAR Virtual Serial Adaptervsa1 Available LPAR Virtual Serial Adapter8、执行lsdev –Cc tape检查磁带机状态为available;# lsdev -Cc tapermt0 Available 04-08-00-0,0 LVD SCSI 4mm Tape Drive9、执行lsdev – Cc processor检查CPU状态为available;# lsdev -Cc processorproc0 Available 00-00 Processorproc2 Available 00-02 Processor10、执行lsattr –El sys0|grep autorestart检查系统crash后是否自动重新启动;# lsattr -El sys0 |grep autorestartautorestart true Automatically REBOOT system after a crash True# chdev -l sys0 -a autorestart=false修改autorestart值为False;11、执行lsattr –El sys0|grep cpuguard检查CPU GUARD是否开启;# lsattr -El sys0 |grep cpuguardcpuguard enable CPU Guard True# chdev -l sys0 -a cpuguard=false修改cpuguard值为False;12、执行lsattr –El mem0检查内存状态,正常状态size=goodsize;# lsattr -El mem0goodsize 3920 Amount of usable physical memory in Mbytes Falsesize 3920 Total amount of physical memory in Mbytes False13、执行vmstat、iostat、topas观察us,sy,pi,po,内存占用率,硬盘读写速度等检查是否有性能瓶颈;a) CPU性能:使用vmstat,topas来检查;b) 内存使用情况:也是使用topas,vmstat来检查;c) 检查IO平衡使用情况:使用iostat来检查;d) 交换空间使用情况:使用lsps –a来检查;# vmstatSystem configuration: lcpu=4 mem=3920MBkthr memory page faults cpu----- ----------- ------------------------ ------------ -----------r b avm fre re pi po fr sr cy in sy cs us sy id wa1 1 147268 831951 0 0 0 0 0 02 1350 67 0 0 99 0# topasTopas Monitor for host: IBMSim EVENTS/QUEUES FILE/TTYMon Feb 25 16:21:13 2008 Interval: 2 Cswitch 66 Readch 6 Syscall 1375 Writech 176Kernel 0.1 |# | Reads 0 Rawin 0User 0.1 |# | Writes 0 Ttyout 176Wait 0.0 | | Forks 0 Igets 0Idle 99.8 |############################| Execs 0 Namei 0 Runqueue 0.0 Dirblk 0Network KBPS I-Pack O-Pack KB-In KB-Out Waitqueue 0.0en1 0.2 0.5 0.5 0.0 0.2en0 0.0 0.0 0.0 0.0 0.0 PAGING MEMORYlo0 0.0 0.0 0.0 0.0 0.0 Faults 0 Real,MB 3920Steals 0 % Comp 15.9Disk Busy% KBPS TPS KB-Read KB-Writ PgspIn 0 % Noncomp 2.1 hdisk0 0.0 0.0 0.0 0.0 0.0 PgspOut 0 % Client 2.1hdisk1 0.0 0.0 0.0 0.0 0.0 PageIn 0cd0 0.0 0.0 0.0 0.0 0.0 PageOut 0 PAGING SPACESios 0 Size,MB 512Name PID CPU% PgSp Owner % Used 1.1dtgreet 94318 0.1 1.3 root NFS (calls/sec) % Free 98.8topas 323676 0.0 1.0 root ServerV2 0gil 69666 0.0 0.9 root ClientV2 0 Press:X 131180 0.0 3.6 root ServerV3 0 "h" for helprpc.lock 303278 0.0 1.2 root ClientV3 0 "q" to quitsendmail 233586 0.0 0.9 rootnetm 65568 0.0 0.4 rootxmwlm 188642 0.0 0.8 rootsyncd 127070 0.0 0.5 rootxmgc 49176 0.0 0.4 rootIBM.CSMA 307368 0.0 1.9 rootpsmd 24588 0.0 0.5 rootwlmsched 73764 0.0 0.5 rootj2pg 82000 0.0 2.0 rootusbCfgDe 86080 0.0 0.4 rootdtlogin 90238 0.0 0.4 rootvmptacrt 20490 0.0 0.4 rootaioserve 98496 0.0 0.4 rootlvmbb 102476 0.0 0.4 rootdog 106622 0.0 0.9 root# iostatSystem configuration: lcpu=4 drives=3 paths=2 vdisks=0tty: tin tout avg-cpu: % user % sys % idle % iowait0.0 2.5 0.1 0.1 99.8 0.0Disks: % tm_act Kbps tps Kb_read Kb_wrtnhdisk0 0.1 0.9 0.2 87764 153601hdisk1 0.1 0.6 0.1 8694 153601cd0 0.0 0.0 0.0 0 0# lsps -aPage Space Physical Volume Volume Group Size %Used Active Auto Typehd6 hdisk0 rootvg 512MB 1 yes yes lv14、执行ifconfig -a查看网卡是否启动(UP);# ifconfig -aen0:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64 BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN>inet 192.168.3.1 netmask 0xffffff00 broadcast 192.168.3.255tcp_sendspace 131072 tcp_recvspace 65536en1:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64 BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN>inet 192.168.7.8 netmask 0xff37ff00 broadcast 192.232.7.255tcp_sendspace 131072 tcp_recvspace 65536lo0:flags=e08084b<UP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT> inet 127.0.0.1 netmask 0xff000000 broadcast 127.255.255.255inet6 ::1/0tcp_sendspace 131072 tcp_recvspace 131072 rfc1323 1#ifconfig en0 up/down修改网卡状态;15、执行netstat -in和netstat -rn观察网络状态;# netstat -rnRouting tablesDestination Gateway Flags Refs Use If Exp GroupsRoute Tree for Protocol Family 2 (Internet):default 192.168.7.253 UG 1 6141 en1 - -127/8 127.0.0.1 U 5 339 lo0 - -192.32.7.0 192.168.7.8 UHSb 0 0 en1 - - =>192.32.7 192.168.7.8 U 2 20955 en1 - -192.168.3.0 192.168.3.1 UHSb 0 0 en0 - - =>192.168.3/24 192.168.3.1 U 0 2 en0 - -192.168.3.1 127.0.0.1 UGHS 7 313 lo0 - -192.168.3.255 192.168.3.1 UHSb 0 4 en0 - -192.168.7.8 127.0.0.1 UGHS 0 1 lo0 - -192.232.7.255 192.168.7.8 UHSb 0 4 en1 - -Route Tree for Protocol Family 24 (Internet v6):::1 ::1 UH 0 0 lo0 - -# netstat -inName Mtu Network Address Ipkts Ierrs Opkts Oerrs Collen0 1500 link#2 0.14.5e.97.1.14 215 0 561 3 0en0 1500 192.168.3 192.168.3.1 215 0 561 3 0en1 1500 link#3 0.14.5e.97.1.15 37254 0 27106 7 0en1 1500 192.32.7 192.168.7.8 37254 0 27106 7 0lo0 16896 link#1 655 0 661 0 0lo0 16896 127 127.0.0.1 655 0 661 0 0lo0 16896 ::1 655 0 661 0 016、执行entstat -d enX检测网卡运行速率与交换机速率是否匹配(网卡速率由10M半工改为自适应时,缺省网关会丢失。

IBM小型机巡检内容及操作指导

IBM小型机巡检内容及操作指导

IBM小型机巡检内容及操作指导一、巡检内容:1.确认机房环境:检查机房温湿度是否正常,观察机房是否通风良好,排查是否存在灰尘、杂物等对机器运行造成的影响。

2.检查电源供应:检查电源线是否正常连接,确认主机和外围设备的电源是否正常工作。

3.确认网络连接:检查网络线是否正常连接,确认小型机与其他设备、服务器的网络连接是否正常。

4.检查主机状态:确认小型机主机的状态是否正常,例如观察指示灯是否正常亮起,听觉上是否存在异常噪音等。

5.检查存储设备:检查存储设备(如硬盘、光驱等)是否正常运作,确认是否存在故障或异常。

6.检查数据备份:确认小型机的数据备份是否按照设定时间和规则进行,并进行验证备份数据的可用性。

7.检查软件运行:确认小型机上安装的软件是否正常运行,是否存在异常报错等情况。

8.检查安全性:确认小型机上的安全措施是否完善,例如防火墙的配置、病毒防护软件的更新等。

9.备份日志文件:对小型机的日志文件进行备份,以便后续查阅和分析问题。

10.更新系统和软件:对小型机的操作系统和安装的软件进行更新和升级,以确保系统的安全性和稳定性。

二、巡检操作指导:1.确保巡检前机器处于关闭状态,并断开电源线。

2.进入机房后,首先检查机房环境是否正常,如温湿度、通风等。

3.检查电源供应:确认主机和外围设备的电源线是否正常连接,然后接通电源线并开机。

4.检查网络连接:确保网络线与小型机的网口连接正常,并通过网络测试工具检查网络连接是否正常。

5.检查主机状态:观察小型机主机状态指示灯是否正常亮起,听音觉察是否有异常噪音。

6.检查存储设备:通过操作系统的设备管理工具检查存储设备的状态,如硬盘是否正常运行、光驱是否可用等。

7.检查数据备份:登录小型机系统,查看备份工具的设置和备份日志,确认数据备份是否按照规则进行,并验证备份数据的可用性。

8.检查软件运行:登录小型机系统,运行安装好的软件,检查是否存在异常报错等情况。

9.检查安全性:登录小型机系统,确认防火墙的配置是否符合规范,病毒防护软件是否及时更新。

IBM小机巡检报告格式

IBM小机巡检报告格式
正常□
异常□
检查路由表
执行命令:
netstat -rn
检查系统网关是否有配置,各个路由表是否正确。
正常□
异常□
检查群集进程
执行命令:
lssrc–g cluster
检查群集进程是否开启,默认情况下
clstrmgrES该进程应该是激活的。
正常□
异常□
检查群集状态执行命令:clstat -a检查当前群集状态,各个网卡接口状态是否为UP;各个资源组状态是否为online。
检查系统卷组的镜像状态。
各个逻辑卷的PPs数量应该为LPs数量的整数倍,倍数大于1并且能被PVs整除,表示卷组已经作镜像。
各个逻辑卷的LV STATE应该为syncd,否则表示镜像不同步。
各个逻辑卷的LV STATE应该为syncd,否则表示镜像不同步。
正常□
异常□
文件系统
执行命令:
df -k
检查已经挂载的文件系统的使用状态。
重点检查/(根) /tmp(临时)/var (日志文件)这些动态文件系统的使用率最好保持在70%以下。
正常□
异常□
错误日志
执行命令:
errpt
检查系统日志是否有硬件或软件方面的永久错误。若发现错误类型为P的信息,则需要注意。
正常□
异常□
网卡配置情况
执行命令:
ifconfig–a
检查各个网卡的配置情况,状态是否为UP,检查ip地址和子网掩码等配置是否正确。
CPU状态为Available,表示CPU使用正常
正常□
异常□
内存
执行命令:
lsattr–El mem0
检查内存数量及状态。
size与goodsize的数量相等表示内存使用正常

ibm巡检+性能参数收集-digitalchina

ibm巡检+性能参数收集-digitalchina
echo "no -a"
no -a
no -a|grep space
no -a|grep wait
no -a|grep rfc
echo "ioo -a"
ioo -a
echo "lslpp -l"
lslpp -l
echo "lslpp -l|grep cluster" ቤተ መጻሕፍቲ ባይዱ
lslpp -l|grep cluster
echo "lsdev -Cc disk"
lsdev -Cc disk
echo "lsdev -Cc cdrom"
lsdev -Cc cdrom
echo "lsdev -Cc if"
lsdev -Cc if
echo "lsdev -Cc tty"
lsdev -Cc tty
echo "lsdev -Cc adapter"
oslevel -r
echo "instfix -i|grep ML"
instfix -i|grep ML
echo "lscfg -vp|grep alterable"
lscfg -vp|grep alterable
lscfg -vp|grep -p Platform
echo "bootinfo -K"
bootlist -m normal -o
echo "instfix -i"
instfix -i
echo "oslevel -r"

ibm服务器全面巡检流程

ibm服务器全面巡检流程

IBM服务器巡检流程
1、检查系统硬件情况:设备故障灯是否有亮
2、系统错误报告(errlog)
3、有否发给root用户的错误报告(mail)
4、检查hacmp.out,smit.log,boot.log
5、关键系统的文件使用率不大于80%
6、逻辑卷有否stale
7、内存交换区使用率是否超过70%
8、内存交换区的大小是否为物理内存的1.5倍
9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗)
10、通信(网卡、IP、路由表、ping、/etc/hosts、DNS设置等)
11、是否有数据保护方式如RAID10/RAID5,是否有Hot spare
12、系统DUMP设置是否正确
13、检查系统参数是否正确
1)/etc/enviroment中的TZ不能有夏时制
2)如有数据库:Aio:available
3)HACMP中I/O pacing:High Water Mark/Low Water MArk:33/24
4)HACMP中Syncd:10
5)HACMP中Power Monitor:off
14、检查rootvg是否有镜象
15、检查errdemon,srcmstr是否正常运行
16、机房环境(电压、湿度)
17、系统性能:有否性能瓶颈(topas,vmstat)
18、补丁程序(PTF)、微码(是否需要升级)
19、HACMP测试:Cluster Verification
20、系统硬件诊断
21、运行#snap -ac,生成文件snap+s/n.pax.Z
22、机器清洁。

IBM命令

IBM命令

1、检查系统硬件情况设备故障灯是否有亮包括硬盘,阵列,光纤交换机,系统故障灯,磁带机等是否有其它异常情况2、系统错误报告(ERROR LOG),errpt是否有硬件故障是否有软件故障3、有否发给ROOT用户的错误报告(MAIL)root用户下执行mail4、关键文件系统的使用率不大于80%df –k5、逻辑卷:有否“STALE”状态的逻辑卷lsvg –l rootvg6、页面空间使用率是否超过70%lsps –a7、内存交换区的大小是否为物理内存的2倍此项根据物理内存大小区别对待如果内存4g,则大小为2倍如果内存>4g,则大小与内存一样即可8、系统备份:是否有符合要求的系统备份:最后一次系统备份的时间:是否符合要求的用户数据备份:运行lsdev 命令配以各种参数,所列各种设备状态都应为Available。

#lsdev –C –H –S a 列出系统中可用设备。

#lsdev –Cc processor 列出系统中的所有CPU。

#lsdev –Cc memory 列出系统中的所有内存。

#lsdev –Cc disk 列出系统中的所有硬盘。

#lsdev -Cc adapter | grep ent 列出系统中的所有网卡#lsdev -Cc adapter | grep scsi 列出系统中的所有SCSI卡。

#lsdev -Cc adapter | grep ssa 列出系统中的所有SSA卡。

lsattr命令# lsattr –El mem0 列出系统中内存mem0的大小。

9、通信:网卡的状态、IP地址、路由表等网卡通信(ping)/etc/hosts 或DNSifconfig –anetstat –inlsattr –El inet0netstat –rnnslookup10、是否有数据保护方式如raid10/raid5,是否有hot spare 主要是磁盘阵列,或根卷组磁盘镜像磁盘阵列的raid与hotspare为硬件级别,可通过软件查看根卷组磁盘镜像可以通过lsvg –l rootvg查看lp与pp对比11、机房环境电源电压____零地电压_____温度、湿度_____12、机器清洁(根据需要清洁机器各部件)主要是磁带机以及外面板灰尘13、补丁程序(PTF)系统补丁级别:oslevel –r 、instfix –i | grep ML最新补丁级别:微代码(MICROCODE)系统微代码:lscfg -vp | grep alt最新微代码:网卡、控制卡、硬盘微码是否需要升级lscfg -vp请与客户沟通是否需要升级系统补丁和微码14、系统硬件诊断主要通过查看errpt,diag执行系统板、CPU、内存、I/O板网卡、SCSI卡、SSA卡系统其它扩展卡硬盘、磁盘阵列磁带机、磁带库15、检查hacmp.out smit.log bootlog,wtmp等日志文件 tail –100 hacmp.outtail -100 smit.logalog –t boot –olast16、系统性能内存:svmon、lsps -aCpu :sar硬盘:iostat文件系统:filemon其他命令:vmstat、topas、lvmstat17、DUMP设备的检查sysdumdev -l18、磁带机是否需要清洗/usr/lpp/diagnostics/bin/utape -cd rmt0 –n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗19、系统参数的检查1).HIGH water mark for pending write I/Os# lsattr -El sys0 |grep maxpout输出判断:吗,、结果应为maxpout 33 HIGH water mark for pending write I/Os per file True 2).LOW water mark for pending write I/Os# lsattr -El sys0|grep minpout输出判断:结果应为minpout 24 LOW water mark for pending write I/Os per file True更改命令为:#chdev -l sys0 -a maxpout='33' -a minpout='24'3).Syncd参数# grep syncd /sbin/rc.boot输出判断:结果应为nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &更改命令为:#vi /sbin/rc.boot4).aio参数# lsdev -Cc aio输出判断:结果应为aio0 Available Asynchronous I/O# lsattr -El aio0输出判断:结果应为minservers 1 MINIMUM number of servers True maxservers 10 MAXIMUM number of servers True maxreqs 4096 Maximum number of REQUESTS True kprocprio 39 Server PRIORITY Trueautoconfig available STATE to be configured at system restart True fastpath enable State of fast path True更改命令为:#smitty aio5) /etc/environment文件中TZ不应有夏时制20、检查errdemon, srcmstr是否正常运行lssrc –s errdemonlssrc –s srcmstrps –ef | grep erredps –ef | grep srcm21、收集系统信息运行#snap –ac在/tmp/ibmsupt目录下生成压缩文件snap.pax.Zzcat snap.pax.Z | pax -rv 解压到当前目录巡检命令:1.检查机器名和SN:#uname -Mu #hostname2.OS版本: #oslevel -s 或者#oslevel -r3.Disk空间:#df -m-----是否有超过90%的文件系统4.rootvg 是否备份:#lsvg -L rootvg5.错误日志:#errpt #errpt -a #errpt -dH #errpt -aj ******(错误日志代码)6.Console错误日志:#alog -ot console7.hacmp的日志: #lssrc -g cluster-----hacmp的进程#cat /usr/es/adm/cluster.log8.虚拟内存:#vmstat 2 10 (每隔2秒中显示一次,共显示10次)9.I/O性能:#iostat 2 10 (每隔2秒中显示一次,共显示10次)10.topas-------纯粹给客户看的,结果不能保存。

ibm小型机巡检命令

ibm小型机巡检命令

ibm小型机巡检命令hostname主机名oslevel -s现实系统当前版本lsdev -Cc disk显示系统中的硬盘lscfg -vpl hdiskX显示硬盘X的配置信息lsvg -l rootvg显示根卷组逻辑信息lsvg -p rootvg显示根卷组的物理信息errpt显示错误信息errpt -a|more显示错误详细信息并分页errpt -aj ec0bccd4(错误标示符)显示单个错误的详细信息mail显示是否有maildf -g显示文件系统空间使用率(90%引起注意)lsps -a分页空间利用率(70%引起注意)sar 1 5实时cpu内存使用情况topas系统实时显示ifconfig -a显示网卡状态和ip地址netstat -in显示网络信息lsvg rootvg显示根卷组的详细信息10/100/1000 Base-TX PCI-X(网卡兼容的速率)1. 查看逻辑CPU个数#pmcycles -mCPU 0 runs at 4204 MHzCPU 1 runs at 4204 MHzCPU 2 runs at 4204 MHzCPU 3 runs at 4204 MHzCPU 4 runs at 4204 MHzCPU 5 runs at 4204 MHzCPU 6 runs at 4204 MHzCPU 7 runs at 4204 MHz上面描述有8个CPU,CPU的主频为4.2G赫兹2. 查看物理CPU个数#prtconf|grep ProcessorsNumber Of Processors: 43. 确定CPU是几核用逻辑CPU除以物理CPU就是核数。

4. 查看单个CPU的详细信息#lsattr -E -l proc0frequency 4204000000 Processor Speed False smt_enabled true Processor SMT enabled False smt_threads 2 Processor SMT threads False state enable Processor state Falsetype PowerPC_POWER6 Processor type Falsecd /usr/lpp/diag*/bin./usysfault查看面板故障灯是否出现故障、。

IBM RX6000巡检指导手册

IBM RX6000巡检指导手册

RS/6000巡检指导手册1. 模板说明目前,针对服务项目我们提供了两个文档模板:《服务项目信息》模板和《巡检报告》模板。

《服务项目信息》主要是用于收集服务项目详细的技术信息,以便于发生故障时尽快解决问题。

一般在第一次巡检完成,如果系统发生调整,可在后面的巡检中更新。

《服务项目信息》作为内部文档,对格式不做硬性,可以将收集的文本信息嵌入到Word文档中,但是内容需要保证。

《巡检报告》是平时巡检时使用的,记录的信息比较简单,主要是常规的信息。

2. 巡检准备工作第一次巡检一般就是该服务项目的项目启动,工程师需要与项目经理一起了解服务合同的内容,与用户联系,确认服务内容,并准备《日常维护手册》。

在巡检之后需要完成《服务项目信息》、《巡检报告》,对于重大项目,需要完成《应急方案》。

《日常维护手册》和《巡检报告》在第一次巡检完成之后提交给用户。

《服务项目信息》主要是内部使用,不需要提交给用户。

在后面的巡检之前,工程师应该了解该项目的《服务项目信息》、《巡检报告》和《应急方案》。

巡检出发前应该主动与用户联系何时开始巡检,巡检的时间根据用户的需要来安排在工作时间或者非工作时间。

一般来说,巡检只查看机器的状态,不会对机器的配置进行修改,巡检可以安排在工作时间。

如果用户有别的顾虑,可以把巡检安排在非工作时间。

如果合同规定的服务范围包括HA (HACMP/PowerHA),建议用户留出时间来进行HA测试,以确保发生故障时能够正常切换。

3. IBM RS/6000服务器3.1 硬件检查3.1.1 检查系统物理状态先从外观上检查硬件情况,检查设备故障灯是否有亮。

各种设备上都有故障指示灯,通常为橘红色并有“~”标记。

同时注意服务器的LCD面板,设备发生故障时通常伴有出错代码,必须把所有故障代码记录下来。

除此以外还应注意有否其他异常情况(如硬盘、风扇异常的声音,电缆破损等)。

3.1.2 检查硬件错误日志使用“errpt –d H”命令检查硬件错误报告。

IBM巡检流程

IBM巡检流程

1、检查系统硬件情况:设备故障灯是否有亮2、系统错误报告(errlog)3、有否发给root用户的错误报告(mail)4、检查hacmp.out,smit.log,boot.log5、关键系统的文件使用率不大于80%6、逻辑卷有否stale7、内存交换区使用率是否超过70%8、内存交换区的大小是否为物理内存的1.5倍9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗)10、通信(网卡、IP、路由表、ping、/etc/hosts、DNS设置等)11、是否有数据保护方式如RAID10/RAID5,是否有Hot spare12、系统DUMP设置是否正确13、检查系统参数是否正确1)/etc/enviroment中的TZ不能有夏时制2)如有数据库:Aio:available3)HACMP中I/O pacing:High Water Mark/Low Water MArk:33/244)HACMP中Syncd:105)HACMP中Power Monitor:off14、检查rootvg是否有镜象15、检查errdemon,srcmstr是否正常运行16、机房环境(电压、湿度)17、系统性能:有否性能瓶颈(topas,vmstat)18、补丁程序(PTF)、微码(是否需要升级)19、HACMP测试:Cluster Verification20、系统硬件诊断21、运行#snap -ac,生成文件snap+s/n.pax.Z22、机器清洁注:1~15为A类维护(季度维护),16~18为B类维护(半年维护),19~22为C类维护(年度维护1、检查系统硬件情况:设备故障灯是否有亮2、系统错误报告(errlog)errpt -d H -T PERM对有怀疑的进一步:errpt -aj 错误代码|more3、有否发给root用户的错误报告(mail)mail4、检查hacmp.out,smit.log,boot.logcd /tmpls hacmp.out*找到时间最近的字节不为零的文件,vi查看如果怀疑系统曾经有调整操作,检查/smit.logalog -ot boot5、关键系统的文件使用率不大于80%df -k查看%Used6、逻辑卷有否stalelsvg -l 卷组名称查看状态是否有stale的逻辑卷7、内存交换区使用率是否超过70%lsps -a查看占用率是否超过70%8、内存交换区的大小是否为物理内存的1.5倍命令同上现在原则有所改变,2G内存以下可按照1.5倍的标准,2G内存以上如果交换区占用率不高,可用2GB 标准9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗)口头询问:系统备份、数据备份检查磁带机面板,提醒用户清洗10、通信(网卡、IP、路由表、ping、/etc/hosts、DNS设置等)netstat -innetstat -rnnetstat -ivi /etc/hosts检查DNS相关文件内容11、是否有数据保护方式如RAID10/RAID5,是否有Hot spare如果是7133,diag→T ask Selection→SSA Service Aids→Link Verification,smitty ssaraid FAStT产品使用其管理软件Storage Manager查看ESS使用ESS控制台查看12、系统DUMP设置是否正确sysdumpdev -l13、检查系统参数是否正确1)/etc/environment中的TZ不能有夏时制vi /etc/environment检查环境变量TZ,其格式应该是这样:TAIST-8,而不能是TAIST-8TAIDT-7这样的格式2)如有数据库:Aio:availablelsdev -C|grep aio查看其状态是否available如不是:smitty chgaio,将状态修改为available,重启系统3)HACMP中I/O pacing:High Water Mark/Low Water MArk:33/24如果系统中运行了HACMPsmitty chgsysy,将High/Low water mark从0/0修改为33/244)HACMP中Syncd:10如果系统运行了HACMP查看/etc/inittab,将syncd后次参数修改为10,然后telinit q,kill -9 "syncd's PID"5)HACMP中Power Monitor off14、检查rootvg是否有镜象lsvg -l rootvg查看镜像15、检查errdaemon,srcmstr是否正常运行ps -ef|grep errps -ef|grep src16、机房环境(电压、湿度)基本要求:零地电位差不得大于1V;严格要求:零地电阻<=1Ω(国内没几个能做到,〈=3Ω就差不多了)湿度:45%—70%17、系统性能:有否性能瓶颈(topas,vmstat)18、补丁程序(PTF)、微码(是否需要升级)instfix -i|grep ML查看补丁级别及是否完整;lscfg -vp检查所有硬件设备微码19、HACMP测试:Cluster Verificationsmitty hacmp→Cluster Configuration→Cluster Verification20、系统硬件诊断diag→Advanced Diagnos...→Problem Determination21、运行#snap -ac,生成文件snap+s/n.pax.Z22、机器清洁。

迈普路由交换巡检命令

迈普路由交换巡检命令

迈普路由交换巡检命令检查的设备命令清单如下:路由器/交换机:(命令用telnet的方式可以一次粘贴完,但用console一次只能粘贴一小段,而网点交换机无法做,只能用console 手工输入,telnet方式收集的信息不全,命令在底下)!more offterminal monitor!show clockshow ntp status!spy cpumonitor cpushow cpu monitorshow memory!show run!show start!show interfaceshow interface gigaethernet0show interface gigaethernet1show interface gigaethernet2show interface gigaethernet3show interface gigaethernet0/0show interface gigaethernet0/1show interface gigaethernet0/2show interface gigaethernet1/0show interface gigaethernet1/1show interface gigaethernet1/2!show portshow port brieshow port statisticsshow ip interface briefshow ip interfaceshow storm-controlshow loopback-detectionshow link-aggregationshow link-aggregation group 1show link-aggregation portshow spanning-tree mst instance 0show spanning-tree mst instance 0 detail bridge 0 show spanning-tree mst instance 1show spanning-tree mst instance 1 detail bridge 1 show spanning-tree mst instance 2show spanning-tree mst detailshow spanning-tree mst detail bridge 0show spanning-tree mst configurationshow spanning-tree mst configuration bridge 0 show spanning-tree mstshow vlanshow ulfd allshow arp allshow arpshow mac-address allshow deviceshow errdisable recovershow errdisable detect!show aboutshow environmentshow env-listshow system powershow system chassisshow system fanshow system lpushow system mpushow system siushow system sfushow redundancy detailshow redundancy statusshow standbyshow ham mpushow ham geninfoshow mphsp statistic!!show vrrpshow vrrp timershow policy-map statistics !!show userswhoshow ip routeshow ip route statistic show ip irmp neishow ip irmp nei det show ip irmp topshow ip irmp top act show ip irmp top det show ip irmp trafficshow ip ospf core-info show ip ospf neishow ip ospf nei interface show ip ospf database show ip ospf request-list show ip ospf protocols show run router ospfshow ip route ospfshow ip route rip show ip rip databaseshow ip bgpshow ip bgp summary show ip bgp dampening show ip bgp neighborsshow bfd session all!show ip route statisticshow file location show flashshow filesystemdirshow boot-loaderdir /systemdir /flash!!show policy-map statistics interface show traffic-shape!!show frame-relay lmishow frame-relay pvcshow frame-relay pvc 100show frame-relay mapshow frame-relay traffic!show cpu!show loggshow logg buffershow tech!more onno spy cpu!。

IBM DS8000系列巡检方法

IBM DS8000系列巡检方法

DS8000系列巡检方法一、查看Open Service Event1.登陆HMC,Web-based System Manager(WebSM)会自动打开。

用户名:CE密码:serv1cece (中间为数字1)2.选择Service Focal Point中的Manage Serviceable Events:3.默认选项是只查看“OPEN”的Service Event:4.正常情况下不应该有OPEN的Service Event:5.如果有OPEN的Service Event,可以看到Event的ID、SRC号码、首次发现时间和最后一次的发现时间。

可以选择“View Details”查看Event的Detail:6.可以看到Event所指向的备件号、描述和位置号Location Code:注意:并不是每一种Event都会使DS8000的故障灯亮起。

因此就算故障灯没有亮起,都要查看Open Service Event和运行End Of Call!!!如果Event的“Notification Type”是“Call Home and Customer Notify Required”,那么故障灯会马上亮起,机器也会Call Home(如果已配置Call Home);如果Event的“Notification Type”是“No Call Home and Customer Notify Required”,那么故障灯不会亮起,机器也不会Call Home(例如DDM故障状态是Deferred Service)二、运行“View Storage Facility State”检查DS8K状态1.打开Service Focal Point,选择Service Utilities2.在弹出的窗口中选中相应的Storage Facility3.在“Selected”菜单中选择“View Storage Facility State”4.系统检查会运行3至5分钟:5.结果如下。

IBM小型机巡检报告

IBM小型机巡检报告

IBM Pxxx小型机服务报告目录前言 (4)第一章系统健康档案 (4)1.1 CPU与内存 (4)1.1.1 处理器数量 (4)1.1.2 处理器物理位置 (4)1.1.3 处理器主频和类型 (4)1.1.4 内存大小 (4)1.1.5 内存类型及物理位置 (5)1.2 ADAPTER (5)1.3 硬盘 (5)1.4 光驱和磁带机等其他设备 (5)1.5 逻辑卷及文件系统配置 (6)1.5.1 rootvg (6)第二章系统软件档案 (7)2.1 操作系统版本及升级建议 (7)2.2 主机微码版本及升级建议 (7)2.3 高可用性集群软件配置情况 (7)第三章系统性能分析报告 (8)第四章问题汇总与分析报告 (9)4.1 问题记录 (9)4.2 问题分析 (9)前言该机SN号为:xxxxxxx ,作为xxx应用服务器。

第一章系统健康档案1.1 CPU与内存1.1.1 处理器数量#lsdev -Ccprocessor* 共有——颗处理器1.1.2 处理器物理位置#lscfg –vp|grep proc有两块处理器卡,proc0-proc7 在C1卡上;proc16-proc23在C4 CPU卡上1.1.3 处理器主频和类型#lsattr -El proc01.1.4 内存大小#lsdev -Ccmemory#lsattr -El L2cache0#lsattr -El mem0共32G内存1.1.5 内存类型及物理位置#lscfg –vp –l mem0有4块8192MB内存卡,具体位置如下:1.2 ADAPTER#lsdev -Ccadapter1.3 硬盘#lsdev -Ccdiskhdisk0与hdisk1是内置硬盘hdisk2-hdisk49是P670通过光通道卡fcs0、fcs1识别IBM FC2105磁盘阵列的逻辑硬盘设备号#lsvpcfg特别提醒:不要将hdsik2-hdisk49加入任何卷组(VG)中;必须用vpath0-vpath12设备号创建卷组(VG)内置硬盘大小:1.4 光驱和磁带机等其他设备#lsdev -Cctape#lscfg –vp -l rmt0#lsdev -Cccdrom.1.5 逻辑卷及文件系统配置注:每个VG一个章节,参考本文档#lspv#lsvg 系统定义的卷组#lsvg –o 系统激活的卷组#df –k 列出文件系统使用情况1.5.1 rootvg#lsvg -l rootvg#lsvg rootvg第二章系统软件档案2.1 操作系统版本及升级建议#oslevel –s当前系统版本为:目前系统运行稳定,征求客户意见后,不建议升级2.2 主机微码版本及升级建议#lsmcode当前系统微码版本为:目前系统运行稳定,征求客户意见后,不建议升级2.3 高可用性集群软件配置情况#lslpp –l|grep cluster目前该机没有运行高可用性软件注:如果安装配置了集群软件请给出详细配置信息第三章系统性能分析报告监控时间为上午8点49分至第二天下午2点49分,每分钟报告一次系统性能。

IBM小型机巡检

IBM小型机巡检

IBM小型机巡检将以前网上down的资料整理了一下1、检查系统硬件情况设备故障灯是否有亮包括硬盘,阵列,光纤交换机,系统故障灯,磁带机等是否有其它异常情况2、系统错误报告(ERROR LOG),errpt是否有硬件故障是否有软件故障3、有否发给ROOT用户的错误报告(MAIL)root用户下执行mail4、关键文件系统的使用率不大于80%df –k5、逻辑卷:有否“STALE”状态的逻辑卷lsvg –l rootvg6、页面空间使用率是否超过70%lsps –a7、内存交换区的大小是否为物理内存的2倍此项根据物理内存大小区别对待如果内存<4g,则大小为2倍如果内存>4g,则大小与内存一样即可8、系统备份:是否有符合要求的系统备份:最后一次系统备份的时间:是否符合要求的用户数据备份:9、通信:网卡的状态、IP地址、路由表等网卡通信(ping)/etc/hosts 或DNSifconfig –anetstat –inlsattr –El inet0netstat –rnnslookup10、是否有数据保护方式如raid10/raid5,是否有hot spare主要是磁盘阵列,或根卷组磁盘镜像磁盘阵列的raid与hotspare为硬件级别,可通过软件查看根卷组磁盘镜像可以通过lsvg –l rootvg查看lp与pp对比11、机房环境电源电压____零地电压_____温度、湿度_____12、机器清洁(根据需要清洁机器各部件)主要是磁带机以及外面板灰尘13、补丁程序(PTF)系统补丁级别:oslevel –r 、instfix –i | grep ML最新补丁级别:微代码(MICROCODE)系统微代码:lscfg -vp | grep alt最新微代码:网卡、控制卡、硬盘微码是否需要升级lscfg -vp请与客户沟通是否需要升级系统补丁和微码14、系统硬件诊断主要通过查看errpt,diag执行系统板、CPU、内存、I/O板网卡、SCSI卡、SSA卡系统其它扩展卡硬盘、磁盘阵列磁带机、磁带库15、检查hacmp.out smit.log bootlog,wtmp等日志文件tail –100 hacmp.outtail -100 smit.logalog –t boot –olast16、系统性能内存:svmon、lsps -aCpu :sar硬盘:iostat文件系统:filemon其他命令: vmstat、topas、lvmstat17、DUMP设备的检查sysdumdev -l18、磁带机是否需要清洗/usr/lpp/diagnostics/bin/utape -cd rmt0 –n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗19、系统参数的检查1).HIGH water mark for pending write I/Os# lsattr -El sys0 |grep maxpout输出判断:结果应为maxpout 33 HIGH water mark for pending write I/Os per file True2).LOW water mark for pending write I/Os# lsattr -El sys0|grep minpout输出判断:结果应为minpout 24 LOW water mark for pending write I/Os per file True更改命令为:#chdev -l sys0 -a maxpout='33' -a minpout='24'3).Syncd参数# grep syncd /sbin/rc.boot输出判断:结果应为nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &更改命令为:#vi /sbin/rc.boot4).aio参数# lsdev -Cc aio输出判断:结果应为aio0 Available Asynchronous I/O# lsattr -El aio0输出判断:结果应为minservers 1 MINIMUM number of servers Truemaxservers 10 MAXIMUM number of servers Truemaxreqs 4096 Maximum number of REQUESTS Truekprocprio 39 Server PRIORITY Trueautoconfig available STATE to be configured at systemrestart Truefastpath enable State of fast path True更改命令为:#smitty aio5) /etc/environment文件中TZ不应有夏时制20、检查errdemon, srcmstr是否正常运行lssrc –s errdemonlssrc –s srcmstrps –ef | grep erredps –ef | grep srcm21、收集系统信息运行#snap –ac在/tmp/ibmsupt目录下生成压缩文件snap.pax.Z zcat snap.pax.Z | pax -rv 解压到当前目录。

IBM 小型机巡检服务报告

IBM 小型机巡检服务报告
正常
异常说明:
卷组(VG)配置,检查VG状态是否可用,逻辑卷状态是否为syncd
# lsvg –l vgname
正常
异常说明:
检查是否有磁盘镜象/Raid数据保护
# lsvg –l vgname / smitty检查Raid情况
正常
异常说明:
缓冲区信息
# lsps -a
正常
异常说明:
文件系统信息
# df -k
正常
异常说明:
系统日志检查
系统日志
#errpt
正常
异常说明:
系统邮件
#mail检查有无报错
正常
异常说明:
上次启动时间
# boot
正常
异常说明:
系统备份检查
有否合符要求的系统备份
询问系统管理员

否说明:
最近的一次备份时间
询问系统管理员
记录:
是否存在系统备份策略并执行
#lscfg –Cc |grepSystemFirmware
#prtconf |grep Firmware
记录:
系统版本/维护级别
# oslevel -r
记录:
/etc/environmen不能有夏时制
# echo $TZ
正常
异常说明:
AIO是否激活
# lsdev -Cc aio
正常
异常说明:
网卡状态
# ifconfig entX
正常
异常说明:
Ping网关是否丢包
# ping ip address
正常
异常说明:
/etc/hosts文件配置
# cat /etc/hosts
正常

IBM小型机巡检维护常用命令

IBM小型机巡检维护常用命令

IBM小型机巡检常用命令Errpt 查看错误日志。

Errpt |head 查看最近产生的错误日志。

Errpt –d H |more 查看关于硬件报错的日志。

Errpt –aj查看错误详细信息,“错误的标识号”。

Errpt –a –j ****(日志ID)查看某个日志的详细内容。

Uptime 查看机器总共运行的时间。

Uname –uM 查看机器的型号。

Uname –a 列出系统ID号,系统名称,os版本等信息。

Oslevel –s 查看机器的系统版本等级。

Oslevel –r 查看补丁。

Instfix –i grep查找补丁文件。

Lscfg –vp 检查所有设备的微码。

Lsvg –o 查看系统卷组。

Ls –l/image.date 查看系统有没有备份image文件,记录备份最后日期。

Lsvg –l rootvg 查看rootvg卷的详细信息,查看又符合要求的数据备份和保护。

Syncvg 修复“stale”状态的逻辑卷。

Lsvg –p rootvg 使卷组文件同步。

Bootinfo –k 查看系统内核版本是64位还是32位。

Bootlist –m –normal –o 查看显示当前的首选启动项。

Bootlist –m –normal cd0 设置当前的首选启动项为cd0.Lslv –l datalv 和lslv –p datalv 显示逻辑卷各种信息,如包括哪些盘,是否有镜像等。

Lslv –m hd5 找出bootimage所在的硬盘,如hdisk0.Bosboot –ad /dev/hdisk0Bootlist –m normal /dev/hdisk0 重建启动顺序表。

Sysdumpdev –l系统的Dump设置,可以用来修改和查询。

Sysdumpdev P p /dev/hd6 s /dev/sysdumpnull 。

Sysdumpdev -P -cLsps –a显示所使用的分页空间。

Lsps –s 检查内存交换区(paging space)使用率是否超过70%。

IBM小机巡检命令

IBM小机巡检命令

小机巡检prtconf 查看系统配置errpt 查看报错lsvg 显示卷的名称lsvg -l rootvg 显示rootvg卷的详细信息lsvg -o是查看active(活动)的vg。

lsvg是查看所有的,包括没有active的。

lsvg rootvg查看rootvg信息lsvg -l rootvg 列出rootvg内的每个逻辑卷的以下信息:LV卷组内的一个逻辑卷,Type逻辑卷类型,LPs逻辑卷中的逻辑分区数,PPs逻辑卷使用的物理分区数,PVs逻辑卷使用的物理卷数,Logical volume state逻辑卷的状态,Opened/stale 表示逻辑卷是打开的但包含的分区不是当前的,Opened/syncd 表示逻辑卷是打开和同步的,Closed 表示逻辑卷还没有打开,Mount point逻辑卷的文件系统安装点(如果适用)。

lspv 显示卷组(Volume)中的物理卷(PV,Physical Volume)fget_config -Av 查看光纤通道卡lsps -a 显示交换区的分布信息df 命令显示文件系统的总空间和可用空间信息ifconfig -a 配置或显示TCP/IP 网络的所有网络接口参数netstat -in 查看网络状态(看ip表)netstat -vmoslevel -s 看操作系统版本当前系统补丁版本datelssrc -g cluster 指定要获取状态的子系统组lsdev 显示系统中的设备及其特征cat /etc/hosts 连接或显示文件lscfg -vp 显示系统配置、诊断、VPD(vital product data)的信息lslpp -l 显示指定文件集的名称、最新级别、状态和描述。

topas 监控系统活动――memory,I/O,paging space,cpu,processerrpt -a >/tmp/errpt(date).old 将错误导出errpt -a > errptlog.txterrclear 0系统硬件诊断# diag-> Diagnostic Routines-> System Verification-> All Resources-> F7 或者Esc+7diag消除黄灯:#diag第三项task selection选identify and attention indicatorsselect system attention indicator to normal 或set all identify indicators to normal 回车按F7或ESC+F7执行smit快速路径名称:(smit:图形方式,smitty:字符方式)dev 设备管理diag 诊断jfs 定期档案管理系统lvm 逻辑卷册系统管理员管理nfs NFS管理sinstallp 软件安装及维护spooler 列印队列管理system 系统管理tcpip TCP/IP管理USER 使用者管理clstart,clstop:启动和停止clusterlssrc -g cluser:查看cluser的状态。

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

hostname
uname -a
uname –uMl #查看机器类型及其序列号
lsmcode #查看firmware的版本oslevel -r
more /etc/host
prtconf
# rmss –p 察看当前内存的大小
lsdev –C
lscfg –vp
lsdev -Cc processor
lsdev -Cc memory
lsdev –Cc tape
lsdev –Cc disk
lsdev –Cc adapter
lsdev –C|grep en
lsdev –C|grep sys
lsdev –C|grep ssa
lsattr –El mem0
lsattr –El proc0
lsattr -El aio0
lsattr -El sys0
# lslpp –l确认软件版本
# lslpp -l cluster*
# instfix -i|grep -i ml
fget_config –v –A (是否连接外设)
lslppl -l |grep cluster #查看是否安装hacmp
cat /tmp/hacmp.out #查看hacmp.out
errpt (注意P H项)
errpt –aj
errpt –dH 硬件错误信息
errclear 0 确认无误后删除错误日志
du -ks /var/spool/mail/* #mail大小
mail
cat /var/spool/mail/root
alog –o –t boot #查看启动顺序
cat smit.log
du –ks smit*
# alog -o -t boot
# more /etc/filesystems
#more /etc/services
#more /etc/security/limits
lslpp –l cluster
df-k文件系统及磁盘状态lsvg
lsvg –o
lsvg –l rootvg 查看是否有镜像
lsvg rootvg
lspv -l hdisk0
lspv -l hdisk1
lssrc –a 察看当前进程
lsps –a 察看分页空间
lsps –s
sysdumpdev –L
sysdumpdev –l
ifconfig –a
netstat –in
netstat –rn
sar –u 1 4
vmstat 1 5
topas
ulimit –a
vmo -a
no -a
netstat –rf inet
ping *.*.*.*
双机环境
# cd /usr/es
# cd sbin
# cd cluster
# cd u*
# ./cllsres
# ifconfig -a
# ./cllsres
# ./cllshost
ksh: ./cllshost: not found
# ./cllsnode
# ./cllsserv。

相关文档
最新文档