IBM小型机硬件及系统检测情况汇总

合集下载

小型机、服务器内存和磁盘检查

小型机、服务器内存和磁盘检查

小型机、服务器内存和磁盘检查
一、内存检查占用率
1、小型机AIX系统查看内存占用
•vmstat命令查看
查看mem这项为总内存空间,fre这项除以4000为剩余内存空间,占比不宜超过80%
•nmon命令查看(topas)
输入nmon,在下一个界面按m,下图为当前内存占用情况,
图中圈起来的是当前内存使用比例,占比不宜超过80%
2、服务器LINUX系统查看内存占用
•free命令查看
mem这行为内存,swap这行为交换分区
total这列为总容量,used这列为使用容量,计算占比,即为内存使用率,占比不宜超过80%
•top命令查看
第四行Mem,total为总容量,used为使用容量,计算出来占比即为内存使用率,占比不宜超过80%
二、磁盘空间检查
1、AIX磁盘占用检查
第一步:查看%used这列,使用率有没有超过80%
如果有超过80%的,进入该目录查看,执行第二步、第三步,反复执行
2、LINUX磁盘占用检查
第一步:查看%used这列,使用率有没有超过80%
如果有超过80%的,进入该目录查看,执行第二步、第三步,反复执行
3、SC服务器磁盘占用清理1、2号线数据库备份清理,步骤如下
3号线SC数据库备份清理如下。

IBM小型机检查命令

IBM小型机检查命令

三:查看报错信息主要查看硬件的永久性报错#errpt -dH | pg软件的永久性报错#errpt -dS | pg系统报警灯四、机器的序列号# uname -MuIBM,9131-52A IBM,030666C5G五、操作系统版本:#oslevel -r# oslevel -r5300-05注:有时候不能使用是因为系统版本低的原因。

六、其他检测1、执行sysdumpdev –l检查dump是否设置为always allow sysdump;# sysdumpdev -lprimary /dev/hd6secondary /dev/sysdumpnullcopy directory /var/adm/rasforced copy flag TRUEalways allow dump FALSEdump compression ON2、执行sysdumpdev –e检查当前dump大小应该为主dump设备的大小的80%以下;# sysdumpdev -e0453-041 Estimated dump size in bytes: 1704984573、执行lsvg -l rootvg检查有否"stale"状态的逻辑卷;# lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 2 4 2 open/syncd N/Ahd8 jfs2log 1 2 2 open/syncd N/Ahd4 jfs2 40 80 2 open/syncd /hd2 jfs2 8 16 2 open/syncd /usrhd9var jfs2 1 2 2 open/syncd /varhd3 jfs2 8 16 2 open/syncd /tmphd1 jfs2 40 80 2 open/syncd /homehd10opt jfs2 1 2 2 open/syncd /optfwdump jfs2 1 2 2 open/syncd /var/adm/ras/platform4、执行lsps -s检查内存交换区占用情况;# lsps -sTotal Paging Space Percent Used512MB 1%# lsps -aPage Space Physical Volume Volume Group Size %Used Active Auto Type hd6 hdisk0 rootvg 512MB 1 yes yes lv5、执行df -m检查文件系统的分配状况,一般不要超过80%;# df -mFilesystem MB blocks Free %Used Iused %Iused Mounted on/dev/hd4 10240.00 6614.88 36% 18551 2% //dev/hd2 2048.00 667.25 68% 37425 20% /usr/dev/hd9var 256.00 246.13 4% 477 1% /var/dev/hd3 2048.00 1212.24 41% 2864 2% /tmp/dev/fwdump 256.00 255.64 1% 4 1% /var/adm/ras/platform/dev/hd1 10240.00 7713.15 25% 2526 1% /home/proc - - - - - /proc/dev/hd10opt 256.00 205.61 20% 976 3% /opt6、执行lsdev –Cc disk检查硬盘状态为available;# lsdev -Cc diskhdisk0 Available 04-08-00-8,0 16 Bit LVD SCSI Disk Drivehdisk1 Available 04-08-00-5,0 16 Bit LVD SCSI Disk Drive7、执行lsdev –Cc adapter检查PCI卡状态为available;# lsdev -Cc adapterent0 Available 09-08 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902) ent1 Available 09-09 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902) ide0 Available 03-08 ATA/IDE Controller Devicelai0 Available 0C-00 GXT135P Graphics Adaptersisscsia0 Available 04-08 PCI-X Dual Channel Ultra320 SCSI Adapterusbhc0 Available 08-08 USB Host Controller (33103500)usbhc1 Available 08-09 USB Host Controller (33103500)vsa0 Available LPAR Virtual Serial Adaptervsa1 Available LPAR Virtual Serial Adapter8、执行lsdev –Cc tape检查磁带机状态为available;# lsdev -Cc tapermt0 Available 04-08-00-0,0 LVD SCSI 4mm T ape Drive9、执行lsdev – Cc processor检查CPU状态为available;# lsdev -Cc processorproc0 Available 00-00 Processorproc2 Available 00-02 Processor10、执行lsattr –El sys0|grep autorestart检查系统crash后是否自动重新启动;# lsattr -El sys0 |grep autorestartautorestart true Automatically REBOOT system after a crash True# chdev -l sys0 -a autorestart=false修改autorestart值为False;11、执行lsattr –El sys0|grep cpuguard检查CPU GUARD是否开启;# lsattr -El sys0 |grep cpuguardcpuguard enable CPU Guard True# chdev -l sys0 -a cpuguard=false修改cpuguard值为False;12、执行lsattr –El mem0检查内存状态,正常状态size=goodsize;# lsattr -El mem0goodsize 3920 Amount of usable physical memory in Mbytes Falsesize 3920 Total amount of physical memory in Mbytes False13、执行vmstat、iostat、topas观察us,sy,pi,po,内存占用率,硬盘读写速度等检查是否有性能瓶颈;a) CPU性能:使用vmstat,topas来检查;b) 内存使用情况:也是使用topas,vmstat来检查;c) 检查IO平衡使用情况:使用iostat来检查;d) 交换空间使用情况:使用lsps –a来检查;# vmstatSystem configuration: lcpu=4 mem=3920MBkthr memory page faults cpu----- ----------- ------------------------ ------------ -----------r b avm fre re pi po fr sr cy in sy cs us sy id wa1 1 147268 831951 0 0 0 0 0 02 1350 67 0 0 99 0# topasTopas Monitor for host: IBMSim EVENTS/QUEUES FILE/TTYMon Feb 25 16:21:13 2008 Interval: 2 Cswitch 66 Readch 6Syscall 1375 Writech 176Kernel 0.1 |# | Reads 0 Rawin 0User 0.1 |# | Writes 0 Ttyout 176Wait 0.0 | | Forks 0 Igets 0Idle 99.8 |############################| Execs 0 Namei 0Runqueue 0.0 Dirblk 0Network KBPS I-Pack O-Pack KB-In KB-Out Waitqueue 0.0en1 0.2 0.5 0.5 0.0 0.2en0 0.0 0.0 0.0 0.0 0.0 PAGING MEMORYlo0 0.0 0.0 0.0 0.0 0.0 Faults 0 Real,MB 3920Steals 0 % Comp 15.9Disk Busy% KBPS TPS KB-Read KB-Writ PgspIn 0 % Noncomp 2.1 hdisk0 0.0 0.0 0.0 0.0 0.0 PgspOut 0 % Client 2.1hdisk1 0.0 0.0 0.0 0.0 0.0 PageIn 0cd0 0.0 0.0 0.0 0.0 0.0 PageOut 0 PAGING SPACESios 0 Size,MB 512Name PID CPU% PgSp Owner % Used 1.1dtgreet 94318 0.1 1.3 root NFS (calls/sec) % Free 98.8topas 323676 0.0 1.0 root ServerV2 0gil 69666 0.0 0.9 root ClientV2 0 Press:X 131180 0.0 3.6 root ServerV3 0 "h" for helprpc.lock 303278 0.0 1.2 root ClientV3 0 "q" to quitsendmail 233586 0.0 0.9 rootnetm 65568 0.0 0.4 rootxmwlm 188642 0.0 0.8 rootsyncd 127070 0.0 0.5 rootxmgc 49176 0.0 0.4 rootIBM.CSMA 307368 0.0 1.9 rootpsmd 24588 0.0 0.5 rootwlmsched 73764 0.0 0.5 rootj2pg 82000 0.0 2.0 rootusbCfgDe 86080 0.0 0.4 rootdtlogin 90238 0.0 0.4 rootvmptacrt 20490 0.0 0.4 rootaioserve 98496 0.0 0.4 rootlvmbb 102476 0.0 0.4 rootdog 106622 0.0 0.9 root# iostatSystem configuration: lcpu=4 drives=3 paths=2 vdisks=0tty: tin tout avg-cpu: % user % sys % idle % iowait0.0 2.5 0.1 0.1 99.8 0.0Disks: % tm_act Kbps tps Kb_read Kb_wrtnhdisk0 0.1 0.9 0.2 87764 153601hdisk1 0.1 0.6 0.1 8694 153601cd0 0.0 0.0 0.0 0 0# lsps -aPage Space Physical Volume Volume Group Size %Used Active Auto Type hd6 hdisk0 rootvg 512MB 1 yes yes lv14、执行ifconfig -a查看网卡是否启动(UP);# ifconfig -aen0:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN >inet 192.168.3.1 netmask 0xffffff00 broadcast 192.168.3.255tcp_sendspace 131072 tcp_recvspace 65536en1:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN >inet 192.168.7.8 netmask 0xff37ff00 broadcast 192.232.7.255tcp_sendspace 131072 tcp_recvspace 65536lo0: flags=e08084b<UP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT>inet 127.0.0.1 netmask 0xff000000 broadcast 127.255.255.255inet6 ::1/0tcp_sendspace 131072 tcp_recvspace 131072 rfc1323 1#ifconfig en0 up/down修改网卡状态;15、执行netstat -in和netstat -rn观察网络状态;# netstat -rnRouting tablesDestination Gateway Flags Refs Use If Exp GroupsRoute Tree for Protocol Family 2 (Internet):default 192.168.7.253 UG 1 6141 en1 - -127/8 127.0.0.1 U 5 339 lo0 - -192.32.7.0 192.168.7.8 UHSb 0 0 en1 - - =>192.32.7 192.168.7.8 U 2 20955 en1 - -192.168.3.0 192.168.3.1 UHSb 0 0 en0 - - =>192.168.3/24 192.168.3.1 U 0 2 en0 - -192.168.3.1 127.0.0.1 UGHS 7 313 lo0 - -192.168.3.255 192.168.3.1 UHSb 0 4 en0 - -192.168.7.8 127.0.0.1 UGHS 0 1 lo0 - -192.232.7.255 192.168.7.8 UHSb 0 4 en1 - -Route Tree for Protocol Family 24 (Internet v6):::1 ::1 UH 0 0 lo0 - -# netstat -inName Mtu Network Address Ipkts Ierrs Opkts Oerrs Collen0 1500 link#2 0.14.5e.97.1.14 215 0 561 3 0en0 1500 192.168.3 192.168.3.1 215 0 561 3 0en1 1500 link#3 0.14.5e.97.1.15 37254 0 27106 7 0en1 1500 192.32.7 192.168.7.8 37254 0 27106 7 0lo0 16896 link#1 655 0 661 0 0lo0 16896 127 127.0.0.1 655 0 661 0 0lo0 16896 ::1 655 0 661 0 016、执行entstat -d enX检测网卡运行速率与交换机速率是否匹配(网卡速率由10M半工改为自适应时,缺省网关会丢失。

IBM pSeries巡检报告08

IBM  pSeries巡检报告08
检查系统错误报告(Error Log):正常 □不正常
有否硬件故障:
有否软件故障:
故障内容:
用mail 命令查看有否发给root用户的错报告正常 □不正常
故障内容:
查看日志文件,/smit.log;/var/adm/ras/bootlog;/var/adm/sulog;正常 □不正常
who–s /etc/security/failedlogin |tail -30
sysdumpdev–l
通信测试正常 □ 不正常
检查各网卡的状态、IP地址、路由表等(netstat–in / netstat -rn)
用“ping”等命令检查通信
Hacmp检查正常□ 不正常
HACMP日志状态,HACMP进程状态,HACMP资源组状态
注:
系统中是否有死进程:正常□ 不正常
ps–ef|grep defunct
深圳市财政委
小型机现场巡检报告
深圳市圣翰软件发展有限公司
2010年8月
巡检日期:2010年8月5日 机型: IBM P570,P550
序列号:653451F,65345BF,65345AF,65345CF,65344FF,653459F,062590H,062592H,062597H
检查机房环境
温度 湿度相电压线电压零地电压正常 □ 不正常
注:
是否允许 ftp rlogin telnet正常 □ 不正常
注:
存储检查□ 正常 □ 不正常无
PV状态,故障灯,告警
运行fget_config–l dar0检查磁盘路径分配情况□ 正常 □ 不正常无
巡检总结:
1.系统硬件正常。
2.系统磁盘保护正常,空间使用率合理。

IBM硬件故障检测板详解

IBM硬件故障检测板详解

故障提示:ps 指示灯:当此指示灯发亮时,表明电源2 出现故障。

temp 指示灯:当此指示灯发亮时,表明系统温度超出阈值级别。

fan:当此指示灯点亮时,表明散热风扇或电源风扇出现故障或运行太慢。

风扇发生故障还会导致over temp 指示灯发亮。

link指示灯:当此指示灯发亮时,网卡出现故障。

vrm 指示灯:当此指示灯发亮时,表明微处理器托盘上的某个vrm 出现故障。

cpu 指示灯:当此指示灯发亮时,表明某个微处理器出现故障。

pci 指示灯:当此指示灯发亮时,表明某个pci 总线发生错误。

mem 指示灯:当此指示灯发亮时,表明发生内存错误。

dasd 指示灯:当此指示灯发亮时,表明某个热插拔硬盘驱动器出现故障。

nmi 指示灯:当此指示灯发亮时,表明出现一个不可屏蔽中断(nmi)。

sp 指示灯:当此指示灯发亮时,表明服务处理器遇到错误。

brd 指示灯:当此指示灯发亮时,表明某个连接的i/o 扩展单元出现故障。

log 指示灯:当此指示灯发亮时,表明您应该查看事件日志或remotesupervisor。

cnfg指示灯:当此指示灯发亮时,表明BIOS配置错误。

raid 指示灯:当此指示灯发亮时,表明阵列卡故障。

over spec 指示灯:当此指示灯发亮时,表明对电源的需求超过了指定的电源供应。

remind 按钮:按下此按钮可重新设置操作员信息面板上的系统错误指示灯并将服务器置于提醒方式。

在提醒方式下,故障并没有清除但系统错误指示灯会闪烁(每2 秒闪烁一次)而不是持续发亮;如果出现另一个系统错误,则系统错误指示灯将会持续发亮。

BRD 主板上发生错误。

CNFG 发生硬件配置错误。

DASD 发生硬盘驱动器错误。

FAN 风扇发生故障,或者是运行过慢,或者是 已卸下风扇。

TEMP 指示灯可能也会点 亮。

LINK 保留。

LOG 已将错误消息写入系统事件日志。

查看IMM 系统事件日志和系统错误日志,获取有关错误的信息。

IBM小型机巡检内容及操作指导

IBM小型机巡检内容及操作指导

IBM小型机巡检内容及操作指导一、巡检内容:1.确认机房环境:检查机房温湿度是否正常,观察机房是否通风良好,排查是否存在灰尘、杂物等对机器运行造成的影响。

2.检查电源供应:检查电源线是否正常连接,确认主机和外围设备的电源是否正常工作。

3.确认网络连接:检查网络线是否正常连接,确认小型机与其他设备、服务器的网络连接是否正常。

4.检查主机状态:确认小型机主机的状态是否正常,例如观察指示灯是否正常亮起,听觉上是否存在异常噪音等。

5.检查存储设备:检查存储设备(如硬盘、光驱等)是否正常运作,确认是否存在故障或异常。

6.检查数据备份:确认小型机的数据备份是否按照设定时间和规则进行,并进行验证备份数据的可用性。

7.检查软件运行:确认小型机上安装的软件是否正常运行,是否存在异常报错等情况。

8.检查安全性:确认小型机上的安全措施是否完善,例如防火墙的配置、病毒防护软件的更新等。

9.备份日志文件:对小型机的日志文件进行备份,以便后续查阅和分析问题。

10.更新系统和软件:对小型机的操作系统和安装的软件进行更新和升级,以确保系统的安全性和稳定性。

二、巡检操作指导:1.确保巡检前机器处于关闭状态,并断开电源线。

2.进入机房后,首先检查机房环境是否正常,如温湿度、通风等。

3.检查电源供应:确认主机和外围设备的电源线是否正常连接,然后接通电源线并开机。

4.检查网络连接:确保网络线与小型机的网口连接正常,并通过网络测试工具检查网络连接是否正常。

5.检查主机状态:观察小型机主机状态指示灯是否正常亮起,听音觉察是否有异常噪音。

6.检查存储设备:通过操作系统的设备管理工具检查存储设备的状态,如硬盘是否正常运行、光驱是否可用等。

7.检查数据备份:登录小型机系统,查看备份工具的设置和备份日志,确认数据备份是否按照规则进行,并验证备份数据的可用性。

8.检查软件运行:登录小型机系统,运行安装好的软件,检查是否存在异常报错等情况。

9.检查安全性:登录小型机系统,确认防火墙的配置是否符合规范,病毒防护软件是否及时更新。

IBM小型机及操作系统管理

IBM小型机及操作系统管理

IBM小型机及操作系统管理 (3)第一章系统登陆 (3)1.1 使用netterm登录AIX操作系统 (3)1.2 使用Xmanager登录系统 (4)1.3 登陆情况检查 (5)1.3.1 基本信息检查 (5)1.3.2 查看系统登录情况 (5)第二章巡检计划 (5)2.1 巡检计划简介 (5)2.2日巡检计划 (5)2.2.1日巡检目的 (5)2.2.2日巡检操作简述(及详细说明) (6)2.2.3日巡检检查单 (7)2.3月巡检计划 (8)2.3.1月巡检目的 (8)2.3.2月巡检操作简述(及详细说明) (8)2.3.3月巡检检查单 (9)第三章故障处理 (10)3.1 故障级别分类定义 (10)3.2 故障现象列表和相应处理 (10)3.3 故障分级响应处理流程(包括管理、技术流程) (12)3.4 紧急重大故障处理流程(技术方面) (12)第四章软硬件变更 (13)升级与打补丁注意事项 (13)数据与系统参数的修改注意事项 (13)第五章日常维护操作(知识性、摘要性) (13)5.1 常用操作命令 (13)5.2 常用操作步骤 (17)启动 (17)系统关闭 (17)查看系统的错误记录 (17)系统与数据备份 (18)第六章入侵检测方法与命令 (21)6.1 检查/etc/passwd文件中是否有可疑用户 (21)6.2 检查/etc/inet.conf和crontab文件是否被修改 (21)6.3 检查.rhosts、/etc/hosts.equiv、.forward文件是否被修改 (22)6.4 检查是否有危险的Root Suid程序 (22)6.5 检查系统日志 (23)6.6 检查是否有可疑进程 (23)6.7 检查网络连接和开放端口 (23)附录: (24)通信录 (24)相关文档 (24)IBM机房要求 (24)IBM小型机及操作系统管理第一章系统登陆1.1 使用netterm登录AIX操作系统如上图所示,使用NetTerm时,应对每次的操作都使用日志文件记录。

IBM小型机品质检验过程中的安装检验诊断的方法步骤

IBM小型机品质检验过程中的安装检验诊断的方法步骤

IBM小型机品质检验过程中的安装、检验、诊断的方法步骤第一章 AIX操作系统的安装品质检验过程中的AIX操作系统的安装较为简单,第二章硬件的安装及校验第1节确认机器的型号与序列号使用下面的命令来确认机器的型号# prtconf | grep "System Model"System Model: IBM,7028-6C1使用下面的命令来确认机器的序列号# prtconf | grep "Machine Serial Number"Machine Serial Number: 10B514D第2节操作系统版本的校验# oslevel5.1.0.0第3节 CPU的校验确定CPU的个数使用下面的命令步骤来判断CPU的个数# lsdev -Cc processorproc0 Available 00-00 Processor如果状态列为Defined,使用下面的命令删除之# rmdev –dl proc0再使用下面的命令来判断个数# lsdev -Cc processor | wc -l1或者使用下面的命令# bindprocessor -qThe available processors are: 0确定CPU的类型# lsattr -El proc0 | grep typetype PowerPC_POWER3 Processor type False确定CPU的频率# lsattr -El proc0 | grep frequencyfrequency 375000000 Processor Speed False与e-config核对CPU的配置使用出货的e-config配置单与上述确认的CPU类型、频率、个数一致第4节 memory的校验确认每个内存的容量# lscfg -vpl mem0 | grep SizeSize (256)Size (256)Size (256)Size (256)确认内存的个数# lscfg -vpl mem0 | grep Size | wc -l4确认内存的总容量使用下面的命令确认内存的容量# lsattr -El mem0size 1024 Total amount of physical memory in Mbytes Falsegoodsize 1024 Amount of usable physical memory in Mbytes False与e-config核对内存的配置使用出货的e-config配置单与上述确认的内存在单条内存容量、内存个数、内存总容量一致第5节外存的校验内置SCSI硬盘的校验使用下面的命令步骤来判断硬盘的个数# lsdev -Cc diskhdisk0 Available 10-60-00-2,0 16 Bit LVD SCSI Disk Drivehdisk1 Available 10-60-00-4,0 16 Bit LVD SCSI Disk Drivehdisk2 Defined 10-68-01 1722-600 (600) Disk Array Device如果状态列为Defined,使用下面的命令删除之# rmdev –dl hdisk2hdisk2 deleted再使用下面的命令来判断个数# lsdev -Cc disk | wc -l2硬盘容量的确认# lsattr –El hdisk0 | grep sizesize_in_mb 36400 Size in Megabytes False清除PVID# lspvhdisk0 000b514dda41c2b6 rootvghdisk1 000b514d981fb5d5 None非rootvg的第2列为非none,使用下面的命令# chdev -l hdisk1 -a pv=clearhdisk1 changed# lspvhdisk0 000b514dda41c2b6 rootvghdisk1 none None磁带机的校验lsdev –Cc tape光驱的校验# lsdev -Cc cdromcd0 Available 10-59-00 IDE CD-ROM Drive I (650 MB)软驱的校验# lsdev -Cc diskettefd0 Available 01-D1-00-00 Diskette Drive第6节适配器的校验# lsdev -Cc adaptersa0 Available 01-S1 Standard I/O Serial Portsa1 Available 01-S2 Standard I/O Serial Portsa2 Available 01-S3 Standard I/O Serial Portsiokma0 Available 01-K1 Keyboard/Mouse Adapterfda0 Available 01-D1 Standard I/O Diskette Adapteride0 Available 10-59 ATA/IDE Controller Devicescsi0 Available 10-60 Wide/Ultra-3 SCSI I/O Controllerscsi1 Available 10-61 Wide/Ultra-3 SCSI I/O Controllerfcs0 Available 10-68 FC Adapterlai0 Available 2B-00 GXT135P Graphics Adaptersioka0 Available 01-K1-00 Keyboard Adapterppa0 Available 01-R1 CHRP IEEE1284 (ECP) Parallel Port Adapterent0 Available 10-80 IBM 10/100 Mbps Ethernet PCI Adapter (23100020) ent1 Available 10-88 IBM 10/100 Mbps Ethernet PCI Adapter (23100020)sioma0 Available 01-K1-01 Mouse Adapterfcs1 Defined 20-60 FC Adapter如果状态列为Defined,使用下面的命令删除之# rmdev –dl fcs1通过第1列和第3列确定适配卡的类型,一般为:ssa SSA卡ent 网卡fcs 光纤通道卡通过行数可以判断各个适配卡的个数第7节 7133-D40硬盘的校验lsdev –Cc pdisk第三章硬件的诊断查看系统错误信息使用下面的命令# errpt# errptIDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTIONC092AFE4 1226020803 I O ctcasd ctcasd Daemon StartedA6DF45AA 1226020803 I O RMCdaemon The daemon is started. 2BFA76F6 1225200403 T S SYSPROC SYSTEM SHUTDOWN BY USER 9DBCFDEE 1226020703 T O errdemon ERROR LOGGING TURNED ON 2F3E09A4 1225195103 I H sysplanar0 REPAIR ACTIONC092AFE4 1225194303 I O ctcasd ctcasd Daemon StartedA6DF45AA 1225194303 I O RMCdaemon The daemon is started. BE0A03E5 1222213503 P H sysplanar0 ENVIRONMENTAL PROBLEM9DBCFDEE 1225193803 T O errdemon ERROR LOGGING TURNED ON E85C5C4C 1222195403 P S CFGLFT SOFTWARE PROGRAM ERROR BE0A03E5 1221202203 P H sysplanar0 ENVIRONMENTAL PROBLEM9DBCFDEE 1222195403 T O errdemon ERROR LOGGING TURNED ON E85C5C4C 1221185503 P S CFGLFT SOFTWARE PROGRAM ERROR 2BFA76F6 1221034503 T S SYSPROC SYSTEM SHUTDOWN BY USER 9DBCFDEE 1221185603 T O errdemon ERROR LOGGING TURNED ON使用下面的命令诊断系统# diag按回车键选择Advanced Diagnostics Routines选择System VerificationAll Resources按回车键选择所有资源按F7键执行诊断未报任何错误信息表示系统硬件正常工作1:外观的检验开箱后首先检验机器的外观,不能有明显的划伤,不能缺少明显的标志,机器的序列号一定要全部一致。

IBM小型机巡检报告

IBM小型机巡检报告

IBM Pxxx小型机服务报告目录前言 (4)第一章系统健康档案 (4)1.1 CPU与内存 (4)1.1.1 处理器数量 (4)1.1.2 处理器物理位置 (4)1.1.3 处理器主频和类型 (4)1.1.4 内存大小 (4)1.1.5 内存类型及物理位置 (5)1.2 ADAPTER (5)1.3 硬盘 (5)1.4 光驱和磁带机等其他设备 (5)1.5 逻辑卷及文件系统配置 (6)1.5.1 rootvg (6)第二章系统软件档案 (7)2.1 操作系统版本及升级建议 (7)2.2 主机微码版本及升级建议 (7)2.3 高可用性集群软件配置情况 (7)第三章系统性能分析报告 (8)第四章问题汇总与分析报告 (9)4.1 问题记录 (9)4.2 问题分析 (9)前言该机SN号为:xxxxxxx ,作为xxx应用服务器。

第一章系统健康档案1.1 CPU与内存1.1.1 处理器数量#lsdev -Ccprocessor* 共有——颗处理器1.1.2 处理器物理位置#lscfg –vp|grep proc有两块处理器卡,proc0-proc7 在C1卡上;proc16-proc23在C4 CPU卡上1.1.3 处理器主频和类型#lsattr -El proc01.1.4 内存大小#lsdev -Ccmemory#lsattr -El L2cache0#lsattr -El mem0共32G内存1.1.5 内存类型及物理位置#lscfg –vp –l mem0有4块8192MB内存卡,具体位置如下:1.2 ADAPTER#lsdev -Ccadapter1.3 硬盘#lsdev -Ccdiskhdisk0与hdisk1是内置硬盘hdisk2-hdisk49是P670通过光通道卡fcs0、fcs1识别IBM FC2105磁盘阵列的逻辑硬盘设备号#lsvpcfg特别提醒:不要将hdsik2-hdisk49加入任何卷组(VG)中;必须用vpath0-vpath12设备号创建卷组(VG)内置硬盘大小:1.4 光驱和磁带机等其他设备#lsdev -Cctape#lscfg –vp -l rmt0#lsdev -Cccdrom.1.5 逻辑卷及文件系统配置注:每个VG一个章节,参考本文档#lspv#lsvg 系统定义的卷组#lsvg –o 系统激活的卷组#df –k 列出文件系统使用情况1.5.1 rootvg#lsvg -l rootvg#lsvg rootvg第二章系统软件档案2.1 操作系统版本及升级建议#oslevel –s当前系统版本为:目前系统运行稳定,征求客户意见后,不建议升级2.2 主机微码版本及升级建议#lsmcode当前系统微码版本为:目前系统运行稳定,征求客户意见后,不建议升级2.3 高可用性集群软件配置情况#lslpp –l|grep cluster目前该机没有运行高可用性软件注:如果安装配置了集群软件请给出详细配置信息第三章系统性能分析报告监控时间为上午8点49分至第二天下午2点49分,每分钟报告一次系统性能。

巡检服务报告(IBM小型机)v1.3

巡检服务报告(IBM小型机)v1.3

IBM小型机系统预防性维护服务报告单客户名称:机器型号序列号检查时间:20 年月日时本年度第次检查机器名1. 机房环境:电源电压□符合要求□不符合;零地电压□符合要求□不符合温度、湿度:□符合要求□不符合2. 检查系统硬件情况:设备故障灯是否有亮:3. 系统错误报告(Error Log):有否硬件故障:□有□有□无;有其他否异常情况:□有□无;启动日志:□正常□无□不正常mail中有否错误报告:□有□无;服务进程日志:□正常□不正常4. CPU有否被disable:□有□无;CPU GUARD设置:□正确□不正确5. 逻辑卷:6. 有否"stale"状态的逻辑卷:□有□无7. 关键文件系统:使用率是否正常:□是□否;JFSLOG设置:□正常□不正常8. 磁带机是否需要清洗:□需要□不需要9. SAN交换机是否正常:□正常□不正常□没有10. 通信:网卡的状态、IP地址:□正常□不正常网卡通信(ping):□正常□不正常/etc/hosts文件或DNS设置:□正常□不正常路由表设置:□正常□不正常;域名设置:□正常□不正常11. 磁盘阵列RAID盘的状态:IBM存储型号数据保护方式□Cache打开□有热备盘□Cache关闭□无热备盘12. 机器清洁:根据需要清洁机器各部件:□已清洁□不需要过滤网是否需要更换:□要更换□不需要13. 补丁程序(PTF) 系统补丁级别:最新补丁级别:微代码(Microcode) 系统微码级别:最新微码级别:网卡、控制卡、硬盘微码是否需要升级:□是□否请与客户沟通是否需要升级系统补丁和微码:□是□否14. 系统硬件诊断:系统板、CPU、内存、I/O板□正常□不正常网卡、SCSI卡、SSA卡系统其他扩展卡硬盘、磁盘阵列磁带机、磁带库□正常□正常□正常□正常□不正常□不正常□不正常□不正常15. 内存交换区:使用率是否超过70%:□是□否大小是否大于物理内存的1.5倍:□是□否16. 备份:有否有符合要求的系统备份:□有□无最近一次系统备份的时间有否符合要求的用户数据备份:□有□无备份介质是否妥善保存:□有□无17. 检查rootvg是否有做镜像:□有□无18. 系统DUMP设置是否正常:□正常□不正常19. 检查errdemon,srcmstr是否正常:□正常□不正常20. 检查系统参数是否正确:□是□否1./etc/environment文件中TZ不应有夏时制2.如有数据库系统:Aio :available3.Hacmp 系统中I/O pacing: High Water Mark/Low Water Mark:33/244.Hacmp 系统中Syncd:105.Hacmp 系统中Power Monitor子系统应关闭21. 系统性能:有否性能瓶颈:□有□无22. HACMP 测试:□是□否Cluster Verification:□正常□不正常;相关参数设置检查:□正常□不正常接管测试(根据需要):□正常□不正常23. 运行“#snap –r;snap –gfkbLc” ,取回存档。

IBM小型机巡检

IBM小型机巡检

IBM小型机巡检将以前网上down的资料整理了一下1、检查系统硬件情况设备故障灯是否有亮包括硬盘,阵列,光纤交换机,系统故障灯,磁带机等是否有其它异常情况2、系统错误报告(ERROR LOG),errpt是否有硬件故障是否有软件故障3、有否发给ROOT用户的错误报告(MAIL)root用户下执行mail4、关键文件系统的使用率不大于80%df –k5、逻辑卷:有否“STALE”状态的逻辑卷lsvg –l rootvg6、页面空间使用率是否超过70%lsps –a7、内存交换区的大小是否为物理内存的2倍此项根据物理内存大小区别对待如果内存<4g,则大小为2倍如果内存>4g,则大小与内存一样即可8、系统备份:是否有符合要求的系统备份:最后一次系统备份的时间:是否符合要求的用户数据备份:9、通信:网卡的状态、IP地址、路由表等网卡通信(ping)/etc/hosts 或DNSifconfig –anetstat –inlsattr –El inet0netstat –rnnslookup10、是否有数据保护方式如raid10/raid5,是否有hot spare主要是磁盘阵列,或根卷组磁盘镜像磁盘阵列的raid与hotspare为硬件级别,可通过软件查看根卷组磁盘镜像可以通过lsvg –l rootvg查看lp与pp对比11、机房环境电源电压____零地电压_____温度、湿度_____12、机器清洁(根据需要清洁机器各部件)主要是磁带机以及外面板灰尘13、补丁程序(PTF)系统补丁级别:oslevel –r 、instfix –i | grep ML最新补丁级别:微代码(MICROCODE)系统微代码:lscfg -vp | grep alt最新微代码:网卡、控制卡、硬盘微码是否需要升级lscfg -vp请与客户沟通是否需要升级系统补丁和微码14、系统硬件诊断主要通过查看errpt,diag执行系统板、CPU、内存、I/O板网卡、SCSI卡、SSA卡系统其它扩展卡硬盘、磁盘阵列磁带机、磁带库15、检查hacmp.out smit.log bootlog,wtmp等日志文件tail –100 hacmp.outtail -100 smit.logalog –t boot –olast16、系统性能内存:svmon、lsps -aCpu :sar硬盘:iostat文件系统:filemon其他命令: vmstat、topas、lvmstat17、DUMP设备的检查sysdumdev -l18、磁带机是否需要清洗/usr/lpp/diagnostics/bin/utape -cd rmt0 –n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗19、系统参数的检查1).HIGH water mark for pending write I/Os# lsattr -El sys0 |grep maxpout输出判断:结果应为maxpout 33 HIGH water mark for pending write I/Os per file True2).LOW water mark for pending write I/Os# lsattr -El sys0|grep minpout输出判断:结果应为minpout 24 LOW water mark for pending write I/Os per file True更改命令为:#chdev -l sys0 -a maxpout='33' -a minpout='24'3).Syncd参数# grep syncd /sbin/rc.boot输出判断:结果应为nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &更改命令为:#vi /sbin/rc.boot4).aio参数# lsdev -Cc aio输出判断:结果应为aio0 Available Asynchronous I/O# lsattr -El aio0输出判断:结果应为minservers 1 MINIMUM number of servers Truemaxservers 10 MAXIMUM number of servers Truemaxreqs 4096 Maximum number of REQUESTS Truekprocprio 39 Server PRIORITY Trueautoconfig available STATE to be configured at systemrestart Truefastpath enable State of fast path True更改命令为:#smitty aio5) /etc/environment文件中TZ不应有夏时制20、检查errdemon, srcmstr是否正常运行lssrc –s errdemonlssrc –s srcmstrps –ef | grep erredps –ef | grep srcm21、收集系统信息运行#snap –ac在/tmp/ibmsupt目录下生成压缩文件snap.pax.Z zcat snap.pax.Z | pax -rv 解压到当前目录。

IBM 小型机巡检服务报告

IBM 小型机巡检服务报告
正常
异常说明:
卷组(VG)配置,检查VG状态是否可用,逻辑卷状态是否为syncd
# lsvg –l vgname
正常
异常说明:
检查是否有磁盘镜象/Raid数据保护
# lsvg –l vgname / smitty检查Raid情况
正常
异常说明:
缓冲区信息
# lsps -a
正常
异常说明:
文件系统信息
# df -k
正常
异常说明:
系统日志检查
系统日志
#errpt
正常
异常说明:
系统邮件
#mail检查有无报错
正常
异常说明:
上次启动时间
# boot
正常
异常说明:
系统备份检查
有否合符要求的系统备份
询问系统管理员

否说明:
最近的一次备份时间
询问系统管理员
记录:
是否存在系统备份策略并执行
#lscfg –Cc |grepSystemFirmware
#prtconf |grep Firmware
记录:
系统版本/维护级别
# oslevel -r
记录:
/etc/environmen不能有夏时制
# echo $TZ
正常
异常说明:
AIO是否激活
# lsdev -Cc aio
正常
异常说明:
网卡状态
# ifconfig entX
正常
异常说明:
Ping网关是否丢包
# ping ip address
正常
异常说明:
/etc/hosts文件配置
# cat /etc/hosts
正常

IBM小型机巡检报告929

IBM小型机巡检报告929
IBM小型机巡检报告
IBM系统巡检报告
日期:年月日报告编号:
客户名称
联系人
联系电话
Email地址
主机型号: Serial No.序列号:
主机名: IP地址: 子网掩码:


CPU
内存
硬盘
磁盘数据保护方式
环境
机房温度
□正常 □不正常
机房湿度
□正常 □不正常
机房清洁
□正常 □不正常
机柜线缆整洁
□正常 □不正常


检查
硬件错误报告
(error log)
是否有硬件报错
□正常 □不正常
mail中是否有硬件错误
□正常 □不正常
boot log/console log
□正常 □不正常
系统硬件诊断
系统板、CPU、内存
□正常 □不正常
I/O板、扩展卡
□正常 □不正常
磁盘、磁盘阵列
□正常 □不正常
磁带机、磁盘库
□正常 □不正常
□是 □否
JFSLOG设置是否正常
□是 □否
内存交换区
使用率是否超过70%
□是 □否
交换区逻辑卷设置是否正常
□是 □否
系统性能
系统性能是否存瓶颈
□是 □否
HACMP检查
Cluster进程是否正常
□是 □否
Cluster状态是否正常
□是 □否
Cluster 日志是否正常
□是 □否
系统dump设置
□正确 □不正确
逻辑卷/硬盘检查
逻辑卷是否有stale的状态
□是 □否
磁带机是否需清洗
□是 □否
SAN交换机是否正常

非常详细的IBM小型机故障定位方法

非常详细的IBM小型机故障定位方法

非常详细的IBM小型机故障定位方法IBM, 小型机, 故障定位一故障的定义.弄清楚系统发生了什么问题.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的操作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。

二故障信息的收集1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。

2)系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION TIMESTAMP: MMDDHHMMYY (月日时分年)论T(类型): P 永久; T 临时; U 未知(永久性的错误应引起重视)C(分类): H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00003)控制面板上的LED 代码.8 位代码,通常系统故障灯会同时亮起。

IBM小型机故障描述以及解决办法

IBM小型机故障描述以及解决办法

IBM⼩型机故障描述以及解决办法IBM⼩型机故障描述以及解决办法针对基础⽀柱产业,⽣产系统的⾼度实时性是产⽣维保的主要动因,针对财政银⾏等综合决策系统,数据⾼可⽤性是产⽣维保的主要动因。

据统计,2012年国内有10万个各级政府机构和150万家企业,⽬前许多客户已经历了买设备、上应⽤发展到今天保运⾏阶段。

IBM在服务器市场占有率⾼达79%,针对IBM⼩型机的维保,市场最成熟,技术积累最丰富。

维保主要分为两部分:⽇常维护、故障修复⽇常维护部分:虽然⼩型机在运⾏态很少改动配置,但经常监控运⾏状态却是⾄关重要的,通过规律的监控,通过与业务联系,⼀⽅⾯可以预测⼩型机负载压⼒,把握运⾏规律,另⼀⽅⾯可以预测故障的发⽣点⽽及时修复,将故障终⽌,消灭在萌芽状态,使得业务连续和⾼可⽤。

专业的巡检可以判断系统运⾏的瓶颈,从⽽为可能增长的业务量及时提供硬件升级⽅案,来避免瓶颈的出现。

⽇常维护主要⽅式是巡检,分周巡检、⽉度巡检以及季度巡检。

⽉度巡检以⽉为时间单位进⾏例⾏巡检,对⼩型机运⾏状态以及故障监测,使⽤⼀般指标,巡检⽐较及时;周巡检以周为时间单位,频次⾼,对⼩型机状态监测度最⾼,动态把握最明确,缺点是对⼈⼒资源耗费⽐较⼤;季度巡检为深度巡检,系统整体信息⽐较准确,但是频率低对系统实时状态把握度较差,加之⽉度巡检在没季度的最后⼀次巡检都是深度巡检,⽉度巡检就弥补了季度巡检的实时性缺陷。

IBM⼩型机故障:任何⼩型机都有⼀定的故障率,即使是IBM、HP所发布的零宕机产品也不能保证百分之百⽆故障。

随着使⽤时间的增加,机房环境,电⼦元器件⽼化等原因,导致故障,尤其意外断电对电⼦元器件的冲击更⼤。

按故障性质分,可分为隐性故障和显性故障,隐性故障可能有未检测到的故障点,或者因为电⼦元器件使⽤寿命的增长突然崩溃⽽导致的故障。

隐性故障最典型的是关机后导致不能重启进⼊系统,应对⽅法是定期巡检,排查隐性故障,易损部件制定科学的周期进⾏更换操作等。

IBM P系列小型机_故障定位、故障排除

IBM  P系列小型机_故障定位、故障排除

第三章、故障定位、故障排除根据我们在实际商用系统中碰到问题,我们总结出了以下几种常见故障及其定位方式和解决方法。

3.1硬件故障硬件故障有很多种,对系统产生的影响也不一样,这里按其故障对系统的影响程度分:致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类:其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括:主板、CPU、I/O柜(包含本地盘、光驱、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等注:I/O柜和CEC柜一般在比较高端的小型机才有,如M80,低端的是合一的。

这些设备的损坏等将使系统无法完成自检、引导和启动,液晶显示屏上都将有错误信息,可根据液晶显示屏上的错误码对照Service Guide查的错误原因,如果是工作状态下出现这些硬件损坏,则系统将被挂起或宕机。

其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的硬件包括:网卡、本地硬盘有坏块、显卡、SSA卡和其他外围设备这些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。

故障定位和排除:以上硬件故障信息都可以使用:液晶屏上的错误码或:errpt –dH 查看到根据错误码确定是什么硬件出了故障,对商用系统来讲,由于是双机系统,如果损坏机器是主机可以将此服务器切换成备机,然后修复故障机器,恢复系统。

3.2磁阵故障磁阵引起的故障是目前碰到的最频繁、危害最大的故障,据不完全统计,其故障覆盖到总故障的70%以上,具体来讲,可能引起磁阵故障的环节包括:磁阵硬盘、7133柜子、主机上的SSA卡、连接7133与主机的SSA线、硬盘的位置和ssa线的接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/ssa卡的微码等都可能造成7133的异常。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
#lsattr –El inet0
正常
HACMP 服务
#lssrc –g cluster
正常
HACMP I/O Pacing
#lsattr –El sys0 |grep out
正常
/etc/host文件
#more /etc/hosts
正常
HACMP 日志
#tail –f /tmp/hacmp.out
# sysdumpdev –l
正常
系统备份检查
做vg配置信息的备份
已备份
询问客户有否在系统变更后或每半年做系统备份
询问客户数据库及应用、应用数据是否定期有效
进行备份
系统性能检查
CPU
#topas
正常
Disk
#vmstat
正常
应用程序磁盘
#iostat
正常
交换区
#lsps -a
正常
#bindprocessor -q
The available processors are: 0 1 2 3 4 5 6 7
系统板、CPU、内存、I/O板
#diag
No trouble was found 正常
网卡、SCSI卡、SSA卡
#diag
No trouble was found 正常
系统其他扩展卡
#diag
No trouble was found 正常
硬盘、磁盘阵列
#diag
No trouble was found 正常
磁带机、磁带库
#diag
No trouble was found 正常
网卡的状态、IP地址
#ifconfig –a
正常
网卡通信(ping)
#ping
正常
路由表设置
#netstat –rn
无报错
有否"stale"状态的逻辑卷
#lsvg -l vgname

系统补丁级别(PTF)
#oslevel -r
系统微码级别(Microcode)
#lsmcode -c
文件系统使用率是否正常
#df -k
正常
rootvg是否做镜像
#lsvg –l rootvg

内存换区的使用率
是否超过70%
#lsps -a
IBM小型机硬件及系统检测情况汇总
机器型号:______序列号:_______IP:___________主机名:________
小型机巡检表
检查内容
方法
参考阀值/状态
IBM小型机
设备故障灯是否有亮
观察OCP面板
绿灯,正常
是否有其他异常情况
进入ASMI
无报错,正常
要查看哪些处理器可用(可能的 ProcessorNum 值)
正常
如有数据库系统,aio 参数是否可用
#lsdev -C|grep aio
正常
/etc/environment文件中有否夏时制
#echo $TZ
BEIST-8
errdemon,srcmstr
是否正常
# ps -ef |grep errdemon
# ps -ef |grep srcmstr
正常
系统DUMP设置是否正常
相关文档
最新文档