IBM小型机巡检报告
巡检报告(电子版)
巡检报告(电子版)巡检报告(电子版)IBMp系列小型机巡检报告客户名:客户号:巡检时间:客户代表签字:IBM工程师签字:P系列系统预防性维护服务报告单(硬件部分)客户名称:_____________________________机器型号:______序列号:______________检查时间:_____年____月____日____时本年度第______次检查1.机房环境:8.SAN交换机是否正常:□正常□不正常电源电压_____□符合要求□不符合9.通信:零地电压_____□符合要求□不符合网卡状态、IP地址□正常□不正常温度、湿度□符合要求□不符合网卡通信□正常□不正常2.检查系统硬件情况:10.磁盘阵列RAID盘的状态:设备故障灯是否有亮□有□无IBM存储型号______________有其他异常情况□有□无□Good□Degraded□Failed3.硬件错误报告(ErrorLog):□Cache打开□Cache关闭有否硬件故障□有□无□有热备盘□无热备盘mail中有否硬件错误□有□无数据保护方式______________bootlog/consolelog:□正常□不正常是否硬件告警□有□无ServiceProcesslog□正常□不正常11.系统硬件诊断:系统板、CPU、内存□正常□不正常4.机器清洁:I/O 板、扩展卡□正常□不正常根据需要清洁机器□已清洁□不需要硬盘、磁盘阵列□正常□不正常过滤网是否需要更换□需更换□不需要磁带机、磁带库□正常□不正常12.SA是否设置调通□是□否5.逻辑卷/硬盘检查:SA平时是否连接□是□否是否有stale的逻辑卷□有□无13.微码(Microcode)是否满足稳定运行需要6.磁带机是否需要清洗:□需要□不需□是□否7.CPU有否被disable□有□无CPUGUARD设置:□正确□不正确14.运行”snap-r;snapgfkbLc”,取回存档.□主机及主要设备的微码版本:本次预防性维护发现的问题:已经解决的问题及下一不工作计划:客户意见及建议:□非常满意□满意□一般□不满意□非常不满意客户签字:____________年___月___日工程师签字:____________年___月___日IBM全球服务(中国)有限公司技术支持服务部P系列系统预防性维护服务报告单(软件部分)客户名称:_____________________________机器型号:______序列号:______________检查时间:_____年____月____日____时本年度第______次检查1.系统错误报告:6.通信是否系统软件故障:□有□无路由表设置:□正常□不正常mail中有否软件错误:□有□无域名设置:□正常□不正常其他LOG文件:□正常□不正常7.数据是否已作保护2.文件系统:□所有数据□部分数据□没有保护使用率是否正常:□是□否数据保护方式:□RAID-1□RAID-5JFSLOG设置:□正常□不正常□RAID-10□LV镜像□逻辑卷0+13.内存交换区:使用率是否超过70%:□是□否8.系统DUMP设置:□正常□不正常交换逻辑卷设置:□正常□不正常9.用户登录记录检查:□正常□不正常10.HACMP测试:4.系统性能:ClusterVerification:□正常□不正常是否性能瓶颈:□有□无相关参数设置检查:□正常□不正常5.数据备份:接管测试:□正常□不正常系统备份是否符合要求:□是□否最近一次系统备份时间:___________11.补丁程序(PTF):数据备份是否符合要求:□是□否满足稳定运行需要:□是□否备份介质是否保存妥善:□是□否12.运行”snapr;snapgfkbLc”,取回存档操作系统及重要软件的补丁版本:本次预防性维护发现的问题:已经解决的问题及下一步工作计划:客户意见及建议:□非常满意□满意□一般□不满意□非常不满意客户签字:____________年___月___日工程师签字:____________年___月___日IBM全球服务(中国)有限公司技术支持服务部扩展阅读:巡检报告空压机巡检报告报告编号:EXJ-201*-空压机型号:整机编号:服务商公司名称:用户名称:用户联络人:部门:联系电话:传真电话:空压站运行情况描述1.空压机运行时数:小时,压力设置范围:bar。
IBM pSeries巡检报告08
有否硬件故障:
有否软件故障:
故障内容:
用mail 命令查看有否发给root用户的错报告正常 □不正常
故障内容:
查看日志文件,/smit.log;/var/adm/ras/bootlog;/var/adm/sulog;正常 □不正常
who–s /etc/security/failedlogin |tail -30
sysdumpdev–l
通信测试正常 □ 不正常
检查各网卡的状态、IP地址、路由表等(netstat–in / netstat -rn)
用“ping”等命令检查通信
Hacmp检查正常□ 不正常
HACMP日志状态,HACMP进程状态,HACMP资源组状态
注:
系统中是否有死进程:正常□ 不正常
ps–ef|grep defunct
深圳市财政委
小型机现场巡检报告
深圳市圣翰软件发展有限公司
2010年8月
巡检日期:2010年8月5日 机型: IBM P570,P550
序列号:653451F,65345BF,65345AF,65345CF,65344FF,653459F,062590H,062592H,062597H
检查机房环境
温度 湿度相电压线电压零地电压正常 □ 不正常
注:
是否允许 ftp rlogin telnet正常 □ 不正常
注:
存储检查□ 正常 □ 不正常无
PV状态,故障灯,告警
运行fget_config–l dar0检查磁盘路径分配情况□ 正常 □ 不正常无
巡检总结:
1.系统硬件正常。
2.系统磁盘保护正常,空间使用率合理。
IBM小型机硬件及系统检测情况汇总
正常
HACMP 服务
#lssrc –g cluster
正常
HACMP I/O Pacing
#lsattr –El sys0 |grep out
正常
/etc/host文件
#more /etc/hosts
正常
HACMP 日志
#tail –f /tmp/hacmp.out
# sysdumpdev –l
正常
系统备份检查
做vg配置信息的备份
已备份
询问客户有否在系统变更后或每半年做系统备份
询问客户数据库及应用、应用数据是否定期有效
进行备份
系统性能检查
CPU
#topas
正常
Disk
#vmstat
正常
应用程序磁盘
#iostat
正常
交换区
#lsps -a
正常
#bindprocessor -q
The available processors are: 0 1 2 3 4 5 6 7
系统板、CPU、内存、I/O板
#diag
No trouble was found 正常
网卡、SCSI卡、SSA卡
#diag
No trouble was found 正常
系统其他扩展卡
#diag
No trouble was found 正常
硬盘、磁盘阵列
#diag
No trouble was found 正常
磁带机、磁带库
#diag
No trouble was found 正常
网卡的状态、IP地址
#ifconfig –a
正常
网卡通信(ping)
IBM小型机巡检内容及操作指导
IBM小型机巡检内容及操作指导一、巡检内容:1.确认机房环境:检查机房温湿度是否正常,观察机房是否通风良好,排查是否存在灰尘、杂物等对机器运行造成的影响。
2.检查电源供应:检查电源线是否正常连接,确认主机和外围设备的电源是否正常工作。
3.确认网络连接:检查网络线是否正常连接,确认小型机与其他设备、服务器的网络连接是否正常。
4.检查主机状态:确认小型机主机的状态是否正常,例如观察指示灯是否正常亮起,听觉上是否存在异常噪音等。
5.检查存储设备:检查存储设备(如硬盘、光驱等)是否正常运作,确认是否存在故障或异常。
6.检查数据备份:确认小型机的数据备份是否按照设定时间和规则进行,并进行验证备份数据的可用性。
7.检查软件运行:确认小型机上安装的软件是否正常运行,是否存在异常报错等情况。
8.检查安全性:确认小型机上的安全措施是否完善,例如防火墙的配置、病毒防护软件的更新等。
9.备份日志文件:对小型机的日志文件进行备份,以便后续查阅和分析问题。
10.更新系统和软件:对小型机的操作系统和安装的软件进行更新和升级,以确保系统的安全性和稳定性。
二、巡检操作指导:1.确保巡检前机器处于关闭状态,并断开电源线。
2.进入机房后,首先检查机房环境是否正常,如温湿度、通风等。
3.检查电源供应:确认主机和外围设备的电源线是否正常连接,然后接通电源线并开机。
4.检查网络连接:确保网络线与小型机的网口连接正常,并通过网络测试工具检查网络连接是否正常。
5.检查主机状态:观察小型机主机状态指示灯是否正常亮起,听音觉察是否有异常噪音。
6.检查存储设备:通过操作系统的设备管理工具检查存储设备的状态,如硬盘是否正常运行、光驱是否可用等。
7.检查数据备份:登录小型机系统,查看备份工具的设置和备份日志,确认数据备份是否按照规则进行,并验证备份数据的可用性。
8.检查软件运行:登录小型机系统,运行安装好的软件,检查是否存在异常报错等情况。
9.检查安全性:登录小型机系统,确认防火墙的配置是否符合规范,病毒防护软件是否及时更新。
IBM小机巡检报告格式
异常□
检查路由表
执行命令:
netstat -rn
检查系统网关是否有配置,各个路由表是否正确。
正常□
异常□
检查群集进程
执行命令:
lssrc–g cluster
检查群集进程是否开启,默认情况下
clstrmgrES该进程应该是激活的。
正常□
异常□
检查群集状态执行命令:clstat -a检查当前群集状态,各个网卡接口状态是否为UP;各个资源组状态是否为online。
检查系统卷组的镜像状态。
各个逻辑卷的PPs数量应该为LPs数量的整数倍,倍数大于1并且能被PVs整除,表示卷组已经作镜像。
各个逻辑卷的LV STATE应该为syncd,否则表示镜像不同步。
各个逻辑卷的LV STATE应该为syncd,否则表示镜像不同步。
正常□
异常□
文件系统
执行命令:
df -k
检查已经挂载的文件系统的使用状态。
重点检查/(根) /tmp(临时)/var (日志文件)这些动态文件系统的使用率最好保持在70%以下。
正常□
异常□
错误日志
执行命令:
errpt
检查系统日志是否有硬件或软件方面的永久错误。若发现错误类型为P的信息,则需要注意。
正常□
异常□
网卡配置情况
执行命令:
ifconfig–a
检查各个网卡的配置情况,状态是否为UP,检查ip地址和子网掩码等配置是否正确。
CPU状态为Available,表示CPU使用正常
正常□
异常□
内存
执行命令:
lsattr–El mem0
检查内存数量及状态。
size与goodsize的数量相等表示内存使用正常
ibm小型机巡检命令
ibm小型机巡检命令hostname主机名oslevel -s现实系统当前版本lsdev -Cc disk显示系统中的硬盘lscfg -vpl hdiskX显示硬盘X的配置信息lsvg -l rootvg显示根卷组逻辑信息lsvg -p rootvg显示根卷组的物理信息errpt显示错误信息errpt -a|more显示错误详细信息并分页errpt -aj ec0bccd4(错误标示符)显示单个错误的详细信息mail显示是否有maildf -g显示文件系统空间使用率(90%引起注意)lsps -a分页空间利用率(70%引起注意)sar 1 5实时cpu内存使用情况topas系统实时显示ifconfig -a显示网卡状态和ip地址netstat -in显示网络信息lsvg rootvg显示根卷组的详细信息10/100/1000 Base-TX PCI-X(网卡兼容的速率)1. 查看逻辑CPU个数#pmcycles -mCPU 0 runs at 4204 MHzCPU 1 runs at 4204 MHzCPU 2 runs at 4204 MHzCPU 3 runs at 4204 MHzCPU 4 runs at 4204 MHzCPU 5 runs at 4204 MHzCPU 6 runs at 4204 MHzCPU 7 runs at 4204 MHz上面描述有8个CPU,CPU的主频为4.2G赫兹2. 查看物理CPU个数#prtconf|grep ProcessorsNumber Of Processors: 43. 确定CPU是几核用逻辑CPU除以物理CPU就是核数。
4. 查看单个CPU的详细信息#lsattr -E -l proc0frequency 4204000000 Processor Speed False smt_enabled true Processor SMT enabled False smt_threads 2 Processor SMT threads False state enable Processor state Falsetype PowerPC_POWER6 Processor type Falsecd /usr/lpp/diag*/bin./usysfault查看面板故障灯是否出现故障、。
IBM 小型机巡检服务过程
IBM 小型机巡检服务过程一.提取机器的型号。
#uname -uM二.机房内场地环境检查。
三.检查系统硬件灯是否有亮。
四.查看系统错误报告。
1.查看是否有硬件和软件故障。
#Errpt –d H | more ,# errpt –d S | more, #errpt –aj *******|more查看具体错误信息# errpt -d H -T PERM>/tmp/hwerror.log //可以把错误的报告存成一个文件。
2.有否发给root用户的错误报告(mail)。
#Mail3.检查hacmp.out,smit.log,bootlog等.#lssrc –g cluster/#>lssrc –g cluster,一般hacmp.out的位置在:/use/sbin/cluster/或者/tmp/,找到最近hacmp.out文件查看是否有错误信息。
4.查看是否有“满”的系统文件。
#df –k 查看系统文件有没有超过90%的使用率,有请用户改善。
5.查看是否有“stale”(不可用)状态的逻辑卷.#lsvg -l rootvg,系统还有其卷组的也要查看。
6.查看内存使用率是否超过70%。
#Lsps -a五.系统性能检查,查看系统是否有性能瓶颈。
#topas #vmstat 1 10 #iostat 1 10六.网络与通讯检查,查看网卡的状态,IP地址,路由器等。
#ifconfig –a,#netstat–in,#netstat –rn(查看路由情况),#vi/etc/hosts(查看hosts文件有否特殊定义),#ping ******(IP),#lsattr –Elet0(路由的检测,显示true正确的就是没问题)。
七,数据安全检查。
1.查看是否有符合要求的备份。
#ls –l/image.date(查看系统有没有备份image文件,记录备份最后日期),#lsvg –l rootvg(查看有否符合要求的数据备份和保护)。
IBM_P_系列小机巡检服务报告单 V2.0
零地电压_________
□符合要求□不符合
网卡通信
□正常□不正常
温度、湿度
□符合要求□不符合
2.检查系统硬件情况:
10.磁盘阵列RAID盘的状态:
设备故障灯是否有亮
□有□无
IBM存储型号________________________
有否其他异常情况
□有□无
□Good□Degraded□Failed
XXX服务器巡检服务报告单
客户名称:__________________________
机器型号:______________系列号:______________
检查时间:_______年____月____日_____时
本年度第________次检查
1.机房环境:
9.网卡
电源电压_________
□符合要求□不符合
□满意□一般□不满意□非常不满意
具体意见:
客户签字:
根据需要清洁过滤网
□已清洁□不需要
I/O板、扩展卡
□正常□不正常
5.逻辑卷/硬盘检查:
硬盘、磁盘阵列□正常□不正常
是否有stale的逻辑卷
□有□无
磁带机ቤተ መጻሕፍቲ ባይዱ磁带库
□□□正常□不正常
6.磁带机是否需要清洁
□需要□不需
12.微代码(Microcode)是否满足稳定运行的需要
7. CPU是否被disable
□有□无
□是□否
CPU GUARD设置
□正确□不正确
13.运行"snap-r;sanp-gfkbLc",取回存档.
8.SAN交换机是否正常:
□正常□不正常
外管局巡检报告
正常异常说明:
检查结果 正常异常说明: 正常异常说明: 正常异常说明:
检查结果 正常异常说明: 正常异常说明:
正常异常说明:
正常异常说明: 正常异常说明: 检查结果
版本: 版本: 正常异常说明: 正常异常说明: 正常异常说明:
记录主要部件的相关信息 #lscfg -vp
记录结果
系统备份检查 检查内容 检查方法 参考标准
询问客户有否系统变更后 或每半年做系统备份 询问客户数据库及应用、 应用数据是否定期有效进 行备份 询问客户介质(磁带)是否 标注清楚 询问客户备份介质是否被 妥善保存 询问客户磁带机是否按要 求定期清洁 最近一次系统成功备份时 间 检查内容 CPU 使用率 I/O性能 内存性能 交换区使用情况 整体评估及建议: 用户方(签字):
正常异常说明:
正常异常说明:
正常异常说明:
正常异常说明: 规格
正常异常说明:
检查结果
正常异常说明:
正常异常说明:
正常异常说明:
正常异常说明:
正常异常说明:
最近的成功备份时间是:
检查结果 sr: % ys: % dle: % 正常异常说明: 正常异常说明:
IBM小型机巡检报告
(P570、P560Q、P550Q)
用户单位: 用户姓名: 设备型号: 开始时间: 检查内容 设备故障灯是否有亮 是否有其他异常情况 CPU是否被disable 系统板、CPU、内存、I/O 板 网卡、SCSI卡、SSA卡 系统其他扩展卡 硬盘、磁盘阵列 磁带机、磁带库 网卡的状态、IP地址 网卡通信(ping) 路由表设置 检查内容 系统错误日志 有否硬件故障 Mail中有否错误报告 检查内容 HACMP 服务 HACMP I/O Pacing HACMP 切换测试 (根据需要) /etc/host文件 HACMP 日志 检查内容 系统补丁级别(PTF) 系统微码级别 (Microcode) 有否"stale"状态的逻辑 卷 文件系统使用率是否正常 rootvg是否做镜像 内存交换区的使用率是否 超过 70% 如有数据库系统,aio参 数是否可用 /etc/environment文件中 有否夏时制 errdemon,srcmstr是否 正常 系统DUMP设置是否正常 湖北省电力公司信息通信分公司 用户地址: 董亮 用户电话: IBM P550Q 序列号: 年 月 日 时 分 结束时间: 主机硬件检查 检查方法 目测 目测 #bindprocessor -q #diag #diag #diag #diag #diag #ifconfig –a #ping #netstat –rn #lsattr –El inet0 检查方法 #errpt #errpt -d H #mail 检查方法 #lssrc –g cluster #lsattr –El sys0 |grep out #smitty hacmp #more /etc/hosts #tail –f /tmp/hacmp.out 检查方法 #instfix –i |grep ML #lsmcode -c #lsvg -l vgname #df -k #lsvg –l rootvg #lsps -a #lsdev -C|grep aio #echo $TZ #ps -ef |grep errdemon #ps -ef |grep srcmstr #sysdumdev –l 参考标准 否 否 否 无报错信息 无报错信息 无报错信息 无报错信息 无报错信息 无报错信息 无报错信息 无报错信息 系统日志检查 参考标准 无报错信息 无报错信息 无报错信息 集群检查 参考标准 已启动 无报错信息 正常切换 配置合理 无报错信息 系统配置检查 参考标准 记录结果 记录结果 否 < 90% 是 < 70% 是 有 是 是 检查结果 正常异常说明: 正常异常说明: 正常异常说明: 检查结果 正常异常说明: 正常异常说明: 正常异常说明: 正常异常说明: 正常异常说明: 检查结果 版本: 版本: 正常异常说明: 正常异常说明: 正常异常说明: 正常异常说明: 正常异常说明: 正常异常说明: 正常异常说明: 正常异常说明: 类型 CPU 内存 内置硬盘 检查结果 武汉市徐东大街351号宏源商务中心 13476216205 年 月 日 时 分
IBM小型机巡检报告
IBM Pxxx小型机服务报告目录前言 (4)第一章系统健康档案 (4)1.1 CPU与内存 (4)1.1.1 处理器数量 (4)1.1.2 处理器物理位置 (4)1.1.3 处理器主频和类型 (4)1.1.4 内存大小 (4)1.1.5 内存类型及物理位置 (5)1.2 ADAPTER (5)1.3 硬盘 (5)1.4 光驱和磁带机等其他设备 (5)1.5 逻辑卷及文件系统配置 (6)1.5.1 rootvg (6)第二章系统软件档案 (7)2.1 操作系统版本及升级建议 (7)2.2 主机微码版本及升级建议 (7)2.3 高可用性集群软件配置情况 (7)第三章系统性能分析报告 (8)第四章问题汇总与分析报告 (9)4.1 问题记录 (9)4.2 问题分析 (9)前言该机SN号为:xxxxxxx ,作为xxx应用服务器。
第一章系统健康档案1.1 CPU与内存1.1.1 处理器数量#lsdev -Ccprocessor* 共有——颗处理器1.1.2 处理器物理位置#lscfg –vp|grep proc有两块处理器卡,proc0-proc7 在C1卡上;proc16-proc23在C4 CPU卡上1.1.3 处理器主频和类型#lsattr -El proc01.1.4 内存大小#lsdev -Ccmemory#lsattr -El L2cache0#lsattr -El mem0共32G内存1.1.5 内存类型及物理位置#lscfg –vp –l mem0有4块8192MB内存卡,具体位置如下:1.2 ADAPTER#lsdev -Ccadapter1.3 硬盘#lsdev -Ccdiskhdisk0与hdisk1是内置硬盘hdisk2-hdisk49是P670通过光通道卡fcs0、fcs1识别IBM FC2105磁盘阵列的逻辑硬盘设备号#lsvpcfg特别提醒:不要将hdsik2-hdisk49加入任何卷组(VG)中;必须用vpath0-vpath12设备号创建卷组(VG)内置硬盘大小:1.4 光驱和磁带机等其他设备#lsdev -Cctape#lscfg –vp -l rmt0#lsdev -Cccdrom.1.5 逻辑卷及文件系统配置注:每个VG一个章节,参考本文档#lspv#lsvg 系统定义的卷组#lsvg –o 系统激活的卷组#df –k 列出文件系统使用情况1.5.1 rootvg#lsvg -l rootvg#lsvg rootvg第二章系统软件档案2.1 操作系统版本及升级建议#oslevel –s当前系统版本为:目前系统运行稳定,征求客户意见后,不建议升级2.2 主机微码版本及升级建议#lsmcode当前系统微码版本为:目前系统运行稳定,征求客户意见后,不建议升级2.3 高可用性集群软件配置情况#lslpp –l|grep cluster目前该机没有运行高可用性软件注:如果安装配置了集群软件请给出详细配置信息第三章系统性能分析报告监控时间为上午8点49分至第二天下午2点49分,每分钟报告一次系统性能。
小型机巡检报告模版
备注:
20.硬件检查诊断(Diagnostic)
运行Diag系统诊断程序
系统、CPU、内存、I/O板□正常□不正常
网卡、SCSI卡、SSA卡□正常□不正常
系统其它扩展卡□正常□不正常
硬盘、磁盘阵列□正常□不正常
磁带库、磁带机□正常□不正常
其它□正常□不正常
21.运行“snap –ac”,取回/tmp/ibmsupt/snap+s/n.pax.Z文件存档
故障内容:
4.查看日志文件,如: /tmp/hacmp.out,/smit.log,/var/adm/ras/bootlog
是否有异常。□有□无
备注:
5.检查文件系统查看有否“80%”以上的文件系统。□有□无
备注:
6.查看卷组信息(lsvg –l vg_name):有否“stale”状态的逻辑卷
□有□无
22.机器清洁情况□良好□一般□已清洁
23.系统整体运行情况:
工程师签字:日期:年月日
客户签字:日期:年月日
注:1~16为A类维护(季度维护),17~19为B类维护(半年维护),20~23为C类维护(年度维护)
工程师服务记录表
本次巡检发现的问题:
已经解决的问题及方法:
处理结果:
客户满意度:1、非常满意()2、满意CMP的测试在于检查系统在出现宕机情况时业务系统能否正常地进行接管切换。由于生产环境的参数设置的改变,有可能导致生产系统和备份系统出现不一致的情况,从而导致在真正发生故障时业务系统不能接管。
HACMP snap文件存档□有□无
Cluster Veritication:□正常□不正常
16.检查机房环境
巡检服务报告(IBM小型机)v1.3
IBM小型机系统预防性维护服务报告单客户名称:机器型号序列号检查时间:20 年月日时本年度第次检查机器名1. 机房环境:电源电压□符合要求□不符合;零地电压□符合要求□不符合温度、湿度:□符合要求□不符合2. 检查系统硬件情况:设备故障灯是否有亮:3. 系统错误报告(Error Log):有否硬件故障:□有□有□无;有其他否异常情况:□有□无;启动日志:□正常□无□不正常mail中有否错误报告:□有□无;服务进程日志:□正常□不正常4. CPU有否被disable:□有□无;CPU GUARD设置:□正确□不正确5. 逻辑卷:6. 有否"stale"状态的逻辑卷:□有□无7. 关键文件系统:使用率是否正常:□是□否;JFSLOG设置:□正常□不正常8. 磁带机是否需要清洗:□需要□不需要9. SAN交换机是否正常:□正常□不正常□没有10. 通信:网卡的状态、IP地址:□正常□不正常网卡通信(ping):□正常□不正常/etc/hosts文件或DNS设置:□正常□不正常路由表设置:□正常□不正常;域名设置:□正常□不正常11. 磁盘阵列RAID盘的状态:IBM存储型号数据保护方式□Cache打开□有热备盘□Cache关闭□无热备盘12. 机器清洁:根据需要清洁机器各部件:□已清洁□不需要过滤网是否需要更换:□要更换□不需要13. 补丁程序(PTF) 系统补丁级别:最新补丁级别:微代码(Microcode) 系统微码级别:最新微码级别:网卡、控制卡、硬盘微码是否需要升级:□是□否请与客户沟通是否需要升级系统补丁和微码:□是□否14. 系统硬件诊断:系统板、CPU、内存、I/O板□正常□不正常网卡、SCSI卡、SSA卡系统其他扩展卡硬盘、磁盘阵列磁带机、磁带库□正常□正常□正常□正常□不正常□不正常□不正常□不正常15. 内存交换区:使用率是否超过70%:□是□否大小是否大于物理内存的1.5倍:□是□否16. 备份:有否有符合要求的系统备份:□有□无最近一次系统备份的时间有否符合要求的用户数据备份:□有□无备份介质是否妥善保存:□有□无17. 检查rootvg是否有做镜像:□有□无18. 系统DUMP设置是否正常:□正常□不正常19. 检查errdemon,srcmstr是否正常:□正常□不正常20. 检查系统参数是否正确:□是□否1./etc/environment文件中TZ不应有夏时制2.如有数据库系统:Aio :available3.Hacmp 系统中I/O pacing: High Water Mark/Low Water Mark:33/244.Hacmp 系统中Syncd:105.Hacmp 系统中Power Monitor子系统应关闭21. 系统性能:有否性能瓶颈:□有□无22. HACMP 测试:□是□否Cluster Verification:□正常□不正常;相关参数设置检查:□正常□不正常接管测试(根据需要):□正常□不正常23. 运行“#snap –r;snap –gfkbLc” ,取回存档。
IBM小型机巡检
IBM小型机巡检将以前网上down的资料整理了一下1、检查系统硬件情况设备故障灯是否有亮包括硬盘,阵列,光纤交换机,系统故障灯,磁带机等是否有其它异常情况2、系统错误报告(ERROR LOG),errpt是否有硬件故障是否有软件故障3、有否发给ROOT用户的错误报告(MAIL)root用户下执行mail4、关键文件系统的使用率不大于80%df –k5、逻辑卷:有否“STALE”状态的逻辑卷lsvg –l rootvg6、页面空间使用率是否超过70%lsps –a7、内存交换区的大小是否为物理内存的2倍此项根据物理内存大小区别对待如果内存<4g,则大小为2倍如果内存>4g,则大小与内存一样即可8、系统备份:是否有符合要求的系统备份:最后一次系统备份的时间:是否符合要求的用户数据备份:9、通信:网卡的状态、IP地址、路由表等网卡通信(ping)/etc/hosts 或DNSifconfig –anetstat –inlsattr –El inet0netstat –rnnslookup10、是否有数据保护方式如raid10/raid5,是否有hot spare主要是磁盘阵列,或根卷组磁盘镜像磁盘阵列的raid与hotspare为硬件级别,可通过软件查看根卷组磁盘镜像可以通过lsvg –l rootvg查看lp与pp对比11、机房环境电源电压____零地电压_____温度、湿度_____12、机器清洁(根据需要清洁机器各部件)主要是磁带机以及外面板灰尘13、补丁程序(PTF)系统补丁级别:oslevel –r 、instfix –i | grep ML最新补丁级别:微代码(MICROCODE)系统微代码:lscfg -vp | grep alt最新微代码:网卡、控制卡、硬盘微码是否需要升级lscfg -vp请与客户沟通是否需要升级系统补丁和微码14、系统硬件诊断主要通过查看errpt,diag执行系统板、CPU、内存、I/O板网卡、SCSI卡、SSA卡系统其它扩展卡硬盘、磁盘阵列磁带机、磁带库15、检查hacmp.out smit.log bootlog,wtmp等日志文件tail –100 hacmp.outtail -100 smit.logalog –t boot –olast16、系统性能内存:svmon、lsps -aCpu :sar硬盘:iostat文件系统:filemon其他命令: vmstat、topas、lvmstat17、DUMP设备的检查sysdumdev -l18、磁带机是否需要清洗/usr/lpp/diagnostics/bin/utape -cd rmt0 –n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗19、系统参数的检查1).HIGH water mark for pending write I/Os# lsattr -El sys0 |grep maxpout输出判断:结果应为maxpout 33 HIGH water mark for pending write I/Os per file True2).LOW water mark for pending write I/Os# lsattr -El sys0|grep minpout输出判断:结果应为minpout 24 LOW water mark for pending write I/Os per file True更改命令为:#chdev -l sys0 -a maxpout='33' -a minpout='24'3).Syncd参数# grep syncd /sbin/rc.boot输出判断:结果应为nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &更改命令为:#vi /sbin/rc.boot4).aio参数# lsdev -Cc aio输出判断:结果应为aio0 Available Asynchronous I/O# lsattr -El aio0输出判断:结果应为minservers 1 MINIMUM number of servers Truemaxservers 10 MAXIMUM number of servers Truemaxreqs 4096 Maximum number of REQUESTS Truekprocprio 39 Server PRIORITY Trueautoconfig available STATE to be configured at systemrestart Truefastpath enable State of fast path True更改命令为:#smitty aio5) /etc/environment文件中TZ不应有夏时制20、检查errdemon, srcmstr是否正常运行lssrc –s errdemonlssrc –s srcmstrps –ef | grep erredps –ef | grep srcm21、收集系统信息运行#snap –ac在/tmp/ibmsupt目录下生成压缩文件snap.pax.Z zcat snap.pax.Z | pax -rv 解压到当前目录。
IBM 小型机巡检服务报告
异常说明:
卷组(VG)配置,检查VG状态是否可用,逻辑卷状态是否为syncd
# lsvg –l vgname
正常
异常说明:
检查是否有磁盘镜象/Raid数据保护
# lsvg –l vgname / smitty检查Raid情况
正常
异常说明:
缓冲区信息
# lsps -a
正常
异常说明:
文件系统信息
# df -k
正常
异常说明:
系统日志检查
系统日志
#errpt
正常
异常说明:
系统邮件
#mail检查有无报错
正常
异常说明:
上次启动时间
# boot
正常
异常说明:
系统备份检查
有否合符要求的系统备份
询问系统管理员
是
否说明:
最近的一次备份时间
询问系统管理员
记录:
是否存在系统备份策略并执行
#lscfg –Cc |grepSystemFirmware
#prtconf |grep Firmware
记录:
系统版本/维护级别
# oslevel -r
记录:
/etc/environmen不能有夏时制
# echo $TZ
正常
异常说明:
AIO是否激活
# lsdev -Cc aio
正常
异常说明:
网卡状态
# ifconfig entX
正常
异常说明:
Ping网关是否丢包
# ping ip address
正常
异常说明:
/etc/hosts文件配置
# cat /etc/hosts
正常
IBM小型机及存储巡检手册
SCSI 设备,例如内置的 SCSI 硬盘。
在运行在线诊断的时候几点注意事项:
•当系统在运行繁重应用的时候,不要应用在线诊断。
#errpt |more 列出简短出错信息
ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION
192AC071 0723100314 T 0 errdemon Error logging turned off
0E017ED1 0720131014 P H mem2 Memory failure
P5系列小型机指示灯如下图:
注意CPU风扇和电源风扇等的出风是否顺畅,是否有异物遮挡,影响散热效果。
注意机器是否有异常的声响,特别是风扇,电源,和硬盘部分。
检查IO板卡插槽是否有板卡的指示灯不正常或不亮。检查是否有松脱、曲折甚至 破损的线缆和线缆插头。
温馨提醒:机柜间、机柜顶或者地板上有金属物体(螺丝,铁片)等,请注意收
•洁净度:机房应保持清洁,不能有太多的灰尘,如机房太脏应提醒客户注意。
•维护空间:机柜旁不宜摆放杂物,要根据各机型的规定留有足够的散热空间和维 护空间。
•电话线:机房应该配备电话线(用于紧急拨号维护或及时电话支持)。
一
•先从外观上检查硬件情况,检查设备故障灯是否有亮。各种设备上都有故障指示 灯,通常为橘红色并有!标记。同时注意主机和磁盘阵列的LCD面板,设备发 生故障时通常伴有出错代码,必须把所有故障代码记录下来。!
破损或者堵塞。 如果过滤网堵塞会导致机器因散热问题而宕机。可以检查出风 口的温度和气流,如气流较弱温度较高则非常可能是滤网堵塞了。7040 Service Guide建议过滤网必须每半年检查一次。
IBM小机巡检命令
博客温国总有一种力量,推动历史前行。
•首页•推荐•留言•评论•简历•相册•关于•隐藏/显示侧栏•登录« 存储模拟器和Demo(...Windows自带备份软件... »分类: 〖网络技术〗IBM小型机巡检命令[ 2008-11-28 00:16:37 | 作者: orrico ]字体大小: 大 | 中 | 小一、检查机房温度和湿度参考值:温度(摄氏℃)10 ℃-40℃湿度 8% -80%二、检查电源的检测参考值:零-地电压小于1V火-地电压 200-240V补充:当然59系列的机器相间380V,相地240V。
三:查看报错信息主要查看硬件的永久性报错 #errpt -dH | pg软件的永久性报错 #errpt -dS | pg系统报警灯四、机器的序列号# uname -MuIBM,9131-52A IBM,030666C5G五、操作系统版本:#oslevel -r# oslevel -r5300-05注:有时候不能使用是因为系统版本低的原因。
六、其他检测1、执行sysdumpdev –l检查dump是否设置为always allow sysdump;# sysdumpdev -lprimary /dev/hd6secondary /dev/sysdumpnullcopy directory /var/adm/rasforced copy flag TRUEalways allow dump FALSEdump compression ON2、执行sysdumpdev –e检查当前dump大小应该为主dump设备的大小的80%以下;# sysdumpdev -e0453-041 Estimated dump size in bytes: 1704984573、执行lsvg -l rootvg检查有否"stale"状态的逻辑卷;# lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 2 4 2 open/syncd N/Ahd8 jfs2log 1 2 2 open/syncd N/Ahd4 jfs2 40 80 2 open/syncd /hd2 jfs2 8 16 2 open/syncd /usrhd9var jfs2 1 2 2 open/syncd /varhd3 jfs2 8 16 2 open/syncd /tmphd1 jfs2 40 80 2 open/syncd /homehd10opt jfs2 1 2 2 open/syncd /optfwdump jfs2 1 2 2 open/syncd /var/adm/ras/platform4、执行lsps -s检查内存交换区占用情况;# lsps -sTotal Paging Space Percent Used512MB 1%# lsps -aPage Space Physical Volume Volume Group Size %Used Active Auto Type hd6 hdisk0 rootvg 512MB 1 yes yes lv5、执行df -m检查文件系统的分配状况,一般不要超过80%;# df -mFilesystem MB blocks Free %Used Iused %Iused Mounted on/dev/hd4 10240.00 6614.88 36% 18551 2% //dev/hd2 2048.00 667.25 68% 37425 20% /usr/dev/hd9var 256.00 246.13 4% 477 1% /var/dev/hd3 2048.00 1212.24 41% 2864 2% /tmp/dev/fwdump 256.00 255.64 1% 4 1% /var/adm/ras/platform/dev/hd1 10240.00 7713.15 25% 2526 1% /home/proc - - - - - /proc/dev/hd10opt 256.00 205.61 20% 976 3% /opt6、执行lsdev –Cc disk检查硬盘状态为available;# lsdev -Cc diskhdisk0 Available 04-08-00-8,0 16 Bit LVD SCSI Disk Drivehdisk1 Available 04-08-00-5,0 16 Bit LVD SCSI Disk Drive7、执行lsdev –Cc adapter检查PCI卡状态为available;# lsdev -Cc adapterent0 Available 09-08 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902) ent1 Available 09-09 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902) ide0 Available 03-08 ATA/IDE Controller Devicelai0 Available 0C-00 GXT135P Graphics Adaptersisscsia0 Available 04-08 PCI-X Dual Channel Ultra320 SCSI Adapter usbhc0 Available 08-08 USB Host Controller (33103500)usbhc1 Available 08-09 USB Host Controller (33103500)vsa0 Available LPAR Virtual Serial Adaptervsa1 Available LPAR Virtual Serial Adapter8、执行lsdev –Cc tape检查磁带机状态为available;# lsdev -Cc tapermt0 Available 04-08-00-0,0 LVD SCSI 4mm Tape Drive9、执行lsdev – Cc processor检查CPU状态为available;# lsdev -Cc processorproc0 Available 00-00 Processorproc2 Available 00-02 Processor10、执行lsattr –El sys0|grep autorestart检查系统crash后是否自动重新启动;# lsattr -El sys0 |grep autorestartautorestart true Automatically REBOOT system after a crash True# chdev -l sys0 -a autorestart=false修改autorestart值为False;11、执行lsattr –El sys0|grep cpuguard检查CPU GUARD是否开启;# lsattr -El sys0 |grep cpuguardcpuguard enable CPU Guard True# chdev -l sys0 -a cpuguard=false修改cpuguard值为False;12、执行lsattr –El mem0检查内存状态,正常状态size=goodsize;# lsattr -El mem0goodsize 3920 Amount of usable physical memory in Mbytes Falsesize 3920 Total amount of physical memory in Mbytes False13、执行 vmstat、iostat、topas观察us,sy,pi,po,内存占用率,硬盘读写速度等检查是否有性能瓶颈;a) CPU性能:使用vmstat, topas来检查;b) 内存使用情况:也是使用topas,vmstat来检查;c) 检查IO平衡使用情况:使用iostat来检查;d) 交换空间使用情况:使用lsps –a来检查;# vmstatSystem configuration: lcpu=4 mem=3920MBkthr memory page faults cpu----- ----------- ------------------------ ------------ ----------- r b avm fre re pi po fr sr cy in sy cs us sy id wa1 1 147268 831951 0 0 0 0 0 02 1350 67 0 0 99 0# topasTopas Monitor for host: IBMSim EVENTS/QUEUES FILE/TTYMon Feb 25 16:21:13 2008 Interval: 2 Cswitch 66 Readch 6 Syscall 1375 Writech 176Kernel 0.1 |# | Reads 0 Rawin 0User 0.1 |# | Writes 0 Ttyout 176Wait 0.0 | | Forks 0 Igets 0Idle 99.8 |############################| Execs 0 Namei 0 Runqueue 0.0 Dirblk 0Network KBPS I-Pack O-Pack KB-In KB-Out Waitqueue 0.0en1 0.2 0.5 0.5 0.0 0.2en0 0.0 0.0 0.0 0.0 0.0 PAGING MEMORYlo0 0.0 0.0 0.0 0.0 0.0 Faults 0 Real,MB 3920Steals 0 % Comp 15.9Disk Busy% KBPS TPS KB-Read KB-Writ PgspIn 0 % Noncomp 2.1 hdisk0 0.0 0.0 0.0 0.0 0.0 PgspOut 0 % Client 2.1hdisk1 0.0 0.0 0.0 0.0 0.0 PageIn 0cd0 0.0 0.0 0.0 0.0 0.0 PageOut 0 PAGING SPACESios 0 Size,MB 512Name PID CPU% PgSp Owner % Used 1.1dtgreet 94318 0.1 1.3 root NFS (calls/sec) % Free 98.8 topas 323676 0.0 1.0 root ServerV2 0gil 69666 0.0 0.9 root ClientV2 0 Press:X 131180 0.0 3.6 root ServerV3 0 "h" for helprpc.lock 303278 0.0 1.2 root ClientV3 0 "q" to quit sendmail 233586 0.0 0.9 rootnetm 65568 0.0 0.4 rootxmwlm 188642 0.0 0.8 rootsyncd 127070 0.0 0.5 rootxmgc 49176 0.0 0.4 rootIBM.CSMA 307368 0.0 1.9 rootpsmd 24588 0.0 0.5 rootwlmsched 73764 0.0 0.5 rootj2pg 82000 0.0 2.0 rootusbCfgDe 86080 0.0 0.4 rootdtlogin 90238 0.0 0.4 rootvmptacrt 20490 0.0 0.4 rootaioserve 98496 0.0 0.4 rootlvmbb 102476 0.0 0.4 rootdog 106622 0.0 0.9 root# iostatSystem configuration: lcpu=4 drives=3 paths=2 vdisks=0 tty: tin tout avg-cpu: % user % sys % idle % iowait 0.0 2.5 0.1 0.1 99.8 0.0Disks: % tm_act Kbps tps Kb_read Kb_wrtnhdisk0 0.1 0.9 0.2 87764 153601hdisk1 0.1 0.6 0.1 8694 153601cd0 0.0 0.0 0.0 0 0# lsps -aPage Space Physical Volume Volume Group Size %Used Active Auto Type hd6 hdisk0 rootvg 512MB 1 yes yes lv14、执行ifconfig -a查看网卡是否启动(UP);# ifconfig -aen0:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,G ROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN>inet 192.168.3.1 netmask 0xffffff00 broadcast 192.168.3.255tcp_sendspace 131072 tcp_recvspace 65536en1:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,G ROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN>inet 192.168.7.8 netmask 0xff37ff00 broadcast 192.232.7.255tcp_sendspace 131072 tcp_recvspace 65536lo0:flags=e08084b<UP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT ,64BIT>inet 127.0.0.1 netmask 0xff000000 broadcast 127.255.255.255inet6 ::1/0tcp_sendspace 131072 tcp_recvspace 131072 rfc1323 1#ifconfig en0 up/down修改网卡状态;15、执行netstat -in和netstat -rn观察网络状态;# netstat -rnRouting tablesDestination Gateway Flags Refs Use If Exp GroupsRoute Tree for Protocol Family 2 (Internet):default 192.168.7.253 UG 1 6141 en1 - -127/8 127.0.0.1 U 5 339 lo0 - -192.32.7.0 192.168.7.8 UHSb 0 0 en1 - - =>192.32.7 192.168.7.8 U 2 20955 en1 - -192.168.3.0 192.168.3.1 UHSb 0 0 en0 - - =>192.168.3/24 192.168.3.1 U 0 2 en0 - -192.168.3.1 127.0.0.1 UGHS 7 313 lo0 - -192.168.3.255 192.168.3.1 UHSb 0 4 en0 - -192.168.7.8 127.0.0.1 UGHS 0 1 lo0 - -192.232.7.255 192.168.7.8 UHSb 0 4 en1 - -Route Tree for Protocol Family 24 (Internet v6):::1 ::1 UH 0 0 lo0 - -# netstat -inName Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll en0 1500 link#2 0.14.5e.97.1.14 215 0 561 3 0en0 1500 192.168.3 192.168.3.1 215 0 561 3 0en1 1500 link#3 0.14.5e.97.1.15 37254 0 27106 7 0en1 1500 192.32.7 192.168.7.8 37254 0 27106 7 0lo0 16896 link#1 655 0 661 0 0lo0 16896 127 127.0.0.1 655 0 661 0 0lo0 16896 ::1 655 0 661 0 016、执行entstat -d enX检测网卡运行速率与交换机速率是否匹配(网卡速率由10M半工改为自适应时,缺省网关会丢失。
IBM设备巡检报告 模板
客户名称:机器型号序列号分区名: IP地址:配置: xC xGHz /xG AIX版本:1. 检查系统硬件情况:设备故障灯是否有亮□有■无;有其他否异常情况□有■无2.系统错误报告(Error Log):有否硬件故障■有□无(errpt or errpt -a)有否软件故障□有■无3.有否发给root用户的错误报告(mail): □有■无(mail)4.检查hacmp.out,smit.log,bootlog等■正常□不正常(more /tmp/hacmp.out andsmit.log and alog –o –t boot)5.关键文件系统的使用率不大于80% □是■否(df -g)6.逻辑卷:有否"stale"状态的逻辑卷□有■无(lsvg –l vgname or lsvgvgname)7.内存交换区:使用率是否超过70% □是■否(lsps -a)8.rootvg quorum 设置是否正常■是□否(lsvg rootvg)9.检查系统启动镜像是否正常■是□否(bootlist –m normal -o)10.内存交换区的大小是否设置正常■是□否(内存小于8GB为2倍,大于8G,根据应用需求来设置)(lsps -a)11.备份:有否有符合要求的系统备份■有□无 (ls –l /image*) 系统备份的时间_2012-10-18有否符合要求的用户数据备份■有□无磁带机是否需要清洗□需要■不需12.通信:网卡的状态、IP地址、路由表等■正常□不正常(netstat –i or netstat -nr)网卡通信(ping)■正常□不正常/etc/hosts文件或DNS设置■正常□不正常13.是否有数据保护方式如RAID10/RAID5 ■是□否是否有Hot Spare ■有□无14.系统DUMP设置是否正确:■正常□不正常(sysdumpdev -l)15.检查系统参数是否正确:■是□否1./etc/environment文件中TZ不应有夏时制(echo $TZ 输出结果不包含DT字样)2.如有数据库系统:Aio :available (lsdev –Cc aio)3.Hacmp 系统中Power Monitor子系统应关闭(more /etc/inittab)16.检查rootvg是否有做镜像:■是□否#lsvg –l rootvg如有镜像,所有的lv所对应的LP为PP的两倍。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IBM Pxxx小型机
服务报告
目录
前言 (4)
第一章系统健康档案 (4)
1.1 CPU与内存 (4)
1.1.1 处理器数量 (4)
1.1.2 处理器物理位置 (4)
1.1.3 处理器主频和类型 (4)
1.1.4 内存大小 (4)
1.1.5 内存类型及物理位置 (5)
1.2 ADAPTER (5)
1.3 硬盘 (5)
1.4 光驱和磁带机等其他设备 (5)
1.5 逻辑卷及文件系统配置 (6)
1.5.1 rootvg (6)
第二章系统软件档案 (7)
2.1 操作系统版本及升级建议 (7)
2.2 主机微码版本及升级建议 (7)
2.3 高可用性集群软件配置情况 (7)
第三章系统性能分析报告 (8)
第四章问题汇总与分析报告 (9)
4.1 问题记录 (9)
4.2 问题分析 (9)
前言
该机SN号为:xxxxxxx ,作为xxx应用服务器。
第一章系统健康档案
1.1 CPU与内存
1.1.1 处理器数量
#lsdev -Ccprocessor
* 共有——颗处理器
1.1.2 处理器物理位置
#lscfg –vp|grep proc
有两块处理器卡,proc0-proc7 在C1卡上;proc16-proc23在C4 CPU卡上1.1.3 处理器主频和类型
#lsattr -El proc0
1.1.4 内存大小
#lsdev -Ccmemory
#lsattr -El L2cache0
#lsattr -El mem0
共32G内存
1.1.5 内存类型及物理位置
#lscfg –vp –l mem0
有4块8192MB内存卡,具体位置如下:
1.2 ADAPTER
#lsdev -Ccadapter
1.3 硬盘
#lsdev -Ccdisk
hdisk0与hdisk1是内置硬盘
hdisk2-hdisk49是P670通过光通道卡fcs0、fcs1识别IBM FC2105磁盘阵列的逻辑硬盘设备号#lsvpcfg
特别提醒:不要将hdsik2-hdisk49加入任何卷组(VG)中;
必须用vpath0-vpath12设备号创建卷组(VG)
内置硬盘大小:
1.4 光驱和磁带机等其他设备
#lsdev -Cctape
#lscfg –vp -l rmt0
#lsdev -Cccdrom
.
1.5 逻辑卷及文件系统配置
注:每个VG一个章节,参考本文档
#lspv
#lsvg 系统定义的卷组
#lsvg –o 系统激活的卷组
#df –k 列出文件系统使用情况
1.5.1 rootvg
#lsvg -l rootvg
#lsvg rootvg
第二章系统软件档案
2.1 操作系统版本及升级建议
#oslevel –s
当前系统版本为:
目前系统运行稳定,征求客户意见后,不建议升级
2.2 主机微码版本及升级建议
#lsmcode
当前系统微码版本为:
目前系统运行稳定,征求客户意见后,不建议升级
2.3 高可用性集群软件配置情况#lslpp –l|grep cluster
目前该机没有运行高可用性软件
注:如果安装配置了集群软件请给出详细配置信息
第三章系统性能分析报告
监控时间为上午8点49分至第二天下午2点49分,每分钟报告一次系统性能。
通过性能监测报告,可以看到:
P690在最大负载时(上午9点至11点左右)CPU的空闲时间为20% 这说明负载较重。
Fri Jan 19 08:49:22 BEIST 2007
#vmstat 60
System Configuration: lcpu=16 mem=32768MB
kthr memory page faults cpu
----- ----------- ------------------------ ------------ -----------
r b avm fre re pi po fr sr cy in sy cs us sy id wa
10 1 4270356 2513327 0 0 0 361 213 0 374 23117 11716 59 3 38 0
分析在9点钟CPU空闲只有20%(id),而用户(us)所占cpu为75%,
同时I/O wait 占cpu 为0%,空闲物理内存为10G(2512667x4K),基本可以判断主机cpu 处理能力已接近满负荷。
建议如有可能升级cpu
#ps aux|head -1;ps aux|sort -rn +2|head -30 查看消耗CPU的时间最大30个进程
#ps aux|head -1;ps aux|sort -rn +4|head -30 查看消耗内存最大的30个进程
第四章问题汇总与分析报告
4.1 问题记录
4.2 问题分析。