IBM小型机AIX深度巡检方案

合集下载

iMAS智能设备运维巡检解决方案

iMAS智能设备运维巡检解决方案


• 18年B设备的支出费用
已超过了购入费用
2015 年
2016 年
2017 年
2018 年
设 备
B
效益分析观点与内容
举例:某设备在医院的残值率和其维护成本的分析图
从 成
本根据分Leabharlann 图可以看出万元角 度
1. 2017年,通过折旧率算 出的该设备的价值已经 与其当年的维修成本持
设备残值
考 虑
平。

2. 2018年,该设备的维修
各班组执行的保养任务,实时推送到检查终端,通知和提 醒班组人员按时执行任务。
产品功能-设备维修
现场报修
通知维修
派人去现场
以前: 无法记录报修时情况 查询维修情况难 相关费用统计时间长 设备故障统计不准确
系统确认
现场维修
现场确认
现在: 快速报修:手机端对设备扫描 快速响应:自动通知设备维修组 实时查询:维修记录自动归类到 各设备的记录下,故障描述费用 统计等
产品功能-自动化抄表
通过和原有监测系统对接,可实现远程抄 表,原有人工巡查次数可以被优化,提高 效率的同时,减少人员投入成本。
产品功能-统计分析
实现对设备管理进行多口径、多角度、多维度的统计分析,灵活定制各类数据展示及图形,有助于管理者直观快速的了解和 掌握情况,做到心中有数,及时发现问题,尽快做出决策
系统价值
效益分析观点与内容
A
举例:AB设备类型相同在4年中的维护成本比较


• B设备购入晚于A设备且
价格低
50万
• B设备的支出已于2017
年超越A设备
20万
的 质 量
• 4年间,AB两台审慎都 维持了强劲增长,但是B

AIX系统巡检

AIX系统巡检

AIX系统的日常监控维护1、#df –k 如果占用率(%Iused)超过90%,则需要进行空间调整。

2、#errpt |more 命令分页查看系统出错日志(包括硬件与软件的出错信息)。

根据显示的信息判断系统硬件及软件的运行情况。

输入:errclear 0命令,清除现有的系统日志。

3、#last命令检查系统登陆情况#last,显示各个login用户(如:root等)登陆的信息。

如果发现有异常的登陆用户或者登陆IP,则进行相应安全性的检查及处理。

4、使用find / -name core –print命令检查是否有巨大的core文件生成在命令提示符“#”后输入:find / -name core –print,表示从系统根目录开始查找所有名为core的文件(巨大的core文件容易造成系统崩溃)。

如果存在,一般直接删除即可。

5、使用vmstat命令检查CPU及内存运行情况在命令提示符“#”后输入:vmstat 5,表示每隔5秒钟显示系统CPU及内存运行情况。

查看kthr(kernel运行队列中处于等待状态的进程数)字段的r(运行队列中的进程数)项的显示值,如果该数值是系统实际CPU数的4倍或4倍以上,则表示CPU占用率过高,需要考虑提高系统CPU工作频率;查看memory(虚拟和真实内存的使用信息)字段的fre(空闲页面的数量)项,如果数值低于120,则说明系统内存短缺。

有时候数值虽然高于120,也可以根据实际情况调整内存;查看page(页面活动的信息)字段的pi(从页面输入的页)、po(输出到页面的页)、fr(空闲的页面数)及sr(通过页面置换算法搜索到的页面数)项的值,这4个值一般都为0,有时候也有可能为1;最后查看cpu(cpu的使用率)字段的us(用户进程的时间)及sy(系统进程的时间)项的值,两项值的和应该不超过90%,否则说明CPU能力短缺。

6、使用lsps –a命令检查交换内存空间使用情况在命令提示符“#”后输入:lsps -a,查询交换内存空间使用情况。

IBM小型机AIX深度巡检方案

IBM小型机AIX深度巡检方案
□是
□否
□是
□否
目前的/unix 链接的image文件是否和运行的内核一致?
系统是否已经安装了HIPER APAR?
□是
□否
□是
□否
XCOFF 文件是否和SWVPD保持一致?(lppchk —c查看)
/, /usr, /usr/share 是否一致?(lppchk —v查看)
□是
□否
□是
□否
系统dump检查
HACMP资源组状态
HACMP切换状态
□正常
□上次切换时间:
□异常,详细信息:
□上次切换结果:
HACMP人工效验是否正常
HACMP自动效验是否正常
□正常
□异常详细信息
□正常
□异常详细信息
检查结论及建议
□是
□否
密码安全性检查
用户及用户组检查
□正常
□异常详细信息
□正常
□异常详细信息
VMO参数是否正确: 将输出文件粘贴于此
□是
□否
NO参数是否正确: 将输出文件粘贴于此
□是
□否
Base OS参数是否正确:将输出文件粘贴于此
□是
□否
设备环境状态
设备故障灯:
设备异常声音:
存储检查
硬盘状态
卷组状态
□硬盘状态正常
用户限制是否被正确设置?(ulimit限制)
DUMP空间大小是否满足要求
□是
□否
□是
□否
dump 数据压缩选项是否打开
□是
□否
fullcore 选项是否被激活?
强制dump是否打开
□是
□否
□态及内容)
□启动顺序正常

AIX巡检命令

AIX巡检命令

1、主机型号与序列号检查:#uname –uM2、系统错误报告检查:#errpt #errpt –aj ID号3、Mail信息检查:#mail 看mail有没有error与warning信息。

4、检查smit.log,bootlog。

#cd /var/adm/ras 用vi编辑器查看相关日志看是否有error与warning信息。

5、检查hacmp.out:查看/tmp/hacmp.out文件看是否有error与warning信息6、文件系统检查:#df –k文件系统应该保持在90%以下,超过90%应注意清理。

7、逻辑卷:有否“stale”状态的逻辑卷:#lsvg –o |lsvg –i |grep STALE 看输出STALE是否全为0.全为0表示vg正常。

8、.内存使用情况:#svmon –G 内存使用率不应超过70%9、Swap使用情况:#lsps –a swap空间占用率不应超过70%10、系统性能检查:#topas#vmstat 主要看kthr 参数参数:若r 数值偏大,表明CPU太忙,若b 数值偏大,表明系统I/O出现瓶颈。

%user+sys%接近100%表cpu瓶颈。

如果pi(page-in )和po(page-out ) 参数将不是0,同时avm 和fre 数值的比值悬殊很大,fre 数值很小.#iostat 看% tm_act值, 其表示某个硬盘处于active状态的百分比11、网络状况检查:#netstat –in#netstat -rn12、数据安全检查#ls –l /image.data 检查系统备分日期。

#lsvg –l rootvg 检查rootvg是否镜像13、磁带机清洁的检查:命令:#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。

14、Dump设置检查。

最为详细的AIX 巡检流程

最为详细的AIX 巡检流程

当AIX开始启动时,显示面板上的代码为 0xxx ,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。
Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。用diag命令进行检测,diag步骤如下:
最为详细的AIX 巡检流程
1、 检查系统硬件情况:设备故障灯是否有亮
可用diag命令检查系统硬件运行情况
每个月用diag命令检查一下系统硬件的运行情况,及时发现硬件可能出现的故障。
硬件故障
通常将硬件故障分为以下几个类别
IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRN。
#mail
4、检查hacmp.out,smit.log,boot.log
hacmp.out查看:# lssrc -g cluster
smit.log查看:在tmp里面查看有无smit.log,用vi查看
boot.lot查看:# alog -o -t boot
(找到时间最近的字节不为零的文件,vi查看
Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息。
IPL 流程
当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:
.Phase 1: Service Processor 的初始化
SRNs (Service request numbers,服务请求码)当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。

IBM小型机巡检内容及操作指导

IBM小型机巡检内容及操作指导

IBM小型机巡检内容及操作指导一、巡检内容:1.确认机房环境:检查机房温湿度是否正常,观察机房是否通风良好,排查是否存在灰尘、杂物等对机器运行造成的影响。

2.检查电源供应:检查电源线是否正常连接,确认主机和外围设备的电源是否正常工作。

3.确认网络连接:检查网络线是否正常连接,确认小型机与其他设备、服务器的网络连接是否正常。

4.检查主机状态:确认小型机主机的状态是否正常,例如观察指示灯是否正常亮起,听觉上是否存在异常噪音等。

5.检查存储设备:检查存储设备(如硬盘、光驱等)是否正常运作,确认是否存在故障或异常。

6.检查数据备份:确认小型机的数据备份是否按照设定时间和规则进行,并进行验证备份数据的可用性。

7.检查软件运行:确认小型机上安装的软件是否正常运行,是否存在异常报错等情况。

8.检查安全性:确认小型机上的安全措施是否完善,例如防火墙的配置、病毒防护软件的更新等。

9.备份日志文件:对小型机的日志文件进行备份,以便后续查阅和分析问题。

10.更新系统和软件:对小型机的操作系统和安装的软件进行更新和升级,以确保系统的安全性和稳定性。

二、巡检操作指导:1.确保巡检前机器处于关闭状态,并断开电源线。

2.进入机房后,首先检查机房环境是否正常,如温湿度、通风等。

3.检查电源供应:确认主机和外围设备的电源线是否正常连接,然后接通电源线并开机。

4.检查网络连接:确保网络线与小型机的网口连接正常,并通过网络测试工具检查网络连接是否正常。

5.检查主机状态:观察小型机主机状态指示灯是否正常亮起,听音觉察是否有异常噪音。

6.检查存储设备:通过操作系统的设备管理工具检查存储设备的状态,如硬盘是否正常运行、光驱是否可用等。

7.检查数据备份:登录小型机系统,查看备份工具的设置和备份日志,确认数据备份是否按照规则进行,并验证备份数据的可用性。

8.检查软件运行:登录小型机系统,运行安装好的软件,检查是否存在异常报错等情况。

9.检查安全性:登录小型机系统,确认防火墙的配置是否符合规范,病毒防护软件是否及时更新。

巡检常用命令

巡检常用命令

IBM AIX 小型机巡检常用命令及流程第一:首先是机房温度以及湿度的检查,当然这些一般情况都没问题。

参考值:温度(摄氏℃)10 ℃-40℃湿度8% -80%第二:就是关于电源的检测,这个只要不是新装机,一般没问题。

参考值:零-地电压小于1V火-地电压200-240V (补充:当然59系列的机器相间380V,相地240V)第三:关于报错。

主要查看硬件的永久性报错#errpt -dH | pg软件的永久性报错#errpt -dS | pg还有系统又没又报警灯第三:机器的序列号:#uname -Mu第四:操作系统版本:#oslevel -r 注:有时候不能使用是因为系统版本低的原因第五:其他检测执行sysdumpdev –l (检查dump是否设置为always allow sysdump)执行sysdumpdev –e (检查当前dump大小应该为主dump设备的大小的80%以下)执行lsvg -l rootvg (检查有否"stale"状态的逻辑卷)执行lsps -s (检查内存交换区占用情况)执行df –k (检查文件系统的分配状况,一般不要超过80%)执行lsdev –Cc disk (检查硬盘状态为available)执行lsdev –Cc adapter (检查PCI卡状态为available)执行lsdev –Cc tape (检查磁带机状态为available)执行lsdev – Cc processor (检查CPU状态为available)执行lsattr –El sys0|grep autorestart (检查系统crash后是否自动重新启动)执行lsattr –El sys0|grep cpuguard (检查CPU GUARD是否开启)执行lsattr –El mem0 (检查内存状态正常size=goodsize)执行vmstat 2iostat,topas观察us,sy,pi,po,(内存占用率,硬盘读写速度等检查是否有性能瓶颈)执行netstat –in和netstat –rn (观察网络状态)执行entstat –d enX (检测网卡运行速率与交换机速率是否匹配)(网卡速率由10M 半工改为自适应时,缺省网关会丢失。

ibm小型机巡检命令

ibm小型机巡检命令

ibm小型机巡检命令hostname主机名oslevel -s现实系统当前版本lsdev -Cc disk显示系统中的硬盘lscfg -vpl hdiskX显示硬盘X的配置信息lsvg -l rootvg显示根卷组逻辑信息lsvg -p rootvg显示根卷组的物理信息errpt显示错误信息errpt -a|more显示错误详细信息并分页errpt -aj ec0bccd4(错误标示符)显示单个错误的详细信息mail显示是否有maildf -g显示文件系统空间使用率(90%引起注意)lsps -a分页空间利用率(70%引起注意)sar 1 5实时cpu内存使用情况topas系统实时显示ifconfig -a显示网卡状态和ip地址netstat -in显示网络信息lsvg rootvg显示根卷组的详细信息10/100/1000 Base-TX PCI-X(网卡兼容的速率)1. 查看逻辑CPU个数#pmcycles -mCPU 0 runs at 4204 MHzCPU 1 runs at 4204 MHzCPU 2 runs at 4204 MHzCPU 3 runs at 4204 MHzCPU 4 runs at 4204 MHzCPU 5 runs at 4204 MHzCPU 6 runs at 4204 MHzCPU 7 runs at 4204 MHz上面描述有8个CPU,CPU的主频为4.2G赫兹2. 查看物理CPU个数#prtconf|grep ProcessorsNumber Of Processors: 43. 确定CPU是几核用逻辑CPU除以物理CPU就是核数。

4. 查看单个CPU的详细信息#lsattr -E -l proc0frequency 4204000000 Processor Speed False smt_enabled true Processor SMT enabled False smt_threads 2 Processor SMT threads False state enable Processor state Falsetype PowerPC_POWER6 Processor type Falsecd /usr/lpp/diag*/bin./usysfault查看面板故障灯是否出现故障、。

AIX日常巡检命令 巡检命令

AIX日常巡检命令 巡检命令

AIX日常巡检命令巡检命令2016年12月1日17:02AIX日常巡检命令巡检命令:1.oslevel -s查看系统版本号2.hostname 查看主机名称3.nmon 查看序列号,系统内核位数4.lscfg -vp |grep -p PLATFORM 查看系统微码lscfg -vp |grep -p Systemlscfg -vp 查看所有硬件设备微码5.alog -o -t boot 查看系统上次启动的日志6.uptime 时间运行时间与系统的负载st reboot 查看系统上次重启的时间8.diag检查系统硬件运行情况9.lspv 查看卷组镜像10.df -g 查看文件系统使用信息,-g以GBytes为单位,-m以MBytes为单位,-k以KBytes为单位11.lsfs 列出所有文件系统12.mount 列出挂载的文件系统13.bootinfo -y 查看机器硬件位数,bootinfo -K 查看AIX系统内核位数,bootinfo -r 查看物理内存大小14.prtconf 查看系统的所有信息15.errpt 查看系统错误日志16.mail发送给root用户的错误报告17.more /tmp/hacmp.out and smit.log and alog –o –t boot 检查hacmp.out,smit.log,bootlog等lssrc -g cluster检查HA18.lsvg -l rootvg或lsvg rootvg查看逻辑卷的状态,是否有“stale”状态19.lsps -a或lsps -s查看paging space的使用信息stat -in显示IP地址,netstat -rn显示路由表信息,netstat -i网卡21.sysdumpdev -l 查看DUMP设置22.ps -ef |grep err 和ps -ef |grep src 检查errdemon,srcstr运行状态23.instfix -i|grep ML 查看补丁级别及是否完整分区 脚本 的第1 页。

AIX服务器巡检报告word文档良心出品

AIX服务器巡检报告word文档良心出品

AIX服务器巡检指导(一)操作系统检查(二)性能检查* Vmstat 命令检查cpu ,我们主要关注报告中的 4个cpu 列和2个kthr (内核线程)列。

System configuration: lcpu=8 mem=15680MB显示的是有CPU4个,内存15680MB 对上面的命令解释如下:Kthr 段显示内容r 列表示可运行的内核线程平均数目, 包括正在运行的线程和等待 CPU 的线程。

如果这个数字大于 CPU 的数目,则表明有线程需要等待 CPU 。

b 列表示处在非中断睡眠状态的进程数。

包括正在等待文件系统 而被挂起的线程。

Memory 段显示内容avm 列表示活动虚拟内存的页面数 fre 空闲的页面数 Page 段显示内容根据页面替换算法每秒所检查的页数。

sr 值比 fr 值高的越多,说明替换算法要查找可以替换的页面就越困难cy 每秒页面替换代码扫描了 PFT 多少次Faults 段显示内容 ( 其实这段内容不需太多关注 ) in 在该时间间隔中观测到的每秒设备中断数。

sy 在该时间间隔中观测到的每秒系统调用次数。

cs 在该时间间隔中观测到的每秒钟上下文切换次数。

Cpu 段显示内容列详细显示了 CPU 在系统模式所消耗的 CPU 时间。

列详细显示了有未决本地磁盘 I/O 时 CPU 空闲的时间百分比。

wa 的值如果超过 25%, 就表明磁 盘子系统可能没有被正确平衡,或者这也可能是磁盘工作负荷很重的结果。

如果在一个单用户系统中, us + sy 时间不超过90%,我们就不认为系统的 CPU 是受限制的。

如果在一个多用户系统中,us + sy 时间超过80%,我们就认为系统的 CPU 是受限的。

其中的进程将要花时间在运行队列中等待。

响应时间和吞吐量会受损害。

I/O 的线程,或由于内存装入控制re -该列无效pi 从磁盘交换到内存的交换页 ( 调页空间 )数量 po 从内存交换到磁盘的交换页数量 fr 根据页面替换算法每秒释放的页数sr us 列显示了用户模式所消耗的 CPU 时间。

aix巡检模版

aix巡检模版

aix巡检模版如何有效管理时间。

时间是我们生命中最宝贵的资源之一,然而很多人却发现自己总是感觉时间不够用,总是在最后一刻匆忙完成任务,或者总是感觉自己没有时间去做自己喜欢的事情。

这些问题都源于时间管理不当。

因此,有效管理时间是非常重要的,它可以帮助我们更好地安排生活,提高工作效率,减少压力,让生活更加充实和有意义。

那么,如何才能有效地管理时间呢?首先,要认识到时间的重要性。

时间是有限的资源,每个人每天都只有24小时,如何利用这24小时就显得尤为重要。

我们需要意识到时间的珍贵,珍惜每一分每一秒。

只有当我们意识到时间的重要性,才能更加注重时间的管理。

其次,要制定合理的计划。

制定计划可以帮助我们更好地安排时间,提高工作效率。

我们可以根据自己的实际情况,制定每天、每周甚至每月的计划,包括工作、学习、生活等方面。

在制定计划的过程中,要考虑到各种因素,包括时间的分配、任务的重要性和紧急程度等,以确保计划的合理性和可行性。

第三,要养成良好的时间管理习惯。

良好的时间管理习惯可以帮助我们更好地利用时间。

比如,要养成做事情有条不紊的习惯,避免拖延和浪费时间。

要合理安排每天的时间,充分利用碎片时间,避免时间的浪费。

要学会拒绝一些无关紧要的事情,避免时间的分散和浪费。

只有养成了良好的时间管理习惯,才能更好地利用时间,提高工作效率。

最后,要不断总结经验,不断改进方法。

时间管理是一个不断学习和改进的过程。

我们需要不断总结自己的经验,找出时间管理中的不足之处,不断改进方法,以提高时间管理的效果。

只有不断总结经验,不断改进方法,我们才能更好地管理时间,更好地安排生活。

总之,时间管理是非常重要的,它可以帮助我们更好地安排生活,提高工作效率,减少压力,让生活更加充实和有意义。

我们应该认识到时间的重要性,制定合理的计划,养成良好的时间管理习惯,不断总结经验,不断改进方法,以提高时间管理的效果。

只有这样,我们才能更好地管理时间,更好地利用时间,让生活更加充实和有意义。

IBM小型机巡检报告

IBM小型机巡检报告

IBM Pxxx小型机服务报告目录前言 (4)第一章系统健康档案 (4)1.1 CPU与内存 (4)1.1.1 处理器数量 (4)1.1.2 处理器物理位置 (4)1.1.3 处理器主频和类型 (4)1.1.4 内存大小 (4)1.1.5 内存类型及物理位置 (5)1.2 ADAPTER (5)1.3 硬盘 (5)1.4 光驱和磁带机等其他设备 (5)1.5 逻辑卷及文件系统配置 (6)1.5.1 rootvg (6)第二章系统软件档案 (7)2.1 操作系统版本及升级建议 (7)2.2 主机微码版本及升级建议 (7)2.3 高可用性集群软件配置情况 (7)第三章系统性能分析报告 (8)第四章问题汇总与分析报告 (9)4.1 问题记录 (9)4.2 问题分析 (9)前言该机SN号为:xxxxxxx ,作为xxx应用服务器。

第一章系统健康档案1.1 CPU与内存1.1.1 处理器数量#lsdev -Ccprocessor* 共有——颗处理器1.1.2 处理器物理位置#lscfg –vp|grep proc有两块处理器卡,proc0-proc7 在C1卡上;proc16-proc23在C4 CPU卡上1.1.3 处理器主频和类型#lsattr -El proc01.1.4 内存大小#lsdev -Ccmemory#lsattr -El L2cache0#lsattr -El mem0共32G内存1.1.5 内存类型及物理位置#lscfg –vp –l mem0有4块8192MB内存卡,具体位置如下:1.2 ADAPTER#lsdev -Ccadapter1.3 硬盘#lsdev -Ccdiskhdisk0与hdisk1是内置硬盘hdisk2-hdisk49是P670通过光通道卡fcs0、fcs1识别IBM FC2105磁盘阵列的逻辑硬盘设备号#lsvpcfg特别提醒:不要将hdsik2-hdisk49加入任何卷组(VG)中;必须用vpath0-vpath12设备号创建卷组(VG)内置硬盘大小:1.4 光驱和磁带机等其他设备#lsdev -Cctape#lscfg –vp -l rmt0#lsdev -Cccdrom.1.5 逻辑卷及文件系统配置注:每个VG一个章节,参考本文档#lspv#lsvg 系统定义的卷组#lsvg –o 系统激活的卷组#df –k 列出文件系统使用情况1.5.1 rootvg#lsvg -l rootvg#lsvg rootvg第二章系统软件档案2.1 操作系统版本及升级建议#oslevel –s当前系统版本为:目前系统运行稳定,征求客户意见后,不建议升级2.2 主机微码版本及升级建议#lsmcode当前系统微码版本为:目前系统运行稳定,征求客户意见后,不建议升级2.3 高可用性集群软件配置情况#lslpp –l|grep cluster目前该机没有运行高可用性软件注:如果安装配置了集群软件请给出详细配置信息第三章系统性能分析报告监控时间为上午8点49分至第二天下午2点49分,每分钟报告一次系统性能。

巡检服务报告(IBM小型机)v1.3

巡检服务报告(IBM小型机)v1.3

IBM小型机系统预防性维护服务报告单客户名称:机器型号序列号检查时间:20 年月日时本年度第次检查机器名1. 机房环境:电源电压□符合要求□不符合;零地电压□符合要求□不符合温度、湿度:□符合要求□不符合2. 检查系统硬件情况:设备故障灯是否有亮:3. 系统错误报告(Error Log):有否硬件故障:□有□有□无;有其他否异常情况:□有□无;启动日志:□正常□无□不正常mail中有否错误报告:□有□无;服务进程日志:□正常□不正常4. CPU有否被disable:□有□无;CPU GUARD设置:□正确□不正确5. 逻辑卷:6. 有否"stale"状态的逻辑卷:□有□无7. 关键文件系统:使用率是否正常:□是□否;JFSLOG设置:□正常□不正常8. 磁带机是否需要清洗:□需要□不需要9. SAN交换机是否正常:□正常□不正常□没有10. 通信:网卡的状态、IP地址:□正常□不正常网卡通信(ping):□正常□不正常/etc/hosts文件或DNS设置:□正常□不正常路由表设置:□正常□不正常;域名设置:□正常□不正常11. 磁盘阵列RAID盘的状态:IBM存储型号数据保护方式□Cache打开□有热备盘□Cache关闭□无热备盘12. 机器清洁:根据需要清洁机器各部件:□已清洁□不需要过滤网是否需要更换:□要更换□不需要13. 补丁程序(PTF) 系统补丁级别:最新补丁级别:微代码(Microcode) 系统微码级别:最新微码级别:网卡、控制卡、硬盘微码是否需要升级:□是□否请与客户沟通是否需要升级系统补丁和微码:□是□否14. 系统硬件诊断:系统板、CPU、内存、I/O板□正常□不正常网卡、SCSI卡、SSA卡系统其他扩展卡硬盘、磁盘阵列磁带机、磁带库□正常□正常□正常□正常□不正常□不正常□不正常□不正常15. 内存交换区:使用率是否超过70%:□是□否大小是否大于物理内存的1.5倍:□是□否16. 备份:有否有符合要求的系统备份:□有□无最近一次系统备份的时间有否符合要求的用户数据备份:□有□无备份介质是否妥善保存:□有□无17. 检查rootvg是否有做镜像:□有□无18. 系统DUMP设置是否正常:□正常□不正常19. 检查errdemon,srcmstr是否正常:□正常□不正常20. 检查系统参数是否正确:□是□否1./etc/environment文件中TZ不应有夏时制2.如有数据库系统:Aio :available3.Hacmp 系统中I/O pacing: High Water Mark/Low Water Mark:33/244.Hacmp 系统中Syncd:105.Hacmp 系统中Power Monitor子系统应关闭21. 系统性能:有否性能瓶颈:□有□无22. HACMP 测试:□是□否Cluster Verification:□正常□不正常;相关参数设置检查:□正常□不正常接管测试(根据需要):□正常□不正常23. 运行“#snap –r;snap –gfkbLc” ,取回存档。

IBM小型机巡检

IBM小型机巡检

IBM小型机巡检将以前网上down的资料整理了一下1、检查系统硬件情况设备故障灯是否有亮包括硬盘,阵列,光纤交换机,系统故障灯,磁带机等是否有其它异常情况2、系统错误报告(ERROR LOG),errpt是否有硬件故障是否有软件故障3、有否发给ROOT用户的错误报告(MAIL)root用户下执行mail4、关键文件系统的使用率不大于80%df –k5、逻辑卷:有否“STALE”状态的逻辑卷lsvg –l rootvg6、页面空间使用率是否超过70%lsps –a7、内存交换区的大小是否为物理内存的2倍此项根据物理内存大小区别对待如果内存<4g,则大小为2倍如果内存>4g,则大小与内存一样即可8、系统备份:是否有符合要求的系统备份:最后一次系统备份的时间:是否符合要求的用户数据备份:9、通信:网卡的状态、IP地址、路由表等网卡通信(ping)/etc/hosts 或DNSifconfig –anetstat –inlsattr –El inet0netstat –rnnslookup10、是否有数据保护方式如raid10/raid5,是否有hot spare主要是磁盘阵列,或根卷组磁盘镜像磁盘阵列的raid与hotspare为硬件级别,可通过软件查看根卷组磁盘镜像可以通过lsvg –l rootvg查看lp与pp对比11、机房环境电源电压____零地电压_____温度、湿度_____12、机器清洁(根据需要清洁机器各部件)主要是磁带机以及外面板灰尘13、补丁程序(PTF)系统补丁级别:oslevel –r 、instfix –i | grep ML最新补丁级别:微代码(MICROCODE)系统微代码:lscfg -vp | grep alt最新微代码:网卡、控制卡、硬盘微码是否需要升级lscfg -vp请与客户沟通是否需要升级系统补丁和微码14、系统硬件诊断主要通过查看errpt,diag执行系统板、CPU、内存、I/O板网卡、SCSI卡、SSA卡系统其它扩展卡硬盘、磁盘阵列磁带机、磁带库15、检查hacmp.out smit.log bootlog,wtmp等日志文件tail –100 hacmp.outtail -100 smit.logalog –t boot –olast16、系统性能内存:svmon、lsps -aCpu :sar硬盘:iostat文件系统:filemon其他命令: vmstat、topas、lvmstat17、DUMP设备的检查sysdumdev -l18、磁带机是否需要清洗/usr/lpp/diagnostics/bin/utape -cd rmt0 –n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗19、系统参数的检查1).HIGH water mark for pending write I/Os# lsattr -El sys0 |grep maxpout输出判断:结果应为maxpout 33 HIGH water mark for pending write I/Os per file True2).LOW water mark for pending write I/Os# lsattr -El sys0|grep minpout输出判断:结果应为minpout 24 LOW water mark for pending write I/Os per file True更改命令为:#chdev -l sys0 -a maxpout='33' -a minpout='24'3).Syncd参数# grep syncd /sbin/rc.boot输出判断:结果应为nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &更改命令为:#vi /sbin/rc.boot4).aio参数# lsdev -Cc aio输出判断:结果应为aio0 Available Asynchronous I/O# lsattr -El aio0输出判断:结果应为minservers 1 MINIMUM number of servers Truemaxservers 10 MAXIMUM number of servers Truemaxreqs 4096 Maximum number of REQUESTS Truekprocprio 39 Server PRIORITY Trueautoconfig available STATE to be configured at systemrestart Truefastpath enable State of fast path True更改命令为:#smitty aio5) /etc/environment文件中TZ不应有夏时制20、检查errdemon, srcmstr是否正常运行lssrc –s errdemonlssrc –s srcmstrps –ef | grep erredps –ef | grep srcm21、收集系统信息运行#snap –ac在/tmp/ibmsupt目录下生成压缩文件snap.pax.Z zcat snap.pax.Z | pax -rv 解压到当前目录。

IBM 小型机巡检服务报告

IBM 小型机巡检服务报告
正常
异常说明:
卷组(VG)配置,检查VG状态是否可用,逻辑卷状态是否为syncd
# lsvg –l vgname
正常
异常说明:
检查是否有磁盘镜象/Raid数据保护
# lsvg –l vgname / smitty检查Raid情况
正常
异常说明:
缓冲区信息
# lsps -a
正常
异常说明:
文件系统信息
# df -k
正常
异常说明:
系统日志检查
系统日志
#errpt
正常
异常说明:
系统邮件
#mail检查有无报错
正常
异常说明:
上次启动时间
# boot
正常
异常说明:
系统备份检查
有否合符要求的系统备份
询问系统管理员

否说明:
最近的一次备份时间
询问系统管理员
记录:
是否存在系统备份策略并执行
#lscfg –Cc |grepSystemFirmware
#prtconf |grep Firmware
记录:
系统版本/维护级别
# oslevel -r
记录:
/etc/environmen不能有夏时制
# echo $TZ
正常
异常说明:
AIO是否激活
# lsdev -Cc aio
正常
异常说明:
网卡状态
# ifconfig entX
正常
异常说明:
Ping网关是否丢包
# ping ip address
正常
异常说明:
/etc/hosts文件配置
# cat /etc/hosts
正常

IBM小型机及存储巡检手册

IBM小型机及存储巡检手册
选 Problem Determination 会对系统错误记录进行分析。diag 运行后会给出 SRN 代 码,故障设备名称及百分比,地址代码等。 多数的设备都可以在线诊断,除了某些
SCSI 设备,例如内置的 SCSI 硬盘。
在运行在线诊断的时候几点注意事项:
•当系统在运行繁重应用的时候,不要应用在线诊断。
#errpt |more 列出简短出错信息
ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION
192AC071 0723100314 T 0 errdemon Error logging turned off
0E017ED1 0720131014 P H mem2 Memory failure
P5系列小型机指示灯如下图:
注意CPU风扇和电源风扇等的出风是否顺畅,是否有异物遮挡,影响散热效果。
注意机器是否有异常的声响,特别是风扇,电源,和硬盘部分。
检查IO板卡插槽是否有板卡的指示灯不正常或不亮。检查是否有松脱、曲折甚至 破损的线缆和线缆插头。
温馨提醒:机柜间、机柜顶或者地板上有金属物体(螺丝,铁片)等,请注意收
•洁净度:机房应保持清洁,不能有太多的灰尘,如机房太脏应提醒客户注意。
•维护空间:机柜旁不宜摆放杂物,要根据各机型的规定留有足够的散热空间和维 护空间。
•电话线:机房应该配备电话线(用于紧急拨号维护或及时电话支持)。

•先从外观上检查硬件情况,检查设备故障灯是否有亮。各种设备上都有故障指示 灯,通常为橘红色并有!标记。同时注意主机和磁盘阵列的LCD面板,设备发 生故障时通常伴有出错代码,必须把所有故障代码记录下来。!
破损或者堵塞。 如果过滤网堵塞会导致机器因散热问题而宕机。可以检查出风 口的温度和气流,如气流较弱温度较高则非常可能是滤网堵塞了。7040 Service Guide建议过滤网必须每半年检查一次。

AIX巡检步骤

AIX巡检步骤

AIX巡检步骤1、机房环境检查零地电压是否小于1V温度(摄氏℃)10℃-40℃湿度(%)8%-80%电源线的母头是否为左零右火电压值是否为240V2、查看硬件情况检查设备故障灯,一般为橙色并有故障标志。

有没有异常声响,如硬盘、风扇等。

有没有破损的电缆等3、主机检查1)系统空间使用情况,文件系统是否有“满”。

命令:df –k2)查看卷组信息,有没有"stale"状态的逻辑卷命令:lsvg -l rootvg 3)检查内存交换区(paging space)使用率是否超过70%命令:# lsps –s#lsps–a观察内存大小的命令:lsattr–El mem0命令:vmstat 2 5显示从系统启动到现在使用fork(创建的进程)的数量命令:vmstat - f 4)当前操作系统版本命令:oslevel5)系统性能检查:a) CPU性能:使用Vmstat, topas来检查b)内存使用情况:也是使用topas, vmstat来检查c)检查IO平衡使用情况:使用iostat来检查d)交换空间使用情况:使用lsps –a来检查6)网络检查netstat -i查看网卡状态Ierrs/Ipkts和Oerrs/Opkts是否>1%ping host_name /IP Address查看是否通和是否有丢包。

路由表 #netstat -rn查看路由表是否正确,ping各路由器是否通核对主机名:#hostname#ifconfig -a#lsattr –El inet07)检查dump设置#sysdumpdev –l8)检查系统合法/非法登陆情况使用Last命令来检查来自登陆的地方。

9)检查系统是否有巨大的Core文件生成使用find / -name core–print来检查。

对Core文件,一般直接删除就可以了。

10)网卡的状态、IP地址、路由表等命令:netstat –in查看 /etc/hosts11)列出系统中已安装的网络适配器命令:#lsdev -Cc adapter 列出系统中已配置的网络接口命令:#lsdev -Cc if12) snap -a来搜索AIX系统的大部分配置信息13)查看错误报告命令:errpt,ssa_ela,errpt |more errpt -a >/tmp/errpt_20071111.txt //将错误导出errpt -a > errptlog.txt errpt查看aix的错误日志errpt -dH //硬件故障errpt -dS //软件故障errpt –a | pg //获得所有错误日志的详细报告14)有否发给root用户的错误报告(mail)15)查看系统信息命令:lsconf |morelsdev -Cc processorlsattr -El procXprtconf |morebindprocessor -q16)检查hacmp.out,smit.log,boot.log命令:lssrc -g cluster看一下hacmp.out命令:tail -f /tmp/hacmp.out在tmp里面查看有无smit.log,用vi查看boot.log查看:# alog -o -t boot17)查看卷组信息,有没有"stale"状态的逻辑卷命令:lsvg -l rootvg 18)使用iostat命令监控I/O命令:iostat 1 219)查看系统定时备份情况命令:crontab –l20)HACMP检查Cluster是否运行正常Cluster进程是否运行:#lssrc –g cluster,至少两个进程,且为active。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
□是
□否
密码安全性检查
用户及用户组检查
□正常
□异常详细信息
□正常
□异常详细信息
VMO参数是否正确: 将输出文件粘贴于此
□是
□否
NO参数是否正确: 将输出文件粘贴于此
□是
□否
Base OS参数是否正确:将输出文件粘贴于此
□是
□否
设备环境状态
设备故障灯:
设备异常声音:
存储检查
硬盘状态
卷组状态
□硬盘状态正常
网络状态
□网卡状态正常
□连通正常,无错包
□网卡异常,详细信息:
□连通异常,有错包
□相关节点连通正常
□路由信息正常
□相关节点连通异常,详细信息:
□路由信息异常,详细信息:
SRC Master 进程是否运行?
loopback/localhost 是否可以解析?
□是
□否
□是
□否
hostname 是否可以解析?
□卷组状态正常
□硬盘状态异常,详细信息:
□卷组状态异常,详细信息:
链路状态
PV状态
□链路状态正常,且均有双通路
□PV状态正常
□链路状态异常,详细信息:
□PV状态异常,详细信息:
性能检查
内存使用(vmstat)
r
b
w
avm
free
pi
po
物理内存数
CPU使用
USR
SYS
WIO
IDLE
系统总体CPU使用率是否大于90%
□是
□否
□是
□否
目前的/unix 链接的image文件是否和运行的内核一致?
系统是否已经安装了HIPER APAR?
□是
□否
□是
□否
XCOFF 文件是否和SWVPD保持一致?(lppchk -c查看)
/, /usr, /usr/share 是否一致?(lppchk -v查看)
□是
□否
□是
□否
系统dump检查
用户限制是否被正确设置?(ulimit限制)
DUMP空间大小是否满足要求
□是
□否
□是
□否
dump 数据压缩选项是否打开
□是
□否
fullcore 选项是否被激活?
强制dump是否打开
□是
□否
□是
□否
本地盘镜像状态
□镜像正常(包括镜像状态及内容)
□启动顺序正常
□镜像异常,详细信息:
□启动顺序异常,详细信息:
IBM小型机AIX深度巡检方案
巡检报告
系统名称:
主机名称:
设备序列号:
系统信息
操作系统版本及补丁号
其他特殊软硬件配置
OS版本号:
OS补丁号:
□无
微码:
上次启动时间:
□有,详细信息:
系统检查
系统日志状态
errpt
HMC EVENT
□正常
□正常
□异常信息(P,H类型错误):
□异常信息:
rootvg状态
是否重要文件系统有镜像
□正常
□异常,详细信息:
内存交换区paging space与内存比例是否大于1:1(pagingspace)
□是
□否
□未超过70%
□超过70%。详细信息:
磁盘使用
□BUSY未超过80%
□BUSY超过80%。详细信息:
HACMP检查
HACMP日志状态
HACMP进程状态
□正常
□正常
□异常,详细信息:
□异常,详细信息:
□是
□否
文件系统状态
□使用空间未有超过80%
□无未MOUNT的正常FS
□有超过80%。详细内核?
/unix 文件是否连接到正确的image文件?
□是
□否
□是
□否
是否系统运行缺省的内核debug 选项?(建议关闭)
在boot image 被修改以后,是否AIX 重新启动过?
HACMP资源组状态
HACMP切换状态
□正常
□上次切换时间:
□异常,详细信息:
□上次切换结果:
HACMP人工效验是否正常
HACMP自动效验是否正常
□正常
□异常详细信息
□正常
□异常详细信息
检查结论及建议
相关文档
最新文档