IBM AIX小型机巡检内容及操作指导
小型机、服务器内存和磁盘检查
![小型机、服务器内存和磁盘检查](https://img.taocdn.com/s3/m/d65a973d17fc700abb68a98271fe910ef12daef1.png)
小型机、服务器内存和磁盘检查
一、内存检查占用率
1、小型机AIX系统查看内存占用
•vmstat命令查看
查看mem这项为总内存空间,fre这项除以4000为剩余内存空间,占比不宜超过80%
•nmon命令查看(topas)
输入nmon,在下一个界面按m,下图为当前内存占用情况,
图中圈起来的是当前内存使用比例,占比不宜超过80%
2、服务器LINUX系统查看内存占用
•free命令查看
mem这行为内存,swap这行为交换分区
total这列为总容量,used这列为使用容量,计算占比,即为内存使用率,占比不宜超过80%
•top命令查看
第四行Mem,total为总容量,used为使用容量,计算出来占比即为内存使用率,占比不宜超过80%
二、磁盘空间检查
1、AIX磁盘占用检查
第一步:查看%used这列,使用率有没有超过80%
如果有超过80%的,进入该目录查看,执行第二步、第三步,反复执行
2、LINUX磁盘占用检查
第一步:查看%used这列,使用率有没有超过80%
如果有超过80%的,进入该目录查看,执行第二步、第三步,反复执行
3、SC服务器磁盘占用清理1、2号线数据库备份清理,步骤如下
3号线SC数据库备份清理如下。
AIX小型机状态监测
![AIX小型机状态监测](https://img.taocdn.com/s3/m/75b0e7c4b8f3f90f76c66137ee06eff9aef84990.png)
AIX⼩型机状态监测1、确认所在主机及系统版本通过#hostname、#oslevel确认所在主机后,再进⾏后续操作2、运⾏lsdev 命令配置各种参数,所列各种设备状态都应为Available。
#lsdev –CHS a 列出系统中可⽤设备。
#lsdev –Cc processor 列出系统中的所有CPU。
#lsdev –Cc memory 列出系统中的所有内存。
#lsdev –Cc disk 列出系统中的所有硬盘。
#lsdev -Cc adapter | grep ent 列出系统中的所有⽹卡#lsdev -Cc adapter | grep scsi 列出系统中的所有SCSI卡。
#lsdev -Cc adapter | grep ssa 列出系统中的所有SSA卡。
3、检查pv信息#lspv 显⽰系统中可⽤的PV。
#lspv hdiskn 显⽰hdiskn的具体信息。
#lsdev –Cc pdisk 显⽰磁盘阵列的硬盘的具体信息。
对SSA硬盘的检测:在对主机进⾏⼯作之前可以先把磁盘阵列上电,等主机完全启动后,登录到主机上,运⾏以下命令“ lsdev –Cc pdisk “,应该可以看到所有SSA硬盘,并且状态应为Available.。
4、检查内存信息# lsattr –El mem0 列出系统中内存mem0的⼤⼩5 、检查vg信息#lsvg 列出系统中所有的vg。
#lsvg rootvg 列出rootvg的详细信息。
#lsvg –o 列出激活的vg6、检查系统中各⽹卡配置#netstat –in 查看⽹卡的IP是否配置好了。
7、检测主机内所有硬件# diag 检测结果为 “No trouble found ”则各部分⼯作正常。
(选择:Task Selection-> SSA Service Aids)对SSA硬盘链路连接的校验,可以通过SSA ⼯具⾥的Link Verification 来检测。
IBM_AIX小机命令手册
![IBM_AIX小机命令手册](https://img.taocdn.com/s3/m/04a7192c453610661ed9f482.png)
?EXCLUDE files:如果选择yes,将使得文件/etc/exclude.rootvg文件中列出的文件和目录不被备份。
?Make BOOTABLE backup:是否生成可启动备份,一般取默认值——yes。
?EXPAND /tmp if needed:是否在需要时自动扩展/tmp文件系统。强烈建议选yes。
内存大小: lsattr –El mem0
? 磁盘 lspv
? 交换分区 lsps –a
? 软件 lslpp –l 文件包名字
? 用户 who
关机命令:
–shutdown
一分钟后关机
–shutdown +2
二分钟后关机
–shutdown –Fr
关机重启(-r)
–或者创建一个CD-ROM文件系统并进行加载
?smit cdrfs
?mount /cdrom
?卸载cdrom
– unmount /cdrom
二、备份与恢复
rootvg备份 — mksysb
●只备份rootvg
●只备份已挂接的文件系统
●以备份格式创建可启动磁带
●保存rootvg中的换页空间设备定义
●tar (tape archive)
◇适用范围广
◇非常适合在不同UNIX平台间传送文件
◇可恢复空目录(-d选项)
◇不支持AIX访问控制列表(ACL,属于扩展inode内容)
●cpio(copy input to output)
◇适用范围广
◇符号链接较多时可能不能正常工作
?ls 显示目录中的内容(文件名)
#ls –a 列出当前目录中的所有文件
AIX系统巡检
![AIX系统巡检](https://img.taocdn.com/s3/m/33aabafaba0d4a7302763a56.png)
AIX系统的日常监控维护1、#df –k 如果占用率(%Iused)超过90%,则需要进行空间调整。
2、#errpt |more 命令分页查看系统出错日志(包括硬件与软件的出错信息)。
根据显示的信息判断系统硬件及软件的运行情况。
输入:errclear 0命令,清除现有的系统日志。
3、#last命令检查系统登陆情况#last,显示各个login用户(如:root等)登陆的信息。
如果发现有异常的登陆用户或者登陆IP,则进行相应安全性的检查及处理。
4、使用find / -name core –print命令检查是否有巨大的core文件生成在命令提示符“#”后输入:find / -name core –print,表示从系统根目录开始查找所有名为core的文件(巨大的core文件容易造成系统崩溃)。
如果存在,一般直接删除即可。
5、使用vmstat命令检查CPU及内存运行情况在命令提示符“#”后输入:vmstat 5,表示每隔5秒钟显示系统CPU及内存运行情况。
查看kthr(kernel运行队列中处于等待状态的进程数)字段的r(运行队列中的进程数)项的显示值,如果该数值是系统实际CPU数的4倍或4倍以上,则表示CPU占用率过高,需要考虑提高系统CPU工作频率;查看memory(虚拟和真实内存的使用信息)字段的fre(空闲页面的数量)项,如果数值低于120,则说明系统内存短缺。
有时候数值虽然高于120,也可以根据实际情况调整内存;查看page(页面活动的信息)字段的pi(从页面输入的页)、po(输出到页面的页)、fr(空闲的页面数)及sr(通过页面置换算法搜索到的页面数)项的值,这4个值一般都为0,有时候也有可能为1;最后查看cpu(cpu的使用率)字段的us(用户进程的时间)及sy(系统进程的时间)项的值,两项值的和应该不超过90%,否则说明CPU能力短缺。
6、使用lsps –a命令检查交换内存空间使用情况在命令提示符“#”后输入:lsps -a,查询交换内存空间使用情况。
IBM小型机AIX深度巡检方案
![IBM小型机AIX深度巡检方案](https://img.taocdn.com/s3/m/cc4c67f2f78a6529657d53b5.png)
□否
□是
□否
目前的/unix 链接的image文件是否和运行的内核一致?
系统是否已经安装了HIPER APAR?
□是
□否
□是
□否
XCOFF 文件是否和SWVPD保持一致?(lppchk —c查看)
/, /usr, /usr/share 是否一致?(lppchk —v查看)
□是
□否
□是
□否
系统dump检查
HACMP资源组状态
HACMP切换状态
□正常
□上次切换时间:
□异常,详细信息:
□上次切换结果:
HACMP人工效验是否正常
HACMP自动效验是否正常
□正常
□异常详细信息
□正常
□异常详细信息
检查结论及建议
□是
□否
密码安全性检查
用户及用户组检查
□正常
□异常详细信息
□正常
□异常详细信息
VMO参数是否正确: 将输出文件粘贴于此
□是
□否
NO参数是否正确: 将输出文件粘贴于此
□是
□否
Base OS参数是否正确:将输出文件粘贴于此
□是
□否
设备环境状态
设备故障灯:
设备异常声音:
存储检查
硬盘状态
卷组状态
□硬盘状态正常
用户限制是否被正确设置?(ulimit限制)
DUMP空间大小是否满足要求
□是
□否
□是
□否
dump 数据压缩选项是否打开
□是
□否
fullcore 选项是否被激活?
强制dump是否打开
□是
□否
□态及内容)
□启动顺序正常
AIX巡检命令
![AIX巡检命令](https://img.taocdn.com/s3/m/117984d33186bceb19e8bbc4.png)
1、主机型号与序列号检查:#uname –uM2、系统错误报告检查:#errpt #errpt –aj ID号3、Mail信息检查:#mail 看mail有没有error与warning信息。
4、检查smit.log,bootlog。
#cd /var/adm/ras 用vi编辑器查看相关日志看是否有error与warning信息。
5、检查hacmp.out:查看/tmp/hacmp.out文件看是否有error与warning信息6、文件系统检查:#df –k文件系统应该保持在90%以下,超过90%应注意清理。
7、逻辑卷:有否“stale”状态的逻辑卷:#lsvg –o |lsvg –i |grep STALE 看输出STALE是否全为0.全为0表示vg正常。
8、.内存使用情况:#svmon –G 内存使用率不应超过70%9、Swap使用情况:#lsps –a swap空间占用率不应超过70%10、系统性能检查:#topas#vmstat 主要看kthr 参数参数:若r 数值偏大,表明CPU太忙,若b 数值偏大,表明系统I/O出现瓶颈。
%user+sys%接近100%表cpu瓶颈。
如果pi(page-in )和po(page-out ) 参数将不是0,同时avm 和fre 数值的比值悬殊很大,fre 数值很小.#iostat 看% tm_act值, 其表示某个硬盘处于active状态的百分比11、网络状况检查:#netstat –in#netstat -rn12、数据安全检查#ls –l /image.data 检查系统备分日期。
#lsvg –l rootvg 检查rootvg是否镜像13、磁带机清洁的检查:命令:#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
14、Dump设置检查。
最为详细的AIX 巡检流程
![最为详细的AIX 巡检流程](https://img.taocdn.com/s3/m/1bed883283c4bb4cf7ecd140.png)
当AIX开始启动时,显示面板上的代码为 0xxx ,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。
Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。用diag命令进行检测,diag步骤如下:
最为详细的AIX 巡检流程
1、 检查系统硬件情况:设备故障灯是否有亮
可用diag命令检查系统硬件运行情况
每个月用diag命令检查一下系统硬件的运行情况,及时发现硬件可能出现的故障。
硬件故障
通常将硬件故障分为以下几个类别
IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRN。
4、检查hacmp.out,smit.log,boot.log
hacmp.out查看:# lssrc -g cluster
smit.log查看:在tmp里面查看有无smit.log,用vi查看
boot.lot查看:# alog -o -t boot
(找到时间最近的字节不为零的文件,vi查看
Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息。
IPL 流程
当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:
.Phase 1: Service Processor 的初始化
SRNs (Service request numbers,服务请求码)当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。
IBM小型机巡检内容及操作指导
![IBM小型机巡检内容及操作指导](https://img.taocdn.com/s3/m/2072c402326c1eb91a37f111f18583d049640f10.png)
IBM小型机巡检内容及操作指导一、巡检内容:1.确认机房环境:检查机房温湿度是否正常,观察机房是否通风良好,排查是否存在灰尘、杂物等对机器运行造成的影响。
2.检查电源供应:检查电源线是否正常连接,确认主机和外围设备的电源是否正常工作。
3.确认网络连接:检查网络线是否正常连接,确认小型机与其他设备、服务器的网络连接是否正常。
4.检查主机状态:确认小型机主机的状态是否正常,例如观察指示灯是否正常亮起,听觉上是否存在异常噪音等。
5.检查存储设备:检查存储设备(如硬盘、光驱等)是否正常运作,确认是否存在故障或异常。
6.检查数据备份:确认小型机的数据备份是否按照设定时间和规则进行,并进行验证备份数据的可用性。
7.检查软件运行:确认小型机上安装的软件是否正常运行,是否存在异常报错等情况。
8.检查安全性:确认小型机上的安全措施是否完善,例如防火墙的配置、病毒防护软件的更新等。
9.备份日志文件:对小型机的日志文件进行备份,以便后续查阅和分析问题。
10.更新系统和软件:对小型机的操作系统和安装的软件进行更新和升级,以确保系统的安全性和稳定性。
二、巡检操作指导:1.确保巡检前机器处于关闭状态,并断开电源线。
2.进入机房后,首先检查机房环境是否正常,如温湿度、通风等。
3.检查电源供应:确认主机和外围设备的电源线是否正常连接,然后接通电源线并开机。
4.检查网络连接:确保网络线与小型机的网口连接正常,并通过网络测试工具检查网络连接是否正常。
5.检查主机状态:观察小型机主机状态指示灯是否正常亮起,听音觉察是否有异常噪音。
6.检查存储设备:通过操作系统的设备管理工具检查存储设备的状态,如硬盘是否正常运行、光驱是否可用等。
7.检查数据备份:登录小型机系统,查看备份工具的设置和备份日志,确认数据备份是否按照规则进行,并验证备份数据的可用性。
8.检查软件运行:登录小型机系统,运行安装好的软件,检查是否存在异常报错等情况。
9.检查安全性:登录小型机系统,确认防火墙的配置是否符合规范,病毒防护软件是否及时更新。
巡检常用命令
![巡检常用命令](https://img.taocdn.com/s3/m/496770a25901020206409c20.png)
IBM AIX 小型机巡检常用命令及流程第一:首先是机房温度以及湿度的检查,当然这些一般情况都没问题。
参考值:温度(摄氏℃)10 ℃-40℃湿度8% -80%第二:就是关于电源的检测,这个只要不是新装机,一般没问题。
参考值:零-地电压小于1V火-地电压200-240V (补充:当然59系列的机器相间380V,相地240V)第三:关于报错。
主要查看硬件的永久性报错#errpt -dH | pg软件的永久性报错#errpt -dS | pg还有系统又没又报警灯第三:机器的序列号:#uname -Mu第四:操作系统版本:#oslevel -r 注:有时候不能使用是因为系统版本低的原因第五:其他检测执行sysdumpdev –l (检查dump是否设置为always allow sysdump)执行sysdumpdev –e (检查当前dump大小应该为主dump设备的大小的80%以下)执行lsvg -l rootvg (检查有否"stale"状态的逻辑卷)执行lsps -s (检查内存交换区占用情况)执行df –k (检查文件系统的分配状况,一般不要超过80%)执行lsdev –Cc disk (检查硬盘状态为available)执行lsdev –Cc adapter (检查PCI卡状态为available)执行lsdev –Cc tape (检查磁带机状态为available)执行lsdev – Cc processor (检查CPU状态为available)执行lsattr –El sys0|grep autorestart (检查系统crash后是否自动重新启动)执行lsattr –El sys0|grep cpuguard (检查CPU GUARD是否开启)执行lsattr –El mem0 (检查内存状态正常size=goodsize)执行vmstat 2iostat,topas观察us,sy,pi,po,(内存占用率,硬盘读写速度等检查是否有性能瓶颈)执行netstat –in和netstat –rn (观察网络状态)执行entstat –d enX (检测网卡运行速率与交换机速率是否匹配)(网卡速率由10M 半工改为自适应时,缺省网关会丢失。
IBM小型机巡检维护常用命令
![IBM小型机巡检维护常用命令](https://img.taocdn.com/s3/m/e361ee0ff12d2af90242e6a4.png)
IBM小型机巡检常用命令Errpt 查看错误日志。
Errpt |head 查看最近产生的错误日志。
Errpt –d H |more 查看关于硬件报错的日志。
Errpt –aj查看错误详细信息,“错误的标识号”。
Errpt –a –j ****(日志ID)查看某个日志的详细内容。
Uptime 查看机器总共运行的时间。
Uname –uM 查看机器的型号。
Uname –a 列出系统ID号,系统名称,os版本等信息。
Oslevel –s 查看机器的系统版本等级。
Oslevel –r 查看补丁。
Instfix –i grep查找补丁文件。
Lscfg –vp 检查所有设备的微码。
Lsvg –o 查看系统卷组。
Ls –l/image.date 查看系统有没有备份image文件,记录备份最后日期。
Lsvg –l rootvg 查看rootvg卷的详细信息,查看又符合要求的数据备份和保护。
Syncvg 修复“stale”状态的逻辑卷。
Lsvg –p rootvg 使卷组文件同步。
Bootinfo –k 查看系统内核版本是64位还是32位。
Bootlist –m –normal –o 查看显示当前的首选启动项。
Bootlist –m –normal cd0 设置当前的首选启动项为cd0.Lslv –l datalv 和lslv –p datalv 显示逻辑卷各种信息,如包括哪些盘,是否有镜像等。
Lslv –m hd5 找出bootimage所在的硬盘,如hdisk0.Bosboot –ad /dev/hdisk0Bootlist –m normal /dev/hdisk0 重建启动顺序表。
Sysdumpdev –l系统的Dump设置,可以用来修改和查询。
Sysdumpdev P p /dev/hd6 s /dev/sysdumpnull 。
Sysdumpdev -P -cLsps –a显示所使用的分页空间。
Lsps –s 检查内存交换区(paging space)使用率是否超过70%。
ibm小型机巡检命令
![ibm小型机巡检命令](https://img.taocdn.com/s3/m/68ec4fa8dbef5ef7ba0d4a7302768e9951e76e0b.png)
ibm小型机巡检命令hostname主机名oslevel -s现实系统当前版本lsdev -Cc disk显示系统中的硬盘lscfg -vpl hdiskX显示硬盘X的配置信息lsvg -l rootvg显示根卷组逻辑信息lsvg -p rootvg显示根卷组的物理信息errpt显示错误信息errpt -a|more显示错误详细信息并分页errpt -aj ec0bccd4(错误标示符)显示单个错误的详细信息mail显示是否有maildf -g显示文件系统空间使用率(90%引起注意)lsps -a分页空间利用率(70%引起注意)sar 1 5实时cpu内存使用情况topas系统实时显示ifconfig -a显示网卡状态和ip地址netstat -in显示网络信息lsvg rootvg显示根卷组的详细信息10/100/1000 Base-TX PCI-X(网卡兼容的速率)1. 查看逻辑CPU个数#pmcycles -mCPU 0 runs at 4204 MHzCPU 1 runs at 4204 MHzCPU 2 runs at 4204 MHzCPU 3 runs at 4204 MHzCPU 4 runs at 4204 MHzCPU 5 runs at 4204 MHzCPU 6 runs at 4204 MHzCPU 7 runs at 4204 MHz上面描述有8个CPU,CPU的主频为4.2G赫兹2. 查看物理CPU个数#prtconf|grep ProcessorsNumber Of Processors: 43. 确定CPU是几核用逻辑CPU除以物理CPU就是核数。
4. 查看单个CPU的详细信息#lsattr -E -l proc0frequency 4204000000 Processor Speed False smt_enabled true Processor SMT enabled False smt_threads 2 Processor SMT threads False state enable Processor state Falsetype PowerPC_POWER6 Processor type Falsecd /usr/lpp/diag*/bin./usysfault查看面板故障灯是否出现故障、。
IBM 小型机巡检服务过程
![IBM 小型机巡检服务过程](https://img.taocdn.com/s3/m/54b22a84ec3a87c24028c4c4.png)
IBM 小型机巡检服务过程一.提取机器的型号。
#uname -uM二.机房内场地环境检查。
三.检查系统硬件灯是否有亮。
四.查看系统错误报告。
1.查看是否有硬件和软件故障。
#Errpt –d H | more ,# errpt –d S | more, #errpt –aj *******|more查看具体错误信息# errpt -d H -T PERM>/tmp/hwerror.log //可以把错误的报告存成一个文件。
2.有否发给root用户的错误报告(mail)。
#Mail3.检查hacmp.out,smit.log,bootlog等.#lssrc –g cluster/#>lssrc –g cluster,一般hacmp.out的位置在:/use/sbin/cluster/或者/tmp/,找到最近hacmp.out文件查看是否有错误信息。
4.查看是否有“满”的系统文件。
#df –k 查看系统文件有没有超过90%的使用率,有请用户改善。
5.查看是否有“stale”(不可用)状态的逻辑卷.#lsvg -l rootvg,系统还有其卷组的也要查看。
6.查看内存使用率是否超过70%。
#Lsps -a五.系统性能检查,查看系统是否有性能瓶颈。
#topas #vmstat 1 10 #iostat 1 10六.网络与通讯检查,查看网卡的状态,IP地址,路由器等。
#ifconfig –a,#netstat–in,#netstat –rn(查看路由情况),#vi/etc/hosts(查看hosts文件有否特殊定义),#ping ******(IP),#lsattr –Elet0(路由的检测,显示true正确的就是没问题)。
七,数据安全检查。
1.查看是否有符合要求的备份。
#ls –l/image.date(查看系统有没有备份image文件,记录备份最后日期),#lsvg –l rootvg(查看有否符合要求的数据备份和保护)。
巡检主要内容与方法说明
![巡检主要内容与方法说明](https://img.taocdn.com/s3/m/9e5e8221783e0912a2162ab9.png)
巡检主要内容与方法一、日常巡检内容包括以下方面:1、服务器物理硬件巡检2、操作系统的磁盘、内存、cpu、硬盘读写情况使用情况3、服务器系统日志4、运行与服务器上应用是否可用5、应用系统日志检查(根据实际情况执行)6、数据库运行状态、运行日志检查(根据实际情况执行)7、数据库定时备份机制执行情况(根据实际情况执行)8、系统定时任务执行情况(根据实际情况执行)二、巡检内容详细说明1、服务器硬件巡检主要内容1)服务器硬盘工作状态检查方法:硬盘指示灯指示是否正常,一般绿色为正常2)服务器网卡工作状态检查方法:服务器插上网线后,若有数据传输,则网卡指示灯呈现规律性闪烁;若闪烁不正常或指示灯指示颜色不正常,则说明系统数据传输将不正常3)服务器散热检测检查方法:靠近服务器检查是否有热风吹出4)服务器风扇运行检测检查方法:检查服务器风扇是否正常运行5)服务器电源连接检查方法:电源连接线是否有松动、接触不良等情况6)服务器外壳整体检查方法:服务器整体是否有移动或损害痕迹2、内存、cpu、硬盘读写与使用巡检主要内容1)内存、cpu使用情况巡检检查方法:Windows下使用任务管理器,记录占用内存、cpu最多的前五位进程或应用程序;Linux下通过free或cat/proc/meminfo命令查看系统内存使用情况,通过top命令进程占用系统内存、cpu情况AIX下通过topas或svmon或其他相关命令查看系统内存占用情况,使用ps命令查看占cpu、内存使用情况(具体要根据实际情况添加相应参数)2)硬盘使用与读写io巡检检查方法:Windows下通过查看系统属性可以查看磁盘分区与对应分区使用情况,在windows 2008系统任务管理器中可以查看到当时的系统io情况Linux/AIX下通过df命令查看磁盘使用情况,通过iostat命令查看io命令(在linux5.4中有问题)3、服务器系统日志1)重要的系统日志检查方法:windows系统下通过事件查看器进行查看,重点记录其错误日志号即可,通过错误日志号对错误进行定位解决linux系统查看如下日志:/var/log/lastlog:记录最后一次用户成功登陆的时间、登陆IP等信息/var/log/messages:记录Linux操作系统常见的系统和服务错误信息/var/log/secure:Linux系统安全日志,记录用户和工作组变坏情况、用户登陆认证情况/var/log/btmp:记录Linux登陆失败的用户、时间以及远程IP地址例如cat/var/log/lastlogAIX系统查看如下日志:通过last–n查看登录前n次登录的信息通过who/etc/security/failedlogin命令查看用户登录和访问服务器失败的情况信息通过alog–o–t boot命令查看系统启动错误日志通过tail–f /tmp/hacmp.out来检查HACMP在启动和关闭时的信息,如出现启动失败则可以帮助我们定位错误4、运行在服务器上应用是否可用1)对于金蝶应用是否可用的检查方法:通过双击金蝶客户端检测是否可以连接上来进行检验,输入用户名和密码登录进去后,则证明应用可用2)对于英孚思为dms、tms应用检查方法:通过双击dms客户端检测连接是否可以进行正常登录;系统层面通过在ie 浏览器中输入http://ip:80检查tomcat status来查看,如可以登录上,则证明系统服务端可用注:ip代表应用部署所在的服务器3)对于英孚思为gms应用检查方法:通过在ie浏览器中输入http://10.10.11.44/gms检查是否可用4)其他系统根据应用实际情况进行补充即可5、应用系统日志检查(根据实际情况执行)1)对于金蝶系统日志检查方法:cd/kingdee/kingdee/eas/admin/logs#tail–f admin.log2)业务系统地区dms、tms应用日志检查方法:该系统主要通过tomcat发布,所以需重点检查tomcat日志,此外,该系统产生dmslog和tmslog来进行检查3)业务系统集团端应用日志检查方法:该软件主要通过ibm web application server发布,所以在系统层面主要查看其发布件运行状态。
IBM小型机巡检报告
![IBM小型机巡检报告](https://img.taocdn.com/s3/m/e08ef83801f69e31433294d7.png)
IBM Pxxx小型机服务报告目录前言 (4)第一章系统健康档案 (4)1.1 CPU与内存 (4)1.1.1 处理器数量 (4)1.1.2 处理器物理位置 (4)1.1.3 处理器主频和类型 (4)1.1.4 内存大小 (4)1.1.5 内存类型及物理位置 (5)1.2 ADAPTER (5)1.3 硬盘 (5)1.4 光驱和磁带机等其他设备 (5)1.5 逻辑卷及文件系统配置 (6)1.5.1 rootvg (6)第二章系统软件档案 (7)2.1 操作系统版本及升级建议 (7)2.2 主机微码版本及升级建议 (7)2.3 高可用性集群软件配置情况 (7)第三章系统性能分析报告 (8)第四章问题汇总与分析报告 (9)4.1 问题记录 (9)4.2 问题分析 (9)前言该机SN号为:xxxxxxx ,作为xxx应用服务器。
第一章系统健康档案1.1 CPU与内存1.1.1 处理器数量#lsdev -Ccprocessor* 共有——颗处理器1.1.2 处理器物理位置#lscfg –vp|grep proc有两块处理器卡,proc0-proc7 在C1卡上;proc16-proc23在C4 CPU卡上1.1.3 处理器主频和类型#lsattr -El proc01.1.4 内存大小#lsdev -Ccmemory#lsattr -El L2cache0#lsattr -El mem0共32G内存1.1.5 内存类型及物理位置#lscfg –vp –l mem0有4块8192MB内存卡,具体位置如下:1.2 ADAPTER#lsdev -Ccadapter1.3 硬盘#lsdev -Ccdiskhdisk0与hdisk1是内置硬盘hdisk2-hdisk49是P670通过光通道卡fcs0、fcs1识别IBM FC2105磁盘阵列的逻辑硬盘设备号#lsvpcfg特别提醒:不要将hdsik2-hdisk49加入任何卷组(VG)中;必须用vpath0-vpath12设备号创建卷组(VG)内置硬盘大小:1.4 光驱和磁带机等其他设备#lsdev -Cctape#lscfg –vp -l rmt0#lsdev -Cccdrom.1.5 逻辑卷及文件系统配置注:每个VG一个章节,参考本文档#lspv#lsvg 系统定义的卷组#lsvg –o 系统激活的卷组#df –k 列出文件系统使用情况1.5.1 rootvg#lsvg -l rootvg#lsvg rootvg第二章系统软件档案2.1 操作系统版本及升级建议#oslevel –s当前系统版本为:目前系统运行稳定,征求客户意见后,不建议升级2.2 主机微码版本及升级建议#lsmcode当前系统微码版本为:目前系统运行稳定,征求客户意见后,不建议升级2.3 高可用性集群软件配置情况#lslpp –l|grep cluster目前该机没有运行高可用性软件注:如果安装配置了集群软件请给出详细配置信息第三章系统性能分析报告监控时间为上午8点49分至第二天下午2点49分,每分钟报告一次系统性能。
IBM小型机巡检
![IBM小型机巡检](https://img.taocdn.com/s3/m/974d0de209a1284ac850ad02de80d4d8d15a0191.png)
IBM小型机巡检将以前网上down的资料整理了一下1、检查系统硬件情况设备故障灯是否有亮包括硬盘,阵列,光纤交换机,系统故障灯,磁带机等是否有其它异常情况2、系统错误报告(ERROR LOG),errpt是否有硬件故障是否有软件故障3、有否发给ROOT用户的错误报告(MAIL)root用户下执行mail4、关键文件系统的使用率不大于80%df –k5、逻辑卷:有否“STALE”状态的逻辑卷lsvg –l rootvg6、页面空间使用率是否超过70%lsps –a7、内存交换区的大小是否为物理内存的2倍此项根据物理内存大小区别对待如果内存<4g,则大小为2倍如果内存>4g,则大小与内存一样即可8、系统备份:是否有符合要求的系统备份:最后一次系统备份的时间:是否符合要求的用户数据备份:9、通信:网卡的状态、IP地址、路由表等网卡通信(ping)/etc/hosts 或DNSifconfig –anetstat –inlsattr –El inet0netstat –rnnslookup10、是否有数据保护方式如raid10/raid5,是否有hot spare主要是磁盘阵列,或根卷组磁盘镜像磁盘阵列的raid与hotspare为硬件级别,可通过软件查看根卷组磁盘镜像可以通过lsvg –l rootvg查看lp与pp对比11、机房环境电源电压____零地电压_____温度、湿度_____12、机器清洁(根据需要清洁机器各部件)主要是磁带机以及外面板灰尘13、补丁程序(PTF)系统补丁级别:oslevel –r 、instfix –i | grep ML最新补丁级别:微代码(MICROCODE)系统微代码:lscfg -vp | grep alt最新微代码:网卡、控制卡、硬盘微码是否需要升级lscfg -vp请与客户沟通是否需要升级系统补丁和微码14、系统硬件诊断主要通过查看errpt,diag执行系统板、CPU、内存、I/O板网卡、SCSI卡、SSA卡系统其它扩展卡硬盘、磁盘阵列磁带机、磁带库15、检查hacmp.out smit.log bootlog,wtmp等日志文件tail –100 hacmp.outtail -100 smit.logalog –t boot –olast16、系统性能内存:svmon、lsps -aCpu :sar硬盘:iostat文件系统:filemon其他命令: vmstat、topas、lvmstat17、DUMP设备的检查sysdumdev -l18、磁带机是否需要清洗/usr/lpp/diagnostics/bin/utape -cd rmt0 –n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗19、系统参数的检查1).HIGH water mark for pending write I/Os# lsattr -El sys0 |grep maxpout输出判断:结果应为maxpout 33 HIGH water mark for pending write I/Os per file True2).LOW water mark for pending write I/Os# lsattr -El sys0|grep minpout输出判断:结果应为minpout 24 LOW water mark for pending write I/Os per file True更改命令为:#chdev -l sys0 -a maxpout='33' -a minpout='24'3).Syncd参数# grep syncd /sbin/rc.boot输出判断:结果应为nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &更改命令为:#vi /sbin/rc.boot4).aio参数# lsdev -Cc aio输出判断:结果应为aio0 Available Asynchronous I/O# lsattr -El aio0输出判断:结果应为minservers 1 MINIMUM number of servers Truemaxservers 10 MAXIMUM number of servers Truemaxreqs 4096 Maximum number of REQUESTS Truekprocprio 39 Server PRIORITY Trueautoconfig available STATE to be configured at systemrestart Truefastpath enable State of fast path True更改命令为:#smitty aio5) /etc/environment文件中TZ不应有夏时制20、检查errdemon, srcmstr是否正常运行lssrc –s errdemonlssrc –s srcmstrps –ef | grep erredps –ef | grep srcm21、收集系统信息运行#snap –ac在/tmp/ibmsupt目录下生成压缩文件snap.pax.Z zcat snap.pax.Z | pax -rv 解压到当前目录。
IBM小型机及存储巡检手册
![IBM小型机及存储巡检手册](https://img.taocdn.com/s3/m/4503f5b4192e45361066f5be.png)
SCSI 设备,例如内置的 SCSI 硬盘。
在运行在线诊断的时候几点注意事项:
•当系统在运行繁重应用的时候,不要应用在线诊断。
#errpt |more 列出简短出错信息
ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION
192AC071 0723100314 T 0 errdemon Error logging turned off
0E017ED1 0720131014 P H mem2 Memory failure
P5系列小型机指示灯如下图:
注意CPU风扇和电源风扇等的出风是否顺畅,是否有异物遮挡,影响散热效果。
注意机器是否有异常的声响,特别是风扇,电源,和硬盘部分。
检查IO板卡插槽是否有板卡的指示灯不正常或不亮。检查是否有松脱、曲折甚至 破损的线缆和线缆插头。
温馨提醒:机柜间、机柜顶或者地板上有金属物体(螺丝,铁片)等,请注意收
•洁净度:机房应保持清洁,不能有太多的灰尘,如机房太脏应提醒客户注意。
•维护空间:机柜旁不宜摆放杂物,要根据各机型的规定留有足够的散热空间和维 护空间。
•电话线:机房应该配备电话线(用于紧急拨号维护或及时电话支持)。
一
•先从外观上检查硬件情况,检查设备故障灯是否有亮。各种设备上都有故障指示 灯,通常为橘红色并有!标记。同时注意主机和磁盘阵列的LCD面板,设备发 生故障时通常伴有出错代码,必须把所有故障代码记录下来。!
破损或者堵塞。 如果过滤网堵塞会导致机器因散热问题而宕机。可以检查出风 口的温度和气流,如气流较弱温度较高则非常可能是滤网堵塞了。7040 Service Guide建议过滤网必须每半年检查一次。
IBM小型机常用命令操作方法
![IBM小型机常用命令操作方法](https://img.taocdn.com/s3/m/7f24caca866fb84ae55c8d2b.png)
实用文档
6、硬盘的相关属性(如容量)可以这样得 到:lsattr –El hdiskX,X=0,1…
• # lsattr -El hdisk0
• pvid 005fd7caaf9ad8a40000000000000000 Physical volume identifier False
•
ROM Level.(alterable).......M2P040106_condor_
•
ROM Level.(alterable).......0000CMD02252
•
ROM Level.(alterable).......MM040119
• 可以看到本主机的微码版本为 CMD02252
实用文档
9、AIX的版本可以用 oslevel 查看
• # oslevel • 5.1.0.0
• 这里看到的操作系统版本是 5.1
实用文档
10、AIX的系统补丁版本可以用 instfix –i |grep ML 查看到
• # instfix -i |grep ML • All filesets for 5.1.0.0_AIX_ML were found. • All filesets for 5100-01_AIX_ML were found. • All filesets for 5100-02_AIX_ML were found. • All filesets for 5100-03_AIX_ML were found. • All filesets for 5100-04_AIX_ML were found. • All filesets for 5100-05_AIX_ML were found. • All filesets for 5100-06_AIX_ML were found. • All filesets for 5100-07_AIX_ML were found.
AIX巡检步骤
![AIX巡检步骤](https://img.taocdn.com/s3/m/ab6c4d95d0f34693daef5ef7ba0d4a7302766c93.png)
AIX巡检步骤1、机房环境检查零地电压是否小于1V温度(摄氏℃)10℃-40℃湿度(%)8%-80%电源线的母头是否为左零右火电压值是否为240V2、查看硬件情况检查设备故障灯,一般为橙色并有故障标志。
有没有异常声响,如硬盘、风扇等。
有没有破损的电缆等3、主机检查1)系统空间使用情况,文件系统是否有“满”。
命令:df –k2)查看卷组信息,有没有"stale"状态的逻辑卷命令:lsvg -l rootvg 3)检查内存交换区(paging space)使用率是否超过70%命令:# lsps –s#lsps–a观察内存大小的命令:lsattr–El mem0命令:vmstat 2 5显示从系统启动到现在使用fork(创建的进程)的数量命令:vmstat - f 4)当前操作系统版本命令:oslevel5)系统性能检查:a) CPU性能:使用Vmstat, topas来检查b)内存使用情况:也是使用topas, vmstat来检查c)检查IO平衡使用情况:使用iostat来检查d)交换空间使用情况:使用lsps –a来检查6)网络检查netstat -i查看网卡状态Ierrs/Ipkts和Oerrs/Opkts是否>1%ping host_name /IP Address查看是否通和是否有丢包。
路由表 #netstat -rn查看路由表是否正确,ping各路由器是否通核对主机名:#hostname#ifconfig -a#lsattr –El inet07)检查dump设置#sysdumpdev –l8)检查系统合法/非法登陆情况使用Last命令来检查来自登陆的地方。
9)检查系统是否有巨大的Core文件生成使用find / -name core–print来检查。
对Core文件,一般直接删除就可以了。
10)网卡的状态、IP地址、路由表等命令:netstat –in查看 /etc/hosts11)列出系统中已安装的网络适配器命令:#lsdev -Cc adapter 列出系统中已配置的网络接口命令:#lsdev -Cc if12) snap -a来搜索AIX系统的大部分配置信息13)查看错误报告命令:errpt,ssa_ela,errpt |more errpt -a >/tmp/errpt_20071111.txt //将错误导出errpt -a > errptlog.txt errpt查看aix的错误日志errpt -dH //硬件故障errpt -dS //软件故障errpt –a | pg //获得所有错误日志的详细报告14)有否发给root用户的错误报告(mail)15)查看系统信息命令:lsconf |morelsdev -Cc processorlsattr -El procXprtconf |morebindprocessor -q16)检查hacmp.out,smit.log,boot.log命令:lssrc -g cluster看一下hacmp.out命令:tail -f /tmp/hacmp.out在tmp里面查看有无smit.log,用vi查看boot.log查看:# alog -o -t boot17)查看卷组信息,有没有"stale"状态的逻辑卷命令:lsvg -l rootvg 18)使用iostat命令监控I/O命令:iostat 1 219)查看系统定时备份情况命令:crontab –l20)HACMP检查Cluster是否运行正常Cluster进程是否运行:#lssrc –g cluster,至少两个进程,且为active。
AIX日常检查指导
![AIX日常检查指导](https://img.taocdn.com/s3/m/fc330c3450e2524de4187e19.png)
1)观察所有未读消息,注意有关diagela的消息。
2)常用命令:
h [〈num〉] Display headings of group containing message 〈num〉
t [<msg_list>] Display messages in <msg_list> or current message.
更改:
/usr/sbin/vmo—o maxclient%=20—o minperm%=10—o maxperm%=20—o strict_maxperm=1
mkitab "vmocfg:2:once:/usr/sbin/vmo -o maxclient%=20 -o minperm%=10 -o maxperm%=20 -o strict_maxperm=1"
显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
系统dump设置
#sysdumpdev-l
primary /dev/lg_dumplv或/dev/hd6
secondary /dev/sysdumpnull
copy directory/var/adm/ras
forced copy flagTRUE
查看资源组配置
#lsvg–o
查看资源组卷组是否激活
IP地址
cat hosts
netstat–in
HACMP配置检测Cluster Verification
#lssrc —g cluster
查看服务
# /usr/sbin/cluster/diag/clconfig -v '—tr’
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IBM RS/6000巡检内容及操作指导
1. IBM RS6000小型机机房要求:
1.机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。
2.温度(摄氏℃)
10 ℃-40℃
湿度(%)
8% -80%
2.设备故障灯分类:•
主机故障灯
面板上不能有数字显示,如果有的话,说明系统有故障。
7133磁盘阵列故障灯
告警灯为黄色表示有故障
磁带机故障灯
告警灯为黄色说明有故障或磁带机太脏,须清洗。
3.系统错误报告(Error Log)的检查:
硬件故障检测命令:# errpt -d H -T PERM
若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户
软件故障检测命令:# errpt -d S -T PERM
若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户
4.有否发给root用户的错误报告(mail):
#mail
1.观察所有未读消息,注意有关diagela的消息。
2.常用命令:
h [<num>] Display headings of group containing message <num>
t [<msg_list>] Display messages in <msg_list> or current message.
n Display next message.
q Quit
3.对发现的问题详细分析,结果报告给客户
5.件系统的检查:
命令:
# df –k
%Used为文件系统的使用率。
所有文件系统的使用率不能大于80%
6.磁带机清洁的检查:
命令:
#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n
显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
6.信系统的检测:
1.网卡的状态
命令:
#ifconfig –a
输出判断:
en0:
flags=e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT> inet 192.9.200.2 netmask 0xffffff00 broadcast 192.9.200.255
en1:
flags=e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT> inet 192.9.201.1 netmask 0xffffff00 broadcast 192.9.200.255
主备网卡的flag为UP属正常。
同时检查ip地址和netmask是否正确。
2.路由的检测
命令:
#lsattr –El inet0
authm 65536 Authentication Methods True hostname h24 Host Name True
gateway Gateway True route net,,0,172.16.23.81 Route True bootup_option no Serial Optical Network Interface True rout6 FDDI Network Interface True
3.络的检测
命令:
#ping [ip address]
输出判断:
用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。
RAID 的Hotspare 属性是否打开
#smitty ssaraid Change/Show Attributes of an SSA RAID Array
检查Enable Use of Hot Spares属性是否为YES
8.系统DUMP设置的检查
命令:
#sysdumdev –l
输出判断:
结果应为
primary /dev/hd6
secondary /dev/sysdumpnull
copy directory /var/adm/ras
forced copy flag TRUE
always allow dump FALSE
dump compression OFF
若不正确请用下列命令修改:
#sysdumdev –P –p /dev/hd6 –s /dev/sysdumpnull
9.HACMP 配置检测: Cluster Verification:
命令:
# /usr/sbin/cluster/diag/clconfig -v '-tr'
输出判断:
结果无Fail项输出。
10.系统硬件诊断:
命令顺序为:
1.#diag
2.Enter
3.Diagnostic Routines
4.System Verification
5.All Resources
6.F7
输出判断:
结果应为No trouble was found.
11.补丁程序(PTF)的检查
1.系统维护补丁版本为ML09,检查命令为:
#instfix –i |grep ML
12.系统参数的检查
1.HIGH water mark for pending write I/Os
# lsattr -El sys0 |grep maxpout
输出判断:
结果应为
maxpout 33 HIGH water mark for pending write I/Os per file True 2.LOW water mark for pending write I/Os
# lsattr -El sys0|grep minpout
输出判断:
结果应为
minpout 24 LOW water mark for pending write I/Os per file True 更改命令为:
#chdev -l sys0 -a maxpout='33' -a minpout='24'
3.Syncd参数
# grep syncd /sbin/rc.boot
输出判断:
结果应为
nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &
更改命令为:
#vi /sbin/rc.boot
4.aio参数
# lsdev -Cc aio
输出判断:
结果应为
aio0 Available Asynchronous I/O
# lsattr -El aio0
输出判断:
结果应为
minservers 1 MINIMUM number of servers True maxservers 10 MAXIMUM number of servers True maxreqs 4096 Maximum number of REQUESTS True kprocprio 39 Server PRIORITY True autoconfig available STATE to be configured at system restart True fastpath enable State of fast path True
更改命令为:
#smitty aio
5.Limits文件的设置:
#ulimit –a
输出判断:
结果应为
time(seconds) unlimited
file(blocks) 2097151
data(kbytes) 262144 //尤其是这项参数stack(kbytes) 32768
memory(kbytes) 32768
coredump(blocks) 2097151
nofiles(descriptors) 2000
更改命令为:
#vi /etc/security/limits
更改data为524288。