IBM小型机常见故障的基本定位
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一故障得定义。
弄清楚系统发生了什么问题
、系统现在能做什么?不能做什么?ﻫ、故障什么时候发生得?
.有没有做平时不同得操作?
.故障有没有规律?定时还就是不定时?发生得频率有多高?
、就是一台机器出现故障还就是多台机器故障?故障现象就是否相同?ﻫ.最近有没有做改动?如安装了新得硬件、软件,改变了系统得一些设置。
二故障信息得收集ﻫ1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。
ﻫ2)系统故障记录(errorlog)
errdemon进程在系统启动时自动运行ﻫ记录包括硬件、软件及其她操作信息ﻫ故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别得机器上分析
errpt 命令得使用(普通用户权限也可使用)ﻫ#errpt|more 列出简短出错信息
ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION
192AC00 T0 errdemon Error logging turned off
0E017ED1 0720131000 P H mem2 Memory failureﻫ9DBCFDEE 0701000000T 0 errdemon Error logging turned onﻫ038F25800624131000 U H scdisk0 UNDETERMINED ERROR
AA8AB2410405130900 T O OPERATOR OPERATOR NOTIFICATION
TIMESTAMP: MMDDHHMMYY (月日时分年)ﻫT(类型): P 永久; T 临时; U 未知(永久性得错误应引起重视)
C(分类): H 硬件; S 软件; O 用户; U未知
#errpt -d H 列出所有硬件出错信息ﻫ#errpt -d S 列出所有软件出错信息ﻫ#errpt—aj ERROR_ID列出详细出错信息ﻫ# errpt -aj 0502f666 <-—-ERROR_ID用大小写均可ﻫ例:
LABEL: SCSI_ERR1
ID: 0502F666
Date/Time: Jun 19 22:29:51ﻫSequence Number: 95ﻫMachine ID: 123456789012
Node ID: host1
Class: H
Type: PERM
Resource Name: scsi0
Resource Class: adapter
ResourceType: hscsi
Location: 00-08ﻫVPD: <—-- Virtal Product Data ﻫDeviceDriver
Level、、.。
、.。
、00ﻫDiagnostic Level、.。
.。
、、、、。
00 DisplayableMessage。
.。
、.。
、、、SCSIﻫEC Level。
.、、.。
.、、。
、。
、.。
C25928
FRU Number。
.。
、。
、、、.。
、.、、30F8834ﻫManufacturer..。
.。
...、.、.。
.IBM97FﻫPart Number。
、、.....。
、.。
.。
、
59F4566ﻫSerial Number、。
.、。
、。
..、、、。
00002849
ROS Level and ID、.。
、.。
、。
、、、24
Read/Write Register Ptr、、、.。
0120ﻫDescription
ADAPTER ERROR
Probable CausesﻫADAPTER HARDWARE CABLE
CABLETERMINATOR DEVICE
Failure CausesﻫADAPTER
CABLE LOOSEOR DEFECTIVE
Remended ActionsﻫPERFORM PROBLEM DETERMINATION PROCEDURES
CHECK CABLE AND ITS CONNECTIONS
Detail DataﻫSENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00000000ﻫ3)控制面板上得LED 代码
.8 位代码,通常系统故障灯会同时亮起、某些机型还会同时显示故障设备位置代码。
.4 位代码,通常就是Exxx、ﻫ、3位代码,通常为0yyy,只瞧后3位。
ﻫ。
8 位与4位代码可查瞧系统服务手册 (Service Guide)。
3位代码可查瞧系统诊断手册(Diagnostic Information for Multiple Bus Sy stem)。
、闪动得888, 系统崩溃,硬件或软件原因造成、按reset 键会显示更多内容。
888—10888-102 一般为软件故障(888-102—207 例外)ﻫ系统会产生一个dump。
ﻫ
888—102—xxx-0C0 系统dump完成,可2-xxx-0C9系统正在做dump, 请等待。
ﻫ
关电重启。
888-103或 105
硬件故障,一般有SRN 代码及位置代码。
4)SMS (SystemManagement Service) 故障记录
如何进入SMS 菜单ﻫ当主控台出现键盘图标后(LED 显示E1F1时)按1键。
选择”Utilities"ﻫ选择"Error Log”, 抄下8位故障代码ﻫ(在SMS 中还可以更改系统启动顺序表)
5) MAIL ﻫ#mail
系统会向root用户发mail报告出错信息。
通常系统出现故障后没有进行检查修复,系统会定时提醒root。
6)运行故障诊断程序(Diagnostic),对系统硬件进行检查与诊断。
当发现有硬件故障时应立即使用diag
#diagﻫ〉选高级诊断(Advance Diagnostic)ﻫ〉选问题诊断(Problem Determination) 或ﻫ选系统检查(System Verification)
(选PD 会对系统错误记录进行分析)ﻫdiag运行后会给出SRN 代码,故障设备名称及百
分比,地址代码等。
ﻫ对于PCI机型应在系统报错7天之内运行diag程序对出错记录里得sense数据进行分析、ﻫ7)其她用于收集系统信息得命令ﻫlsdev -C 系统设备信息
#lsdev -Ccdiskﻫhdisk0 Available 00-06-00—2,0 4、5 GB 16 Bit SCSI Disk Drive
hdisk1 Available 00-06-00—1,0 4。
5 GB 16 Bit SCSI Disk Driveﻫhdisk2 Defined 00—06-00—4,0 16Bit SCSI Disk Drive
lspv 查瞧物理卷信息
#lspvﻫhdisk0 0007821160af3d76 rootvg
hdisk1 000782117f571294 rootvgﻫhdisk20000000045c45bde datavg
lsvg 查瞧卷组信息
#lsvg datavg
VOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bﻫVG STATE: active PP SIZE: 4 megabyte(s)
VGPERMISSION: read/write TOTAL PPs: 2169 (8676 megabytﻫMAX LVs: 256 FREEPPs: 1 (4 megabytes)ﻫLVs: 3 USED PPs: 2168 (8672 megabyt
OPEN LVs: 2 QUORUM: 2
TOTALPVs: 1 VG DESCRIPTORS: 2
STALE PVs: 0 STALE PPs: 0ﻫACTIVEPVs: 1 AUTO ON: yes
MAX PPs perPV: 2032 MAX PVs: 16
#lsvg —lrootvg
rootvg:
LV NAME TYPE LPs PPs PVsLV STATE MOUNT POINT
hd5 boot 1 1 1 closed/syncd N/A。
.、
lv00 jfs 51 102 1 closed/stale /ibmcxx
lv01 jfs 1 1 1 open/syncd /cics_regions
lv02 jfs 4 4 1 open/syncd /var/mqm
lslpp 查瞧文件组信息ﻫ# lslpp -L |grep 23100020
、。
ﻫdevices。
pci。
23100020。
rte 4。
3、2.7 C IBM PCI 10/100 Et hernet Adapt
瞧某个文件组就是否已安装,如以太网卡驱动。
也用于查询补丁程序得版本。
lsattr查瞧设备参数设置ﻫ# lsattr —El ent2
busio 0x7fffc00 Bus I/O address Falseﻫbusintr9 Businterruptlevel False
intr_priority 3 Interruptpriority Falseﻫtx_que_size 512 TRANSMIT
queue size True
rx_que_size 256 RECEIVE queue sizeTrue
rxbuf_pool_size 384 RECEIVE buffer pool size True
media_speed 10_Half_Duplex Media Speed Trueﻫuse_alt_addr noEnable ALTERNATE ETHERNETaddress True
alt_addr 0x0 ALTERNATE ETHERNET address True
ip_gap 96 Inter-Packet Gap True ﻫlscfg 查瞧VPD信息(Virtual Product Data)
# lscfg —vl ssa1
DEVICE LOCATION DESCRIPTION
14104500)
ssa1 30-68IBM SSA Enhanced RAID Adapterﻫ(
Part Number。
.、、、。
.。
.、。
、。
、。
097H0645
FRU Number。
..。
、、.。
...。
、、、097H0645〈--备件号
Serial Number、、。
.、、。
.、、、。
、、.C8217227
EC Level.。
、。
、。
、、、。
、。
、。
、.、。
、0000F20825
Manufacturer、.、、、、.。
、、。
、.、。
IBM053ﻫROS Level and ID.、、。
、、、、、..。
7201 <——微码版本
Loadable Microcode Level。
、。
.04
DeviceDriver Level。
、、、。
...。
00ﻫDisplayable Messag e。
.、。
、。
..、SSA-ADAPTERﻫDeviceSpecific、(Z
0)。
、.。
、、、.DRAM=032
Device Specific、(Z1).、。
、。
、。
CACHE=0ﻫDevice Spec
ific.(Z2)。
、、、、。
、5dab2
Device Specific.(YL).。
、.。
.。
、P2—I7 〈—- 槽号
不同得硬件设备有不同得VPD,所含得格式与信息都不一样、通常备件号与微码ﻫ版本最有参考价值。
注:FRU(Field Replace Unit)才就是真正得备件号。
三硬件故障定位方法
IBM 小型机故障定位方法包括小型机I/O柜上得显示面板上得Checkpoints信息,
Error Code 与SRNs、
Checkpoints检查点就是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在I/O柜得显示面板上一系列信息。
ﻫIPL 流程ﻫ当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:
、 Phase 1: ServiceProcessor 得初始化ﻫPhase 1 开始于交流电源接到系统后,直到OK显示在I/O柜上得显示面板上为止。
在这个步骤会显示8xxx 或9xxxcheckpoints代码、
. Phase 2: 由 Service Processor 引导得硬件初始化ﻫPhase 2开始于按
下I/O柜上得白色电源开关。
在这个步骤会显示 9xxx checkpoints。
91FF 就是最
后得代码标志着第三步骤得开始。
Phase 3: 系统固件得初始化ﻫ在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源, 在这个步骤会显示Exxx。
E105就是最后得代码标志着第四步骤AIX启动得开始、在这个过程中还会显示各种位置码( 位置码代表着系统得每一个部分)ﻫ、Phase 4: AIX 启动ﻫ当AIX开始启动时,显示面板上得代码为 0xxx ,同时位置码会出现在第二行。
当AIX得登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。
Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行
显示相对应问题硬件得位置码、
SRNs (Service request numbers,服务请求码 )当系统运行有错误发现时,SRNs码
会以 xxx—xxx得形式显示在显示面板上,同时在AIX得error log中也会有记载、
以上所有代码都会有相应得步骤解决。
由于代码繁多,请在出现问题后记录下代码,并致电IBM服务热线。
ﻫ系统得启动顺序:
ﻫ.系统不能启动
系统停在Stage1,可能为电源、系统板、CPU、内存等硬件故障。
记录故障代码通知IBM工程师。
系统停在Stage 2,可能就是启动顺序表(bootlist)损坏或I/O子系统故障。
可尝
试进入SMS菜单检查启动顺序表,并修改。
若在选择bootlist时没有硬盘设备可选或
显示得硬盘信息不正确则可能就是硬盘故障。
若根本没有SCSI设备可选则链路有问题、
系统停在Stage3,可能就是硬盘数据损坏,系统设置文件出错,或I/O子系统故障。
ﻫ。
系
统停在551,555或557
发生在系统启动得第三阶段(Stage 3),可能就是:
文件系统损坏ﻫ文件系统日志(jfslog)损坏
rootvg中有坏硬盘
修复方法ﻫ用系统光盘或系统备份带启动(必须与硬盘中得操作系统版本一致)
启动后选择选项3ﻫ"Start Maintenance Mode for System Recovery”
> "Access a Root Volume Group”
〉"Accessthis volume group and start ashell
before mountingthe "ﻫ格式化文件系统日志(jfslog)
# /usr/sbin/logform /dev/hd8
检查修复文件系统
# fsck -y /dev/hd1 (/home 文件系统)ﻫ#fsck —y /dev/hd2 (/usr 文件
系统)ﻫ# fsck -y /dev/hd3 (/tmp 文件系统)ﻫ#fsck —y /dev/hd4 (/文件系
统)ﻫ# fsck —y /dev/hd9var (/var 文件系统)ﻫ。
、、、。
用exit 命令退出,文件系统会自动mount 起来。
重建bootimage
# lslv-mhd5 找出bootimage所在得硬盘,如hdisk0ﻫ#bosboot —ad /dev/hdisk0ﻫ# bootlist —m normal/dev/hdisk0 重建启动顺序表。
重启动系统ﻫ# shutdown-Fr
如上述步骤不奏效ﻫ用系统备份带恢复系统。
如备份带不能恢复,用诊断光盘(Diagnostic CDROM)检查就是否坏硬盘、。
CDE图形界面挂死
CDE 运行时不要更改网络参数(如:主机名与IP 地址)ﻫ更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改、
如CDE 已经挂死ﻫ远程 telnet 登录ﻫ找出所有dt有关得进程用kill命令杀掉ﻫ#ps—ef |grep dt
、。
、。
ﻫ# kill PID
检查当前主机名
# hostname ﻫtscf50ﻫ查瞧主机名就是否对应有效得IP地址ﻫ#netstat-i
|grep tscf50 ﻫtr0* 15009、185。
40 tscf50 506049 0 28247 0 0ﻫ更改主机名或IP地址,使主机名与当前有效得IP地址存在对应关系、ﻫ# smitty tcpip 重新启动CDE界面ﻫ# /etc/rc、dtﻫHACMP环境下可把主机名alias到127。
0。
0、1上ﻫ# cat/etc/hostsﻫ
127、0。
0。
1 loopback localhost tscf50 #loopback (lo0) name/addressbvg。
系统dump
发生在系统崩溃时,AIX会做dump(系统内存得快照)、
此时机器会显示闪动得888 102 xxx 0cx代码:
0c9 系统dump 进行中。
0c9状态可能会维持超过2分钟,ﻫ不要关电与按reset, 等待dump做完。
0c0 dump 成功完成,这时可以断电重起。
ﻫ0c2 手动启动dump 功能
0c4 dump 设备空间不足,只有部分信息保存下来
0c5 不明原因导致dump失败
一般dump就是由于软件出错引起(888-102-207 除外),机器通常可以重启、重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要得故障信息。
dump得有关设置ﻫ估算系统dump得大小,在系统最繁忙时(内存使用最多)ﻫ# sysdumpdev -e
0453—041 Estimated dump size in bytes: 53477376
#lsps-aﻫPage SpacePhysical VolumeVolumeGroup Size %UsedActive
paging00 hdisk0 rootvg 480MB 1 yesﻫhd6 hdisk1 rootvg 544MB 1 yes
当前得设置ﻫ#sysdumpdev -l ﻫprimary /dev/hd6 <-- dump得主设备ﻫsecondary/dev/sysdumpnullﻫcopydirectory /var/adm/ras<—— dump拷贝得目录forced copyflag TRUEﻫalways allow dump TRUE
hd6应比估算值稍大、ﻫ/var/adm/ras 就是默认得dump拷贝目录,比较估算值,保证/va r文件系统有足够得剩余空间拷贝dump文件。
否则机器重起时会提示用户插入磁带、
dump文件名为vmcore.#
对PCI机型如要手动做dump,须把” always allowdump" 先设成true。
# sysdumpdev -K
dump打包
#snap-a —o/dev/rmt# 或ﻫ# snap -a -c 把/tmp/ibmsupt目录做成一个压缩文件
snap。
tar。
Z如果/tmp文件系统空间不够,ﻫ可用-d directory 参数指定别得目录代替/tmp/ibmsupt
四 7133—D40 SSA磁盘柜得故障定位
当SSA磁盘柜出现故障时,在磁盘柜前面板得液晶显示屏上会显示相应得SRNs,同时黄色得显示灯会闪动,在AIX得errorlog中也会有记载错误信息,如:DISK_ERR1,DIS
K_ERR4,SSA_ARRAY_ERROR等。
请在出现问题后记录下代码,并致电IBM服务热线、
五软件故障定位方法
软件故障情况错综复杂,下面列举几个常见案例得故障处理方法、
1) 文件系统空间不够。
查瞧有没有“满”得文件系统。
特别就是/、/var、/tmp,不要超过90%。
文件系统满可导致系统不能正常工作,尤其就是AIX得基本文件系统。
如/ (根文件系统)满则会导致用户不能登录、用df –k 查瞧。
ﻫ# df —k (查瞧AIX得基本文件系统)
1024-blocks Free %Used Iused %Iused Mounted onﻫ/dev/hd4 24576 1452 95% 2599 22%/
/dev/hd2 614400 28068 96%22967 15% /usr
/dev/hd9var 8192 4540 45% 649 32% /var
/dev/hd3 167936 157968 6% 89 1% /tmpﻫ/dev/hd1 16384 5332 68% 140235%/homeﻫ除/usr文件系统,其她文件系统都不应太满,一般不超过80%。
处理方法1:删除垃圾文件
#du -sk * |sort -rn |head
查找出当前目录下占空间最大得子目录,逐层往下直到找出占空间最大得文件、(要区分哪些目录就是文件系统得mount point,哪些就是文件系统得子目录)删除文件,释放空间。
有时删除文件后空间并不马上释放,这就是由于您删除得文件正被某个程序打开。
只有当这个程序停止后空间才释放,有时甚至需要重起系统、ﻫ处理方法2:增加文件系统大小
# smitty chjfs
文件系统可以在任何时候加大,前提就是卷组(VG)中有剩余空间。
2) 检查文件系统得完整性
#umount ﻫ#fsck —y
注意:文件系统必须先umount,再做检查与修复,否则可导致未ﻫ知得后果。
3)查瞧卷组信息(lsvg-l vg_name):
有没有"stale"状态得逻辑卷。
若有,用syncvg命令修复"stale"逻辑卷。
4)检查内存交换区(paging space)使用率(lsps—s):ﻫ使用率就是否超过70% ,若有则用chps–sX pgname增加X个PP或用mkps –a –n –sX myvg在myvg上增加一个PP数为X得内存交换区。
5) 小型机内存泄漏问题
小型机出现内存泄漏,即系统或应用进程无法将使用过得内存释放,使可用内存得容量逐渐减少。
如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程,就会造成系
统瘫痪。
通常我们可以用ps与sar命令来查瞧小型机内存与CPU占用率得大概情况以及各进程得内存与CPU占用率得发展趋势。
ﻫ(a) psﻫ# ps gv|head -n 1; ps gv|egrep
-v ”RSS" |sort +6b —7 -n -r|head-n 5ﻫPID TTY STAT TIME PGIN SIZERSS LIMTSIZ TRS %CPU %MEM MAND
22 15674 pts/11 A 0:01 0 36108 36172 32768 5 24 0。
6 24、0 ./tctestpﻫ742 pts/11 A 0:00 0 20748 20812 32768 5 24 0、0 14.0 ./backups 10256 pts/1 A 0:00 0 15628 15692 32768 5 24 0。
0 11。
0 。
/tc
testp
2064 - A 2:13 5 64 6448 xx 0 6392 0.0 4。
0 kprocﻫ1806 - A 0:20 0 16 6408 xx 0 6392 0、04。
0 kproc
SIZEvirtualsize (in the pagingspace), in kilobytes,
RSS real—memory (residentset) size in kilobytesof the process.ﻫ通过不同时间输出得比较,就能观察出内存与CPU占用率得基本情况、找出其中占用内存数不断变大得进程,这个进程可能就已经发生了内存泄漏。
ﻫ(b) sar 指令也可以查瞧CPU占用率,但统计得结果不就是很准确。
通常使用sar令得格式为:
09:29:37 cpu %usr %sys %wio %idle
#sar -P ALL 2 10 ﻫ
004 95ﻫ09:29:41 0 0 2 6 92
09:29:39 0 0 0 4 95ﻫ11 0 4 95ﻫ-
134 2 91
09:2
22 95ﻫ-2 1 2 94ﻫ
-23 4 92ﻫ
2
09:29:43 0 3 1 2 94ﻫ1
6
88ﻫ
09:29:4701 1 296
3
4 5 6 86ﻫ
3
9:45 0 2 2 7 90ﻫ1
—
1 1
2 2 96
099ﻫ—00 0 100ﻫ09:29:51
1
- 1 1 2 96ﻫ
09:29:4900 0 0 100ﻫ1
020 0 98ﻫ10 1 0 98ﻫ— 1 0 0 98ﻫ09:29:53 0 7 1 6 86ﻫ12 2 5
90ﻫ-5 2 5 88ﻫ09:29:55 0 4 5 56 35ﻫ1 12 255 32
- 8 4 5533ﻫ09:29:57 0 168 14 64
1 15 9 11 65ﻫ- 15 8 12 64
Average 0 3 2 10 85ﻫ143 8 85
— 4 2 9 85
表示2秒钟输出一次结果总共有10次结果,然后平均。
ﻫ目前,如果发现内存泄漏,最好重新启动系统。
六HACMP环境下得排错
在一般情况下,HACMP软件很少需要手工干预,但一旦有问题发生,诊断与恢复得技巧就是很重要得、需要能很快地断定问题然后运用您对HACMP得理解来恢复HACMP得正常运作。
ﻫ一般地,HACMP环境下得排错包括:。
了解问题得存在。
、判断问题得出处。
ﻫ.解决问题。
一了解问题得存在
您可以通过以下途径了解到一个CLUSTER环境下出现了问题。
、最终用户得投诉,她们无法访问应用程序。
、控制台上出现一些HACMP得信息、
1.应用服务无法访问ﻫ最终用户得抱怨通常预示CLUSTER出现了问题.她们无法正常执行应用或就是无法登录到系统、我们必须采集到详细得信息以判断到底那里出现了问题。
就是否有错误得信息提示?如果可能得话,让用户重复步骤以确定那里就是错误得开始.您也可以在自己得系统上重复。
要知道用户应用不可用并不代表HACMP有问题、问题可能出现在应用程序本身或就是它得启动或终止脚本出现了问题。
因此应用程序本身得排错也应就是HA排错得一部分.ﻫ2。
控制台上出现一些HACMP得信息ﻫ在HACMP启动,终止或出错时,控制台上会出现一些HACMP得信息,同时也会写入相应得文件中、
二判断问题得出处
当错误出现时,我们应尝试发现错误得所在、但我们常常被错误得表面所误导、以下得步骤可以使我们得到更详细得信息、ﻫ1。
保存好一些LOG文件。
(/tmp/hacmp。
out&/tmp/cm。
log)。
因为它们可能被覆盖。
2、仔细检查HACMP所产生得LOG文件、它们能提供最初得判断线索。
ﻫ3、用HACMP得工具与AIX得命令来检查HACMP得部件就是否正常.ﻫ4、打开HACMP得跟踪工具来产生更详细得信息。
HACMP得LOG文件:以下文件都就是文本文件,可以用VI来瞧、每个日志文件都含有每个信息得产生时间、ﻫ/usr/adm/cluster。
log :记录了HACMP得状态,由HA得守护进程所产生。
ﻫ/tmp/hacmp、out :记录了HA得详细脚本、ﻫ/usr/sbin/clust
er/history/cluster。
mmdd :记录了HA得各个事件得发生、ﻫ/tmp/cm.log :由
clstrmgr进程产生,每次HA重起时会被覆盖、
、HACMP FOR AIX得结构
应用层
HACMP软件层ﻫLVM & TCPIP 层ﻫAIX层
物理网络层
物理硬盘层
硬件层
在物理网络层,物理硬盘层,硬件层,LVM & TCPIP 层,AIX 层我们可以用AIX系统
命令来瞧就是否硬件与系统出现了问题。
一般地,在用errpt命令来瞧没有类型为PH得
错误,lsvg —o 来瞧我们所须得VG已varyon,mount来瞧我们所须得文件系统已安装, netstat -i来瞧我们所须得service IP就是UP得状态(或用ifconfig en*),clu
ster node 之间得service与service IP ,standby与standby IP 互
相可以ping通、在各个节点上执行stty〈在HACMP软件层上,我们可以用vi /tmp /hacmp.out来瞧,如果出现event failed得字段,则有可能问题出现在该层,如果
在问题出现得时段,hacmp。
out无信息出现,则问题可能出现在应用层。
ﻫ以下就是HA排错得一些守则:。
在第一时间保存好相关得日志文件,特别就是那些会被覆盖得文件。
、尝试去重复问题得出现.不要被用户所反映得问题迷惑。
ﻫ、渐进地去重复问题,如果有多个可能导致问题得出现,一个一个地去重复,而不要一次重复多个可能。
、不要凭经验来判断问题,而就是要在各种测试后,由结果来判断。
ﻫ、隔离问题得来源,根
据我们上面所叙述得层次关系,至顶向下地诊断.
.由简到繁地做测试,我们先从一个简单得环境来做测试,不要尝试在一个复杂得环境中测试.
.一次做一次改动,否则我们无法知道就是那个改动解决了问题.ﻫ.不要忽略各种可能,因小
可失大,留心系统得每一个细节,包括电源,插头,连线等。
ﻫ。
保持各种测试得记录以及解决得步骤,用做将来排错得参考、
.拨打IBM服务热线,将问题现象与您所做得测试结果告诉IBM得工程师,她们将在CAL
L CENTER得测试中心重复试验,必要时会派工程师到场解决问题、
三 IBM HACMP双机系统得管理与维护
本节将说明HACMP 双机软件得一些基本管理与维护命令这些命令将会在HACMP 双机
系统得日常工作中经常用到、ﻫ1 HACMP 双机系统得启动
要启动HACMP双机系统必须要有root 用户得特权分别进入到系统各节点主机在命令ﻫ行上执行下述命令即可.ﻫ# smit clstartﻫ或
# /usr/sbin/cluster/etc/rc。
cluster -boot -N–I
需要注意得就是在双机系统中HACMP 双机软件先启动得节点将成为主节点拥有资源
并对外提供关键服务后启动得节点将成为备节点.ﻫ另外在启动HACMP 前需要启动双机上得INFORMIX 与SCP 应用。
ﻫ2 HACMP 双机系统得关闭ﻫ要关闭某节点上得HACMP双机软件必须要有该节点root 用户得特权以root用户进入到
该节点主机在命令行上执行下述命令即可、ﻫ#smit clstopﻫ或
#clstop -grﻫ需要注意得就是若该节点就是主节点并且备节点上得HACMP软件亦正常运行则需注意
clstop 关闭模式得三种选项得不同1 forced就是指立即关闭双机软件不调用任何客户应用得
善后处理例程。
2 graceful 就是指在关闭双机软件时将调用客户应用预定义得善后处理例程、3
takeover就是指该节点将关闭双机软件并释放资源请求备节点进行接管.如该节点就是备节点
则关闭模式选项没有多大意义.ﻫ另外关闭HACMP 将关闭manager 与informix。
3 查询HACMP 双机系统得状态
在双机系统得运行当中操作员经常需要知道双机系统得当前状态才有可能对双机系
统出现得异常情况进行恢复处理才能保证双机系统得高可用性与高容错性、查询HACMP 双机系统得状态只需以root 用户进入需要查询得节点进行下列操作ﻫ首先检查HACMP双机软件在该节点就是否已启动命令如下ﻫ#lssrc -g cluster
若就是系统显示出下面类似得信息则说明HACMP双机软件已正常启动、ﻫSubsystem Group PID Status
clstrmgr cluster 22500 active
clsmuxpd cluster 23674 active
clinfocluster 28674 active
在已确认双机软件HACMP 正常启动得情况下在命令行执行下述命令来察瞧双机系统得当前状态
#/usr/sbin/cluster/clstat —aﻫ如果双机系统一切工作正常则系统将显示下述类似信息ﻫclstat - HACMP for AIX Cluster Status Monitor
Cluster: scp_cluster(80) Thu Jan 2008:45:17 TAIST 2000
State: UP Nodes: 2
SubState: STABLE
Node: mscp1 State: UP
Interface: mscp1_svc (0) Address: 192。
9.1。
60ﻫState: UP
Interface: mscp1_tty (1) Address: 0、0。
0。
0ﻫState: UP
Node: mscp2 State: UP
Interface: mscp2_svc (0) Address: 192。
9.1、61ﻫState: UP
Interface: mscp2_tty (1) Address: 0、0。
0。
0ﻫState: UP
七常用得系统状态查询命令:
#lsdev –C –sscsi
列出各个SCSI设备得所有相关信息:如逻辑单元号,硬件地址及设备文件名等。
ﻫ# ps -e
f ﻫ列出正在运行得所有进程得各种信息:如进程号及进程名等。
ﻫ# netstat —rn
列出网卡状态及路由信息等。
ﻫ# netstat —inﻫ列出网卡状态及网络配置信息。
# df -kﻫ列出已加载得逻辑卷及其大小信息。
# mount ﻫ列出已加载得逻辑卷及其加载位置。
# uname —aﻫ列出系统ID 号,系统名称,OS版本等信息。
ﻫ# hostname
列出系统网络名称。
#lsvg –lrootvg,lsvg –p rootvgﻫ显示逻辑卷组信息,如包含哪些物理盘及逻辑
卷等。
#lslv –l datalv,lslv –p datalvﻫ显示逻辑卷各种信息,如包含哪些盘,就是否有镜像等。
八网络故障定位方法
网络不通得诊断过程:
ifconfig查瞧网卡就是否启动 (up)
netstat –i 查瞧网卡状态
Ierrs/Ipkts 与Oerrs/Opkts就是否>1%
ping自己网卡地址 (ip地址)ﻫping其它机器地址,如不通,在其机器上用diag检测
网卡就是否有问题。
在同一网中, subnetmask 应一致。
网络配置得基本方法:
(1) 如需修改网络地址、主机名等,一定要用chdev命令ﻫ# chdev–l inet0 –a hostname=myhost
# chdev -l en0 —a netaddr=9。
3。
240、58 —a netmask=255、255.255。
0' (2) 查瞧网卡状态:# lsdev –Ccifﻫ(3) 确认网络地址:# ifconfig en0
(4) 启动网卡:# ifconfig en0 up
(5) 配置路由ﻫ有两种方式加入路由:ﻫ永久路由ﻫ# chdev —l inet0 -a
route=’10.47.0。
0’,’9、3、240.59'ﻫ临时路由
# route add 10、47、1。
2 9。
3。
240。
59ﻫ用命令netstat —rn 查瞧路由表
附:常用命令列表:
Any XXXX, ####, ****, or X is tobe substituted by a name, resource nameor #,ﻫfn =ﻫDIR = Directoryﻫ|= pipe symbol
bosboot -a —d /dev/hdiskx—rebuilds boot record/image on bootdevice(hdiskx)ﻫcat —view contents of a /tmp/****。
1—view a file, look at outputﻫcat fnfn > new two files to a single -w
ill return you to default DIRﻫcd / —will put in root DIR
cd /xxxx -change you to a DIRanywhere is system
cd 、、-willdropyou out of1 DIR at a time
cd xxxxx -willchangeyou to a DIR in current dir
cfgmgr -will auto config devices
cfgmgr -v&—(-v) shows processes (&) puts in background
chps—s xx hd#-increase paging space (xx=#of addtl PP s)ﻫcp oldfnnewfn —copy a oldfn Dirn —copy a another directo ry
crontab -l -list crontabentries for the current user
ctrl + v —will page down 1 pageﻫctrl + 6 -will pageup 1 pag
eﻫdel fn -same as rm -i,promts to remove fn
df —I—showsstatus of (no inodes)ﻫdf -Ik -(k) show status in 1024 bites(1mb)(only AIX 4ﻫdiag -a—updates changes in hardware configurationﻫdiag *****—****=adevice type(as tape,disk。
.、.Fastpath)ﻫdiag —cd rmtX -resets tapedriveﻫdosformat —formats a disketteto DOS
dosdir-list files on dos formated diskette
dosread XX YY-copies dos to aixﻫdoswrite YY XX -copies aix
to dos
errpt-generates a one line synopsis of loggederrorsﻫerrpt|pg -list errorlog1 page a time(1st column is ID)ﻫerrpt-a —dis plays detailed information of logged errors
errpt -s Mmddhhmmyy —select entries posted later than dateﻫerrpt -aj XXXXXXX -list detail error by ID number。
(XXX=1st column)
errpt—d S -list software errors
errpt -j XXXXXXX—list summaryreport by ID number。
ﻫerrpt -aN XXXXXX —listdetailed report by resource name column
errpt -N XXXXXXX -listsummary report by resource name column
errclear 0—clears errorlog
errclear—N XXXXX 0 -clears errorlog by resource name, 0=all enter
errclear —j XXXXX 0 —clears errorlog by ID number。
ﻫfinger -same as who butwith more details
flcopy—copies a diskette to anotherdisketteﻫformat -formats a diskette in default diskette driveﻫformat —l -formats inlower denity: 1.44 on 2、44 / 720 on 1。
44
hostname —responds with host system nameﻫhost (hostname) —responds withinternet addressﻫinstfix -ik IPAR# -lists ipar fix was pletely installedﻫlppchk —v -checks install status of LPPs
lppchk -v 2> /dev/lpX—sends output of lppchk toprinter lpxﻫlpstat —a all -view all printer queuesﻫlptest 80 5 > /dev/lp0 -send test pattern to lp0
ls —list names of files & directories in current dir
ls-lia -list details of files, current dir & subdirﻫls -al-list detailsoffiles or dir in current dirﻫlsattr -El xxxxxx -list specific settings on a deviceﻫlsdev -C | sort —d -f —list system
hardware (devices)ﻫlsdev —C | grep00-0X—list resourses for a adapter
lsdev —Cc xxxxx—H—listdevices(xxx=tty,printer,disk,memor
y,adpt
lsdev -Cs scsi —list scsidevices(notserial or raid)
lsdev -Cctape-list tape devices
lsdev -Cs pci -list pcidevicesﻫlsdev —Cs isa -list isadevices
lscons -liststhe assigned console
lscfg —list hardware list (same as diags list)ﻫlscfg -rl mem*|pg —lists the memory on PCI bus machinesﻫlscfg—vl XXXXX —list config info from adevice。
(rmt0,hdisk,etc)
lscfg-vl sysplanar0 -lists the machine type, model, s/n onSMPﻫlsfs -list all + datafrom ”df" cmdﻫlslpp -l | grep BROKEN -
lists incomplete ptfsﻫlslv -m hd5 -findsboot drive underpv1 column
lsps —a -checks availablepaging space
lsps -s —checks availablepaging spaceﻫlspv—lists information aboutthe physicalvolumes
lspv hdisk#—list drive info
lspv -l hdisk# -lists logical volume group disk in
lsuser —f ALL —lists allattributes for all users
lsvg—lists volume groups
lsvg —p XXXXXX -lists disks involume group (xxxxx=volumename)ﻫmore —reads files and displays the text one screen at a time. mpcfg -df -list all setting the machine is set to (smp)ﻫmpcfg —cf 111—changes to fast IPL onSMP machines (smp)
mv fn (path fn) -move and rename a—shows AIX version (3。
2、4 and above)ﻫpg -reads and displays text one screen at atime。
pdisable —makes unavailable or shows all disabled ttysﻫpdisable tty# —disables a tty
penable -makes available or shows all enabled ttysﻫpenable tty# —e nablesattyﻫps -el|pg—lookat processrunning on system
pwd —listwhat DIR youare currently in
r -repeats last commandﻫrm-i *******—remove a file& will prompt you if you are sure
rmdev -l XXXXX—removes a device and defines it to data base rmdev -l XXXXX —d -removes a device and deletes it from data
baseﻫset —o vi -sets up to veiw cammands that have been run
:wq -write(save) and quit + k —used with SET mandto list las
t mand
k,l -k=list nextcommand ran, l=steps you thrucommand
I—use with SET command inserts characters
j—steps you backwards
cw -cw=removes a word,just type in new wordﻫ(use with Esc)ﻫa,x,r -
a=added text, x=delete text, r=replace text(r+letter)
R -lets you type over letters orwordsﻫsmit *****—(*****=
tape,disk,tty,etc、fastpath)ﻫsu -stands for switch user,(NOT
super user)ﻫsu —switches to root id orprompts you for password
su XXXXXX -switches toXXXXXXs id
tar -cvf/dev/rmtX/etc -will copy /etc to a tape driveﻫtar -tvf /dev/rmtX -will read a tape driveﻫtctl -f/dev/rmtXrewoffl -rewind& eject tape
tctl -f /dev/rmtX.1fsf 3 —forward advances a tape to beread
by TARﻫtctl —F -list avail commands(—F flagis not correct) tctl retension -retensions tape in tape drive
& -put any mand in background with process IDﻫuptime -how long since last IPL and how many users on systemﻫvmstat ## -reports virtual memory statistics and moreﻫiostat##—reportsCPU,disk & cdrom statisticsﻫusewith vm& iostat -1st #(how many sec to repeat), 2nd#(how many times)ﻫwho -shows users on systemﻫwho
ami -shows user id on your terminal &tty number
USE the following with other mands、ﻫ--—--—--—--—-—-—-------—-—---——-—--—-—-——-——-—--——-ﻫ>/tmp/****.1 —creates a
file (used with lsXXX mand)
〉/dev/lp# -redirectes output to a printer(use with a comd)ﻫ|grep -is useful to search for text in a file.
|pg -use after any mand to view one pageat a timeﻫ|-pipe sig n - Takes the output of onecommand andﻫfeeds it to the input o f another、
>—redirect sign or greater than sign
/ -slash signﻫ—back slash sign
〉〉-double redirect will add text to end of fileﻫ&-put any command inbackground with process ID
MUST unmount 1st to run fsck &dfsck/only usewith a problem -—--———-——---—----------—--——--—-------——-———--—--------—-—--—-—-—---———--—--——-—-—-————------ fsck XXXXXXX -will check a forerrors & prompt
dfsck /XXXX /XXXX -will check 2different at the same time
FOLLOWING command lines willdelete a group of devices as a group, the #,
sign is the hdisk#sthat you want to delete.(thisis an exampe、) ---—--——-——-----——----—--—-—----——-——-—--——-—--—-—--------—---—-—--—----——-—---—---—————-—-----——-ﻫf
or disk in # # # # -this line and the next 3 line work togeth
erﻫdo -the prompt will be > (REMEMBER to hit enter)ﻫrmdev -l
hdisk#{disk}—d -theprompt will be > (brackets around diskchange)ﻫdone -the prompt will be 〉 (on a printout、 change to —) SSA RELATED MANDS
--——--—-—-——---——-—-----——--———-———-—--—-ﻫlsattr -El ssaX -list attributes ofSSAadaptersﻫlscfg -vl ssaX—list VPD of SSAadapters
lsdev —C | grep SSA -list all SSA devices
lslpp —L | grep SSA—list SSA device drivers
maymap -ap —maymap display of SSA loop
maymap -alph -maymap display of SSA loopﻫlscfg —vlpdisk* —
list VPD of pdisks
ssaxlate—l hdiskX -list hdisk to pdisk assignment
ssaxlate -lpdiskX -list pdisk to hdisk assignmentﻫssa_rescheck—l
hdiskX —show hdisk reservation statusﻫFOLLOWING CMDS LIST, COPY, AND RESTORE FOR cpio,tar,dd,backup,dos:ﻫNOTE: The fd0 isjust a dev、 so you may use any media you desire。
---—---—---—--—--——----—-—-—-—-—-—---—--—--——-—
---—-—-——----—--————-—----——---—--—-ﻫLIST COPYﻫ—-—-——--——-—--
cpio-itv 〈/dev/fd0 ls /tmp/fn |cpio -ov 〉/dev/fd0
tar —tvf /dev/fd0tar-cvf /dev/fd0 fn
dd li—l | dd dd if=fn of=/dev/fd0
restore—Tf /dev/fd0 backup-0—uf/dev/fd0 fn By INODE
restore -Tf /dev/fd0 find / —print| backup -i -f/dev/fd0 By N
AME
dosdir doswrite -a (AIX fn) (fn。
ext)ﻫTO RESTOREﻫ-—-——--——-—-——----—
cpio—iv fn< /dev/fd0ﻫtar —xvf /dev/fd0
dd of=/dev/fd0 if=fnﻫrestore-xvf /dev/fd0 fn BY NAME/INODE, re
store understands unless special
flags were used、ﻫdosread —a (fn。
ext) (AIX fn)
TO DOCUMENT THE SYSTEMﻫ----——-—----—-----—--—----—-—-———-—-——--—--ﻫlscfg -v > /dev/lpx -to list sys config/VPD
lsuser —f ALL 〉 /dev/lpX -to list usersﻫlsdev —Cc tty —H —to list all ttys
lsdev -Cc lp -H —to list all lpsﻫlsattr -El ttyX>/dev/lpX -t
o list ttyXparameters (do for each tty)ﻫlsattr -El lpX > /d
ev/lpX -to list lpX parameters (do for each lp)ﻫlpstat > /dev/lpX -to list queues
lsfs > /dev/lpx -to list
lspv〉 /dev/lpx -to list hard drivesﻫlspv hdiskx—to list hard
drive config (do for eachdrive)ﻫlspv -l hdiskx —to list filesondrive
lsvg rootvg -to list rootvg dataﻫplus printout of or saveto diskette:ﻫ-—————--—-—————-—-—-————-——-————-——-———---ﻫ/etc/inittabﻫ/etc/objrepos/Cu*
/etc/passwd
/etc/
/etc/security/passwd
/etc/hosts
/sbin/rc。
boot。