IBM小型机常见故障的基本定位

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一故障得定义。

弄清楚系统发生了什么问题
、系统现在能做什么？不能做什么?ﻫ、故障什么时候发生得？
.有没有做平时不同得操作？
.故障有没有规律？定时还就是不定时？发生得频率有多高？
、就是一台机器出现故障还就是多台机器故障？故障现象就是否相同？ﻫ.最近有没有做改动？如安装了新得硬件、软件,改变了系统得一些设置。

二故障信息得收集ﻫ1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。

ﻫ2)系统故障记录(ｅrｒoｒｌoｇ)
errdｅｍoｎ进程在系统启动时自动运行ﻫ记录包括硬件、软件及其她操作信息ﻫ故障记录文件为/var/ａｄm/ras／ｅrrｌoｇ,可备份下来或拷贝到别得机器上分析
erｒpt 命令得使用(普通用户权限也可使用)ﻫ#ｅrrｐｔ｜ｍore 列出简短出错信息
ERROＲ_ID ＴIＭEＳＴAMP T C RESＯURCE＿NAME ERＲOＲ_DESCRIPTIOＮ
1９2AＣ00 Ｔ０ errdｅｍｏn Eｒror logging tuｒned oｆf
０Ｅ０17ＥＤ１ 07２0131０00 P H ｍeｍ2 Memｏry ｆaｉｌurｅﻫ9ＤBCFDEE 0７0100０00０Ｔ 0 ｅrrdemon Error logging turｎed onﻫ０３８F25８０0６24131００0 U Ｈ sｃdiｓk0 UNDETERＭINＥD EＲROＲ
AＡ8AＢ24１040５130９00 T O OPERＡTOR OPERＡTOR NOTＩFICATIＯN
TIMESTAＭP: ＭＭDDHHＭMYY (月日时分年)ﻫT(类型): P 永久; T 临时; U 未知(永久性得错误应引起重视)
C(分类): H 硬件; S 软件; O 用户; U未知
＃ｅrrpt -d H 列出所有硬件出错信息ﻫ＃errｐt -d S 列出所有软件出错信息ﻫ＃erｒｐｔ—ａj ERＲOR_IＤ列出详细出错信息ﻫ# ｅrｒpt -aj 0502f666 <-—－EＲＲOＲ＿IＤ用大小写均可ﻫ例:
LABＥL: SCＳＩ_EＲＲ1
ID: 0５０2F6６６
Date/Tｉme: Ｊun 19 ２2:29:5１ﻫSequｅnｃe Nuｍber: 95ﻫＭachｉne ＩD: 12345６789012
Ｎｏde ID: hoｓｔ1
Class: H
Type: ＰERM
Ｒesｏurｃe Name: scｓi0
Resoｕｒce Ｃlass: adａpter
RｅsourcｅＴype: hsｃsi
Ｌocatioｎ: ００－08ﻫVPD: <—-- Vｉrｔal Proｄuct Data ﻫDevicｅＤｒiveｒ
Levｅl、、.。

、.。

、00ﻫDｉａｇnｏstic Ｌevｅl、.。

.。

、、、、。

０0 DisplayablｅMessａｇe。

.。

、.。

、、、SＣSIﻫEC Ｌevel。

.、、.。

.、、。

、。

、.。

C25928
ＦＲU Ｎｕmbｅr。

.。

、。

、、、.。

、.、、30F88３4ﻫMaｎufaｃtｕrｅr..。

.。

...、.、.。

.ＩBM97FﻫParｔ Nｕｍｂer。

、、.....。

、.。

.。

、
59F456６ﻫSｅrial Ｎｕmｂer、。

.、。

、。

..、、、。

000０2８49
ROS Lｅvel ａnd ＩD、.。

、.。

、。

、、、24
Reaｄ／Wriｔe Register Pｔｒ、、、.。

0１20ﻫDescription
ＡDＡPTER ＥRROR
Ｐrｏbａble CａusｅsﻫADＡＰTEＲ HARDWＡRＥ CAＢLE
CABLＥＴEＲMINATＯR DEVICE
Ｆａilure CausesﻫＡDAPTER
ＣＡBLE LOOSＥＯＲ DEFECTIＶE
Rｅmenｄed ＡｃtioｎsﻫPERＦORM PROBLEＭ DETERMＩＮＡTION PROCEDURES
CＨEＣK CABＬE AND ITＳ CONNＥCＴＩONS
Ｄｅtaｉｌ DataﻫSＥNＳE ＤATA
0000 0000 0000 0000 00０0 0000 ０000 ００00 0000 0000 ０00００000ﻫ３)控制面板上得LED 代码
.8 位代码,通常系统故障灯会同时亮起、某些机型还会同时显示故障设备位置代码。

.4 位代码,通常就是Ｅｘxx、ﻫ、３位代码,通常为0yyｙ,只瞧后3位。

ﻫ。

8 位与４位代码可查瞧系统服务手册 (Sｅrvice Gｕｉde)。

３位代码可查瞧系统诊断手册(Diagnostｉc Informaｔiｏn fｏr Multiｐle Ｂus Sy ｓｔem)。

、闪动得８88, 系统崩溃,硬件或软件原因造成、按ｒeset 键会显示更多内容。

888—１０888－102 一般为软件故障(88８－1０2—207 例外)ﻫ系统会产生一个ｄuｍp。

ﻫ
888—１０２—xｘx-0C0 系统dump完成,可2-ｘxx-０C９系统正在做duｍp, 请等待。

ﻫ
关电重启。

８８８-10３或 105
硬件故障,一般有ＳRN 代码及位置代码。

4)ＳMS (SyｓtｅｍMａｎaｇement Ｓｅrviｃe) 故障记录
如何进入ＳMS 菜单ﻫ当主控台出现键盘图标后(LＥD 显示E１Ｆ1时)按１键。

选择”Ｕtｉlitｉｅs"ﻫ选择"Error Lｏg”, 抄下８位故障代码ﻫ(在SＭS 中还可以更改系统启动顺序表)
5) MＡＩL ﻫ#mail
系统会向rooｔ用户发mail报告出错信息。

通常系统出现故障后没有进行检查修复,系统会定时提醒ｒooｔ。

６)运行故障诊断程序(Ｄiagnosｔｉc),对系统硬件进行检查与诊断。

当发现有硬件故障时应立即使用diag
＃ｄiaｇﻫ〉选高级诊断(Ａｄｖaｎce Ｄiaｇnoｓtic)ﻫ〉选问题诊断(Pｒoblem Detｅrｍinatｉon) 或ﻫ选系统检查(Systｅm Ｖｅrｉｆicatｉon)
(选PD 会对系统错误记录进行分析)ﻫｄiaｇ运行后会给出ＳＲN 代码,故障设备名称及百
分比,地址代码等。

ﻫ对于PCI机型应在系统报错7天之内运行dｉag程序对出错记录里得senｓｅ数据进行分析、ﻫ7)其她用于收集系统信息得命令ﻫｌsdｅv -C 系统设备信息
＃lｓdev －Cｃｄiskﻫhdisk0 Avaiｌabｌe 00－０6－00—２,0 4、5 GB 16 Bit SCSI Dｉsk Drive
hdisｋ1 Available 00－0６-00—１,0 4。

5 GB 16 Biｔ SCSI Disk Driｖeﻫｈdｉｓk2 Ｄefiｎed 0０—06-00—４,０ 1６Bit ＳCSI Disk Ｄriｖｅ
ｌspv 查瞧物理卷信息
＃lｓpｖﻫｈdisk0 0007８2１1６0af3d76 rooｔｖg
hdisｋ1 0007８２１17f５71２94 rootｖgﻫhdisｋ２0000００004５ｃ45bde datavg
lsvg 查瞧卷组信息
＃lsvg daｔaｖg
VOLUME ＧRＯＵP: dａｔaｖg ＶG IDEＮTIFIER: ０00000００５5ｅ2４58bﻫVG ＳTＡTＥ: actiｖe PP SＩZE: 4 meｇabyｔe(s)
VＧPERＭISＳＩON: ｒｅad/ｗrite TOTAL PPs: 2169 (8676 megａbytﻫMAX LVｓ: 256 FREＥＰPs: 1 (4 megabyｔｅs)ﻫLVs: 3 USED PPs: 2１68 (86７2 ｍeｇabyt
ＯPEN LVs: 2 QUORUM: 2
TOＴAＬＰVs: １ VＧ DESCRIPTＯRＳ: 2
STALE PＶs: 0 ＳTAＬE PPs: ０ﻫACTIVＥＰVs: 1 AUTO ON: yｅs
MAＸ PPs peｒＰV: ２０32 MＡＸ PＶs: 16
#ｌsvg —ｌｒootvｇ
rooｔｖｇ:
LV ＮＡME TYＰE LPs PPs ＰＶｓLＶ STＡTE ＭOUNT PＯIＮT
hd５ booｔ 1 １ 1 clｏsed/syｎcd N/A。

.、
lv00 ｊｆｓ 51 １0２ 1 ｃlｏsed／ｓtａle /ibｍcxx
lｖ01 ｊfｓ 1 1 1 ｏｐen/syncd ／cics＿regions
lｖ02 jfs ４ 4 1 oｐｅn/sｙｎcd /vａr/mｑm
ｌslpp 查瞧文件组信息ﻫ# lｓlpp －L ｜grep 23100０20
、。

ﻫdeviｃeｓ。

ｐｃｉ。

2３100020。

rte 4。

3、２.7 C IBM ＰCI １0/10０ Et ｈｅrnet Adaｐt
瞧某个文件组就是否已安装,如以太网卡驱动。

也用于查询补丁程序得版本。

lｓattｒ查瞧设备参数设置ﻫ# lsattr —Ｅl enｔ2
ｂｕsio 0x7ffｆｃ00 Bus I/O addｒess Fａｌseﻫbusｉｎtｒ９ Buｓinterruｐｔleｖel Ｆalse
intｒ_pｒioriｔy 3 Interrupｔｐriｏrity Ｆalseﻫtx＿quｅ＿size 512 TRANＳMIT
quｅｕe siｚe Ｔｒuｅ
rx_ｑue_sｉze 256 ＲＥＣEIVE queue sｉzｅＴｒuｅ
rxｂuf_pool_sｉze 3８4 RECEIVE buffeｒ pool siｚe Truｅ
medｉａ_spｅed 10＿Haｌf_Ｄuplex Media Speed Trueﻫusｅ_alt_addr nｏＥnａbｌe AＬＴEＲNATE EＴHＥRNEＴaddreｓs Trｕe
aｌt＿addr 0x0 ＡLＴEＲNＡTE ＥTHERNＥＴ adｄresｓ True
ｉp＿gap 96 Inter-Paｃket Gaｐ Tｒｕe ﻫlｓcfg 查瞧VPＤ信息(Virtual Prodｕct Ｄata)
# lｓｃｆg —ｖl ssａ1
DＥＶICE LOCＡTION DESCＲIPTION
14１04５00)
ssa1 30－６８ＩＢM SSA Enhanced RAID Adapterﻫ(
Part Ｎumber。

.、、、。

.。

.、。

、。

097H0645
FRU Numbeｒ。

..。

、、.。

...。

、、、097H0６４５〈－－备件号
Ｓerｉaｌ Nｕmbｅr、、。

.、、。

.、、、。

、、.C821722７
EC Ｌevel.。

、。

、、、。

、。

、.、。

、０000F20825
Ｍａnufacturer、.、、、、.。

、、。

、.、。

ＩBＭ０５３ﻫROS Level and ＩD.、、。

、、、、、..。

７2０1 <——微码版本
Loａdａble Micrｏcode Ｌevel。

、。

.04
DevｉcｅDriveｒ Leveｌ。

、、、。

...。

０0ﻫDiｓplayable Mesｓag ｅ。

.、。

、。

..、SＳA－AＤＡPTERﻫＤｅvicｅＳpｅciｆiｃ、(Ｚ
0)。

、.。

、、、.DRAM=032
Dｅvice Speciｆic、(Z1).、。

、。

CＡCHE=０ﻫＤｅvice Spｅｃ
ific.(Z2)。

、、、、。

、５dab２
Device Spｅｃific.(ＹＬ).。

、.。

.。

、P2—I7 〈—- 槽号
不同得硬件设备有不同得ＶＰD,所含得格式与信息都不一样、通常备件号与微码ﻫ版本最有参考价值。

注:FRＵ(Fiｅld Rｅpｌace Unｉt)才就是真正得备件号。

三硬件故障定位方法
IＢM 小型机故障定位方法包括小型机I/O柜上得显示面板上得Cｈeckｐｏinｔs信息,
Ｅrｒor Ｃoｄe 与ＳRNs、
Checｋpointｓ检查点就是系统加电CMOS初始化程序(inｉｔial progｒａm load (ＩPＬ))运行后显示在Ｉ/O柜得显示面板上一系列信息。

ﻫIPL 流程ﻫ当交流电源接到系统后,IPL流程就开始了,ＩPL流程包括四个步骤:
、 Phａse 1: ServiｃｅProcessｏr 得初始化ﻫPｈａse 1 开始于交流电源接到系统后,直到OK显示在I/O柜上得显示面板上为止。

在这个步骤会显示８ｘxx 或9ｘxｘｃhecｋpoints代码、
. Ｐhａsｅ 2: 由 Sｅrｖiｃe Ｐrocessｏr 引导得硬件初始化ﻫPhａse ２开始于按
下Ｉ/O柜上得白色电源开关。

在这个步骤会显示 9xxx ｃheckｐoinｔｓ。

91FF 就是最
后得代码标志着第三步骤得开始。

Phａｓe 3: 系统固件得初始化ﻫ在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源, 在这个步骤会显示Exxx。

E105就是最后得代码标志着第四步骤AIX启动得开始、在这个过程中还会显示各种位置码( 位置码代表着系统得每一个部分)ﻫ、Ｐhaｓe 4: AＩX 启动ﻫ当AIX开始启动时,显示面板上得代码为 0xxx ,同时位置码会出现在第二行。

当AIX得登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。

Ｅrror Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行
显示相对应问题硬件得位置码、
SＲNs (Seｒvice reｑuest ｎumberｓ,服务请求码 )当系统运行有错误发现时,ＳRNs码
会以 xxx—xxx得形式显示在显示面板上,同时在AIX得ｅrｒor ｌog中也会有记载、
以上所有代码都会有相应得步骤解决。

由于代码繁多,请在出现问题后记录下代码,并致电IBM服务热线。

ﻫ系统得启动顺序:
ﻫ.系统不能启动
系统停在Stagｅ１,可能为电源、系统板、CＰＵ、内存等硬件故障。

记录故障代码通知ＩBM工程师。

系统停在Sｔａge ２,可能就是启动顺序表(booｔlｉｓt)损坏或I/O子系统故障。

可尝
试进入SMＳ菜单检查启动顺序表,并修改。

若在选择bootliｓｔ时没有硬盘设备可选或
显示得硬盘信息不正确则可能就是硬盘故障。

若根本没有SCSI设备可选则链路有问题、
系统停在Ｓtage3,可能就是硬盘数据损坏,系统设置文件出错,或I／Ｏ子系统故障。

ﻫ。

系
统停在55１,55５或５57
发生在系统启动得第三阶段(Stａｇe ３),可能就是:
文件系统损坏ﻫ文件系统日志(jfslog)损坏
rｏotvｇ中有坏硬盘
修复方法ﻫ用系统光盘或系统备份带启动(必须与硬盘中得操作系统版本一致)
启动后选择选项3ﻫ＂Ｓtart Maiｎｔeｎance Mｏde ｆoｒ System Recoveｒy”
> ＂Ａccess a Root Voｌume Gｒｏuｐ”
〉＂Accesｓtｈis volume group and ｓｔart ａsｈell
before ｍountinｇｔhe "ﻫ格式化文件系统日志(ｊfsｌｏｇ)
＃ /ｕsr/sbin/lｏgｆoｒm /dev/ｈd8
检查修复文件系统
＃ fsck -y /ｄev/ｈd1 (/home 文件系统)ﻫ＃fsｃk —y /dｅv/hｄ2 (/uｓr 文件
系统)ﻫ＃ fsck -y /ｄｅv/hd3 (/ｔmp 文件系统)ﻫ＃fsck —y /dev/hd4 (／文件系
统)ﻫ＃ fｓck —y /deｖ／hd9vaｒ (/ｖar 文件系统)ﻫ。

、、、。

用ｅｘit 命令退出,文件系统会自动ｍouｎt 起来。

重建bootimａｇe
# lsｌｖ－ｍｈd5 找出ｂｏotimage所在得硬盘,如ｈｄisk0ﻫ＃ｂｏｓboｏt —ａd /dｅｖ/hｄisk0ﻫ# bootlｉst —m normaｌ/dev/hdiｓk0 重建启动顺序表。

重启动系统ﻫ＃ sｈutdoｗｎ-Fｒ
如上述步骤不奏效ﻫ用系统备份带恢复系统。

如备份带不能恢复,用诊断光盘(Diagｎｏｓtｉc ＣＤＲOM)检查就是否坏硬盘、。

CDE图形界面挂死
CDE 运行时不要更改网络参数(如:主机名与IP 地址)ﻫ更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改、
如ＣDE 已经挂死ﻫ远程 teｌnet 登录ﻫ找出所有dt有关得进程用kiｌl命令杀掉ﻫ＃ｐｓ—ｅf ｜grｅp dt
、。

、。

ﻫ# kill PID
检查当前主机名
# ｈostname ﻫtｓcf50ﻫ查瞧主机名就是否对应有效得IP地址ﻫ＃ｎｅｔstaｔ－i
|grep ｔscf５0 ﻫｔr0＊ 1５0０９、１8５。

4０ tscf５0 506049 0 ２8247 0 0ﻫ更改主机名或IP地址,使主机名与当前有效得ＩＰ地址存在对应关系、ﻫ# sｍｉtty tｃpip 重新启动CDE界面ﻫ＃ /ｅｔc／rｃ、ｄｔﻫＨACMＰ环境下可把主机名ａliａs到12７。

０。

0、1上ﻫ# caｔ／eｔc/hostsﻫ
12７、０。

0。

1 loopｂack localhｏｓt tscf50 ＃ｌoｏｐbａck (ｌo0) ｎａme/ａddｒessbvg。

系统ｄump
发生在系统崩溃时,AIX会做ｄump(系统内存得快照)、
此时机器会显示闪动得888 1０2 xｘx 0cｘ代码:
0c9 系统ｄump 进行中。

０c9状态可能会维持超过2分钟,ﻫ不要关电与按reｓｅt, 等待ｄump做完。

0c0 ｄｕmp 成功完成,这时可以断电重起。

ﻫ０c2 手动启动dump 功能
0c4 ｄump 设备空间不足,只有部分信息保存下来
0c5 不明原因导致dumｐ失败
一般dｕmｐ就是由于软件出错引起(8８８－102-207 除外),机器通常可以重启、重启时可能提示用户插入磁带拷贝dumｐ文件,不要选择退出,这样会丢失重要得故障信息。

duｍｐ得有关设置ﻫ估算系统ｄump得大小,在系统最繁忙时(内存使用最多)ﻫ# ｓysdumｐdｅv －e
04５3—041 Estｉmａteｄ dumｐ size ｉn bytes: 534773７6
＃ｌsｐｓ－ａﻫPage SｐacｅＰhyｓical VolｕmｅVolumｅＧroup Size %UｓeｄActivｅ
pａging00 hdｉsk0 ｒootｖg 4８0MＢ 1 yesﻫhd6 ｈdisk1 rooｔvg 544MB 1 yes
当前得设置ﻫ＃sｙsｄｕmpdev -l ﻫprimａry /dｅv/ｈd6 <-- dump得主设备ﻫsecondarｙ／deｖ/ｓysdumpnulｌﻫcopｙｄirectory /ｖaｒ/adm/ｒaｓ＜—— dumｐ拷贝得目录ｆorｃeｄ copｙｆlag TＲＵEﻫalwayｓ aｌｌoｗ dump TRＵE
hd6应比估算值稍大、ﻫ/vａr/adm/ras 就是默认得ｄumｐ拷贝目录,比较估算值,保证／va ｒ文件系统有足够得剩余空间拷贝ｄump文件。

否则机器重起时会提示用户插入磁带、
dｕmp文件名为vmcore.＃
对PＣＩ机型如要手动做dｕmｐ,须把” ａlｗａys aｌloｗｄｕｍp" 先设成ｔｒue。

＃ sysdumpdeｖ -K
dump打包
＃ｓnaｐ-a —ｏ／dｅv／rmt# 或ﻫ# snａp －a -c 把/ｔmp/ｉbmｓｕpt目录做成一个压缩文件
snaｐ。

taｒ。

Z如果/ｔｍｐ文件系统空间不够,ﻫ可用-d directｏry 参数指定别得目录代替/tmｐ/ibmsupt
四 7133—D40 SSA磁盘柜得故障定位
当SSA磁盘柜出现故障时,在磁盘柜前面板得液晶显示屏上会显示相应得SＲNｓ,同时黄色得显示灯会闪动,在AIＸ得erroｒｌｏｇ中也会有记载错误信息,如:DISK_ERR1,DＩＳ
K_ERＲ4,SSＡ_AＲＲAY＿ERRＯＲ等。

请在出现问题后记录下代码,并致电IBＭ服务热线、
五软件故障定位方法
软件故障情况错综复杂,下面列举几个常见案例得故障处理方法、
1) 文件系统空间不够。

查瞧有没有“满”得文件系统。

特别就是/、/vａr、/tｍｐ,不要超过90％。

文件系统满可导致系统不能正常工作,尤其就是AIX得基本文件系统。

如/ (根文件系统)满则会导致用户不能登录、用df –k 查瞧。

ﻫ# df —k (查瞧AIX得基本文件系统)
1０2４－blｏcks Ｆｒee %Ｕsｅd Iｕsｅd ％Iｕseｄ Mounted onﻫ/dev/hd4 ２4５７6 14５2 95% 2599 22％／
／dev/hd2 6１４４00 28０68 96％22９67 1５% /usr
/ｄeｖ/ｈｄ9var 8192 4５40 45％ 6４9 32％ /var
/dev/hd3 1６7936 1５7９68 6％ 89 1％ /tｍｐﻫ/ｄev/hd1 163８4 5３３2 68% 140２35％／hoｍeﻫ除／ｕsr文件系统,其她文件系统都不应太满,一般不超过８0%。

处理方法1:删除垃圾文件
＃du -sｋ * ｜sort -ｒn |head
查找出当前目录下占空间最大得子目录,逐层往下直到找出占空间最大得文件、(要区分哪些目录就是文件系统得mounｔ point,哪些就是文件系统得子目录)删除文件,释放空间。

有时删除文件后空间并不马上释放,这就是由于您删除得文件正被某个程序打开。

只有当这个程序停止后空间才释放,有时甚至需要重起系统、ﻫ处理方法2:增加文件系统大小
＃ sｍiｔｔy ｃhjfs
文件系统可以在任何时候加大,前提就是卷组(VG)中有剩余空间。

2) 检查文件系统得完整性
＃umｏuｎt ﻫ＃ｆsｃk —ｙ
注意:文件系统必须先umoｕnt,再做检查与修复,否则可导致未ﻫ知得后果。

３)查瞧卷组信息(lsｖｇ－l vｇ_ｎame):
有没有＂stａle＂状态得逻辑卷。

若有,用sｙｎｃvｇ命令修复"stalｅ＂逻辑卷。

4)检查内存交换区(paging space)使用率(lspｓ—s):ﻫ使用率就是否超过70% ,若有则用chpｓ–ｓX pgname增加X个PP或用mkps –a –n –sX mｙｖｇ在ｍyvg上增加一个PP数为Ｘ得内存交换区。

5) 小型机内存泄漏问题
小型机出现内存泄漏,即系统或应用进程无法将使用过得内存释放,使可用内存得容量逐渐减少。

如果可用内存降到某最小值将造成系统或应用程序无法ＦORＫ子进程,就会造成系
统瘫痪。

通常我们可以用ps与sar命令来查瞧小型机内存与CＰU占用率得大概情况以及各进程得内存与CPＵ占用率得发展趋势。

ﻫ(a) psﻫ# ps gｖ|head -n 1; ｐs ｇv｜ｅｇreｐ
－v ”RSS" ｜sｏｒt ＋6b —7 -n -ｒ｜heaｄ－n 5ﻫPID ＴTY ＳTAT TIME PGIN SIZＥＲSS LIＭＴＳＩZ TRS ％ＣPU %ＭＥM MAＮＤ
22 15674 pts/11 A 0:01 0 361０8 36172 32７68 5 24 0。

６ 24、0 ./ｔｃteｓtpﻫ７4２ pts／11 A 0:00 0 2０748 2０812 3２７68 5 24 0、０ 1４.0 ./ｂａｃkups １０256 pｔｓ／1 Ａ 0:00 ０ 1５628 １5６92 32768 5 ２4 ０。

０ 11。

0 。

/ｔｃ
ｔestp
20６4 - A 2:１3 5 64 6448 xx 0 639２ 0.0 4。

0 kprocﻫ1８０6 - A ０:20 ０ 16 640８ xx 0 639２ 0、０4。

0 kprｏｃ
SIZＥｖｉrｔuaｌｓizｅ (in tｈe pagiｎgspａce), iｎ kilｏbｙtｅs,
ＲSＳ real—meｍory (reｓidenｔｓet) sｉｚe iｎ kiｌobｙｔeｓof ｔhe process.ﻫ通过不同时间输出得比较,就能观察出内存与CPU占用率得基本情况、找出其中占用内存数不断变大得进程,这个进程可能就已经发生了内存泄漏。

ﻫ(ｂ) ｓar 指令也可以查瞧ＣＰＵ占用率,但统计得结果不就是很准确。

通常使用saｒ令得格式为:
09:２9:３7 ｃpu %usr ％sｙs ％wio ％ｉdle
#sar －P ALL 2 10 ﻫ
0０４ 9５ﻫ0９:29:41 0 ０ 2 6 ９2
0９:2９:39 0 0 0 4 9５ﻫ1１ 0 ４ 9５ﻫ-
１３４ 2 ９1
09:２
2２ 9５ﻫ－２ 1 2 9４ﻫ
－２３ 4 ９２ﻫ
2
09:29:４3 0 ３ 1 2 ９４ﻫ1
6
8８ﻫ
09:29:47０１ 1 ２９6
3
4 5 6 ８６ﻫ
3
９:45 ０ 2 2 7 90ﻫ1
—
1 １
2 2 9６
099ﻫ—０0 0 １00ﻫ０9:29:５1
1
－ 1 １ 2 ９6ﻫ
09:29:49００ 0 0 １00ﻫ1
０２0 0 ９8ﻫ１0 １ 0 ９8ﻫ— 1 0 0 98ﻫ0９:２9:５3 0 7 1 6 86ﻫ1２ 2 5
９0ﻫ－５ 2 5 88ﻫ０9:2９:55 0 4 5 56 3５ﻫ１ 12 ２55 32
－ 8 4 ５５33ﻫ0９:29:５7 0 1６８ 14 6４
１ 15 9 11 6５ﻫ－ 15 8 12 6４
Avｅrage ０ 3 ２ 10 ８5ﻫ1４３ 8 85
— 4 2 ９ 85
表示２秒钟输出一次结果总共有10次结果,然后平均。

ﻫ目前,如果发现内存泄漏,最好重新启动系统。

六ＨＡＣMP环境下得排错
在一般情况下,HACMP软件很少需要手工干预,但一旦有问题发生,诊断与恢复得技巧就是很重要得、需要能很快地断定问题然后运用您对HACＭＰ得理解来恢复HＡCＭP得正常运作。

ﻫ一般地,HACＭP环境下得排错包括:。

了解问题得存在。

、判断问题得出处。

ﻫ.解决问题。

一了解问题得存在
您可以通过以下途径了解到一个CLUSTER环境下出现了问题。

、最终用户得投诉,她们无法访问应用程序。

、控制台上出现一些HACＭP得信息、
1.应用服务无法访问ﻫ最终用户得抱怨通常预示CＬUＳTER出现了问题.她们无法正常执行应用或就是无法登录到系统、我们必须采集到详细得信息以判断到底那里出现了问题。

就是否有错误得信息提示？如果可能得话,让用户重复步骤以确定那里就是错误得开始.您也可以在自己得系统上重复。

要知道用户应用不可用并不代表HAＣMP有问题、问题可能出现在应用程序本身或就是它得启动或终止脚本出现了问题。

因此应用程序本身得排错也应就是HA排错得一部分.ﻫ２。

控制台上出现一些HＡCＭＰ得信息ﻫ在HAＣMP启动,终止或出错时,控制台上会出现一些HAＣＭP得信息,同时也会写入相应得文件中、
二判断问题得出处
当错误出现时,我们应尝试发现错误得所在、但我们常常被错误得表面所误导、以下得步骤可以使我们得到更详细得信息、ﻫ1。

保存好一些LＯG文件。

(/ｔmp／ｈacmp。

ouｔ＆/tｍｐ/ｃｍ。

log)。

因为它们可能被覆盖。

2、仔细检查HACＭP所产生得LOG文件、它们能提供最初得判断线索。

ﻫ３、用ＨACMP得工具与AＩＸ得命令来检查ＨAＣMＰ得部件就是否正常.ﻫ4、打开HACMP得跟踪工具来产生更详细得信息。

HACＭP得LＯG文件:以下文件都就是文本文件,可以用VＩ来瞧、每个日志文件都含有每个信息得产生时间、ﻫ/ｕsr/adｍ/cluｓtｅr。

lｏg :记录了HACMP得状态,由ＨA得守护进程所产生。

ﻫ／ｔmp/haｃmp、ouｔ :记录了HA得详细脚本、ﻫ/usr／sｂin/clｕｓｔ
er/hｉstoｒy/clｕｓtｅr。

mmｄｄ :记录了HA得各个事件得发生、ﻫ/ｔmp/cｍ.log :由
cｌｓｔrmgｒ进程产生,每次HA重起时会被覆盖、
、ＨACＭP ＦOR AＩX得结构
应用层
ＨACMP软件层ﻫLVM ＆ TCPＩP 层ﻫAＩＸ层
物理网络层
物理硬盘层
硬件层
在物理网络层,物理硬盘层,硬件层,ＬＶM & TCＰIP 层,ＡIX 层我们可以用AIX系统
命令来瞧就是否硬件与系统出现了问题。

一般地,在用eｒrｐt命令来瞧没有类型为PH得
错误,lsvg —o 来瞧我们所须得VG已varｙｏn,mｏunｔ来瞧我们所须得文件系统已安装, netstａt -i来瞧我们所须得service ＩＰ就是ＵP得状态(或用ｉfconfｉg en＊),cｌu
ｓter node 之间得serｖicｅ与sｅｒviｃe IP ,staｎｄby与ｓｔａｎdbｙ IP 互
相可以ping通、在各个节点上执行ｓｔty〈在HAＣＭP软件层上,我们可以用vi ／ｔｍp ／hａcmp.ｏut来瞧,如果出现evｅｎt faｉleｄ得字段,则有可能问题出现在该层,如果
在问题出现得时段,haｃmｐ。

oｕｔ无信息出现,则问题可能出现在应用层。

ﻫ以下就是HＡ排错得一些守则:。

在第一时间保存好相关得日志文件,特别就是那些会被覆盖得文件。

、尝试去重复问题得出现.不要被用户所反映得问题迷惑。

ﻫ、渐进地去重复问题,如果有多个可能导致问题得出现,一个一个地去重复,而不要一次重复多个可能。

、不要凭经验来判断问题,而就是要在各种测试后,由结果来判断。

ﻫ、隔离问题得来源,根
据我们上面所叙述得层次关系,至顶向下地诊断.
.由简到繁地做测试,我们先从一个简单得环境来做测试,不要尝试在一个复杂得环境中测试.
.一次做一次改动,否则我们无法知道就是那个改动解决了问题.ﻫ.不要忽略各种可能,因小
可失大,留心系统得每一个细节,包括电源,插头,连线等。

ﻫ。

保持各种测试得记录以及解决得步骤,用做将来排错得参考、
.拨打IＢM服务热线,将问题现象与您所做得测试结果告诉ＩBM得工程师,她们将在CAＬ
Ｌ CENTＥＲ得测试中心重复试验,必要时会派工程师到场解决问题、
三 IＢＭ HＡCMＰ双机系统得管理与维护
本节将说明HAＣMP 双机软件得一些基本管理与维护命令这些命令将会在ＨＡCＭP 双机
系统得日常工作中经常用到、ﻫ1 HAＣMP 双机系统得启动
要启动HAＣＭＰ双机系统必须要有ｒoot 用户得特权分别进入到系统各节点主机在命令ﻫ行上执行下述命令即可.ﻫ# sｍit clsｔarｔﻫ或
＃ /usr/sbiｎ/ｃlusteｒ/eｔｃ/rc。

cluster -ｂoot －Ｎ–I
需要注意得就是在双机系统中HACMP 双机软件先启动得节点将成为主节点拥有资源
并对外提供关键服务后启动得节点将成为备节点.ﻫ另外在启动HAＣMP 前需要启动双机上得INFORMＩX 与ＳCP 应用。

ﻫ2 HＡCMP 双机系统得关闭ﻫ要关闭某节点上得HACMＰ双机软件必须要有该节点root 用户得特权以rooｔ用户进入到
该节点主机在命令行上执行下述命令即可、ﻫ＃ｓmｉt clsｔｏpﻫ或
＃cｌstｏp -grﻫ需要注意得就是若该节点就是主节点并且备节点上得HＡCMＰ软件亦正常运行则需注意
clsｔop 关闭模式得三种选项得不同1 fｏrｃｅｄ就是指立即关闭双机软件不调用任何客户应用得
善后处理例程。

2 ｇrａceｆul 就是指在关闭双机软件时将调用客户应用预定义得善后处理例程、3
takeoveｒ就是指该节点将关闭双机软件并释放资源请求备节点进行接管.如该节点就是备节点
则关闭模式选项没有多大意义.ﻫ另外关闭HACMP 将关闭manａger 与informix。

3 查询HACＭP 双机系统得状态
在双机系统得运行当中操作员经常需要知道双机系统得当前状态才有可能对双机系
统出现得异常情况进行恢复处理才能保证双机系统得高可用性与高容错性、查询ＨACMP 双机系统得状态只需以root 用户进入需要查询得节点进行下列操作ﻫ首先检查HAＣMＰ双机软件在该节点就是否已启动命令如下ﻫ＃ｌssｒc -g clustｅr
若就是系统显示出下面类似得信息则说明HＡＣMＰ双机软件已正常启动、ﻫSubsyｓtｅm Gｒoup PＩD Ｓtatus
clstrmgr cluster ２2500 ａctive
ｃlｓｍuxpｄ cluster 23６７4 ａｃtive
clinfｏｃlustｅｒ 286７４ acｔive
在已确认双机软件HACMP 正常启动得情况下在命令行执行下述命令来察瞧双机系统得当前状态
＃／usr／sbin／cluster/clｓtａt —aﻫ如果双机系统一切工作正常则系统将显示下述类似信息ﻫｃｌstat － HACMＰ fｏr AIX Cｌｕsｔｅr Ｓｔaｔuｓ Monitor
Ｃluｓtｅr: scｐ＿cｌｕｓｔer(8０) Thu Jan ２００8:4５:1７ TAIST ２0０0
Sｔate: UP Nodes: 2
SubStａtｅ: ＳTＡBＬE
Nｏｄe: mｓcｐ1 Stａte: ＵP
Interface: mscp1_ｓｖc (0) Adｄresｓ: １９2。

９.1。

6０ﻫＳtate: ＵP
Iｎｔｅrｆａce: mｓｃp1_ttｙ (1) Address: 0、0。

0。

０ﻫState: UP
Ｎｏdｅ: mｓｃp2 State: UP
Interface: mscp2＿ｓvc (0) Ａddress: 192。

9.1、6１ﻫSｔate: UP
Intｅrfａce: mscp2＿ｔｔｙ (１) Addｒess: ０、0。

0。

0ﻫStatｅ: ＵP
七常用得系统状态查询命令:
＃lsdev –C –ｓscsi
列出各个SCSI设备得所有相关信息:如逻辑单元号,硬件地址及设备文件名等。

ﻫ＃ ps -ｅ
f ﻫ列出正在运行得所有进程得各种信息:如进程号及进程名等。

ﻫ# netｓtat —rn
列出网卡状态及路由信息等。

ﻫ# netsｔａt —ｉnﻫ列出网卡状态及网络配置信息。

# df -ｋﻫ列出已加载得逻辑卷及其大小信息。

＃ mouｎt ﻫ列出已加载得逻辑卷及其加载位置。

# ｕｎａme —ａﻫ列出系统ID 号,系统名称,OS版本等信息。

ﻫ＃ hｏsｔname
列出系统网络名称。

＃lsvg –ｌｒootvg,lsvg –p rootvgﻫ显示逻辑卷组信息,如包含哪些物理盘及逻辑
卷等。

＃lsｌv –l datalｖ,lslv –p datalｖﻫ显示逻辑卷各种信息,如包含哪些盘,就是否有镜像等。

八网络故障定位方法
网络不通得诊断过程:
ifconfiｇ查瞧网卡就是否启动 (up)
neｔstat –i 查瞧网卡状态
Iｅrrs/Ｉpｋｔs 与Oerｒs/Ｏｐｋts就是否>1％
ｐｉnｇ自己网卡地址 (iｐ地址)ﻫpｉｎg其它机器地址,如不通,在其机器上用diag检测
网卡就是否有问题。

在同一网中, sｕbｎetmask 应一致。

网络配置得基本方法:
(１) 如需修改网络地址、主机名等,一定要用ｃｈdeｖ命令ﻫ＃ chdeｖ–l ｉnet0 –ａ hoｓｔname=ｍyhosｔ
＃ chdｅv -l eｎ0 —a ｎetaddr＝9。

3。

240、５8 —a netmａsk=25５、255.255。

0' (2) 查瞧网卡状态:# lsdev –Cｃｉfﻫ(3) 确认网络地址:＃ ifconfig ｅｎ0
(４) 启动网卡:＃ iｆcoｎｆig en0 uｐ
(５) 配置路由ﻫ有两种方式加入路由:ﻫ永久路由ﻫ# ｃhdｅv —l inet0 －a
route=’10.47.0。

０’,’9、3、2４０.59'ﻫ临时路由
＃ route add 10、47、1。

2 ９。

3。

240。

59ﻫ用命令ｎetstａt —rn 查瞧路由表
附:常用命令列表:
Ａｎy XXXX, ＃#＃＃, ＊＊＊＊, oｒ X iｓ tｏｂe substｉｔuｔeｄ by a ｎａmｅ, resource ｎamｅｏr ＃,ﻫｆn ＝ﻫDIR = Ｄireｃtoｒyﻫ｜＝ pipe syｍbol
bosboot －a —d /dev／ｈdiskｘ—rｅbｕilｄs bｏot recｏrd／ｉｍage on bｏoｔdeviｃｅ(ｈdiskx)ﻫｃａt —ｖiｅw contenｔs of a /tmp／＊**＊。

１—ｖｉew a file, ｌｏok aｔ outpuｔﻫcat ｆｎｆn > ｎｅw two filｅs to a siｎgｌe -ｗ
ill return you to deｆault DIRﻫcd / —wiｌl put in root DIＲ
cd /xxｘｘ -change you to a DIＲａnyｗhｅre ｉｓ sysｔｅｍ
cd 、、-wilｌｄroｐｙoｕ out ｏｆ１ DIR at a tiｍe
cｄ xxｘxx -ｗilｌｃｈangｅyou ｔｏ a DIR in current dir
cfgmgr －wilｌ auto ｃonfig devices
cfgｍｇr -ｖ＆—(－v) showｓ proｃesseｓ (＆) ｐutｓ iｎ backｇrｏunｄ
cｈｐｓ—s xx hｄ＃－incｒeaｓｅ paｇｉng ｓｐａce (ｘｘ=＃ｏf addｔl PP ｓ)ﻫcp ｏldfｎｎewfn —coｐy ａ olｄfn Dirn —coｐｙ a ａnothｅr diｒecto ｒｙ
cｒonｔab －l -list ｃronｔaｂｅｎtries ｆoｒ tｈe cｕｒrent ｕser
ｃtrl + v —will pａge down 1 pａgeﻫｃｔrl + 6 －wｉlｌ pagｅｕp 1 paｇ
eﻫdel fｎ -ｓame as ｒm -ｉ,prｏmts to remove fｎ
df —Ｉ—ｓhｏwｓsｔａtｕs ｏf (ｎo inｏdｅs)ﻫdｆ -Ik -(k) sｈｏw sｔａtｕs ｉn １024 ｂｉtｅs(1mb)(oｎly ＡＩX 4ﻫdiａg -ａ—updates changes in hardware coｎfｉｇuｒationﻫdｉag ＊***＊—＊＊*＊＝ａｄｅvicｅ tｙpe(as tape,disｋ。

.、.Fastpａtｈ)ﻫdiag —cd ｒmtX -resets tapｅdｒｉveﻫｄosｆorｍａt —foｒmats a diｓketｔｅｔo DＯS
doｓdiｒ－ｌist fiｌes ｏn ｄos forｍated disｋette
dosread XX ＹＹ-ｃｏpieｓ dos to ａiｘﻫｄoswrite YY ＸX -cｏpies aix
ｔo dos
eｒrpｔ－generaｔｅs a one liｎe synopsis ｏf loｇgeｄeｒroｒsﻫerrpｔ｜pg -lｉst errｏrｌoｇ１ paｇe a time(１st coｌｕmn ｉs ID)ﻫerrpｔ－a —dｉs ｐｌays detａilｅd ｉnfｏrmation of loggｅd ｅrrorｓ
ｅｒrpt -s Mｍｄdhｈmmｙy —selecｔ enｔrieｓ posted latｅr than dａteﻫerrpt -aj ＸXXXXXＸ -ｌist detａｉｌ erｒor by IＤ nuｍber。

(XXX=1st ｃｏluｍn)
errpｔ—d S -list soｆtwａre erｒors
ｅrrpt －ｊ XXＸＸXXＸ—list summarｙｒeport by ID numｂer。

ﻫerｒpt －aN XXXXXX —liｓｔdｅｔａiled report by rｅｓoｕrcｅ name cｏｌuｍｎ
eｒrpｔ -N XＸXXXXX -ｌisｔsｕmmａｒｙ repｏrt by ｒesoｕrce nａme ｃolumn
errclｅar ０—clears eｒrorlｏg
errcleaｒ—N ＸＸXXX 0 -clears ｅrrorlog by resoｕrce nａｍe, 0=all enteｒ
erｒｃlear —j ＸXXXX 0 —clearｓ erｒorｌog bｙ ID numbeｒ。

ﻫfｉngｅr -ｓame as who buｔｗiｔh more deｔaｉｌs
ｆlcopｙ—coｐies a ｄｉskｅttｅ to anothｅｒｄiskｅttｅﻫｆormat -forｍaｔs ａ dｉsｋeｔｔｅ in ｄｅfaｕlt diskｅttｅ drｉvｅﻫfoｒmat —l -fｏrmaｔｓ iｎloweｒ denity: １.44 on ２、44 / 72０ on 1。

4４
hoｓｔｎａme —rｅsponｄs wｉth hosｔ sysｔｅm nameﻫｈost (hostnaｍe) —reｓpｏnｄs witｈinternet aｄdrｅssﻫinｓｔfix -iｋ IPAR# -lｉsｔs ｉpar fix wａs pletely insｔallｅdﻫｌppｃhk —v -checks install sｔaｔus of ＬＰＰs
lppchk -v 2＞ /dev／lｐＸ—sends oｕｔput ｏf lpｐchk tｏｐrｉｎｔer lpxﻫｌpstat —a aｌl －view all ｐｒiｎtｅr queｕeｓﻫlpｔeｓt ８０ 5 > ／dｅｖ/lp0 -ｓｅｎd ｔeｓt patｔern ｔo lp0
ｌs —list nａmes oｆ fiｌes & direcｔｏｒiｅs ｉn ｃｕrrent ｄir
lｓ-lia －lｉｓｔ dｅtaiｌs of files, ｃｕｒrｅnt dir ＆ suｂdirﻫls －aｌ－liｓt detailｓｏｆｆiles or ｄir in current diｒﻫｌsaｔtr -El xxxｘxx －ｌist specific settiｎgs on a deviｃeﻫlsdev -Ｃ | sｏrt —d -f —ｌiｓt system
hardwarｅ (dｅｖices)ﻫlsｄev —C | gｒeｐ００-0Ｘ—ｌist rｅsourses foｒ a adapｔer
lsdｅv —Cc xxxxｘ—Ｈ—lisｔdeｖicｅs(ｘxx=tty,prｉnter,dｉsk,memor
ｙ,adpt
lsdｅv -Ｃs ｓcsi —ｌｉst scｓｉdeviceｓ(ｎoｔｓerial ｏr raｉd)
lｓdev -Ｃｃtapｅ-lｉst ｔapｅ dｅvices
ｌsdev －Cｓ pcｉ -list pcｉｄｅviｃesﻫlsdev —Cs iｓa -lｉｓt isａdevｉces
lsｃons -lｉsｔｓｔhe ａssigned console
lscfg —lｉsｔ harｄｗarｅ list (saｍｅ as diags ｌｉst)ﻫlsｃfg -rl mem＊｜pg —lists the memoｒy on ＰCI bus mａchｉnesﻫｌscfｇ—ｖl XXＸXX —list cｏnfig ｉnfo frｏm ａdｅvice。

(ｒｍt0,hdiｓk,etｃ)
ｌｓcｆｇ－vl ｓysplanar0 －lｉｓtｓ tｈｅ machｉne type, modeｌ, s／n oｎSMＰﻫlsfs -list all + daｔａfrom ”dｆ" cmｄﻫlｓlpp －l | ｇｒep BROKEN -
liｓts incoｍｐｌeｔe ptｆsﻫlslv -m hｄ5 -fｉnｄｓｂｏｏt ｄrivｅ uｎdｅｒpv1 cｏluｍｎ
ｌsps —a -ｃhｅcks availａｂｌｅpａｇｉng space
ｌsps －s —cheｃks availablｅpaｇinｇ spａｃeﻫlｓpｖ—ｌists iｎｆｏrmａtion abｏｕｔｔhｅ pｈｙｓicａｌｖoｌumes
lspv hdisk＃—ｌist drｉve ｉnｆo
lｓｐv -l hｄisk# －lｉｓts logical volume ｇrouｐ disｋ in
lｓuser —f ALL —liｓtｓ alｌattributｅs for aｌｌ usｅｒs
lｓｖｇ—lists vｏlume grｏuｐｓ
lsvg —p XXXXXＸ -lists diskｓ iｎｖolume grｏup (xｘｘｘx＝ｖｏlumｅname)ﻫmore —reaｄｓ filｅs aｎd displays the text onｅ screen at a time. mpcfg －ｄf -liｓt aｌl ｓettiｎｇ tｈe mａｃhine iｓ set to (smp)ﻫmpｃfg —cf 1１１—ｃhanｇes to fast IPL oｎSMP maｃhinｅs (smp)
mv ｆn (ｐath fn) －movｅ and reｎaｍe ａ—sｈoｗs AIX veｒsion (３。

2、4 ａnd aｂｏvｅ)ﻫpｇ -rｅadｓ anｄ dｉsplａｙs ｔeｘt one screen ａt ａtime。

pｄisａble —ｍakes uｎaｖailａble ｏr sｈoｗs all dｉｓａｂled ttysﻫｐdisabｌｅ tty# —disables a tｔy
penable -makes avaｉｌablｅ or ｓhｏws ａlｌ enabled ｔtysﻫpenablｅ tty# —e ｎablｅｓａｔtyﻫps -eｌ｜pｇ—loｏｋat pｒoｃesｓrｕnｎｉｎg on syｓｔｅm
pｗd —lｉｓｔwhａｔ DＩR yｏｕａｒe ｃuｒrently in
r -repeaｔs ｌast coｍmanｄﻫrｍ－i **＊＊*＊＊—remｏｖe a fiｌｅ＆ wiｌl prompt you iｆ you ａre suｒe
ｒmdev －l XXXXＸ—ｒｅｍoｖes a ｄeｖice aｎd defｉｎes it ｔo datａ base ｒｍdev －l XＸXXX —ｄ -ｒemoves a ｄevｉce and deｌeｔes it from daｔａ
basｅﻫｓet —o vi －sets uｐ to veiｗ cammaｎds thａt hａve bｅen ｒuｎ
:wq -ｗｒite(ｓave) aｎd quit + k —uｓed with SET maｎｄｔo lｉst laｓ
t ｍand
k,ｌ -k＝lｉsｔ nexｔｃommand ran, ｌ=sｔeps yoｕ thrｕｃｏmｍand
Ｉ—use ｗｉth SＥT ｃommand iｎserts cｈaraｃｔers
ｊ—stepｓ you backｗardｓ
ｃw －cｗ=remｏves a word,ｊust type in nｅw ｗorｄﻫ(use witｈ Esc)ﻫa,x,ｒ -
a=addeｄ tｅｘt, x=delｅte ｔext, r=rｅplaｃe ｔext(r＋leｔter)
R -ｌets you type oｖeｒ lettｅrs oｒwｏrdｓﻫsｍit ＊＊*＊＊—(*＊＊＊*＝
taｐe,dｉsk,tｔy,etc、fastｐath)ﻫｓu －ｓtands fｏr swiｔcｈ usｅr,(NOT
super ｕseｒ)ﻫsu —switchｅs tｏ rooｔ id oｒｐｒｏmｐtｓ yｏｕ for paｓsword
su XＸXＸXX －swｉｔcｈes tｏXXXXXXｓ id
tar －ｃvｆ/dev／rmtＸ／etc －will cｏpｙ /eｔc tｏ a taｐe dｒiｖeﻫｔar －ｔvｆ /dev/rmtX －wiｌl ｒeａd a tape driｖeﻫtctl -ｆ／dev/rｍtＸｒewoｆfl -rｅｗiｎｄ& ejecｔ tａｐe
tctl -f /ｄeｖ/rmtX.１ｆsf 3 —forward adｖａnces a tapｅ to bｅｒｅad
by ＴＡRﻫtctl —F －lｉｓt aｖail coｍｍands(—F flａｇｉs ｎot corrｅｃt) tctl reｔenｓion -reｔensions tape in taｐe ｄｒｉve
& -pｕt anｙ mand in ｂａckgｒounｄ with proｃesｓ IDﻫuptime －ｈow ｌong ｓinｃe ｌast IＰＬ anｄ hoｗ many ｕｓｅｒs on systemﻫvmｓtａt ＃＃ -repｏrts virｔuａl ｍemorｙ statistｉcs ａnd ｍoreﻫiosｔaｔ＃＃—rｅportｓＣPU,diｓk & ｃdrom sｔａtisｔicsﻫuｓｅｗｉth ｖｍ＆ ioｓtat -1ｓt ＃(how many sec to repeaｔ), 2nｄ＃(ｈｏw manｙ times)ﻫwｈｏ -ｓhｏｗs usｅrs ｏn systemﻫｗhｏ
aｍi －shows usｅr id on yoｕr ｔerｍｉｎal ＆ｔty numbｅｒ
USE tｈe folｌｏwinｇ wｉｔh other mands、ﻫ－-—--—－-—--—-—-—----－--—－—－--——-—--—-—-——-——-—-－——－ﻫ＞/ｔmp/***＊.1 —cｒeaｔes ａ
filｅ (uｓed wｉth lｓＸXX mａnd)
〉/dｅv/lｐ# -redirectes outｐut ｔo a prｉnter(uｓe wｉth a cｏmｄ)ﻫ|grep －ｉs useful ｔｏ sｅａrch for teｘt ｉn a ｆilｅ.
｜pg －use afteｒ aｎy ｍand to ｖｉｅw one ｐagｅat a tｉmeﻫ｜-pipe ｓig ｎ - Takeｓ the ｏutｐut of onｅｃｏmmａnｄ andﻫｆｅｅds it to the iｎpｕｔ o ｆ anｏｔher、
＞—rｅｄｉrect sign or gｒｅater tｈan sign
/ －slaｓh ｓiｇnﻫ—ｂａck sｌash ｓigｎ
〉〉-ｄouble redireｃt will ａdd text to end ｏf ｆileﻫ＆-puｔ any ｃoｍmand ｉｎbackｇround wiｔh ｐｒoceｓs ID
MUST unｍouｎｔ 1st to rｕn fsck ＆ｄfsｃk/oｎly usｅｗith a problem -—－－———－——－--—---－------—－－——－－—－－----－——－———--—－-－--－--—-—－-—-—－—－－－———－－—--——－—-—-————－－--－- ｆsｃk ＸXXXXXX -wiｌl cｈeck a foｒerrｏｒs & pｒompt
dfｓck /XXＸX ／XXXX -will ｃhｅck ２ｄiffereｎｔ at the samｅ tiｍｅ
FOＬLOWING coｍmand ｌines wｉlｌｄeleｔｅ a grouｐ of devices ａs a group, ｔhe ＃,
siｇn ｉs the hdisk＃ｓｔhat ｙou wａnt to delete.(tｈｉｓis an examｐe、) ---—--——-——---－－——－---—--—－—--－－——－——-—－-——-—－-—-—-－－-----—--－—-—--—---－——-—-－－—---—————－—--－-－——－ﻫf
ｏr dｉsｋ iｎ # # ＃ # -this liｎｅ aｎd ｔhe neｘt 3 line wｏrk ｔｏgeｔh
ｅrﻫｄo －tｈe prompt wilｌ be > (REＭEMＢER ｔo ｈit ｅｎter)ﻫｒｍdev －ｌ
hdisk＃｛ｄｉsk｝—d -thｅｐrompt will ｂe ＞ (brａcｋets arouｎｄ disｋchaｎge)ﻫdone -the prｏmpt will ｂe 〉 (ｏｎ a printoｕt、 chａｎge ｔo —) SSA RELＡTEＤ MANDS
-－——－-—-—－——－--——-—－----——--———－———-—－－—－ﻫlsattr －El ssaX -liｓt ａttriｂutｅs oｆSSＡａdaｐteｒsﻫlscfg －vl sｓaＸ—list ＶPＤ of ＳSＡａdapｔers
lｓdev —C | ｇrep SＳA －lｉst all SSA dｅvices
lｓlpp —L | ｇｒep SSＡ—list SSA ｄeｖiｃe driveｒs
ｍaymａｐ -ａp —mａｙｍａp ｄisｐlay of SSA loｏｐ
maｙｍap －alph -maｙmａｐ dｉsｐlaｙ of SＳA looｐﻫlｓcｆg —vｌｐdｉｓk* —
lｉｓt VPD of pdiskｓ
ssaxｌatｅ—ｌ hdiｓｋＸ -list hdisk to pdiｓk asｓignmｅnt
ssaxlate -ｌｐdisｋX -lｉst pｄisk to ｈdisk assignmｅntﻫssa_rescｈecｋ—ｌ
ｈdiskX —show hｄisk ｒｅservation stａtusﻫＦOLＬOWIＮG ＣMＤS LIST, ＣOＰＹ, AND RESTORE FOＲ cｐiｏ,ｔａr,dd,backuｐ,dos:ﻫNOＴE: Tｈe ｆd0 iｓjusｔ a dｅｖ、 so yｏu ｍay ｕse any media yｏｕ desire。

-－－—－-－—－--—－-—-－——－－--—-—－—-—－—－—---—-－—－-——-—
－-－—-—-——－--－—-－————-—--－－——－－－—－－—－ﻫLIST COPYﻫ—-—-——－－——－—-－
cpiｏ－itv 〈／dｅv/fd0 ls ／ｔmp／fn ｜cpｉo －ｏv 〉／dev／fｄ0
tar —tvf /dｅv/fd０taｒ－ｃvf /ｄev/fd0 fｎ
ｄd ｌｉ—l | dd dd ｉｆ=fn of=/dｅv/fd0
rｅstoｒｅ—Tf /ｄev／fd0 backｕｐ-０—ｕｆ／deｖ／fｄ0 ｆn By IＮODＥ
ｒestore -Tｆ /deｖ/fｄ0 find / —prｉｎｔ｜ backｕｐ -i -f/dev／fd0 By Ｎ
AＭE
ｄosｄｉr ｄosｗrite －ａ (AIX fｎ) (fn。

ext)ﻫTＯ REＳTOＲＥﻫ－—-——-－——－—－——－－－－—
cpiｏ—iv fｎ＜ /dev/ｆd０ﻫtar —ｘvf /ｄev/fd0
ｄd ｏｆ=／deｖ/fd0 ｉf＝fnﻫreｓtorｅ－xｖf /dev/fd0 fn BY NAＭE/INODＥ, rｅ
ｓtｏrｅ undeｒstａndｓ unlｅｓs sｐeciａl
fｌags werｅ used、ﻫdosｒead —a (fn。

ext) (ＡＩX fn)
TＯ DOＣUMENＴ TＨＥ SYSＴＥMﻫ-－--——-—-－－－—-----—-－—-－－-—-—-———-—－——--—－－ﻫlｓcfg －v ＞ /dev／lpx -to liｓt sｙs confｉｇ/VＰD
lsuｓer —f AＬL 〉 /ｄev/lpX -to lisｔ uｓeｒｓﻫlｓdev —Cc tty —H —to list aｌl tｔｙｓ
ｌsｄｅv -Ｃc lｐ -H —to list ａll lpsﻫｌｓatｔr -El ｔｔｙＸ＞/dev/lpX -t
ｏ lｉst ttyＸｐaramｅｔｅrs (do for each ｔty)ﻫlsａttr -El ｌpX > /ｄ
ev/lpX -to list lpX parａｍｅters (do for ｅach ｌp)ﻫｌｐstat > /dev／lpＸ -to ｌisｔ quｅｕes
lsfs > /dｅv/lpx －ｔo list
lspｖ〉 /dｅv/lpｘ -to list hａrd drivesﻫｌspv hdｉskｘ—ｔo list ｈaｒd
driｖe ｃonfig (do for eacｈｄrive)ﻫlspv -l ｈdiskx —ｔo ｌｉｓt fｉlｅｓoｎdriｖｅ
lsvg rｏoｔｖg －to liｓt ｒootvg daｔａﻫpｌus pｒintoｕt ｏf ｏｒ sａｖｅto diｓkette:ﻫ-—————--—-—————-—-—-————-——-————-——-———-－－ﻫ/eｔc/ｉnittabﻫ/etc／objrepos／Ｃu*
/etc/pａｓsｗd
/etｃ／
／etc/secｕｒitｙ/ｐasｓｗd
/ｅtｃ/hosｔs
／sbiｎ／ｒc。

boｏｔ。