AIX维护手册
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
日常简易维护与报修指南
目录
一、系统命令2
二、备份与恢复5
三、AIX安全11
四、错误日志查看12
五、Performance Tools15
一、系统命令
检查系统状态:
➢系统整体:prtconf
➢文件系统:df –k,df -g
设备:lsdev –C 获取设备名称、状态、位置和描述.
例:
查看硬盘:lsdev –Cc disk
查看磁带机:lsdev –Cc tape
查看适配卡: lsdev –Cc adapter
处理器个数lsdev –C|grep proc
系统配置lscfg –vp 获取所有已配置硬件设备的详细信息。
例:
查看硬盘信息: lscfg –vl hdiskx x表示数字
查看网卡信息:lscfg –vl entx x表示数字
查看磁带机: lscfg –vl rmtx x表示数字
查看硬件属性:lsattr –El 获取已配置设备的属性信息。
例:
查看硬盘属性:lsattr –El hdiskx x表示数字
查看网卡属性: lsattr –El entx x表示数字
查看磁带机属性: lsattr –El rmtx x表示数字
内存大小:lsattr –El mem0
➢磁盘lspv
➢交换分区lsps –a
➢软件lslpp –l 文件包名字
➢用户who
关机命令:
–shutdown
一分钟后关机
–shutdown +2
二分钟后关机
–shutdown –Fr
关机重启(-r)
关机命令调用/etc/rc.shutdown关闭程序可以在这个文件里加上你自己的脚本
其它基本命令
# passwd
passwd: -输入旧口令
new passwd:—输入新口令
re-enter new passwd:-重新输入新
•mkdir/rm/mv/cd -用于创建目录/删除文件或目录/更改文件或目录名/进入某一目录
•ls 显示目录中的内容(文件名)
#ls –a列出当前目录中的所有文件
#ls –l显示文件的详细信息
•ps / kill 显示后台进程的有关信息或杀死后台进程
#kill —9 253432
•find 在一个/多个目录中查找符合条件的文件
#find –name ‘t*’ —print•head/tail 显示文件头/尾声的内容
#tail +200 filename•who/finger 列出系统注册/已登录的用户
#who am I
#finger user2
光驱cdrom•加载cdrom
•使用:mount -rv cdrfs /dev/cd0 /cdrom
–或者创建一个CD-ROM文件系统并进行加载
•smit cdrf s
•mount /cdrom
•卸载cdrom
– unmount /cdrom
二、备份与恢复
rootvg备份—mksysb●只备份rootvg
●只备份已挂接的文件系统
●以备份格式创建可启动磁带
●保存rootvg中的换页空间设备定义
●保存逻辑卷策略
●备份时应使活动的用户和应用减至最少
注:mksysb创建操作系统备份,如果rootvg中有用户创建的文件系统,只要它已挂接,也被备份,用户创建的不含文件系统的逻辑卷内容及定义不备份。
mksysb创建的备份磁带是可启动的,并可以进行BOS安装。
从磁带恢复rootvg备份时,所有文件系统被恢复,启动逻辑卷自动创建,文件系统日志设备按照默认大小(一个逻辑分区)创建,根据保存的换页空间设置生成同样大小的换页空间设备。
用户可以用一个系统上生成的rootvg备份恢复到另一系统上,前提是两个系统的结构相同,总线结构不同(MCA和PCI)或SMP(支持多CPU)与非SMP (只支持一个CPU)的系统间不能进行上述操作。
#smit mksysb
•Creation of a MAP file:是否为卷组中每个要备份的逻辑卷生成逻辑分区到物理分区的映像文件。
这个映像文件可以使恢复时逻辑卷策略和逻辑分区到物理分区的映射关系保持相同。
建议创建。
•EXCLUDE files:如果选择yes,将使得文件/etc/exclude。
rootvg文件中列出的文件和目录不被备份.
•Make BOOTA BLE backup:是否生成可启动备份,一般取默认值-—yes. •EXPAND /tmp if needed:是否在需要时自动扩展/tmp文件系统.强烈建议选yes。
•Number of BLOCKS to write in a single output:选择每次写出的数据量,以512字节块为单位.
非rootvg的卷组备份
# smit savevg
恢复rootvg备份●依照从磁带安装操作系统的步骤用mksysb磁带启动
Welcome to Base Operting System
Installation &Maintenance
1 Start Install Now With Default Settings
2 Change/Show Installation Settings and Install
〉〉> 3 Start Maintenance Mode for System Recovery
Maintenance
1 Access A Root Volume Group
2 Copy a System Dump to Removable Media
3 Access Advanced Maintenance Functions
>〉> 4 Install from a System Backup
Choose Tape Drive
Tape Drive Path Name >〉> 1 tape/scsi/4mm/12GB /dev/rmt0 恢复非rootvg卷组备份
#smit restvg
依文件名备份—smit屏幕# smit backfile
其他UNIX备份命令●tar (tape archive)
◇适用范围广
◇非常适合在不同UNIX平台间传送文件
◇可恢复空目录(-d选项)
◇不支持AIX访问控制列表(ACL,属于扩展inode内容)●cpio(copy input to output)
◇适用范围广
◇符号链接较多时可能不能正常工作
◇不支持AIX访问控制列表(ACL,属于扩展inode内容) ●dd(device to device)
◇创建精确相同的备份映像,可用于精确备份逻辑卷
◇可用于转换某些内容(例如大小写、ASCII与EBCDIC互转等)
三、AIX安全
控制增长迅速的文件
●/var/adm/wtmp
●/var/spool/*/*
●/smit.log
●/smit。
script
●/etc/security/failedlogin
●/var/adm/sulog
显示文件和目录的空间占用量
du /home |sort –rn
安全性记录文件●/var/adm/sulog
记录每次su命令的执行。
这是个文本文件。
使用任何观看文本文件的命令查看.
●/var/adm/wtmp和/etc/utmp
记录用户的成功登录。
使用who命令查看。
●/etc/security/failedlogin
记录所有不成功的登录尝试.如果用户名不存在,记录为UNKNOWN项目.使用who命令查看。
安全性相关文件●包含用户属性和访问控制的文件
●/etc/passwd 合法用户(无口令内容)
●/etc/group 合法用户组
●/etc/security/passwd 含有加密形式的用户口令
●/etc/security/user 用户属性,口令限制
●/etc/security/limits 对用户的限制
●/etc/security/environ 用户环境设定
●/etc/security/login.cfg 登录设置
●/etc/security/group 用户组属性
用户环境的合法性检查和修正
●检查/etc/passwd/与/etc/security/passwd的一致性,以及
/etc/security/login.cfg和/etc/security/user,同时修正错误:pwdck —y ALL
●检查//etc/security/user、/etc/security/limits、/etc/security/passwd,以及是否每个组在/etc/group和/etc/security/group中都有对应条目,并修正错误:
usrck —y ALL
●检查/etc/group、/etc/security/group、/etc/passwd和/etc/security/user中关于用户组的内容的一致性,并修正错误:grpck -y ALL四、错误日志查看
•所有AIX错误都记录在一个记录文件中/var/adm/ras/errlog
•显示错误
–errpt [—a] -a 为详细显示
可以输出到文件或用more、pg察看
•清空错误记录信息
–errclear 0
建立/修改口令通过errpt产生错误报告•显示所有的错误报告–# errpt
•只报告硬件错误
–# errpt -d —H
•描述ID为F49E2A17的错误报告
–# errpt —a —j F49E2A17#errpt
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
192AC071 010******* T O errdemon ERROR LOGGING TURNED OFF
1581762B 010******* T H cd0 DISK OPERATION ERROR
1581762B 010******* T H cd0 DISK OPERATION ERROR
1581762B 010******* T H cd0 DISK OPERATION ERROR
2CCF66F7 010******* T H bl0 DEVICE ERROR
2BFA76F6 010******* T S SYSPROC SYSTEM SHUTDOWN BY USER
9DBCFDEE 010******* T O errdemon ERROR LOGGING TURNED ON
192AC071 010******* T O errdemon ERROR LOGGING TURNED OFF
2CCF66F7 010******* T H bl0 DEVICE ERROR
2BFA76F6 010******* T S SYSPROC SYSTEM SHUTDOWN BY USER
9DBCFDEE 010******* T O errdemon ERROR LOGGING TURNED ON
192AC071 010******* T O errdemon ERROR LOGGING TURNED OFF
C60BB505 010******* P S SYSPROC SOFTWARE PROGRAM ABNORMALLY TERMINATED •标识‘C':错误归类
–H:硬件
–S:软件
–O:操作错误
–U:不能确定
•标识‘T’:错误类型
–PERM(并且C为H):显示系统遇到硬件问题并且无法自动修复
–PERD(并且C为H):系统硬件变为不可用并引起一系列错误系统
–PERM(并且C为S):显示系统遇到软件问题并且无法自动修复
–TEMP(并且C为S):显示系统遇到软件问题并且已经自动修复•root用户通过手工命令errclear直接清除错误日志
–# errclear 10
•清除10天以前的所有日志
–# errclear —d H 0
•清除所有硬件的错误
–#errclear -N disk 0
•删除所有资源组为disk的记录
–#errclear -T UNKN 0
•删除所有类型为unknown的记录
–#errclear 0
•删除所有记录•显示error log的特性
–#/usr/lib/errdemon -l
Error Log Attributes
--—--—-——-——--—----—-—--—--—-----——---—--—-—
Log File /var/adm/ras/errlog
Log Size 1048576 bytes
Memory Buffer Size 8192 bytes
五、Performance Tools
常用命令
•# ps
•#sar
•# vmstat
•#iostat
•# tprof
•#svmon
•#filemon例:
CPU的使用情况(sar –u)这条命令的语法是:
# sar [options] interval number
例如:
#sar –u 60 3
AIX NODE 2 3 00000211 07/06/99
%usr %sys %wio %idle
08:25:11 48 52 0 0
08:26:10 63 37 0 0
08:27:12 59 41 0 0
.Average 56 44 0 0
当%usr+%sys 〉80%时,CPU 紧张查看运行队列(sar –q)这条命令的语法是:
# sar [options] interval number
例如:
#sar –q 60 3
AIX NODE 2 3 00000211 07/06/99
08:41:21 runq-sz %runocc swap—sz %swpocc
08:42:21 1。
2 100
08:43:21 1。
0 100
08:44:21 1.1 100
.
.
Average 1。
2 100
注:命令#sar –q的输出:
—runq-sz = 运行队列的平均长度。
(运行队列的平均长度就是等待在队列中的进程数目)
—%runocc = 运行队列被占用的时间百分比.
—swap-sz = 等待被内存页交换的进程的平均数目。
-%swapocc = 内存页交换队列被占用的时间百分比。
这些数据会更有意义,如果收集一段时间并且研究它的趋势.在有些环境下可以接受庞大的运行队列,而另外的环境就不一定适用.例如,在一个传统的商业环境中,进程都是简单而运行快速的,这时系统性能还可以忍受大的运行队列。
而在一个工程或者科学计算环境中,进程一般都是巨大且需要更密集的资源的,此时就不能忍受大的运行队列。
kthr memory page faults cpu
----- ----------- ------------------------ ------------ -----------
r b avm fre re pi po fr sr cy in sy cs us sy id wa
0 0 8087 13425 0 0 0 0 0 0 110 115 30 0 0 98 1
0 0 8087 13425 0 0 0 0 0 0 115 212 34 0 0 99 0
0 1 8087 13425 0 0 0 0 0 0 153 118 68 0 4 54 42 Paging 信息#vmstat 1 3
注:
命令vmstat的输出:
-procs =(每秒)
r 在运行队列中的进程
b 在等待队列中的进程
—memory =(那个时刻的统计数据)
avm 活动的虚拟页的数目
fre 在空闲列表中的物理内存槽数
-page =(每秒)
re 收回的页
pi/po 交换进内存的页/交换出内存的页
fr/sr 空闲的页/被时钟计算法则检测的页
cy 时钟循环(一般为0)
—faults =(每秒)
in 设备中断数
sy 系统调用数
cs 上下文交换数
-cpu =(就象命令sar –u,为百分比)
us 用户进程
sy 核心进程
id 空闲时间
wa I/O等待时间
这些信息是sar报告的补充。
wa如果超过25%,那么磁盘子系统可能没有平衡好。
与AIX存储相关的基本概念
PV:Physical Volume 物理卷
VG:Volume Group 卷组
PP:Physical Partition物理分区
LP:Logical Partition 逻辑分区
LV:Logical Volume 逻辑卷
LVM:Logical Volume Manager逻辑卷管理器。