AIX系统运维工作项指导V1.0
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
电源故障修复后,需要清理crontab中的every 12 hours 电源报错警告记录
86
VMO
87
IOO
设置和参数 87 NO
88
Base OS Env
应急脚本
89
当系统出现问题时运行信息收集脚本
90 91 故障诊断 92 93
CPU、内存、电源、风扇硬件部件故障 LVM故障 网络故障 HA环境的tty down
主机Firmware Version微码版本是否与《版本策略 》一致 操作系统版本是否与《版本策略》一致 系统是否已经安装了HIPER APAR? XCOFF 文件是否和SWVPD保持一致? /, /usr, /usr/share 是否一致?
28 Dumps设备 29 30
dump 设备是否足够大?
AIX系统运维指导(V1.0)
分类 序号
1 2 3 4 主机名 设备型号 序列号 操作系统版本 ha环境或cluster环境的两个分区不应部署在同一台 物理服务器上 rootvg的两块镜像盘hdisk0、hdisk1应该连接到不 同的scsi控制器 网卡、光纤卡的主、备卡应该使用两块物理卡,不 应使用同一个2口卡,且分布在不同的背板。 5 6 日志 7 8 9 10 11 文件系统 12 13 14 进程 15 16 17 18 设备状态灯 HMC日志 错误日志中是否有硬件错误 错误日志中是否有 CORE_DUMP 的相关故障记录? 错误日志中是否有 DELAYED_INT 相关的故障记录? root用户mail 日志 文件系统、inode使用率是否接近阀值 是否有应该mount,但未mount的文件系统 nfs 文件系统是否能正常访问 找出占用cpu高的top 10进程,是否有CPU占用异常 的进程存在。 进程总数 是否有僵尸进程 是否有父进程为1的非root用户进程存在 系统运行那种内核环境下?
系统备份 82 82 上次重启日期 83 mksysb备份记录检查 重要系统的mksysb备份带测试 检查系统多久没有重新启动了
83
系统错误定期日志errpt
84 84 日志清理 85 85
登陆失败日志failedlogin 登陆日志wtmp sulog 异常终止的vi日志
86
mail日志
电源故障修复 后
根据报错网卡地址查看是网 络原因还是网卡问题 大部分面向网络的系统服务 添加如下这行到/etc/hosts: 都要求loopback和 127.0.0.1 loopback localhost的正确解析。 localhost
netstat –ano >>/tmp/netstat_ano.log
sum /unix , cat /etc/bosboot.sum
可能影响系统的正常运行和 正常启动 造成这种差异的原因可能是 内核文件升级或内核位数变 更之后,没有执行bosboot命 令刷新启动镜像或者 bosboot命令执行失败。维 持二者的一致性是操作系统 正常运行和正常启动的必备
1.检查/unix文件的链接状态, 并检查内核文件的正确性 2.重新执行bosboot命令 # bosboot -ad /dev/hdiskX 3.重启操作系统
网络
41 网络 42
网络是否有传输错误? loopback/localhost 是否可以解析?
43
收集网络连接总数、各种状态的连接数量
44
网络端口队列监控(监控应用端口,需要应用提供 端口说明)
45
tcp半连接是否持续增长
46 47
hostname 是否可以解析? 文件系统是否有足够的空间?
48 Rootvg 49 50 51 52 53 54 55 安全性 56 57 58 59 60 CORE 61
70 71 存储 72 73 74 75 76 77 78 性能检查 79 80 81 81
链路状态是否正常,且为双链路:FastT 链路状态是否正常,且为双链路:HDS 链路状态是否正常,且为双链路:EMC pv状态 卷组状态,是否有STALE PPs/STALE PVs CPU运行状态检查 内存运行状态检查 磁盘IO状态检查 系统网络状态检查 列出占用内存的前10个进程 交换空间的使用率 性能历史情况差异 性能历史情况 mksysb 时,把选项Disable software packing of backup? 从no (缺省值)改为yes。
dump 数据压缩选项是否打开? 系统是否可以通过强制方式产生dump 文件?
31
交换空间使用率,不应超过70%。
交换空间
32
错误日志中是否有 PGSP相关的错误记录?
33 34 35
网卡工作模式 网卡当前工作速率 网卡状态
36 37 38 39 40
IP地址信息及别名 当前路由信息 路由设置是否正确? 缺省网关是否能ping通 SRC Master 进程是否运行?
CORE 62 资源限制 63 用户限制是否被正确设置? 关键用户建议没有限制 (如oracle用户)
64 65 66 HACMP 67 68 69
群集人工效验 cluster.log hacmp.out ha状态,包括tty/adapter是否为up HACMP调用启、停脚本内容检查 hacmp调用启停脚本权限检查(读写权限) 检查是正确配置了存储相关的Configure Custom Disk Methods(EMC或HDS)
工作项或检查项
Base
硬件资源划分
19
/unix 文件是否连接到正确的image文件?
20
是否系统运行缺省的内核debug 选项?
内核
21
在boot image 被修改以后,是否AIX 重新启动过?
内核
22
目前的/unix 链接的image文件是否和运行的内核一 致?
23 24 安装 25 26 27
/usr/lib/ras/dumpch来自百度文库ck -p
sysdumpdev -l sysdumpdev -l
1.严密监控paging设备的使用 情况 当PagingSpace使用率过高 2.用svmon -Pg查看占用paging lsps -s 时,系统将无法正常工作,可 设备较多的进程 能引起系统异常. 3.如果使用率过高,可考虑适当 增加paging设备大小 1.保证paging设备已经设置为 适当的大小 如果Paging设备使用率高, 2.严密监控paging设备的使用 errpt -a|grep PGSP 可能引起系统异常. 情况 3.用svmon -Pg查看占用paging 设备较多的进程 如果设置不匹配,可能会匹 修改成同交换机端的设置保持 lsattr -El entx,是否与网络设计匹配? 配到不正确的速率。 一致 如果匹配的速率非1000M全 netstat -v|more,生产网卡应该为1000M全双工 同网络一起检查不匹配的原因 双工,会影响网络传输性能 up表示网卡上插了网线,如 #netstat -v|grep Link 果与网络规划不正确,则需 要检查 表示网卡配置了IP地址,如 netstat -in;netstat -i 果与网络规划不正确,则需 配置IP地址 要检查 netstat -rn,查看当前缺省网关,静态路由配 如果与网络规划不正确,则 修改路由配置 需要检查 置 如果与网络规划不正确,则 lsattr -El inet0 修改路由配置 需要检查 ping default gateway 能ping通表示缺省网管正常 ps -ef|grep srcmstr
RootVG 是否被正确地镜像?
rootvg 的启动顺序设置是否正确 rootvg剩余空间检查 是否有stale的pp存在 密码检查 用户检查 tcpip 服务端口检查,是否与设计一致? inetd 服务检查,是否与设计一致? sulog failedlogin 关键文件的权限检查 是否有不安全的文件存在? 是否合理 用户组检查 fullcore 选项是否被激活?
调整到不同物理服务器上 调整到不同SCSI控制器 调整到不同物理卡,及背板上 向IBM报修 向IBM报修 向IBM报修 根据报错程序联系相应厂家 根据报错程序联系相应厂家 找出哪些文件占用空间大 du -sm * 手工mount 该文件系统 1、检查nfs server是否可用 2、检查网络连通性 根据进程联系相应厂家 与项目组沟通这些进程中是否 有异常的 请项目组检查应用 请项目组检查这些进程是否可 以停掉 如果应用支持64bit内核,建议 经过测试后更改内核为64bit
ls -l /unix
联系IBM 软件支持
bosdebug (1). command: uptime (2). ls -l /etc/bosboot.sum (3). bosboot.sum的修改时间应早于系统上次 启动时间.
关闭该选项 #bosdebug -o
在修改boot image 以后, AIX 需要重新启动。否则系 重启系统 统可能会出现异常
lscode oslevel -s instfix -ik <APAR> lppchk -c lppchk -v 重大补丁未装可能会导致系 统宕机 可能影响相关命令或功能的 正常执行 可能影响相关命令或功能的 正常执行 保证主要Dump设备具有足够 空间,以便在系统异常宕机 时能够收集到完整的Dump数 据。系统Dump是分析系统异 常宕机原因的重要数据。 建议打开,防止dump文件过 大,占用过多的系统空间 关闭该项会导致直接reset 机器不产生dump文件 安装IBM建议的HIPER补丁 根据文件名称和系统环境安装 所需文件包 根据文件名称和系统环境安装 所需文件包 根据sysdumpdev -e的值 调整主Dump设备的大小
AIX系统运维指导(V1.0)
工作方法或检查方法
hostname uname -M prtconf|grep "Machine Serial Number" #oslevel -s #oslevel -r (aix5.2) n/a n/a n/a
影响分析
处理方法
n/a 如果物理服务器出现问题, 影响其上的所有分区,起不 检查产品序列号,序列号应该不同。 到冗余作用 lscfg -l hdisk0 scsi控制器出现故障时,影 响整个rootvg 如果在同一个卡上,物理网 lscfg -l hdisk1 背板号应该不同 卡故障时,主备卡将都不可 lscfg -l adapter 背板号应该不同 用。 到机房主机的前面检查LED告警灯,橙黄灯常 故障灯常亮表示为系统有硬 亮代表有故障 件故障 如果有报错信息,表示系统 到机房登陆HMC控制台,查看HMC EVENT 有错误产生 如果有记录,表示硬件出现 errpt -dH 故障 errpt -a|grep CORE_DUMP 表示有生成dump的程序 errpt 关键的错误信息会以mail方 mail 式发送给root用户 文件系统不可用,当/var、 df -g /temp、/ 占满时系统会挂 起 lsvg -l $(lsvg -o) 文件系统不可用 如果不能写入,说明nfs不 cd /nfs ,touch file看是否能够写入。 可用 topas ps -ef|wc -l ps -ef|grep defunc ps -ef,确认这些进程是做什么用的。 bootinfo -K,64bit还是32位?新建系统建议 使用64bit。 可能造成系统性能下降 进程数如果很多,会消耗系 统资源。 僵尸进程说明程序异常退出 异常的进程可能会占用系统 资源 64bit内核能给系统带来更 优的性能 /unix 文件必须链接到正确 的静态内核image 文件,如 果/unix 文件没有正确的链 接或者不存在,一些系统命 令和应用就不能正确的运行 缺省的Kernel debugger 应该是off,如果打开会给 系统带来一定的性能影响
netstat -v|grep "Transmit Errors" cat /etc/hosts |grep 127.0.0.1 # netstat –an|grep 生产IP|wc –l # netstat -an|grep "^tcp" |awk '{print $6}'|sort ir|uniq -c