日常维护工作手册

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

日常维护工作手册
一．HIS系统各主机的登陆及日常巡检
1．日常巡检
巡检过程包括5个部分：检查errpt报错日志、检查换页空间使用率、检查文件系统使用率、检查ha状态、、检查各主机CPU/内存使用率。

登陆主机
一errpt 软硬件报错 1 # hostname ---确认登陆主机
2 #errpt –dH | more ---查询硬件错误（一般同时
前面板黄灯）
3 #errpt –aj xxxxxxx 查看详细的错误代码
二检查换页空间使用率
1 #Lsps –a --查看换页空间使用，内存足够时，使用率不高于5% 如
果遇到换页空间增涨，可通过topas,vmstat等命令检查各进程状态，立刻
通知应用工程师。

三检查文件系统使用率 1 #df –g 查看文件系统使用率
如果有超过80%的文件系统，需要进入该目录，du –sm 查询那个目录或者文件较大。

四检查ha状态
登陆主机# cd /usr/sbin/es/cluster
#./clostat –a
查看双机状态为stale 表示稳定如果出现网络故障网卡处显示为down
五检查各主机CPU/内存使用率
使用Topas vmstat 检查主机负载
1. 关于topas命令的输出:
右边从上至下依次是当前CPU、网络、磁盘使用情况和当前占用CPU资源较高的
CPU使用情况一栏中有四项依次是kernel。

(此代表当前系统内核使用的CPU资源) User (此项是当前系统中其他用户使用的CPU资源)
Wait (CPU等待时间)以及Idle (CPU空闲时间)。

Idle值很低的话，则代表当前CPU 十分繁忙。

在topas输出右侧的memory、paging space中可以查看当前系统内存与换页空间使用率。

2. 关于vmstat的输出:
Proc部分:
r-->在运行队列中等待的进程数。

（如此值达到2～5倍CPU数，说明系统中等待执行
的线程数较多，可能存在性能问题）
b-->在等待io的进程数
memory部分:
avm-->等于当前使用的物理内存和使用的交换区的总和减去作为文件系统缓存的物理内存（单位为4KB）
free-->空闲的内存（4k表示）
pages部分：
re－－》回收的页面
pi－－》进入页面数
po－－》出页面数
fr－－》代表此段时间内，有多少不用的物理内存被释放
sr－－》通过时钟算法扫描的页面
fault 显示每秒的中断数：
in－－》设备中断
sy－－》系统中断
cs－－》cpu交换
cpu 表示cpu的使用状态：
us－－》系统中用户操作所占用的CPU时间百分比
sy－－》系统中系统调用所占用CPU时间百分比
id－－》cpu空闲的时间百分比
wa－－》系统等待磁盘IO所占时间百分比（此时CPU闲置）
LABEL 事件的预定义名称
IDENTIFIER 事件的数字标识符
Date/Time 事件的日期和时间
Sequence Number 事件的唯一编号
Machine ID 系统处理器部件的标识号
Node ID 系统的缩写名（助记名）
Class 错误的一般原因。

可能的错误类型有：
H 硬件
O 指示性信息
U 未确定的
Type 发生的错误的严重性。

可能有如下错误类型：
PEND 一个设备或部件将很快丧失其可用性
PERF 设备或部件的性能已降级至可接受的水平以下
PERM 不可能恢复的状况。

此类错误通常是最严重的错误，并可能意味着硬件设备或软件模块损坏。

除 PERM 之外的错误类型通常不代表一个故障，但可通过诊断程序进行分析。

TEMP 多次不成功的尝试之后，被恢复的状况。

此错误类型也用来记录指示性的信息条目，如 DASD 设备的数据传输统计。

UNKN 不能确定错误的严重性
INFO 指示性的错误日志条目，和不是错误的结果
Resource Name 发现错误的资源名称。

对于软件错误，这是一个软件部件、或一个可执行程序的名称。

对于硬件错误，这是一个设备、或系统部件的名称。

这不表示部件故障、或需要替换。

相反，可用来确定用来分析错误的适当诊断模块。

Resource Class 发现故障的资源通用类。

（如，disk 设备类）
Resource Type 发现故障的资源类型
Location Code 设备的路径。

可能有多达四个字段，分别涉及 drawer（抽屉）、slot（插槽）、connector（连接器）、port（端口）。

VPD 关键产品数据（Vital product data）。

该字段的内容是多种多样的。

设备的错误日志条目比较典型地，返回关于设备厂商、序列号、工程变动级别、只读存储器级别等方面的信息。

Description 错误的摘要
Probable Cause 列出一些可能导致错误的原因
User Causes 列出一些用户误操作导致故障的可能原因。

不正确地插入的磁盘和外部设备（如 modems 和 prints）不能被开启，就是用户导致错误的例子。

Actions 描述校正用户导致的错误的推荐操作
Install Causes 列出由于不正确的安装或配置过程而导致故障的可能性原因。

此类错误的例子包含：硬件和软件不匹配、电缆或线缆连接不正确而松动、不正确地配置系统。

Actions 描述校正安装导致错误的推荐操作
Failure Causes 列出硬件、或软件可能的缺陷/故障（defect）
Actions 描述校正故障的推荐操作。

对于硬件错误，会运行诊断程序。

Detailed Data 对于每一个错误日志条目都是唯一的故障数据，如设备 sense 数据。

然后可输入errpt |more 命令逐个查看（此种方法将显示所有报错信息，显示出来的报错），也可进行精确匹配查询后查看。

查看errpt报错时，对于P H类型的错误，需特别关注，注意查看errpt –aj中Location、descripion、Probable cause、SRC、以及报错部件的Fru号码等信息，最后做出故障的判定都需要如上信息。

（下面是关于errpt –aj 输出的一些介绍）
lssrc –g cluster 此命令可查看HA的3个关键进程是否已启用。

（clstrmgr、clsmuxpd、clinfo）
/usr/es/sbin/cluster/clstat –a 此命令可查看当前主机的HA状态。

如有异常请通知IBM工程师做进一步检查分析。