主机及存储设备性能监控方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主机及存储设备性能监控方案
一背景和目标
目前,为各省配备的小型机和存储设备都已进入稳定运行阶段,总局信息中心决定在各省开展小型机和存储设备的性能监控工作,对小型机和存储设备的主要性能数据进行定期采集,了解和掌握当前设备的性能和压力状况,为基础设施的运行维护、资源优化和建设规划工作积累经验和提供依据。
二监控范围
主机及存储设备性能监控的范围主要包括总局统一为各省配备的HP小型机(superdome)、IBM小型机(P595,P570)和EMC磁盘阵列设备。
三监控时间
主机及存储设备性能监控工作将对连续3个月内的关键时间点对HP 小型机、IBM小型机和EMC磁盘阵列设备的关键性能指标进行数据采集,建议在系统忙时和闲时分别进行检测。一般建议每月至少监控4天,其中征期至少两天,非征期至少两天;每天监控至少4次,其中忙时至少两次,闲时至少两次。具体监控时间和详细的监控次数,各省可根据本省的业务特点进行确定和调整。
四监控方式
主机及存储设备性能监控通过运行小型机及存储设备自带的命令对关键性能指标进行查看,并进行数据采集。技术方案第五部分详细介绍了HP小型机、IBM小型机和EMC磁盘阵列性能监控命令的操作指南。数据采集工作可直接按照操作指南运行命令进行,也可以通过运行命令脚本(详见附件三)进行。
五操作指南
5.1 IBM小型机性能监控方案
5.1.1系统性能检查方式及说明:
(一)IBM小型机性能监控均通过IBM AIX系统自带命令,非第三方软件。IBM AIX系统安装后,无需额外安装任何软件包即可使用。(二)IBM小型机性能监控的命令,均不额外增加系统负荷。即是说当系统繁忙度较高时,仍可执行下列命令,且不对系统造成影响。(三)采样数据的保存。通过执行IBM小型机性能监控命令,输出结果的保存办法,一般常用以下几种:
1、使用专业的telnet工具登录到主机上。专业telnet工具均会含有“捕获输出文字”的功能,只要打开捕获输出文字功能,所有的输出均会记录到文件中。(推荐,不影响系统)
2、使用AIX系统的输出重定向功能。
命令格式:# 命令> 文件名
上面的方式是将命令的输出结果直接输出到一个文件中。
例如:# vmstat 2 10 > /tmp/vm_output
这个命令会将命令vmstat 2 10 的输出结果放在/tmp 目录下的vm_output文件中。
5.1.2 IBM 小型机性能监控方案
IBM小型机性能监控方案主要对IBM小型机的CPU状况、磁盘I/O 吞吐状况、内存及虚拟内存使用率和硬盘空间状况等关键指标进行性能监控,具体操作如下:
CPU状况
监控方式:通过vmstat命令检查系统CPU使用情况
操作示例:#vmstat 2 10
参数说明:2表示每隔2秒取样一次,10表示共取样10次。这2个参数的具体值可以根据需要自由定义。
输出示例:
# vmstat 2 10
System configuration: lcpu=2 mem=3920MB
kthr memory page faults cpu
----- ----------- ------------------------ ------------ -----------
r b avm fre re pi po fr sr cy in sy cs us sy id wa
0 0 229367 332745 0 0 0 0 0 0 3 198 69 0 0 99 0
0 0 229367 332745 0 0 0 0 0 0 3 33 66 0 0 99 0
0 0 229367 332745 0 0 0 0 0 0 2 33 68 0 0 99 0
0 0 229367 332745 0 0 0 0 0 0 80 306 100 0 1 97 1
0 0 229367 332745 0 0 0 0 0 0 1 20 68 0 0 99 0
0 0 229367 332745 0 0 0 0 0 0 2 36 64 0 0 99 0
0 0 229367 332745 0 0 0 0 0 0 2 33 66 0 0 99 0
0 0 229367 332745 0 0 0 0 0 0 2 21 66 0 0 99 0
0 0 229367 332745 0 0 0 0 0 0 1 237 64 0 0 99 0
0 0 229367 332745 0 0 0 0 0 0 2 19 66 0 0 99 0
0 0 229367 332745 0 0 0 0 0 0 6 37 76 0 0 99 0
输出说明:
(1)'page'部分
'pi'列表示page in;
'po'列表示page out。
'pi'和'po'的数值一般为0。如果长期不为0,说明系统需要频繁的进行从硬盘上的虚拟内存部分进行页的交换,物理内存不足。
(2)'cpu'部分:
'us'列表示用户进程占用的CPU的百分比;
'sy'列表示系统进程占用的CPU的百分比;
'id'列表示空闲的CPU的百分比;
'wa'表示CPU处于等待IO状态的百分比.;
一般如果id项的值长期低于20%说明系统CPU不足,须考虑增加CPU或优化程序;如果wa的值长期高于us和sy,说明系统IO存在瓶颈.须用topas,iostat等命令确定瓶颈所在并增加IO吞吐量。
磁盘IO吞吐
监控方式:通过iostat命令检查磁盘IO状况
操作示例: #iostat 2 10
参数说明:2表示每隔2秒取样一次,10表示共取样10次。这2个参数的数值可以根据需要自由定义。