最新信息系统监控方案资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息系统监控方案
系统上线后的日常营运工作中,监控各系统的运行状态相当重要。监控系统的运作状态才能事前发现及处理问题,避免故障发生。若系统不慎发生故障,也能通知相关人员处理。
为实现适当的系统监控功能,必须根据系统需求规格要求来选择评估综合系统监控工具。一般的系统监控工具主要有搜集各监控对象H/W、OS、M/W、AP等运作状态的‘监控信息搜集功能’,事前掌握问题的‘监控资讯分析功能’,监控到故障的‘警戒值设置功能’、当系统发生故障时的‘故障通知功能’、工具本身管理的‘管理功能’等五大功能。
综合监控工具主要五大功能的内容说明如下:
监控信息搜集功能分别进行资源监控、网络监控、SNMP监控、LOG监控、JOB监控。资源监控指透过安装在监控对象主机的agent,监控主机的CPU/内存/磁盘空间/网络等资源的使用情况。网络监控指通过ping或端口的状态来监控网络是否相通。SNMP监控为透过SNMP的Polling/Trap方式监控通讯等设备。LOG监控指利用syslog、aplog等LOG讯息监控方式,监控硬件、软件的故障。JOB监控指监控执行程序的工作进程、执行状况。通常利用专门的Job Schedulling工具来进行。
监控资讯分析功能将搜集到的信息以分析图、表的方式呈现,例如CPU/内存/磁盘空间/网络等在一定时间内的使用量变化曲线图等。
警戒值设置功能设定搜集到监控资讯的警戒值,判定系统是否异常。例如CPU使用率的警戒值为80%。
故障通知功能设定系统发生异常时的通报机制,例如发送短信、邮件,紧急情况发生时的电话联络方式等。
管理功能监控主机本身的管理功能。
监控信息收集功能
在评估监控信息搜集功能时,除了监控项目之外,设定监控项目的容易性,以及监控信息保存方式也必须列入评估项目中。
监控项目
主机硬件监控监控主机硬件的故障
资源监控监控主机的CPU/内存/磁盘空间/网络等资源
网络监控对N/W设备进行Ping、SNMP方式监控
Process监控监控OS的ftp、ntp等重要Process
Log监控监控syslog内的异常信息
Cluster监控监控主、副主机的切换状态
监控项目的设定
设定方式监控规则的设定方式
保存形式监控设定档的保存方式
生效方式监控设定完成后,是否需要重新启动
扩充功能追加外挂功能plug-in的丰富性
设定的容易性是否可以简单设定
信息保存形式收集到的信息如何保存?使用DB或text或其他
监控信息分析功能
显示监控信息功能主要为有无障碍一栏、状况、最新资料,图标呈现内容等。设定方法主要比较设定显示资料、图标的方式,以及设定的方便性等。
显示监控信息
显示方法显示监控信息的方式
故障一览所有监控项目的故障一览现实状况
故障记录过去发生的故障记录需要可正确查询
最新资料能够正确查询最新资料
过去资料能够正确查询过往资料
图表功能通过图表掌握相关信息,可显示对应图表
制作图表功能可自定义所需相关图表
收集到的资料如果是以资料库形态存放,在资料分析上较有弹性,通过SQL语法即可简单取得想要的信息。
分析过往的历史记录,可作为日后改善的依据,仍相当重要。在故障尚未发生前,能够事前掌握并解决,也是系统运维人员的一项很重要的工作。例如主机在打上某个补丁之后,从图表上可以看出内存或硬盘使用率逐日增加。若能及时发现并进行改良,则可防止产生相应问题。
警戒值设定功能/故障通知项目
警戒值设定和故障通知互有关联。此项比较会影响到系统营运人员日常的作业负荷和效果。如果监控主机本身发生故障,所造成的影响层面可能会很大,不能忽视。例如遗漏或错误设定,没有监控到重要故障的发生,或没有重大故障却频繁呼叫系统维护人员,产生各种误报等问题。
警戒值的设定
警戒值设定方法警戒值设定的容易性、正确性
故障重要度设定可以设定故障的重要度
监控时段的设定可以设定主机维护等非监控时段,部分监控时段等
关联性的设定可以设定故障的关联性
设定的方式设定方式,选择从画面或存档等方式
设定的容易性操作较为容易
故障通知
通知方式利用可能的通知方式,如电话、邮件、短信等
通知内容可修改通知内容
通知群组设定能够设定和管理通知群组
通知历史记录能够记录和管理通知历史记录
通知状态能够记录和管理通知状态STATUS
注记功能能够针对各种故障进行注释记录
历史记录功能能够管理记录状态、注释等内容
设定方式通过画面、历史记录等方式进行设定
设定的容易性操作较为容易