智能化运维之IT系统统一监控预研报告

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

IT系统统一监控预研报告

目录

IT系统统一监控预研报告................................... 错误!未定义书签。1引言................................................. 错误!未定义书签。2平台建设的目标....................................... 错误!未定义书签。

建立健全企业IT运行监测指标体系..................... 错误!未定义书签。

完善公司业务监测指标体系,保障业务连续性............ 错误!未定义书签。

管理业务系统容量 ................................... 错误!未定义书签。3平台架构............................................. 错误!未定义书签。3.1平台技术架构...................................... 错误!未定义书签。

采集层........................................... 错误!未定义书签。

处理层........................................... 错误!未定义书签。

展现层........................................... 错误!未定义书签。3.2平台功能架构 ........................................ 错误!未定义书签。4对新核心系统建设的要求............................... 错误!未定义书签。4.1规范系统日志输出 .................................... 错误!未定义书签。4.3 提供服务持续可用性监控方法.......................... 错误!未定义书签。5结论................................................. 错误!未定义书签。

1引言

随着信息系统规模持续扩大,业务应用的不断增加,服务用户对象的日益增多,IT运维管理人员逐渐面临着三大难题:

(1) 设备和业务种类繁多,各类资料信息分散,导致位于一线的IT运维监控人员感知故障的速度晚于信息系统的使用用户,且故障发生后缺乏对信息系统的整体把控;而后台管理人员也往往因为信息系统性能数据和故障数据的匮乏而缺少对系统运行健康度的了解。

(2) 核心机房可能分布于多个地点,部署范围广泛,设备繁杂,对于大批最网络设备、主机服务器、应用系统没有一个统一的监控平台,不能制定统一的故障预警管理策略,故障预警效率低,业务恢复时间慢;

(3) 对关键核心业务系统的运行健康程度缺乏评估手段和预警措施,只能被动等待问题发生,无法提前采取技术手段和管理手段规避问题。

在此背景下,总分公司一线运维人员数量多但是经验不足,后台运维工程师经验丰富但是数量少,这些矛盾促使我司在新系统建设时需同步建设一套一体化的IT运维监控和服务预警平台,协助以自动化的手段完成信息系统的监测和维护。

2平台建设的目标

2.1建立健全企业IT运行监测指标体系

首先,平台的主要目标是加大对公司内部各遗留及专有监控系统的整合力度,提高IT运控中心对公司内其他分支机构IT系统管理、检测和把控能力,建立并完善IT系统监控、IT运行事件响应、IT系统故障处理、IT健康度报告、IT运行问题跟踪和反馈机制,引人自动化IT运维管理工具,从而在公司内部建立健全运行管理控制能力,实现IT健康度和业务连续性治理。

在此基础上,进一步优化监控策略,实现对设备及服务项全面、细粒度的监测,预警和管理,主要包含以下方面:

(1)打造多平台环境下安全稳定髙效的检测代理及检测工具;

(2)在实现对各类业务系统、硬件和网络设备、机房环境等实时检测的基础上,完善对新核心系统的全流程监控,根据性能数据进行预警,并将性能数据和故障数据引入事件管理平台进行后续治理,以可视化的方式向运维人员提供一览式的IT服务健康状况视图;

(3)构建集成监控平台,对平台的检测插件、检测机制、预警算法、视图展现等监控资源进行统一管理,实现大屏集中式告警,便于后台管理人员直观地看到系统整体健康程度;通过视图的灵活组合可以快速定位故障点,结合知识库缩短处理时间。

因此,IT运维自动化是一组将静态的设备结构转化为根据IT服务需求动态弹性响应的策略,目的就是实现IT运维的质量,降低成本。

2.2完善公司业务监测指标体系,保障业务连续性

随着公司信息化的发展,IT技术已经从业务支持逐步走向与业务的融合,并成为公司稳健运营和发展的支柱。公司内部很多业务流程都已经在IT部门的支持下实现了流程的再造和优化,提炼并制定了相应的流程图、流程文件及流程运作机制。但是目前我们对于公司内部业务风险的管控尚处在初步阶段。各类业务流程依然面临着来自内部和外部的各种业务风险。例如内部业务风险主要来自于员工和服务商对信息系统的不当应用,如非授权操作或误操作;外部业务风险主要来自于外部的不安全事件,如黑客攻击、机房环境变化等。对应用系统进行业务监控,能够及时识别业务风险,有效进行相应的主动规避操作,避免造成损失。

2.3管理业务系统容量

通过业务监控平台可以密切监控业务系统性能,包括系统的业务处理量、处理性能、各资源使用状况等,通过对系统资源瓶颈的分析,可以降低或提高业务系统容量;

3平台架构

3.1平台技术架构

运维平台能够对各类计算机设备、网络设备、安全产品、应用系统等IT设备运行状况和各种网上行为进行集中监控,对各类设备进行全面集中的统一管理,及时发现各类异常情况、快速定位各类事件故障并自动形成“工单”、自动分派,再由调度系统进行分派,由系统按预定流程规则进行自动化处理或人工处理的运维业务信息管理系统。使运维工作由被动变主动,由手动处理变成自动处理,并大大降低了运维人员的工作强度,具备良好的延展性,如下图所示:

如上图所示,一体化运维监控平台的系统整体框架由下及上划分为3层数据采集息(采集层)、数据处理层(处理层)和数据使用层(展现层)。此外,通过平台的管理控制台,在各个层面都能够对平台进行全方位的配置管理。

3.1.1采集层

采集层主要负责采集信息系统的性能数据和故障数据,通过在信息系统服务器上部署Agent,或者通过SNMP协议采集等多种方式与外围系统对接,获取所述基础数据。采集层被动地接收平台服务器发出的采集指令,执行相关的信息采集插件,将采集到的数据放人队列和数据库中,便于后续的分析和数据挖掘。

相关文档
最新文档