智能IT运维监控平台-技术白皮书V2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录
一、背景与需求 (3)
1、背景 (3)
2、需求要点 (3)
二、解决方案与系统构架 (5)
1、解决方案 (5)
2、系统构架 (6)
三、系统及运维监控功能与特点 (7)
3.1 系统功能特点 (7)
3.1.1 IT资源集中监控管理 (7)
3.1.2、IT资源运行状态统一展示 (7)
3.1.3、IT资源告警事件管理 (7)
3.1.4、IT设备智能巡检 (8)
3.1.5、业务维度监控 (8)
3.1.6、业务维度的拓扑展示 (9)
3.1.7、应用性能分析 (10)
3.1.8、IT资源使用分析 (10)
3.2 监控功能 (10)
3.2.1、IT资源监控类型 (10)
3.2.2、网络设备状态监控 (11)
3.2.2、服务器状态监控 (12)
3.2.3、数据库监控 (13)
3.2.4、Web中间件监控 (14)
3.2.5、虚拟设备监控 (17)
四、部署与配置 (17)
4.1、部门级部署 (17)
4.2、企业应用部署 (18)
4.3、集团应用部署 (19)
4.4、部署要求 (20)
4.5、运行环境 (20)
五、效益与价值 (20)
5.1、产品价值 (20)
5.2、效益体现 (21)
一、背景与需求
1、背景
随着我国工业企业及组织机构信息化建设的快速发展,越来越多的企业核心业务及机构工作的开展已经高度依赖于信息系统的应用,随着信息化的不断深入,信息系统越来越多,各类系统越来越复杂,系统间的关联度也越来越高,使得企事业单位的IT运行环境日趋复杂,各类IT设备的运行监控难度加大,由于IT系统的运行环境更加复杂,造成了机房管理、系统监控和运行维护工作变的十分困难。
目前单个的IT设备初步具有自监控的手段和方法,但由于设备的种类数量众多且分属不同的平台和厂商,导致运维监控工作各自为政,运维监控缺乏一个集中、统一的运维监控平台,使得各类设备运行事件无法做到实时统一。由于缺少一个IT统一的监控运维平台,任何一个IT设备资源出现故障时都需要IT运维人员手工查找与排查故障产生原因和定位故障,使得运维人员对于日常的运维工作还是处于被动等待“救火式”
状态之中,运维事件的发现收集操作为传统手工方式,往往是故障事件发生后,运维人员被动告知后去处理问题,严重制约IT运维的响应速度和执行效率,影响企事业单位的IT信息系统的顺利使用。
通过建立智能IT运维监控平台,对网络、硬件、安全设备、操作系统、数据库、中间件、应用系统、机房空调、UPS等资源实时监控采集,能够自动地收集信息系统中各类IT资源设备运行状态、数据库状态、中间件运行状态和网络状态等,发现各类IT 资源运行过程中的异常。依据业务视角和设备视角分析发现已发生和潜在的各类资源问题,及时通知相关责任人和启动相关运维流程。
2、需求要点
智能IT运维监控平台实现对网络、应用服务器、业务系统、各类主机资源和安全设备等运行状态的全面监控,建立对各类IT资源的各类运行状态参数的采集、分析,及时发现和定位IT设备故障,启动相关的故障解决流程。
智能IT运维监控平台可从IT视角完成对各类IT资源监控的同时,也提供从业务系统的视角对IT资源监控运维方法。
智能IT资源集中监控平台系统必须做到:
●强化主动监控,实现集中管理。
以应用性能和应用系统为监控主线,集成各类监控工具,构建统一集中的IT系统资源监控平台,能够主动及时发现问题,解决被动服务的局面。同时以自主运维为目的,主动监控,自动更新,自动实现IT运维监控管理。
●帮助定位故障,快速恢复系统运行。
建立针对IT资源的集中告警分析机制和故障预警机制,提供自动化故障处理能力,当故障产生时,可以进行故障的快速定位,很快发现问题根源并找到相应的解决方案,从而缩短故障解决时间,减少维护成本。
●提高运行效率,合理利用IT资源。
建立统一IT资源监控平台后,可以实时了解全部IT资源的使用和运行情况,根据IT业务需要从整体角度考虑资源的使用,甚至可以根据业务高峰期的不同来调剂业务系统对资源的使用。
●提供统计分析和决策支持。
通过提供各类资源的性能分析报表、资源统计报表和运维分析报表,从各个侧面、各个角度反映系统的运行状况、性能情况和运维人员工作情况,为系统升级、改造、扩容提供科学依据。
●全面直观的系统展示。
通过一个统一的门户系统,有效的展示内部的IT资源运行情况、性能状况、服务工单情况等,使得领导、管理者、技术人员能迅速了解自己关心的问题。
二、解决方案与系统构架
1、解决方案
智能IT资源集中监控平台以企业的实际在用IT资产和业务系统来构架监控管理的对象,建立网络管理、主机系统管理、应用服务管理和虚拟设备等IT资源的统一监控管理平台。各项管理数据共享集中,互通互融。
IT运维监控平台即可根据IT资源类型分类监控各类IT资源,也可按照业务信息系统所依赖的IT资源建立模型,实现对业务资源模型的运维监控。通过业务监控模型能够简化IT资源运行状态监控,提高企业IT运维的总体服务品质。
通过统一的管理系统对管辖内IT对象的运行状态和系统性能进行实时的监控,并以图形化的方式直观地展示出来。对于系统运行的异常表现及时报警,提供故障修复功能;同时预设性能监控闸值,以帮助在系统出现问题之前提前向管理人员发出预警。从而可以积极主动地发现问题,改变被动管理的局面,保障系统的高可用性。
整个系统以事件为核心,可将IT资源监控管理系统与ITIL运维流程系统有机地结合在一起,采用统一事件管理系统,对整个系统内的所有事件进行收集、关联分析和处理。部分事件自动采取修复动作,同时可以有选择的将事件发送给运维流程管理系统,并按照不同类别事件预先定义的处理流程控制事件的处理。通过事件问题管理的有效执行,将整个运维服务模式由被动支持转为主动服务。