运维通一体化监控平台
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
规合法
流量
通过流量监控网络态 势、负载、安全状态, 帮助企业合理地分配
带宽资源
网络结构
自动探测用户真实的网络环境 结构,展示网络拓扑结构
状态展示
在网络拓扑上显示各类IT 资源的实时运行状态参数
告警定位
IT设备或资源发生故障 或告警时,快速定位故
障源在拓扑图的位置
11
运维通介绍
虚拟机及服务监控
Hale Waihona Puke 66 %统一设置根据资源类型和业务设置不 同的告警条件,告警设置支 持单一事件源和多事件源关
联告警。
统一通知
提供灵活的告警通知机 制,当IT资源发生异常 时,能够及时通知运维
人员。
集中展示
图形化告警展示机 制,运维人员在界 面上立刻发现定位
告警源。
8
运维通介绍
IT基础设施监控
66 % Text here Copy paste fonts. Choose the only option to retain text.
系统展示
实现整个平台的灵活展示和配置管理。 通过丰富的图形化展示方式呈现IT资源、 业务网络系统的整体运行状况
数据分析
依据设备系统的运行数据,做基于参数、 基于规则、基于状态、基于设备的统计 分析等,分析系统运行态势和故障。
数据处理
将采集到的数据归并压缩,按设备和系 统对数据进行分门别类处理存储,为数 据分析提供系统设备的运行数据。
Copy paste fonts. Choose the only option to retain text.
虚拟机
服务
宿主机
监控宿主机的CPU内 存使用率、磁盘、网
络等项目。
虚拟机
监控宿主机下的虚机 状态,虚机的CPU、 内存、磁盘、网络等
参数。
存储
每个存储的使用率, 剩余量、总容量指标
进行监测。
户数等。
分析
通过对资源参数使用的历 史数据和当前数据对比分 析,预测目前资源可用性
趋势。
展示
图形化展示资源可用 性的趋势图,帮助运 维人员科学规划分配
资源。
14
运维通介绍
KPI指标异常检测机制
服务健康度
服务请求数、响应时间、拒绝数、 CPU使用率、内存使用率、网络
吞吐率、磁盘使用率等. ……
异常行为
分析评估与各业务系统相互关联的IT资源 的运行状态数据,洞悉业务系统的健康态 势。.
4
IT运维监控实现目标
主动监控
以设备性能和业务系统为监控主线,构建IT 资源运行数据的主动采集框架,实现对各类 运行数据的实时采集、监控、分析、归档和
存储。
故障快速定位
建立告警分析机制和故障预警机制,提供故 障自动化处理能力,当故障发生时可以进行 快速定位,发现故障根源并找到相应解决方
34 %
Text here
Copy paste fonts. Choose the only option to retain text.
统一平台
运维告警
集中监控
集中展示
统一管理
可根据设备类型和业 提供统一资源运行展示 对监控各类资源提供 务系统分类实现对IT资 平台,展示设备运行状 统一的管理手段,减 源的集中分类监控。 态、性能、网络状态等。 轻IT资源的管理负担。
10
运维通介绍
网络及拓扑监控
66 % Text here Copy paste fonts. Choose the only option to retain text.
网络监控
拓扑展示
性能
CPU内存使用率、吞 吐量、端口速率、设 备运行时间、丢包率、
错包率等
配置
监控网络配置变化, 确保网络配置变化合
服务器
数据库
服务器种类
支持Windows、 Linux、Unix等服务器
状态指标
CPU、内存、网络、 磁盘、进程、端口、
账户等……
支持协议
WMI、SNMP、Telnet、 SSH等
数据库种类
监控指标
Oracle、SQL Server、DB2、 MySql、PostgreSql、达梦、
南大通用、人大金仓等
采集数据
数据规格化
故障准确定位(层次化拓扑分析) 发现系统隐患(动态闸值分析) 性能趋势分析(性能容量预测)
……
数据分析
统一展示
业务应用、服务器、应用进程、数据 库、中间件、存储、网络等
指标历史数据挖掘分析
指标正常模式分析
不同指标间关联分析
异常指标分析预
……….
7
运维通介绍
统一的运维平台
66 % Text here Copy paste fonts. Choose the only option to retain text.
业务监控
智能巡检
资源定义
根据业务系统属性定 义组成业务系统的IT 资源,实现基于具体
业务的运维监控
视图展示
通过业务视图方式展 示具体业务的运行状 态和参数,和业务系
统整体状态。
性能分析
通对过组成业务的各 IT资源运行状态参数 分析,评估业务系统 的健康度和运行效率。
巡检任务
根据IT运维要求定义各类巡检 任务和需要巡检的参数,自动
种类
实现
监控各类IT服务的可用性,如 网络链路、FTP服务、邮件、 Web Service服务、URL链接、
业务API、端口等
主要完成对各类服务的可 用性监控,及时发现失效 的服务,通知运维人员。
分析
服务可用性监控数据 可以评估各类服务的 健康状态,工作状态。
12
运维通介绍
业务应用及智能巡检
66 % Text here Copy paste fonts. Choose the only option to retain text.
智能
基于运维数据分析下的运维工作,使的运维更 加智能、科学.
价值
全面
运维资源的统一管理,实时掌握运维全貌,资 源状态一目了然。
便捷
实现业务应用的拓扑化,使的业务系统运维态 势和健康度可视化,简化了监控工作。
17
数据库实例配置、实例 CPU内存存储使用率、连 接数、并发数、SQL执行、
表空间、I/O状态等
支持协议
OCI、ODBC、API、文 件等
9
运维通介绍
IT基础设施监控
66 % Text here Copy paste fonts. Choose the only option to retain text.
数据采集
根据采集策略,数据采集层负责采集各 类设备或系统的运行信息,标准化后, 提交给上层数据处理平台。
运维通平台架构图
Supporting text here. ……
Supporting text here. ……
Supporting text here. ……
6
运维通介绍
运维监控平台工作流程
对各类异构数据格式化处理
通过IT资产的KPI异常参数发现潜 在风险、故障、系统Bug等. ……
异常检测
识别KPI时序曲线上的异常行为, 及早发现风险,防止成为故障; 及早发现故障,及时止损修复.
……
异常检测算法
历史数据环比、滑动平均、加权 滑动平均、历史数据差异滑动平 均、固定闸值、指数加权平均、
历史均值等. ……
15
运维通总结
自动化运维
挖掘海量运维数据的业务价值。 统一大数据处理技术。
智能分析与机器学习技术。 业务系统将要发生什么?
主动响应的预防预测性管理。
3
IT运维解决方案
IT资源的统一管理监控
实现IT资源的集中管理和资源状态数据 的实时采集、汇总、存储和展示。
故障的及时发现
实时分析各类IT资源运行状态参数,发 现设备异常状态数据,通知运维人员。
01
IT运维面临挑战和问题
02
IT运维的解决方案
.
03
IT运维监控的实现目标
.
04
运维通介绍
05
总结
t.
06
价值.
IT运维面临问题和挑战
工作繁重,缺乏工具
重复性、手工性运维工作导致运维人 员工作量繁重, 运维工作处于盲目和 救火状态,需监控工具发现问题,提 升效率。
设备繁多,各自为政
不同厂家的IT设备种类、数量繁多,应 用系统构架复杂,各设备监控各自为 政,缺乏实时的统一监控平台。
运维数据的分析
对IT资源的运行数据进行各类运维分析, 提高各系统的运行效率。.
运维视角
业务视角
业务与IT资源关系
建立业务系统与IT资源的关联关系,IT故 障发生时可以立刻定位受影响的业务系统, 及时有效开展针对性运维。
业务运行态势
IT资源的运行状态以业务视角呈现,把握 业务系统运行状态。
业务健康分析
中间件
中间件种类
支持Weblogic、 WebSphere、JBOSS
等中间件
状态指标
应用服务、JMS、 JVM、Web应用、线 程池、Cluster、堆栈
等
监控协议
JMX等
存储设备
存储设备种类
华为、EMC、HP等
监控指标
CPU、I/O、存储、温度、 电压、风扇、电源等状态
指标
采集协议
API、Syslog等
• 建立统一平台,管理监控各类IT 资源。
• 平台规范运维管理流程,建立起 IT资源与业务应用的关联关系。
平台
• 主动巡检各类IT设备和业务应用 系统,及时发现系统隐患.
• 主动巡检保证了巡检记录的及时 可靠,克服手工化设备健康检查 的耗时费力的弊端。
巡检
监控
• 通过平台对IT资源运行状况做到 全局掌控,实现IT系统整体到局 部,宏观到微观的持续化监控。
业务复杂,排查困难
业务系统复杂繁多,对IT系统的依赖性 高,业务系统出现问题需要手工排查, 效率低下,故障定位难。
运维管理,信息混乱
没有统一的管理和收集、发现、解决 设备及业务系统各类运行事件,系统 运维管理混乱,发现问题滞后,效率 低下。
2
IT运维面临问题和挑战
人工运维
降低系统低效对业务的影响。 多种分散独立的监控工具。 专业型专业人才专家。 业务系统已经发生什么? 被动故障响应式故障恢复管理。
• 提供业务维度的监控分析,可从 业务视角对运维全局掌控,实现 业务故障的快速定位。
分析
• 提供设备的各类运行报表,帮助 用户分析发现设备性能、故障瓶 颈.
• 对设备性能、容量等参数的监测 及预测分析,帮助用户科学规划 资源分配。
16
运维通核心价值
高效
一站式运维平台规范了运维流程,使得盲目繁 杂的运维变的简单、高效和可视化。.
应用性能
资源使用
定义
根据应用特性,定义 性能分析主题和与之 对应的性能参数集合。
分析
根据不同应用的分析 主题,设置性能分析 策略;完成指定时间
段性能分析。
展示
以图或表方式展示各 性能参数变化对应用 性能影响的趋势。
设置
设置需要分析的资源和资源参 数,如磁盘阵列的空间、数据 库的表空间、应用系统当前用
定期巡检。
巡检分析
可根据巡检设备和业务设 立巡检参数运行基线,在 执行巡检任务时及时发现
异常设备和参数。
巡检报告
根据巡检任务输出各 类设备和业务系统的
运行报告。
13
运维通介绍
运维分析
66 % Text here Copy paste fonts. Choose the only option to retain text.
案。
集中管理
将所有业务系统中所涉及的网络资源、硬件 资源、软件资源、数据库资源等纳入统一的 运维监控平台中。消除不同数据源差别,实
现对各种不同的数据来源实现统一管理
运维分析
提供各类型资源性能分析报告、资源统计报 表和运维分析报表,从各个侧面、角度反映 系统的运行状况、为系统提升改造提供科学
依据。
5
运维通介绍
流量
通过流量监控网络态 势、负载、安全状态, 帮助企业合理地分配
带宽资源
网络结构
自动探测用户真实的网络环境 结构,展示网络拓扑结构
状态展示
在网络拓扑上显示各类IT 资源的实时运行状态参数
告警定位
IT设备或资源发生故障 或告警时,快速定位故
障源在拓扑图的位置
11
运维通介绍
虚拟机及服务监控
Hale Waihona Puke 66 %统一设置根据资源类型和业务设置不 同的告警条件,告警设置支 持单一事件源和多事件源关
联告警。
统一通知
提供灵活的告警通知机 制,当IT资源发生异常 时,能够及时通知运维
人员。
集中展示
图形化告警展示机 制,运维人员在界 面上立刻发现定位
告警源。
8
运维通介绍
IT基础设施监控
66 % Text here Copy paste fonts. Choose the only option to retain text.
系统展示
实现整个平台的灵活展示和配置管理。 通过丰富的图形化展示方式呈现IT资源、 业务网络系统的整体运行状况
数据分析
依据设备系统的运行数据,做基于参数、 基于规则、基于状态、基于设备的统计 分析等,分析系统运行态势和故障。
数据处理
将采集到的数据归并压缩,按设备和系 统对数据进行分门别类处理存储,为数 据分析提供系统设备的运行数据。
Copy paste fonts. Choose the only option to retain text.
虚拟机
服务
宿主机
监控宿主机的CPU内 存使用率、磁盘、网
络等项目。
虚拟机
监控宿主机下的虚机 状态,虚机的CPU、 内存、磁盘、网络等
参数。
存储
每个存储的使用率, 剩余量、总容量指标
进行监测。
户数等。
分析
通过对资源参数使用的历 史数据和当前数据对比分 析,预测目前资源可用性
趋势。
展示
图形化展示资源可用 性的趋势图,帮助运 维人员科学规划分配
资源。
14
运维通介绍
KPI指标异常检测机制
服务健康度
服务请求数、响应时间、拒绝数、 CPU使用率、内存使用率、网络
吞吐率、磁盘使用率等. ……
异常行为
分析评估与各业务系统相互关联的IT资源 的运行状态数据,洞悉业务系统的健康态 势。.
4
IT运维监控实现目标
主动监控
以设备性能和业务系统为监控主线,构建IT 资源运行数据的主动采集框架,实现对各类 运行数据的实时采集、监控、分析、归档和
存储。
故障快速定位
建立告警分析机制和故障预警机制,提供故 障自动化处理能力,当故障发生时可以进行 快速定位,发现故障根源并找到相应解决方
34 %
Text here
Copy paste fonts. Choose the only option to retain text.
统一平台
运维告警
集中监控
集中展示
统一管理
可根据设备类型和业 提供统一资源运行展示 对监控各类资源提供 务系统分类实现对IT资 平台,展示设备运行状 统一的管理手段,减 源的集中分类监控。 态、性能、网络状态等。 轻IT资源的管理负担。
10
运维通介绍
网络及拓扑监控
66 % Text here Copy paste fonts. Choose the only option to retain text.
网络监控
拓扑展示
性能
CPU内存使用率、吞 吐量、端口速率、设 备运行时间、丢包率、
错包率等
配置
监控网络配置变化, 确保网络配置变化合
服务器
数据库
服务器种类
支持Windows、 Linux、Unix等服务器
状态指标
CPU、内存、网络、 磁盘、进程、端口、
账户等……
支持协议
WMI、SNMP、Telnet、 SSH等
数据库种类
监控指标
Oracle、SQL Server、DB2、 MySql、PostgreSql、达梦、
南大通用、人大金仓等
采集数据
数据规格化
故障准确定位(层次化拓扑分析) 发现系统隐患(动态闸值分析) 性能趋势分析(性能容量预测)
……
数据分析
统一展示
业务应用、服务器、应用进程、数据 库、中间件、存储、网络等
指标历史数据挖掘分析
指标正常模式分析
不同指标间关联分析
异常指标分析预
……….
7
运维通介绍
统一的运维平台
66 % Text here Copy paste fonts. Choose the only option to retain text.
业务监控
智能巡检
资源定义
根据业务系统属性定 义组成业务系统的IT 资源,实现基于具体
业务的运维监控
视图展示
通过业务视图方式展 示具体业务的运行状 态和参数,和业务系
统整体状态。
性能分析
通对过组成业务的各 IT资源运行状态参数 分析,评估业务系统 的健康度和运行效率。
巡检任务
根据IT运维要求定义各类巡检 任务和需要巡检的参数,自动
种类
实现
监控各类IT服务的可用性,如 网络链路、FTP服务、邮件、 Web Service服务、URL链接、
业务API、端口等
主要完成对各类服务的可 用性监控,及时发现失效 的服务,通知运维人员。
分析
服务可用性监控数据 可以评估各类服务的 健康状态,工作状态。
12
运维通介绍
业务应用及智能巡检
66 % Text here Copy paste fonts. Choose the only option to retain text.
智能
基于运维数据分析下的运维工作,使的运维更 加智能、科学.
价值
全面
运维资源的统一管理,实时掌握运维全貌,资 源状态一目了然。
便捷
实现业务应用的拓扑化,使的业务系统运维态 势和健康度可视化,简化了监控工作。
17
数据库实例配置、实例 CPU内存存储使用率、连 接数、并发数、SQL执行、
表空间、I/O状态等
支持协议
OCI、ODBC、API、文 件等
9
运维通介绍
IT基础设施监控
66 % Text here Copy paste fonts. Choose the only option to retain text.
数据采集
根据采集策略,数据采集层负责采集各 类设备或系统的运行信息,标准化后, 提交给上层数据处理平台。
运维通平台架构图
Supporting text here. ……
Supporting text here. ……
Supporting text here. ……
6
运维通介绍
运维监控平台工作流程
对各类异构数据格式化处理
通过IT资产的KPI异常参数发现潜 在风险、故障、系统Bug等. ……
异常检测
识别KPI时序曲线上的异常行为, 及早发现风险,防止成为故障; 及早发现故障,及时止损修复.
……
异常检测算法
历史数据环比、滑动平均、加权 滑动平均、历史数据差异滑动平 均、固定闸值、指数加权平均、
历史均值等. ……
15
运维通总结
自动化运维
挖掘海量运维数据的业务价值。 统一大数据处理技术。
智能分析与机器学习技术。 业务系统将要发生什么?
主动响应的预防预测性管理。
3
IT运维解决方案
IT资源的统一管理监控
实现IT资源的集中管理和资源状态数据 的实时采集、汇总、存储和展示。
故障的及时发现
实时分析各类IT资源运行状态参数,发 现设备异常状态数据,通知运维人员。
01
IT运维面临挑战和问题
02
IT运维的解决方案
.
03
IT运维监控的实现目标
.
04
运维通介绍
05
总结
t.
06
价值.
IT运维面临问题和挑战
工作繁重,缺乏工具
重复性、手工性运维工作导致运维人 员工作量繁重, 运维工作处于盲目和 救火状态,需监控工具发现问题,提 升效率。
设备繁多,各自为政
不同厂家的IT设备种类、数量繁多,应 用系统构架复杂,各设备监控各自为 政,缺乏实时的统一监控平台。
运维数据的分析
对IT资源的运行数据进行各类运维分析, 提高各系统的运行效率。.
运维视角
业务视角
业务与IT资源关系
建立业务系统与IT资源的关联关系,IT故 障发生时可以立刻定位受影响的业务系统, 及时有效开展针对性运维。
业务运行态势
IT资源的运行状态以业务视角呈现,把握 业务系统运行状态。
业务健康分析
中间件
中间件种类
支持Weblogic、 WebSphere、JBOSS
等中间件
状态指标
应用服务、JMS、 JVM、Web应用、线 程池、Cluster、堆栈
等
监控协议
JMX等
存储设备
存储设备种类
华为、EMC、HP等
监控指标
CPU、I/O、存储、温度、 电压、风扇、电源等状态
指标
采集协议
API、Syslog等
• 建立统一平台,管理监控各类IT 资源。
• 平台规范运维管理流程,建立起 IT资源与业务应用的关联关系。
平台
• 主动巡检各类IT设备和业务应用 系统,及时发现系统隐患.
• 主动巡检保证了巡检记录的及时 可靠,克服手工化设备健康检查 的耗时费力的弊端。
巡检
监控
• 通过平台对IT资源运行状况做到 全局掌控,实现IT系统整体到局 部,宏观到微观的持续化监控。
业务复杂,排查困难
业务系统复杂繁多,对IT系统的依赖性 高,业务系统出现问题需要手工排查, 效率低下,故障定位难。
运维管理,信息混乱
没有统一的管理和收集、发现、解决 设备及业务系统各类运行事件,系统 运维管理混乱,发现问题滞后,效率 低下。
2
IT运维面临问题和挑战
人工运维
降低系统低效对业务的影响。 多种分散独立的监控工具。 专业型专业人才专家。 业务系统已经发生什么? 被动故障响应式故障恢复管理。
• 提供业务维度的监控分析,可从 业务视角对运维全局掌控,实现 业务故障的快速定位。
分析
• 提供设备的各类运行报表,帮助 用户分析发现设备性能、故障瓶 颈.
• 对设备性能、容量等参数的监测 及预测分析,帮助用户科学规划 资源分配。
16
运维通核心价值
高效
一站式运维平台规范了运维流程,使得盲目繁 杂的运维变的简单、高效和可视化。.
应用性能
资源使用
定义
根据应用特性,定义 性能分析主题和与之 对应的性能参数集合。
分析
根据不同应用的分析 主题,设置性能分析 策略;完成指定时间
段性能分析。
展示
以图或表方式展示各 性能参数变化对应用 性能影响的趋势。
设置
设置需要分析的资源和资源参 数,如磁盘阵列的空间、数据 库的表空间、应用系统当前用
定期巡检。
巡检分析
可根据巡检设备和业务设 立巡检参数运行基线,在 执行巡检任务时及时发现
异常设备和参数。
巡检报告
根据巡检任务输出各 类设备和业务系统的
运行报告。
13
运维通介绍
运维分析
66 % Text here Copy paste fonts. Choose the only option to retain text.
案。
集中管理
将所有业务系统中所涉及的网络资源、硬件 资源、软件资源、数据库资源等纳入统一的 运维监控平台中。消除不同数据源差别,实
现对各种不同的数据来源实现统一管理
运维分析
提供各类型资源性能分析报告、资源统计报 表和运维分析报表,从各个侧面、角度反映 系统的运行状况、为系统提升改造提供科学
依据。
5
运维通介绍