可视化智能IT运维系统
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三
凌乱的测试任务和报告
自动化测试,从目标系统真实操作环境中 创建测试用例,有效降低开发和测试成本。
低效地手动构造测试数据 繁重的环境搭建工作
难于管理庞大的配置文件 高昂的日常维护成本
通过自动化测试手段来有效提高开发效率和降低测试成本
• 可视化用例录制,轻松录制创建测试用例。 • 参数化测试数据,保证测试覆盖度。 • 零编码断言配置,配置选项方式设置断言。 • 无污染事务提交,自动清理测试过程垃圾数据。 • 自动化测试任务,自动化执行定制测试任务。 • 图形化测试报告,按需发布测试报告。
运维主管
资源总 览
运行统 计
容量规 划
流程优化
业绩考核
决策分析
数据中心
业务系统
二
IT基础设施运维工程师
设备监 管
故障处 理
根源分析
流量分析
运行报 告
告警通 知
对智能化IT监控运维的期待(岗位)
二
战略决策支撑数据 部门运转分析支撑数据
业务优化支撑数据
故障预测/主动预警
故障快照/自动处理
运维知识库 IT设施自动巡检
JMX/JDBC
采集周期:3min CSS
Plugin Platform
Rest/Webservice
网络
• 防火墙 • 负载均衡 • 路由器 • 交换机
Hypervisor
虚拟化
中间件
应用
新资源
• XenServer • Vmware • KVM • XEN • RHEV • PowerVM
• 数据库(DB2、MySQL、 • 行业应用 Oracle、SqlServer) • 第三方应用
告警风暴
!
一天,轮到小李值班,突 然几个系统同时发出告警(告 警风暴),小李哪里见过这阵 仗,顿时感觉手脚无措,能想 到的就是马上给师傅打电话求 助。
小李按照师傅的建议从服 务器开始慢慢排查,从系统告 警到问题解决,已经过去了几 个小时…
期间,由于用户没法访问 系统服务,信息中心接到很多 投诉电话。
IT运维部门
业务部门
天花板
?
用户体验指标
用户访问响应时间 用户满意指数 系统吞吐量 系统错误率 用户来源地 系统需求执行时长 网络传输时长 数据库SQL执行时 长 …
一
用户体验管理
功能使用是否方 便 系统访问是否缓 慢 系统故障响应和 排除是否及时 …..
现状与痛点:IT监控运维密室的内与外
一
密室之内痛
协议
中间件
数据库
新资源
业务聚合指标实现故障根源追踪
四
形成业务拓扑
负载 设备
发现业务异常
中间件 业务weblogic
数据库
server App App webserverwebear1webear2
主机 App-host
进程 java
网卡 NIC1
磁盘 /opt/data
交换机
端口 G/0/2
应用响应时间突然增大
监
Response
管
流量分析
设
Syslog
备
Trap
基于SNMP(MIB)协议的网络设备监控
数据中心资源
网络设备监控
IT软硬件资源监控
三
从动环基础设施—>IT基础设施硬件—>数据库中间件—>自定义脚本,快速满足不同客户实际的IT监控需求
IT运维工程师
基础设施监控
SNMP/Modbus
采集周期:1min CSS
移动应用巡检
安装启动监测
兼容性适配
巡检脚本录制
跨设备巡检执行
系统遍历巡检
遍历规则配置
遍历检查项设置
标准遍历执行
深度遍历执行
三
系统Leabharlann Baidu态报告
业务状态分析
业务可用性 客户端性能分析
僵尸门户监测 敏感词监测 坏死链检查 应用安全分析
系统日志分析
业务办理量分析 主机访问量分析 HTTP请求分析 业务跳出率分析 区域用户量分析
业务的稳定性、可靠性要求越来越高,业务系统对IT支撑
的依赖性越来越强。
自动 知识 主动
信息处理
人工
信息提取
信息
信息采集
被动
S 切实地提高服务质量
IT架构的复杂度不断加深;IT运维部门工作职责越来越重
V 真正地降低系统风险
IT运维人员不足难以应对繁重的运维要求;IT事故将直接 影响业务,责任重大
对智能化IT监控运维的期待(效果)
安全合规检查
实时
业务应用系统
采集 处理
预处理建立关 联模型
操作系统-日志
实时
采集
中间件数据库
处理
实时
采集
操作系统
处理
即 席 查 询
统 计 报 表
数 据 挖 掘
实 时 告 警
仪 表 板
日志数据分析平台
索引存储PB级日志数据管理能力
基于业务系统的多层次机器数据, 实现完善的安全合规审计保障
三
定期安全审计
自动化威胁检查
网络攻击分析
告警分析
三
页面告警 邮件告警 短信告警 微信告警 声音告警
应用故障根源分析
根据请求自动拓扑
应用故障快速定位
三
设置告警策略
应用发生故障告警
可用 并发连接数 性
线程池
HTTP
用户会话
性能
实际故障点 故障定位
故障分析模型 故障分析算法 分析结果
通知 页面告警
Plugin Platform
SNMP
SNMP/SMI-S
动力环境
• PDU • UPS • ATS • 空调
服务器
存储
• Windows • Linux • Solaris • AIX
• NetAPP • EMC
SNMP
采集周期:2min CSS
Plugin Platform
Hypervisor Adaptor
二
可视
运维可视化展示 运维大数据分析
度量 中心
监控 中心 智能
资源集中监控 网络/应用拓扑 应用性能监控 应用体验分析
运维门户
配置管理 资产管理
协作
服务流程管理 运维即时协同 远程桌面协助 运维知识库
流程 中心
操作 中心
自动
业务系统自动巡检 应用自动交付部署 基础设施自动体检
三
智能化IT运维平台介绍
巡检告警
巡检报告
基础设检施巡 基础设施 巡检
容量状况 巡检
性能状况 巡检
信息安全 巡检
IT基础设施监控模块 操作系统监控 网络设备监控
数据库监控 应用中间件监控
存储设备监控 网络拓扑展现
应用拓扑展现 采集策略框架
告警通知框架 统计分析报表
基础设施监控模块 容量管理 计算
规划
分析
推荐及模拟
能耗管理 PUE
短信 邮件
应用访问预测分析
三
业务价值:变被动解决风险告警为主动发现预防,提前规避问题及风险。
历史|实时|未来 未来负载变化趋势预测
!
潜在风险及问题分析定位
应用 性能
计算
存储
资源配置策略预测分析
网络
可视化分析&展现
三
四
智能化IT运维平台带来的改变
从分散粗放到统一精细
四
不同类型资源不同单一管理工具
接口测试 边界测试
单元测试
回归测试 冒烟测试 覆盖率测试
集成测试
恢复测试 安全测试 压力测试 性能测试 部署测试
系统测试
确认测试准则 配置评审 A/B测试
确认测试
网络拓扑及流量追踪
三
网络拓扑手动设置
拓扑自动发现及故障预警
基于ICMP(ping)、CDP、LLDP以及SNMP协议的网络自动发现
Request
合规使用 限制 06
移动应用高效管控 降低运维工作难度
使用情况 统计 05
业务应用性能监控
三
一站解决应用性能管理问题
全面监控核心业务,实现自动化的业务系统异常监控、风险检测,以及应用性能优化。
应用系统健康体检
业务可用性体检
业务流程巡检
巡检脚本录制 业务检查点设置 巡检流程编排
巡检脚本导入 交互数据管理 业务流程执行
智能化IT监控运维平台技术架构
三
自动化巡检平台
业务巡检 自动盲检 巡检定义
统一访问门户 Portal 统一用户管理
应用性能监控模块
JAVA 应用
.Net 应用
统一配置管理
PHP应用
应用性能 分析
统一权限管理
统一菜单管理
大屏展示系统
预测 分析
用户体验 代码级监
监控
控
机器数据分析 安全合规
业务分析
巡检调度
追踪故障根源
被动告警到主动式巡检
四
业务巡检
硬件巡检
自动巡检
发现问题
负载 设备
中间件
数据库
server
App
App
主机
进程 交换机
磁盘
网卡 端口
告警通知
业务拓扑钻取
智能故障分析
快速修复
解决告警
业务可用性自动巡检保障、追溯故障影响范围
重复运维工作自动化
四
枯燥、重复、不及时 运维工作
提取
脚本
发送邮件.sh 清理磁盘.sh 重启服务.sh 关闭服务.sh 数据备份.sh
• 业务形态更加多种多样,部署环境愈加复杂 • 为了适应发展的需求,业务调整日趋频繁
• 云技术的成熟,一定程度上减少了企业自建 运维团队的需求
• 技术的快速演进,对运维团队提出了更高的 要求
二
对未来IT运维的期待
应用场景
应用系统运维工程师
性能监 测
用户体 验
健康检 查
自动巡检
预测分 析
瓶颈定 位
可视化智能IT运维系统介绍
咨询交流
提纲
一 • 现状与痛点&IT运维管理诉求 二 • 对未来IT运维的期待 三 • 智能化IT运维平台介绍 四 • 智能化IT运维平台带来的改变
一
现状与痛点&IT运维管理诉求
现状与痛点&IT监控运维管理诉求
一
从一个真实的故事开始:
风险根源问题 !
!
!
IT运维人员
!
硬件故障率分析
Top服务器硬盘故障分析 Top服务器电源故障分析 Top存储控制器故障分析 Top存储硬盘故障分析
虚拟化资源池分析
Top剩余量存储分析 Top停机时长vm分析 Top磁盘消耗vm分析 Top磁盘日均增长vm分析 Top 磁盘读写效率vm分析 Top 内存使用vm分析
服务器性能分析
Top CPU使用率机器分析 Top 内存使用率机器分析 Top 磁盘使用率机器分析 Top 性能故障告警分析 Top 磁盘读写速率分析
• 应用服务器(Tomcat、 WebSphere、 Weblogic、JBoss)
• 消息中间件( ActiveMQ)
插件开发支持 新类型资源监 控
移动设备的安全管控
三
01
基本信息 获取
移动设备全面维护 提高运维工作效率
02
设备指标 检查
03
在线情况 监控
04
多维智能 分析
应用上传
管理
08
便捷 升级更新 07
最终的结果是,由于出现 被投诉等不良事件,IT运维部 被内部通报批评,小李也被扣 罚当月奖金…
日志
网络
分析系统 监控系统
云环境 应用性能 监控系统 管理系统
服务器 虚拟化 监控系统 监控系统
基础设施 监控系统
这也只是运维工作中一个 小小的缩影。
客户场景之N
IT资源管理
主机 数据库 中间件 动力环境 存储 网络设备 …..
…….
任务
自动巡检 计划报表
计划维护 计划备份
…….
自动化
触发器
传统监控转向智能分析
四
IT监控
• 操作系统磁盘使用率过高 • 服务器磁盘损坏 • 数据库表空间使用率过高 • 交换机端口流量异常 • 虚拟化资源池容量不足 • HDFS磁盘使用率不足 • …….
应用性能监控
• 请求响应时间过长 • SQL执行时间过长 • 代码执行效率低下 • 系统软件配置失当 • …….
数据库性能分析
Top 表空间剩余量分析 Top SQL性能分析 Top 缓存命中率分析 Top 日志日均增长分析 Top 磁盘读写速率分析
网络流量分析
Top 会话流量排行分析 Top 源IP流量排行分析 Top 源端口流量排行分析 Top 目标IP流量排行分析 Top 目标端口流量排行分析 Top 协议流量排行分析
操作系统 网络流量 流量分析 虚拟化监控 硬件监控 存储监控
……
vCenter Nagios
Cacti PRTG
自身管理端
Zabbix
……
统一展现
统一策略
统一告警
统一操作
一体化集中平台
Agent SNMP SNMP/SMI-S
SNMP
SDK
服务器
存储
网络
Hypervisor
虚拟化
JMX/CLI
JDBC
WUE 能耗可视化
节能策略
供 多功能 配 电量仪 电 ATS
发电 机组
UPS
蓄电池 PDU
第三 方
监控 系统
制 冷机
冷 环
冷塔
精密 空调
新风 漏 排风 水
境 温湿度 CO2 微环境
安视
入
全 频门侵
防 监禁 报
护控
警
消 消气 消 防 防体 防 系 报消 喷 统 警防 淋
IT资产管理系统 资产模型维护 出入库与分发
IT运维 工程师
故障精准定位
SLA遵守情况
运维 主管
工作量统计 持续优化的支撑数据
配置/资产管理 业务可用性 流程运转情况
应用性能监控预警 应用体验分析
应用运维 工程师
应用潜在风险预测 应用可用性巡检
对智能化IT监控运维的期待(管理)
二
智能管理方式
传统管理方式
一体化
信息展现
离散
E 更好地进行业务保障
配置管理
资产统计分析 资产配置变更
配置管理
资产申请 资产盘点
变更管理 资产规划
变更管理
配置更新 配置审计
资源分配 维保管理
配置模型维护
三维仿真 运维管理 事件管理 工单管理 问题管理 配置管理 变更管理 发布管理 排班管理
知识库管理
库存管理 报废管理
配置统计分析
智能化IT监控运维平台逻辑功能
一
应用系统自动化测试
业务应用 中间件 数据库 虚拟化 服务器
存储 网络 基础设施
• IT设备规模大且分散、管 理困难
• 缺少可视化管理&自动化 管理手段
• IT环境异构、业务系统繁 多
• 无法快速适应复杂环境设 备的监管
• 人员能力层次不齐,服务 范围广
• 缺少规范的、自动的流程 化管理
密室之外痛
• 业务负载逐年增加,无法确定功能完整可用 性