基于AI(人工智能)智能运维可视化平台解决方案
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
OneAP M
AIOps
机器学习
大数据实时多维分 析
服务器数据 存储数据 网络数据 应用数据
用户体验数据
任意IT数据 交易数据 流量数据 日志数据
OneAPM智能运维平台的五个能力层次
发现 接入
存储 整合
梳理 关联
智能 分析
多维 展示
从哪里来
IT数 据
到哪里去
全栈IT数据发现与接入篇
全栈IT数据的采集范围
AIOps将服务管理、性能监测、自动化结合在 一起,以实现持续洞察和改进的目标,并由大 数据和机器学习技术进行支撑。
AIOps的四个核心能力
从不同的数据源中获取数据
通过智能算法在数据提取 时和存储后进行分析
对海量数据进行存储
对海量数据进行高效访问
AIOps的技术栈
可视化 机器学习
算法 分析 计算 大数据
从人工到人工智能
人工运维
• 降低系统低效对业务的影响 • 多种分散独立监控工具 • 专业化专家型人才 • 业务系统已经发生了什么? • 被动响应的故障恢复性管理
AIOps
• 挖掘海量数据的业务价值 • 统一大数据分布式处理技术 • 智能算法与机器学习 • 业务系统将要发生什么? • 主动响应的预防预测性管理
什么是AIOps
监测 (观察)
服务管理 (交互)
续洞
持
察
AIOps
察
机器学习
洞
大数据
续
平台
持
持
续 洞 察
From Gartner’s Report
自动化 (行动)
商业价值
AIOps,即基于人工智能的IT运维(Artificial Intelligence for IT Operations) ,是由 Gartner定义的IT运维管理新类别。
Rsyslog、NXlog、Kafka、 SDK、Restful API等
SFLOW、NETFLOW、IPFIX、SPAN、 RSPAN、ERSPAN等
IT数据
URL、Host、Port、 HTTP 、 RTSP、RTMP等
Java、.Net、PHP、Python、Ruby、 Node.js、Andriod、iOS等
2020
基于AI(人工智能)智能 运维可视化平台解决方案
面向不同人员的场景可视化示例
Contents
目录
1. 从人工到人工智能 2. 用人工智能点亮您的IT数据 3. 迈出AIOps的第一步
Part 1
从人工到人工智能
当前运维和业务团队面临的困境
不是没有数据,而是数据太 多 不是不想分析,而是无从下 手
应 • 逻辑复杂
海量IT数据处理平台
数据 接入
数据 处理
数据 存储
Agen
SNM
ECH
IPMI
SDK
FLO
LOG
t
P
O
W
指标、事件、日志、交易、详情、流量
业务
开发
运维
业务交易、指标、告警、详情
API 网关 指标、事件、日志、交易、详情、流量
数据采集器
数据采集器
数据采集器
业务交易、指标、告警、详情 搜索服务
• 多维度,个性化,角色化,场景化展示 • 算法自我修改演进,新算法创建 • 智能化选择,异常检测,异常定位,根因分析 • 数据建模,模式识别,趋势识别,故障隔离 • 数据清洗,去重,过滤,关联,生成新数据 • 集中统一管理,历史数据存储,实时数据存储
事件
日
监
工
任务
志
控
单
数据源
• 全量,海量,多样性,复杂性IT数据
StatsD、 Web Service、 JSON等
IT数据采集方式的选择
采集方式
基础监控协议
适用场景
IaaS、PaaS层,服务器、网络、存储、操作系统、中间件、数据库、应用进程,物联网传 感器等网络及协议可达的IT资源状态和可用性指标数据采集
网络流量采集 日志采集 字节码探针
提取网络包中携带的网络性能、用户体验、应用性能、交易等数据
IT系统
业 务 层
业务逻辑
客户端
应
传统架构
用
软
件
业务系
层
统
云架构 SaaS
中间件
数据库
PaaS
基
础 设
IT资产 库
施
虚拟
层
化
IaaS
硬件设 备
监控对象
交易 业务流程
浏览器 移动APP
应用/微服务 应用代码
数据库服务 中间件服务 网络流量包
日志
CMDB 虚拟化 网络 主机 机房环境
采集数据
• 交易量 • 交易金额 • 交易成功率
• APP页面响应时 间
• APP崩溃率 • APP网络请求时
间 • APP H5页面性能 • JVM内存利用率 • 服务器时延 • SQL语句执行时
间 • 连接池数量 • 缓冲区命中率 •• 网告络警流量 •• 磁……盘可用容量 • 电源 • 处理器 • 配置项 • ……
全栈IT数据的采集方式
SNMP、IPMI、WMI、SMI-S、JMX、 GlassFish、JDBC、SSH、Telnet等
收集系统、应用、业务等日志,进行事件、告警、交易等任意可标识信息的采集分析
浏览器、移动APP用户体验数据采集,探针兼容的(Java、.Net、PHP等解释型语言开发) 应用系统的代码性能数据采集,应用调用链路追踪数据采集
模拟拨测 SDK/API
通过定时任务模拟用户访问和系统调用,主动探测应用服务的可用性指标采集
交易关联 / 拼接服务 / 异 常检测服务等
消息服务
历史数据处 理
指标、交易、详情
历史大数据服 务
实时数据处 理
指标、事件
时间序列 实时数据服务
可根据数据采集(任意数据、任意格式)需要,在应用开发过程中调用SDK和接口采集数 据
与已有ITOM工具的对接
JDBC,SNMP TRAP,Web Service,……
OneAPM AIOps
海量数据处理与存储篇
海量IT数据处理的挑战
数据规模 • 高并发总量大 • 种类多样 • 格式各异
实效
• 毫秒级延时 • 秒级处理响
AIOps的核心价值
故障止损
故障规避
故障发现
故障修复
AIOps将在5-10年内成为ITOM的主流技术
From Gartner’s Report
Part 2
用人工智能点亮您的IT数据
OneAPM智能运维平台解决方案
服务分析
深度挖掘
场景可视化
多维指标告警 数据建模
大规模事务处 理
海量数据实时接 入
• 页面加载时间 • 浏览器类型 • 用户IP • 页面加载错误率 • CDN质量 • 应用响应时间 • 应用吞吐量 • 应用错误率 • 单个服务响应时
间 • 单个服务吞吐量 • 单个服务错误率
• 虚拟机数量 • 主机数量 • CPU利用率 • 内存利用率 • 丢包率 • 平均建链时间
• 交易错误率 • 交易处理时间 • ……