OneAPM智能运维平台解决方案PPT幻灯片
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IT数据
URL、Host、Port、 HTTP 、 RTSP、RTMP等
Java、.Net、PHP、Python、Ruby、 Node.js、Andriod、iOS等
2020/3/2
StatsD、 Web Service、 JSON等
16
IT数据采集方式的选择
采集方式
基础监控协议
适用场景
IaaS、PaaS层,服务器、网络、存储、操作系统、中间件、数据库、应用进程,物联网传感 器等网络及协议可达的IT资源状态和可用性指标数据采集
网络流量采集 日志采集 字节码探针
提取网络包中携带的网络性能、用户体验、应用性能、交易等数据
收集系统、应用、业务等日志,进行事件、告警、交易等任意可标识信息的采集分析
浏览器、移动APP用户体验数据采集,探针兼容的(Java、.Net、PHP等解释型语言开发) 应用系统的代码性能数据采集,应用调用链路追踪数据采集
2020/3/2
4
从人工到人工智能
人工运维
• 降低系统低效对业务的影响 • 多种分散独立监控工具 • 专业化专家型人才 • 业务系统已经发生了什么? • 被动响应的故障恢复性管理
AIOps
• 挖掘海量数据的业务价值 • 统一大数据分布式处理技术 • 智能算法与机器学习 • 业务系统将要发生什么? • 主动响应的预防预测性管理
2020/3/2
11
来自百度文库neAPM智能运维平台解决方案
服务分析
深度挖掘
场景可视化
多维指标告警 数据建模
大规模事务处理 海量数据实时接入
OneAPM AIOps
机器学习 大数据实时多维分析
服务器数据 存储数据 网络数据 应用数据
用户体验数据
任意IT数据 交易数据 流量数据 日志数据
2020/3/2
12
• 网络流量 • 磁盘可用容量 • 电源 • 处理器 • 配置项 • ……
2020/3/2
15
全栈IT数据的采集方式
SNMP、IPMI、WMI、SMI-S、JMX、 GlassFish、JDBC、SSH、Telnet等
Rsyslog、NXlog、Kafka、 SDK、Restful API等
SFLOW、NETFLOW、IPFIX、SPAN、 RSPAN、ERSPAN等
• APP页面响应时间 • APP崩溃率 • APP网络请求时间 • APP H5页面性能 • JVM内存利用率 • 服务器时延 • SQL语句执行时间 • 连接池数量 • 缓冲区命中率 • 告警 • ……
基
础
IT资产库
设
施
虚拟化
层
IaaS
硬件设备
CMDB 虚拟化 网络 主机 机房环境
• 虚拟机数量 • 主机数量 • CPU利用率 • 内存利用率 • 丢包率 • 平均建链时间
AIOps将服务管理、性能监测、自动化结合在 一起,以实现持续洞察和改进的目标,并由大 数据和机器学习技术进行支撑。
6
AIOps的四个核心能力
从不同的数据源中获取数据
通过智能算法在数据提取 时和存储后进行分析
对海量数据进行存储
对海量数据进行高效访问
2020/3/2
7
AIOps的技术栈
可视化 机器学习
2020/3/2
18
海量数据处理与存储篇
2020/3/2
19
海量IT数据处理的挑战
数据规模 • 高并发总量大 • 种类多样 • 格式各异
实效
• 毫秒级延时 • 秒级处理响应 • 逻辑复杂
2020/3/2
20
海量IT数据处理平台
数据 接入
OneAPM智能运维平台 解决方案
——用人工智能点亮您的IT数据
议题
1 2 3
从人工到人工智能 用人工智能点亮您的IT数据 迈出AIOps的第一步
2020/3/2
2
议题
2 3
从人工到人工智能 用人工智能点亮您的IT数据 迈出AIOps的第一步
2020/3/2
3
当前运维和业务团队面临的困境
不是没有数据,而是数据太多 不是不想分析,而是无从下手
2020/3/2
5
什么是AIOps
监测 (观察)
服务管理 (交互)
续洞
持
察
AIOps
察
机器学习
持
洞
大数据
续
平台
持
续
洞 察
From Gartner’s Report
自动化 (行动)
商业价值
2020/3/2
AIOps,即基于人工智能的IT运维(Artificial Intelligence for IT Operations) ,是由 Gartner定义的IT运维管理新类别。
OneAPM智能运维平台的五个能力层次
发现 接入
存储 整合
梳理 关联
智能 分析
多维 展示
从哪里来
IT数据
到哪里去
2020/3/2
13
全栈IT数据发现与接入篇
2020/3/2
14
全栈IT数据的采集范围
IT系统
监控对象
采集数据
业 务 层
业务逻辑
客户端
应
传统架构
用
软
件
业务系统
层
云架构
SaaS
中间件
数据库
算法 分析 计算 大数据
• 多维度,个性化,角色化,场景化展示 • 算法自我修改演进,新算法创建 • 智能化选择,异常检测,异常定位,根因分析 • 数据建模,模式识别,趋势识别,故障隔离 • 数据清洗,去重,过滤,关联,生成新数据 • 集中统一管理,历史数据存储,实时数据存储
事件
日志
监控
工单
任务
数据源
• 全量,海量,多样性,复杂性IT数据
2020/3/2
8
AIOps的核心价值
故障止损
故障规避
故障发现
故障修复
2020/3/2
9
AIOps将在5-10年内成为ITOM的主流技术
From Gartner’s Report
2020/3/2
10
议题 1 3
从人工到人工智能 用人工智能点亮您的IT数据 迈出AIOps的第一步
模拟拨测 SDK/API
通过定时任务模拟用户访问和系统调用,主动探测应用服务的可用性指标采集 可根据数据采集(任意数据、任意格式)需要,在应用开发过程中调用SDK和接口采集数据
2020/3/2
17
与已有ITOM工具的对接
JDBC,SNMP TRAP,Web Service,……
OneAPM AIOps
PaaS
交易 业务流程
浏览器 移动APP
应用/微服务 应用代码 数据库服务 中间件服务
网络流量包 日志
• 交易量 • 交易金额 • 交易成功率
• 交易错误率 • 交易处理时间 • ……
• 页面加载时间 • 浏览器类型 • 用户IP • 页面加载错误率 • CDN质量 • 应用响应时间 • 应用吞吐量 • 应用错误率 • 单个服务响应时间 • 单个服务吞吐量 • 单个服务错误率