人工智能+智能运维平台建设综合解决方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
事件
日
监
工
任务
志
控
单
数据源
• 全量,海量,多样性,复杂性IT数据
人工智能+智能运维平台建设综合解决方案
AIOps的核心价值
故障止损
人工智能+智能运维平台建设综合解决方案
故障规避
故障发现
人工智能+智能运维平台建设综合解决方案
故障修复
AIOps将在5-10年内成为ITOM的主流技术
人工智能+智能运维平台建设综合解决方案
运维成本 • 成本高,效率低 • 业务投诉多,系统风险高
从人工到人工智能
人工智能+智能运维平台建设综合解决方案
人工运维
• 降低系统低效对业务的影响 • 多种分散独立监控工具 • 专业化专家型人才 • 业务系统已经发生了什么? • 被动响应的故障恢复性管理
AIOps
• 挖掘海量数据的业务价值 • 统一大数据分布式处理技术 • 智能算法与机器学习 • 业务系统将要发生什么? • 主动响应的预防预测性管理
AIOps将服务管理、性能监测、自动化结合在 一起,以实现持续洞察和改进的目标,并由大 数据和机器学习技术进行支撑。
AIOps的四个核心能力
从不同的数据源中获取数据
人工智能+智能运维平台建设综合解决方案
通过智能算法在数据提取 时和存储后进行分析
对海量数据进行存储
人工智能+智能运维平台建设综合解决方案
人工智能+智能运维平台建设综合解决方案
IT运维现状
人少、事多、责任大
人工智能+智能运维平台建设综合解决方案
运维人员
过去:运 维十到几 十台设备
IT设备和数 据
人工智能+智能运维平台建设综合解决方案
运维人员
目前/未来:运 维设备数量10倍
-100倍增长
IT设备和数 据
IT运维现状
全新架构-系统复杂
根因分析 调用链 告警压缩
故障根因分析
解决问题 单故障止损 灰度版本止损
配置优化
异常预测
其他 成本分析 容量规划 资源调度
AIOps 算法层
机器学习 算法层
基础数据 层
指标分布预测
指标聚类
KPI联动分析
KPI事件关联
日志事件序列 提取
日志事件模板 提取
ARIMA 卡尔曼 时序数据分解 Holt-Winters
奇异谱变换(SST) DiD
DBSCAN Pearson关联分析
J-Measure Two-sample test
Apriori FP-Growth
分类 聚类 决策树 逻辑回归
DNN CNN LSTM/RNN NLP
RMDB 事件
MQ 指标
NoSQL 日志
TSDB 工单
HDFS 作业
MPPDB 监控
人工智能+智能运维平台建设综合解决方案
大数据
云平台
——用人工智能点亮您的IT数据
Contents
目录
1.从人工到人工智能 2.用人工智能点亮您的IT数据 3.迈出AIOps的第一步
Part 1
从人工到人工智能
当前运维和业务团队面临的困境
不是没有数据,而是数据太多 不是不想分析,而是无从下手
人工智能+智能运维平台建设综合解决方案
机器学习
大数据实时多维分 析
服务器数据 存储数据 网络数据 应用数据
用户体验数据
任意IT数据 交易数据 流量数据 日志数据
人工智能+智能运维平台建设综合解决方案
OneAPM智能运维平台的五个能力层次
人工智能+智能运维平台建设综合解决方案
发现 接入
存储 整合
梳理 关联
智能 分析
多维 展示
从哪里来
人工智能+智能运维平台建设综合解决方案
AI Ops
行业运维经验
金融、运营商、互联 网、政府、大型企业
人工智能+智能运维平台建设综合解决方案
OneAPM人工智能算法与分析平台
人工智能+智能运维平台建设综合解决方案
应用层
技术能力 层
自适应异常检测
发现问题 数据源异常标记 单指标异常检测 多指标异常检测
多维异常问题定位
定位问题 关联分析 故障拓扑图 故障树
基础架构:云化 应用: 微服务化 双态数据中心:传统架
构+互联网架构
排障困难-排障周期长
依赖工程师技能经验 跨部门运维,责任界定困
难 业务的支撑对排障时效性
要求更高
人工智能+智能运维平台建设综合解决方案
人工智能+智能运维平台建设综合解决方案
运维对象、数据激增
运维对象:网络、主机、OS、 存储、中间件、各类业务应 用
对海量数据进行高效访问
AIOps的技术栈
人工智能+智能运维平台建设综合解决方案
可视化 机器学习
算法 分析 计算 大数据
• 多维度,个性化,角色化,场景化展示 • 算法自我修改演进,新算法创建 • 智能化选择,异常检测,异常定位,根因分析 • 数据建模,模式识别,趋势识别,故障隔离 • 数据清洗,去重,过滤,关联,生成新数据 • 集中统一管理,历史数据存储,实时数据存储
IT数 据
到哪里去
如何从IT数据中获得洞察?
人工智能算法与分析篇
人工智能+智能运维平台建设综合解决方案
人工智能+智能运维平台建设综合解决方案
结合领域知识的人工智能算法
人工智能+智能运维平台建设综合解决方案
人工智能算法
聚类、决策树、随机森林、卷 积神经网络
运维领域知识
异常检测、多维分析、 根因分析、故障预测
数据多样化:日志、指标、 告警、时间 …
IT 运维面临的挑战
依赖专家 手动运维
人工智能+智能运维平台建设综合解决方案
人工智能+智能运维平台建设综合解决方案
数据管理 • 无法统一管理,快速查询 • 无法满足企业合规需求
数据分析 • 查询难 • 分析难 • 对比难
故障定位 • 人员利用率低 • 故障根源定位难
From Gartner’s Report 人工智能+智能运维平台建设综合解决方案
Part 2
用人工智能点亮您的IT数据
OneAPM智能运维平台解决方案
服务分析
深度挖掘
场景可视化
人工智能+智能运维平台建设综合解决方案
多维指标告警 Hale Waihona Puke Baidu据建模
大规模事务处 理
海量数据实时接 入
OneAP M
AIOps
人工智能+智能运维平台建设综合解决方案
什么是AIOps
监测 (观察)
服务管理 (交互)
续洞
持
察
AIOps
察
机器学习
洞
大数据
续
平台
持
持
续 洞 察
From Gartner’s Report
自动化 (行动)
商业价值
人工智能+智能运维平台建设综合解决方案
人工智能+智能运维平台建设综合解决方案
AIOps,即基于人工智能的IT运维(Artificial Intelligence for IT Operations) ,是由 Gartner定义的IT运维管理新类别。