从传统运维走向AIOps转型之路
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
从传统运维走向AIOps转型之路
技术创新,变革未来
目录
CONTENTS 2、多维异常检测3、告警质量治理
4、智能故障分析
1、智能运维概述
1智能运维概述智能运维的几个要点
•服务器规模越来越大
•应用功能越来越丰富
•服务的关联越来越复杂•引发故障的原因多种多样•涉及的团队和人员越来越多
海量数据时代面临的挑战
智能运维的几个要点
•全业务流程覆盖
•故障前给出服务质量和风险点评估,做出故障预警
•无需人工维护监控策略,故障时自动发出告警
•多维度的异常检测,自动生成异常判断阈值
•有效的告警收敛,多维度的对告警进行合并
•智能对故障根因进行分析,给出最可能的原因,辅助人做决策•根据故障原因选择合适的故障自愈策略并执行,自动解决故障
2多维异常检测保证足够的监控覆盖率,及时发现各种异常
•静态阈值
•有固定范围,无周期性
•如CPU、内存使用率•需调整的静态阈值
•无固定范围,无周期性
•如集群响应时间
•无固定阈值
•无固定变化范围,有周期性
•如PV、UV、订单量、交易额
多维监控指标概述
多维度异常检测
1.监控自动添加
•无需人工添加监控
•保证监控覆盖率
2.静态阈值自动生成
•无需人工维护异常判断阈值
•可以配置海量的监控策略3.周期性指标的异常检测
•业务关键指标的异常检测
一、监控自动添加
基础监控数据自动采集,依靠CMDB信息自动添加基础监控添加监控的几个要素:
1.集群名
2.集群IP列表
3.基础监控策略
4.集群负责人
二、静态阈值自动生成
基于样本统计分布自动计算动态阈值
⚫3-sigema
➢样本符合或近似正态分布
➢易受异常值影响
⚫T ukey’s test
➢不受少量异常值的影响
➢有时过于敏感
三、周期性指标的异常检测•背景
•整体规律性较强
•短期小幅波动较多
•适用场景
•网络出口或业务的进出流量
•集群和域名的访问量
•宏观业务数据
流量预测及异常检测的技术框架