从传统运维走向AIOps转型之路

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

从传统运维走向AIOps转型之路

技术创新,变革未来

目录

CONTENTS 2、多维异常检测3、告警质量治理

4、智能故障分析

1、智能运维概述

1智能运维概述智能运维的几个要点

•服务器规模越来越大

•应用功能越来越丰富

•服务的关联越来越复杂•引发故障的原因多种多样•涉及的团队和人员越来越多

海量数据时代面临的挑战

智能运维的几个要点

•全业务流程覆盖

•故障前给出服务质量和风险点评估,做出故障预警

•无需人工维护监控策略,故障时自动发出告警

•多维度的异常检测,自动生成异常判断阈值

•有效的告警收敛,多维度的对告警进行合并

•智能对故障根因进行分析,给出最可能的原因,辅助人做决策•根据故障原因选择合适的故障自愈策略并执行,自动解决故障

2多维异常检测保证足够的监控覆盖率,及时发现各种异常

•静态阈值

•有固定范围,无周期性

•如CPU、内存使用率•需调整的静态阈值

•无固定范围,无周期性

•如集群响应时间

•无固定阈值

•无固定变化范围,有周期性

•如PV、UV、订单量、交易额

多维监控指标概述

多维度异常检测

1.监控自动添加

•无需人工添加监控

•保证监控覆盖率

2.静态阈值自动生成

•无需人工维护异常判断阈值

•可以配置海量的监控策略3.周期性指标的异常检测

•业务关键指标的异常检测

一、监控自动添加

基础监控数据自动采集,依靠CMDB信息自动添加基础监控添加监控的几个要素:

1.集群名

2.集群IP列表

3.基础监控策略

4.集群负责人

二、静态阈值自动生成

基于样本统计分布自动计算动态阈值

⚫3-sigema

➢样本符合或近似正态分布

➢易受异常值影响

⚫T ukey’s test

➢不受少量异常值的影响

➢有时过于敏感

三、周期性指标的异常检测•背景

•整体规律性较强

•短期小幅波动较多

•适用场景

•网络出口或业务的进出流量

•集群和域名的访问量

•宏观业务数据

流量预测及异常检测的技术框架

相关文档
最新文档