织云Metis时间序列异常检测全方位解析

合集下载

《时间序列数据异常检测方法研究与应用》

《时间序列数据异常检测方法研究与应用》一、引言时间序列数据是按时间顺序排列的数据集，常用于各种领域如金融、医疗、工业等。

异常检测则是从这些数据中识别出与常规模式不符的异常点或异常事件的过程。

本文将深入探讨时间序列数据异常检测的方法，并分析其在实际应用中的效果。

二、时间序列数据异常检测的重要性时间序列数据异常检测在许多领域都具有重要的应用价值。

在金融领域，可以用于检测股价异常波动、交易欺诈等行为；在医疗领域，可以用于监测患者生理指标的异常变化，以实现早期预警和干预；在工业领域，可以用于监测设备运行状态，及时发现故障并进行维护。

因此，研究时间序列数据异常检测方法具有重要的现实意义。

三、时间序列数据异常检测方法1. 基于统计的方法基于统计的异常检测方法是通过计算数据的统计特征，如均值、方差、标准差等，来识别异常值。

这种方法简单易行，但需要预先设定阈值，且对于复杂的时间序列数据可能效果不佳。

2. 基于机器学习的方法（1）自回归模型：自回归模型通过分析时间序列的历史数据来预测未来的值，然后根据实际值与预测值的差异来判断是否为异常。

（2）循环神经网络（RNN）：RNN能够处理具有时间依赖性的数据，通过学习历史数据来预测未来的趋势和异常。

（3）无监督学习方法：如聚类算法和降维算法等，通过将时间序列数据映射到低维空间或不同的聚类中，来识别与常规模式不符的异常点。

3. 基于深度学习的方法（1）长短期记忆网络（LSTM）：LSTM是一种特殊的循环神经网络，能够有效地处理长时间依赖问题，适用于时间序列数据的异常检测。

（2）变分自编码器（VAE）：VAE通过学习正常数据的生成模型来识别与正常模式不符的异常点。

四、时间序列数据异常检测方法的应用以金融领域为例，基于机器学习的异常检测方法可以用于检测股价异常波动和交易欺诈行为。

首先，通过收集历史股价数据和交易数据，构建时间序列数据集。

然后，采用机器学习算法（如自回归模型、RNN等）对数据进行训练和预测。

异常检测中的异常时间点检测与时间序列分析

异常检测中的异常时间点检测与时间序列分析第一章异常检测概述1.1 异常检测的定义与目的异常检测是指在一组数据中发现与预期模式不符的数据点的过程。

它在众多领域中都有着重要的应用，如金融风险管理、网络安全监控、工业生产质量控制等。

异常检测的目的是了解数据中的异常现象并采取相应的措施来应对这些异常情况。

1.2 异常时间点检测与时间序列分析的关系异常时间点检测是一种常见的异常检测方法，它通常是通过比较数据点与预设阈值的差异来判断是否存在异常。

而时间序列分析则是一种通过分析数据点在时间上的变化趋势来挖掘数据中的模式与规律的方法。

异常时间点检测与时间序列分析相辅相成，通过结合这两种方法可以更准确地识别出异常时间点。

第二章异常时间点检测方法2.1 基于统计方法的异常时间点检测基于统计方法的异常时间点检测是一种常见的方法，它通过计算数据点与均值之间的偏差来判断是否存在异常。

常用的统计方法包括标准差法、箱线图法等。

这些方法适用于数据分布符合正态分布或近似正态分布的情况。

2.2 基于聚类方法的异常时间点检测基于聚类方法的异常时间点检测是一种通过将数据点分成不同的簇来判断异常的方法。

在聚类过程中，如果某个数据点无法归类到任何一个簇中，就可以认为该数据点是异常点。

常用的聚类方法包括K-means 算法、DBSCAN算法等。

第三章时间序列分析方法3.1 平稳性检验与差分法平稳性是时间序列分析的前提条件，只有在时间序列数据是平稳的情况下才能进行进一步的分析。

平稳性检验通常使用单位根检验等方法来判断数据是否平稳。

如果数据不平稳，可以使用差分法来进行处理，通过对数据进行一阶或高阶差分来使数据平稳化。

3.2 自相关与偏自相关分析自相关与偏自相关分析是一种通过计算数据点与其滞后值之间的相关性来探索时间序列数据的方法。

自相关函数（ACF）和偏自相关函数（PACF）可以反映数据点在不同滞后阶数下的相关性。

通过分析这些函数的图像，可以得到数据的周期性和趋势性信息。

织云Metis时间序列异常检测全方位解析

训练、提取、伪装、构造、分类、
七天前后三小时 + 昨天前后三小时 + 今天前三小时
七适R传e天用统pl前于时ica后连序to数三续监r N小数控e据时据的ura的问存+l N异题昨e储常与天tw检新前or测思k后路三小时统+ 今计天前输算三出法小时疑&无似监异督常算法
样本库（人工标注）
特征工程（离线计算）
辅助工具：样本库管理
• 传统时序监控的问题与新思路 • 检测算法原理与应用 • 特征工程与打标工程 • 样本库建设与管理
• Metis概述（智能运维应用实践）
渐进式的AIOps能力
决策
场景
学件
分层
明细
算法
数据
织云Metis
腾讯织云
AIOp s应用实践
学件库
时间序列异常检测集群智能负载均衡容量分析与预测
• 使用统计判别和无监督算法过滤掉大量正样本
• 人工标注正负样本 • 有监督算法提升精准度
解决方案
（无监督+有监督）
技术框架
3sigma算法与控制图算法的优缺点
算法和机器学习的新思路是否可应用？
数据层：根据样本量选择存储；
离线模块使用神经网络的误差来进行异常判断
Replicator Neural Network
常见的机器学习算法
回归
基于实例
正则化
贝叶斯
聚类
基于核
关联规则
决策树
深度学习
从大量输入中总结出准确预测的规律（模型）
数值型预测 0/1型预测概率型预测等
技术路线演进
• 基于正态分布的假设 • 基于弱平稳性的假设 • 基于趋势性，周期性

时间序列异常检测

（q，p）=d（q，p）；而 r 点到 p 点的 d（r，p）<k-dis（t p），因此，r-distk
（q，p）=k-dis（t p）。
定义 6 点 q 的 k 局部可达密度 lrd（q）[4]：
lrd（q）=
kቤተ መጻሕፍቲ ባይዱ
Σ r-distk（q，p）
p∈k（q）
（4）
其中 k（q）表示 q 的 k 近邻范围，局部密度反映了该点的周围
模式存在显著差异的、具有异常行为的模式。通过求各个模式
的局部异常系数，局部异常系数的值较大的是异常模式。
3 基于序列重要点分割的异常检测算法 3.1 异常检测算法的设计模型
本算法主要包括以下几个子模块，如图 2 所示。
时间序列
分割
模式序列
计算
w-模式距离和 k-近邻距离
异常模式
输出
w-模式局部异常因子 LOF
最大，同时由于距离端点最远，对原始数据的形状影响大，依次
选定这样的点作为序列的分割点。
定义 2 时间序列 X 的模式表示[9]。每个直线段采用如下二
元组表示，其中 li 为 X 第 i 段的长度，代表了趋势变化的长短，
mi 为每个直线段的斜率，表示变化趋势：
X=<（l1 ，m1），（l2 ，m2），…，（lc ，mc）>
时间序列是一类重要的数据对象，在经济、气象、医疗等领域都普遍存在，它们具有数据量大、维数高、更新速度快等特点。近年来许多学者在时间序列的挖掘方面做了很多工作，相关的研究主要集中在时间序列分割、序列聚类和分类、相似查询、模式发现等研究方向。在时间序列挖掘中，大部分挖掘任务的目的是为了发现那些频繁出现的模式，期望发现某种规律，异常数据通常被作为噪声而忽略，而在另外一些领域，尽管异常数据与正常数据相比是不经常发生的事件，但信息背后可能隐藏着一些重要信息，异常数据的发现往往能带给人们更有价值的知识。例如在金融领域，跟踪信用卡顾客的使用情况，当顾客在某段时期内的信用卡使用情况异常时，能够及时报告，预防信用欺诈。首先提出序列分段点的概念，描述了局部异常检测方法，其次利用异常检测算法计算出最异常时间序列模式，最后分析了算法的性能和有效性。

腾讯织云Metis介绍(PPT可编辑版,非图片页面)

ABTest模块
Atest （实验模型A） Btest （实验模型B）
第一层：统计判别算法
3sigma算法与控制图算法的优缺点
•以当前时刻为标准数据提取 •七天前后三小时 + 昨天前后三小时 + 今天前三小时
√
Grubbs
• 3sigma原理
×
控制图
•移动平均算法 •指数移动平均算法
第一层：无监督算法
特征工程
分类特征
聚类 Kmeans 分类器
•熵特征 •值分布特征 •小波分析特征
打标工程
1.输出异常视图到前端页面 2.人工确认是否真的异常，假异常则校正 3.后台根据人工校正的结果，存下校正后的所有结果：正常记为1，异常记为0
• •
传统时序监控的问题与新思路检测算法原理与应用
•
特征工程与打标工程
传统时序监控的问题与新思路检测算法原理与应用
•
•
特征工程与打标工程
样本库建设与管理
•
Metis概述（智能运维应用实践）
特征工程
特征是数据中抽取出来的对结果预测有用的信息。特征工程包含了特征提取、特征构建、特征选择等模块
连续特征
离散化
特征监控初始特征分布情况
离群点分布
共线性缺省值去均值
第一层：无监督算法
One Class SVM
• 属于无监督算法 • 使用了超平面的思想 • 适用于连续数据的异常检测 • 适用于对样本进行一定比例的筛选 • 寻找高维平面区分正常点与异常点
第一层：无监督算法
Replicator Neural Network
• 属于无监督算法 • 需要构造必要的特征 • 使用了神经网络的思想 • 适用于连续数据的异常检测

时间序列数据的异常检测与识别算法研究

时间序列数据的异常检测与识别算法研究第一章引言1.1 研究背景时间序列数据是按照时间顺序排列的数据集合，广泛存在于金融、交通、气象、医疗等领域。

时间序列数据中可能存在各种异常值，这些异常值往往包含有用的信息，但也可能干扰正常的数据分析和建模过程。

因此，如何有效地检测和识别时间序列中的异常值成为了重要的研究课题。

1.2 研究意义时间序列数据的异常检测与识别可以帮助人们发现特殊事件和突发情况，提前采取相应的措施。

例如，在金融领域中，通过分析股票价格的时间序列数据，可以及时发现异常波动的情况，帮助投资者做出正确的决策。

此外，异常检测与识别还可以应用于医疗领域，帮助识别疾病的早期症状。

1.3 研究目标本文旨在综述时间序列数据的异常检测与识别算法的研究进展，包括传统统计方法、机器学习方法和深度学习方法等，探讨其优缺点及应用场景，并展望未来的研究方向。

第二章传统统计方法2.1 简单移动平均法简单移动平均法是最早被广泛应用于时间序列数据中的异常检测方法之一。

它通过计算滑动窗口内数据的平均值来检测异常值，但该方法对异常值的灵敏度较低，且只适用于平稳序列。

2.2 级联回归模型级联回归模型基于时间序列数据的趋势与周期性，通过建立回归模型来预测期望值，并根据实际值与预测值之间的残差来检测异常值。

该方法对于具有明显趋势的时间序列数据效果较好，但对于非线性关系较弱的数据不适用。

2.3 离群点统计检测法离群点统计检测法是一种基于假设检验的方法，通过计算样本与样本均值之间的偏差来判断是否为异常值。

常用的统计指标包括Z分数、T 分数和箱线图等，但这些方法对数据分布要求较高，且对于多变量时间序列数据的异常检测效果较差。

第三章机器学习方法3.1 基于聚类的异常检测基于聚类的异常检测方法通过将时间序列数据进行聚类，将属于同一簇的数据视为正常值，不属于任何簇的数据视为异常值。

该方法适用于没有标注异常值的数据集，但对于高维度的时间序列数据存在计算复杂度较高的问题。

腾讯织云

业务是织云运维的核心视角，通过业务这个对象建立研发管理链路上所有角色的共同语言。
织云作业平台是基于自动化运维理念打造的一款产品，通过实现对常用运维工具的封装、托管和复用，以达到提升运维效率，节约人力成本和降低运维风险的目的。
支持自建机房设备导入、腾讯云/阿里云等云账户设备设备同步的多云一体化资源管理系统。
应用场景
01
一体化运维门户
02
多云统一管理
03
业务规划与发布
04
扩容部署
06
对象管理
05
服务用户过程兼容
运维作业工具化
应用生命周期管理
多租户权限管理
织云平台可以融合企业现有系统，并提供规划定制，成为企业运维统一门户。
织云平台可以融合企业现有系统，对混合云、多环境统一管理、统一监控，资源统一调度。并提供规划定制，成为企业运维统一门户。
版本更新
2017年2月发布V2.0：织云监控上线。 2017年6月发布V3.0：织云络监控和告警功能上线。 2017年12月发布V3.7.3：织云实现多云管理，以及新增容量系统。新增AI智能告警Demo。 2018年1月发布V3.7.4：新增windows性能监控等。 ... 2018年4月发布社区版：织云Lite 2018年5月发布智能运维体系：织云Metis 2018年6月发布V4.0.1：实现场景编排，智能运维，多租户管理等
织云精简运维对象，抽象出业务、文件包、配置和脚本 4类对象。为变更提供了完善的版本管理、发布管理和一致性管理的功能。
面向角色和面向场景的运维能力编排。将高频的扩容、缩容、踢出负载均衡、加入负载均衡等流程封装为管道，一键启动，自动执行。
端到端的数据采集、分析、展现，全面的告警能力，包括主机监控、络监控、中间件监控和业务监控等功能。

时间序列流数据异常检测问题

联合建模与多源信息融合
总结词
联合建模和多源信息融合是未来时间序列流数据异常检测的重要研究方向之一。
详细描述
通过整合多个数据源和相关信息，构建更加全面和准确的异常检测模型。联合建模可以消除单一模型的局限性，提高异常检测的准确性和可靠性。多源信息融合则可以将不同来源、不同类型的数据进行融合，从而更好地挖掘时间序列流数据的潜在规律和特征。
模型鲁棒性
异常检测模型需要具有一定的鲁棒性，以避免受到噪声和异常值的干扰，提高检测准确率。
实时性要求与计算效率
实时性要求
时间序列流数据是动态产生的，异常检测需要满足实时性要求，及时发现异常并做出响应。
计算效率
由于时间序列流数据量可能较大，因此需要优化算法和模型，提高计算效率，以满足实
时性要求。
基于统计的异常检测方法
01
02
03
均值检测
通过计算数据的均值，将远离均值的点视为异常点。
方差检测
通过计算数据的方差，将远离方差范围的点视为异常点。
百分位数检测
通过计算数据的百分位数，将远离百分位数的点视为异常点。
基于机器学习的异常检测方法
孤立森林方法
利用孤立森林算法对数据进行训练，异常点被视为远离其他点的对象。
支持向量机方法
通过构建二分类器，将正常数据分类为正类，异常数据分类为负类。
K-近邻方法
根据数据点的k个最近邻的距离判断是否为异常点。
基于深度学习的异常检测方法
自编码器方法
通过训练自编码器对数据进行编码，异常点被视为编码误差较大的点。
卷积神经网络方法
长短期记忆网络方法
通过训练长短期记忆网络对数据进行预测，异常点被视为预测误差较大的点。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

解决方案
（无监督+有监督）
技术框架
离线模块
数据存储
统计算法&无监督算法输出疑似异常
在线模块
数据提取
统计算法&无监督算法输出疑似异常
ABTest模块
Atest （实验模型A）
Btest （实验模型B）
样本库（人工标注）
加载有监督模型
特征工程（离线计算）
特征工程（实时计算）
有监督算法（离线计算）
数值型预测 0/1型预测概率型预测等
技术路线演进
• 基于正态分布的假设 • 基于弱平稳性的假设 • 基于趋势性，周期性
时间序列的统计算法
分类问题（只用有监督算法）
• 正负样本不均衡 • 正负样本不全面 • 负样本稀少，难以获取
• 使用统计判别和无监督算法过滤掉大量正样本
• 人工标注正负样本 • 有监督算法提升精准度
第一层：无监督算法
One Class SVM
• 属于无监督算法 • 使用了超平面的思想 • 适用于连续数据的异常检测 • 适用于对样本进行一定比例的筛选 • 寻找高维平面区分正常点与异常点
第一层：无监督算法
Replicator Neural Network
• 属于无监督算法 • 需要构造必要的特征 • 使用了神经网络的思想 • 适用于连续数据的异常检测 • 寻找神经网络的误差来区分正常点与异常点
人工审核
有监督算法（输出异常）
第一层：统计判别算法
3sigma算法与控制图算法的优缺点
• 以当前时刻为标准数据提取 •七天前后三小时 + 昨天前后三小时 + 今天前三小时
√
• 3sigma原理 Grubbs
• 移动平均算法
×
控制图 •指数移动平均算法
第一层：无监督算法
无监督学习算法的优缺点
特征工程
拟合特征
•移动平均算法 •带权重的移动平均算法 •指数移动平均算法 •二次指数移动平均算法 •三次指数移动平均算法 •奇异值分解算法 •自回归算法 •深度学习算法
特征工程
分类特征
•熵特征 •值分布特征 •小波分析特征
聚类 Kmeans 分类器
打标工程
1.输出异常视图到前端页面 2.人工确认是否真的异常，假异常则校正 3.后台根据人工校正的结果，存下校正后的所有结果：正常记为1，异常记为0
显著提升应用效率和数据规范
Action层：触发功能与样本数据的交互 Service层：功能模块的逻辑应用实现
DAO层：封装与数据进行联络的任务，无业务逻辑
数据层：根据样本量选择存储；三级分类
Metis时间序列异常检测业务效果
目前效果
90%+
80%+
用少量模型覆盖所有曲线，统计判别+无监督+有监督
• 传统时序监控的问题与新思路
• 检测算法原理与应用 • 特征工程与打标工程 • 样本库建设与管理 • Metis概述（智能运维应用实践）
业务规模
• 轻微的异常就会影响到大量的外网用户
在线2.8亿月活8.05亿
SNG服务器20w+
社交类指标240w+
传统监控与新思路
• 随着业务发展，传统监控呈现出的一些问题
• 传统时序监控的问题与新思路 • 检测算法原理与应用 • 特征工程与打标工程
• 样本库建设与管理
• Metis概述（智能运维应用实践）
样本库管理与建设
样本的积累贯穿机器学习的始终
价值积累
样本是核心价值样本的丰富程度制约检测效果
样本库管理
通用规范
格式、长度、标签（分类、正负）、时间戳、标志、来源
准确率低
维护成本高
形态各异
传统监控与新思路
算法和机器学习的新思路是否可应
用？
• 传统时序监控的问题与新思路
• 检测算法原理与应用
• 特征工程与打标工程 • 样本库建设与管理 • Metis概述（智能运维应用实践）
常见的机器学习算法
回归
基于实例
正则化
贝叶斯
聚类
基于核
关联规则
决策树
深度学习
从大量输入中总结出准确预测的规律（模型）
第二层：有监督算法
有监督算法能解决的问题
•Linear Regression/Logistic Regression •Decision Tree/Naïve Bayes 有监督算法 •Random Forest/GBDT/xgboost
√
√
• 传统时序监控的问题与新思路 • 检测算法原理与应用
标准化
归一化
因子化
特征有效性分析
特征选择
特征组合与转换
模型调优
更新模型
样本分析
全流程特征分析
参数分析
误差分析
特征有效性分析
特征工程
统计特征
•最大值，最小值，值域 •最小值位置、最大值位
置 •均值，中位数 •平方和，重复值 •方差，偏度，峰度 •同比，环比，周期性 •自相关系数，变异系数
拟合特征
• 特征工程与打标工程
• 样本库建设与管理 • Metis概述（智能运维应用实践）
特征工程
特征是数据中抽取出来的对结果预测有用的信息。特征工程包含了特征提取、特征构建、特征选择等模块
特征监控
样本
初始特征分布情况
连续特征
离散化离群点
分布共线性缺省值去均值
离散特征
因子化缺省值相关性
功能集合
样本查看：权限、类别、业务维度等样本查找：字段检索、相似度检索、时间片检索样本分类：标记、算法分类等
北向串联
训练、提取、伪装、构造、分类、
样本库管理与建设
功能应用
样本库管理
训练模型构造
C
R
U
D
正负来源窗口类别A 类别B 类别C 样本库存储
•移动平均算法 •带权重的移动平均算法 •指数移动平均算法 •二次指数移动平均算法 •三次指数移动平均算法 •奇异值分解算法 •自回归算法 •深度学习算法
分类特征
•熵特征 •值分布特征 •小波分析特征
特征工程
统计特征
•最大值，最小值，值域
•最小值位置、最大值位置
•均值，中位数
•平方和，重复值
•方差，偏度，峰度 •同比，环比，周期性 •自相关系数，变异系数
• 以当前时刻为标准
数据提取 • 七天前后三小时 + 昨天前后三小时 + 今天前三小时
√
• 可以从多维特征中寻找异常点
孤立森林
• 使用超平面的思想来进行异常/正常的区分 SVM
× • 使用神经网络的误差来进行异常判断 RNN
第一层：无监督算法
Isolation Forest
• 属于无监督算法 • 集成学习的思想 • 适用于连续数据的异常检测 • 通过多颗 iTree 形成森林来判断是否异常