基于大数据的人工智能运维服务支撑方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于大数据的人工智能运维服务支撑方案
01概述
在运营商传统网络运维中,巡检、告警分析、故障处理等工作长期积累了丰富的经验,其价值并未被充分挖掘。同时,目前的人工运维存在系统复杂耦合度高、数据来源多种多样、人工维护风险度高,修复间隔时间过长、人员培养难度大等现状,导致了性能相关告警不明确、无效告警筛查规则缺失、故障维护只能被动解决,优化/维护工单重复派发等问题,影响网络运维的效率和成本。为了优化网络运维的工作模式,提升网络运维准确性及效率性,提出集中维护支撑服务项目,基于人工智能(Artificial Intelligence)的运维解决方案旨在强调实现以维护为中心,依托大数据挖掘技术与深度学习算法,实现问题早发现,由被动处理问题改为积极预防问题,从而提高整体资源的利用率和维护效率。
02 基于人工智能(AI)核心算法
2.1 聚类算法(KMeans)
通过对多维度求欧拉距离(或余弦距离),不断的迭代对隐患进行聚类,找到关键核心点的特性进行隐患挖掘。K-Means算法是基于多维度距离的聚类算法,通过设置参数K,将样本点分为K个紧凑且独立的簇,每个簇由与簇的质心欧拉距离靠近的样本点组成。
计算步骤:
· 随机选取K个中心点遍历所有数据,将每个数据划分到最近的中心点中
· 计算每个聚类的平均值,并作为新的中心点
· 重复2-3,直到这k个中线点不再变化(收敛了),或执行了足够多的迭代
以每个基站作为样本点,以其性能指标参数及历史告警类别和频次作为特征,对所有有告警基站进行K-Means聚类,通过不断迭代将将告警类型依据相似性能指标进行聚类,深入挖掘各类告警的关键核心特征,作为基站画像、隐患挖掘与管理的基础。
2.2 常规分类算法(逻辑回归,KNN,决策树,随机森林)
通过把相似隐患进行归并,可以对隐患进行分级,从而方便查找隐患的级别。常规分类算法是有监督的机器学习算法,对于给定的目标类别,将样本进行分类。
逻辑回归:基于Sigmoid函数的多特征的二分类/多分类广义线性回归。通过建立代价函数并利用梯度下降优化的方法,实现多样本的分类。
KNN:K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是将每个样本分类为它最接近的k个样本的类别均值。
决策树:决策树又称为判定树,是运用于分类的一种树结构,其中的每个内部节点代表对某一属性的一次测试,每条边代表一个测试结果,叶节点代表某个类或类的分布。决策树的决策过程需要
从决策树的根节点开始,待测数据与决策树中的特征节点进行比较,并按照比较结果选择选择下一比较分支,直到叶子节点作为最终的决策结果。
随机森林:从样本集中选取n个样本,构建决策树,并重复这一步骤m次形成m个决策树,通过投票表决决定样本类别。
以基站作为样本点,通过分类方法可以将基站分为隐患基站和非隐患基站。通过对隐患基站性能指标参数、资产信息、地理信息及告警类型级别作为特征,对基站告警隐患进行分级,确定基站隐患级别,实现对基站健康度打分。并可根据已训练好的机器学习模型对新样本进行健康度评估。实现设备状态预判。对于隐患级别高的基站进行重点关注,并将其对应的性能参数指标作为隐患基因统计进入隐患管理库。
2.3 异常检测算法
核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一。所谓核密度估计,就是采用平滑的峰值函数(“核”)来拟合观察到的数据点,从而对真实的概率分布曲线进行模拟。
核密度估计可用于进行异常检测,计算正常样本之外的异常分布可能性,用于异常数据分析、特殊场景分析。对于完成画像的基站样本点,对于未发生告警的基站进行异常检测,可以发现性能指标相对于正常值(不会触发告警的性能值)发生偏离的样本点,动
态自适应设定告警阀值,触发维护工单。有效预警,降低站点告警故障。
2.4 深度置信网络(DBN)
深度置信网络是一个概率生成模型,与传统的判别模型的神经网络相对,生成模型是建立一个观察数据和标签之间的联合分布,对P(观测值|标签)和 P(标签|观测值)都做了评估。
DBNs由多个受限玻尔兹曼机(Restricted Boltzmann Machines)层组成,一个典型的神经网络类型如图所示。这些网络被“限制”为一个可视层和一个隐层,层间存在连接,但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。深度置信网络可以用于样本目标的数值预测以及样本类别的分类。
对于样本类别的分类,与常规分类算法应用相似。实现基站告警隐患分级,康度打分。并可根据已训练好的机器学习模型对新样本进行健康度评估。实现设备状态预判。
对于样本目标的预测值,通过深度置信网络实现基站特征异常概率分析等功能。针对网络性能指标特征的异常情况,进行概率预判,即尝试对“亚健康”网络进行预判。预先判断网络问题,减少投诉和性能告警、设备故障实际发生的概率。
2.5 堆叠自动编码器(SAE)
自编码器(AutoEncoder)是一种无监督的学习算法,主要用于数据的降维或者特征的抽取。autoencoder通过深度置信网络进行
预训练,从而确定网络权值的初始值。其目标是让输入值等于输出值。首先用网络权值矩阵对输入进行编码,经过激活函数后,再用矩阵转置进行解码,从而使得输出数据等于输入。该过程可以看作是对输入数据的压缩编码,将高维的原始数据用低维的向量表示,使压缩后的低维向量能保留输入数据的典型特征。
为实现智能站点画像,需要对站点的性能指标,资产信息,地理信息,历史告警信息等多维特征进行梳理。通过自编码器可以对大量特征进行梳理并降维,最终形成构成基站健康度指标的多维特征,可对后期的异常检测,告警预测,隐患管理降低输入数据维度,降低计算成本。
2.6 循环神经网络(RNN)
循环神经网络可用于时间序列相关的样本取值预测。在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。RNNs之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上,RNNs 能够对任何长度的序列数据进行处理。
03 端到端运维功能架构
3.1 网络运营中心NOC