智能运维助力数据中心数字化转型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Application 魅
智能运维助力数据中心数字化转型
文II中国民生银行信息科技部毕永军张舒伟
、[/■前,民生银行正围绕“民营企业的 3银行、数字金融的银行、一体经营 的银行、精细管理的银行”战略定位,全 力推动民生银行实现稳健可持续发展。
“数 字金融的银行”就是将金融科技提升到核 心战略层面,实施全方位数字化转型,打 造敏捷高效、体验极致的数字化智能银行。
民生银行构建了“薄前台、强中台、稳后台”的信息系统架构,以更加敏捷的 方式满足客户需求,支撑业务发展。
最近,基于分布式和微服务技术自主研发的分布 式核心成功投产,将银行账户体系和业务 系统迁移到分布式架构上,标志着民生银 行数字化转型进入了新阶段。
数据驱动运维提高数据中心智能 化水平
业务的数字化转型呼唤数据中心的数字化转型,民生银行提出了“数据驱动 运维”战略,打造用数据感知、用数据决策、标准化执行的智能化数据中心。
“数据驱 动运维”战略围绕以下几个方面展开。
感知能力。
面向数据中心全领域,对 全部运维对象实现标准化管理,采集各个 维度的运行数据,应用数据孪生技术,将 运维对象映射到数字领域。
借助运维对象 之间天然存在的关联关系,构建出运维知 识图谱,并在此基础上,应用智能故障发 现算法,对数据中心整个运行组件实现全 感知。
决策能力。
提升决策能力首先要在“感知一切”的基础上实现“可视化一切”,将数据中心正在发生的问题以多渠道、多
角度、多粒度的方式呈现给运维专家等
决策者,借助专家经验进行人工决策。
同
时,通过建设运维大数据平台和智能运维
平台,分场景逐步替代人工决策,实现
7x24小时不间断ft速决策。
执行能力。
为了快速恢复服务、降
低故障恢复时间,高效可靠的执行能力同
样重要。
通过对常见运维操作的抽象,实
现场景标准化、流程标准化和动作标准化,
固化到自动化运维系统中,供决策系统调
用。
当匹配到典型场景时,还可以用一键
处置的方式,提髙事件处置效率。
数据底座。
要建设上面提到的三种
能力,数据底座是基础。
数据中心经过多
年的建设,运维工具众多,数据非常丰富,
但因为“数据孤岛”的存在,加上运维数
据维度庞杂,难以综合利用,为此构建了
统一的运维数据中台作为底座。
通过对所
有的运维数据进行摸底,建立运维数据标
准,以自动化程序采集提供数据准确率,
最后汇聚到数据运维中台上,对外提供数
据消费接口。
组织转型。
数据中心网罗了各个领
域的技术专家,如何利用好专家的能力同
样重要。
基于Google S R E的理念,数据
中心形成了跨技术条线的虚拟组,分专题
进行专项攻关,在数据中心层面统筹资源,
统一建设。
作为“数据驱动运维”战略的重要拼
图(见右图),智能运维在感知能力、决
策能力,提升数据中心运行效率,降低故
障处理时间等方面都能发挥重要作用。
智
能运维目前仍处于初级阶段,主要在典型
运维场景中提供服务。
具体来说,有以下
典型使用场景:在知识图谱方面,尝试构
建数据中心各个运行组件之间的关系,并
与告警和运维知识库关联,形成囊括整个
数据中心实体的“地图”,在故障或告警
发生时,按图索骥地寻找解决方案;在故
障预测方面,根据性能指标的趋势来预测
未来可能产生故障的时点,便于做主动性
防御;在故障发现层面,通过对性能指标
和应用日志的运行模式进行异常检测来提
前发现故障;在故障分析层面,综合运用
调用链分析、多维分析、基础组件故障定
位等手段,自动化给出故障分析结论。
故障发现和定位提升服务可靠性
平均故障处理时间是服务可靠性的
重要参考指标,民生银行提出“10分钟
定位故障,10分钟处置恢复”的“双十”
层级能力建设落地产品
67
既麵Application
目标。
为达到此目标,故障发现和定位能 力至关重要。
从问题解决路径来说,首要目标是快 速准确地发现故障,通过构建模型学习系 统可用性指标的规律,实现对指标的实时 检测,同时基于日志的异常检测,达到告 警及时准确的目标。
其次应当界定故障的 影响范围,为故障处理决策提供准确的数 据支撑。
最后,经过故障定位的综合判断,确定具体的故障原因,并以可视化的方式 提示,对于已知问题,推荐出相应的解决 方案。
故障定位的过程主要从两个方向来实现:横向定位故障系统,基于应用系统 及服务之间的调用数据,形成系统调用图 谱,在故障发生时,沿着调用图谱搜索真 实故障根因系统;纵向定位故障原因,利 用应用系统内部模块调用关系、部署关系 及服务逻辑勾画出系统模块关系,向下延 伸到操作系统、中间件和数据库等基础软 件,再向下拓展到物理服务器、网络设备 和存储设备等硬件层面,将该系统依赖的 所有组件绘制在一张图谱当中。
纵向定位 故障原因的过程则沿着纵向图谱关系逐层 向下,不断深入。
具体来说,故障发现和定位由以下几 个模块构成。
故障发现。
准确及时的故障发现能够 为故障处理节约大量时间。
形形色色的监 控工具已经将系统运行状态转换为一系列 时间序列,故障发现的目标就是从大量正 常的时间序列中找出异常的时间区间,即时间序列异常检测。
民生银行智能运维故障发现选择反映用户使用体验的系统可用性指标作为故障发现的对象,采用基于渐进梯度回归树的基带算法和突变检测、剧变适配、尖峰消失等算法的集成学习技术,无监 督地刻画出正常指标行为模式,实时监测异常行为,实现故障自动识别。
目前已实
现数十套重要信息系统的智能故障发现,
在误报率和漏报率上较手工设置阈值具有
明显优势。
多维特征分析。
当故障发生时,快速
界定故障范围对故障的进一步处置具有指
导作用。
银行的交易数据维度非常多,有
地理维度如机房、服务器i p地址,交互
维度如响应时间、返回码、源地址等,业
务维度如交易机构、业务种类、交易金额
等。
分析故障时段交易数据在哪些维度或
维度组合上出现了影响,是多维特征分析
要解决的问题。
多维特征分析基于海量交易记录数
据,采用蒙特卡洛搜索树从巨大的维度组
合搜索空间中精确定位到特定的维度或维
度组合,从而在分钟级时间内给出如异常
交易类型、转账对手行信息等影响范围,
自动对重要维度提取和下钻分析,省去人
工查看日志、分析数据的过程,能够节省
大量的时间和人力。
调用链分析。
随着SOA架构和微服
务化的持续演进,银行系统之间的调用关
系变得越来越复杂,系统之间的相互依赖
越来越多,一套系统出现问题往往会波及
与之关联的多个系统,调用链分析的目的
就是从众多的调用链中找出真正导致故障
的系统。
调用链分析属于“横向定位故障系
统”部分,首先基于系统间调用数据,构
建出完整的系统调用图,其中节点代表系
统,边代表调用,每条边均可计算出相应
系统间调用的性能指标;其次进行系统调
用图的剪枝,遍历系统调用图中的所有边,
使用异常检测算法判断故障时刻存在异常
的边加以保留,其余边剪枝;最后,对保
留在系统调用图中的节点,综合计算其对
故障的贡献指数,排名较高的节点是根因
系统的嫌疑越大。
基础软件故障定位。
通过对一段时
间内的真实故障原因统计,我们发现基础
软件的故障较为常见。
在“纵向定位故障
原因”的过程中,根据系统内部的部署结
构,构建出系统依赖的所有组件图谱,沿
着图谱不断向下依次检查基础软件是否正
常。
定位到基础组件之后,还可以进一步
定位其中的典型故障。
对于不同的基础软
件,借助运维专家知识,梳理出特定的指
标集及其影响关系图谱,据此可深入挖掘
出最终的异常指标。
目前在数据库层面可
以做到一键定位问题指标,同时自动分析
出运行效率较低的SQL,并给出优化建议。
曰志故障定位。
日志作为非结构化数
据,数据量十分巨大,虽然具有很高的价
值,但是分析利用难度很大。
目前民生银
行已建立了基于E L K开源技术的天眼日
志平台,完成了 200多套系统的日志收集
工作,覆盖网络、硬件、操作系统、中间
件、数据库和应用日志,每日平均新增日
志约15T B,具有很大的分析价值。
曰志故障定位引入自然语言处理为
基础的日志模板化技术,对海量日志加以
智能分析,将日志数据模板化,实时计算
曰志模板的日志数量以及变量分布,实现
非结构化日志到结构化数据的映射,进而
实现基于日志的故障发现和故障定位的目
标:日志模板的频率发生明显变化时触发
告警,出现系统故障后,可快速定位和关
联曰志模板和变量的变化情况,提高故障
处理速度。
智能运维符合民生银行数字化转型
方向和“数据驱动运维”的战略,面向未
来,智能运维将成为银行精细化管理的必
然要求,也是银行数据中心的基础设施之
一,数据中心智能化程度将是银行科技金
融竞争力的重要组成部分。
民生银行将持
续关注和投入智能运维领域,尽早实现智
能运维全面落地。
S
68。