智能运维机器人的设计与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

智能运维机器人的设计与实现作者:倪浩杰邢张亮

来源:《中国科技纵横》2019年第18期

摘要:传统运维方式对运维人员需求大,存在监控不实时、异常发现滞后、故障定位困难、故障恢复时间长和数据共享流转困难等问题。为了解决上述弊端,本文提出了智能运维机器人的设计思路和实现方法。通过数据共享和流转,将运维任务配置、数据采集、实时监控展现和运维派单系统联接起来,较为简单的实现了智能运维机器人的设计,提高了公司运维效率,提升了数据中心的整体服务效能。投入试运行,总体效果良好。

关键词:运维机器人;自动化巡检;运维监控;Zabbix;Grafana

中图分类号:TP242 文献标识码:A 文章编号:1671-2064(2019)18-0029-02

0 引言

近年来,江苏省国际信托有限责任公司(以下简称“公司”)管理的信托资产规模迅猛增长。公司数据中心基础设施和设备,承载着公司TCMP、TA和OA等数十套计算机系统,存储着大量用户信息和业务数据。数据中心安全、稳定的运行,关乎公司业务发展,是公司运行的中枢和生命线。

1 运维工作现状及需求分析

1.1 运维工作现状

与银行相比,信托公司业务灵活、人员精简。随着公司业务日益扩大,对运维的要求也越来越高。传统的运维方式,不仅需要大量的运维人员,而且还存在数据中心监控不实时、异常状态发现滞后、故障定位困难、故障恢复时间长和数据共享流转困难等问题。

1.2 智能运维机器人需求分析

在现代运维技术的基础上,结合智能化和自动化的发展成果,笔者设计了智能运维机器人,较好的解决传统运维难题。智能运维机器人的设计目标有:(1)实时采集数据,监控数据中心整体和指定模块的状态;(2)配置监控项和阈值、定义事件、触发规则等;(3)判读系统异常,触发事件,以短信、邮件或微信等方式通知相关人员;(4)自定义配置多种运维任务,实现多种运维功能。

2 智能运维机器人设计原则和整体框架

2.1 设计原则

(1)开放式设计。智能运维机器人采用开放标准,开放结构,开放API接口,具备优秀的扩展能力,能够利用现有系统和资源,兼顾未来。(2)一体化设计。智能运维机器人的设

计整合了运维任务配置模块、监控平台、运维监控展现模块、告警消息通信模块和运维派单系统模块,能够完成数据采集、实时监控、告警通知、运维派单等一整套运维工作流程。

2.2 智能运维机器人系统架构

根据智能运维机器人的设计原則,按照功能点将其抽象成若干模块,模块与模块之间松耦合连接,便于后期系统开发和扩展,系统组成见图1所示[1]。

3 智能运维机器人主要模块及实现

3.1 运维任务配置模块

运维任务配置模块是智能运维机器人的控制中心,可配置多种运维任务,实现多种功能。该机器人试运行阶段,配置两项任务。(1)自动巡检。智能运维机器人采集数据中心和各模块的状态数据,触发运维派单系统模块生成巡检工单,派发并记录存储。(2)运维智能派单。智能运维机器人实时监控数据中心状态,一旦发现异常,触发生成异常事件,触发运维派单系统模块生成运维工单,派单流转至相关人员处理[2]。自动巡检工单图2所示。

3.2 监控平台

监控平台是智能运维机器人的核心,分为监控配置、数据采集和异常发现三个子模块。(1)监控平台实时采集数据,将数据传输给展现模块。(2)监控平台判读系统状态,一旦发现异常,调用告警消息通信模块,通知相关人员。(3)监控平台根据配置的运维任务,触发运维派单系统模块派单。该设计采用Zabbix实现。

3.3 运维展现模块

运维展现模块负责将监控平台采集的数据以图表等方式进行展现,是人机交互接口。该设计采用Grafana实现,见图3所示。

3.4 告警消息通信模块

告警消息通信模块将监控平台事件和消息,以短信、邮件等方式通知相关人。该设计利用了公司已有的通信系统。

3.5 运维派单系统模块

(1)负责将监控平台输入的异常事件,触发生成运维工单,并派单给相关责任人处理。(2)负责对监控平台采集的监控项数据进行整型,转换成易于阅读、记录的格式,存储于系

统中,便于后期查阅和分析。该设计自主开发,通过API接口,实现运维派单系统模块和监控平台之间数据交互[3]。

部分代码示例:

4 结语

智能运维机器人实现数据中心运维的自动化和智能化,较好的解决了传统运维存在的问题,将运维人员从重复简单的运维事务中解放出来,使其能够从事创造性的工作。智能运维机器人将传统的运维工作转向一体化、集中化、自动化的新运维工作模式,提高了数据中心的运维效率和服务效能。

参考文献

[1] 周萌,林国策,杨厚云.CentOS下ZABBIX的配置与使用[J].北京信息科技大学学报(自然科学版),2015(1):90-94.

[2] 杨磊.基于Zabbix的云监控系统的设计与实现[D].电子科技大学,2017.

[3] 吴文豪.自动化运维软件设计实战[M].电子工业出版社,2015.

相关文档
最新文档