倪山三-网易数据库运维自动化演进与 AIOps 探索

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网易数据库运维自动化演进与AIOps探索

网易数据库运维专家倪山三

目录

1

DBA自动化平台需求和功能目标2

工具化运维阶段

3

打造DBA自动化运维平台

4

网易AIOps探索与DBA平台

•运维环境复杂庞大

•上万实例/集群

•MySQL/分布式DDB/Oracle/MongoDB/Redis/Hbase...

•物理机/私有云/容器云/多地多机房/隔离网络...

•对接产品和开发人数众多

•工作种类和内容繁多

•部署/变更/权限/调数/导出导入/备份恢复/扩容/迁移

/升级/排障/容量巡检...

•职责重大,业务敏感性也很高

DBA工作中的难点

•提高操作自动化率

•提升工作处理效率,同时减少DBA机械劳动•提高运维操作规范化程度

•统一并落实技术方案

•比如高可用设计,集群扩缩容等方案...

•整合工作流程,提高沟通效率

•环境流程规范化

•提升DBA对所管理服务的了解程度和掌控能力•服务概览/资源管理/容量水位/性能巡检...

数据库运维平台的设计目标

数据库自动化运维常用功能点

•核心功能

•DB-CMDB

•监控报警

•自动部署,主从维护

•schema在线自动变更

•权限变更

•备份恢复系统•基础框架

•高可用切换

•慢日志收集分析

•数据导出导入工具

•数据实时迁移工具

•数据校验工具

•巡检系统

•批量命令下发

•计划任务管理

•用户增强

•web查询平台

•访问权限管理和审计系统

•容量水位和性能分析报表

•数据生命周期管理

•工单系统和自助系统

目录

1

DBA自动化平台需求和功能目标2

工具化运维阶段

3

打造DBA自动化运维平台

4

网易AIOps探索与DBA平台

•DB-CMDB

•监控报警

•自动部署, 搭建主从•权限变更

•备份恢复系统•schema在线自动变更

•DBA部署后手工录入

•zabbix

•python fabric脚本化

•xtrabackup,存储本地或NFS

•pt-osc

•由于任务都需要在分布式多节点执行,

大量使用fabric分发

•高可用切换

•慢日志收集分析•数据导出导入工具

•MHA,(Keepalived)

•由于需要分布式部署,基于MHA的上层做了很多批量管理工具

•cron脚本定时flush截断日志,在本地pt-query-digest分析后写入CMDB

•DataX+调度脚本

同时也大量用于ETL需求

•工具化总结

•数据库运维关键环节都有靠谱的开源解决方案

•开发无非是一些批量调用和控制脚本,开发量少,难度低•服务规模小,对接人员少的情况下完全够用

•逐渐遇到问题

•工作量大,沟通多且效率低

•zabbix和MHA等底层工具逐渐遇到瓶颈

•操作规范性不足时常引发问题

•运维部组建了运维开发组,开始自研运维基础设施•DBA组也开始开发针对数据库的自动化平台

•我们取名OWL,象征经常熬夜的DBA

•构建最初的目标

•优化改良当前运维工具,解决技术瓶颈

•提供一个web平台即服务开发同学也服务DBA

•通过白屏化提高线上运维的规范性和自动化水平

展开数据库自动化平台建设

目录

1

DBA自动化平台需求和功能目标2

工具化运维阶段

3

打造DBA自动化运维平台

4

网易AIOps探索与DBA平台

DBA运维平台模块流程设计

•自研报警监控系统

数据全部推送-中转模型,易扩展•

TSDB高吞吐量,易扩展•

设计支持跨网络转发•

监控采集频度灵活,支持秒级监控•

高度灵活的自定义监控,满足大多数监控需求•监控报警添加维护操作充分接口化

基础运维工具–

监控系统

运维客户端基础运维工具–

•哨兵多功能运维客户端–nagent

•物理装机流程,虚拟机镜像,100%覆盖

•定时执行操作,定时和操作配置集中管理,支持秒级•支持实时调用执行指定操作,并回传标准输出数据•完全替代ssh远程执行,作为自动化操作的基础

•长执行命令后台执行,异步化处理

•可靠的CMDB是自动化运维的最根本前提•所有服务器定时扫描本地是否有数据库服务•所有DBA关心的服务元数据都将增量上报

•根据推送扫描特定服务器

•数据上报

•自动上报:服务部署与物理配置信息

•推送信息:业务信息

•DBA维护:运维配置信息

•数据采集后异步关联维护

•单机采集数据割裂,需要进一步维护

•单节点与集群,主从级联,域名与代理...•面向维护上千实例分布式系统的DBA

•展示集群物理分布与主从拓扑

•展示实例和集群关系

•展示集群和业务逻辑关系

•关联监控报警系统

相关文档
最新文档