自动化运维技术及最佳实践
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络返回
CPU 内存 I/O 网络
机器学习引擎
变化监测引擎
主机资源
数据库资源
性能测试模块
数据库参数 数据库配置 统计信息 DML频率 对象DDL
1、设备标准化
2、系统标准化
3、数据库标准化
4、接口(日志)标准化
智能化运维的未来发展方 向
背景
• 绝大部分公司目前AIOps还处于探索阶段,小部分公司处于系统性建设 基础的阶段。
• 很多吹得神乎其神的AIOps落地的公司或组织,我觉得很少能在大规模 场景下经得起推敲。
• 很多情况下,使用的都还是传统的统计分析方法,只是被包装了一个 AIOps的名字而已。但同时这也是任何事物发展过程中的一个必经阶段。
人员 一、编制和经费紧张,没办法请专家在一线坐镇。出问题后,专家到 现场才发现很多数据没采集,无法定位问题
二、单位里的高水平人员太少,一旦高手休假或者调离岗位,运维风 险就急剧增加,运维了十多年,运维水平的提升似乎遇到了瓶颈
环境
一、系统往往是分阶段建设,基础环境复杂。往往包含多种主机类型、 多套业务系统。技术要求较高。 二、系统变更频繁,运维人员甚至不清楚数据中心的拓扑情况。 三、运维和开发之间的矛盾。缺乏强有力的证据证明系统是否存在问 题。
导致: 人才无法线性扩张! 耗时长,数据对比繁琐,恢复时间长!
脚本化工具化:
• 常见通过shell脚本来快速查询相应的多条SQL语句,获取需要的信息。 • 通过一定的定时任务触发相应的检查脚本,每天都需要将脚本输出信息进行
查看,排序,且脚本输出一般为纯文字形式,显示不直观。 • 同样依赖个体工程师价值来进行脚本编写,问题解决,运维质量难以保障!
标准化运维:人+工具(文档)+流程
人员
职责 权限 技能
变更 故障 实施
流程
工具
监控 告警 文档
1.增加标准化监控设备,通过监控设备及时触发告警信息,转变运维服务模式,增加文档知识库的建立 。
2.规范化变更、故障解决、实施流程,将运维交付进行标准化。 3.规范人员职责划分,权限分类来更好的进行运维规范。
四、运维服务外包给第三方公司,但是第三方公司的支撑力度无法满 足不断提高的运维要求的需要。
技术更新迭代快速
Oracle一般每3~4年推出新版本数据库产品,每个版本中都相对之前版本具有新特性。 客户目前数据中心主流软件版本为10g、11g。 随着12CR2的正式发布,已有客户广泛使用12C中CDB/PDB特性、in memory option特性。 甚至有客户已开始使用18C自愈数据库进行边缘业务交付。
• 风险异常预测
① 资源异常预测,如空间、CPU、内存、I/O等 ② 性能异常预测 ③ 故障规律预测
• 为决策提供依据
图:硬盘故障趋势
智能化运维:让பைடு நூலகம்器干人的事
预测
机器 学习
分析
研判
运维大数据 运维自动化
智能化运维四大要素
故障处理
经验 算法
后台架构
会话登录
性能解析模块
SQL解析
SQL执行
SQL提交
12C几个重要的新特性
适应一个新版本的特性往往需要几个月甚至半年的专业学习。 需要学习新特性的含义,最优参数配置,最高效使用方式。
自动化运维技术发展史
运维发展时间表
运维发展阶段
无序化运维
文档化运维
没有规矩,不成方圆 知识手册+个人经验
脚本化运维 少量场景自动化
工具化运维 部分场景自动化
自动化运维
目标
•未来集中主要在两个大方面: 1、成本,需要从节约成本。 2、可用性,需要以提高效率为根本宗旨,做到及时发现问题,快 速定位问题,最终解决问题。
系统可用性量化指标
业界用N 个9 来量化可用性, 最常说的就是类似 “4个9(也就是99.99%)” 的可用性。
智能化运维:基于机器学习
很多运维场景都可以总结成一些规则化的东西,可以经过提炼 总结生成人工经验库。除了人工经验以外,还可以通过AI算法 对历史数据进行分析,得到一些由机器生成的规则。
智能化运维
1、让机器干机械的事 1、让机器干人的事
2、标准化是前提
2、机器学习+人工智能
在很长一段时间内,手工运维、自动化运维、智能化运维将三者并存
纯人工运维:没有规矩,不成方圆
• 纯手工敲命令查询相应的SQL来获取需要的信息,将信息记录并整理,对比后得出 结论和解决方法
• 高度依赖个体工程师价值,运维质量难以保障! • 师傅领进门,修行在个人。培养成本极高! • 人不够了?招!
运维大数据:机器学习为主,经验为辅
• 为机器学习提供素材,掌握系统业务节奏(全局和局部),明确 资源临界点(阀值)
• 智能化运维很大程度上取决于数据的质量及样本的丰富性。也就 是说,如果样本很少,数据本身带有倾向性,质量不高,那么 AIOps的准确性和效果就会大打折扣。
运维大数据:机器学习为主,经验为辅
自动化运维
少量运维专家+运维机器人
--参考:裴丹《落地生根:AIOps路线图》
标准自动化运维:让机器干机械的事 大规模机器,大数据量。应用场景如下:
• 实时监控 • 日志分析 • 自动巡检 • 快速部署 • 弹性扩容 • 故障处理(常规故障,二维故障)
自动化运维的前提
互联网企业具有天然的优势,在自动化运维方面会早一些。但传统企 业及中小企业几乎为零起步,大部分企业还处于原始人工运维的阶段。 标准化是最最最重要的前提,标准化指的是:
自动化运维技术及最佳实践
技术创新,变革未来
传统运维面临的挑战
排查问题
Client
嘿!业务出问题了!
Database
数据库供应商
• 谁也不知道系统到底怎么了?
OS供应商
OS
H/W
硬件供应商
NetWork
网络厂商 中间件厂商
Middle-Ware
应用开发商
Application
信息滞后
一、谁也不知道系统到底是什么情况,只有出事了才知道系统存在问 题,甚至出事了都不知道系统有啥问题 二、有时候领导都听说系统出问题了,运维部门还不知道 三、运维人员往往担任的是“救火队员”的角色。
oracle EM cloud control 12C
我们有时候会使用oracle EM来进行监控。 使用Oracle SQL Tunning和SQL Access Advise来进行SQL优化 优点:能够给出性能瓶颈点,可以快速对症下药 弊端: EM cloud control 12C 需要license且部署繁琐