智能故障预测与应用健康管理实践

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

– 故障存档
• 故障统计分析
– 故障演练和培训
目录
1 OPS的目标 & 工作 2 Qunar运维演进 3 故障预测与健康管理（PHM）简介 & 方法论 4 Qunar的实践 5 前景与问题
解决：
① 关联Appcode：明确报警来源，明确报警接收人，明确报警管理者 ② 监控长时间没有结束的报警：调整报警设置 or 人员培训 ③ 提供各种报警设置方法：单指标、多指标聚合、同比/环比、函数、组合 ④ 教育&培训
基石之故障记录
• 建立故障管理制度和流程
• 发现故障 • 申报故障 • 通报故障 • 故障跟踪 • 故障总结 • 跟进故障改进
1. 记录运维操作 2. 触发运维事件 3. 关联appcode
关联监控指标
1. 业务指标关联 2. 基础指标关联
关联报警
所有报警必须关联到appcode。明确报警有何处发出，被何人接收。
基石之分级
– 业务分类
• 订单类业务 • 核心业务服务 • 基础服务
– 应用分级
• 业务重要性（P1-4）
故障预测流程
1 指标采集
2 数据预处理
3 故障诊断
6 用户反馈
5 健康状态通知
4 故障预测
预测指标的选择
基础监控指标业务监控指标
基础报警业务报警
中间件日志系统日志业务日志
完整、客观真实、有效
应用关联关系运维事件
故障预测百度文库
01 策略&阈值静态阈值设置动态阈值设置指标检测策略
02 历史数据比对短期环比长期环比同比同比振幅
MTBF：平均无故障工作时间。在规定的工作环境条件下开始工作到出现第一个故障的时间的平均值。 MTTR：平均修复时间。是指可修复产品的平均修复时间，就是从出现故障到修复中间的这段时间。
已发生的故障
精确定位有效隔离快速解决
未发生的故障
如何应对故障
容量预测
故障预测
健康管理
目录
1 OPS的目标 & 工作 2 Qunar运维演进 3 故障预测与健康管理（PHM）简介 & 方法论 4 Qunar的实践 5 前景与问题
– 报警分级
• Warning • Critical • Unknown
– 运维事件分级
• 对应用健康的影响（L1 - 4）
基石之报警有效性
要求：报警作为预测的重要指标必须准确和独立现实：
① 滥设报警：不知道应该设置什么报警于是什么都报 ② 无效报警多：什么都报 = 什么都没报 ③ 报警规则不更新：业务发展+技术迭代后没有及时更新报警规则 ④ 报警接收人不清楚报警来源：人员交替没有做好报警交接工作 ⑤ 对报警-Bug之间的关系理解模糊：监控&报警并不能替代QA与责任心 ⑥ 观念错误：一键傻瓜式的报警设置是不存在的
• 故障上报标准化
• 标准上报表单 • 接受上报故障自动化 – 故障机器人
• 故障级别和升级
• 根据故障特征和损失程度对故障划分级别 • 根据级别规定解决时限和动员范围 • 超过时限仍未解决或损失扩大进行故障升级
– 故障Review原则和制度
• 确定参加人员 • 有时限要求 • 故障级别、责任部门最终确认 • 找到根本原因 • 形成改进计划
PHM方法论 – 模型
① 基于故障状态信息 ② 基于异常现象信息 ③ 基于使用环境信息 ④ 基于损伤标尺信息
PHM方法论 – 要求
01
及时性要求
预留足够的维修保障时间
经济性要求
预测成本 < 故障损失
02
可评价验证
结果有效性必须可量化验证
03
目录
1 OPS的目标 & 工作 2 Qunar运维演进 3 故障预测与健康管理（PHM）简介 & 方法论 4 Qunar的实践 5 前景与问题
■ 通知业务方、业务方Check
• 不及时，阻塞OPS并发执行任务，沟通成本极高
PPoorrtaal
■ 资源、CI/CD、监控、日志、基础服务集中管理 ■ 统一入口、统一认证/授权 ■ 应用全局唯一标识（appcode） ■ 基础运维数据同步共享 ■ 应用全寿命周期管理
手段和策略
故障事后处理
✓ 故障review ✓ 整改措施&追踪 ✓ 故障知识库
NASA提出VHM 飞行健康监控
进化为ISHM
JSF项目的启动
综合系统监控管理大大推动了
PHM的发展
PHM应用领域
PHM应用于互联网领域的探索
技术满足理论完备目标一致
大数据实施流处理，机器学习人工智能普及化理论界成熟的理论支撑，工业界充分的实践验证避免失效，提高应用可靠性
PHM方法论 – 流程
03 预测模型
指标趋势预测时序异常检测事件关联分析
04 故障知识库
故障场景匹配运维经验
故障预测
示例 – 动态阈值(移动平均值)
故障预测
示例 – 静态阈值(差分)
故障预测
示例 – 环比历史数据
故障反馈
机制健全
自上而下的建立规范和制度。提高全员对可靠性的认识。
渠道畅通
通过技术手段建立多种方便的反馈渠道。
响应及时
对反馈分类，对有效需求进行处理，甄别无效需求的内涵。
反应迅速
对有效反馈快速处理，有效的将处理结果呈现出来
健康看板
健康档案
运维事件时间轴
关联拓扑图
基石之 appcode
应用唯一标识
关联运维事件
1. 全局唯一 2. 无层级关系 3. 统一标识各种资源 4. 全生命周期跟踪
Qunar运维演进
运运维维自自动动化化
■ CMDB(OPSDB) ■ 监控平台(Watcher) ■ 独立领域自动化工具/平台 ■ 审批工作流 ■ IM（Qtalk）
人人工工//半半自自动动
■ 业务方提工单/邮件，人工审核
• 效率低，无法有效审计
■ OPS人工处理
• 操作无法标准化、脚本/工具无法收敛、知识无法沉淀
智能故障预测与应用健康管理实践
技术创新，变革未来
目录
1 OPS的目标 & 工作 2 Qunar运维演进 3 故障预测与健康管理（PHM）简介 & 方法论 4 Qunar的实践 5 前景与问题
OPS的目标
减少应用的故障产生
快速修复故障
OPS的职责
围绕这个公式展开的
可用度 = MTBF / (MTBF + MTTR)
故障实时发现
✓ 事件关联 ✓ 根因分析 ✓ 快速定位/止损
故障预测
目录
1 OPS的目标 & 工作 2 Qunar运维演进 3 故障预测与健康管理（PHM）简介 & 方法论 4 Qunar的实践 5 前景与问题
PHM历史沿革
故障预测与健康管理（Prognostic and Health Management，PHM）