工具平台智能化运维演进方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
工具、平台、智能化运维演进方法
刘鹤
Part
01
数据中心运维模式演变
数据中心的模式与演变
运维 模式
业务 模式
创新价值 收益提升 运维安全 服务质量 成本效率
多样的因素和配置
业务模式
企业自用
多用户 场地出租
管理模式 自主运维 部分外包
超算/云 全外包
组织岗位
强电岗
数据中心 经理
调度中心
弱电岗 网络运维 DCMO
执行辅助决策
机器人辅助流程指导和运行自动化
人工 运维
标准化 流程化
监测 自动化
流程 自动化
过程数据 运维逻辑
智能 辅助 决策
操作 自动化
机器
分析
朴素 贝叶
斯
逻辑 回归
决策
统计
判断
方法
树
应急管理为例
通知关键岗位 电工确认告警信息 检查外线电源,确
认供电恢复
检查UPS面板
故障复位 确认恢复
Chatops
能效管理
Energy Efficiency Management
容量管理
Capacity Management
资产管理
Asset Management
运维流程管理
Process Management
计划任务管理
Schedule Management
应急管理
Emergency Management
组织人员管理
Org.&Staff Management
3rd System
配置管理对象库 CMDB
标准化接口总线 Interface Bus
动环监控
网络监控
安防监控系统
系统监控
运维流程系统
培训管理系统
其它
一体化运维管理模型应用视角
Smart
Manager +
智能分析决策管理
Intelligent Analysis Management
Байду номын сангаас
1号DC-3F-301模块出现一级断电告警,断电区 域为核心业务区域可能导致因素为,2F-301-A01 UPS故障。应急流程PS-UPS-002已启动。影响 范围评估à
Chatops
【通知关键岗位】,值班主管(已响应)、数据 中心经理(已响应)、电工岗(未响应)
Chatops
电工岗已完成【电工确认告警信息】。正在执行 【检查外线电源,确认供电恢复】
断开电源关闭设备
无人或少人值守
优化 运维 资源
控制 运维 成本
提升 管理 能力
无人或少人值守
巡检为例
现状
• 覆盖系统监控未覆盖的领域 • 现场抄表及环境观察对监控
系统的准确性进行确认和补
充
人工巡检 监控系统
监控系统
整逐步覆盖运维全领域 保证监控准确性/满足集中化 管控成为要点
人工巡检
工作量大 性质逐步发生变化 趋势是降低繁杂的人工巡 检工作量
Org.&Staff Management
运营 运维
创新价值 收益率
运维安全 服务质量 成本效率
现状分析问题发现
分析视角和业务关系
创新与收益 运维安全 服务质量 成本效率
v 从成本中心变为运营中心 v 与业务紧密集合的应用场景
运营的分界线
管理上的难点
v 不透明——不知道具体做了什么运维 v 不直观——无法通览全局知悉运维状况 v 不准确——运维信息颗粒度粗,缺乏过程数据
组织人员管理 Org.&Staff Management
业务运营系统 整合
IT运维业务整合 &
其它场景
应用场景层
集中监控管理 Central
Monitoring Management
能效管理 Energy Efficiency Management
容量管理 Capacity Management
配置管理对象库 CMDB
标准化接口总线 Interface Bus
第三方采集系统 3rd Part
资产管理 Asset
Management
技术工具层
平台服务层
应用层模块的演变
运维与运营
决
集 中
策运
分维
析监
管测
理
管 理
租户管理
资源管理
计费合约 管理
成本管理
集中监控管理
Central Monitoring Management
集中运维监测管理视图
Central Operation Management Viewer
集中运维数据仓库
Central Operation DB
分析层
运维流程管理 Process
Management
计划任务管理 Schedule
Management
应急管理 Emergency Management
暖通岗 主机运维 运维工具
人员配置
…
服务 运营商
7x24 值班 … 审计
数据中心的模式与演变
业务 模式
创新价值
起发稳优卓
收益提升
始展健秀越
运维 模式
运维安全
级级级级级
服务质量
成本效率
数据中心建设路径规划图
起发稳优卓 始展健秀越 级级级级级
建设特性路径图
Part
02
建设目标
集中化管控
总控中心
q 运维信息集中统计 q 运维集中监测 q 制度流程优化
X数据中心
X数据中心
X数据中心
q 标准化运维执行 q 过程化数据采集 q 场景化运维操作
自动化智能化运维
即是目标又是手段
人工 运维
标准化 流程化
监测 自动化
流程 自动化
过程数据 运维逻辑
智能 辅助 决策
操作 自动化
数据驱动-逻辑总结 v 提升运维数据的质量 v 增强数据分析的能力 v 提高判断与处理的效率 v 减少人为因素的失误损失 v 高效合理协调运维资源
执行上的难点
v 不清晰——目标工作有哪些 v 不方便——平台多联动少,流程化成本高 v 难优化——如何聚焦更多的执行资源到更有价值的领域
能效管理
Energy Efficiency Management
容量管理
Capacity Management
资产管理
Asset Management
运维流程管理
Process Management
计划任务管理
Schedule Management
应急管理
Emergency Management
组织人员管理
集中运维监测管理视图
Central Operation Management Viewer
集中运维数据仓库
Central Operation DB
集中监控可视化平台
Central Monitoring Display
集中运维执行门户
Smart Work Space
集中监控管理
Central Monitoring Management
趋势
• 对已实施系统监控的领域进行现 场复核检查
• 通过集成监控系统复核功能协助 持续优化监控系统的准确性
• 移动化碎片化监控,随时随地监 管设备状态
Part
03
一体化运维建设方法 相关技术特性
一体化运维管理模型精简版
Smart
Manager +
智能分析决策管理
Intelligent Analysis Management
刘鹤
Part
01
数据中心运维模式演变
数据中心的模式与演变
运维 模式
业务 模式
创新价值 收益提升 运维安全 服务质量 成本效率
多样的因素和配置
业务模式
企业自用
多用户 场地出租
管理模式 自主运维 部分外包
超算/云 全外包
组织岗位
强电岗
数据中心 经理
调度中心
弱电岗 网络运维 DCMO
执行辅助决策
机器人辅助流程指导和运行自动化
人工 运维
标准化 流程化
监测 自动化
流程 自动化
过程数据 运维逻辑
智能 辅助 决策
操作 自动化
机器
分析
朴素 贝叶
斯
逻辑 回归
决策
统计
判断
方法
树
应急管理为例
通知关键岗位 电工确认告警信息 检查外线电源,确
认供电恢复
检查UPS面板
故障复位 确认恢复
Chatops
能效管理
Energy Efficiency Management
容量管理
Capacity Management
资产管理
Asset Management
运维流程管理
Process Management
计划任务管理
Schedule Management
应急管理
Emergency Management
组织人员管理
Org.&Staff Management
3rd System
配置管理对象库 CMDB
标准化接口总线 Interface Bus
动环监控
网络监控
安防监控系统
系统监控
运维流程系统
培训管理系统
其它
一体化运维管理模型应用视角
Smart
Manager +
智能分析决策管理
Intelligent Analysis Management
Байду номын сангаас
1号DC-3F-301模块出现一级断电告警,断电区 域为核心业务区域可能导致因素为,2F-301-A01 UPS故障。应急流程PS-UPS-002已启动。影响 范围评估à
Chatops
【通知关键岗位】,值班主管(已响应)、数据 中心经理(已响应)、电工岗(未响应)
Chatops
电工岗已完成【电工确认告警信息】。正在执行 【检查外线电源,确认供电恢复】
断开电源关闭设备
无人或少人值守
优化 运维 资源
控制 运维 成本
提升 管理 能力
无人或少人值守
巡检为例
现状
• 覆盖系统监控未覆盖的领域 • 现场抄表及环境观察对监控
系统的准确性进行确认和补
充
人工巡检 监控系统
监控系统
整逐步覆盖运维全领域 保证监控准确性/满足集中化 管控成为要点
人工巡检
工作量大 性质逐步发生变化 趋势是降低繁杂的人工巡 检工作量
Org.&Staff Management
运营 运维
创新价值 收益率
运维安全 服务质量 成本效率
现状分析问题发现
分析视角和业务关系
创新与收益 运维安全 服务质量 成本效率
v 从成本中心变为运营中心 v 与业务紧密集合的应用场景
运营的分界线
管理上的难点
v 不透明——不知道具体做了什么运维 v 不直观——无法通览全局知悉运维状况 v 不准确——运维信息颗粒度粗,缺乏过程数据
组织人员管理 Org.&Staff Management
业务运营系统 整合
IT运维业务整合 &
其它场景
应用场景层
集中监控管理 Central
Monitoring Management
能效管理 Energy Efficiency Management
容量管理 Capacity Management
配置管理对象库 CMDB
标准化接口总线 Interface Bus
第三方采集系统 3rd Part
资产管理 Asset
Management
技术工具层
平台服务层
应用层模块的演变
运维与运营
决
集 中
策运
分维
析监
管测
理
管 理
租户管理
资源管理
计费合约 管理
成本管理
集中监控管理
Central Monitoring Management
集中运维监测管理视图
Central Operation Management Viewer
集中运维数据仓库
Central Operation DB
分析层
运维流程管理 Process
Management
计划任务管理 Schedule
Management
应急管理 Emergency Management
暖通岗 主机运维 运维工具
人员配置
…
服务 运营商
7x24 值班 … 审计
数据中心的模式与演变
业务 模式
创新价值
起发稳优卓
收益提升
始展健秀越
运维 模式
运维安全
级级级级级
服务质量
成本效率
数据中心建设路径规划图
起发稳优卓 始展健秀越 级级级级级
建设特性路径图
Part
02
建设目标
集中化管控
总控中心
q 运维信息集中统计 q 运维集中监测 q 制度流程优化
X数据中心
X数据中心
X数据中心
q 标准化运维执行 q 过程化数据采集 q 场景化运维操作
自动化智能化运维
即是目标又是手段
人工 运维
标准化 流程化
监测 自动化
流程 自动化
过程数据 运维逻辑
智能 辅助 决策
操作 自动化
数据驱动-逻辑总结 v 提升运维数据的质量 v 增强数据分析的能力 v 提高判断与处理的效率 v 减少人为因素的失误损失 v 高效合理协调运维资源
执行上的难点
v 不清晰——目标工作有哪些 v 不方便——平台多联动少,流程化成本高 v 难优化——如何聚焦更多的执行资源到更有价值的领域
能效管理
Energy Efficiency Management
容量管理
Capacity Management
资产管理
Asset Management
运维流程管理
Process Management
计划任务管理
Schedule Management
应急管理
Emergency Management
组织人员管理
集中运维监测管理视图
Central Operation Management Viewer
集中运维数据仓库
Central Operation DB
集中监控可视化平台
Central Monitoring Display
集中运维执行门户
Smart Work Space
集中监控管理
Central Monitoring Management
趋势
• 对已实施系统监控的领域进行现 场复核检查
• 通过集成监控系统复核功能协助 持续优化监控系统的准确性
• 移动化碎片化监控,随时随地监 管设备状态
Part
03
一体化运维建设方法 相关技术特性
一体化运维管理模型精简版
Smart
Manager +
智能分析决策管理
Intelligent Analysis Management