数据中心基础设施智能运维白皮书
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
任务执行检查(Ch检任务总览
模板及任务优化(Action):
优化巡检模板或者调整巡检任务,如根据实际情况动态调整巡检频次,或对 UPS 巡检增加检查项等。
6
数据中心基础设施智能运维白皮书
自动风险闭环管理
在传统模式下,风险主要来自人工输入,数字运维风险识别除了通过监控系统发现、专家组织识别外,在运维活动中会自 动识别风险,自动触发风险管理,如电子巡检中发现的不遵从项,可以直接产生一项风险(规则在巡检模板中定义),这 样可以给运维团队带来最大的好处:运维安全依赖 DCIM 系统,而不像传统模式下完全取决于运维团队的技能和责任心。
图 5 风险总览
图 6 风险闭环流程
7
数据中心基础设施智能运维白皮书
故障预测性维护
AI 在基础设施运维活动中有广阔的应用前景,特别是在设备故障预测方面,有效的样本数据结合人工经验能够快速训练出 较高准确度的故障预测模型,通过对设备故障的预测,可以把例行的巡检、保养变成更有针对性的运维活动,随着预测准 确率的不断提升,最终可以取消日常的人工运维。
APP 巡检(Do):
巡检 APP 支持问题快速记录、支持现场拍照、支持一键上传巡检报告。 • 按时发起巡检任务,包括每天定时巡检及每周定时巡检; • 发送短信或邮件进行提醒; • 巡检人用自己的账号登陆手机 App; • 获取当前巡检设备类型信息; • 根据设备类型信息,通过 DCIM 自动获取设备关键指标实时信息,跟设备面板显示示数做确认即可,对于一些重要 设备状态或运行参数进行拍照,设备的巡检结果实时上传后台,后台会利 AI 技术自动比对分析,确认巡检结果是 否合格。
运 维 流 程
传统运维
智能运维
运维演进 图1
智能化程度
2
数据中心基础设施智能运维白皮书
五大运维阶段
为了定义清楚传统运维、智能运维的变化和演进,这里划分了 L0~L5 阶段,并详细定义了每个 Level 的典型特征:
人工运维
规范运维
规范运维
数字运维
自动运维
完全自动运维
L0
L1
L2
L3
L4
L5
• 无标准化流程 • 无培训体系 • 个人承担职责 • 运维质量无法
数据中心基础设施智能运维 白皮书
数据中心基础设施智能运维白皮书
简IN介TRODUCTION
当前大部分数据中心的运维安全依赖于富有经 验、训练有素的运维团队,部分成熟的数据中心 已经开发出完善的运维流程和培训体系,并用以 减小偶发事件及人员变动对运维安全的冲击,少 数先进的数据中心已经在寻求通过数字化、智能 化手段来保障数据中心运维安全的可持续性。本 白皮书划分了从传统运维到智能化运维的 5 个阶 段,以及每个阶段的典型特征,一 方面,数据中 心的管理人员可以根据这些信息明确当前所处的
一点需要运维团队具备丰富的运维经验;3、一些经验丰富、 流程制度成熟的运维团队往往会陷入过于自满的误区,错 误排斥任何智能手段,拒绝对运维效率改善的建议,固执 的认为效率提升必然影响到运维安全。
智能运维阶段,会通过数字化、智能化手段不断的固化和 简化流程,“云化”运维专家,自动化手段取代人力等, 大幅提升运维效率,运维安全不受影响甚至更安全,智能 运维不仅能解决当前数据中心运维人力短缺的困境,还能 通过对流程、经验和技能的不断固化、优化来彻底摆脱数 据中心运维对人和团队的依赖。
可用性管理
• 机房巡检 • 基础设施巡检 • 设备维保 • 风险自动管理 • 重大检修 • 应急演练 • 设备全生命周期
容量管理
• 可视化 • IT 上架管理 • 容量需求管理
供应商管理
• 评价管理 • 合同管理 • 沟通管理 • 服务报告
综合管理
• 综合报表统计 • 机房运维报告 • 机房需求管理 • ITSM 系统对接 • 微服务化框架 • 域权限管理 • 移动 APP 架构
阶段,以及演进和优化的目标。另一方面,对于 处在传统运维阶段的团队,本白皮书介绍了数据 中心基础设施可用性管理全景及对应的数字化, 智能化措施,利用这些信息,运维团队能更好地 规范运维管理,制定智能化运维升级的计划,并 能指导运维团队从传统运维向智能运维转型,在 智能化运维工具的帮助下,实现运维更高效、更 安全并可持续的业务目标。
1
数据中心基础设施智能运维白皮书
数据中心智能运维演进
图 1 展示的是运维从传统运维到智能运维的阶段演进,横 坐标是智能化进展,纵坐标指的是运维流程的完备和复杂 度,在传统运维阶段,智能化手段不多,运维安全主要依 靠运维团队的经验和技能,管理的可持续性则依赖流程制 度,和不断完善培训体系,随着流程制度的不断完善,运 维效率会有所降低,但随着运维团队对流程制度熟练应用 后,效率会有所恢复,在传统运维阶段,存在几个潜在的 误区:1、对运维团队或者个人的过度依赖,往往导致熟练 流程建设及经验积累;2、对流程的僵化使用,最终会导致 运维团队对流程失去耐性,而导致实际运维操作完全偏离 流程本身,因为运维团队需要讲流程跟实际情况结合,在 不影响流程节点结果输出的情况下匹配实际情况,做到这
4
运维活动的数字化、智能化实践
数据中心基础设施智能运维白皮书
运维数字化是指对运维流程、人的活动、执行结果的数字化,通过数字化可以规范人的行为,降低人误操作导致的风险, 可以通过模板及任务的自定义及不断扩展来持续优化运维流程,有了全程数字记录,对执行结果不仅是可视,还可以对结 果进行分析,根据分析结果来优化运维管理,例如:
五大运维阶段l0l2l4l1l3l5?无标准化流程?无培训体系?个人承担职责?运维质量无法评估?标准化流程但僵化?有培训体系?依赖核心骨干?运维质量评估难可持续性差?流程电子化并持续优化?数字技术全面应用ai主导部分关键工作?运维质量可评估不再依赖人和团队?基础设施实现自动运维?运维效率达到极致?基础设施资源自动跟it及云业务协同?自动感知自动调整故障自动闭环?智能预测业务需求智能协同?数据中心无人值守?流程成熟完备?重视培训体系?部分的借助自动化工具?运维质量有保障重视团队建设可持续人工运维规范运维规范运维数字运维自动运维完全自动运维l0手工运维无标准运维流程依赖个人或团队的经验运维质量无法评估l1规范运维已经形成标准化流程可以通过培训等手段对运维团队循环赋能但普遍存在部分流程过于僵化或部分实践游离于流程之外的问题运维效率较低对团队及核心骨干的依赖度很高运维质量评估难自动化程度较低使用的监控自动控制等系统辅助运维l2成熟运维运维流程趋于成熟运维质量有较好的保障但运维效率不高重视运维团队的建设团队能力通常有较好的延续性但无法自主优化
电子巡检
“数据中心运维人员定期会对机房进行巡检,检查机房安防、消防、空调、配电 等是否正常,机房有无异味等内容,传统运维使用纸质表格对巡检项打勾或叉, 以及相关备注。纸质巡检不方便查阅,很难做出优化分析,电子巡检数字化所 有流程和人的活动,能够监督 IT 运维人员执行情况,并给出用户最关注的分析 建议,如巡检执行情况、执行效率、完成进度等。通过 DCIM+APP 的方式,实 现日常巡检的规范化和电子化。
评估
• 标准化流程但 僵化
• 有培训体系
• 依赖核心骨干
• 运维质量评估 难,可持续性 差
• 流程成熟完备
• 重视培训体系
• 部分的借助自 动化工具
• 运维质量有保 障,重视团队 建设,可持续
• 流程电子化并 持续优化
• 数字技术全面 应用,AI 主导 部分关键工作
• 运维质量可评 估,不再依赖 人和团队
3
数据中心基础设施智能运维白皮书
基础设施运维全景
基础设施运维涵盖了几大块工作:物理安全管理、基础设施可用性管理、机房容量管理、供应商管理及综合管理,其中可 用性管理是运维最主要的工作,包括了大部分日常活动,如巡检、设备定期维保、风险管理、检修和应急演练等
数据中心数字运维平台
物理安全
• 进出登记 • 机房巡检 • 权限审视 • Hosting 授权 • 刷卡记录 • 存储介质记录 • 钥匙审视 • 物理安全 CP
电子巡检通过系统自动执行 PDCA 循环,实现运维过程的移动化、标准化、可 视化、可优化:
Plan Action
Do Check
任务管理(Plan):
系统提供日常巡检任务模板,管理员可根据模板设计任务名称、巡检内容、巡检路线、巡检频次等,并通过任务单的方式 下发给巡检工程师。
5
数据中心基础设施智能运维白皮书
DCIM
AI 训练平台
模型导入
声音 / 输出波形 / 温升曲线训练
音视频采集
采集器
声音传感
市电
变压器
配电
谐波
三相 / 铁芯温度 环境温度
三相电流 / 电压 / 功率 / 负载率 负载输出波形
图7
如图 7 是一个典型的对供电链路进行 AI 故障预测的示意图,AI 训练平台负责故障预测模型的训练,训练需要的样本数据来 自 DCIM 采集系统,样本数据包括了故障特征数据:如温度、电压 / 电流、声音和图像等,人工经验或者已经测定的规则 可以大大降低训练难度,并可以取得更好的预测效果,如图 8 中电容等电子元器件故障跟温升的相对确定的关系,可以帮 助 AI 获得更好的预测能力。
温度
预测
过载
告警阈值
时间 图8
8
L2 成熟运维
运维流程趋于成熟,运维质量有较好的保障,但运维效率不高,重视运维团队的建设,团队能力通 常有较好的延续性,但无法自主优化;辅助系统较为完备,部分核心子系统具备自动化能力
L3 数字运维
在 L2 的能力基础上,通过信息技术数字化运维活动,管理和驱动运维流程的执行,且基于大数据 分析能持续优化,运维质量可以准确评估,运维效率大幅提升;关键子系统如,配电和制冷实现自 动运维,基础设施资源能够感知 IT 及云业务需求变化并完成闭环管理,AI 等机器智能在节能、故 障预测等特定领域取代人类智能
L4 自动运维
基础设施实现自动运维,不再需要单独的基础设施工程师,通常由 IT 工程师兼职,基础设施运维 效率达到极致,运维流程复杂度大幅下降,基础设施资源能够根据 IT 及云业务需求变化动态调整, 机器智能全面覆盖运维工作
L5 完全自动运维
基础设施自动感知及预测 IT 及云业务自动做出最佳调整,对于可能的业务故障闭环自动化管理, 真正实现数据中心无人运维
• 基础设施实现 自动运维
• 运维效率达到 极致
• 基础设施资源 自动跟 IT 及云 业务协同
• 自动感知、自 动调整,故障 自动闭环
• 智能预测业务 需求,智能协 同
• 数据中心无人 值守
L0 手工运维
L1 规范运维
无标准运维流程,依赖个人或团队的经验,运维质量无法评估
已经形成标准化流程,可以通过培训等手段对运维团队循环赋能,但普遍存在部分流程过于僵化, 或部分实践游离于流程之外的问题,运维效率较低,对团队及核心骨干的依赖度很高,运维质量评 估难,自动化程度较低,使用的监控、自动控制等系统辅助运维
模板及任务优化(Action):
优化巡检模板或者调整巡检任务,如根据实际情况动态调整巡检频次,或对 UPS 巡检增加检查项等。
6
数据中心基础设施智能运维白皮书
自动风险闭环管理
在传统模式下,风险主要来自人工输入,数字运维风险识别除了通过监控系统发现、专家组织识别外,在运维活动中会自 动识别风险,自动触发风险管理,如电子巡检中发现的不遵从项,可以直接产生一项风险(规则在巡检模板中定义),这 样可以给运维团队带来最大的好处:运维安全依赖 DCIM 系统,而不像传统模式下完全取决于运维团队的技能和责任心。
图 5 风险总览
图 6 风险闭环流程
7
数据中心基础设施智能运维白皮书
故障预测性维护
AI 在基础设施运维活动中有广阔的应用前景,特别是在设备故障预测方面,有效的样本数据结合人工经验能够快速训练出 较高准确度的故障预测模型,通过对设备故障的预测,可以把例行的巡检、保养变成更有针对性的运维活动,随着预测准 确率的不断提升,最终可以取消日常的人工运维。
APP 巡检(Do):
巡检 APP 支持问题快速记录、支持现场拍照、支持一键上传巡检报告。 • 按时发起巡检任务,包括每天定时巡检及每周定时巡检; • 发送短信或邮件进行提醒; • 巡检人用自己的账号登陆手机 App; • 获取当前巡检设备类型信息; • 根据设备类型信息,通过 DCIM 自动获取设备关键指标实时信息,跟设备面板显示示数做确认即可,对于一些重要 设备状态或运行参数进行拍照,设备的巡检结果实时上传后台,后台会利 AI 技术自动比对分析,确认巡检结果是 否合格。
运 维 流 程
传统运维
智能运维
运维演进 图1
智能化程度
2
数据中心基础设施智能运维白皮书
五大运维阶段
为了定义清楚传统运维、智能运维的变化和演进,这里划分了 L0~L5 阶段,并详细定义了每个 Level 的典型特征:
人工运维
规范运维
规范运维
数字运维
自动运维
完全自动运维
L0
L1
L2
L3
L4
L5
• 无标准化流程 • 无培训体系 • 个人承担职责 • 运维质量无法
数据中心基础设施智能运维 白皮书
数据中心基础设施智能运维白皮书
简IN介TRODUCTION
当前大部分数据中心的运维安全依赖于富有经 验、训练有素的运维团队,部分成熟的数据中心 已经开发出完善的运维流程和培训体系,并用以 减小偶发事件及人员变动对运维安全的冲击,少 数先进的数据中心已经在寻求通过数字化、智能 化手段来保障数据中心运维安全的可持续性。本 白皮书划分了从传统运维到智能化运维的 5 个阶 段,以及每个阶段的典型特征,一 方面,数据中 心的管理人员可以根据这些信息明确当前所处的
一点需要运维团队具备丰富的运维经验;3、一些经验丰富、 流程制度成熟的运维团队往往会陷入过于自满的误区,错 误排斥任何智能手段,拒绝对运维效率改善的建议,固执 的认为效率提升必然影响到运维安全。
智能运维阶段,会通过数字化、智能化手段不断的固化和 简化流程,“云化”运维专家,自动化手段取代人力等, 大幅提升运维效率,运维安全不受影响甚至更安全,智能 运维不仅能解决当前数据中心运维人力短缺的困境,还能 通过对流程、经验和技能的不断固化、优化来彻底摆脱数 据中心运维对人和团队的依赖。
可用性管理
• 机房巡检 • 基础设施巡检 • 设备维保 • 风险自动管理 • 重大检修 • 应急演练 • 设备全生命周期
容量管理
• 可视化 • IT 上架管理 • 容量需求管理
供应商管理
• 评价管理 • 合同管理 • 沟通管理 • 服务报告
综合管理
• 综合报表统计 • 机房运维报告 • 机房需求管理 • ITSM 系统对接 • 微服务化框架 • 域权限管理 • 移动 APP 架构
阶段,以及演进和优化的目标。另一方面,对于 处在传统运维阶段的团队,本白皮书介绍了数据 中心基础设施可用性管理全景及对应的数字化, 智能化措施,利用这些信息,运维团队能更好地 规范运维管理,制定智能化运维升级的计划,并 能指导运维团队从传统运维向智能运维转型,在 智能化运维工具的帮助下,实现运维更高效、更 安全并可持续的业务目标。
1
数据中心基础设施智能运维白皮书
数据中心智能运维演进
图 1 展示的是运维从传统运维到智能运维的阶段演进,横 坐标是智能化进展,纵坐标指的是运维流程的完备和复杂 度,在传统运维阶段,智能化手段不多,运维安全主要依 靠运维团队的经验和技能,管理的可持续性则依赖流程制 度,和不断完善培训体系,随着流程制度的不断完善,运 维效率会有所降低,但随着运维团队对流程制度熟练应用 后,效率会有所恢复,在传统运维阶段,存在几个潜在的 误区:1、对运维团队或者个人的过度依赖,往往导致熟练 流程建设及经验积累;2、对流程的僵化使用,最终会导致 运维团队对流程失去耐性,而导致实际运维操作完全偏离 流程本身,因为运维团队需要讲流程跟实际情况结合,在 不影响流程节点结果输出的情况下匹配实际情况,做到这
4
运维活动的数字化、智能化实践
数据中心基础设施智能运维白皮书
运维数字化是指对运维流程、人的活动、执行结果的数字化,通过数字化可以规范人的行为,降低人误操作导致的风险, 可以通过模板及任务的自定义及不断扩展来持续优化运维流程,有了全程数字记录,对执行结果不仅是可视,还可以对结 果进行分析,根据分析结果来优化运维管理,例如:
五大运维阶段l0l2l4l1l3l5?无标准化流程?无培训体系?个人承担职责?运维质量无法评估?标准化流程但僵化?有培训体系?依赖核心骨干?运维质量评估难可持续性差?流程电子化并持续优化?数字技术全面应用ai主导部分关键工作?运维质量可评估不再依赖人和团队?基础设施实现自动运维?运维效率达到极致?基础设施资源自动跟it及云业务协同?自动感知自动调整故障自动闭环?智能预测业务需求智能协同?数据中心无人值守?流程成熟完备?重视培训体系?部分的借助自动化工具?运维质量有保障重视团队建设可持续人工运维规范运维规范运维数字运维自动运维完全自动运维l0手工运维无标准运维流程依赖个人或团队的经验运维质量无法评估l1规范运维已经形成标准化流程可以通过培训等手段对运维团队循环赋能但普遍存在部分流程过于僵化或部分实践游离于流程之外的问题运维效率较低对团队及核心骨干的依赖度很高运维质量评估难自动化程度较低使用的监控自动控制等系统辅助运维l2成熟运维运维流程趋于成熟运维质量有较好的保障但运维效率不高重视运维团队的建设团队能力通常有较好的延续性但无法自主优化
电子巡检
“数据中心运维人员定期会对机房进行巡检,检查机房安防、消防、空调、配电 等是否正常,机房有无异味等内容,传统运维使用纸质表格对巡检项打勾或叉, 以及相关备注。纸质巡检不方便查阅,很难做出优化分析,电子巡检数字化所 有流程和人的活动,能够监督 IT 运维人员执行情况,并给出用户最关注的分析 建议,如巡检执行情况、执行效率、完成进度等。通过 DCIM+APP 的方式,实 现日常巡检的规范化和电子化。
评估
• 标准化流程但 僵化
• 有培训体系
• 依赖核心骨干
• 运维质量评估 难,可持续性 差
• 流程成熟完备
• 重视培训体系
• 部分的借助自 动化工具
• 运维质量有保 障,重视团队 建设,可持续
• 流程电子化并 持续优化
• 数字技术全面 应用,AI 主导 部分关键工作
• 运维质量可评 估,不再依赖 人和团队
3
数据中心基础设施智能运维白皮书
基础设施运维全景
基础设施运维涵盖了几大块工作:物理安全管理、基础设施可用性管理、机房容量管理、供应商管理及综合管理,其中可 用性管理是运维最主要的工作,包括了大部分日常活动,如巡检、设备定期维保、风险管理、检修和应急演练等
数据中心数字运维平台
物理安全
• 进出登记 • 机房巡检 • 权限审视 • Hosting 授权 • 刷卡记录 • 存储介质记录 • 钥匙审视 • 物理安全 CP
电子巡检通过系统自动执行 PDCA 循环,实现运维过程的移动化、标准化、可 视化、可优化:
Plan Action
Do Check
任务管理(Plan):
系统提供日常巡检任务模板,管理员可根据模板设计任务名称、巡检内容、巡检路线、巡检频次等,并通过任务单的方式 下发给巡检工程师。
5
数据中心基础设施智能运维白皮书
DCIM
AI 训练平台
模型导入
声音 / 输出波形 / 温升曲线训练
音视频采集
采集器
声音传感
市电
变压器
配电
谐波
三相 / 铁芯温度 环境温度
三相电流 / 电压 / 功率 / 负载率 负载输出波形
图7
如图 7 是一个典型的对供电链路进行 AI 故障预测的示意图,AI 训练平台负责故障预测模型的训练,训练需要的样本数据来 自 DCIM 采集系统,样本数据包括了故障特征数据:如温度、电压 / 电流、声音和图像等,人工经验或者已经测定的规则 可以大大降低训练难度,并可以取得更好的预测效果,如图 8 中电容等电子元器件故障跟温升的相对确定的关系,可以帮 助 AI 获得更好的预测能力。
温度
预测
过载
告警阈值
时间 图8
8
L2 成熟运维
运维流程趋于成熟,运维质量有较好的保障,但运维效率不高,重视运维团队的建设,团队能力通 常有较好的延续性,但无法自主优化;辅助系统较为完备,部分核心子系统具备自动化能力
L3 数字运维
在 L2 的能力基础上,通过信息技术数字化运维活动,管理和驱动运维流程的执行,且基于大数据 分析能持续优化,运维质量可以准确评估,运维效率大幅提升;关键子系统如,配电和制冷实现自 动运维,基础设施资源能够感知 IT 及云业务需求变化并完成闭环管理,AI 等机器智能在节能、故 障预测等特定领域取代人类智能
L4 自动运维
基础设施实现自动运维,不再需要单独的基础设施工程师,通常由 IT 工程师兼职,基础设施运维 效率达到极致,运维流程复杂度大幅下降,基础设施资源能够根据 IT 及云业务需求变化动态调整, 机器智能全面覆盖运维工作
L5 完全自动运维
基础设施自动感知及预测 IT 及云业务自动做出最佳调整,对于可能的业务故障闭环自动化管理, 真正实现数据中心无人运维
• 基础设施实现 自动运维
• 运维效率达到 极致
• 基础设施资源 自动跟 IT 及云 业务协同
• 自动感知、自 动调整,故障 自动闭环
• 智能预测业务 需求,智能协 同
• 数据中心无人 值守
L0 手工运维
L1 规范运维
无标准运维流程,依赖个人或团队的经验,运维质量无法评估
已经形成标准化流程,可以通过培训等手段对运维团队循环赋能,但普遍存在部分流程过于僵化, 或部分实践游离于流程之外的问题,运维效率较低,对团队及核心骨干的依赖度很高,运维质量评 估难,自动化程度较低,使用的监控、自动控制等系统辅助运维