数据中心基础设施运维风险管理技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 0 1 7 年第6 期
一 电信工程技术与标 茬 化
数 据 中心 基础 设 施运维 风 险 管理技 术
毛文 杰 ( 中国联 合 网络 通 信有 限公 司上 海市 分公 司,上 海 2 0 0 0 5 0 )
摘
要
史对数 l } l 心故 障高 发的l t , :  ̄ i t l 没施运维进行 分析总结 ,引入风险管理l 卡 H 芙理 沦
及故障记录进行容量管理等 分析研究,以确定哪些设 备 存在 “ 生病”的征兆 , 即使联系没箭厂家进行 换 与保养; 同时将 现场 隐患排查出来的 J x l 险按其 雨 进行优先级 分类,形成风险登记册 ,制定熬改方案 计 划及时进行 闭环处理 ,以提高通信网络的安命可靠性 。 根据 已制定数据 中心 础 没施健康检 消 ,确 定 运维关键指标 ,对选定机房进行伞面体检。 } 数据 中
施 工
环 境
图1 数据 中心基 础 设 施风 险 因果 分析 图
} 1 结 俞维护经验 I 实践 ,对数据 中心高危设备进行 风险识别 与隐患排 ,通 过对高危 设备 系统性 “ 体检 ”
及指标分析 ,以提高数据 巾心的 “ 免疫力” ,降低事故发 的概率。
. . . . 、
外 包运 维 控制 成 本
蠡任心 薄 弱 基 础 设 施 风险 成 因
\ 运 维 人员 不 足
/ 机 房阁边 在施 工 、
没 计人 淡经 验 不 足 系统 wenku.baidu.com , I 维 护 性 蔗 没 计理 念 过 j : 保守 、
/
防水施T质量差
机 房漏 水 一
r / 机房空气洁净 度差
险管理相 关理论 与技术工具 ,加入到 日常 实际运维工作 中以提高数据中心风险识别能力, 提前 “ 排雷”规避风险, 降低故 障发生的概率,提高 风险 对Z 日 , L s 力。同时引入质 量 控制 ( Q C)巾 P D C A相 关技 术 厅法,以确保运维 质 量 的持续改进 高效_ u 『 靠。
/ 周边排 水沟堵塞 \
机 房进 水 周边居民敏感 \ 机房噪 音投诉 — L
布线不合理 . 电 缆 过 细
系统 容 鼙 不 足 一 设 计i t 。 算 偏 差 \ 空 凋制 冷 壤不 足 ——
电缆发热 一
末 按网 施 工 设 备布 置 不 合理 \ —
设 计
对数据 中心基 础设施 ( 风、火、水、电)的运 行情 况 :
进行容量 、温升、设备保养等 面数据进行采集 与分忻 ,
6 7
电信工程技 术与标 准化
2 0 1 7 年 第B 酬
材 料
设 备
人 员
缺 乏培 训 与演 练
材 料 喷 髓 差 铜 管损 坏 \ — 一 设 备质 量降 低
基 础设 施 风险 识 别
高 危设 备巡 检清 单 数据 中心 运维 指 标 ; 数据 中 心 相关规 范与 标准 ; 热 成像 对 设备 及 线缆 进 行温 升
按图2 流程图所示实施。
晕 : 化返维指标 ,提升巡检深度,提高设备安 全运行
“ I 靠性 ; 及时 发现安全隐患 ,降低故障发生概率 ; 提高 竣J 验收成 效,减少前期工程的缺陷对后期运维安全的
影u 向; l J J 【 】 强外包运维卜 j 1 队的监督与管理 ,提高 外包团队
中 图分类 号
数据 中心由于客r 】 很多来 自金融、政府、B A T等行 业 ,其对数据 中心安全_ u J 靠性要求非常高 , 这就对运 维
危设备巡检清单与相关运维
时 各机聘按季度"张一
次类似 “ 体检”的巡检 ,将现场采集 来的设备运行数据
工怍提出了更高的要求。本文引入项 日管理 ( P M)中风
风险形成原因及总结 ; 制定风险应对方案及进度 计划。 数据 中心基础设施 风险应对方法 : 风险规避 : 尽早 闭环处理 ; 风险预防 : 应急预案或应急演练 ; 风险转移 :
设备厂家或合作方承诺。
— | 童 1 粤毒
综J 二 昕述 ,数据中心基础设施风险管理方法 ,可 以
1 数据 中心基础 设 施运维 管 理现 状
数据 巾心基础涉及供配 电、空凋、消防、安防、防 接地、弱电监控等子 系统 ,符系统之l ' q  ̄ f l 互关联、相 互影响 ,对于这样一 个复杂系统的运维管理 ,是 一个多 目标f 7 亡 f b' 1 9 决策过程,只有确保各系统整体最优,才能 使得数据 中心实 现高可靠性。 l _ j 前对f数据中心基础设 施运维管理 正在 引入风险管理相 关理论与技术T具进行
L ' 殳备厂 宋 控 制 成 本
运维 队 伍 币 稳 定 新 人较 多
一
运 维技 能 不 足
开 关质 量 差 \
运 维经 验 不 足 建 设投 资 项 目限 制
设 备余 量 不足 一
—
缺 乏 有 效 考核 机 制
开 关误 动 作 一 避 雷 器 { E 检 测 认 证 产 品 避 雷 器 频 繁损 坏
法 ,通过 埘』 } j 殳 施进
行 风险识别 、『 x 【 险 估 风险f 、 对 ,持续循环提高运维质量 与技术, 断排除故障发个隐心 ,以降低‘ } { : 敝发
牛的慨率 。
关键 词
数据 中 心; 险彭 1 、 1 1 『 J ;1 4 1 I  ̄ 汗仆; 险应对 ;运营风险库 T N 8 6 文献标 识 码 A 文章编 号 1 0 0 8 — 5 5 9 9( 2 0 1 7 )0 6 — 0 0 6 7 — 0 5
定性 分析 ,主要包括 : 根据 经制定完成的 础设施高
收稿 日 期: 2 0 1 6 1 2 2 6
心基础设施风险形成原因如图 1 所乐。
2 数据 中心 基础 设施风 险管 理
2 . I基础设施风险管理定义
根据高危设备巡检清单与设备安全i 薹 行关键性指标 ,
采用热成像仪、万用表、接地 电阻测 试仪等仪器仪表 ,
一 电信工程技术与标 茬 化
数 据 中心 基础 设 施运维 风 险 管理技 术
毛文 杰 ( 中国联 合 网络 通 信有 限公 司上 海市 分公 司,上 海 2 0 0 0 5 0 )
摘
要
史对数 l } l 心故 障高 发的l t , :  ̄ i t l 没施运维进行 分析总结 ,引入风险管理l 卡 H 芙理 沦
及故障记录进行容量管理等 分析研究,以确定哪些设 备 存在 “ 生病”的征兆 , 即使联系没箭厂家进行 换 与保养; 同时将 现场 隐患排查出来的 J x l 险按其 雨 进行优先级 分类,形成风险登记册 ,制定熬改方案 计 划及时进行 闭环处理 ,以提高通信网络的安命可靠性 。 根据 已制定数据 中心 础 没施健康检 消 ,确 定 运维关键指标 ,对选定机房进行伞面体检。 } 数据 中
施 工
环 境
图1 数据 中心基 础 设 施风 险 因果 分析 图
} 1 结 俞维护经验 I 实践 ,对数据 中心高危设备进行 风险识别 与隐患排 ,通 过对高危 设备 系统性 “ 体检 ”
及指标分析 ,以提高数据 巾心的 “ 免疫力” ,降低事故发 的概率。
. . . . 、
外 包运 维 控制 成 本
蠡任心 薄 弱 基 础 设 施 风险 成 因
\ 运 维 人员 不 足
/ 机 房阁边 在施 工 、
没 计人 淡经 验 不 足 系统 wenku.baidu.com , I 维 护 性 蔗 没 计理 念 过 j : 保守 、
/
防水施T质量差
机 房漏 水 一
r / 机房空气洁净 度差
险管理相 关理论 与技术工具 ,加入到 日常 实际运维工作 中以提高数据中心风险识别能力, 提前 “ 排雷”规避风险, 降低故 障发生的概率,提高 风险 对Z 日 , L s 力。同时引入质 量 控制 ( Q C)巾 P D C A相 关技 术 厅法,以确保运维 质 量 的持续改进 高效_ u 『 靠。
/ 周边排 水沟堵塞 \
机 房进 水 周边居民敏感 \ 机房噪 音投诉 — L
布线不合理 . 电 缆 过 细
系统 容 鼙 不 足 一 设 计i t 。 算 偏 差 \ 空 凋制 冷 壤不 足 ——
电缆发热 一
末 按网 施 工 设 备布 置 不 合理 \ —
设 计
对数据 中心基 础设施 ( 风、火、水、电)的运 行情 况 :
进行容量 、温升、设备保养等 面数据进行采集 与分忻 ,
6 7
电信工程技 术与标 准化
2 0 1 7 年 第B 酬
材 料
设 备
人 员
缺 乏培 训 与演 练
材 料 喷 髓 差 铜 管损 坏 \ — 一 设 备质 量降 低
基 础设 施 风险 识 别
高 危设 备巡 检清 单 数据 中心 运维 指 标 ; 数据 中 心 相关规 范与 标准 ; 热 成像 对 设备 及 线缆 进 行温 升
按图2 流程图所示实施。
晕 : 化返维指标 ,提升巡检深度,提高设备安 全运行
“ I 靠性 ; 及时 发现安全隐患 ,降低故障发生概率 ; 提高 竣J 验收成 效,减少前期工程的缺陷对后期运维安全的
影u 向; l J J 【 】 强外包运维卜 j 1 队的监督与管理 ,提高 外包团队
中 图分类 号
数据 中心由于客r 】 很多来 自金融、政府、B A T等行 业 ,其对数据 中心安全_ u J 靠性要求非常高 , 这就对运 维
危设备巡检清单与相关运维
时 各机聘按季度"张一
次类似 “ 体检”的巡检 ,将现场采集 来的设备运行数据
工怍提出了更高的要求。本文引入项 日管理 ( P M)中风
风险形成原因及总结 ; 制定风险应对方案及进度 计划。 数据 中心基础设施 风险应对方法 : 风险规避 : 尽早 闭环处理 ; 风险预防 : 应急预案或应急演练 ; 风险转移 :
设备厂家或合作方承诺。
— | 童 1 粤毒
综J 二 昕述 ,数据中心基础设施风险管理方法 ,可 以
1 数据 中心基础 设 施运维 管 理现 状
数据 巾心基础涉及供配 电、空凋、消防、安防、防 接地、弱电监控等子 系统 ,符系统之l ' q  ̄ f l 互关联、相 互影响 ,对于这样一 个复杂系统的运维管理 ,是 一个多 目标f 7 亡 f b' 1 9 决策过程,只有确保各系统整体最优,才能 使得数据 中心实 现高可靠性。 l _ j 前对f数据中心基础设 施运维管理 正在 引入风险管理相 关理论与技术T具进行
L ' 殳备厂 宋 控 制 成 本
运维 队 伍 币 稳 定 新 人较 多
一
运 维技 能 不 足
开 关质 量 差 \
运 维经 验 不 足 建 设投 资 项 目限 制
设 备余 量 不足 一
—
缺 乏 有 效 考核 机 制
开 关误 动 作 一 避 雷 器 { E 检 测 认 证 产 品 避 雷 器 频 繁损 坏
法 ,通过 埘』 } j 殳 施进
行 风险识别 、『 x 【 险 估 风险f 、 对 ,持续循环提高运维质量 与技术, 断排除故障发个隐心 ,以降低‘ } { : 敝发
牛的慨率 。
关键 词
数据 中 心; 险彭 1 、 1 1 『 J ;1 4 1 I  ̄ 汗仆; 险应对 ;运营风险库 T N 8 6 文献标 识 码 A 文章编 号 1 0 0 8 — 5 5 9 9( 2 0 1 7 )0 6 — 0 0 6 7 — 0 5
定性 分析 ,主要包括 : 根据 经制定完成的 础设施高
收稿 日 期: 2 0 1 6 1 2 2 6
心基础设施风险形成原因如图 1 所乐。
2 数据 中心 基础 设施风 险管 理
2 . I基础设施风险管理定义
根据高危设备巡检清单与设备安全i 薹 行关键性指标 ,
采用热成像仪、万用表、接地 电阻测 试仪等仪器仪表 ,