UPTIME M O运维管理体系和运维实践
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
运维人员培养---带教计划
序 号
带教内容
2015年6月
2015年7月
2015年8月
第一周 第二周 第三周 第四周 第一周 第二周 第三周 第四周 第一周 第二周 第三周 第四周
1 设备现场巡检,熟悉现场
计划 20次 10次 10次 10次 10次 10次 10次 10次 10次 10次 10次 10次 执行 4次 10次 10次
体系建设成果
• 成熟运维管理体系的导入或优化 • 20余项运维体系管理文档 • 100余项手册及输出表单 • 有效提升数据中心可用性、性能和效率 • 运维管理水平达到国际标准,容易获得M&O认证证书
UPTIME M&O 体系辅导案例
客户
数据中心使用面积(㎡)北京M1数据中心7000㎡
招商银行
深圳数据中心 上海数据中心
我们的宗旨是以结果为导向, 协助客户在每个生命阶段做 好工作,保证系统的最高可 用性。
数据中心的生命周期
目录
现有运维管理标准介绍 UPTIME M&O运维管理体系简介 UPTIME M&O体系建设流程 运维实践分享
运维人员的重要性
从研究数据来看,称职的现场员工是保障数据中心稳定运行的 第二大功臣。 现场员工的技术能力要过关,能够完成份内职责,对于数据中 心运行的经验越丰富,可靠性就越有保障。
输入
· 导师制订第二阶段培养计划 · 技能培训(产品知识、产品维
护规程规范) · 根据第一阶段情况针对性提高
后续培养
输入 · 定期组织培训
和考试 · 员工之间交叉
培训
预评
第一阶段在岗实习期
初评
第二阶段在岗实习期
终评
后续培养
输出
· ETSS新员工岗 位培养预评表
· 培训考试记录 · 选定导师、实
习岗位
计划 执行
初定
细定
优化 初定
定稿
11
设备实际操作学习,参照《系统操作指引》
计划 执行
了解
掌握 了解
考试
12 监控系统认知学习
计划 执行
20次 20次 10次 10次 10次 10次 2次
13 空调系统自控逻辑学习
计划 执行
了解 熟悉 掌握 复习 考试
14 空调系统常用应急处理办法学习
计划 执行
了解 了解
Uptime Institute创始人-Ken Brill
基于故障防范的数据中心管理及 运行体系,以保持“业务持续性” 结果为导向
Uptime M&O运维管理体系和标准,是全球数 据中心领域权威的第三方研究机构Uptime研究 所提出的,用于指导和验证数据中心基础设施 的管理及运营水平。
提出较早,体系成熟。经过近几年推 广,得到业界广泛认可
体系认证
认证正审
• 认证正审(2天) • 审核报告(3周) • 认证授予
输出
• 正审分析报告 • 认证授予
审核顾问通过现场观察、文档审核、与数据中心员工的交谈来评定人员配置和组 织架构、设备维护、培训体系、计划、协调和管理、设备运行条件几大方面所要求的 检查条目是否存在并被有效执行。
体系建设成果
根据每月员工考评成 绩决定 根据 PPM 及 WO 完 成情况决定
每月汇报至客户审批 对供应商 KPI 进行考 评
每周四汇报客户 每周召开会议 根据实际情况优化工 作分配和流程
运维人员培训计划
运维人员培养模式
① 需 求调研
② 技 能模型建立
③模底评估
问卷调查
岗位技能标准要求
技能测试
联合项目管理:六大步骤、八个要点
副项目经理、总工程师、项目经理助理
Example of Duties:
Primary Duties-
1、 保证交付团队员工完成本职工作,并对工作质量进行监督考核; 2、 负责对每月消耗品、维修费用及其它费用进行审核; 3、 作为管理供应商的总接口人,进行供应商管理并每季度进行考核; 4、 监督 PPM 的执行进度及完成质量; 5、 负责跟踪重大改造和维修,每周审批工作计划; 6、 每周安排交付会议,向客户汇报工作进度; 7、 对于各岗位的职能和流程进行界定管理。 8、 负责项目交付人员整体素质提高、安排员工培训; 9、 负责与客户接口,对所有汇报给客户的报告进行审核;
2 空调整个系统管路路由查看
计划 1次 1次 1次 1次 1次 1次 1次 1次 1次 1次 1次 1次 执行 0次 3次 2次
3 巡检要点及维护要点学习
计划 了解 执行 了解
熟悉 熟悉
考试
4
日常保养工作落实,工程师需现场复查并记 计划
录存档
执行
5 运行事件跟踪处理
计划 执行
6 现场安全及空调系统基础原理知识培训
体系落地 STEP2:计划&体系导入
计划&体系导入
输出
• 设定目标时间和阶段里程碑
• 实施计划&分工
• 建立实施计划
• 数据中心运维体系模型
• 评估工作量
• 运维管理领域、子域手册模板
• 体系建设人员分工
• 操作手册、表单模板
• 体系导入
搭建体系管理模型(5大管理领域、22项管理子域)
管理性文件、操作性文件、相关输出表单模板确认
岗位匹配应用
联合技能认证
技能提升实施
技能差距GAP
分析
关
键
里
程
碑Байду номын сангаас
节
技能提升计划
点
⑥ 岗 位应用(可选)
⑤技能认证
④ 技 能培养
运维人员培养方法(导师制)
岗前培养
在岗培养(导师负责制)
输入
· 新员工简历 · 面试记录 · 引导培训
输入
· 导师制订培养培训计划 · 岗位培训(岗位职责、岗位要
求和基本素质、岗位流程规 范规章制度、岗位技能)
系统、完善的运维服务能力构建及评 价标准(M&O人员认证和场地认证)
数据中心事件的几个 重要定义
– 数据中心的事件不可以避免,从运行管 理人员的角度来看,就是多研究事件的 原因,尽量减少事件转化为故障的可能。
事件(Incident): 任何机房设备的异常动 作,定义为事件。
故障(Failure): 导致 IT系统中断的,定 义为故障。故障是事件 的子集。
体系文件分级
3 输出记录
2 管理指引
数据中心各项工作输 出文件及记录
数据中心管理要求的 具体实施方法
1 管理手册
数据中心管理 要求及管理方针
体系文件树
第一级: 管理手册
第二级: 管理指南
体系文件(示例)
管理 手册
操作 程序
管理 指引
操作 表单
目录
现有运维管理标准介绍 UPTIME M&O运维管理体系简介 UPTIME M&O体系建设流程 运维实践分享
数据中心运维体系建设时间节点
过渡期(开荒期)
1-2个月
磨合期
3-6个月
平稳期
6-9个月
成熟期
9个月后
UPTIME M&O运维体系建设流程
体系建设流程
• 现场调研&差距分析 ——了解数据中心运维现状,根据标准找出差距
• 计划制定&体系导入 ——制定体系建设实施计划;结合本地化特点,建立体系模型
• 体系文档建立 ——管理性文件、操作性文件、输出表单 撰写
2015年3月发布
2014年8月发布
2017年5月发布
中国数据中心产业发展联盟 中国数据中心工作组(CDCC) 国家标准化委员会
数据中心运维人员指导 从安全、人员、设施、运行四个方面界定
运维实践推广
指导数据中心服务能力构建、监视、测量和评价 外部评价机构对数据中心服务能力成熟度进行测量 和评价
UPTIME M&O 运维体系
主管 后备管理人员
总工 专业工程师 基础维护工程师
新员工
操作流程
操作流程(SOP、MOP、EOP)
要具备可操作、可执行性 SOP、MOP、EOP图像化 评审过的SOP、MOP、EOP严格遵照执行,不仅停留在纸面
根据实施计划,结合数据中心本地化的特点,对体系中涉及的管理性文件、操作性文件 及相关输出物进行撰写。
体系落地 STEP4:体系文档验证
文档验证
输出
• 管理流程验证 • 操作流程验证 • 体系的修订及完善 • 体系正式启用
• 管理手册、指南发布 • 操作手册发布 • 输出表单发布
体系文档建设完成后进行试运行工作,在试运行过程中对于发现的问题及时进行修订、 完善。同时再次验证运维体系的适用性。
拯救(Save): 因为人员的干预,或者 系统冗余,没有导致故 障的事件,称为拯救。
数据中心事件\故障分析
Root-Cause of Incidents
Root-Cause of Failures Saves by Category
目录
现有运维管理标准介绍 UPTIME M&O运维管理体系简介 UPTIME M&O体系建设流程 运维实践分享
• 体系文档验证及发布 ——验证体系文档的适用性,对试运行发现的问题进行完善和优化; 经过完善和优化后的运维体系正式发布
体系落地 STEP1:现场调研&差距分析
确定管理目标与差距分析
• 前期沟通 • 确定运维管理目标 • 现场调研 • 结合标准进行差距分析 • 提供差距分析报告
输出
• 现状调研问卷 • 调研分析报告
计划 执行
安全 安全
了解 了解 熟悉 熟悉 复习 考试
7 空调系统运行模式学习
计划 执行
了解 了解
掌握
复习
考试
8 学习心得体会(每人一篇)
计划 一篇 执行 一篇
一篇 一篇
一篇
一篇
一篇
一篇
一篇
一篇
一篇
一篇
一篇
一篇
9 日报,周报汇报
计划 执行
10
《设备巡检参数记录表格》《每日工作内容 表格》《每周工作内容及下周工作计划》制
输出
· 导师、直接主管定期 检查和监控新员工培 养进度和成长情况
· 培训记录
输出
· ETSS新员工岗 位培养评定表 (若不需第二 阶段培养,初 评即为终评)
输出
· 导师、直接主管定期 检查和监控新员工培 养进度和成长情况
· 培训记录
输出
· ETSS新员工岗 位培养评定表
· 定岗定级
输出
· 培训记录和考 试成绩
体系认证
认证预审
• 文件预审 • 流程执行情况预审 • 运维人员操作预审 • 审核问题点的整改、优化
输出
• 认证预审流程 • 认证预审内容清单 • 认证预审分析报告 • 认证预审问题整改计划
由具备Uptime ATD和ATS认证的顾问亲临数据中心,模拟Uptime M&O认证现场, 对数据中心运维团队进行审核,了解与认证通过之间的差距并给与改进意见。根据具体模 拟审核情况对运维体系作进一步的完善。
A5
供应商季度考评
季度
PPM 月度完成情
A6
月度
况汇总表
A7
工程审批表
即时
A8
周工作进度表
每周
工作描述和工作流
A9
季度
程优化
副项目经理 仓库管理员
总工程师
总工程师 副项目经理 副项目经理 副项目经理
项目经理 副项目经理
项目经理 副项目经理
项目经理 副项目经理
项目经理 项目经理 项目经理
项目经理
发送至 备注
Other Duties Performed1、安排完成客户临时安排的其它任务。
Record List A3; A4; A5; A6; A7; A8; A9; A1; A2;
编号
内容
频率
起草人
审批人
A1
人员更新计划
季度
副项目经理
项目经理
A2
培训计划
季度
副项目经理
项目经理
A3
员工月度考评
月度
A4 消耗品采购申请表 月度
熟悉
掌握
复习
考试
15 空调自控系统失效应急办法学习
计划 执行
了解 熟悉 掌握 复习 考试
整体带教计划(全员整体带教计划,类似学校 教学进度安排)
个人带教计划(导师根据个人情况制定的个人 带教计划)
运维人员培养---技能认证及梯队建设
人员技能培养认证流程
人员梯队建设
管理培训 专家级培训 高级培训 中级培训 初级培训
拯救
运维人员岗位职责JD(Job Description)
Job Title:
项目经理 (Position Definition: A)
General Statement of Duties:
项目接口人,对于项目总体交付质量负责
Supervision Received:
Supervision Exercised:
UPTIME M&O运维管理体系和运维实践
中科仙络 陈高平 29,Mar,2017
目录
现有运维管理标准介绍 UPTIME M&O运维管理体系简介 UPTIME M&O体系建设流程 运维实践分享
数据中心运维行业标准
2010年5月 UPTIME INSTITUTE
数据中心运维体系建设 数据中心服务能力评价
6000㎡ 4000㎡中国移动亦庄云数据中心25000㎡
贵州移动
贵阳数据中心
5000㎡
咨询进度 已通过认证 已通过认证 已通过认证 认证辅导中 认证辅导中
数据中心全生命周期咨询服务
数据中心的唯一价值是支持 企业的应用不间断地运行。
数据中心的规划、设计、建 造、运行,每个生命阶段都 有可能影响其最终运行的可 靠性。
体系落地 STEP3:体系文档建立
体系文档建立
• 体系管理手册撰写 • 体系管理指南撰写 • 体系维护操作文档撰写 • 相关输出表单建立
输出
• 数据中心运维管理手册 • 数据中心运维管理指南 • 数据中心运维操作手册(SOP\MOP\EOP) • 数据中心运维管理输出表单 • 数据中心运维管理文件树