从测试验证开始的数据中心
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
测试验证已经成为每一个数据 中心建设工程的标准流程。
|
4
测试验证的目标就是 发现数据中心所有现 在及潜在的弱点
好的验证服务就是为业主
史泰龙在“金蝉脱壳”里面作为监狱设计的高级顾问, 协助监狱管理者发现设计漏洞的最好方式就是先变为 监狱里的犯人,然后找到监狱的漏洞,以越狱成功来 证明监狱的问题。 数据中心验证的目标也是通过对所有故障可能性的设 想和模拟,来找到数据中心在设计和建设过程中留下 的问题。
710天运维咨询工作内容运维管理体系导入和优化任职资格提升28全套培训资料和教程运维咨询工作内容运维管理体系导入和优化任职资格提升29数据中心管理体系文件树mo文件编号文件名称对应指南手册表单维护部门当前版本发布状态发布时间使用范围主责部门会签部门管理领域ms01人员配置和组织架构管理mg01运维人员管理指南mg02运维人员职业资质管理指南mg03运维团队组织架构管理指南ms02设备维护管理mg04预防性维护工作管理指南mg05机房清洁工作管理指南mg06设施维护档案管理指南mg07供应商管理指南mg08设施延迟维护管理指南mg09设施维护计划管理指南mg10设施全生命周期管理指南mg11设施故障分析管理指南ms03培训管理mg12内部员工培训管理指南mg13供应商培训管理指南ms04计划协调管理mg14现场文档运行条件管理mg18负载管理指南mg19运行状态设定管理指南运维咨询工作内容运维管理体系导入和优化任职资格提升30中科仙络的成长历程创立自2004年开始中据中心的咨询测试验证培训和资讯服务
|
9
基于故障模拟实验的集成验证 测试(IST)是整个验证测试 最重要的部分。
集成验证测试(IST)将 基于假负载(包括机架式 假负载),模拟实际IT使 用场景,同时模拟市电中 断、关健设备故障等场景, 测试系统的抗故障能力, 包括运维团队的应急应对 能力,是数据中心的“路 试”和“碰撞实验”。
|
发现当前的问题,并且提 醒业主所有的单点故障点, 为潜在的问题敲警钟。
|
5
测试验证的 对象
我们讨论的数据中心验证主要关注于基础设施部分,包括了电气、
空调、弱电、安防、建筑五大部分。其中,对于数据中心可靠性影 响最大,也是初期投资占比最高的电气和空调系统,又是验证关注 的核心部分。
中科仙络
6
测试验证的内容之一:环境类参数
上岗前培训 流程培训 演练
供应商的培训
|
19
计划、协调和管理
量管理
|
20
运行条件
负载管理 运行状态设定
|
21
运维咨询工作流程
现状调研 确定运维管理目标
中科仙络为用户提供:
制定咨询实施计划
10
验证的工作流程
清晰的流程、明确的工作界面和职责划分,是验证成功的基础保障。
|
11
实施现场每日工作流程
启动会议
进场检查
现场检测
结束整理
每日总结
•当日时间安排 •主要工作内容 •各方工作职责 •注意事项
•人员 •仪器仪表 •文件资料 •防护用具
•按照测试流程进行 逐项检测并记录结 果 •测试过程中严格遵 守安全操作规程, 保证安全测试和测 试进度 •如现场无法进行检 测,可在与相关人 员沟通后更改当日
数据中心机房内部的环境参数对于数据中心的长效稳定运行极为重要:合适的温度是服务器 最重要的环境要求;而空气洁净度也会直接影响IT设备的寿命。因此环境类参数是验证测试 的重要一环。
温度
噪声
湿度
机房环境参数
照度
洁净度
正压值
7
测试验证的内容之二:设备设施类测试
数据中心基础设施中对于可用性及可靠性影响最大的子系统是供配电子系统。随着数据中心 热密度的上升,空调冷却系统的重要性也随之上升。而安防监控的参数设置可能影响以上两 个系统的动作,因此这三个系统的验证测试也是数据中心验证的主要工作。
|
24
运维咨询工作内容
——运维管理体系导入和优化、任职资格提升
关注点
• • • • • •
程序规范化 审查标准化 执行程序化 培训的实用性 持续不断的过程改进 记录保存
|
25
运维咨询工作内容
——运维管理体系导入和优化、任职资格提升
工作内容
• •
运维管理体系导入和优化——运维团队建设的建议 运维管理体系导入和优化——文件体系的导入和优化 五大管理领域 21 个管理子域 130 余项文档(某些单项下可能包含数个文件)
30
我们面向数据中心全 生命周期的咨询服务
数据中心的唯一价值是支
数据中心的生命周期
持企业的应用不间断地运 行。
数据中心的规划、设计、
建造、运行,每个生命阶 段都有可能影响其最终运 行的可靠性。
我们的宗旨是以结果为导
向,协助客户在每个生命 阶段做好工作,保证系统 的最高可用性。
|
31
我们的团队
• •
运维管理体系的导入和优化——标识体系的导入和优化 任职资格提升——定制化培训
11个主题
行业专家、 Uptime 认证工程师、经验丰富的顾问 7-10 天 工信部证书
| 26
运维咨询工作内容
——运维管理体系导入和优化、任职资格提升
预估投入人员和周期
•
专职文档编写人员 6 人
M&O认证的辅导咨询服务
运维管理体系导入和优化
• 运维团队建设 • 文件体系的导入和优化(制度、流程、 管理方式) • 标识体系的导入和优化
本地化的运维咨询服务
任职资格提升(定制化培训)
| 22
运维咨询工作内容 ——现状调研、确定目标、实施计划
现状调研与确定运维管理目标
• • •
了解运维现状 确定运维管理目标 分析现状与目标之间的差距
•
• • •
后备技术团队10余人
专家团队 3 人 导入或者优化周期: 2-10 个月 定制化培训: 7-10 天
|
27
运维咨询工作内容
——运维管理体系导入和优化、任职资格提升
交付成果
• • • •
130 余项文档 标识体系 7-10 天的培训 全套培训资料和教程
|
28
运维咨询工作内容
——运维管理体系导入和优化、任职资格提升
|
32
我们的方法论
基于故障防范-这是我们
看问题的角度。
兼顾数据中心的硬件-拓
扑架构,以及数据中心的 软件-运行管理,是我们 的理念。
Uptime Institute:
Uptime Institute:
数据中心拓扑架构 等级标准
数据中心运行管理 等级标准
|
33
我们的客户
|
34
|
35
供配电 系统
冷却系 统
安防监 控系统
基于故障模拟的集成测试(IST) 系统间测试 系统内测试 关键设备测试 (Factory Acceptance Test, Site Acceptance Test)
8
系统间的相互影响是 测试验证需要关注的 要点之一
数据中心各系统既相互独 立,又紧密关联,表象某 一系统出现问题有可能是 源自于另一系统的原因。 验证的目标之一就是要检 验系统之间互动的后果。
|
29
中科仙络的成长历程
专注于数据中心咨询业务,我们一直在成长……
创立
自2004年开始,中 科仙络就专注于数 据中心的咨询、测 试验证、培训、和 资讯服务。
大型IDC经验
2008年,成为世纪 互联集团的一部分, 负责世纪互联所有 数据中心的建设、 测试验证、和运维。 积累了作为大型数 据中心管理者的管 理经验。2010年中 科仙络脱离世纪互 联。
验证测试需要时间。很多工程 项目管理者往往因为建设工期 紧、领导对于投产时间急而没 有留出验证的时间。这会为后 期的安全运行埋下诸多隐患。 我们的建议是:尽早准备验证 工作,为验证测试留出时间。
|
13
测试验证是运维的准备阶段,验证通过之后,数据中心正 式投产,运维也就进入了实施阶段。
良好的运行管理可以极大降低数据中心的故障率,而缺乏好的运行管 理,即使是Tier 4 级别的硬件投资,也可能有比较高的故障发生率。
制定咨询实施计划
• • •
咨询范围 咨询深度 工作量确认
•
咨询进度计划
| 23
运维咨询工作内容
——运维管理体系需求,建立一套既符合业内认可的运
维标准,又具备实效性的运维体系,以便于客户能够长期沿用这套规 范化的管理制度,真正提升运维水平,确保机房运行的可靠性。
优秀的咨询团队是我们业务 的基础。 我们的团队成员均有丰富的 数据中心建设及运行管理经 验。我们是唯一一个同时拥 有Uptime Institute 任证的 数据中心设计工程师(ATD) 及运行工程师(ATS)的咨 询机构。我们可以协助客户 向国际顶尖水平看齐并超越。 我们也有幸拥有国内最资深 的中科院专家顾问。他们的 专业涵盖了电气、空调、弱 电、建筑等所有关键专业, 为我们的客户提供符合中国 国情的最佳方案。
从测试验证开始的数据中心 基础设施运维之路
| 1
数据中心的运维之路从何开始?
|
2
数据中心的运维之路从投产运行开始? 我们的观点:测试验证是数据中心运行的起点,
运维团队应该从测试验证开启运维之路!
熟悉管理对象——系统和设备 积累实际操作经验——唯一机会
验证操作手册、应急流程等文档的正确性——唯一机会
|
14
确保数据中心良好运行的三个关键因素
合格的人员及清晰的 组织架构。
周密的维护保养流程 和规章制度。
完善及持续的培训, 确保操作人员了解特 定机房最新的配置和 操作流程。
|
15
基于故障防范的数据中心运维体系
人员配置和组织架构 设备维护 培训
计划、协调和管理
运行条件
|
16
人员配置和组织架构
国家级证书
2013年1月,与工 信部计算机与微电 子发展研究中心签 署战略合作协议, 可共同评测及颁发 国家机房标准等级 证书。
国际标准
与美国Uptime Institute 签订中国 地区战略联盟协议。 协助国内客户提升 数据中心建设及运 行水平,看齐并超 越国际标准。
用户认可
2013年11月,中科 仙络“数据中心生 命周期技术服务解 决方案”获得中国 计算机用户协会颁 发的“金融科技企 业用户信赖产品” 奖项。
人员配置 • 数量——与工作量相匹配 • 素质——与工作要求相匹配 组织架构 • 工作职责 • 工作方式 • 工作界面
|
17
设备维护(持续运行的保障和可追溯性)
预防性维护工作
计划 操作流程 档案记录
设施延迟维护 供应商支持 机房清洁工作 全生命周期
|
18
培训
内部员工的培训
•确认已完成当日所 有检测项目 •测试项结束后所有 设备参数设定、物 料等恢复原有状态 •及时清理打扫测试 现场遗留的垃圾
•通报当日实际测试 进度,对未完成或 者更改的测试项目 进行说明 •总结检测不合格项 •汇报第二天测试项 目及需要的相关支 持
检测项目
现场测试期间每日下午5点提交《每日测试报告》
|
3
数据中心测试 验证的定义
数据中心测试验证是一
个系统性的质量验证过 程。此过程验证并记录 该数据中心设施作为一 个整体及其所有的设备、 子系统满足用户的设计 目标和运行要求。
-ASHRAE 美国采暖、 制冷与空调工程师学会
测试验证不应仅满足于“测试”相关的设备功能指标,更重要的是要能 “验证”系统是否可以满足运行阶段的要求。
|
12
确保数据中心测试验证效果 的三个关键因素
选择一家专业的第三方验证服 务机构是确保高质量验证结果 的第一要素。 美国绿色建筑委员会 (USGBC)明确要求验证机 构应该是没有参与数据中心项 目设计和建造的独立第三方机 构。
专业和周密的验证测试需要许 多专家和测试工程师的介入; 需要大量精密的测试仪器和假 负载;模拟测试时需要耗电; 柴油机测试需要耗油。因此我 们建议数据中心建设的项目管 理者要及早为验证测试留足预 算。
数据中心管理体系文件树(M&O)
文件编号 文件名称 对应指南/手册/表单 维护部门 主责部门 会签部门 当前版本 发布状态 发布时间 使用范围
管理领域
MS-01 MG-01 MG-02 MG-03 MS-02 MG-04 MG-05 MG-06 MG-07 MG-08 MG-09 MG-10 MG-11 MS-03 MG-12 MG-13 MS-04 MG-14 MG-15 MG-16 MG-17 MS-05 MG-18 MG-19 运行条件管理 负载管理指南 运行状态设定管理指南 计划、协调管部员工培训管理指南 供应商培训管理指南 设备维护管理 预防性维护工作管理指南 机房清洁工作管理指南 设施维护档案管理指南 供应商管理指南 设施延迟维护管理指南 设施维护计划管理指南 设施全生命周期管理指南 设施故障分析管理指南 人员配置和组织架构管理 运维人员管理指南 运维人员职业资质管理指南 运维团队组织架构管理指南