数据中心建设与管理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三、数据中心的运维管理-危机管理
3、应急预案 • 第五步、针对各类风险事件,制定应急处理措施 准备工具、备品备件 制定事件预警、报告流程
四、机房安全监控管理方面
1)IT设备的操控向集中化发展 • KVM • 基于IP、跨平台、远程集中管理模式 • 基于身份认证、分组管理
四、机房安全监控管理方面
2)机房基础设备的监控管理将向网络化、标 准化发展 • 各机房基础设备厂商使用各自通信协议和监 管平台的局面将被彻底改变,串口将被网口 取代,所有设备通过IP网络进行实时监控 与管理
探讨三: 数据中心的日常运维管理
一、数据中心的作用与特点
1、数据中心的作用—基础资源整合: • 高标准的数据机房、畅通的网络是保证应用稳定 运行的基础。统一建立一个机房,避免机房建设 的重复投资。 • 设备集中管理,统一调配,能够充分发挥各个设 备的作用。 • 运行维护人员的人力资源整合
一、数据中心的作用与特点
2、数据中心的作用—系统稳定运行的保障: 保证系统能够安全、稳定、高效地运行。 • 建立一个全面的、动态的安全防范,综合利用各种 安全技术,制定相应的管理制度和管理规范以保证 数据中心的安全,保证关键数据、关键应用的安全 以及关键业务部门的安全,实现业务网络及其应用 系统的安全高效运行 • 搭建合理的服务器运行体系架构,调整应用的布局 • 对各应用及应用软件的优化,提高系统运行的效率
网络线路实施建设
• 冗余的网络设计,保证网络的畅通无阻 • 加强网络监控,及时发现问题 • 关键部门设置专线,保证数据传输的完整性
服务器体系架构建设
数据中心的服务器系统必须从整体上规划,根据 应用的需求合理布局,切忌一个应用系统一套服 务器系统,这样很不利于资源的优化配置,既不 好管理,又不能实现资源的共享。 服务器架构尽量采用目前比较流行的体系架构。 服务器系统高可用性,根据应用的需求而定。 服务器系统的扩展性要考虑应用的发展需求。 开发、测试、正式运行三条线要分开,不要在运 行环境开发、测试程序。
二、数据中心供配电方面
1)由备用供电系统向不停电供电系统发展 • 柴油发电机将起到更重要的作用 • 机房供配电系统将在UPS基础上进一步 提升 • UPS供配电系统的标准化、模块化将被 普遍采用
二、数据中心供配电方面
2)机柜级供配电的管理将受到重视 • 目前供配电系统中“端-端”路径中最薄 弱的一环 • 机柜PDU的监测管理 • 机柜能耗管理
机房管理制度 机房出入登记制度 机房值班巡视制度 机房系统设备运维制度 安全保密制度
二、数据中心的运维管理概述
3、数据中心运维管理的手段 • 环境监控 • 设备监控 • 网络监控 • 应用监控
三、数据中心的运维管理-危机管理
1、危机管理的定义 • 史蒂文.芬克的《危机管理》:组织对所有危机发 生因素的预测、分析、化解、防范等而采取的行 动 • 罗伯特.希斯的《危机管理》:管理者考虑如何减 少危机情境的发生、如何做好危机管理的准备、 如何规划以及如何培训员工应对危机局面、如何 从危机中快速恢复
安装满足实际需求的IT基础设施!
探讨二: 新一代数据中心的设计理念
一、数据中心整体布局方面
1)性能面积比 • 运算量/面积 • 服务器台数/面积 • 随着IT设备的小型化,机房面积将越来越小 • 高密度、虚拟化数据中心
一、数据中心整体布局方面
2)性能能耗比 • 高效率UPS供电 • 围护结构的绝热处理 • “冷库式”机房与“冰箱式”机房,让 能源充分有效的利用
队伍与制度建设
无论多么先进的设备和技术,如果没有人进 行管理,都是不能很好的发挥作用的。因此数 据中心在建设初期就必须考虑队伍建设问题。 在队伍建设中,要注意建立整个团队的服务 意识。只有优良的服务,才能使所有的应用更 好的发挥作用。服务不仅仅是态度,更重要的 是要有雄厚的技术做后盾。因此应建立一支有 层次的队伍。 其次,还要有规范的制度来约束和规范日常 的运维管理行为。
UPS module
UPS module
UPS module
II piętro
UPS module
UPS module
UPS module
UPS module
UPS module
UPS module
I piętro
数据中心机房的设计,缺乏灵活性: 一旦配电系统开始运行后,就没有 问题1: 供电系统的 任何变动的可能。这意味着如果要扩容 ,需要付出巨大的努力。同时,在维护 灵活性问题 维修时影响系统可用性;还投入了非常 高的初期投资!
数据存储与备份建设
备份系统与要求的恢复时间紧密相关,无论多么 先进的备份系统,一定要有针对各种情况的恢复 步骤,已备不时之需 设备的备份 热备份、冷备份 数据的备份 文件数据 数据库数据 容灾系统
安全防护与加固建设
网络安全:防攻击、防窃密、防监听 合理架设防火墙、入侵检测等设备 主机安全:物理安全、防入侵 要定期清理用户、修改密码、安装补丁程序、停 止不必要的服务等 应用安全:防伪造、防攻击、防篡改 数据安全:防止数据丢失、破坏 数据备份、容灾应急 终端安全:防病毒、安全知识培训 安全审计:事后追查的有效手段 入侵监测 成立紧急问题相应小组
四、机房安全监控管理方面
3)机房基础设备的监控管理与IT设备管理的 一体化 • 实现数据中心业务应用、数据存储、服务器、 网络、基础设施的集中管控 • 机房设备的控制功能将进一步加强,如根据服 务器的数量 或负载情况,自动调节机柜组的制 冷系统风量;视频或照明的移动监测
四、机房安全监控管理方面
4)管理终端的变化 • 机房设备的管理的终端,将由本地操作,到 通过IP网络电脑终端操作,发展为移动 PDA,实现无时无地不在监管机房设备与环 境。
二、数据中心的运维管Fra Baidu bibliotek概述
1、数据中心运维管理的意义 • 提高可靠性:降低故障率 • 提高可用性:减少宕机时间 • 提高安全性:减少灾害发生 • 提高经济性:增长设备寿命
二、数据中心的运维管理概述
2、数据中心运维管理的本质 • 人员技能的提高:技术培训、经验交流 • 制度的建立、执行:运维制度建立、运维制度执 行、管理机制
问题2: 布线 随意,缺乏规 范有序管理。
强弱电线缆管理问题: 1、通常缺少规划,强弱电线缆交差。 2、走线随意,乱拉乱接。 3、忽视安全问题。 4、标签信息不明确、不准确。
问题3:数据中心 的散热!
目前设备散热问题已经日益成为数据 中心设计的最主要限制因素。 气流难以像电流一样被约束。冷热空 气的混合、对流、短路等,均会造成气流 组织偏离设计值,从而使部分机柜得不到 足够的风量,而同时又有一部分冷风没有 被利用。这种情况将降低空调机的工作效 率,浪费电能。
12 kW(37台 1U PC服务器)
18 kW(5台7U 刀 片服务器)
是否会是以下的方案?
3.6 kW / 机柜
4 kW / 机柜
80%机柜空间空置 ? 扩大数据中心 ? 浪费的空间如何处理?
问题5: 安全管理问题!
目前各种安全有关的领域,比如 空调、电源、机柜安全,通常是分开 考虑的。 安全管理若集成在一个远程管理 系统中统一监管,这样将减少拥有总 成本。电源、空调、机柜安全必须考 虑在一个主动的安全系统中。
一、数据中心整体布局方面
3)“机柜就是机房”的思路 • “IT微环境”或“模块化机柜”设计 • “选址-布局-设备摆放-机柜摆放”的设计 逻辑将被完全逆转 • 机柜内部的设计将被更加重视
一、数据中心整体布局方面
4)“一体化机房”或“整体机房”的概念 • 系统化设计、预生产、组件式的机房构建模式 • 灵活性、扩展性 • 质量控制:工厂与现场
问题6: 超规模投资,浪 费成本!
安装基础设施占 %/ 机房的容量
目前基础设施投资和满足实际需求的基 础设施投资的比较
超规模的投资
缺乏模块化,集约化的IT基础设施投 资方案带来超规模的投资。结果带来更高 的初期投资资,更高的电能和租金的固定 成本。
服务年限
模块化结构,集约化提供了根据实际 需求的初期投投资和运行成本!
机房基础实施建设(续)
参考的标准: 《电子计算机机房设计规范》(GB50174-93) 《计算站场地技术要求》(GB2887-89) 《计算站场地安全技术》(GB9361-88) 《计算机机房用活动地板的技术要求》(GB6650-86) 《电子计算机机房施工及验收规范》(SJ/T30003) 《电气装置安装工程接地装置施工及验收规范》( GB50169-92); 中国工程建设标准化协会标准-建筑与建筑群综合布线 系统工程设计规范CECS72:95
三、温湿度控制方面
2)冷却系统布局的变化 • 由整个机房作为制冷系统的模式向机柜作为制 冷系统的模式变化 • “冰箱式”机房是机柜或者机柜群模式的表现 • 甚至会朝“机柜U”级和“服务器”级制冷系 统的方向发展
三、温湿度控制方面
3)节能环保型技术将得到开发和应用 • 在冬季,利用室外空气作为冷源的热交换设备 • 与楼宇空调系统共用的制冷设备,提高利用率 • 热回收系统
问题4: 数据中心空间 需求问题!
由于未解决的制冷和供电问题意味着, 有时候很多机柜只安装一半设备。这种小型 化安装的方案,给数据中心带来了更高的固 定运行成本(场地,机柜,电能)。 这样的数据中心将需要安装更多的服务 器机柜,更高的计算性能将带来同比例更高 固定成本。
您会将这 些服务器 装在一个 机柜中吗?
二、数据中心供配电方面
3)直流供电系统有可能提出并行研究 • IT设备抗干扰能力在下降 • 交流供电系统中的谐波问题、地线噪声 • 直流供电系统可能成为一种被迫的选择
三、温湿度控制方面
1)冷媒的变化 • 目前从冷源到IT设备普遍采用的冷媒是空气, 但是空气的能量传输率非常低 • 机房内大量空间被用作气流组织的通道,而且 难以控制 • 势必将采用冷冻水或其他新型冷媒
PPT讲解:马欢 PPT制作:何海洋 材料收集:苏德军
探讨一:
数据中心建设与管理中存在的问题
数据中心用户/管理者 CPU热量 >100W 业务咨询 7x24业务运行需求 高密度的服务器安装 更高的存储容量
TCO拥有总成本(总 体更经济的方案) 更大的热负荷(需 要更大制冷量)
需要更多的电能
需要灵活的配电 和供电方案
三、数据中心的运维管理-危机管理
2、危机管理的PPRR模式 • Prevention(预防):观念、意识、流程 • Preparation(准备):人力、物力资源 • Response(响应):应急预案,消除危机的短期 影响 • Recovery(恢复):总结经验,消除危机带来的 中长期影响
三、数据中心的运维管理-危机管理
一、数据中心的作用与特点
3、数据中心的作用—数据与信息安全的保障: • 设置合理的数据库模式,便于管理,同时易于各 系统之间的数据共享和交换。 • 要保证数据的安全,使数据不会因意外的灾难而 损毁,要做好数据备份与恢复工作。 • 进行安全审计,能够对用户的行为进行记录,并 能够进行事后分析。
一、数据中心的作用与特点
4、数据中心的建设与管理的内容
1)、机房基础实施 2)、网络线路实施 3)、服务器体系结构 4)、数据存储与备份 5)、安全防护与加固 6)、队伍建设与制度规范
机房基础实施建设
• • • • • • • 防尘、防静电的环境 可靠的电力保证 适宜的温度和湿度 消防系统 门禁与监控 布线 参考的标准:接下页
3、应急预案 • 对机房各类设备的功能、指标、结构心中有数 • 事前“马后炮”:针对机房供配电、消防、空 调、漏水、网络、安全等分别制定应急预案。 “一旦发生XX事故,值班管理人员应该在XX分 钟内采取以下措施:一、XX;二、XX”
三、数据中心的运维管理-危机管理
3、应急预案 • 第一步、列出机房存在的危机或风险 火灾、空调故障、漏水、供配电、温湿度 • 第二步、分析排除不存在的风险 • 第三步、将各种可能风险列举在应急预案中 • 第四步、横向分类与纵向分级 横向分类:灾难风险(火灾)、中断风险(停电、 宕机)、安全隐患风险(温度过高、接地不良)。 纵向分级:按各类风险(事件)危害程度排序,建 立风险管理优秀级和报警。