机房应急预案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机房应急预案-基础设施篇
1概述
1.1目的
为了提高XX机房突发事件的应急处理能力,最大程度地预防和减少突发事件及其造成的损害,保障设备正常运行,制定本预案。本预案参照国家相关规范或行业规范,对机房空调、电力、消防、漏水以及网络系统五种突发情况制定具体的应急工作流程。
1.2应急预案存放
1) 电子版本
本应急预案电子版存放于单位共享服务器及所有项目组成员工作电脑中。
2) 纸质版本
本应急预案纸质文档存放于XXX机房XXX室柜子内、XXX办公区办公室。
1.3编制依据
本应急预案编制依据《单位安全管理规定》及国家部分规范编写。
1.4技术资料
2 适用范围及启动条件
1)地域范围:
本预案适用于本单位机房及网络运行中发生故障时使用。
2)人员范围:
本预案在执行中涉及的人员包括机房网络、基础设施运维人员,相关主管领导及
机房内各系统负责人等。
3)启动条件
机房、网络运行中出现的一般性突发事件和重大突发事件。
一般性突发事件:是指机房、网络突发故障,将影响机房提供正常服务及网络服务的能力且预计修复时间大于30分钟,此时应立即启动应急预案,主要包括:
1)市电中断和UPS故障引起的电力供应中断。
2)机房空调冷凝水或上下水管道漏水。
3)机房温度超过30℃。
4)网络故障影响用户范围超过20%,预计修复时间在2小时以内。
重大突发事件:是指一般性突发事件在特定的时间内无法修复或发生特殊事件时,严重影响机房提供正常服务及网络服务的能力,并且修复时间大于2小时,此时除了立即启动应急预案外还应升级为重大事件,其中包括但不限定于以下分类:
1)机房出现火灾。
2)市电中断和UPS故障引起的电力供应中断。
3)机房温度超过40℃。
4)网络故障造成全网中断,预计修复时间超过2小时。
3 应急组织和职责
机房应急组名单如下:
表1 应急小组名单
4应急响应流程
4.1 应急事件响应
1、发生突发事件时,通过电话或当面通知应急小组组长报告情况。
2、必要时第一时间启动应急预案。
3、应急小组组长根据实际情况启动应急预案,参照应急恢复步骤组织协调相关人
员进行应急处理。
4、电话通知机房内生产业务系统管理员做相应的应急措施。
5、应急小组组长根据情况判定是否需要将事件升级为重大事件。
6、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门
主任和单位领导。
4.2 应急事件升级
在应急小组组长认定突发事件升级为重大事件时,应按以下步骤操作:
1、立即通知部门主任。
2、通知机房内生产业务系统管理员事件升级为严重,参照应急恢复步骤做相应的
应急措施。
3、根据应急决策领导的决策指令处理故障。
4、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门
主任和单位领导。
5应急执行流程
5.1 影响程度的评估
表2 影响程度评估表
5.2 宣告启动应急
应急小组组长宣告启动应急预案,并通知应急预案操作岗所有成员参与预案的执行。重大事件时要向部门主任、单位领导汇报。
5.3 应急恢复
突发事件发生后,应急组长根据不同的启动条件执行应急预案进行应急恢复。
表3 应急恢复步骤
5.4 事后处理
事后仔细分析事件发生的原因,查找引起事件发生的根本原因,力争杜绝类似问题的再次发生;总结每次应急处理的经验与不足,及时进行总结记录,作为知识储备,进行共享;重大事件处理完毕时,要向部门主任、单位领导及时汇报整个事件的处理过程,并提出预防措施建议。
5.5 应急注意事项
为了在突发事件发生时,能够及时顺畅地执行预案,应保证以下几点:
⏹平时多做应急演练,对应急小组的组织和预案执行力进行检验和加强。
⏹熟读应急预案,责任分工明确,应急流程掌握熟练。
⏹加强技术能力和业务能力。
⏹通讯保持畅通,应急小组的人员要保持24小时手机开机。
⏹处理应急突发事件时要认真做好应急处理记录,有利于进行问题回溯。
6应急恢复步骤
6.1强电系统故障
6.1.1 市电中断
1)当发生市电中断或同时收到UPS输入、电力测量表、空调及数据库读取异常等
告警短信,立即到机房检查UPS工作状态。非工作时间发生电力中断时,电话
联系保安人员进入机房确认是否停电,同时联系附近的紧急联系人协助处理,
并直接跳到第三步;如确认恢复电力供应时间较长,则需检查柴油发电机情况;
2)检查UPS的负载量及电池的后备时间:具体详情可参照《UPS操作说明》或培
训资料中关于UPS操作中说明进行操作。
3)检查柴油发电机油箱油位、机油油位、、三滤情况、冷却液液位、发电机蓄电
池电压、控制系统情况及各连接部位情况。
4)立即拨打物业电话,询问断电原因及断电预计恢复时间,同时通知应急小组组
长。
5)当发生单路供电中断时,应立即通知物业切换至另一路供电,观察UPS状态是
否供电正常,等待第一路供电恢复切回。
6)如物业通知无法切换电路且30分钟内无法恢复供电,应立即按照顺序通知各
主要负责业务系统管理人员进行系统备份并关闭系统。同时维护项目组关闭机
房内负责的所有设备。
7)向部门主任及单位领导汇报当前情况。
8)确认所有服务器关闭后,直接手动拉下配电室对应开关,关闭网络设备。
9)当机房温度超过40度时,为确保机房内服务器安全,经单位领导许可,维护
组人员按顺序直接拉下位于配电柜01后面所有机柜输出开关,关闭机房内所
有设备。
10)待市电恢复供电后,打开网络机柜对应的输出开关,启动网络设备。