数据中心机房应急预案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据中心机房应急预案
目录
一、基本原则 (3)
二、应急事件级别定义 (3)
三、组织机构及职责 (4)
3.1应急领导小组组织机构 (4)
3.2 应急领导小组职责 (4)
3.3应急小组成员职责 (5)
四、应急响应机制 (6)
4.1基本处理流程 (6)
4.2机房应急开关机具体措施 (7)
4.3服务器及存储设备故障处理 (7)
五、应急方案 (8)
5.1网络故障事件应急预案 (8)
5.2服务器故障应急预案 (8)
5.3灾害性事件应急预案 (10)
5.4其他突发事件应急预案 (10)
六、后期处置 (10)
七、应急保障 (11)
一、基本原则
(1)居安思危,预防为主。实行突发事件统一管理、统一指挥、各级负责的原则;
(2)统一领导,分级负责,全面规划、及时发现、快速反应、措施果断的原则,并按照事件级别迅速上报相关领导和责任人。
(3)制度规范,加强管理。严格按照事件处理流程规范操作,使突发应急的工作规范事件化、制度化。
(4)快速反应,协同应对。当突发事件发生时,各级要立即按应急预案,投入应急工作;加强各个部门配合协作。形成统一指挥、反应灵敏、功能齐全、协调有序、运转高效的应急管理机制。
(5)主动报告原则:当突发事件发生后,要及时报告应急预案实施情况。
二、应急事件级别定义
根据网络与信息安全突发公共事件的可控性、严重程度和影响范围,一般分为四级:I级(特别重大)、II级(重大)、III级(较大)、IV级(一般)。国家有关法律法规有明确规定的,按国家有关规定执行。
(1)I级(特别重大):重要网络与信息安全系统发生全市性大规模瘫痪,事态发展超出相关主管部门的控制能力,对国家安全、社会秩序、经济建设和公共利益造成特别严重损害的突发公共事件。
(2)II级(重大):重要网络与信息安全系统造成全市性瘫痪,对国家安全、社会秩序、经济建设和公共利益造成严重损害,需要跨部门、跨地区协同处置的突发公共事件。
(3)III级(较大):某一区域的重要网络与信息安全系统瘫痪,对国家安全、社会秩序、经济建设和公共利益造成一定损害,但不需要跨部门、跨地区协同处置的突发公共事件。
(4)IV级(一般):重要的网络与信息安全系统受到一定程度的损坏,对公民、法人和其他组织的权益有一定影响,但不危害国家安全、社会秩序、经济建设和公共利益的突发公共事件。
三、组织机构及职责
3.1 应急领导小组组织机构
3.2 应急领导小组职责
1、应急总指挥职责
(1)保证在任何时间,及时协调应急行动所有涉及的岗位人员;
(2)提供必须的紧急响应设备;
(3)在紧急情况下全面负责紧急行动;
(4)在必要时向外界求救,例如:119、110、120等。
2、应急副总指挥职责
(1)在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责;
(2)根据获得的应急信息下达命令。
3、各相关设备负责人职责
(1)负责尽快收集信息向应急总指挥汇报事故情况;
(2)负责现场临时设备抢救和对事态的控制;
(3)听从上级指挥人员的指挥。
3.3应急小组成员职责
(1)值班人员平时应做好应急事件的监控、预警工作,当应急事件发生后,迅速生产事件上报相关领导,并进行先期处置,如有必要通知二、三线工程师。(2)二线、三线工程师在接到应急信息后,应积极配合值班人员进行先期处置,迅速赶往故障现场提供技术援助。
(3)对于在应急故障处理期间发生的新问题、新情况,应认真登记,及时上报。对于超出《应急预案》界定的应急事件,应及时汇报应急领导小组,争取尽早提出补救措施进行恢复。
四、应急响应机制
4.1基本处理流程
(1)值班人员平时应做好应急事件的监控工作,对于突发事件应认真分析、准确判定故障发生的数据域,负责跟踪该事件直至其结束。对于不在运维中心的故障,应在第一时间内通知负责人去现场处理,密切关注事件流程及进展情况,并做好登记工作上报领导。
(2)正常情况下,要求值班人员在30分钟内进行事件确认。如果属于一般事件则按照事件流程进行分派处理,否则应迅速启动《应急预案》,并严格按照《应急预案》所规定的步骤快速实施应急处置,及时汇报上级领导,掌握实时处理情况。
(3)在处理过程中,如需其他部门去现场增援处理,应及时向上级领导部门汇报,协调沟通,尽快联系技术工程师或厂家技术支持赶赴现场援助处理。
4.2机房应急开关机具体措施
机房各设备关闭顺序如下:
4.3服务器及存储设备故障处理排错流程
五、应急方案
5.1网络故障事件应急预案
1.发生网络故障事件后,系统使用人员应及时报告应急小组。
2. 应急小组及时查清网络故障位置和原因,并予以解决。
3.不能确定故障的解决时间或解决故障的期限并属较大(III级)及其以上的,应急小组应报告所领导。
4. 网络系统故障突发事件分级:
5.2服务器故障应急预案
1.服务器故障后,应急小组确定故障设备及故障原因,并通知相关厂商。
2.根据服务器修复和恢复系统所需时间,由所领导决定是否启用备份设备。
3.如启用备份设备,在服务器故障排除后,应急小组在确保不影响正常业务工作的前提下,利用网络空闲时期替换备用设备。如不启用备份设备,应急小组应积极配合相关厂商解决服务器故障事件。
5.3空调设备故障处理
若空调损坏,应第一时间通知厂家上门进行维修,并及时报告信息部相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备。
5.4消防设备故障处理
一旦机房发生火灾,应遵照下列原则:首先确保人员安全;其次保护关键设备、数据安全;三是保护一般设备安全;
人员疏散的程序是:机房工作人员立即按响火警警报,并通过119电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出;
人员灭火的程序是:首先切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。
5.5 电源设备故障处理
在紧急情况发生时,应按如下步骤进行关机:
(1)确认所有负载均已安全关机。
(2)关闭UPS负载电源。
(3)将UPS的系统启用开关切换到off 的状态。
(4)将DC电池连接断路器切换到off的位置。
(5)将所有电池拉出到红色电池断开线以外。
(6)断开PDU上的断路器。
(7)将PDU后面总输入断路器切换到断开位置。
(8)将每个上行主电路断路器切换到断开位置。