机房应急预案-基础设施
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机房应急预案-基础设施篇
1概述
1.1目的
为了提高XX机房突发事件的应急处理能力,最大程度地预防和减少突发事件及其造成的损害,保障设备正常运行,制定本预案。
本预案参照国家相关规范或行业规范,对机房空调、电力、消防、漏水以及网络系统五种突发情况制定具体的应急工作流程。
1.2应急预案存放1)电子版本
本应急预案电子版存放于单位共享服务器及所有项目组成员工作电脑中。
2)纸质版本
本应急预案纸质文档存放于XXX机房XXX室柜子内、XXX办公区办公室。
1.3编制依据
本应急预案编制依据《单位安全管理规定》及国家部分规范编写。
1.4技术资料
2适用范围及启动条件
1)地域范围:
本预案适用于本单位机房及网络运行中发生故障时使用。
2)人员范围:
本预案在执行中涉及的人员包括机房网络、基础设施运维人员,相关主管领导及
机房内各系统负责人等。
3)启动条件
机房、网络运行中出现的一般性突发事件和重大突发事件。
一般性突发事件:是指机房、网络突发故隙,将影响机房提供正常服务及网络服务的能力且预计修复时间大于30分钟,此时应立即启动应急预案,主要包括:
1)市电中断和UPS故障引起的电力供应中断。
2)机房空调冷凝水或上下水管道漏水。
3)机房温度超过30℃。
4)网络故障影响用户范围超过20%,预计修复时间在2小时以内。
重大突发事件:是指一般性突发事件在特定的时间内无法修复或发生特殊事件时,严重影响机房提供正常服务及网络服务的能力,并且修复时间大于2小时,此时除了立即启动应急预案外还应升级为重大事件,其中包括但不限定于以下分类:
1)机房出现火灾。
2)市电中断和UPS故障引起的电力供应中断。
3)机房温度超过40℃。
4)网络故障造成全网中断,预计修复时间超过2小时。
3应急组织和职责
机房应急组名单如下:
4应急响应流程
4.1应急事件响应
1、发生突发事件时,通过电话或当面通知应急小组组长报告情况。
2、必要时第一时间启动应急预案。
3、应急小组组长根据实际情况启动应急预案,参照应急恢复步骤组织协调相关人员进行应急
处理。
4、电话通知机房内生产业务系统管理员做相应的应急措施。
5、应急小组组长根据情况判定是否需要将事件升级为重大事件。
6、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门主任和单位
领导。
4. 2应急事件升级
在应急小组组长认定突发事件升级为重大事件时,应按以下步骤操作:
1、立即通知部门主任。
2、通知机房内生产业务系统管理员事件升级为严重,参照应急恢复步骤做相应的应急措施。
3、根据应急决策领导的决策指令处理故障。
4、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门主任和单位
领导。
5应急执行流程
5.1影响程度的评估
影响程度评估表
5.2宣告启动应急
应急小组组长宣告启动应急预案,并通知应急预案操作岗所有成员参与预案的执行。
重大事件时要向部门主任、单位领导汇报。
5. 3应急恢复
突发事件发生后,应急组长根据不同的启动条件执行应急预案进行应急恢复。
5.4事后处理
事后仔细分析事件发生的原因,查找引起事件发生的根本原因,力争杜绝类似问题的再次发生;总结每次应急处理的经验与不足,及时进行总结记录,作为知识储备,进行共享;重大事件处理完毕时,要向部门主任、单位领导及时汇报整个事件的处理过程, 并提出预防措施建议。
6.5应急注意事项
为了在突发事件发生时,能够及时顺畅地执行预案,应保证以下几点:
■平时多做应急演练,对应急小组的组织和预案执行力进行检验和加强。
■熟读应急预案,责任分工明确,应急流程掌握熟练。
■加强技术能力和业务能力。
■通讯保持畅通,应急小组的人员要保持24小时手机开机。
■处理应急突发事件时要认真做好应急处理记录,有利于进行问题回溯。
6应急恢复步骤
■.1强电系统故障
7.1. 1市电中断
D当发生市电中断或同时收到UPS输入、电力测量表、空调及数据库读取异常等告警短信,立即到机房检查UPS工作状态。
非工作时间发生电力中断时,电话联系保安人
员进入机房确认是否停电,同时联系附近的紧急联系人协助处理,并直接跳到第三
步;如确认恢复电力供应时间较长,则需检查柴油发电机情况;
2)检查UPS的负载量及电池的后备时间:具体详情可参照《UPS操作说明》或培训资料中关于UPS操作中说明进行操作。
3)检查柴油发电机油箱油位、机油油位、、三滤情况、冷却液液位、发电机蓄电池电压、控制系统情况及各连接部位情况。
4)立即拨打物业电话,询问断电原因及断电预计恢复时间,同时通知应急小组组长。
5)当发生单路供电中断时,应立即通知物业切换至另一路供电,观察UPS状态是否供电正常,等待第一路供电恢复切回。
6)如物业通知无法切换电路且30分钟内无法恢复供电,应立即按照顺序通知各主要负责业务系统管理人员进行系统备份并关闭系统。
同时维护项目组关闭机房内负责的
所有设备。
7)向部门主任及单位领导汇报当前情况。
8)确认所有服务器关闭后,直接手动拉下配电室对应开关,关闭网络设备。
9)当机房温度超过40度时,为确保机房内服务器安全,经单位领导许可,维护组人员按顺序直接拉下位于配电柜01后面所有机柜输出开关,关闭机房内所有设备。
10)待市电恢复供电后,打开网络机柜对应的输出开关,启动网络设备。
11)按附表五中的清单分批次对系统服务器加电,通知相关人员进行测试,并要求相关人员电话回复系统测试结果。
12)如UPS故障造成的电力供应中断,手动重启UPS,查看UPS故障是否解除并恢复正常。
(在UPS显示屏上点击“开机”,查看UPS是否正常启动)
13)如UPS故障依旧,立即通知各生产业务系统切换备份系统。
14)向部门主任和单位领导汇报当前情况,并联系厂商对UPS进行检修。
15)待所有系统恢复正常后,提交处理报告,上报部门主任和单位领导。
6. 2 UPS故障
6.2.1 UPS电池漏液、冒烟
1)发生机房电池漏液、冒烟或监控组人员发现机房电池柜冒烟,立即到机房查看电
池状态。
2)如发现是电池漏液、冒烟导致,应按照下列处理方法操作。
并密切观察UPS工作状态。
3)关闭电池供电时,先将机房手提式干冰灭火器放置电池柜附近。
4)打开两组电池柜,手动关闭电池开关。
开关位于电池柜的下方,此时应用力向左拨动电池开关,直至开关显示“OFF”状态。
5)如电池出现火情,使用事先准备的手提式干冰灭火器进行灭火。
6)确认无火情后,查看UPS状态,供电情况,立即联系厂商工程师进行检修。
注意:关闭电池开关不会影响机房的正常供电。
7)向部门主任做口头汇报,电话上报单位领导。
8)事件处理完毕后,将事故处理报告,单位领导。
6. 2.1电池火情无法控制导致机房火灾
1)处理电池漏液、冒烟过程中,无法使用手提灭火器控制火情。
2)打开电池柜,手动关闭电池开关。
3)立即按照机房火灾处理步骤进行操作。
4)火灾处理完毕后,消除火灾报警,恢复市电,查看UPS运行状态,如无法恢复市电,立即通知物业切换备用电路,观察UPS状态是否正常供电。
5)立即联系UPS厂商进行处理并向部门主任做口头汇报,电话上报单位领导。
6)统计火灾造成损失,提交相关更换UPS电池的申请。
7)事件处理完毕后,将事故处理报告,上报部门主任和单位领导。
6. 2. 3 UPS故障处理流程
图2 UPS故障处理流程图
6.3网络系统故障
局部楼层网络中断
1.如果是局部楼层断网,首先判断是否是交换机故障;
2.远程PING交换机管理地址(各楼层管理地址详见附表1)看是否可以正常PlNG 通
3.如果可以PING通,证明交换机本身没有故障,网线没有故障。
交由网络管理员处理。
4.如果不能PING通,说明交换机主线断或交换机宕机,应去弱电机房找到该楼层交换机上联端口和电源灯状态是否正常,如果上联端口不亮(光纤口),证明主线有问题,更换主线测试。
5.如果看到交换机电源灯不亮,证明交换机掉电,检查电源和电源线。
6.如果以上通过检查交换机和线路后故障现象仍然存在,由此判断可能交换机存在异常,按交换机故障进行处理。
交换机故障
1.当确认是交换机出现故障时,应首先从库房中找备用交换机进行更换;
2.若原有故隙交换机有配置,应立即联系网络管理员对更换的交换机进行配置(网管应
有所有交换机的配置备份)
3.配置完成后,测试是否正常;
全网中断
1.首先测试网络的连通性,查看是否可以PING通网关地址,如果可以PING通说明从PC到核心交换机之间的链路正常,如PlNG不通应检查接入交换机是否有故障、是否掉电或者交换机主线是否不通;如果确实不通,按照局部楼层网络中断中的第4条、第5条处理。
2.通过访问邮件、外网网站,判断是局域网问题还是广域网问题,如果局域网正常;无法访问互联网说明广域网中断,向运营商进行报修。
3. PING核心交换机到核心路由器的互联IP地址的连通性,如果可以PING通,说明路由器以下网络连通性正常;
4.用tracert命令tracert办公网网段的任意地址如果tracert结果可以从出去,但不能到达外部网络,说明有可能是核心路由器上联链路中断,向运营商进行报修。
5.若可以访问办公地址,无法访问互联网网站如:百度、搜狐,需要检查代理服务器是否正常,PlNG是否可以连通,向运营商进行报修。
其他网络中断故障
1.当办公网部分用户无法获取IP地址,不能上网的时候,尝试用能上网的主机,进行IP测试。
2.用PING命令去DHCP服务器是否可以PING通,并通知网络管理员登陆DHCP服务器进行检查服务是否正常,如果是DHCP服务器故障,应立即切换备用DHCP
3.如果从网管员处确定DHCP服务器没有故障,应PING核心交换机的这个IP地址看是否有延时长、丢包的现象,如果有应该可以初步判断院内有ARP广播风暴形成环路或者大面积病毒爆发;再次交由网络管理员处理。
6. 4机房漏水
1.根据机房环境监控检测的漏水示意图,查找漏水位置,判断漏水严重性。
2.在非工作时间,通过电话第一时间通知值班室保安,关闭上水总开关。
3.机房漏水并触发告警分为以下3种情况:
1)上水管漏水:使用地吸打开空调前地板,查看上水管漏水位置(1层饮水间
通过走廊从机房6号空调地板下进入机房)。
2)发现漏水位置,应立即关闭位于一楼饮水间顶棚的上水总开关,将水迹擦干。
3)立即联系机房工程有限公司,处理水管漏水故障。
4)空调冷凝漏水:分别检查X台空调地板的下水管道是否漏水,空调下水开关是否打开。
(开关逆时针旋转为打开,顺时针旋转为关闭)
5)如下水开关正常打开,冷凝水无法下水,说明下水管道堵塞。
6)首先关闭机房内空调及空调下水管阀门
7)分别打开上水阀门和上水阀门,进行机房下水反冲。
,下水管道
图3 机房上下水管道及阀门示意图
8)空调反冲过程中,密切关注机房温度,确保温度不影响机房内设备的运行。
9)反冲完成后,首先关闭上水阀门,然后打开空调下水阀门并打开空调。
10)如故障依旧,联系厂商进行检修。
11)空调压缩罐瓶体结霜:打开空调前面板,查看压缩罐上是否结霜。
(拆卸面板工具在机房缓冲区的工具箱里)
12)关闭空调,将压缩罐上的霜及滴下的水迹擦干。
13)尝试重新开启空调,观察空调运行状态。
14)如故障依旧,立即联系厂商进行处理。
4.事件处理完毕后,将事故处理报告,上报部门主任和单位领导。
6. 4. 3机房漏水处理流程图
压缩修结品
处理后,尝试重新
开机,故度依旧
图4 机房漏水处理流程图
6. 5空调故障
6. 5. 1高压报警
D收到空调高压告警后,立即进入机房查看空调运行状态。
2)尝试将报警空调进行复位,进行启动恢复。
步骤:X、X号空调点击空调控制面板的“报警复位”按键,X号空调点击面板上的“消音”按键。
3)若故障依旧,将高压报警空调关闭。
步骤:在空调控制面板点击“关机”按钮,逻辑关闭空调,再将空调左侧物理开关关闭。
4)检查室外风机过滤网及空调过滤网是否尘土较多。
(室外机在机房后面,院食堂正对面;空调过滤网在空调正上方)
5)若为室外风机过滤网脏,应进行冲洗,若室内机空调过滤网脏,应联系厂商更换。
(详细联系方式可参照附表三:《联系人信息表》进行查询)
6)冲洗室外机,应打开上水阀门(室内)和阀门(室外),开始冲洗。
冲洗完毕后, 关闭阀门和阀门。
7)重新启动空调,按住空调减压阀释放压力。
(减压阀的位置在压缩罐上一个红色按钮)
图5 空调压缩机减压阀
8)若仍然存在高压告警的现象,应联系空调厂商进行处理。
(详细联系方式可参照
附表四:《联系人信息表》进行查询)
9)高压故障处理完毕后,将事故处理报告,上报部门主任和单位领导。
6. 5. 2低压报警
1)收到空调低压告警的短信后,立即进入机房查看空调运行状态。
2)查看控制器面板,确认空调发生低压报警。
3)尝试将报警空调的告警进行复位,进行启动恢复;复位报警空调方法见《高压报警》处理第一步。
4)若故障依旧,关闭低压故障的空调;关闭空调方法见《高压报警》处理第二步。
5)立即通知空调厂商对空调进行检修。
6)低压故障处理完毕后,将事故处理报告,上报部门主任和单位领导。
6. 5. 3空调故障处理流程图
图6 空调故障处理流程图
6. 6机房火灾
机房采用自动报警装置,具有感烟和感温功能探测器,并采用自动灭火装置,当机房内发生火灾时按以下流程进行处理。
如非工作时间内机房发生火灾时,在维护人员无法迅速赶到时,由保卫处保安按照应急步骤进行火灾处理并及时联系附近的相关同事协助处理。
1)查找火源位置。
图7 机房防护区指示灯
2)关闭着火点位置的输出开关,切断着火点供电。
3)根据火情情况,使用机房内手提式干冰灭火器进行灭火。
或者使用机房配备的干粉灭火器。
图9 干粉灭火器
注:干冰灭火器即二氧化碳灭火器,在使用时应避免手握金属杆部分,以免被冻
灭火器使用方法(详情见灭火器瓶体):
1、拉出保险销
2、站在上风处,喷口对准火焰基部
3、 按下压把即可喷射灭火
伤。
图8 干冰灭火器
图10干冰灭火器使用方法
4)机房消防系统开启气体灭火自动喷洒,在温感(68摄氏度)和烟感同时报警时,会自动启动。
5)若在气体灭火没有自动喷洒前发现火势较大无法控制时,确保机房内人员撤离,可手动启动气体机房灭火装置进行灭火。
直接按下控制器上的红色按钮,机房内七氟丙烷灭火装置将在延迟30秒后进行全淹没式喷射,如按下位于控制器下方的红色按
钮,灭火装置将立即喷射。
图11紧急气体灭火按键
6)灭火处理后,确认机房内无火情,按排烟风机绿色按钮,进行排风换气处理气体;7)火灾处理完毕后,统计火灾损失,立即向部门负责人做口头汇报,电话上报单位领导。
8)事件处理完毕后,将事故处理报告,上报部门主任和单位领导。
6. 6. 3火灾系统流程图
大立即七根领导,网
►讨,目防气体灭火装就灭火
是
图12火灾系统处理流程图
Fr开推延风机推
除
低软灭火气体
美阴根音器尚皆系
绕,统计火灾惯失。