安防监控机房应急预案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
安徽亿安保全安防系统工程有限公司中心机房应急处置方案
二〇一三年十一月
前言
为了切实做好公司信息中心机房突发事件的防范和应急处理工作,进一步提高预防和控制机房突发事件的能力和水平,减轻或消除突发事件的危害和影响,确保公司各应用系统和网络的正常运行,结合实际工作,特制定本预案。
本预案由安徽亿安保全技术部提出、编制、修订、归口并解释
本预案主要起草人:余飞
本预案审核人:龚总
本预案批准人:龚总
第一节总则
1、保证人员和财产的安全为前提的原则:在由于火灾或电力问题造成的主机故障,在解决故障前,应以保证人员的生命安全和财产的安全为前提,然后进行故障的解决。
2、最快时间恢复业务的原则:本着先想尽一切方法,尽快恢复业务的原则来处理故障,如在有备用设备的情况下,主设备产生了故障,应先尽快将应用切换到备用机上,使业务能够运行,再对故障设备进行诊断和维修。
3、故障应急人员高度负责的原则:当故障应急人员在节假日接到故障通知时,本着高度负责的态度,应迅速接手处理障碍,如远程无法处理解决,应迅速赶到故障设备所在地,进行现场处理,处理故障的同时应及时向领导汇报。应急人员不可互相推卸责任,如因特殊情况,确实无法处理障碍,部门领导必须安排好其他人员处理。
4、尽可能全面的保留故障现场的原则:当故障发生后,应急人员应尽可能全面的备份出能够反映故障现象的各种日志、记录、受损文件等,便于业务恢复后,对故障的分析、解决,杜绝故障的再次发生。应急方案的目标:保证预付卡运营系统连续安全稳定地运行。
第二节应急领导小组
应急领导小组成员:
组长:龚总
副组长: 余飞
成员:技术部人员值班人员
第三节电源系统故障应急处理
定期检查信息中心机房电源设备的运行状况,当发生下列突发事件时,按以下方案进行处置:
当中心机房发生市电供电突然停电或远程报警电源异常时。首先确认是否为正常停电及预计停电时间。检查不间断电源UPS的电池可供电时间,在UPS停止工作前启动发电机进行供电(发电机筹备中),如发电机筹备前故障需在不间断UPS电源供电时效内关闭所有服务器及网络设备。
联系查看停电原因,尽快恢复供电,并将情况报告相关领导
技术部部联系电话:
第四节空调系统故障应急处理
定期对空调的运行情况进行检查,如有报警信息,应及时查找故障原因,对于不能自行排除的问题,应及时与设备提供商进行联系。当中心机房主空调因故障无法制冷,致使机房内环境温度超过摄氏40度时,打开机房房门,并关闭所有服务器及网络设备。
对于无法自行处置的空调系统异常情况,及时与设备提供商联系或者物业联系,并报告给公司。
空调问题联系人:
第五节中心机房自动消防系统应急处理
当中心机房发生火警时,按以下方案进行处置:
1.上班工作时间发生火警,听到自动消防系统发出的声光报警后,中心机房附近办公室人员应及时紧急撤离,避免气体自动消防系统启动后,消防气体对附近人员造成人身伤害。确认火警后,立刻拨打119报警,并说明尽量使用气体灭火器进行灭火,减少电子设备的损坏。
2.发生火警后,信息中心相关人员应马上赶赴现场,并向有关领导报告事故情况。同时立即联系联通等相关公司,及时评估事故损失情况,研讨尽快恢复信息系统正常运行的最佳方案。
第六节设备、网络系统故障应急处理
设备、网络应用系统故障应由发现人通知技术部,技术部门立即检查故障,进行初步故障定位,解决;
1.H3C网络设备、中心服务器、NVR服务器、储存设备均有备份,当设备存在硬件问题时,可随时把业务切换到备份主机上,保证业务正常运行;
2.应用系统每更新一次则做一次本地备份和一次远程备份,在远程主机上分别备份旧的应用系统和更新后的应用系统,以当天的更新日期命名;
3.对磁盘柜上的数据库文件有定时任务,每天凌晨18:00把数据库里的数据文件倒出到远程备份主机上,以确保出现硬件故障的时
候,数据文件不丢失;对于网络、应用系统出现硬件方面的故障,比较严重的问题,对业务的正常运行造成较大的影响,立即向公司报告。
4、网络中有监控服务器(筹备中运用Cacti v10最新的版本),监控网络所有设备(路由器,防火墙,交换机以及服务器设备);对设备本身的硬件检测、外部入侵检测、外部攻击等多种对系统不利因素以发送mail的形式报警;相关人员收到报警信息,分析收到的log 日志以做出相应的处理。
5、每周周五对网络设备进行日志及配置文件采集,对数据库数据文件定期下载,和远程备份;在本地电脑上保存最近的配置文件,以便在发生毁灭性的灾难时,用来重组。
对简单故障,值班人员应迅速排除故障,解决问题并记录。如果需要更换设备,应上报经批准后马上更换故障设备,尽快恢复网络、应用系统运行。判断无法及时修理时,应立即通知相关的系统运行服务提供商,在最短的时间内安排修理或更换系统。
如发现属外部线路的问题,应与线路服务提供商联系,敦促对方尽快恢复故障线路。
启用备份线路、设备、系统,迅速恢复相关的应用。
技术部电话:电信联系电话:*****
第七节黑客入侵的应急处理
发现网络上有黑客攻击行为,任何人员都有义务向技术部门报告。技术部立即启动应急响应,切断受攻击计算机与网络的连接,停止一
切操作、保护现场,上报给工信部门。
对于黑客攻击,由技术部组织应急响应小组查找入侵踪迹,分析入侵方式和原因。对入侵事件的分析,组织相关人员对内部网计算机整改,防止黑客用同样的手段再次入侵其他系统。安全管理员检查确定无安全隐患后,才可将受攻击计算机重新连接网络,或启用备份计算机来恢复应用。
若系统已被黑客破坏,无法恢复,应将受黑客攻击的计算机上的重要数据备份到其他存储介质,确保计算机内重要的数据不丢失。如果数据无法恢复,经有关领导同意后,可与指定数据恢复的部门联系,由他们来协助恢复。
第八节生产系统、数据库故障处理
生产系统出现故障,技术部做出应急处理
1.因软件设计缺陷、设计漏洞等引起的故障,通知软件服务商有关部门在2小时内查明原因,解决问题。
2.数据库出现故障,技术人员应在2小时内查清故障原因,其他人员应积极配合,解决问题。
3.如出现数据丢失情况,确认不能自行恢复后,启用备份恢复数据,1小时内恢复运营。
2013年11月18日本方案自发布之日起施行