数据中心应急预案[201107]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
XX数据中心应急预案(试行)
江苏金智教育信息技术有限公司2011-07
一、紧急状态的界定
1.网络机房发生长时间停电(1小时以上)、火灾、洪水、雷击以及其他外力破坏事件如人员触电事故等。
2.数据中心UPS系统故障(逆变器告警、充电器告警、电池告警、以及旁路电源告警),UPS电池热熔起火,电池泄露。
3.主要网络设备、服务器设备1台或以上严重故障或者被黑客攻击及病毒爆发。
4.重要设备发现被盗。
5.重大政治事件或紧急事件的发生。
上述情况任意一项发生界定为紧急状态,需要根据情况启动应急预案。
二、应急预案处理的组织实施流程
1.紧急状态发生后,值班人员应立即通知部门负责人和专责人员,并做适当的应急处理,部门负责人应该立即通知上级领导。
2.专责人员应立即赶到现场,确定事故处理方案并向部门负责人汇报情况。
3.部门负责人收到通知后应立即赶到现场并组织相关专业维护人员实施应急处理或故障处理。
4.部门负责人和专责人员在事故处理完毕后要向直接领导详细汇报情况,在领导的主持下对应急预案的执行情况进行分析、评估、总结。
5.每年应至少进行一次预案演练,必须保证相关成员参加。
三、应急预案处理的技术实施流程
(一)电源系统
1.中心机房发生长时间停电(1小时以上)时,值班人员或UPS专责人员应及时通知数据中心有关人员关掉UPS所供电的服务器设备,保证在UPS电池供电结束
前完成设备关闭。当电池容量告警时,UPS专责人员按操作程序逐一关闭系统
设备,恢复送电时及时启动系统并进行系统及业务使用验证工作,防止系统瘫
痪。
2.中心UPS系统故障(逆变器告警、充电器告警、电池告警,以及旁路电源告警)时,UPS专责人员应认真检查设备的告警信息并做好记录。在不能及时维修好时
应及时与设备供货商联系尽快修复。
3.UPS系统在旁路工作状态时,应特别引起重视。如此时发生突然停电,将有可能造成系统瘫痪。
4.专责人员要做好UPS的日常检查,并做好记录。发现UPS电池泄露应联系厂家处理。
5.UPS电池出现热熔冒烟,值班人员或UPS专责人员应立即关闭相关电池组供电开关,切断直流供电系统。
(二)火灾事件
1.处置火灾事故的组织:物业管理值班人员,保卫处值班人员,数据中心人员。
发现火情后应迅速组织有关人员携带消防器具赶赴现场采取必要的隔离措施隔
离火灾并进行扑救,及时关闭应用服务器和网络设备,断开事故部位电源。
2.报警程序:即刻通知部门领导、保卫处及相关部门值班人员,根据火情大小如需报警立即就近用电话或手机报告消防中心(电话119),报告内容为:“××
楼栋×××机房发生火灾,请迅速前来扑救”,待对方放下电话后再挂机,派
出人员到各路口等待引导消防车辆。
3.扑救方法:
1)扑救固体物品火灾,如木制品,棉织品等,可使用各类灭火器具。
2)扑救液体物品火灾,如汽油、柴油、食用油等,只能使用灭火器、沙土、浸湿
的棉被等,绝对不能用水扑救。
3)扑救UPS电池火灾,只能使用1211型灭火器或者干粉灭火器。
4.注意事项:
1)火灾事故首要的一条是保护人员安全,扑救要在确保人员不受伤害的前提下进
行。
2)火灾一发生,管理人员应立即切断电源,备好手电。
3)保证安全通道的畅通,不得堆放易燃易爆物品在安全通道及机房内。
4)在相应的场所备齐安全相关装备,如面罩、灭火器等。
5)机房管理员要加强日常监控及巡查,包括机房温度、湿度、设备的外部情形、
各电源开关位置是否正常等,做好当天工作日志,及时处理、消除及上报安全
隐患。
6)中心机房发生雷击打火事件时,应先仔细检查设备损坏情况,再进行维修处理。
在不能确认有其他设备受到冲击时,不能盲目恢复维修好的设备,以防止事故
扩大。
(三)触电处置
1.一旦发生触电事故,机房管理员应迅速安全切断电源,切忌直接接触触电者。
2.即刻通知校医务室,中心负责人及有关人员、保卫处、物业管理等相关部门值班人员,同时开展现场应急救护。
(四)服务器与应用服务故障
1.服务器突发性故障
1)及时报告专责人员处理问题,同时向科室负责人汇报。
2)专责人员认真检查服务器故障信息,并认真记录,查明原因。若需要更换服务器硬
件,则立即将备件拿出更换,恢复服务器运行。如果当时没有备件,应立即联系有
关厂家或系统集成商申报维护,若已经超出服务期,则联系购买相关配件。同时科
室负责人组织人员通过主页发布通告,及时向用户传达信息。
3)因服务器故障而可能引起服务中断的,需要根据《高可用测试方案》进行检查和恢
复工作,以保证关键业务和应用的正常使用为主。
4)加强程序和数据的备份工作,网络服务的负责人应该对重要程序/数据至少每周一
次完全备份,根据需要做至少一次的增量备份。当服务器设备故障解除时能及时恢
复相应的网络服务。
2.应用服务突发性故障
对外服务信息系统一旦发现无法正常提供服务,应执行以下应急处理流程:
1)应立即向系统管理员通告情况,并向科室负责人汇报。
2)系统管理员在接到通知后需做好紧急应对,如重启服务或服务器。如果无法通过简
单的重启恢复,应立即赶到现场,若检查是由攻击或病毒引发的服务中断则按照前
述相关流程操作。
3)系统如果无法在1小时内恢复的,应立即向中心负责人汇报,由科室负责人协调组
织人员制定系统的恢复方案并开展实施。同时在主页等网站发布相关通知信息,告
知用户情况。
4)系统恢复后,在主页发布通知消息。
5)总结事件处理情况,并提出防范再度发生的解决方案;
(五)网络服务故障
1.网络服务遭受攻击或病毒爆发
出现灾情后值班人员要及时通知科室负责人、中心负责人及相关技术负责人。
值班人员根据灾情信息,初步判定灾情程度。能够自身解决,要及时加以解决;如果不能自行解决故障,由科室负责人和教育技术中心负责人现场指挥,协调各部门力量,按照分工负责的原则,组织相关技术人员进入抢险程序。
各单位对外服务信息系统一旦发现感染病毒,应执行以下应急处理流程:
1)立即切断感染病毒计算机与网络的联接;
2)对该计算机的重要数据进行数据备份;
3)启用防病毒软件对该计算机进行杀毒处理,同时通过防病毒软件对其他计算机
进行病毒扫描和清除工作;
4)如果满足下列情况之一的,应立即向信息安全负责人员通报情况,并在相关主
页发布消息告知用户:现行防病毒软件无法清除该病毒的;网站在2小时内无
法处理完毕的;业务系统或办公系统在4小时内无法处理完毕的。