XX数据中心机房应急预案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据中心机房应急预案
一、系统故障应急流程
1.1 系统故障应急流程说明
一、故障发生
XX运维服务人员可从以下途径得知故障的发生:
1)中心内场人员通过运维平台发现故障
2)外场人员通过维护巡检发现故障
3)用户发现故障,报给应急领导小组,或者XX运维微信群上报给中心服务工程师。
4)驻场工程师发现故障
二、报障受理
监控系统运维服务人员得知系统故障发生后,立即响应,并向报障人或单位详细了解系统故障情况。
三、信息研判
运维服务人员根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案。
四、预案启动
如需启动应急预案,则立刻通知应急领导小组,由领导小组启动应急预案,对系统突发故障应急事件进行全面管控处理。
五、资源确认
系统突发故障应急预案启动后,首先是根据现场突发故障实际状
况、紧急程度、技术难度、备品备件等情况对相关资源(主要是参与人员)依据经验进行调度和确认,主要有以下资源:
我公司技术支持人员;
相关厂家技术支持人员;
我公司聘请的技术专家
六、预案执行
按照既定的预案进行突发故障抢修,如遇到问题及时向应急领导小组汇报。
七、预案终止
预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后报应急领导小组决定。
八、结果上报
预案中止后,相关预案参与人员将整个事件过程中所有收发信息、领导批示、事故调查报告、现场录像、图片等材料及时整理归档,并总结事件处理过程中的经验和教训,修改、完善事件应急预案。然后集中上报至应急领导小组。
应急流程管理报告填写指南
编号:(格式为D0405-日期+两位序列号,其中日期按“yyyy+mm+dd”格式,2位序列号根据日期从01起顺序递增,例如D0405-2010031401,表示2010年3月14日第1张应急流程管理报告。)报告日期:年月日至年月日(统计时间段)
报告人签名:客户经理签名:时间:时间:
1.2 系统故障应急处理流程图
机房应急预案
3.1 通信网络故障应急预案
(1)如属线路故障,应重新安装线路。
(2)如属交换机网络设备故障,技术人员立即检修并调试通畅。如交换机配置文件破坏,网络工程师应迅速按照备份配置文件重新配置,调试通畅。现场技术支持:XXX 138XXXX5617。必要时,请有关供货单位、设备厂商协助调测畅通。华为售后电话:400-8229999。
(3)如需更换设备,应上报分管领导,经批准后马上更换故障设备,尽快恢复系统运行。
(4)如发现属于外部线路的问题,应与线路运营商联系,敦促尽快恢复故障线路。移动运营商:XXX 137XXXX1717;联通运营商:XXX 156XXXX1216。
(5)现场技术支撑无法及时修理时,应立即通知相关供应商及维护人员,在最短时间内安排修理。
(6)特殊情况,如故障判断、网络恢复需要1小时以上,负责人因及时将相关情况汇报至分管领导处,并在领导同意的情况下,采用紧急恢复措施,绕过故障设备,先行恢复网络的联通性,并及时督促及落实设备供应商抵达现场,及时判断故障并恢复正常;
(7)应急处置结束后,XX运维团队应将故障分析报告,在调查结束后一日内书面报告应急领导小组。
3.3 不良信息和网络病毒事件应急预案
1、应急处理
(1)发现不良信息或网络病毒时,信息系统管理员应立即断开网线,终止不良信息或网络病毒传播,并报告指挥调度中心XX运维
团队和应急领导小组。
(2)网络管理员30分钟内将被攻击的服务器或其他设备从网络中隔离出来,并恢复其他系统正常运行,必要时可以采取照片、截图等方式留存记录,保护现场;
(3)如事态较为严重,经向分管领导请示后,立即向公安部门报警,配合公安部门展开调查.
2、修复处理
(1)记录系统状况;
(2)立即复制系统登录文件、历史文件、日志文件等重要文件;
(3)修改防火墙、交换机等网络安全设备的过滤规则;
(4)断开被攻主机、关闭不需要的服务;
(5)处理可疑的文件和程序;
(6)修改不安全的系统帐号及其口令;
(7)恢复被修改的软件和数据;
(8)安装相应的补丁程序,填补安全漏洞;
(9)编写报告,详述事件过程及处理步骤。
(10)事态或后果严重的,应向开发区公安应急领导小组和相关领导汇报。
(11)现场相关技术人员向公司技术部沟通组织技术力量追查非法信息来源;协调各厂家做好被攻击或破坏后系统的恢复与重建工作;
3.4 服务器软件系统故障应急预案
1、软件故障分类:操作系统故障,应用软件故障。
2、采取的技术措施
在故障发生后立即查看服务器系统状态,如果是系统软件出现故障,并且能进入系统,且故障原因定位清晰,可立即排除。如果估计在1小时内不能定位原因,则报告客户经理和应急指挥负责人,同时联系厂商及技术支持协助排除,或根据技术支持建议进行重新安装操作系统和应用系统。
3、软件系统平时必须存有备份,与软件系统相对应的数据必须有多日的备份,并将它们保存于安全处;
4、应用软件发生故障后,软件现场负责人应对相应程序进行重启和问题初步排查工作,如无法解决该问题,技术人员应立即向项目负责人或领导汇报,经确认后停止该系统的运行并沟通厂家使用备份程序进行恢复,保证业务正常进行;
5、视频巡逻发生较严重故障时可直接联系海康厂家:XXX 189XXXX5330;其余系统发生重大故障时可联系XXX事业部项目经理:XXX 185XXXX6071。
3.5 黑客攻击事件应急预案
(1)当发现网络被非法入侵、网页内容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络,并立即报告XX运维小组。