机房服务器管理应急预案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机房服务器管理应急预案
目录
一. 故障处理流程 (2)
二. 应急预案方案 (4)
三. 预防保障措施 (8)
四. 应急资源配备 (8)
五. 厂家联系人 (8)
一.故障处理流程
(一)系统故障通报与应急恢复
1.当值班人员发现系统故障时,应立即采取应急措施设法恢复故障,并在故障
解决后以邮件方式通知技术中心领导。当故障处理需要技术部门协作时,由值班人员及时通知开发人员。不明确具体协作人员时,可直接联系技术开发部经理。
2.如果故障30分钟内无法解决,值班人员应以手机方式通知公司主要领导,并
通知系统维护人员与相关开发人员到场,一并协调尽快解决问题。
3.故障恢复后30分钟内,由值班人员发出《故障信息单》。通知单内容包括故
障信息、故障恢复信息。(恢复故障指:故障现象得到缓解,系统得到正常运行,但不代表引起故障的原因已明确定位,并彻底解决系统故障隐患。故障恢复后要求进行故障分析与故障纠正预防、彻底解决或减少故障重复发生次数。)
4.系统管理人员在收到《故障信息单》后,及时将故障情况添加到“故障案例”
中,以备日后学习总结。
(二)故障分析、纠正、预防
1.故障恢复后,不代表故障已彻底解决,不会再发生。值班人员、系统管理人
员及相关开发人员,需要对故障产生的原因进行定位,分析,制定彻底纠正、预防故障的解决方案。
2.在故障恢复后的3个工作日内,由系统管理人员负责编写《系统故障分析报
告》。《系统故障分析报告》内容要求含盖故障发生的时间、地点、项目名称、故障描述、处理全过程、影响面大小、故障级别、故障审核等各方面信息,编写人员必须认真填写,以确保数据的准确性和完整性。若在技术上有疑问,可向技术处理协作人员咨询。
3.《系统故障分析报告》要求在故障恢复后的3个工作日内完成,再发给技术
中心各领导知晓,并由专门人员将故障及处理过程录入知识库,以便于共享工作经验,提高故障处理能力与效率。
4.故障若无法制定或实施纠正预防措施,技术部门应做详细的原因说明,同时
跟踪该故障是否重复发生。
5.当故障需要进行系统升级方可解决时,按《程序上线流程》进行升级更新。
(三)故障处理流程
二.应急预案方案
(一)应急预案的目的
为提高系统运行的可靠性和稳定性,切实保障实网系统的通信质量,尤其是在紧急情况下使运行维护人员及时、准确地查找、分析和解决出现的问题,将用户损失和影响范围减至最小,特制定本应急处理预案。
(二)紧急情况的定义
紧急情况是指系统软件和硬件发生重大故障,导致系统业务全阻。紧急情况包括:
(1) 因违章操作、突发事故造成系统全面中断,或出现异常,引起大量用户集中投诉,造成重大经济损失和不良社会影响的故障。
(2) 因发生社会安全突发事件时的通信保障:大规模集会、游行以及恐怖暴力事件等。
(3) 因举行重大活动时的通信保障:国事会议、大型体育运动会、大型展览、军事演习等。
(4)重大节日期间的通信保障,如五一、十一、中秋节、春节等。
(5)因电信运营企业自身运营事故导致系统发生重大异常或中断情况时的通信保障。
(6)上级领导下达的重要运营业务保障运行正常任务。
(三)故障处理预案
1.WEB 故障
故障现象:
1)web网页提示:无法打开或者转向错误页面
2)web网页提示:java错误或tomcat的调试信息
3)页面打开缓慢或无响应
处理方法:
web网页提示:无法打开或者转向错误页面
web网页提示:java错误或tomcat的调试信息
2.其他故障
故障现象:
1)数据库无法连接
2)服务器无法登陆
3)网络故障
处理方法:
数据库无法连接
服务器无法登陆:
内网网络无法访问:
三.预防保障措施
3.1组建应急技术支持小组
建应急技术支持小组,以便在紧急情况发生时能迅速到位,及时指导现场处理各种情况。应急小组成员手机7×24小时开机。由维护、研发、项目管理、工程、测试等相关模块人员成立应急小组,进行应急预案实施。
3.2建立系统巡检制度
建立每日系统远程巡检制度,每半月现场对运行设备和备用设备巡检;远程巡检的同时对服务器进行病毒处理。
3.3落实系统备份工作
每日巡检检查数据库备份文件是否正常;定期对系统的话单数据、接口处理数据进行备份,并将备份数据永久保存。
3.4检查系统容量及利用率
每日对系统管理平台上的的资源使用情况进行跟踪统计,定期反馈系统相应资源的占用情况。
3.5资料更新归档
系统升级、业务变更、现场设备和电路变更后,必须立即更新对应的备份文件、工作资料和维护资料。
永久保留现场的相关记录,机房出入的相关手续,设备的相关变更记录。
四.应急资源配备
1.民生资讯开发维护文档;
2.软件的备份,数据的备份。
五.厂家联系人