服务器故障应急响应方案说明

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

服务器故障应急措施方案

部门版本编号

|

密级公司内部使用日期

文档信息

@

文档名称服务器故障应急措施方案

日期版本号更新说明

2014-03-14:

建立文档、初始化

'

1.方案概述

导致服务器出现故障的问题是一个庞大的集合,可以分成很多种导致服务器出现故障的原因,根据服务器故障出现的状况进行分类,确定故障属于哪一个级别,根据相应的故障级别对故障做对应的处理,确保故障的处理流程是标准化的。

如果没有一套故障处理的标准,工程师只能靠经验去判断,但是依靠经验判断并不是不可以,有时候这种处理方式会很高效,但是大多数这种处理方式都是不太合理的,如果更换了运维工程师,显然每一个工程师通过经验去判断故障原因的方式都不尽相同,这样的差异将会使故障处理事后不能够得到很好的记录与存档,以供其他工程师以后借鉴故障处理案例。

故障处理标准化的优点:

A.根据流程可以确定哪些故障应该立即汇报上级,哪些可以自行解决后,再写故

障处理报告汇报上级,这样做有助于提高故障处理效率。

B.对于工程师经验判断,可能出现判断失误的情况,根据故障判断流程,可以不

遗漏任何可能的情况对服务器故障进行排除。

C.!

D.有时候工程师处理了故障之后只是简单的做了一下汇报,并没有一些故障处理

过程的记录,以及故障处理的详细时间记录,这样对需要追溯以前的具体情况

的时候就束手无策了。

2.划分故障等级

故障说明故障处理第一步

Ⅰ级(紧急)/

当系统出现下列相当严重的现象时,属一级故障:

系统整体瘫痪,全部操作失去响应;

系统崩溃,关键硬件或文件系统损坏无法自

动修复;

发生间歇性、随机性、重复性的启动或应用

退出,无法保障公司业务的正常处理。

立即汇报上级

Ⅱ级

(重要)

;立即汇报上级

当系统出现下列比较严重的现象时,属二级故障:关键部件(含软、硬件)停止工作,导致系

统降低运行状态,客户业务受到严重影响;

系统整体性能严重下降,无法自动恢复正常

运行状态;

重要数据、参数和配置信息损坏,无恢复,

导致客户数据及业务记录严重损失;

Ⅲ级(关键)当系统出现下列现象时,属三级故障:

{

部分设备或软件异常,局部功能受限,系统

整体仍可正常工作,对客户业务影响不大或

存在隐患;

关键备用设施因故障离线,主用设施仍能正

常工作;

系统运行指标(例如:I/O 效率、CPU 效

率)受到直接或间接影响,客户业务处理缓

慢;

立即汇报上级

Ⅳ级(告警)当系统出现下列情况而不影响客户业务时,属四

级故障:

不在运行状态的线路、端口损坏;

%

出于安全考虑并且是受保护的软件降级或应

用重启;

因存储空间不足导致的性能下降;

系统硬件、软件产品功能、安装、或配置方

面的支援;

业务仍然可以正常运作,但是服务器报出故

障信息的;

故障排错判断

3.故障分类

序列~

问题种类

详细内容

一机房网络故障1、骨干网光纤切割;2、机房网络升级;3、机房网络设备调试;4、机房网络设备损坏;

4. 故障应急处理流程

{

>

5. 故障排错流程

!

"

6.数据与日志备份

在进行故障修复的时候,需要对服务器系统以及软件的配置文件进行修改,这些修改可能造成的风险是很大的,这时保存备份配置文件信息、应用数据、系统日志信息会很重要,可以直接通过shell脚本对服务器重要的数据进行备份。

7.故障处理报告

7.1.故障处理报告文件命名规则

例如:故障处理报告_Ⅰ级—紧急_squid-chendu_系统崩溃

7.2.故障处理报告内容

相关文档
最新文档