机房基础设施故障(事故)上报处置流程企业管理范文

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机房基础设施故障(事故)上报处置流程—企业管理范文
一、目标
和规范化中心机房基础设施故障(事故)的报告和处置流程,提高运维保障效率,保证故障(事故)的快速反应并及时修复、恢复,使损失降低到最低。

二、范围
中心机房,共计3个机房区域。

三、定义
3。

1一级故障:
故障影响范围小,不会对业务系统造成中断影响,并且不会对其它系统使用造成影响。

3.2二级故障:
关键系统单个设备或系统故障,造成单个或局部业务系统中断,不会造成重大业务中断,不会造成关键中断。

3.3故障:
外部出现供水、供电、网络系统等中断,关键性系统造成大面积中断.涉及到外协单位修复,并且无法在短时间(2小时)内恢复,可能造成。

四、故障报告原则
先抢修,同报告;先核心,后边缘;先始端,后末端,分故障等级进行处理。

五、故障(事故)类型
5.1一级故障
单台的机柜PDU断电、单台UPS及空调关键设备报警、机房温度上升到30℃以上、空调漏水影响到其他区域等。

5。

2二级故障
单台UPS电源故障停机、单台空调机组故障停机、环控系统无法检测数据、机房温度超过35℃等。

5。

3故障
UPS前端供电中断、空调配电柜前端供电中断、空调冷冻水供水中断(失压)、机房温度超过40℃、网络中断等。

六、故障报告流程
6。

1当发现一级故障的情况下,当班运维人员首先进行故障确认,确认故障后进行一般性修复,无法修复的设备及时通报运维管理负责人以及数据中心当日的值班,运维负责人相应的技术工程师到场维修。

事故恢复后事故总结报告.
6.2当发现二级故障的情况下,当班运维人员首先运维负责人以及数据中心当日值班,值班及运维负责人及时赶到现场,同时故障产生的原因。

值班、运维负责人和相应专业技术工程师协调沟通相关部门,相关单位派维修工程师进驻现场解决,短时间(1小时)无法解决项目经理,值班及时数据中心主管领导。

事故恢复后事故总结报告。

6.3当发现故障情况下,当班运维人员首先运维负责人、项目经理以及值
班并告知物业管理部门相关人员。

值班、项目经理及运维负责人及时赶到现场,故障产生原因上报上级领导,值班上报主管领导和数据中心主要领导。

由相应的数据中心领导、项目经理及物业部领导联系外协单位进行解决.事故恢复后事故总结报告.
七、故障处置方法
7。

1一级故障的情况下,现场运维人员主动解决故障,运维负责人及时联系专业工程师到场解决故障.值班现场关注解决故障进程,并且配合解决外部单位协调工作。

7。

2二级故障情况下,项目经理到场主持工作,联系专业工程师以及维修工程师及时到场解决故障。

值班现场关注解决故障进程,并配合解决外部单位协调工作,同时上级主管领导,主管领导到场关注故障维修工作进程。

7.3故障情况下,项目经理到场主持工作,并上报领导,联系专业工程师及维修工程师及时到场解决故障。

值班到场关注解决故障进程,并配合解决外部单位协调工作。

值班及数据中心主要领导和主管领导,以及领导到场关注故障维修进程。

同时数据中心主管领导**个使用单位,启动机房内**业务系统应急预案,同时项目经理安排专业工程师对UPS间、机房内设备等进行应急操作。

上一篇:基于问题导向的信息技术升级与管理升级协同模式下一篇:矿业落实雨季“三防”措施确保矿井安全。

相关文档
最新文档