运维故障应急预案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

运维故障应急预案文件编码(GHTU-UITID-GGBKT-POIU-WUUI-8968)

运维故障应急预案

V1.0

深圳市XX科技有限公司

修订记录

1机房失火,断电,断网

1.1紧急预案

1)全国各区域陆续反馈访问网站出现无法访问。

2)运维人员通过监控状态,无法远程登录服务器,ping不通服务器。并紧急联系机房人员,询问初步情况,则可判断是否出现机房失火,断电,断网。

3)技术部给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外,描述因为系统升级,而导致网站不能访问。

4)再次紧急联系机房供应商,询问故障的发生原因,故障的严重性,是否后续能正常恢复服务。

5)如故障严重,先能否挽救服务器,以存储服务器为优先。若存储服务器受损,则想办法恢复数据;若无法恢复数据,则修改通告内容,告知业务部门要重新导入全部数据。6)视故障影响范围,统计出未受影响的服务器。

7)如果是机房失火,断电,断网导致机房不可用,则尽快联系新的机房,开始重新搭建服务。

8)评估网站恢复的时间点,修改通告内容。

1.2风险预防

杭州和深圳均实施数据跨机房备份。

2.区域性网络故障问题

1.1紧急预案

1)全国某个区域短时间内有多个客户反映无法访问网站,其他区域访问正常。

2)运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。

3)如机房服务正常,运维人员测试出现故障区域的网络连接与dns解析是否正常。

4)如果网络连接或者dns解析不正常,则可认为出现了区域性网络故障问题。

5)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外受影响的区域客户,描述因为客户所在区域网站故障,而导致网站不能访问。

6)尽快联系当地运营商,询问网络故障的情况及恢复时间。

1.2风险预防

网站CDN镜像。

3.域名失效故障

1.1紧急预案

1)全国各区域陆续反馈访问网站出现无法访问。

2)运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。

3)如服务器服务正常,再通过DNS检测工具并发现域名IP指向异常,则认为出现了域名失效故障。

4)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外,描述因为域名运营商DNS解析故障,导致网站不能访问。

5)登录并查看域名供应商平台设置解析配置,若是域名供应商配置有问题,则修正该配置;若是DNS解析平台故障,则寻找另外的DNS解析平台,重新配置DNS解析。

6)告知业务部门,临时处理解决方法。发出修改hosts的bat脚本给各区域销售和客服团队,并告知允许脚本前要先退出QQ管家。

7)跟进全国域名解析的进展。

8)全国域名恢复后,撤出通告,并通知内部人员。

1.2风险预防

1)DNS加固安全锁。

2)每个月更换域名供应商和DNS解析平台的密码。

4.机房网络设备,服务器故障

1.1紧急预案

1)全国各区域陆续反馈访问网站出现无法访问。

2)运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。

3)如无法正常登录服务器,ping服务器不通,并紧急联系机房人员,并询问初步情况,则判断是否出现机房网络设备,服务器故障。

4)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外,描述因为网站升级改造,导致网站不能访问。

5)逐个设备,服务器登录检查,找出有故障的设备,服务器。再次联系机房人员,检查相应的设备,看是否能正常恢复运作。

6)收到机房人员的反馈后,若设备,服务器还可用,则与机房供应商共同执行修复措施;若设备,服务器完全损坏,则让机房供应商协助购买新设备,服务器或者借用现有设备,服务器。

7)配置新设备,服务器搭建运营环境。

1.2风险预防

1)HA热备,消除重点设备的单点问题。

2)确保配置文件均有备份。

相关文档
最新文档