运维故障应急预案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
运维故障应急预案
V 1.0
深圳市XX科技有限公司
修订记录
1 机房失火,断电,断网
1.1 紧急预案
1)全国各区域陆续反馈访问网站出现无法访问。
2)运维人员通过监控状态,无法远程登录服务器,ping不通服务器。并紧急联系机房人员,询问初步情况,则可判断是否出现机房失火,断电,断网。
3)技术部给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外,描述因为系统升级,而导致网站不能访问。
4)再次紧急联系机房供应商,询问故障的发生原因,故障的严重性,是否后续能正常恢复
服务。
5)如故障严重,先能否挽救服务器,以存储服务器为优先。若存储服务器受损,则想办法恢复数据;若无法恢复数据,则修改通告内容,告知业务部门要重新导入全部数据。
6)视故障影响范围,统计出未受影响的服务器。
7)如果是机房失火,断电,断网导致机房不可用,则尽快联系新的机房,开始重新搭建服务。
8)评估网站恢复的时间点,修改通告内容。
1.2 风险预防
杭州和深圳均实施数据跨机房备份。
2. 区域性网络故障问题
1.1 紧急预案
1)全国某个区域短时间内有多个客户反映无法访问网站,其他区域访问正常。
2)运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。
3)如机房服务正常,运维人员测试出现故障区域的网络连接与dns解析是否正常。
4)如果网络连接或者dns解析不正常,则可认为出现了区域性网络故障问题。
5)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外受影响的区域客户,
描述因为客户所在区域网站故障,而导致网站不能访问。
6)尽快联系当地运营商,询问网络故障的情况及恢复时间。
1.2 风险预防
网站CDN镜像。
3. 域名失效故障
1.1 紧急预案
1)全国各区域陆续反馈访问网站出现无法访问。
2)运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。
3)如服务器服务正常,再通过DNS检测工具并发现域名IP指向异常,则认为出现了域名失效故障。
4)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外,描述因为域名运营商DNS解析故障,导致网站不能访问。
5)登录并查看域名供应商平台设置解析配置,若是域名供应商配置有问题,则修正该配置;若是DNS解析平台故障,则寻找另外的DNS解析平台,重新配置DNS解析。
6)告知业务部门,临时处理解决方法。发出修改hosts的bat脚本给各区域销售和客服团队,并告知允许脚本前要先退出QQ管家。
7)跟进全国域名解析的进展。
8)全国域名恢复后,撤出通告,并通知内部人员。
1.2 风险预防
1)DNS加固安全锁。
2)每个月更换域名供应商和DNS解析平台的密码。
4. 机房网络设备,服务器故障
1.1 紧急预案
1)全国各区域陆续反馈访问网站出现无法访问。
2)运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。
3)如无法正常登录服务器,ping服务器不通,并紧急联系机房人员,并询问初步情况,则判断是否出现机房网络设备,服务器故障。
4)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外,描述因为网站升级改造,导致网站不能访问。
5)逐个设备,服务器登录检查,找出有故障的设备,服务器。再次联系机房人员,检查相应的设备,看是否能正常恢复运作。
6)收到机房人员的反馈后,若设备,服务器还可用,则与机房供应商共同执行修复措施;
若设备,服务器完全损坏,则让机房供应商协助购买新设备,服务器或者借用现有设备,服务器。
7)配置新设备,服务器搭建运营环境。
1.2 风险预防
1)HA热备,消除重点设备的单点问题。
2)确保配置文件均有备份。