云服务器故障应急预案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
云服务器故障应急预案
一、目的
为了确保云服务器(以下简称云平台)使用过程中遇到突发事件后能正确、有序、高效地进行应急处理,保障工作的正常运转,结合实际,特制定本预案。
二、适用范围
本预案适用于云平台中可能出现的各类突发事件。
三、预案流程
云平台服务故障预防措施包括分析风险,建立检测体系,准备应急处理措施,控制影响扩大。
上报
各部门在云平台使用过程中遇到突发问题导致系统无法正常运转时,报技术部系统对接人确认,情况属实立即报知运维工程师和数据库管理员。
了解和分析
根据实际情况,技术部安排应急值班(附表1),确保到岗到人,联络畅通,技术人员即时开展软件的检修工作,对具体情况进行了解并进行初步判断、处理,并将初步情况上报运维工程师知晓。
处理方法
如突发问题为操作系统引起
首先由技术人员对突发问题进行分析,确定引起问题的具体原因,如操作系统已无法启动,则由技术人员将具体情况通报运维工程师,进行系统备份恢复,如操作系统可启动,则由技术小组根据实际情况进行妥善快速处理。
如突发问题为软件引起
首先由技术人员收集系统日志,对突发问题进行分析,确定引起问题的具体原因,通过讨论确定初步解决方案,并对突发问题进行初步解决,如仍无法解决,则由技术人员备份数据库后,重装云平台解决。
如突发问题为网络引起
技术人员先将问题反馈给数据中心运维人员,协调网络管理员进行初步检查后确定问题原因,并在最短时间内给予解决。在事件处理过程中,技术人员要随时将突发问题处理情况上报数据中心运维人员。
如突发问题为数据库引起
技术人员先将问题反馈给数据库管理员和服务器运维
人员,确定问题。数据库软件本身问题,可切换至实时备份数据库。也可以采用新建立数据库,恢复备份的数据库文件,如果原云服务器都无法恢复,可以采用其他云服务器进行恢复。
特殊情况处理
准备好阿里云平台的帐号、域名备案、服务器,如遇目前云平台UCLOUD都无法使用的特殊情况,全部迁移至阿里云平台。
技术部负责每周二和周五15点检查ucloud余额情况,若余额低于5000元当天申请续费付款流程,确保余额大于5000元;检查完成后,需登记《云服务器例行检查记录表》注:定期对服务器进行检查,填写云服务器例行检查记录表。
四、信息安全事件分类
有害程序事件
有害程序事件是指蓄意制造、传播有害程序,或是因受到有害程序的影响而导致的信息安全事件。有害程序是指插入到信息系统中的一段程序,有害程序危害系统中数据、应用程序或操作系统的保密性、完整性或可用性,或影响信息系统的正常运行。
有害程序事件包括计算机病毒事件、蠕虫事件、特洛伊木马事件、僵尸网络事件、混合攻击程序事件、网页内嵌恶意代码事件和其它有害程序事件等 7 个子类。
网络攻击事件
网络攻击事件是指通过网络或其他技术手段,利用信息系统的配置缺陷、协议缺陷、程序缺陷或使用暴力攻击对信息系
统实施攻击,并造成信息系统异常或对信息系统当前运行造成潜在危害的信息安全事件。
网络攻击事件包括拒绝服务攻击事件、后门攻击事件、漏洞攻击事件、网络扫描窃听事件、网络钓鱼事件、干扰事件和其他网络攻击事件等 7 个子类。
信息破坏事件
信息破坏事件是指通过网络或其他技术手段,造成信息系统中的信息被篡改、假冒、泄漏、窃取等而导致的信息安全事件。
信息破坏事件包括信息篡改事件、信息假冒事件、信息泄漏事件、信息窃取事件、信息丢失事件和其它信息破坏事件等 6 个子类。
信息内容安全事件
信息内容安全事件是指利用信息网络发布、传播危害国家安全、社会稳定和公共利益的内容的安全事件。
设备设施故障
设备设施故障是指由于信息系统自身故障或外围保障设施故障而导致的信息安全事件,以及人为的使用非技术手段有意或无意的造成信息系统破坏而导致的信息安全事件。
设备设施故障包括软硬件自身故障、外围保障设施故障、人为破坏事故、和其它设备设施故障等 4个子类。
灾害性事件
灾害性事件是指由于不可抗力对信息系统造成物理破坏而导致的信息安全事件。
其他事件
其他事件类别是指不能归为以上 6 个基本分类的信息安全事件。
五、应急处理
安全事件等级确定
信息安全事件分级的参考要素包括应用系统、数据系统、客户信息等公司重要信息。本公司将信息安全突发事件级别分为三级:一般、较大、重大。
一般:公司较小范围出现并可能造成较大损害的信息安全事件。
较大:公司部分网络与信息系统、网站受到大面积、严重冲击。
重大:公司大部分网络、信息系统、网站基本瘫痪,导致业务中断,造成信息泄密的安全事件,纵向或横向延伸可能造成严重社会影响或较大经济损失。
预案启动
启动预案的权限。发生网络信息安全事件后,信息安全领导小组负责启动相应预案,指挥、处理相关的应急响应工作。
启动预案的流程。应急响应小组接到报告后,应当立即上报信息安全领导小组有关负责人,并会同相关成员尽快组织专家组对突发事件性质、级别及启动预案的时机进行评估,向信息安全领导小组提出启动预案的建议,报信息安全领导小组批准。如发生重大安全事件,则报告人应同时上报应急响应小组和信息安全领导小组有关负责人,应急响应小组应进行初步的应急处理,防止损害进一步扩大。
启动预案后的应急处理。在信息安全领导小组作出启动预案决定后,应急响应小组立即启动应急处理工作。
现场应急处理
现场应急响应小组应尽最大可能收集事件相关信息,明确事件类别及来源,保护证据,以便缩短应急响应时间。
检查威胁造成的结果,评估事件带来的影响和损害:如检查系统、数据的完整性、保密性或可用性,检查攻击者是否侵入了系统,确定暴露出的主要危险等。
抑制事件的影响进一步扩大,限制潜在的损失与破坏。
根除恶意代码造成的不良影响。在事件被抑制之后,通过对有关恶意代码或行为的分析结果,找出事件根源,明确相应的补救措施并彻底清除。与此同时,对于攻击源头在外网的,应报执法部门和其他相关机构将对攻击源进行定位并消除。清理系统、恢复数据、程序、服务。把所有被攻破的系统和网络设备彻底还原到它们正常的任务状态。另外,恢复工作中如果涉及到涉密数据,需要额外遵照公司对于涉密数据的相关要求。
报告和总结
应急响应小组应回顾并整理发生事件的各种相关信息,尽可能地把所有情况记录到文档中。发生重大信息安全事件的单位应当在事件处理完毕后5个工作日内将处理结果上报给公司。
应急行动结束
根据信息安全事件的处置进展情况和现场应急处理工
作组意见,应急响应小组应组织相关部门及专家组对信息安