运维标准化工作流程
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
运维标准化工作流程
应急安全事情的处理方案
提供高质量、低成本的服务;
提供的服务是准确计价的。
机房日常事件发生请求: 1、客户请求
2、数据中心监控报警
3、巡检中发现的异常
1、客户请求:当收到客户请求要求运维人员对设备、数据和无法远程
完成的操作提供服务时,运维应与客户核对三项或三项以上客户信息,
保障数据操作安全。
2、数据中心监控报警:运维人员收到监控软件的报警信息时,应立即
对报警信息进行分类和识别,详细地做好记录并诊断、提供初步的技术
支持,视情况而是否向上级领导报备。
3、巡检中发现的异常:运维人员应每天定时定点对机房进行巡检,发
现设备或数据异常时,应立即对异常信息进行分类和识别,详细地做好
事件记录并诊断、提供初步的技术支持,视情况而是否向上级领导报
备。
应急安全事情的处理方案
一、安全应急事件等级分类和相应的处理流程
根据应急事件的特点及实发事件所产生的损失程度,将应急事件分为三级:
一般应急事件
单一地点的网络故障或服务器受损,如:局部网络瘫痪、个别设备死机,对该地点的系统运行及业务运作造成严重损害,持续时间小于24小时的事件(超过24小时的事件为较大应急事件)。
处理流程:判断事件原因——事件分类(确定为一般应急事件)——初步技术支持(保障系统和公司业务正常运做)——调查和诊断——解决和恢复——事件的记录——事件的关闭——问题管理
较大应急事件
两个及以上地点的网络故障或服务器系统受损,如:较大规模的网络瘫痪、个别硬件设备损坏或遗失。对该地点的系统运行及业务运作造成严重损害,持续时间小于24小时的事件(超过24小时的事件为重大应急事件)。
处理流程:判断事件原因——事件分类(确定为较大应急事件)——初步技术支持(保障系统和公司业务正常运作)——向上级领导报备并提供解决方案——调查和诊断——解决和恢复——事件的记录——事件的关闭——问题管理
重大应急事件
多个(两个及以上)地点系统瘫痪,对业务运作造成巨大损失的安全事件以及火灾或遭可抗拒力破坏机房造成损毁和人员伤害等。
处理流程:判断事件原因——事件分类(确定为重大应急事件)——初步技术支持(保障公司业务数据和设备安全)——向上级领导报备并提供解决方案——调查和诊断——解决和恢复——事件的记录——事件的关闭——问题管理
二、应急文档的备存
1、各类网络设备和服务器、PC及其附属设备的型号、序列号等;
2、硬件设备供应商、生产厂商的电话、联系人、网址;
3、操作系统、关键业务应用软件开发商或供应商的电话、联系人;
4、网络拓扑图;
4、网络拓扑图;
5、路由器、防火墙、入侵检测设备的配置文档,服务器登录用户及原始密码文档;
6、各类软件的技术文档及其他需要保存的文档。
三、应急设备及软件备存
1、正版的操作系统启动盘、安装盘;
2、正版的防病毒软件(注明安装及升级序列号);
3、数据库管理系统软件,数据库备份软件及最近完整的数据备份存储介质;
4、相关的设备驱动程序(含主板、显卡、网卡等)及更新到最新的服务器注册表文件;
5、备用网线、万用表、测网仪、螺丝刀等必要工具;
6、其他必备的应急工具。
四、日常预防管理
1、定期检查服务器和网络设备;
2、及时更新服务器的防病毒软件病毒库;
3、定期对所有服务器进行漏洞扫描、补丁修复;
4、定时备份重要数据;
5、实行值班制度。
五、预警机制
预警信息分为外部预警信息和内部预警信息两类。外部预警信息指本公司外突发的可能破坏网络或者最新病毒等可能产生重大影响的事件警报;内部预警信息指单位内通信网络的中断或部分计算机系统奔溃对业务操作有影响的事件警报和运维人员在机房定时巡检中发现的服务器和设备的异常。
运维人员在获得外部预警信息后,对预警信息加以分析,通知公司各部门做好预防和网络保障应急准备工作,并报备上级领导;通过监控软件或机房巡检获得的内部预警信息,分析后按照早发现、早报告、早处置的原则,避免可能演变为严重应急事件的情况。
六、应急事件处理
1、确定事件类型
1)、运维人员及时判断事件的类型和紧急程度;
2)、确定事件范围(多少地点发生事件),检查敏感信息失密情况及其程度,分析攻击来源及侵入点。
3)、判断事件危害性及损失程度、分析人为原因、事件潜在危害性;
4)、确定事件发生时间及延续时间;
5)、判断需采用的方法及准备处理事件需要的必备资源;
6)、根据损失程度及延续事件等情况确定等级,较大、重大信息的报警信息需报备上级领导,采取相应的措施之后启动应急预案。
七、事件报告
1、报告方式
1)、根据事件的类型及紧急程度及时向上级领导报告(口头或书面报告),并制定具体措施;
2)、运维人员在收到监控软件报警或发现机房巡检时发生异常,识别分析之后需要对设备进行下架检查或需查看系统、数据等信息时,应本着尽快解决故障的原则对上级领导报备,如需其他部门同事的协调解决也应及时反馈。
2、报告内容
事件的基本信息(故障发生的时间、故障点、故障情况)、事件的类型、表现出来的现象、涉及的网络,事件当前的状态及可能造成的后果,以及事件解决的建议和措施。
八、现场处理
计算机病毒
1、断网、升级系统补丁及防病毒软件,查找病毒源,进行杀毒;
2、查找不出时,应向有关部门进行报告,提供病毒样本;
3、查找计算机病毒感染的存储介质;
4、对病毒利用的系统漏洞要通过补丁和升级的方式进行填补。
5、记录全部处理过程。
黑客入侵
1、记录系统状况
2、立即复制系统登录文件、历史文件、日志文件等重要文件;
3、修改防火墙、路由器等网络安全设备的过滤规则。
4、断开被攻主机、关闭不需要的服务。
5、处理可疑的文件和程序;
6、修改不安全的帐号和口令;
7、恢复被修改的的软件和数据。
8、安装相应的补丁程序,填补安全漏洞。
9、编写报告,详述事件过程及处理步骤。
备注:采取必要措施抵御入侵行为,保护系统和数据安全,利用完整性检查工具进行检查,必要时向公安机关报告并申请技术协助。