运维工作责任及制度流程管理办法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
精心整理
运维工作职责及制度管理办法
一、 目的
1.1、为明确运维部人员工作职责(重大责任)以及以往服务器故障处理过长导致百米用户流失并对业务扩张带来的影响,特制定本制度来规范运维人员的工作。
二、工作范围:
2.1、架构设计
为研发部门提供非代码方面的运维技术协助,并在产品开发初期或部署阶段与开发共同确认架构运行程序和服务器部署结构。
2.2小时轮每天至少2.32.42.5
3.13.1四、 ABCDE 五名员工,具体排班表见附件《运维轮排表》
4.2、运维工作中监测到异常时需按以下流程来处理:
1) 记录详细的故障症状及相关输出信息运维部会开发一套运维工作日志系统,用于记录每次故障的详情,以便日后对故障进行后续跟踪和职责过失判定。
2) 进行应急处理运维部与研发部双方会不断交涉更新汇总出一份常见故障应急处理方法的手册,以B/S 形式发放至每一位运维工程师。当出现突发故障时,运维工程师在记录
下故障详情后,则按照该手册结合自己的技术经验来进行故障修复。
3) 发布紧急维护通知(运营部=技术支持和商务部)
当故障在10分钟内无法恢复时,应属于紧急维护,需要对外发布维护公告。
根据公司制度,运维工程师需先上报至运维部负责人(负责人再次判断10分钟内是否能
解决,能解决则直接解决),再由运维部负责人通知运营部负责人发布通知。
为了防止联系不上运维或运营部负责人以及公布发布专人,运营部需有权用运营部拟定的维护公告模板来发布紧急维护公告,但是由运维部发布的维护公告,需事后由运维及运营部负责人签字确认原因是有相关负责人联系不上。
4)运维部开始进行后续技术处理直至问题解决较复杂的故障处理工作在发布紧急维护公告之后,运维部负责人需组织运维工程师进行后续的故障排队工作直至问题解决
4.3、运行监控中常出现的故障分为三个类别:硬件故障、软件故障、网络故障。由于服务
器等硬件在外地IDC机房,而网络故障大多出在IDC、ISP环节,运维不能自行处理,
需走对外的行政流程,因此对于运维工作的过失判断主要从软件故障上进行。如果是
因产品程序负载能力引起的故障,不属于运维工作失职。因此每次出现故障之后都需
要记录详情,以便跟研发人员一起找出故障原因。
五、
5.1
5.2
5.3
6.1
1
2
3
6.2
1
办公耗材的情况;
2)公司办公电脑严禁自行拆卸或调换配件,如有切实需求,需向公司申请按行政流程审批通过后,由运维工程师操作;
3)公司所有内部办公及对外服务设备,每月进行一次清点检查,防止出现配件被调换或丢失的情况(服务器需提供使用清单)。
七、运维技术文档资料管理工作细则
7.1、每月更新一次服务器部署架构图以及服务器配置清单表(excel),存档到公司内网服务器,
访问权限:运维部主管以及技术总监可访问。
7.2、服务器软件安装清单(其中区分Web、数据库、其它)安装软件增加则需更新,存档到
公司内网服务器,访问权限:运维部系统工程师可访问。
7.3、运维技术文档(故障排除文档、服务器优化文档、网络布置文档、学习资料)定时更新,
存档到公司内网服务器,访问权限:运维部工程师均可访问
7.4、所有生产服务器(外网)root密码,整理后提交至felix处(有新增则增量提交至felix 处),根据运维系统工程师等级开启相应操作权限账户,如:运维经理、主管管理员权限(具体根据形势需要)。