线上事件或故障处理流程规范样本
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
线上事件解决规定
编制:
审核:
批准:
发布日期:201X 年X 月
修订历史记录
目录
1. 线上问题管理流程 (2)
1.1. 线上事件解决流程图 (2)
1.2. 目 (4)
1.3. 线上问题定义 (4)
1.4. 问题解决 (6)
2. 事故培训流程 (8)
3. 惩罚规则 (9)
1.线上问题管理流程1.1.线上事件解决流程图
1.2.目
为了明确线上事件报告、应急响应、解决、复盘机制,保证能以迅速、高效、精确应急解决能力来保证各类业务系统正常运转,当发生突发事件时,能在最短时间内恢复系统正常运转,将因而带来损失控制到最低限度,特制定此流程。
1.3.线上问题定义
1、线上事件:涉及线上故障和需求。
2、线上故障:涉及线上故障(A级、B级)和普通故障(C级)。
3、线上故障级别定义如下:
1.4.问题解决
1、报告问题
发现线上事件人员,涉及顾客、业务方、运维监控、测试人员等发现线上事件人员。报告人发现线上事件后,需要第一时间报告给运营经理、项目经理。
2、受理问题
事件发生时:
1)接受线上事件报告;
2)判断线上事故与否是故障:接到线上事件报告后,一方面判断线上事故性质;3)对外报告事故解决进展:如果是故障,立即按照流程规定告知有关负责人。运营经理或者想经理随时将解决状况上报给受影响部门和有关管理人员。如果是非事故,需要协助解决或者引导顾客找到解决办法。
3、解决问题
1)线上故障为A级,需要及时告知运维部、研发管理部以及有关产品部门领导,并告知中心领导。由各部门领导协调事故解决,10分钟内响应事故,2小时内予以解决保证系统恢复正常,并及时告知运营经理或者项目经理。
2)线上故障为B级,需要及时告知运维部、研发管理部以及有关产品部门领导,并告知中心领导。由各部门领导协调事故解决,10分钟内响应事故,1小时内予以解决保证系统恢复正常,并及时告知运营经理或者项目经理。
3)线上故障为C级,需要尽快将问题录入工单系统,告知产品部门产品经理或技术经理以及测试经理,并告知部门部长。由产品/技术经理协调解决线上事故,保证系统在最短时间内恢复正常,最长不得超过48小时。
4、验证问题
线上故障受理后都需要测试人员实时跟进,协助技术人员分析定位问题。如果是A级或者B级故障,问题修复后第一时间验证并告知运营经理或者项目经理;如果是C级故障,开发人员修复问题后及时更新缺陷状态并告知测试人员验证,并评估与否需要发布。1)需要发布。问题解决人员需要按照上线管理流程进行程序发布。
2)不需要发布。测试人员直接验证问题与否已解决:如果验证通过,需要在工单系统中关闭问题单。如果验证不通过,则将问题单重新打开并提示问题解决人员需要重新进行问题修复。
5、告知业务方
1)线上故障为A级或者B级,故障恢复前,由运营经理或者项目经理跟踪解决进展、每隔15分钟告知业务方。直至故障恢复正常
2)线上故障为C级,由运营经理或者项目经理跟踪问题状态、问题单关闭后实时告知业务方。
2.事故培训流程
线上重大事故解决之后,需要召开线上事件事故培训会议,对事故进行详细分析并给出规避办法以及潜在风险评估,从而避免同种重大事故再次浮现。
QA问题记录:
1)收集和维护各部门线上事件解决人员清单和通讯录,以便事故协调小组及时联系到
有关解决人员
2)收集线上故障实例,对事故级别定义提出优化建议,以便更快更准辨认事故,做到及时响应和解决事故。
3)收集和维护各部门事故应急预案。
3.惩罚规则
操作者:有关开发人员
主管:团队产品经理、技术经理、开发经理、组长
部长:部门(副)部长