网络设备典型故障分析与排查--网络设备维护第五章常用管理软件.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一线故障支持 二线故障支持 三线故障支持 四线故障支持
指帮助台和服务台; 指管理部门; 指软件开发人员和架构设计师; 指第三供应商。
故障支持
是指当一线支持在规定时间内不能解决或 没有解决某个故障时,便将其交给更有经 验或权限的支持人员。
一线支持
二线支持
三线支持
故障管理
服务 请求 是 处理 流程
检查和记录 服务请求 初步支持
拓展了帮助台或呼叫中心的范围,通过提供 一个全球集中的服务联络点促进了组织业务 流程和服务管理基础架构的集成。
• 5.1.4 事故管理
事故管理负责记录、归 类和安排专家处理事故并监 督整个处理过程直至事故得 到解决和终止。
“事故”指任何不符合标 准操作且已经引起或可能引 起服务中断和服务质量下降 的时间。
故障检测
故障报警
故障信息管理 排错支持工具
检索/分析 故障信息
5.4 故障管理的流程
• 5.4.1 影响度/紧迫性/优先级
• 受影响的用户数 • 受影响的系统数 • 用户需求 • 服务级别协议 • 错误的严重性 • ……
影响度 紧迫性
优先级
估计:人力、 资源和时间
5.4 故障管理的流程
• 5.4.2 故障升级
作步骤
• 5.1.1 基本概念
• 概念:故障管理是指在系 统出现异常情况下的管理 操作,简单的说就是找出 故障的位置并进行恢复。
• 目标:自动监测、记录网 络故障并通知用户,以便 网络有效地运行。
• 网络的故障管理包括故障 检测、隔离和纠正三方面。
故障 检测
隔离 纠正
① 维护并检查错误日志; ② 接受错误检测报告并作出响
负责 解决 故障并 跟踪、 监督、 控制和 协调 解决 过程
故障检测和记录 初步归类和支持
服务请求
故障调查和分析 解决故障和恢复服务
终止进程
故障知识库 处理服务请求
用 户 系 统 服务台 其他IT部门
服务台 基本信息 故障管理
相同故障
故障管理知识库
否 创建新记录 是 更新相记录
故障严重 否
是
补充其他相关信息 记录基本分析信息 故障编号 初步归类和支持 向上报告/告知用户
是否解决 恢复服务
否 调查分析 是否解决
否 调查分析
恢复服务
是否解决
N线支持ห้องสมุดไป่ตู้
否
继续 调查
分析
终止
恢复服务
5.4 故障管理的流程
• 5.4.3 故障管理流程
– 1、故障检测和记录
– 2、初步归类和支持
故
– 3、故障调查和分析
障
管
– 4、解决故障和恢复服务
理
流
– 5、故障终止
程
– 6、故障处理过程的跟踪和监督
5.5 故障管理知识库
• 5.5.1 知识要素
知识要素
主要包括: 记录IT应用或网络出现的故障; 记录故障状况、引起的原因、关联问题、提交
人等; 提供一系列行之有效的解决方案; 拥有负责人,便于维护和跟踪; 隶属于一个或几个类别。便于查找和统计; 拥有生命周期,当它不再具备服务作用或被更
加有效的方法代替,应该及时“退休”。
正在处理的 已终止的
• 5.1.5 问题管理
问题 知名错误 问题管理
目标
是存在于某个未知的潜在原因的一种情形。
是问题经过诊断分析后找到事故产生的根本原因 并制定出可能的解决方案时所处的状态。
指负责解决IT服务运营和管理过程中遇到所有问 题的流程。包括问题处理和问题控制两部分。
在于减少由于IT基础架构的错误而导致的问题和 将事故对业务产生的负面影响减少到最低,以及 防止这些错误有关的事故再次发生。
5.5 故障管理知识库
• 5.5.2 知识发布流程
用户
管理员
审批人
管理员
提交
分派
审批
发布
5.5 故障管理知识库
• 5.5.3 知识库作用
实现知识共享 实现知识转化 避免知识流失
提高运维响应 速度和质量
挖掘、分析 IT应用信息
本章小结
1. 网络故障管理包括故障检测、隔离和纠正三方面。
2. 在故障管理的过程中,帮助台负责管理和协调客户和用 户的服务请求,而事故和问题管理则负责协调各支持小 组和第三方供应商来解决事故和问题。
第五章常用管理软件的配置、使用 与服务
广西大学 邵洪涛 2010年 3月
学习内容: • 什么是故障管理 • 故障管理的重要性 • 故障管理的内容 • 故障管理的流程 • 故障管理知识库
学习目标: • 理解:
– 故障管理的重要性 – 知识库在故障管理中的
重要性 • 掌握:
– 故障管理的内容和流程 – 故障管理软件的简单操
事故管理强调速度,而问 题管理强调质量,为了发 现事故原因和防止事故再 次发生,问题管理可能需 要花费更多时间解决事故 且可能推迟恢复服务。
5.1 什么是故障管理
• 5.1.3 服务台
Help Desk
帮助台
Service Desk
服务台
是负责管理、协调并尽快解决IT服务运营与 管理发生的以外事故的部门或平台。
3. 问题管理的主要目标是查明事故发生的潜在原因并找到 解决此事故的方法或防止其再次发生的措施,而事故管 理的主要目标是在事故发生后尽可能快的恢复服务,即 使采取的是一些应急措施不是永久性的解决方案。事故 管理强调速度,而问题管理强调质量,为了发现事故原 因和防止事故再次发生,问题管理可能需要花费更多时 间解决事故且可能推迟恢复服务。
本章小结
4. 故障管理的内容包括故障监测、故障报警、故障信息管 理、排错支持工具和检索/分析故障信息。
5. 影响度是衡量故障影响业务大小程度的指标,通常相当 于故障影响服务质量的程度,一般是根据受影响的人或 系统的数量来确定的。
应; ③ 跟踪、辨认错误; ④ 执行诊断测试; ⑤ 纠正错误。
• 5.1.2 故障管理与ITIL的关系
ITIL服务支持
故 障 借鉴 管 理
帮助台 事故管理 问题管理
负责管理和协调客户和 用户的服务请求
负责协调各支持小 组和第三方供应商 来解决事故和问题
• 5.1.2 故障管理与ITIL的关系
问题管理的主要目标是查 明事故发生的潜在原因并 找到解决此事故的方法或 防止其再次发生的措施, 而事故管理的主要目标是 在事故发生后尽可能快的 恢复服务,即使采取的是 一些应急措施不是永久性 的解决方案。
5.2 故障管理的重要性
• 故障管理的主要优点 ① 及时解决事件,从而最小化业务影响; ② 改善对支持资源的利用; ③ 更好地理解事件对SLA指标的影响,从而 允许改进优先顺序; ④ 关于正在发生的事件的准确信息; ⑤ 消除“遗漏”的事件和服务请求; ⑥ 提高管理信息的可用性。
5.3 故障管理的内容