关于运维健康性指标应用的报告

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关于运维健康性指标应用的报告

2011年6月16日

目录

文档管理信息表 ............................................................................................ 错误!未定义书签。文档修改记录表 ............................................................................................ 错误!未定义书签。

一、现阶段建议采用的系统健康性运维指标: (3)

1、系统健康性运维指标: (3)

2、人的工作可靠度预测: (6)

3、建立系统健康性运维体系: (6)

二、相关系统健康性运维指标理论概述: (8)

1、可靠性概述: (8)

2、可靠性和可用性的区别: (11)

3、信息系统的故障类型和失效规律 (11)

4、可靠性技术分析鱼骨图 (12)

三、BSM展望: (12)

四、背景 (14)

由于是描述系统可用性、可靠性、稳定性等性能的报告,本文尝试以可用性中著名的“瀑布效应”原则(即倒金字塔方式)进行写作。

一、现阶段建议采用的系统健康性运维指标:

1、系统健康性运维指标:

目前业界中运维工作中可用性、可靠性、稳定性、容量管理等方面的论述较多,从不同的角度来看有着众多的指标体系,其理论也较为繁杂,不同的著作对指标的论述和理解的维度也有所不同,有些指标统计和计算较为复杂,有着相当的计算和测试工作量,因此结合目前我行的运维系统的现状,初步拟定了以下指标:

2、人的工作可靠度预测:

(1).人在工作中的差错很多,归纳起来不外乎以下五类: 未履行职能; 错误地履行职能; 执行未赋予的分外职能; 按错误程序执行职能; 执行职能时间不对。 (2)2.人的差错概率

人的工作可靠度与人的工作差错概率是互逆的,所以人的工作可靠度可用人的工作差错概率来计算:

E —全部工作记录 e —失效工作记录

3、建立系统健康性运维体系:

从整个生命周期的角度看,无论是硬件还是软件,大致可分为规划和设计、开发和测试、实施、运营和终止等5个阶段。前面3阶段

E

e

HEP

从时间的角度看,只占生命周期的20%,其余80%的时间基本上是运维服务。而根据Gartner Group调查发现,在运维工作中经常出现的问题中,源自技术和产品方面的其实只占了20%,流程失误占40%,人员疏失占40%。流程失误包括变更管理没有做好、问题处理、预防性维护检查不到位、容量超载、测试不到位等流程上的失误或不完整。

这就说明IT运维方面的问题,更多的不是技术问题,而是来自管理方面,“预防胜于检查”,因此重点需建立全方位和运维防护体系,包括预防性维护、定期检查、系统应急、冗余设计、变更、容量、配置等一系列的涉及流程、人员、工具的一套管理体系来支撑。通过完善的管理体系,系统管理人员可以依据可靠性指标,采用可靠性统计分析技术,时刻监测系统的运行状况,以便及时发现失效苗头,提前采取技术措施,消除隐患,确保系统始终处于良好的运行状态。

容量管理需建立一套流程体系,针对不同的系统设立系统容量的规格线和控制线,并根据业务的发展趋势进行动态监控和控制。

可靠性保证的实质是防错、检错、排错和容错。提高可靠度的途径:提高系统的可靠度;提高系统的维修度;提高人员的可靠度;提高流程的可靠度。

二、相关系统健康性运维指标理论概述:

1、可靠性概述:

可靠性(Reliablity)是一个含义极其广泛的概念(包括人们对一个系统、一件或一套设备在寿命周期内能够可靠而有效地工作能力的总的认可度或评价)。可靠性的定义很多,根据国家标准GB-6583的规定,产品的可靠性是指:产品在规定的条件下、在规定的时间内完成规定的功能的能力。从系统工程的观点来说,信息系统可靠性,就是指网络设备和系统在规定条件、规定期限内,实现规定目标、完成规定功能而不出现故障的可能性。核心是:一件设备或一套系统在一定时期内、一定条件下、完成一定工作任务稳定运行的概率。

所谓规定条件,是指系统在使用中规定的工作环境(如温度、湿度、冲击、震动、磨损、腐蚀、使用方法、维护和使用者操作水平等)和规定的维修条件。所谓规定期限,是指系统、设备无故障运行和使用周期;所谓规定功能,是指系统或设备的主要技术指标,如服务器和计算机的内存容量、CPU运算速度,数据库触发器的响应时间,传输介质的技术测试指标,传输链路的带宽,等等。信息系统的可靠性是设计和建设出来的,是设备或系统的内在综合质量特性的客观反映,是从功能和时间上考核设备或系统的质量特性。

可靠性典型的失效率曲线是浴盆曲线,其分为三个阶段:早期失效区、偶然失效区、耗损失效区。早期失效区的失效率为递减形式,即新产品失效率很高,但经过磨合期,失效率会迅速下降。偶然失效

区的失效率为一个平稳值,意味着产品进入了一个稳定的使用期。耗损失效区的失效率为递增形式,即产品进入老年期,失效率呈递增状态,产品需要更新。

除了本文中第一部份选取的指标,可靠度还有以下指标: 重要度Zd ,表示设备或硬件系统各个构成部件、组件等要素在系统中的重要程度,即部件、组件发生故障时引起系统故障的概率。这一指标对筛选系统核心设备极为重要。

当设备某个部件或系统某个组件的重要度为1时,表示部件或组件故障会引起整个系统功能丧失或崩溃(如传输链路的路由器,构成信息系统的服务器,应用软件系统的数据库,终端的操作系统软件等);当部件、组件的重要度趋近或等于0时,表示其故障不影响系统的正常运行,即使发生故障也不会引起系统功能的改变(如服务器

早期失效期

随机失效期 损耗失效期

调整期

退役期

相关文档
最新文档