可靠性与可用性
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
以可靠性为代价逐渐增加可用性
Dan Byron (March 2002)
一个用户考虑一个系统的可靠性是当他们需要时看这个系统是否可用和可操作,增强系统可用性的一个方法是添加更多的组件到系统,但是组件数量的增多,增加了系统的故障率,因此从工程的观点来看减小了可靠性。这篇文章调解可靠性和可用性之间的明显的不和谐,且研究冗余,把它作为增加可用性的一种方式。
从工程观点来说,可靠性是指一个系统或设备在规定的条件下(笔记本电脑、IT中心)指定的期限内(例如:三年)完成一个必要功能(持续运转)的能力,从用户的观点出发,一个系统是否可靠取决于当用户想使用它时,它是否可以正常运行。这个运行的可靠性被更恰当地定义为可用性:对于需要使用它的任何时候,系统都是可用的,且是适合的。
虽然这种情况是一个理想状况,但一个高可用性系统不要求高可靠,可靠性如何被评定的一个测试为了解可靠性和可用性之间的关系提供了一个基本原则。
MTBF 作为可靠性的一个测量标准
一个系统里的组件、子组件、设备或部件有它们固有的可靠性,经常用平均故障间隔时间(MTBF)来表示,一个系统固有的可靠性是指系统中所有组件的非可靠性(故障率) 总和的一个函数。
考虑一个MTBF为100,000小时的集成电路,如果把这个设备放到一个电路里,这个电路还包含一个MTBF 为100,000小时的LED,就此而言这个电路的可靠性不是相加,它的MTBF不是200,000小时。为了确定这个电路的MTBF,首先要转换每个组件的MTBF为它相应的故障率(它的MTBF的倒数):
用这个故障率总和的倒数计算出系统(电路)的MTBF:
= 1/0.0002 = 50,000 小时
这个方法可以应用于任何串联性质的系统:一种组件的输入依靠另外一个组件的输出,任何设备的故障将会导致整个系统的一个故障。
直观地看,一个串联系统附加的设备越多,结果MTBF就越低,或者说故障率就越高。这个提论是寻找交替的设计途径的基础,例如:容错、故障恢复或冗余,在一个硬件故障出现时,这些方法设法保持一个系统运行,满足客户的可靠性定义。
使用和平均数的影响
考虑一个商业的台式电脑设备,一个设计组计划使用一个MTBF为10,000小时的可靠性电源,在放置这个电源到一个客户系统之前,这个设计组需要考虑两个附加因素:预计的客户使用的可靠性和自然的可靠性。
一个典型的用户能够操作一个台式电脑的时间为:一年50个星期,一个星期5天,一天12小时,每年计划使用:5 x 50 x 12 = 3,000小时。如果这个机器有一个保修期,或者三年期内硬件更新,那么,一个MTBF为10,000小时的电源似乎足以:3 年x 3,000 小时/年= 9,000 使用小时,这个时间是小于电源的10,000小时的MTBF。
因为可靠性数据本身的自然性质,这个假设是值得怀疑的,MTBF是所有设备的一个平均值,虽然电源的MTBF为10,000小时,但一些电源的MTBF在起初的几个小时是不足10,000小时的,有些电源则不低于100,000小时或者更多,然而在全部设备中,这些电源的MTBF平均数是不足10,000小时的。
10,000 小时MTBF的另一个问题是它代表机器运转的小时,不是日历时间的计时,也就是说,10,000 个小时是累积一台机器的运转时间不超过三年,就象前面的案例,或者用10,000 部机器设备每台运转一个小时。
考虑一个2,000 位职员的公司,每人使用一个系统,每个系统包含一个MTBF为10,000 小时的电源,这个类型的电源的故障率每小时为0.0001,两千台机器运转每小时的故障率为每台机器的故障率0.0001相加,即为每小时0.2,为了计算一天12个小时的故障率,把每个小时的故障率相加,在这个特别的公司环境里,每天的故障率为:12小时/每天x0.2=2.4 。
时间影响指数
这些问题的加剧是事实,这个事实就是一个系统的可靠性随时间而变化,下列等式列出了几乎每个可靠性函数的基本成分,它表示一个电系统的可靠性指数随时间而减小
R = e-(t/MTBF)
其中
R = 系统使用的可靠性
e = 系统日志
t = 测试的时间
MTBF = 故障率的倒数
当t改变时,可靠性R剩余部分也改变,例如:具有10,000小时MTBF的一个电源的可靠性在运转的第一年结束时是74.08%,也就是说总可靠性的25.92%已经失去。
R = e-(3000/10000) = e-0.3 = 0.7408
在第二年结束时,这个电源剩余的可靠性是54.88%,第三年底减少到40.65%。
通过增加设备(冗余)改进可用性
高故障率使用户痛苦,因为每个电源的故障导致一个桌上型电脑装置不能使用,所以系统可以容忍一个不影响使用的故障(增加可用性),设计组考虑附加更多的硬件(通过增加系统的故障率降低可靠性)。
设计组决定为这些用户使用冗余电源,他们将配置两个电源,以便一个出现故障时,另一个向系统提供所有的用电。
在这个例子里,假设电源是均分负载,且任何逻辑开关、信息交换、错误报告等等都是完美的。其余的惟一任务就是从可用性前景出发,确定如何做得更好,配置冗余电源将优于单一电源的配置。
均分负载设备的可靠性
当两个电源中的一个发生故障时,附加的压力出现,均分负载组件的故障率增加,考虑均分负载电源的情形:当两个电源都在场,且都运行着,每个仅贡献系统电源的50%,当第一个电源出现故障时,另一个电源必须增加它的输出,提供100%的电能。
电源中的一个组件所能承受的电流定额值是1安培(A),如果当两个电源共同运行时,它接受的电流仅为0.5A,此时这个组件将降低故障率。然而,当一个电源出现故障时,另一个电源中的组件将接受1A的电流,且要在这个状态下运行,直到发生故障的电源被替换。(降低组件电流定额值的指导方针,例如:Dell设计工程采用这些指导方针,防止电流定额值为1A的组件在电路使用中电流达到1A)。
一个电源出现故障后,当用户的电源系统不再有冗余电源时,整个系统的可靠性将使用Markov分析计算,系统将在一种降低性能状态下运行,直到出故障的电源被替换或被修好。
从Markov 模型观察(图1) ,当一个电源失效的时候和当它被替换的时候,整个系统的可靠性会发生改变。当一个电源出现故障时,可用性也受影响,因为系统没有了备份电源,所以不再能防止一个电源的故障,当出现故障的电源被替换的时候,且两个电源继续各自贡献50%的系统电源的时候,可用性返回到较高的水平。
图1、两个均分负载电源的状态图
电源系统的可靠性有效地增加,每个电源从10,000小时到均分负载双电源的6,260,000小时,这个数字表示的时间是在第一电源被维修和被替换之前,第二个电源出现故障导致系统中断运转的时间,可靠性计算假定一位管理人在第一个电源出现故时接到故障通知且在8小时内完成维修。