计算机控制系统可靠性设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算机控制系统可靠性设计
班级:机制1202班姓名:杨鹤青学号:U201210570 摘要:随着计算机控制系统广泛、深入地渗透到人们的生活中,因其可靠性题而潜在的巨大危害日益凸显。因此,设计具有高可靠性能的计算机控制系统成为必然。目前,针对复杂环境中计算机控制系统的可靠性研究设计已经获得了某些研究成果,且其具有广泛的应用前景。本文就提高计算机控制系统可靠性理论进行了分析,阐述了一些通用的可靠性设计方法。
关键词:计算机控制系统;高可靠性;系统设计
1 研究背景和意义
地球上第一台由多达一万八千只电子管构成的电子计算机 ENIAC,因其可靠性不能满足实际应用的需要,应用不是很广泛。然而,随着半导体技术的突飞猛进,计算机很快在银行存取款、座位预定、交通管制、生产及库存管理、医疗设备、通讯以及军事武器的应用等方面得到广泛应用。在现阶段,伴随着互联网应用的普及的及控制技术发展的进步,人类已经进入新的物联网时代。由此必然使计算机控制系统的应用更加深入的渗透到人们生活的各个领域,给我们的生活带来革命性的变化使人们生活更加舒适。
在物联网时代计算机控制系统已经深入的渗透到人们的生活中,例如:可以通过计算机控制系统实现如交通管理、远程视频监控、远程医疗等等。目前,计算机控制系统在人们的生产活动、经济活动和社会活动中已无处不在。在人们在享受到了计算机控制系统给我们带来的快捷舒适的同时也最大程度的整合了社会资源节约了人力财力,从而有效节约了成本。因而,计算机控制系统的普及应用已成为社会发展的必然趋势。在享受到计算机控制系统的普及应用所带来的巨大进步的同时也面临着由此带来的新挑战,即计算机控制系统的不可靠。由于计算机控制系统的不可靠性所带来的危害使其潜在巨大威胁,由此带来的担忧是正常的。例如:在被国际航天界称为“黑色 96”的 1996 年,俄罗斯质子号火箭、美国哥伦比亚航天飞机、法国阿里安火箭均在发射中遭到重创。
2008年 6 月 22 日(星期三)当地时间下午 5:08,位于瑞士中部的连接瑞士东北部楚格州的罗特克罗伊茨和乌里州的阿姆施泰格之间的输电网发生短路,并造成连锁反应,使整个铁路网供电失衡。由此可见,由于计算机控制系统的不可靠而带来的灾难是十分巨大的。因此,设计具有高可靠性的计算机控制系统是计算机控制系统设计的必然趋势。
2 当前研究现状
在容错理论的研究上,冯.诺伊曼早在20世纪50年代中期,在其文章《概率逻辑及用不可靠元件设计可靠的结构》中曾对容错技术中关于复合容错方案进行了论述。他用概率论证可以用不太可靠的器件组成一个可靠的具有相同功能的组件,同期又出现了莫尔一香农冗余方法,这些研究奠定了容错系统理论的基础。此后,世界上第一台容错计算机SAPO在捷克斯洛伐克建造成功。伴随着故障诊断和自动恢复机制的发展,出现了很有效的测试组合电路算法,其中最著名的是D算法。此时开始采用微程序设计,一般采用徽码进行诊断程序设计,对内部逻辑可进行更有效的测试和诊断。目前在硬件冗余设计,及其隔离、故障定位等方面均有了一定的发展。在容错计算机系统方面出现了许多有重要意义的研究性系统和实用系统。在NASA 的支持下,美国斯坦福研究所(SRD)和麻省理工学院的Draper实验室,按同样的技术条件,分别开发了非常先进的研究性机器:FTMD容错多处理器和SIFT(软件实现容错)。
目前伴随着VLSI技术的发展,使计算机硬件成本大大降低这就使得商用容错计算机系统应运而生,容错计算机从军事航天等部门,逐步扩大到工业控制、实时系统和联机事务处理(主要是银行、交通部门)等领域。在新型计算机结构中采用硬件冗余越来越容易,未来容错技术将成为新一代计算机的特征。关于冗余容错的应用研究主要集中于容错的VLSI技术、基于人工智能的容错计算机故障随机诊断专家系统、基于神经网络容错技术。当前的主处理器一般采用的都是通用处理器,和通用处理器相关的容错技术研究已经比较成熟,从软件到硬件都已经有了很多理论与应用。主处理器和可重构逻辑器件间根本上就是彼此间互相通信的问题,也已经有了很多成熟的技术。因此,当前在可重构系统的容错研究中,最关键的就是研究可重构逻辑器件的容错技术。然而,当前最
佳冗余容错方案是尽量走硬件冗余和软件冗余相结合的道路。硬件冗余时间开销小,技术相对成熟;软件冗余较硬件冗余更灵活,且具有动态特性。然而,在计算机控制系统的研究领域系统级的研究还比较少,只是少量理论基于控制系统中某个单元模块的研究。
3 计算机控制系统可靠性的主要影响因素与应对策略
3.1 计算机控制系统可靠性分析
图3.1 MTTF、MTTR、MTBF 关系
参照图 3.1,为精确描述计算机控制系统的可靠性,采用如下参数进行分析:平均无故障时间 MTF(Mean Time To Failure)指系统发生故障前运行的平均时间,表征系统可靠性(Realiability);平均修复时间 MTTR(Mean Time To Repair)指用于修复系统和在修复后将它恢复到正常工作状态所用的平均时间,表征系统可维护性(Maintainability);平均故障间隔时间 MTBF(Mean Time Between Failure)指两次故障时间间隔的平均时间。
实践表明,在一个系统的整个寿命周期中,系统的失效率随时间的变化规律可以用著名的浴盆曲线来描述,如图3.2所示。
图3.2 浴盆曲线
在图3.2中是描述的系统故障出现的概率λ(t)与系统运行时间t之间的关系。如图所示,系统的寿命周期可以分为三个阶段:第一阶段是早期故障期“1”,通常又称为调试期。随着调试的进行,早期故障不断排除,接着进入第二阶段随机故障期“2”,这一时期是正常工作的时期,系统的失效率不随时间的变化而变化。随着系统运行时间的越来越长,失效率不断增大,系统进入耗损故障期“3”,此时系统同出现故障的概率会随着时间的延长有明显的增长。
计算机控制系统中随机故障期可以看做是实际使用期,该阶段是系统可靠性建模和分析最值得关注的。前人经验证明该阶段的失效率大多数满足如下关系:
()t
R t eλ-
=
由上式可见,系统的可靠度函数服从指数分布规律,这是系统可靠性建模和分析中很重要的一个特性。
功能的时效性是指系统功能满足要求,并且其实时性能也在可以接受的范围内。计算机控制系统一旦某功能模块失常,可能造成无法挽救的灾难性后果。因此,要求做到确保计算机控制系统具有高可靠性。即使出现故障,也应有多种手段在短期内对数据处理并进行故障恢复,保证计算机控制系统的正常运行。
对于计算机控制系统而言,可用性主要是指系统的稳定性和功能的时效性等。稳定性指供用户使用的计算机控制系统能够提供持续不间断服务的能力,即在客户需要的任何时间都能满足客户的设计要求。一般来说计算机控制系统出现偶尔的故障是不可避免的。这种故障可能来自工作环境的干扰、自然灾害、人工操作失误等,也有可能由于操作系统、应用程序等软件故障,因而稳定性指标具体就是当设备发生故障时用户在合理的时间内将其重新恢复运行的能力。
定义系统的可用性(Availability)为一个系统可以为用户所正常使用时间的百分比,即正常运行时间的百分比,见下式:
可用性=
MTTF MTTF MTTR
+
从可用性的定义可以看出,提高系统的可性,即提高系统可用性的方法有两类:增加 MTTF 或减少 MTTR。增加 MTTF 要求提高系统的稳定靠性好;减小MTTR,即力求故障恢复时间缩短。例如,采用多控制器或计算机的集群结构可