第四章计算机联锁控制系统的可靠性保障技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章计算机联锁控制系统的可靠性保障技术以上所学的内容主要是从功能安全的角度出发,讨论了无任何故障情况下,实现功能安全的软硬件实现原理,任何设备、装置的故障是不可避免的,本章对系统设备的可靠性进行研究,尽可能防止可预知的故障发生,将不可预知的故障减小到最低程度,使故障造成的损失降低到最小,最大限度的提高路信号系统的可靠性。
第一节可靠性概述
要研究计算机联锁控制系统的可靠性,首先要明确系统的故障以及故障产生的原因和故障的类型,它们是研究计算机联锁控制系统可靠性的基础和系统可靠性设计的基本依据。
一、故障分析
1.故障:指系统硬件的物理缺陷、设计制造的不完善或软件设计中隐含的错误。
2.差错:指系统中由于故障而造成的信息或状态的不正确,是故障的结果。
3.失效:由于硬件的物理性能发生的改变,不能完成预定的功能,称做“失效。
这种失效是物理器件的失效。
另外,系统未能正确提供标准的服务或丧失了完成规定功能的能力,也是失效,这种失效称为“系统失效”,是出现差错的结果。
4.失败:故障、差错和失效的出现都有可能造成系统不能够正常工作,此时称为系统操作失败。
可见,故障、差错、失效与系统失败构成了一个因果链,即因物理器件的失效导致的故障引起了差错,而差错又引起系统失效,最终形成了操作失败。
二、故障产生的原因
系统产生故障的原因有物理原因和人为原因两个方面。
物理原因,包括系统内部元器件的缺陷和系统外部环境条件变化两个因素。
系统的元器件缺陷包括生产期间的氧化穿孔、安装时出现的开路以及元器件通电运行时的老化等缺陷;外部环境因素包括电磁干扰、机械振动和冲击等。
人为原因,包括无意识的操作错误和操作失误以及有目的的对系统的破坏。
三、计算机系统故障的分类
研究故障的分类是为了更好地把握故障的主要特征,根据不同的准则,有多种故障分类方法。
主要的分类有:
1.按故障的性质分类
故障可分为逻辑性故障与物理性故障。
逻辑故障指系统中某一点的逻辑值与正常值相反的故障。
故障的逻辑值可能是固定的,也可能是变化的。
物理性故障是指由直接物理性原因引起的故障。
由系统自身的缺陷和不良所导致的物理故障称为内在故障,而由外来因素诱发的物理故障称为诱发故障。
2.按故障的持续期分类
故障可分为永久故障、瞬间故障和间歇故障。
永久故障是由于硬件发生了不可逆转的变化而引起的故障,它是一种静态型故障,其故障特征可再现;瞬间故障指持续时间不超过某一确定的最大时间长度的故障,它通常由暂时的环境因素引起,通常并不造成硬件物理性能的损坏,其特征是故障不具有再现性;间歇故障是再生性故障,它出现的周期不确定,一般是由元器件性能不稳、接触不良、设计不正确等原因引起的,其特点是具有再现性,是一种可重复出现的非永久型故障。
3.按故障的表现分类
故障可分为物理层故障、逻辑层故障、数据层故障和系统层故障。
物理层故障指电子电路中的电路故障,可分为元件级、逻辑门级和集成芯片级故障;逻辑层故障指物理层故障在逻辑层表现出的逻辑值变异;数据层故障指由于硬件故障或环境干扰等原因引起的在计算机系统存储单元中表现出的数据变异;系统层故障指故障在系统功能级的表现,即系统的输出不符合系统功能的设计要求。
4.按硬件和软件分类
除了上述故障分类方法,还包括按部件分类、因果关系以及影响范围等故障分类方法。
四、可靠性基本概念
1.可靠性的定义
系统的可靠性是指在规定的条件下,规定的时间内,系统完成规定功能的概率。
在该定义中,“规定功能”意味着不能希望系统完成设计功能以外的功能,如果系统的设计功能不能满足运用的需要,仅说明系统设计得不好,并不是可靠性差;“规定的时间”也意味着不能要求系统永远不坏,它总有一个合理的正常工作期限;“规定的条件”意味着需要给系统工作一个必要的环境条件,只有在这个条件之下系统才能够正常工作。
可靠性是一个与概率密切相关的统计指标,仅对一件产品来说是没有意义的。
这就需要拿出大量样本(产品)对它们做可靠性试验,才能得出产品的可靠性评价。
2.可靠性的技术指标
描述可靠性的两项重要指标:
⑴失效率λ(t)
λ(t)的含义是:在t时刻附近,
单位时间内失效的样品数与样品总数
残留的样品数之比。
λ(t)的定义中排
除了随时间推移残留样品数逐渐减少
这一干扰因素,而只反映产品本身的特性。
图4—1反映了电子产品的失效率曲线,即著名的浴盆曲线。
从浴盆曲线可以看到,在电子产品的稳定工作期,其失效率几乎为一常数。
⑵平均无故障时间MTBF
评价系统可靠性地另一个重要参数就是平均无故障工作时间,或称平均故障间隔时间MTBF。
MTBF可以通过实验得到,也可以计算得到。
处于正常工作期间的电子产品,由于在这一时期其失效率A为一个常数,因此其MTBF等于λ的倒数。
第二节联锁控制系统可靠性保障技术概述
一、可靠性保障技术概述
为了提高系统的可靠性,防止故障造成系统失效,人们在长期的研究中发展了两类基本技术。
一类是防止和减少故障发生的技术,叫避错技术;另一类是当系统的某一部分发生故障时仍使系统保持正常工作的技术,叫做容错技术。
避错技术的基本着眼点是通过质量控制(如设计审核、元件筛选、测试等)、环境保护(如对外部干扰采取屏蔽)和减载使用等措施设法消除产生故障的原因,从而防止故障的发生,延长系统的使用寿命。
容错技术又分为两种类型——故障掩蔽技术和系统重组技术。
故障掩蔽技术也称静态冗余技术,是指防止系统中故障产生差错的一种技术,将发生的故障掩蔽起来。
这一技术不要求在发生故障前检测故障,但要求做到故障包容,也就是使故障的影响局部化,防止故障的影响在系统中扩散从而影响整个系统的性能。
这种技术中最常用的有纠错码、表决技术等,这是实现容错的第一途径。
系统重组技术也称动态冗余技术,是防止系统中的差错导致系统失效的技术。
系统重组要求首先进行故障检测,然后做到故障复位,最后做到系统恢复,即通过重组等手段使系统保持正常运行,这是实现容错的第二种途径。
故障掩蔽技术和系统重组技术都建立在冗余技术的基础上,以资源冗余为前提,是容错技术的核心。
二、计算机联锁控制系统可靠性保障技术
1.硬件避错技术
避错技术是通过对系统进行完善设计,力求使系统避免发生故障的一种技术,主要包括质量控制技术和环境防护技术。
⑴质量控制技术:采用高可靠的部件和微机系统,并对组装工艺实行严格的质量管理。
⑵环境防护技术包括:
①抗气候环境设计。
主要针对高温、低温、潮湿、盐雾、霉菌和风沙进行防护设计,即进行热设计和三防设计。
②抗机械环境设计。
即抗振动、冲击设计。
③电磁兼容性设计。
电磁干扰不仅使计算机系统的可靠性、稳定性、安全性要受到严重影响,而且还会干扰其他电子设备。
2.软件避错技术
在进行软件设计时常用的避错技术:一是开展软件工程,加强软件可靠性管理;二是优化程序设计;三是强化程序验证。
(1)软件可靠性管理技术
(2)可靠性程序设计技术:实现可靠性程序设计常用的基本技术有自顶
向下设计、结构化设计、递归程设计、程序综合设计、函数程序设计以及有关的形式说明和程序变换等。
(3)程序验证技术
(4)程序构造验证技术
3、容错技术
容错,即当系统出现硬件或软件故障时,程序不会因系统中的故障而终止或被修改,并且执行结果也不会包含系统中故障引起的差错。
即容许某种失效的存在,而使其后果不知在城系统工作实效,或能及时发现而缩短修复时间。
容错的基本思想是,在系统的体系结构上精心设计来达到掩蔽故障的影响,从而自动恢复系统或达到安全停机的目的。
容错技术主要依靠外加资源的方法来换取可靠性,主要方法有:
⑴硬件冗余:硬件的堆积冗余体现在物理级的原件重复或逻辑与的多数表决;待命储备冗余体现在具有n+1个模块并带有检错和切换装置的系统中。
⑵软件冗余:一是研究无错软件,二是研究容错软件。
⑶时间冗余
⑷信息冗余
容错技术在对故障处理方式上采取动态冗余和屏蔽冗余两种结构。
动态冗余结构是指当主机故障时,备机自动代替,该结构需要具有故障检测和动态切换功能。
屏蔽冗余结构则将故障模块对系统的影响屏蔽掉,该结构需要具有表决功能。
第三节系统级可靠性保障技术
为了使系统的可靠性指标达到或者超过目标值,计算机联锁控制系统采用的可靠性冗余结构主要有3取2静态(屏蔽)冗余结构,双机热备动态冗余结构。
一、动态冗余结构—故障切换结构
这类结构目前广泛采用的有双机热备结构和二乘二取二结构。
在双机热备系统中,一个CPU执行联锁(主机),另一个CPU也进行联锁运算(热备),但无控制输出。
在二乘二取二系统中,两个CPU构成一个子系统执行联锁任务(主机),另两个CPU处于热备状态(备机)。
在双机热备系统中,对主机故障的检测是由一个CPU执行两套功能相同
而编码各异的程序以及诊断程序来实现的。
如图4-2所示,在二乘二取二系统中,主机采用两个CPU各执行一套编码相同的连锁程序,并在码元一级对两个CPU的操作进行比较以检测故障。
对于故障切换系统来说,当主机发生故障时,只有备机处在无故障的热备状态,才允许替代主机工作或者说才允许切换,否则可能产生危险后果。
再不允许切换时,除非主机的CPU发生了故
障,否则应坚持工作,以免造成全站作业
的瘫痪。
另外,故障修复后,联锁机内的
程序进程和数据必须与主机取得一致时方
允许作为热备机使用,否则也是危险的。
因此,故障切换系统的切换机理既涉及可
靠性又涉及安全性,在人工参与切换时尤
其注意。
二、静态冗余结构—故障屏蔽结构
目前,属于这类结构的只有三取二系
统。
如图4-3所示,在三取二系统中,即用
三台结构相同、彼此独立的计算机和表决
器组成的计算机表决系统,又称TMR系统。
3个CPU运算结果两两比较,只要两个CPU
的运算结果一致时,就认为联锁系统处在
安全可靠的运用状态。
从能角度来看,这相当于有一个CPU系统的故障被屏蔽了。
像故障切换系统一样,修复后的CPU系统其程序进程和数据必须与正在工作的CPU取得一致时,方可投入使用。
三、切换开关电路和表决电路
在计算机联锁系统中,一般采用双机热备或三机表决系统,而切换开关电路和表决电路是实现单个系统硬件冗余,保证联锁机可靠性和安全性的关键部件,这些电路也必须是故障~安全的。
1.切换逻辑控制与切换开关电路
在双机热备系统中,对切换逻辑控制和切换开关电路的基本要求是结构简单,可靠性高。
切换逻辑控制电路监测联锁机的工作状态,当发现联锁机
工作不正常时,产生切换信号控制切换开关电路动作并报警。
(1)切换逻辑控制电路
常用的切换逻辑控制电路有定时监视法和动态信号监视法两种。
定时监视法如图4-4所示,它是利用可再触发单稳态触发器的定时作用构成的。
联锁机的工作具有周期性,系
统正常工作时,将定时输出标准脉
冲序列,可再触发单稳态触发器总
是在规定的时间到来之前被联锁
机复位,其输出总是“1”。
当联
锁机故障时:不会有脉冲序列输
出,单稳态触发器在规定的时间到来时,由于得不到触发信号其输出将变为“0”,这个输出变化可作为切换信号来控制切换开关电路。
动态信号监视法和定时监视法的工作原理相类似,只是用动态信号检测器代替可再触发单稳态触发器,具体电路与动/静--电平输出接口电路相同。
联锁机在无故障时,定时调用动态信号驱动程序,向动态信号检测器输出方波信号,动态信号检测器只有在接收到方波信号时,其输出为“1”,否则为“0”,用动态信号检测器的输出去控制切换开关电路进行切换。
但是这两种方法本身的故障检测覆盖率不高,为了提高故障检测覆盖率,在复位定时器或执行动态信号输出程序之前,应尽量使系统中的所有部件都被用到,或者调用检测程序以扩大检测范围。
(2)切换开关电路
切换开关电路可以由多种器件构成,如图4-5所示是切换开关及其控制
电路的一个例子。
其中,由继电器Xa代表A机的报警信号,Xb代表B机的报警信号,Xa和Xb的接点构成切换S1和S2的控制继电器AJ和BJ的电路。
当继电器AJ励磁时使开关S1导通;当BJ励磁时使开关S2导通。
假定微机A和B输出的故障报警信号均为电平信号,并约定无故障时为高电平“1”故障时为低电平“0”。
并假定系统开始工作时微机A处于工作机位置,微机B处于备用机位置,此时,由于AJ吸起,BJ落下,切换开关使A的输出作为系统的输出。
在此以后,可能有以下情况发生:
若B机先发生故障,则低电平信号使Xb继电器落下。
在这种情况下,AJ 仍保持吸起,BJ保持落下,切换开关维持在原位。
在B机修复后,输出的高电平信号又使Xb吸起,切换开关维持原状。
若A机先发生故障,则Xa继电器落下。
此时AJ落下,BJ吸起,切换开关转换,使B机的输出成为系统的输出。
在A机修复后,尽管Xa吸起,但切换开关不动,仍维持B机处于工作机的位置。
此后,若A机发生故障,切换开关不动;若B机先发生故障,则转换切换开关。
2.三取二表决电路
三取二冗余计算机联锁是利用静态屏蔽技术构成的联锁系统,它共有三个主机,每个主机是联锁机的一个子模块,只要三个中的任意两个的输出是一致的,就把这个一致牲的输出作为主机的输出,且认为联锁机的主机在可靠地工作,而不管第三个主机是否发生了故障。
对三个子模块输出的比较以及对主机输出的控制,是通过表决器来实现的,表决器的任务是对三个子模块的输出两两进行比较,只要有两个子模块的输出信号是一致的,则表决器就有输出信号。
假如三个A、B和C的输出信号分别为a、b和c,则表决器完成如下逻辑运算:
V(a,b,c)=a·b+a·c+b·c
这很容易用组合逻辑电路来实现。
如图4-6所示,表决器构成的一个例
子,它由三个两两比较器和一个或门组成。
由于表决器是对安全信息进行表决的,它
必须具有故障一安全性能。
然而仅由组合
逻辑构成的表决器是不具备故障一安全性
能的,因此需采取技术措施使表决器在发生故障时不致造成危险侧输出。
一般有两种方法来保证表决器的安全性。
一种是采用简单的硬件电路配以软件检测技术共同完成安全表决器的功能,例如让软件具有多数表决功能,即把各个主机的输出信息输入到另外两个主机中,在主机内部进行一次三取二表决,再把各个主机用软件表决的结果送到外部表决电路进行再次表决,这样就极大地提高了表决的安全性。
另一种是采用较复杂的时序电路构成安全表决器。
如图4-7所示,是安全表决器的一个例子。
图中仅画出了三个比较器中
的一个,它对主机A和B的输出信号a和b进行比较,该比较器由四个脉冲信号CPl~CP4推动工作,当a和b均为高电平(两者一致)时,CP1脉冲到来时或门1就输出一个脉冲信号,在CP3脉冲到来时,或门2就输出一个脉冲信号。
当a 和b均为低电平(两者一致)时,在CP2到来时,或门1输出一个脉冲信号,在CP4到来时,或门2输出一个脉冲信号信号。
当a为高电平而b为低电平(不一致)时,在CP1和CP2的作用下或门1连续输出两个脉冲信号。
当a为低电平b为高电平时,在CP3和CP4的作用下,或门2连续输出两个脉冲信号。
上述脉冲信号的变化波形如图4-8所示。
或门1和或门2的输出脉冲作用于具有两位的
双向移位寄存器R,在R中事先置为“10"状态,当两个主机的输出信号a和b 为脉冲序列且两者一致时,移位寄存器就能左右移位,从而输出脉冲序列,在经或门3成为表决器的输出。
当信号a和b不一致时,移位寄存器R被向一个方向连续推动两次,于是它的内容变成“00”,它的输出也就保持在“0”态了。
当比较器发生固定型单一故障时,表决器的输出为稳态输出(0或1)。
因此该电路是故障--安全的。
三机表决系统中,当某一模块出现故障时虽然可以被掩盖过去,但系统已失去了容错能力,这时若不及时修复,则当另一模块再发生故障时,将表决失误。
为此,三机系统必须具有模块故障检测功能,即三个主机中任何一个发生故障时,应能及时检测出以便通过检修消除故障。
主机故障检测电路可在表决器电路的基础上增加少量的电路来完成。
例如把三个主机的输出信号和表决器的输出信号同时加到异或门,就能判明是哪个模块发生了故障。
当三个模块均正常工作时,它们的输出信号电平和表决器输出的信号电平是一致的,因此各个异或门均无输出。
如果某一模块的输出电平与表决器的输出电平不一致,则相应的异或门就有输出,从而可判明是哪个模块发生了故障。
构成三模系统需要解决下列问题:
1.表决技术
表决可由硬件组成,也可由软件来实现。
硬件表决可以用逻辑电路来实现,它的优点是速度快,缺点是所需的附加硬件多,从而造成功耗、重量及体积增大。
软件表决不需更多附加硬件,结构简单,而且可以通过修改程序很方便地改变表决方式,因此比较灵活。
但是,软件表决与硬件表决相比速度较慢。
2.同步处理
多模冗余系统在表决时的基本要求是同步。
同步是整个TMR系统的核心,若冗余模块之间不能很好地同步,将使表决机制处于紊乱状态,系统无法保证正常工作。
因此要根据系统的结构以及系统的性能要求制定相应的同步策略。
在TMR系统中主要有硬件同步和软件同步两种方式。
硬件同步属于紧密同步。
通过专门的同步装置来迫使系统中各个冗余模块按协同的节拍严格同步工作。
这种同步的特点是能够及时检测到故障并制
止故障的传播,使得故障对系统的影响迅速得到屏蔽。
硬件同步包括三种方式:
(1)共同时钟方式。
采用一个公共的时钟对所有的模块提供统一的时基。
这种方法容易实现,缺点是时钟系统中的任何一个故障都将导致整个冗余系统失效。
因此只适用于一些结构不十分复杂的冗余系统。
(2)时钟反馈调节方式。
这种方式中,各模块采用独立的时钟,各个时钟之间互相反馈调节漂移以达到同步。
能够及时纠正时钟漂移,消除同步误差,这种方式是构造长期无外部参考容错时钟系统的最有效方法,在容错系统中得到广泛应用。
(3)事件调节的同步方式。
这种方式是在规定事件的触发之下实现同步。
软件同步属于松散同步。
这种方式是以软件算法来实现同步,使多模系统各个模块在各自固有时钟的条件下工作在极为接近的同步状态。
各模块间的同步取决于模块间通信结构的性能,各个模块固有时钟的精度和同步的频率。
三模冗余技术可以在各个级别应用。
上文是将整个计算机联锁控制系统看成一个大模块进行三模冗余设计,另外也可以对每个功能模块进行三模冗余设计。
另外,3取2结构不仅能够提高系统的可靠性,还是保障系统故障--安全性能的有效措施。
第四节设备级可靠性保障技术
计算机联锁控制系统包括操作显示、联锁运算、输入/输出等功能模块。
要保证系统的可靠性,还需要采取各种软硬件措施,保证各个模块能够可靠地工作。
一、硬件可靠性保障技术
设备级可靠性保障技术主要包括硬件、软件以及数据可靠性保障技术。
而硬件可靠性保证技术主要从故障检测技术以及故障屏蔽技术两个方面着手。
1.故障检测技术
故障检测技术是实现容错计算、提高系统可靠性的基础。
只有检测故障模块,才能够进行故障屏蔽或系统重组。
接下来就以二模热备动态冗余系统
为例介绍系统中常用的故障检测技术:
(1)自检法
两个模块各自具有独立的故障检测功能,并各有一个检测输出信号。
可用两个模块信号的组合构成一个故障识别器来控制切换开关。
这种基于故障自检的冗余方法不需要严格的同步工作。
(2)比较法
这种方法的基本思路是对两个模块的输出进行比较,通过比较发现故障,再进一步判断是哪个模块发生了故障,然后控制切换开关工作。
这种方法的特点是在无故障期间,两个模块无须执行故障自检程序,有利于提高执行应用程序的速度。
但两个模块要同步工作,以保证比较器能正确地工作。
(3)仲裁法
该系统中的两台计算机A和B各自独立地运行,将运算的结果分别送给寄存器R1和R2中。
然后通过比较器对两个结果进行比较。
如果相同,A和B允许工作。
若不一致,则由判决器发出中断信号,强制两台计算机各自执行自检程序。
将执行自检程序所得到的数据送到R1和R2中。
如果计算机没有故障,自检的结果是数据c,先将R1中的数据与常数c进行比较(校验),如果相同就让A机单独工作。
若不相同,再将R2中的数据与常数C相比较。
若相同让B机单独工作。
否则停机,系统工作失败。
与比较法有些类似,仲裁法的特点之一是采取了用常量自检结果的方式。
它的另一特点是计算机在输出计算结果时,同时输出一个计算结束的信号。
外部仲裁机构在收到该信号后才对数据进行比较,因此两台计算机不需同步工作。
(4)自检互检法
这种方法类似于自检法。
其特点是在模块内的某类故障仅靠自检不能检出时用两个模块相互检测的方法予以补偿冗余管理机构,是一个能识别哪个模块发生故障的部件,它的作用类似于识别器。
2.故障屏蔽技术
要保障设备级的可靠性,还常常采用故障屏蔽技术。
⑴元件级故障屏蔽技术。