诊断与容错技巧
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6/21/2020
13
第二节 硬件冗余
硬件冗余采用重复的硬件资源来屏蔽故障。
1.静态冗余
静态冗余采用硬件冗余来屏蔽故障。
例如:用图中的4个二极管代替一个二极管,
其逻辑功能不变,但故障率则比单个二极管
低得多。
A
B
A
B
6/21/2020
14
假定单个二极管的不可靠度为10-3,则仅当2 个二极管同时发生故障,图(b)所示的由4个二 极管组成的电路才会失效。因此该电路的不可 靠度为:
3。失效(failure)
差错积累到一定程度,从外部来看,计算机不 能完成其任务了→称为失效。
失效是“外部空间”的事物。
计算机表现出的行为称它的外部空间。
6/21/2020
5
物理空间 故障
信息空间 差错
外部空间 失效
故障、差错、失效
6/21/2020
6
故障潜伏期:
故障不一定立即引起差错,比如一 个与门输出端发生了s-a-0故障,如果 很长一段时间,该与门的n个输入不都 为1,则在它的输出端并没有‘错误’ 信号出现,因而也不会有差错信息产 生。
TMR
0.2
Rm 0.2 0.4 0.6 0.8 1.0
从图上看出,当单模块的可靠度较高时,TMR系统的可 靠 度 非 常 接 近 1 , 但 当 单 模 块 的 可 靠 度 下 降 到 0.5 时 , TMR系统的可靠度也只有0.5,而单模块的可靠度低于 0.5时,TMR系统的可靠度反而比单模块的可靠度差。
6/21/2020
10
故障屏蔽技术:
把住从物理空间到信息空间的关口,即不让故 障产生差错的技术叫故障屏蔽。故障屏蔽一般是 通过硬件冗余技术来实现的。
优点: ▪ 即时屏蔽故障 ▪ 不需要专门设计的软件。 缺点:
故障没有被清除,系统中留有隐患
物理空间
信息空间
外部空间
6/21/2020
故障
差错
失效
11
差错恢复技术: 把住从信息空间到外部空间的关口,
C42 ×10-3×10-3=6×10-6
图(b)的电路的不可靠度比单个二极管电路的不 可靠度低几个数量级,因而其可靠度高得多。
A
B
A
B
6/21/2020
15
数字系统中常用下图中的三中取二电路来‘表 决
输出’。图中V是三中取二表决器,其逻辑为:
O=AB+BC+CA
1
A
2 BV
O
3C
三6/中21/20取20 二电路又称TMR(模三冗余)电路 16
1)逻辑故障:短路、开路等,故障点电平的 逻辑值改变。 2)非逻辑故障:如时钟、电源故障等。
2。按故障持续时间分 1)永久性故障:元、器件永久损坏产生的故障
6/21/2020
2
2)间歇性故障→在特定条件下(如:电源 电压偏高或偏低、温度变化、工作负荷、 机械振动等。)发生。
3)瞬态故障→由于外界电磁干扰所致。发 生时间不确定,持续时间很短,一般小于 一秒,有的仅几毫秒甚至几微秒。
固定型故障:是最常用的故障模型,各种故障 检测算法基本上都以这种故障为对象。
6/21/2020
4
2。差错(error)
在计算机的运行时,故障会造成它所处理的信 息出错(偏离正确的结果),这种错于“信息空间”的事件(计算机处理
的信息构成它的信息空间。)
2)故障屏蔽对软件和用户透明。用户除了多 化点钱外无须作什么工作,也无须对软件 作任何修改。
其缺点为: 1)硬件冗余量大 2)故障表现被掩盖,故障部件仍留在系统中,
成为隐患。
3)若单模块的可靠度差,则容错效果差
6/21/2020
18
下图是单模块和TMR系统的可靠度的对比
Rsys
单模块
0.6
0.5
0.4
3。按故障表现值分类
固定值故障:某输入或输出信号电平固定在 某个值不变。
有两种固定值故障:
6/21/2020
3
1)固定‘1’电平故障,用s-a-1表示 (stuck at one) 2)固定‘0’电平故障,用s-a-0表示 (stuck at zero)
不固定值故障:故障值不确定。如:两信号线 短路,相互影响造成故障,但值不固定
6/21/2020
19
在实用上,TMR系统还有二个问题要解决: I)表决器本身的可靠性问题
前面求出:若单模块的可靠度为R,则TMR系
统的可靠度为: 3R2-2R3
这里假定表决器100%可靠,而实际上表决器不 可能100%可靠,假定它的可靠度为V
若单模块的可靠度为R,则模三冗余电路的可靠
度为:RTMR=R3+3R2(1-R)=3R2-2R3
假定R=0.999则RTMR=0.999997002,不可靠度为 0.000002998,比单模块的不可靠度0.001 也低
了几个数量级。
6/21/2020
17
静态冗余有以下优点:
1)对故障的屏蔽是即时的(没有延迟)
从差错产生到失效发生的时间间隔 称‘差错潜伏期’。
6/21/2020
9
差错潜伏期的长短也不定,与应用任务 和系统的检错能力有关。
差错潜伏期长,有时是好事,如果能在 系统失效前发现错误并纠正它,可避 免失效发生。但如果没能发现错误并 纠正它,则是坏事,因为时间越长, 错误结果的影响就越大,可能造成大 量的数据被破坏等。
6/21/2020
7
从元件发生故障到差错产生的时间间隔称 ‘故障潜伏期’。
故障潜伏期的长短不定,与元件部位 和应用任务都有关。故障潜伏期的长短, 对系统运行并没有什么大的危害。
6/21/2020
8
差错潜伏期:
从差错产生后,并不一定立即失效, 只有当错误的结果输出,或差错使系 统无法继续运行下去,才会发生失效。
即在系统失效之前发现差错,定位并隔 离故障源,如有必要,用完好的部件替 代故障部件,纠正差错的影响,使系统 恢复运行。
物理空间
信息空间
外部空间
故障
6/21/2020
差错
失效
12
优点: ·系统中不留隐患 ·所需的硬件冗余量较小 缺点: ▪ 不仅要冗余的硬件,而且需要专门设
计的软件。 ▪ 从故障发生到系统恢复要较长的时间 ▪ 差错的纠正有可能不完全。
第四章 冗余技术
第一节 故障、差错、失效
1。故障(fault) : 故障指硬件元件损坏(或软件中的BUG),使该
元件(或软件模块)不能完成指定逻辑功能 的事件。 它存在于“物理空间”中,是客观存在的事件。 (构成计算机的硬、软件全体组成它的物理 空间。)
6/21/2020
1
故障的分类: 1。按故障性质分类