马尔可夫模型估计三模冗余可靠性
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基础问题:预测系统的可靠性
解决方案:利用马尔可夫模型预测
一、背景知识
1、马尔可夫模型(分为一阶和高阶马尔可夫模型,本文介绍一阶模型)
①基于假设:状态传输的概率仅仅依赖于现在的状态;
②转移矩阵T:用来描述从当前状态转移到下一状态的条件概率;
m行n列的元素代表从状态m转换到状态n的可能性
下一状态的概率分布=当前的概率分布X传输矩阵T
③通过一系列的数学变化(比较多但是简单)再加上拉普拉斯变换和逆变换,求得在任意时刻系统的概率分布;
④对于二状态系统,即为在正常和故障两个状态的分布,
可靠性=P(正常),或者可靠性=1-P(故障)
2、TMR
①当只有一个模块发生错误,表决器还能正确输出;当两个及其以上模块发生错误,可能会导致表决器输出错误;
②对于FPGA:scrubbing周期性刷新FPGA配置存储器
Scrubbing rate:根据期望出现的错误率来调整
二、具有修复功能的TMR
三、“持久性”
处理擦写的FPGA应用程序都会经历由错误诱发的永久性服务中断和暂时性服务中断,分别被称为永久中断持久错误和暂时中断非持久错误。
当一个错误诱发产生非持久错误,应用程序变得暂时不可用。一旦擦写修复了错误,则功能错误就会结束,系统回到正常操作模式。但是,当一个错误诱发产生了持久错误,应用程序变为永久不可用。
传统上,FPGA应用程序故障发生在任何服务中断之后。通过容忍暂时性的服务中断,一个应用程序只会在出现永久性服务中断后发生故障。
为了测量通过容忍暂时性的服务中断对可靠性的提高,建立了一个容忍非持久错误系统的模型。
0:功能正常状态
1:暂时不可用状态(非持久错误)
2:故障状态(持久错误)
λ:错误概率p:由敏感状态进入持久错误状态的概率µ:擦写概率
应用“持久性”的概念到TMR中,建立马尔可夫模型
•0 - the system has no errors
•1 - one module has failed with a non-persistent error
•2 - one module has failed with a persistent error
•3 - two modules have failed with non-persistent errors •State 4 - two modules have failed one with persistent error and at least one other with a non-persistent error
•State 5 - two modules have failed with persistent errors
四、TMR分割