多因素集成的分布式应用故障诊断方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hyoh s dt gI ) p teiUp a n ( 算法 用于故 障检测。 s i HU 文 献[】 出一种基于智 能探针 的方法对分布式应 用进 2提
行 故障检测 ,探针 的结果用子节点表示( 症状) ,父节点表 示 应用、服务器、 网络等组件的状态( 故障) ,使用依赖矩阵表
先前的研究只考虑 了探针 的检测能力 ,没有考虑探针的
避免这些问题 。探针是执行在特定的机器( 探针站) 上的程序 ,
在分布式系统管理中常用的 故障诊断方法是事件关联… 被 ,
管设备在状态改变时 向外发出警 报,中央管理器通过收集这
些警报找出故障原 因。 但这种方法对每个设备有额外的要求,
并 且 很 难 保 证 警 报 正 常 发 送 。基 于 端 到 端 的 探 测 技 术 可 以
示故障和症状之间的依赖关系 ,利用集合论和信息论的方法 进行探针选择 , 并根据探针的结果进行故障发现和故障定位 。
p o es t e e t n a g rt m a e n c tb n ft a a ei r p s d i e f u t e e t n p a e a dd a n ssp o es l ci n a g rt m a e n r b e lc i l o ih b s d o os— e e lnc sp o o e n t a l d t c i h s , n i g o i r b e e t l o ih b s d o s o i b h o o mi i m r e y s a c n o e c s sp o o e n t e f u t i g o i h s . p r n mu g e d e r h a d pr b o t r p s d i l d a n ssp a e Ex e i n a e u t h w a h u i h a me t l s lss o t t e n mb r fp ob s d t c i n t r h t e r e , e e t i o o me a d d t c i n t f c h v i n fc n n ee to r i a e sg i a t mp o e e t a i i rvm n.
YI Yi . e . n c u N n LIW i LI Yu . h n
( e a f in t r eh ooy S h o o mp t ce c n n ier g B ia g iesyB in 0 1 1C ia K yL bo j gNe kT c nlg, c o l f Be i wo Co ue S ine dE gnei , eh n v r t, ej g10 9 , hn ) r a n Un i i [ src]T i p prue cv rd o ut ng me t fds iue p l ao sAcodn efa rso itb t p l ain, Abtat hs a e ssat epo efr almaa e n ir tda pi t n . c rigt t et e f siue api t s i f o tb ci Oh u d r d c o
[ yw r s c v rb; y s nn t r; i r ue pi t n ;a lda nss Ke o d ]at epo eBaei ewok dsi t a lai s fut i o i i a tb d p c o g
1 概述
随 着 网 络规 模 的不 断 扩 大 以 及 分布 式 应 用技 术 的 日益 发
中 分 号 T3 图 类 : P3 9
多 因素 集成 的分布 式应 用故障诊 断方法
尹 殷 ,李 巍 ,李云春
( 北京航 空航天大学计算机学院网络技术北京市重点实验室 ,北京 1 0 9) 011
摘 要 :采用主动探测 的方法对分布式应用进行故 障管理 。 针对分布式应用的特点,在主动探测的故 障检测和故障诊断阶段 中,分别提 出 基于成 本效益平衡的检测集选择算法和诊断集中考虑探测成本 的最小贪婪搜索 算法 。实验结果表 明,算法在探针数量、探测 时问、探测流
理 中的依赖关系进行建模 。以端 到端 的网络路径服务为例, 把物理链路作为故 障并抽象为父节点 ,把对端到端 的网络路 径 服务的观察抽象子节点( 症状) 、父 节点和子节点之间的影 响程度用条件概率表示 ,提 出了基于事件驱动的 Ice na nrmetl
展 ,故障诊断已经成为一项重要的网络任务 。针对现今 的网 络特点 ,一个成 功的故障诊断技术应该具备以下特点 :诊断 正确率高 ,诊断速度快 ,诊断所需 的管理流量பைடு நூலகம் ,开发成本 低等 。
量 上都 有 明显 的改 进 。
关键词 :主动探测 ;贝叶斯 网;分布式应用 ;故障诊 断
M ulif c o nt g a e ul a no i e ho t-a t rI e r t d Fa tDi g ssM t d i srbut d n Dit i e Applc to i a i ns
第 3 卷 第 2 期 6 O
V .6 o1 3
No 2 o
计
算
机
工
程
21 0 0年 1 O月
Oc o e 0 0 t b r2 1
Co put rEn n e i m e gi e rng
・ 开发研究与设计技术 ・
文 编 1 3 8 o ) —2 _ 3 文 标 码 A 章 号: 0 _ 4 (l2 l2 0 o 2 2 o 6 . 献 识 :