医疗辅助诊断专家系统中的规则可信度计算方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
根据公式(4)计算:
CF2(A1)={2,5,6,8,9,12} I {3,5,9,11}/{3,5,9,11}=1/2
CF2(A2)={1,3,4,7,10,11} I
{1,2,7,10}/{1,2,7,10}=3/4
CF2(A3)
=
{1,3,
4,
7,10,11} I{1,3,4,6,7,10,11,12} {1, 3, 4, 6, 7,10,11,12}
(1)
面的医学知识。
其中a是指理论上决策表中本应该出现的满 足条件E完备的模式个数;b是指表中出现的满足 条件E不完备的模式个数。[5]
然而,式(1)计算出的可信度一般低于实际
(1)规则前提是与的关系,前提可信度为各 个前提可信度最小值。
IF E1 AND E2…AND En THEN H CF(E)= min(CF(E1),CF(E2)…CF(En))
钙化 有 无 有 有 无 有 有 无 无 有
诊断结果 良性 恶性 良性 良性 恶性 恶性 良性 恶性 恶性 良性
4 结论可信度
结论可信度为前提可信度乘以规则可信度: CF(H)=CF(H,E)×MAX{0,CF(E)},即得出结论 H 的可信度。 (1)若两条规则具有相同结论, MYCIN 系 统按下面方法计算最终的结论可信度。 如果有规则:IF A THEN H (CF(H,A) )
第 14 卷 第 4 期 2005 年 12 月
文章编号:1006-0871(2005)04-0005-04
计算机辅助工程 COMPUTER AIDED ENGINEERING
Vol. 14 No. 4 Dec. 2005
医疗辅助诊断专家系统中的 规则可信度计算方法
叶俏嫣 1,丁祖泉 1,梅 滨 2
0引言
自从1976年美国斯坦福大学SHORTLIFFE等 人开发出世界上第一个功能较全面的专家系统
MYCIN(Computer-Based Medical Consultation) 后,各种功能的医学辅助诊断专家系统不断涌现。 专家系统的成功与否,主要取决于其知识库中知 识的丰富程度和质量。要建立知识库,第一步是从 领域专家那里吸取知识;第二步是将获得的知识
CF2(H,E) = Y I[X ]R [X ]R
(4)
Y为满足结论H的信息表记录集合,X为满足 前提条件E的任一条记录,因此等价类[X]R表示所 有满足前提条件E的记录集合。
条件却有不同的结论。[3] 假设信息不完备引起的可信度为CF1,信息
不相容引起的可信度为CF2,则规则的可信度被 定义为:CF(H,E)=CF1(H,E)×CF2(H,E)。
A2(边缘,光滑清楚)→(诊断结果,良性)
A3(钙化,有)→(诊断结果,良性)
公式(3)虽然更为精确,但是需要原始信息
表,预先设定 k 和 d,所以采取公式(2):
CF1(A1)=(4+(4-4)/2)/4=1
CF1(A2)=(3+(8-3)/2)/8=11/16 CF1(A3)=(6+(12-6)/2)/12=3/4
=
3/
4
因此 CF(A1)=0.5, CF(A2)=0.52 , CF(A3)=0.56
考察一个具体的推理结论:假设已知前提条
件 (边缘,光滑清楚) AND (钙化,有),要求给出
5 SPN辅助诊断专家系统实例
表 1 有 12 个对象,{边缘,分叶,毛刺,钙 化}是条件属性集,{诊断结果}是决策属性集。决 策属性有两个值:良性、恶性。表中有 4 个条件 属性,取值个数分别为:m1=3,m2=2,m3=2, m4=2,可知完备的模式个数应为 3×2×2×2=24,
的是通过医疗器械检查获得,因而所获得的信息 则;(2)完备子集中的某些模式在实际问题中可
是模糊的。同时,诊断规则的前提与结论的关系 能根本不会出现或很少出现,因此对式(1)做修
也并不是绝对肯定或否定的。某一前提为真时, 改[3]:
结论是否真并不绝对,而是一种模糊关系或概率 关系。为了表达知识的模糊性和不确定性,对每
其中E为前提,可以是一个简单条件,也可以是
⎧1
(x≥ d)
复合条件;H为结论,是一个单一的结论。CF (H,E)
⎪ CF1(H,E) = ⎨ b+k(a-b) / c
(3)
在[-1,1]上取值,它指当前提条件E所对应的证
⎪⎩ b+k(a-b)
(x<d)
据为真时,对结论H为真的支持程度。CF(H,E)的
关键词:可信度; 粗糙集; 不完备信息; 不相容信息;规则可信度;结论可信度
中图分类号:TP312
文献标识码:A
Computing rule confidence in medical aided diagnosis expert system
YE Qiaoyan1,DING Zuquan1,MEI Bin2
CF1(H,E) = b + (a - b) / c a
(2)
条规则引入可信度(Certainty Factor,CF)来估
其中a,b意义同上,c是决策表中结论的种数。
计规则的精确程度。
如果再考虑原因(2),可以对式(2)再做
规则的一般表示:IF E THEN H (CF(H,E)), 修改[3]:
或者不重要到可以忽略;如果 x<d,则设定系数 k 以估计未出现模式的影响。
2.2 计算信息不相容引起的可信度 CF2
如果信息表中相同前提条件的对象出现不同 的诊断结论,则产生信息的不相容性,其规则可 信度可定义[4]为:
信息的不确定性主要表现在两方面:信息不 完备和信息不相容。信息不完备是指决策表中条 件属性的模式集不完备,有些条件属性的模式没 有在信息表中出现(模式是指条件属性及其结论 的一个组合)。信息不相容是指具备相同的前提
进行编排,以一定的数据结构存入计算机。知识 表达的方式很多, 如产生式规则表示法、语义网 络、谓词演算、框架表示法等,其中以产生式规 则表示法最常用,每一条产生式对应一个知识模 块的一条规则。
1规则
在SPN(Solitary Pulmonary Nodules)辅助诊 断专家系统中,关于病人的症状信息,有的是通
收稿日期:2005-08-04;修回日期:2005-09-16 作者简介:叶俏嫣(1980- ),女,浙江东阳人,在读硕士,主要研究方向为医学图像处理与辅助诊断系统,(E-mail) yaya1130@21cn.com
6
计算机辅助工程
2005 年
过询问病人得到,有的是医生凭经验获得,也有 子集中的模式可能符合由不完备子集推导出的规
(2)若两条规则具有相同结论,本系统采取 以下方法确定最终的结论可信度:
将两个规则可信度当作彼此独立的概率,推理 结论成立的最终可信度[7]为:
1-((1-CFA(H))×(1-CFB(H)))。
11
模糊
无
有
有
良性
12
模糊
无
无
有
恶性
有规则:
A1(边缘,模糊) AND (毛刺,有)→(诊断结果,
恶性)
(1. 同济大学 生命科学与技术学院,上海 200092; 2. 上海理工大学 理学院,上海 200093)
摘 要:采用粗糙隶属函数计算规则可信度可减少确定可信度(Certainty Factor,CF)的主 观因素,使规则可信度更加精确客观。给出计算孤立性肺结节辅助诊断专家系统中规则可信 度的实例,证明该方法可提高应用可信度理论进行不确定性推理的可靠性。
3 前提可信度计算方法
在该系统中,前提可信度的计算方法采用 MYCIN 系 统 的 不 确 定 性 推 理 的 可 信 度 理 论 。 MYCIN 系统用于辅助诊断和治疗脑膜炎和血液病
2.1 计算信息不完备引起的可信度 CF1
毒感染,采用产生式规则表示知识,知识库中大约
CF1(H,E) = b a
存放了 450 条判别规则和 1 000 条关于细菌感染方
一样,对象 4 和对象 6 条件属性取值相同却具有 不同的决策类,是不相容的。
表 1 决策表
病人编号 1 2 3 4 5 6 7 8 9 10
边缘 光滑清楚 光滑清楚
模糊 不规则
模糊 不规则 光滑清楚 不规则
模糊 光滑清楚
分叶 无 无 有 有 有 有 有 有 无 有
毛刺 无 有 有 有 有 有 无 有 有 无
(1. School of Life Sci. & Tech., Tongji Univ., Shanghai 200092, China; 2. School of Sci., Univ. of Shanghai for Sci. & Tech., Shanghai 200093, China)
Abstract: Rough membership function is used to compute rule confidence, which diminishes subjective influences on confirming certainty factor (CF) and makes CF more accurate and objective. Experiment in solitary pulmonary nodule (SPN) computer-aided diagnosis expert system proves that the method can enhance the reliability of uncertainty inference. Key words: certainty factor (CF); rough set; imperfect information; incompatible information; rule confidence; decision confidence
的可信度,这基于两个原因:(1)未出现的完备
(2)规则前提是或的关系,前提可信度为各
第4期
叶俏嫣,等:医疗辅助诊断专家系统中的规则可信度计算方法
7
ቤተ መጻሕፍቲ ባይዱ
个前提可信度的最大值。
因此该决策表是不完备的。对象 7 和对象 10 完全
IF E1 OR E2…OR En THEN H CF(E)= max(CF(E1),CF(E2)…CF(En)) (3)前提条件考虑权重的情况。 当前提是复合条件时,还需要考虑几个问题: ①前提条件在规则中的权重,它代表每个条件对结 论贡献的大小,因为有的症状对于结论诊断比其他 症状更有决定性意义; ②规则实现所需要的阈值, 因为太低的可信度会使结论失去实际意义。 IF E1 (α1) AND E2(α2)…AND En(αn) THEN τ H 式中α1,α2,…,αn为前提条件的权系数,权系数 满足条件∑αi=1,i=1,2,…,n;τ为规则可实现的阈值。 其前提可信度这样计算:CF(E)=∑αi CF(Ei), 若 CF(E)≥τ 该知识就可被应用,从而推出相应的 结论 H。[6]
IF B THEN H (CF(H,B)) 则我们先求出 CFA(H)=CF(H,A)×CF(A)
CFB(H)=CF(H,B)×CF(B) 然后利用公式:
若 CFA(H)≥0 AND CFB(H) ≥0,则 CF(H)= CFA(H) + CFB(H)-CFA(H) × CFB (H)。
若 CFA(H)<0 AND CFB(H)<0 , 则 CF(H) = CFA(H)+CFB(H)+CFA(H) × CFB(H),否则 CF(H) =(CFA(H)+CFB (H)/(1-min(CFA(H),CFB(H)))
可以参考模糊数学中隶属度的计算,也可以根据 x 的大小评估实际出现模式的重要程度,评估其
以往的临床病例分析得到。
他未出现模式对规则可信度的影响。如果 x 足够
2 基于粗糙隶属函数的规则可信度
大(x≥d),或者说不完备子集中的模式大量出现 却未出现其他模式,则可以认为其他模式不存在
计算
粗糙集理论(Rough Sets Theory, RST)由波兰 数学家PAWLAK Z于1982年提出,是一种数据推 理方法,能有效分析和处理不精确、不一致、不 完整等各种不完备信息,并从中发现隐含的知识, 揭示潜在的规律。[1,2]
其中 x 是原始信息表中出现的所有满足条件
值越大,就越支持结论H为真。
E 的对象个数,d 是专家根据问题要求和统计学
在临床实践中,不是每一个参数都能精确地 知识设定的对象个数的阈值。k 在(0,1)范围内,
认定CF值。对于CF值,有的可以参考文献,有的 是专家根据 x 的大小设定的系数。公式(3)根据
CF2(A1)={2,5,6,8,9,12} I {3,5,9,11}/{3,5,9,11}=1/2
CF2(A2)={1,3,4,7,10,11} I
{1,2,7,10}/{1,2,7,10}=3/4
CF2(A3)
=
{1,3,
4,
7,10,11} I{1,3,4,6,7,10,11,12} {1, 3, 4, 6, 7,10,11,12}
(1)
面的医学知识。
其中a是指理论上决策表中本应该出现的满 足条件E完备的模式个数;b是指表中出现的满足 条件E不完备的模式个数。[5]
然而,式(1)计算出的可信度一般低于实际
(1)规则前提是与的关系,前提可信度为各 个前提可信度最小值。
IF E1 AND E2…AND En THEN H CF(E)= min(CF(E1),CF(E2)…CF(En))
钙化 有 无 有 有 无 有 有 无 无 有
诊断结果 良性 恶性 良性 良性 恶性 恶性 良性 恶性 恶性 良性
4 结论可信度
结论可信度为前提可信度乘以规则可信度: CF(H)=CF(H,E)×MAX{0,CF(E)},即得出结论 H 的可信度。 (1)若两条规则具有相同结论, MYCIN 系 统按下面方法计算最终的结论可信度。 如果有规则:IF A THEN H (CF(H,A) )
第 14 卷 第 4 期 2005 年 12 月
文章编号:1006-0871(2005)04-0005-04
计算机辅助工程 COMPUTER AIDED ENGINEERING
Vol. 14 No. 4 Dec. 2005
医疗辅助诊断专家系统中的 规则可信度计算方法
叶俏嫣 1,丁祖泉 1,梅 滨 2
0引言
自从1976年美国斯坦福大学SHORTLIFFE等 人开发出世界上第一个功能较全面的专家系统
MYCIN(Computer-Based Medical Consultation) 后,各种功能的医学辅助诊断专家系统不断涌现。 专家系统的成功与否,主要取决于其知识库中知 识的丰富程度和质量。要建立知识库,第一步是从 领域专家那里吸取知识;第二步是将获得的知识
CF2(H,E) = Y I[X ]R [X ]R
(4)
Y为满足结论H的信息表记录集合,X为满足 前提条件E的任一条记录,因此等价类[X]R表示所 有满足前提条件E的记录集合。
条件却有不同的结论。[3] 假设信息不完备引起的可信度为CF1,信息
不相容引起的可信度为CF2,则规则的可信度被 定义为:CF(H,E)=CF1(H,E)×CF2(H,E)。
A2(边缘,光滑清楚)→(诊断结果,良性)
A3(钙化,有)→(诊断结果,良性)
公式(3)虽然更为精确,但是需要原始信息
表,预先设定 k 和 d,所以采取公式(2):
CF1(A1)=(4+(4-4)/2)/4=1
CF1(A2)=(3+(8-3)/2)/8=11/16 CF1(A3)=(6+(12-6)/2)/12=3/4
=
3/
4
因此 CF(A1)=0.5, CF(A2)=0.52 , CF(A3)=0.56
考察一个具体的推理结论:假设已知前提条
件 (边缘,光滑清楚) AND (钙化,有),要求给出
5 SPN辅助诊断专家系统实例
表 1 有 12 个对象,{边缘,分叶,毛刺,钙 化}是条件属性集,{诊断结果}是决策属性集。决 策属性有两个值:良性、恶性。表中有 4 个条件 属性,取值个数分别为:m1=3,m2=2,m3=2, m4=2,可知完备的模式个数应为 3×2×2×2=24,
的是通过医疗器械检查获得,因而所获得的信息 则;(2)完备子集中的某些模式在实际问题中可
是模糊的。同时,诊断规则的前提与结论的关系 能根本不会出现或很少出现,因此对式(1)做修
也并不是绝对肯定或否定的。某一前提为真时, 改[3]:
结论是否真并不绝对,而是一种模糊关系或概率 关系。为了表达知识的模糊性和不确定性,对每
其中E为前提,可以是一个简单条件,也可以是
⎧1
(x≥ d)
复合条件;H为结论,是一个单一的结论。CF (H,E)
⎪ CF1(H,E) = ⎨ b+k(a-b) / c
(3)
在[-1,1]上取值,它指当前提条件E所对应的证
⎪⎩ b+k(a-b)
(x<d)
据为真时,对结论H为真的支持程度。CF(H,E)的
关键词:可信度; 粗糙集; 不完备信息; 不相容信息;规则可信度;结论可信度
中图分类号:TP312
文献标识码:A
Computing rule confidence in medical aided diagnosis expert system
YE Qiaoyan1,DING Zuquan1,MEI Bin2
CF1(H,E) = b + (a - b) / c a
(2)
条规则引入可信度(Certainty Factor,CF)来估
其中a,b意义同上,c是决策表中结论的种数。
计规则的精确程度。
如果再考虑原因(2),可以对式(2)再做
规则的一般表示:IF E THEN H (CF(H,E)), 修改[3]:
或者不重要到可以忽略;如果 x<d,则设定系数 k 以估计未出现模式的影响。
2.2 计算信息不相容引起的可信度 CF2
如果信息表中相同前提条件的对象出现不同 的诊断结论,则产生信息的不相容性,其规则可 信度可定义[4]为:
信息的不确定性主要表现在两方面:信息不 完备和信息不相容。信息不完备是指决策表中条 件属性的模式集不完备,有些条件属性的模式没 有在信息表中出现(模式是指条件属性及其结论 的一个组合)。信息不相容是指具备相同的前提
进行编排,以一定的数据结构存入计算机。知识 表达的方式很多, 如产生式规则表示法、语义网 络、谓词演算、框架表示法等,其中以产生式规 则表示法最常用,每一条产生式对应一个知识模 块的一条规则。
1规则
在SPN(Solitary Pulmonary Nodules)辅助诊 断专家系统中,关于病人的症状信息,有的是通
收稿日期:2005-08-04;修回日期:2005-09-16 作者简介:叶俏嫣(1980- ),女,浙江东阳人,在读硕士,主要研究方向为医学图像处理与辅助诊断系统,(E-mail) yaya1130@21cn.com
6
计算机辅助工程
2005 年
过询问病人得到,有的是医生凭经验获得,也有 子集中的模式可能符合由不完备子集推导出的规
(2)若两条规则具有相同结论,本系统采取 以下方法确定最终的结论可信度:
将两个规则可信度当作彼此独立的概率,推理 结论成立的最终可信度[7]为:
1-((1-CFA(H))×(1-CFB(H)))。
11
模糊
无
有
有
良性
12
模糊
无
无
有
恶性
有规则:
A1(边缘,模糊) AND (毛刺,有)→(诊断结果,
恶性)
(1. 同济大学 生命科学与技术学院,上海 200092; 2. 上海理工大学 理学院,上海 200093)
摘 要:采用粗糙隶属函数计算规则可信度可减少确定可信度(Certainty Factor,CF)的主 观因素,使规则可信度更加精确客观。给出计算孤立性肺结节辅助诊断专家系统中规则可信 度的实例,证明该方法可提高应用可信度理论进行不确定性推理的可靠性。
3 前提可信度计算方法
在该系统中,前提可信度的计算方法采用 MYCIN 系 统 的 不 确 定 性 推 理 的 可 信 度 理 论 。 MYCIN 系统用于辅助诊断和治疗脑膜炎和血液病
2.1 计算信息不完备引起的可信度 CF1
毒感染,采用产生式规则表示知识,知识库中大约
CF1(H,E) = b a
存放了 450 条判别规则和 1 000 条关于细菌感染方
一样,对象 4 和对象 6 条件属性取值相同却具有 不同的决策类,是不相容的。
表 1 决策表
病人编号 1 2 3 4 5 6 7 8 9 10
边缘 光滑清楚 光滑清楚
模糊 不规则
模糊 不规则 光滑清楚 不规则
模糊 光滑清楚
分叶 无 无 有 有 有 有 有 有 无 有
毛刺 无 有 有 有 有 有 无 有 有 无
(1. School of Life Sci. & Tech., Tongji Univ., Shanghai 200092, China; 2. School of Sci., Univ. of Shanghai for Sci. & Tech., Shanghai 200093, China)
Abstract: Rough membership function is used to compute rule confidence, which diminishes subjective influences on confirming certainty factor (CF) and makes CF more accurate and objective. Experiment in solitary pulmonary nodule (SPN) computer-aided diagnosis expert system proves that the method can enhance the reliability of uncertainty inference. Key words: certainty factor (CF); rough set; imperfect information; incompatible information; rule confidence; decision confidence
的可信度,这基于两个原因:(1)未出现的完备
(2)规则前提是或的关系,前提可信度为各
第4期
叶俏嫣,等:医疗辅助诊断专家系统中的规则可信度计算方法
7
ቤተ መጻሕፍቲ ባይዱ
个前提可信度的最大值。
因此该决策表是不完备的。对象 7 和对象 10 完全
IF E1 OR E2…OR En THEN H CF(E)= max(CF(E1),CF(E2)…CF(En)) (3)前提条件考虑权重的情况。 当前提是复合条件时,还需要考虑几个问题: ①前提条件在规则中的权重,它代表每个条件对结 论贡献的大小,因为有的症状对于结论诊断比其他 症状更有决定性意义; ②规则实现所需要的阈值, 因为太低的可信度会使结论失去实际意义。 IF E1 (α1) AND E2(α2)…AND En(αn) THEN τ H 式中α1,α2,…,αn为前提条件的权系数,权系数 满足条件∑αi=1,i=1,2,…,n;τ为规则可实现的阈值。 其前提可信度这样计算:CF(E)=∑αi CF(Ei), 若 CF(E)≥τ 该知识就可被应用,从而推出相应的 结论 H。[6]
IF B THEN H (CF(H,B)) 则我们先求出 CFA(H)=CF(H,A)×CF(A)
CFB(H)=CF(H,B)×CF(B) 然后利用公式:
若 CFA(H)≥0 AND CFB(H) ≥0,则 CF(H)= CFA(H) + CFB(H)-CFA(H) × CFB (H)。
若 CFA(H)<0 AND CFB(H)<0 , 则 CF(H) = CFA(H)+CFB(H)+CFA(H) × CFB(H),否则 CF(H) =(CFA(H)+CFB (H)/(1-min(CFA(H),CFB(H)))
可以参考模糊数学中隶属度的计算,也可以根据 x 的大小评估实际出现模式的重要程度,评估其
以往的临床病例分析得到。
他未出现模式对规则可信度的影响。如果 x 足够
2 基于粗糙隶属函数的规则可信度
大(x≥d),或者说不完备子集中的模式大量出现 却未出现其他模式,则可以认为其他模式不存在
计算
粗糙集理论(Rough Sets Theory, RST)由波兰 数学家PAWLAK Z于1982年提出,是一种数据推 理方法,能有效分析和处理不精确、不一致、不 完整等各种不完备信息,并从中发现隐含的知识, 揭示潜在的规律。[1,2]
其中 x 是原始信息表中出现的所有满足条件
值越大,就越支持结论H为真。
E 的对象个数,d 是专家根据问题要求和统计学
在临床实践中,不是每一个参数都能精确地 知识设定的对象个数的阈值。k 在(0,1)范围内,
认定CF值。对于CF值,有的可以参考文献,有的 是专家根据 x 的大小设定的系数。公式(3)根据