一种改进的概念语义相似度计算方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
C ut ) ∑ C ut ) o n( + C o n( C’
P C) ( = C
目前 ,对 于语义相 似度的计算主要 有概 念信息量 法 和概念距离法 J信息量法通过计算 2个概念的共同父概念 。 所含信息量的大小 来确 定概念 间的语义相似度 ,但 所得相似
度不能更细致地区分概念 间语义 的差别 ;距离法将概念 间的 语义距离转化为语义相 似度 ,但语义距离的计算主要基于路 径 的长度 ,在路径长度相 同时不能很好地 区分相似度大小。
第 3 卷 第 l 8 2期
Vl . 0 38 1
・
计
算
机
工
程
21 0 2年 6月
J n 2 2 u e 01
N o.2 1
Co mpu e gi e ig trEn ne rn
人工智能及识别技术 ・
一
文 编 0 . 4 (1 l - 7_3 文 标 码 章 号t 0 3 80 )—0 岳 0 1 22 2 2 l 一 献 识 t A
1 概 述 随着语义 We b服务及语义 网格服务应用的不断深入 , 服
务匹配在服务发现和服务组合研究中的地位 日渐重要 ,而 同
一
概念 的细化 , 语义枝干的密度不尽相 同, 密度越高分类越细 ,
语义相似度相对越小 , 概念越相似 , 故加入 “ 密度” 的制约 。 () 3 引入不对称 因子 。在有向边 的关系类型 中,有些概念 间的相似 度是不对称的 , 为解决不对称性造成 的不精确问题 , 因此 ,加入 “ 不对称因子” 的制约 。
o n( ) u tT
则概 念 C所包含 的信 息量为 :I oC =一gP C),其 中 , n () l () f ( H( ) C, 代表 C 是 C的子概念 ;P C 为概 念 c在整个概念 C ’ ()
集 中的发 生概率 ; C ut ) o n( 为概 念 C在 本体 中的 出现 次 C 数 ; C ut ) o n( 为本体 中的概念 总数 。由于概念可能 以不 同 T
[ b ta t miga epo l o eo es e dic mpeentr rh urn o cp i l i o uain ti pp r rsnsa A src]Ai n th rbe fh n —i da o l a ef ecr t n et miryc mp tt , s ae ee t n t m t d n n t u ot e c s at o h p
I p o e n e t e a t i i rt m p t to e h d m r v d Co c p m n i S m l i Co S c a y u a i nM t o
Z ANGY nxa Z NG igj n P N L-u X EBn h n , HE i h o H a -i, HA Yn - , A i , I i-o g C N L- a u h c
中 分 号; P1 圈 类 T31
源自文库
种 改进 的概 念 语 义相似 度 计 算 方法
张艳霞 ,张英俊 ,藩理虎 ,谢斌红 ,陈立 潮
( 太原科技 大学计算机科 学与技术 学院 ,太原 0 0 2 ) 304
摘
娶 :针对 当前概念相似度计算 的片面性和不完善性等不足,提 出一种改进的基于语义距离的概念 间语义相 似度计 算方法 。从有向边包
不 同,那 么各个连通节点之间的语义相 似度不尽相 同,本文
二元关系等多种关系 ,如 : “ri f t u ”和 “p l”之 间是一种 ape
基金疆 目: 山西省 自 然科学基金资 助项 目 2 0 0 12 一) 山西省教 (0 9 10 2 1; 育厅 U T 基金 资助项 目;太原科 技大学研究 生创 新基金资 助项 目 I
i o t n ae t d d t c—ae e o d e u a b c v d m n r u o e a t s t d ses la d a d n r i — s me o , i a e sd t d m s j t e u g e t e l r sh t ime o a b l . f mao b d h sn b m h a t h n u ei j n h , s t v t h i f i e v i p h n
其中 , 表示调节参数,为非负实数,可以通过调整 值来
满足不同系统 的需要 , 增加相似度函数对不同应 用的适应性。
25 语义相似度 的不对称性分析 . 在语义 匹配中,概念相似度存在一定程度的不对 称性 是 显然的 , 并且 匹配是有方 向的 ,因此 ,在考察概念 的匹配 时, 要特别考虑 2个概念之间的匹配方向。如在 图 2中,如果检 索 “ l ts u t e ,则 其子概念 “ l t pa t c r” n r u pa ”会获得较高的权 n
含的信息量、有 向边 的类型 以及概念密度 3 个方面对语义距离进行 扩展,将语义距离转换成语义相 似度 , 通过 引入不对称 因子 ,使最终概 念语义相似度计算更加精确。 将该方法与基于 信息量 方法、 基于 距离方法及人 的主观判断结果进行 比较 , 验证 了该方法 的可行性和有效性 。
关健词 :本体 ;语义相似度 ; 语义 距离;语义密度 ;权重 ;不对称 因子
[ ywo d o tlg ;e nt mi t;e nt i ac ;e n t e s ; ih; i y Ke r s nooy sma i s l y sma i ds ne sma i dni we tds mmer atr i c i  ̄i c t c y t g s t fco y D : 03 6 ̄i n10 —4 82 1. .5 OI 1 .99 .s 0 03 2 .0 21 02 s 2
(0 10 3 2 1 12 )
作者倚介 : 张艳霞(9 5 , , 1 8 一) 女 硕士 研究生,主研方向 : 语义相似 度计 算 ; 张英 俊 ,教 授级高级工 程师 ;潘理虎 ,副教 授、博士 ; 谢斌红 ,讲师、硕 士 ;陈立潮,教 授 收藕 日期 :2 1- 1 l 0 1l— 0 E ma :z 4 3 8 9 i . m - i  ̄ 1 12 @s a o l nc
型对语义距离的影响。关系函数表示 如下 :
R V _ ^: ( ÷ c) 一 一Ma r M i r — x - n Ⅳ( , G)
—
间语义 相似度为 : S AB e(, ,本文给 出如下定义进行 i , ) 01 m( )
语义 距离到语义相似度的转换 : J
Sm A B = × —ia , i D( , ) eDt‘ s  ̄ ( 4 )
领 域本体 中概念 间的匹配度主要 是由 2个概念 间的相似度
来衡 量 ,在计算相似度时 ,最直观 的方法是基于 2个概念节
点在本体 结构 中的语义距离。这里 的语义距离是指 2个概念 的相近程度 ,一般说来 ,2个概念问的语义距离越小 ,它们 的语义越 相近 ,反之越远。
21 加权语义距离 . 定义 概念 C的信息量 记为 : J
i r v dc n e t e ni mi r o uainme o i a e n sma t i a c .t pe d e n i ds n ef m res e f e mp o e o c p ma t s l i c mp tt t dwhc i b sd o e n i d s e I s ra s ma t i c o t e i s s c i at y o h hs c t n s c t a r h d ot h ifr t n c nan di i ce d e t edrce d e y ea dc n e t e s ,u n ma t i a c e ni s lr . esmet , n omai o tie d r tde g , i tde g p n o c p n i tr s e ni ds n et sma t i ai At a me o n e h e t d y t s c t o c mi t y h t i ti p p r nr d c stedsy hs a e t u e i mmer co , n k s el t o c p e n t i l i o uainmoee a t C mp r g ti me o t i o h s t f tr a d ma e s n e t ma i smi r c mp t o r x c. o ai s t dwi y a h t a c s c at y t n h h h
( stt f o ue cec d eh oo yT iu nU iesyo ine n eh oo , ay a 3 0 4 C ia I tueo mp tr in e n c n lg, ay a nv ri f ce c dT cn lg T i n 0 0 2 , hn) n i C S a T t S a y u
值 ,而检索 “ l t ,其父概念 “ln s u tr” 由于还包 pa ” n pat t c e r u
,, c)
其 中,_ ÷ 表示关系类型 ;Mar Mi x 和 G是某种 关系的可能最 大、 最小权重 ;Ⅳ ( 表 示从 c 出发的 r , G) l 关系的有向边之和。
抽象层次 的形式出现,计算概念 的总 出现次数 时应累加其所
有子概念 的出现次数。
向边 eg (1 2 所包含 的信息量为有 向边 G 到 的信 deC, ) C
息 量 之 差 ,记 为 :
I ( g( c)=I o i Ioc) Ce e d G,2 I ( ) n (2 ) n C一f f I
用有 向边所包含的信息量及有 向边的类型来描述边 的权重 。
() 2引入概念密度 。本体 层次结构 中,下层概念是对上层
第3 卷 8
第 1 期 2
张艳霞 ,张英俊 ,潘理虎 ,等 :一种 改进 的概念语义相 似度计算 方法
17 7
继承 关系 , “ l h s co e”和 “kr t si”之 间是一种 整体和部 分关 t
系 , “ eeal” 和 “ i mi” 之 间是 ee noii 二 元 v gtbe vt n a l me tr n的 g
B, 它们之间的语义距离为:Ds ,) ( l) 而它们之 iABe o , , ( ,_
一
l
关系 。在实际的本体 中,概念之 间通过各种关系连接成图状 结构 ,而 目前对语义距离的计算大多针对单一关系的树状结 构 ,导致不能完整反映概念 的语义 。因此 ,本文引入关系类
概念之 间存在着同义 关系、继承关系、整体和部分关系、
2 改进 的相似度计算模型
针对传统相似度计算不足 , 本文基于 以下 3点进行 改进 : () 1引入边 的权重 。在不同领 域的本体模型中 ,每个节点 可能与 多个节点相连通 ,各概念 节点之间的继承关系或其他 丰富的语义关系对应着本体 网络中的一种有 向边类型 ,并且 各边节点所起 的作用不 同,意味着概念之 间的语义相关程度
本文综合考虑本体结构特征和概念 的特点及多种语义因素 的 影 响,提 出一种领域本体间基于语义距离 的概念语义 相似度 计算 方法 。考虑有向边 的类 型、有 向边包含的信息量及概 念 密度对语义距离的影响 ,进而得到语义相似度 ,同时考虑概
念相似度 间不对称性的问题 ,可使计算结果更精确 。
P C) ( = C
目前 ,对 于语义相 似度的计算主要 有概 念信息量 法 和概念距离法 J信息量法通过计算 2个概念的共同父概念 。 所含信息量的大小 来确 定概念 间的语义相似度 ,但 所得相似
度不能更细致地区分概念 间语义 的差别 ;距离法将概念 间的 语义距离转化为语义相 似度 ,但语义距离的计算主要基于路 径 的长度 ,在路径长度相 同时不能很好地 区分相似度大小。
第 3 卷 第 l 8 2期
Vl . 0 38 1
・
计
算
机
工
程
21 0 2年 6月
J n 2 2 u e 01
N o.2 1
Co mpu e gi e ig trEn ne rn
人工智能及识别技术 ・
一
文 编 0 . 4 (1 l - 7_3 文 标 码 章 号t 0 3 80 )—0 岳 0 1 22 2 2 l 一 献 识 t A
1 概 述 随着语义 We b服务及语义 网格服务应用的不断深入 , 服
务匹配在服务发现和服务组合研究中的地位 日渐重要 ,而 同
一
概念 的细化 , 语义枝干的密度不尽相 同, 密度越高分类越细 ,
语义相似度相对越小 , 概念越相似 , 故加入 “ 密度” 的制约 。 () 3 引入不对称 因子 。在有向边 的关系类型 中,有些概念 间的相似 度是不对称的 , 为解决不对称性造成 的不精确问题 , 因此 ,加入 “ 不对称因子” 的制约 。
o n( ) u tT
则概 念 C所包含 的信 息量为 :I oC =一gP C),其 中 , n () l () f ( H( ) C, 代表 C 是 C的子概念 ;P C 为概 念 c在整个概念 C ’ ()
集 中的发 生概率 ; C ut ) o n( 为概 念 C在 本体 中的 出现 次 C 数 ; C ut ) o n( 为本体 中的概念 总数 。由于概念可能 以不 同 T
[ b ta t miga epo l o eo es e dic mpeentr rh urn o cp i l i o uain ti pp r rsnsa A src]Ai n th rbe fh n —i da o l a ef ecr t n et miryc mp tt , s ae ee t n t m t d n n t u ot e c s at o h p
I p o e n e t e a t i i rt m p t to e h d m r v d Co c p m n i S m l i Co S c a y u a i nM t o
Z ANGY nxa Z NG igj n P N L-u X EBn h n , HE i h o H a -i, HA Yn - , A i , I i-o g C N L- a u h c
中 分 号; P1 圈 类 T31
源自文库
种 改进 的概 念 语 义相似 度 计 算 方法
张艳霞 ,张英俊 ,藩理虎 ,谢斌红 ,陈立 潮
( 太原科技 大学计算机科 学与技术 学院 ,太原 0 0 2 ) 304
摘
娶 :针对 当前概念相似度计算 的片面性和不完善性等不足,提 出一种改进的基于语义距离的概念 间语义相 似度计 算方法 。从有向边包
不 同,那 么各个连通节点之间的语义相 似度不尽相 同,本文
二元关系等多种关系 ,如 : “ri f t u ”和 “p l”之 间是一种 ape
基金疆 目: 山西省 自 然科学基金资 助项 目 2 0 0 12 一) 山西省教 (0 9 10 2 1; 育厅 U T 基金 资助项 目;太原科 技大学研究 生创 新基金资 助项 目 I
i o t n ae t d d t c—ae e o d e u a b c v d m n r u o e a t s t d ses la d a d n r i — s me o , i a e sd t d m s j t e u g e t e l r sh t ime o a b l . f mao b d h sn b m h a t h n u ei j n h , s t v t h i f i e v i p h n
其中 , 表示调节参数,为非负实数,可以通过调整 值来
满足不同系统 的需要 , 增加相似度函数对不同应 用的适应性。
25 语义相似度 的不对称性分析 . 在语义 匹配中,概念相似度存在一定程度的不对 称性 是 显然的 , 并且 匹配是有方 向的 ,因此 ,在考察概念 的匹配 时, 要特别考虑 2个概念之间的匹配方向。如在 图 2中,如果检 索 “ l ts u t e ,则 其子概念 “ l t pa t c r” n r u pa ”会获得较高的权 n
含的信息量、有 向边 的类型 以及概念密度 3 个方面对语义距离进行 扩展,将语义距离转换成语义相 似度 , 通过 引入不对称 因子 ,使最终概 念语义相似度计算更加精确。 将该方法与基于 信息量 方法、 基于 距离方法及人 的主观判断结果进行 比较 , 验证 了该方法 的可行性和有效性 。
关健词 :本体 ;语义相似度 ; 语义 距离;语义密度 ;权重 ;不对称 因子
[ ywo d o tlg ;e nt mi t;e nt i ac ;e n t e s ; ih; i y Ke r s nooy sma i s l y sma i ds ne sma i dni we tds mmer atr i c i  ̄i c t c y t g s t fco y D : 03 6 ̄i n10 —4 82 1. .5 OI 1 .99 .s 0 03 2 .0 21 02 s 2
(0 10 3 2 1 12 )
作者倚介 : 张艳霞(9 5 , , 1 8 一) 女 硕士 研究生,主研方向 : 语义相似 度计 算 ; 张英 俊 ,教 授级高级工 程师 ;潘理虎 ,副教 授、博士 ; 谢斌红 ,讲师、硕 士 ;陈立潮,教 授 收藕 日期 :2 1- 1 l 0 1l— 0 E ma :z 4 3 8 9 i . m - i  ̄ 1 12 @s a o l nc
型对语义距离的影响。关系函数表示 如下 :
R V _ ^: ( ÷ c) 一 一Ma r M i r — x - n Ⅳ( , G)
—
间语义 相似度为 : S AB e(, ,本文给 出如下定义进行 i , ) 01 m( )
语义 距离到语义相似度的转换 : J
Sm A B = × —ia , i D( , ) eDt‘ s  ̄ ( 4 )
领 域本体 中概念 间的匹配度主要 是由 2个概念 间的相似度
来衡 量 ,在计算相似度时 ,最直观 的方法是基于 2个概念节
点在本体 结构 中的语义距离。这里 的语义距离是指 2个概念 的相近程度 ,一般说来 ,2个概念问的语义距离越小 ,它们 的语义越 相近 ,反之越远。
21 加权语义距离 . 定义 概念 C的信息量 记为 : J
i r v dc n e t e ni mi r o uainme o i a e n sma t i a c .t pe d e n i ds n ef m res e f e mp o e o c p ma t s l i c mp tt t dwhc i b sd o e n i d s e I s ra s ma t i c o t e i s s c i at y o h hs c t n s c t a r h d ot h ifr t n c nan di i ce d e t edrce d e y ea dc n e t e s ,u n ma t i a c e ni s lr . esmet , n omai o tie d r tde g , i tde g p n o c p n i tr s e ni ds n et sma t i ai At a me o n e h e t d y t s c t o c mi t y h t i ti p p r nr d c stedsy hs a e t u e i mmer co , n k s el t o c p e n t i l i o uainmoee a t C mp r g ti me o t i o h s t f tr a d ma e s n e t ma i smi r c mp t o r x c. o ai s t dwi y a h t a c s c at y t n h h h
( stt f o ue cec d eh oo yT iu nU iesyo ine n eh oo , ay a 3 0 4 C ia I tueo mp tr in e n c n lg, ay a nv ri f ce c dT cn lg T i n 0 0 2 , hn) n i C S a T t S a y u
值 ,而检索 “ l t ,其父概念 “ln s u tr” 由于还包 pa ” n pat t c e r u
,, c)
其 中,_ ÷ 表示关系类型 ;Mar Mi x 和 G是某种 关系的可能最 大、 最小权重 ;Ⅳ ( 表 示从 c 出发的 r , G) l 关系的有向边之和。
抽象层次 的形式出现,计算概念 的总 出现次数 时应累加其所
有子概念 的出现次数。
向边 eg (1 2 所包含 的信息量为有 向边 G 到 的信 deC, ) C
息 量 之 差 ,记 为 :
I ( g( c)=I o i Ioc) Ce e d G,2 I ( ) n (2 ) n C一f f I
用有 向边所包含的信息量及有 向边的类型来描述边 的权重 。
() 2引入概念密度 。本体 层次结构 中,下层概念是对上层
第3 卷 8
第 1 期 2
张艳霞 ,张英俊 ,潘理虎 ,等 :一种 改进 的概念语义相 似度计算 方法
17 7
继承 关系 , “ l h s co e”和 “kr t si”之 间是一种 整体和部 分关 t
系 , “ eeal” 和 “ i mi” 之 间是 ee noii 二 元 v gtbe vt n a l me tr n的 g
B, 它们之间的语义距离为:Ds ,) ( l) 而它们之 iABe o , , ( ,_
一
l
关系 。在实际的本体 中,概念之 间通过各种关系连接成图状 结构 ,而 目前对语义距离的计算大多针对单一关系的树状结 构 ,导致不能完整反映概念 的语义 。因此 ,本文引入关系类
概念之 间存在着同义 关系、继承关系、整体和部分关系、
2 改进 的相似度计算模型
针对传统相似度计算不足 , 本文基于 以下 3点进行 改进 : () 1引入边 的权重 。在不同领 域的本体模型中 ,每个节点 可能与 多个节点相连通 ,各概念 节点之间的继承关系或其他 丰富的语义关系对应着本体 网络中的一种有 向边类型 ,并且 各边节点所起 的作用不 同,意味着概念之 间的语义相关程度
本文综合考虑本体结构特征和概念 的特点及多种语义因素 的 影 响,提 出一种领域本体间基于语义距离 的概念语义 相似度 计算 方法 。考虑有向边 的类 型、有 向边包含的信息量及概 念 密度对语义距离的影响 ,进而得到语义相似度 ,同时考虑概
念相似度 间不对称性的问题 ,可使计算结果更精确 。