基于概念特征的语义相似度计算方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 相关工作
目前 ,国内外学者 已经对概念相似度计算进行了广泛的
探索和研究 ,提 出了很 多计算相似 度的方法 。其 中具有代表 性 的相 似度计算方法主要有基于概念信 息量 的方法I、基于
3 基于概念特征的语义相似度计算
31 概念 的特征属性和特征 . 在本体中 , 个概念往往包含很多属性 , 例如概 念 b o , o k 它 的属性包括作者、出版 日期、出版地 、类 型等。但 是,从 另外一 个角度 去分析概念 ,比如 hma 可以分为 ma 和 u n n
[ s at Ab t c]Du eso c mig fcret e ni smi t mer o l sn esmat fr t no noo yadi o lx r et t h r o n s urn mat i l y tcn tul u igt e ni i omai fo tlg n s mpe oh t o s c  ̄i i f y h cn o tc
基于概念特征的语义相似度计算方法 。
基于信 息量与基于背景向量 以及文献【—】 56的方法都依赖于指
定 的文档 ,但是对文档进行分析要耗费大量的时间 ;基于 距 离的方法在将语义距离转换成相似度的时候需要调整不同的
参数值 。如果将它们应用在大规模本体分块和映射中 ,将会 造 成很大的不便 ,因此 ,迫切地需要找到一种新 的既精确又 简便的相 似度计算方法 。
T ANG a y a . Y . u n , XU . h LAI 一 De z i. Ya ( . p r n o C mp tr n 1 De at t f o ue dCo me a mmu iainE gn e ig Hu a nc t o n ie r , n nUnv ri f ce c n n ie r g Y n z o 2 1 0 C ia n iest o S i e dE gn ei , o g h u4 5 0 , h n ; y n a n 2 C l g f no main S in e n n ie r g C n a S uhUnv ri , h n s a4 0 3 C ia . ol e fr t c c dE gn e i , e  ̄ l o t ies y C a g h 1 8 , hn ) e oI o e a n t 0
关健词 :语义 We ;本体 ; b 概念特征 ;特征属性 ; 语义相 似度
S m a tcS m i r t a c l to h d e n i i l iy Ca u a i n M e o C a l tO Ba e n Co c p a u e s d0 n e t Fe t r
C net的多少来确定概 念之 间的相 似程度 。这 些方法依据 o tn) 概 念 C在某个指定文档 中出现 的频率给每一 个概念关联一个
概 率 pc ,然后将每个概念的概率 的负对数 似然值作 为这个 () 概 念的信息量,即 I () lg () 基 于距离的方法一般先 C c =一o pc 。
重点课程建设基 金资助项 目(9 07 1 13 0 9 16 — 13 4 0 1 )
作者倚 介:唐雅媛( 8一) 女 , 12 , 9 讲师、硕士研究 生,主研方向 : 语
义 网,本体 ; 徐德智 , 教授 、博士 后 ;赖 收稿 日期 :2 1-0 1 0 11—7 雅 , 士研究生 硕 E m i a acu 2 . m - a :l y_ s @1 6 o l i c
第3 8卷 第 5期
V0 - 8 l3
・
计
算
机
工
程
21 0 2年 3月
M a c 2 2 r h 01
NO. 5
Co pu e g n e i m trEn i e rng
人 工智 能Biblioteka Baidu 识别 技 术 ・
文章编号:1 -4802 5 7 3 文献标识码: 0 . 2( 10— lo o 3 2 ) A
计算 2个概念 间的语义距离 ,然后将距离转换成相 似度值 , 该方法 主要考 虑将 2个概念分开的边 的个数 ,将 2 个概念分
看概念的属性显然不够 ,因为属性 无法 反映概念 最本质 的含
基 金项 目: 国家 自 然科 学基金 资助项 目( 9 0 9 ) 中南大学研究生 6 706; 0
中圈分类号: P9. T 31 1
基 于概 念 特征 的语 义相 似 度计 算 方 法
唐雅嫒 L ,徐德智 ,赖 雅
(. 1 湖南科技学院计算机与通信工程系 ,湖南 永州 4 5 0 ;2 中南大学信息科学与工程学院,长沙 4 0 8 ) 2 10 . 10 3
摘
要: 现有语义相似度计算 方法没有充分利 用本体 中的语义信息 ,且计算方法复杂 。为此 , 出一种基于概念特征 的语义相似度计算 方 提
图 1 本体片段 图
因此, 个概念 C C的相似度为它们的特征集合 f C 2 i , 和 ()
和 , c) f,的相似度,本文采用以集合的交的元素个数除以集
合 的并 的元素个数来求 2个集合 的相似度 ,因此 ,本文定义 2个概念 的相似度计算公式为 :
来得到 2个概念 的相 似度值 。另外 ,文献【—】 56也是研 究概念 相似度计算 的方法 ,用到 了很多数学中理论 ,如粗糙 集、形 式概念分析、贝叶斯估计等 , 是以上方法都存在一些缺点 : 但
高信息检索 的精 度…、发现不 同本体 中实体之 间的映射 ,以 及 用于大规模 本体的分块和模块 。随着语义 We 的快速 发 b 展 ,近几年来本体的数 目越来越多 ,本体规模 也不断增 大, 迫切地需要一种更为精确且简便的概念相似度计算方法来计 算单个本体 中概念之 问的语义相似度 。因此 ,本文提出一种
相 同的属性 ,即名字、性别、年龄、 出生地、生 日等 ,仔细 分析 上文 列出的属性 ,很显然 ,名字 、年龄、 出生地、 生 日
等属性信 息并 不能 区分 h ma 为 ma u n n还是 fma , e l 唯一能够 e 区分它们 的属性是性 别 ,因此 ,根据 定义 l和定义 2 ,性别 为 ma n和 fmae的特征属性 ,性别所取 的值 即为 ma e l n和 fmae的特征 。 e l 当然这个概念特征 是基于 ma n和 fmae e l 都是 h ma u n的基础 上, ma 即 n和 fma e l e的特征属性包含了 h ma u n
c mp t to , h sp p rp o o e e s m a tc smia t t c c lulto t o a e n t e f a u e o o c p ,whih ma e u l s f t e o u ai n t i a e r p s sa n w e n i i lr y me r a c ai n me h d b s d o h e t r fc n e t i i c k sfl u eo h
fma ,依据 上述对概念属性 的理解 ,h ma、ma e l e u n n和 fma e l e 这 3 个概念都包含 同样 的属性 ,为了去区分这 3个概 念 ,光
距离的方法 和基于背景 向量 的方法 等。基 于概 念信息量
的方法一般通过考察概念所包含 的信 息量 /O fr ao C n m tn o i
定义 1 能够 用 来 区分 概念 的属性 被 称为 概念 的特征
属 性。
的特征 集合 再加上一个其独有 的特征。
定义 2概 念的特征 属性所取的值 称为特征 , 特征能够用
来区分概念 。 每个概念都能够 用一组 清晰的特征 来描述 ,例如生物的 特征集为 { 生命 的物 体、能进行新陈代谢、能够生长繁殖和 有 发 育 } 为 了 便 于 理 解 , 同样 采 用 以上 例 子 加 以说 明 , 由于 。 ma n和 fmae都是 h ma e l u n的子 类,因此它们具有与 h ma u n
DOI 03 6 ̄is.0 032 . 1 . . 2 :1.9 9 . n10 —4 82 20 0 s 0 5 5
1 概 述
概念语义相似度计算在很多领域都有着广 泛的应 用,如
人工智能、 自然语言处理以及认 知科 学。相似 度计算能够提
将概念表示成向量的形式 ,然 后通过计 算向量夹 角的余弦值
i f r t n o n o o y sr cu e t e p e s s e c o c p s a s t o e t r s a c r i o t e h e a c y o n o o y nd i to u e d h n o ma i f o t l g tu t r .I x r s e a h c n e t a e f f a u e c o d ng t i r r h f o t l g ,a n r d c s a wi t o h i fu n i g f c o s t o f c e t of e c e t r .I o t i h s m a t smia i h o g ac l t g t e i l rt e we n t e s t n e c n a t r a he c e l i i n a h f a u e t b a ns t e e n i i l t t r u h c lu ai h smia i b t e wo s t .I c r y n y i to u e e t n u n i g f c o , n me d h e n i ti o am o e u d r tn a l o m . e r tc l n l ssa d e p rm e t lr s ls n r d c sa d p h i f e c n a t r a d a n s t e s ma t me rc t r n e s a d b e f r Th o e ia a y i n x e i n a e u t l c a
so a e tcismpe adtersl r ls u n u g n. h w t th r h t me i s i l,n ut ae oet h ma d me t h e s c O j
[ yw r s e ni We ;noo y c ne tetr;etr tiue sma t i l i Ke o d ]sma t b o tlg ; o cp aue fa ear t;e ni s a t c f u tb c mi ry
法。 根据概念在 本体 中的层 次结构来确定特征集合 ,引入宽度影 响因子 ,给每个特征 赋予不同的权 值 , 通过 计算 2 个概念特征集合 问的相
似度得 到概念的相似度 ,引入深度影响因子 ,将相似度公 式表示成更直观 的形式 。实验结果表明 ,该方法计 算简便 ,且 比较接近 人类主观
的判断值 。
开的边的个数越 多 ,概 念间的距离就越 大,概念 的相 似度就
越小 。基于 背景向量 的方法通 过统计概 念在 文档 的出现频率
第3卷 8
第5 期
唐雅媛 ,徐德 智 ,赖
雅 :基于概念特征 的语义相似度计算方法
11 7
义 。因此 ,本文引入一些新的概念 ,其定义 如下 :
代 表一个特征。一个概念 的特征集合为它 的直接父概念结点