电子目录本体合并中的实例消重机制

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

ad Wod e, a o tiue scluae codn o b t a — p n bety e n hto eainhp scluae ae n n rnt t t n atb tsi a lt acrig t oh dt t ea d ojc tp ,ad ta n rlt sisi a l d b sd o h r c d ay — o c t

圭k t
(, ) ,, = l2
步骤 5求实例 ,和实例 1中所有数据类型属 性的语义相 2
似度平均值 :
个取值在 O 1 间数值 的相似度算法。 -之
S I1m f 坚生J C(,= a 一 , x0 I L , 二
ml【l 2 ne, ) c


( 2 )
o n t n e d p i ae ei n t n f re e to i a a o n o o y me g n .F i c a im n o p r t so t l gy c n e t,ati uts r l t ns p fi sa c u l t lmi a i o l c r n c c t l g o t l g r i g h sme h n s i c r o a e n o o o c p s trb e ea i hi s c o o i t h ac l t n o e nt i i r y b t e wo o t l y i s a c s wh l e n i i l iy on c nc pt sc lu ae ti g ma c n n o t e c l u a i fs ma i sm l i e we n t n o og n t n e , i s ma t s mi t o e s i a c l t d by srn thi g o c at e c r a
实例消重是消除 电子 目录 实例冗余 、提高 电子 目录本体操作 效率的关键 。
实例属性 l
语义相似度 l
l 实例关系
I语义相 似度
本体实例 消重可 以在本体合并过程中 生成 目标本体以后进行 。 为 降低操作 的复杂度和实例的重复率 ,本文选择后一种 方式 ,提出一 种面 向本体合 并的 电子 目录本 体实例 消重机 制 ,并通过实验分析进行验证 。
第 3卷 8
第2 期
刘 平峰,章佩璐 ,陈冬林 :电子 目录本体合 并中的实例消重机制
3 3
2 实例名称语义相似度计算 . 1
由于 电子 目录本体实例 中存在不少复合词 ,并且实例 中 很多专业名词也无法 从 Wod e 中找到 ,因此以往对于实例 rN t
采用式() 1计算 ;而 S ( AV A ) 数据 类型属性 值之间 D D D 为 的相似度 ,主要采 用式() 2进行计算 ; W+w =1 1 2 。
系设计 实例语义相似度算法 。结合字符 串匹配和基于 Wod e 计算名称语义 相似度 , rn t 综合数据类型属性和对象类型属性计算属性语义相似 度,依据类的多重继承关系计算关系语义相似度。当 2 个实例 的语义相似度大于事先设置的阈值 时,需删除其 中一个 以降低 目标本体库的
冗余度 。实验结果验证 了该机制 的有效性 。
配 的语 义 相 似 度 ;S C 为基 于 Wod e 的语 义 相 似 度 。 rN t
其 中,W1 W 为权重 ,且 W + 2 和 2 l W =1;S z C 为基于字 符串匹 211 字符串匹配算法 .. 本 文采 用文献I] 4 中提 到的将字 符 串的编辑 距离转换 为
关健 河:电子 目 录集成 ;本体合并 ;实例消重 ;语义相似度
I s a c p i a eEl i a i n M e h n s n t n eDu l t i n to c a im i c m n
Elc r n cCa a o t l g e g n e t o i t l g On o o y M r i g
LI P n - n , U i g f g ZHANG e - CHEN n i e P i u, l Do g l n ( e e rhI s tt f —u ies Colg f c n mis Wu a ies yo e h oo y Wu a 3 0 0 Chn ) R sac tu e b s s , l e o o c, h nUnv ri f c n lg , h n4 0 7 , ia ni oE n e oE t T
第3 8卷 第 2期
Vl - 8 0 3 l






21 0 2年 1月
J nu r 2 2 a a y 01
No. 2
Co p e g n e i g m utrEn i e rn
软 件技 术 与数据 库 ・
文章 编号:1 o 32( l)— o 4 文 o _ 48 o 0 3 0 222 献标识码: A
在 本体 实例 消重过程 中,实例的语义相 似度计算最为 关 键 。本文提 出一套综合实例名称、属性、关系的语义相似度 计算方法 ,具体流程如图 1 所示 。
作 者简介 : 刘平峰(92 ) 男 , 17 - , 副教授 、 博士 , 主研方向 : 语义 网, 知识 工程 ;章佩璐 ,硕士研究 生;陈冬林 ,副教授、博士 收稿 日 :2 1— —2 期 0 1 71 0 Ema :zlvl @fx a. m - i pl e y om i o l o x l c
[ ywod ]eet nc aao tgain o tlg rig is n e u laeei n t n smat mi ry Ke r s l r ic t gi ert ;noo ymegn ;nt c pi t l ai ;e ni s l i co l n o a d c mi o ci a t
DOI 1 . 6 /i n10 —4 82 1 .200 : 03 9js . 03 2 .0 20 .1 9 .s 0
1 概述
电子 目录是实现 电子商务交易双方产品信息 自动化交换 的基础 和客 户在线查询商 品信息 的关键技术。但在分布式 的 电子商务环境 中,不 同电子商务 网站中的电子 目录缺乏统一 标 准,无法满足 网络环境下客户对于 电子 目录服务 的需求 ,
电子 目录集成 则忽 略了本体 自学 习的动态性 ,导致本体集 成的精 度低 。
本体合 并技术可 用于解决异构 电子 目录的语义互操作 问 题 ,但 目前本体合并 的研究 0 主要集中在本体的类、概念 、
属性以及关系的合并 ,未考虑实例消重 问题 。电子 目录本体
囱 囱摩
设置权值综合
中圈 分类号: P1 T31
电子 目录本体 合并 中的实例 消重机制
刘乎峰 ,章佩璐 ,陈冬林
( 武汉理工大学经济学院 电子商务研究所 ,武汉 4 0 7 ) 30 0

要 :为解决 电子 目录集成中的本体实例冗余问题 , 出面 向本体合并 的电子 目录本体实例消重机制 ,综合考虑实例 的名称 、属性和关 提
步骤 3取 得 S A 中相 似度最 大 的 sa ,删除该 sa D d do
所在 的行与列 ,得到矩 阵 S A 。重复执行直到 S A 为 D D
名称的语义相似度计算方法并不能 有效地适 用于 电子 目录本
体 。本文提出了一种基于字符 串匹配和基于 Wod e 相结合 rN t 的复合实例名称 相似度算法 :
献[】 5 中提到的 WuP l r —a me 语义相似度算法 :

2 . 对象类型属性 .2 2 实例对象类型属性 的语义相似度主要是根据计算该实例 对象 类型属性所关联 的概念之间的语义相似度得 到,2个实
例 ,和 I 的对象 类型属性语义相似度记为 S A !1 ,详 细 1 2 O (l2 ,)
[ src] oslete rbe o noo yis n e eu d nyi eeo e eu lc o i ctlgitgain tipp r rp ss c aim Ab ta tT ov o lm f tlg t c d n a c h trg no s et nc aao e rt ,hs ae o oe mehns hp o na r n e r n o p a
mu t- h rtnc . ft n t n e a e a s ma tc smia t b v h r s tt r s ol , n ft e i ee e r m nt l g a e t n u e t e l i ei in a e I wo i s a c s h v e n i i lr y a o e t e p e e e h d o e o h m s d l t d f o o o o y b s o e s r h i h e f i n y o p r t n o n o o y i sa c s Ex rme tlr s l h fi e c fo e a i n o t l g n t n e . pe i n a e u t s ow e v ld t ft i c n s . c o s t a i i o sme ha im h y h
∑ D t , S A眦( 2 ) sA 1I) — D (, = 12
( )
其 中,C 和 C 表示 2个 向量 ,分别是来 自实例 ,和 1的概 念 z 2
名称 ;D(lc) c,2指的是 2 个概念之 间的编辑距离。
21 Wod e 算法 .. 2 rN t Wod t rNe 是一部表达概念 关系的语义词典 ,本文引入文
实例语 义相似度
设置权值综合
图 1 实倒综合语义相似度计算模型框架
基 金项 目: 国家 自 然科学基金资助项 目( 9 2 9 ) 中央高校基本利 7 704; 0 研业 务费专项基金资助项 目( 1 I一8 , 0 0 I 1 2 0 V 0 2 2 1一 . ) 0 一 I1
2 电子 目 录本体实例消重机制
因此,需要对异构 电子 目录进行集成 。 现 有基于 X ML 的 电子 目录集 成方法…不能满足 电子 目
录在 语 义 层 面 的表 达 和 集 成 要 求 ,基于 本体 映射 和 元 模 型 的
本 体
本体 B
进行合并
本 体
提取实例
输 入实例对
实例属性 语 义相似 度计 算
空。 取得相似度 sa 序列, d 记为 tt…, 其中 P mnt ) l , , , 2 : i( 。 ,
( 1 )
步骤 4分别对 每个数据类型属性求实例 ,和实例 ,之 间 ’
的语义相似度平均值 S A 。: D 。
s U, ) wS z J2+ 2C ( 1 ) c 12=  ̄ (, ) wS w,, , C ,, I2
计算过程参见文献【】 6。
( 2 赢奇 耢 1) j , l
2 dp (occ1 x et 1 f , 1 h s .。


2 实例关系语义相似度计算 . 3
主要考虑实例继承关系的相似度 。 J
其中,c 和 0 分别是来 自实例 』和 j的概念名称 ;dphc) l 2 l 2 e t(1 和 dphc) et(2分别表示 实例 , 和 1 l 2的概念名 称 C 和 2在 l Wod e rN t语义树 中的深度 ;l (1 e) s c, 2则指的是概念 c 和 C o l 2 的最近共 同祖先概念 。当 2个实例概念名称为 由多个词组成 的复合词 时 ,首 先应使 用分词工具将其进行分词 ,消除概念
相关文档
最新文档