基于路径与深度的同义词词林词语相似度计算
基于同义词词林的词语相似度计算方法
基于同义词词林的词语相似度计算方法
田久乐;赵蔚
【期刊名称】《吉林大学学报(信息科学版)》
【年(卷),期】2010(028)006
【摘要】为解决词语相在语义网自适应学习系统中相似度计算不清的问题,以同义词词林为基础,提出并实现了一种基于同义词词林的词语相似度计算方法,充分分析并利用了同义词词林的编码及结构特点.该算法同时考虑了词语的相似性,和词语的相关性.进行人工测试,替换测试以及与当前流行的基于"知网"的词语相似度算法对比测试的结果表明,该算法与人们思维中的相似度值基本一致,有较高的准确性.【总页数】7页(P602-608)
【作者】田久乐;赵蔚
【作者单位】东北师范大学,计算机科学与信息技术学院,长春,130117;东北师范大学,计算机科学与信息技术学院,长春,130117
【正文语种】中文
【中图分类】TP391.5
【相关文献】
1.基于信息内容的词林词语相似度计算 [J], 彭琦;朱新华;陈意山;孙柳;李飞
2.基于词林的词语相似度的度量 [J], 吕立辉;梁维薇;冉蜀阳
3.基于路径与深度的同义词词林词语相似度计算 [J], 陈宏朝;李飞;朱新华;马润聪
4.基于路径与词林编码的词语相似度计算方法 [J], 王松松;高伟勋;徐逸凡
5.基于同义词词林和规则的中文远程监督人物关系抽取方法 [J], 谢明鸿;冉强;王红斌
因版权原因,仅展示原文概要,查看原文内容请购买。
基于《知网》的词汇语义相似度计算
基于《知网》的词汇语义相似度计算
《知网》是一个中文语料库,可以用来进行文本语义相似度计算。
常
见的基于《知网》的词汇语义相似度计算方法有:
1.基于《知网》的同义词词林:《知网》中的同义词词林收录了大量
的同义词、近义词和相关词,可以通过比较两个词在同义词词林中的位置,来衡量它们的语义相似度。
比如,可以通过比较两个词在同一类和同一级
别下的位置,来判断它们的相似度。
2.基于《知网》的词语标注:《知网》中的词语标注包括词义分类和
关系标注等信息,可以通过比较两个词的词义分类和关系标注信息,来衡
量它们的语义相似度。
3.基于《知网》的词语关联度计算:可以通过计算两个词在《知网》
中的关联度来判断它们的语义相似度。
常用的方法有基于路径的关联度计
算和基于信息内容的关联度计算。
这些方法都是基于《知网》的语料库信息进行计算的,可以根据具体
需求选择适合的方法进行词汇语义相似度计算。
一种改进的基于路径的语义相似度计算算法
微 电 子 学 与 计 算 机M I CRO EL EC T RO N ICS & CO M P U T E R28 卷 第 8 期 2011 年 8 月Vol . 28 No . 8A u gust 2011一种改进的基于路径的语义相似度计算算法曾 诚1 ,2 ,韩光辉3 ,李 兵2 ,朱子龙2(1 湖北大学 数学与计算机科学学院 , 湖北 武汉 430062 ; 2 武汉大学 计算机学院 ,湖北 武汉 430072 ;3 武汉商业服务学院 信息工程系 ,湖北 武汉 430056)摘 要 : 在概念之间的相似程度计算算法中 ,基于路径的语义相似度算法扮演着重要的角色. 首先分析常用的几种基于路径的相似度计算算法 ,然后针对 Wu 和 Pal m er 算法中存在的两个缺陷 ,提出了一种改进算法. 从整体上来 讲 ,这种算法的改进较为直观 ,容易实现 ,算法时间复杂度和 Wu 和 Pal m er 算法类似. 关键词 : 语义相似度 ;路径 中图分类号 : T P 311 . 5文献标识码 : A文章编号 : 1000 - 7180 (2011) 08 - 0129 - 03An Improved Algorithm of Se m ant i cSimilarity C omputing B a s ed on PathZEN G Che n g 1 ,2 , H A N G ua ng 2h u i 3 , L I Bi n g 2 , Z H U Z i 2lo ng 2(1 College of Mat h ematics & C o m p u t er S cience , H u bei U n iver s it y , W uha n 430062 , China ;2 S choo l of C o m p u ter S cience , W uha n U n iver s it y , W uha n 430072 , China ;3 Dep a r t m ent of Info r m atio n Engineering , W uha n C o m mercial S er vice C o llege , W uhan 430056 , China )Abstract : In t he kinds of si m ila rit y co mp uting al g o rit hm s bet ween co ncep t s , p at h 2ba sed sema ntic simila rit y alg o 2 rit h m p lays a n impo rt a nt ro le . In t hi s p ap er several p at h 2ba sed simila rit y co m p ut atio n al g o rit hm s a re fir s t int r o 2 duced , an d t h en a n imp r o v ed alg o r it h m i s p r o v ided i n o r d er to o v erco m e t h e t w o def e ct s in Wu a n d Pal m er alg o 2 rit h m s. G eneral sp e a k ing , t h i s imp r o v ed al g o r it h m i s co m p a r atively i n t u itive a n d ea s y to imp lement , a n d it ’s time co m p lexit y i s simila r to Wu and Pal m er . K ey w ords : sema n tic simila r it y ; Pat h引言语义相似度是指两个概念之间的相似程度. 在计算概念相似度时 ,主要利用到 IS 2A 关系构成的概 念层次结构 ,如 Wo r dNet 中的上位关系构成的层次 语义网[ 1 ] . 概念相似度计算方法中 ,基于路径的语义 相似度算法扮演着重要的角色 ,其主要理论依据是 : 在由 IS 2A 关系构成的语义网中 ,两个概念节点之间 距离越近 ,它们之间相似度越大.基于路径的语义相似度算法简介基于路径的语义相似度计算主要是基于 IS 2A关系构成的层次结构. 在 Wo r dNet 中如只保留上下 位关系 ,就构成了一个 IS 2A 关系网. 图 1 所展示的 上下位关系即是取自 Wo r d Net 中的一个实例 :从图 1 可知 ,{ c hai r } 和 { t a ble } 之间的路径 长度为 3 ,{ seat } 和 { t a b le } 之间路径长度为 2 .基于路径长度的计算方法的核心思想主要基于 这样一个事实 :概念之间路径长度越长 ,距离越大 , 相似度也就越小. 下面介绍一下几种使用频率较高1 2 收稿日期 : 2011 - 05 - 09 ; 修回日期 : 2011 - 06 - 22基金项目 : 国家重大基础研究发展计划“九七三”项目( 2007CB310801 ) ; 国家自然科学基金项目 ( 60873083 , 60803025 , 60970017 ,60903034 ,61003073)C2 间的最短路径长度,l s o ( C1 , C2 ) 表示在最短路径情况下的最近公共祖先,dep t h ( C) 表示概念 C 的层次深度. W u Pa mle r 算法是L C 算法的一种改进,它考虑了概念深度对相似度的影响.(3) 给边赋权值的算法给边赋予权值wei ght ,基本策略也是基于层次越深,划分越细,距离越小. 具体赋值多少是一个值得考虑的问题. 最初徐德智[ 4 ] 等提出式(3) :1wei g ht ( C) = (3)2Dep ( C)之后他们考虑到概念的宽度,即概念的下位关系数目,认为一个概念下位关系越多,表明该概念被划分得越细,那么这些下位关系之间语义距离应该越小. 这样有相同深度的两个概念,宽度越大,其通往下位关系的边的权值越小. 于是, 他们又提出式(4) :wei g ht ( C) =图1 Wo r d Net 中chair 和t a b le 的上位关系图的基于路径的相似度计算算法:(1) L e acock 和Cho d o r o w算法L eacock 和Cho d o r o w算法[ 2 ] 相对较为简单,直接基于路径长度,是关于路径长度的减函数. 算法的公式如式(1) :1( C 为根) L e n( C2 , C2 ) ( )Wi d CSi m L C = - lo g(1)MA X D EP T H 1 1Wi d( C)××wei g ht (p a r e n t ( C) )( C 不是根)式中, S i m L C 表示C1 和C2 间的相似度值, l e n( C1 ,C2 ) 表示C1 和C2 间的最短路径长度, MA X _D EP T H 是指Wo r d Net 层次语义结构中最深层次值. 该算法只利用了路径信息, 而没有考虑密度信息. 下面W u Pal me r算法将弥补这一缺陷.(2) W u 和Pal me r算法W u Pal mer [ 3 ] 算法适当的考虑了概念的密度信息,认为层次越深,概念之间的语义距离越小,相似度越大. 即使概念A 和B 、C 和D 之间路径长度一样,若它们在层次结构中所处的深度不一样,它们的相似度也应该不一样,并且,深度大的,语义距离小,相似度大,如图2 所示.2(4)式中, Wi d ( C) 表示概念C 的宽度,p a re nt ( C) 表示概念C 的上位概念.给边赋权值后,计算两个概念之间的语义距离,只需将路径上所经过边的权值叠加,选出最小距离.相似度计算,只需满足是语义距离的减函数,徐等采用式(5) :t 1Si m ( C1 , C2 ) = 1 -×a ×Di s t ( C1 , C2 ) (5)2式中, a 为Dep ( C2 ), Di s t ( C 1 , C 为C2 ) 1Dep ( C1 + Dep ( C2 )和C2 间的语义距离, t 为可调节参数.基于路径的语义相似度算法改进3基于路径的算法中心原理是:概念间路径越短、概念层次越深,相似度越大. 概念的层次说明了概念被划分的精细程度,概念划分得越精细,概念间的语义距离越小,概念间相似度越大. 概念间的路径长度直观地反映了概念之间的语义距离. 其原理在Wu和Pal me r算法中得到了体现.但是,在W u 和Pal me r 算法中有几个问题得不到体现:(1) 假设存在概念A 和B , C 和D ,还有它们的最近公共祖先概念P ,如图3 所示.图2 Wu p a l m er 考虑密度信息示例图算法公式如式(2) :2 ×dep t h(l s o ( C1 , C2 ) )Si m W P =le n( C1 , C2 ) + 2 ×dep t h(l s o ( C1 , C2 ) )(2)式中, S i m W P 表示相似度值, l e n( C1 , C2 ) 表示C1 和< A , P2 , B > , 然而, 根据Wu 和Pal mer 算法只考虑最短路径, 则只考虑了最短路径< A , P2 , B > , 更优路径< A , P1 , B > 被忽略, 因为le n( A , P2 , B)>le n( A , P1 , B) .W u 和Pal me r 算法只考虑了最短路径情况, 然而最短路径情况不一定是最优情况, 需要对所有通路进行比较,得出最优通路和最优解.综合上述两点, 对W u 和Pal me r算法进行修改,如式(6) 所示. 其中,对于概念C1 和C2 之间给定的通路,l s o ( C1 , C2 ) 是指概念C1 和C2 的最下层公共祖先概念,l e n( C1 , l s o ( C1 , C2 ) ) 是指概念C1 和l s o ( C1 , C2 ) 之间的距离,同理, l e n( C2 , l s o ( C1 , C2 ) )是指概念C2 和l s o ( C1 , C2 ) 之间的距离, l e n( C1 , C2 )图3 概念A 和B 与概念C 和D 比较示意图从图3 知道, 概念A 和B 之间的路径长度为4 ,概念C 和D 之间的路径长度也为4 , 并且它们的最低层上位概念都是P. 由W u 和Pal me r 算法知,Si m ( A , B) 等于Si m ( C , D) . 然而根据上层概念密度较小,语义距离较大,可知A 和p a re nt ( A) 之间的语义距离小于D 和p a re nt ( D) 之间的语义距离. 也就是说, Si m ( A , B)应该小于Si m ( C, D) .W u 和Pal mer 算法不能很好地区分对待这种情况. W u 和Pal me r算法关心的只是概念间的路径长度,而没有考虑到如何利用路径的布局结构. 由上层概念间语义距离越大可知路径左右越不均衡,其相似度越大. 如图3 所示,左边情形相似度大于右边情形.(2) 因为Wo r dNet 中的上位关系错综复杂,概念之间路径的最短,不一定表示Si m W P 最大. 也就是说可能存在一些特别的情况,使得概念之间路径长度不是最短,而由W u 和Pal me r 公式算出的相似度却是最大. 因为算法中还涉及到一个可变部分dep t h (l s o ( C1 , C2 ) ) . 其具体含义可以由图4 表述.是le n( C1 , l s o ( C1 , C2 ) )之和.和le n( C2 , l s o( C1 , C2) )在Wo r d Net 中, 一个概念可能有多个上位概念,也就是说,一个概念到根概念{e ntit y} 可能有n条不同的路径, 那么路径长度可能也不一样, ma x2dep t h ( C) 是指所有从概念C 到根的最长路径长度,也称为概念 C 的最大深度. MA X _ D EP T H 是Wo r dN et 中的最大深度,在Wo r dN et 3 . 0 中,其值被定义为20 .从式(6) 可知,分母部分比W u 和Pal mer 算法多出了le n( C1 ,l s o ( C1 , C2 ) )le n( C2 ,l s o ( C1 , C2 ) )×,MA X_D EP T H该部分是用来解决问题1 的. 由不等式a ×b ≤( a +b) 2 / 4 , 得知, 在a + b 的值一定的情况下, a ×b 的值当a 和b 的值相等时, 取最大, 也就是说:在 a + b 的值一定的情况下, a 和b 偏差越大, a ×b 的值越小.这一特性, 正好跟问题1 中的情形相反, 问题1 中是a 和b 偏差越大,相似度越大,因此,可以将a ×b 值当做分母部分来解决问题1 .然而,当最近公共祖先概念相同时,主要由路径长度决定相似度大小,只有在路径长度一致的情况下才需要路径的左右均衡情况做最后甄别. 也就是说, 路径长度应该是主要成分,路径均衡度是次要成分. 因此, 对le n( C1 , l s o 图4 最短路径非最大相似度示意图由图可4 知, 概念A 跟B 之间存在多条通路. 从图4 中得知,l e n( P1 , A)为3 ,le n( P1 , B)为3 ,( C1 , C2 ) ) 和le n( C2 , l s o ( C1 ,C2 ) ) 除MA X _D EP T H2 ,使其变成一个次要成分, 其值小于1 , 是分母的小数部分; le n( C1 , C2 )定整数部分.S im ( C, C) = MA X是主要成分,其值决P1 ) 为10 ,则由路径< A , P1 , B> 得到的相le n( R ,似度为2 3 10/ ( 3 + 3 + 2 3 10) = 0 . 769 ;le n( P2 ,A )为3 , l e n( P2 ,B )为2 , l e n( R , P2 ) 为8 , 则由路径> 得到的相似度为2 3 8/ (3+ 2 +< A , P2 , B(6)(下转第135 页) 2 3 8) = 0 .762 .可知路径< A , P1 , B > 优于路径法[J ] . 北京石油化工学院学报 , 2009 , 17 (1) :43 - 47 . [ 3 ] 沈勇. 一种基于 H TML 文档的信息隐藏方案[ J ] . 武汉大学学报 :自然版 ,2004 ,50 ( s 1) :217 - 220 .[ 4 ] Mo hamed L a hcen Ben S aad , Sun Xingming. Technique swit h st ati stic s fo r web p age wat er mar king [J ] . Pro ceed 2 ings of Wo rld Academy of S cience , Engi neering andTech n o lo g y , 2005 , 6 (7) :300 - 303 .[ 5 ] 孙星明 ,黄华军 ,王保卫 ,等. 一种基于等价标记的网页 信息隐藏算法[J ] . 计算机研究与发展 ,2007 ,44 ( 5) : 756- 760 .[ 6 ] 龙银香. 基于 H TML 标签的信息隐藏模型[ J ] . 计算机 应用研究 ,2007 ,24 (5) :137 - 140 . [ 7 ] Qij u n Zhao , Ho n gt ao L u. PCA - ba s ed web p a ge wat er 2ma r k ing [ J ] . Pat t e r n Reco g nitio n , 2007 , 40 : 1334 - 1341 .[ 8 ] 李建国 , 马小虎 , 沈晓峰. 一种基于重复标记属性的多网页信息隐藏方法 [ J ] . 计算机应用与软件 , 2009 , 26(8) :62 - 63 .图 4 多表格结构的信息嵌入界面结束语基于网页表格属性 ,提出了双比特的隐藏规则和算法实现 ,使嵌入容量增大了一倍. 提出的多表格 进出管理方法 ,解决了多个表格结构的网页信息隐 藏困难 ,能够适应各种表格的组合和嵌套情况 ,使算 法具有很好的实用性 ,适应面广.5 作者简介 :秦彩云 女 , (1963 - ) ,研究生 , 实验师. 研究方向为网络信 息安全方向. 张晓明 男 , (1968 - ) ,博士 ,教授. 研究方向为网络系统与安全方向.赵国庆 男 , (1965 - ) ,硕士 ,副教授. 研究方向为信息安全.参考文献 :[ 1 ] 李文治 , 张晓明 , 殷雄. 一种基于能量关系的鲁棒音频扩频水印算法 [ J ] . 微电子学与计算机 , 2009 , 26 ( 8) : 144 - 147 . [ 2 ] 张晓彦 , 张晓明. 一种基于表格属性的网页信息隐藏算(上接第 131 页)式(6) 通过计算所有通路的相似度值 ,并选出最 大值作为两个概念的相似度值 ,来解决问题 2 . 因为所有通路都考虑了 ,因此避免了问题 2 中所描述的 情况.1990 , 3 (4) : 235 - 244 .[ 2 ] L eaco ck C la udia , Ma r tin Cho d o ro w . Co mbining localco nt ext a nd Wo r dNet simila rit y fo r wo r d sen se identi f i 2 catio n [ C ]/ / Ch ri stiane Fell ba um. Wo r dNet , A n elec 2t r o n ic lexical dat a b a s e . Cambridge : M I T Pre s s , 1998 : 265 - 283 .[ 3 ] Wu Zhibiao , Ma rt ha Pal mer . Ver b sema nt ic s and lexicalselectio n [ C ]/ / AC L ’94 Proceedings of t he 32 nd a nn u almeeting o n A sso ciatio n fo r C o mp ut atio nal L ingui stic s . St ro ud sbur g : A sso ciatio n fo r Co mp ut atio n al L ingu i s 2t ic s , 1994 : 133 - 138 .[ 4 ] 徐德智 ,郑春卉 , P a s s K. 基于 SU M O 的概念语义相似度研究[J ] . 计算机应用 , 2006 , 26 (1) :180 - 183 .结束语本文首先分析常用的几种基于路径的相似度计算算法 ,然后提出了一种改进的基于路径的概念相 似度计算算法 , 通过对 W u 和 Pal me r 算法进行改 进 ,弥补了文中提出的两个问题. 这种改进较为直 观 ,容易实现 ,而且算法复杂度和 Wu 和 Pal me r 算 法类似 ,没有增加多余的时间开销.4 作者简介 :参考文献 :[ 1 ] G eo r g e A Miller , Richa r d Beckwit h , Ch ri s tia n e Fell 2ba um , et al . Int r o d uctio n to wo r d Net : an o n - line lexi 2 cal dat aba s e [J ] . Inter n atio n al J o u r n al of L e xico g rap h y ,曾 诚 韩光辉 李 兵 男 ,副教授. 研究方向为网络化软件工程. 男 ,副教授. 研究方向为软件工程形式化. 男 ,教授. 研究方向为网络化软件工程.。
词林相似度值计算
词林相似度值计算词林相似度值是一种计算词语之间相似度的方法,它根据词语在词林中的编码进行计算。
词林是一种基于义项和层级关系构建的中文词语分类系统,它将词语按照意义进行分类,并将每个意义编码为一个六位数字。
通过比较两个词语的编码,可以计算它们之间的相似度。
词林相似度值的计算方法如下:1.获取词语编码:首先,通过在词林中查找两个词语的编码,可以得到它们在分类系统中的位置。
2.计算编码相似度:将两个编码进行逐位比较,相同位置的数字相同则得分为1,不同则得分为0。
将得分进行累加,得到总得分。
3.标准化相似度值:将总得分除以编码的长度,得到归一化后的相似度值。
这个值的范围是0到1,越接近1表示两个词语之间的相似度越高。
词林相似度值的计算原理很简单,但在实际应用中有很多用途。
比如,在自然语言处理中,可以利用词林相似度值来衡量两个词语的语义相似度。
通过计算不同词语之间的相似度值,可以帮助机器理解句子的意思,进行语义分析和信息检索。
此外,词林相似度值还可以用于信息推荐和信息过滤。
通过计算用户的兴趣与某一条信息的相似度,可以为用户推荐他们感兴趣的内容,或者过滤用户不感兴趣的内容。
词林相似度值的计算是基于义项和层级关系的,因此它适用于大部分的词语和短语。
然而,它也有一些局限性。
首先,它只考虑了词语间的相似度,而没有考虑上下文语境的影响。
在某些情况下,两个词语虽然在词义上相似,但在具体语境中的使用方式却可能不同。
其次,词林相似度值只是基于编码的比较,没有考虑到词语含义的丰富度和语义的复杂性。
总之,词林相似度值是一种简单而有效的计算词语相似度的方法。
它通过比较词语在词林中的编码,衡量词语之间的语义相似度。
词林相似度值在自然语言处理、信息推荐等领域具有广泛的应用前景。
然而,它也有一些局限性,需要在实际应用中综合考虑其他因素。
基于路径与词林编码的词语相似度计算方法
基于路径与词林编码的词语相似度计算方法
王松松;高伟勋;徐逸凡
【期刊名称】《计算机工程》
【年(卷),期】2018(044)010
【摘要】现有词语相似度计算方法主要针对词语的路径结构进行计算,较少深入考虑词语的语义信息,导致计算结果不够准确.针对该问题,提出一种改进的词语语义相似度计算方法.将词语的词林编码与路径结构相结合,同时利用局部敏感哈希算法和海明距离计算词林编码之间的相似度.在MC和RG数据集上的实验结果表明,该方法可使皮尔逊相关系数分别达到0.897 4和0.866 8,较传统基于路径和深度的计算方法准确性更高.
【总页数】8页(P160-167)
【作者】王松松;高伟勋;徐逸凡
【作者单位】上海师范大学信息与机电工程学院,上海200134;上海师范大学信息与机电工程学院,上海200134;上海师范大学信息与机电工程学院,上海200134【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于同义词词林的词语相似度计算方法 [J], 田久乐;赵蔚
2.一种基于《知网》的词语相似度计算方法 [J], 史俊冰
3.基于信息内容的词林词语相似度计算 [J], 彭琦;朱新华;陈意山;孙柳;李飞
4.基于词林的词语相似度的度量 [J], 吕立辉;梁维薇;冉蜀阳
5.基于路径与深度的同义词词林词语相似度计算 [J], 陈宏朝;李飞;朱新华;马润聪因版权原因,仅展示原文概要,查看原文内容请购买。
文本相似度计算研究进展综述
中图分类号: TP 391. 1
文献标志码: A
A survey on research progress of text similarity calculation
WANG Hanru,ZHANG Yangsen
( Computer School,Beijing Information Science & Technology University,Beijing 100101,China)
( T1,T2,…,Tn) 构成了一个文档向量空间,采用空 间向量间的余弦相似度计算文本相似度。
VSM 的缺陷在于: ①对于大规模语料,VSM 会 产生高维稀疏矩阵,导致计算复杂度增加; ② VSM 假设文本中的各个特征词独立存在,割裂了词与词 之间的关系以及段落间的层次关系。因而用向量空 间进行文本相似度计算时,通常改进 TF-IDF 的计算 方法以提高精确度。例如,张奇等[4]将文本用 3 个 向量( V1,V2,V3) 表示,V1 中的每一维代表特征词 的 TF-IDF 值,V2 根据一个 bi-gram 是否出现取值 0 或 1,V3 使用 tri-gram 信息,取值同 V2,用回归模型 将 3 对向量相似度综合得到句子的相似度; 华秀 丽[5]等利用 TF-IDF 选择特征项,利用知网计算文本 的语义相似度。 2. 2 基于主题模型:
1) 语言的多义同义问题。同一个词在不同的 语境下,可以 表 达 不 同 的 语 义,例 如“苹 果 ”既 可 以 表示水果,也可以表示科技公司; 同理,相同的语义 也可以由不同的词表达,例如“的士”、“计程车”都 可以表示出租车。
以检测出两段文本的抄袭程度; 在文本聚类方面,相 似度阈值可以作为聚类标准; 在自动文摘中,相似度 可以反映局部信息拟合主题的程度。
“深度学习”计算词和句子的语义相似度及应用
“深度学习”计算词和句子的语义相似度及应用随着互联网数据的爆炸式增长,语义计算在信息处理和信息检索中的需求越来越大。
其中,语义相似度计算是计算机自然语言处理的重要应用之一。
语义相似度计算可以帮助机器理解人类语言,实现诸如文本分类、命名实体识别、情感分析、问答系统、机器翻译等自然语言处理的应用。
传统的语义相似度计算方法包括基于词典、基于知识库、基于语法和基于统计等方法,但这些方法在计算语义相似度时存在许多问题,例如处理复杂句子和表达多义词语的语义准确率较低。
为此,深度学习算法被引进用于语义相似度计算任务中。
深度学习算法是一种基于人工神经网络的机器学习方法,它通过在大量标注好的数据上训练模型,学习模式并自动地提取特征来处理复杂的自然语言处理任务。
深度学习算法在语义相似度计算中的应用主要包括两种:基于单个句子的语义相似度计算和基于两个句子的语义相似度计算。
基于单个句子的语义相似度计算使用卷积神经网络(CNN)或循环神经网络(RNN)模型,将句子表示为向量,然后计算向量之间的相似度。
例如,利用CNN模型将输入的句子表示为向量,然后计算向量之间的相似度,可用于句子分类和情感分析等任务。
而利用RNN模型可以处理比较长的序列输入,可用于文本分类和自然语言生成等任务,如生成与输入句子相似的句子。
基于两个句子的语义相似度计算通常使用Siamese神经网络,该神经网络有两个完全相同的子网络用于处理两个句子的表示。
在两个句子的表示之间使用距离度量函数,例如余弦相似度或曼哈顿距离计算两个句子的相似度。
这种方法可以用于文本匹配和问答系统等任务。
总之,深度学习算法在自然语言处理中有着广泛的应用前景,尤其在语义相似度计算方面。
随着数据集的不断增大和深度学习算法的不断改进,我们相信深度学习算法本身和基于深度学习算法的自然语言处理方法都将得到进一步的改善和完善。
词语相似度计算
词语相似度计算词语相似度计算 当事物可以计算的时候就产⽣了智能 ----Alert⼀、词语相似度 词义相似度计算在很多领域中都有⼴泛的应⽤,例如信息检索、信息抽取、⽂本分类、词义排歧、基于实例的机器翻译等等。
国内很多论⽂主要是基于同义词林和知⽹来计算的。
本⽂的词语相似度计算是基于《同义词词林》的。
⼆、同义词林介绍《同义词词林》是梅家驹等⼈于1983年编纂⽽成,这本词典中不仅包括了⼀个词语的同义词, 也包含了⼀定数量的同类词, 即⼴义的相关。
《同义词词林》的编写年代久远,之后没有更新。
哈⼯⼤花费了⼤量的⼈⼒物⼒完成了⼀部具有汉语⼤词表的哈⼯⼤信息检索研究室《同义词词林扩展版》,《同义词词林扩展版》收录词语近7万条。
原版的《同义词词林》⽬录如下:哈⼯⼤《同义词词林扩展版》保留《同义词词林》原有的三层分类体系,并在此基础上对词语继续细分类,增加两层,得到最终的五层分类体系,这样词典中的词语之间就体现了良好的层次关系,如下图表⽰的词语树形结构:例如:“东南西北”的编码为Cb02A01=C是第1层、b是第⼆层、02是第三层、A是第四层、01是第五层,=号有特殊的意义。
词语的编码规则如下:表中的编码位是按照从左到右的顺序排列。
第⼋位的标记有3种,分别是“=”、“#”、“@”, “=”代表“相等”、“同义”。
末尾的“#”代表“不等”、“同类”,属于相关词语。
末尾的“@”代表“⾃我封闭”、“独⽴”,它在词典中既没有同义词,也没有相关词。
三、词语相似度定义1 语义相似度。
给定两个词汇w1和w2,它们之间的相似度通过Sim(w1,w2):S*S->[0,1],表⽰集合S中的两个词汇w1和w2的相似程度。
简单的说相似度函数是个值域在[0,1]间的函数。
本⽂的计算公式参考了《基于同义词词林的词语相似度计算⽅法》⼀⽂,相似度函数计算公式如下:若两个义项的相似度⽤Sim表⽰,n表⽰所在分枝层分⽀数,k表⽰两个分⽀间的距离。
“深度学习”计算词和句子的语义相似度及应用
“深度学习”计算词和句子的语义相似度及应用深度学习已经成为自然语言处理领域的重要技术,特别是在计算词和句子的语义相似度方面。
语义相似度是指两个句子或者单词之间的语义距离,用于衡量它们之间的相关性。
深度学习方法可以从大量的语料库中学习句子或单词之间的相似性关系,从而实现自然语言处理中的各种任务,例如机器翻译、自动问答和信息检索等。
基于单词向量表示的方法主要是将每个单词表示为一个向量,并计算向量之间的距离来度量单词的语义相似度。
常用的单词向量表示方法有Word2vec、GloVe和FastText等。
这些方法能够将单词表示为稠密向量,且向量的维度较低,在进行相似度计算时速度较快,因此被广泛应用于自然语言处理中。
例如,在文本分类中,可以使用Word2vec计算词向量,然后将其作为输入,使用卷积神经网络或循环神经网络进行分类。
基于深度学习的计算句子语义相似度的方法也有很多种。
同样可以使用单词向量表示进行计算,例如可以将每个句子表示为一个稠密向量,然后计算向量之间的距离。
另一种方法是使用深度学习模型来学习句子表示,例如使用循环神经网络或卷积神经网络来处理句子。
在自然语言处理的各个领域,计算语义相似度都有着重要的应用。
例如,在信息检索中,可以使用计算文档和查询之间的相似度来排序检索结果。
在问答系统中,可以将问题和答案表示为稠密向量,然后计算它们之间的相似度来生成回答。
在机器翻译中,可以使用计算源语言和目标语言之间的相似度来选择合适的翻译。
总之,深度学习技术为计算词语和句子的语义相似度提供了强有力的工具,能够从大量的语料库中学习相似性关系,从而实现自然语言处理的各种任务。
随着深度学习技术的不断发展,其在计算语义相似度方面的应用将会越来越广泛。
词语相似度计算
词语相似度计算
词语相似度计算是一种用于确定两个词语之间语义相似程度的
方法。
它在自然语言处理和机器学习领域中被广泛应用,可以帮助机器理解和处理自然语言文本。
一种常用的词语相似度计算方法是基于词向量的方法。
在这种方法中,每个词语都被表示为一个向量,向量的维度通常与词汇表的大小相同。
这些向量可以通过训练一个深度学习模型来获得,如Word2Vec、GloVe 等。
通过计算两个词语向量之间的相似性,就可以得到它们的相似度分数。
另一种常用的词语相似度计算方法是基于词语的语义关系的方法。
这种方法利用词语之间的关联关系来计算它们的相似度。
例如,可以使用同义词词林或WordNet这样的词典来获取词语之间的关系,如上位词、下位词、同义词等。
然后,通过计算两个词语在语义关系图中的距离或路径长度,就可以得到它们的相似度。
除了以上两种方法,还有一些其他的词语相似度计算方法,如基于语义角色标注的方法、基于语义框架的方法等。
这些方法都有各自的优缺点,适用于不同的场景和任务。
词语相似度计算在自然语言处理中有着广泛的应用。
例如,在信息检
索中,可以使用词语相似度计算来进行查询扩展或相关性排序。
在问答系统中,可以使用词语相似度计算来匹配用户问题和候选答案。
在机器翻译中,可以使用词语相似度计算来进行词语替换和生成更准确的翻译结果。
总之,词语相似度计算是一项重要的任务,可以帮助人们更好地理解和处理自然语言文本。
随着深度学习和自然语言处理技术的不断发展,相信词语相似度计算方法将会变得更加精确和有效。
基于知网的词语语义相似度改进算法
基于知网的词语语义相似度改进算法李蕾;杨丽花【摘要】词语语义相似度计算在很多领域都有广泛应用,而目前常用的基于知网的词语语义相似度计算方法由于未深入考虑同一棵树中的两个不同义原的可达路径上所有义原节点的密度对义原距离的影响,或未考虑义原深度与义原密度的主次关系,导致计算结果不够精确,从而使其应用受限.针对该问题,给出了一个新的节点间边权重函数,通过在边权重函数中引入两义原可达路径上所有义原节点的密度,并利用权重因子来调整义原深度和义原密度对义原距离的影响,从而提出一种改进的基于知网的词语语义相似度计算方法.实验结果表明,该方法可以更有效地提高词语语义相似度计算精度,比现有方法更具有实用性.【期刊名称】《计算机技术与发展》【年(卷),期】2019(029)004【总页数】5页(P42-46)【关键词】知网;词语语义相似度;义原密度;义原深度;义原距离【作者】李蕾;杨丽花【作者单位】南京邮电大学江苏省无线通信重点实验室,江苏南京 210003;南京邮电大学江苏省无线通信重点实验室,江苏南京 210003【正文语种】中文【中图分类】TP3110 引言词语语义相似度计算在信息检索[1]、基于实例的机器翻译[2]以及数据相似度检测等领域有着广泛的应用。
目前常用的基于知网的词语语义相似度计算方法大致可分为两类:一类是利用大规模语料统计词语的相关性,即基于统计的方法;另一类是根据某种世界知识计算相似度的方法,即基于世界知识的方法[3]。
其中,基于统计的方法是根据词汇上下文信息的概率分布计算词语语义相似度,该方法计算得到的结果精确度较高,但是需要依赖于训练所用的语料库,计算量比较大,计算方法也比较复杂。
此外,由于数据稀疏和数据噪声等因素对基于统计的方法干扰较大,故该方法一般很少使用[4]。
基于世界知识的方法通常是基于某个知识完备的语义词典中的层次结构关系进行计算,该方法简单有效,不需要用语料库进行训练,也比较直观和易于理解,但这种方法受人的主观意识影响较大,有时并不能准确反映客观事实[5]。
“深度学习”计算词和句子的语义相似度及应用
“深度学习”计算词和句子的语义相似度及应用深度学习在自然语言处理领域已经取得了很大的进展,其中一个重要的应用就是计算词和句子的语义相似度。
语义相似度是指两个词或句子之间在语义上的相似程度,是自然语言处理中一个非常重要的任务。
在很多NLP应用中,需要对词和句子的语义进行建模和比较,比如在信息检索、文本分类、机器翻译等任务中都需要用到语义相似度。
深度学习技术的发展使得我们能够更加有效地计算词和句子的语义相似度,进而提高自然语言处理任务的性能。
深度学习技术在计算词和句子的语义相似度方面的应用主要可以分为两个方向:基于词嵌入的方法和基于神经网络的方法。
在基于词嵌入的方法中,首先需要使用词嵌入模型将词语映射到低维语义空间中,然后可以通过计算词嵌入之间的相似度来衡量词语的语义相似度。
在基于神经网络的方法中,可以使用卷积神经网络、循环神经网络或者注意力机制等模型来捕捉句子中的语义信息,然后通过这些模型计算句子之间的语义相似度。
接下来将分别介绍这两种方法的原理和应用。
基于词嵌入的方法是计算词语语义相似度的经典方法之一。
词嵌入模型的主要思想是将高维的词语空间映射到低维的语义空间中,从而能够更好地捕捉词语之间的语义信息。
Word2Vec和GloVe是两种经典的词嵌入模型,它们都能够将词语映射到一个低维的实数向量空间中。
通过这些词嵌入模型,我们可以计算词语之间的相似度,进而得到词语的语义相似度。
在实际应用中,可以使用余弦相似度或者欧几里得距离等方法来计算词语之间的相似度,从而得到它们的语义相似度。
基于词嵌入的方法在很多NLP任务中都有广泛的应用。
比如在信息检索任务中,可以使用词嵌入模型来表示查询词和文档中的词语,然后通过计算它们之间的语义相似度来衡量文档和查询之间的相关性。
在文本分类任务中,可以使用词嵌入模型来表示文本中的词语,然后通过计算词语之间的相似度来比较文本的语义信息,从而实现文本分类的任务。
在机器翻译、情感分析、问答系统等任务中,基于词嵌入的方法也都有广泛的应用,取得了很好的效果。
基于不同语义资源的词语相似度算法综述
基于不同语义资源的词语相似度算法综述词语相似度研究作为人工智能领域中一项重要研究,被广泛应用于信息检索,词义消歧,机器翻译,语音自动摘要,分类和聚类等方面。
现有的词语相似度算法主要分为基于语义资源和基于统计两类方法,第一种也被称为基于本体的词语相似度算法,主要根据词语所处的语境来反应词语的词义,即根据不同的层次结构组织中词所处的上下位与同位关系来计算词语的相似度。
另一种也被称为基于大规模语料库的算法,研究上下文环境中各个词语之间出现的某种规律,利用统计技术计算的一种无监督机器学习的方法。
本文重点介绍基于不同的语义资源的词语相似度算法,对词语相似度算法的未来做了展望。
标签:词语相似度;语义资源;维基百科1 引言随着云时代的来临,大数据越来越受人们关注。
伴随着办公室无纸化推行,人们逐渐习惯于利用计算机进行数字化处理数据,自然语言处理的研究也飞速发展。
词语是自然语言处理的最小单位,词语相似度的计算在自然语言处理的各个领域占有很重要的地位。
词语相似度计算研究的是计算两个词语相似度的方法,词语之间有着非常复杂的关系,应用中常常将这种复杂的关系用简单的数量来度量。
可见词语相似度研究有广阔的应用前景和重大研究价值。
本文综合介绍了近年来基于几种常见语义资源的词语相似度算法和最新研究成果,对该领域的发展前景做出了展望。
2 基于Wordnet的方法Wordnet是由普林斯顿大学的心理学家,语言学家和计算机工程师联合设计的一个在线词典参考系统,在认知语言学理论下推动形成的覆盖范围非常广阔的词汇语义网。
Wordnet不像传统的在线词典按照字母排序构造而成,这个系统中的词语根据同义关系,反义关系,部分关系聚类分为代表某一类词汇概念的相关集合。
并在这些聚类后形成的集合之间建立起不同关系。
Wordnet主要代表算法是通过计算两个词语在本体结构分类的路径长度,本体库的统计特征,概念层次树上下位关系和同位关系或对词语涉及的边进行处理。
词语相似度计算
词语相似度计算词语相似度计算是自然语言处理领域中的一个重要任务。
它指的是通过比较不同词语之间的语义距离,来判断它们之间的相似程度。
一般来说,相似度计算可以分为两种方法:基于知识库的方法和基于词向量的方法。
基于知识库的方法是利用词语之间的上下位关系、关联关系和语义关系来衡量它们之间的相似度。
其中,最经典的方法是基于词汇语义网络的词路径模型。
这种方法利用词汇的组织结构,通过计算两个词语在词汇网络中的最短路径长度来度量它们的相似程度。
另外,还有一种基于指标和权重的方法,比如基于信息内容的词向量。
基于词向量的方法是利用词汇的分布式表示来计算词语之间的相似度。
这种方法先将词语转换为词向量,然后通过计算词向量之间的相似度来衡量词语之间的语义距离。
常用的词向量模型有Word2Vec、GloVe、FastText等。
这些模型通过机器学习算法来学习词语的分布式表示,并将词语表示为高维向量。
在向量空间中,词语之间的距离表示其语义相关性,可以通过计算向量之间的余弦相似度或欧氏距离来度量两个词语的相似程度。
相似度计算的应用非常广泛,例如在信息检索、文本分类、问答系统等领域都起着重要作用。
以文本相似度计算为例,可以通过计算两个文本中词语的相似度,进而判断两个文本之间的语义相似度。
在基于知识库的方法中,可以利用词语在知识库中的关联关系,计算词语之间的语义距离。
而基于词向量的方法则可以通过计算词向量之间的相似度,来衡量两个文本在语义上的相似程度。
当然,相似度计算也存在一些挑战和限制。
首先,词语的语义是一个非常抽象和主观的概念,不同人对于词语的理解可能存在差异,因此相似度计算很难完全准确地刻画词语之间的语义关系。
其次,词向量模型的训练需要大规模的语料库支持,而且对于生僻词或专业术语的处理效果往往较差。
另外,由于语义计算的相关算法和模型通常计算复杂度较高,因此在实际应用中需要考虑计算效率和性能的平衡。
总之,词语相似度计算是自然语言处理中的一个重要任务,涉及到基于知识库和基于词向量的不同方法。
融合路径与信息内容的词语语义相似度计算
融合路径与信息内容的词语语义相似度计算郭承湘;唐忠;石怀明【摘要】词语语义相似度计算是自然语言处理领域研究的基础.针对基于路径方法中普遍存在的密度不均匀性问题,提出融合路径距离与信息内容方法,通过一个平滑参数将路径和信息内容融合调整概念间的语义距离,使路径方法计算的相似度值更加合理.该方法具有较少的参数,能够避免其他方法因引入参数过多带来的过拟合问题,具有较好的通用性.实验结果表明:本文方法计算的相似度值与国际标准测试集人工判定值的皮尔逊相关系数达到了0. 852 3,具有较好的性能.同时对实验结果分析发现,结果受算法参数的影响甚小,表明本文提出的算法具有较强的鲁棒性.%The computation of word semantic similarity is the basis of natural language processing. Aiming at the problem of density inhomogeneity in path-based methods, a method of merging path distance and information content is proposed, which fuses the path and information content characteristics are fused through a smooth parameter to adjust the semantic distance between concepts and makes the similarity values calculated by path-based method more reasonable. The method has fewer parameters, thus avoids the problem of over-fitting caused by introducing too many parameters in other methods, and has a good universality. The experiments shows that the Pearson correlation coefficient between the similarity values from the presented method and the human judgments in the international standard test dataset has reached 0. 852 3, which means better performance. The analysis of experiment results shows that the results of the presented algorithm are very little influenced by theparameters of the algorithm, which indicates that it has stronger robust-ness.【期刊名称】《广西大学学报(自然科学版)》【年(卷),期】2018(043)003【总页数】8页(P1074-1081)【关键词】语义相似度;语义距离;信息内容;不均匀性;鲁棒性【作者】郭承湘;唐忠;石怀明【作者单位】广西壮族自治区食品药品安全信息与监控中心,广西南宁 530029;广西医科大学信息与管理学院,广西南宁 530021;广西壮族自治区食品药品安全信息与监控中心,广西南宁 530029【正文语种】中文【中图分类】TP3910 概述词语语义相似度计算是自然语言处理领域研究的基础,在智能检索、词义消歧、语义标注、信息抽取和文本相似度等方面都有广泛的应用。
基于路径与深度的同义词词林词语相似度计算
基于路径与深度的同义词词林词语相似度计算陈宏朝;李飞;朱新华;马润聪【期刊名称】《中文信息学报》【年(卷),期】2016(30)5【摘要】该文提出了一种基于路径与深度的同义词词林词语语义相似度计算方法.该方法通过两个词语义项之间的最短路径以及它们的最近公共父结点在层次树中的深度计算出两个词语义项的相似度.在处理两个词语义项的最短路径与其最近公共父结点的深度时,为提高路径与深度计算的合理性,为分类树中不同层之间的边赋予不同的权值,同时通过两个义项在其最近公共父结点中的分支间距动态调节词语义项间的最短路径,从而平衡两个词语的相似度.该方法修正了目前相关算法只能得出几个固定的相似度值,所有最近公共父结点处于同一层次的义项对之间的相似度都相同的不合理现象,使词语语义相似度的计算结果更为合理.实验表明,该方法对MC30词对的相似度计算值与人工判定值相比,取得了0.856的皮尔逊相关系数,该结果高于目前大多数词语相似度算法与MC30的相关度.【总页数】9页(P80-88)【作者】陈宏朝;李飞;朱新华;马润聪【作者单位】广西师范大学多源信息挖掘与安全重点实验室,广西桂林541004;广西师范大学多源信息挖掘与安全重点实验室,广西桂林541004;广西师范大学多源信息挖掘与安全重点实验室,广西桂林541004;广西师范大学多源信息挖掘与安全重点实验室,广西桂林541004【正文语种】中文【中图分类】TP391【相关文献】1.基于同义词词林的词语相似度计算方法 [J], 田久乐;赵蔚2.基于《同义词词林》的双音节复合词语义透明度的评测分析 [J], 孙威;3.基于路径与词林编码的词语相似度计算方法 [J], 王松松;高伟勋;徐逸凡4.基于《同义词词林》深度的词义相似度计算研究 [J], 杨泉;孙玉泉5.基于Logistic函数的《同义词词林》语义相似度计算 [J], 杨泉因版权原因,仅展示原文概要,查看原文内容请购买。
基于知网和同义词词林的词汇语义倾向计算
基于知网和同义词词林的词汇语义倾向计算黄硕;周延泉【摘要】在互联网飞速发展的今天,海量的数据在网络上共享传输,文本中的情感倾向获取对于文本的处理有着重要作用.而词汇的褒贬倾向研究是文本情感倾向研究的基础.本文基于知网(HowNet)和同义词词林信息融合的方法,为词林的词集添加知网def与情感倾向,进行词汇的语义倾向计算.实验结果表明,该方法更趋于合理,结果更符合人们的日常体验.【期刊名称】《软件》【年(卷),期】2013(034)002【总页数】3页(P73-74,94)【关键词】情感计算;知网;同义词词林;语义倾向【作者】黄硕;周延泉【作者单位】北京邮电大学计算机科学与技术系,北京100876【正文语种】中文【中图分类】TP3910 引言随着互联网的发展,海量的网络资源也随之而来,如何从中高效准确的获取我们所需的信息,是目前计算机领域研究的热点。
语义倾向性研究正是在这一背景下应运而生的。
文本倾向性识别就是通过对文本格式的信息资料中提取具有一定感情色彩的词汇、短语、常用结构等, 来判定文本的情感态度倾向,而词汇的褒贬倾向性判别是文本倾向性识别的基础。
词汇的语义倾向,即对于词汇的褒贬程度计算出一个度量值。
比较常用的做法是将度量值规定为位于±1之间的实数。
当度量值高于某阈值时,判别为褒义倾向;反之,则判为贬义倾向。
篇章中词汇的语义倾向值极大影响着篇章的语义倾向,对词汇的语义倾向计算是此类研究中的关键工作。
Hatzivassiloglou和McKeown[1]尝试使用监督学习的方法对英文的词语进行情感语义倾向性判别,准确率达到90%左右。
2003年,Turney [2]从大规模语料中利用统计信息对单词进行语义倾向判断。
其准确率达到82.18%。
目前已有的中文词语语义倾向性分析方法主要有以下两类:基于语义的倾向性分析法,例如复旦大学的朱嫣岚等通过手工选定少量的基准词[3],然后利用知网HowNet[4]的语义相似度和语义相关场功能来计算新词与基准词之间的相似度,从而得到新词的语义倾向性。
辨出词义相似级之一
辨出词义相似级之一
董晓琴
【期刊名称】《英语教师:初中》
【年(卷),期】2003(000)001
【总页数】2页(P27-28)
【作者】董晓琴
【作者单位】无
【正文语种】中文
【中图分类】H314
【相关文献】
1.辨出词义相似级之二 [J], 董晓琴
2.基于nGram2vec与词义演化的词相似度计算方法 [J], 汪玉珠; 王永滨
3.基于《同义词词林》深度的词义相似度计算研究 [J], 杨泉;孙玉泉
4.一种基于决策树和词义相似度的N1+N2结构语法关系判定方法 [J], 杨泉
5.知识本体与词向量结合的词义相似度强化学习计算方法 [J], 杨泉
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中图分类号 : T P 3 9 1
文 献标 识码 :
A Pa t h a n d De p t h - Ba s e d Ap p r o a c h t o WO r d S e ma n t i c S i mi l a r i t y Ca l c a l a t i o n i n ,wh i l e d y n a mi c a l l y a d j u s t i n g t h e s h o r t e s t p a t h b e t we e n t wo s e n s e s t h r o u g h t h e i r b r a n c h i n t e r v a l i n t h e l o w—
Gu a n g x i No r ma l Un i v e r s i t y,Gu i l i n, Gu a n g x i 5 4 1 0 0 4, Ch i n a )
Ab s t r a c t:I n t hi s pa p e r,we pr op os e a wor d s e ma nt i c s i mi l a r i t y a ppr o a c h b a s e d o n t he pa t h a nd de pt h i n Ci I i n . Thi s a ppr oa c h e xp l o i t s t h e s ho r t e s t p a t h be t we e n t wo wo r d s e ns e s a nd t h e d e p t h o f t he i r l o we s t c o m m on p ar e nt no d e i n
CH EN Ho n g c h a o, LI Fe i , ZH U Xi n hu a ,M A Ru n c o n g
( Gu a n g x i Ke y La b o f Mu l t i — s o u r c e I n f o r ma t i o n Mi n i n g& S e c u r i t y,
第 3 O卷
第 5期
中文 信息 学报
J 0U RNAL OF CH I NES E I NFORM A TI ON PROCES S I NG
Vo 1 .3 0,No .5 S e p . ,2 O 1 6
2 0 1 6年 9月
文章 编号 : 1 0 0 3 — 0 0 7 7 ( 2 0 1 6 ) 0 5 — 0 0 8 0 - 0 9
基 于路 径 与深 度 的 同义 词词 林 词语 相 似度 计算
陈宏 朝 , 李 飞, 朱新华 , 马润 聪
( 广西师范大学 多源信息挖掘与安全重点实验室 , 广西 桂 林 5 4 1 0 0 4 ) 摘 要: 该 文提 出 了一 种 基 于 路 径 与 深 度 的 同义 词 词 林 词 语 语 义 相 似 度 计 算 方 法 。该 方 法 通过 两 个词 语 义项 之 间
t h e h i e r a r c h y t r e e t o c a l c u l a t e t h e s e ma n t i c s i mi l a r i t y b e t we e n t wo wo r d s e n s e s .I n o r d e r t o i mp r o v e t h e r a t i o n a l i t y o f c a l c u l a t i n g t h e p a t h a n d d e p t h,we a s s i g n d i f f e r e n t we i g h t s t o t h e e d g e s b e t we e n t h e d i f f e r e n t l a y e r s i n c l a s s i f i c a —
的 最 短 路 径 以 及 它 们 的 最 近 公 共 父 结 点 在 层 次 树 中 的深 度 计 算 出两 个 词语 义 项 的 相 似 度 。在 处 理 两 个 词 语 义 项 的最短路径与其最近公共父结点的深度时 , 为提 高路 径 与 深 度 计 算 的合 理 性 , 为 分 类树 中不 同层 之 间 的 边 赋 予 不
同的 权 值 , 同 时通 过 两 个 义 项在 其 最 近公 共 父 结 点 中 的 分 支 间 距 动 态调 节 词 语 义 项 间 的 最 短 路 径 , 从 而 平 衡 两 个
词 语 的 相 似 度 。该 方 法 修 正 了 目前 相 关 算 法 只 能 得 出几 个 固定 的 相 似 度 值 , 所 有 最 近 公 共 父 结 点 处 于 同一 层 次 的 义 项 对 之 间的 相 似 度 都 相 同的 不 合 理 现 象 , 使 词语语 义相似 度的计 算结果更 为合理 。实验表 明, 该 方 法 对 MC 3 0 词对的相似度计算值与人工判定值相 比, 取得 了 0 . 8 5 6的 皮 尔 逊 相 关 系数 , 该 结 果 高 于 目前 大 多数 词 语 相 似 度 算