基于《知网》的词汇语义相似度计算

合集下载

汉语词语语义相似度计算研究

汉语词语语义相似度计算研究

文 识码:A 献标
中圈 分类号: P9 T 31
汉语 词语 语 义相似 度 计 算研 究
夏 天
( 国人民大学信息资源 管理 学院,北京 10 7 ) 中 82 0
摘 要 :汉语词语 的语义相似度计算是 中文信 息处理 中的一个关键问题 。该文 提出了一种基于知 网、面向语义、可扩展的相似度计算新方
[ e od iWod m l i ; o n ; o cp; e e e K y r s rs i i r y H w  ̄ C n etS m m w s at
汉语词汇相似度计 算在 自动问答、情 报检 索、文本聚类 等应用 中都是一个非常关键的问题” J 。针对这一问题 ,人们
smia iy c mpu a i n wh c s b s d o wn t e r d t e n i n o l e e p n e .T e n w t o e n s a s mi rt omp tto i lrt o tto ih i a e n Ho e ,g a e o s ma t a d c u d b x a d d h e me d d f e i l i c c h i a y uain f r u a a ng Ho e ’ e e sa c r i g t n o ai n t e r , n s awa u fi u t h tOOV r sc n o a t i a e i e n i o m l mo wn tSs m me c o d n o i f r to o y f d y o t t di c l t a m h i of he y wo d a n tp ri p t n s ma t c c
t e s m a t e e mo g a b ta y wo d n l . p r e t lr s l o LI i d c t s t a c u a y r t f t e n w e h d sne ry 1 % h e n i l v la n ir r r s n ia e h tt a c r c a e o h e m t o i a l c r i y m he 5 h g e a e e to e . i h rt npr s n n s h

基于HowNet的词汇语义相关度计算方法研究

基于HowNet的词汇语义相关度计算方法研究

基于HowNet的词汇语义相关度计算方法研究摘要:本文在充分挖掘词汇间隐含语义关系的基础上,基于语义关系对语义关联度的影响,将语义相似度以及语义关联度相结合提出了语义相关度算法,并通过实验证明,使用该计算方法得出的语义相关度,能够更精确地区分词汇间的细微语义差别,计算结果更趋于合理化。

关键词:HowNet 语义相似度语义相关度语义关系1、引言词汇相似度反映了两个词汇相互关联的程度,即词汇间的组合特点,可以利用两个词汇在同一语言环境中的可替换程度来衡量。

目前,词汇相似度的计算方法主要有基于统计的方法和基于语义词典的方法两种,但这两种方法在实现中都存在不足。

本文充分挖掘出HowNet中丰富的语义关系,在计算了词汇的语义相关度以及语义关联度的基础上,提出一种基于HowNet的词汇语义相关度计算方法,使计算结果更趋于合理化。

2、基础知识2.1 HowNet简介HowNet是一个以中英文词汇所代表的概念为描述对象,以揭示概念之间以及概念的属性之间的关系为基本内容的常识知识库。

它采用知识词典的描述语言(Knowledge Dictionary Mark-up Language,KDML),将词语表示为几个“概念”,即利用“概念”对词汇的语义进行描述。

组成“概念”的最小意义单位称为义原语义描述式,由义原以及某些表达概念语义的符号组成,有基本义原描述式和关系义原描述式两种形式。

2.2 概念之间的隐含语义关系概念的基本义原描述式展示了概念的基本信息,而关系义原描述式则表达了概念与其它义原间的复杂关系,我们可以根据这些关系挖掘出隐含在两个概念之间的复杂语义关系。

笔者对HowNet关系以及关系义原描述式进行了仔细研究比较,概括出了概念之间的八个语义关系,如表1所示。

3、语义相关度计算两个词汇语义相似度高,它们的语义相关度必定较高,如“医生”与“患者”;反之两个语义相关度高的词语,却不一定有很高的相似度,如“医生”与“医治”。

基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算
《知网》是一个中文语料库,可以用来进行文本语义相似度计算。


见的基于《知网》的词汇语义相似度计算方法有:
1.基于《知网》的同义词词林:《知网》中的同义词词林收录了大量
的同义词、近义词和相关词,可以通过比较两个词在同义词词林中的位置,来衡量它们的语义相似度。

比如,可以通过比较两个词在同一类和同一级
别下的位置,来判断它们的相似度。

2.基于《知网》的词语标注:《知网》中的词语标注包括词义分类和
关系标注等信息,可以通过比较两个词的词义分类和关系标注信息,来衡
量它们的语义相似度。

3.基于《知网》的词语关联度计算:可以通过计算两个词在《知网》
中的关联度来判断它们的语义相似度。

常用的方法有基于路径的关联度计
算和基于信息内容的关联度计算。

这些方法都是基于《知网》的语料库信息进行计算的,可以根据具体
需求选择适合的方法进行词汇语义相似度计算。

中文词语语义相似度计算_基于_知网_2000

中文词语语义相似度计算_基于_知网_2000
首先, 用来描述词语的义原之间存在多种关系。 我们认为在《知网》2000 中, 义原之间的 主要关系 有: 上下位关系; 属性关系, 指/ 实体0 类义原( 置于 [ ] 中, 见图 1) 和/ 事件类义原0的共性( 置于{ } 中) ; 对义关系和反义关系。其中最基本的仍然是树状层 次体系中的上下位关系( 见图 1)
《知网》的 基本形式是对中 文词语的释义 和描 述。与一般的语义词典如 Wordnet 不同的地 方有 两点:
第一, 词语( 概念) 的意义不是通过一些其他的 常用词语来解释、说明, 而是通过 / 义原0来描述、定 义。比如/ 打0 ( 打篮球, 打太极) , 这个词有一 项描 述是:
DEF = exer cise| 锻炼, spo rt| 体 育
DEF = human | 人, # occu-
医生 pation| 职位, * cure | 医治, *
medica l| 医
患者
DEF= human| 人, * SufferFr om| 罹患, $ cur e| 医治
$
obtain | 得 到, po ssession = 得利 pros| 益( 注: 等号左边为/ 动 =
%
颜色
DEF= attr ibute| 属性, color | 颜色, & physical| 物质
&

DEF= mater ial| 材料, ? clo thing | 衣物
?
DEF= Inst itutePlace | 场所,
医院 @ cure | 医 治, # disease| 疾 @
病, medical| 医
见表1从表1的例子中可以看出知网义原加标识符来定义词语的方式不但给出了词语的语义信息比如医院0是医疗场所也显式地给出了概念之间的联系比如医治0的实施者是医生0受事者是患者0而地点是医院0

一种基于《知网》的文本语义相似度的计算方法

一种基于《知网》的文本语义相似度的计算方法
究, 取得 了不少 成 果 , 但 是 文 本 聚 类 也 面 临 着各 方
造成 了文本 向量 的表 示 空 间难 以有 效 地 降维 。2 ) 由于不 同的文 本 可 能采 用 不 同 的词 汇 来 表 示 相 同
概念 , “ 一对 一” 的匹 配方法 在处 理 时就 显得 无 能 为 力 了¨ 6 ] 。特别 是 同义词 和 近义 词不 能 识别 , 造 成 了 聚类 的误 差 。例 如 : 文本 1 : 土 豆 盛 产 于 中 国 。文
总第 2 9 2期 2 0 1 4年第 2期
计算 机与数字工程
Co mp u t e r&. Di g i t a l En g i n e e r i n g
Vo 1 . 4 2 No . 2
1 87
一ห้องสมุดไป่ตู้
种 基 于 知 网 的 文本 语 义 相 似 度 的计 算 方 法
孙 滨 刘 林
4 5 1 1 0 0 ) ( 郑州华信学 院信息工程 系 郑州


论文提 出一个基于语义 的文本 问的相似度算法 , 以文本 的特征词 相似度为基础 , 来计算文本 间的相似度 , 利用
聚类算法对文本簇进行 聚类 。实验结果证 明基于知 网的文本语义相似度方法在对文本相似度计算 以及文本 聚类方面 , 能有 效提 高聚类 的效果 。 关键 词 文本 聚类 ; 义原相似度 ; 语义相似度
Ab s t r a c t A s i mi l a r i t y a l g o r i t h m b a s e d o n s e ma n t i c s i mi l a r i t y i s p r o p o s e d ,wh i c h c a l c u l a t e s t h e s i mi l a r i t y o f t e x t s a c — c o r d i n g t O f e a t u r e wo r d s o f t h e t e x t a n d ma k e s t e x t c l u s t e r s b y e mp l o y i n g c l u s t e r i n g a l g o r i t h m. Th e e x p e r i me n t a l r e s u l t s p r o v e t h a t t h e me t h o d o f t e x t s e ma n t i c s i mi l a r i t y b a s e d o n CNKI i S v e r y e f f i c i e n t i n t e x t s i mi l a r i t y c a l c u l a t i o n a n d t e x t c l u s t e — r i n g ,wh i c h c a n e f f e c t i v e l y i mp r o v e t h e e f f e c t o f c l u s t e r i n g . K e y Wo r d s t e x t c l u s t e r i n g ,p r i mi t i v e s i mi l a r i t y,s e ma n t i c s i mi l a r i t y Cl a s s Nu mb e r TP 3 9 】

基于《知网》的汉语词语词义消歧方法

基于《知网》的汉语词语词义消歧方法

基于《知网》的汉语词语词义消歧方法摘要本文提出了一种简单有效的词义消歧方法,该模型充分利用依存文法分析,从句子的内部结构,寻找词语之间支配与被支配的关系,借以确定能够对词语语义构成内在限制的词语。

借助《知网》系统的实体关系,并结合与该岐义词相关联词语的义项,计算歧义词的义项权重,从而根据义项权重大小来判断歧义词的词义。

关键词词义消歧;知网;自然语言处理;依存句法分析1 引言自然语言中存在着大量的多义词,如何在给定的上下文中,确定其中各个词语在多个词义中选取正确的词义,是词义消歧所应解决的问题。

如果多义词的多个词义之间具有不同的词性,则通过词性标注就可以确定该词词义。

所以本文所说的词义消歧,是指如何在词性相同的情况下选择多义词正确词义的问题。

汉语词语的词义消歧开始于上世纪90年代后期,主要是利用词典提供的信息。

出现了利用《现代汉语词典》释义文本、《同义词词林》、《知网》中的语义类,对实词多义进行消歧的方法,但是平均正确率并不是很高[1][2]。

近年来,随着计算机存储容量和运算速度的提高,通过对大规模语料库的利用,出现了许多基于语料库统计的词义消歧方法。

使消歧的准确率有了一定程度的提高,但是有些低频词,在语料中出现次数不多,很难搜集到它们的上下文环境,存在着知识获取中数据稀疏以及自动学习算法的参数空间过大问题。

到目前,无论那种方法都没有很好地解决词义消歧问题[3]。

其中一个重要的原因就是词义知识获取中的瓶颈问题,词义消歧知识库的质量已成为词义消歧成败的关键。

本文提出了一种基于《知网》的汉语词语词义消歧方法,该方法只考虑词汇句法之间的内在关联对特定环境中词义的贡献,借助依存文法分析来找出这种词义关联。

假设不存在词义关联的上下文对于歧义词语的特定词义贡献为0,存在语法关联的上下文对词义的贡献相互独立。

选择与歧义词汇存在语法关联的上下文作为模型中的特征值,这样做既可以减少无关上下文对词义消歧产生的噪音,又可以大幅度减少计算次数,在提高词义消歧准确率的同时,能够明显提高词义消歧的工作效率。

词语相似度计算方法

词语相似度计算方法

词语相似度计算方法分析崔韬世麦范金桂林理工大学广西 541004摘要:词语相似度计算是自然语言处理、智能检索、文档聚类、文档分类、自动应答、词义排歧和机器翻译等很多领域的基础研究课题。

词语相似度计算在理论研究和实际应用中具有重要意义。

本文对词语相似度进行总结,分别阐述了基于大规模语料库的词语相似度计算方法和基于本体的词语相似度计算方法,重点对后者进行详细分析。

最后对两类方法进行简单对比,指出各自优缺点。

关键词:词语相似度;语料库;本体0 引言词语相似度计算研究的是用什么样的方法来计算或比较两个词语的相似性。

词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用,它是一个基础研究课题,正在为越来越多的研究人员所关注。

笔者对词语相似度计算的应用背景、研究成果进行了归纳和总结,包括每种策略的基本思想、依赖的工具和主要的方法等,以供自然语言处理、智能检索、文本聚类、文本分类、数据挖掘、信息提取、自动应答、词义排歧和机器翻译等领域的研究人员参考和应用。

词语相似度计算的应用主要有以下几点:(1) 在基于实例的机器翻译中,词语相似度主要用于衡量文本中词语的可替换程度。

(2) 在信息检索中,相似度更多的是反映文本与用户查询在意义上的符合程度。

(3) 在多文档文摘系统中,相似度可以反映出局部主题信息的拟合程度。

(4) 在自动应答系统领域,相似度的计算主要体现在计算用户问句和领域文本内容的相似度上。

(5) 在文本分类研究中,相似度可以反映文本与给定的分类体系中某类别的相关程度。

(6) 相似度计算是文本聚类的基础,通过相似度计算,把文档集合按照文档间的相似度大小分成更小的文本簇。

1 基于语料库的词语相似度计算方法基于统计方法计算词语相似度通常是利用词语的相关性来计算词语的相似度。

其理论假设凡是语义相近的词,它们的上下文也应该相似。

因此统计的方法对于两个词的相似度算建立在计算它们的相关词向量相似度基础上。

英语翻译软件翻译准确性矫正算法设计

英语翻译软件翻译准确性矫正算法设计

英语翻译软件翻译准确性矫正算法设计黄登娴【摘要】传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低.因此,对英语语言文学中的机器翻译准确性方法进行校对研究.设计基于知网的词汇语义相似度以及对数线性模型,采用汉英依存树到串的方式保存对应的双语语料,对源语言端实施依存结构化处理,确保汉英双语的对应关系,通过知网运算输入需要翻译句子(依存树结构)同实例库内源语言(依存树结构)中词汇的语义相似度.描述了机器翻译中相似实例检索模块以及译文生成模块的实现过程,通过面向数据的翻译模型进一步校对英语语言的准确翻译.实验结果表明,所提方法可得到准确率高的译文,具有较高的准确性和稳定性.【期刊名称】《现代电子技术》【年(卷),期】2018(041)014【总页数】4页(P170-172,177)【关键词】英语翻译软件;机器翻译;翻译准确性;语义相似度;矫正算法;迭代传递;依存树结构【作者】黄登娴【作者单位】中国民用航空飞行学院,四川广汉 618300【正文语种】中文【中图分类】TN912.3-34;TP391.2机器翻译是自然语言操作范围中的关键,具有较高的应用价值。

依据实例的机器翻译是一种经验主义的英语语言文学翻译策略,其无需复杂的深层次语法以及语义的分析,提高了英语语言翻译的效率。

但是基于实例的机器翻译方法对实例库质量的要求较高[1]。

传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低。

针对该问题,本文研究了英语语言文学中的机器翻译准确性方法,塑造并实现基于汉英依存树串实例的机器翻译系统,提高了英语机器翻译的准确性。

1 基础算法与模型1.1 依存树到串模型依存树到串的模型为<D,S,A>,<D,S>是一个翻译对,D表示源语言的依存树,S表示源语言的目标词语串,A用于描述D与S间的词对齐关系[2-3],依据依存树到串双语对齐模型的实例如图1所示。

一种综合事件本体相似度计算方法

一种综合事件本体相似度计算方法

第 8期
朱文跃,等:一种综合事件本体相似度计算方法
·23 33 ·
语法相似度和语义相似度,语义相似度计算借助于《知网》语 义相似度来计算[18]。该模型不仅考虑事件类名称之间的语义 信息,事件类各个要素之间的相似度,还考虑到构建事件本体 时层次结构和非层次结构等信息,相比于传统基于概念的本体 相似度计算,准确度更高。
第 36卷第 8期 2019年 8月
计算机应用研究 ApplicationResearchofComputers
Vol36No8 Aug.2019
一种综事件本体相似度计算方法
朱文跃,刘 炜,刘宗田
(上海大学 计算机工程与科学学院,上海 200444)
摘 要:事件本体相比于传统本体具有更加丰富的语义信息,在面向事件的大数据集成中更具优势,然而用传 统的本体相似计算方法计算事件本体相似度存在很多不足。提出了一种综合的事件本体相似度计算方法。该 方法以词语相似度、集合相似度、层次结构相似计算为基础,然后从事件类名称、事件类要素、事件类层次结构和 非层次结构讨论事件本体的相似度,最终获得事件本体的综合相似度。实验表明该方法相比传统本体相似度计 算方法准确率更高,语义信息更加丰富。 关键词:本体;事件本体;概念相似度;语义;相似度计算;事件本体相似度 中图分类号:TP391 文献标志码:A 文章编号:10013695(2019)08019233206 doi:10.19734/j.issn.10013695.2018.01.0077
place at
palce
action has
action
status has status
language has
language
C2A,C2O,C2T,C2P,C2S,C2L}存在分类关系,当且仅当(E1E2 或 者 E1`= E2且 C1jC2j(j∈{A,O,T,V,P,L}))EC1 称为 EC2 的 下位事件,EC2称为 EC1的上位事件,用 Risa(EC1,EC2)表示。 例如 “地震”和“交通事故”是“突发事件”的下位事件类,可以 表示为 Risa(地震,突发事件),Risa(交通事故,突发事件)。

基于关系运算的汉语词汇语义相关度计算

基于关系运算的汉语词汇语义相关度计算
。 ( D e p a r t m e n t o fMa t h e m a t i c s , Z en h g z h o u T e a c er h ’ s C o l l e g e , Z en h g z h o u 4 5 0 0 4 4 ,H e n a n ,C h i n a )
c o r r e l a t i o n u n d e r d i f f e r e n t c i r c u ms t a n c e s ;F i n ll a y i t p r e s e n t s t h e c o mp u t a t i o n me t h o d o f v o c a b u l a r y’ S s e ma n t i c c o r r e l a t i o n u n d e r d i f e r e n t s i t u a t i o n s a c c o r d i n g t o t h e d i c t i o n a r y i n Ho wNe t .T h i s a p p r o a c h C n a ma k e f u l l u s e o f t h e s e ma nt i c i n f o r ma t i o n i n Ho wNe t i n c o mp u t a t i o n p r o c e s s ,mo r e o v e r ,i t a l s o t a k e s i n t o a c c o u n t t h e ul r e s i mp l i c a t e d b e t we e n t h e s e ma n t i c s .E x p e r i me n t p r o v e s i t t o b e e f e c t i v e . Ke y wo r d s Ho wN e t C o n c e p t u a l g r a p h s S e ma nt i c c o r r e l a t i o n S e ma n t i c r e l a t i o n Re l a t i o n a l o p e r a t i o n s

改进的基于《知网》的词汇语义相似度计算

改进的基于《知网》的词汇语义相似度计算
Ab s t r a c t :T h e p r e s e n t Ho wNe t — b a s e d v o c a b u l a r y s e ma n t i c s i mi l a i r t y c a l c u l a t i o n me t h o d f a i l s t o g i v e d u e a t t e n t i o n t o t h e l i n e a r f e a t u r e o f c o n c e p t u l a d e s c i r p t i o n i n k n o wl e d g e d a t a b a s e ma r k — u p l a n g u a g e .T o r e s o l v e t h i s s h o r t c o mi n g ,a n i mp r o v e d v o c a b u l a r y s e ma n t i c s i mi l a i r t y c a l c u l a t i o n me t h o d wa s p r o p o s e d .F i r s t l y ,f u l l y c o n s i d e r i n g t h e l i n e a r r e l a t i o n s h i p b e t we e n t h e

要: 针对 当前基 于《 知 网》 的词; r - 语义相似度计算方 法没有充分考虑知识库描述语 言对概 念描述 的线性特征
的情 况, 提 出一种改进 的词j r - 语 义相 似度 计算方法。首先, 充分考虑概念描 述式 中各 义原之 间的线性关 系, 提 出一种 位 置相 关的权 重分配策略 ; 然后 , 将所提 出的策略 结合二部 图最 大权 匹配进行概 念相似度计 算。实验结果表 明 , 采用 改进 方法得 到的聚类结果 F值较对比方法平均提 高 了5 %, 从 而验 证 了改进 方法的合理性 和有 效性 。

基于《知网》的语义相似度计算软件使用手册【模板】

基于《知网》的语义相似度计算软件使用手册【模板】

基于《知网》的语义相似度计算软件使用手册1 功能简介本软件是根据[刘群2002]一文中的原理编写的词汇语义相似度计算程序。

主要实现了以下功能:1.1基于交互输入的义原查询、义原距离计算、义原相似度计算1.2基于交互输入的词语义项查询、义项相似度计算、词语相似度计算;1.3基于文件输入的词语义项查询、词语相似度计算;1.4相似度计算中的参数调整。

2 安装说明本软件包一共有四个文件:《基于<知网>的词汇语义相似度计算》软件使用手册.doc:本使用手册《基于<知网>的词汇语义相似度计算》论文.pdf:本软件所依据的论文,采用pdf格式,用Acrobat Reader阅读时需要安装简体中文支持包。

自然语言处理开放资源许可证.doc:本软件包的授权许可证WordSimilarity.zip:程序文件软件安装时,将文件WordSimilarity.zip文件解压缩一个目录下即可,解压缩后有以下几个文件:WordSimilarity.exe:可执行程序;Glossary.dat:《知网》数据文件Semdict.dat:《知网》数据文件Whole.dat:《知网》数据文件必须确保《知网》数据文件在程序执行时的当前目录下。

3 界面说明软件使用简单的对话框界面,如下所示:4 功能说明4.1义原操作4.1.1 义原查询1.首先在“输入1”框中输入义原名称;2.点击“察看义原1”按钮;3.在“义项1”框中将依次显示出该义原及其所有上位义原的编号、中文、英文;类似的方法可以查询“输入2”框中的义原;4.1.2 义原距离计算1.首先在“输入1”和“输入2”框中输入两个义原;2.点击“计算义原距离”按钮;3.在“输出”框中显示两个义原的距离;4.1.3 义原相似度计算1.首先在“输入1”和“输入2”框中输入两个义原;2.点击“计算义原相似度”按钮;3.在“输出”框中显示两个义原的相似度;4.2基于交互输入的词语操作4.2.1 词语义项查询1.首先在“输入1”框中输入要查询的词语;2.点击“察看义项1”按钮;3.在“义项1”框中将依次显示出该词语的所有义项;类似的方法可以查询“输入2”框中的词语义项;4.2.2 义项相似度计算1.首先分别在“输入1”和“输入2”框中输入要计算相似度的两个词语;2.点击“察看义项1”按钮和“察看义项2”按钮;3.在“义项1”框和“义项2”框中将分别显示出这两个词语的所有义项;4.分别在“义项1”框和“义项2”框中点击需要计算相似度的两个词语义项;5.点击“计算义项相似度”按钮;6.在“输出”框中将显示选中的两个义项的相似度;4.2.3 词语相似度计算1.首先分别在“输入1”和“输入2”框中输入要计算相似度的两个词语;2.点击“计算词语相似度”按钮;3.在“输出”框中将显示两个词语的相似度;说明:词语相似度定义为两个词语的所有义项相似度中的最大值。

一种基于知网的语义相关度计算方法

一种基于知网的语义相关度计算方法

文本 特征 , 验结 果表 明,该方法更趋于合理 , 大部 分结果更符合人们 的 日常体验 ,有效 提高 了计 算结果 的 实 绝
精确 度和准确性.
关键 词 : 网 ; 原 ;语义相似度 ; 知 语义相关度
中图分类号 :P0 T 31
收 稿 日期 : 0 0— 3—1 21 0 5
文献标识码 : A
事 件类 义 原结 构 .
e ty 实 体 ni l t

定程 度 的应 用 ; 群 等人 提 出 的方法 可 以解决 刘
同一特 征 文件 中义 பைடு நூலகம் 间 的语义 相 似 度 问题 ,但 不 能
解决 不 同特 征 文件 义原 间 的语 义 相关 性 问题 .李 索 建 将 知 网和 同义 词 词 林 结 合 起 来 计 算 不 同特 征
文件 中词语 的 相似 度 , 一定 程 度 上解 决 了不 同特 在 征 文件 间词 语 的语 义相 关性 , 是 知 网和 同义 词词 但 林词 语 的组 织 方式 完全 不 同 , 以计 算 结 果 不是 很 所 理想 ;许 云 、 广正 等 提 出 了各 自的语 义相 关 王 度计 算 方法 .本文 根据 知 网 …各 个 特征 文 件 中下 位 义原 享 上位 义原 拥有 的属性 ,即 下位 义 原 对 其 上位
张振 幸 ,李 金 厚
( 安徽工业 大学 计算机学 院 , 安徽 马鞍 山 2 30 ) 4 0 2

要: 本文 以知 网理论相似度 计算为基础 ,提出 了一种计 算词语相关度方法 ; 该方法将 知网中不 同特征文 件
间 的 义 原 通 过 其 解 释 义 原 与 其 它 特 征 文 件 中 的 义 原 建 立 联 系 ,进 而 计 算 它 们 之 间 的相 关 度 , 用 该 方 法 提 取 并

基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算
"义原"是用于描述一个"概念"的最小意义单位。
与一般的语义词典(如《同义词词林》,或Wordnet)不同,《知网》并不是简单的将所有的"概念"归结到一个树状的概念层次体系中,而是试图用一系列的"义原"来对每一个"概念"进行描述。
《知网》一共采用了1500义原,这些义原分为以下几个大类:
除了基于实例的机器翻译之外,词语相似度计算在信息检索、信息抽取、词义排歧等领域都有着广泛的应用。
2 词语相似度及其计算的方法
2.1 什么是词语相似度
什么是词语相似度?
我们认为,词语相似度是一个主观性相当强的概念。脱离具体的应用去谈论词语相似度,很难得到一个统一的定义。因为词语之间的关系非常复杂,其相似或差异之处很难用一个简单的数值来进行度量。从某一角度看非常相似的词语,从另一个角度看,很可能差异非常大。
我们的工作主要包括:
1. 研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义原之间的关系,区分其在词语相似度计算中所起的作用;
2. 提出利用《知网》进行词语相似度计算的算法;
3. 通过实验验证该算法的有效性,并与其他算法进行比较。
关键词:《知网》 词汇语义相似度计算 自然语言处理
1. 每一个词的语义描述由多个义原组成,例如"暗箱"一词的语义描述为:part|部件,%tool|用具,body|身,"写信"一词的语义描述为:#TakePicture|拍摄write|写,ContentProduct=letter|信件;
2. 词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通过一种专门的知识描述语言来表示。

基于《知网》词语相似度计算

基于《知网》词语相似度计算

基于《知网》的词语相似度计算[摘要]词语相似度计算是计算机中文处理中的基础和重要环节,目前基于《知网》的词语相似度计算是一种常见的方法,本文将对该方法做系统介绍。

[关键词]《知网》词语相似度计算一、《知网》的结构《知网》(hownet)是我国著名机器翻译专家董振东先生和董强先生创建的,是一个常识知识库,它含有丰富的词汇语义知识以及世界知识,内部结构复杂。

《知网》中两个最基础的概念是“概念”和“义原”。

“概念”是用来描述词语语义。

因为一个词可以含有多个语义,所以一个词需要多个概念来描述。

使用“知识表示语言”对概念进行描述,“知识表示语言”使用的“词汇”便是义原。

《知网》中的不可再分的、最小的意义单位是“义原”,义原用来描述“概念”。

《知网》采用的义原有1500个,它们一共可以分为十类,具体见图1。

知网反映了概念之间、概念属性之间各种各样的关系,总体来说知网描述了16种关系:上下位关系;同义关系、反义关系、对义关系;部件-整体关系;属性-宿主关系;材料-成品关系;施事/经验者/关系;主体-事件关系;受事/内容/领属物等事件关系;工具-事件关系;场所-事件关系;时间-事件关系;值-属性关系;实体-值关系;事件-角色关系;相关关系。

由《知网》的结构得知义原之间组成的不是一个树状结构,而是一个复杂的网状结构。

然而义原关系中最重要的是上下位关系。

所有的“基本义原”以这种上下位关系为基础构成了义原层次体系,叫做义原分类树。

在义原分类树中,父节点义原和子节点义原之间具有上下位关系。

可以通过义原分类树来计算词语和词语之间的语义距离。

二、知网的知识词典知识词典是知网中最基本的数据库。

在知识词典中,每一个概念(概念又称为义项)可以用一条记录来描述。

一条记录含有八项信息,每一项由用“=”连接的两个部分组成,等号左边表示数据的域名,右边是数据的值。

比如下面就是一条描述概念的记录:no=017114w_c=打g_c=ve_c= ~乒乓球,~篮球w_e=playg_e=ve_e=def=exercise|锻炼,sport|体育其中,no表示概念的编号,w_c表示汉语词语,g_c表示汉语词语的词性,e_c表示汉语词语例子,w_e表示英语词语,g_e则表示英语词语词性,e_e表示英语词语例子,def表示概念的定义,通过一个语义表达式来描述。

中国知网查重的原理

中国知网查重的原理

中国知网查重的原理
中国知网是一个文献检索和下载平台,提供了全文检索、查重以及其他多种功能。

其查重的原理是从语义层面进行比对,判断文本之间的相似度。

具体来说,中国知网的查重机制首先会对待检测的文本进行分词,将文本分解成一个个独立的词语,并根据不同的语言特征进行处理。

然后,系统会构建每个词语的语义向量,并将其与数据库中已有的文本进行对比。

在对比过程中,系统会分别计算待检测文本与已有文本之间的相似度得分。

相似度得分主要根据词语的共现频次、词语的语义相似性以及文本的结构特征等因素进行计算。

如果待检测文本与某篇已有文本之间存在较高的相似度得分,则会被判断为存在抄袭嫌疑。

需要注意的是,中国知网的查重机制并不会直接比对标题文本,而是以文本内容为基础进行比对。

这样做的目的是为了避免仅通过标题来判断重复,因为很多情况下,标题相同的文本并不代表整篇文本内容相同。

总的来说,中国知网的查重原理是基于语义相似度的比对,通过对待检测文本进行分析,在语义层面上判断其与已有文本的相似程度,从而识别重复、抄袭等问题。

HowNet

HowNet

汉语词语W1和W2,如果W1有n个义项(概念):S11、
SSS21im2m、,(…我A…,们BS规)1n=定,l,WolgoW2g有p1(p和md(eWc个soc2义m的rim项p相ot(i似n概o(n度念A( A,为)B:,各B))S)个2)1、概S念22的、相…似…
度绝对值的之最大值,W1和W2相式度计算如公式2:
关键词 知网;词语相似度;义原相似度;字典结构;句子相似度
1 引言
相似度的计算是中文信息处理中最为基础和重 度,并在词语定义词典的存储方式做了改进,利用汉
要的工作,它直接决定着某些领域的研究和发展。如 字的编码来组织词典。实验表明:一些区别词的相似
机器翻译、信息检索、自动文摘、自动问答系统等领 度更加合理,且提高了词语的查找速度。本文在计算
本文第2节对相似度进行简单介绍;第3节介绍基 于HowNet的词语相似度的计算;第4节对字典的设计 的改进进行讨论;第5节介绍句子相似度的计算;第6 节实验结果与分析;第7节对全文进行总结与展望。
2 相似度简介
同义词词林、知网、WordNet等);另一类是基于统 计的相似度计算方法(如TF-IDF等)。目前国内,以《知

32 depth(p1) − depth(p2 )
p1, p2 depth (p1) dist(p1,p2 )
Sim( p1, p2 ) = ±
α

基于HowNet句子相似度的计算
的词相似度仍然很大。文献[4] 在文献[2]论文的基础 上,进一步考虑了义原的深度信息,并利用《知网》 义原间的反义、对义关系和义原的定信息来计算词语 相似度。本文借鉴文献[2]、[4]的词语相似度计算方 法,在计算词语的相似度时考虑单义元的否定(义元相 似度取反)、加大符号义元”^”和”~ ” 的权植、对 第一义原有符号”^”的词语相似度的值取反。把词 语相似度的取值范围规定为[-1,+1]之间。若词语的 定义一样,则语义相似度为1;若两个词语的定义相 反,那么其相似度为-1。

基于知网的词汇语义自动分类系统

基于知网的词汇语义自动分类系统

基于知网的词汇语义自动分类系统
卢鹏;孙明勇;陆汝占
【期刊名称】《计算机仿真》
【年(卷),期】2004(21)2
【摘要】词汇语义分类是现代汉语语义研究的重要组成部分.该文介绍的基于知网的词汇语义自动分类系统提供了词汇语义分类的一个新思路.目前该系统的研制已取得实质性成果,在基于知网的语义分类体系上,开发了粗分类模块,对知网提供的6万余条汉语常用词进行语义分类,得到1420个语义等价类;并在此基础上,开发了细分类模块,针对粗分类结果中颗粒度较大的词类,将其进一步细化为适合实际需要的子类.实验结果证明该系统所作的分类在自然语言处理和语言学研究中起到了重要作用.
【总页数】5页(P127-131)
【作者】卢鹏;孙明勇;陆汝占
【作者单位】上海交通大学计算机科学与工程系,上海200030;上海交通大学计算机科学与工程系,上海200030;上海交通大学计算机科学与工程系,上海200030【正文语种】中文
【中图分类】TP391.1;TP301.6
【相关文献】
1.基于语义相似度计算的词汇语义自动分类系统 [J], 李杰;曹谢东;余飞
2.基于知网与搜索引擎的词汇语义相似度计算 [J], 吴克介;王家伟
3.改进的基于《知网》的词汇语义相似度计算 [J], 朱征宇;孙俊华
4.基于知网的词汇语义相似度计算方法研究 [J], 葛斌;李芳芳;郭丝路;汤大权
5.基于知网和同义词词林的词汇语义倾向计算 [J], 黄硕;周延泉
因版权原因,仅展示原文概要,查看原文内容请购买。

基于知识图的汉语词语间语义相似度计算

基于知识图的汉语词语间语义相似度计算

基于知识图的汉语词语间语义相似度计算
张晓孪;张蕾;王西锋
【期刊名称】《计算机工程与应用》
【年(卷),期】2007(043)008
【摘要】语义相似是词语间的基本关系之一,汉语词语间语义相似的研究对于许多自然语言处理的应用具有重要的指导意义.提出了一种基于知识图的词语间语义相似度计算的方法,把知识图这种属于语义网络范畴的知识表示方法应用于汉语信息处理中.实验结果表明该方法对词语间语义相似度计算是有效的.
【总页数】4页(P160-163)
【作者】张晓孪;张蕾;王西锋
【作者单位】西北大学,信息科学与技术学院,西安,710127;宝鸡文理学院,计算机科学系,陕西,宝鸡,721007;西北大学,信息科学与技术学院,西安,710127;西北大学,信息科学与技术学院,西安,710127;宝鸡文理学院,计算机科学系,陕西,宝鸡,721007【正文语种】中文
【中图分类】TP391
【相关文献】
1.汉语词语语义相似度计算研究 [J], 夏天
2.基于知网和知识图的汉语词语语义相似度算法 [J], 张晓孪;王西锋
3.基于语义构词的汉语词语语义相似度计算 [J], 康司辰;刘扬
4.基于《知网》的汉语未登录词语义相似度计算 [J], 张瑞霞;杨国增;吴慧欣
5.基于知识图的汉语词汇语义相似度计算 [J], 张瑞霞;朱贵良;杨国增
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于《知网》的词汇语义相似度计算1刘群†‡李素建†{liuqun,lisujian}@†中国科学院计算技术研究所‡北京大学计算语言学研究所摘要:《知网》是一部比较详尽的语义知识词典。

在基于实例的机器翻译中,词语相似度计算是一个重要的环节。

不过,由于《知网》中对于一个词的语义采用的是一种多维的知识表示形式,这给词语相似度的计算带来了麻烦。

这一点与WordNet和《同义词词林》不同。

在WordNet和《同义词词林》中,所有同类的语义项(WordNet的synset或《同义词词林》的词群)构成一个树状结构,要计算语义项之间的距离,只要计算树状结构中相应结点的距离即可。

而在《知网》中词语相似度的计算存在以下问题:1.每一个词的语义描述由多个义原组成,例如“暗箱”一词的语义描述为:part|部件,%tool|用具,body|身,“写信”一词的语义描述为:#TakePicture|拍摄write|写,ContentProduct=letter|信件;2.词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通过一种专门的知识描述语言来表示。

我们的工作主要包括:1.研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义原之间的关系,区分其在词语相似度计算中所起的作用;2.提出利用《知网》进行词语相似度计算的算法;3.通过实验验证该算法的有效性,并与其他算法进行比较。

关键词:《知网》词汇语义相似度计算自然语言处理1 引言在基于实例的机器翻译中,词语相似度的计算有着重要的作用。

例如要翻译“张三写的小说”这个短语,通过语料库检索得到译例:1)李四写的小说/the novel written by Li Si2)去年写的小说/the novel written last year通过相似度计算我们发现,“张三”和“李四”都是具体的人,语义上非常相似,而“去年”的语义是时间,和“张三”相似度较低,因此我们选用“李四写的小说”这个实例进行类比翻译,就可以得到正确的译文:1本项研究受国家重点基础研究计划(973)支持,项目编号是G1998030507-4和G1998030510。

the novel written by Zhang San如果选用后者作为实例,那么得到的错误译文将是:* the novel written Zhang San通过这个例子可以看出相似度计算在基于实例的机器翻译中所起的作用。

在基于实例的翻译中另一个重要的工作是双语对齐。

在双语对齐过程中要用到两种语言词语的相似度计算,这不在本文所考虑的范围之内。

除了基于实例的机器翻译之外,词语相似度计算在信息检索、信息抽取、词义排歧等领域都有着广泛的应用。

2 词语相似度及其计算的方法2.1什么是词语相似度什么是词语相似度?我们认为,词语相似度是一个主观性相当强的概念。

脱离具体的应用去谈论词语相似度,很难得到一个统一的定义。

因为词语之间的关系非常复杂,其相似或差异之处很难用一个简单的数值来进行度量。

从某一角度看非常相似的词语,从另一个角度看,很可能差异非常大。

不过,在具体的应用中,词语相似度的含义可能就比较明确了。

例如,在基于实例的机器翻译中,词语相似度主要用于衡量文本中词语的可替换程度;而在信息检索中,相似度更多的要反映文本或者用户查询在意义上的符合程度。

本文的研究主要以基于实例的机器翻译为背景,因此在本文中我们所理解的词语相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。

两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低。

相似度是一个数值,一般取值范围在[0,1]之间。

一个词语与其本身的语义相似度为1。

如果两个词语在任何上下文中都不可替换,那么其相似度为0。

相似度这个概念,涉及到词语的词法、句法、语义甚至语用等方方面面的特点。

其中,对词语相似度影响最大的应该是词的语义。

2.2词语相似度与词语距离度量两个词语关系的另一个重要指标是词语的距离。

一般而言,词语距离是一个[0,∞)之间的实数。

一个词语与其本身的距离为0。

词语距离与词语相似度之间有着密切的关系。

两个词语的距离越大,其相似度越低;反之,两个词语的距离越小,其相似度越大。

二者之间可以建立一种简单的对应关系。

这种对应关系需要满足以下几个条件:1) 两个词语距离为0时,其相似度为1;2) 两个词语距离为无穷大时,其相似度为0;3) 两个词语的距离越大,其相似度越小(单调下降)。

对于两个词语W 1和W 2,我们记其相似度为Sim(W 1,W 2),其词语距离为Dis(W 1,W 2),那么我们可以定义一个满足以上条件的简单的转换关系:αα+=),(),(121W W Dis W W Sim (1)其中α是一个可调节的参数。

α的含义是:当相似度为0.5时的词语距离值。

这种转换关系并不是唯一的,我们这里只是给出了其中的一种可能。

在很多情况下,直接计算词语的相似度比较困难,通常可以先计算词语的距离,然后再转换成词语的相似度。

所以在本文后面的有些章节,我们只谈论词语的距离,而没有提及词语的相似度,读者应该知道这二者是可以互相转换的。

2.3 词语相似度与词语相关性度量两个词语关系的另一个重要指标是词语的相关性。

词语相关性反映的是两个词语互相关联的程度。

可以用这两个词语在同一个语境中共现的可能性来衡量。

词语相关性也是一个[0,1]之间的实数。

词语相关性和词语相似性是两个不同的概念。

例如“医生”和“疾病”两个词语,其相似性非常低,而相关性却很高。

可以这么认为,词语相似性反映的是词语之间的聚合特点,而词语相关性反映的是词语之间的组合特点。

同时,词语相关性和词语相似性又有着密切的联系。

如果两个词语非常相似,那么这两个词语与其他词语的相关性也会非常接近。

反之,如果两个词语与其他词语的相关性特点很接近,那么这两个词一般相似程度也很高。

2.4 词语相似度的计算方法词语距离有两类常见的计算方法,一种是根据某种世界知识(Ontology )来计算,一种利用大规模的语料库进行统计。

根据世界知识(Ontology )计算词语语义距离的方法,一般是利用一部同义词词典(Thesaurus )。

一般同义词词典都是将所有的词组织在一棵或几棵树状的层次结构中。

我们知道,在一棵树形图中,任何两个结点之间有且只有一条路径。

于是,这条路径的长度就可以作为这两个概念的语义距离的一种度量。

O L B A a l …… a b 01 02... 01… 01… …… 01 01 02... 01 ... 01 … 01 …… … 01 02…01...01 01 … 01 …… ... 虚线用于标识某上层节点到下层节点的路径图1 《同义词词林》语义分类树形图王斌(1999)采用这种方法利用《同义词词林》来计算汉语词语之间的相似度(如图1所示)。

有些研究者考虑的情况更复杂。

Agirre & Rigau (1995)在利用Wordnet计算词语的语义相似度时,除了结点间的路径长度外,还考虑到了其他一些因素。

例如:1) 概念层次树的深度:路径长度相同的两个结点,如果位于概念层次的越底层,其语义距离较大;比如说:“动物”和“植物”、“哺乳动物”和“爬行动物”,这两对概念间的路径长度都是2,但前一对词处于语义树的较高层,因此认为其语义距离较大,后一对词处于语义树的较低层,其语义距离更小;2) 概念层次树的区域密度:路径长度相同的两个结点,如果位于概念层次树中高密度区域,其语义距离应大于位于低密度区域。

由于Wordnet中概念描述的粗细程度不均,例如动植物分类的描述及其详尽,而有些区域的概念描述又比较粗疏,所以加入了概念层次树区域密度对语义距离的影响。

另一种词语相似度的计算方法是大规模的语料来统计。

例如,利用词语的相关性来计算词语的相似度。

事先选择一组特征词,然后计算这一组特征词与每一个词的相关性(一般用这组词在实际的大规模语料中在该词的上下文中出现的频率来度量),于是,对于每一个词都可以得到一个相关性的特征词向量,然后利用这些向量之间的相似度(一般用向量的夹角余弦来计算)作为这两个词的相似度。

这种做法的假设是,凡是语义相近的词,他们的上下文也应该相似。

李涓子(1999)利用这种思想来实现语义的自动排歧;鲁松(2001)研究了如何如何利用词语的相关性来计算词语的相似度。

Dagan(1999)使用了更为复杂的概率模型来计算词语的距离。

这两种方法各有特点。

基于世界知识的方法简单有效,也比较直观、易于理解,但这种方法得到的结果受人的主观意识影响较大,有时并不能准确反映客观事实。

另外,这种方法比较准确地反映了词语之间语义方面的相似性和差异,而对于词语之间的句法和语用特点考虑得比较少。

基于语料库的方法比较客观,综合反映了词语在句法、语义、语用等方面的相似性和差异。

但是,这种方法比较依赖于训练所用的语料库,计算量大,计算方法复杂,另外,受数据稀疏和数据噪声的干扰较大,有时会出现明显的错误。

本文主要研究基于《知网(Hownet)》的词语相似度计算方法,这是一种基于世界知识的方法。

3 《知网(Hownet)》简介按照《知网》的创造者――董振东先生自己的说法(杜飞龙,1999):《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

《知网》中含有丰富的词汇语义知识和世界知识,为自然语言处理和机器翻译等方面的研究提供了宝贵的资源。

不过,在我们真正试图利用《知网》来进行计算机处理时,发现还是会遇到不少困难。

我们的感觉是,《知网》确实是一座宝库,但另一方面,《知网》的内容又非常庞杂。

尽管《知网》的提供了详细的文档,但由于这些文档不是以一种形式化的方式说明的,很多地方多少显得有些混乱。

当我们阅读这些文档时,很容易一下子陷入大量的细节之中,而很难对《知网》有一个总体的把握。

这使得我们在进行计算的时候觉得很不方便。

因此,我们在试图利用《知网》进行计算的过程中,也在逐渐加深我们对于《知网》的认识,并试图整理出一个关于《知网》的比较清晰的图象。

本节中,我们对于《知网》的描述是按照我们自己的语言来组织的,很多地方加入了我们的理解,并不一定都是《知网》文档中描述。

我们希望通过这种方法,使读者更快地了解《知网》,对《知网》有一个比较清晰而全面的印象。

当然,我们的理解也难免有错误和遗漏之处,欢迎《知网》的作者和其他读者批评指正。

3.1《知网》的结构董振东先生反复强调,《知网》并不是一个在线的词汇数据库,《知网》不是一部语义词典。

在介绍《知网》的结构之前,我们首先要理解《知网》中两个主要的概念:“概念”与“义原”。

相关文档
最新文档