基于HowNet的词汇语义相关度计算方法研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于HowNet的词汇语义相关度计算方法研究
摘要:本文在充分挖掘词汇间隐含语义关系的基础上,基于语义关系对语义关联度的影响,将语义相似度以及语义关联度相结合提出了语义相关度算法,并通过实验证明,使用该计算方法得出的语义相关度,能够更精确地区分词汇间的细微语义差别,计算结果更趋于合理化。
关键词:HowNet 语义相似度语义相关度语义关系
1、引言
词汇相似度反映了两个词汇相互关联的程度,即词汇间的组合特点,可以利用两个词汇在同一语言环境中的可替换程度来衡量。目前,词汇相似度的计算方法主要有基于统计的方法和基于语义词典的方法两种,但这两种方法在实现中都存在不足。本文充分挖掘出HowNet中丰富的语义关系,在计算了词汇的语义相关度以及语义关联度的基础上,提出一种基于HowNet的词汇语义相关度计算方法,使计算结果更趋于合理化。
2、基础知识
2.1 HowNet简介
HowNet是一个以中英文词汇所代表的概念为描述对象,以揭示概念之间以及概念的属性之间的关系为基本内容的常识知识库。它采用知识词典的描述语言(Knowledge Dictionary Mark-up Language,KDML),将词语表示为几个“概念”,即利用“概念”对词汇的语义进行描述。组成“概念”的最小意义单位称为义原语义描述式,由义原以及某些表达概念语义的符号组成,有基本义原描述式和关系义原描述式两种形式。
2.2 概念之间的隐含语义关系
概念的基本义原描述式展示了概念的基本信息,而关系义原描述式则表达了概念与其它义原间的复杂关系,我们可以根据这些关系挖掘出隐含在两个概念之间的复杂语义关系。笔者对HowNet关系以及关系义原描述式进行了仔细研究比较,概括出了概念之间的八个语义关系,如表1所示。
3、语义相关度计算
两个词汇语义相似度高,它们的语义相关度必定较高,如“医生”与“患者”;反之两个语义相关度高的词语,却不一定有很高的相似度,如“医生”与“医治”。因此词汇间语义相关度是由语义关联度以及语义相似度两方面共同决定。
5、结语
本文提出的基于HowNet的词汇语义相关度计算的方法,充分利用了HowNet中隐含的语义信息,结合语义相似度的算法来进行词汇间的关联度计算。此算法更符合实际情况,实用性强,可对自动问答系统中的文本聚类、文本分类、信息检索等研究工作提供有效的支持。
参考文献
[1] 田萱,杜小勇,李海华.语义查询扩展中词语-概念相关度的计算[J].软件学报,2008,19(8):2043-2053.
[2] 刘群,李素建.基于《知网》的词汇语义相似度计算[J].计算语言学及中文信息处理,2002(7):59-76.
[3] 江敏,肖诗斌,王弘蔚.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89.
[4] 龚永恩,袁春风,武港山.基于语义的词义消歧算法初探[J].计算机应用研究,2006,23(3):41-43,52.
[5] LI Su-jian.Research of relevancy between sentences based on semantic computation[J].Computer Engineering and Applications,2002,38(7):75-76.