词汇语义相似度算法研究及应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
词汇语义相似度算法研究及应用
摘要:介绍了当前国内外有关词汇语义相似度算法的研究现状,分析并对比了几种具有代表性的计算方法,并将几种常用的词汇语义相似度算法应用于FAQ中,分别采用准确率、召回率、F值以及MRR、MAP5个指标进行评价,根据相似问句的检索效果判断各词语相似度算法的优劣。
关键词:语义相似度;FAQ;VSM;HowNet
0 引言
词汇的语义相似度在自然语言处理领域有着不可替代的意义和作用。然而词汇之间的语义关系是非常复杂的,使用一个简单的数值很难来度量词汇之间含义的相似程度。同样的一对词语,在一方面看可能非常相似,但是换个角度就可能相差甚远。所以,研究词语语义相似度离不开具体的应用背景,例如,在机器翻译应用中,词汇语义相似度用来衡量中文和英文文本中,中文单词与中文词语之间是否可替换;而在信息检索中,词汇语义相似度要体现用户查询所使用的关键词与用户实际查询目的在语义上是否一致。
1 词语相似度研究现状
词语相似度主要分为基于语义本体资源、基于统计算法和将前两者融合的混合技术3种方法:利用语义资源计算词语相似度也可称为基于本体(或知识库)的词语相似度算法,主要根据专家人工建立的语义网络计算相似度。利用统计技术计算词语间语义相似度采用的是
无监督的机器学习算法,分为基于大规模语料库和基于普通词典等方法。混合技术则结合统计技术和语义资源,取长补短,提高相似度计算的正确率。
1.1 基于语义资源的词语相似度算法
近年来,一些诸如同义词词林、WordNet、知网这种大规模可量化的语言本体的诞生与发展,为进行真实文本的语义分析和理解提供了强有力的资源支持。特别是最近几年“知网”等语义资源不断丰富发展,中文语义研究方向逐渐增多。知网作为一个知识系统,是一个网而不是树,它主要反映概念的共性和个性,同时知网还着力反映概念之间和概念属性之间的各种关系。而词语DEF之间的路径距离则代表了词汇语义的聚合程度。
1.2 基于统计的语义相似度算法
基于统计的语义相似度方法建立在如果两个词语的含义相同或相近,则伴随它们同时出现的上下文也相同或相近。该方法主要以词语的上下文信息的概率分布作为相似度参考,计算的方法主要包含有向量空间模型(VSM)、词语共现信息、基于部分语法分析和改进的基于大规模语料库的方法。
1.3 基于混合技术的语义相似度算法
基于大规模语料统计的算法相对专家手工建立的语义资源更加客观,但每种统计模型的创建都受语料库中数据质量的极大干扰,如不可避免的数据稀疏和数据噪声都直接影响最终的相似度计算结果。基于语义资源的算法执行起来简单有效,但语义资源建设需要专业人
士耗费人力物力,同时严重受建设者的主观意识影响。所以,一种语义与统计相融合的词语相似度算法应运而生,通过发挥两种算法各自的优势进行词汇间的语义相似度的计算。混合算法能够利用本体知识对稀疏数据进行扩充,从而在一定程度上解决数据稀疏的问题。
2 词语相似度应用实验
FAQ即常见问题库,它一般作为自动问答系统的子部分存在。比如“百度知道”,每当用户输入一个问题时,首先可以查找与之相似的问题及其对应的答案。所以FAQ主要用来搜集用户提问频率较高的问题,并将它对应的答案一起进行存储。当用户需要输入一个新的查询问题时,FAQ首先可以在搜集存储的常见问题库中查找与其相似的问题,如果找到了相同的问句,就将该问句的相关答案抽取出来,并作为最终答案返回给用户。但是由于汉语表现形式的多样性,同样一个问题往往有多种表现形式,因此在FAQ中很难查找到一模一样的问句。在FAQ中进行问答行为的过程,实际是计算用户提交问句与常见问题库中问句间句子语义相似程度的过程。
本文为实现FAQ查询功能,采用向量空间模型(VSM)计算用户提交问句与常见问题库中问题例句间的相似程度,而句子相似度的计算依赖于词汇语义之间的相似度,本文使用基于语义(知网)、基于统计(上下文点互信息)和语义统计相融合的相似度算法作为词汇语义的权值,通过VSM算法计算句子间相似程度,并对其进行对比实验,最终根据FAQ中检索的相似问句效果来比较上述算法间的优劣。
2.1 基于向量空间模型的句子相似度算法
向量空间模型(Vector Space Model,简称VSM)最初用在信息检索(IR)中用来对用户查询和语料库文档建模,如今已经得到了广泛的应用,如在句子或文档的表示中,就是通过句子中去掉停用词后剩下的有效词来构成向量空间,然后在该向量空间中将待计算的句子进行向量化,以两个向量夹角的余弦值作为句子之间的相似度度量。
2.2 实验方法
本文选择从百度知道“生活类别”下数据内容较广的美容塑身类别中采集10个常见问题,组成领域问答库。
3 结语
从第6个问题(S-6)“嘉和的智能止鼾器效果怎么样?”可以看出,基于统计的词语相似度受制于训练语料的规模,由于数据稀疏(止鼾器出现次数很少),由统计方法计算“止鼾器”的结果不理想,而基于语义的词语相似度算法可以得到较好的效果;从第三个问题(S-3)“直肠癌化疗后掉头发怎么办?”可以看出,单纯的基于语义计算词语相似度则完全依赖语义资源,语义词典中“直肠癌”与“头发”的相似度较低,而基于统计的词语相似度算法则能给出较高的相似度值。可见,将两者融合能有效地克服各自算法的缺点,给出更加合理的词语相似度数值。
参考文献:
[1] 董振东,董强.知网[EB/OL].http://,2002.
[2] 刘群,李素建.基于知网的词汇相似度计算[EB/OL].http:
//,2002.
[3] PETER D TURNEY.Similarity of semantic relations[J].Computational Linguistics Journal,2006(3).
[4] PETER D TUNREY.Mining the web for synonyms:pmiir versus lsa on toefl[C]//Proceedings of The 12th European Conference on Machine Learning.Freiburg,2001.
[5] DERRICK HIGGINS.Which statistics reflects semantics.rethinking synonymy and word similarity[A],Proceedings of International Conference on Linguistic Evidence[C],Ttibingen,2004(1).