有关中文文本相似度研究的文献综述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

有关中文文本相似度研究的文献综述
摘要随着近年来知识自动化、机器学习和人工智能等领域研究和应用的逐步深入，作为与这些领域相关的基础研究课题之一，文本相似度计算的重要性日益凸显。

由于汉语书写的特点，导致中文文本相似度计算较英语等其他自然语言的处理又更加复杂。

本文在对近二十年来被引证次数较多的一些相关文献进行分析研究的基础上，从词语、句子、段落及篇章等层面，着重基于语义理解的方法，对汉语文本相似度计算研究的情况进行了综述。

关键词文本相似度计算;文献综述
文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测、自然语言处理、自动应答等领域都有着广泛的应用，是相关领域的基础研究课题之一，正在被越来越多的研究人员所关注。

文本相似度计算主要采用基于统计学和基于语义理解这两类方法。

其中基于统计学的计算方法包括向量空间模型、广义向量空间模型、隐性语义索引模型、基于屬性论的方法、基于海明距离的计算方法、基于数字正文的重构方法等;而中文语义理解又可分为基于知网、同义词词林、中文概念词典等不同的语义知识库。

相比而言，基于统计学的计算方法，需要大规模语料库的支持和长时间的训练过程，具有一定的局限性;而基于语义理解的相似度计算方法不需要大规模语料库的支持，也不需要长时间的训练，具有准确率高的特点[2]。

另一方面，根据计算的层级不同，文本相似度计算又可分为词语相似度、句子相似度、段落及篇章相似度。

1 词语相似度计算
1.1 基于知网的词语相似度计算
知网（HowNet）是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

在知网中，词汇语义的描述被定义为义项（概念），每一个词可以表达为几个义项。

义项又是由一种知识表示语言来描述的，这种知识表示语言所用的词汇称作义原。

与一般的语义词典（如同义词词林或WordNet）不同的是，知网语义树并不涵盖所有词语，而是将描述词汇语义的义原用树状结构组织起来，并根据义原之间的属性关系分为多棵义原树，树与树之间又存在一定的关系，从而形成知网所具有的网状知识结构。

相比词汇的规模，知网的义原数量很少，只有1500多个，但其组合起来可以表达数以万计的词语[2]。

刘群和李素建提出了利用知网进行词语相似度的计算方法，指出基于知网的网状知识结构特点，可以将词语的相似度计算转化为义原的相似度计算，即通过计算两个待比较义原在义原树结构的距离来确定相似度，从而提高计算效率，并给出了词语相似度的计算公式[1]。

金博等在此基础上对义原相似度计算公式进行了改进，引入了表征两个义原在义原树中深度的相对位置影响因子。

进而将词语相似度计算方法推广到句子及段落的相似度计算，并通过实验对该算法进行了
验证[2]。

此后，王小林[3]、张亮[4]、林丽[5]、江敏[6]等分别提出了类似或改进后的算法。

1.2 基于同义词词林的词语相似度计算
同义词词林是梅家驹等于1983年编纂而成，该词典把词语按大类、中类、小类三层编码形成树状结构，每个小类的词语按词义远近和相关性分成若干词群（段落），每个段落的词语进一步分成若干行，同一行词语要么是词义相同或相近，要么是有很强相关性，共收录词语53859条。

此后，哈工大信息检索研究室在此基础上，经扩充新词汇、剔除罕用词，并于2004年公开了收录有77343条词语的同义词词林扩展版。

2014年哈工大正式发布了大词林。

作为开放域知识图谱，大词林是一种自动从网络中爬取实体及实体的概念，以形成基于上下位关系的通用知识图谱。

这意味着，如果用户输入的词语不被大词林所包含，大词林即会实时地到互联网上去搜索，以自动挖掘该词语的上位概念词，并将这些上位概念词整理为层次结构。

田久乐和赵蔚提出了一种基于同义词词林的词语相似度计算方法并给出了相应的计算公式。

该首先利用同义词词林结构中的义项编号，根据两个义项的语义距离并考虑该词语所在树的分支密度影响，计算出义项相似度;然后再把两个词语的各个义项分别两两计算，取其中最大值作为两个词语的相似度值。

经测试并与基于知网的算法比较，两种算法的计算结果基本一致，且与人们思维中的相似度值基本一致[7]。

此后吕立辉[8]、刘端阳[9]、朱新华[10]、陈宏朝[11]等分别提出了类似或改进后的算法。

2 句子相似度计算
句子相似度计算不仅包括语义关系的辨别，还包括句子结构的辨别等问题，通过对句子结构的分析及词语相似度计算，可以计算句子相似度。

但由于汉句子中，词与词之间没有明显的分割符号。

因此句子相似度计算的第一步就是，把句中的汉字分割为合理的词语序列即汉语分词，并完成语义消歧（排除歧义）、词性标注等工作。

从1983年第一个实用分词系统CDWS诞生开始，国内外学者在汉语分词方面进行了广泛的研究，提出了很多有效的算法。

大致可分为两大类：第一类是基于语言学知识的规则方法，如：各种形态的最大匹配、最少切分方法以及综合了最大匹配和最少切分的N—最短路径方法，还有的研究者引入了错误驱动机制，甚至是深层的句法分析;另一类是基于大规模语料库的机器学习方法，如：N元语言模型、信道—噪声模型、最大期望、隐马模型等统计模型，这也是目前应用比较广泛、效果较好的解决方案。

而在实际的分词系统中，往往是规则与统计等多类方法的综合。

一方面，规则方法结合使用频率，形成了可训练的规则方法;另一方面，统计方法往往会自觉不自觉地采用一些规则排除歧义、识别数词、时间及其他未登录词[12]。

在汉语分词研究方面具有代表性的是，刘群和张华平等针对该问题，引入了
层叠隐马尔可夫模型（cascaded hidden Markov model，CHMM），将汉语分词、切分排歧、未登录词识别、词性标注等词法分析任务融合到一个相对统一的理论模型中。

具体过程如下：首先采取N-最短路径粗分方法，快速地得到能覆盖歧义的最佳N个粗切分结果;随后采用两层隐马模型（hidden Markov model，HMM），在粗分结果集上，用低层隐马模型识别出普通无嵌套的人名、地名，并依次采取高层隐马模型识别出嵌套了人名、地名的复杂地名和机构名;然后识别并计算出未登录词的概率，进而将未登录词的概率加入到二元切分词图中，运用基于类的隐马模型切分方法，实现了未登录词和普通词的统一竞争和筛选;最后在全局最优的分词结果上进行词性的隐马标注[12]。

中科院计算所在此理论基础上开发了汉语词法分析系统ICTCLAS，并得到了广泛的应用。

李彬等提出利用句法分析器对句子依存关系进行分析并确定两个句子中有效搭配对，然后利用基于知网的语义相似度计算方法，通过计算有效搭配对中词语的相似度来确定句子的相似度[13]。

李茹等提出了在句子依存关系分析的基础上，利用框架语义分析来计算句子相似度的方法[14]。

刘宝艳等提出了一种基于改进编辑距离和依存文法相结合的汉语句子相似度计算方法[15]。

金博等提出，在应用ICTCLAS系统对句子进行分词处理后，根据实词的属性基于知网语义分别计算两个待比较句子中各个词性集合中实词的词语相似度，然后对各词性集合的词语相似度结果进行加权计算，从而得出句子的相似度。

这种方法跳了过句法分析的难点，通过对实词集合的相似度计算，使得句子相似度的计算更为有效[2]。

此外，吕学强[16]、王荣波[17]、杨思春[18]、周法国[19]等基于统计学方法分别提出了各自的句子相似度计算公式。

而张玉娟[20]、周舫[21]、程传鹏[22]等则在综合统计学和语义分析方法的基础上，提出了各自的句子相似度计算公式。

3 段落及篇章相似度计算
段落及篇章相似度的计算方法有很多种，较为常见的是基于词频统计和字符串匹配。

如金博等针对学术论文等篇章结构规范且相对固定的文本，提出了一种论文抄袭检测方法。

该方法通过篇章结构分析，针对不同结构部分采用不同的检测方法。

针对正文和摘要部分采用基于词频统计和向量空间模型的算法，其中正文部分则将段落为文本块，依次计算每一段落与论文库中所有段落的相似度，然后通过加权平均给出正文部分的相似度;针对标题采用数字指纹方法计算相似度;而针对文章发表时间、作者、关键词、中图分类号及参考文献部分则直接采用否决函数来进行判断，从而有助于提高识别效率[23]。

同时，金博等又提出了一种基于语义的段落相似度计算方法。

即把段落视为句子的集合，进而将基于知网的词语和句子相似度计算方法推广到段落的相似度计算，并给出了两个段落中句子最大相似度组合的计算公式[2]。

唐果[24]、孙润志[25]、严春梅[26]等则将基于语义理解和向量空间模型结合在一起，提出了各自的相似度算法。

参考文献
[1] 刘群，李素建.基于《知网》的词汇语义相似度计算[C].第三届汉语词汇语义学研讨会.第三届汉语词汇语义学研讨会论文集.台北：汉语词汇语义学研讨会，2002：59-76.
[2] 金博，史彦军，滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报，2005，（02）：291-297.
[3] 王小林，王义.改进的基于知网的词语相似度算法[J].计算机应用，2011，31（11）：3075-3077，3090.
[4] 张亮，尹存燕，陈家骏.基于语义树的中文词语相似度计算与分析[J].中文信息学报，2010，24（06）：23-30.
[5] 林丽，薛方，任仲晟.一种改进的基于《知网》的词语相似度计算方法[J].计算机应用，2009，29（01）：217-220.
[6] 江敏，肖诗斌，王弘蔚，等.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报，2008，（05）：84-89.
[7] 田久乐，赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版），2010，28（06）：602-608.
[8] 吕立辉，梁维薇，冉蜀阳.基于词林的词语相似度的度量[J].现代计算机（专业版），2013，（01）：3-6，9.
[9] 刘端阳，王良芳.结合语义扩展度和词汇链的关键词提取算法[J].计算机科学，2013，40（12）：264-269，291.
[10] 朱新华，马润聪，孙柳，等.基于知网与词林的词语语义相似度计算[J].中文信息学报，2016，30（04）：29-36.
[11] 陈宏朝，李飞，朱新华，等.基于路径与深度的同义词词林词语相似度计算[J].中文信息学报，2016，30（05）：80-88.
[12] 刘群，张华平，俞鸿魁，等.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展，2004，（08）：1421-1429.
[13] 李彬，刘挺，秦兵，等.基于语义依存的汉语句子相似度计算[J].计算机应用研究，2003，（12）：15-17.
[14] 李茹，王智强，李双红，等.基于框架语义分析的汉语句子相似度计算
[J].计算机研究与发展，2013，50（08）：1728-1736.
[15] 刘宝艳，林鸿飞，赵晶.基于改进编辑距离和依存文法的汉语句子相似度计算[J].计算机应用与软件，2008，（07）：33-34，47.
[16] 吕学强，任飞亮，黄志丹，等.句子相似模型和最相似句子查找算法[J].东北大学学报，2003，（06）：531-534.
[17] 王荣波，池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报，2005，（01）：21-29.
[18] 杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报，2006，（06）：956-959.
[19] 周法国，杨炳儒.句子相似度计算新方法及在问答系统中的应用[J].计算机工程与应用，2008，（01）：165-167，178.
[20] 张玉娟.基于《知网》的句子相似度计算的研究[D].北京：中国地质大学（北京），2006.
[21] 周舫.汉语句子相似度计算方法及其应用的研究[D].开封：河南大学，2005.
[22] 程传鹏，吴志刚.一种基于知网的句子相似度计算方法[J].计算机工程与科学，2012，34（02）：172-175.
[23] 金博，史彦军，滕弘飞.基于篇章结构相似度的复制检测算法[J].大连理工大学学报，2007，（01）：125-130.
[24] 唐果.基于语义领域向量空间模型的文本相似度計算[D].昆明：云南大学，2013.
[25] 孙润志.基于语义理解的文本相似度计算研究与实现[D].北京：中国科学院研究生院（沈阳计算技术研究所），2015.
[26] 严春梅.向量空间模型与语义理解相结合的论文相似度算法研究[D].成都：西南交通大学，2015.。