基于汉字笔画的汉语短文本相似度检测方法及系统与相关技术
文本相似度的计算方法
文本相似度的计算方法嘿,咱今儿就来说说这文本相似度的计算方法。
你想啊,这世界上的文本那可真是多得像天上的星星一样,那怎么来判断它们之间有多相似呢?其实啊,就跟咱平时认人似的。
咱看一个人,会看他的长相、身材、穿着打扮啥的,来判断是不是咱认识的那个。
文本相似度的计算也差不多是这么个道理。
比如说,最简单的一种方法就是直接看字词。
就好比两个人,都穿了一样颜色的衣服,那是不是就有点相似啦?文本里要是有很多相同的字词,那相似度可能就会高一些。
再复杂点呢,还得考虑字词出现的频率。
好比一个人总爱穿红衣服,另一个偶尔穿穿,那感觉还是不太一样吧?字词在文本里出现的频率高,那重要性可能就更大,对相似度的影响也就更大。
还有呢,句子的结构也很重要啊!如果两个文本的句子结构都差不多,那不是也挺像的嘛。
就像两个人走路的姿势都很像,那你可能就会觉得他们有点关联。
这还不算完,语义也是得考虑进去的。
有些词虽然不一样,但是意思差不多呀,这也能说明有相似之处呢。
就好像说“高兴”和“开心”,虽然字不同,但表达的意思很接近呀。
计算文本相似度可不像咱想象的那么简单哦!这可不是随便看看就能搞定的事儿。
得像个细心的侦探一样,一点点去分析、去比较。
那有人可能会问了,算这个文本相似度有啥用呢?用处可大啦!比如说在查重的时候,看看有没有抄袭的情况。
要是两篇文章相似度太高,那是不是得引起注意呀?还有在信息检索的时候,能帮我们更快地找到相似的内容呢。
咱再想想,要是没有这些计算方法,那不是乱套啦?到处都是重复的内容,咱找个有用的信息得多费劲呀!所以说呀,这文本相似度的计算方法可真是个好东西。
总之呢,文本相似度的计算方法就像是一把钥匙,能打开文本世界里的各种秘密。
它让我们能更好地理解和处理那些海量的文本信息,让一切都变得更加有序和清晰。
你说它重不重要?它可太重要啦!咱可得好好研究研究这些方法,让它们为我们服务,让我们的文本世界更加精彩!。
中文文本相似度计算与应用研究
中文文本相似度计算与应用研究中文文本相似度计算与应用研究摘要:随着互联网时代的到来,中文文本的数量和种类呈现爆炸式增长。
在海量的中文文本数据中,如何高效地计算文本之间的相似度,成为信息检索、推荐系统和自然语言处理等领域中一个重要的问题。
本文主要讨论中文文本相似度计算的方法和应用,并对当前的研究状况进行综述和总结。
关键词:中文文本;相似度计算;信息检索;推荐系统;自然语言处理第一章引言1.1 研究背景和意义随着互联网时代的到来,中文文本的数量和种类呈现爆炸式增长。
无论是社交媒体的评论、新闻报道的文章还是电子商务的商品描述,中文文本都在我们的生活中扮演着重要角色。
然而,对于人工智能应用和信息检索等领域,如何高效地计算中文文本之间的相似度仍然是一个有待解决的问题。
1.2 相关研究概述中文文本相似度计算是自然语言处理领域的一个热门研究方向。
在过去的几十年中,学者们提出了各种不同的方法来计算文本之间的相似度。
其中,基于词袋模型和基于语义模型的方法是最常见的两种方法。
第二章中文文本相似度计算的方法2.1 基于词袋模型的相似度计算词袋模型是一种简单而有效的文本表示方法,它将一个文本看作是单词集合的无序组合。
在基于词袋模型的相似度计算方法中,首先需要对中文文本进行分词,然后统计文本中每个单词的频次。
接下来,通过计算两个文本之间的词频向量的余弦相似度,即可得到它们之间的相似度。
2.2 基于语义模型的相似度计算与词袋模型不同,语义模型通过考虑单词的语义信息来表示文本。
在基于语义模型的相似度计算方法中,首先需要构建一个词语之间的语义关系图。
接着,根据两个文本在语义关系图上的位置和边的权重信息,计算它们之间的相似度。
第三章中文文本相似度计算的应用3.1 信息检索信息检索是在大规模文本数据中根据用户查询来检索相关文档的过程。
在信息检索中,中文文本相似度计算可以被用来评估查询与文档的匹配程度,以便返回排名较高的相关文档。
3.2 推荐系统推荐系统是通过分析用户的历史行为和个人偏好,向用户推荐可能感兴趣的产品或内容。
基于笔端形状相似性的汉字字体识别的开题报告
基于笔端形状相似性的汉字字体识别的开题报告一、问题背景汉字是中文书写的基本单位,汉字字体丰富多样,不同字体会给人带来不同的感受和印象。
在计算机图像处理和文本识别领域,汉字字体识别一直是一个重要的问题。
字体识别可以应用于字体分类、OCR等领域,具有广泛的应用前景。
目前,字体识别的研究主要采用了深度学习的方法。
但是传统的基于笔画的方法仍然具有一定的优势。
传统方法基于笔画的形状进行特征提取和模式识别,相对于深度学习方法而言较为简单,运算量较小,适合于小规模的数据集和普通的计算机硬件。
因此,本文将探讨利用传统的基于笔画的方法进行汉字字体识别的可能性。
二、问题描述本文将研究基于笔段形状相似性的汉字字体识别方法。
具体来说,我们将探究如何从汉字的笔画中提取出与字体有关的特征,并将这些特征应用于识别汉字的字体。
具体研究内容如下:1. 研究汉字笔画形状的特点,了解不同字体的笔画特征和形态差异。
2. 探究如何从汉字笔画中提取特征,特别是侧重于笔段的形态特征,如笔段的长度、角度、弯曲程度等。
3. 构建适合于基于笔画的汉字字体识别模型,包括特征提取和模型训练及测试等步骤。
4. 在现有的汉字字体数据集上进行实验,评价模型的识别准确率和稳定性,并与现有的深度学习方法进行对比。
三、研究意义本文将探究基于笔段形状相似性的汉字字体识别方法,其具有以下研究意义:1. 为了更好地理解汉字的形态和笔画特征,本文将研究和分析汉字笔画的形状和结构规律,为汉字字体识别和相关领域的研究提供基础知识。
2. 本文将探究基于笔画的特征提取方法,并构建基于这些特征的识别模型,为基于传统方法的汉字字体识别提供新思路和方法。
3. 与现有的深度学习方法相比,本文提出的基于笔画的方法具有计算量小、数据处理简单等优点,可以在低配置的计算机上运行,具有一定的实用性和应用前景。
四、研究方法本文的研究方法主要包括以下步骤:1. 数据集获取:从现有的汉字字体数据集中选择适合的数据集,包括符合研究要求的字体和字体数据。
基于相似度的手写汉字笔划鉴别方法实验研究
基于相似度的手写汉字笔划鉴别方法实验研究
白晓东;姜杰;邓红静;李艺
【期刊名称】《实验室研究与探索》
【年(卷),期】2015(034)012
【摘要】针对手机和平板电脑上手写汉字主流的xml存储格式,提出了一种对识别用户手写汉字笔划的算法.算法首先从三种结构特征对手写汉字进行编码,然后计算
用户字笔划、模板字笔划之间不同编码集合的相似度,最后组合多种相似度识别手
写汉字的笔划,并通过三种应用实验验证方法的有效性.笔顺的判别一直是手写汉字
识别的难点,文章中提出的方法笔顺的识别率高达95%以上.此算法在用户字的多笔、少笔判别、笔顺判别、整字的正确性以及美观性判别等方面都有着广泛的应用.【总页数】6页(P132-136,167)
【作者】白晓东;姜杰;邓红静;李艺
【作者单位】南京师范大学计算机科学与技术学院,江苏南京210023;江苏省信息
安全保密技术工程研究中心,江苏南京210097;南京师范大学教育科学学院,江苏南
京210023;南京师范大学教育科学学院,江苏南京210023;南京师范大学教育科学
学院,江苏南京210023
【正文语种】中文
【中图分类】HP311
【相关文献】
1.基于笔划方向特征和非对称分布的手写体汉字识别 [J], 李国宏;施鹏飞
2.基于形状分割的手写汉字笔划提取方法 [J], 袁媛;刘文才
3.基于笔划包围盒的脱机手写体汉字分割算法 [J], 王宏志;姜昱明
4.基于笔划宽度提取的手写体汉字归一化方法 [J], 王建平;蔺菲
5.联机手写体汉字识别中的笔划分类及笔划识别 [J], 余楚中;赵学军
因版权原因,仅展示原文概要,查看原文内容请购买。
信息检索中的文本相似度计算方法研究与应用
信息检索中的文本相似度计算方法研究与应用摘要:随着互联网的迅速发展和信息爆炸的时代,信息检索已成为我们获取和管理海量信息的关键技术。
而文本相似度计算作为信息检索的核心之一,对于提高搜索和推荐系统的准确性和效率起到重要作用。
本文将介绍信息检索中常用的文本相似度计算方法,分析其优缺点,并讨论其在实际应用中的研究和发展。
1. 引言在互联网时代,人们每天都接触大量的文本信息,诸如新闻、博客、社交媒体等。
如何从海量的文本中准确、快速地找到所需的信息成为了一项重要的挑战。
信息检索系统是解决这一问题的关键技术之一,其核心是通过计算文本相似度来评估文本之间的相关性。
2. 文本相似度计算方法2.1 词袋模型(Bag-of-Words Model)词袋模型将文本表示为词的无序集合,忽略了单词之间的顺序和语法结构,只关注词语的出现频率。
计算文本相似度时,可以使用余弦相似度或欧氏距离等算法。
2.2 向量空间模型(Vector Space Model)向量空间模型将文本表示为高维特征空间中的向量,每个维度代表一个词的权重。
通过计算向量之间的余弦相似度来衡量文本的相似度。
此方法较好地解决了词袋模型中忽略语义信息的问题。
2.3 基于词嵌入的方法(Word Embedding)基于词嵌入的方法通过将词语映射到低维向量空间中,学习到了词语之间的语义关系。
通过计算词向量的相似度,可以反映文本之间的相似度。
例如,Word2Vec、GloVe等模型在此领域取得了显著的成果。
3. 文本相似度计算的应用3.1 信息检索与搜索引擎搜索引擎是信息检索的重要应用,文本相似度计算在搜索引擎中发挥着关键作用。
通过计算用户查询与文档之间的相似度,搜索引擎可以快速准确地匹配相关文档。
3.2 推荐系统基于文本相似度计算,推荐系统可以为用户提供个性化的推荐内容。
通过分析用户历史行为和文本内容的相似度,推荐系统能够推荐用户感兴趣的内容,提高用户体验。
3.3 文本分类与情感分析文本相似度计算在文本分类和情感分析任务中也得到了广泛应用。
基于语义的相似文本搜索方法、系统、设备和存储介质[发明专利]
专利名称:基于语义的相似文本搜索方法、系统、设备和存储介质
专利类型:发明专利
发明人:卓民,杨楠
申请号:CN202010843746.4
申请日:20200820
公开号:CN111949765A
公开日:
20201117
专利内容由知识产权出版社提供
摘要:本发明实施例公开了一种基于语义的相似文本搜索方法、系统、设备和存储介质。
该方法包括:获取目标文本;将所述目标文本进行拆分以得到多个第一拆分文本;在基于预设数据库生成的语义特征表中查找到每个所述第一拆分文本的第一语义特征;获取所述目标文本的目标语义特征,所述目标语义特征为多个所述第一拆分文本的第一语义特征的平均值;根据所述目标语义特征从所述预设数据库中获取与所述目标文本相似的相似文本。
本发明实施例实现了结合语义提高相似文本搜索的准确性。
申请人:深圳市卡牛科技有限公司
地址:518000 广东省深圳市南山区粤海街道高新区南区科技南十二路金蝶软件园B栋602室国籍:CN
代理机构:北京品源专利代理有限公司
代理人:潘登
更多信息请下载全文后查看。
中文文本相似度计算方法的综述
中文文本相似度计算方法的综述随着互联网技术的不断发展和应用,文本信息量的增加已经到达了惊人的程度。
这些信息既有新闻报道、商业信息,也有用户发表的评论、社交网络上的互动交流等。
而在这些海量的文本信息中,如何找到相似的文本,不仅能够节省人力查找,还可以帮助我们更好地理解和分析信息。
中文文本相似度计算方法因此应运而生,成为了文本处理领域的重要研究内容。
中文文本相似度计算方法是指通过计算两个中文文本之间的相似度,来判断它们之间的关系。
这种计算方式在自然语言处理、信息检索、文本分析等领域具有广泛的应用。
接下来,本文将综述几种常用的中文文本相似度计算方法及其优缺点。
一、基于词频的统计方法基于词频的统计方法是一种简单的中文文本相似度计算方法。
该方法的基本思想是将文本中所有出现过的词及其频率作为文本的特征表示,将两个文本的特征向量作为相似度计算的基础。
常见的词频统计方法有余弦相似度和欧氏距离法。
余弦相似度是一种度量两个向量之间的相似度的方法,可以用来计算文本之间的相似度。
该方法计算的是两个向量之间的夹角,夹角越小,相似度越高。
欧氏距离法则是一种用来计算两个向量之间距离的方法,该方法计算的是两个向量之间的欧氏距离。
在实际应用中,余弦相似度和欧氏距离法都可以用于计算中文文本的相似度。
但是,这种方法忽略了词语之间的语义关系和实际意义,因此在某些情况下会出现误差。
二、基于语义关系的方法基于语义关系的中文文本相似度计算方法通常使用自然语言处理技术处理文本语义,并建立词语之间的语义关系模型,从而更准确地计算文本的相似度。
例如,WordNet是一种以词语为节点的网状结构,词语之间通过不同的语义关系进行链接。
通过计算两个文本中所有单词之间的最短路径,并将这些路径的相似度进行综合,可以得出这两个文本之间的相似度。
另一种基于语义关系的方法是基于Latent Semantic Analysis(LSA)的方法。
LSA通过分析文本中的隐藏语义,将文本表示为一个低维度的向量空间,从而可以综合考虑词语之间的关系、相似度和文本特征。
一种基于相似度的文本查重方法及系统
一种基于相似度的文本查重方法及系统1.引言1.1 概述随着互联网的快速发展和大数据时代的到来,大量的文本数据被产生和广泛应用。
然而,随之而来的问题是如何有效地处理和管理这些文本数据,特别是在面对大规模文本数据的查重任务时。
文本查重是指在给定一篇新的文本时,去判断该文本是否与已有的数据库中的文本重复或近似重复。
在传统的文本查重方法中,采用基于字符串匹配的方法,如编辑距离、Levenshtein距离等。
然而,这些方法对文本的改写、同义替换等文本变换操作的容忍度较低,会导致准确度和鲁棒性下降。
因此,需要一种更加高效和准确的文本查重方法。
本文提出了一种基于相似度的文本查重方法及系统,该方法通过计算文本之间的相似度来判断文本的重复程度。
相似度计算方法采用了基于词频向量的余弦相似度和基于词向量的余弦相似度。
其中,基于词频向量的余弦相似度将文本表示为词频向量,利用余弦相似度来度量两个文本之间的相似程度。
基于词向量的余弦相似度则通过将文本表示为词向量,利用余弦相似度计算两个文本之间的相似度。
在文本预处理部分,采用了常见的文本处理方法,包括分词、去停用词、词干提取等。
这些预处理方法可以提高文本的一致性和可比性,减少文本中的噪音和冗余信息。
通过预处理后的文本,能够更准确地计算文本之间的相似度。
实验结果表明,基于相似度的文本查重方法在不同数据集上都表现出良好的查重效果。
与传统的基于字符串匹配的方法相比,该方法在处理文本变换操作时具有更高的容忍度和鲁棒性。
同时,该方法还具有较高的准确度和效率,能够满足大规模文本查重任务的需求。
在方法优劣评价部分,对比了该方法与其他常见的文本查重方法进行了比较。
结果显示,基于相似度的文本查重方法在准确度和鲁棒性方面均具有优势,并且具有较低的计算复杂度,适用于处理大规模文本数据。
综上所述,基于相似度的文本查重方法及系统在处理大规模文本数据的查重任务中具有重要的应用价值和广阔的发展前景。
该方法能够有效地处理文本变换操作、提高查重准确度和效率,并且能够适应不同规模的文本数据处理需求。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本技术公开了人工智能自然语言处理技术领域的基于汉字笔画的汉语短文本相似度检测方法及系统,包括:一、判断当前输入汉字是否属于笔画笔顺编码库;二、在步骤一中输入的汉字位于笔画笔顺编码库中时,直接对OCR生成文本与源文件进行编码;三、在步骤一中输入的汉字在笔画笔顺编码库中缺失时,先构建该汉字的笔画笔顺编码,然后将构建的笔画笔顺编码加入到笔画笔顺编码库中,再对OCR生成文本与源文件进行编码;四、计算OCR生成文本与源文件之间的相似性。
本技术能够大幅改善OCR生成文本的质量,通过笔画笔顺信息计算短文本的相似性推测OCR生成文本的源文本,并利用源文本对OCR生成文本进行修复;提高了汉语短文本分类的精度,改善汉语短文本的分类效果。
权利要求书1.基于汉字笔画的汉语短文本相似度检测方法,其特征在于,包括如下步骤:步骤一、判断当前输入汉字是否属于笔画笔顺编码库;步骤二、在步骤一中输入的汉字位于笔画笔顺编码库中时,直接对OCR生成文本与源文件进行编码;步骤三、在步骤一中输入的汉字在笔画笔顺编码库中缺失时,先构建该汉字的笔画笔顺编码,然后将构建的笔画笔顺编码加入到笔画笔顺编码库中,再对OCR生成文本与源文件进行编码;步骤四、计算OCR生成文本与源文件之间的相似性。
2.根据权利要求1所述的基于汉字笔画的汉语短文本相似度检测方法,其特征在于,所述步骤三中构建输入汉字的笔画笔顺编码库依次包括对每一个输入汉字的笔画进行编码、对每一个输入汉字的所有笔画编码信息进行整理以及对每一个输入汉字的所有笔画编码信息按该汉字的笔顺信息进行排序。
3.根据权利要求1所述的基于汉字笔画的汉语短文本相似度检测方法,其特征在于,所述步骤二、步骤三中对OCR生成文本与源文件进行编码包括对OCR生成文本以及对源文件的分别编码。
4.根据权利要求3所述的基于汉字笔画的汉语短文本相似度检测方法,其特征在于,所述对OCR生成文本的编码是按照OCR生成文本的各汉字排列顺序对各汉字所对应的编码信息进行排序。
5.根据权利要求4所述的基于汉字笔画的汉语短文本相似度检测方法,其特征在于,所述对源文件的编码是按照源文件的各汉字排列顺序对各汉字所对应的编码信息进行排序。
6.根据权利要求5所述的基于汉字笔画的汉语短文本相似度检测方法,其特征在于,根据生成的OCR生成文本的各汉字编码排序信息以及源文件的各汉字编码排序信息之间的编辑距离度量所述步骤四中的OCR生成文本与源文件之间的相似性。
7.一种基于汉字笔画的汉语短文本相似度检测系统,其特征在于,包括笔画笔顺编码库、汉字输入模块、汉字编码检索模块、笔画笔顺编码构建模块、OCR生成文本编码模块、源文件编码模块和相似性计算模块;所述笔画笔顺编码库,用于存储所有的汉字文字编码;所述汉字输入模块,用于输入待检测汉字;所述汉字编码检索模块,用于根据输入的待检测汉字对所述笔画笔顺编码库进行编码检索;所述笔画笔顺编码构建模块,用于在所述汉字编码检索模块未检索到相应汉字编码时,对指定汉字进行笔画笔顺编码构建并存入到所述笔画笔顺编码库中;所述OCR生成文本编码模块,用于对指定的OCR生成文本信息进行编码;所述源文件编码模块,用于对源文件信息进行编码;所述相似性计算模块,用于计算和分析OCR生成文本编码与源文件编码之间的相似性。
技术说明书基于汉字笔画的汉语短文本相似度检测方法及系统技术领域本技术涉及人工智能自然语言处理技术领域,特别是涉及基于汉字笔画的汉语短文本相似度检测方法及系统。
背景技术随着OCR(Optical CharacterRecognition)技术的成熟,各类OCR设备与OCR软件也日益普及。
基于OCR技术对各类文本图片进行自动识别、自动转换,产生了大量的短文本数据。
但由于受OCR技术本身及图片质量的影响,这类短文本中往往会出现很多错别字,造成OCR转换文本质量较差,无法应用的困境。
例如:在对银行回单的识别中,如果回单图片质量不高,有时就会把“收款人”识别成“收欠人”、“收散人”等。
因此如何对OCR生成文本进行修复,对错别字进行自动修正就成为提高OCR转换文本质量的关键。
如果通过某种文本相似度的计算,使“收款人”与“收欠人”之间有较高的相似度,就可以在两者之间建立映射关系,完成“收欠人”向“收款人”的合理推测与转换。
目前的文本相似度计算方法主要通过对词的分析来计算文本的相似度,如根据共现词语所占的比例的方法;统计词频计算向量余弦相似度的方法;根据文本之间的词语逆序等方法,但是这种基于词频的方法只适合长文本的相似度计算,因为长文本拥有大规模的词语数量才能发挥出词频的作用,而这种银行单据的文字属于短文本,通常含有稀疏的词语数量,难以通过统计词频的方式来计算短文本的相似度。
而且OCR生成的文本含有很多错别字,依据这些错别字出现的上下文更难以依据语义来准确推测和其他文本的相似度。
因为这些错别字相对于语义在字形上和原有文本有更大的相似性。
基于此,本技术设计了基于汉字笔画的汉语短文本相似度检测方法及系统,以解决上述问题。
技术内容为了解决目前OCR生成的文本含有很多错别字,很难完成对汉语短文本进行正确识别的问题,本技术的目的是提供基于汉字笔画的汉语短文本相似度检测方法及系统。
为了实现上述目的,本技术采用如下技术方案:基于汉字笔画的汉语短文本相似度检测方法,包括如下步骤:步骤一、判断当前输入汉字是否属于笔画笔顺编码库;步骤二、在步骤一中输入的汉字位于笔画笔顺编码库中时,直接对OCR生成文本与源文件进行编码;步骤三、在步骤一中输入的汉字在笔画笔顺编码库中缺失时,先构建该汉字的笔画笔顺编码,然后将构建的笔画笔顺编码加入到笔画笔顺编码库中,再对OCR生成文本与源文件进行编码;步骤四、计算OCR生成文本与源文件之间的相似性。
优选的,所述步骤三中构建输入汉字的笔画笔顺编码库依次包括对每一个输入汉字的笔画进行编码、对每一个输入汉字的所有笔画编码信息进行整理以及对每一个输入汉字的所有笔画编码信息按该汉字的笔顺信息进行排序。
优选的,所述步骤二、步骤三中对OCR生成文本与源文件进行编码包括对OCR生成文本以及对源文件的分别编码。
优选的,所述对OCR生成文本的编码是按照OCR生成文本的各汉字排列顺序对各汉字所对应的编码信息进行排序。
优选的,所述对源文件的编码是按照源文件的各汉字排列顺序对各汉字所对应的编码信息进行排序。
优选的,根据生成的OCR生成文本的各汉字编码排序信息以及源文件的各汉字编码排序信息之间的编辑距离度量所述步骤四中的OCR生成文本与源文件之间的相似性。
一种基于汉字笔画的汉语短文本相似度检测系统,其特征在于,包括笔画笔顺编码库、汉字输入模块、汉字编码检索模块、笔画笔顺编码构建模块、OCR生成文本编码模块、源文件编码模块和相似性计算模块;所述笔画笔顺编码库,用于存储所有的汉字文字编码;所述汉字输入模块,用于输入待检测汉字;所述汉字编码检索模块,用于根据输入的待检测汉字对所述笔画笔顺编码库进行编码检索;所述笔画笔顺编码构建模块,用于在所述汉字编码检索模块未检索到相应汉字编码时,对指定汉字进行笔画笔顺编码构建并存入到所述笔画笔顺编码库中;所述OCR生成文本编码模块,用于对指定的OCR生成文本信息进行编码;所述源文件编码模块,用于对源文件信息进行编码;所述相似性计算模块,用于计算和分析OCR生成文本编码与源文件编码之间的相似性。
与现有技术相比,本技术实现的有益效果:本技术能够大幅改善OCR生成文本的质量,即通过笔画笔顺信息计算短文本的相似性,来推测OCR生成文本的源文本,并利用源文本对OCR生成文本进行修复;并且提高了汉语短文本分类的精度,即通过增加汉字笔画笔顺的相似维度,改善汉语短文本的分类效果。
附图说明以下结合附图和具体实施方式来进一步详细说明本技术:图1为本技术整体流程示意图;图2为本技术整体结构示意图。
具体实施方式以下由特定的具体实施例说明本技术的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本技术的其他优点及功效。
请参阅图1。
本技术提供一种技术方案:基于汉字笔画的汉语短文本相似度检测方法,包括如下步骤:步骤一、判断当前输入汉字是否属于笔画笔顺编码库;步骤二、在步骤一中输入的汉字位于笔画笔顺编码库中时,直接对OCR生成文本与源文件进行编码;步骤三、在步骤一中输入的汉字在笔画笔顺编码库中缺失时,先构建该汉字的笔画笔顺编码,然后将构建的笔画笔顺编码加入到笔画笔顺编码库中,再对OCR生成文本与源文件进行编码;步骤四、计算OCR生成文本与源文件之间的相似性。
需要说明的是,利用汉字的笔画笔顺信息度量文本之间的相似性时,可先通过输入的汉字判断是否有汉字的笔画笔顺编码库,若缺少汉字的笔画笔顺编码库,进入步骤三,对汉字的笔画笔顺编码库进行构建,再对OCR生成文本与源文件进行编码,若输入的汉字属于笔画笔顺编码库时,直接对OCR生成文本与源文件进行编码,最后再根据OCR生成文本与源文件的各笔顺笔画编码计算和分析OCR生成文本与源文件之间的相似性。
其中,所述步骤三中构建输入汉字的笔画笔顺编码库依次包括对每一个输入汉字的笔画进行编码、对每一个输入汉字的所有笔画编码信息进行整理以及对每一个输入汉字的所有笔画编码信息按该汉字的笔顺信息进行排序;需要解释的是,在对每一个输入汉字的笔画进行编码时,可依据现有的2001年12月19日教育部和语委发布的《GB13000.1字符集汉字折笔规范》中印刷楷体汉字的标准,将32个笔画分成了10类,并对每一类赋予了一个数字编号,该类别下的每一个笔画的编码即是该笔画所属类别的数字编号,例如:笔画“横”编码为3,笔画“竖”编码为2;并且在对每一个输入汉字的所有笔画编码信息进行整理时,例如:汉字“收”的笔画笔顺信息是:竖提、竖、撇、横、撇、捺,将汉字的所有笔画依次获取并整理;在对每一个输入汉字的所有笔画编码信息按该汉字的笔顺信息进行排序时,依据对每一个输入汉字的笔画进行编码以及对每一个输入汉字的所有笔画编码信息进行整理,再对每各汉字进行编码,例如:汉字“收”的笔画笔顺编码是:229398。
进一步的,所述步骤二、步骤三中对OCR生成文本与源文件进行编码包括对OCR生成文本以及对源文件的分别编码;可以分别根据OCR生成文本以及源文件的编码信息,从而计算OCR生成文本与源文件之间的相似性。
并且,所述对OCR生成文本的编码是按照OCR生成文本的各汉字排列顺序对各汉字所对应的编码信息进行排序;依据构建的汉字笔画笔顺编码库,对OCR生成文本进行编码,例如:“收欠人”,“收”的汉字笔画笔顺编码是229398,“欠”的汉字笔画笔顺编码是9398,“人”的汉字笔画笔顺编码是98,所以“收款人”的汉字笔画笔顺编码是229398939898。