一种改进的手写汉字文本切分算法_明德烈

合集下载

一种手写汉字投影切分方法的改进算法

ＩＳ１９０４ＳＮ００－３４
Ｅ— ａｌｄ＠ｃｃ．ｔＤｍｉ：ｅｕｆｃｅｎｅ．Ｃ
Ｃｍｐ￣ｒｎｗｅｇｎｅｈｏｏｙ电脑知识与技术ｏｕＫｏｌｄｅａｄＴｃｎｌｇ
Ｖｏ．Ｎｏ２，ｅｔｍｂｒ２．１７，．５Ｓｐｅｅ０１１
ＷＡＮＧｕ—ｚｅＸｈ，ＣＡＯｅＷｉ
（ｈｏｏｏｕｅｃｎｅＳｕｈＣｅｔｌｉｅｓｙｆｒｔｎｌｉ，ｕａ３０４ＣｉａＳｏｌｆｍｐｔＳｉｃ，ｏｔ — ｎｒｖｒｔｏｉａｔｓＷｈｎ４０７，ｈｎ）ｃＣｒｅａＵｎｉＮａｏｉｅＡｓｒｃ：ａｄｏｅａａｓｆｒｄｏａｐｏｅｔｎｓｍｅｔｉｎａｏｔｍｒａｄｉｔｈｎｓｃａａｔｓｒｐｓｄｔｅｉｒｖｄｂｔａｔＢｓｎｔｎｌｉｏａｉｎｌｒｊｃｏｅｎａｏｌｒｈｆｎｗｒｅｃｉｅｅｈｒｅｏｏｅｈｅｈｙｓｔｔｉｉｇｔｇｉｏｈｔｎｃｒｐｍｐｏｅａｏｔｍ．ａｙｓｇｓｔｉｇａｖｎａｅｏｅｏａｌｅｐ￣ｅｔｎｔｄｔｒｎｅｉｅｆｕ — ｆｐｉｔｆｆｈａｉｇｂａｌｒｈＥｒａｅａｎｄａｔｆｈｃｖｌｒｃｏｅｍｉｅｈｎｔｏｏｎｏｅｒａｉｅｔｏｔｎｇｉｌｔ，ｋｇｔｌｌｅｉＯｅｔｌｏｃｏｔｐｔｌｍａＯｉ

一种手写汉字投影切分方法的改进算法

一种手写汉字投影切分方法的改进算法作者：王序哲,曹卫来源：《电脑知识与技术》2011年第25期摘要：在分析传统的手写汉字投影切分算法的基础上，提出了改进算法。

算法初切分阶段通过对局部图像进行水平投影法切分来确定行切分点，从而得到当行字符，之后针对单行字符，通过多种策略进行单字切分，包括针对字间间距、标点符号等信息做出的单字切分策略。

实验结果表明，该算法能有效的减少传统垂直投影分割法的误切分现象，且分割速度快，实现容易。

该算法经过大量实验证明了其在准确率方面的优越性。

关键词：局部图像；切分点；行和数组；列和数组；误切分中图分类号：TP391.1文献标识码：A文章编号：1009-3044(2011)25-6205-02An Improvement of Projection Segmentation Algorithm for Handwritten Chinese CharactersWANG Xu-zhe, CAO Wei(School of Computer Science, South-Central University for Nationalities, Wuhan 430074, China)Abstract: Based on the analysis of traditional projection segmentation algorithm for handwritten chinese characters proposed the improved algorithm. Early stages, taking advantage of the local level projection to determine the line of cut-off point of of the partial image to obtain a line of characters; Then making use of a variety of strategies to obtain words , including for the spacing between words, punctuation, etc. Experimental results show that the algorithm can effectively reduce errors of the traditional vertical projection segmentation algorithm;simultaneously,the improved algorithm splits fastly and easy to implement. After a large number of experiments certify that the algorithm is better quality in accuracy rate.Key words: local image; segmentation point; line and array; column and array; mistakenly segmentation目前，脱机手写体汉字的切分方法有很多种，包括投影切分法、Hough变换法[1]等，其中投影切分法是利用像素点在水平或者垂直方向上的投影来确定字符间隙，进而来切分字符的。

一种改进的上下文相关的歧义字段切分算法

集方法是通过人工收集，在分词词典中加以歧义标记，然后再利用某些知识来解决。笔者认为可以根据最大
“ “ 起都是词，一起 ” “ 应该切分，Ｂ的“ 一起 ” 是词，中间
则不应该切分。
匹配法的思想，出一种基于最大词长的多义型歧义提
文相关歧义字段切分算法。并根据汉语中特殊的语法现象，给出了切分算法的辅助策略来对待切分字符串进行预
处理。不仅提高了分词的精度。还加快了分词的速度。
关键词：自动分词歧义字段交集型歧义组合型歧义
１引言
词是最小的能够独立活动的有意义的语言成分。但中文是以宇为基本的书写单位，词语之间没有类似英文空格之类的明显的区分标记。随着中文信息处理
张培颖李村合（中国石油大学（华东）计算机与通信工程学院东营２７６）５０１：
摘要：无论在自然语言处理还是在机器翻译中，中文自动分词都是一个重要的环节。歧义字段切分是中文自动分
囱研尧中的一个“ 路虎” 在分析基于和基于拦。规则上下文的歧义字段切分策略基础上，提出了一种改进的上下
（）当交集型歧义宇段具有ＡＣ２ＢＤ形式时共有
ＡＣＢＤ两个交集宇段，ＡＣＢ、Ｃ称ＢＤ链长为Ｚ
维普资讯
２０年第５期０６
计算机系统应用
（）在交集型歧义宇段中绝大多数为链长１３和链
（）由计算机自动分词所引起的歧义，２称为第二类歧义；：独立自主和平等互利原则”用正向最例如 “ ，大匹配法，就切分为：独立／ “ 自主／和平，，等ｌ互利／原

一种用于手写体汉字切分的优化模型

ｓｔｓａｔｒｐｅｆｒｎｃｆｓｇｅｔｔｏｏｈｎａｉｆｃｏｙｒｏｍａｅｏｒｅｍｎａｉｎｆａｄｗｒｔＣｈｉｅｓｃｈｒｃｅ．ｉｔｅｎｎｅａａｔｒ
Ｋｅｒｓｏｎｃｅｏｏｅｔ；ｅｓｓｕｒｓｕｃｎｔｉｅｈｎｗｒｔｎＣｈｎｓｈｒｃｅｅｍｅｔｔｎｙｗｏｄ：ｃｎｅｔｄｃｍｐｎｎｓｌａｔｑａｅ；ｎｏｓｒｎｄ；ａｄｉｅｉｅｅｃａａｔｒｓｇｎａｉａｔｏ
ｗｏｅｈｌｍｅｈｄｎｔｏｌｉｒｖｓｓｌａａｔｅｂｌｙｂｔｌｏｍｐｏｅｈｅａｉｏｅｍｅｔｔｎＢｎｌｓｓｔｉｍｅｈｄａｔｏｏｎｙｍｐｏｅｅｆｄｐｉａｉｔ，ｕａｓｉｒｖｓｔｅｖｒｃｔｆｓｇｎａｉ．ｙａａｙｉ，ｈｓ — ｖｉｙｏｔｏｈｓ
维普ｒｇａｄＡｐｉｔｎ计算机工程与应用ｏｐｔＥｇｎｅｉｎｐｌａｉｓｒｎｃｏ
一
种用于手写体汉字切分的优化模型
马洋涛，陶志穗，张金焕，晓伟杨
ＭＡＹａｇｔｏＴｈ－ｕ，ＨＡＮＧｉ— ｕｎＹＡＮＧａ — ｉｎ－ａ，ＡＯＺｉｓｉＺＪｎｈａ，Ｘｉｏｗｅ
Ｅｍａｌｍｙ７＠１６ｃｉ — ｉ：ｔ８２．ｏｎ
ＭＡＹａｇ— ａＴＡＯＺｈ－ｕ，ｎｔｏ，ｉｓｉＺＨＡＮＧＪｎ－ｕｎ，ｔ１ｉｈａｅａ．ｔａｍｏｅｆｒａｄｉｔｎＯｐｉｌｍｄｌｏｈｎｗｒｔｅＣｈｎｓｃａａｔｒｅｍｅｔｎｉｅｅｈｒｃｅｓｇｎｉ．ｏ

一个改进的书面汉语全切分算法

定义１全切分：Ｃ＝Ｃ２Ｃ，Ｃ∈汉字设１ … （Ｃ集，≤ｉ）１ ≤ｎ为待切分的汉字串，Ｗ＝Ｈ２ｌ … Ｈ（ ∈基于词典的汉词集，１ ≤ ｍ，≤ｍ≤ｒ为Ｃ１ｇ）
的一种切分形式，Ｋ为所有可能的切分形式的个数，（＝｛Ｉ≤ Ｃ） ≤Ｋ｝Ｃ的所有可能的切分形１为式集合。则（）ｃ是对ｃ的全切分集合，ｃ的全对
文章编号：０４４８（０７０一（２ — ４１０ — ２０２０）１Ｉ８０）
一
个改进的书面汉语全切分算法
杨春花孙红英２孙吉红，，
（．１山东轻工业学院信息科学与技术学院，山东济南２０５；．５３３２济南供水集团，山东济南２０１）５０４摘要：提出了一个改进的书面汉语全切分算法，它通过确保每次切分位置的唯一性，克服了全切分中普遍存在的重复切分。实验证明，改进后的全切分算法效率平均提高８％以上。０
Ａｂｓ
：ｎｉｒｅｌｏｔｍｆｗｒｍｎ－ｅｍｅｔｔｎｆｒｒｔｎＣｉｅｅｉｐｏ０ｅｉｐｌ，ｈｃＡｍｐｏｄａｇｒｈｏｏｏｉｓｖｉｄｇｎｉｏｉｅｈｎｓｒｐｓｄｉｔｓａａｏｗｔｓｎｈｅｒｗｉｈ
关键词：切分；全切分；重复切分中图分类号：Ｐ９．Ｔ３１１文献标识码：Ａ
ＡｎｉｒｖｄａｇｒｔｍｆｗｏｄｏｉｅｔｎａｉｎｆｒｗｒｔｎＣｈｎｓｍｐｏｅｌｏｉｈｏｒｍｎ－ｇｍｔｔｏｉｅｉｅｅｓｏｔ

一种汉语文本的大、小粒度切分实现方法和装置[发明专利]

[19]中华人民共和国国家知识产权局[12]发明专利申请公布说明书[11]公开号CN 101246472A [43]公开日2008年8月20日[21]申请号200810089822.6[22]申请日2008.03.28[21]申请号200810089822.6[71]申请人腾讯科技（深圳）有限公司地址518044广东省深圳市福田区振兴路赛格科技园2栋东403室[72]发明人朱鉴李闪 [74]专利代理机构北京德琦知识产权代理有限公司代理人宋志强麻海明[51]Int.CI.G06F 17/27 (2006.01)权利要求书 4 页说明书 13 页附图 4 页[54]发明名称一种汉语文本的大、小粒度切分实现方法和装置[57]摘要本发明公开了一种汉语文本的大、小粒度切分实现方法，包括如下步骤：设置大粒度切分方式和小粒度切分方式；根据输入的粒度需求，采用相应的粒度切分方式对汉语文本进行切分处理，并输出切分后的汉语文本。

本发明还公开了一种汉语文本的大、小粒度切分装置。

本发明方案可以根据实际需要采用相应的粒度对文本进行切分，能够满足不同后续汉语文本处理需求。

200810089822.6权利要求书第1/4页 1、一种汉语文本的大、小粒度切分实现方法，其特征在于，包括如下步骤：设置大粒度切分方式和小粒度切分方式；根据输入的粒度需求，采用相应的粒度切分方式对汉语文本进行切分处理，并输出切分后的汉语文本。

2、根据权利要求1所述的方法，其特征在于，所述设置大粒度切分方式和小粒度切分方式包括：制定模式词类别以及相应的粒度标准，根据模式词类别生成不带有粒度信息的确定状态自动机DFA来识别模式词；根据模式词类别生成带有粒度信息的DFA来对模式词进行大、小粒度切分。

3、根据权利要求2所述的方法，其特征在于，所述制定模式词类别以及相应的粒度标准包括：对于数字和除数字之外的其它字符共同组成的模式词，大粒度切分方式为将该模式词作为整体，小粒度切分方式为：将数字和除数字之外的其它字符切分开。

一种优化的手写字符自动分割算法

手写字符自动分割算法是计算机视觉领域中的一个重要问题，其在人物识别、表格处理、文字识别等领域有着广泛的应用。

本文针对手写字符识别中的分割问题，提出了一种基于统计特征的自动分割算法。

该算法通过对手写字符进行图像处理、特征提取和分类识别等步骤，有效提高了手写字符分割的准确度和鲁棒性。

一、问题描述手写字符识别是一项具有挑战性的任务，其中手写字符分割是其中一个重要环节。

手写字符分割的主要任务是将一张包含多个手写字符的图像分割成单独的字符区域，从而方便后续的字符识别框架进行处理。

但是由于手写字符之间存在着大量的重叠和相互依存关系，使得手写字符的自动分割变得十分困难。

因此，如何快速、准确地进行手写字符自动分割一直是当前研究的热点问题之一。

二、算法设计思想本文提出的手写字符自动分割算法基于统计特征，具体思路如下：( 1)图像预处理首先对输入的手写字符图像进行预处理，以获得更好的图像质量。

本文采用了常用的预处理方法：二值化、噪声去除和形态学处理。

通过二值化将原始图像转化成二值图像，将除黑色和白色外的其他色彩全部转换为黑色或白色。

之后进行噪声去除，采用平滑滤波去除图像中的细小随机噪声。

最后对图像进行形态学处理，通过开、闭操作使得图像轮廓更加平滑，同时也可将字符之间的一些噪声和联结区域去除。

( 2)特征提取通过图像预处理，得到一个处理后的手写字符图像，可以发现字符与字符之间还存在着较大的联系，甚至有部分字符之间会有重叠部分。

因此，针对这种情况，传统的基于形状和书写规则的分割方法往往不太适用。

本文提出了一种结合灰度直方图与投影的特征提取方法，通过统计图像中每列像素值的分布，可以得到一张灰度直方图。

根据灰度直方图中的极大值点，可以确定每个字符在图像中的位置和大小。

另外，根据图像中每行像素值的分布，也可以得到一张水平和竖直方向上的投影图，进一步帮助确定字符的位置和边界。

( 3)分类识别针对特征提取得到的每个字符的位置和大小，本文采用了传统的分类识别方法进行分类识别。

一种改进的脱机手写文字细化算法

Ｌｉｕｎ和Ｇｎｕｎ在文献［］ｅＨａｇｅｘｎＷａ３中提出了
一
种有效的并行文字细化算法，该算法采用了７个
保留模板和５删除模板，０个分别如下：
（）留曲线的端点；５保
２００８年８月１１日收到国家十五科技攻关项目（０４Ａ１Ｂ）２０ＢＳ０
⑥ ２０ＳｉｅｈＥｇｇ０８ｃ．Ｔｃ．ｎｎ．
一
种改进的脱机手写文字细化算法
刘瑛王绪本
（都理工大学信息工程学院，都６０５；都理工大学研究生院１０９）成成１０９成，６０５
摘
要
在分析已有细化算法的基础上，针对两个像素宽的文字笔划，设计像素保留算法，有效解决了文字笔划断裂及丢失细化模板断裂丢失
一
情况有关；在并行方式中，而当前迭代仅仅由前一
次的迭代情况决定。串行细化算法的处理结果依
赖于对像素处理的先后顺序，而像素点的消除或因保留不可预测；而并行细化算法对图像进行细化时利用相同的条件同时检测所有像素点，结果具有其各向同性，此从算法原理上并行方法优于串行因
方法。
个好的细化算法应该达到如下要求：
（）１骨架图像必须保持原图像的连通性；（）２骨架图像应尽可能是原图像的中心线；
（）３细化结果要尽可能细，争取得到一个像素宽的线条图像；（）４应使用尽可能少的迭代次数；

一种有效的手写汉字多步分割方法

一种有效的手写汉字多步分割方法
马瑞;杨静宇
【期刊名称】《中国图象图形学报》
【年(卷),期】2007(012)011
【摘要】在字符识别系统中,字符的有效分割是识别的关键.针对手写汉字字间距及字内距无规则可循,字符间极易发生粘连、交错等现象,提出一种多步分割方法.该方法首先利用Viterbi算法将原字符串切分成互不连通的分割块,使非粘连汉字、交错汉字得到正确分割;对于其中宽度较大存在粘连字符的分割块,从候选分割点入手,用非线性分割路径将粘连部分分开;最后再应用A*算法找到全局最佳分割位置,使过分割的字符得到完整合并.实验结果表明,该方法对于手写汉字的分割是可行、有效的.【总页数】6页(P2062-2067)
【作者】马瑞;杨静宇
【作者单位】南京理工大学计算机系,南京,210094;南京理工大学计算机系,南京,210094
【正文语种】中文
【中图分类】TP391.43
【相关文献】
1.基于可变窗口的古代手写汉字多步切分方法 [J], 吴相锦;张忠林;周生龙
2.一种基于SVG的在线连续手写汉字多步分割方法 [J], 李昕岩;陈联
3.一种适用于嵌入式环境下的手写汉字分割算法 [J], 周正;童维勤
4.一种有效的手写体汉字组合特征的抽取与识别算法 [J], 孙权森;金忠;王平安;夏德深
5.一种手写体汉字快速细化分割算法 [J], 刘平
因版权原因，仅展示原文概要，查看原文内容请购买。

用于手写汉字识别的文本分割方法

用于手写汉字识别的文本分割方法雷鑫;李俊阳;宋宇;赛琳伟【摘要】本文提出了一种手写汉字文本的分割方法,填补了汉字识别领域在文本行分割方面的空白.本方法首先对预处理后的文本图片进行池化处理,然后运用并查集算法得到每行为一个连通区域,最后调整每行上下的孤立区域的归属,最终把多行文本图片分割为单行,为后期的汉字列分割做准备.此方法虽然用行分割,但也为汉字的列分割提供了新的思路.【期刊名称】《智能计算机与应用》【年(卷),期】2018(008)002【总页数】3页(P126-128)【关键词】手写汉字识别;池化;文本分割;并查集【作者】雷鑫;李俊阳;宋宇;赛琳伟【作者单位】河海大学常州校区数理部, 江苏常州213022;河海大学常州校区数理部, 江苏常州213022;河海大学常州校区数理部, 江苏常州213022;河海大学常州校区数理部, 江苏常州213022【正文语种】中文【中图分类】TP391.41引言汉字识别技术经过长期的发展已经日趋成熟，无论是联机汉字识别还是难度更高的脱机手写汉字识别[1],其识别成功率均有较大的提升，并在相关的领域得到了一定的推广应用。

作为汉字识别中的关键组成部分，汉字分割技术的进展也将制约着汉字识别率的研究提升。

能够完整无误地分割出整个汉字对汉字识别来说尤为重要，这也是目前汉字识别技术攻关中的研究处理重点。

区别于字母、数字，汉字的结构复杂，形式多样，不同人的书写习惯和选用字体也形色多样，书写起来多具有很大的随意性，因此汉字分割较其它字符的分割也更显难度。

近年来，学界已基于汉字识别技术研发提出了一系列的汉字分割方法。

这些方法主要包括：基于汉字结构的切分方法[2]、基于识别的切分方法[3]、基于词的整体切分方法以及基于统计的切分方法[4]等。

如上的汉字分割方法虽然对特定的汉字图片获得了可观的成功率[5]，但却都各自存在着一定缺陷。

例如基于结构的切分方法中汉字笔画的提取十分复杂，基于识别和词整体切分方法又会产生效率与识别率双重走低的问题，而基于统计的切分方法则只适用于非黏连的汉字。

用于手写汉字识别的改型Adaboost算法

用于手写汉字识别的改型Adaboost算法付强;丁晓青;刘长松【期刊名称】《高技术通讯》【年(卷),期】2009(019)004【摘要】针对大部分多类Adaboost算法因训练复杂度过高而难以应用于手写汉字识别这种大类别数分类的问题,提出了一种新的改型的多类Adaboost算法.该算法采用基于描述性模型的多类分类器--改进的二次鉴别函数(MQDF)分类器作为基元分类器,可直接进行多类分类,无需将多类问题转化为多个两类问题处理,大大降低了训练复杂度.此外,该算法根据广义置信度更新样本权重,实验证明此方法简单有效.为了降低算法的识别复杂度,对训练后得到的基元分类器组进行删减,仅保留一个最优的基元分类器作为最终分类器.在HCL2000及THOCR-HCD数据集上进行的实验表明,该算法的相对错误率比现有算法分别下降了14.3%、8.1%和19.5%.【总页数】6页(P331-336)【作者】付强;丁晓青;刘长松【作者单位】清华大学电子工程系智能技术与系统国家重点实验室,北京,100084;清华大学电子工程系智能技术与系统国家重点实验室,北京,100084;清华大学电子工程系智能技术与系统国家重点实验室,北京,100084【正文语种】中文【中图分类】TP3【相关文献】1.一种适用于超多类手写汉字识别的新改型Adaboost算法 [J], 丁晓青;付强2.用于手写汉字识别的文本分割方法 [J], 雷鑫;李俊阳;宋宇;赛琳伟3.用于手写汉字识别的分布式平台研究与实现 [J], 谢宇;步丰林4.用于手写汉字识别的文本分割方法 [J], 雷鑫;李俊阳;宋宇;赛琳伟;5.一种多模型超图用于手写汉字识别算法 [J], Wei Binghui;Xie Huihui;Deng Xiaohong因版权原因，仅展示原文概要，查看原文内容请购买。

一种用于手写体汉字切分的优化模型

一种用于手写体汉字切分的优化模型
马洋涛;陶志穗;张金焕;杨晓伟
【期刊名称】《计算机工程与应用》
【年(卷),期】2008(044)002
【摘要】在连通域单元的基础上提出了一种手写体汉字切分的优化模型,该模型可以自适应的确定部件、单个字和粘连字的宽度.另外,对粘连字的切分采用了加权k 的均值法.整个切分方法既提高了算法的自适应能力,又提高了切分的正确率.实验表明这种方法具有很好的切分效果.
【总页数】3页(P227-229)
【作者】马洋涛;陶志穗;张金焕;杨晓伟
【作者单位】华南理工大学,数学科学学院,广州,510640;华南理工大学,数学科学学院,广州,510640;华南理工大学,数学科学学院,广州,510640;华南理工大学,数学科学学院,广州,510640
【正文语种】中文
【中图分类】TP391.41
【相关文献】
1.一种用于手写体汉字识别的候选字加权 [J], 吴敏清;金连文;尹俊勋;黄建成
2.一种离线手写体汉字切分的自适应算法 [J], 朱锴;赵宇明;吴越
3.用于粘连手写体汉字切分的二次寻点算法 [J], 吴越;赵宇明;朱锴
4.一种用于脱机手写体女书字符切分的方法 [J], 刘赛;王江晴;张振绘
5.一种用于脱机手写体汉字识别的多层流水线并行处理结构 [J], 张立军;赵雁南;夏武颖
因版权原因，仅展示原文概要，查看原文内容请购买。

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

e. 求解各连通域的外接矩形框 ( 各列向段内相互交错的矩形条构成某一汉字部首的连通域) .
f. 删除离散干扰污点. 将外接矩形框的高宽小于一定门限的连通域认为是非汉字笔画的干扰污点, 予以删除.
g. 扫描结束, 获得图像点阵中的所有汉字笔画部首的连通域 ( 用相互交错的矩形条表示) .
在扫描过程中, 通过不断地减少操作对象( 矩
Ming Del ie L iu J i an H u J iaz hong L i H aitao Abstract: Based on an analysis o f t he t radit ional segm ent ation alg orit hm , an improved handw rit t en Chinese tex t seg mentat ion al gorit hm is put f orw ard. T he alg orit hm is abl e t o handle w it h t he segm ent at io n o f askew images of small angle and st roke-joint ed charact ers, and it is pr oved t o be w ith st ro ng anti-interf er ence abilit y. T he implement at io n met hods are giv en. Key words: Chinese char act er recog nit ion; line seg ment at ion; charact er segm ent at io n Ming Delie Doct oral Candidat e; Inst itut e of Pat tern Recognit io n & Art if icial Int elligence, HUST ,
在行向连通域的组合过程中, 组合的精确度固然是最重要的, 但速度同样也是一个不可忽视的因素. 由于对每一个连通域, 需要对整个连通域队列进行遍历搜索, 寻找与之同属一个汉字的连通域, 其计算量是相当大的. 解决的办法是将匹配的范围由全局缩小为局部. 一种局部匹配的办法是将搜索的范围缩小至一个半径为 r 的圆周内, 即以当前连通域为中心, 画一个半径为 r 的圆, 然后只对中心落在此圆周内的连通域考虑与当前连
明德烈柳健华中理工大学图像识别与人工智能研究所
胡家忠李海涛
图像信息处理与智能控制教育部开放研究实验室 ( 武汉工业大学信息工程学院)
摘要: 在分析传统手写汉字文本切分算法利弊的基础上, 提出了一种改进的基于快速连通域提取的切分算法, 算法具有很强的抗干扰能力, 有效解决了小角度歪斜图像和笔画粘连字符的汉字切分问题. 同时给出了具体的实现方法. 关键词: 汉字识别; 行切分; 字切分中图分类号: T P774 文献标识码: A 文章编号: 1000-8616( 2000) 02-0087-03
2 实验结果
对于常用的 20×20 字的书写稿纸, 算法的执行时间不到 1 s ( 奔腾 166 M Hz 机器) . 图 6 是用本算法进行图像切分的结果示例.
图 6 改进算法的切分结果
值得指出的是, 由于本算法的操作对象是矩形条, 而不是像素点, 汉字的连通域是由相互邻接交错的矩形条表示的, 因此相邻汉字之间外接矩形框的交错并不影响汉字的分离, 不会将某一汉字的笔画像素点切分到相邻汉字的点阵中去.
参考文献 [ 1] 张忻中. 汉字识别技术. 北京: 清华大学出版社, 1992. [ 2] 周昌乐. 手写汉字的机器识别. 北京: 科学出版社,
199 7. [ 3] 胡家忠. 计算机文字识别技术. 北京: 气象出版社,
199 4.
An Improved Algorithm for Handwritten Chiese Text Segmentation
收稿日期: 1999-08-20. 作者简介: 明德烈( 1974-) , 男, 博士研究生; 武汉, 华中理工大学图像识别与人工智能研究所 ( 430074) . 基金项目: 国家高技术研究发展计划资助项目 ( 863-306-03-05-4) .
88 华中理工大学学报 2000 年
图 3 用于搜索行间隔边界线的移动窗口
将这个窗口沿着图像的纵向 ( Y 轴) 以一定间距从上到下移动, 在移动的过程中, 从左至右检查在各列向段中是否有一个空白矩形条与当前窗口部分或全部交错, 若有则计数值加 1 ( 每一次窗口移动后将计数值清 0, 并且计数值小于等于总的列向段数) . 如果在某一时刻, 计数值与总段数之比大于系统门限值 ( 系统设定为 90 % ) , 则认为在此窗口附近存在一个行的间隔. 当求得一个行间隔时, 将窗口继续向下移动, 搜索下一个行间隔, 直到碰到图像底边缘时, 搜索结束. 1. 3 行向连通域的组合
对象, 用区域扩展的方法来求解连通域, 则时间耗费相当大. 为此, 将操作对象由点转化为矩形条 ( 即一个面) , 从而大大提高了算法的速度. 算法的程序流程如下:
a. 图像点阵按列向均分为 m 段 ( m= x / y , x 为图像宽度, y 为段宽度) .
b. 扫描图像, 搜索每一列向段内的空白矩形条.
经实际编程实现后的大量实际样本切分测试表明, 改进后的手写汉字文本切分算法有效地解决了小角度歪斜图像、字符笔画粘连图像的切分问题. 实现了程序操作对象由像素点向面 ( 矩形条) 的转变, 不仅使快速连通域的提取成为可能, 并且在连通域的提取过程中有效的滤除了各种干扰污点. 与传统算法相比, 改进后的手写汉字文本切分算法不仅速度快、精度高, 并且具有很强的抗干扰能力.
汉字文本的行字切分是脱机手写汉字识别的关键问题之一[ 1] . 传统的行字切分算法是分别对图像点阵区域进行行 ( X 轴) 、列 ( Y 轴) 方向上的投影[ 2] , 分别得到横向和纵向的黑像素的统计直方图. 字符点阵区域在直方图上呈现出波峰状, 而字符间的空隙在直方图上呈现出波谷状. 以此为基础, 加上必要的修正措施, 首先由行切分得到一行行文本字行, 然后在文本字行中进行列切分得到一个个单独的汉字字符点阵. 此算法思路简单明了, 但在一定程度上依赖于手写汉字文本书写质量和规范. 例如在字切分中, 一般字间距远不如行间距明显, 再加上存在着左右结构的部首分离汉字, 写得很宽或很窄的汉字及字与字之间的笔画粘连[ 3] , 使得文本的切分具有很大的难度. 为此本文提出了一种基于快速连通域提取的思想来进行手写汉字文本行字切分的算法, 在一定程度上消除了传统汉字文本切分算法的缺陷.
通域的组合做准备, 因此行分界线的准确与否直接牵涉到连通域组合的正确性.
在此切分算法中, 行分界线确定的过程是穿插在上一步搜索连通域的过程中进行的. 在搜索连通域的过程中, 当把图像进行列向分段, 并在每段内搜索到空白矩形条时, 在图像点阵上开一个宽度为 w ( 图像宽度) 、高度为 h ( 系统中取为 40 个像素单位) 的窗口 ( 如图 3 所示) .
图 4 连通域投影示意图
1. 4 列向连通域的组合列向连通域的组合过程远没有行向连通域组
合那么简单, 它受多种因素的干扰. 由多个左右部件构成一个汉字的情况在常用的汉字字符集中相当普遍, 当这些部件出现在同一行内待组合时, 若处理不当, 则有可能出现一个字的左右部件组合错误导致一片组合错误的情况 ( 如图 5 所示) . 而且, 在一篇文本中, 除了汉字字符以外, 还夹杂着标点符号、英文、数字等非汉字信息, 其连通域的外接矩形框尺寸一般与普通汉字字符的外接矩形框尺寸有较大的差异, 在列向连通域组合过程中同样应该加以考虑.
形条) , 也在很大程度上提高了程序的执行速度. 在求解连通域的过程中删除干扰污点的方法, 既能删除汉字部首外部的污点, 也能删除部首内部的离散污点, 这将有利于识别过程中的特征抽取. 图 2 是一个具体求解连通域的例子.
图 2 一个求连通域的例子
1. 2 行分界线的确定行的分界线的确定实际上是为下一步行向连
第 28 卷第 2 期华中理工大学学报 V ol. 28 N o . 2 2000 年 2 月 J. Huazho ng U niv. o f Sci. & T ech. F eb. 2000
一种改进的手写汉字文本切分算法
1 一种改进的手写汉字文本切分算法
1. 1 连通域的快速获取本算法的基本思想是基于连通域的组合, 所
以算法的第一步是求字符点阵连通域. 这里指的仅仅是像素点阵的连通域, 也就是说, 如果一个汉字由几个分离的部件构成, 那么它将对应多个连通域, 其中由每一个部件求得一个连通域.
在此步骤中, 关键是一个速度问题. 一般来说, 一幅最普通的 A4 幅面的图像的长度和宽度都至少有 2 000 多个像素点, 若以像素点为操作
第 2 期明德烈等: 一种改进的手写汉字文本切分算法 89
此平均值与所有矩形框做一比较, 滤掉与此平均值差别较大的数据, 只保留与此平均值的差别在某一个适当范围的数据 ( 如不大于 40 % ) , 再求一次平均值得到最终结果. 因为一行中, 总有一些汉字是由多个左右部件构成的, 即与多个连通域相对应, 因此随着连通域的组合, 应当对此平均值逐步求精.
图 5 一个常见的列向连通域组合错误例子
针对上述问题, 对当前行中出现的所有连通域的最小外接矩形框的一些平均特征参数进行统计. 这些平均特征参数包括矩形框的平均高度、宽度、字间距. 在统计过程中, 要考虑到一些可能存在的干扰, 如标点符号、字符粘连等, 它们构成一些宽度要么很短、要么很长的矩形框. 这类矩形框的参数参与平均参数的统计, 得到的平均值显然不能真实反映实际情况, 将给后面的组合工作造成直接的错误结论. 因此必须以某种方式滤掉此类干扰数据. 由所有矩形框计算出一个平均值, 以