一种改进的手写汉字文本切分算法_明德烈
一种手写汉字投影切分方法的改进算法
E— al d @ c c . t D m i:e uf c ene. C
C mp  ̄r n we g n e h ooy电 脑 知 识 与技术 o u K o ld ea d T c n l g
Vo . No 2 , e tmb r 2 . 1 7, . 5 S p e e 01 1
W AN G u—z e X h ,CAO e W i
( h o o o ue c n e S uh Ce t l iesyfr t n li , u a 3 0 4 C ia S o l f mp t S i c , o t — n r v r t o i a t s W h n4 0 7 , hn ) c C r e a Un i Na o ie A sr c: a d o ea a s fr d o a poe t n s me t ina o tm r a d i t hn s c aat s r p sdtei rv d b ta t B s n t n l i o a i n l rjc o e n a o l rh f n wr e c iee h r e o oe h e h ys t t i i g t gi oh tn c rp mpo e a o t m. a y s g s t igav na eo e o a l e p  ̄et n t d tr n e ie f u — f p it f f h a i g ba l r h E r a e a n d a t f h c v l r c o e mie h n t o on o e r a i et o t n gi l t , k g t l l e i O e t l oc o t p t l ma O i
一种手写汉字投影切分方法的改进算法
一种手写汉字投影切分方法的改进算法作者:王序哲,曹卫来源:《电脑知识与技术》2011年第25期摘要:在分析传统的手写汉字投影切分算法的基础上,提出了改进算法。
算法初切分阶段通过对局部图像进行水平投影法切分来确定行切分点,从而得到当行字符,之后针对单行字符,通过多种策略进行单字切分,包括针对字间间距、标点符号等信息做出的单字切分策略。
实验结果表明,该算法能有效的减少传统垂直投影分割法的误切分现象,且分割速度快,实现容易。
该算法经过大量实验证明了其在准确率方面的优越性。
关键词:局部图像;切分点;行和数组;列和数组;误切分中图分类号:TP391.1文献标识码:A文章编号:1009-3044(2011)25-6205-02An Improvement of Projection Segmentation Algorithm for Handwritten Chinese CharactersWANG Xu-zhe, CAO Wei(School of Computer Science, South-Central University for Nationalities, Wuhan 430074, China)Abstract: Based on the analysis of traditional projection segmentation algorithm for handwritten chinese characters proposed the improved algorithm. Early stages, taking advantage of the local level projection to determine the line of cut-off point of of the partial image to obtain a line of characters; Then making use of a variety of strategies to obtain words , including for the spacing between words, punctuation, etc. Experimental results show that the algorithm can effectively reduce errors of the traditional vertical projection segmentation algorithm;simultaneously,the improved algorithm splits fastly and easy to implement. After a large number of experiments certify that the algorithm is better quality in accuracy rate.Key words: local image; segmentation point; line and array; column and array; mistakenly segmentation目前,脱机手写体汉字的切分方法有很多种,包括投影切分法、Hough变换法[1]等,其中投影切分法是利用像素点在水平或者垂直方向上的投影来确定字符间隙,进而来切分字符的。
一种改进的上下文相关的歧义字段切分算法
“ “ 起 都是词 ,一起 ” “ 应该切分 , B的“ 一起 ” 是词 , 中间
则不应该切分。
匹配 法的思想 , 出一种基 于最大 词长的 多义 型歧义 提
文相关歧义字段切分算法。 并根据汉语中特殊的语法现象, 给出了切分算法的辅助策略来对待切分字符串进行预
处理 。 不仅提 高 了分词 的精度 。 还加 快 了分词的速 度。
关键 词: 自动分 词 歧 义字段 交集型歧义 组合型歧义
1 引言
词是最 小的能够独 立活动 的有意 义 的语言成 分 。 但 中文是 以宇 为基本 的书写单位 , 词语之 间没有类似 英 文空格之类的 明显的 区分 标记。随着中文信息处理
张培颖 李村合 ( 中国石油大学( 华东 )计 算机 与通信工程学院 东营 2 7 6 ) 50 1:
摘要 : 无论在 自然语言处理还是在机 器翻 译 中, 中文 自动 分词都是 一个重要 的环节。歧 义字段切分是 中文 自动分
囱 研尧中的 一个“ 路虎” 在分析基于 和基于 拦 。 规则 上下文的歧义字 段切分策 略基础上, 提出了 一种改 进的上下
( )当交集型歧义宇段具有 A C 2 B D形式时 共有
A C B D两个交 集宇段 , A C B 、C 称 BD链 长为 Z
维普资讯
20 年 第 5 期 06
计 算 机 系 统 应 用
( )在交集型歧义宇段中绝大 多数为链 长 1 3 和链
( )由计算机 自动分词所引起的歧义, 2 称为第二 类歧义 ; :独立自主和平等互利原则”用正向最 例如 “ , 大匹配法 , 就切分为: 独立/ “ 自主 / 和平, , 等l 互利/ 原
一种用于手写体汉字切分的优化模型
Ke r s o n c e o o e t ;e s s u r s u c n t i e h n wr tn Chn s h r c e e me t t n y wo d :c n e t d c mp n n s la t q a e ; n o sr n d; a d i e i e e c a a t r s g n ai a t o
w oe h l me h d n t o l i r v s s l a a t e b l y b t lo mp o e h e a i o e me tt n B n lss t i meh d a t o o n y mp o e ef d p i a i t , u as i r v s t e v r ct f s g n a i . y a a y i,h s — v i y o to h s
维普r g ad A pi t n 计算机工程与应用 o p t E gnei n p l ai s r n c o
一
种用于 手写体汉字切 分 的优化模 型
马洋 涛 , 陶志穗 , 张金 焕 , 晓伟 杨
MA Ya g to T h- u , HANG i— u n YANG a — i n -a , AO Z i s iZ Jn h a , Xio we
E ma l my 7 @1 6 c i — i: t 8 2 .on
M A Ya g— a TAO Zh - u , n t o, i s i ZHANG J n- u n, t 1 i h a e a . t a m o e f r a d it n Op i l m d l o h n wrte Ch n s c a a t r e me t n i e e h r ce s g n i . o
一个改进的书面汉语全切分算法
定 义 1 全切分 : C=C 2 C , C∈汉 字 设 1 … ( C 集 ,≤i ) 1 ≤n 为待切分 的汉字 串, W=H 2 l … H ( ∈基 于词 典 的汉 词集 ,1 ≤ m,≤m≤r 为 C 1 g )
的一种切分形式, K为所有可能 的切分形式的个数, ( ={ I≤ C) ≤K} C的所 有 可 能 的切 分形 1 为 式集合。则 ( ) c 是对 c的全切分集合, c的全 对
文章编号:04 48(070 一(2 — 4 10 — 2020 )1 I 8 0 )
一
个 改进 的书面 汉语全切分 算法
杨春花 孙红英2孙吉红 , ,
(. 1山东轻工业学院 信息科学与技术学院 , 山东 济南 205 ;. 5332济南供水集团 , 山东 济南 20 1) 504 摘要 : 提出了一个改进的书面汉语全切分算法, 它通过确保 每次切分位置 的唯一性 , 克服 了全切分 中普遍存在的重复 切分。实验证明, 改进后的全切分算法效率平均提高 8%以上。 0
Ab s
: n i r e lo tm fw r mn-e me tt n fr r tn C iee i p o 0 e i p l , hc A mpo d ag r h o o o is v i d g n i o i e h n s rp s d i t s a a o w t s n h er w ih
关键词: 切分 ; 全切分 ; 重复切分 中图分类号 :P9 . T 311 文献标识码 : A
An i r v d ag rt m fwo d o i e t n ain f r wrt n Chn s mp o e lo i h o r mn- g m t t o i e ie e s o t
一种汉语文本的大、小粒度切分实现方法和装置[发明专利]
[19]中华人民共和国国家知识产权局[12]发明专利申请公布说明书[11]公开号CN 101246472A [43]公开日2008年8月20日[21]申请号200810089822.6[22]申请日2008.03.28[21]申请号200810089822.6[71]申请人腾讯科技(深圳)有限公司地址518044广东省深圳市福田区振兴路赛格科技园2栋东403室[72]发明人朱鉴 李闪 [74]专利代理机构北京德琦知识产权代理有限公司代理人宋志强 麻海明[51]Int.CI.G06F 17/27 (2006.01)权利要求书 4 页 说明书 13 页 附图 4 页[54]发明名称一种汉语文本的大、小粒度切分实现方法和装置[57]摘要本发明公开了一种汉语文本的大、小粒度切分实现方法,包括如下步骤:设置大粒度切分方式和小粒度切分方式;根据输入的粒度需求,采用相应的粒度切分方式对汉语文本进行切分处理,并输出切分后的汉语文本。
本发明还公开了一种汉语文本的大、小粒度切分装置。
本发明方案可以根据实际需要采用相应的粒度对文本进行切分,能够满足不同后续汉语文本处理需求。
200810089822.6权 利 要 求 书第1/4页 1、一种汉语文本的大、小粒度切分实现方法,其特征在于,包括如下步骤: 设置大粒度切分方式和小粒度切分方式;根据输入的粒度需求,采用相应的粒度切分方式对汉语文本进行切分处理,并输出切分后的汉语文本。
2、根据权利要求1所述的方法,其特征在于,所述设置大粒度切分方式和小粒度切分方式包括:制定模式词类别以及相应的粒度标准,根据模式词类别生成不带有粒度信息的确定状态自动机DFA来识别模式词;根据模式词类别生成带有粒度信息的DFA来对模式词进行大、小粒度切分。
3、根据权利要求2所述的方法,其特征在于,所述制定模式词类别以及相应的粒度标准包括:对于数字和除数字之外的其它字符共同组成的模式词,大粒度切分方式为将该模式词作为整体,小粒度切分方式为:将数字和除数字之外的其它字符切分开。
一种优化的手写字符自动分割算法
手写字符自动分割算法是计算机视觉领域中的一个重要问题,其在人物识别、表格处理、文字识别等领域有着广泛的应用。
本文针对手写字符识别中的分割问题,提出了一种基于统计特征的自动分割算法。
该算法通过对手写字符进行图像处理、特征提取和分类识别等步骤,有效提高了手写字符分割的准确度和鲁棒性。
一、问题描述手写字符识别是一项具有挑战性的任务,其中手写字符分割是其中一个重要环节。
手写字符分割的主要任务是将一张包含多个手写字符的图像分割成单独的字符区域,从而方便后续的字符识别框架进行处理。
但是由于手写字符之间存在着大量的重叠和相互依存关系,使得手写字符的自动分割变得十分困难。
因此,如何快速、准确地进行手写字符自动分割一直是当前研究的热点问题之一。
二、算法设计思想本文提出的手写字符自动分割算法基于统计特征,具体思路如下:( 1)图像预处理首先对输入的手写字符图像进行预处理,以获得更好的图像质量。
本文采用了常用的预处理方法:二值化、噪声去除和形态学处理。
通过二值化将原始图像转化成二值图像,将除黑色和白色外的其他色彩全部转换为黑色或白色。
之后进行噪声去除,采用平滑滤波去除图像中的细小随机噪声。
最后对图像进行形态学处理,通过开、闭操作使得图像轮廓更加平滑,同时也可将字符之间的一些噪声和联结区域去除。
( 2)特征提取通过图像预处理,得到一个处理后的手写字符图像,可以发现字符与字符之间还存在着较大的联系,甚至有部分字符之间会有重叠部分。
因此,针对这种情况,传统的基于形状和书写规则的分割方法往往不太适用。
本文提出了一种结合灰度直方图与投影的特征提取方法,通过统计图像中每列像素值的分布,可以得到一张灰度直方图。
根据灰度直方图中的极大值点,可以确定每个字符在图像中的位置和大小。
另外,根据图像中每行像素值的分布,也可以得到一张水平和竖直方向上的投影图,进一步帮助确定字符的位置和边界。
( 3)分类识别针对特征提取得到的每个字符的位置和大小,本文采用了传统的分类识别方法进行分类识别。
一种改进的脱机手写文字细化算法
Li un 和 G nu n在 文献 [ ] e H ag exnWa 3 中提 出 了
一
种有效 的并行文 字 细化 算 法 , 该算 法采 用 了 7个
保 留模板 和 5 删除模板 , 0个 分别如 下 :
( ) 留曲线 的端点 ; 5保
20 08年 8月 1 1日收 到 国家 十五 科 技 攻关 项 目 (04 A 1B) 20B S0
⑥ 20 S i ehE gg 08 c .T c. nn.
一
种改 进 的脱 机 手写文 字细 化算 法
刘 瑛 王 绪 本
( 都 理 工 大学 信 息 工 程学 院 , 都 60 5 ; 都 理工 大 学研 究 生 院 109) 成 成 10 9 成 ,60 5
摘
要
在分析 已有细化算法 的基础上, 针对两个像素宽 的文字笔划 , 设计像素保 留算 法, 有效解决 了文字笔划 断裂及 丢失 细化 模 板 断裂 丢失
一
情 况有关 ; 在 并行 方 式 中 , 而 当前 迭 代 仅 仅 由前 一
次 的迭代 情 况 决 定 。串 行 细化 算 法 的处 理 结 果 依
赖 于对像素 处理 的先后 顺 序 , 而像 素点 的消除 或 因 保 留不可预 测 ; 而并 行 细化 算 法对 图像 进 行 细化 时 利用 相 同的条件 同时检 测 所有 像 素点 , 结果 具有 其 各 向同性 , 此 从 算 法 原 理 上 并 行 方 法 优 于 串行 因
方法 。
个 好 的细化 算法应该 达到如 下要求 :
() 1 骨架 图像必 须保持原 图像 的连通性 ; () 2 骨架 图像应尽 可能是原 图像 的中心线 ;
() 3 细化 结果 要 尽 可 能 细 , 争取 得 到一 个 像 素 宽 的线条 图像 ; () 4 应使用 尽可能少 的迭代 次数 ;
一种有效的手写汉字多步分割方法
一种有效的手写汉字多步分割方法
马瑞;杨静宇
【期刊名称】《中国图象图形学报》
【年(卷),期】2007(012)011
【摘要】在字符识别系统中,字符的有效分割是识别的关键.针对手写汉字字间距及字内距无规则可循,字符间极易发生粘连、交错等现象,提出一种多步分割方法.该方法首先利用Viterbi算法将原字符串切分成互不连通的分割块,使非粘连汉字、交错汉字得到正确分割;对于其中宽度较大存在粘连字符的分割块,从候选分割点入手,用非线性分割路径将粘连部分分开;最后再应用A*算法找到全局最佳分割位置,使过分割的字符得到完整合并.实验结果表明,该方法对于手写汉字的分割是可行、有效的.【总页数】6页(P2062-2067)
【作者】马瑞;杨静宇
【作者单位】南京理工大学计算机系,南京,210094;南京理工大学计算机系,南京,210094
【正文语种】中文
【中图分类】TP391.43
【相关文献】
1.基于可变窗口的古代手写汉字多步切分方法 [J], 吴相锦;张忠林;周生龙
2.一种基于SVG的在线连续手写汉字多步分割方法 [J], 李昕岩;陈联
3.一种适用于嵌入式环境下的手写汉字分割算法 [J], 周正;童维勤
4.一种有效的手写体汉字组合特征的抽取与识别算法 [J], 孙权森;金忠;王平安;夏德深
5.一种手写体汉字快速细化分割算法 [J], 刘平
因版权原因,仅展示原文概要,查看原文内容请购买。
用于手写汉字识别的文本分割方法
用于手写汉字识别的文本分割方法雷鑫;李俊阳;宋宇;赛琳伟【摘要】本文提出了一种手写汉字文本的分割方法,填补了汉字识别领域在文本行分割方面的空白.本方法首先对预处理后的文本图片进行池化处理,然后运用并查集算法得到每行为一个连通区域,最后调整每行上下的孤立区域的归属,最终把多行文本图片分割为单行,为后期的汉字列分割做准备.此方法虽然用行分割,但也为汉字的列分割提供了新的思路.【期刊名称】《智能计算机与应用》【年(卷),期】2018(008)002【总页数】3页(P126-128)【关键词】手写汉字识别;池化;文本分割;并查集【作者】雷鑫;李俊阳;宋宇;赛琳伟【作者单位】河海大学常州校区数理部, 江苏常州213022;河海大学常州校区数理部, 江苏常州213022;河海大学常州校区数理部, 江苏常州213022;河海大学常州校区数理部, 江苏常州213022【正文语种】中文【中图分类】TP391.41引言汉字识别技术经过长期的发展已经日趋成熟,无论是联机汉字识别还是难度更高的脱机手写汉字识别[1],其识别成功率均有较大的提升,并在相关的领域得到了一定的推广应用。
作为汉字识别中的关键组成部分,汉字分割技术的进展也将制约着汉字识别率的研究提升。
能够完整无误地分割出整个汉字对汉字识别来说尤为重要,这也是目前汉字识别技术攻关中的研究处理重点。
区别于字母、数字,汉字的结构复杂,形式多样,不同人的书写习惯和选用字体也形色多样,书写起来多具有很大的随意性,因此汉字分割较其它字符的分割也更显难度。
近年来,学界已基于汉字识别技术研发提出了一系列的汉字分割方法。
这些方法主要包括:基于汉字结构的切分方法[2]、基于识别的切分方法[3]、基于词的整体切分方法以及基于统计的切分方法[4]等。
如上的汉字分割方法虽然对特定的汉字图片获得了可观的成功率[5],但却都各自存在着一定缺陷。
例如基于结构的切分方法中汉字笔画的提取十分复杂,基于识别和词整体切分方法又会产生效率与识别率双重走低的问题,而基于统计的切分方法则只适用于非黏连的汉字。
用于手写汉字识别的改型Adaboost算法
用于手写汉字识别的改型Adaboost算法付强;丁晓青;刘长松【期刊名称】《高技术通讯》【年(卷),期】2009(019)004【摘要】针对大部分多类Adaboost算法因训练复杂度过高而难以应用于手写汉字识别这种大类别数分类的问题,提出了一种新的改型的多类Adaboost算法.该算法采用基于描述性模型的多类分类器--改进的二次鉴别函数(MQDF)分类器作为基元分类器,可直接进行多类分类,无需将多类问题转化为多个两类问题处理,大大降低了训练复杂度.此外,该算法根据广义置信度更新样本权重,实验证明此方法简单有效.为了降低算法的识别复杂度,对训练后得到的基元分类器组进行删减,仅保留一个最优的基元分类器作为最终分类器.在HCL2000及THOCR-HCD数据集上进行的实验表明,该算法的相对错误率比现有算法分别下降了14.3%、8.1%和19.5%.【总页数】6页(P331-336)【作者】付强;丁晓青;刘长松【作者单位】清华大学电子工程系智能技术与系统国家重点实验室,北京,100084;清华大学电子工程系智能技术与系统国家重点实验室,北京,100084;清华大学电子工程系智能技术与系统国家重点实验室,北京,100084【正文语种】中文【中图分类】TP3【相关文献】1.一种适用于超多类手写汉字识别的新改型Adaboost算法 [J], 丁晓青;付强2.用于手写汉字识别的文本分割方法 [J], 雷鑫;李俊阳;宋宇;赛琳伟3.用于手写汉字识别的分布式平台研究与实现 [J], 谢宇;步丰林4.用于手写汉字识别的文本分割方法 [J], 雷鑫;李俊阳;宋宇;赛琳伟;5.一种多模型超图用于手写汉字识别算法 [J], Wei Binghui;Xie Huihui;Deng Xiaohong因版权原因,仅展示原文概要,查看原文内容请购买。
一种用于手写体汉字切分的优化模型
一种用于手写体汉字切分的优化模型
马洋涛;陶志穗;张金焕;杨晓伟
【期刊名称】《计算机工程与应用》
【年(卷),期】2008(044)002
【摘要】在连通域单元的基础上提出了一种手写体汉字切分的优化模型,该模型可以自适应的确定部件、单个字和粘连字的宽度.另外,对粘连字的切分采用了加权k 的均值法.整个切分方法既提高了算法的自适应能力,又提高了切分的正确率.实验表明这种方法具有很好的切分效果.
【总页数】3页(P227-229)
【作者】马洋涛;陶志穗;张金焕;杨晓伟
【作者单位】华南理工大学,数学科学学院,广州,510640;华南理工大学,数学科学学院,广州,510640;华南理工大学,数学科学学院,广州,510640;华南理工大学,数学科学学院,广州,510640
【正文语种】中文
【中图分类】TP391.41
【相关文献】
1.一种用于手写体汉字识别的候选字加权 [J], 吴敏清;金连文;尹俊勋;黄建成
2.一种离线手写体汉字切分的自适应算法 [J], 朱锴;赵宇明;吴越
3.用于粘连手写体汉字切分的二次寻点算法 [J], 吴越;赵宇明;朱锴
4.一种用于脱机手写体女书字符切分的方法 [J], 刘赛;王江晴;张振绘
5.一种用于脱机手写体汉字识别的多层流水线并行处理结构 [J], 张立军;赵雁南;夏武颖
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
f. 删除离散干扰污点. 将外接矩形框的高宽 小于一定门限的连通域认为是非汉字笔画的干扰 污点, 予以删除.
g. 扫描结束, 获得图像点阵中的所有汉字笔 画部首的连通域 ( 用相互交错的矩形条表示) .
在扫描过程中, 通过不断地减少操作对象( 矩
Ming Del ie L iu J i an H u J iaz hong L i H aitao Abstract: Based on an analysis o f t he t radit ional segm ent ation alg orit hm , an improved handw rit t en Chinese tex t seg mentat ion al gorit hm is put f orw ard. T he alg orit hm is abl e t o handle w it h t he segm ent at io n o f askew images of small angle and st roke-joint ed charact ers, and it is pr oved t o be w ith st ro ng anti-interf er ence abilit y. T he implement at io n met hods are giv en. Key words: Chinese char act er recog nit ion; line seg ment at ion; charact er segm ent at io n Ming Delie Doct oral Candidat e; Inst itut e of Pat tern Recognit io n & Art if icial Int elligence, HUST ,
在行向连通域的组合过程中, 组合的精确度 固然是最重要的, 但速度同样也是一个不可忽视 的因素. 由于对每一个连通域, 需要对整个连通域 队列进行遍历搜索, 寻找与之同属一个汉字的连 通域, 其计算量是相当大的. 解决的办法是将匹配 的范围由全局缩小为局部. 一种局部匹配的办法 是将搜索的范围缩小至一个半径为 r 的圆周内, 即以当前连通域为中心, 画一个半径为 r 的圆, 然 后只对中心落在此圆周内的连通域考虑与当前连
明德烈 柳 健 华中理工大学图像识别与人工智能研究所
胡家忠 李海涛
图像信息处理与智能控制教育部开放研究实验室 ( 武汉工业大学信息工程学院)
摘要: 在分析 传统手写汉 字文本切 分算法利弊 的基础上, 提出 了一种改 进的基 于快速 连通域 提取的 切分算 法, 算法具有很强的抗干扰能力, 有效解决了小角度歪 斜图像和笔画粘连字符的汉字切分问题. 同时给出了 具 体的实现方法. 关 键 词: 汉字识别; 行切分; 字切分 中图分类号: T P774 文献标识码: A 文章编号: 1000-8616( 2000) 02-0087-03
2 实验结果
对于常用的 20×20 字的书写稿纸, 算法的执 行时间不到 1 s ( 奔腾 166 M Hz 机器) . 图 6 是用 本算法进行图像切分的结果示例.
图 6 改进算法的切分结 果
值得指出的是, 由于本算法的操作对象是矩 形条, 而不是像素点, 汉字的连通域是由相互邻接 交错的矩形条表示的, 因此相邻汉字之间外接矩 形框的交错并不影响汉字的分离, 不会将某一汉 字的笔画像素点切分到相邻汉字的点阵中去.
参考文献 [ 1] 张忻中. 汉字识别技术. 北京: 清华大学出版社, 1992. [ 2] 周昌 乐. 手 写 汉字 的 机器 识 别. 北 京: 科 学出 版 社,
199 7. [ 3] 胡家 忠. 计 算 机文 字 识别 技 术. 北 京: 气 象出 版 社,
199 4.
An Improved Algorithm for Handwritten Chiese Text Segmentation
收稿日期: 1999-08-20. 作者简介: 明德烈( 1974-) , 男, 博士研究生; 武汉, 华中理工大学图像识别与人工智能研究所 ( 430074) . 基金项目: 国家高技术研究发展计划资助项目 ( 863-306-03-05-4) .
88 华 中 理 工 大 学 学 报 2000 年
图 3 用于搜索行间隔边界线的移 动窗口
将这个窗口沿着图像的纵向 ( Y 轴) 以一定 间距从上到下移动, 在移动的过程中, 从左至右检 查在各列向段中是否有一个空白矩形条与当前窗 口部分或全部交错, 若有则计数值加 1 ( 每一次 窗口移动后将计数值清 0, 并且计数值小于等于 总的列向段数) . 如果在某一时刻, 计数值与总段 数之比大于系统门限值 ( 系统设定为 90 % ) , 则 认为在此窗口附近存在一个行的间隔. 当求得一 个行间隔时, 将窗口继续向下移动, 搜索下一个行 间隔, 直到碰到图像底边缘时, 搜索结束. 1. 3 行向连通域的组合
对象, 用区域扩展的方法来求解连通域, 则时间耗 费相当大. 为此, 将操作对象由点转化 为矩形条 ( 即一个面) , 从而大大提高了算法的速度. 算法的 程序流程如下:
a. 图像点阵按列向均分为 m 段 ( m= x / y , x 为图像宽度, y 为段宽度) .
b. 扫描图像, 搜索每一列向段内的空白矩形 条.
经实际编程实现后的大量实际样本切分测试 表明, 改进后的手写汉字文本切分算法有效地解 决了小角度歪斜图像、字符笔画粘连图像的切分 问题. 实现了程序操作对象由像素点向面 ( 矩形 条) 的转变, 不仅使快速连通域的提取成为可能, 并且在连通域的提取过程中有效的滤除了各种干 扰污点. 与传统算法相比, 改进后的手写汉字文本 切分算法不仅速度快、精度高, 并且具有很强的抗 干扰能力.
汉字文本的行字切分是脱机手写汉字识别的 关键问题之一[ 1] . 传统的行字切分算法是分别对 图像点阵区域进行行 ( X 轴) 、列 ( Y 轴) 方向上 的投影[ 2] , 分别得到横向和纵向的黑像素的统计 直方图. 字符点阵区域在直方图上呈现出波峰状, 而字符间的空隙在直方图上呈现出波谷状. 以此 为基础, 加上必要的修正措施, 首先由行切分得到 一行行文本字行, 然后在文本字行中进行列切分 得到一个个单独的汉字字符点阵. 此算法思路简 单明了, 但在一定程度上依赖于手写汉字文本书 写质量和规范. 例如在字切分中, 一般字间距远不 如行间距明显, 再加上存在着左右结构的部首分 离汉字, 写得很宽或很窄的汉字及字与字之间的 笔画粘连[ 3] , 使得文本的切分具有很大的难度. 为 此本文提出了一种基于快速连通域提取的思想来 进行手写汉字文本行字切分的算法, 在一定程度 上消除了传统汉字文本切分算法的缺陷.
通域的组合做准备, 因此行分界线的准确与否直 接牵涉到连通域组合的正确性.
在此切分算法中, 行分界线确定的过程是穿 插在上一步搜索连通域的过程中进行的. 在搜索 连通域的过程中, 当把图像进行列向分段, 并在每 段内搜索到空白矩形条时, 在图像点阵上开一个 宽度为 w ( 图像宽度) 、高度为 h ( 系统中取为 40 个像素单位) 的窗口 ( 如图 3 所示) .
图 4 连通域投影示意图
1. 4 列向连通域的组合 列向连通域的组合过程远没有行向连通域组
合那么简单, 它受多种因素的干扰. 由多个左右部 件构成一个汉字的情况在常用的汉字字符集中相 当普遍, 当这些部件出现在同一行内待组合时, 若 处理不当, 则有可能出现一个字的左右部件组合 错误导致一片组合错误的情况 ( 如图 5 所示) . 而 且, 在一篇文本中, 除了汉字字符以外, 还夹杂着 标点符号、英文、数字等非汉字信息, 其连通域的 外接矩形框尺寸一般与普通汉字字符的外接矩形 框尺寸有较大的差异, 在列向连通域组合过程中 同样应该加以考虑.
形条) , 也在很大程度上提高了程序的执行速度. 在求解连通域的过程中删除干扰污点的方法, 既 能删除汉字部首外部的污点, 也能删除部首内部 的离散污点, 这将有利于识别过程中的特征抽取. 图 2 是一个具体求解连通域的例子.
图 2 一个求连通域的例子
1. 2 行分界线的确定 行的分界线的确定实际上是为下一步行向连
第 28 卷 第 2 期 华 中 理 工 大 学 学 报 V ol. 28 N o . 2 2000 年 2 月 J. Huazho ng U niv. o f Sci. & T ech. F eb. 2000
一种改进的手写汉字文本切分算法
1 一 种改进的手写 汉字文本 切分算 法
1. 1 连通域的快速获取 本算法的基本思想是基于连通域的组合, 所
以算法的第一步是求字符点阵连通域. 这里指的 仅仅是像素点阵的连通域, 也就是说, 如果一个汉 字由几个分离的部件构成, 那么它将对应多个连 通域, 其中由每一个部件求得一个连通域.
在此步骤中, 关键是一个 速度问题. 一 般来 说, 一幅最普通的 A4 幅面的图像的长度和宽度 都至少有 2 000 多个像素点, 若以像素点为操作
第 2 期 明德烈等: 一种改进的手写汉字文本切分算法 89
此平均值与所有矩形框做一比较, 滤掉与此平均 值差别较大的数据, 只保留与此平均值的差别在 某一个适当范围的数据 ( 如不大于 40 % ) , 再求 一次平均值得到最终结果. 因为一行中, 总有一些 汉字是由多个左右部件构成的, 即与多个连通域 相对应, 因此随着连通域的组合, 应当对此平均值 逐步求精.
图 5 一个常见的列向连通域组合错误例子
针对上述问题, 对当前行中出现的所有连通 域的最小外接矩形框的一些平均特征参数进行统 计. 这些平均特征参数包括矩形框的平均高度、宽 度、字间距. 在统计过程中, 要考虑到一些可能存 在的干扰, 如标点符号、字符粘连等, 它们构成一 些宽度要么很短、要么很长的矩形框. 这类矩形框 的参数参与平均参数的统计, 得到的平均值显然 不能真实反映实际情况, 将给后面的组合工作造 成直接的错误结论. 因此必须以某种方式滤掉此 类干扰数据. 由所有矩形框计算出一个平均值, 以