限制性手写体字符OCR识别方法的研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
哈尔滨工程大学
硕士学位论文
限制性手写体字符OCR识别方法的研究
姓名:杜彦蕊
申请学位级别:硕士
专业:信号与信息处理
指导教师:郭连骐
20030301
哈尔滨工程大学硕+学位论文
摘要
本系统的研究对象为限制性手写体字符(包括10个阿拉伯数字和52个英文字母的大小写,共62个字符)。
本文研制的CC一OCR系统完成了字符从扫描输入到计算机识别的全过程。
本文提出并实现了基于特征编码的多级分类识别方法,通过绘字符抽取足够多的有效的特征并给特征编码实现第一级分类,对于第一级分类后仍不能区分的字符,再进入第二级分类用模板匹配的方法最终达到区分的目的,这种方法的重点在第一级分类阶段。
实验结果表明这种基于特征编码的多级分类识别方法是可行有效的。
在预处理阶段,本系统对字符点阵进行了预处理,为以后的特征提取和识别打下了良好的基础。
在第一级分类阶段,本文提出了边沿表极值差特征、左边沿表间断特征、改进的宽度特征、针对所区分的字符在不同局部范围取交截特征的平均值与阈值比较等特征,这些特征与已有的一些特征相结合,较好的实现了在第一级分类阶段对字符的分类能力。
本系统的硬件部分由扫描仪与计算机组成,实现程序由C和VC++6.0完成。
关键词:限制性手写体字符识别;光学字符识别;模式识别:特征提取
哈尔滨工程大学硕士学位论文
ABSTRACT
TheresearchobjectofthiSsystemareconstrainedhandwrittencharacters(including10ArabicnumeralS,26capitalEnglishlettersand26smallEng]ishletters,62charactersaggregately).TheCC—OCRsystemdevelopedbytheauthorcancompletetheprocessfromthecharactersscaninputtothecomputerrecognition.
ThisdissertationbringsforwardandrealizesthemultilevelC1aSSifiablemethodwhichiSbasedoncharacterscoding.Abovea11,thiSmethodrealizesthefirst—gradeClassificationbyextractingenougheffectivecharactersfromcharactersandcodingthem,totheotherswhichcoundn’tberecognizedbythefirst—gradeclassification,themethodwi儿adoptthesecond—gradeclassificationusingtemplatematchjngtorecognizethesecharacters.TheemphasisofthiSmethodstandsonthefirst—gradeclassificationphase.TheexperimentprovesthatthiSmethodiSfeasibleandeffective.
Inthepre—processingphase,eachcharacteriSfedintoapre—processor,thiSmakesfeatureextractionandrecognitioneasy.Inthefirst—gradeclassificationphase,thedissertationputSforwardborder-tablesubtractofmaximumandminimumfeature、]eft—border—tableintermissionfeature、improvingwidthfeature、crossingamountaveragefeature,thesefeaturescombineswithsomeexistingfeatures,realizestheahilityofclassifieationinthefirat—gradeclassificationphasebetter.
ThiSsystemiScomposedofscannerandcomputer.ThiSprogramiScompletedUSingCandVC++6.0.
Keywords:constrainedhandwrittencharacterrecognition:OCR(OpticalCharacterRecognition):patternrecognition:feature
extraction
哈尔滨j二程入学硕士学位论文
第l章绪论
1.1OOR系统研究的意义
80年代以来,随着计算机在各行各业和社会生活各个方面的广泛应用以及计算机网络的高速发展,我们所生活的社会进入了信息技术不断发展的时代。
hternet正以令人注目的加速度高速发展。
它以不可阻挡的趋势影晌着我们社会,渗透到我们生活的各个领域。
人们逐渐认识到,信息与物质和能源一样,已成为当今世界社会政治,经济,科技等赖以发展的一项重大资源。
但是,在信息技术高速发展的同时,一个难题也摆在我们面前。
那就是计算机数据处理和网络传输的高速度与数据输入的低速度之间的矛盾。
目前,人类的许多信息是记录在纸上的文字图像,将这些信息输入计算机是非常繁琐而慢的工作,这在一定的程度上减缓了社会信息化的进程,因而,作为信息化基础的数据输入成了计算机应用中的瓶颈问题。
实现计算机自动录入是解决这个瓶颈的关键所在。
OCR系统,作为计算机智能接口的一部分,目前是完成将记录在纸上的文字图像信息自动录入计算机的迅速有效的手段之一,故而成为解决输入信息“瓶颈”问题的关键。
OCRJt!IJ光学字符识别技术,是通过扫描仪把印刷体或手写体文稿扫描成图像,然后识别成相应的计算机可直接处理的字符。
它能大大提高信息的采集录入速度,减轻人们的工作强度。
人们接受信息最频繁的是视觉通道。
在日常学习和生活中,所处理的信息有75%~85%是视觉信息,其中文字信息愈来愈占重要地位。
比如:对各种…w文献的阅读、查找、翻译;对各种统计报表的汇总、计算、分析;对各种函件票证的分拣、传送、验核等。
要实现对这些文字信息处理过程的机械化、自动化,其先决条件是利用计算机对这些文字信息进行识别。
在模式识别发展的初期,很多人都把字符识别作为自己的研究方向,其巾…个主要原因在于,人们普遍认为字符识别是一个比较容易解决的问题。
哈尔滨工程大学硕士学位论文
问题。
然而历史的发展出乎了许多人的预料,在取得一些初步的成果之后,字符识别的研究便遇到了巨大的困难,这些困难导致了人们研究兴趣的分流,不少人转而从事模式识别其它分支的研究。
而坚持下来的人,则不得不改变当初的认识,重新审视这一问题。
实际上,字符识别不是一项孤立的应用技术。
字符识别的深入研究,必然会促进模式识别及其相关学科的发展。
字符识别具有很强的应用背景,巨大的市场需求是字符识别能够存在和发展的主要原因。
因此无论在理论上还是应用上,字符识别的研究都具有重要的意义。
1.200R技术国内外研究动态
OcR是模式识别的一个分支,按字体分类主要分为印刷体识别和手写体识别两大类。
而手写体识别又可分为受限手写体和非受限手写体两类。
对OCR技术的研究己有几十年的历史。
早在1929年,陶舍克就利用光学模板匹配方法识别数字。
当时,他使用了10块模板对应lO个数字,依次把待识别的数字投影到这10块模板上,当模板透过光达到晟小时(数字遮挡了模板的透光部分),投影的数字就被识别成这块模板上的数字。
Grimsdale等人在1958年,作了些开创性的工作。
他们对输入模式的扫描是用飞点扫描器实现,然后用一数字计算机分析字符的形状,抽取其基本特征,而后将这些特征与存在计算机中的特征相比较,并作适当的判别。
另外一个杰出的工作是Browning领导的小组,他们介绍了一种更加通用的采用10×15个光电管输入的方法。
在六十年代初,麻省理工学院的MurrayEden指出,所有拉丁字符可以由18种笔划组成,而这18种笔划又可分解成四个基本笔划。
Eden的工作的重要之处在于他阐述了所有手写字符都可由有限数量的基本特征构成,这一观点实际隐含于以前的工作中,在以后的文字识别中采用句法(结构)模式识别的所有方法都来源于这一思想。
七十年代初期,Parks等介绍一种抽取拓扑特征的特征抽取方法以及多级结构链接的识别方法。
随后,日本对汉字识别进行了研究,主要是对印刷体汉字,手写印刷体汉字及在线手写汉字识别的方面的研究。
并于1980年进行了印刷体汉字识别的公开表演。
哈尔滨工程大学硕士学位论文
在国内,70年代开始了对印刷体字符及手写体字符的识别。
70年代末,复旦大学研制了我国第一台印刷体字符识别机,该机可识别西门子打字机打印的字符。
与此同时,中国科学院自动化研究所开展了手写数字的研究工作,研制了国内第一台邮政编码的识别样机,以后邮电部第三研究所、西北电讯f程学院、重庆大学均开展了OCR机的研制工作,取得了一定的进展。
大约到了80年代初,随着个人计算机的出现,CCD平板式扫描仪的商品化,字符识别技术得到了蓬勃发展,许多研究者将其它领域的一些新技术及研究手段引入到OCR技术的研究中,并取得了一定的成果。
这些技术和手段包括人工神经网络、小波变换、分形、模糊理论以及90年代初的开放式巨系统、集成系统理论等领域。
目前,国内外对手写体字符识别己达一定水平,但识别速度和识别精度仍有待提高,故有必要进~步研究手写体识别的有关问题。
在字符识别研究方面,有代表性的国外系统和研究小组有美国的Expervisi013的PCK(Recognitioncoolkits),美国纽约州立大学buffal0分校的cedar研究中心,加拿大concordia大学的CENPARMI实验室,日本东芝的Textreader以及法国的银行支票识别系统。
国内则以清华大学电子系、中自汉王、北京邮电大学信息系、沈阳自动化所以及重庆大学为代表。
1.3OCR技术的应用
OCR技术的应用领域很广泛,它在很多场合可替代键盘完成高速的文字录入任务,以下是OCR的一些主要应用:
1.用OCR进行印刷体文稿的识别录入,这是很多办公部门经常使用方法之。
国内己有很多这样的产品,这类产品的缺点是对于有表格、图形或图像的文稿需要手工进行干预,而且这类产品抗干扰能力较差。
2.可对图形、图像和文本等混排的复杂版面进行自动切分的EpJ¥IJ体识别系统是现在研究的重点之一,由于其完善的功能使之在出版业具有广阔的应用前景。
3.邮件自动分拣系统,邮件自动分拣系统是邮政系统提高信函分拣速度的有效手段,国内外已普遍使用,其核心技术就是手写体数字的识别。
哈尔滨工程大学硕士学位论文
4。
手写体表格数据自动录入系统,可广泛应用于政府、税务、保险、商业、医疗、金融、厂矿等各行业的申报表、调查表等表格数据的输入和处理。
与手工录入相比,手写体表格数据自动录入系统不但输入的速度快,而且可对输入的数据进行各种计算以校对录入的正确性,从而在保证录入质量的同时极大的提高了工作效率。
哈尔滨工程大学硕士学位论文
第2章字符识别及其方法与基础理论
字符识别是一个典型的模式识别问题,也是其中一个非常重要的应用领域。
它所涉及到的理论和方法,要么是来自于模式识别,要么是在本领域取得成功后推广到其它分支从而也成为模式识别理论与方法的一个部分。
也正是由于字符识别的飞速发展,才使得模式识别在短短的几十年内便成为一个成熟的学科。
因此,在讨论字符识别问题之前,我们首先对模式识别问题做一简单介绍。
2.1模式识别概要介绍
简单地说,所谓模式识别就是指识别出给定物体所归属的类别。
我们在日常,E活和工作中都离不开模式识别,比如到幼儿园接小孩,要辨认出哪个是自己的孩子:医生治病,首先要通过一系列的诊断来判断出患者得的是什么病,然后才能对症下药,这些都是人类的模式识别过程。
这里所说的模式识别是指用计算机来代替人类识别模式,研究的是计算机模式识别系统。
换句话说,也就是使计算机系统具有模拟人类通过感官接受外界信息、识别和理解周围环境的能力。
一般来说,模式识别的方法可以分为统计方法、句法方法和人工神经网络方法。
传统的模式识别以前两种方法为主,它将重点放在模式信息处理的数学方法或计算机科学方面,产生出基于贝叶斯方法的统计模式识别和基于形式语言学的句法模式识别。
前者采用统计数学的方法,以若干特征参数将模式表达为特征空间中的向量,用判决函数进行分类。
对于一个具体的模式,选择和提取其特征,根据具体问题的性质,提出一个反映分类好坏的标准,寻找最符合这一标准的分类方法。
后者则着眼于模式结构而不是着眼于特征。
其思想是把模式看成任意长的语句或符号串,分类的问题就变成判断所考虑的语句是否属于问题中的某种语言,即句子是否服从某种语言的语法约束条件,模式识别过程就变成从语法上分析句子,看这个句子是否可由这个语言
哈尔滨工程大学硕士学位论文
的语法产生。
人工神经网络方法的出现标志着人们开始考虑利用赖以生存的非线性世界,探索和研究象人脑这样的开放的复杂巨系统。
人工神经网络由许多具有非线性映射能力的神经元组成,神经元之间通过权系数相连接。
这种大规模并行结构具有很高的计算速度。
人工神经网络的信息分布式存储于连接权系数中,使网络具有很高的容错性。
而模式识别中往往存在噪声干扰或输入模式的部分损失,网络的这一特点使其具有能够解决模式识别问题的潜力。
现在,人工神经网络方法已经成为模式识别中一个重要的方向。
一个模式识别系统,它的基本职能是对系统所要处理的模式究竟归属于哪一类别作出判别。
从一个需要加以判断其类别的模式输入到系统中,一直到系统作出判别之间,主要包括以下几个环节,通过这些环节进行信息转换,如图2.1所示。
输入模式广_—]-_———1r——==]厂_——]识别结果
———叫竺型}—+|堡竺里}—-1竺笙塑坚}叫坌鲞}—一
图2.1模式识别框图
足-中检测环节是一个检测装置,它把输入模式转换成适合于机器处理的形式,通常是用各种传感器将不同类型的信号转换成电信号。
在检测装置的后面是预处理环节,预处理的目的是去除噪声、加强有用的信息,并对输入设备或其它因素造成的退化现象进行复原,以利于特征提取的进行。
经过预处理环节后,数据的维数依然很高,特征提取的目的是将输入信息压缩成一组维数较低的、能够反映原始模式本质特征的特征向量。
一组稳定的和具有代表性的特征,是一个识别算法的核心,因此,采用不同特征的识别算法即使是采川相同的分类策略也可以认为是不同的算法。
特征提取完成之后,就可以进行分类了。
分类环节的功能是对输入模式所应属于的类别作出判别并给出识别结果。
研制一个模式识别系统,包括两个阶段,一是系统的设计,另一个是系统的实现。
当提出一个分类问题后,首先需要从每一类别中,找出若干代表该类的“样本”,称为训练集,利用这些样本进行分类器的设计,然后再利用设计好的分类器对输入模式进行识别。
模式识别是一个非常重要的学科,之所以这么说,不仅因为它是人类行
6
哈尔滨工程大学硕士学位论文
为的一个基本组成部分,而且还因为使计算机具备了模式识别能力就可以使用机器来执行感知任务,我们希望机器能够听得懂我们所说的话,看得懂我们所写的字,并且能够以直观易懂和具有人格化的方式作出反应。
可以说,模式识别是对人类智能的模拟。
而对人类智能行为的模拟,是人们长期以来梦寐以求的理想。
作为一门与此密切相关的学科,模式识别在短短的几十年内,便b速发展成为一个成熟的科学领域。
模式识别的基本理论和方法在很多领域中得到了广泛的应用。
其中包括字符识别、语音识别、笔迹鉴别、人的面孔及指纹的识别、目标的检测与辨识、医疗诊断及医学数据分析、遥感图像分析、故障诊断及可靠性等。
在模式识别众多的应用领域中,字符识别是一个非常活跃的分支,也是我们将要讨论的主要问题。
2.2字符识别
通俗地说,字符识别就是由计算机自动识别各种字符,如字母、数字、汉字或其它语言中的字符。
根据识别对象的不同,字符识别又相应的分为西文识别、数字识别和汉字识别等。
这些字符可以是手写体,也可以是印刷体,因此字符识别又分为手写体字符识别和印刷体字符识别。
根据采用的输入设备的不同,字符识别又可以分为联机识别和脱机识别,其中联机识别是指将字符书写在与计算机相连的书写板上,由计算机根据字符的书写轨迹进行实时识别,因此联机识别是针对手写体而言的;脱机识别是指将字符书写或打印在纸张上,用扫描仪或其他光电转换装置将其转换成电信号输入到计算机中,再由计算机进行识别。
因此脱机识别又称为光学字符识别,简记为OCR(OpticalCharacterRecognition),以强调其输入装置是光学设备。
从对书写者的要求来分,手写体字符识别又分为限制性(Constrained)和非限制性(Unconstrained)手写体字符识别(或称自由手写体字符识别)。
22.1系统构成
一个脱机字符识别系统的处理过程如下图所示。
啥尔滨工程大学硕士学位论文
学习阶段
图2.2字符识别系统的处理过程
整个识别系统由两个阶段组成:学习阶段和识别阶段。
在学习阶段中,通过研究训练字符样本集,确定每一字符类别的标准样本建立样本库。
在学习阶段中所确定的样本库是用来对未知模式分类的,即供识别阶段使用的。
在识别阶段中,将待识字符经过光电转换后,送入主机;经过预处理,再按设定的特征进行字符的特征提取;然后,将待识字符的特征与学习阶段中所确定的标准样本的特征进行比较判决,得出识别结果:并把结果送至输出设备上。
以上两方面,构成了一个完整的字符识别系统。
原始文本用扫描仪或摄像机进行光电转换输入到计算机中,经过光电转换后的文本是一幅点阵图像,图像可以是灰度的,也可以是二值的,现在一般部采用二值图像,即图像中所有象素点的取值非O即1.值为1的点称为酌景点或黑点,为0的点称为背景点或白点。
字符识别中的一个重要问题是获得较理想的二值化图像。
一般说来,经图像输入后转换成的二值图像并不能直接运用,这是因为图像输入过程中或图像本身有噪声,去掉这些噪声,并将图像变成某种标准形式和进行些加工,使特征的提取和识别变得容易进行,这些处理称为字符识别预处理。
预处理是字符识别系统的前置级。
它本身并不产生某些特征,但却有利于特征的提取。
预处理的主要目的是去处噪声、压缩冗余信息,为特征提取做好准备。
预处理一般包括平滑、分割、大小归一化和细化几步。
其中,细化是比较重要的一步。
下面详细介绍一下。
扫描进来的原始图像其笔划宽度一般都在几个像素左右,信息的冗余是
显而易见的,而要描述字符的结构,单像素宽度的笔划就足够了。
我们把这种单像素笔划宽度的图像形象地称之为骨架,获得骨架的过程就是细化。
一般对细化算法的要求如下:
(1)要保持原有笔划的连续性,不能因为细化而造成断笔。
(2)字符要细化为笔划宽度只有一个像素。
(3)细化后的骨架应尽量为原来笔划的中心线。
(4)保留字符原有的拓扑、几何特征,特别是一些明显的拐角不应被光滑掉。
(5)应使细化后不产生严重的畸变,对噪声不敏感。
细化所采用的方法很多,目前,最常用的是通过一系列迭代,根据某种判别规则逐层剥去字符边缘的像素点,直至笔划缩减为一个像素的宽度。
其中一个像素点能否被删除,要根据它的邻接点的配置情况来决定。
由于对细化最基本的要求是不能破坏模式的连通性、不能删除端点、更不能删除整个笔划(称为侵蚀),因此这类算法实现的基本思想是,根据上述要求以及像素邻接点的配置情况,设计出某些准则,根据准则来决定某个点是删除还是保留。
迭代细化算法很多,大致可以按照细化的处理过程分为串行细化处理(serialthinningprocessing)、并行细化处理(parallelthinningprocessing)和串、并行细化处理(serial—and—parallelthinningpFOCeSsing)。
用m×11的窗口对某一像素进行检测时,如该像素为可删除点,立即删除.该算法为串行细化处理,该点的删除要影响到后续点的检测。
即在第N次迭代中一点可否被删除,不仅依赖于第(N—1)次迭代的结果,也依赖于第N次已处理过的结果。
此种算法有Kwok算法””、Peleg&Rosenfeld算法“”等。
若用mXn窗口对所有点全部检测完毕后,再同时改变所有可删除的点的值,则该算法为并行细化处理。
即在第N次迭代中一点可否被删除,仪依赖于第(N—1)次迭代的结果。
此种算法有Zhang和Suen的算法”…、Naccache的“安全点”算法”“1等。
而串并行细化处理是两者的混合。
除了上述的迭代细化算法外,还有一些基于其它方法论的非迭代细化算法,这些算法由于对图像边缘的噪声非常敏感,不适于在字符识别中应用”“。
预处理后,数据的维数依然很高。
字符二值图像中各点的值,可以看成链陔字符的一组特征。
但由于这组特征的数量较大,而每个特征所含的信息量很少,因此有必要通过映射或变换的方法将信息集中到少量的特征中。
这
9
个过程就叫特征提取。
因此,特征提取的目的就是将图像信息压缩成一组维数较低的、能够反映原始图像本质的特征。
选择稳定的、分类能力强的特征是字符识别系统的核心。
字符识别中所能提取的特征有很多,但归纳起来,不外乎局部特征、全局特征和结构特征三种类型。
一些特征借助于局部变换进行推导,对字符内在结构很少或完全不做考虑,这类特征称作局部特征;同样的,通过整体变换推导字符特征的各种方法,若对字符结构也很少或完全不做考虑,则这类特征称作整体特征;所有其它各种方法都密切关注字符结构,而这种特征称作结构特征。
局部特征是指在提取特征时不利用字符的结构信息,而且任何一种特征的计算都只限于字符图像中一个局部的区域范围之内。
由于局部特征不利用字符内在的结构信息,因此可以直接推广到汉字识别中。
而且值的指出的是,尽管局部特征没有直接利用字符的结构信息,但是某些局部特征却能够在一定程度上反映字符的结构特征,而且由于它简便、易行、通用性好,是一种非常好的特征提取方法。
全局特征是指采用全局变换来获取输入图像的整体特征,并用变换系统的有序子集构成特征向量。
全局特征法依然没有利用字符内在的结构信息,这是它与局部特征法的相同之处。
二者不同之处在于,全局特征法将输入图像视为一个整体,从而在更抽象的层次上进行处理,其优点是对字符的局部畸变不敏感,缺点是会忽略某些重要的局部信息,尤其是在区分相似字符时,这一缺点会更为突出。
用于字符识别的全局变换有:二维Fourier变换、Hadamad变换、Hough变换和Rapid变换等,许多学者对这些变换在字符识别中的应用进行了深入的研究。
采用结构特征对字符进行结构分析从而达到识别的目的,是一种非常直观的方法。
此特征在汉字识别中应用最广,因为汉字是一种结构性很强的象形文字,所以汉字识别中充分利用这一特点是非常自然的。
其基本思想是:汉字可以逐步分解成部件、笔划乃至笔段,识别时可以自底向上,由象素得到笔段,由笔段合成笔划,由笔划构成部件,部件组成汉字,逐级分析字符图像的结构,根据各元素的属性、数量及其相互关系,便可判定待识汉字。
lO
经过特征提取后,就可以进行识别(分类)了。
识别就是在特征空间中用某种识别(分类)方法将被识别对象归为某一类。
其中,各种分类方法,已多见于有关模式识别的文献与专著,常用的分类方法有下面几种。
2.2.2分类方法
22.21相关匹配
这是一种统计识别方法,它通过在特征空间中计算输入特征向量与各模板向量之间的距离来进行分类判决。
距离度量的定义有很多,常用的有以下几种:
设x,S分别为输入特征向量和模板特征向量,II为特征维数。
I.S阶Minkowski度量(也叫明氏距离)
^
^
a(x,s)=【∑h—J巾¨(2一1)
J=l
其中,规定不同的S,可得到不同的度量方程。
最常用的是一阶度量,又称为绝对距离或“城市街坊距离”(“cityblock”distance)。
即:
d(x,s)=∑Ix,--Sil(2—2)
2.欧氏距离
s阶Minkowski度量中,令s=2,得到欧氏距离:
2
H
d(x,s)=匹k一已H2=[(x—s)7(x—s)】”2=Ix-sl(2—3)
/=i
3.考虑到在特征中,各分量的作用并非等同,可以得到加权距离:
dj(x,s)=1w,(x~爿(2—4)下标j表示对不同的模板可以有不同的权值。
另一个描述输入向量与模板间关系的度量是相似度,最简单的相似度定义为二者方向夹角的余弦,即:。