基于智能结构模型的手写体汉字识别方法研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于智能结构模型的手写体汉字识别方法研究
刘伟;王建平;李秀娟
【摘要】A model structure for hand-writing recognition is presented based on intelligent control and characteristic model. The complex task can be decomposed into 2 levels: Decision-making.Execution level. Decisions are made to choose the recognized method according to the hand-writing characteristic mode. The correction of recognition result can be gained through the definition of the general characters recognition error. The structure is proved to be efficient through experiment.%从智能控制与特征建模方法入手提出一种手写体汉字识别系统结构模型,仿人思维模式将复杂任务系统分解为决策、执行两层.综合目前常用的手写体汉字识别方法特点,针对不同特征汉字采用合适的识别方法,并通过广义误差对识别结果进行反馈,达到校正的目的.实验证明该结构方法有效.
【期刊名称】《巢湖学院学报》
【年(卷),期】2011(000)006
【总页数】5页(P20-24)
【关键词】手写体汉字识别;特征模型;广义误差;反馈结构
【作者】刘伟;王建平;李秀娟
【作者单位】合肥工业大学电气与自动化工程学院,安徽合肥230009;合肥学院智能控制与机器视觉实验室,安徽合肥230106;合肥工业大学电气与自动化工程学院,安徽合肥230009;合肥学院智能控制与机器视觉实验室,安徽合肥230106
【正文语种】中文
【中图分类】TP391.43
由于手写体汉字本身的复杂性及非标准性,使得手写体汉字的识别一直是模式识别领域的一个难点.目前手写体汉字的机器识别有多种方法,如基于仿生模式识别的手写体汉字识别法、八形码汉字识别法、仿人构字的汉字编码识别法等.由于其各有优缺点,目前尚未有一种成熟有效的方法解决手写体汉字的识别问题.
汉字具有多模态特性,仿人对图像汉字这一研究对象的认知过程,本文研究构造一个具有智能的脱机手写汉字识别结构模型,使其具有模仿人识别汉字的行为,通过建立识别对象的特征模型,采用不同的识别策略,调整识别模式,并通过反馈结果调整识别方法和参数,达到各种性能指标要求.
为了满足汉字识别的可靠性和高效性,本文把仿人(专家)经验知识和模式识别理论相结合,根据分层递阶推理思想,把对复杂识别系统任务设计为决策、执行两层[1,2],每层按三段执行的两层三段式结构,如图1:
智能识别系统采用决策层、执行层并行耦合式结构.决策控制层解决模式识别层与反馈校正层的多模态定性识别策略选择,以及参数调整问题,执行层完成实时识别功能并将识别结果进行反馈校正.各层均分三段执行,具体功能如下:
(1)决策层——建立汉字特征模型,进行多模态定性识别,对待识别汉字进行粗分类.
决策层的三阶段具体作用:第一阶段计算智能段,提取待识别汉字粗分类的特征模型,在监测器(MR)中完成.第二阶段知识基建立段,建立定性识别的知识基(KB),为粗分类提供专家知识库,第三阶段输出识别段,根据提取的特征对识别对象进行分类,将分类结果及识别策略送入执行层,通过控制器CR执行. (2)执行层——执行层属于控制模态的下层,根据决策层的分类结果采用具体不
同的识别策略.
执行层的三阶段具体作用:执行层直接面对识别模态问题,第一阶段,在监测器(MR)中,根据决策层的识别策略,提取相应的特征;第二阶段,建立具体识别系统的知识基(KB);第三阶段,识别输出段,通过控制器CR,将识别的结果与被识别对象进行比较,符合广义误差要求的则输出识别结果,否则反馈至决策层采用别的方法重新识别.
研究和实验表明:不同的识别方法对不同模态的汉字识别效果也不同.笔画越多,
字形,即字的结构越复杂,计算机自动识别越困难,相应提取的特征也较复杂,而笔画越少提取的特征越简单,因此简单和复杂字符的特征提取是不同的,应该根据辨识出来的汉字模态对不同汉字有针对性地采用相应的识别方法.
根据目前研究结果的分析,以下三种汉字识别方法具有不同的特点,针对于不同的汉字识别环境具有一定的互补性.
①基于仿生模式识别的手写体汉字识别法[5].该识别法为结构模式识别方法,有较
好的抗形变能力,对较简单字识别效果好.
② 八形码汉字识别法[6].该识别法为结构模式识别法,可较好的体现外轮廓特征.
③ 仿人构字的汉字编码识别法[4].该识别法为统计与结构相结合的识别方法,对复杂字识别效果好.
利用上节所设计的双层三段式识别结构模型,将三种互补的汉字识别方法进行综合,可以有效解决汉字识别中的拒识问题.
3.1 决策层主要完成待识别汉字的粗分类,并将分类结果送入执行层.对待识别汉
字进行笔画提取和结构分析,根据笔画密度特征将汉字分为简单字,较复杂字,复杂字.并把分类结果送入执行层,同时决策层接受执行层反馈的广义误差,如果出
现误识或拒识,则重新选择识别方法.决策层分三段执行,各段功能如下:
3.1.1 监测器:对待识别汉字进行预处理及归一化,提取分类的必要特征,即汉字
繁简度特征,并把信息送入知识基进行分类.汉字繁简度分类方法为提取待识别汉
字的水平垂直笔画密度:
水平和垂直方向笔画密度提取算法如下:
其中:⊗表示异或运算,hi和si分别表示水平和垂直方向第 i个笔画密度特征值,f(x,y)是汉字的二维点阵图形.
3.1.2 知识基:根据检测器计算所得汉字笔画密度特征,建立模糊规则库,对待识别汉字的繁简度进行分类,字符图像经过一系列的预处理及细化、归一化后,取穿越汉字水平和垂直笔画次数之和M作为字符繁简依据,建立该汉字属于简单、较
复杂、复杂汉字的模糊规则如下:
其中B为待识别汉字所属规类,B1为简单字,B2为较复杂字,B3为复杂字,μ
为隶属度值.
3.2 执行层
根据决策层对汉字的分类及反馈信息,采用对应算法进行识别.
3.2.1 检测器:提取相应识别方法的汉字笔段特征,并送入知识基进行识别.
a.若为简单字采用基于仿生模式识别法[3]:基本的计算模型如下:
Y为神经元的输出;f为神经元的激励函数;θ为神经元的激活阈值;xj为第j个
输入端输入(j=1,2,…,n);n 为空间的维数;wj和w′j为由第 j个输入端接
至神经元的方向权值和核心权值;S为决定单项正负号方法的参数;P为幂参数.
构建笔段的双权值椭圆型神经元序列,激励函数 f(φ)取:
激活域值θ取40;wj为xj的方向权值,wj为椭圆的长和短半轴长度值,长半轴
长取20,短半轴长取2;核心权值w′j为神经元的中心点;参数S取0;幂参数P 取2.
通过构建0°(横笔划)、90°(竖笔划)、45°(撇笔划)、135°(捺笔划)的双权值椭圆型神经元序列提取基本笔段图形建获取待识别汉字的基本笔段图形神经元,
并送入知识基进行识别.
b.若为较复杂字则采用八形码汉字识别法:
提取待识别汉字的字元特征,笔画统计码.通过扫描的方式,分别在横(记为h(ij)其中h为归一化后汉字图像,i为子图像上横坐标值,j为纵坐标值,以下类同)、竖(记为 s(i,j)),撇(记为 P(i,l)),捺(记为 n(i,i))子图上搜索
笔画,判断其笔画长度,并将大于一定长度的笔画统计出来作为待识别汉字特征送入知识基进行识别.
c.若为复杂字则采用仿人构字的汉字编码识别法:
提取其相交点数量和横竖笔划数量的统计特征、整体字型特征、以及各笔划字元特征,并进行相应的编码[4].
3.2.2 知识基:针对不同识别方法建立不同的专家知识库,根据监测器提取出的智能特征对待识别汉字进行识别.
a.基于仿生模式识别法:构建笔划的笔段合成及其容错形状,合成汉字笔划的神经元网络对待识别汉字进行识别[5].
b.八形码汉字识别法:仿人汉字识别八形码编码方案,汉字编码的前四位为汉字的四角形态码,后四位汉字的笔画统计码.在汉字的编码提取算法中,对汉字的编码
前四位与后四位分别提取.
c.仿人构字的汉字编码识别法:
首先,对于待识别汉字提取的统计特征编码与样本汉字编码库比对,实现对待识别汉字的第一级分类.
其次,对于待识别汉字提取的字型特征编码与第一级分类结果后的样本汉字编码库比对,实现对待识别汉字的第二级分类.
再次,对于待识别汉字提取的笔划字元特征编码与第二级分类后的样本汉字编码库比对,实现对待识别汉字的三级分类识别.字元编码方法参见论文[4].
3.2.3 识别器:输出识别结果,通过定义的广义识字误差,判断识别结果是否满足要求.若识字在允许范围内则输出识别汉字,若识字误差过大则返回决策层重新识别.
‘被识别字’和‘输出识别字’之间的区别即为识字误差,称其为广义识字误差.通过对广义识字误差性质类型分析研究,分类定义了两种类型广义识字误差:比对字像像素实差和字像特征向量差,这两种广义误差提供了评判识别字的正确性的依据.
(1)比对字像像素实差记:fte(x,y)为比对字像像素实差,且:
其中,g为剔除毛刺滤波运算.
对于 fe(x,y)本文考虑两种毛刺:由于笔画宽度方向上的错位产生的细毛刺和由于笔画长度方向上的错位产生的截断性边缘内凹毛刺,如图2所示.g的滤波运算处理毛刺方法分两步,见文献[7].
(2)字像特征向量差
记:e为字像特征向量差,b为被识别字特征向量,s为输出识别字特征向量,则记:bi为被识别字特征向量i(i=1,2,3…,bi为特征提取方法i对应提取的被识别字特征向量),⇀Tsi为首轮识别字特征向量i(i=1,2,3…,bi为特征提取方法i对应提取的输出识别字特征向量);且
在此,选择特征二小波网格法和特征三八形码汉字识别方法两种方法进行特征向量的提取(i分别取1和2)[7].
广义识字误差1是比对字像像素实差,用它可从宏观的字形字像的吻合角度来评判识字的正确性,若广义识字误差1<△1,则判定首轮识别字正确,输出首轮识别字.若广义识字误差1≥Δ1,考虑到误差可能是由于字像错位造成的,所以输出识别字的正确性待定.此时启用体现微观细节特征的广义识字误差2,对首轮识别字正确与否进行评判.若广义识字误差2<Δ2则判定输出识别字正确,输出识别字.
若广义识字误差2≥Δ2,则判定输出识别字错误.对识别方法进行反馈校正,重新
对该字进行识别,最后将识字结果输出.
对所设计的方法进行验证实验.选取对应SCUT-IRAC HCCLIB手写体汉字图像样本,“橱”字的实验结果如,其中a,d分别代表手写体和标准体:
4.1 决策层粗分类:
由定义可得“橱”的M=15,实际其共有16笔划,由以上数据可知M与字符的
实际笔划数较接近,M可以较好地表征字符笔划数的多少.决策层首先判定手写体
和标准体“橱”为复杂字.
4.2 执行层识别:
将分类结果送入执行层,采用仿人构字的汉字编码识别法识别该字.提取其相交点
数量和横竖笔划数量的统计特征、整体字型特征、以及各笔划字元特征.
对“橱”的分型结果是左右型,首先对左部分图(b)提取特征,得到“橱”汉字图像左部分图2(b)的特征编码.
对照子结构特征,左部分图2(b)的特征与子结构特征相符,用子结构序号编码
得到编码、统计特征码加笔划码对“橱”字右部分图2(c)提取特征,得到“橱”汉字图像右部分图2(c)的特征编码、统计特征码.
对照子结构特征,右部分图2(c)的特征与所有子结构特征相符,因此得到待识
别“橱”字的编码.
4.3 反馈校正:
计算识别对象“橱”字与样本集中样本“橱”字的比对字像像素差.对图2(a)图像进行剔除毛刺滤波运算,将细毛刺剔除,得到广义识字误差1,因其全局像素点值的累加值小于阈值A1=25.所以识字结果正确性.
本文模仿人识别汉字的行为,将智能控制与模式识别方法相结合,提出了一种双层三段式的复杂任务系统识别结构模型,并运用于手写体汉字识别中.针对目前常用
汉字识别方法的特点,通过汉字的特征模型提取对待识别字进行粗分类,对不同类别汉字采用不同识别方法,并给出两种广义识字误差定义,对识别效果进行反馈,通过比较广义误差值判断识字效果,解决了传统识字机没有闭环的问题.
【相关文献】
[1]吴宏鑫,王迎春等,基于智能特征模型的智能控制及应用[J].中国科学,E辑,2002,32(6):805-816.
[2]李祖枢.智能控制理论研究[J].信息与控制,1991,20(5).27-38.
[3]王守觉,曲延锋,李卫军,覃鸿.基于仿生模式识别与传统模式识别的人脸识别效果比较研究[J].电子学报,2004,32(7):1057~1061.
[4]赵丽欣.基于计算机识字的汉字编码方法研究[D].合肥工业大学硕士学位论文,2005,4.16-26.
[5]Jian-ping Wang,Wei-tao Li,Jin-ling Wang.Fault Tolerant Recognition Method of Handwritten Chinese Characters Based on Double Weights Elliptical
Neuron[C].International Conference on Intelligent Computing,ICIC
2006,Kunming,China,August 2006 Proceedings,2006:370-377.
[6]秦枫.视频图像汉字的仿人识别机理研究[D].合肥工业大学硕士学位论文,2004,4.23-33.
[7]王建平,潘乐.基于广义误差反馈的手写体汉字识别系统研究[J].仪器仪表学报(增刊),2007,28(8):274-281.
[8]吴敏清,金连文,尹俊勋,黄建成,一种用于手写体汉字识别的候选字加权多分类器集成方法,计算机工程,2001,(3).。