一种多模型超图用于手写汉字识别算法.pdf

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Abstract Withtherequirementofautomatichandwrittenbillprocessingputforwardbythebankingindustry,the handwrittenChinesecharacterrecognitiontechnologyhasreachedanewclimax.However,duetothecomplexityand diversityofhandwrittenChinesecharactersandthelackoftrainingsamples,itisdifficulttoimprovetherecognitionrate. Forthisreason,thispaperdesignedamultimodelhypergraphlearningalgorithm torecognizehandwrittenChinese characterblocks.Weconstructedasamplerelationshipmatrixaccordingtothedistancerelationshipbetweentraining samples.Thenanothersamplerelationshipmatrixwasconstructedbasedonthesparserepresentationofsamplesasthe weightoftherelationshipbetweensamples.Basedontheprincipleofsampleconstraints,arelationshipmatrixbetween markedsampleswasconstructedbytherelationshipweightsbetweenmarkedsamples.Theserelationshipmatriceswere fusedtoamultimodelhypergraphlearningframework.Byiterativelearning,theoptimalclassificationofhandwritten Chinesecharacterblockscan befound and theproposed method showscertain advantagesin theexperimentof handwrittenChinesecharacterblocks.
第 36卷第 7期 2019年 7月
计算机应用与软件 ComputerApplicationsandSoftware
Vol36 No.7 Jul.2019
一种多模型超图用于手写汉字识别算法
魏炳辉 谢晖慧 邓小鸿
(江西理工大学应用科学学院 江西 赣州 341000)
摘 要 随着银行业提出手填票据自动化处理需求后,对手写汉字的识别技术研究推向新的高潮。由于手写 汉字形体复杂多样、训练样本不多,从而导致识别率难以提高。设计一种多模型的超图学习算法来识别手写汉字 块,根据训练样本间距离关系构建样本关系阵;以样本的稀疏表示参数为样本间的关系紧密性权重构建另一个样 本关系阵;以样本约束法则为基础,以标记样本间的关系权重构建标记样本间的关系阵,融合这几个关系矩阵成 为多模型的超图学习框架。通过迭代学习,找出最优的手写汉字块类别归属,在手写汉字块的实验中表现出一定 的优势。 关键词 手写汉字识别 多模型超图 成对约束 中图分类号 TP3 文献标识码 A DOI:10.3969/j.issn.1000386x.2019.07.032
194
计算机应用与软件
2019年
含 n类样本,通过求解目标函数可以获得块稀疏解,每
一块中的非零元素对应一个子流形。相近样本的稀疏
表示也相近,并且可以被同子流形中相近的样本线性
表示,稀疏系数对应着样本间的相关性或权值。而稀
疏超图学wenku.baidu.com是基于稀疏字典上的稀疏系数空间,相当
于原样本特征空间映射后的空间。有了这种映射,可
国外对手写字符识别的研究比较早,目前已有许 多实用化的产 品 [1-2],一 个 完 整 的 手 写 字 符 识 别 系 统 的研究内容主要涉及字符分割、特征提取、字符识别, 目前字符分割算法已达到商用化程度,以后研究的重 点在于特征提取与字符识别。国内外在字符串分割与 识别等处理技术方面都取得了重大进展[3-4]。对于字 符目标提取,目前的大多数方法是通过对字符对象的 亮度或笔画特征建模来提取字符目标。典型的方法有 Ye等[5]采用一种综合亮度特征和局部几何特征的字 符笔画双边缘模型,用于复杂背景中字符对象的提取, 该笔画模型融合笔画宽度约束与笔画亮度信息,能有 效地解决背景突变带来的问题。季婧婧等[6]利用二次 分割的方法滤除票据上的彩色印章以提高文本内容的 识别率。但这些成果都只在于数字与字母等结构相对 简单的字符识别研究,而手写汉字方面识别正确率仍 然不高。
根据求解后的稀疏表示,构建稀疏超图,样本相应
的稀疏表示参数如果是非零值,表示两样本间相关,该
参数表示相关性的紧密程度,邻接关系阵 A为:
{1 i=j
A(i,j)= 1 (wi)j >0
(4)
0 其他
式中: (wi)j 表示 wi的第 j个元素的绝对值。设定
Ls=I-Dv-(1/2)AWDe-1ATDv-(1/2)为 基 于 稀 疏 表 示 的
造成这种情况的原因,是我国手写汉字结构复杂, 形体丰富多样导致手写汉字识别率达不到商用化标 准。近年来研究较多的是手写汉字块的特征提取算法 研究。根据不同的规则及分类,识别方法大体可分为 三类:模板匹配法、统计模式识别方法以及结构模式识 别方法。这些方法主要是基于人工神经网络、支持向 量机、隐马尔可夫模型和最近邻匹配等方法的推广或 几种方法的集成 。 [7-8] 根据系统的实际需要,采用多 种信息源、多种特征提取以及多识别器结合等多项预 处理技术[9-10],来提高识别系统的性能。文献[10]利 用深度学习的方法识别手写汉字正确识别率已经达到 96.13%,是目前公布的最好结果。然而该研究所用的 手写汉字都是相对规范的、笔画比较清楚的,另外深度 学习模型需要大量的训练样本,训练时间较长,但在现 实中难以满足这些条件。不同的人手写汉字存在很多 复杂的情况,如字符粘连、连笔现象、位置高低不一、大 小不一等,提取单个的手写汉字,再进行识别的效果受 前述影响较大,难以达到商用化标准。在银行票据手 写汉字识别需求中,存在训练样本少和实时性要求高 的特点。
1.1 构建普通超图
构建普通超图时,超边选取有多种方法,对于给定
样本,一种办法是距离其最近的若干样本所组成的集
合为一条超边;第二种办法是指定一个阈值,与该样本
的距离值小于设定阈值的样本集合为超边。本文选取
前者构建超图学习模型。
设定图 G=(X,E),所有样本 x构成样本集 X,和
所有的超边 e集合构成边集 E,每一条超边包含了若
本文利用多模型超图学习理论,对比较固定的文
本块学习其归属标志。其出发点有两个:一是超图学 习方法适合小样本学习,在训练样本较少的情况下可 以获得较好的分类性能;二是票据上有些文本块的内 容比较固定,利用超图学习识别速度较快。超图学习 模型在公开的一些标准数据集上已经体现出一定的优 势,而在手写汉字识别上还鲜有报道。
人员带来了沉重的负担。面对银行票据如此严格又繁 琐的处理程序,人工处理的方式工作效率低下,不但满 足不了日益增长的处理需求,而且容易出现人为错误, 给银行带来不必要的经济损失。为了解决上述问题, 提高银行业的自动化技术水平,票据自动处理技术的 设计很快成为相关领域研究的重要课题。其中手写汉
收稿日期:2019-01-06。国家自然科学基金项目(61762046);江西省教育厅科研项目(GJJ161569);江西省自然科学基金项目 (20161BAB212048)。魏炳辉,讲师,主研领域:机器学习,模式识别。谢晖慧,讲师。邓小鸿,副教授。
HANDWRITTEN CHINESECHARACTER RECOGNITION BASED ON MULTIMODELHYPERGRAPH
WeiBinghui XieHuihui DengXiaohong
(CollegeofAppliedScience,JiangxiUniversityofScienceandTechnology,Ganzhou341000,Jiangxi,China)
干个样本,边的权重是该边中所有样本间的距离平均
值。设定矩阵 Dv、De和 W 对角线元素分别表示相应 样本所在的边数、超边中样本的个数和超边的权值,设
定邻接阵 H,矩阵元素表示两样本间的连接关系。根
据文献[12],得到目标函数如下:

∑ argmin( F
fiLcfiT +λ
i=1
fi-yi 2)
(1)
第 7期
魏炳辉等:一种多模型超图用于手写汉字识别算法
193
字识别是最重要的一个难关。票据上的手写汉字因其 存在形式复杂多样,致其识别率不高,难以达到商用化 标准。因而票据手写汉字识别技术的研究成果对商业 银行系统的运作有很大的实用和参考价值,同时取得 的研究成果也将对图像处理、模式识别、人工智能等多 个学科的发展起到一定的推动作用,具有重要的实用 价值和理论意义。
(2)
式中:w=[w1,w2,…,wd]T。x和 w表示同一个数据
点,前一个是基于空间域,另一个是基于 Σ域。我们
的目标是求解出基于 Σ的稀疏系数,即 w包含尽量少
的非零元素。根据文献[14-15],这个稀疏解可以通
过以下目标函数式求解得到:

∑ min wi 1 s.t.xi =xTwi i=1
(3)
以避免原样本空间中,不同的特征表示尺度不一的问
题。迭代学 习 超 边 的 权 值,最 终 达 到 一 个 稳 定 状 态。 设定向量 x∈Rd,可以由 d个向量组成的向量组{ζi∈ Rn}di=1表 示,设 定 Σ =[ζ1,ζ2,…,ζd],x可 以 被 表 示成:

x=∑wiζi =Σw i=1
假定数据集是采样于一个包含 k个独立子空间的
统一空间里,相当于这个数据集包含 k类,该目标函数
可以获得块稀疏解,每一块中的非零元素对应一个子
空间(关于块 稀 疏 求 解 方 法 请 参 阅 文 献 [14])。 相 近
的样本稀疏表示也相近,可以被同子空间中相近的点
线性表示,稀疏系数对应着样本间的相关性或权值。
1 算法设计
基于超图的学习模型是一种非常重要的直推式半 监督学习方法,在已有的直推式半监督学习算法中,超 图学习方法 能 获 得 较 好 的 性 能 [11-12]。 超 图 学 习 目 标 是找到样本间的高层相关性,在超图构建时,超边的权 值需要依据一定的法则来确定。为了挖掘手写汉字间 的多重相关性,在普通超图的模型中融入稀疏表示与 成对约束理 论,以 及 该 结 合 模 型 的 最 优 解 论 证 方 法。 下面先介绍构建普通超图,再以手写文本块特征向量 的解稀疏表示系数建立稀疏超图与标记样本的成对约 束模型,最后融合这几个模型求解最优解。
Keywords HandwrittenChinesecharacterrecognition Multimodelhypergraph Pairwiseconstraint
0 引 言
随着社会经济的快速发展,商业银行每天需要处 理、保存的票据数量在迅速增长。票据的处理程序包 括人工录入、核验及存档等繁琐的过程,这给银行工作
式中:Lc=I-Dv-(1/2)HWDe-1HTDv-(1/2)是拉普拉斯矩
阵(I为单位矩阵),fi是所有样本在第 i类上的类属信
念,是一个向量,F是由 fi组成的矩阵,λ是常数。
1.2 构建稀疏超图
本节把稀疏优化思想[13]应用于流形聚类,依据流 形聚类假设,数据样本集可能采样于多个子流形,每个 子流形的维度不一定相同,利用稀疏表示求解方法可 解得每个子流形聚类。假定数据集是采样于一个包含 n个独立子 流 形 的 统 一 空 间 里,相 当 于 这 个 数 据 集 包
相关文档
最新文档