深度学习文字识别论文综述

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

深度学习文字识别论文综述

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。深度学习是无监督学习的一种，深度学习采用了神经网络的分层结构，系统包括输入层、隐层（多层）、输出层组成的多层网络，只有相邻的节点之间有连接，同一层以及跨层节点之间相互无连接。深度学习通过建立类似于人脑的分层模型结构，对输入数据逐级提取从底层到高层的特征，从而能很好地建立从底层信号到高层语义的映射关系。近年来，谷歌、微软、百度等拥有大数据的高科技公司相继投入大量资源进行深度学习技术研发，在语音、图像、自然语言、在线广告等领域取得显著进展。从对实际应用的贡献来说，深度学习可能是机器学习领域最近这十年来最成功的研究方向。深度学习模型不仅大幅提高了图像识别的精度，同时也避免了需要消耗大量的时间进行人工特征提取的工作，使得在线运算效率大大提升。

深度学习用于文字定位

论文Thai Text Localization in Natural Scene Images using Convolutional Neural Network主要采用CNN的方法进行自然场景中的文本分类，并根据泰字的特点进行分类后的后处理，得到更加精确的定位效果。如图1所示为CNN网络模型，CNN网络由一个输入层，两个卷积层和两个下采样层以及一个全连接层组成，输出为一个二分类向量，即文本和非文本。

图1 CNN网络模型

该文主要思路为将图像切块后进行训练，采用人工标注样本的方法，使得网络具有识别文本和非文本的能力。由于样本数量较少，文中采用了根据已有字体生成训练数据集的方法，包括对字体随机添加背景、调整字体风格以及应用滤波器。如图2为生成的泰字样本，文中在标签的过程中将半个字或者整个字都标记为文本，增加了网络对文字的识别率。

图2训练样本集

在使用生成好的网络进行文字定位的过程中，论文采用的编组方法结合了泰字的特点，如图3为对图像文字的初步定位，其中被标记的区域被网络识别为文字。

图3图像文字的初步定位

论文后期对标记的矩形小框区域进行了整合，结合了泰字本身的特点，如图图4所示为原始图像文字，图5为对识别结果进行的后处理，其中a,b,c将文字分为上、中、下三个部分。文中指出泰字一般的最高不超过中心线b的50%，采用这个规律进行了文字编组，得到如图6的编组结果，其中白色区域为编组结果。

图4原始文本图像

图5 后处理结果

图6 编组结果

同时论文也考虑了泰字的其他特点，如中心线与上边界和下边界的夹角不超过45度，根据这个规律又对编组结果进行调整。如图7所示，当超过夹角限制是进行了微调。如图8与图9为论文的最终定位结果。

图7 泰字编组调整

图8定位结果

图9定位结果

论文Reading Numbers in Natural Scene Images with Convolutional Neural Networks结合隐马尔可夫模型(Hidden Markov Model，HMM)和深度学习方法来实现对自然场景中的数字进行定位和识别。首先采用CNN方法对原始的数字图像进行特征提取，将提取的结果输入至HMM模型进而得到数字的识别结果。

如图10为论文提出的识别方法模型。