基于matlab的数字识别系统设计

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数字识别系统

1.绪论

1.1研究背景

1.1.1索书号的简介

索书号是图书馆赋予每一种馆藏图书的号码，这种号码具有一定结构并带有特定的意义。在馆藏系中，每种书的索书号是唯一的，可准确地确定馆藏图书在书架上的排列位置，它是读者查找图书必要的代码信息。

索书号通常是根据中国图书资料分类法编排的【1】——简称《中图法》。《中图法》采拉丁字母和阿拉伯数字相结合的混合标记符号。根据图书的学科主题，以拉丁字母标记并顺序展列出22个基本大类，其中没有L、M和Y开头的——参考附录1中图法简表。由于“T工业技术”的大类范围广泛、内容繁多，故又在该类基础上采用双位拉丁字母标记出16个二级类目，如TK、TL、TM和TN等。字母之后再用阿拉伯数字对大类进行细分。如B表示哲学、宗教一大类；B020则表示宗教理论。有的图书馆如清华大学还在图书分类号码后添加按照图书作者姓名所编排的著者号码，或者是按照图书进馆时间的先后所取用的顺序号码。

不同索书号确定排列先后顺序的步骤是，先比较分类号码：如分类号码相同再比较著者号码

或顺序号码。最后按照字母表和数字大小的顺序排列。

1.1.2书库中图书查找存在的问题

随着电子计算机和网络技术的发展，现代图书馆都已经广泛建立电子数据库图书管理系统，

方便用户查找、阅览书籍。读者借图书的流程如图2所示，一般利用书目查询系统，根据图书的

书名，出版社，作者以及书的内容等在电子数据库中检索自己需要的图书，记录图书相关信息。

最后，根据图书的索书号，快速方便地在书库中找到相应的图书。但是，经常会遇到下列问题：电子数据库系统显示图书状态为“归还”，利用检索到号，却无法在书库找到此书。出现这种情况主要有两个原因：(1)图书错位放置，即图书在书库中摆放的位置与索书号不一致。(2)图书已经丢失，即虽然电子数据库中显示图书状态为“归还”，但实质图书已经丢失，并不在书库中。随着图书馆藏书数目的不断增加，每天借阅的人数增多，而且有的图书馆发展成拥有几个分馆，上述问题越来越严重。这一方面严重降低了图书馆的资源的利用率；另一方面，浪费了读者的时间，造成了很大麻烦。

目前，图书馆主要通过定期的人工检查发现书库中错位和丢失的图书。但是，由丁馆藏图书

多达上万，甚至几十万，而且每天又都有大量图书的借出和还入，人工检查工作量很大，单调、

重复的工作容易使工作员疲劳，检查速度比较慢，无法满足实际的需要。因此，迫切希望开发索书号自动识别系统，实现对书库中图书放置位置的自动检查，并通过索书号识别结果与电子数据库中图书信息的比较，找出已经丢失的图书。确保电子数据库中的图书状态与书库中的一致，以及书库中的图书准确排放，从而有效解决上述“用索书号找不到图书”的问题。

1.2．索书号自动识别系统

近年来，随着电子计算机技术、图像处理技术和摄像技术的迅速发展，图像中的文字信息提

取系统已经成功地应用于各个领域。因此，借助其经验，本文研究采用图像处理和识别技术

实现索书号的自动识别。

1.2.1索书号自动识别系统概述

系统的硬件由彩色CCD摄像头，8位图像采集卡和计算机组成，拍摄的图像为8位RGB彩色数字图像。如图1-1所示

1.2.2 索书号识别存在的问题及关键技术

索书号识别所涉及的摄像技术，无线通讯技术，电子数据库图书管理技术，AGV自动导引技术和图像处理技术都已经在其他领域有成功应用的实例。图像处理技术是索书号识别的核心技术，而与相类似的应用相比，索书号图像处理与识别又有其自身显著的特点和难点。

图书馆收集了近几十年的藏书，不同时代的索书号编写风格大不相同。本论文选取图书馆的主要类别图书——印刷体索书号，从图书馆的书架上随即抽取样本进行研究。如图7所示，CCD

摄像头拍摄的索书号图像，由于光照不均匀、退色、污迹、噪声以及其他非索书号文字的存在，大大增加了索书号识别的困难。为了能够解决上述问题，索书号图像识别主要由以下4个模块组

成：索书号定位，索书号提取，索书号字符切分和索书号单字识别。

第一阶段：索书号定位是在图像中找到包含索书号的图像区域，要求该区域尽可能包含完整的索书号，同时尽量排除非索书号的图像区域。由于该阶段是解决索书号的区域查找问题，而没

有涉及单字切分，因此图像区域的估计允许有一定误差。为了包含完整的索书号以及避免索书号

漏检，往往是定位得到的图像区域略大于索书号的真实区域。索书号定位主要存在两个问题：(1)受不均匀光照和褪色的影响，索书号的纹理特征、颜色特征以及形状特征等有较大的变化，可靠性相对较差；(2)有的索书号由1个字符串组成，有的索陆号由2个字符串组成，而在索书号的周围附近还会存在其他文字，如出版社名称和作者姓名。因此，将索书号与其他文字相区别比较困难。

第二阶段：索书号提取是在定位得到的索书号区域中，将索书号字符与周围目标和背景相

互分离。通过二值化处理，能将字符与背最相互分离。但由于定位得到的图像区域略大于真实索

书号区域，二值化后在索书号字符附近可能会存在一些非字符目标，影响后续的单字切分和识别。所以，二值化后采用连通域滤波进一步消除索书号周围的非字符目标。索书号提取主要存在的问题：(1)不均匀光照增大了索书号图像的灰度值变化范围。(2)褪色程度的不同则降低了字符与背景的对比度。(3)污迹的影响。上述因素的存在不仅使得确定二值化过程中合理的阈值非常困难，而且会改变索书号字符的形状特征，最终影响连通域滤波的性能。

第三阶段：索书号字符切分是将索书号字符串切分成一个个字符，以提供给识别算法进行识别。单字切分的结果如何将直接影响识别结果，而且切分好坏除字符能否正确识别之外，没有较

好的判别依据。因此，单字切分往往与字符识别紧密结合在一起。

索书号的单字切分可以分为两种情况：非粘连单字切分和粘连字符的单字切分。非粘连单字

切分比价容易解决。但质量较差索书号图像二值化处理后，相邻字符可能会发生粘连。而粘连索

书号切分存在的主要问题是(1)粘连字符的切分比较困难：(2)索书号字符发生粘连有一部分是字符

的笔画发生变形所致，如笔划宽度变粗等。即使正确的切分也不一定能够完全修正笔画的变形，

即无法通过粘连切分恢复字符的原形。

第四阶段：索书号单字识别。印刷体单字识别的研究已经相当成熟，只是与其他应用领域的文字识别相比，索书号文字的质量较差，存在字符不均匀褪色，笔划残缺以及大面积污迹等问题，