纸币序列号提取与识别方法研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

( a) 序列号镜像定位图像 ( b) 图 6 ( a)的二值图像图 6 序列号精确定位
1. 5 序列号字符分割为了便于字符的识别 ,我们需要将各个字符分割开来 ,本文采用系垂直投影分割方法 [ 3 ] 。其基本思路是 :将二值化后的字符图像在垂直方向上投影 ,根据字符图像由十个字符组成 , 每个字符之间有一定的间距 ,投影图上每个字符投影之间必然存在峰谷 ,谷的位置就是字符之间的间隙。理想状态下两个字符之间的投影值应为零 ,但由于字符图像的噪声或粘连等干扰 ,造成谷的位置不为零。基于此可以设一个阈值 ,小于这个阈值的就认为是谷。这样就可以根据投影图从左到右分割出十个字符来。其投影图和分割出来的字符如图 7 所示。由分割出来的字符可以看出 ,每个字符的大小并不一样 ,纸币中间字符大两边小。
图 8 归一化后的序列号图
图 9 字符“5”及其矩阵 2. 3 基于 BP神经网络的字符识别神经网络结构的设计 [ 6 ]包括 :输入输出神经元个数、隐含层个数、隐含层中神经元数目以及每层传递函数的确定。一般情况下 ,输入层与输出层的神经元数目由问题本身的性质决定 ,隐层的层数及各隐层的神经元数目则需要由设计者根据问题的性质和对神经网络的性能要求来决定。
( a) 100元人民币图像样本 ( b) p rewitt算子边缘检测结果图 1 100元纸币图像样本及其边缘检测结果
1. 2 倾斜校正由于拍摄时镜头与纸币的角度、镜头发生摆动等因素的影响 ,都可能使纸币中的字符
图 2 图像倾斜校正
收稿日期 : 2009—11—13 作者简介 :艾朝霞 (1979—) ,女 ,陕西米脂人 ,讲师 ,在读研究生 ,研究方向 :信号与信息处理专业。 E - m ail: aizhaoxia123@163. com
192 - 195. [ 7 ]胡小锋 ,赵辉. V isual C + + /MATLAB 图像处理与识别实用案例精选 [M ]. 北京 :人民邮电出版社 , 2004.
(责任编辑 :王瑞斌 )
[ 5 ] Trie O D , J ain A K, Taxt T. Feature Extraction M ethods for Character Recognition - A Survey [ J ]. Pattern
Recognition , 1996 , 29 (4) : 6412662. [ 6 ]杨凡 ,赵建民 ,朱信忠. 一种基于 B P神经网络的车牌字符分类识别方法 [ J ]. 计算机科学 , 2005, 32 ( 8) :
2010年 3月第 20卷第 2期
榆林学院学报 JOURNAL OF YUL IN UN IVERSITY
Mar. 2010 Vol. 20 No. 2
纸币序列号提取与识别方法研究
艾朝霞 1. 2
(1. 西安电子科技大学电子工程学院 ,陕西西安 710071; 2. 榆林学院能源工程学院 ,陕西榆林 719000)
人民币是我国的法定纸币 ,每一张人民币都有一组序列号 ,它是人民币的“身份证 ”。随着我国经济的飞速发展和商业活动的日趋频繁 ,货币的发行流通量日益增大 ,人民币识别与鉴定变得尤为重要 , 而序列号就是一个很重要的防伪点。另一方面 ,人民币号码印刷过程中可能出现错号、重号、缺号等情况 ,目前的方法大都是由人工检查完成 ,费时费力。因此 ,对序列号自动识别的研究是非常有现实意义的。本文提出一种基于投影法和 BP神经网络的纸币序列号识别方法。 1 序列号分割 1. 1 边缘检测 [ 1 ] 本系统处理图像的首要步骤是将其灰度化 ,然后再进行边缘提取工作。边缘主要存在于目标与目标、目标与背景、区域与区域之间 ,是图形分割、纹理特征提取和形状特征提取等图像分析的重要基础。本系统采用 Prew itt算子检测边缘 , 如图 1所示 ,图 1 ( a)是 100元纸币的样本图像 ,图 1 ( b)是 Prew itt算子检测边缘结果 ,其序列号边缘清晰 ,有利于后续特征提取与识别操作。
参考文献 :
[ 1 ]岗萨雷斯. 数字图像处理 (第二版 ) [M ]. 阮秋琦译. 北京 :电子工业出版社 , 2003.
[ 2 ]肖志涛 ,国澄明 ,孟翔宇. 基于 Hough变换的倾斜文本图像的检测 [ J ]. 红外与激光工程 , 2002, 31 ( 4) : 315
- 317. [ 3 ]张树波 ,赖剑煌. 车牌定位和分割的一种综合方法 [ J ]. 中山大学学报 , 2004, 43 (2) : 126 - 132. [ 4 ]周治紧李玉鑑. 基于投影归一化的字符特征提取方法 [ J ]. 计算机工程 , 2006, 32 (2) : 78 - 83.
步研究 :本文只对人民币币种进行了实验 ,而生活中美元等各种人民币都被广泛使用 ,所以使算法有效
本 ,其中字母个数为 2 3 140 = 280,数字个数为 8 3 识别各个币种是很有实际意义的 ;由于纸币识别系
140 = 1120。将样本分别送入已设计好的字母和数统是实时性系统 ,对时间的要求较高 ,故而如何减小
( a) 序列号子图像投影结果 ( b) 分割出来的字符图 7 字符分割结果
2 序列号识别经过了前面一系列的预处理步骤 ,已经将人民
币的单个字符分割出来 ,接下来进入序列号识别部分。对字符的识别首先要进行特征提取 ,提取字符特征之前要将其归一化处理。 2. 1 字符归一化归一化包括大小归一化、位置归一化及笔划粗细归一化。根据上述已经分割出来的字符图像可以看出 ,需要用到大小归一化进一步处理。而大小归一化有线性归一化和非线性归一化两种。线性归一化较简单 ,就是把原始图像线性的拉伸 ,缩放到规定大小。本文采用线性归一化将字符调整为 243 16 像素大小 ,其归一化结果如图 8 所示。由后续实验结果可以看出应用线性归一化速度快 ,识别也取得很好的效果。 2. 2 字符特征提取特征提取的方法多种多样 [ 4 - 5 ] ,本实验采用逐像素特征提取法。其原理是对图像进行逐行逐列的扫描当遇到白色像素时取其特征值为 1,遇到黑色像素时取其特征值为 0,这样当扫描结束以后就形成了一个维数与图像中像素点的个数相同的特征向量矩阵。显然 ,该方法原理简单 ,时间复杂度小 ,运算速度快 ,有利于 BP神经网络快速收敛 ,以得到较好的训练效果。虽然该方法适应性不强 ,但可以通过加大训练样本数目的方法来增强其适应性。下面以图 8 中分割出来的字符 “5”为例 ,即图 9 ( a)所示 ,图像大小为 16 ×24像素 , 其对应的矩阵如图 9 ( b)所示。图 9 ( a)中的白色像素点用 1表示 ,背景像素点用 0 表示 ,则字符“5”的特征可用一个维数与图像中像素点的个数相同的向量矩阵表示。其它字符也用类似的方法提取特征。
800
798
识别率 98%
99. 75%
3 仿真实验 [ 7 ] 本文算法主要包括两大模块 :序列号分割模块
和序列号识别模块。其具体流程如图 10所示。
4 总结与展望本文通过对图像处理与识别技术中已有的各种
算法的分析研究 ,设计出了一种基于投影法和 BP 神经网络的纸币序列号识别系统。该方法反复利用
艾朝霞 :纸币序列号提取与识别方法研究
·69·
( a) 垂直方向投影 ( b) 水平方向投影图 3 (图 2的投影 )
1. 4 序列号定位研究人民币序列号规律可以发现 ,序列号处于整张纸币的左下角相对固定位置。以纸币左下角为原点 ,设纸币长为 L ,高为 H ,则序列号水平方向在纸币左边大约 23 /100L 处 ,垂直方向在纸币下边 1 /3H处。本实验取 1 /4L 和 1 /3H 对序列号子图像进行粗略分割 ,其结果如图 5 所示。纸币序列号粗定位后 ,其图像大体包括 3 个组成部分 :序列号、面值 100、水印 100。水印 100可以通过设置适当阈值 ,在二值化过程中将其去除。剩下的两个组成部分可通过再次使用投影法将其分离 ,获得准确的序列号子图像 ,如图 6所示。
投影法对序列号图像进了由粗糙到精确的分割 ,然后提取以分割字符的特征 ,通过 BP神经网络分别对字母和数字进行识别。实验结果表明 ,本文方法取得较好的识别效果。
图 10 算法流程图
通过本文的研究 ,作者认为以下方面值得进一
为了验证本文算法的有效性 ,实验对大量人民币图像进行了Baidu Nhomakorabea试。其实 140 张人民币作训练样
字神经网络进行训练。训练最大次数设为 1000次 , 算法时间复杂度是值得加以研究 ;对于纸币票面状
训练目标误差设为 10 - 5 。并选用另外 100 张人民况非常复杂的如污染、破损等 ,要对其进行全面识别
币作为测试集 ,其中字母个数为 2 3 100 = 200,数字的复杂性更高。
个数为 8 3 100 = 800。图 11 是本文设计系统的正
摘要 :通过对人民币序列号的研究 ,提出了一种基于投影法和 BP神经网络的纸币序列号识别方法。算法步骤包括对纸币图像进行二值化、边缘检测、倾斜校正、序列号定位、序列号分割和特征提取 ,算法最后利用 BP神经网络对纸币序列号进行识别。实验结果表明 ,该方法不受纸币倾斜影响 ,对图像背景要求不高 ,平均识别率达到了 99. 375%。关键词 :序列号识别 ;投影法 ; BP神经网络中图分类号 : TP391. 41 文献标识码 : A 文章编号 : 1008 - 3871 (2010) 02 - 0068 - 03
针对应用于纸币序列号识别的 BP神经网络 , 必须结合具体情况设计 ,并在实践中不断改进才能
·70·
榆林学院学报 2010年第 2期 (总第 87期 )
更好地达到实验的目的。纸币序列号由 2个英文字母和 8个数字组成 ,而英文字母有 26个 ,数字有 10 个。字母“B ”、“ I”、“O ”、“S”、“Z”分别和数字“8”、 “1”、“0”、“5”、“2”相像 ,如果使用同一个网络进行识别 ,其准确率很难提高 ,故本文设计两个 BP网络分别进行字母和数字的识别。本文 BP神经网络的设置如表 1所示。
出现一定程度的倾斜。当我们对这些纸币进行竖直投影的时候 ,字符的投影在竖直方向相互重叠 ,使得原本字符之间的间隔的零值投影不存在。很显然 , 倾斜图像不适合直接用竖直投影的方法进行分割。因此 ,有必要对倾斜的纸币图像进行调整和校正。通过边缘检测 ,纸币轮廓清晰可见 ,四边都为直线 , 因而可考虑用 Hough变换检测直线 [ 2 ] ,并根据直线与水平方向的夹角进行旋转校正。在旋转过程中采用了双线性插值 ,旋转后轮廓图如图 2所示。 1. 3 纸币边界坐标确定经过上述预处理步骤 ,纸币已经得到校正 ,我们获得了边界清晰的图像。此时 ,采用投影法就很容易得到纸币边界坐标 ,即在图像边界以外 ,图 2 的投影为零。对图 2 作垂直和水平投影 ,其结果如图 3所示。由图 3 ( a)可以获得纸币的左右边界 (对应横坐标 ) ,由图 3 ( b)可以获得纸币的上下边界 (对应纵坐标 ) ,综合起来就可以得到纸币的准确坐标。然后对图 2 进行分割 ,图 4 是对应的边缘图像。
表 1 隐层神经元数目选择
输入层神经元个数输出层神经元个数隐藏层神经元个数
字母网络 384
26
102
数字网络 384
10
64
确分割结果显示。经统计 ,本文算法的识别准确率如表 2所示 ,其识别率还是较高的。
字母数字
图 11 序列号识别结果
表 2 测试集的识别结果
测试集数量识别数
200
196