数字验证码识别问题
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
一、问题重述
图像识别,是利用计算机对图像进行分析和处理,以帮助人们理解和识别各种不同 模式的目标和对像的技术。图像识别技术一直是一个热门的研究课题,虽然现有的方法 有很多,但是还都不是万能的。请你针对以下几张图片提出你的模型,来正确判别上面 的数字。
二、基本假设
1、假设题中所给的验证码数字只发生过偏转,没有发生过扭曲; 2、假设题中验证码数字图像的背景色是白色;
I (k )
T (k )
D(i)
四、模型的建立及求解
5.1 验证码技术简介[1] 所谓验证码就是将一串随机产生的数字或符号,生成一幅图片,图片里加上一些干 扰象素,由用户肉眼识别其中的字符信息,输入表单提交网站验证,验证成功后才能使 用某项功能。 下面是本文中几种验证码的样式及特点:
我们参赛选择的题号是(从 A/B/C/D 中选择一项填写) : 我们的参赛报名号为(如果赛区设置报名号的话) : 所属学校(请填写完整的全名) : 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人 (打印并签名): 日期: 2012 长沙学院 李琼奇 贺 琼
A 20022016
2012 高教社杯全国大学生数学建模竞赛
承
诺
书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网 上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的 资料(包括网上查到的资料) ,必须按照规定的参考文献的表述方式在正文引用处和参 考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规 则的行为,我们将受到严肃处理。
3
三、符号说明
符号
R,G,B
WR , WG , WB
含义 红,蓝,绿三种颜色的份量
R, G, B 的权值
灰度值 两个字符的欧式距离 待识别样本 知识库中的模板 第 k 个特征的权值 待匹配字符的第 k 个特征 模板库中某个模板的第 k 个特征 匹配值
Gray
D(i, j ) I (m, n) T (m, n) A(k )
关键词:数字识别,预处理,分割,模板匹配,欧式距离
1Βιβλιοθήκη Baidu
目录
摘 要 ........................................................................................................................................ 1 一、问题重述 ............................................................................................................................ 3 二、基本假设 ............................................................................................................................ 3 三、符号说明 ............................................................................................................................ 4 四、模型的建立及求解 ............................................................................................................ 4 5.1 验证码技术简介 ......................................................................................................... 4 5.2 验证码识别的一般步骤 ............................................................................................. 5 5.3 验证码图像的预处理 ................................................................................................. 5 5.3.1 预处理概述 ...................................................................................................... 5 5.3.2 灰度化的处理方法 .......................................................................................... 5 5.3.3 验证码灰度图像的二值化 .............................................................................. 7 5.3.4 验证码图像的去噪 .......................................................................................... 7 5.4 字符分割 ..................................................................................................................... 9 5.5 数字识别 ................................................................................................................... 12 5.5.1 数字分类 ......................................................................................................... 13 5.5.2 细化 ................................................................................................................ 13 5.5.3 字符特征提取 ................................................................................................. 13 5.5.4 加权特征模板匹配 ......................................................................................... 14 5.5.5 实验流程与结果 ............................................................................................. 15 六、模型的优缺点分析 .......................................................................................................... 16 6.1 模型的优点 ................................................................................................................ 16 6.2 模型的缺点 ................................................................................................................ 16 七、模型改进与推广 .............................................................................................................. 16 八、参考文献 .......................................................................................................................... 17 九、附录 .................................................................................................................................. 18
邓昊阳
年
9
月
3
日
赛区评阅编号(由赛区组委会评阅前进行编号):
2012 高教社杯全国大学生数学建模竞赛
编 号 专 用 页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用): 评 阅 人 评 分 备 注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
数字验证码识别问题
摘
要
验证码识别技术可以用于网站的群发软件,数字验证码识别是光学字符识别(OCR) 的一种,是进行模式识别研究的基础。论文提出了以简单变形的数字字符为理论研究素 材,将模板匹配作为基本框架的验证码识别系统。 本文所要讨论的就是一种基础的人工智能--模式识别。本文需要研究的是模式识别 中的图像识别,主要是模拟人类的视觉特性,其目标是识别验证码,即读取图像文件中 的数字字符。 所谓验证码就是由程序随机生成的一组字符(数字或数字与字母的组合)图 片。在有些情况下, 为了实现一系列自动操作需要对验证码进行识别。基于这种原因, 本文选择了验证码作为识别的对象。验证码的识别涉及到了图像预处理、分割、特征提 取、 识别等相关技术。 描述了验证码图像的预处理工作, 包括彩色验证码图像的灰度化、 二值化、去噪和归一化等调整等预处理。 介绍了验证码图像中字符的分割算法,图像分割是指把图像分解成各具特性的区域 并提取出感兴趣目标的技术和过程,分割结果的好坏将直接影响到视觉系统的性能。本 文主要介绍了图像分割的基本知识,并对两种验证码图像分别设计不同的分割方法。对 第一种字符间距较大但是字符笔画有断裂的验证码采取了改进的投影分割法进行分割; 对第二种字符倾斜且粘连的验证码采取了结合连通域法、投影法和寻找最短路径的方法 进行分割。采用MATLAB仿真了所有分割过程,得到了比较理想的分割结果。 最后提出了一种改进的模板匹配的数字识别算法,该算法是预先将字符分成若干个 集合,经细化得到数字中央的骨骼部分,再对待识别数字提取特征并与训练库中的数字 特征加权比较,利用欧式距离最小原则来对数字作出判决,试验结果表明,加权的模板 匹配法保证了数字识别的正确率,而对数字进行预分类和细化处理,可以大大缩小模板 匹配的识别速度,弥补了模板匹配算法对于大量数字耗时多的缺点,提升了系统速度。 本文的算法通过提取数字字符特征量, 对待识别的数字字符进行带有冗余的分类, 力求在保证分组成功的基础上尽可能缩小字符匹配范围,同时进行数字字符细化,以提 高系统的运算速度, 对细化后的字符骨架进行特征提取, 并进行加权模板匹配,保证 了系统的识别正确率,实验结果表明,两者的结合使系统有较高的识别正确率与识别速 度,达到了预期的效果。