一种扭曲粘连字符验证码识别方法_尹龙

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

通过 字符空间 4 × 4 方格内的像素数作为特征向量, KNN 分类器识别率达到 50% 以上. 殷光等[4] 采用分 识别率均为 80% 割后基于 SVM 分类器的识别方法, 以上. 王璐 采用分割后基于卷积神经网络识别验 证码, 识别率达到 90% . 然而随着验证码逐渐采用各种粘连扭曲字符, 使得字符分割非常困难甚至不可能. 虽然仍有学者 , 但此种分割方法极大依 赖于字符的空间布局和粘连方式 , 方法普适性较差. 研究此类验证码的分割 Bursztein 等[7]采用基于分割的方法识别 Baidu 验证 识别率仅为 5% , 而对 Recaptcha 验证码的识别 码, 率为 0. 可见, 针对粘连扭曲字符验证码, 必须找到 且希望识别方法对验证码 不依赖分割的识别方法, 的先验知识要求较少, 以增加方法的普适性. 目前关 于扭曲粘连字符验证码识别研究较少. 王璐 采用 ShapeContext 方 法 识 别 天 涯 验 证 码, 不需字符分 割, 识别率为 28% , 但其要求字符宽度差异不大, 限 [8 ] 制此方法的普适性. 张亮等 提出一种基于长短时 记忆型递归神经网络进行识别的方法, 不需字符分 , 60% , 割 识别率为 但此方法应用滑动窗口需字符 依次整齐排列, 这也限制方法的普适性. 针对扭曲粘连字符验证码难以识别、 现有方法 识别率有待提高、 普适性不强等问题, 为寻找不需进 行字符分割的验证码识别方法, 本文提出一种基于
* 如果 #( S1 ) 不大于阈值 t, 则随机 选取子集 S2 , 重复上述过程.
step 4. 2 step 5
经过预定次数的迭代, 若没有符合条 则求解失败; 否则选取数据点数最多的 件的一致集, 一致集确定模型. 文中对迭代次数粗略分析如下: 为确保随机采 样有较好的机会找到真正的内点集合, 须实验足够 P 是经 多的次数. 令 p 为任意一点真正的内点概率, 过 N 次实验后成功的概率. k 个点都是内点的概率
2
+ ( dy) 2 ,
y . (d dx )
y0 ) 为 中 心 将 这 81 个 点 分 成 以 ( x0 , 4 × 4 个单元网格( cell) , 每个 cell 覆盖 3 × 3 = 9 个 像素点. 相邻 cell 共用 3 个像素点, 如图 1 所示.
3期


等: 一种扭曲粘连字符验证码识别方法
237
将每个 cell 内 3 × 3 = 9 个像素点梯度 方向量化到 8 个方向上, 并用梯度的幅度加权, 如图 step 3 1 中左上 cell 内所示. 一个 cell 可形成一个 8 维直方 图向量: v1 = [ c1 , c2 , …, c8] . 将 4 × 4 个 cell 中所有直方图向量 v i 串 y0 ) 点的 4 × 4 × 8 = 128 维描述 接起来, 可得到( x0 , step 4 子 C. 其中, C =[ c1 , c2 , …, c128] . 由以上步骤可看出 DENSE SIFT 与 SIFT 的不同 之处. DENSE SIFT 不需特征点检测步骤, 形成描述 子时的半径固定, 且没有高斯平滑等步骤. 若一幅图 像中每一点都提取 DENSE SIFT 特征, 即可得到类 似光流的 SIFT 流图.
ABSTRACT
The study of CAPTCHA recognition can discover CAPTCHA security vulnerabilities in time to make it more secure. Distorted and merged CAPTCHA can resist character segmentation,which is the difficult in CAPTCHA recognition. An approach based on DENSE SIFT and RANSAC algorithm is presented for recognition of distorted and merged CAPTCHA. Firstly,matching set is obtained through the matching of DENSE SIFT. Then,matching information is got by using RANSAC algorithm. Finally,recognition results are acquired by means of queueanalysis algorithm. The experimental results show that the proposed method has good performance on CAPTCHAs in different levels of difficulty.
[10 ] 采用的 DENSE SIFT 计算步骤如下 .
问题, 一旦将字符单独分开, 运用机器学习算法可轻 [2 ] Gimpy 验 易解决识别问题. Chandavale 等 针对 EZ证码, 采用去除水平和竖直干扰线等预处理后分割 字符, 并利用字符孔洞数和翻转数等特征区分字符 ,
[3 ] 识别率达到 80% . Zhang 等 针对中国 4 家网上银 行的验证码, 采用水平和垂直投影进行字符分割 , 用
[5 ] [6 ] [5 ]
y0 ) 为中心的 81 个像素点 计算以( x0 , 的梯度的幅度和方向. 对于每个点, 按照以下公式分 step 1 别计算 x 方向和 y 方向的差分: d x = f( x0 + i + 1 , y0 + j) - f( x0 + i, y0 + j) , i, j ∈ { - 4 ,- 3 , …, 3, 4} , d y = f( x0 + i, y0 + j + 1 ) - f( x0 + i, y0 + j) , i, j ∈ { - 4 ,- 3 , …, 3, 4} , 其中, 梯度的幅度和方向分别采用下列公式计算 : m( x0 + i, y0 + j) = 槡 ( dx) y0 + j) = arctan θ ( x0 + i, step 2
236
模式识别与人工智能
27 卷
1


密集尺度不变特征变换( Dense Scale Invariant Feature Transform,DENSE SIFT) 特 征 和 随 机 抽 样 一 致 ( Random Sample Consensus, RANSAC) 算法的识别方 法. 实验表明, 本文方法对一般性粘连字符验证码具 对于扭曲粘连较严重的验证 有相对较高的识别率, 码也具有一定的效果. 同时本文算法对验证码字符 排列等方面的要求更小, 普适性有所提高. 在宽度、
k 粗略算做 p . 因此, 1 - P = ( 1 - pk ) N ,
需要的实验次数为 N= log ( 1 - P ) . log ( 1 - p k )
3
3. 1
识别方法
流程设计
识别流程框图如图 2 所示, 各模块功能如下. 预 处理: 去除干扰, 增强图像, 边缘提取, 保留边缘信 息, 减少计算量. DENSE SIFT 特征提取: 提取验证 DENSE SIFT 特征. 获取匹配点集: 待识别验证码 码
中图法分类号
A Recognition Method for Distorted and Merged TextBased CAPTCHA
YIN Long,YIN Dong,ZHANG Rong,WANG DeJian ( School of Information Science and Technology,University of Science and Technology of China,Hefei 230026 )
Ke y Words
CAPTCHA Recognition,Distorted and Merged Character,Dense Scale Invariant Feature Transform ( DENSE SIFT) ,Random Sample Consensus ( RANSAC )
[1 ] 难分割或不可分割验证码 ) . Chellapilla 等 的研 究表明, 在验证码识别中, 分割是比识别更为困难的
2
2. 1
相关原理
DENSE SIFT 特征 SIFT[9]是使用局部梯度信息的一种局部描述
对旋转、 尺度缩放、 亮度变化保持不变性, 对视角 子, 变化、 仿射变换、 噪声也保持一定程度的稳定性, 同 时还具有独特性、 多量性、 可扩展性等优点. SIFT 在 计算机视觉领域得到广泛应用, 在字符识别中也有 较好效果. 然而对于扭曲粘连字符验证码, 直接使用 SIFT 存在以下问题: 1 ) 在两个字符交叉的地方易形 成特征点, 这些特征点形成的描述子包含多个字符 易造成误识别; 2 ) 部分字符由于笔划简单或 信息, SIFT 算法得到的特征点数目过少, 结构特殊, 这降 [10 ] 低识别的准确性. 本文采用 DENSE SIFT 特征 , 特征点数目足够, 含有丰富的字符信息, 因此能达到 理想的识别效果. SIFT 特征提取包括特征点检测和描述子形成 这两个步骤, 而 DENSE SIFT 特征提取只使用描述 子形成这个步骤, 在图像中的每一点都进行描述子 以形成类似光 流 的 SIFT 流 图. 设 图 像 为 的抽取, f( x, y) , y0 ) 点的 DENSE SIFT 特征, 计算 ( x0 , 本文
收稿日期: 2012-11-19 ; 修回日期: 2013-02-28 1988 年生, mail: ylong@ mail. ustc. edu. cn. 尹东 作者简介 尹龙, 男, 硕士研究生, 主要研究方向为计算机视觉 、 机器学习. E( 通讯作者) , 1965 年生, mail: yindong@ ustc. edu. cn. 张荣, 男, 硕士, 副教授, 主要研究方向为智能信息处理 、 图像处理. E女, 1968 年生, 1988 年生, 博士, 副教授, 主要研究方向为图像处理 、 数据压缩. 王德建, 男, 硕士研究生, 主要研究方向为机器视觉 、 机器学习.
割, 是验证码识别中的难点 . 针对由扭曲粘连字符构成的验证码, 提出一种基于密集尺度不变特征变换 ( DENSE SIFT) 和随机抽样一致性算法 ( RANSAC ) 的 识 别 方 法. 首 先 通 过 DENSE SIFT 特 征 匹 配 获 得 匹 配 点 集, 再利用 RANSAC 算法获取匹配信息, 最后采用队列式分析算法得出识别结果 . 实验表明, 该方法对不同难度级别的扭曲粘 连验证码均有较好的效果 . 关键词 验证码识别,扭曲粘连字符,密集尺度不变特征变换( DENSE SIFT) ,随机抽样一致性算法( RANSAC) TP 391. 4
全自动 区 分 计 算 机 和 人 类 的 图 灵 测 试 ( 验 证 码 ) ( Completely Automated Public Turing Test to Tell Computers and Humans Apart,CAPTCHA) 最 Yahoo 是 早作为卡内基梅隆大学的一个科研项目, CAPTCHA 的第一个用户. 验证码在维护网络安全、 防止机器恶意攻击方面做出较大贡献. 研究验证码 促进验证码 的识别可及时发现验证码的安全漏洞, 的设计, 使其变得更加安全. 本文研究的验证码为字 符验证码, 也是当前的主流验证码类型. 字符型验证码的识别可分为基于分割的识别 ( 针对可分割性验证码) 和不基于分割的识别( 针对
第 27 卷 第 3 期 2014 年 3 月
模式识别与人工智能 PR & AI
Vol. 27 Mar.
No. 3 2014
一种扭曲粘连字符验证码识别方法
尹 龙 尹 东 张 荣 王德建
( 中国科学技术大学 信息科学技术学院
合肥 230026 )


验证码源自文库别研究能及时发现验证码的安全漏洞, 使其变得更加安全. 扭曲粘连字符验证码能抵抗字符分
相关文档
最新文档