一种扭曲粘连字符验证码识别方法_尹龙

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

通过字符空间 4 × 4 方格内的像素数作为特征向量， KNN 分类器识别率达到 50% 以上．殷光等［4］采用分识别率均为 80% 割后基于 SVM 分类器的识别方法，以上．王璐采用分割后基于卷积神经网络识别验证码，识别率达到 90% ．然而随着验证码逐渐采用各种粘连扭曲字符，使得字符分割非常困难甚至不可能．虽然仍有学者，但此种分割方法极大依赖于字符的空间布局和粘连方式，方法普适性较差．研究此类验证码的分割 Bursztein 等［7］采用基于分割的方法识别 Baidu 验证识别率仅为 5% ，而对Ｒecaptcha 验证码的识别码，率为 0．可见，针对粘连扭曲字符验证码，必须找到且希望识别方法对验证码不依赖分割的识别方法，的先验知识要求较少，以增加方法的普适性．目前关于扭曲粘连字符验证码识别研究较少．王璐采用 ShapeContext 方法识别天涯验证码，不需字符分割，识别率为 28% ，但其要求字符宽度差异不大，限［8 ］制此方法的普适性．张亮等提出一种基于长短时记忆型递归神经网络进行识别的方法，不需字符分， 60% ，割识别率为但此方法应用滑动窗口需字符依次整齐排列，这也限制方法的普适性．针对扭曲粘连字符验证码难以识别、现有方法识别率有待提高、普适性不强等问题，为寻找不需进行字符分割的验证码识别方法，本文提出一种基于
* 如果 #（ S1 ）不大于阈值 t，则随机选取子集 S2 ，重复上述过程．
step 4． 2 step 5
经过预定次数的迭代，若没有符合条则求解失败；否则选取数据点数最多的件的一致集，一致集确定模型．文中对迭代次数粗略分析如下：为确保随机采样有较好的机会找到真正的内点集合，须实验足够 P 是经多的次数．令 p 为任意一点真正的内点概率，过 N 次实验后成功的概率． k 个点都是内点的概率
2
+ （ dy） 2 ，
y ． (d dx )
y0 ）为中心将这 81 个点分成以（ x0 ， 4 × 4 个单元网格（ cell），每个 cell 覆盖 3 × 3 = 9 个像素点．相邻 cell 共用 3 个像素点，如图 1 所示．
3期
尹
龙
等：一种扭曲粘连字符验证码识别方法
237
将每个 cell 内 3 × 3 = 9 个像素点梯度方向量化到 8 个方向上，并用梯度的幅度加权，如图 step 3 1 中左上 cell 内所示．一个 cell 可形成一个 8 维直方图向量： v1 = ［ c1 ， c2 ， …， c8］．将 4 × 4 个 cell 中所有直方图向量 v i 串 y0 ）点的 4 × 4 × 8 = 128 维描述接起来，可得到（ x0 ， step 4 子 C．其中， C =［ c1 ， c2 ， …， c128］．由以上步骤可看出 DENSE SIFT 与 SIFT 的不同之处． DENSE SIFT 不需特征点检测步骤，形成描述子时的半径固定，且没有高斯平滑等步骤．若一幅图像中每一点都提取 DENSE SIFT 特征，即可得到类似光流的 SIFT 流图．
ABSTＲACT
The study of CAPTCHA recognition can discover CAPTCHA security vulnerabilities in time to make it more secure． Distorted and merged CAPTCHA can resist character segmentation，which is the difficult in CAPTCHA recognition． An approach based on DENSE SIFT and ＲANSAC algorithm is presented for recognition of distorted and merged CAPTCHA． Firstly，matching set is obtained through the matching of DENSE SIFT． Then，matching information is got by using ＲANSAC algorithm． Finally，recognition results are acquired by means of queueanalysis algorithm． The experimental results show that the proposed method has good performance on CAPTCHAs in different levels of difficulty．
［10 ］采用的 DENSE SIFT 计算步骤如下．
问题，一旦将字符单独分开，运用机器学习算法可轻［2 ］ Gimpy 验易解决识别问题． Chandavale 等针对 EZ证码，采用去除水平和竖直干扰线等预处理后分割字符，并利用字符孔洞数和翻转数等特征区分字符，
［3 ］识别率达到 80% ． Zhang 等针对中国 4 家网上银行的验证码，采用水平和垂直投影进行字符分割，用
［5 ］［6 ］［5 ］
y0 ）为中心的 81 个像素点计算以（ x0 ，的梯度的幅度和方向．对于每个点，按照以下公式分 step 1 别计算 x 方向和 y 方向的差分： d x = f（ x0 + i + 1 ， y0 + j）－ f（ x0 + i， y0 + j）， i， j ∈ ｛－ 4 ，－ 3 ， …， 3， 4｝， d y = f（ x0 + i， y0 + j + 1 ）－ f（ x0 + i， y0 + j）， i， j ∈ ｛－ 4 ，－ 3 ， …， 3， 4｝，其中，梯度的幅度和方向分别采用下列公式计算： m（ x0 + i， y0 + j） = 槡（ dx） y0 + j） = arctan θ （ x0 + i， step 2
236
模式识别与人工智能
27 卷
1
引
言
密集尺度不变特征变换（ Dense Scale Invariant Feature Transform，DENSE SIFT）特征和随机抽样一致（Ｒandom Sample Consensus，ＲANSAC）算法的识别方法．实验表明，本文方法对一般性粘连字符验证码具对于扭曲粘连较严重的验证有相对较高的识别率，码也具有一定的效果．同时本文算法对验证码字符排列等方面的要求更小，普适性有所提高．在宽度、
k 粗略算做 p ．因此， 1 － P = （ 1 － pk ） N ，
需要的实验次数为 N= log （ 1 － P ）． log （ 1 － p k ）
3
3． 1
识别方法
流程设计
识别流程框图如图 2 所示，各模块功能如下．预处理：去除干扰，增强图像，边缘提取，保留边缘信息，减少计算量． DENSE SIFT 特征提取：提取验证 DENSE SIFT 特征．获取匹配点集：待识别验证码码
中图法分类号
A Ｒecognition Method for Distorted and Merged TextBased CAPTCHA
YIN Long，YIN Dong，ZHANG Ｒong，WANG DeJian （ School of Information Science and Technology，University of Science and Technology of China，Hefei 230026 ）
Ke y Words
CAPTCHA Ｒecognition，Distorted and Merged Character，Dense Scale Invariant Feature Transform （ DENSE SIFT），Ｒandom Sample Consensus （ＲANSAC ）
［1 ］难分割或不可分割验证码）． Chellapilla 等的研究表明，在验证码识别中，分割是比识别更为困难的
2
2． 1
相关原理
DENSE SIFT 特征 SIFT［9］是使用局部梯度信息的一种局部描述
对旋转、尺度缩放、亮度变化保持不变性，对视角子，变化、仿射变换、噪声也保持一定程度的稳定性，同时还具有独特性、多量性、可扩展性等优点． SIFT 在计算机视觉领域得到广泛应用，在字符识别中也有较好效果．然而对于扭曲粘连字符验证码，直接使用 SIFT 存在以下问题： 1 ）在两个字符交叉的地方易形成特征点，这些特征点形成的描述子包含多个字符易造成误识别； 2 ）部分字符由于笔划简单或信息， SIFT 算法得到的特征点数目过少，结构特殊，这降［10 ］低识别的准确性．本文采用 DENSE SIFT 特征，特征点数目足够，含有丰富的字符信息，因此能达到理想的识别效果． SIFT 特征提取包括特征点检测和描述子形成这两个步骤，而 DENSE SIFT 特征提取只使用描述子形成这个步骤，在图像中的每一点都进行描述子以形成类似光流的 SIFT 流图．设图像为的抽取， f（ x， y）， y0 ）点的 DENSE SIFT 特征，计算（ x0 ，本文
收稿日期： 2012－11－19 ；修回日期： 2013－02－28 1988 年生， mail： ylong@ mail． ustc． edu． cn．尹东作者简介尹龙，男，硕士研究生，主要研究方向为计算机视觉、机器学习． E（通讯作者）， 1965 年生， mail： yindong@ ustc． edu． cn．张荣，男，硕士，副教授，主要研究方向为智能信息处理、图像处理． E女， 1968 年生， 1988 年生，博士，副教授，主要研究方向为图像处理、数据压缩．王德建，男，硕士研究生，主要研究方向为机器视觉、机器学习．
割，是验证码识别中的难点．针对由扭曲粘连字符构成的验证码，提出一种基于密集尺度不变特征变换（ DENSE SIFT）和随机抽样一致性算法（ＲANSAC ）的识别方法．首先通过 DENSE SIFT 特征匹配获得匹配点集，再利用ＲANSAC 算法获取匹配信息，最后采用队列式分析算法得出识别结果．实验表明，该方法对不同难度级别的扭曲粘连验证码均有较好的效果．关键词验证码识别，扭曲粘连字符，密集尺度不变特征变换（ DENSE SIFT），随机抽样一致性算法（ＲANSAC） TP 391． 4
全自动区分计算机和人类的图灵测试（验证码）（ Completely Automated Public Turing Test to Tell Computers and Humans Apart，CAPTCHA）最 Yahoo 是早作为卡内基梅隆大学的一个科研项目， CAPTCHA 的第一个用户．验证码在维护网络安全、防止机器恶意攻击方面做出较大贡献．研究验证码促进验证码的识别可及时发现验证码的安全漏洞，的设计，使其变得更加安全．本文研究的验证码为字符验证码，也是当前的主流验证码类型．字符型验证码的识别可分为基于分割的识别（针对可分割性验证码）和不基于分割的识别（针对
第 27 卷第 3 期 2014 年 3 月
模式识别与人工智能 PＲ＆ AI
Vol． 27 Mar．
No． 3 2014
一种扭曲粘连字符验证码识别方法
尹龙尹东张荣王德建
（中国科学技术大学信息科学技术学院
合肥 230026 ）
摘
要
验证码源自文库别研究能及时发现验证码的安全漏洞，使其变得更加安全．扭曲粘连字符验证码能抵抗字符分