深度优先局部聚合哈希
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Vol.48,No.6
Jun. 202 1
第48卷第6期
2 0 2 1年6月
湖南大学学报)自然科学版)
Journal of Hunan University (Natural Sciences )
文章编号:1674-2974(2021 )06-0058-09 DOI : 10.16339/ki.hdxbzkb.2021.06.009
深度优先局艺B 聚合哈希
龙显忠g,程成李云12
(1.南京邮电大学计算机学院,江苏南京210023;
2.江苏省大数据安全与智能处理重点实验室,江苏南京210023)
摘 要:已有的深度监督哈希方法不能有效地利用提取到的卷积特征,同时,也忽视了数
据对之间相似性信息分布对于哈希网络的作用,最终导致学到的哈希编码之间的区分性不足.
为了解决该问题,提出了一种新颖的深度监督哈希方法,称之为深度优先局部聚合哈希(Deep
Priority Local Aggregated Hashing , DPLAH ). DPLAH 将局部聚合描述子向量嵌入到哈希网络 中,提高网络对同类数据的表达能力,并且通过在数据对之间施加不同权重,从而减少相似性 信息分布倾斜对哈希网络的影响.利用Pytorch 深度框架进行DPLAH 实验,使用NetVLAD 层 对Resnet18网络模型输出的卷积特征进行聚合,将聚合得到的特征进行哈希编码学习.在CI-
FAR-10和NUS-WIDE 数据集上的图像检索实验表明,与使用手工特征和卷积神经网络特征
的非深度哈希学习算法的最好结果相比,DPLAH 的平均准确率均值要高出11%,同时,
DPLAH 的平均准确率均值比非对称深度监督哈希方法高出2%.
关键词:深度哈希学习;卷积神经网络;图像检索;局部聚合描述子向量
中图分类号:TP391.4
文献标志码:A
Deep Priority Local Aggregated Hashing
LONG Xianzhong 1
,覮,CHENG Cheng
1,2
,LI Yun 1,2
(1. School of Computer Science & Technology ,Nanjing University of Posts and Telecommunications ,Nanjing 210023, China ;
2. Key Laboratory of Jiangsu Big Data Security and Intelligent Processing ,Nanjing 210023, China )
Abstract : The existing deep supervised hashing methods cannot effectively utilize the extracted convolution fea
tures, but also ignore the role of the similarity information distribution between data pairs on the hash network, result
ing in insufficient discrimination between the learned hash codes. In order to solve this problem, a novel deep super vised hashing method called deep priority locally aggregated hashing (DPLAH) is proposed in this paper, which em
beds the vector of locally aggregated descriptors (VLAD) into the hash network, so as to improve the ability of the hash
network to express the similar data, and reduce the impact of similarity distribution skew on the hash network by im posing different weights on the data pairs. DPLAH experiment is carried out by using the Pytorch deep framework. The
convolution features of the Resnet18 network model output are aggregated by using the NetVLAD layer, and the hash
coding is learned by using the aggregated features. The image retrieval experiments on the CIFAR-10 and NUS - WIDE datasets show that the mean average precision (MAP) of DPLAH is11 percentage points higher than that of
* 收稿日期:2020-04-26
基金项目:国家自然科学基金资助项目(61906098,61772284),National Natural Science Foundation of China(61906098, 61772284);国家重 点研发计划项目(2018YFB 1003702) , National Key Research and Development Program of China (2018YFB1003702)
作者简介:龙显忠(1985—),男,河南信阳人,南京邮电大学讲师,工学博士,硕士生导师
覮 通信联系人,E-mail : *************.cn
第6期龙显忠等:深度优先局部聚合哈希59
non-deep hash learning algorithms using manual features and convolution neural network features,and the MAP of DPLAH is2percentage points higher than that of asymmetric deep supervised hashing method.
Key words:deep Hash learning;convolutional neural network;image retrieval;vector of locally aggregated de-scriptors(VLAD)
随着信息检索技术的不断发展和完善,如今人们可以利用互联网轻易获取感兴趣的数据内容,然而,信息技术的发展同时导致了数据规模的迅猛增长.面对海量的数据以及超大规模的数据集,利用最近邻搜索[1(Nearest Neighbor Search,NN)的检索技术已经无法获得理想的检索效果与可接受的检索时间.因此,近年来,近似最近邻搜索[2(Approximate Nearest Neighbor Search,ANN)变得越来越流行,它通过搜索可能相似的几个数据而不再局限于返回最相似的数据,在牺牲可接受范围的精度下提高了检索效率.作为一种广泛使用的ANN搜索技术,哈希方法(Hashing)[3]将数据转换为紧凑的二进制编码(哈希编码)表示,同时保证相似的数据对生成相似的二进制编码.利用哈希编码来表示原始数据,显著减少了数据的存储和查询开销,从而可以应对大规模数据中的检索问题.因此,哈希方法吸引了越来越多学者的关注.
当前哈希方法主要分为两类:数据独立的哈希方法和数据依赖的哈希方法,这两类哈希方法的区别在于哈希函数是否需要训练数据来定义.局部敏感哈希(Locality Sensitive Hashing,LSH)[4]作为数据独立的哈希代表,它利用独立于训练数据的随机投影作为哈希函数•相反,数据依赖哈希的哈希函数需要通过训练数据学习出来,因此,数据依赖的哈希也被称为哈希学习,数据依赖的哈希通常具有更好的性能.近年来,哈希方法的研究主要侧重于哈希学习方面.
根据哈希学习过程中是否使用标签,哈希学习方法可以进一步分为:监督哈希学习和无监督哈希学习.典型的无监督哈希学习包括:谱哈希[5(Spectral Hashing,SH);迭代量化哈希[6](Iterative Quantization, ITQ);离散图哈希[7(Discrete Graph Hashing,DGH);有序嵌入哈希[8](Ordinal Embedding Hashing,OEH)等.无监督哈希学习方法仅使用无标签的数据来学习哈希函数,将输入的数据映射为哈希编码的形式.相反,监督哈希学习方法通过利用监督信息来学习哈希函数,由于利用了带有标签的数据,监督哈希方法往往比无监督哈希方法具有更好的准确性,本文的研究主要针对监督哈希学习方法.
传统的监督哈希方法包括:核监督哈希[9](Supervised Hashing with Kernels,KSH);潜在因子哈希[10](Latent Factor Hashing,LFH);快速监督哈希[11](Fast Supervised Hashing,FastH);监督离散哈希[1(Super-vised Discrete Hashing,SDH)等.随着深度学习技术的发展[13],利用神经网络提取的特征已经逐渐替代手工特征,推动了深度监督哈希的进步.具有代表性的深度监督哈希方法包括:卷积神经网络哈希[1(Convolutional Neural Networks Hashing,CNNH);深度语义排序哈希[15](Deep Semantic Ranking Based Hash-ing,DSRH);深度成对监督哈希[16](Deep Pairwise-Supervised Hashing,DPSH);深度监督离散哈希[17](Deep Supervised Discrete Hashing,DSDH);深度优先哈希[18](Deep Priority Hashing,DPH)等.通过将特征学习和哈希编码学习(或哈希函数学习)集成到一个端到端网络中,深度监督哈希方法可以显著优于非深度监督哈希方法.
到目前为止,大多数现有的深度哈希方法都采用对称策略来学习查询数据和数据集的哈希编码以及深度哈希函数.相反,非对称深度监督哈希[19](Asymmetric Deep Supervised Hashing,ADSH)以非对称的方式处理查询数据和整个数据库数据,解决了对称方式中训练开销较大的问题,仅仅通过查询数据就可以对神经网络进行训练来学习哈希函数,整个数据库的哈希编码可以通过优化直接得到.本文的模型同样利用了ADSH的非对称训练策略.
然而,现有的非对称深度监督哈希方法并没有考虑到数据之间的相似性分布对于哈希网络的影响,可能导致结果是:容易在汉明空间中保持相似关系的数据对,往往会被训练得越来越好;相反,那些难以在汉明空间中保持相似关系的数据对,往往在训练后得到的提升并不显著.同时大部分现有的深度监督哈希方法在哈希网络中没有充分有效利用提
60湖南大学学报(自然科学版)2021年
取到的卷积特征.
本文提出了一种新的深度监督哈希方法,称为
深度优先局部聚合哈希(Deep Priority Local Aggre
gated Hashing,DPLAH).DPLAH的贡献主要有三个方面:
1)DPLAH采用非对称的方式处理查询数据和数据库数据,同时DPLAH网络会优先学习查询数据和数据库数据之间困难的数据对,从而减轻相似性分布倾斜对哈希网络的影响.
2)DPLAH设计了全新的深度哈希网络,具体来说,DPLAH将局部聚合表示融入到哈希网络中,提高了哈希网络对同类数据的表达能力.同时考虑到数据的局部聚合表示对于分类任务的有效性.
3)在两个大型数据集上的实验结果表明,DPLAH在实际应用中性能优越.
1相关工作
本节分别对哈希学习[3]、NetVLAD[20]和Focal Loss[21]进行介绍.DPLAH分别利用NetVLAD和Focal Loss提高哈希网络对同类数据的表达能力及减轻数据之间相似性分布倾斜对于哈希网络的影响. 1.1哈希学习
哈希学习[3]的任务是学习查询数据和数据库数据的哈希编码表示,同时要满足原始数据之间的近邻关系与数据哈希编码之间的近邻关系相一致的条件.具体来说,利用机器学习方法将所有数据映射成{0,1}r形式的二进制编码(r表示哈希编码长度),在原空间中不相似的数据点将被映射成不相似)即汉明距离较大)的两个二进制编码,而原空间中相似的两个数据点将被映射成相似(即汉明距离较小)的两个二进制编码.
为了便于计算,大部分哈希方法学习{-1,1}r形式的哈希编码,这是因为{-1,1}r形式的哈希编码对之间的内积等于哈希编码的长度减去汉明距离的两倍,同时{-1,1}r形式的哈希编码可以容易转化为{0,1}r形式的二进制编码.
图1是哈希学习的示意图.经过特征提取后的高维向量被用来表示原始图像,哈希函数h将每张图像映射成8bits的哈希编码,使原来相似的数据对(图中老虎1和老虎2)之间的哈希编码汉明距离尽可能小,原来不相似的数据对(图中大象和老虎1)之间的哈希编码汉明距离尽可能大.
h(大象)=
10001010
h(老虎1)=
01100001
h(老虎2)=
01100101
相似度尽可能小相似度尽可能大
图1哈希学习示意图
Fig.1Hashing learning diagram
1.2NetVLAD
NetVLAD的提出是用于解决端到端的场景识别问题[20(场景识别被当作一个实例检索任务),它将传统的局部聚合描述子向量(Vector of Locally Aggregated Descriptors,VLAD[22])结构嵌入到CNN网络中,得到了一个新的VLAD层.可以容易地将NetVLAD 使用在任意CNN结构中,利用反向传播算法进行优化,它能够有效地提高对同类别图像的表达能力,并提高分类的性能.
NetVLAD的编码步骤为:利用卷积神经网络提取图像的卷积特征;利用NetVLAD层对卷积特征进行聚合操作.图2为NetVLAD层的示意图.在特征提取阶段,NetVLAD会在最后一个卷积层上裁剪卷积特征,并将其视为密集的描述符提取器,最后一个卷积层的输出是H伊W伊D映射,可以将其视为在H伊W空间位置提取的一组D维特征,该方法在实例检索和纹理识别任务[23別中都表现出了很好的效果.
NetVLAD layer
(KxD)x l
VLAD
vector
h------->
图2NetVLAD层示意图⑷
Fig.2NetVLAD layer diagram1201
NetVLAD在特征聚合阶段,利用一个新的池化层对裁剪的CNN特征进行聚合,这个新的池化层被称为NetVLAD层.NetVLAD的聚合操作公式如下:
N
V((,k)二移a(x)(血⑺-C((j))(1)
i=1
式中:血(j)和C)(j)分别表示第i个特征的第j维和第k个聚类中心的第j维;恣&)表示特征您与第k个视觉单词之间的权.NetVLAD特征聚合的输入为:NetVLAD裁剪得到的N个D维的卷积特征,K个聚
第6期龙显忠等:深度优先局部聚合哈希61
类中心.
VLAD的特征分配方式是硬分配,即每个特征
只和对应的最近邻聚类中心相关联,这种分配方式
会造成较大的量化误差,并且,这种分配方式嵌入到
卷积神经网络中无法进行反向传播更新参数.因此,
NetVLAD采用软分配的方式进行特征分配,软分配
对应的公式如下:
-琢II Xi-C*II 2
=—e(2)
-琢II X-Ck,II2
k,
如果琢寅+肄,那么对于最接近的聚类中心,龟&)的值为1,其他为0.aS)可以进一步重写为:
w j X i+b k
a(x i)=—e-)3)
w J'X i+b k
k,
式中:W k=2琢C k;b k=-琢||C k||2.最终的NetVLAD的聚合表示可以写为:
N w;x+b k
v(j,k)=移—----(x(j)-Ck(j))(4)
i=1w j.X i+b k
移e
k,
1.3Focal Loss
对于目标检测方法,一般可以分为两种类型:单阶段目标检测和两阶段目标检测,通常情况下,两阶段的目标检测效果要优于单阶段的目标检测.Lin等人[21]揭示了前景和背景的极度不平衡导致了单阶段目标检测的效果无法令人满意,具体而言,容易被分类的背景虽然对应的损失很低,但由于图像中背景的比重很大,对于损失依旧有很大的贡献,从而导致收敛到不够好的一个结果.Lin等人[21]提出了Focal Loss应对这一问题,图3是对应的示意图.使用交叉爛作为目标检测中的分类损失,对于易分类的样本,它的损失虽然很低,但数据的不平衡导致大量易分类的损失之和压倒了难分类的样本损失,最终难分类的样本不能在神经网络中得到有效的训练.Focal Loss的本质是一种加权思想,权重可根据分类正确的概率p得到,利用酌可以对该权重的强度进行调整.
针对非对称深度哈希方法,希望难以在汉明空间中保持相似关系的数据对优先训练,具体来说,对于DPLAH的整体训练损失,通过施加权重的方式,相对提高难以在汉明空间中保持相似关系的数据对之间的训练损失.然而深度哈希学习并不是一个分类任务,因此无法像Focal Loss一样根据分类正确的概率设计权重,哈希学习的目的是学到保相似性的哈希编码,本文最终利用数据对哈希编码的相似度作为权重的设计依据具体的权重形式将在模型部分详细介绍.
正确分类的概率
图3Focal Loss示意图[21】
Fig.3Focal Loss diagram1211
2深度优先局部聚合哈希
2.1基本定义
DPLAH模型采用非对称的网络设计.Q={0},=1表示n张查询图像,X={X i}m1表示数据库有m张图像;查询图像和数据库图像的标签分别用Z={Z i},=1和Y ={川1表示;i=[Z i1,…,zj1,i=1,…,n;c表示类另数;如果查询图像0属于类别j,j=1,…,c;那么z”=1,否则=0.利用标签信息,可以构造图像对的相似性矩阵S沂{-1,1}"伊”,s”=1表示查询图像q,和数据库中的图像X j语义相似,S j=-1表示查询图像和数据库中的图像X j语义不相似.深度哈希方法的目标是学习查询图像和数据库中图像的哈希编码,查询图像的哈希编码用U沂{-1,1}"",表示,数据库中图像的哈希编码用B沂{-1,1}m伊r表示,其中r表示哈希编码的长度.
对于DPLAH模型,它在特征提取部分采用预训练好的Resnet18网络[25].图4为DPLAH网络的结构示意图,利用NetVLAD层聚合Resnet18网络提取到的卷积特征,哈希编码通过VLAD编码得到,由于VLAD编码在分类任务中被广泛使用,于是本文将NetVLAD层的输出作为分类任务的输入,利用图像的标签信息监督NetVLAD层对卷积特征的利用.事实上,任何一种CNN模型都能实现图像特征提取的功能,所以对于选用哪种网络进行特征学习并不是本文的重点
.
62湖南大学学报(自然科学版)2021年
conv1
图4DPLAH结构
Fig.4DPLAH structure
图像标签soft-max
1,0,1,1,0
□
1,0,0,0,1
1,1,0,1,0
---------*----------VLAD
VLAD core)c)l・>:i>
数据库图像的哈希编码
2.2DPLAH模型的目标函数
为了学习可以保留查询图像与数据库图像之间
相似性的哈希编码,一种常见的方法是利用相似性
的监督信息S e{-1,1}n伊"、生成的哈希编码长度r,以
及查询图像的哈希编码仏和数据库中图像的哈希编
码b三者之间的关系[9],即最小化相似性的监督信
息与哈希编码对内积之间的L损失.考虑
到相似性分布的倾斜问题,本文通过施加权重来调
节查询图像和数据库图像之间的损失,其公式可
以表示为:
min J=移移(1-w)(u T b j-rs)
专,B i=1j=1
s.t.U沂{-1,1}n伊r,B沂{-1,1}m伊r,W沂R n伊m
(5)
受FocalLoss启发,希望深度哈希网络优先训练
相似性不容易保留图像对,然而Focal Loss利用图像
的分类结果对损失进行调整,因此,需要重新进行设
计,由于哈希学习的目的是为了保留图像在汉明空
间中的相似性关系,本文利用哈希编码的余弦相似
度来设计权重,其表达式为:
1+。
0$(血,6)
2,s j=1 1-。
0$(血,6)
2,s j=-16)
=
式中:,和b j分别表示查询图像i和数据库图像j的哈希编码;S j=1表示图像i和j语义相似=-1表示图像i和j语义不相似•从公式(6)中可以发现,若U和b j越相似,且图像i和j语义相似,则W ij的值接近1,这就表示哈希编码血和b j相似的难度低;反之U i和b j不相似,而图像i和j语义相似,则W ij的值接近0,这就表示哈希编码U i和b j相似的难度高•本文希望深度哈希网络优先关注相似难度高的图像对,因此对查询图像和数据库图像之间施加权重(1-w,)琢,琢是一个超参数.
对于查询图像的哈希编码働尚沂U而言,它是离散值,所以不能直接利用反向传播算法(BP)来更新神经网络的参数专.为了使神经网络能够进行反向传播,使用tanh(L)激活函数来近似表示U,其中L ={l}i=1表示图像网络中哈希层的输出,对应的优化问题(5)可以被重新表示为:
n m
min J=移移)1-w)(tanh(lJ T b j-rs)
专,B i=1j=1
s.t.B沂{-1,1}m伊r(7)使用追={1,2,…,m}表示数据库中所有图像的索引,随机地从数据库中选择n追状张图像创建查询集,并用状={i,i2,…,订哿追表示查询集的索引•此时,公式(7)可以表示为:
min J=移移)1-w)(tanh(lJ T b j-rs)
专,B i沂状j沂追
s.t.B沂{-1,1}m伊r(8)创建的查询集通过深度哈希网络生成哈希编码,同样它们在整个数据集中的哈希编码也可以通过优化直接得到,因此,还需要保证查询集在哈希网络中学习到的哈希编码要与数据集中的哈希编码尽可能相同•对应的优化问题可进一步表示为:
min J=移移)1-w)(tanh(l,)T b j-rs)+
专,B i沂状j沂追
0移(b,-tanh(lj)2
i沂状
s.t.BE{-1,1}m伊r(9)
由于VLAD对于图像具有较好的表示性能,并且VLAD同样被广泛运用于图像分类任务中,因此,
第6期龙显忠等:深度优先局部聚合哈希63 NetVLAD层的输出对于分类任务也依然有效,并将
NetVLAD层的输出从作为分类网络的输入.利用NetVLAD在分类网络中的预测标签和图像的真实标签之间的损失更新网络参数,希望图像哈希网络能够提取到更具有判别力的特征.最终,DPLAH的目标函数可写为:
min J=移移)1-W j)"(tanh(lJ T®-rS j)2+
专,i沂状j沂追
茁移(bj-tanhUjy+M移||兀一W||:
i沂状I E Y
s.t.B沂{-1,1}”x r(10) 2.3学习过程
本文采用迭代优化的方式来学习DPLAH网络的参数专和数据库图像的哈希编码B.算法1是整个DPLAH算法的学习过程.
固定B,学习参数专.当B被固定,直接使用反向传播算法(BP)来更新参数专,具体来说,从查询集中采样一个批次的图像来更新深度哈希网络的参数.
固定参数专,学习B.当深度哈希网络的参数专被固定时,使用与非对称深度哈希[19]相同的优化策略来更新数据库中的哈希编码B,公式如下所示:B*k=-sign(2j B k U k U*k—2r SU-2(3U)(11)式中:B*k表示B的第k列;血是矩阵B除了第k列的矩阵;U*k表示U的第k列;U k是矩阵U除了第k 列的矩阵;S为相似性矩阵.
算法1DPLAH学习算法
输人:m张数据库图像X={对,21,数据库图像标签Y=(y}.~1,相似性矩阵S e{-1,1}"伊m
输出:DPLAH的网络参数专,数据库图像的哈希编码B
1:初始化:专和B,哈希编码长度r,最小批次大小g,迭代次数t l和ts,查询图像个数"
2:for t1=1—t l
3:随机从数据库图像追中采样生成查询集状
4:for t2=1—t s
5:for k=1—"g
6随机采取查询图像中的g张作为一个批次
7:利用BP算法更新专:专饮-专—滋•专丄⑺
g
8:end
9:for i=1—r
10:按照公式(11)更新B*i
11:end
12:end
13:end 3实验设计与分析
3.1实验设计
3.1.1数据集
为了验证DPLAH算法的有效性,在CIFAR-10[26]和NUS-WIDE[271数据集上进行实验.
CIFAR-10数据集由60000张32伊32的RGB 彩色图像构成,它是一个用于识别普适物体的数据集.这些图像被手动标记为10个类别,分别是飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车.
NUS-WIDE是一个真实的网络数据集,一共包含269648张图像,每张图像都与来自81个语义类别中的一个或多个类别相关联.本文遵循与ADSH 类似的实验方案,使用最常见的21个类别中的图像,其中每个类别中至少包含了5000张图像,从而总共使用了195834张图像.
3.1.2实验运行环境及超参数配置
所有关于DPLAH的实验都是利用Pytorch深度框架完成的,利用预训练好的Resnet18网络[25]提取图像的特征,NetVLAD层对Resnet18模型输出的卷积特征进行聚合,最后,利用聚合得到的特征进行哈希编码的学习.
对CIFAR-10和NUS-WIDE数据集,NetVLAD 的聚类中心个数设置为64.超参数0、和状分别设置为200,200和2000,DPLAH网络的学习率在10-7-10-3区间进行调整,t l和t s分别为60和3,超参数琢为0.2.
在本文实验中,使用到的NetVLAD层去掉了规范化操作,由于整个数据集的哈希编码是通过优化算法直接得到,因此在训练初期并不使用权重.具体来说,当超参数t l的值小于10时,都不施加优先权重;当t l的值大于10时,施加权重进行训练的同时,会对学习率进行调整.
3.1.3实验对比
按照现有的深度哈希方法中的评估指标,使用平均准确率均值(MAP)和Top-5K精度来评估DPLAH算法的性能.对于NUS-WIDE数据集,计算前5000张返回图像的MAP.对于CIFAR-10数据集,在每个类别中选取100张图像作为测试图像,对于NUS-WIDE数据集,同样在每个类别中选取100张图像作为测试图像,因此这两个数据集的测试图像数量分别为1000和2100张,剩余图像作为数据
64湖南大学学报(自然科学版)2021年
库图像.遵循非对称深度哈希等方法[19]在图像相似性上的构造方法,利用图像标签构造用于深度哈希函数学习的相似性矩阵.具体来说:若两张图像共享至少一个标签,则它们被视为语义相似对,否则,它们是语义不相似的图像对.
多种哈希学习方法被用来与DPLAH进行比较,如SH、ITQ等无监督的哈希方法(包括SH+CNN、ITQ+CNN),SDH、FastH和LFH等有监督的哈希方法(包括SDH+CNN、FastH+CNN和LFH+CNN), CNNH、DPSH和ADSH等深度哈希方法/其中CNNH是两阶段的深度哈希学习方法,其他都是端到端的深度哈希学习方法).
3.2实验结果和分析
在两个数据集上的MAP对比结果如表1所示.由于ADSH算法的优越性能,它成为本文重点比较的方法.为了进行公平的比较,此处利用Pytorch版本的ADSH来进行实验对比,预训练好的Resnet18模型同样会被用来提取图像的卷积特征,其他哈希算法的实验结果来源于DPSH[161和ADSH[19].
表1中的非深度哈希学习算法使用图像的手工特征,同时也比较了使用CNN特征的非深度哈希学习算法,可以发现端到端的深度哈希方法优于传统的哈希学习方法非对称的深度哈希方法优于对称的深度哈希方法.与LFH+CNN的最好结果0.814相比,DPLAH的平均准确率均值要高出11%,同时, DPLAH的平均准确率均值最多比非对称深度监督哈希方法ADSH高出2%.
由于非对称深度监督哈希方法)ADSH)的性能远优于其他哈希学习方法,因此,比较DPLAH和ADSH在不同比特长度下的Top-5K精度,结果如图5所示.由表1和图5可知,DPLAH无论在MAP还是Top_5K精度的衡量下,其性能都优于现有的深度监督哈希方法.
根据实验结果,发现DPLAH方法在NUS-WIDE 数据集上性能较好.这可能由于NUS-WIDE数据集中的图像来自于真实世界,图像中包含的内容非常丰富;而NetVLAD的提出就是为了解决现实中的场景识别问题,在面对图像中的光线变化、视角变化等情况,具备一定的鲁棒性,从而使得DPLAH方法在NUS-WIDE数据集上的性能较好.
为了验证NetVLAD层确实能学习到具有区分力的哈希编码,本文在NUS-WIDE数据集不使用优先权重的条件下,仅仅将NetVLAD层加入哈希网络中对比不同比特长度下的MAP.实验结果如图6所示.
表1两个基准数据集上的MAP对比
Tab.1The MAP comparison on two benchmark datasets
方法
CIFAR-10NUS-WIDE
12bits24bits36bits48bits12bits24bits36bits48bits SH0.1270.1280.1260.1290.4540.4060.4050.400 SH+CNN0.1830.1640.1610.1610.6210.6160.6150.612 ITQ0.1620.1690.1720.1750.4520.4060.4050.400 ITQ+CNN0.2370.2460.2550.2610.7190.7390.7470.756 LFH0.2780.4350.5180.5610.7470.7840.8080.802 LFH+CNN0.4180.5740.6410.6930.7120.7680.7950.814 KSH0.3030.3370.3460.3560.5560.5720.5810.588 SDH0.2850.3290.3410.3560.5680.6000.6080.637 SDH+CNN0.4540.6330.6510.6600.7650.7990.8020.812 FastH0.3050.3490.3690.3840.6210.6500.6650.687 FastH+CNN0.5970.6630.6850.7020.7230.7690.7830.804 CNNH0.4540.4630.4820.4910.6230.6330.6420.617 DHN0.6810.7210.7230.7330.7720.8010.8050.815 DPSH0.6820.7200.7340.7460.7940.8250.8350.844 ADSH0.9190.9430.9490.9520.8630.8990.9070.909 DPLAH0.9380.9530.9600.9580.8850.9130.9180.923
第6期
龙显忠等:深度优先局部聚合哈希
65
0.95
0.940.93
0.92个示例•在图7中,每行图片中的第1张代表查询图
像,后面10张图像表示与查询图像的汉明距离最近
的10张图像•由图7可知,DPLAH 算法具有优越的 性能,尽管还存在一些错误的搜索结果(示例中最后
一行的查询图像是飞机,然而检索出的图像是轮 船),但这在接受的范围内.
0.91
-•-深度优先局部聚合哈希(DPLAH ) 十 非对称深度监督哈希)ADSH )
1
912 24 32长度/bits
(a)CIFAR-10
0.91
48
90.90
超肖
—d £
988
887
0.860.85
〜深度优先局部聚合哈希(DPLAH ) 十 非对称深度监督哈希)ADSH )
98 O.o o O
非对称深度监督哈希)ADSH )
十 深度优先局部聚合哈希)DPLAH ,a=0)
长度/bits
图6在NUS-WIDE 数据集上的NetVLAD 实验结果
Fig.6 NetVLAD experiment result on NUS-WIDE dataset
12
24 32 48
长度/bits (b)NUS-WIDE
图5两个数据集下的Top-5K 精度
Fig.5 Top-5K precision under two data sets
图7为DPLAH 算法基于汉明距离排序的搜索 结果•结果是基于32 bits 的哈希编码长度给出的几
4结论
本文提出了一种基于局部聚合的深度优先哈希
方法,在应对相似性分布倾斜方面,受到了 Focal
Loss 的启发,利用查询图像在哈希网络中学习的哈 希编码和整个数据库图像的哈希编码之间的余弦相
似度,设计了损失函数的优先权重,使得深度哈希网
图7在CIFAR-10数据集上的检索示例
Fig.7 Retrieval example on CIFAR-10
dataset。