基于特征编码与深度学习的图像识别算法

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于特征编码与深度学习的图像识别算法图像识别是计算机视觉和模式识别领域重要的研究课题之一,同时也是未来实现智能化社会的一个重要工具。常见的图像识别模型可以分为图像特征提取,图像特征变换,特征池化和训练分类器这4个重要的步骤。

特征编码方法是一种重要的图像识别模型,在图像分类,目标检索以及视频动作识别等领域有着广泛的应用,并且优异的特征编码方法能够有效地提升图像识别的性能。特征编码模型在上述的4个步骤中,主要用于图像特征变换或者是最后端的分类器。

尽管基于特征编码的图像识别模型已经展现出了出色的分类性能,但是在判决移不变特征编码,时间和性能上的权衡以及端到端训练的特征编码等方面还存在着一些不完善的问题。针对已有模型的不足,本论文分别从分类器和图像特征变换两个方面出发,提出了新颖和有效的特征编码模型用于提高图像识别性能。

本论文的创新性成果如下:1.针对传统的卷积稀疏编码模型是无监督的,不适用于分类任务,本文提出了监督训练的卷积稀疏编码分类器。卷积稀疏编码分类模型结合了卷积稀疏编码和相关的分类策略,学习得到了移不变的和具有类别信息的卷积滤波器。

本文给出了卷积稀疏编码分类模型的优化问题,对应的优化算法以及分类策略。通过监督方式学习得到的卷积字典比稀疏表示分类器中的移变字典更具有图像表达能力。

本文在MNIST数据集和CIFAR10数据集上做了相关的图像识别实验,实验结果表明卷积稀疏编码分类器比稀疏表示分类器提升了2-3%的分类性能。相比于其他的字典学习分类算法,卷积稀疏编码分类器也有1%左右的分类性能提升。

2.现有的稀疏表示和字典学习分类算法大多需要求解耗时的l0范数或l1范数最小化问题。针对耗时的稀疏编码最小化问题,本文提出了一个基于可导支持向量函数的字典对学习模型。

该模型利用投影字典对来求解编码系数能够有效减少训练和测试时间。在训练阶段,所提出的模型联合训练一个合成字典,一个分析字典以及一个支持向量判决项,通过支持向量判决项可以增加字典对表示系数的区分度,从而增强整个模型的判决性能。

在测试阶段,所提出的模型利用重建残差,投影判决项和支持向量函数来确定测试样本的最终标签。图像识别实验证明所提出的方法比基于l0范数或l1范数的字典学习分类算法有较高的图像识别率和较低的时间复杂度。

在较大的图像数据集上,所提出的模型比原始的字典对学习模型提升了3%左右的识别率。3.针对稀疏编码空间金字塔配准(Sc SPM)模型只能无监督地学习稀疏字典,本文提出一种端到端训练的具有空间金字塔池化层的稀疏编码网络。

为了可端到端训练稀疏编码模型,该网络将求解稀疏最小化问题的优化过程当做是一个递归网络层,并且将这个稀疏编码网络层和空间金字塔池化层以及一个深度卷积神经网络一起进行端到端的训练。通过这样的监督训练,所学习得到的字典将会含有最终的标签信息,通过卷积神经网络特征,稀疏编码网络可以得到表示性能更强的稀疏编码。

本文在物体图像数据集上验证了所提出方法的有效性,实验结果证明稀疏编码网络要比Sc SPM模型有4-5%的分类性能提升,相比于其他性能先进的卷积神经网络模型,稀疏编码网络也有一定的性能提升。4.为了设计判决性能更强的特征编码网络,本文提出了一个局部相关和二阶的VLAD特征编码网络

(LSO-VLADNet)。

首先,本文设计了一个局部相关和二阶的VLAD编码方法。其次,本文推导得出了所有新设计的网络层的反向传播函数。

最后我们将这个新设计的特征编码方法扩展为一个端到端的特征编码网络层,这个新的网络层可以和一个深度卷积网络一起进行联合训练以用于图像识别。进一步地,本文提出了一个多路特征编码网络(M-LSO-VLADNet)用于聚合多路特

征编码以用于图像识别。

本文在细粒度图像数据集,场景图像数据集和物体图像数据集上验证了该网络的分类性能,实验结果证明相比于已有的端到端特征编码网络如Net VLAD模型,所提出的网络提升了1-3%的分类性能。此外,该特征编码网络在图像识别率上也要优于其他的性能优异的卷积网络。