图像哈希检索背景综述(一)

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

慌乱挣扎的第一个学期终于马上就要结束。

差不多忙活了一个学期，最近终于开始慢慢理清楚这个思路，也准备开始使用一些benchmark的数据集来对某一篇paper的算法做一下实验，实现一下。

感觉自己的思路有时候不太清晰，因此现在开始想写一点东西，把自己做的事情和思路一步步记录下来，包括以后每次看的paper的理解，也能够成为见证自己学习的一个过程。现在从最开始的背景综述开始写起。

现在的图像检索技术基本上还是分为两类，基于文本的图像检索（Text-based Image Retrieval,TBIR）和基于内容的图像检索（Content-based Image Retrieval, CBIR）。

基于文本的图像检索也就是主要利用文本描述的方式对一幅图像进行特征的描述，建立相应的描述子或者key words，比如图像的年代、作者、尺寸、编码、名称等一些关键性的信息，将它们进行自动或者人工采集标注，产生图像的索引数据库，然后将用户输入的关键字，进行匹配查找，再返回结果的一种图像检索方式。它易于实现，查准率也较高，但是存在文本描述有限，有些图像特征不好描述甚至无法描述，而且存在不同描述人的较大的主观性，并且需要人工标注，在海量数据的处理中越来越失去应用价值，进而也不能满足检索的要求。

基于内容的检索技术是由计算机对图像的特征进行分析，提取特征，如颜色、纹理和形状等，将提取的特征作为向量存入图像数据库，对于输入的检索图片做相同的处理，利用相似性准则计算该查询图片与图像特征库中的每一个特征向量的相似度，根据相似度排序后，输出给定阈值下的检索结果。其优点在于使用机器对图像的内容进行判别性的信息提取，得到特征的描述子，不需要人为地对图像进行文本标注；并且，该过程作为一个近似匹配的过程，对于检索效率的提升也有了很大的贡献，但是对于图像特征的提取上，复杂的算法需要实现从最底层图像特征到高层的语义信息的联系显得有点困难，因此检索准确性上不是很高。

随着CBIR成为研究热点，目前国内外有了许多以图搜图的图像搜索引擎系统。总结了一下目前以图搜图的一些搜索引擎有以下：

picitup,Google的按图搜索，图想，百度试图，TinEye，千视惠搜，搜鞋客等。

在海量数字图像数据再互联网上泛滥之后，对于图像的快速和有效检索就显得日益重要。传统的方法有基于树的索引结构，如k-d树，但它仅仅在处理低维数据时可以有效提高检索速度，当数据维度超过20维时，其检索效率就接近于穷举的搜索方式。因此，目前针对高维数据的快速检索问题，图像哈希技术在上世纪九十年代末诞生。

上图为图像哈希技术的检索流程。对于训练图像和查询图像都需要进行特征的提取，之后通过哈希函数的转化，压缩为一定数目的二进制编码序列，该过程称为哈希编码。然后将得到的哈希编码，进行汉明距离的计算，在设置的汉明距离阈值范围内再对候选样本做欧式距离排序，也就是重排(一般论文这一步都是没有的)，最后返回检索到的图像，这些得到的图像称为查询图像的近似最近邻。

对于哈希函数的期望，我们希望其满足以下两个必要的条件：

（1）对于内容相似的图像，其哈希编码的序列能够尽可能相同或者十分接近；

（2）对于内容不同的图像，其哈希编码的序列能够尽可能不同。

对于以上两个条件的判定，与其汉明距离的大小相关联。而汉明距离就是一串二进制代码的异或操作，非常方便快捷，因此，哈希技术给图像检索带来很大的便捷性。