地标图像检索及街景图像位置识别技术研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目录
摘要 (i)
Abstract (iii)
第一章绪论 (1)
1.1研究背景与意义 (1)
1.2研究现状 (3)
1.2.1基于词包模型的地标图像检索研究现状 (4)
1.2.2基于深度学习的地标图像检索研究现状 (6)
1.2.3街景图像位置识别研究现状 (7)
1.2.4地标图像和街景图像数据集 (9)
1.2.5性能评价指标 (10)
1.3研究内容 (11)
1.3.1论文主要工作 (11)
1.3.2论文组织结构 (12)
第二章基于爆发性局部特征分组的图像匹配加权方法 (15)
2.1引言 (15)
2.2图像检索中的爆发性问题 (16)
2.2.1爆发性问题的起源 (16)
2.2.2图像爆发性特征的检测方法 (17)
2.2.3特征匹配阶段爆发性处理方法 (22)
2.3基于爆发性分组信息的加权方法 (24)
2.3.1查询图像爆发性分组检测 (25)
2.3.2图像爆发性分组加权方法 (28)
2.4实验结果与分析 (29)
2.4.1实验设置 (29)
2.4.2参数选择实验结果与分析 (31)
2.4.3地标图像检索实验结果与分析 (32)
2.4.4街景图像位置识别实验结果与分析 (33)
2.5本章小结 (34)
第三章后处理阶段的爆发性模式处理方法 (35)
3.1引言 (35)
3.2后处理阶段的爆发性匹配问题 (36)
3.2.1空间校验流程 (36)
3.2.2后处理阶段爆发性匹配模式 (39)
3.2.3后处理阶段爆发性问题描述 (40)
3.3后处理阶段爆发性模式处理方法 (42)
3.3.1几何过滤 (43)
3.3.2一对一匹配 (45)
3.3.3爆发性匹配加权 (46)
3.4实验结果与分析 (48)
3.4.1实验设置 (48)
3.4.2BoW和HE检索模型上的实验结果与分析 (48)
3.4.3与其他方法的对比实验与分析 (51)
3.4.4大规模数据集上的实验结果与分析 (52)
3.5本章小结 (53)
第四章基于全局与局部深度特征融合的地标图像检索方法 (55)
4.1引言 (55)
4.2基于CNN的地标图像检索技术 (56)
4.2.1RMAC特征的构建方法 (56)
4.2.2基于RMAC的地标检索流程 (58)
4.3基于局部特征与全局特征融合的地标图像检索方法 (59)
4.3.1基于全局RMAC特征的初始查询方法 (60)
4.3.2基于SPoC特征的查询目标定位 (61)
4.3.3融合局部和全局深度特征的重排序与查询展开 (62)
4.4实验结果与分析 (64)
4.4.1实验设置 (64)
4.4.2全局初始过滤实验结果与分析 (64)
4.4.3基于特征融合的后处理实验结果与分析 (65)
4.4.4整体检索流程上的实验结果与分析 (66)
4.4.5基于SiaMAC深度特征的检索实验结果与分析 (68)
4.4.6与其他方法的对比实验结果与分析 (69)
4.4.7整体方法的时间开销分析 (70)
4.5本章小结 (71)
第五章基于位置融合的街景图像位置识别后处理方法 (73)
5.1引言 (73)
5.2街景图像位置识别框架 (74)
5.2.1街景图像识别中的全局特征 (74)
5.2.2街景图像位置识别中的后处理方法 (75)
5.3基于灰度过滤和位置融合的后处理方法 (76)
5.3.1灰度过滤 (76)
5.3.2分组融合 (78)
5.4实验结果与分析 (83)
5.4.1实验设置 (83)
5.4.2参数分析 (84)
5.4.3位置识别实验结果与分析 (85)
5.5本章小结 (87)
第六章基于局部约束线性编码的相似度搜索方法 (89)
6.1引言 (89)
6.2相似度搜索 (89)
6.2.1近似相似搜索方法 (90)
6.2.2基于分组测试的相似度搜索方法 (91)
6.2.3基于矩阵分解的相似度搜索方法 (92)
6.3基于局部约束线性编码的相似度计算方法 (94)
6.3.1不带字典训练的LLC方法 (94)
6.3.2带字典训练的LLC方法 (95)
6.4实验结果与分析 (97)
6.4.1实验设置 (97)
6.4.2局部查询实验结果与分析 (98)
6.4.3全局查询实验结果与分析 (99)
6.4.4离线训练时间分析 (100)
6.4.5重建误差分析 (100)
6.5本章小结 (101)
第七章总结与展望 (103)
7.1总结 (103)
7.2工作展望 (105)
致谢 (107)
参考文献 (109)
作者在学期间取得的学术成果 (121)
表2.1不同爆发性匹配加权方法在HE检索方法的精度 (33)
表3.1在BoW和HE检索模型上的结果 (49)
表3.2LBD方法每一步的时间开销 (51)
表3.3LBD方法在HE模型的检索实验结果 (52)
表3.4大规模地标数据集上的检索结果对比 (53)
表4.1RMAC检索方法中不同步骤下的检索精度 (65)
表4.2RMAC方法中不同步骤组合得到的检索精度 (68)
表4.3使用SiaMAC深度特征的地标图像检索实验结果 (69)
表4.4RMAC特征改进方法与已有方法的检索精度对比 (69)
表4.5基于RMAC特征的不同方法检索时间对比表 (70)
表6.1基于局部特征的相似度搜索方法检索精度对比 (99)
表6.2基于全局特征的相似度搜索方法检索精度对比 (99)
表6.3不同相似度搜索方法的字典学习时间对比 (100)
表6.4Oxford105k数据集上匹配与不匹配图像相似度大小分布 (101)
图1.1图像检索评测集规模统计图 (10)
图1.2论文研究内容结构图 (13)
图2.1局部特征示意图 (18)
图2.2爆发性分组检测示意图 (19)
图2.3爆发性匹配模式示意图 (23)
图2.4分组爆发性加权方法示意图 (25)
图2.5分组爆发性处理中参数选择结果示意图 (31)
图2.6街景图像位置识别结果示意图 (33)
图3.1图像之间局部特征匹配示意图 (37)
图3.2局部特征匹配之间的仿射变换关系图 (38)
图3.3后处理阶段特征匹配模式图 (40)
图3.4LBD方法整体流程图 (43)
图3.5几何过滤示意图 (44)
图3.6一对一匹配示意图 (46)
图3.7爆发性匹配加权示意图 (47)
图3.8LBD方法过滤掉的错误结果示意图 (50)
图3.9不同数量干扰集下Oxford5k和Paris6k数据集上的实验结果 (53)
图4.1MAC特征构建示意图 (57)
图4.2RMAC特征构建示意图 (58)
图4.3查询图像与查询目标示意图 (60)
图4.4查询目标定位示意图 (63)
图4.5局部区域相似但整体有差异的错误结果 (67)
图5.1Tokyo24/7数据集上查询结果示例 (77)
图5.2Tokyo24/7数据集上使用NetVLAD特征检索得到的Top-1结果 (77)
图5.3Tokyo24/7数据集不同时间段同一地点拍摄的查询图像示例 (78)
图5.4Tokyo24/7数据集不同时间拍摄的查询图像的灰度均值的分布 (78)
图5.5Tokyo24/7数据集中的一个查询及检索结果 (79)
图5.6查询与初始结果组成的互为近邻关系图 (80)
图5.7过滤后的互为近邻关系图 (82)
图5.8灰度过滤参数选择结果 (84)
图5.9分组融合参数选择结果 (85)
图5.10Tokyo24/7数据集上的位置识别结果图 (86)
图5.11San Francisco数据集上的位置识别结果 (86)
图5.12Tokyo24/7数据集上经过重排序之后的查询结果 (87)
图6.1Oxford5k和Paris6k数据集中查询的正例数量统计图 (96)
图6.2t-SNE可视化结果示意图 (96)
摘要
随着计算机技术的发展以及各种成像设备的普及,当前的互联网上累计了海量的地标和街景图像数据。

给定查询图像,如何高效而精确地从这些大规模的图像集合中检索出内容相似的图像,成为了许多应用中的迫切需求。

论文针对地标图像检索以及街景图像位置识别,围绕基于词包模型的地标图像检索方法中的爆发性问题、基于深度学习的地标图像检索和街景图像位置识别方法以及基于矩阵分解的相似度搜索方法开展研究。

主要的研究工作如下:
(1)提出分组爆发性匹配问题的处理方法。

已有的爆发性问题处理方法关注于处理图像内和图像间一对多模式的爆发性匹配,忽略了由查询图像上相似的局部特征所导致的多对一模式的分组爆发性匹配。

论文提出分组爆发性问题处理方法,其在查询图像上显式地检测爆发性特征的分组,然后利用分组信息来降低爆发性匹配所贡献的相似性权重。

在地标图像检索和街景图像位置识别上的实验结果表明该方法能够有效地提升检索精度,并且相容于已有的爆发性处理方法。

(2)提出后处理阶段的爆发性匹配处理方法。

在地标图像检索中,经过空间校验之后的后处理阶段仍然存在着爆发性匹配问题,这些特征匹配大多是一对多或空间聚集模式的匹配。

论文提出后处理阶段的爆发性匹配处理方法,利用局部特征的几何形状和视觉单词信息,删除不符合全局尺度变化的错误匹配以及一对多模式的冗余匹配,降低空间聚集匹配的贡献,从而提升最终的检索精度。

在地标图像检索上的实验表明该方法能够适用于不同的检索模型并提升最终的检索精度。

(3)提出融合全局与局部RMAC(Regional Maximum Activation of Convolutions)深度特征的地标图像检索方法。

基于RMAC深度特征的地标图像检索方法中忽略了查询图像的全局信息,并且在目标定位阶段引入了定位误差。

论文针对这一问题,提出融合全局和局部RMAC的地标图像检索方法,该方法首先使用查询图像的全局RMAC特征进行初始过滤,然后在目标定位之后将图像的全局和局部RMAC特征进行拼接作为图像的表示来进行重排序和查询展开。

在地标图像检索上使用不同深度特征的实验结果表明该方法能够以较小的计算开销显著地提升检索精度。

(4)提出基于NetVLAD(Network Vector of Local Aggregated Descriptor)深度特征的街景图像位置识别的后处理方法。

街景图像位置识别问题中,基于NetVLAD 深度特征检索出来的初始结果,在空间位置和图像内容上都有关联。

为了进一步提升识别精度,论文提出基于位置融合的街景图像位置识别后处理方法,使用初
始结果之间在空间位置和视觉内容上的互为近邻关系,对初始结果进行重排序。

在街景图像位置识别上的实验结果表明该方法能够有效提升最终的识别精度。

(5)提出基于局部约束线性编码的相似度搜索方法。

基于全局特征的图像检索通常需要进行相似度搜索,而当前基于稀疏编码的相似度搜索方法需要较长的离线字典训练时间。

针对这一问题,论文提出基于局部约束线性编码的相似度搜索方法,其直接使用k均值聚类学习字典,使用局部约束线性编码对数据进行表示,可以在降低字典训练时间的同时降低编码误差。

在地标图像检索上的实验结果表明该方法能够在相同的计算和内存开销下,降低离线训练时间并提升最终的检索精度。

关键词:地标图像检索;街景图像位置识别;相似度搜索;词包模型;深度特征;爆发性问题
Abstract
Owning to the progress of computer technology and the popularity of camera devices, there has accumulated a large amount of landmark and street view images on the Internet. Given a query image,how to efficiently and accurately retrieve images with similar content from large-scale image gallery becomes a pressing requirement in many real applications. This dissertation targets at the issue of landmark image retrieval and place recognition, and the research focuses on the following three folds:the burstiness problem in the Bag-of-Word(BoW)model based image retrieval approach,the deep learning based image retrieval approach and the research of matrix factorization based similarity search.The main contributions are given as follows:
(1)An approach for the group burstiness problem is proposed.Current approaches for burstiness problem focus on tackling the intra-image and inter-image burst correspon-dences with one-to-many pattern,but ignoring the group burstiness problem with many-to-one pattern deriving from similar local features among the query image.We develop the group burstiness processing approach,which detects the group of burst features on the query image,and discounts the contribution of burst correspondences in votong similarity weight based on the group information.The experimental results on landmark image re-trieval and place recognition demonstrate that the proposed approach can not only imporve retrieval accuracy,but also be compatible with existing burstiness processing approaches.
(2)An approach for the burstiness problem in post-processing step is proposed.In landmark image retrieval,the burstiness problem still exists in the post-processing step even after thefiltering of spatial verification.These burst correspondences are typically one-to-many or spatial clustering correspondences.To imporve thefinal retrieval accu-racy,we propose an approach to tackle the burstiness problem in post-processing step, which utilizes the geometric and visual word information of local features to remove error correspondences with large difference from the global scale variation and redunlent cor-respondences of one-to-many matching,and reduce the contribution of correspondences with spatial clustering.Experimental results on landmark image retrieval demonstrate that the prposed approach can be compatible with different retrieval model and imporve the retrieval accuracy.
(3)A landmark image retrieval approach based on the fusion of global and local
RMAC(Regional Maximum Activation of Convolutions)deep feature is proposed.The RMAC based landmark image retrieval approach ignores the global information of query images,and the localization error will appear in the object localization step.We develop an approach based on the fusion of global and local RMAC.Firstly,the global RMAC from query image is used for initialfiltering.Then,after object localization step,the global and local RMAC feature will be fused as the representation of images for reranking and query expanation.Experimental results with different deep features on landmark image retrieval demonstrate that the proposed approach can improve retrieval accuracy with low extra computation cost.
(4)A post-processing approach for NetVLAD-based(Network Vector of Local Ag-gregated Descriptor)place recognition is proposed.In place recognition,the initial results retrieved by NetVLAD deep feature are correlated both in spatial location and visual con-tent.To improve the recognition recall,we propose a post-processing approach based on the place fusion,which considers the reciprocal neighbor relations in spatial location and visual content between initial results and reranks them.Experimental results on place recognition verify the effectiveness of the proposed approach.
(5)A similarity search approach based on locality-constrained linear coding(LLC) is proposed.Global feature based image retrieval typically relies on similarity search,but current sparse coding based similarity search approach consumes extensive off-line dictio-nary learning time.To handle this problem,we propose the LLC based similarity search, which directly employs k-means clustering for dictionary learning and LLC for data en-coding.The LLC based approach can reduce dictionay training time and reduce data encoding error.Experimental results on landmark image retrieval show that the proposed approach can reduce off-line training time effectively and improve retrieval accuracy.
Key words:Landmark Image Retrieval;Similarity Search;Place Recog-nition;BoW Model;Deep Feature;Burstiness Problem
第一章绪论
1.1研究背景与意义
图像作为传递信息、阐述观点和表达情感的载体,是人与人之间交流的桥梁,在人们的日常生活中发挥着重要作用。

随着计算机技术的发展以及各种成像设备的普及,各个行业都积累了大量的图像数据,据保守估计在2017年就有1.2万亿张图片产生[1],人类已经步入了图像大数据时代。

在社交媒体上,如Facebook、Instagram、微信朋友圈和新浪微博,每天都会有大量用户上传分享照片。

截止到2018年9月的统计数据表明,每天有3亿张图片上传到Facebook上1。

在历史文化领域,各种典籍、照片和绘画等,正在通过数字化的方法上传到网站上供大众浏览。

著名的大都会博物馆(Met)正逐步进行的开放获取项目2,致力于将上百万的藏品通过图像的方式公开供公众欣赏和使用。

在医疗领域,医疗机构累计了患者大量的医疗图像,比如X光图像、CT扫描图像和细胞切片图像等。

统计数据表明医学领域所产生的图像数据占据了世界上所有存储数据的30%[2]。

这些沉睡的图像数据如同埋藏在地表深处的矿产,需要人们使用合适的方法去挖掘、清洗、分析和管理,才能物尽其用,发挥其应有的作用。

如何利用这些属于全人类的知识,发掘其内在的价值,是当前许多应用领域的迫切需求。

本文关注“以图搜图”的图像检索问题,即给定一张查询图像,从图像集合中检索出与查询内容相似的图像。

这一问题是在多个应用领域存在的共性问题,针对这一问题进行研究具有重大的应用价值和现实需求。

在网络购物中,如天猫和京东等购物客户端,都会提供图片上传入口供用户“找同款”,通过图像来搜索目标商品。

在智能安防领域,为了分析嫌疑人的行为,通过需要将行人图片与保存的监控视频进行对比,查找出嫌疑人的运动轨迹。

在自动驾驶领域,利用成本低廉的图像传感器所采集的街景图片,可以与地图服务商提供的街景地图进行匹配,从而辅助进行定位导航。

在知识产权领域,可以通过从图像集合中检索出与查询图像相似的图片,判定查询图像是否为原创图片,从而避免版权纠纷。

在学术研究中,由于人工检测重复图像的代价太大,当前的学术论文查重一般只检测文本是否重复而忽略了论文中的插图。

针对这一问题,2018年的一项研究工作[3]通过收集生物科学领域76万篇学术论文中的200万张图片,开发了一种自动检测图片重复出现的方法,能够快速地检测论文是否有不恰当的图片复用行为。

1https:///top-15-valuable-facebook-statistics/
2https:///about-the-met/policies-and-documents/image-resources
从中国成语中的“按图索骥”到从莎士比亚的名言“一图胜千言”(a picture is worth a thousand words),从网络论坛上的流行语“有图有真相”到社交网络中层出不穷的“表情包”和“斗图大战”,这些都可以说明图像数据的重要性以及图像检索技术的巨大应用价值。

各大传统的网页搜索引擎,如谷歌搜索3、微软bing 搜索4及百度搜索5等当前主流的搜索引擎纷纷推出自己的图像搜索入口。

在学术研究中,出现了各种图像检索方法,用于检索通用图像[4,5]、地标图像[6,7]、服饰图像[8,9]、手绘图像[10,11]、行人图像[12–14]和病理图像[15–17]等。

对图像检索问题的研究还衍生出了图像哈希(hashing)[18–20]及最近邻搜索[21–24]等技术。

当前的图像检索技术主要是指基于基于内容的图像检索(Content-based Image Retrieval,CBIR),使用图像的视觉内容来检索相似的图片。

在CBIR中,用于进行检索的图像通常被称为查询图像(Query Image)或探测图像(Probe Image),待检索的图像集合称为参考图像集(Gallery Images)或数据库图像集(Database Images)。

CBIR利用图像内容上的相似性来检索图像,以图搜图,而早期的图像检索主要依赖于基于文本的图像检索方法(Text-based Image Retrieval,TBIR),以文搜图,基于图像的关键词标注将图像检索问题转化为文本检索问题。

将图像检索问题转化为对图像的文本标签进行检索,可以利用当前信息检索领域的成熟技术进行解决,但是如何准确描述图像的内容没有统一的标准方法。

在比较专业的领域,比如检索商标图像或手绘草图,几乎无法用文本标注来描述图像。

当前,在构建图像检索数据集时,通常会使用到TBIR技术来快速收集图片数据,如通过搜索引擎来获得特定内容的图片,或者从图像分享网站上通过文本或地理位置标签来收集图片。

论文的研究内容都是基于内容的图像检索技术,而不涉及基于文本的图像检索技术。

虽然CBIR技术在近二十年里不断地发展,取得了长足的进步,各大搜索巨头也推出了图像搜索引擎,但是相比于网页搜索的巨大成功,当前的图像搜索仍然处于探索阶段,远没有达到成熟,还有很多的问题需要深入研究。

首先是图像的语义鸿沟(semantic gap)问题仍然存在,如何让算法处理图像中的数值化像素,解析出计算机能够理解的语义内容仍然非常困难。

越来越多的应用场景都对图像检索技术提出了需求,但是由于不同领域图像所展示的视觉内容和所具有特性不尽相同,比如计算机辅助诊断中的医疗图像,智能安防中的监控图像及自动驾驶中街景图像,很难用统一的方法来构建通用的图像检索系统。

图像还经常和文本、音频或地理位置等其他类型的数据耦合在一起,比如社交媒体上的图片通常包含
3https:///imghp
4https:///
5/
用户评论或GPS信息等。

此外图像之间可能在时间上具有序列性,在内容上具有相关性,比如当前各种短视频应用上的视频数据。

如何高效地表示、存储和检索大规模、多模态和非结构化的图像数据仍然是当前研究中不断努力的方向。

论文聚焦于地标图像检索(Landmark Image Retrieval)和街景图像位置识别(Place Recognition)问题。

街景图像位置识别通常被转化为建筑物图像的检索问题,因此这两类问题所处理的图像都是建筑物图像。

当前CBIR领域的公开评测数据集大多是由地标图像数据构成[6,7,25,26],绝大部分图像检索方法都是关注地标图像检索问题。

这是因为地标图像便于收集,比如社交网络上会有用户上传的以地标图像为背景的合影或自拍图片,同时地标图像检索中groundtruth图像也能够清晰地进行标注,便于评测。

虽然有很多方法是针对通用图像而设计,但是最终进行评测时仍然会在地标图像数据上验证方法的有效性。

因此,地标图像检索成为了当前CBIR领域中的主流研究内容,不断有新的研究和数据集出现。

此外,地标图像检索不仅仅是通用图像检索的重要组成部分,更是在图像自动标注[27]、三维重建[28–30]和位置识别[31–33]等领域具有重要的应用价值。

街景图像位置识别利用图像检索方法确定街景图像所展现内容的地理位置,是自动导航[34,35]和基于图像的定位[36,37]等应用的基础。

街景图像位置识别可以看做是地标图像检索技术的具体应用,当前的识别方法大多基于地标图像检索方法,也有部分基于深度学习技术的方法直接处理这一问题。

随着各种地图导航应用以及基于位置的服务(Location-based Service,LBS)在生活中的普及,街景图像位置识别也将会有更大的应用场景,比如增强现实或基于地理位置的服务推荐等。

在智慧城市中,对街景图像进行识别和分析在研究城市面貌变化[38]和社会经济情况[39]等方面具有重要意义。

街景图像所展示的丰富内容,比如街景上的文字、商标、行人和车辆等,都可以在识别街景图像位置之后进一步分析。

当前的街景图像位置识别仍然被限制在同一时间段的街区或城市区域内,随着街景图像在时间和空间上的不断累计,将会给位置识别带来更多的挑战,比如季节不同、天气变化、时间长跨度以及空间范围更广。

街景图像识别仍然处于不断发展阶段,还有很多的问题需要探索。

1.2研究现状
当前地标图像检索和街景图像位置识别问题的研究,融合了计算机视觉、多媒体分析、信息检索和机器学习等多领域的技术。

虽然经过十多年的发展,这一领域仍然不断吸引着世界各地的研究小组进行探索[40–42],新的工作层出不穷地发表在相关的期刊和会议上,新的公开数据集也不断出现用于评测更大规模场景下的检索和识别性能。

当前活跃在这一领域的研究机构主要包含英国牛津大学视觉
几何研究组(VGG)、法国国家计算机技术研究所(INRIA)以及捷克科技大学机器感知中心(CMP)等。

相关的研究论文主要发表在计算机视觉的期刊和会议上,如IJCV、TP AMI、TIP、CVPR、ICCV和ECCV等,以及多媒体技术的期刊和会议上,如TMM、ACM MM和ICMR等。

本节回顾与本文工作相关的研究现状,主要包括基于词包模型的地标图像检索、基于深度学习的地标图像检索和街景图像位置识别研究,最后介绍当前研究中常用的公开评测数据集以及性能评测指标。

1.2.1基于词包模型的地标图像检索研究现状
当前基于词包模型的地标图像检索方法直接使用通用的图像检索方法来检索地标图像,并针对地标图像检索的特点在检索精度和检索效率上进行了改进。

除了使用普通的图像检索方法,许多工作还针对地标图像检索中存在的爆发性匹配问题[43]进行额外处理,用于提高地标图像检索的精度[32,44–46]。

由于当前的研究方法都是针对基于词包模型的图像检索流程中的各个步骤进行改进,而且本文第二章和第三章的研究内容与检索流程紧密相关,本节将详细介绍基于词包模型的图像检索流程。

通用的图像检索起源于文献[4]的开创性工作,其借鉴文本检索的思想,将图像类比为一段文本,图像上提取到的局部特征对应于文本中的单词(Word),使用单词出现的频数建立词包向量(Bag of Visual Word,BoW)来表示图像,并通过计算词包向量之间的相似度来检索图像。

这一方法被称为基于词包模型的图像检索方法,主要包括如下五个步骤:特征提取、特征量化、构建索引,特征匹配以及后处理。

特征提取通过在图像的局部区域上检测关键点(keypoint),然后在关键点所在区域提取局部特征(Local Feature),用于表示图像上的局部区域。

这样一幅图像就表示为了多个局部特征的集合,每个局部特征包含两部分信息,一部分来自于检测关键点时所确定的局部区域的几何参数信息,比如区域的中心点和形状参数;另外一部分来自于局部区域的特征描述信息,即对应的SIFT[47]或SURF[48]特征描述符。

当前研究中这一阶段的工作主要是设计更好的局部特征来表示地标图像[49],或者更加全面地描述整体图像[33]。

特征量化阶段将提取到的高维特征描述符量化为视觉词汇表(Visual V ocabu-lary)中视觉单词(Visual Word)的索引,从而降低索引构建和特征匹配中的计算和存储开销。

视觉词汇表通常由一个独立图像数据集上所有特征描述符进行k均值聚类得到,每一个聚类中心对应于一个视觉单词。

图像上提取到的特征描述符,通过查找视觉词汇表中的最近邻,映射为视觉单词。

这样在图像上提取到的特征。

相关文档
最新文档