图像检索

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

所谓bag of word认为

文档就是一个词的集合,忽略任何语法或者出现顺序关系。

摘要

本文描述一种物体和影像搜索方法,即搜索并将用户在一个影像中看到的大致图像的所有点局部化。物体是由一系列视觉不变的区域点来代表的,所以即使在视角、光照和空间闭合上发生了改变,图像还是能够被成功辨别出来。在某一个视觉内的图像的局部连续性被用于追踪某些区域点,以便排除易变的区域点和减少在描述过程中噪音的影响。

该方法与文本检索的类似之处在于对被预先计算(利用矢量化)的描述点的匹配方法,和反序的文件系统以及文档排序都被使用。结果是检索是即时的,利用谷歌的方式返回一个关键电影画面或者关键点的排序列表。

下面以匹配两个标准长度的故事片来阐述这个方法。

1.介绍

我们的目标是检索出在包含了一个在位移、速度和精确度上都具有特殊性的物体的视频里面的关键电影画面和点,正如谷歌也利用位移、速度和精确度来检索包含了关键字的文本文档(网页)。该论文研究的是文本检索方法是否能够被成功应用于物体识别。

识别图像库里的一个(可识别的)物体的技术,现在已经大致成熟,但仍存在一些值得攻破的难题,因为视角和光照或者局部损坏,一个物体的视觉外观可能会非常不同,但是成功(识别)的方法现在还是存在的。一个物体通常由一系列交叉区域来表示,每个区域又由通过计算区域外观所得的一个矢量来表示。这个区域段和描述点是依据在一定视角和光照条件下设定的等级可控的空间不变性来构建的。类似的描述点被计算以供数据库里面的所有图像使用。通过描述向量的就近匹配,或者本地空间连贯性(例如邻接点、顺序或者空间布局)进行排歧,又或者全局关系(例如对极几何)来识别一个特定的物体。

例子包括[5, 6, 8, 11, 13, 12, 14, 16, 17]。

我们探索的是这类识别方法是否像文本检索那样被重铸。实际上,这要求一个单词的视觉类比,在这里我们通过矢量化描述向量提供这种类比。然而,人们将看到,现在做得更多的是与文本检索进行类比而不是在不同的向量矢量化(算法)上进行最优化。目前有很多在文献检索中已经被学习和发展了的经验教训和翻阅规则,这些值得被进一步确定是否同样能够应用于视觉检索中。

这种方法的好处是通过预计算,匹配是有效的,因此在包含任何特定物体的电影画面和视觉中,检索是无延迟的。这意味着任何出现在视频中的物体(包括多个物体的同时出现)都能够被检索出来,即使这些物体在构建对视频的描述时并没有明显的用处。然而,我们还是必须确定这些已经被矢量化了的向量是否遗漏了任何匹配,而这些匹配恰恰是使用最近邻接匹配的前一种方法能够获得的。

文本检索的回顾:文本检索系统一般采用的是一系列标准的步骤。文档首先被解析为一个个单词,然后这些单词用它们的原始词表示,比如单词“walk”、“walking”以及“walks”均被表示为“walk”。第三步,建立一个(索引中不列出的)省略词语表用来排除非常常用的单词,如“the”和“an”,这些几乎在大部分文档中都会出现,所以在一篇特定的文档中不再识别它们。那些剩下的单词则被指定一个唯一的识别符,然后每篇文档被表示为依据单词在文档中的出现频率得出的一个向量。此外用多种方法去权衡向量的构成部分(第4节将详细介绍),在谷歌的解决方案中,一个网页的权值由该网页的链接数来决定。所有以上步骤在实际检索前进行,表示文献库里面的所有文档的向量集被像一个反向文件那样组织以便帮助有效的检索。一个反向文件在结构上像一个理想的书目,反向文件中有每个单词在文库中的入口和所有文档的列表(以及单词在某一篇文档中出现的位置)。

通过计算由单词频率得到的向量来检索文本,并返回拥有最接近向量集(通过角度来测

量)的文档集。而另外的,根据在单词出现顺序和单词间隔等方面的匹配程度来排列返回的文档集。

论文概述:我们探索在这里提到的每一步的视觉类比。第二节描述的所使用的视觉描述符,第三节描述这些视觉描述符的矢量化向量对应的视觉“单词”,第四节为向量模型编制索引和权值。这些想法在第五节中用一个实际背景下的电影画面来加以评价。最后,一个省略词语表和排序(根据空间上的匹配)在第六节中介绍,它们被用来评估两部故事片中的物体检索。。。。。。。。。。

虽然在此之前也有人把文献检索的思想借用到图像检索(例如利用权值和反向文件组合),然而我们的研究是这些方法在视频中的物体匹配的第一次系统的应用。

2.视觉不变的描述

每一张电影画面都有两种类型的视觉协变区域被测量。第一种通过一个利益点的椭圆形版本来构建。这种方法包括反复确定椭圆的中心、大小和形状。椭圆的大小通过(在规模上的)拉普拉斯算子的局部极端值来确定,椭圆的形状通过最大化亮度倾斜度和无向性来确定【2,4】,实现细节在【8,13】中给出。这种区域类型被称为形状适应(SA)。

第二种类型的区域通过从一个图像分割的强度流域选择区域来构建。这些区域是那些如强度入口一样大致静止的区域变换所得。实现细节在【7】中给出。这种区域类型被称为最大化的稳定(MS)。

两种类型区域都得以应用因为它们检测不同的图像区域并且因此提供一张电影画面的补充表示。SA趋向于集中关注局部如外部特征,而MS区域相当于遵循其周围影像(例如一面灰色墙壁上的黑窗户)的高度抽象的模糊体。这两种类型的区域都用椭圆来表示。为了使得图像形状更加容易识别,这两种类型的区域在起始的检测区域大小下被计算两次。对于一张720*576像素大小的视频画面,被计算出来的区域大小一般是1600。在图1中显示的是一个例子。

用已经发展到劳氏5的SIFT描述符将每个椭圆仿射的不变区域以一个128维度的向量表示,在【9】中可以看出这种描述符要优于其它用于文献的描述符,例如一系列可控过滤或者正交过滤之后的响应结果,而且通过在5.1节中比较景象检索结果与实际景象我们也发现SIFT是出色的(描述符)。之所以拥有这么出色的表现是因为SIFT,不像其它描述符,被设计为一个区域范围内的一小部分像素的不变转换,这样局部错误是经常发生的。结合SIFT描述符和仿射协变区域能够提供相当于图像的仿射转换的区域描述向量。注意,区域检测和在单色画面以及颜色信息上进行计算所得的描述目前没有用于现在的工作。

为了减少噪音和排除不稳定区域,信息聚集在画面序列中。用一种简单固定的动力速率模型和相关性来追踪每个视频画面的区域检测。任何没有在超过三个画面中存留的区域都被摈弃。每次追踪所得的区域都被视为一个公共景象区域(被检测区域的预先图像)的独立测量。针对景象区域的描述符的评价指标是通过计算整个追踪中的所有描述符的平均值得出。这使得在标志描述符的噪音方面有了显著的提高(这一点在第5.1节用实际景象加以证明)。

3.建立视觉“词汇表”

这里的目标是将描述符矢量量化成串将相当于文本检索中的视觉“单词”。然后当电影的一个新画面被观察,画面的每个描述符被分配到最接近(最匹配)的串中,这会立即产生对于整部电影的所有画面的匹配。词汇表由电影的子部分来构建,而它的匹配精确度和表达力在电影的剩余部分得到评估,就如下面所描述的那样。

这里使用K-meas聚集方法进行矢量量化,其它方法*******也是可以的。

3.1实现

区域通过连续的画面来追踪,i区域的每一块都计算出一个平均向量描述符xi。为了排除不稳定区域,有10%的对于最大对角线协方差矩阵的追踪要被排除。这样一来每个画面平均

相关文档
最新文档