数字图像处理读书报告

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Efficient object detection and segmentation for fine-grained recognition 细粒度识别的有效目标检测与分割

李其信201120952 信号与信息处理

1摘要

本文提出了一种针对细粒度的识别的目的检测和分割算法。该算法首先检测可能属于对象的低级别的区域，，然后通过传播进行完整的对象分割。除了分割对象，我们也可以以中心“放大”对象，依据尺度比例规范对象，因此折扣背景的影响。这种算法与一个国家的最先进分类算法的结合能明显提高性能，特别是对于认为很难识别数据集，如鸟类物种，性能提高更加明显。

该算法的效率远远超过同样方案下的其它已知算法[4,21]。我们的方法也比较简单，我们将其应用到不同的对象的类，如鸟类，花卉，猫和狗。

我们在一些基准细粒度的分类数据集上测试了该算法的性能。它优于所有已知的最先进的方法对这些数据集的性能，有时高达11%。在所有的数据集上应用此算法，基线算法的性能提高了3-4%。我们在识别性能上具有挑战性的大规模花的数据集（包含578个品种的花250000图像）上进行试验，观察到还观察到上出现超过4%的改善。

2背景

本文讨论的对象分类问题属于相同的基本范畴，如物种鸟，花等。这个任务通常被称为细粒识别，需要特定领域的专家知识，而这些知识通常很少的人才有。因此，开发自动识别系统这样的任务对于非专家存在很大好处。

毫无疑问，细粒度的分类面临的主要挑战是物种之间细微的差异。然而，一个自动系统会遇到更多的挑战。例如，图像通常包括丰富的自然环境和具有挑战性的背景，其中的背景的影响可能会变得突出，从而干扰算法的识别。但是，有时背景可能是有用的，所以分割出背景将是有益的。分割也有助于提取感兴趣对象的轮廓，可以提供良好的特征识别。一种检测和分割算法的另一个好处就是，它可以定位对象，这个对象是有益的，特别是如果该对象不在图像的中心，或者大小的中央，不同于其它对象的大小。

在本文中，我们提出了一个有效的目标检测分割算法，可以有效地用于对象定位和大小规范（图1）。我们的方法是试图识别它之前，先分割可能感兴趣的对象，这种方法比以前的快很多，适用各种不同的超类别，如鸟类，鲜花，和猫狗，并改善了识别细粒度的分类任务中的性能。

我们的方法是在检测的时候基于感兴趣类的识别。在这里，为对象的超类，如鸟类，这个想法是建立基于特征的初步检测。这些检测器是对象的指示器，可以帮助指出对象可能的位置。我们进一步应用基于拉普拉斯操作数的传播方法，这种方法可以在低级别的线索中分割完整的对象。这里的关键是，这个传输过程是由最初检测到区域来引导，但在同一时间能够保存对象的边界，从而有效地分割完整对象。此外，所得到的分割是用来定位对象，折扣的背景的影响。我们的实验显示，这对于最终的识别是相当有益的。

3过程

论文第3节介绍如何在一个图像中检测和分割对象。第一步，3.1节中完成一系列基本的基于区域的部分对象检测。然后，在3.2节中提出，使用这些区域作为初始化条件，利用拉普拉斯传播方法。最后，第4节中，将分割后的图像（它包含检测到的和分段对象，可能被裁剪或者大小已被调整）和输入图像，通过该功能特征提取和分类管道（第4节），最终得到分类的结果。 3.1对象的特定区域检测

我们的方法是首先初始搜索可能属于超类的对象区域。为简单，我们使用超像素分割方法把图像分割成相干的小块区域。每个超级像素区域利用文献[3]中提到的一组特征描述符描述。利用上述特点，在脱机条件下训练一个分类模型去决定一个区域是属于超类（如所有花）还是属于背景。该模型的一个优点就是其通用性，可以再不同类别的数据集上进行训练，不是针对一个超类别的特征。对于花鸟猫狗的检测和模型的训练，使用的是同一样的算法。

3.2全对象分割

3.2.1用

j I 表示图像第j 个像素，j f 表示它的特征表示。分割任务的目标是找到每个像素点

j I 的标签j X ，当像素属于分割的对象时，1j X =，否则0j X =。利用每个像素点的特征i f 组成相似矩阵W 。

只有相邻的像素点之间的关系矩阵ij W 是非零的，出于计算的速度或者其它的可能选择，我们将ii W 设为0，i f 为像素的颜色值。

目标是最小化成本函数C(X)

（1）

，Y 是对于一些或者全部像素点，期望的标签时

这些卷标约束对于强加什么是对象什么是背景这种先验知识是非常有用的。这是一种标准的拉普拉斯标签传播的制定，上面的公式通常写成一种更方便的等价公式：

其中，S 定义：

3.2.2优化.方程式1的优化问题是可以用文献[ 28 ]的迭代来解决。另外，它可以作为一个线性的系统方程来解决，我们选择这种方法，对方程1求导后，我们得到一个最优解X 。

在我们的实现中，我们使用共轭梯度方法进行预处理，实现了非常快速的收敛性。由于前景的扩散特性和不同的图像的背景（和数据）可能会有所不同，我们分别单独考虑只有前景或者只有背景的检测。这是由于对其中一个进行的分割可能是好的但是相对于其它结合结果的前景和背景的分割产生更一致的分割和利用功能的互补性。表示钇铁石榴石= Y 的时候y > 0和0，否则，−YBG = Y 初乳＜0和0，否则，我们解决了：

定义Yfg=Y 当Y>0时，否则Yfg=-Y

在实践中，这两个分割通过应用下列规范标签同时进行

因为它避免了单独优化，这使得算法更快。同时，对个人的前景背景分割方法也给出了相同的结果，这也更稳定。为了获得最终的分割，Xsegm的阈值为0。

图3显示的卷标传播算法和最终的分割的结果。右上方的图像显示每个超级像素区域的得分（在这里我们用分类间隔）。右下方的图像显示拉普拉斯操作数的扩展的解决方案，给出了初步的地区（即方程2的解）。注意不是所有的目标区域的最初都能获得高得分。这也是真实的背景区域。拉普拉斯扩展后，前景和背景之间的分割通过强分离获得。图4显示了示例分割图像。请注意，并非所有的细分都是成功的，特别是鸟类。然而，在实验后见，即使是局部的分割是有用的，我们的方法提供了性能的改善。

3.3细粒度的识别与分割

本节介绍了在最后的细粒度的识别任务中如何使用分割图像。为简单起见，我们首先描述基线算法。我们应用特征提取和分类管道，首先提取4个不同尺度的HOG特征，这些特征利用文献25中提到的LLC方法进行8K维的全局编码。我们的分类管道使用线性SVM分类器的1-vs-all策略，使用线性SVM的变形。对于578类花这种非常大的数据集，我们使用一个随机的梯度下降算法，因为线性的无法加载整个数据到内存。分割后的图像是通过相同的特征加工提取管道再作为原始图像，然后我们通过连接来结合两组提取的特征。这种方法分割时间较其他算法快很多。

4结果

实验过程中在不同的标准数据集上进行，与其他的算法进行比较。除此之外，还在含有578类的花的大型数据集上进行实验。

4.1牛津花卉102种数据集

在这个数据集上，本文的方法对象检测率为80.66%，比其他文献中提到的算法优越4%到8%，在我们的基线算法是约4%，两者之间的唯一区别是增加了分割算法和从分割图像进行特征提取。