Boosting 自下而上和自上而下的视觉特征的显著性估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

二、学习一个视觉显著性的模型
另一个重要特点是在前中心的基础上发现的:大多数的录 制品在中心附近发生的图像(即中心偏置[39])。与基线 的方法进行公平比较的分类(AWS和GBVS模型),我们 在这里单独对待中心功能。根据公式2,我们把每个模型 的显著性图与p(s|x)相乘,p(s|x)是每个像素打牌中 心的距离。 最终,所有的特点都变成34(30自底向上+4自上而下) 向量(不含中心),被送入分类器(在下一节中解释)。
其中,d(X,X0)是归一化的像素x从中心像素的X0的距离。
www.themegallery.com
二、学习一个视觉显著性的模型
①低层次(自下而上)特点 传统上,强度,方向和颜色已被用于对静态图像的显著性 推导。动态场景(视频),闪烁和运动特点也已经被其他 几个低级别的特点(例如,大小,深度和光流)增加 [55][56]。在这里,我们先调整每个图像为200×200像素 ,然后提取一组特点,我们使用低级每个像素[1],因为他 们已经被证明与视觉注意力相关的特点,并有潜在的生物 合理性[16][15]。低层次的特点列举如下: · 13个在4个方向3尺度的可操纵金字塔过滤器的局部特点 · 使用Itti和Koch显著的方法[4]计算的3强度,方向和颜色 (红/绿和蓝色/黄色)对比通道。 · 3个红色,绿色和蓝色通道,以及3个功能相对应的各颜 色通道的概率值。 · 5在6个不同尺度中值滤波器滤波的图像的三维颜色直方 图计算从上述颜色通道的概率。
www.themegallery.com
一、介绍
由[1]的启发,我们提出了三个贡献显著性的学习。首先, 我们结合最好的两个方面:自下而上和自上而下的因素。 通过比较29个显著性模型,我们整合功能,最好的自下而 上的模式已经发现预测与自上而下的因素,如人脸,人, 车,等人的注视,培养几个线性和非线性分类从这些功能 中的录制品。第二,我们更强调内部零件更准确的显著性 检测瞩目的对象(例如,人类上部)。通过大量的实验, 我们证明了我们的相结合的方法,超过以前显著的学习方 法([1] [48]),以及其他最新的方法, 在3个数据集上, 使用3个评价得分。第三,我们证明了我们的模型能够在 一个场景中检测到最突出的对象,接近主流的显著区域检 测的表现。
三、实验程序 四、 模型比较和结果 五、讨论与小结 六、读者小结
www.themegallery.com
5
6 7
摘要
自由观赏自然场景时,最好的视觉显著模型尽管有显著的 最新进展,在预测眼睛注视与人类的表现仍然落后。多数 模型是基于低层次的视觉特点,自顶向下的特点的重要性 尚未得到充分探讨或建模。在这里,我们结合了低级别的 功能,如方向,颜色,强度,以前最好的自下而上的模式, 采用自顶向下的视觉认知功能(例如,脸,人类,汽车等) 的显著图,使用回归、SVM和AdaBoost分类,从这些特 点里学习直接映射这些功能的的眼睛注视。通过广泛的试 验三个基准眼球跟踪数据集,使用三种流行的评价分数, 我们展示了:我们的Boosting模型优于27个最先进的模型, 是迄今为止在注视预测最准确的模型。此外,我们的模型 没有如区域分割这样复杂的图像处理,成功地检测到的最 显著的一个场景中的对象。
www.themegallery.com
三、实验程序
本节对分类和功能提出一个全面的评估。 在这里,我们不仅评估了我们的模型,也比较几款模型以 供日后参考。我们能够运行27个显著性模型。此外,我们 还实施了其他两个简单但功能强大的模型:Gaussian Blob和人类中间观察者模型。Gaussian Blob的是一个简 单的2D高斯形状的绘制图像的中心,它是预期预测人的 目光,以及如果这样的凝视强烈图像中心的周围聚集。对 于一个给定的刺激,当他们观看刺激时,中间观察员的模 型输出一个通过整合比其他物体测试的地图。模型地图可 以根据记录眼球运动来调整原始图像的大小。
www.themegallery.com
二、学习一个视觉显著性的模型
从注释的数据,我们注意到,某些地区吸引更多的关注对 象,例如人类上部(头区)和脸部(眼睛,鼻子和嘴)( 见图3)。为了提高这些地区的显著性,我们了解到该对 象的平均显著图从训练数据了解到对象的检测区域。
www.themegallery.com
样本图像中提取的特征示于图2。
www.themegallery.com
二、学习一个视觉显著性的模型
www.themegallery.com
二、学习一个视觉显著性的模型
②高级别(自顶向下)特点。 高级别特点,如人脸和文字[14],人车[1],对称性[17], 和体征已建议直接关注。据悉,这些都是通过一个人的一 生的时间获得的先验知识一个挑战是检测情感(情绪)的 功能和语义(高层次的知识)场景属性,如因果关系和行 动的影响力,这被认为是很重要的引导注意力。这些因素 都影响眼球固定的位置和持续时间[13]。我们将我们的功 能集包括如下的高级别的功能:。 · 由于摄影师的倾向帧图像和对象水平所形成的水平线。 · 实施由Felzenszwalb的变形部分模型的人和车探测器( DPM)[50]。 · 使用Viola和Jone代码的人脸检测[51]。
www.themegallery.com
一、介绍
相关工作 :显著性模型简介
显著性模型一般可以分为认知(生物)或计算(数学), 而有些发生在之间。几款根据Itti等人的自底向上的显著性 模型[4]。这种模型是先执行Koch和Ullman的计算架构基 于特征整合理论[15][16]。在这个理论中,图像被分解为 低一级的属性,如跨越几个空间尺度,然后归一化和线性 或非线性相结合,形成一个主显著图的颜色,强度和方向。 这一理论的一个重要组成部分是作为图像区域及其周围环 境的独特性,显著性定义中心环绕的想法。这个模型还提 出一个合适的架构适应视觉搜索理论和对象检测模型(例 如,[18])。基于去相关的神经反应,Diaz等人[29]提出 了一种有效的模型被称为自适应白化显著性(AWS)的 显著性。Le Meur等[33],Marat等[36],Kootstra等[17]提 出的模型是其他以认知的调查结果为导向的模型。 另有,基于概率模型、基于频率模型等,这里不一一介绍。
Boosting Bottom-up and Topdown Visual Features for Saliency Estimation
Boosting 自下而上和自上而下的视觉特征的显
著性估计
www.themegallery.com
LOGO
主要内容
1 2 摘要 一、简介
3wk.baidu.com
4
二、学习一个视觉显著性的模型
www.themegallery.com
一、介绍
视觉注意的过程中一直是许多心理学,神经科学,计算机 视觉等研究的对象。相应地,一些计算模型已经在机器学 习,计算机视觉和机器人领域引起关注。几个应用程序也 已经被提出,并进一步提出了在这一领域的兴趣,包括:, 自动创建拼贴[5],视频压缩[6] [9],非真实渲染[8],广告 设计[10]。 自下而上的显著性的模型经常被评估,在自由观看任务中, 预测人的注视。今天,许多显著性模型基于各种各样令人 信服的技术,仍然每年都会有人引进新模型。然而,在预 测眼睛注视时,模型和人类间观察员(IO)有很大的差距。 IO模型“对于一个给定的刺激的输出,通过整合眼睛注视 建成地图,而不是观看那个刺激。该模型预计将提供预测 模型的准确度的程度,不同的人可能是对方的最好的预测 者。上面提到的模型和人类之间的差距主要是由于自顶向 下的因素的作用(参照图1)。
www.themegallery.com
二、学习一个视觉显著性的模型
分类器 我们调查线性和非线性分类器的固定预测能力。线性分类 通常比较快,通过矩阵运算计算了解到的权重是比较容易 解读。另一方面,非线性模型通常是速度慢,但更强大的 。 回归。假设特征矢量f和显著性s之间的线性关系,解方程 F×W = S,其中,F和S是训练数据为f和s的矩阵。解决 的办法是:W = F+×S,F+是通过SVD分解最小二乘伪逆 矩阵F。为了避免数值不稳定,这些特征向量的特征值是 小于的最大特征值的一半的伪逆的计算过程中被丢弃。对 于测试图像,特征提取,然后学习的映射被用于产生一个 向量,然后调整大小到200×200的显著图。
www.themegallery.com
二、学习一个视觉显著性的模型
SVM。使用liblinear的支持向量机2,liblinear是一个公开 的SVM matlab版,我们也训练SVM分类器。我们采用了 线性的内核,因为它们是更快的执行以及非线性多项式和 RBF内核的固定预测[1]。回归,而不是预测的标签(即, 1/ - 1)相似,在测试中,我们使用的WT的值F + b,其中 W和b的学习参数。 要调查的非线性映射功能显著性,我们使用AdaBoost算 法[52],在应用场景分类和识别物体时,其中有许多吸引 人的理论性。鉴于N标记的训练实例(ui, vi),vi∈{−1, +1} ,ui∈U,AdaBoost的结合了一些弱分类器Ht学到了强分 类器H(u)=sign(f(u));f(u)= ,这里αt是第t个分类器。
www.themegallery.com
二、学习一个视觉显著性的模型
与手动设计显著性措施相比,我们按照训练分类的一种学 习方式,直接从人眼跟踪数据。其基本思路是的加权组合 的功能,其中权重学会从一个大的库对自然图像的眼球运 动,可以增强显著性检测比未经调整组合特征映射。学习 方法也有容易适用于通过提高要素权重目标对象的可视化 搜索的好处。 在下面,我们提出了一个朴素贝叶斯公式的显著性估计。 让我们是一个二元变量表示的显著位置的图像像素X =(X ,Y)与特征向量f,其中“s等于1”表示这个像素是突出 的(也就是说,它可以吸引人类的眼睛)和零。像素x的 概率是显著的可写为:
www.themegallery.com
一、介绍
www.themegallery.com
一、介绍
它被认为是自由观看的早期阶段(前几百毫秒),主要是 基于图像醒目性的注意,后来,高层次的因素(例如,行 动和事件)指导眼球运动[53][39]。这些高层次的因素可 能不一定转化为自下而上的显著性(例如,根据颜色,强 度或方向),应考虑分开。举例来说,一个人的头部可能 在其余的场景中不会特别突出,但可能会引起人们的注意。 因此,结合高层次概念和低层次的功能扩展现有模型,并 达到人类的表现似乎是不可避免的。
www.themegallery.com
二、学习一个视觉显著性的模型
这样产生了30个低级的特点。中心环绕操作需要注意的是 ,直接施加在地图的某些特点(例如,Ltti特征映射)。 虽然在实践中,它是作为一个功能,可以使用任何自下而 上的模型,在这里,我们利用Torralba [32],AWS[29], GBVS[20]的模型,因为这些模型具有较高的固定预测能 力,采用完全不同的显著性机制的速度,可以计算出从其 他低级别的特点。
www.themegallery.com
三、实验程序
3.1 眼动数据集 由于可用的眼球运动数据集有不同的统计、各类刺激、受 试者人数,在这里,我们利用公平的基准数据集来比较模 型。第一个数据集,MIT [1],从Flicker和LabelMe[46] 采 集到的 包 含1003幅图像的数据集。图像的最长尺寸是 1024,其他的尺寸范围从405到1024。它有779幅景观图 像和228幅人像图像。15人类受试者观看的图像。图像显 示3秒,每两个之间有1秒的灰色屏幕。第二个数据集, Toronto [21],是显著模型评价最高和最广泛使用的数据 集。它包含120室内和室外场景的彩色图像。随机图片4秒 ,图像之间有2秒灰度掩模,20个的主题。NUSEF是最近 推出的数据集,它有758幅包含情感的场景/物体如表现力 的面孔,裸体,不愉快的概念和概念的语义(动作/原因 )的图像图像。总共75名自由查看图像数据集的一部分, 每幅图片观察5秒(每幅图像有平均25个不同的观察者) 。
www.themegallery.com
二、学习一个视觉显著性的模型
上面的公式是基于假设特点可以出现在所有的空间位置 (即,x和f是相互独立的,则p(f|x)=p(f))。我们进 一步假设,在S的先验概率(即,位置突出与否)都是平 等的。上式右边的第一项测量由于上面的图像的像素的特 征的显著性,而第二项措施显著性的基础上的像素的空间 位置。我们学习使用p(s|f)分类标注数据(倾向的位 置)。我们估计p(s|x):
相关文档
最新文档