基于特征区域的显著性快速分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于图像显著性快速场景分析的模型
摘要:受早期神经元视觉系统结构的启发,一个视觉注意一通被创建出来。

多种图像特征结合于一张地志显著性图样上。

一个动态神经元网络依显著性递减的顺序选择位置。

系统用有效的计算方法解决了关于快速选择场景识别的复杂问题,从而具体分析显著性的位置。

1.导语
灵长类动物具有实时识别复杂场景的出色能力,尽管他们神经元硬件在实现这些功能时是需要一定时间的。

中层或更高层的视觉倾向于在整个过程当中先选择一个集中区域,这很可能是为了减少分析过程的复杂程度。

这种选择通过形成一个有限空间的视觉区域来实现,通常称作”集中的注意”,这种快速、从上往下、显著性驱使和目标的独立的浏览方法也就是缓慢地从下往上,意志驱使,目标分散的方法。

注意力模型里包含一种叫“动态路线”的模式,这种模式下的信息来源于一小块区域可以通过表层视觉来活动。

这种区域是通过对表层关联性或者是实时活动模式的修改来选择,在从上往下(目标-独立)和从下往上(场景-依赖)的控制下。

这里用到的模型建立在一个被Koch和Ullman所推荐并且基于多种基本模型看似可信的次等生物结构上,它和一种“特征集成理论”想关联,解释了人类视觉寻找策略。

视觉输入首先被分解成一些具图像特征的图谱。

不同的空间位置具有不同的显著性,只有那种可以从周围环境中脱颖而出的位置才能出现。

所有特征图谱以一种纯粹的由下往上的方式流入一个从整个可见场景依照地理位置为不同位置的显著性编码主宰“图像显著性”。

在最初期。

这种图谱被认为是在次级顶骨腔壁和丘脑的枕核中心。

模型的显著图谱被赋予可以形成注意性转变的内部动态。

因此模型显现出一种完整的自下而上的显著性并且不需要任何自上而下的引导去转变注意。

这种结构提供了一个用来快速选择一小群赋予吸引力图像位置的巨大平行的方式。

这种位置需要以一种更复杂而且时间不确定物体识别的过程。

将这种方式延伸到“引导寻找”从跟高的表层区域反馈本来是用作衡量不同特征的重要性,所以只有较高级别重要性的才能到达进一层的过程。

2.模型
输入的静态图像通常被数字化正分辨率为640﹡480像素的图片。

利用二阶高斯三角创建的九度空间是一个渐进低通滤波器并且从八个阶梯采样尺度从1:1(零度空间)到1:256(八度空间)的图像。

每个特征都被一系列“中心环绕”操作计算,类似于视觉可接受范围:典型视觉神经元在一个小区域的视觉空间里(中心)是最敏感的,当刺激作用在一片更宽,更弱和抑制神经反应的中心(周围)同心的对抗性区时。

这样一个对空间不连续性敏感的结构,恰好适合于发现那些从环境中凸显并且是一个在视网膜,侧面膝状原子核,和初级视觉皮质的一般计算性公式。

中心环绕在一个模型中被当作细小于粗大范围之间的区别而实行,中心是一个像素为c∈{2,3,4},环绕是于在s=c+δ(δ∈{3,4})范围内的像素。

两幅图之间跨尺度的差别(用Θ标记),通过插入细小范围和点对点的减法来获得。

不仅是为了获得c,用几个范围更是为了获得δ=s—c服从通过包含在中心与环绕区域之间不同大小比率多尺度特征提取(和之前使用的修正比率相反)。

2.1 早期视觉特征的提取
r,g和b分别是红,绿和蓝色的图像输入通道,图像的密度I=(r+g+b)/3。

变量I用来创建一个高斯三角I(σ),而σ∈【0,8】。

I使得r,g和b规范化从而将色度去耦成为密度。

然而由于色度的变换在低亮度是不能被感知到(所以它不是显著的),规格化只应用于当I的值大于整个图像最大值得1/10时(其他地方r,g和b的值为0)。

四个广泛调谐的颜色通道被建立:红色通道R=r-(g+b)/2,绿色通道G=g-(r+b)/2,蓝色通道B=b-(r+g)/2,和黄色通道Y=(r+g)/2-|r-g|/2-b(负值归于零点)。

四个高斯三角R(σ),G(σ),B(σ),Y(σ)因四个颜色通道建立。

中心环绕()于:“中心”小范围的c和“环绕”大范围的s的不同产生了特征图。

第一批的特征图谱更关注密度的对比,在哺乳类动物中,由神经元发现敏感不是较暗的中心及较亮的环绕,就是较亮的中心及较暗的环绕。

这里,两种不同类型的敏感度同样是由一系列六个图谱I(c,s)c∈{2,3,4},s=c+δ,δ∈{3,4}来计算的
I(c,s)=|I(c)θI(s)|
下一层的图谱同样是为了在皮质中代表了叫做“颜色双倍反对”系统的颜色通道而建立的,在可以感知范围内的中心,神经元被一种颜色刺激(比如红色)并且被另一种颜色屏蔽(比如绿色),然而在环绕部分,事实正好相反。

这样的空间和色彩的对立如红/绿,绿/红,蓝/黄,和黄/蓝成对的存在人类初级视觉皮质。

因此,图谱RG(c,s)针对那些对立的颜色如红绿和绿红,而BY(c,s)针对蓝黄和黄蓝被建立在一个模型里。

RG(c,s)=|(R(c)-G(c))θ(G(s)-R(s))|
BY(c,s)=|(B(c)-Y(c))θ(Y(s)-R(s))|
位置方向从I中获得,用来定向伽柏三角O(σ,θ),σ∈【0,8】表示范围θ∈{0°,45°,90°,135°}是优先的范围(伽柏滤波器,是余玄光栅和2D高斯面的产物,使得可以感知的范围和初级神经元视觉皮质定向选择的敏感度描述相一致)定位特质图谱,O(c,s,θ),编码作为一个组和位置定向在中心和环绕范围中间比较。

O(c,s,θ)=|O(c,θ)ΘO(s,θ)|.
总之,42个特征被计算,6对应亮度,12个颜色,24 个方向。

图像显著性
图像显著性是通过一些在每个视觉区域内注意区域的选择梯状的数据来表示其显著性并且基于空间不同显著性的分布来引导关于注意位置的选择。

作为动态神经网络的典范,特征图谱的结合为图像显著性提供了自下而上的输入。

在把不同特征图谱结合的过程中的一个困难是,他们表示了一个有着不同动态范围和提
取机制的优先的无法比较的模型。

同样,因为所有42个特征图谱结合在一起,只在一些图谱中出现的显著性主体很可能会被噪声或者是在更大范围图谱中更微弱的显著主体所掩盖。

在缺乏由上至下的监管机制的情况下,我们设计出一个图谱规格化执行器N(.),它可以全范围的促进那些在少量的显示出剧烈活动(显著位置)的图谱的同时,抑制那些巨大数量可比较的剧烈回应。

N(.)包括:
1)将图谱中的值规格化成范围【0..M】从而去除独立模型中的振幅差别:
2)找到全范围内M取最大值的位置并且计算在其他区域极值的平均值m;
3)在全范围内把图谱和
(M−m)2相乘
只有局部活动极值被考虑,这样的N(.)把相关的回应和在图谱中有意义的“活动点”相比较。

并且忽略均匀的区域。

把在整个图谱中的活动极值与那些能够测量最活跃位置和平均位置的不同处的活动值的平均值相比较,当这个差别很大时,最活跃的位置凸显出来,图谱被强烈的促进,当差别很小时,图谱不含任何值并且被抑制。

设计N(.)背后的生物学动力是它大量的复制了侧面皮质的禁止机制,因此周围相似的特征通过特定的自动的定义的关系相互抑制。

特征图谱结合在三个“图像显著性”中,I(5)表示强度,C(6)表示颜色,O(7)表示方向,在范围为(σ=4)的显著图谱中。

他们通过跨尺度加法得到“⊕”包括了每个图谱下降到范围(σ=4)和逐点加法:
对于方向,四个由六个特征图谱结合而成从而给出θ并且结合成一个方向图像显著性:
对于创建
I C和O这三个独立通道和他们各自的规格化的动机是基于相似的特征对于显著性的争夺非常激烈,因为不同形式的在图像显著性上表现也不同。

三个显著图谱被规格化和综合在图像显著性的最后输入S上
S=1
3(N(I)+N(C)+N(O))
在任何给出的时间里,最具有显著性的位置由图像显著性的最大值(SM)定义,也就是注意力需要被引导的地方。

我们可以简单地选择最活跃的位置作为模型下一个需要关注的地方,然而在一个看似可行的实行计划里,我们把SM做成一个漏整合和火四范围的神经元2D层的模型。

这些模型神经原包含着可以整合由漏电导和栅电压突触输入的电荷的单个电容。

当到达极值的时候,一个典型的尖刺形成,并且电容的电量缓慢变为零。

最大值(SM)送到一个在突触相互作用在保证只有最活跃的位置才能保留而其他位置都被抑制的的单元之中,的生物上看似可信的2D“胜者为王”神经网络中,在σ=4的范围。

在SM中的神经元从S接受刺激性的输入并且都是独立的。

在有更大显著性位置SM神经原的潜力因此也加快增长(这些神经元被用作纯积分器并且不会着火)。

每个SM神经元刺激它周围的WTA神经元。

所有的WTA神经元同样逐渐相互形成,直到有一个(赢家)首先到达了栅值并且燃烧。

这样就触发了三个同时的机制:
1)FOA转移到了赢家神经元的位置;
2)触发全局WTA的禁止并且完全禁止(重置)所有的WTA神经元
3)在一片区域有着大小和新位置的FOA的局部抑制暂时在SM中被激活,这不仅仅产生了FOA的动态转变,通过承认下一个最具显著性的位置随后成为赢家,而且它还避免了FOA立即回到之前注意的位置。

这样一个“返回的抑制”在人类视觉神经系统里面一直存在。

为了使模型稍存偏颇从而随之跳到和现阶段注意位置相近的显著性空间位置,一个微弱的刺激在SM中暂时激发,在FOA的环绕周围。

自从我们不再用任何自上而下的注意元件作为模型,FOA是一个半径被输入图片宽或高小六分之一简单地磁盘。

相似神经元的时间常数,电导,和火栅值被选择,所以FOA 从一个人显著性位置跳到下一个大约30—70ms,并且这个位置对500—900ms具有抑制作用,因为一直作为神经物理的观察。

这些相关数量延迟的不同之处,证明了保证彻底浏览图像并且防止在一个有限范围内的兜圈是有意义的。

所有的参数都在这个实行中被修正,并且系统在研究所有图片的过程中是稳定的。

2.3比较空间频率容量的模型
Reinagel和Zador最近使用一个眼睛轨迹设备来分析随着眼睛浏览由人类生成的路径当自由观看灰色范围的图片时的局部空间的频率分布。

他们发现了空间频率满足稳定位置要比平均或随机位置更有意义。

虽然眼睛的轨迹和注意的轨迹可以用控制电压来区分,但视觉注意通常被认作强烈影响自由视觉的动眼神经前机制。

因此,调查我们的模型是否能够重现Reinagel和Zador的发现就变得很有趣。

我们构想了一个简单测量空间频率容量(SFC):在给出图片的位置,一个16×16的图片碎片从I(2),R(2),G(2)和Y(2)中提取出来,并且对这些碎片使用2D的快速傅里叶变换(FFTs)。

对于每个碎片,一个栅值被用来计算不可忽略的FFT系数。

栅值和仅可感知的光栅FFT幅值相一致(百分之一的对比)。

SFC测量是在相应碎片里的不可忽略系数的平均值。

碎片的大小和规模被选择因此SFC测量对和我们模型相近的频率和分辨率敏感;并且,
我们的SFC测量是在RGB通道中计算也就是依照亮度;使用这种测量,一个规模为4的
SFC图谱被创建出来和图像显著性相比较。

3 结果与讨论
尽管图像显著性的概念被广泛应用在FOA模型,但关于它的结构和力学鲜有细节给出。

这里我们检测前馈特征提取是怎么进行的,图像显著性的图片结合策略和即时性能全部对整个系统的表现有所贡献。

3.1整体表现
为了保证正常功能,模型被人工制造图片广泛的检测。

比如,拥有相同形状但是和背景对比变换的几个物体的出现是为了减少对比。

模型对那些图片中附加的噪声被证明很强健。

尤其是当噪声的性质(也就是颜色)和目标的主要特征不是直接冲突的时候。

模型能够为了一些弹出目标复制人类的行为,使用在Fig.2.的图片。

当一个目标利用自己独特的方向和周围的一大批干扰区分出来的时候,颜色,亮度,或者大小,它总是第一个被注意的位置,不管周围有多少干扰的因素。

相反,当一个目标仅仅是因为一些特征的结合(也就是,仅仅是水平红色的棒,在一大堆竖直红色棒和水平绿色棒的混合中),而被和干扰区分开,找到目标的必要时间就会随着干扰的数量线性增长。

结果一直以来被人们广泛在3.2部分讨论和观察到。

我们同样也用真实的图片来检验模型,从户外风景到艺术作品,并且使用N(.)来规格化特征图谱。

拥有如此多图片,想要客观的评估模型比较困难,因为没有客观的参考来比较,并且观察者可能无法在哪个位置的显著性最强的问题上达成一致。

然而,在所有图片研究中,最能吸引注意的位置是有趣的物体,比如脸或者旗帜,人体结构,或者车辆。

模型预测被用来和局部SFC的测量来比较,在一个和Reinagel与Zador的相似的实验,使用有着显著的交通标志的自然风景(90个图片),一个红色的苏打水罐(104图片),或者汽车紧急情况的三角标示(64个图片),和Reinagel与Zador的发现相似,在注意位置的SFC要比SFC的平均水平要出很多,当一个因素从2.5±0.05的最初注意位置减到1.6±0.05
的第八注意位置。

虽然这个结果并没有表明人类眼睛定位和模型的注意轨迹的必然相似性,但是它表明了模型,比如人类,被“有情报的”图片位置所吸引,根据有着更丰富光谱的区域更富有情报性的共同假设。

SFC图谱和图像显著性对大部分图片都是相似的。

然而,两种图谱对颜色或者照度有着强烈、延伸的变换图片充分的区分:当这种地方显示出一致的高SFC,他们的低显著性是因为他们的一致性。

这样一幅图,图像显著性往往和客观的显著的观念相一致。

数量上,对于所研究的258个图片,在注意位置的SFC要比SFC 的最大值要低的多,由于因素从最初注意位置的0.90±0.02减少到第八位置的0.55±0.05:当模型在拥有高SFC的位置时,他们不必是最高SFC位置。

因此它的显著性不仅仅是一种局部SFC的测量。

有着特征空间竞争的手段的模型,比局部SFC测量更纯粹捕捉客观显著性。

3.2 力度和局限
我们希望建立一个结构和组成与初期视觉性质相似的模型。

无论是它的简单结构还是前馈特征提取机制,模型能够处理具有复杂自然景象的强大能力。

比如,它能快速发现显
著的交通标示的不同形状(圆的、三角、方的、矩形)颜色(红、蓝、白、橙、黑),和纹理(信标、箭头、斑纹、圆圈)虽然这不是它被设计出来的目的。

如此强有力的行为加强了一个从早期视觉过程接受输入的独特图像显著性可以有效的引导由下至上的注意。

从一个计算性的观点,这个方法最主要的力量在于大量的平行的执行机构,不仅仅是因为计算昂贵的早期特征提取阶段,还是因为注意集中系统。

先前模型广泛的基于缓和技术,模型的结构允许在专注的计算机硬件上实时操作。

模型所表现出的行为严格的依赖一个因素:只有目标特征明确的代表至少一个可以导致弹出的特征图谱,也就是,在大量分散的物体中迅速寻找独立的目标,不用修改前面的特征提取阶段,我们的模型找不到特征的结合。

当我们的系统因为特殊的大小立、强度,颜色或者方向(我们执行的这些性质是因为他们一直以来都具有很好的特征在初期的视觉皮质)即从周围的干扰中区分目标。

简单起见,我们也没有执行任何拥有特征图谱并且因此不能产出像轮廓完成并结束的现象的周期性的机制,这对某种人类弹出来说很重要。

我们的模型并不包括任何大细胞运动通道,然而这在人类显著性里很重要。

一个决定性的模型的组成是规格化N(.),提供了一个整体的在任何条件下计算显著性的机制。

作为结果的显著性测量被模型实现,即便和局部SFC有关联,模型和人类显著性较接近,因为它执行了在显著位置之间的竞争。

N(.)的前馈实现比先前设计的反复的体制要更快更简单,神经元上,空间竞争效果和N(.)相似一直以来在有条纹或没有条纹皮质的非经典可接受细胞领域被观察。

从结论来看,我们呈现了一个概念的,简单计算的显著性驱动视觉聚焦的模型。

生物上的洞察力引导被证明生产早期视觉系统行为有效的结构。

目标寻找途径的效率非常依赖实施特征的类型。

这里呈现的框架可以因此轻易的调整成任意通过明确特征图谱执行的任务。

鸣谢
感谢Werner Ritter与Daimler-Benz提供的交通标示图片以及Pietro Perona和所有的评论者的有建设性的建议。

研究由美国国家科学基金会、在Caltech的神经工程中心以及美国海军研究办公室支持。

相关文档
最新文档