基于特征区域的显著性快速分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于图像显著性快速场景分析的模型
摘要:受早期神经元视觉系统结构的启发,一个视觉注意一通被创建出来。多种图像特征结合于一张地志显著性图样上。一个动态神经元网络依显著性递减的顺序选择位置。系统用有效的计算方法解决了关于快速选择场景识别的复杂问题,从而具体分析显著性的位置。
1.导语
灵长类动物具有实时识别复杂场景的出色能力,尽管他们神经元硬件在实现这些功能时是需要一定时间的。中层或更高层的视觉倾向于在整个过程当中先选择一个集中区域,这很可能是为了减少分析过程的复杂程度。这种选择通过形成一个有限空间的视觉区域来实现,通常称作”集中的注意”,这种快速、从上往下、显著性驱使和目标的独立的浏览方法也就是缓慢地从下往上,意志驱使,目标分散的方法。
注意力模型里包含一种叫“动态路线”的模式,这种模式下的信息来源于一小块区域可以通过表层视觉来活动。这种区域是通过对表层关联性或者是实时活动模式的修改来选择,在从上往下(目标-独立)和从下往上(场景-依赖)的控制下。
这里用到的模型建立在一个被Koch和Ullman所推荐并且基于多种基本模型看似可信的次等生物结构上,它和一种“特征集成理论”想关联,解释了人类视觉寻找策略。视觉输入首先被分解成一些具图像特征的图谱。不同的空间位置具有不同的显著性,只有那种可以从周围环境中脱颖而出的位置才能出现。所有特征图谱以一种纯粹的由下往上的方式流入一个从整个可见场景依照地理位置为不同位置的显著性编码主宰“图像显著性”。在最初期。这种图谱被认为是在次级顶骨腔壁和丘脑的枕核中心。模型的显著图谱被赋予可以形成注意性转变的内部动态。因此模型显现出一种完整的自下而上的显著性并且不需要任何自上而下的引导去转变注意。这种结构提供了一个用来快速选择一小群赋予吸引力图像位置的巨大平行的方式。这种位置需要以一种更复杂而且时间不确定物体识别的过程。将这种方式延伸到“引导寻找”从跟高的表层区域反馈本来是用作衡量不同特征的重要性,所以只有较高级别重要性的才能到达进一层的过程。
2.模型
输入的静态图像通常被数字化正分辨率为640﹡480像素的图片。利用二阶高斯三角创建的九度空间是一个渐进低通滤波器并且从八个阶梯采样尺度从1:1(零度空间)到1:256(八度空间)的图像。
每个特征都被一系列“中心环绕”操作计算,类似于视觉可接受范围:典型视觉神经元在一个小区域的视觉空间里(中心)是最敏感的,当刺激作用在一片更宽,更弱和抑制神经反应的中心(周围)同心的对抗性区时。这样一个对空间不连续性敏感的结构,恰好适合于发现那些从环境中凸显并且是一个在视网膜,侧面膝状原子核,和初级视觉皮质的一般计算性公式。中心环绕在一个模型中被当作细小于粗大范围之间的区别而实行,中心是一个像素为c∈{2,3,4},环绕是于在s=c+δ(δ∈{3,4})范围内的像素。两幅图之间跨尺度的差别(用Θ标记),通过插入细小范围和点对点的减法来获得。不仅是为了获得c,用几个范围更是为了获得δ=s—c服从通过包含在中心与环绕区域之间不同大小比率多尺度特征提取(和之前使用的修正比率相反)。
2.1 早期视觉特征的提取
r,g和b分别是红,绿和蓝色的图像输入通道,图像的密度I=(r+g+b)/3。变量I用来创建一个高斯三角I(σ),而σ∈【0,8】。I使得r,g和b规范化从而将色度去耦成为密度。然而由于色度的变换在低亮度是不能被感知到(所以它不是显著的),规格化只应用于当I的值大于整个图像最大值得1/10时(其他地方r,g和b的值为0)。四个广泛调谐的颜色通道被建立:红色通道R=r-(g+b)/2,绿色通道G=g-(r+b)/2,蓝色通道B=b-(r+g)/2,和黄色通道Y=(r+g)/2-|r-g|/2-b(负值归于零点)。四个高斯三角R(σ),G(σ),B(σ),Y(σ)因四个颜色通道建立。
中心环绕()于:“中心”小范围的c和“环绕”大范围的s的不同产生了特征图。第一批的特征图谱更关注密度的对比,在哺乳类动物中,由神经元发现敏感不是较暗的中心及较亮的环绕,就是较亮的中心及较暗的环绕。这里,两种不同类型的敏感度同样是由一系列六个图谱I(c,s)c∈{2,3,4},s=c+δ,δ∈{3,4}来计算的
I(c,s)=|I(c)θI(s)|
下一层的图谱同样是为了在皮质中代表了叫做“颜色双倍反对”系统的颜色通道而建立的,在可以感知范围内的中心,神经元被一种颜色刺激(比如红色)并且被另一种颜色屏蔽(比如绿色),然而在环绕部分,事实正好相反。这样的空间和色彩的对立如红/绿,绿/红,蓝/黄,和黄/蓝成对的存在人类初级视觉皮质。因此,图谱RG(c,s)针对那些对立的颜色如红绿和绿红,而BY(c,s)针对蓝黄和黄蓝被建立在一个模型里。
RG(c,s)=|(R(c)-G(c))θ(G(s)-R(s))|
BY(c,s)=|(B(c)-Y(c))θ(Y(s)-R(s))|
位置方向从I中获得,用来定向伽柏三角O(σ,θ),σ∈【0,8】表示范围θ∈{0°,45°,90°,135°}是优先的范围(伽柏滤波器,是余玄光栅和2D高斯面的产物,使得可以感知的范围和初级神经元视觉皮质定向选择的敏感度描述相一致)定位特质图谱,O(c,s,θ),编码作为一个组和位置定向在中心和环绕范围中间比较。
O(c,s,θ)=|O(c,θ)ΘO(s,θ)|.
总之,42个特征被计算,6对应亮度,12个颜色,24 个方向。
图像显著性
图像显著性是通过一些在每个视觉区域内注意区域的选择梯状的数据来表示其显著性并且基于空间不同显著性的分布来引导关于注意位置的选择。作为动态神经网络的典范,特征图谱的结合为图像显著性提供了自下而上的输入。
在把不同特征图谱结合的过程中的一个困难是,他们表示了一个有着不同动态范围和提
取机制的优先的无法比较的模型。同样,因为所有42个特征图谱结合在一起,只在一些图谱中出现的显著性主体很可能会被噪声或者是在更大范围图谱中更微弱的显著主体所掩盖。
在缺乏由上至下的监管机制的情况下,我们设计出一个图谱规格化执行器N(.),它可以全范围的促进那些在少量的显示出剧烈活动(显著位置)的图谱的同时,抑制那些巨大数量可比较的剧烈回应。N(.)包括:
1)将图谱中的值规格化成范围【0..M】从而去除独立模型中的振幅差别:
2)找到全范围内M取最大值的位置并且计算在其他区域极值的平均值m;
3)在全范围内把图谱和
(M−m)2相乘
只有局部活动极值被考虑,这样的N(.)把相关的回应和在图谱中有意义的“活动点”相比较。并且忽略均匀的区域。把在整个图谱中的活动极值与那些能够测量最活跃位置和平均位置的不同处的活动值的平均值相比较,当这个差别很大时,最活跃的位置凸显出来,图谱被强烈的促进,当差别很小时,图谱不含任何值并且被抑制。设计N(.)背后的生物学动力是它大量的复制了侧面皮质的禁止机制,因此周围相似的特征通过特定的自动的定义的关系相互抑制。
特征图谱结合在三个“图像显著性”中,I(5)表示强度,C(6)表示颜色,O(7)表示方向,在范围为(σ=4)的显著图谱中。他们通过跨尺度加法得到“⊕”包括了每个图谱下降到范围(σ=4)和逐点加法:
对于方向,四个由六个特征图谱结合而成从而给出θ并且结合成一个方向图像显著性:
对于创建
I C和O这三个独立通道和他们各自的规格化的动机是基于相似的特征对于显著性的争夺非常激烈,因为不同形式的在图像显著性上表现也不同。三个显著图谱被规格化和综合在图像显著性的最后输入S上
S=1
3(N(I)+N(C)+N(O))
在任何给出的时间里,最具有显著性的位置由图像显著性的最大值(SM)定义,也就是注意力需要被引导的地方。我们可以简单地选择最活跃的位置作为模型下一个需要关注的地方,然而在一个看似可行的实行计划里,我们把SM做成一个漏整合和火四范围的神经元2D层的模型。这些模型神经原包含着可以整合由漏电导和栅电压突触输入的电荷的单个电容。当到达极值的时候,一个典型的尖刺形成,并且电容的电量缓慢变为零。最大值(SM)送到一个在突触相互作用在保证只有最活跃的位置才能保留而其他位置都被抑制的的单元之中,的生物上看似可信的2D“胜者为王”神经网络中,在σ=4的范围。