视觉注意机制理论分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
视觉注意机制理论分析 Prepared on 22 November 2020
第2章视觉注意机制理论分析
引言
随着信息技术的快速发展,数字图像、视频成为信息的重要载体。如何高效地处理和分析图像数据,理解图像内容已经成为当前的研究热点。众所周知,人类可以从复杂的场景中快速地找到我们感兴趣的区域,容易地完成对场景的理解。这是因为人类视觉系统(HumanVisualSystem/HVS)的信息选择策略,利用视觉注意机制引导人眼在海量数据中注视到显着的区域,并分配资源对重要区域优先进行处理[10]。多数情况下,当我们的眼睛接收到来自外界的大量的视觉信息,大脑并不能对所有的视觉信息进行同时,而是删除大部分无用信息,筛选出少许感兴趣的重要信息,优先对这些视觉信息进行处理。
计算机作为目前处理信息最快的工具之一,在计算机图像处理中引入视觉注意机制,不仅可以提高数据筛选能力和计算机的运算速度,还在物体识别、目标跟踪、图像分析与理解等领域具有重要的应用价值,这就为汽车车牌的快速处理提供了一个很好的解决方法。但是目前的计算机视觉与人类的视觉在能力上存在着巨大的差异。视觉注意机制是涉及生物视觉处理等学科交叉领域,生物视觉与计算机视觉进行的学科交流为理论创新带来了新的思路:一个可行的方法是从研究人类的视觉系统(大脑)如何感知和识别外界视觉刺激出发,模拟人的视觉注意机制,建立一种有效的视觉注意计算模型,使计算机拥有人类所具备的观察和理解世界的能力,并将其应用于静态场景、动态场景的感兴趣区域检测及场景分类中。
人类视觉感知系统
关于人类的视觉感知系统,尤其是人类自身的视觉神经系统,心理学等相关领域专家已经进行了长期的探索和研究。通过深入研究探索,人们发现人类视觉神经系统中的视觉感官信息在人脑中是按照某一固定路径来进行传递的,其输入的是视觉刺激,输出的是视觉感知,主要是由视觉感官、视觉通路、视感觉中枢组织和视知觉中枢组织组成的,其分别负责视觉信息的生成、传送和
分析。其中视觉信息分析过程可分为视感觉分析和视知觉分析,如图所示。
图人类视觉感知系统信息感知流程
视觉系统生理结构
人类视觉系统的感觉器宫是眼睛,一般人眼睛直径大约24毫米,近似球形,由眼球壁和眼球两部分组成。角膜和巩膜位于眼球壁的外层,其中角膜具有屈光作用,能够将光线折射到眼睛内,巩膜保护眼球。眼球壁的中间层由控制瞳孔大小的虹膜和吸收外来散光的脉络膜组成,内层有视网膜由视锥细胞和视杆细胞组成,有感光作用。视觉信息的传递过程如下:视觉刺激从光感受细胞出发,作用在视网膜引起视感觉,再经由视神经、视束以及皮层下中枢,最终到达视皮层,引起视知觉[11]。所谓的视感觉,指光的明暗,视知觉指颜色、形
状等特性。
眼睛的角膜是透明的、高度弯曲的折射窗口,光线通过它进入人眼内,随后有部分被带色的不透明的虹膜表面所阻挡。瞳孔随光照强度而改变,光线暗
时扩张,在正常的光照条件下它处于收缩状态,以限制眼内因球面像差引起的图像模糊。一只人眼视网膜中不均匀分布了大约有上亿个视杆细胞及500万个圆锥细胞。视网膜中心区域是黄斑,圆锥细胞密集程度密度特别高。视网膜上还有一个盲点,神经中枢细胞轴突从视网膜盲点中离开,组成视神经[12]。
视网膜具有感光层、双极细胞层和节细胞层的三层生理结构,感光层中的感光细胞将视觉信号(光信号)转变为电信号,接着双极细胞分析处理这些转换的电信号,并进行分类成形状、深浅和色彩等信号。接着节细胞把传入视网膜分类过后不同的信号传输到大脑形成图像。除了上述细胞外,视网膜还有其它细胞:水平细胞和无长突细胞。
人眼是包含有限球壁、眼内容物和神经系统等,是一个前后直径大约24毫米,垂直直径大约23毫米的近似球状体。眼睛的主要感光系统是眼球壁内层的视网膜,它由视锥细胞和视杆细胞组成的,视锥细胞主要用于分辨颜色。我们会
有对外界事物的色觉,其原因在于视网膜上有三种视锥细胞分别感受了蓝色、红
色和绿色。另外,视杆细胞也是主要用于感受运动物体和弱光[13]。晶状体富有弹性,中央厚边缘薄,像一块双面凸起的球镜,它的作用是聚焦光线和调节屈光,并且玻璃体充满晶状体和视网膜之间,占据眼内腔的4/5,内含99%的水分,是眼球壁的主要支撑物[14]。
视觉感知系统加工特点
人类视觉感知系统在视觉信息处理过程中,并不是原封不动的传送,而是结合输入信息进行相应的处理,再输出给其他神经元。人眼的视觉系统只能选择少数显着性信息进行处理,摒弃大部分无用信息。在视网膜上,每个神经元有不同形式的感受野,并呈现同心圆拮抗的形式[11]。这种形式根据刺激对细胞的影响分为“on中心-off环绕”和“off中心-on环绕”两种类型。“on中心-off环绕”类型,当光照充满中央区域时,激活反应最强;当光照充满了周边的区域时,则产生最大的抑制作用。“off中心-on环绕”由中央抑制区和周边兴奋区组成,与“on中心一off环绕”相反。大脑皮层上的感受野分简单细胞的感受野和复杂细胞的感受野。其中简单细胞的感受野也分为兴奋区与抑制区,对刺激的方向和位置有很强的敏感性;复杂细胞的感受野对刺激敏感性取决于刺激的形式,和刺激的位置无关。
一般来说,不同的视觉信息要经过腹侧通路和背侧通路的加工处理操作。腹侧通路由V1,V2,V3,V4和颞下回组成,主要对刺激信息负责接收。视觉意识的产生须要腹侧一背侧这二条通路的共同参与。这两条通路之间相辅相成、互相依赖与作用:人眼调整视觉注意焦点可以通过目标识别来完成,而视觉焦点可以有效地对目标识别进行指导,两者相辅相成帮助人类理解场景中的事物[15]。作为一种生理机制,视觉注意与个人主观因素有关,也与眼球感知到的物象、环境条件和心理感受等外部刺激有关,视觉注意流程如图2-3所示。
在视觉处理中,视皮层中腹侧通路和背侧通路对视觉刺激信号的输入和视觉信息的进一步的处理起着重要作用。腹侧通路中接收的信息由初级视皮层V1区经过V2区和V3区从腹侧延伸到V4和IT区直至颞叶,腹侧通路输入的信息来
源主要是来源于视网膜的P型神经节细胞,该通路主要负责的是物体的识别功能,这也是另外叫“what通路”的缘由[15]。背侧通路则由初级视皮层V2和V3区从背侧延伸向MT和MST区一直到顶叶后部,它的信息输入源主要由视网膜的M型神经节细胞,也称为“Where”通路,主要负责空间位置的信息。
根据神经生理学的相关研究结果,通过串行和并行的加工机制,可以将形状、颜色、深度和运动的相关视觉信息分离出来,并且在V2区以上层级的视皮层的分离趋向更为明显点[16]。为比较快速完成不同的视觉任务处理,视通路各个层次上存在着基本互相独立的并行通道。在人类视觉处理机制中,视网膜读入的信息是存在着反馈的双向传输,大脑中更高层区域都有许多反馈通路到达
图人类神经视觉注意识别框图