5 视觉心理学基础
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章视觉心理学基础
第二章视觉心理学基础
自然科学依赖于知觉,没有知觉一切科学发现无从谈起。但是直到今天,知觉本身还没有像其它学科那样引起普遍好奇。只是到了近期,科学探索才向内转移,指向人类自身。视觉是最重要的一种知觉。对人类视觉的研究,始于对光的研究,因为要看见东西,就需要光。迪卡尔、牛顿、胡金斯等人在研究光的过程中,逐渐认识到在人类视觉系统中隐藏着无穷的奥秘。16世纪意大利科学家波尔塔指出暗室装置可用于作画,17世纪迪卡尔成功地看见了动物视网膜上的映像。从此,人们开始了对人类视觉系统生理与心理的研究。
以德国科学家冯特在莱锡比大学建立的第一个心理学实验室为标志,科学心理学才有100多年的历史,但是科学心理学内部却是派别林立,纷争不断。仅视觉心理学而言,就有五大学派。要将视觉心理学应用到计算机视觉中,先必须从计算机科学的角度对视觉心理学不同学派的观点进行梳理,找出有利于解决计算机视觉问题的视觉心理学结论。本章首先简单介绍人类视觉系统的生理学和解剖学结论,然后重点介绍本文要用到的视觉心理学结论。
2.1 人类视觉系统生理基础
人的视觉信息处理过程已经进化到比较完美的阶段。随着人类对自身视觉系统的研究逐步深入,无论是从初级视皮层到高级视觉区域,还是从知识的记忆到与视觉功能相关的脑功能等,都已取得了许多重要的研究成果。
神经生理学和解剖学的研究表明,视觉信息在大脑中按照一定的通路进行传递。首先,视网膜细胞接受外界信息的信号,其中,柱状细胞主要感应光照条件的变化,而锥状细胞则主要接受信号的颜色变化。视网膜有两类神经节细胞:M和P细胞,其中,M细胞的感应域范围较大,主要接受轮廓和形状等信息,而P细胞的感应域较小,主要接受颜色和细节信息。之后,视网膜上的神经节细胞将接收到的信号通过视交叉和视束传到中枢的侧膝体。最后,信息到达大脑的皮层细胞。在大脑主皮层内,视觉信息是按照视皮层简单细胞(Simple cell)→复杂细胞(Complex cell)→超复杂细胞(Hypercomplex cell)→更高级的超复杂细胞(High-order hypercomplex cell)这样一个序列,由简单到复杂,由低级到高
14
第二章 视觉心理学基础
15
级分级进行处理。图2-1给出了视觉信息从视网膜到大脑皮层的简单示意图。
图2-1 视觉信息的处理生理过程
从神经信息的处理过程中可以看到,视觉信息处理过程是一个既有信息的横向流动,又有信息的纵向流动的极为复杂的动力学过程。
2.2 视觉心理学结论
视觉心理学的主要目标是描述和解释人类视觉心理现象。大多数视觉心理学结论是通过心理学实验,并经合理的逻辑推理而得到的。另一些是对自然观察的结果通过归纳得到的。还有一些来自计算机和模拟实验,如Bela Julesz 在1960年用计算机生成的随机立体点对图(Random-dot stereograms)。
根据对视觉心理现象解释的不同,视觉心理学被分成五大流派:(1) 格式塔流派,它与强调心灵的先天趋向的传统有关系;(2) 推理理论流派,它通常与经验主义的观点密切相关;(3) 刺激理论流派,与它相联系的传统是寻找自然界中
视觉心理学在计算机视觉中的应用研究
物理变量与感觉变量间的对应关系;(4) 计算理论流派,它强调视觉问题的精确光学计算与模拟;(5) 拓扑理论流派,它强调整体观点和拓扑数学在视觉认知过程中的应用。
这些学派虽然对人类视觉心理现象的解释差别很大,但是各学派对视觉心理现象的描述却基本相同,这是因为人类视觉现象是客观实在的。仅是这些相同描述就特别有助于我们弄清许多计算机视觉问题的本质。所以,在应用视觉心理学来帮助解决计算视觉问题时,我们主要从这些相同的描述出发,同时也从多数学派都同意的解释中获得灵感(如第四章的图像物体大小恒常性计算理论)。
2.2.1本文用到的视觉心理学结论
自科学心理学创立以来,视觉心理学已经取得了丰硕的成果,因篇幅有限,不可能对它们一一陈述,故只介绍与本文后面各章应用相关的视觉心理学结论。
(1)感官世界[Rock 1984, pp5][Gregory 1997, pp85][Mach 1999, pp25-248] [Gibson 1979]。客观世界与我们所感知的世界大不一样,这是因为我们对世界的体验是由感官作为中介的,是从内部构造出来的世界表象。我们所感知到的颜色、声音、味道与气味在现实物质世界中要么没有意义,要么具有另外一种意义。狗眼中的世界是黑白世界,而盲人却是漆黑一团。对于知觉中的颜色,物理学家说,这是一些表面对一定频率的电磁波的反射。颜色、音响、味道与气味都是感官刺激所产生的构造。作为这些东西本身而言,它们在活的心灵之外是不存在的。如果森林中倒了一颗树,附近又没有动物听见,那么树倒的声音是不存在的,存在的仅是树倒下时引起的空气振动。
(2)眼脑并用[Rock 1984, pp128-136 ][Gregory 1997, pp1-13]。人脑存有大量关于客观世界存在与变化的知识,这使视觉系统能进行推理。所以,当我们考虑视觉问题时,不要仅专注于眼睛,而忘记了大脑。存贮在大脑中的信息能加速推理。结构化知识约束(自上而下的控制):如果要想设计一个通用的机器视觉系统,必须首先对现实世界的知识进行分类,使之结构化。当人们组织和理解客观世界时,使用三个基本的构造原则:(1) 识别物体和它的属性,例如,树和它大小、空间与位置;(2) 识别物体的整体和部分,例如,树和它的枝叶;(3) 识别不同的物体集,例如,关于树的类和关于石头的类。
(3)看,需要学习吗?[Gregory 1997, pp136-169] 大多数研究者认为,无论
16
第二章视觉心理学基础
在生物社区,还是机器人社区,人眼使用的算法与机制都是最好的、最通用的。这是长期进化的结果。但是遗传仅形成学习的基础,为了会看,每个人必须学习大量的知识与技能。个体的后天所形成的看的能力并不能直接遗传给他或她的后代。机器学习约束:人们不得不连续地帮助计算机学习,以便计算机把知觉信息与概念理解联系起来,就像人们对他的小孩所做的那样。
(4)注意力机制[Best 2000, pp36-71][Treisman 1980]。注意是指心理努力的集中和集焦,是一种有选择性、转移性和可分解性的集中。在知觉过程中,有大量的信息进入感觉记忆,但若不加以注意,很快就丧失。因此,注意在为进一步加工而选择感觉信息方面,起着重要的作用。一般倾向于把注意理解为一种有限的心理资源。假若注意被指派去执行一定的任务,因为有限性,所以一旦它们被全部指派去执行任务,则不能同时执行其它任务。根据需要注意与否,有两种认知加工方式。一种是自动加工(Automatic process),它不需要有意识地分配注意来激起和维持的认知过程,如内隐记忆(Implicit memory)。这种加工方式一般是自下而上的,知觉系统直接接受外部世界输入信息的影响,而不受上层知识的影响。这种加工方式也叫做“数据驱动的加工”(Data-driven processing)。另一种是控制加工(Controlled process),它需要注意来激起与维持有意识努力的认知加工,如外显记忆(Explicit memory)。这种加工方式一般是自上而下的,知觉系统不仅受外部输入信息的影响,而且也受已有的、有组织的知识结构的影响。这种加工方式也叫做“概念驱动的加工”(Conceptually-driven processing)或“任务驱动的加工”。一般认为这两种加工方式是相互补偿的,当知觉系统更多地依赖感觉输入的直接作用时,控制加工(自上而下加工)就会减弱,即大部分信息来自环境;相反,当知觉系统更多地依赖控制加工(自上而下加工),则对外界刺激直接的依赖程度就下降,即大部分信息来自知觉者本身。注意力机制告诉我们,应该把计算资源优先分配给那些容易引起观察者注意的区域,以提高现有图像分析方法的工作效率。
(5)视觉系统类似于概率计算机[Gregory 1997, pp9-13]。视觉脑先形成一个假设,然后用证据来检验这个假设。如果不对,不断重复提出假设、检验假设的过程,直至得到一个最好的或合情合理的结论。在这个过程中,所有存贮在大脑深处的知识将会被利用。而眼睛和其它感觉器官与其说是给出关于环境的直接图像,倒不如说是给视觉脑提供提出假设、检测假设的证据。有两种视觉
17