人类视觉与计算机视觉的比较
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人类视觉与计算机视觉的比较
孔 斌 (中国科学技术大学自动化系,中国科学院合肥智能机械研究所)
关键词 知觉 视错觉 计算机视觉
从视错觉等视觉生理现象以及知觉的特性出发,对人类视觉与计算机视觉进行比较,并根据目前对人类知觉活动(特别是视知觉活动)的认识程度讨论计算机视觉目前的状况和今后的发展.
人类自古以来一直在进行着认识自然和改造自然的活动,创造和发展了各种科学技术.随着对自然(包括人本身)的认识的不断加深,人们发明和制造了许多工具和机器,用来提高自己各种活动的效率以及代替自己的部分活动.人们甚至希望能用机器来代替自己的思维活动,从简单、机械的数值运算到复杂、多变的知觉和思考、判断.公元前6
世纪中国人发明了算盘[1],20世纪40年代在美国诞生了第一台电子计算机.计算机视觉和人工智能的研究于20世纪60年代初露端倪.目前,机器人和计算机已能执行有一定复杂程度的知觉任务和推理判断.比如机器人足球赛、计算机下国际象棋等.有不少科幻小说和电影描写了在未来某个时候,计算机已经拥有了人类的全部智能,并且控制奴役着人类;而人类的精英分子则为了反抗计算机、拯救人类,进行了艰难的斗争.这里,我们不去讨论未来的计算机是否真的能拥有人类的全部知觉和思维能力从而代替人脑,本文仅从视错觉、视觉两义性等一些视觉生理现象以及知觉的特性出发,对目前计算机所能拥有的能力视觉与人类的视觉进行比较,并根据目前对人类知觉活动(特别是视知觉活动)的认识程度,讨论计算机视觉目前的状况和今后的发展.
一、视错觉现象
一般来说,在人类的五种基本感觉中,
视觉提供了人类对周围世界了解的大部分信息.常言道
:“
眼见为实.”果真如此吗
?有很多情况下“眼见”的并不一定都是“实”的.原因在于,通过我们的眼睛(以及其他感觉器官)而感觉到的外界事物的形象和特性,需要经过大脑的加工处理才能形成相应的知觉和判断.在一定的条件下,大脑会对所看到的形象形成不正确的知觉和判断,即产生视错觉.较为大家熟知的几种视错觉现象包括长短错觉(图1)、大小错觉(图2)、平行错觉(图3)、弯曲错觉(图4)等[1-3].
图1 长短错觉
图2 大小错觉
图3 平行错觉
图4 弯曲错觉
视错觉有很多实际用途.例如肥胖的人穿直条图案的衣服会使身材显得比实际瘦一些;在房间的墙壁上装几面镜子就会产生空间变大了的感觉.
那么,像上述的各种视错觉现象在计算机视觉中会不会发生呢?答案是否定的.这是因为,在上述的知觉过程中,所求的仅仅是平面形状几何参数的比较或是几何特性,如长短、大小、方向、曲直等.人类在执行这类视知觉任务时并没有明显的计算过程,而且对各个形状也不是单独地进行感知.人类视觉所发生的错觉,都是因为受到其他线条(有时也加上在其他情况下得来的经验)的影响而产生的.在计算机视觉中,平面形状的几何参数和特性通过数值的计算便能获得.一旦找出了某个形状,对其参数的测量就将单独地进行,因而可以不受图中其他形状的影响.所以,计算机在找到两个形状并计算出其对应的参数之后,经过简单的比较便能给出正确的结论.
但是,我们是生活在一个三维的空间中,视知觉不仅涉及平面形状,而且大量涉及的是立体形状.因此,计算机视觉不仅研究平面形状的识别,也研究立体形状的识别.而它的形状参数测量的独立性特点应用于平面形状时是优点,应用于立体形状时却有可能出现问题.举一个立方体辨认的例子.机器人可以根据立方体的数学模型学会认识立方体的各种透视变形并判断其相应的方位,并进行拾起立方体放到指定地方的操作.
这在目前已经不是难事了.
如果呈现给它的是一个从某个角度看很像立方体但实际不是的物体,只有一个固定视觉传感器
(即摄像机)的机器人在加工其视觉信号时就会把这个处于特定角度的物体当成立方体.由于对物体形状的错误判断,机器人有可能不能拾起该物体;或者虽然拾起了也放到了指定的地方,但在执行下一步的任务时就会有很大可能导致系统性的错误(例如在进行装配任务时).从这个意义上讲,计算机视觉比人的视觉更容易受到干扰,错觉更为严重.计算机双眼视觉和多视图视觉的发展解决了这个问题.
二、视觉两义性现象
另一类有趣的视觉生理现象是视觉两义性.在一般情况下,对物体或图形的视觉感知只有一个惟一的答案.然而有的时候,作用于眼睛的同一幅刺激图像在不同时刻或不同的条件下可以产生不同的知觉.最常见的视觉两义性有两种类型:一种是形象和背景的交替;另一种是图形本身“自发地”改变着它们的意义.
请看图5[2,3],注意黑白两部分在不同的观察下发生了怎样的变化.当你的眼睛盯住白色部分时,杯子呈现在眼前;而当你的眼睛盯住黑色部分时,两张左右对称的面孔便突现出来.在图6[2,3]中你是看到了一个背朝着你向外张望的少妇,还是看到了一个老得掉了牙、下巴垂到了皮领子里的老妪?(提示:老妪的右眼、鼻尖、嘴巴分别是少妇的耳朵、下巴、项链.)图7[4]被称作“威尔
图5 彼得-保尔高脚杯
图6 老妪?少妇?
图7 印地安人或爱斯基摩人
逊图形”
(W ilson figure ):它是一个爱斯基摩人,右边的黑色部分是圆顶屋的门,爱斯基摩人面向内而立;同时它又是一幅印第安人的头像,黑色部分是印第安人的头饰.印第安人的耳朵是爱斯基摩人的胳膊,而爱斯基摩人的腿是印第安人的脖子.
在图5中,白色和黑色交替地成为形象和背景.但是,自然界中本不存在形象Π背景关系,而是由大脑选择、组织起了这种关系[3].任何事物都有可能成为形象,只要你加以注意.有时候形象和背景似乎在两个完全同等的可能性中交换产生,就像这个杯子和面孔的例子,形象和背景在一定的条件下发生了互相转换.从知觉的背景中分出形象或图形,要受许多条件的影响.有许多学者在这方面进行过研究,最初专门研究这个问题的是鲁宾[2].他确定了图形从背景分出的一些原则: (1)图形有形状,而背景相对来说没有形状; (2)背景似乎总在图形之后,没有分界的轮廓线; (3)图形具有一般物体的性质,而背景看起来像是一种无形的东西;
(4)图形似乎是向前突出,而背景似乎是向后退; (5)图形可以引起更深刻的印象,也比较容易记住.但是,这些原则在应用于图5时仍然会产生歧义.那么,在计算机视觉中的情形又是怎样的呢?对于什么是“形象”、什么是“背景”的知觉决策,是任何一种能够处理视觉信息的系统的基础.计算机视觉系统也不例外.在目前的计算机视觉系统中,
这一决策一般是根据所要执行的视觉任务事先定义好的.对于黑白二色图像,要么定义黑色为形象,要么定义黑色为背景.在这种情况下,所得到的知觉判断便是惟一的.也可以让计算机视觉系统具有自适应性,只要设立一个简单规则就可以做到,即:规定面积小的(或象素数少的)那种颜色作为形象;当二者面积差不多时,则分别进行两种形象Π背景的知觉和判断.如果是这样,计算机视觉系统也有可能识别出这一类两义图形.
而在图6和图7中,当给图形的不同组成部分赋予不同的含义时,整个图形便具有了不同的意义.尽管给予视觉器官的刺激是一个固定的图案,由于知觉系统试图对它进行解释,不同的人往往得出不同的结论,甚至同一个人在不同时候对于同样对象的知觉也可能是不同的.因此有一种说法称:除非经头脑关注,本无含义存在[3].当图7第一次展现在人们面前时,美国人认为这是一幅印地安人的侧面头像,而俄罗斯人则说这是一幅爱斯基摩人穿着羽绒服正要走进屋子的背面形象.这里,观察者的经验和他所熟悉的事物对他的知觉判断产
生重大影响.这一点对计算机视觉的研究也有重大影响.因为到目前为止对知觉机理还没有完全的统一的认识,所以每一个研究者都是根据自己有限的认识来设计计算机的知觉处理方式和方法.在这种情况下,不同的计算机视觉系统对于同样对象的知觉可能是不同的;但是目前,同一个计算机视觉系统一般不会试图对同样对象进行不同的知觉.
对于这些人为造出的两义性视觉图形的识别,在目前的计算机视觉研究中似乎没有什么实际的意义,而且也未见有这方面的报道.然而,我们不要忘记,在自然界中有许多生物有拟态行为,例如作物害虫有时会模仿成枯叶;人们出于安全等目的会对一些物体(如武器装备)进行伪装;还有许多艺术家在他们的作品中,匠心独具地利用了形象交替的作用来产生艺术效果.如果想让计算机能够自动识别作物虫害,如果想让计算机在军事行动中能够自动识别敌我武器装备,如果想让计算机能够像人一样欣赏画面,那么就必须进行这方面的计算机视觉研究.
三、知觉的特性
还有一些其他的视觉现象,由于篇幅有限,不可能在此一一加以介绍.下面我们从人类知觉特性的角度来比较人类视觉和计算机视觉.
1.知觉的整体性
[2]
当知觉对象由许多部分组成时,我们并不把对象感知为多个孤立的部分,而总是把它看作一个整体,即使有时候这些组成部分相距比较远.如在图8中,我们并不把它感知为不构成整体的四条直线、虚线的组合及三个圆圈,而是一开始就把它看成是正方形、圆形、三角形.
在计算机视觉中,可以把相距较近的几个部分当作一个整体,例如它可以认出图8中的正方形和圆形.但当这些组成部分相距比较远时,它就显得无能为力了.一般它不会把图中的三个圆圈组合成三角形.
图8 知觉的整体性