机器视觉及其应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器视觉及其应用
一、机器视觉的研究内容
人们从外界环境获取的信息中, 80%来自于视觉。人们的眼睛从自己周围的环境获取大量信息,并
传入大脑后,由大脑根据知识或经验,对信息进行加工、推理等处理工作,最后识别、理解周围环境,包
括环境内的对象物。机器视觉就是用计算机模拟人眼的视觉功能,从图象或图象序列中提取信息,对客
观世界的三维景物和物体进行形态和运动识别。机器视觉研究的目的之一就是要寻找人类视觉规律,从
而开发出从图象输入到自然景物分析的图象理解系统。
对于机器视觉系统来说,输入是表示三维景物投影的灰度阵列,可以有若干个输入阵列,这些阵列可提供从不同方向、不同视角、不同时刻得到的信息。希望的输出,是对图象所代表景物的符号描述。通常这些描述是关于物体的类别和物体间的关系,但也可能包括如表面空间结构、表面物理特性(形状、纹理、颜色、材料)、阴影以及光源位置等信息。目前许多机器视觉专家都是在马尔( M ar r)创立的视觉计算理论框架下求索。本世纪70年代中后期,英国的M arr教授应邀在美国麻省理工学院的人工智能实验室创建并领导一个以博士生为主体的研究小组,从事视觉理论方面的研究,逐步形成关于视觉的计算理论。Marr认为,视觉可分为三个阶段(图1)。第一阶段是早期视觉( early v ision) ,其目的是抽取观察者周围景物表面的物理特性,如距离、表面方向、材料特性(反射、颜色、纹理)等,具体来说包括边缘检测、双目立体匹配、由阴影确定形状、由纹理确定形状、光流计算等;第二阶段是二维半简图( 2. 5D sket ch)或本征图象( Int rinsic Im ag e) , 它是在以观察者为中心的坐标系中描述表面的各种特性,根据这些描述,可以重建物体边界、按表面和体积分割景物,但在以观察者为中心的坐标系中只能得到可见表面的描述,得不到遮挡表面的描述,故称二维半简图;第三阶段是三维模型(视觉信息处理的最后一个层次) ,是用二维半简图中得到的表面信息建立适用于视觉识别的三维形状描述,这个描述应该与观察者的视角无关,也就是在以物体为中心的坐标系中,以各种符号和几何结构描述物体的三维结构和空间关系。
二、机器视觉与人类视觉的差异
对于人的视觉来说,由于人的大脑和神经的高度发展,其目标识别能力很强。但是,人的视觉也同样存在障碍,例如即使具有一双敏锐视觉和极为高度发达头脑的人,一旦置于某种特殊环境(即使曾经具备一定的先验知识) ,其目标识别能力也会急剧下降。事实上人们在这种环境下面对简单物体时,仍然可以有效而简便地识别,而在这种情况下面对复杂目标或特殊背景时,则在视觉功能上发生障碍,两者共同的结果是导致目标识别的有效性和可靠性的大幅度下降。将人的视觉引入机器视觉中,机器视觉也存在着这样的障碍。它主要表现在三个方面:一是如何准确、高速(实时)地识别出目标;二是如何有效地增大
存储容量,以便容纳下足够细节的目标图象;三是如何有效地构造和组织出可靠的识别算法,并且顺利地实现。前两者相当于人的大脑这样的物质基础,这期待着高速的阵列处理单元,以及算法(如神经网络、分维算法、小波变换等算法)的新突破,用极少的计算量以及高度地并行性实现其功能。为了便于理解,现将人的视觉与机器视觉对比列于表1、表2。
三、机器视觉研究现状与展望
( 1) 传统的通用视觉模型
传统的通用视觉模型是以M arr视觉理论为框架的。近30年来, M arr视觉计算理论取得了巨大成功,包括计算理论层上发现了许多重要的基本约束,数据结构算法层上发展了各种算法以及建立起一些早期视觉的实验系统等,但它也存在着一定的问题。
Mar r 理论认为视觉任务是由2D 图象恢复3D 场景, 而由于成像过程中存在投影、遮挡、各种场景因素的混合、畸变和噪声等,使作为成像过程逆过程的视觉过程不适应,且极为困难,而且由于真实世界极为复杂,要想通过高度结构化的表示获得3D模型的客观描述是很困难的。此外,近年来很多人认为视觉任务并不总以恢复3D场景为目标,很多情况下并不需要建立3D模型。
M ar r 框架立足于建立通用视觉模型, 尤其在视觉处理早期,基本不针对具体问题,为保证通用性而采用一些简单的假设和基本的约束,例如认为场景由规则表面构成,即满足平滑性约束等。
M ar r 框架强调表示而不是过程, 而后者允许在完成相同的视觉处理任务的前提下由一种表示变成另一种表示,故M arr框架对视觉处理是静态的。它对信息处理是一种单向串行的自低向上的3级加工过程,前一级处理结果的好坏直接影响后一级处理,而高层信息不对低层反馈,没有高层次的知识参与即可形成要素图和 2. 5D图,知识和经验只作用于从 2. 5D到3D的过渡,这种过于冯诺曼的结构使M arr 框架缺乏灵活性和自适应性。
该框架将视觉处理的早期看成是被动接受信号的过外界刺激不是简单的被动反应,而是通过身体移动或眼动等方式改变视场,有选择地感知感兴趣的信息。
( 2) 目的视觉( Purposive Vision)
与传统的通用视觉不同,主动视觉强调两点,一是认为视觉系统应具有主动感知的能力,二是认为视觉系统应基于一定的任务( T ask Directed)或目的
( P urposive Direct ed) 。生物视觉系统的研究成果表明,感知不仅是对外界刺激的被动反映,而更应是有目的有选择地主动搜索感兴趣信息的过程,主动视觉认为在视觉信息获取过程中,应更主动地调整摄像机的参数如方向、焦距、孔径等并能使摄像机迅速对准感兴趣的物体。更一般地,它强调注视机制( At t ent ion) , 强调对分布于不同空间范围和时间段上的信号采用不同的分辨率有选择性地感知,这种主动感知既可在硬件层上通过摄像机物理参数的调整实现,也可以在基于被动摄像机的前提下,在算法和表示层上通过对已获的数据有选择性地处理实现。同时,主动视觉认为不基于任何目的的视觉过程是毫无意义的,必须将视觉系统与具有的目的(如导航、识别、操作等)相联系,从而形成感知/作用环( P ercept io n/ Act ion Cycle) 。目前, 目的视觉研究中极具吸引力的研究领域有以下几个方面:选择注意