立体视觉匹配.

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

立体视觉匹配

4分

开放分类:人工智能图像处理计算机视觉

收藏分享到顶[2]

目录

• 1 背景

• 2 发展与现状

• 3 问题描述

•展开全部

摘要纠错编辑摘要

立体视觉匹配(Stereo Correspondence)的目标是从不同视点图像中找到匹配的对应点。

立体视觉匹配(Stereo Correspondence)是计算机视觉中的一个重要而又非常困难的问题,它的目标是从不同视点图像中找到匹配的对应点。

立体视觉匹配- 背景

人类的双目立体视觉系统是一个非常智能的系统。场景中的光线在人眼这个精密的成像系统中被采集,通过神经中枢被送入包含有数以亿计的神经元的大脑中被并行的处理,得到了实时的高清晰度的准确的深度感觉信息。凭借着大脑的智能与人类的知识,即使是高度近视的人,在摘掉眼镜之后仍然能够得到比较准确的深度感。这样智能的系统,使得人类对环境的适应能力大大提高,很多复杂的动作能够得以完成:如行走、体育运动、驾驶车辆以及进行科学实验等。

相比之下,机器的立体视觉系统则要落后得多。相机采集到的图像数据中可能存在较大的噪声,相机参数也有可能不对称;用于处理图像的计算机大部分还是冯~$\cdot$~诺依曼结构的串行计算机,处理能力与人脑相差甚远。计算机视觉的研究历史也不长:上世纪七十年代末之前的视觉研究主要集中于生理学和心理学上;在大卫·马尔提出了视觉计算模型以后,人们才慢慢的开始利用计算机和数学模型进行视觉处理。早期的立体视觉,由于受限于硬件条件,只能对图像上的特征点进行匹配,得到离散点的深度信息。然而,计算机硬件的发展非常迅速,正如摩尔定律所指出的,每 18 个月,计算机的硬件价格就下降一半,而性能则提高一倍。当计算机的处理能力不断提高的时候,人们开始尝试计算整幅图的稠密对应关系,同时也开始采用一些更加复杂更加准确的数学工具进行计算。

当前计算机立体视觉的水平与人类的双目视觉水平还相距甚远,对它的研究仍然是一个非常活跃的领域。大量的学校、公司以及研究机构的研究人员仍然在进行着对计算机立体视觉的研究,这是因为计算机立体视觉与人眼立体视觉相比,主要有以下不可替代的优点:

* 精度高。人眼的立体感知能力虽然很强,能够很轻松的正确判断出两个物体的深度顺序,但是却无法得到其精确的距离信息。然而,使用计算机立体视觉,通过精确的标定,使用合适的计算方法,在匹配正确的情况下可以得到非常精确的深度和位置等数值信息,这使得机器人的精密控制、三维模型重建等工作可以更好的完成。

* 扩展能力强大。由于计算机硬件和软件不像人类的器官那样不可改变,计算机立体视觉可以从各个方面对其进行扩展,以满足不同应用的需求。首先,计算机立体视觉并不限于双目视觉,很多系统使用了三相机、多相机甚至相机矩阵采集图像。相机的摆放方式除了类似人眼的水平摆放,还可以采用垂直摆放、环绕摆放以及立体摆放等多种灵活的方式,有一些系统的相机间的关系还可以根据需要进行动态变化。此外,除了可见光,使用特殊的相机,还可以采集到其它各种类型的输入数据,如红外线、核磁共振等。所以说,计算机立体视觉技术具有强大的扩展能力,能够提供比人眼立体视觉系统更丰富的信息。

* 除了以上的两个特点,计算机还具有连续工作时间长、不易损坏、保密性好、没有培训成本、结果易于保存和复制等优点。

由此看来,对于立体视觉匹配的研究,能够大大的增强计算机或机器人对环境的感知能力,使得机器人能够更好的适应环境、更加智能,从而能够更好的为人们服务。

如今立体视觉技术主要应用于如下一些领域:三维环境感知与建模、机器人导航、物体跟踪与检测以及图像分割等。随着立体视觉技术的进一步发展,可能会有更多的领域使用这项技术。

立体视觉匹配-发展与现状

如前所述,计算机视觉起始于大卫·马尔等人提出的视觉的可计算模型。最简单的的匹配算法利用匹配点周围一个固定大小的窗口的灰度分布,在一个可能的视差范围内,通过寻找两个对应窗口图像向量的归一化相关值的最大值得到视差,这一类方法也被称为“区域匹配”方法(Area Matching)。区域匹配的一个假设是空间的平面是所谓的正平面,也就是与相机平面平行的平面,而实际的场景中存在着大量的非正平面,因此人们开始考虑利用一些更有意义的特征点(感兴趣点)来进行匹配,这种方法也被称为特征匹配(Feature Matching)方法,如 Marr和 Poggio 提出了多尺度的匹配算法,利用不同的 Laplacian 过零点以及梯度进行匹配。

立体视觉匹配的另一个挑战在于匹配的歧义性:对于一幅图上的某个像素或特征,另一幅图像可能有若干特征与之相似,如何选择正确的匹配是一个困难而又必须解决的问题。Barn 提出了松弛标号法(Relaxation-Labeling),利用平滑性和投票的策略解决歧义性问题;

Pollard 等人定义了离散视差的视差梯度,通过限制视差梯度减小歧义情况下的错匹配;Marr 和 Poggio 以及 Zitnick 和 Kanade 采用了合作的匹配框架,试图通过多个特征的匹配信息以及唯一性假设来解决歧义。更好的方法是采用全局的方法进行求解,把多个像素或特征的视差求解归一到一个能量框架下。使用了能量优化的框架之后,能量函数的定义和优化变成了两个较为独立的问题,可以分别加以研究和解决。在定义能量函数方面,不同的算法采用不同的匹配信息和不同的先验假设来描述能量函数中的不同部分,通过这些假设把大量的特征联系起来,联合求解以消除歧义。在能量优化方法方面,较传统的有模拟退火(Simulated Annealing)算法、最可靠有限算法等。近些年,基于图切割(Graph-Cuts)和置信度传递(Belief-Propogation)的优化算法逐渐被广泛采用。以上算法的速度都较慢,主要原因在于当平滑函数为一般函数的时候,以上的能量优化函数是一个NP难题。为了提高效率,一些研究人员考虑采用具有低阶多项式复杂度的动态规划算法,此时需要把优化局限于单条扫描线或把多连通的图变成一棵树。

立体视觉匹配-问题描述

图 1:标准配置下双目立体视觉的几何模型和视差的定义。图中 c 和 c' 分别为参考相机和匹配相机的光心, Z 为空间中点 P 的深度,B 为基线长度,视差定义为 P 点在两相机中成像的水平坐标的差值 x - x'。

立体视觉匹配问题的输入为若干不同视角的相机采集的图像,输出是这些图像上的点的对应关系。图 1 为标准配置下双目立体视觉的几何模型。c 和 c' 为两相机的光心,f 为焦距,B 为两光心的连线,也称为基线,过光心且垂直于成像平面的直线称为光轴。所谓标准配置是指两个相机的光轴垂直于基线且互相平行。设两相机的焦距相等,且相机的坐标系的水平坐标与基线方向平行,则空间中的点 P 在两相机上成的像具有相同的竖直坐标,这个特点也叫立体视觉的外极线(Epipolar Line)(所谓的外极线是指外极平面和图像平面的交线,其中外极平面是包含两个焦点和空间点的平面)约束。对于一般配置的相机(如图 2),

相关文档
最新文档