立体视觉

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第十九章立体视觉

1. 引言

2. 双目立体视觉(Binocular Stereo Vision)

2.1 双目立体视觉模型

2.2 匹配基元

2.3 匹配算法

2.4 双目立体视觉系统

3. 结构光方法(Structured Light)

4. 激光雷达与程距数据(Range Data)处理

5. 视觉临场感系统

作业

1. 引言

立体视觉是计算机视觉领域的一个重要课题，它的目的在于重构场景的三维几何信息。立体视觉的研究具有重要的应用价值，其应用包括移动机器人的自主导航系统，航空及遥感测量，工业自动化系统等。

一般而言，立体视觉的研究有如下三类方法:

(1) 直接利用测距器（如激光测距仪）获得程距（range data）信息，建立三维描述的方法;

(2) 仅利用一幅图象所提供的信息推断三维形状的方法;

(3) 利用不同视点上的，也许是不同时间拍摄的，两幅或更多幅图象提供的信息重构三维结构的方法。

第一类方法，也就是程距法(range data method)，根据已知的深度图，用数值逼近的方法重建表面信息，根据模型建立场景中的物体描述，实现图象理解功能。这是一种主动方式的立体视觉方法，其深度图是由测距器(range finders)获得的，如结构光(structured light)、激光测距器(laser range finders) 等其他主动传感技术(active sensing techniques)。这类方法适用于严格控制下的环境(tightly controlled domains)，如工业自动化的应用方面。

第二类方法，依据光学成象的透视原理及统计假设，根据场景中灰度变化导出物体轮廓及表面，由影到形(shape from shading)，从而推断场景中的物体。线条图的理解就是这样的一个典型问题，曾经引起了普遍的重视而成为计算机视觉研究领域的一个焦点，由此产生了各种各样的线条标注法。这种方法的结果是定性的，不能确定位置等定量信息，该方法由于受到单一图象所能提供信息的局限性，存在难以克服的困难。

第三类方法，利用多幅图象来恢复三维信息的方法，它是被动方式的。根据图象获取方式的区别又可以划分成普通立体视觉和通常所称的光流(optical flow)两大类。普通立体视觉研究的是由两摄像机同时拍摄下的两幅图象，而光流法中研究的是单个摄像机沿任一轨道运动时顺序拍下的两幅或更多幅图象。前者可以看作后者的一个特例，它们具有相同的几何构形，研究方法具有共同点。双目立体视觉是它的一个特例。

立体视觉的研究由如下几部分组成:

(1) 图象获取(image acquisition),

用作立体视觉研究的图象的获取方法是多种多样的，在时间、视点、方向上有很大的变动范围，直接受所应用领域的影响。立体视觉的研究主要集中在三个应用领域中，即自动测绘中的航空图片的解释，自主车的导引及避障，人类立体视觉的功能模拟。不同的应用领域涉及不同类的景物，就场景特征的区别来分，可以划分成两大类，一类是含有文明特征(cultural

features)的景物，如建筑、道路等; 另一类是含有自然特征的景物和表面(natural objects and surfaces)，如山、水、平原及树木等。不同类的景物的图象处理方法大不相同，各有其特殊性。

总之，与图象获取相关的主要因素可归纳如下:

(a) 场景领域(scene domain)，

(b) 计时(timing)，

(d) 成像形态（包括特殊的遮盖）(photometry (including special coverage)),

(e) 分辨率(resolution),

(f) 视野(field of view),

(g) 摄像机的相对位置(relative camera positioning).

场景的复杂程度受如下因素的影响:

(a) 遮掩(occlusion),

(b) 人工物体（直的边界,平的表面) (man-made objects (straight edge, flat surfaces)),

(d) 含有重复结构的区域(areas containing repetitive structure)。

(2) 摄像机模型(camera modeling),

摄像机模型就是对立体摄像机组的重要的几何与物理特征的表示形式，它作为一个计算模型，根据对应点的视差信息，用于计算对应点所代表的空间点的位置。摄像机模型除了提供图象上对应点空间与实际场景空间之间的映射关系外，还可以用于约束寻找对应点时的搜索空间，从而降低匹配算法的复杂性，减小误匹配率。

(3) 特征抽取(feature acquisition),

几乎是同一灰度的没有特征的区域是难以找到可靠匹配的，因而，绝大部分计算机视觉中的工作都包括某种形式的特征抽取过程，而且特征抽取的具体形式与匹配策略紧密相关。在立体视觉的研究中，特征抽取过程就是提取匹配基元的过程。

(4) 图象匹配(image matching),

图象匹配是立体视觉系统的核心，是建立图象间的对应从而计算视差的过程，是极为重要的。

(5) 深度计算(distance(depth) determination),

立体视觉的关键在于图象匹配，一旦精确的对应点建立起来，距离的计算相对而言只是一个简单的三角计算而已。然而，深度计算过程也遇到了显著的困难，尤其是当对应点具有某种程度的非精确性或不可靠性时。粗略地说，距离计算的误差与匹配的偏差成正比，而与摄像机组的基线长成反比。加大基线长可以减少误差，但是这又增大了视差范围和待匹配特征间的差别，从而使匹配问题复杂化了。为了解决这一问题出现了各种匹配策略，如由粗到精策略，松驰法等。

在很多情况下，匹配精度通常是一个象素。但是，实际上区域相关法和特征匹配法都可以获得更好的精度。区域相关法要达到半个象素的精度需要对相关面进行内插。尽管有些特征抽取方法可以得到比一个象素精度更好的特征，但这直接依赖于所使用的算子类型，不存在普遍可用的方法。

另一种提高精度的方法是采用一个象素精度的算法，但是利用多幅图象的匹配，通过多组匹配的统计平均结果获得较高精度的估计。每组匹配结果对于最后深度估计的贡献可以根据该匹配结果的可靠性或精度加权处理。

总之，提高深度计算精度的途径有三条，各自涉及了一些附加的计算量:

(a) 半象素精度估计(subpixel estimation),