多目视觉测量技研究文献综述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

多目视觉测量技术开题报告

第一章绪论

1.1研究背景和意义

多目视觉测量技术是计算机视觉技术的一个较小的研究分支。随着计算机运算能力的提高和图像采集成本的下降，计算机视觉技术发展越来越成熟，应用日益广泛。多目视觉测量技术通俗来讲，就是通过处理从多个角度采集的图像，获得场景的深度信息，进而用于三维场景的重建，构建三维立体模型。其中，基于双目视觉的测量理论尤为成熟，理解了双目视觉，可推及多目视觉技术。本文也将重点放在双目视觉技术的研究上。

多目视觉测量技术相对于一般测量技术具有非接触，高进度，高效率，自动化程度高的特点，具有非常广阔的应用前景。随着机器人技术产业的爆发增长，机器人具有了非常灵活的运动控制系统，但机器人大多依赖于既有程序，对周围环境的感知能力几乎为零。机器人迫切需要像人类一样的双眼去感知外界环境，多目视觉技术正好填补了这项空缺。

首先，多目视觉测量技术在导航中应用广泛。如无人机，Google的无人驾驶汽车都是通过采集图像来获取大量的环境信息，进而用于机器的行为控制。这项技术已经很成熟了，如美国卡梅隆大学的Navlab智能车的RALPH视觉系统，德国联邦大学的VaMoRs的BVV视觉系统，百度的无人车研究团队的导航系统也是基于计算机视觉技术。

虚拟现实被认为是下一个朝阳产业，以3D眼睛为代表的一系列虚拟现实设备也融入了多目视觉技术，由此通过平面图像的处理，使人产生3D感觉。增强现实技术是虚拟现实技术的升级版，其中对于真实环境信息的获取，3D立体环境的重建都是多目视觉测量系统的具体应用。

当今很火的3D打印技术也不例外，只需用户提供从不同角度拍摄的照片，机器就能自动生成对应的三维模型并打印出来，当然，此项技术构建的三维模型不是很精确，对拍摄的照片有较高的质量要求。我们可以应用软件感受一下，比如Google的photoscan，smart3D，Autodesk 123D Catch等。

多目视觉技术的从原理上理解较为简单，可用三角测距的原理概况，难点在于每幅图像上有上亿的像素点，三维重建技术是基于若干幅图像上的像素基于匹配而得到相应的深度信息。所以图像匹配算法直接决定了三维重建能否成功，是多目视觉测量技术的关键一步。由此也发展出了很多匹配算法，如区域匹配（也叫稠密匹配），特征匹配（也加稀疏匹配），相位匹配，在后文我会做相应的介绍。

1.2双目立体视觉技术

立体视觉是计算机视觉中的一个重要分支，一直是计算机视觉研究的重点和热点之一，它直接模拟了人类视觉处理景物的方式，可以在多种条件下灵活地测量景物的立体信息，其作用是其他计算机视觉方法所不能取代，对它的研究，无论是从视觉机理角度还是在工程应用中都具有十分重要的意义。本文主要研究基于双目立体视觉的测量技术。

一个比较典型的双目立体视觉检测系统一般以计算机为中心，由光源系统，双目视觉传感器、高速图像采集系统以及图像处理系统、控制系统等组成。计算机

是整个双目立体视觉检测系统的核心，它除了控制整个系统的各个模块的正常运行外，还承担着视觉检测系统的最后结果运算和输出。由图像采集系统输出的数字图像可以直接传输到计算机，由计算机采用纯软件方式完成所有的图像处理和其它计算。如果纯软件处理不能满足视觉检测系统的要求，则需要专用硬件处理系统，如数字信号处理器(DSP)或者FPGA等设计的全硬件处理器，它可以实时高速完成各种低层次的图像处理算法，减轻计算机的负荷，提高整个系统的速度。因此一个实用的双目立体视觉检测系统的结构、性能、处理时间和价格等都必须根据具体应用而定。

视觉传感器是整个视觉系统信息的直接来源，它的主要功能是获取视觉系统要处理的两幅最原始图像。最为常用的图像传感器是面阵或线阵CCD摄像机，它们具有高分辨率、高灵敏度、可靠性好、几何畸变小、无图像滞后和图像漂移等优点，是在线测量应用中非常适宜的图像传感器。图像采集系统由专用视频解码器、图像缓冲器以及控制接口电路组成。它可以实时地将视觉传感器获取的模拟视频信号转换为数字图像信号，并将图像直接传输给计算机进行显示或处理，或者将数字图像传输给专用图像处理系统进行视觉信号的实时前端处理。随着专用视频解码芯片和FPGA的出现，现在的大多数高速图像采集系统由少数几个芯片就可以完成。图像采集系统与计算机的接口采用工业标准总线，如ISA总线，VME总线或者PCI总线等。使得图像采集系统到计算机的实时图像数据传输成为可能。

1.3国内外的研究现状

计算机视觉作为一个新的交叉学科的是近三四十年前的事，由于其重要性，其发展非常迅速。公认的第一个提出相对完善的视觉理论框架的是Marr教授。20世纪80年代，国外的计算机视觉理论框架基本形成，基础理论趋于完善。我国由于早期计算机设备和理论的欠缺，研究较少。进入90年代后，由于计算机的普及和国民应用的需求，国家对计算机视觉技术格外重视，投入了很多的财力物力，该领域产生了很多的研究成果。近十年，我国与美国，日本在该领域的差距显著缩小，产生了大量相关论文，但在算法及软件实现上还有很大差距。

视觉测量技术的基本流程大致为1）图像采集，2）图像先期处理，3）图像后期处理，4）信息及数据输出。其中，随着技术发展，相机的硬件成本越来越低，图像采集的精度越来越高，降级了视觉测量技术的研究门槛。相机传感器主要分为CCD和CMOS，CCD的成像质量很高，但CMOS具有较低的成本优势，质量也在逐步提高。图像先期处理主要为图像的增强与滤波，便于机器或人工对图像的观察，分析和后处理，可以应用MATLAB等。后期处理则主要基于一定的算法进行大量计算，常用openCV，openGL等。最后得到计算结果并输出。

从开始的图像识别，到单目视觉，再到多目视觉技术的发展历程看，采集的图像信息越来越多，处理的图像计算量越来越大、算法越来越复杂，得到的信息也越来越丰富。MIT的人工智能实验室的计算机世视觉技术研究始终走在世界前列，而国内的研究更加偏重于应用，如人脸识别，唇语识别，应用于机器人上的多目视觉测量技术更是研究热点。

上海交通大学的张秀彬和应俊豪教授及其团队在计算机视觉领域研究很深，发表了很多论文，并申请了一系列发明专利。我详细的阅读了张秀彬和应俊豪教授的很多专著和论文，虽然有一些理论和方法很难理解，但对于计算机视觉有了较好的理解。

国内外的研究重点在于基于图像的匹配算法。由于图像的分辨率，色彩等存在巨大差异，同一种匹配算法可能对于甲图像具有很好的匹配效果，对于乙图像则