基于立体视觉的三维立体模型全自动拼接方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于立体视觉的三维立体模型全自动拼接方法
胡笑莉;仲思东
【摘要】基于影像的三维立体模型重建时,如何自动地将部分模型拼接成完整模型是个亟待解决的问题.目前关于三维立体模型拼接大多限制在手动取两个模型上的公共点完成拼接.提出一种方法,能够全自动地、快速地、高精度地实现三维立体模型的拼接.与图像拼接类似,三维立体模型拼接也要经过特征点提取、特征点匹配、空间变换三个步骤.值得一提的是,在特征点提取时利用了三维重建时的点云数据、特征点匹配时利用了点与点间距客观不变、空间转换参数RT矩阵计算时提出了仅用四对精匹配点计算等方法,完成三维立体模型全自动、快速、高精度地拼接,拼接精度达到毫米(mm)级.
【期刊名称】《科学技术与工程》
【年(卷),期】2015(015)012
【总页数】6页(P75-80)
【关键词】三维重建;机器视觉;全自动;三维立体模型拼接
【作者】胡笑莉;仲思东
【作者单位】武汉大学电子信息学院,武汉430079;武汉大学电子信息学院,武汉430079;武汉大学测绘遥感信息工程国家重点实验室,武汉430079
【正文语种】中文
【中图分类】TP391.41
摄影测量是从摄影影像和其他非接触传感器系统获取所研究物体，并对其进行记录、量测、分析与应用表达的科学和技术[1]。

摄影测量和遥感学科是地理空间信息学
科的有机组成部分，为数字地球提供实时、动态、全球、廉价而且其他方法都无法取代的空间框架图像及从中导入语义与非语义信息的唯一技术手段[2]。

作为基于
影像的空间信息科学，摄影测量除了将继续在影像城市、虚拟数字地球和地理环境中得到应用之外，还有很大的潜力用于工业制造、医学诊断、文化遗产保护等方面[3]。

本文就是973文化遗产数字化保护项目中，针对建立完整的敦煌莫高窟三维
立体模型提出的解决办法。

三维重建是建立完整的三维立体模型的前期过程。

对真实场景的三维重建一般有两种方法：一是通过三维扫描设备的三维重建技术；二是基于图像的三维重建技术[4]。

由于利用激光扫描费时费力，而且对周围环境的光照要求很高，通常选用第
二种方法。

基于图像的三维重建依此要经过相机标定、三维点云数据获取和简化、曲面重构以及纹理映射这几个步骤[5]。

目前，专业人士已经通过综合利用3S技术以及摄影测量技术，将卫星传输的数据形成数字式三维地球。

但是由于地球范围广，卫星数据传输的延迟性，三维地球模型拼接时的精度只能停留在米(m)级[6]。

而本文是针对某些具体的小范围场景的三维重建，旨在实现快速地、高精度地、全自动拼接出完整的三维立体模型。

只要研究出两个三维立体模型拼接的方法，就可以举一反三，实现多个三维立体模型的拼接。

本文主要介绍两个三维立体模型的自动拼接方法。

三维立体模型的自动拼接体现在自动地提取特征点、自动地匹配特征点、自动地计算RT矩阵。

图1为两个三维立体模型拼接流程图。

三维立体模型是具有图像纹理的，三维立体模型特征点的提取就利用上了图像特征。

图像特征有很多，通常是提取图像角点。

首先在三维立体模型对应的左右两幅图像上提取角点，再将左右图像上的角点匹配起来，计算出该点的空间坐标，也就得到
了需要的特征点。

1.1 图像的角点提取
图像上角点的检测算法历史悠久，且与时俱进，不断改进完善。

较早的有1977年Moravec提出利用灰度方差的Moravec算法[7]，1995年由牛津大学的S. M. Smith和J. M. Brady提出的SUSAN算法[8]，接着Harris等人在Moravec的基础上改进的Harris算法[9,10]，最新崛起的也有SIFT算法[11]等等。

虽然SIFT算法有着尺度不变、稳定等优势[12]；但是由于Harris算法检测速度快，抗噪声抗干扰能力强、检测效果好，而且有函数可以直接调用等等的优点，足够满足本文角点提取的要求，最终选择选择Harris算法。

1.2 图像的角点匹配
角点匹配的精度直接影响了特征点提取的好坏。

为了使得左右图像上角点快速地自动匹配，充分利用上了三维立体模型的点云数据。

三维点云数据包括各个点分别在左右两幅图像上的图像坐标以及它的三维空间坐标。

若左图像的某个角点附近有点云数据，则其在右图像的匹配点必定也在这些点云附近。

确定图像上一个角点的匹配点在另一图像上的搜索区域后，对该区域里的所有角点利用区域相关法计算相似度[13]。

N(i,j)=
式(1)中是相关窗口内所有像素灰度值的平均值：
取相似度Ni,j最大的点，而且Ni,j大于一定域值的点为最终的匹配点。

1.3 特征点空间坐标计算
将一个三维立体模型的左右图像的角点与匹配之后，离该模型特征点的获取就差计算特征点的空间坐标了。

当已知了同一个点在左右两幅图像上的图像坐标，根据相机标定的知识[14]，可以列出以下方程：
根据方程可求出点的空间坐标(X,Y,Z)。

通过特征点的获取得到两个三维立体模型的特征点点集，通过以下两个步骤可以将这两组特征点一一匹配起来。

2.1 粗匹配
粗匹配与特征点获取时的角点匹配一样，都是根据图像的灰度信息进行区域相关法匹配，称之为平面约束。

不同的地方是此处不能在利用三维点云数据确定匹配点的搜索区域，因为两个三维立体模型的三维点云数据都是不相关的。

只能采用遍历法寻找匹配点，这就大大增加了计算时间。

粗匹配之后得到两组点集{pi}{qi}，两点集中的点都是一一对应的。

2.2 精匹配
粗匹配不仅耗时，匹配精度也值得怀疑。

精匹配就是将粗匹配后误匹配点剔除。

精匹配利用的是空间两点距离客观不变这一条件，也称为空间约束法。

点集{pi}里第i点与j点的距离dpipj对应于点集{qi}里两点距离dqiqj误差最小的两对匹配点，即可认为它们分别真实代表着同一个点，当做参考点{pa,pb}、{qa,qb}。

经过实验证明：此处的距离误差用绝对误差较相对误差科学，点的匹配精度只和点的位置有关，与两点距离无关。

判断pi和qi为正确的匹配点的方法是：参考图2，记pi到pj的距离与qi到qj 距离误差为|dpipj-dqiqj|，当|dpipa-dqiqa|和|dpipb-dqiqb|同时小于一定的域值时，则认为pi和qi为正确的匹配点；否则当做误匹配点，从点集{pi}{qi}中剔除。

2.3 匹配精度
为了直观检验两种匹配方法的匹配效果，拟定了一个验证某种方法的匹配精度的表达式：
；(i≠j)
Δ表达的意思是在两个模型上，任意两对匹配点之间的空间距离的绝对误差。

由于距离dpipj、dqiqj的单位均为米(m)，Δ的单位也为米(m)。

Δ越小，精度越高。

计算空间坐标变换系数时，理论上已知四对匹配点对即可。

而此时，已知了远远超过四对匹配点，那是因为每对匹配点都是存在误差的。

传统的方式是利用所有的匹配点对数据，在利用最小二乘[15, 16]、四元组等数学算法，计算出RT矩阵。

在这里提出一种大胆的想法，在所有的匹配点对里，挑选出最合适的四对匹配点来计算RT矩阵。

所谓最合适，得满足三个要求：①四对匹配点匹配精度要高；②四对匹配点在各自的空间坐标系里分布不能太紧密；③四对匹配点在各自的空间坐标系里不能共面。

如何描述匹配点对的匹配精度，这是个问题。

每个点的真实匹配点均是未知的，无法将算法寻找的匹配点与真实点作比较，算出误差，得到精度。

在这里，继续利用上特征点精匹配时的两对参考点{pa,pb}、{qa,qb}，它们之间的距离误差在任意两点中是最小的，认为这两对点是匹配正确的点。

匹配点对的精度可以利用精匹配的判定标准，某对匹配点的匹配精度：
Δi=|dpipa-dqiqa|+|dpipb-dqiqb|
Δi越小，表示匹配精度越高。

如果四对匹配点在各自空间坐标系分布太密集，坐标系变换时旋转误差将被放大，这并不是我们期待的结果。

这时候就得考虑四个点的分布问题。

将点集{pi}与{qi}中的匹配点对按以上匹配精度排序之后，在精度靠前50对匹配点中，组合四对匹配点。

最终取四点最小间距最大的一组用作RT矩阵计算。

对于要求③，四点不能共面。

四点共面概率是很小的，如若真的遇上，RT矩阵是计算不出来的。

同样的，为了直观检验RT矩阵计算出来之后拼接的效果，拟定了一个拼接精度的表达式：
Δ拼
这里不考虑三维立体模型特征点匹配时的误差，认为匹配点对都代表着同一个空间点。

Δ拼越小，拼接精度越高，其单位为米(m)。

实验的硬件环境都是物理内存为2 G、32位Win7系统、奔腾处理器的三星台式电脑，软件环境均为Visual C++6.0平台，利用OpenCv1.0的库函数。

4.1 Harris角点提取
实验处理的是四目测量系统在同一个视角下不同相机拍摄的两幅图像，两图像的像素为6 016×4 000，大小为7 M左右，格式为JPG文件。

匹配的精度和效率很大程度上受特征点提取的影响。

没有必要把不在公共区域的角点掺合进来。

在提取角点前，先选定区域，可以达到事半功倍的效果。

角点提取函数cvGoodFeaturesToTrack()的参数quality_level设定的是0.06，min_distance设定的是20个像素。

图3是图像上的角点提取结果。

图3提取出的角点效果还是比较可观的，像佛像眼角、眉角、嘴角等地方的角点提取的都比较准确。

4.2 角点匹配
在角点提取的基础上，进行角点匹配。

区域相关法的矩形窗口大小为15×15个像素，相似度域值设定为0.8。

图4为二维图像角点匹配结果。

图4中红色的叉点为利用cvGoodFeaturesToTrack()提取出的的特征点，白色叉点为利用三维点云数据匹配好的角点。

从图4可以看出，利用三维点云数据很成功的把两幅图像的角点匹配起来。

肉眼几乎挑不出错误。

4.3 特征点匹配
实验处理的是四目测量系统在不同视角下同一个相机拍摄的两幅图像，两图像的像素为6 016×4 000，大小为7 M左右，格式为JPG文件。

粗匹配时用区域相关法时的窗口大小是15×15，设定的域值是0.8。

图5为利用平面约束和空间约束后特征点的匹配的结果：绿色叉点是导入的三维
立体模型的特征点，而且是未匹配上特征点的，红色叉点为平面约束后的粗匹配点，白色叉点为空间约束后的精匹配点。

肉眼可以定性地看出精匹配精度高于粗匹配，为了进一步定量描述精匹配与粗匹配的差距，在两个三维立体模型提取了三组不同的特征点来匹配，计算式(4)的匹配
精度Δ，进行比较分析。

从表1可以看出，精匹配精度达到了mm，比粗匹配提高了两个数量级。

4.4 三维立体模型拼接
为了具有比较性，分别利用最小二乘法、四元组法、四点法三种方法计算RT矩阵，进行三维立体模型拼接。

图6为两个独立的三维立体模型的点云、三角网格、3D 图；图7为两个模型拼接之后的完整模型。

三种方法计算出的RT矩阵拼接效果用肉眼是看不出差别的。

同样的，分别计算出三种方法的拼接精度[式(6)的Δ拼]，实验结果见表2。

从表2可以看出，三种方法的拼接精度顺序由高至低是：四点法、四元组法、最
小二乘法。

在此，可能便会产生疑问，最小二乘法和四元组法的计算原理就是让误差最小，为什么拼接精度却比不上只用四对点来计算的四点法。

这是一个比较容易走进的误区。

最小二乘和四元组法让误差最小是也就是最小，这和拼接精度Δ拼
并不一样。

所以最后从拼接精度上考虑，选择用四对高精度匹配点对计算RT矩阵完成拼接。

提出了一种新型的对中小范围的真实场景的三维立体模型快速、高精度、全自动的拼接方法。

(1)特征点提取过程中的角点匹配利用三维点云数据，提高速度以及精度。

(2)特征点匹配时利用两点空间距离客观存在条件有效剔除误匹配点，保证匹配精度。

(3)RT矩阵计算时，仅仅利用四对匹配点对，突破常规。

在实验验证中，多次实验，拟定匹配精度和拼接精度表达式，对结果数据计算比较，证明了本文方法的有效性。

【相关文献】
1 万幼川, 刘良明, 张永军. 我国摄影测量与遥感发展探讨. 测绘通报, 2007; 1(1): 1—4
Wan Youchuan, Liu Liangming, Zhang Yongjun. Development of photogrammetry and remote sensing in China. Bulletin of Surveying and Mapping, 2007; 1(1): 1—4
2 李德仁. 摄影测量与遥感的现状及发展趋势. 武汉测绘科技大学学报, 2000; 25(1): 1—6
Li Deren. Towards photogrammetry and remote sensing: status and future development. Geomatics and Information Science of Wuhan University, 2000; 25(1): 1—5
3 李德仁. 摄影测量与遥感学的发展展望. 武汉大学学报(信息科学版), 2008; 33(12): 1211—1215
Li Deren. Development prospect of photogrammetry and remote sensing. Geomatics and Information Science of Wuhan University, 2008; 33(12): 1211—1215
4 陈海波. 高分辨率双目视觉三维重建研究. 杭州: 浙江大学, 2013
Chen Haibo. Research on high-resolution 3-D reconstruction technology based on binocular vision. Hangzhou: Zhejiang University, 2013
5 蔡钦涛. 基于图像的三维重建技术研究. 杭州: 浙江大学, 2004
Cai Qintao. Research of image based 3D reconstruction. Hangzhou: Zhejiang University, 2004
6 Hirano A, Welch R, Lang H. Mapping from ASTER stereo image data DEM validation and accuracy assessment. Journal of Photogrammetry and Remote Sensing, 2003; 57(5): 356—370
7 Moravec H P. Towards automatic visual obstacle avoidance. Proceedings of International Joint Conference on A rtificial Intelligence, Cambridge, MA, USA,1997:584—590
8 Smith S M, Brady J M. SUSAN—a new approach to low level image processing. International Journal of Computer Vision, 1997; 23(1): 45—78
9 Harris C, Stephens M. A combined corner and edge detector. Proceedings of Fourth Alvey Vision Conference, Manchester, UK, 1998: 147—151
10 Shi J, Tomasi C. Good features to track. Computer Vision and Pattern Recognition,1994: 593—600
11 Lowe D G. Object recognition from local scale invariant features. International
Conference on Computer Vision, 1999: 1150—1157
12 Lowe D. Distinctive image features from scale-invariant key points. International Journal on Computer Vision,2004;60(2): 91—110
13 冯宇平, 戴明. 图像快速配准与自动拼接技术研究.北京：中国科学院研究生院, 2010
Feng Yuping, Dai Ming. Research on fast Image registration and automatic mosaic. Beijing: University of Chinese Academy of Sciences, 2010
14 刘勇. 基于图像的空间三维数据获取及建模. 武汉：武汉大学, 2004
Liu Yong. 3D scene acquiring and modeling vased on images. Wuhan: the Wuhan University, 2004
15 Golub G, Van Loan C.An analysis of the total least squares problem.SIAM J.Numer. Anal, 1980; 17: 883—893
16 Golub G.Some modified matrix eigenvalue problems.SIAM Review, 1973; 15: 318—344。