南昌航空大学计算机视觉研究所
二维序列图像重建三维图像中的拼接与融合方法
by
Jiping Wu
ቤተ መጻሕፍቲ ባይዱ
Under the Supervision of Prof. Zetao Jiang
School of information and engineering Nanchang Hangkong University, Nanchang, China
June,2013
摘 要
在基于序列图像的动态目标跟踪与特征匹配方面,国内外已开展了不少研 究,也取得了不少进展,但其研究内容都集中于平面图像拼接与融合,尽管平面 图像拼接与融合方法可为三维立体拼接与融合起到一定的借鉴作用,但并不能直 接用到不同尺度下的立体图像拼接与融合,其技术与方法也有很大不同。本文围 绕二维序列图像重建三维图像中的拼接与融合方法展开研究,主要完成了以下工 作: 1.在阅读国内外有关二维序列图像重建三维图像中的拼接与融合方法文献的 基础上,总结了该技术的国内外研究现状。 2.阐述了图像拼接融合技术的基本理论和常用算法。包括数字图像拼接融合 的基本流程,图像配准常用的算法,消除误匹配的算法,图像融合中常用的算法 等,并通过实验对这些算法进行说明。 3. 在理解图像畸变校正原理、SIFT 特征匹配和 RANSAC 算法的基础上,提出 一种改进的图像拼接方法,该方法采用 SIFT 特征匹配算法以解决畸变图像的拼接 问题。首先改进校正算法;然后对图像进行 SIFT 特征提取、特征初匹配,在初匹 配的基础上改进 RANSAC 算法,消除误匹配;最后,在提出的方法基础上进行两组 实验,通过对比实验,分析实验结果,对提出的方法进行验证。 4. 基于 Harris 角点检测方法, 提出一种基于重叠区域结构特征的重复纹理图 像拼接方法。该方法首先对图像序列提取 Harris 角点特征,对角点特征进行初匹 配;然后基于重叠区域匹配点构建多边形区域,对多边形区域结构特征匹配,并 确定重叠区域拼接宽度,依此来实现精确匹配。最后基于此方法进行实验,对实 验结果进行展示和分析。
计算机视觉中的目标跟踪与姿态估计算法
计算机视觉中的目标跟踪与姿态估计算法计算机视觉(Computer Vision)是一门研究如何使机器“看”的科学与技术,它旨在通过模拟人类视觉系统,使计算机能够理解和解释图像和视频数据。
在计算机视觉领域中,目标跟踪(Object Tracking)和姿态估计(Pose Estimation)是两个重要且紧密相关的问题,涉及到许多重要的应用领域,如自动驾驶、视频监控、增强现实等。
目标跟踪是指在一个视频序列中,识别和定位特定目标的过程。
在目标跟踪中,我们需要判断目标的位置、大小、形状以及目标和背景之间的关系。
目标跟踪算法可以分为基于特征的方法和基于深度学习的方法。
基于特征的方法主要利用目标的颜色、纹理、形状等特征,通过计算目标与背景之间的相似性来进行跟踪。
而基于深度学习的方法则通过神经网络从大规模的标注数据中学习目标的表示,并利用学到的表示来进行目标跟踪。
常用的深度学习模型包括卷积神经网络(Convolutional Neural Network,简称CNN)和循环神经网络(Recurrent Neural Network,简称RNN)。
姿态估计是指从一个或多个输入图像中估计或恢复出目标的姿态信息,如位置、角度、形状等。
姿态估计是计算机视觉中的一个经典问题,其在许多应用场景中都具有重要的意义。
姿态估计算法可以分为基于模型的方法和基于深度学习的方法。
基于模型的方法通常通过建立目标的几何模型、运动模型或统计模型,利用图像特征与模型之间的匹配程度来估计目标的姿态。
而基于深度学习的方法则通过神经网络从大量的标注数据中学习目标的姿态信息,并利用学到的表示进行姿态估计。
常用的深度学习模型包括卷积神经网络(CNN)和生成对抗网络(Generative Adversarial Network,简称GAN)。
近年来,随着深度学习技术的快速发展,越来越多的基于深度学习的目标跟踪与姿态估计算法被提出。
这些算法通过深度神经网络的优秀特性,如自动学习、高鲁棒性、良好的泛化能力等,在目标跟踪与姿态估计任务上取得了令人瞩目的成果。
基于光流的动态背景运动目标检测算法
1 H S光 流 法
光 流算 法通 常 假 定 : 与j 维 空 间物 体 点 对 应 的
亮 目标 检测算 法 。基 于 运动 补偿 的算 法通 过 对连 续 两 图像 点及 其邻 域 的灰 度 值在 运 动 中保 持 不 变 ( 度
。设 I , , 为 三 维 空 间某 点 t 刻 在 某 ( Yt ) 时 帧 中的一 帧做 运 动 补偿 , 动 态 背 景 转 换 为 静 态 背 守 恒 ) 将
-d 时 - 景 , 利用 帧 间 差 分 法 提 取 运 动 目标 区域 。该算 法 像 投影 的灰度 值 , I t 刻该 点 在 新 的 图像 中 的位 再
+ Y十 , 有 的有效 性很 大 程 度 上 取 决 于运 动补 偿 的准 确 性 , 而 置 为 ( , )根 据 以上假 设 , : 且 帧 间差 分后 只 能 得 到 运 动 目标 的边 缘 , 不 能 得 并
poe esedo edt t nfr oigojc adifstes rsrelnewt teP n Thcm r. rvdt p e fh e ci v bet n t h ma uviac i a/ i a ea h t e oo m n t i t l hh
字 塔 L _ 光 流法 通常 只计 算稀 疏 点光 流 , K9 运算 速度 较 快 , 用于 运 动 目标 检测 时无 法 提取 完 整 的 目标 。 但
将 () 2 式两 边 同除 d, 到 光流 约束 方程 : t得
O I
+ +
甏o :
( 3 )
光 流 约束 方程 的求 解 是 一 个 “ 态 ” 病 问题 , 须 必
S p 2 1 e 0 1
Vo 5 I2 N0 3
计算机视觉技术在航天领域中的实际应用方法
计算机视觉技术在航天领域中的实际应用方法计算机视觉技术是一门通过计算机和相机等图像传感器来模拟和实现人类视觉的技术,其在航天领域中具有广泛的应用。
航天领域对于高精度、高效率以及可靠性的要求非常高,计算机视觉技术的应用为航天任务的执行提供了强大的支持。
本文将介绍计算机视觉技术在航天领域中的几个实际应用方法。
首先,计算机视觉技术在目标检测和识别中的应用非常重要。
在航天任务中,识别和跟踪特定目标是非常关键的,例如探测和识别行星、卫星或者太空垃圾等。
计算机视觉技术可以通过利用图像处理、特征提取和模式识别等方法,自动检测和识别目标,减少人工介入的需要,提高航天任务的效率和精确度。
其次,计算机视觉技术在航天任务中的导航和定位方面也有广泛的应用。
航天器在执行任务时需要实时获取自身的位置和姿态信息,以便准确地进行导航和定位。
计算机视觉技术可以通过图像处理和目标检测等方法,使用摄像头等传感器获取到的图像数据,进行特征匹配和三维重建,从而实现航天器的自主导航和精确定位。
此外,计算机视觉技术还在航天任务中的遥感数据分析和处理中发挥关键作用。
航天器可以通过遥感仪器获取到地球表面的图像和其他类型的数据,这些数据对于天气预报、环境监测和资源调查等方面具有重要意义。
利用计算机视觉技术,可以对遥感数据进行图像处理、特征提取和数据分析,从而提取有用的信息,并帮助科学家和决策者做出有效的决策。
最后,计算机视觉技术在航天任务中的无人飞行器和机器人系统中也得到了应用。
无人飞行器和机器人在航天任务中扮演着重要的角色,它们可以执行一些危险、繁杂或者需要高精度操作的任务。
计算机视觉技术可以使无人飞行器和机器人具备环境感知、自主导航和目标识别等能力,从而实现自主作业和协同工作。
综上所述,计算机视觉技术在航天领域中的实际应用方法包括目标检测和识别、导航和定位、遥感数据分析和处理,以及无人飞行器和机器人系统等方面。
这些应用方法使得航天任务的执行更加高效、精确和可靠。
基于体密度变化率的点云多平面检测算法
C 0DEN J YI I DU
h t t p : / / w w w. j o c a . c n
d o i : 1 0 . 3 7 2 4 / S P . J . 1 0 8 7 . 2 0 1 3 . 0 1 4 1 1
点云几何统计特征的 多平 面检测 算法。该方法首先根据体 密度 变化率 对点云进行粗 分割 , 然后利 用 多元 随机抽样 一
致性算法( Mu l t i — R A N S A C ) 进 行 多平 面 拟 合 , 最 后 提 出 了一 种 新 的合 并 约 束 条 件 对 拟 合 的 初 始 平 面 进 行 优 化 合 并 。 实
基 于体 密 度 变 化 率 的点 云 多 平面 检 测 算 法
储 琚’ , 吴 侗, 王 璐
( 南昌航 空大学 计算机视觉研究所 , 南昌 3 3 0 0 6 3 ) (}通信作者 电子 邮箱 c h u j u n 9 9 6 0 2 @1 6 3 . t o m )
摘
要: 针 对以往 点云 多平 面检测算 法运 算时间长、 检测 结果的准确 性 易受噪 声影响这 一 问题 , 提 出了一种基 于
J o u r n a l o f Co mp u t e r Ap p l i c a t i o n s
I SS N 1 0 01 . 9 081
2 01 3— 0 5. 01
计 算机 应用, 2 0 1 3 , 3 3 ( 5 ) : 1 4 1 1—1 4 1 5 , 1 4 1 9
Mu l t i - pl a ne de t e c t i o n a l g o r i t h m o f po i n t c l o ud s ba s e d o n v o l um e de n s i t y c ha ng e r a t e
基于空洞卷积与多尺度特征融合的室内场景单图像分段平面三维重建
传感技术学报CHINESE JOURNAL OF SENSORS AND ACTUATORS Vol.34No.3 Mar.2021第34卷第3期2021年3月Piecewise Planar3D Reconstruction for Indoor Scenes from a Single Image Based on Atrous Convolution and Multi-Scale Features Fusion*SUN Keqiang,MIAO Jun*9JIANG Ruixiang,HUANG Shizhong,ZHANG Guimei (Computer Vision Institute of Nanchang Hongkong University,Nanchang Jiangxi33Q063f China)Abstract:It is hard for pixel-level and regional-level3D reconstruction algorithms to recover details of indoor scenes due to luminous changes and lack of texture.A piecewise planar3D reconstruction method is proposed based on the convolution residual connection of the holes and the multi-scale feature fusion network.This model uses the shallow high-resolution detail features generated by the ResNet-101network with the added hole convolution to reduce the loss impact of spatial information as network structure deepens on the detail reconstruction,so that this model can learn more abundant features and by coupling positioning accuracy optimized by the fiilly connected conditional random field(CRF)with the recognition ability of deep convolutional neural network,which keeps better boundary smoothness and details・Experimental results show that the proposed method is robust to the plane prediction of indoor scenes with complex backgrounds,the plane segmentation results are accurate,and the depth prediction accuracy can reach92.27%on average.Key words:3D reconstruction of indoor scene;deep convolutional neural network;conditional random field;atrous convolution;multi-scale feature fusionEEACC:6135;6135E doi:10.3969/j.issn.l004-1699.2021.03.012基于空洞卷积与多尺度特征融合的室内场景单图像分段平面三维重建*孙克强,缪君*,江瑞祥,黄仕中,张桂梅(南昌航空大学计算机视觉研究所,江西南昌330063)摘要:受光照变化和纹理缺乏等因素的影响,基于单幅室内场景图像的像素级和区域级三维重建算法很难恢复场景结构细节。
特征融合自适应目标跟踪
特征融合自适应目标跟踪钟国崇;储珺;缪君【摘要】经典视觉单目标跟踪方法通常以单特征描述被跟踪的目标.但在实际场景中,目标因受外界因素如光照或自身变化如形变的影响而发生变化.为了更好地描述目标,首先引入HOG特征和CN特征,利用传统的特征提取方法,训练得到各自的相关滤波器;然后与各自特征相关滤波得到各自的响应图;最后采用实际响应与期望响应的差值法求得各自响应图的权重,将其与各响应图自适应融合得到目标的最终位置,并自适应更新各自的模型.实验选取公共数据集OTB2013的34个彩色视频帧序列对不同算法进行定性和定量地分析和论证.相比效果最好的DSST算法,平均中心误差减少了7.8像素,成功率提高了1.2%,精度提高了2.3%.实验结果表明该算法具有较好的跟踪鲁棒性和准确性.【期刊名称】《图学学报》【年(卷),期】2018(039)005【总页数】6页(P939-944)【关键词】目标跟踪;相关滤波;权重;特征融合;模型自适应更新【作者】钟国崇;储珺;缪君【作者单位】南昌航空大学计算机视觉研究所,江西南昌 330063;南昌航空大学计算机视觉研究所,江西南昌 330063;南昌航空大学计算机视觉研究所,江西南昌330063【正文语种】中文【中图分类】TP391视觉目标跟踪是计算机视觉领域中一个非常具有挑战性的工作,其应用十分广泛,如视频的监控、智能机器人、虚拟现实等,但实际应用中仍面临光照、形变、尺度等多因素造成的跟踪不稳定的困难[1-2]。
目标跟踪可分为传统方法、相关滤波、深度学习3种方法,基于相关滤波的跟踪方法具有跟踪速度快的优势,因此得到了广泛的研究[3-6]。
BOLME等[4]使用原像素特征作为MOSSE(minimum output sum of squared error)滤波器的输入,其跟踪精度和速度均优于其他的滤波器;文献[5]通过加入核函数进一步提升了跟踪的精度,但是却降低了跟踪的速度;文献[6]进一步利用目标分块单元对梯度进行统计得到了HOG(histogram of oriented gradient)特征,其不仅包含了目标原灰度图的原像素信息,还包含了目标纹理的信息,这使目标跟踪精度大幅度的提升;文献[7]将目标在RGB空间的颜色特征转化为CN(color names)空间的11维颜色特征,其可以准确而稳定地处理丰富的颜色特征,因此用提取到的CN特征训练出来的滤波器更具鲁棒。
一种分步的融合 时空信息的背景建模
图1
Fig. 1
融合时空信息的背景模型算法框图
Flowchart of background subtraction by fusion spatio-temporal information
4期
储珺等: 一种分步的融合时空信息的背景建模
第 40 卷 第 4 期
2014 年 4 月
自 动 化 学 报
ACTA AUTOMATICA SINICA
Vol. 40, No. 4 April, 2014
一梅 1 汪凌峰 2
摘 要 自然场景中的光照突变和树枝、水面等不规则运动是背景建模的主要困难. 针对该问题, 提出一种分步的融合时域 信息和空域信息的背景建模方法. 在时域, 采用具有光照不变性的颜色空间表征时域信息, 并提出对噪声和光照突变具有较好 适应性的码字聚类准则和自适应背景更新策略, 构造了对噪声和光照突变具有较好适应性的时域信息背景模型. 在空域, 通过 采样将测试序列图像分成两幅子图, 而后利用时域模型检测其中一幅子图, 并将检测结果作为另一幅子图的先验信息, 同时采 用马尔科夫随机场 (Markov random field, MRF) 对其加以约束, 最终检测其状态. 在多个测试视频序列上的实验结果表明, 本文背景模型对于自然场景中的光照突变和不规则运动具有较好的适应性. 关键词 引用格式
CHU Jun1 YANG Fan1 ZHANG Gui-Mei1 WANG Ling-Feng2 Abstract In a natural scene, it is difficult to create a background model for the presence of illumination variation and irregular motions including waving trees, rippling water, etc. This paper proposes a new stepwise algorithm by fusing spatio-temporal information. In the time domain, we characterize the temporal information in the color space which is invariant to photometric changing. On this basis, we propose a clustering criterion of codeword which is adaptive to noise and illumination variation, and present a novel adaptive background updating strategy. Then a temporal information background model which has a better adaptability to noise and photometric invariants is constructed. In the spatial domain, we first divide the test frame into two sub-images by sampling and then utilize temporal information to detect one of them. Furthermore, we regard the detection results as priori information of the other sub-image and adopt Markov random field to restrict it simultaneously, then detect its state. Extensive experiments are conducted on several test video sequences. Compared with the mixture of Gaussians (MOG), standard codebook model (SCBM), and improved codebook model (ICBM), the results show that out algorithm has better adaptability to the illumination variation and irregular movement in natural scenes. Key words Spatio-temporal background model, foreground detection, Markov random field (MRF), codebook Citation Chu Jun, Yang Fan, Zhang Gui-Mei, Wang Ling-Feng. A stepwise background subtraction by fusion spatiotemporal information. Acta Automatica Sinica, 2014, 40(4): 731−743
采用环形模板的棋盘格角点检测
采用环形模板的棋盘格角点检测储珺;郭卢安政;赵贵花【摘要】Over exposure and camera lens distortion often result in the separation and local area asymmetry of a chessboard corner and the existing chessboard corner detection algorithms can not extract the corner information in such conditions accurately. Therefore, this paper proposed a detecting algorithm based on the circular template under an image coordinate. The symmetry and interchangeability needed by gray distribution of the local area for the chessboard corner were analyzed, and the properties of a convoluted image for the circular template were obtained . On the basis of the properties, the chessboard corner was defined and extracted. Finally, the symmetry of local redundant corner distribution was used to remove the redundant corner to improve the corner detection accuracy and to allowed the extracted accuracy of the corner to sub-pixel level in merely one step by employing the image coordinate. Experiment results show that our algorithm can achieve better results in over exposure and lens distortion both at simple backgrounds and complex scenes, and it is characterized by higher operation speed and smaller errors . Applying proposed algorithm to a camera calibration, a re-projection error less than 0. 3 pixels is obtained.%曝光过度和镜头畸变将分别导致棋盘格角点分离和角点局部区域不对称,现有的角点检测算法难以准确提取棋盘格角点.为此本文提出了一种图像坐标系下基于环形模板的棋盘格角点检测算法.该算法通过分析棋盘格角点附近的灰度分布应满足的对称性和灰度交替性等性质,得出环形模板卷积后的图像应满足的性质.利用该性质来定义并提取棋盘格角点,最后利用局部冗余角点分布的对称性来去除冗余角点,使角点检测更精确从而使提取的角点直接达到亚像素精度.实验结果表明:本文提出的棋盘格角点检测算法在曝光过度,镜头畸变和复杂背景情况下均能取得较好的棋盘格角点检测效果,且运算速度快,误差小.将该算法应用于实际摄像机标定,结果显示重投影误差在0.3个像素以内.【期刊名称】《光学精密工程》【年(卷),期】2013(021)001【总页数】8页(P189-196)【关键词】棋盘格角点;角点检测;环形模板;摄像机标定【作者】储珺;郭卢安政;赵贵花【作者单位】南昌航空大学计算机视觉研究所,江西南昌330063;南昌航空大学计算机视觉研究所,江西南昌330063;南昌航空大学计算机视觉研究所,江西南昌330063【正文语种】中文【中图分类】TP391摄像机标定在机器人导航、三维重建、虚拟现实等研究中具有广泛的应用[1-3]。
基于计算机视觉的行人行为分析与异常检测
基于计算机视觉的行人行为分析与异常检测概述:近年来,随着计算机视觉和深度学习技术的发展,基于计算机视觉的行人行为分析与异常检测在视频监控、智能交通等领域得到了广泛应用。
通过使用计算机视觉算法,可以对行人进行姿态估计、行为分析和异常检测,从而实现对行人活动的自动化和智能化监控。
本文将重点介绍基于计算机视觉的行人行为分析与异常检测的方法和应用。
一、行人姿态估计:行人姿态估计是指通过分析行人的关节点,识别行人的各个身体部位在图像中的位置和姿态。
常用的行人姿态估计方法包括基于关节检测的方法和基于深度学习的方法。
前者主要通过检测行人的关节点,如头、肩膀、手臂和腿部等,然后根据关节点之间的连线关系进行姿态估计。
后者则利用深度学习模型,通过训练大量的行人图像实现精准的姿态估计。
行人姿态估计可以为后续的行人行为分析提供基础数据。
二、行人行为分析:行人行为分析是指对行人在视频序列中的动作和活动进行检测和识别,并对其进行分类和分析。
常见的行人行为分析包括行人跟踪、行人重识别和行人行为建模等。
行人跟踪是指在视频序列中对行人进行目标检测和跟踪,实现对行人的轨迹追踪和位置估计。
行人重识别是指在不同的视频序列中对行人进行再识别,用于识别相同行人在不同场景中的身份。
行人行为建模是指通过分析和学习行人在特定环境中的行为模式,实现对行人行为的预测和分类。
三、行人异常检测:行人异常检测是指对行人在视频监控或智能交通系统中的异常行为进行检测和判断。
常见的行人异常行为包括奔跑、跌倒、聚集和遗留物等。
行人异常检测的关键是建立合适的行为模型和异常判断准则。
传统的方法通常基于手工设计的特征和统计模型来处理行人异常检测问题,而现在,基于深度学习的方法具有更好的性能。
深度学习方法根据大量的标注数据进行训练,通过学习特定环境中正常行人行为和异常行为的差异,实现对行人异常行为的准确检测。
四、应用实例:基于计算机视觉的行人行为分析与异常检测已经在多个领域得到了广泛应用。
双链量子遗传算法的收敛性分析
中圈 分类号: P0 T3I
双链 量 子 遗传 算 法 的收敛 性 分 析
张小锋 ,郑 冉 。 ,睢贵芳 ,李志农 ,杨 国为
( 昌航空大学 a 信息工程学院 ;b 无损检测技术教育部重点 实验室 ,南昌 3 0 6 ) 南 . . 303 摘 要 :基于实数编码和 目标函数梯度信息的双链量子遗传 算法可增 加种群 的多样性、扩大解空问的搜索域 、加速算法的进化 进程 、避 免
间 加 倍 ,以 函 数极 值 问题 和 神 经 网络 权 值 优 化 问 题 为例 ,验
色体,其中,
+l 1 l ,以一个量子比特存储和表达一个 P= 基因, 该基因可以为l 态 , 1态,或它们任意的叠加态。 0 ) 或l )
采用量子概率幅编码可 以获得较好的收敛性 , 随着 或
QG ) 它是一种量子计算理论与进化算法相 结合 的概率搜索 A,
法的性能 、兼有勘探和开采的能力、收敛速度快和全局寻优 能力强的特点 。大部分文献都是用实验结果验证算法 的有效
性 ,稳定性和收敛性 ,对算法收敛性 的理论证 明尚未见诸报 道。本文从理论上研究量子遗传算法 的收敛性问题 。
wo k h o eial r v stec n eg n eo eag rtm ytet o e , n ic se eef cso eq a t r ,te r t lyp o e h o v r e c ft lo i c h h b he rm a d ds u s st fe t ft u num o iga dq a tm o ain h h h c dn n u nu rtto
2 双链量 子遗传 算法
21 量子编码 .
编码是进化优化算法首要解决的问题 ,也是 Q GA 的首 要 问题 。编码 的好坏 直接影 响种群 的进化和进 化运 算 的效 率 。量子 编码一般都采用量子 比特 的概率幅 f , 来编码染 )
基于稀疏点云的多平面场景稠密重建
第41卷第4期自动化学报Vol.41,No.4 2015年4月ACTA AUTOMATICA SINICA April,2015基于稀疏点云的多平面场景稠密重建缪君1,2储珺2张桂梅2王璐2摘要多平面场景是生活中常见的一种场景,然而由于该类场景中常常存在物体表面纹理缺乏和纹理重复的现象,导致从多视图像重建获得的三维点云数据中存在点云过于稀疏甚至孔洞等问题,进而导致以微面片拟合三维点云所得到的重建表面出现平面颠簸现象.针对这些问题,本文提出了一种基于稀疏点云的分段平面场景重建方法.首先,利用分层抽样代替随机抽样,改进了J-Linkage多模型估计算法;然后,利用该方法对稀疏点云进行多平面拟合,来获得场景的多平面模型;最后,将多平面模型和无监督的图像分割相结合,提取并重建场景中的平面区域.场景中的非平面部分用CMVS/PMVS(Clustering views for multi-view stereo/patch-based multi-view stereo)算法重建.多平面模型估计的实验表明,改进的J-Linkage算法提高了模型估计的准确度.三维重建的实验证实,提出的重建方法在有效地克服孔洞和平面颠簸问题的同时,还能重建出完整平面区域.关键词多视重建,三维重建,多模型估计,图像分割引用格式缪君,储珺,张桂梅,王璐.基于稀疏点云的多平面场景稠密重建.自动化学报,2015,41(4):813−822DOI10.16383/j.aas.2015.c140279Dense Multi-planar Scene Reconstruction from Sparse Point CloudMIAO Jun1,2CHU Jun2ZHANG Gui-Mei2WANG Lu2Abstract There are multi-planar scenes everywhere in our daily life.However,given its lack and self-repeat of the texture,there would be problems of over scarcity and holes on the reconstructed point cloud by the method of multi-view reconstruction.Further,there would be vacillation over the reconstructed facades using the method offitting the reconstructed point cloud with miniature facets.To address these problems,we propose a method of piecewise reconstruction of each plane from the sparse point cloud.The proposed methodfirst improves the J-linkage algorithm, with the stratified sampling instead of the random sampling.We thenfit the point cloud with planes using the improved J-linkage algorithm,to obtain the multi-planar model of the scene.Finally,we extract and reconstruct the planar regions with the multi-planar model as well as an unsupervised segmentation algorithm.Besides,the non-planar areas are reconstructed by using the clustering views for multi-view stereo/patch-based multi-view stereo(CMVS/PMVS)algorithm. Experimental results of the multi-planar model demonstrate that the improved J-linkage algorithm can enhance the accuracy of the multi-planar model.Also,the experimental results of3D reconstruction show that our method not only can effectively overcome holes and jaggies problems,but also can model the complete planar regions.Key words Multi-view reconstruction,3D reconstruction,multiple structures estimation,image segmentation Citation Miao Jun,Chu Jun,Zhang Gui-Mei,Wang Lu.Dense multi-planar scene reconstruction from sparse point cloud.Acta Automatica Sinica,2015,41(4):813−822多平面场景是周围环境中常见的一种场景,例如城市建筑、办公室环境、街道等.基于图像或视频重建此类场景在诸如数字地球、虚拟城市以及三维影视与娱乐等方面都有广泛的应用[1−3].收稿日期2014-04-22录用日期2014-10-13Manuscript received April22,2014;accepted October13,2014国家自然科学基金(61263046,61462065),江西省自然科学基金(20122BAB201037)资助Supported by National Natural Science Foundation of China (61263046,61462065)and Natural Science Foundation of Jiangxi Province(20122BAB201037)本文责任编委贾云得Recommended by Associate Editor JIA Yun-De1.南昌大学机电工程学院南昌3300312.南昌航空大学计算机视觉研究所南昌3300631.School of Mechanical and Electrical Engineering,Nanchang University,Nanchang3300312.Institute of Computer Vision, Nanchang Hangkong University,Nanchang330063多平面场景三维重建的方法可分为两大类:过程建模[4−5]和多目立体视觉建模[6−7].过程建模能简练、快速地生成大场景模型,但是由于重建结果是各种基本体素的结合,因此重建结果只是真实场景的近似.多目立体视觉的方法通常根据输入的一组图像或视频,通过求解相机的参数几何结构,来恢复场景表面的三维模型.这类方法的核心内容包含两种技术:从运动信息中恢复场景结构(Structure from motion,SFM)[6,8−10]和多视立体(Multi-view stereo,MVS)[11−13].SFM技术通常基于多视点图像的低层特征(点特征)[6,8]、基本几何结构约束[9] (如平面、长方体等)或二者结合[10]来恢复相机的运动参数和场景结构.Snavely等[8]提出的针对互联网无序照片集的SFM方法能够准确得到相机内、814自动化学报41卷外参数,并获得稀疏的三维场景重建数据.Zhou 等[10]通过检测和跟踪场景中的主平面构建了一个完整的SFM 系统.Furukawa 等[13]提出的CMVS/PMVS (Clustering views for multi-view stereo/patch-based multi-view stereo)算法可将SFM 技术获得的稀疏点云作为种子点输入,利用CMVS 算法根据视角对图像序列进行聚类,再用基于微面片模型的PMVS 算法将种子点向周围扩散得到空间有向点云或面片,并在局部光度一致性和全局可见性约束下完成稠密重建.文献[8,13]的算法通用性强,能适用于多种场景重建,也代表了当前多视图重建所达到的水平[14].然而,多平面场景的图像经常表现出单一、重复的纹理.这些方法在特征匹配过程中都依赖于图像纹理信息,在重复纹理或无纹理的表面缺乏匹配特征,特别是在图像灰度值一致的区域,估计不出深度值,因此重建的模型会出现很多孔洞.另外,在重建平面时,文献[13]的算法由于采用大量微面片组合表示整个平面,重建的平面显的颠簸不平.近年来,常采用分段平面(Piecewise plane)模型拟合多平面场景来解决重建中的孔洞和平面颠簸的问题.这种方法的关键在于提取场景的平面区域.分段平面的重建方法大致可分为两类:1)只利用二维图像信息重建[15−17].这类方法首先要提取图像中的点、线、灭点等特征,然后通过分析它们的拓扑关系提取平面区域.因此,重建的结果依赖于图像特征检测的成功性和精度.2)基于多源信息(包括图像、深度图和三维稀疏点云)重建[18−21].如Sinha 等[18]基于三维稀疏点云和稀疏直线段,首先,估计出场景中存在的平面模型,然后用图割技术从预先给定的深度图中分割出各平面区域.Gallup 等[19]将分段平面重建方法和CMVS/PMVS 方法相结合重建场景,解决实际场景中都会存在的非平面结构.该方法首先对场景中的平面和非平面场景分类,然后使用Multi-RANSAC (Random sample consensus)算法找出给定的深度图中的平面,再用图割技术分割出平面区域,非平面部分仍采用CMVS/PMVS 方法重建.Hane 等[20]提出的方法也利用了深度信息和二维图像分割相结合的方法稠密重建场景.由于深度图对应了图像中完整的平面区域,因此文献[18−20]的算法克服使用点或微面片构建场景模型时出现的孔洞和平面颠簸的现象,但实际应用中获取较大场景的精确的深度图需要很高的成本和计算代价.Toldo 等[21]利用多平面模型估计技术(J-Linkage 算法)从稀疏三维点中估计平面,由于稀疏点云并不能像深度图那样提供完整的平面区域信息,因此用凸集面片来拟合场景模型,但凸集面片不能排除场景真实的空洞区域,而且也容易包含错误区域.本文提出一种将三维稀疏点云的多平面模型估计和无监督的二维图像分割相结合,在不借助深度图的条件下,提取完整的平面区域,分段重建三维多平面场景的方法.提出算法的目的在于克服点或微面片重建时出现的孔洞和平面颠簸现象的同时,还能重建出完整的平面场景.本文算法的流程如图1所示,首先,用SFM 技术[8]获得3D 稀疏点云;然后,基于稀疏点云进行多平面估计.在此步骤中,本文用分层抽样代替随机抽样,对J-Linkage 算法的假设模型的采样做了改进,使估计的结果更准确;接着,将属于同一平面的点作为顶点生成相关邻域图图1重建算法的流程Fig.1Process of our reconstruction approach4期缪君等:基于稀疏点云的多平面场景稠密重建815(Relative neighborhood graph,RNG),并自动生成分割标记,利用测地星形凸性(Geodesic star con-vexity)图像分割算法提取场景中的平面区域;最后,对平面区域进行重建和融合,为保证场景重建的完整性,场景非平面部分用CMVS/PMVS算法重建.1基于改进的J-Linkage算法估计三维平面模型从输入的多视图像中使用SFM技术[8]获得的三维稀疏点云只包含三维坐标信息和颜色向量,若要利用它们进行分段平面重建,则首先要将这些点分配到它们实际对应的场景中的平面之上,即对它们进行多平面模型估计.J-Linkage算法是由Toldo等[22]提出的一种多实例模型估计方法.该算法的基本思想是:属于同一模型实例的数据点会聚类于相似的概念空间.该算法不像Multi-RANSAC[23]算法那样需要预先指定模型数量.J-Linkage算法首先从数据点集合中随机抽取的n个数据点计算假设模型,假设模型的数目即为相似概念空间的维度M,确定一个模型所需的最小数据点个数n即组成一个最小采样集(Minimal sample set,MSS).每个MSS生成之后,可以利用其包含的数据点计算出它的模型实例的假设;然后通过一致集构造用于描述数据点对于每个模型倾向情况的倾向向量;最后对倾向向量自底向上地累计聚类,每次扫描都会将两个具有最小距离的类别合并,最终剩下的每个聚类即为对应的不同模型实例.可见,由抽样点构成的MSS是J-Linkage算法后期聚类的基础.J-Linkage算法对每个模型假设的种子点采取的是随机抽样,这种抽样方式使当属于每个模型实例的点的总数差别很大的时候,假设模型总是在点总数大的模型实例中形成,而总数小的模型实例可能就此丢失.例如,用SFM获得初始点云时,纹理丰富的区域数据点多且密,而纹理稀疏的区域数据点少且稀疏,若J-Linkage运用在此类的点云中估计模型实例时,点分布密度小的模型实例就会丢失,最终得到的是局部最优解.因此,本文采用了一种先聚类后分层抽样的方法使初始点空间变得更均匀,当J-Linkage在这样的点空间运行时,能获得更好的解.具体操作如下:步骤1(K-Means聚类).设一共有N个3D 数据点,每个数据点由归一化后的空间坐标和归一化的颜色值构成向量P i(x,y,z,r,g,b),我们采用经典的K-Means聚类算法将数据点分为K个类,即最小化函数:J=Ni=1Kk=1r ik P i−µk 2(1)其中,r ik在数据点P i被归类到第k类的时候为1;否则为0.µk为聚类k中的数据点的平均值.步骤2(奈曼法分层抽样).将步骤1中获得的K个聚类视为待抽样的K个分层,从各层应抽样本数与该层总体数及其标准差的积成正比.即第h层的应抽样本数为n h=n(N h×σh)Ki=1N i×σh(2)其中,n为样本总数,N h为第h层样本总数,σh为第h层样本方差.由式(2)可知,当某层中样本密度稀疏时,样本方差很大,则被抽取的样本数量会较直接随机抽样大,反之亦然.可见,分层抽样后,每个MSS的空间密度差异减小,那些少而稀疏的模型更易被纳入假设模型.2二维图像的平面区域的分割当用初始点集完成多模型实例的估计,即从点云中提取多个三维平面之后,并不能直接进行三维平面的重建.原因有二:1)平面模型内的三维点间的拓扑关系和场景的平面区域无直接关联,很难构成和真实平面场景一致的空间平面区域;2)每个平面模型实例中只包含该平面区域的部分点,并没有包含实际属于该三维平面对应的二维图像平面区域的所有点,若只用这些少数点去重建平面,则重建的平面区域不完整.本文以属于已检测出的各三维平面包含的数据点为基础,基于测地星形凸集技术自动地分割出每一副图像中的二维平面区域.2.1测地星形凸集测地星形凸集源于Veksler[24]提出的星形凸集.星形凸集的定义为:如果存在y中的点c,使得对于y中的所有p,从c到p的线段也位于y 内,则集合y称为星形凸集,c被称作y的中心点,这样的集合y被称为单星形状,如图2(a)所示.如果将1和0分别标记为前景和背景,则可知,∀p∈Ω:p∈S⇔S p=1,Ω为图像域.在文献[24]方法的基础上,Gulshan等[25]将单星形状扩展到多星形状(图2(b)所示),即将单个中心点c扩展为中心点集合Θ.连接点c与p的线段扩展为连接集合Θ和p的线段的集合ΓΘ,p.定义集合Θ到点p的最短距离(欧氏距离)d(c,p),其可通816自动化学报41卷过求解函数:c(p)=arg minc∈Θd(c,p),ΓΘ,p=Γc(p),p(3)获得.(a)单星凸集(a)Single star-convexity(b)多星凸集(b)Multiple star-convexities图2星形凸集Fig.2Star-convexity2.2测地星形凸集中心集的自动生成文献[24−25]的方法将星形凸集中心集作为形状先验应用于图像分割,但需要人工标记,包括标记前景(中心集)和背景,因此不能实现无监督的分割.另外,利用他们的方法每次只能分割出一个前景目标.为了实现无监督的分割,我们针对单一图像,围绕测地星形中心集合的自动生成和测地星形凸集区域的分割展开研究,并同时分割出多个前景目标.星形凸集中心的自动生成包括前景和背景标记的生成.这些标记以已获得的三维平面包含的数据点为基础来构建.首先,去除数据点集中的外点.J-Linkage算法只利用了数据点的三维坐标信息估计模型实例,所以每个模型实例包含的三维数据点只是属于确定的3D平面,并不确定属于图像中的同一个2D面片区域,这些点可能分布在不同的面片.为使3D平面内包含的三维点只对应于图像的一个平面区域,本文将输入的图像从RGB颜色空间转换到L∗a∗b∗颜色空间,在L∗a∗b∗空间利用K-Means算法对图像进行分割,并对图像像素标记类别:M(X,c)=Npi=1arg minjX i−c j 2(4)其中,X表示图像像素,c为聚类中心,Np为数据点总数.当指定k为类别总数时,则有M(X,c)= 1,2,···,k.然后,对每个估计出的3D平面,将属于它的数据点用SFM所获得的投影矩阵P c投影到二维图像,即u(x,y,1)=P c U(x ,y ,z ,1),并将u(x,y)代入式(4),找出其所属类别:S j(u,c)=1,M(u,c)=j0,其他(5)接着,累计每个类别中的点个数δ=S j(u,c),并将δmax对应的类别中包含的点作为内点,其他的点都作为外点.需要指出的是,δ值会受到类别总数k 的影响.当k值指定过大,则图像分割的区域过多,属于同一区域的点总数便减少,因此δ值变小,这使得后续分割标记过少,最终导致分割不完整,甚至分割错误.同理,k值过小也容易包含分割错误区域.大量的实验表明,k=4∼6是适合的选择.上述得到的离散内点数量过少,并不适合直接作为图像上的前景或背景标记,但注意到这些点已经分别分布在图像的各个平面区域内.因此,遵守两个原则来构建标记:1)同一性,即凸集中心集(前景)只包含属于同一平面区域的点;2)排它性,即当属于某一平面区域的点已用来构建前景,则其他点只用来组成背景标记.假设已估计得到的平面模型数目为m,围绕这两个原则,首先在每个平面区域内建立相关邻近图(Relative neighborhood graph)G i=(V,E),i=1,2,···,m(6)其中,V为该平面区域内的所有内点,该图为一个包含点集V和边集E的无向图,某无向边(u,v)属于该图当且仅当点v和u位于对方的邻域内.在整个图像内,可以获得和之前估计的3D平面数量相等的m个相关邻近图.将每个图的顶点和边所经过的图像像素定义为一个集合O i,生成的这些在分布每一个平面区域的像素点集合O i便作为下一步图像分割所用的中心集.2.3平面区域分割平面区域分割使用和文献[25]类似的方法,利用Graph-cut模型进行分割.和文献[25]不同的是,本文算法可以分割出多个前景区域.在每幅图像分割过程中,依次将像素点集合O i作为前景标记,与此同时将除O i外的其他集合4期缪君等:基于稀疏点云的多平面场景稠密重建817 O j(j=1,2,···,i−1,i+1,···,m)标记为背景.定义能量最小化函数E(L)=p∈ΩE data(L(p))+p,q∈Ne λsmooth E smooth(L(p),L(q))+mi=1E∗i(L)(7)式中,L是星凸集合(前景),Ω是图像像素集合,Ne 是相邻接的像素,E data为数据项,E smooth为平滑项,E∗i(L)表示定义在某平面区域上的星凸集合的能量.能量函数L=arg minL∈S∗(Θ)mi=1E∗i(L)(8)的最小值便对应着图像的最优分割.这里,S∗(Θ)表示以集合Θ作为中心的星凸形状.平面区域的分割虽然是对每幅图像分别进行的,但每幅图像中的相同平面区域在不同图像中的体现是一致的,所以分割后的结果应是全局一致的.但当某一平面模型上实际包含多个平面区域时,平面区域之间的部分也会被纳入分割结果.为了提高分割的精度,本文采取类似文献[13]的方法,利用多视图之间的几何关系,对分割的区域进行一致性检测.首先,将每一个平面划分成一系列小的元胞(Cell),C={ρ1,···,ρc,···,ρr},每一个元胞大小为t×t的像素子块,其中,ρc={ρc11,···,ρctt},ρcij=(u v1)T为像素的齐次坐标.然后,将元胞ρc用单应性矩阵Hπ,Ir投影到参考图像I r;接着,利用图像间的单应性矩阵H Ij ,I r,将其他每幅图像I j上对应的分割区域投影到参考图像I r上.如果平面模型的元胞真实地属于场景平面区域,那么所有投影在图像上的元胞区域应是匹配的.一致性的判断从包含已匹配特征点的元胞开始,逐步向其周围扩散.元胞采用以特征点为中心的8邻域区域.本文通过中心点的归一化互相关(Normalized cross correlation,NCC)条件来判断元胞的匹配,删除不匹配的元胞区域.由于SFM的结果中已获得匹配的特征点对应的图像,因此,围绕元胞的一致性判断并不在所有图像间进行,而只在包含匹配特征的几副图像间进行.3平面与非平面区域的重建本节主要是对场景中平面重建的研究,其中包括两个内容:1)利用前述步骤得到的稀疏重建和场景分割的结果,从单一视点重建三维平面区域;2)利用图像一致性(Photo consistent)对点云进行融合.对于多视重建来说,场景内容通常会在多个视图中都可见,因此需要将从不同视点得到的三维数据进行融合.考虑到长序列图像通常背景复杂、视点杂乱无序,利用传统的融合方法耗时较长,本文采取了一种单向链式的融合算法对不同视点获得的三维数据进行了融合.在多图像的SFM计算中,我们已获得多图像的匹配特征,而且这些二维匹配特征点和已重建的三维数据点是一一对应的.将三维数据点重新投影回图像中,找到对应在各图像平面区域的已被重建的三维数据点.将每个平面区域的三维点构建为凸包(Convex hull).在构建凸包后,只取出其投影在上一节已分割出的2D平面区域内的部分,以便保证三维平面区域和二维平面区域的一致性.由于每一副图像可能包含多个平面区域,若不经过融合而直接将重建出的平面都作为最后重建的结果,则在映射纹理后,整个场景纹理会多处重叠而不能达到真实纹理(Realistic texture)的效果.为了简化计算,本文不采用多视点匹配的方法将所有像素进行匹配,而是依据SFM计算稀疏重建的视点顺序,将位置邻近图像的平面区域融合:假设πi−1、πi 为两个待融合的重建平面,任取一点a∈πi−1,如果至少存在一点b∈πi,使|a−b|<εN i−1,a, N i,b ≤θ(9)成立,则πi中的点保留.接下来再重复上述过程,融合平面πi和πi+1.式(9)中,ε为两点的欧氏距离阈值, N i−1,a和 Ni,b为a和b法向量, ·,· 为两法向量夹角,θ为角度阈值.为重建的完整性,场景中的非平面部分(包括场景中未提取出的平面部分)采用CMVS/PMVS重建结果.4实验结果4.1多模型估计实验多平面模型不但包含场景中的平面参数信息,而且也包含了属于场景各平面上的三维稀疏点的聚类信息,因此准确的多平面模型对场景中平面区域的分割与重建有重要意义.本文对改进的J-Linkage 多模型估计算法进行了多平面场景的平面模型估计实验,并将实验结果和Toldo等[22]的算法进行了比较.为保证比较的客观性,两种算法都分别对同一组三维稀疏点云进行平面估计.由于本文改进算法的模型假设和聚类原理与原始文献[22]算法是一致的,因此在它们的运算过程中都采用相同的参数(例818自动化学报41卷如,假设模型、MSS).图3为“Dunster”序列图像的三维点的平面模型估计结果.图3的第一列为输入数据,第二列为文献[22]算法结果,第三列为本文算法结果.从文献图3“Dunster”场景平面模型估计Fig.3Plane structures estimation of“Dunster”图4“Valbonne”场景平面模型估计Fig.4Plane structures estimation of “Valbonne”4期缪君等:基于稀疏点云的多平面场景稠密重建819[22]算法结果(图3(b)、(e))可看出,场景中的“地面”在右前方的转角处被“断开”,文献[22]算法便将“地面”视为两个平面,而本文算法则视为同一平面.同时也可注意到,深灰色点对应的“屋顶”平面,本文的算法结果更正确,这是因为分层抽样可以将一些外点排除在样本之外.图4是对“Valbonne”序列图像的实验.图4(a)和(f)为输入数据:“Valbonne”序列图像的三维稀疏点和该序列中的一幅图像.图4(b)∼(e)为文献[22]算法结果:图4(b)为平面模型估计结果,图4(c)为三维点对应在图像上的二维点,图4(d)和(e)分别为基于文献[22]算法的平面分割和最终重建结果.图4(g)∼(j)为本文算法结果.注意到图4中的建筑物“教堂”前端存在两个小平面(图4(f)中所示的#1和#2),文献[22]算法并未估计出这两个平面.从本文算法的结果(图4(h))可看出,对输入点采用分层抽样后,使点云密度变得相对均匀,从而使包含小样本点的两个小平面被检测出(见图4(h)中右边门洞所处的平面).另外,从图4(c)注意到,文献[22]算法的深灰色点对应的平面中都包含错误的内点,而本文算法在分层抽样中已将那些点排除在样本之外,这样既可使估计的平面参数更准确,还可以减少后续图像分割的错误,最终得到更准确的重建结果.如图4(c)和(d),在图中深灰色点覆盖区域,平面模型估计的不准确造成平面区域分割错误.虽然在后续重建中生成的凸集面片可以对错误进行弥补,但当凸集面片中也包含错误区域时(如图4(e)中所示的天空等区域),最终的重建结果仍然不准确.本文算法结果中,如图4(i)和(j)所示,好的平面估计模型能提供好的分割结果,最终得到精度更高的重建模型.4.2多平面场景重建实验为了验证本文重建算法的实验效果,我们使用了多组不同环境的图像集合进行测试,包括室内场景和室外建筑物图像.图5为“桌面”图像序列实验结果,该序列为包含10幅图像的室内场景.图像都用佳能相机采集,图像的分辨率为720×480.“桌面”场景大部分由平面区域组成,包含少量非平面区域(瓶子、笔).图5(c)为多平面模型估计后,稀疏点云对应在该图像上的二维点.当不去除外点时,从图5(d)的分割结果可以看出,由于少量外点的存在,而导致每个平面区域都包含了错误.当去除外点(图5(e)中黑色点)后,如图5(f)所示,除了平面3部分缺失,其他平面区域都被正确的分割.从SFM 的结果(图5(b))可以看出,由于图像数量少,初始点云的数量稀少,特别是处于后方的木质平面(平面4),由于缺乏纹理信息,几乎无重建点生成.CMVS/PMVS 算法(图5(g))比SFM 的结果有很大改进,但区域增长法对于特征稀疏的区域仍存在孔洞,而本文算法(图5(h))在SFM 点云覆盖的平面区域采用分段平面重建,不会存在孔洞,因此效果最好.为了对各种算法的重建结果的平面颠簸程度做出定量评估,本文对多模型估计中获得的平面到包含于该平面上的三维点的距离进行了统计.统计包括两方面:距离平均偏差(D mean )和距离均方差(D std ),分别定义为图5“桌面”图像序列重建.Fig.5Reconstruction of “Desktop”sequence。
采用环形模板的棋盘格角点检测
n e e d e d b y g r a y d i s t r i b u t i o n o f t h e l o c a l a r e a f o r t h e c h e s s b o a r d c o r n e r we r e a n a l y z e d ,a n d t h e p r o p e r —
格 角 点 检 测效 果 , 且运算速度快 , 误 差 小 。将 该 算 法 应 用 于 实 际 摄 像 机 标 定 , 结果显示重投影误差在 0 . 3 个像素 以内。
关 键 词: 棋 盘 格 角点 ; 角点检测 ; 环 形模 板 ; 摄 像 机 标 定
中图 分 类 号 : T P 3 9 1
采 用 环 形 模 板 的棋 盘 格 角 点检 测
储 琚 , 郭卢安政, 赵贵花
( 南昌航空大学 计算机视觉研 究所 , 江西 南 昌 3 3 0 0 6 3 )
摘 要: 曝 光 过 度 和镜 头 畸变 将 分 别 导 致 棋 盘 格 角 点 分 离 和 角 点 局 部 区 域 不 对 称 , 现 有 的 角 点 检 测 算 法 难 以准 确 提 取 棋 盘
文 献标 识码 : A
d o i : 1 0 . 3 7 8 8 / OP E . 2 0 1 3 2 1 0 1 . 0 1 8 9
Che s s b o a r d c o r n e r de t e c t i o n b a s e d o n c i r c u l a r t e m pl a t e
基于光流和水平集算法融合的运动目标提取
改 基 于水平集演 化 的运 动 目标检 测算 法 相 比较于 以 场技 术 自诞生 以来 , 进 方 法层 出不 穷 。考 虑 到 本 在 o n 往传 统检测方 法 , 能够 较 准确 地检 测 出 目标 , 其思 想 文融 合方 法 的 整 体 计 算 时 间 , 此 仅 考 虑 H r 和
22
21 年3 02 月
第2 6卷 第 1期
基于光流和水平集算法融合 的运动 目标提取
将 其 同质 化 , 之灰 度 、 彩 、 理 等相近 或相 同 , 使 色 纹 以
便 提取 出来 … 。
1 运动 目标的粗检
. 目前 , 动检 测方 法 中应 用 最 多 的就 是 时 间差 1 1 光 流场 的计 算 运 分法 、 背景减 除 法 以及 光 流方 法 ] 。这 3种 方 光 流反 映 的是 序列 图像 中各像 素点 的速 度 场 ,
起 的光流 场应 是 连续 平 滑 的 , 合 全 局 平 滑约 束 和 结
提出如下约束方程 : 文献[ ] 6 把光流运动信息融人到基 于水平集方 光流约束 , 法的轮廓演化模型 , 提出了一种基于光流和水平集
的运 动 目标 分 割算 法 。文 献 [ ] 于几何 活动 轮 廓 7基 模 型 , 出 了一 种 目标 跟踪 与 运 动 估计 的耦 合 变 分 提
在 法 中 , 间差分 法 容易在 物体 内部 产生 空洞 现象 , 时 背 光流法 在运 动场 景 中捕 捉运 动 对 象 的运 动特 性 ,
而背 景 区 域 光 景 减除 法 容 易 产 生 光 斑 现 象 , 流 场 方 法 存 在 “ 光 速 图像 中运 动 目标 区域 内光 流值 较 大 ,
基于图像序列目标三维重建方法研究
学校代码:10406 分类号:TP391 学号:************南昌航空南昌航空大学大学硕 士 学 位 论 文(专业学位研究生)基于图像序列目标三维重建方法研究硕士研究生: 王强导 师: 江泽涛 教授申请学位级别: 硕 士学科、专业: 控制工程所在单位: 信息工程学院答辩日期: 2012年6月授予学位单位:南昌航空大学Research on the Method for 3D Recognition for the Target Based on Image SequenceA DissertationSubmitted for the Degree of MasterOn Control Engineeringby Qiang WangUnder the Supervision ofProf. Zetao JiangSchool of information and engineeringNanchang Hangkong University, Nanchang, ChinaJune,2012摘 要基于单目图像序列目标三维重建技术是计算机视觉前沿和热点技术之一。
它相比基于主动视觉的激光扫描技术,具有设备简单、操纵灵活、低成本、实用环境强等特点,因而具有广泛的应用前景,可应用于目标识别、武器导航、航空测量、战争与自然灾后评估、虚拟现实等领域。
本文主要研究图像序列中目标获取以及如何提高图像匹配的精度与效率,其主要工作如下:1.介绍了基于图像序列目标三维重建的相关理论基础,其包括:坐标系、摄像机模型、对极几何、基本矩阵、本质矩阵等概念。
2.在研究当前几种流行的特征点提取及匹配方法的基础上,提出了一种基于SURF 的快速特征匹配改进方法:首先,将NCC 匹配方法引进到SURF 中,这样不仅加快SURF 匹配的速度,而且提高匹配的精度;其次,通过RANSAC 剔除误匹配点;最后,利用最小二乘法对剩余匹配点进行直线拟合,得到精确的、鲁棒性较好的匹配点对,其为稠密匹配所需的种子点提供了良好基础。
《计算机视觉下的静态目标检测和动态行为识别研究》范文
《计算机视觉下的静态目标检测和动态行为识别研究》篇一计算机视觉下的静态目标检测与动态行为识别研究一、引言计算机视觉作为人工智能的重要分支,已经成为图像和视频处理的关键技术。
静态目标检测与动态行为识别是计算机视觉研究领域的两大核心课题。
其中,静态目标检测致力于识别和定位图像中的特定物体或区域,而动态行为识别则专注于捕捉和解析视频中人体或其他对象的运动行为。
这两大领域在安防监控、自动驾驶、人机交互等领域具有广泛的应用前景。
本文将详细探讨计算机视觉下的静态目标检测与动态行为识别的研究现状及未来发展趋势。
二、静态目标检测的研究静态目标检测是计算机视觉领域的一项关键技术,其目标是在图像中快速准确地定位特定物体或区域。
目前,基于深度学习的目标检测算法已经成为主流方法。
(一)算法发展传统的静态目标检测方法主要依赖于图像处理技术,如边缘检测、阈值分割等。
然而,这些方法在复杂背景和光照变化等条件下效果不佳。
近年来,随着深度学习技术的发展,基于卷积神经网络(CNN)的目标检测算法取得了显著成效。
这些算法通过学习大量数据,能够自动提取图像中的特征信息,实现更准确的物体定位和识别。
(二)应用领域静态目标检测在多个领域具有广泛应用。
在安防监控领域,通过检测图像中的异常物体(如可疑人员、爆炸物等),可以有效预防和应对各种安全事件。
在自动驾驶领域,通过检测道路上的车辆、行人等目标,可以实现自动驾驶系统的安全驾驶和智能决策。
此外,在医疗、工业检测等领域也有着广泛的应用前景。
三、动态行为识别的研究动态行为识别是计算机视觉领域的另一重要研究方向,旨在从视频中解析出人体或其他对象的运动行为。
(一)算法发展动态行为识别的关键在于提取有效的运动特征。
传统的行为识别方法主要基于人工设计的特征描述符(如HOG、SIFT等),但这些方法在复杂场景下效果有限。
近年来,深度学习技术在行为识别领域取得了突破性进展。
基于深度学习的行为识别算法能够自动学习运动特征的表示方法,从而提高识别的准确性和鲁棒性。
一种KAZE算法在人脸图像匹配中的应用①
一种KAZE算法在人脸图像匹配中的应用①衷伟岚, 周力, 袁臻(南昌航空大学信息工程学院, 南昌 330063)摘 要: 基于KAZE人脸图像匹配算法是通过加性算子分裂算法来进行非线性扩散滤波, 从而解决高斯分解带来的边界模糊和细节丢失问题. 利用任意步长构造稳定的非线性尺度空间, 寻找不同尺度归一化后的Hessian局部极大值点来实现特征点的检测, 采用M-SURF来描述特征点, 从而构造特征描述向量. 在VS2010和Opencv 环境下分别对KAZE特征和SIFT特征实现人脸图像的匹配. 通过改变输入人脸图像的模糊度, 旋转角度, 尺度大小, 亮度变化结合Matlab对KAZE, SIFT, SURF进行进一步的性能仿真实验. 实验结果表明, 即使在高斯模糊, 角度旋转, 尺度变换和亮度变化等情况下依然保持良好的性能.关键词: 人脸图像; KAZE; 特征检测; 匹配Application of KAZE Algorithm in Human Face Image MatchingZHONG Wei-Lan, ZHOU Li, YUAN Zhen(School of Information Engineering, Nanchang Hangkong University, Nanchang 330063, China)Abstract: The face images matching algorithm based on KAZE is to do nonlinear diffusion filtering by the additive operator splitting algorithm. In this way, the problem of blurred boundaries and detail missing can be solved. A stable nonlinear scale space is constructed by using arbitrary step to search the Hessian local maximum value point after different scales normalizing to detect feature points. By using M-SURE to describe the feature points, the feature vectors are constructed. The KAZE and SIFT feature are used to do face images matching under VS2010 and Opencv. By changing the blur level, angle of rotation, scale, change of brightness, a further simulation experiment can be conducted aiming at KAZE, SIFT, SURF in Matlab. The research result proves that the KAZE has better performance even if under the condition of Gaussian Blur, angle rotating, scale transformation and intensity roughness.Key words: face images; KAZE; features detection; match在目前计算机视觉的研究领域中, 人脸图像信息有着广泛的应用空间. 电子通信, 自动化, 计算机, 可视化, 图像处理和模式识别等学科中都有大量研究, 同时在禁毒, 出入境, 刑事侦查, 航空航天等领域有着很高的实用价值. 由于人脸五官本身的分布复杂性, 加上受多方面因素的影响, 人脸图像信息的处理和匹配变得复杂. 文中使用KAZE特征检测算法, 该算法比SIFT更为稳定[1].KAZE特征算法是一种非线性尺度空间中新型的多尺度2D特征挖掘和描述算法. KAZE的取名是为了①收稿时间:2013-08-31;收到修改稿时间:2013-10-04纪念尺度空间分析的开创者—日本学者Iijima[2]. KAZE是一个日文单词, 意味着“风”. 在自然界中, 风被定义为大规模空气流动, 通常这种流动是受非线性过程的约束. 通过这种方式在图像域中进行非线性扩散处理, 传统的Scale Invariant Feature Transform (SIFT)等特征检测算法是通过线性的高斯金字塔进行多尺度分解[3]. 高斯分解牺牲了局部精度为代价来消除噪声和提取显著特征点, 容易造成细节丢失和边界模糊, 加上传统方法基于正向欧拉法(forward Euler scheme)求解非线性扩散(Non-linear diffusion)方程时迭代收敛的步长太短, 计算复杂度高, 耗时长. KAZE 算法的作者提出采用加性算子分裂算法(Additive Operator Splitting, AOS)来进行非线性扩散滤波[4], 可以采用任意步长来构造稳定的非线性尺度空间[1].1 人脸图像KAZE 特征检测1.1 非线性扩散滤波非线性扩散法描述了将在不同尺度上图像亮度的演变作为某种形式的流动函数(flow function)的散度(divergence), 这个函数控制了这个扩散的过程. 这些方法可以用非线性偏微分方程来描述, 方程1是典型的非线性扩散方程:(1)其中, div 和∇分别代表散度和梯度. 由于扩散方程中传导函数),,(t y x c 的引进, 可能使扩散和图像的局部结构相适应. 函数c 依靠当地图像微分结构, 可以是标量, 也可以是张量. 时间t 是尺度参数, t 越大, 图像表示形式就越简单.为了减少边缘位置的扩散, Perona 和Malik 提议, 让函数c 与梯度幅值相联系, 这样可以促进一个区域内的平滑, 而不是区域间的平滑[5]. 在这种方法中定义如下:(2)其中, 亮度函数L δ∇是原始图像L 的高斯平滑视觉的梯度. Perona 和Malik 描述两种不同的g 函数公式:(3) (4) Weickert [6]提出了一个稍微不同的扩散函数, 使扩散率迅速减少, 边缘的平滑比非边缘的平滑要强得多. 选择性的平滑更倾向于地区内的平滑而不是地区内的模糊. 这个函数称为3g , 被定义为:(5) 其中函数1g 优先保留高对比度的边缘, 2g 优先保留宽度较大的区域, 3g 能够有效平滑区域内部而保留边界信息. 上面g 函数中k 参数是控制扩散级别的对比度因子(contrast factor)是决定保留多少边缘信息的一个参数, 其值越大, 保留的边缘信息就越少. 在KAZE 算法中, 参数k 的取值是梯度图像L δ∇的直方图70%百分位上的值. 图一描述了Perona 和 Malik 方程中的2g 函数在k 参数不同值下的传导图像.k =6.25 k =14.10 k =42.75 k =100.25图1 不同值下的传导图像1.2 AOS 算法由于PDES(非线性偏微分方程)在非线性扩散滤波中没有解析解, 因此, 需要使用数字分析方法来近似估计微分方程. 传统上采用显式差分格式方程的求解方法只能采用小步长, 收敛缓慢. 针对显式差分格式方程只能采用小步长的问题, 改为隐武差分格式方程, 并采用加性算子分裂(AOS)算法求解. 阮宗才, 许冠明在二维图像的测试中表明基于AOS 的算法在稳定性和计算复杂度等方面都取得了较好的结果[7]. 因此, 将方程(1)离散化为以下的隐式差分格式方程:(6) 其中l A 是表示图像在各维度l 上传导性的矩阵. 为了计算1i L +, 需要解出基础方程的线性系统. 1i L +的解可以通过下式获得: (7)这种求解方法对任意时间步长()τ都有效和绝对稳定的. 上式中l A 矩阵是对角占优的三对角线矩阵(tridiagonal and diagonally dominant matrix), 这样的线性系统可以通过Thomas(追赶法)算法快速求解, 这种算法是知名的针对三角系统高斯消去算法的改变体. 1.3 非线性尺度空间的创建KAZE 特征的尺度空间的构建和SIFT(尺度不变特征变换)的类似. 对于SIFT 来说, 金字塔每层的多张图像合称为一组Octave,每组的多张图像也叫层Interval. 同样, KAZE 尺度的级别是按照对数来递增((,,))Ldiv c x y t L t ∂=⋅∇∂(,,)(|(,,)|)c x y t g L x y t δ=∇212||exp()L g k δ∇=−2221||1g L k δ=∇+22381|L |3.3151-exp()|L |0||()g L k δδδ⎧∇⎪⎪=⎨−∇>∇⎪⎪⎩,,111()i i mi i l l L L A L L T ++=−=∑111(())mi i il l L I T A L L +−==−∑的, 一共有0组Octaves,每个Octave 有S 个sub_level. 但是SIFT 中每个新的Octave 要逐层进行降采样, 而KAZE 的各个层级均采用与原始图像相同的分辨率. 不同的Octave 采用o 来标识, 不同的sub_level 采用s 来标识. 通过以下公式, 八度和分段值可以与他们的相关尺度参数相联系. (8)其中,0δ是尺度参数的初始基准值. N是整个尺度空间中图像的总数N O S =∗. 由于 2.1非线性扩散滤波的可知非线性扩散滤波的模型是以时间t 为单位的, 因此需要将像素为单位的尺度参数i δ转换为以时间为单位的尺度参数. 至于高斯尺度空间, 带有标准偏差δ (像元)的高斯图像的卷积等于对图像进行时间2t δ=的滤波. 为了获得一组进化次数, 通过下面的映射i i t δ→, 应用这种转换, 并且把尺度空间(,)i o s δ转为时间单位: (9)i t 被称为进化时间(evolution time). 值得注意的是, 使用映射i i t δ→只是为了从建立非线性尺度空间获得一组进化时间值.通常, 在非线性尺度空间每一个经过i t 滤波的结果图像与使用标准差为i δ的高斯核对原始图像进行卷积所得的图像并不相符. 然而通过设定扩散中的传导函数g 等于1(即g 是一个常量函数)时, 非线性尺度空间就符合高斯尺度空间的意义. 另外, 随着尺度层级的提升, 除了那些对应于目标轮廓的图像边缘像素外, 大部分像素对应的传导函数值将趋于一个常量值. 1.4 人脸图像特征点检测和描述与SIFT 特征点检测类似, 为了检测到感兴趣的点, 可以通过找到不同尺度归一化后的Hessian 局部极大值点来实现. 对于多尺度特征探测, 微分算子集需要被规范化, 微分算子需要依照尺度做归一化处理, 空间导数的振幅随着尺度而减小[8].(10)其中, δ是尺度参数i δ的整数值, xx L , 分别是二阶横向和纵向微分, 是二阶交叉微分. 除了0i =和i N =外在所有滤波图像都要搜寻极值, 在查找极值点时, 每一点都要和所有相邻的点进行比较, 只有当它大于它的图像域和尺度域上所有相邻点时, 它才是极值点. 理论上其比较的范围是在3个尺寸为i i δδ×的矩形窗口, 分别是当前图像域窗口i , 上一个尺度1i +的滤波图像, 下一个是尺度1i −的滤波图像. 为了加速极值的搜寻, 固定窗口大小为3×3如图三所示:图2 极值点检测从图2可知, 搜索空间是一个边长为3像素的立方体, 中间的检测点和它同尺度的8个相邻点, 以及和上下相邻尺度对应的9×2个点一共26个点比较, 以确保在尺度空间和二维图像空间都检测到极值点. 最后, 使用[9]中提到的方法, 对得到的特征点位置以亚像素精度来估计定位. Lowe 在BMVC2002中提出的方法是根据Taylor 展开式: (11)特征点的亚像素坐标的解为: (12)为了获得旋转不变描述符, 有必要通过特征点的局部图像结构来估计主导取向. 如果特征点的尺度参数为i δ, 那么区域搜索半径为6i δ. 对圆内每一个邻点的一阶微分值x L , 通过高斯加权, 使接近特征点的响应贡献大, 远离特征点的响应贡献小. 将这些微分值作为向量空间中点的集合, 在一个角度为60度的扇形区域内对集合中的点进行向量叠加, 对整个圆进行搜寻找个最长向量的角度即为主方向, 如图3所示:图3 寻找特征点主方向/0(,)2,[0...1],[0...1],[0...],o s Si o s o O s S i N δδ+=∈−∈−∈21,{0...}2i i t i N δ==22()(Hessian xx yy xy L L L L δ=−yyL xyL 221()2TT L L L x L x x x x x ∂∂⎛⎞=++⎜⎟∂∂⎝⎠122ˆ(L Lxx x−⎛⎞∂∂=−⎜⎟∂∂⎝⎠yL对于描述符的建立, 可以采用使用SURF [10]、M-SURF 和G-SURF 三种描述向量, 其中G-SURF 是作者在2013年发表的论文[11]中提出的新的特征描述算法. 在[12]中AgraWal 和Konolige 在SURE 算法的基础上做了一些改进, 提出了M-SURF 算法. 算法中使用M-SURE 描述符向量来适应非线性空间框架. 对于尺度参数为i δ的特征点, 在梯度图像上以一阶导数x L ,为中心点取一个2424i i δδ×的矩形窗口. 这个窗口被分成4×4子区, 子区大小为99i i δδ×, 相邻的子区有2i δ大小的重叠区域. 每一个子区的微分响应以子区中心为中心, 取高斯值(1 2.5i δδ=)来进行加权, 并合计为一个描述符向量:(13) 然后, 每一个子区向量以特征点点为中心, 通过另一个大小为4×4的高斯窗口(11.5i δδ=)对每一个子区区域的向量dv 进行加权, 最后进行归一化处理, 就可以得到一个64维的描述符向量.采用ORL 库中的图像, 根据上述步骤获得人脸图像的KAZE 特征图, 标记圈的半径长短和特征点所在的尺度有关, 半径就是特征点的方向, 如图4所示:图4 人脸图像的KAZE 特征图2 实验结果论文中选用了ORL 库中的不同视角的图片. 在VS2010和Opencv2.4.3环境下进行KAZE 特征匹配以及SIFT 特征匹配. KAZE 特征检测和匹配结果如图5所示, SIFT 特征检测和匹配结果如图6所示.图5 KAZE 特征点检测和匹配图6 SIFT 特征点检测和匹配上述结果图对比可知, 图5中有效检测的特征点的数目要比图6中的多, 并且图5在成功匹配的点对数明显较图6的高, 说明KAZE 算法在有效检测的特征点数和成功匹配的点对数上要比SIFT 算法好. 因此KAZE 算法在视角变化上更具有鲁棒性.下面是结合matlab 通过改变人脸图像旋转角度, 亮度, 高斯模糊程度, 尺度变化进一步对KAZE, SIFT, SURF 算法进行性能测试仿真[13]. 性能测试包括单应性错误, 匹配率, 平均距离, 正确匹配的百分比, 匹配点的百分比和速度. 仿真实验结果如下图所示:图7 单应性错图8 匹配率y L (,,,)(x y x y dv L L L L =∑∑∑∑图9 平均距离图10 正确匹配的百分比图11 匹配点的百分比图7的单应性错误比较, 可以知道SIFT 整体在寻找单应性矩阵方面上要较稳定, 但是综合其他性能的比较可以知道, KAZE 还是有着较优良的性能, 但是速度较慢. 上所有结果图的横坐标范围和步长如表1所示.图12 速度的比较表1 横坐标范围和步长性 能 最小值最大值步 长亮度变化 -127 127 10 高斯模糊 1 9 1 旋转角度 0 360 10 尺度变化0.25 2 0.13 结语本文研究了基于KAZE 图像的匹配算法, 该算法是较传统的算法不同之处是通过非线性滤波来任意步长的构造稳定的非线性尺度空间来消除边界模糊和细节丢失. 文中在提取特征点之后使用Opencv 现成的匹配算法FLANN(快速最近邻逼近)进行特征点的匹配. 在匹配的结果和图9匹配率图标中可以知道, KAZE 的匹配率较SIFT 和SURF 都要高. 但是在速度上比SIFT 和SURF 要慢许多. 通过改变亮度, 改变高斯模糊程度, 旋转角度, 尺度变化的matlab 性能仿真实验可知, KAZE 在这些性能上具有优良性. 如果能在非线性尺度空间创建和特征点的检测上进行改进和优化, 加上一套适合KAZE 特征检测的匹配算法, KAZE 算法将会有很好的应用前景和实用价值.参考文献1 Alcantarillay PF, Bartoliy A, et al. KAZE puter Vision – ECCV 2012. 2012.2 Weickert J, Ishikawa S, Imiya A. Linear scale-space has first been proposed in Japan. Journal of Mathematical Imaging and Vision ,1999,10 (3): 237−252.(下转第163页)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
南昌航空大学计算机视觉研究所
研究所简介
南昌航空大学计算机视觉研究所成立于2010年,是南昌航空大学的二级科研机构、计算机应用技术重
计算机视觉研究所
点学科之一。
南昌航空大学计算机视觉研究所挂靠南昌航空大学软件学院,研究所现有在编教职员工7人,其中江西省中青年学术带头人2人,教授2人,博士3人,副教授1人。
目前在校博士和硕士研究生40多人。
实验室拥有高性能图形处理工作站、各种摄像机和镜头、移动机器人、三维立体显示系统、力反馈系统等先进的实验设备,以及图像处理软件、虚拟现实平台软件等工具软件。
目前研究所承担了国家基金项目3项、973项目1项、航空基金项目1项、江西省自然科学基金项目4项及江西省科技支撑计划项目3项,并参与我国嫦娥探月工程项目。
研究所主要研究方向包括:复杂物体描述、特征提取和匹配,基于内容的图像检索,复杂环境下目标存在局部遮挡的识别,基于计算机视觉的工业零件缺陷检测和尺寸测量,移动目标检测与跟踪和大规模自然场景建模和多光谱图像融合和拼接等。
研究目的是以计算数学、计算机视觉、计算机图形学与智能控制理论的成果为基础,解决三维真实环境的识别、建模、显示、跟踪与互动等一系列关键问题。
实验室学术气氛活跃,与国内外多个科研院所展开多方面的合作。
是一个既有激烈的学术竞争,又有广泛的交流的具有凝聚力的、朝气蓬勃的学术团队。
科研课题。