GMS特征点匹配汇报-2017CVPR

合集下载

基于道路结构特征的智能车单目视觉定位

第43卷第5期自动化学报Vol.43,No.5 2017年5月ACTA AUTOMATICA SINICA May,2017基于道路结构特征的智能车单目视觉定位俞毓锋1,2赵卉菁1,2崔锦实1,2査红彬1,2摘要高精度定位是实现自动驾驶的关键.在城市密集区域,全球定位系统(Global positioning system,GPS)等卫星定位系统受到遮挡、干扰、多路径反射等影响,无法保障自动驾驶所需的定位精度.视觉定位技术通过图像特征匹配进行位置估计,被广泛研究.然而传统基于特征点的方法容易受到移动目标的干扰,在高动态交通场景中的应用面临挑战.在结构化道路场景中,车道等线特征普遍存在,为人类驾驶员的视觉理解与决策提供重要线索.受该思路的启发,本文利用场景中的三垂线和点特征构建道路结构特征(Road structural feature,RSF),并在此基础上提出一个基于道路结构特征的单目视觉定位算法.本文利用在北京市区的典型路口、路段、街道等场所采集的车载视频数据进行实验验证,以同步采集的高精度GPS惯性导航组合定位系统数据为参照,与传统视觉定位算法进行比较.结果表明,本文算法在朝向估计上明显优于传统算法,对环境中的动态干扰有更高的鲁棒性.在卫星信号易受干扰的区域,可以有效地弥补GPS等定位系统的不足,为满足自动驾驶所需的车道级定位要求提供重要的技术手段.关键词单目相机,视觉定位,道路结构特征,三垂线引用格式俞毓锋,赵卉菁,崔锦实,査红彬.基于道路结构特征的智能车单目视觉定位.自动化学报,2017,43(5):725−734 DOI10.16383/j.aas.2017.c160413Road Structural Feature Based Monocular VisualLocalization for Intelligent VehicleYU Yu-Feng1,2ZHAO Hui-Jing1,2CUI Jin-Shi1,2ZHA Hong-Bin1,2Abstract Precise localization is an essential issue for autonomous driving applications,while global positioning system (GPS)-based systems are challenged to meet requirements such as lane-level accuracy,especially in crowded urban envi-ronment.This paper introduces a new visual-based localization approach in dynamic traﬃc environments,focusing on structured roads like straight roads or intersections.Such environments show several line segments on lane markings, curbs,poles,building edges,etc.,which demonstrate the road s longitude,latitude and vertical directions.Based on this observation,we deﬁne a road structural feature(RSF)as sets of segments along three perpendicular axes together with feature points,and propose an RSF based monocular visual localization method.Extensive experiments are conducted on three typical scenarios,including highway,intersection and downtown streets.Results show better accuracy compared with a state-of-the-art visual localization method using feature points.We demonstrate that the proposed method can help improving localization accuracy in GPS restricted area,and discuss the remained challenges leading to future studies. Key words Monocular camera,visual localization,road structural feature(RSF),perpendicular axesCitation Yu Yu-Feng,Zhao Hui-Jing,Cui Jin-Shi,Zha Hong-Bin.Road structural feature based monocular visual localization for intelligent vehicle.Acta Automatica Sinica,2017,43(5):725−734智能车或自动驾驶技术受到广泛的关注,精确的定位技术是其重要环节.面向城市道路环境,车道级定位是实现智能车轨迹规划或决策的关键.全球定位系统(Global positioning system,GPS)被收稿日期2016-05-23录用日期2016-12-27Manuscript received May23,2016;accepted December27,2016国家高技术研究发展计划(863计划)(2012AA011801),国家自然科学基金(61573027)资助Supported by National High Technology Research and Devel-opment Program of China(863Program)(2012AA011801),and National Natural Science Foundation of China(61573027)本文责任编委王飞跃Recommended by Associate Editor WANG Fei-Yue1.北京大学信息科学技术学院北京1008712.北京大学机器感知与智能教育部重点实验室北京1008711.School of Electronic Engineering and Computer Science, Peking University,Beijing1008712.Key Laboratory of Ma-chine Perception(Ministry of Education),Peking University, Beijing100871广泛运用于汽车导航系统.单点GPS定位误差为数米,且受到信号遮挡、干扰、多路径反射等影响,在城市密集区域,无法保障自动驾驶所需的定位精度.而以视觉里程计为代表,通过环境数据匹配进行运动估计的视觉定位方法可以有效提高相对定位精度.但城市环境中来自车辆、行人等动态目标的干扰给传统视觉定位算法带来了巨大挑战.如图1(a)所示,在一帧图像中,共检测了785个特征点,其中有277个在周围车辆上.移动干扰特征点的比率已经超出了视觉定位算法中外点滤除的极限,导致定位结果产生偏差.在人类驾驶员视觉理解过程中,相比于特征点,车道等结构化道路信息起到更重要作用.以图1(b)为例,图像中包括沿道路方向、水平垂直道路方向和竖直方向的三种线特征,这些信息为驾驶员有效定726自动化学报43卷位自身车辆与道路的关系提供重要线索.受该思路启发,本文提出一个基于道路结构特征(Road struc-tural feature,RSF)的智能车单目视觉定位算法,用于解决高动态结构化道路环境下的定位问题.本文结合场景中的三垂线和点特征,定义道路结构特征,并在此基础上建立定位算法,包括道路结构预测、特征提取和车辆运动估计.本文利用安装在智能车平台上的摄像头在北京市区的路口、拥堵路段、密集街道等典型复杂场景进行数据采集,对本文提出的算法进行实验分析,以同步采集的高精度GPS惯性导航组合定位系统(GPS/惯导)数据为参照,与传统视觉定位算法进行比较,验证本文算法的有效性.图1单帧图像的点特征和线特征Fig.1Point feature and Line feature ofone on-road image本文结构如下:第1节围绕近年来国内外视觉定位的前沿研究,分析其在大范围高动态交通场景应用中所面临的关键难点;第2节给出道路结构特征的定义,并概述基于道路结构特征的定位算法;第3节详细描述定位算法中的细节;第4节给出实验结果,并与高精度GPS/惯导和传统视觉定位方法作比较;第5节总结本文算法并给出今后的研究展望.1相关研究基于视觉的定位算法被广泛用于智能车定位系统,视觉里程计(Visual odometry)[1]是其中最重要的领域之一.视觉里程计利用单个或者多个相机的输入信息,通过前后帧特征匹配,估计本体的运动.有关视觉里程计的研究最早可以追溯到1980年.当时,Moravec等[2]利用一个可滑动相机获取视觉信息,并以此作为输入,完成了机器人的室内导航. 1987年,Matthies等[3]提出了利用视觉做定位的概念,设计了包含特征提取、特征匹配与跟踪、运动估计的理论框架.2004年,Nist´e r等[4]首次明确了视觉里程计这一概念,并在2006年详细描述了视觉里程计系统[5].他们设计了一种实时的视觉里程计系统,真正意义上实现了机器人室外运动导航,同时提出了两类视觉里程计的实现途径和流程,即单目视觉和立体视觉的方法,之后的研究大多在此基础上进行改进.通用的视觉里程计以特征点匹配为基础,定位结果受到累计误差和移动物体干扰两方面因素的影响.针对累计误差,光束平差法(Bundle adjust-ment)[6]是一个常用的处理方法,通过最小化三维特征点在不同图像上的重投影误差,同时优化三维特征点和相机位置,提高了定位精度,但计算代价较高.为降低时间复杂度,Mouragnon等[7]使用局部光束平差法,在处理累计误差和计算代价上做了一个平衡.针对移动物体的干扰,传统的方法将移动物体上的特征点当作噪声,利用随机采样一致性方法(Random sample consensus,RANSAC)[8]来滤除噪声,但这只能处理少量干扰问题.Ozden 等[9]建立了一个多模型的定位与场景重建方法,将视频中的特征点进行聚类,提取移动物体,去除干扰.Kundu等[10]将光束平差法与多模型方法结合,有效提高了定位精度,但在移动物体较多的环境下,有效性受到制约.近几年的视觉里程计的研究将定位和建图结合起来,建立视觉SLAM方法,例如lsd-SLAM[11]、Orb-SLAM[12]等.此类方法有效减少了累计误差,但由于需要在定位的同时重建三维场景,导致高动态环境下移动物体的干扰增加.另一类视觉定位算法则采用与地图匹配的方式进行定位.Geiger等[13]利用视觉里程计生成的轨迹和二维地图上的道路进行形状比对,确定车辆实际位置.算法可定位到所处道路,但无法到达车道级精度.Ramalingam等[14−15]直接利用城市的三维模型,将图像中的特征点和线投影到三维模型中,直接获取对应的三维位置,避免了三维重建过程中的误差.算法提高了定位精度,但目前三维模型的可获取性不够广泛,算法的局限性高.另一些研究者则采用智能车预先建立地图进行定位.Achar等[16]利用词袋(Bag-of-words)的方法,在需要定位的街道上预先行驶若干圈采集数据,生成特征地图,在线定位时,将图像特征点和数据库中特征点进行匹配并定位.Ziegler等[17]同时建立了道路的几何地图与特征点云地图,提高了在线匹配的精度.该智能车完成了103千米的自动驾驶,但地图建立存在大量手工操作,人力和时间成本高.传统的视觉定位算法使用特征点进行定位,在高动态交通场景中,特征点易受移动车辆的干扰,导致定位结果出现偏差.Geiger等[18]将图像特征投影到路面上,利用标志线的角点对定位进行优化,适5期俞毓锋等:基于道路结构特征的智能车单目视觉定位727用于低动态场景,但无法处理拥堵环境.考虑到道路场景中线特征的朝向特殊性,Zhang 等[19]利用室外的垂直线特征进行定位,将原三维定位问题转换为二维定位问题,降低了复杂度,但垂直线特征不通用,局限性大.Barinova 等[20−21]则将线段进行聚类,并检测消失点,利用消失点之间的几何约束确定三垂线.该算法只在部分图片中进行测试,缺乏有效性验证,且计算代价高.本文对三垂线的检测进行优化,并将其用于结构化道路场景定位算法,极大地提高了定位估计的朝向稳定性.2系统概述本文提出的定位算法框架如图2所示.以下首先给出道路结构特征的定义,在此基础上简述算法的主要步骤,包含道路结构的预测、道路结构特征提取和基于道路结构特征的位置估计.图2算法框架Fig.2System outline2.1道路结构特征定义道路结构特征是一组带有语意信息,描述典型结构化道路场景特征的基本元素集合.在本研究中,道路结构特征由图像中对应于道路行进方向、水平垂直道路方向和竖直方向的三组线特征L 1,L 2,L 3,以及点特征P 构成,即Z RSF :{L 1,L 2,L 3,P }.其中线特征L 1,L 2,L 3在道路坐标系下相互垂直,在本文中简称三垂线.2.2道路结构预测随着定位服务(Location based services,LBS)技术的发展,地图作为数据基础被广泛建立,部分已开放使用(例如OpenStreetMap).这些地图中包含道路中心线、路口节点等信息,为预测局部道路结构提供依据.如图3所示,对于直道场景,根据智能车当前的定位信息和相机标定参数,可在地图中确定相机的可视区域,结合地图中道路中心线信息,建立局部道路坐标系.利用车辆位置以及相机参数等信息,将局部道路坐标系映射到图像中,预测对应于道路行进方向、水平垂直道路方向和竖直方向的三组线特征L 1,L 2,L 3的方向.对于路口场景,根据地图中道路中心线,将相机可视区域分割为一系列小区域,每个小区域都根据道路中心线定义自身的道路局部坐标系,再映射到图像中,将图像分为相应的区域,并在每个区域中预测对应的三组线特征方向.图3道路局部三垂线结构预测,包含直道和路口两种情况Fig.3Map-based RSF prediction,includingstraightway and intersection2.3道路结构特征提取道路结构特征的提取以线段检测算法和特征点检测算法为基础,实时检测图像中的线段和特征点,构建道路结构特征.对于线特征,定义线和道路坐标系三方向的距离函数,以此将图像中的线段进行分类.通常情况下,路面上的车道线、道路边界、车辆侧面的线段等会被分成第一类L 1;路面上的停止线、车辆后侧的横向线段、路牌上的横向线段会被分成第二类L 2;路灯、路边建筑物、大型车辆等的竖直方向线段会被分为第三类L 3.对于点特征,直接根据通用特征点检测结果,生成特征点集合P .2.4基于道路结构特征的位置估计车辆的位置估计采用随机采样一致性方法(RANSAC).在检测到所有道路结构特征Z RSF 后,基于随机采样构建样本集合{C iRSF }.一个有效的采样C RSF 包含三条线段和两个点.其中三条线段中728自动化学报43卷两条相互平行,并且垂直于第三条.C RSF ={l 1,l 2∈L u ,l 3∈L v ,u =v,p 1,p 2∈P }(1)图4所示为当u =1,v =3的一个样例.l 1和l 2为沿道路方向上的线段,l 3为竖直方向上的线段,p 1和p 2为图像中任意两个特征点.在利用采样C RSF 进行位置姿态x 求解的过程中,使用其中的线特征求解旋转,再使用点特征估计平移,平移尺度的估计则使用车速信息累计求解.位置姿态求解结果使用后验概率p (Z RSF |x i k )p (x ik |x k −1)进行评价.其中p (Z RSF |x i k )为观测模型,p (x ik |x k −1)为车辆运动模型.通过一定次数的随机采样C RSF (本文实验中采样次数为200),最优位置估计结果ˆx k 通过最大化后验概率求得.ˆx k =arg max x i k ∼C iRSF{p (Z RSF |x i k )p (x ik |x k −1)}(2)图4道路结构特征采样样例,包含三条线段和两个特征点Fig.4Sample of RSF candidate,including three linesegments and two points3算法细节3.1坐标系定义车体与相机的坐标系定义如图5所示.定义x v={R v ,s v }为车体在世界坐标系下的位置姿态.其中,R v 为旋转矩阵,s v 为平移向量.车体坐标系定义为右手系准则,其中原点位于车辆后轴中心,x ,y ,z 的方向分别为车辆右侧,前方和上方.相机固定在车顶前侧上方,定义x c ={R c ,s c }为相机的在世界坐标系下的位置姿态.相机坐标系定义为右手系准侧,其中原点为相机中心,x ,y ,z 的方向分别为相机右侧、下方和前方.相机和车体的刚性固定,车体坐标系到图像映射P vc =K [R vc |s vc ]可通过标定得到.其中K 为相机内参数,R vc 和s vc 分别为外参数中的旋转矩阵和平移向量,即车体在相机坐标系下的旋转矩阵和平移向量.图5车体与相机的坐标系定义Fig.5Coordinate frames of the vehicle and the camera3.2道路结构预测定义e 1=(1,0,0)T ,e 2=(0,1,0)T ,e 3=(0,0,1)T 为x ,y ,z 方向的单位向量,车体在世界坐标系下的三个方向可表示为d x d y d z =R ve 1e 2e 3(3)其中,d y =R v e 2为车体朝向.定义{R v,k ,s v,k }为车体在k 时刻的位置姿态,{ˆR v,k ,ˆs v,k }为对应时刻的预测结果.假设车体的运动在朝向上变化均匀,则车辆在k 时刻的旋转矩阵可以通过前一帧的旋转矩阵和前两帧之间的相对旋转求解ˆR v,k =R rel R v,k −1= R v,k −1R T v,k −2 R v,k −1(4)平移的预测则将车辆在两帧间的位移进行求和.在较短的时间内,位移方向近似为前后帧车辆朝向的角平分线的方向,即ˆs v,k ≈s v,k −1+d y,k −1+ˆdy,k 2 t kt k −1v t d t (5)其中,d y,k −1为车体k −1时刻的朝向,ˆdy,k 为车体k 时刻朝向预测结果,v 为车速.相机在k 时刻的位置姿态{R c ,s c }通过车体的位置姿态预测结果和标定参数进行求解.ˆRc,k =ˆR v,k R cv (6)ˆs c,k =ˆs v,k +ˆRv,k s cv (7)世界坐标系下到相机的投影矩阵的预测为ˆP c =K [ˆR T c,k |−ˆR T c,k ˆs c,k ](8)车体和相机的位置预测完成后,道路结构通过相机的投影矩阵变换到图像坐标系下,如图3所示.对于直道环境,只有一条道路线被投影到图像中,生成一个局部道路坐标系;对于路口环境,多条道路线被投影到图像中,将图像分割成不同区域,每个区域包含一个局部道路坐标系;对于弯道环境,用多段线段拟合弯道,再将其投影到图像中,与路口环境类似.对于每一个区域,道路坐标系对应三个朝5期俞毓锋等:基于道路结构特征的智能车单目视觉定位729向d j(j=1,2,3),分别为道路行进方向、水平垂直道路方向和竖直方向.虽然对于二维地图,道路朝向只有一个自由度,但为了系统的统一,以及今后有三维道路地图后算法的可扩展性,使用旋转矩阵R r=[d1d2d3]来描述道路朝向.3.3道路结构特征提取道路结构特征RSF定义为{L1,L2,L3,P},即三垂线和特征点的集合.道路结构特征的提取中最重要的部分为从图像基础特征(线段和点)中建立道路结构特征.对于特征点,直接使用通用特征点检测跟踪结果;对于三垂线特征,利用预测的道路结构,将通用线段特征依照朝向进行分类,关键点在于定义图像线段和道路坐标系三方向的距离函数.图像上的任意线段l i转换到相机坐标系下,构成一个过相机中心的平面πl i=[l T i K0]T,其法线方向为n i=K T l iK T l i(9)定义线段l i到道路方向R r e j的距离函数为线段对应平面法线n i和道路方向R r e j夹角余弦值的平方,即d2(l i,R r e j)=n TiR TcR r e j2=l TiKR TcR r e jK T l i2(10)对于任意线段l i,计算它和局部坐标系下三方向的距离,将其归类为距离最近的方向,并将其朝向记录为d i.当最小距离大于给定阈值时,该线段则被当作噪声滤除.3.4车体位置姿态估计给定一个道路结构特征的采样C RSF,如式(1)所示.其中l1,l2∈L u为图像上的两条线段,对应两条在道路坐标系下的平行线;l3∈L v为第三条线段,在道路坐标系下垂直于前两条线段.p1,p2∈P 为两个特征点.令ˆd1,ˆd2,ˆd3为三垂线特征l1,l2,l3的朝向估计结果,p1和p2为当前帧检测到的特征点,p 1和p 2为前一帧的跟踪结果.3.4.1旋转矩阵求解根据线特征和对应朝向的距离定义,有l T1KRˆd1=0(11)l T2KRˆd2=0(12)l T3KRˆd3=0(13)从特征采样C RSF中已知l1和l2在道路坐标系下的朝向一致,即ˆd1=ˆd2,则l1和l2在图像上的交点对应于该朝向的消失点,即v1=l1×l2=λKRˆd1(14)根据罗德里格斯矩阵,旋转矩阵可改写为R=(I−S)−1(I+S)(15)S=0−c−bc0−ab a0(16)将式(15)代入式(14)中,可得(I−S)K−1(l1×l2)=λ(I+S)ˆd1(17)结合式(16)和式(17),共有4个参数a,b,c,λ需要求解.式(17)和式(13)共给出4个约束方程,通过联立方程组可求解这4个参数.在求解过程中,最多产生两组可行解,这两组可行解对应l3的方向相反.通过和预测的旋转矩阵ˆR c做比较,可滤除错误解,留下唯一可行解.3.4.2平移向量求解在世界坐标系下,令当前帧相机的投影矩阵为P=K[R|t],前一帧相机的投影矩阵为P = K[R |t ],则相机的相对旋转和平移为R rel=RR T(18)t rel=t−R Trelt (19)根据对极几何约束可得p T F p =0(20)其中,F=K−T[t rel]×R rel K−1(21)由于旋转矩阵已知,式(20)中待求解的只有平移向量t rel,共三个自由度.使用两个特征点,即可通过式(20)求解出归一化的平移向量,尺度因子 t rel 则需要通过其他方式求解.在本文实验中,尺度因子通过车轮编码器所获取的车速信息求解.相对位移求解完成后,通过式(19)求解当前相机的绝对位置,再利用标定参数,得到车体的绝对位置. 3.4.3后验概率估计每一个采样C RSF都可求解出相应的旋转矩阵和平移向量.由于采样的随机性,需要多次采样来得到最优解.而最优解的估计可以通过最大化后验概率p(Z RSF|x i k)p(x i k|x k−1)得到.其中,p(x i k|x k−1)为运动模型,通过车辆的基础运动模型加上高斯噪声求解;p(Z RSF|x i k)为观测模型,需要定义观测值与真值的误差函数来求解.本文误差函数定义为线特征与点特征的误差加权和,即E=E l+λE p(22)730自动化学报43卷对于三垂线特征,误差定义为线段长度的平方乘以它到对应道路朝向的距离,即E l=ilen2(l i)×d2(l i,ˆd i)(23)其中,len(l i)是线段l i的长度,d2(l i,ˆd i)是线段和对应道路朝向的距离,即d2(l i,ˆd i)=l TiKR TcˆdiK T l i2(24)对于点特征,误差定义为点到对应对极线距离的平方,即E p=id2(p,F p )+d2(p ,F T p)(25)其中,距离d(p,F p )是点p到对极线F p 的距离.3.5鲁棒性优化道路结构特征的采样C RSF需要包含三条线段和两个特征点,其中三条线段l1,l2,l3需要满足d1 =d2,d1×d3=0.因此,算法需要检测至少两个主方向上的线段.对于空旷环境,即移动车辆、路灯、建筑物较少的情况,水平垂直道路方向和竖直方向上的线特征均较少,只有道路行进方向的线特征可被稳定检测.在这种情况下,假设路面平整,车辆颠簸不明显,车辆运动只包含三个自由度(x,y, yaw),对应旋转矩阵R退化为一个自由度.利用公式l T1KRd1=0,通过一条线段求解旋转矩阵.同理,当仅能检测到其他两个主方向上的线段时,也将车辆运动退化为二维运动求解.此外,当无法检测到有效数目的主方向线段时,则根据通用的特征点定位算法求解.算法根据当前帧图像所能检测到的三垂线数目动态切换.4实验与分析4.1概述本文利用如图5所示的智能车平台,在北京市区的路口、拥堵路段、密集街道等典型复杂场景进行数据采集和算法验证1.实验中利用PointGray公司的Flea2相机采集图像序列,图像分辨率为640像素×480像素,关键帧采样帧率为3Hz;利用车轮编码器采集车速信息,用于平移尺度的求解.为了对算法的精度进行比较验证,实验中使用一台拥有光纤陀螺的GPS惯性导航组合定位系统对车辆位置方向进行高精度测量.实验中使用线段检测工具包(Line segment de-tector,LSD)[22]进行图像线段检测,参考文献[23]中的算法进行图像特征点检测跟踪.本文算法的实验结果与目前被广泛使用的单目视觉里程计算法libviso2[13]、最新发表的Orb-SLAM算法[12]以及高精度GPS/惯导进行比较.以下分别对路口、拥堵路段和密集街道等三种典型场景的实验结果进行展示,最后给出分析讨论.在路口和拥堵路段场景, Orb-SLAM在初始化时特征点集中于前方移动车辆上,导致定位失败.在密集街道场景中,移动车辆少, Orb-SLAM结果较为稳定.因此本文仅在密集街道场景中加入与Orb-SLAM定位结果的比较.4.2案例分析4.2.1路口实验路口实验场景起始点坐标为(39.9754760, 116.3911050),行驶距离约为600米,时间约为2分钟,采集了共350帧关键帧,车辆行驶过程中包括两次右换道、一次右转和一次靠右并入辅路等驾驶行为,如图6所示.图6路口实验场景与定位结果Fig.6The scenario and localization results ofintersection environment图6中点虚线、虚线和实线分别为本文算法、libviso2和GPS/IMU的定位结果.如图6中B区域所示,在本次实验终点处,虽然实验车沿直线行驶进入辅路,然而由于周边树木建筑物密集,卫星信号受到干扰,GPS定位结果有明显偏移.在B区域以外的其他区域中,卫星信号条件良好,GPS定位有较高的精度,因此本文利用B区域以外的GPS数据作为参照,定量化验证本算法的定位精度,并与libviso2的结果进行比较.实验中,libviso2的结果在车辆右转过程中产生明显偏差,如图6中A区域所示,而本文算法表现良好,轨迹和GPS接近.图7展示了算法对车辆朝向的估计结果.本文算法与GPS/IMU的结果非常接近,而libviso2的结果却存在明显偏差.虽然偏差只有5度,但由此引起的位置偏差非常大,在进入B区域前与GPS相比有1实验相关视频已上传至优酷:/v show/id XMTU4MDIzOTM5Mg==.html?from=y1.7-1.25期俞毓锋等:基于道路结构特征的智能车单目视觉定位731约15米的误差.说明在定位中,朝向的估计精度有着重要的影响,而实验结果表明本文算法在朝向估计上精度明显高于libviso2.需要说明的是,本文算法在朝向结算上只使用了当前帧的信息,导致结果存在局部噪声,呈现轻微锯齿状.这个现象可以通过今后引入前后帧跟踪予以缓解.图7路口场景朝向计算结果Fig.7Yaw results in intersection environment为了使结果更加直观,将图像中的沿道路线方向的线段结合定位结果投影到地平面上,得到如图8所示结果.通过投影结果,可以较清晰地看到斑马线、道路标线、道路边界等信息.结合车体运动轨迹,可以检测出一些高层的运动信息,例如车辆换道等.图8线特征鸟瞰投影结果Fig.8Projected line segments on bird eye view4.2.2拥堵路段拥堵路段实验场景在四环主路,车流量大,行驶速度缓慢,道路笔直,多处有过街天桥.车辆由北向南行驶,起始点坐标为(39.9544800,116.3031370),行驶时间约为2分30秒,全长约1800米,共采集450帧关键帧,期间做了若干次换道.实验中未使用地图信息,而利用前一帧的处理结果,推测当前帧道路结构.实验结果如图9所示,其中点虚线、虚线和实线轨迹分别表示本文算法、libviso2和GPS/IMU 的结果.libviso2的结果在第22帧和第229帧附近有两处较大偏差(如图9中A 区域和B 区域所示),原因是一辆环境车占据了图像中很大区域,且进行换道,即包含相对于车道的横向运动.图像中该车上的特征点为实验车的运动估计带来干扰,特别是在朝向求解上(如图10所示).另外,实验路线中多处经过过街天桥.这些天桥对卫星信号造成遮挡或干扰,使得经过天桥时,GPS 定位结果出现很大偏差.如图9中C 区域所示,GPS 轨迹呈现约10米的偏差.相比之下,本文算法的结果在朝向及位置估计上均稳定可靠,结果优于GPS 和libviso2.图9拥堵路段中的定位结果Fig.9Localization results in high traﬃcenvironment图10拥堵路段中的朝向计算结果Fig.10Yaw results in high traﬃc environment4.2.3密集街道密集街道场景在北京上地信息路附近区域.车辆行驶了约6分30秒,全长约2000米,采集了3800帧视频数据,期间做了若干次换道和左右转弯.定位结果如图11所示,其中点虚线、点线和虚线,实线轨迹分别表示本文算法、Orb-SLAM 、libviso2和GPS/IMU 的结果.由于Orb-SLAM 算法存在平移尺度漂移,为了更好地比较结果,利用车速信息将平移尺度修正.图11所示结果中,libviso2的结果在几次转弯后出现明显偏差,而本文算法和Orb-SLAM 误差相对较小.以GPS 值作为参考值计算误差,本文算法精度高于Orb-SLAM (数值对比结果见表1).在本场景中,部分区域没有车道线信息,且由于路边停放的车辆,道路边沿被遮挡,道路结。

如何解决计算机视觉技术中的特征提取与匹配问题

如何解决计算机视觉技术中的特征提取与匹配问题计算机视觉技术的发展给人类的生活带来了巨大的变化。

特征提取与匹配是计算机视觉技术中的关键问题之一。

在计算机视觉中，特征提取是指从图像或视频中提取出具有明显差异和可区分性的特征点或特征描述子；而特征匹配则是指将不同图像或视频中的特征点或特征描述子进行匹配，以实现图像或视频的对应关系。

本文将重点探讨如何解决计算机视觉技术中的特征提取与匹配问题，并提供一些解决方案。

首先，为了解决特征提取与匹配问题，我们需要选择适合的特征点检测算法和特征描述子生成方法。

特征点检测算法可以通过检测图像中的角点、边缘或斑点等方式来寻找具有明显差异的特征点。

一些经典的特征点检测算法包括Harris角点检测算法、SIFT算法和SURF算法等。

而特征描述子生成方法则是将特征点的局部特征转化为向量表示，便于后续的特征匹配。

一些常用的特征描述子生成方法有SIFT描述子、SURF描述子和ORB描述子等。

选择适合的特征点检测算法和特征描述子生成方法是解决特征提取与匹配问题的关键一步。

其次，为了提高特征匹配的准确性和鲁棒性，我们可以采用一些特征匹配算法来进一步优化匹配结果。

经典的特征匹配算法包括最近邻匹配、最近邻距离比匹配和RANSAC算法等。

最近邻匹配是指在特征空间中，对于每个查询特征点，找到其在目标图像中最相似的特征点。

最近邻距离比匹配是在最近邻匹配的基础上，通过比较最近邻和次近邻的距离，来判断匹配的唯一性和准确性。

RANSAC算法则是一种基于随机抽样一致性的方法，通过随机选择一组特征点进行匹配，并通过迭代选择最好的匹配模型，来提高匹配的准确性和鲁棒性。

除了选择合适的算法以外，我们还可以结合机器学习的方法来解决特征提取与匹配问题。

机器学习可以通过大量的数据训练来学习特征的表示和匹配模型，从而提高特征提取和匹配的准确性和泛化能力。

近年来，深度学习在计算机视觉领域取得了巨大的突破，特别是在特征提取和匹配方面。

一种改进SOM的双目视觉特征点快速匹配方法

一种改进SOM的双目视觉特征点快速匹配方法
王磊;孟祥萍;纪秀
【期刊名称】《微型机与应用》
【年(卷),期】2015(34)4
【摘要】针对未知非结构化室内环境中双目视觉机器人路标特征匹配的问题进行了研究,提出了基于改进自组织映射网络(Self-Organizing Map,SOM)的双目视觉特征点快速匹配方法.对双目视觉获取的环境图像提取SIFT特征向量作为改进SOM的输入,利用获胜者计算技术完成对输入SIFT特征点的快速匹配,SOM竞争学习过程中用街区距离与棋盘距离的线性组合作为相似性度量函数.实验结果表明,所提方法在路标特征匹配的时间和效果上优于传统SIFT和SURF特征匹配的方法,且能满足实时性要求.
【总页数】4页(P43-45,48)
【作者】王磊;孟祥萍;纪秀
【作者单位】长春工程学院电气与信息工程学院,吉林长春130012;长春工程学院电气与信息工程学院,吉林长春130012;长春工程学院电气与信息工程学院,吉林长春130012
【正文语种】中文
【中图分类】TP242
【相关文献】
1.一种基于特征点三维信息的自然路标提取与快速匹配方法 [J], 苑全德;洪炳镕;关毅;朴松昊;蔡则苏;皮玉珍;
2.一种基于特征点三维信息的自然路标提取与快速匹配方法 [J], 苑全德;洪炳镕;关毅;朴松昊;蔡则苏;皮玉珍
3.一种改进的快速特征点信息匹配算法 [J], 刘佳;曹正文;孙德禄;邓雨晨
4.一种基于改进的SIFT特征点算法的无人机影像快速匹配研究 [J], 刘晓莉
5.基于改进网格划分统计的特征点快速匹配方法 [J], 陈方杰;韩军;王祖武
因版权原因，仅展示原文概要，查看原文内容请购买。

特征点匹配旋转平移变换矩阵

特征点匹配旋转平移变换矩阵全文共四篇示例，供读者参考第一篇示例：特征点匹配是计算机视觉中的一个重要领域，它通过检测图像中的关键点，然后在不同图像之间进行匹配，从而实现物体识别、图像配准等任务。

而在进行特征点匹配时，通常需要对图像进行旋转、平移等变换，这就需要使用旋转平移变换矩阵来实现。

在进行特征点匹配时，最常用的算法之一是基于SIFT算法的特征点匹配。

SIFT算法是一种用来检测和描述图像中的局部特征的算法，它能够在不同尺度和旋转角度下检测出图像的关键点，并生成对应的特征向量。

通过比对两幅图像中的特征向量，就可以实现特征点的匹配。

在进行特征点匹配时，通常需要考虑到图像之间可能存在的旋转、平移等变换。

对于旋转变换，我们可以通过计算两幅图像之间的旋转角度，并利用旋转矩阵来进行坐标变换，从而实现特征点的匹配。

而对于平移变换，则可以通过计算两幅图像之间的平移向量，并利用平移矩阵来进行坐标变换。

旋转平移变换矩阵的一般形式为：\[\begin{pmatrix}x' \\y' \\1\end{pmatrix}=\begin{pmatrix}cos\theta & -sin\theta & t_x \\ sin\theta & cos\theta & t_y \\ 0 & 0 & 1\end{pmatrix}\begin{pmatrix}x \\y \\1\end{pmatrix}\]\( \theta \)为旋转角度，\( t_x \)、\( t_y \)为平移向量，\( x \)、\( y \)为特征点的坐标。

通过将特征点的坐标与旋转平移变换矩阵相乘，就可以得到经过变换后的特征点的新坐标。

特征点匹配与旋转平移变换矩阵在计算机视觉领域中具有重要的应用价值。

通过对图像中的特征点进行匹配，并利用旋转平移变换矩阵实现图像的变换，可以实现物体识别、视觉导航、图像配准等多种应用。

CVPR2017目标跟踪论文LMCF

CVPR2017目标跟踪论文LMCF文章链接：Large Margin Object Tracking with Circulant Feature Maps链接：/abs/1703.05020终于有机会在专栏介绍一下自己的工作Large Margin Object Tracking with Circulant Feature Maps （LMCF），文章已经被CVPR 2017接收，欢迎大家讨论、拍砖。

在Tracking这个领域，我觉得可以分成两大类，第一类主要关注效果的提升，比如MDNet，TCNN(https:///p/25312524)，他们确实把效果做的很好，在数据集上的结果刷的很高，但是速度非常慢，无法满足实时性要求。

另一类则比较关注跟踪速度，比如Staple(https:///p/25312595)，GOTURN。

当然了，在保证的速度的同时也要保证效果。

我之前比较关注第二类，主要是考虑到跟踪的实时性应该是第一考虑要素，在此基础上做了LMCF，比较幸运地被CVPR 2017接收。

目前正在思考第一类工作，并思考如何将这两类更好地结合。

本篇文章主要还是在介绍我们LMCF的工作。

1. Motivationo1.1 整个算法思路结构化SVM与传统SVM相比有着强大的判别力，而相关滤波有着速度上惊人的优势，是否能够结合这两者，得到一种既高速又高效的跟踪算法呢？在相关滤波（KCF [1]）或者说它的前身CSK出来之前（当然最早用相关滤波的是MOSSE [2]），结构化SVM（Struck [3]（2011 ICCV））是一种效果很好的跟踪算法，主要是由于其强大的判别特性（Discrimination）。

Struck用Structured output SVM作为分类器，也就是结构化SVM。

这是一种输出空间可以是任意的复杂形式的SVM 分类器，比如说序列、树等。

在Struck中，输出空间是目标相对于上一帧的平移位置信息（），确实在当时取得了非常好的效果。

基于特征矢量的不同分辨率图像匹配方法

150
刘超等
一种匹配输出。特征矢量由多个矢量因子组成，每一项因子对应特征的某一方面信息，矢量因子空间相互正交，以保证用于表征所选取特征的特征信息具有唯一的可识别性。
3.1. 可测量角点及角点类型定义
角点可能由两条或者多条直线构成[8]。由两条直线构成的角点，其角度有唯一值，可以提供明确的角度信息；而由多条直线构成的角点，则具有更加明显的结构特点，可以提供角点的结构信息。但由多条直线构成的角点，在对其进行类型判定时会显著提升计算复杂度，所以本文着重研究 X 型、Y 型和 V 型角点，并对角点定义准则如下：准则 1：以角点为起始点的边界必须不大于 4 条且不少于 2 条；准则 2：边界均需具有一定的长度；准则 3：边界上的像素点必须在近似直线段上；准则 4：X 型角点必须是两条边界的交叉；准则 5：Y 型角点必须是三条边界相接或两条成 90˚夹角的边界相接。
148
刘超等
e
USAN
a
b c
d
object Background
Figure 1. Diagram of SUSAN operator 图 1. SUSAN 算子示意图
结构信息，区域大小反映了图像局部特征的强度。当模板完全位于背景或目标内部时，模板中的 USAN 面积最大，如图中 e, d 所示；当模板逐渐移动到边缘时，USAN 面积逐渐减小，如图中 b, c 所示；当模板移动到角点位置时，USAN 面积到达最小，如图中 a 所示。 USAN 区域面积的计算公式如下：
Journal of Image and Signal Processing 图像与信号处理, 2017, 6(3), 147-159 Published Online July 2017 in Hans. /journal/jisp https:///10.12677/jisp.2017.63018

opencv成长之路：特征点检测与图像匹配

OpenCV成长之路(9)：特征点检测与图像匹配特征点检测与图像匹配称兴趣点、关键点，它是在图像中突出且具有代表意义的一些点，通过这些点我们可以用来识别图像、进行图像配准、进行3D重建等。

本文主要介绍OpenCV中几种定位与表示关键点的函数。

一、Harris角点角点是图像中最基本的一种关键点，它是由图像中一些几何结构的关节点构成，很多都是线条之间产生的交点。

Harris 角点是一类比较经典的角点类型，它的基本原理是计算图像中每点与周围点变化率的平均值。

(1)(2)其中I(x+u,y+u)代表了点(x,y)邻域点的灰度值。

通过变换可以将上式变化为一个协方差矩阵求特征值的问题(2)，具体数学原理本文不过多描述。

OpenCV的Hairrs角点检测的函数为cornerHairrs()，但是它的输出是一幅浮点值图像，浮点值越高，表明越可能是特征角点，我们需要对图像进行阈值化。

我们使用一张建筑图像来显示：int main() { Mat image=imread("../buliding.png"); Mat gray; cvtColor(image,gray,CV_BGR2GRAY);Mat cornerStrength;cornerHarris(gray,cornerStrength,3,3,0.01);threshold(cornerStrength,cornerStrength,0.001,255,THRESH_B INARY); return 0; } 首先我们来说明一下cornerHairrs()这个函数参数的意思：前2参数是输入与输出，输入是一个灰度图像，输出是一个浮点图像，第三个参数指定角点分析的邻域，第4个参数实际上在角点求取过程中计算梯度图像的核窗口大小，第5个参数是它原理公式(2)中的一个系数。

从上面的例子的结果我们可以看到，有很多角点都是粘连在一起的，我们下面通过加入非极大值抑制来进一步去除一些粘在一起的角点。

单目视觉（5）：SFM之特征点匹配（四）

单⽬视觉（5）：SFM之特征点匹配（四）SFM之特征点匹配(四)引⼊在经过对每幅图像进⾏特征提取之后，可以发现在⼀幅图像中存在⾮常多的特征点（特殊情况下可能特征点很少）。

那么如何去找出不同图像中的哪些特征点反应在现实世界中是同⼀个物理坐标呢？这需要做的⼯作就是对两幅图像中的特征点进⾏匹配。

相似性如何判别分别在两幅图像中的特征点是同⼀个呢？也就是说需要着⼀种⽅法或者标准来衡量两个特征点之间的相似程度。

我们称这种标准或⽅法为相似性度量。

这个是可以通过⾃⼰定义的⽅法，并没有⼀个统⼀的标准。

因此，不同的度量标准对结果的精确性也有⼀定的影响。

常⽤的相似性度量有各种距离，⾓度等。

可以参看：匹配匹配过程解决的是：在参考图像中的⼀个特征点，如何从⽬标图像中的所有特征点中找出与之相对应的特征点。

假设以常见的欧⽒距离作为相似性度量标准。

我们使⽤提取的特征点（⽤特征向量来描述），那么计算欧式距离就是两个点的距离。

其”暴⼒“计算过程中，对于任意的两个点，每⼀维都进⾏运算。

那么当维度很低，特征点较少时，暴⼒计算也是可⾏的。

但是，⼀旦维度很⾼，加之由于复杂场景导致的更多的特征点数量，“暴⼒”计算是⼀个⾮常不明智的⽅法。

因此，需要选在⼀种能有效减少计算复杂度和计算耗时的算法。

快速近邻匹配（Approximate Nearest Neighbors Match）的有⼀系列的办法可以实现。

其中很有效的⽅法是随机K-d树和优先搜索K均值树。

在OpenCV中的FLANN(fast library for approximate nearest neighbors)集成了包括这两种算法在内的多种算法。

K-d树（K-dimensional Tree）a. 经典KD树经典的kd树是将数据集排列成⼀个类似⼆叉树，每个节点表⽰超平⾯的⼀个区域范围。

在理想的情况下，⼆叉查找树的⽗节点与节点是靠近⽐较近的，⽽与其他节点的距离离得⽐较远。

那么，在⼤量的数据中查找某个特殊的值，只需要依靠⼆叉查找树就能很好的解决搜索问题。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

GMS:Grid-based Motion Statistics for Fast,Ultra-robust Feature Correspondence
Yanshan University
GMS:Grid-based Motion Statistics for Fast,Ultra-robust Feature Correspondence
10/40
Feature Matching Introduction
特征匹配的实现
（如何把两张图片中相同的部分找到，再匹配起来呢？）
• 在CODE和RepMatch之前的算法虽然可以实现功能，但是质量不高，实际是没法应用的，CODE算法和RepMatch算法解决了之前不能实现的问题，实现了提升鲁棒性；
• 特征匹配的目的是去实现别的用途，做三维重构、机器人导航，对速度要求是很高的；
• GMS算法是对CODE和RepMatch的算法优化，主要是对时间的一个优化，前面的算法虽然好，但是很慢。
Yanshan University
GMS:Grid-based Motion Statistics for Fast,Ultra-robust Feature Correspondence
7/40
Feature Matching Introduction
• 请看两张拍摄于不同角度的图片
Yanshan University
Yanshan University
GMS:Grid-based Motion Statistics for Fast,Ultra-robust Feature Correspondence
5/40
Feature Matching Introduction
Yanshan University
GMS:Grid-based Motion Statistics for Fast,Ultra-robust Feature Correspondence
GMS:Grid-based Motion Statistics for Fast,Ultra-robust Feature Correspondence
8/40
Feature Matching Introduction
• 由上面这两张拍摄于不同角度的图片可以看出，如果把两张图片中对应的点连接起来，它们会有一种对应的关系，这种关系可以用数学方程表示，每一个匹配（或者说这种一一对应的关系、一致性）就相当于方程的一个解，如果有了足够多的正确匹配，就可以用这些点去估算方程的参数，就相当于知道了两张图片对应的几何关系；
2/40
Some Background
GMS算
Yanshan University
GMS:Grid-based Motion Statistics for Fast,Ultra-robust Feature Correspondence
3/40
Some Background 作者和论文情况
• 边佳旺，新加坡科技设计大学助理研究员，此篇论文发于2017 年6月，CVPR的一篇文章，是最新的关于特征匹配的文章；
•《GMS:Grid-based Motion Statistics for Fast,Ultra-robust Feature Correspondence》，基于网格的运动统计，用于快速、超鲁棒的特征匹配。主要阐明了Robust Feature Matching and Fast GMS Solution（超强健的特征匹配和GMS算法）问题；
6/40
Feature Matching Introduction
• 特征匹配：所谓特征匹配（FBM），就是指将从影像中提取的特征作为共轭实体，而将所提特征属性或描述参数（实际上是特征的特征，也可以认为是影像的特征）作为匹配实体，通过计算匹配实体之间的相似性测那么，有了正确的匹配，将相同的点匹配起来有什么作用呢？ • 两张图片的几何关系
（1）可以知道拿照相机的人从第一张照片到第二张照片的位置变化，可以知道旋转多少、平移多少，估计相机位置（机器人导航、三位重构的最重要一步）；
（2）Tracking（跟踪），如果将每帧相对应的几何位置准确的算出来，就可以画出一个轨迹（导航问题）；
• 相似度问题（1）图像检索（Google的定位功能，与数据库对比，找相似度最大的）；（2）对象的识别；（3）重新定位。
Yanshan University
GMS:Grid-based Motion Statistics for Fast,Ultra-robust Feature Correspondence
• Correspondence（一致性、匹配）的功能就是计算相机的移动，以及两张图片的一个关系。
Yanshan University
GMS:Grid-based Motion Statistics for Fast,Ultra-robust Feature Correspondence
9/40
Feature Matching Introduction
Yanshan University
GMS:Grid-based Motion Statistics for Fast,Ultra-robust Feature Correspondence
4/40
Some Background
作者和论文情况
• 在此之前关于特征匹配的文章有CODE（2016年PAMI）算法和RepMatch (2016年ECCV)算法；
1/40
Content
Some Background
背景知识
Feature Matching Introduction
特征匹配tchers
最新匹配算法
GMS Algorithm
GMS算法
Yanshan University
GMS:Grid-based Motion Statistics for Fast,Ultra-robust Feature Correspondence