激光雷达引导下的红外图像中行人检测

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

激光雷达引导下的红外图像中行人检测
魏丽;丁萌;曾丽娜;曾丽君
【摘要】This paper presents an algorithm of pedestrian detection and recognition by the integrate of 2D laser scanner and infrared image system. The algorithm can be divided into two main parts. Firstly, 2D laser scanner data is used to detect Regions Of Interest(ROI)of target by Robust Principal Component Analysis(RPCA), and a window filter is designed for filtering the foreground matrix obtained by RPCA. The result of the first part is the positions of ROIs in 2D laser scanner data. Secondly, the position obtained in the first part is projected into the plane of infrared image and the ROIs in the infrared image can be obtained. Based on ROIs, feature vector is extracted by sparse coding spatial pyramid matching and pedestrian detection is finished by support vector machine. The experimental results show the effectiveness of the algorithm proposed in this paper.%研究了一种利用激光雷达数据引导红外图像进行行人检测与识别的方法.首先针对激光雷达数据,提出了一种利用鲁棒主成分分析进行目标感兴趣区域检测的方法,进而设计了一种窗口滤波算法对前景矩阵进行滤波处理,得到目标感兴趣区域的位置信息.在此基础上,将该位置信息投影到红外图像中获取红外图像中的目标感兴趣区域,进而在红外图像感兴趣区域内利用稀疏编码金字塔算法和支持向量机完成行人识别.实验结果表明了该算法能够有效地完成行人识别.
【期刊名称】《计算机工程与应用》
【年(卷),期】2017(053)023
【总页数】6页(P197-202)
【关键词】激光雷达;红外图像;行人检测;鲁棒主分量分析;窗口滤波
【作者】魏丽;丁萌;曾丽娜;曾丽君
【作者单位】南京航空航天大学金城学院,南京 211156;南京航空航天大学民航学院,南京 211106;光电控制技术重点实验室,河南洛阳 471023;南京航空航天大学
民航学院,南京 211106;南京航空航天大学金城学院,南京 211156
【正文语种】中文
【中图分类】TP391.4
行人检测一直是计算机视觉的主要研究课题之一,其被广泛应用于视频监视、图像理解与智能交通等多个领域[1-3]。

现有行人检测与识别算法的最大问题之一是算
法的实时性较差。

一般而言,基于图像的目标检测算法可以分为两个部分:目标感兴趣区域(Regions Of Interest,ROI)检测与目标识别,其中后者大都采用分类学习的方法,所需的分类器(classifier)可以离线训练,在线识别的计算量相对
较小,而ROI检测是提高整个算法实时性的关键。

目前,ROI检测算法大体分为
基于运动、基于立体视觉、基于图像特征(如显著性分析方法和区域分割方法等)以及基于规则等方法[4]。

上述方法都是仅仅针对图像本身进行处理,基本上都需
要完成对图像数据的遍历,因此在实时性上很难有本质上的提高与改善。

随着雷达技术的发展,特别是小型民用雷达设备(如低功耗小型激光雷达)的普及,可以利用激光雷达引导完成图像中的ROI检测。

按照雷达种类的不同可以将基于
雷达的方法分成基于多层雷达[5]以及基于单层雷达[6]的方法等。

文献[7]为了提高ROI生成的准确性,采用将雷达点按照深度约束聚类得到ROI,之后通过对障碍
物的跟踪以及对象识别判断是否为单人或者多人;文献[8]跟踪雷达点,判断其是
否为运动对象,将基于网格的极坐标占据图与运动信息相结合,从而使得3D位置信息和运动信息融合在一起,提高ROI的分割精度;文献[9]采用由粗到细的方式,首先对雷达点进行粗略的聚类分割,之后将聚类区域细分为躯干、手臂、局部遮挡以及噪音,最后结合3D几何信息(深度信息)生成最终的ROI。

上述方法主要是针对激光雷达的单帧数据进行处理,其所包含的信服丰富度较低,因此得到的
ROI的分割效果并不明显,本文重点针对多帧激光雷达数据同时进行处理,可以
得到对应于多帧红外图像的ROIs。

由于激光雷达提供的线阵数据总体上远远小于
图像面阵数据,因此基于激光雷达数据完成ROI检测可以有效提高实时性。

为此,本文首先利用雷达数据进行ROI检测,即通过激光雷达检测出目标ROI的
位置信息,将位于可能运动目标上的雷达点映射回相应的红外图像区域,从而在图像中有效地完成ROI分割,最后在红外图像中针对ROI区域完成目标识别。

算法
的结构图如图1所示。

本文将鲁棒主成分分析(Robust Principal Component Analysis,RPCA)应用于基于激光雷达数据的ROI检测,并设计了自适应窗口滤波算法,对RPCA分解
后得到的包含运动目标的稀疏矩阵进行了滤波处理,降低噪声对ROI检测结果的
干扰。

RPCA的基本原理是将原始矩阵分解成一个低秩矩阵A和稀疏矩阵E之和[10],本文将其应用到激光雷达的ROI检测中,由于激光雷达数据的更新高,因此可以认
为在短时间内激光雷达所采集的数据是基于静态背景下的数据,因此在二维激光雷达的扫描平面上,除了可能存在的运动目标(如行人)之外,相邻帧之间的背景都是相似的,位于同一低秩的子空间内,而那些潜在的运动目标通常只占整个场景中的一小部分,符合稀疏性的约束条件。

因此,运用RPCA的方法,可以将短时间
内连续多个扫描周期的激光雷达数据构造的原始数据矩阵,分解成低秩背景矩阵和含运动目标信息的稀疏矩阵(如图2)。

激光雷达一个扫描周期获得的数据称为一帧。

对于连续k帧激光雷达距离数据,它们可以分别由列向量d1,d2,…,dm来表示,所以RPCA方法中,输入的原始矩阵D,可以表示为:
其中m为一帧激光雷达数据中所包含的扫描点的个数,每一列di代表第i帧激光雷达距离数据。

当前RPCA算法中,具有代表性的有加速逼近梯度法[11](Accelerated Proximal Gradient,APG),增广拉格朗日乘子法[12](Augmented Lagrange Multiplier method,ALM)。

相较于APG算法,ALM有更高的精确度,更好的收敛率和较少的迭代次数,因此本文采用ALM求解低秩矩阵和稀疏矩阵。

由于篇幅有限,ALM算法思想本文在此不赘述。

理想情况下,背景在序列激光雷达数据中是稳定的,得到的低秩矩阵A的每一列都表示背景区域,稀疏前景矩阵E中每一列的非零值(不包括极小非零值)代表的是运动目标。

但是,由于噪声干扰,RPCA分解得到的稀疏矩阵E不仅包含着运动目标的信息,而且还包含代表非运动目标信息的极小非零点。

因此,想要准确地获得运动目标的信息,需要对RPCA分解得到的稀疏矩阵E进行进一步处理,即对E矩阵中的元素进行滤波。

在进行滤波之前,首先对稀疏矩阵E进行更新,将矩阵E中极小非零的元素归零,即将E矩阵中元素的绝对值小于阈值v的元素归零,得到新的稀疏矩阵E′。

2.2.1 算法原理
激光雷达在使用过程中经常会受到噪声干扰,这些噪声主要分为有源干扰与混合像素干扰两大类。

为此,在对稀疏矩阵中的ROI进行检测之前,需先对稀疏矩阵E′中的数据进行滤波处理。

一般来说,滤波主要是为了去除或减少经RPCA分解得到的稀疏矩阵中的代表噪声的非零值。

同时避免导致原本属于运动目标的非零点的损失。

因此滤波算法不但要求能够将噪声进行有效的抑制,同时也能最大程度地保
留稀疏矩阵中代表运动目标的非零点。

由于单线激光雷达是等角度平面扫描,在理想状态下,应该是连续的,同一帧数据中的相邻扫描点具有很大的相关性。

考虑到运动目标通常具有一定的宽度,表现在一帧激光雷达中,一般可覆盖连续多个扫描点。

根据上述数据特性,本文提出了一种自适应窗口滤波算法。

该滤波算法基本思想是:首先选取稀疏向量中的一个非零数据,然后以该非零数据所在位置为起点建立合适大小的窗口,如果此窗口内非零数据点个数小于设置的阈值,那么该非零数据点被认作为噪声点,重复上述操作过程,利用大小不同的窗口对稀疏矩阵中的所有非零数据进行处理。

该滤波方法进行滤波处理的效果很大程度上依赖于滤波窗口大小的选取,选取合适的滤波窗口,不仅能够有效地滤除噪声,而且能够很好地保留运动目标的信息。

由于激光雷达的数据密度会随着扫描的距离变化而变化,距离激光雷达原点越近则数据密度越高,越远则数据密度越低,因此相同宽度的目标,距离激光雷达原点越近,覆盖的连续扫描点的个数越多,反之,则越少,因此本文滤波窗口大小T的选取
与目标的宽度及距离有关。

综上所述,本文的自适应窗口滤波的方法包含以下步骤:
步骤1由于经过分解并更新后得到的E′矩阵中的元素值已经不再是激光雷达采集
得到的距离值,故将矩阵E′中的全部非零值转化为原始数据矩阵D中对应位置的值,得到新的稀疏矩阵EN,EN∈ℝm×k,令 j=1,t=1。

步骤2如果j≤k,取矩阵EN第j列数据(即单帧数据),统计第j列数组中非零
值的个数为Num。

步骤3如果t≤Num,取EN第j列数据中的第t个非零值ds,j(表示矩阵D中第j 列的第t个非零值在第s行,1≤s≤m),根据距离值ds,j的大小确定阈值T。

否则,j=j+1,转到步骤2。

T是一个自适应阈值,可利用下式计算得到:
其中是上取整函数,Width是运动目标的最小宽度,Δφ为(角度分辨率)两条相
邻扫描线之间的夹角。

步骤4 如果s>m-T,则令ds,j=0,且t=t+1,转到步骤3;否则,转到步骤5。

步骤5取ds,j后的T个数值建立数据分析窗口统计数据分析窗口P中T个测距数
据中的非零值的个数为q,如果T>q,则令ds,j=0,否则,ds,j保持不变。

步骤6令t=t+1,转到步骤3。

上述算法的流程如图3所示。

2.2.2 目标判定
经过上述滤波后的稀疏矩阵,每一列中的非零数据代表当前一次扫描的扫描范围内运动目标ROI区域与激光雷达的距离,由每一列中非零数据在矩阵中的位置可以
确定与该非零数据对应的运动目标ROI区域与激光雷达水平扫描线之间的角度,
从而得到扫描范围内运动目标ROI区域的距离、角度信息,实现对运动目标ROI
区域的检测。

在激光雷达检测出运动目标ROI区域的角度和距离信息后,利用激光雷达坐标系
与红外图像坐标系的转换关系,将其映射到红外图像中去,得到运动目标ROI区
域在红外图像中的位置信息,进而可以获取图像的感兴趣区域;在此基础上,将稀疏编码、空间金字塔模型和SIFT特征相结合,实现对ROI图像区域的行人识别。

为了将激光雷达数据准确地投影到相应的图像上去,从而在图像中只提取感兴趣的区域,首先选取同一时刻采集到的激光雷达数据和红外图像。

该帧激光雷达数据经过ROI检测后,共检测出n个ROI区域,即保留有n个ROI点簇。

对于每个点簇,取该点簇起始点A(ρk,θk)和终点B(ρl,θl)。

由于激光雷达是水平安装的,可认为激光雷达扫描面与地平面平行,找到第一个点A在地平面的投影点C,于是,
这两点间的距离近似等于激光雷达的安装高度h。

若已知目标的高度H,寻找点D,使得|AD|=H-h,且|CD|=H,可得点A,B,C,D在激光雷达坐标系中的坐标为:通过激光雷达与相机的标定,已经建立了雷达极坐标与图像像素坐标的对应关系。

利用这一关系,将这组将激光点比较精确地投影到图像中去,就可以得到激光点在图像中的坐标:
在图像平面上,可以得到一个矩形框。

由于在对激光雷达数据进行ROI检测过程中可能会丢失部分原本属于ROI上的数据点,导致检测得到的障碍点簇的宽度比实际ROI的宽度小,另外,对目标高度的估计也可能比实际的目标高度要低,因此,为了保证本文算法的鲁棒性,将上述行人识别的感兴趣区域略微扩大。

将矩形框左右各延长Δu个像素,上下各延长Δv个像素,所形成的矩形框内的图像作为识别的ROI区域(如图4)。

针对提取的单个ROI图像块,需要进行目标类型的识别。

识别算法一般由两个部分构成:特征提取与分类器设计。

其中特征提取部分本文采用ScSPM(Sparse coding Spatial Pyramid Matching)方法[13-14],该方法以尺度不变特征(Scale-Invariant Feature Transform,SIFT)为基础[15]利用稀疏编码在SPM 架构下建立目标的稀疏特征,该特征是建立在非监督特征学习的基础上,相较于传统的SIFT、HOG、LBP等特征提取方法,其得到的特征向量对于不同目标可分性更高,可以利用简单的分类器完成不同类型的分类。

ScSPM的算法流程如下:
输入待提取特征的单个ROI区域
输出 ScSPM特征向量
步骤1将ROI区域设置为固定大小,本文算法为128 pixel×64 pixel。

步骤2将ROI区域划分为若干子区域,单个子区域为g1 pixel×g1 pixel;其中相邻子区域之间的重叠度为g2 pixel,本文算法中g1=16,g2=10。

步骤3对每个子区域提取一个SIFT特征。

步骤4对每个SIFT特征进行稀疏编码,得到每个特征向量的稀疏表示,本文算法字典为128×1 024。

步骤5对图像块进行金字塔表示,将根据不同的划分尺度τ,对二维平面图像进行
不同尺度的划分,本文算法中τ=3层(τ=0,1,2)。

步骤6对每个图像子块中对应的稀疏向量进行特征池化(pooling)。

本文利用最大
值池化(max-pooling)进行特征融合;
步骤7特征合并完成目标特征提取,本文得到一个长度为1 024×21=21 504维
的特征向量。

综上所述,基于ScSPM的目标识别首先对ROI图像块提取SIFT特征向量,其次
在空间金字塔框架下以稀疏编码为基本手段对所提取的特征作进一步的抽象,最后以特征池化思想为基础,实现局部与全局特征的融合,完成整个特征提取的过程;分类器设计部分利用支持向量机为基础设计分类器。

本文的实验由两个部分组成,首先是基于激光雷达数据的运动目标ROI检测实验,用以验证激光雷达数据中基于RPCA的目标ROI检测算法;其次是基于激光雷达
数据引导的红外图像目标识别实验,用于验证本文所提出的整个算法。

本文在室外环境下针对行人目标的ROI检测进行了实验。

实验采用二维激光雷达UTM-30LX,扫描的范围为270°,扫描的最大距离为30 000 mm,两条相邻扫
描线间的夹角为0.25°,每帧数据包含1 081个扫描点。

在实验中,首先采集连续的3 482帧激光雷达数据构造原始矩阵D,利用RPCA
对原始矩阵D进行分解得到背景矩阵A和稀疏矩阵E,将矩阵E更新后进行滤波
处理。

下面以单帧数据进行具体分析。

图5(a)为单帧激光雷达原始数据(单位:mm)转化为直角坐标形式的图,图5(b)为该帧激光雷达数据同步采集的红外
图像,图5(c)为RPCA分解后属于背景部分的扫描点数据,图5(d)为RPCA 分解后属于前景(即运动目标)部分的扫描点数据。

由于室外环境相对比较复杂,因此经过分解后的前景数据中包含有大量的噪声点。

由图5(e)可知:经过本文
的滤波算法处理后,可以发现绝大部分的噪声点已被去除,但是还存在部分噪声点被错误划分为了运动目标。

这是因为滤波结果和滤波窗口相关参数的选择有着一定
的关系,在实验中所选择的窗口参数是一个经验值,同时考虑到这些错误数据点可以在识别算法中加以处理,也就是说,ROI的数量可以大于等于目标的数量,因
此在评价这一滤波算法时,本文只考虑其漏检率,而过检测的问题可以在识别过程中加以解决。

将上文实验中检测得到的ROI距离、角度信息投影到相应红外图像上,得到的图
像中的ROI区域,如图6所示。

图6中,红色点表示雷达中的ROI区域在红外图像中的映射点,蓝色框表示由红
色映射点所形成的矩形框,该区域经过扩大之后的区域就是ROI区域,由红色框
表示,可以发现行人目标都在矩形范围之内。

在提取SIFT特征时,图像先进行缩放,使得待识别ROI区域的大小为128
pixel×64 pixel,局部块的大小选取为16 pixel×16 pixel,在图像上水平或垂直
平移8个像素的距离,从而在每个特征点上提取得到的SIFT特征的维数为128维。

在ScSPM特征表达中,稀疏字典的规模为128×1 024,金字塔选取3层,分别
可以划分为1×1,2×2,4×4的子区域,于是,RBF-ScSPM特征表达时,得到的图像特征维数为(1+4+16)×1 024。

利用ScSPM与SVM相结合的方法对图7中的ROI区域进行目标识别的,识别结果如图7所示,由此有效完成了行人检测。

图8是不同背景下的行人检测结果。

从图8可知,本文所提出的利用激光雷达数据引导红外图像进行行人检测与识别
方法能够有效地完成对红外图像中行人目标的检测与识别。

相比于传统的基于滑窗法或是目前被广泛研究的基于显著性分析的ROI区域检测方法,本文方法所获取
的ROI区域的数量大大减少,也使得识别算法的运行次数大为降低,同时由于
ROI提取精度的提高,使得无需在识别的基础上再进一步利用非最大抑制进行最
后识别结果的整合。

本文研究了一种利用激光雷达数据引导红外图像进行行人检测与识别的方法。

通过
对激光雷达数据的处理,获得了ROI,并将其投影到红外图像中,降低了在图像
中进行目标搜索的复杂度,提高了行人检测的实时性。

本文的主要工作如下:(1)针对激光雷达数据,本文首先提出了一种利用鲁棒主成分分析进行运动目标检测的方法。

通过激光雷达获取连续多帧激光雷达数据构造原始数据矩阵D,通
过 RPCA计算低秩矩阵A和稀疏矩阵E;在此基础上设计窗口滤波算法对更新后
的矩阵E的每列进行滤波处理,得到ROI的深度、角度信息,并且通过实验表明
了该算法具有良好的准确性。

(2)研究了基于激光雷达数据引导的红外图像ROI区域提取的方法,然后在红外图像ROI区域上进行目标的识别,通过实验表明了该算法能够进一步剔除ROI检测的错误,有效地完成了行人检测与识别。

【相关文献】
[1]Dollar P,Wojek C,Schiele B,et al.Pedestrian detection:an evaluation of the state of the art[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(4):743-761.
[2]Geronimo D,Lopez A M,Sappa A D,et al.Survey on pedestrian detection for advanced driver assistance systems[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(7):1239-1258.
[3]Dollar P,Wojek C,Schiele B,et al.Pedestrian detection:a
benchmark[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2009:304-311.
[4]许腾,黄铁军,田永鸿.车载视觉系统中的行人检测技术综述[J].中国图象图形学报,2013,18(4):359-367.
[5]Premebida C,Ludwig O,Silva M,et al.A cascade classifier applied in pedestrian detection using laser and imagebased features[C]//Conference Record-IEEE Conference
on Intelligent Transportation Systems,2010:1153-1159.
[6]Chong Z J,Qin B,Bandyopadhyay T,et al.Autonomous personal vehicle for the first-and last-mile transportation services[C]//IEEE International Conference on
Cybernetics&Intelligent Systems,2011:253-260.
[7]Gate G,Nashashibi F.Fast algorithm for pedestrian and group of pedestrians detection
using a laser scanner[C]//Intelligent Vehicles Symposium,2009:1322-1327.
[8]Aycard O,Baig Q,Bota S,et al.Intersection safety using lidar and stereo vision sensors[C]//Intelligent Vehicles Symposium(IV),2011:863-869.
[9]Oliveira L,Nunes U,Peixoto P,et al.Semantic fusion of laser and vision in pedestrian detection[J].Pattern Recognition,2010,43(10):3648-3659.
[10]Wright J,Ganesh A,Rao S,et al.Robust principal component analysis:exact recovery of corrupted low-rank matrices by convex optimization[C]//Neural Information Processing Systems,2009.
[11]Ganesh A,Lin Z,Wright J,et al.Fast algorithms for recovering a corrupted low-rank matrix[C]//2009 3rd IEEE International Workshop on Computational Advances in Multi-Sensor Adaptive Processing(CAMSAP),2010:213-216.
[12]Lin Z,Chen M,Ma Y.The augmented Lagrange multiplier method for exact recovery of corrupted low-rank matrices[J].Eprint arXiv,2010,9.
[13]Yang J,Yu K,Gong Y,et al.Linear spatial pyramid matching using sparse coding for mage classification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2009:1794-1801.
[14]Bao C Q,He L T,Wang Y L.Linear spatial pyramid matching using non-convex and non-negative sparse coding for image classification[C]//IEEE China Summit and International Conference on Signal and Information Processing(ChinaSIP),2015:186-190.
[15]Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(60):91-110.。

相关文档
最新文档