基于深度学习的车辆前方障碍物距离估测
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
㊀收稿日期:2022-11-08基金项目:安徽省教育厅高等学校科学研究项目(自然科学类)(2022AH052920)
作者简介:王玉堂(1983-)ꎬ男ꎬ安徽涡阳人ꎬ硕士ꎬ副教授ꎬ研究方向:大数据及人工智能.
㊀㊀辽宁大学学报㊀㊀㊀自然科学版第50卷㊀第3期㊀2023年JOURNALOFLIAONINGUNIVERSITYNaturalSciencesEditionVol.50㊀No.3㊀2023
基于深度学习的车辆前方障碍物距离估测
王玉堂
(安徽信息工程学院大数据与人工智能学院ꎬ安徽芜湖241199)
摘㊀要:随着科技进步ꎬ自动驾驶系统的应用在未来必形成一种趋势ꎬ而车辆与障碍物之间的距离估测是自动驾驶系统中一个非常重要的技术.为了达到距离估测的目的ꎬ目前开发的自动驾驶系统大都需要依靠各式各样的距离传感器ꎬ例如激光雷达㊁雷达及超音波等ꎬ这些传感器在距离量测上通常具有高精度ꎬ但同时也伴随着高昂价格ꎬ这使自动驾驶系统的推广及普及变得越来越困难.本文提出了一个结合语义分割与深度估测的深度神经网络模型ꎬ其包含有相同卷积层数的编码器与解码器网络ꎬ将本文所提之网络架构在KITTI及Cityscapes资料集上进行训练ꎬ并在最后结合语义分割与深度估测等方法进行距离估测ꎬ实验结果证实ꎬ本文所提方法具有可行性.
关键词:人工智能ꎻ深度估测ꎻ语义分割ꎻ深度学习
中图分类号:TP311㊀㊀㊀文献标志码:A㊀㊀㊀文章编号:1000-5846(2023)03-0248-10
DistanceEstimationofObstaclesinFrontofVehicles
BasedonDeepLearning
WANGYu ̄tang
(DepartmentofBigDataandArtificialIntelligenceꎬAnhuiInstituteofInformationTechnologyꎬWuhu241199ꎬChina)
Abstract:㊀Autonomousdrivingsystemsarethewaveofthefutureꎻforsuchsystemsꎬtheestimationofthedistancebetweenthevehicleandsurroundingobstaclesiskey.MostcurrentdistanceestimationmethodsrelyonavarietyofdistancesensorsꎬsuchasLiDARꎬradarꎬorultrasonicsensors.Althoughthesesensorsmeasuredistanceaccuratelyꎬtheirhighcosthindersthepopularizationofautonomousdrivingsystems.Toremedythisproblemꎬthispaperproposesadeepneuralnetwork(DNN)thatcombinessemanticsegmentationanddepthestimation.TheDNNincludesanencoderandadecoderꎬbothofwhichhavethesamenumberofconvolutionallayers.TheproposednetworkarchitecturewastrainedonboththeKITTIandCityscapesdatasets.Theproposedmethodprovidedaccuratedistanceestimationinevaluationtestsꎬdemonstratingits
㊀㊀
feasibility.
Keywords:㊀artificialintelligenceꎻdepthestimationꎻsemanticsegmentationꎻdeeplearning
0㊀引言
人工智能一直是人类向往的终极目标ꎬ而深度学习则是大家公认最接近人工智能的一种技术.近年来ꎬ深度学习在影像辨识㊁语音识别㊁医疗诊断和自动机器翻译等领域都有出色的表现ꎬ这都要归因于类神经网络的深度结构[1].
计算机视觉常见的应用有:影像分类[2-3]㊁物体侦测[4-6]以及语义分割[7-10]等.其中语义分割的任务是在像素等级上对整个影像进行实例分类ꎬ每个实例(或是类别)对应于影像中的物体或表示影像的一部分ꎬ例如人㊁车㊁道路及天空等.该任务也称为密集预测ꎬ该任务目标是用影像中的相应类别标记影像中的每个像素.语义分割对于场景理解非常的关键ꎬ可让深度学习模型更好地学习到环境中的全域视觉背景.
对于机器人[11]㊁自动驾驶[12]㊁3D环境重建及增强现实[13]等ꎬ深度感测是必要的技术.传统上ꎬ有关于道路前方障碍物的侦测与距离的判断ꎬ为了达到更可靠的感知能力ꎬ除了摄影机外ꎬ还需仰赖大量的传感器ꎬ其中包含超音波㊁雷达及激光雷达等.本文认为在这些传感器中ꎬ基于视觉感知的摄影机可提供车辆周遭环境最丰富的信息ꎬ其中包含颜色㊁纹理㊁物体形状以及外观等.这些都是其他形态的传感器所无法提供的.基于这个原因ꎬ本文提出一种基于行车记录仪摄影机的影像感知系统ꎬ利用摄影机所获取的影像来进行车辆前方的障碍物侦测与距离估算.
由Long等[14]所提出的全卷积网络是第一个端到端(End ̄to ̄end)语义分割的网络架构.全卷积神经网络(FCN)可使用任何大小的影像作为输入ꎬ并输出具有相同大小的分割影像.Long等首先修改了当前流行的卷积神经网络(CNN)架构ꎬ例如AlexNet㊁VGG16和GoogLeNet[15]等.在文献[14]中ꎬ他们采用卷积层替换所有的完全链接层ꎬ借以产生多个特征映射图ꎬ因此需要上采样(Upsampling)来让输入的特征图产生与输入相同大小的输出.通常上采样是由具有大于1的行跨度(Stride)的卷积层所组成.这种方式通常又称为反卷积或转置卷积ꎬ因为它产生的特征图大小大于输入.在FCN中ꎬ为了优化训练器ꎬ文中采用逐像素交叉熵损失来训练网络.此外ꎬ他们还在网络中添加了跳跃式连接的结构以产生更好的输出结果.在文献[14]中ꎬ他们使用ImageNet资料集来训练语义分割模型ꎬ在2011年PascalVOC分类挑战中获得62.2%平均交并比(MeanintersectionoverunionꎬmIoU)的评分.FCN虽然具有较高的mIoUꎬ但同时伴随着庞大的计算量.
近年来ꎬ语义分割任务的成功有赖于大型标记资料集的开源ꎬ其中较知名的有Camvid资料集[16]㊁Cityscapes资料集[17]㊁MSCOCO资料集与PascalVOC2012资料集[18]等.在国内ꎬ百度独创的资料集训练方法ꎬ被广泛应用在自动驾驶系统中ꎬ在一定程度上弥补了数据里程不足的问题.9
42㊀第3期㊀㊀㊀㊀㊀㊀王玉堂:基于深度学习的车辆前方障碍物距离估测
㊀㊀语义分割研究基本上可分成以下几个类型.
1)基于编码器-解码器的结构ꎬ其中比较著名的语义分割网络有FCN㊁SegNet与Fast-SCNN[19]等ꎬ其在PaperWithCodeBenchmarks上有关Cityscapes资料集的mIoU分别为65.3%㊁57.0%与68.0%等.2)基于注意力机制的结构ꎬ比较著名的方法有PSANet[20]㊁CAA(Channelizedaxialattention)[21]与MultiScaleSpatialAttention[22]等ꎬ其在前述Benchmarks上有关Cityscapes数据库mIoU分别为81.4%㊁82.6%与86.2%ꎬ其中文献[22]结合多尺度架构ꎬ目前取得第一的佳绩.由此可见ꎬ基于注意力机制与多尺度架构成为未来语义分割研究的趋势.
在单目深度估计(Monoculardepthestimation)的研究上ꎬ比较重要的数据集包含有KITTI[23-24]㊁Make3D[25]与NYU-DepthV2[26]等.近年来ꎬ有关深度估计方法ꎬ如运动结构恢复(StructurefrommotionꎬSfM)[27]以及立体视觉匹配(Stereovisionmatching)[28]ꎬ都是建立在多视点的特征对应
(Featurecorrespondences)上.深度估测方法基本上可分成以下几类:
1)基于几何的方法:通过几何约束ꎬ从几幅影像中恢复场景3D结构ꎬ代表的方法有SfM[29]ꎬ可通过影像序列间的特征对应及几何约束来处理稀疏特征的深度估测问题.因此ꎬ前述方法在深度估测的准确性方面ꎬ很大程度上与精确的特征匹配和高质量的影像序列有关.
2)基于传感器的方法:关于深度传感器ꎬ如RGB-D相机和激光雷达ꎬ能够直接撷取影像的深度信息.RGB-D相机能够直接撷取RGB影像的像素级密集深度图ꎬ其缺点为有限的测量范围与光照敏感性.在自动驾驶应用上ꎬ激光雷达是比较常用的方法ꎬ但仅能产生稀疏的三维地图.
3)基于深度学习的方法:这是目前最流行的深度估测方法ꎬ在KITTIBenchmarks的评分排行榜
上ꎬViP-DeepLab[30]在SILog的评分指标上排行第2.ViP-DeepLab是一个深度模型ꎬ其提出主要用来解决视觉中长期存在且具挑战性的反投影问题(Inverseprojectiveproblem)ꎬ透过建模可从透视影像序列中恢复点云ꎬ同时为每个点提供深度信息.1㊀研究方法
本文所提的深度神经网络如图1所示ꎬ在所提的网络架构中总共包含有6个主要的卷积区块ꎬ文中用Stage来表示.对于同一个Stageꎬ每个卷积层输出的特征图具有相同的大小和通道数.在1-6的Stage中ꎬ它们包含2-2-2-2-2-1层的卷积区块(Conv2Dblock)ꎬ输出通道的数量分别是32-64-128-256-512-1024.在本文中ꎬ所有卷积层都使用带有可学习加权参数的卷积核.池化层使用MaxPooling来缩小输出特征图的大小.在卷积层之后ꎬ应用批次正规化(BatchnormalizationꎬBN)来归一化卷积层输出的数据ꎬ以避免在反向传播中出现梯度消失的现象ꎬ然后再使用ReLU(Rectifiedlinearunit)活化函数ꎬ其可以保持正值不变ꎬ但会将负值设为0.
现在ꎬ将注意力转向Decoder网络的细节ꎬ其中每个Stage对应于Encoder网络的相同Stage.在
052㊀㊀㊀辽宁大学学报㊀㊀自然科学版2023年㊀㊀
㊀㊀Decoder网络中ꎬ每个卷积层表示为DC-Conv-m-nꎬ其中DCꎬm和n分别表示Decoder㊁Stage和Layer.对于语义分割结构的设计ꎬ大多数编码器网络都是相同的.唯一的区别在于解码器网络架构.在本文中ꎬ修改SegNet的Decoder网络ꎬ同时引入跳跃连接的构架.这个想法的灵感主要来自Lin等[31]提出的特征金字塔网络ꎬ该文确认了使用跳跃式连接结构时像素准确度(Pixelaccuracy)ꎬ具有较好的结果.
为了更清楚描述本文所提跳跃连接的细部结构ꎬ以第4个Stage为例来进行说明.首先ꎬ在Encoder网络中选择第4个Stage的最后一个卷积层ꎬ亦即EC-Conv-4-3ꎬ因为在同一个Stage中最深的卷积层可以提取最具辨识度的特征ꎻ然后ꎬ在Decoder网络中选择相应的卷积层ꎬ亦即DC-Conv-4-3ꎻ最后ꎬ再将这两个层进行跳跃连接ꎬ如图2所示.最后ꎬ再进行特征图放大以产生Upsampling-3层
.
图1㊀本文所提具有对称Encoder和Decoder语义分割的网络构架
152㊀第3期㊀㊀㊀㊀㊀㊀王玉堂:基于深度学习的车辆前方障碍物距离估测
㊀图2㊀本文解码器跳跃连接结构示意图(a)串接方法ꎻ(b)相加方法.
㊀㊀本文在语义分割解码器的跳跃连接处加入注意力机制ꎬ如图3所示.在图中ꎬ特征图影像X(维度:BSꎬHꎬWꎬC)为主干网络Stage-3Layer-3或Stage-4Layer-3的输出特征图.Y(维度:BSꎬHꎬWꎬC)为经注意力机制区块转换后之输出图ꎬ其大小与X相同ꎬ其中BS为批次量大小ꎬH与W分别为特征图的高与宽ꎬC为特征图之通道数量.注意力机制的设计理念:变异数与共变异数是统计学与机器学习中常用的统计量ꎬ其中变异数用来衡量随机变量与平均值间的平方偏差量ꎬ然而共变异数则是用来衡量两个随机变量间的相似性.基于此ꎬ随机变量间的分布愈相似ꎬ共变异数就愈大ꎻ相反ꎬ两者间的相似性愈低ꎬ共变异数就愈小.在本文中ꎬ可将特征图中的每一个像素点视为一个随机变量.因此ꎬ针对任一像素点(令为目标点)与所有其他像素点可计算其配对共变异数ꎬ如(x1ꎬx2)的配对共变异数为(x1-μ)(x2-μ)
.
图3㊀本文在编㊁解码器的跳跃连接中加入注意力机制内存块
㊀㊀设X为输入特征图ꎬ先将XɪRHˑW的形状重新调整为aɪRNˑ1ꎬ其中N=HˑWꎬH与W分别表示特征图的高与宽.
令a=b=c=[x1ꎬx2ꎬ ꎬxn]Tꎬ并令μ为平均值ꎬ因此共异变数CovNˑ1=(a-μ)(b-μ)Tꎬ进一步可计算注意力机制特征图为dNˑ1=CovNˑN cNˑ1⇒YHˑWꎬ最终特征图为原特征图与注意力机制特征图相加.
252㊀㊀㊀辽宁大学学报㊀㊀自然科学版2023年㊀㊀
㊀
㊀㊀2㊀结果与讨论
本文实验系统采用LinuxUbuntu18.04ꎬ开发环境为Python3.7.0ꎬ安装的函数库TensorFlow2.3.0和Opencv-python3.2.0.8.本文在Cityscapes资料集上进行所提深度神经网络在语义分割上的性能评估.而深度估测方面则在KITTI资料集上进行训练及评估.本数据集有大量的道路行车记录数据且包含大量的传感器记录的真实数据.在语义分割方面ꎬ本文采用mIoU指标评估影像中各个类别的分割效能.而深度估测评估度量则是采用RMSE(Rootmeansquareerror)及准确性.
在本文中ꎬ使用TensorFlow来实现本文所提的深度神经网络架构.本文所提架构在Cityscapes资料集上进行及mIoU评分分别定义如公式(1)和(2)所示.
PA=ðC
i=0PiiðCi=0ðCj=0Pij(1)mIoU=1C+1ðCi=0PiiðCj=0Pij+ðCj=0Pji-Pii(2)
式中:C是要预测的总类别数ꎬ由于背景也需要考虑进来ꎬ因此总类别数将增加为C+1ꎻPii表示该像素属于第i个类别ꎬ且被识别为第i类ꎬ因此它是真阳性ꎻPij表示像素属于第i个类别ꎬ但却被错误地辨识为第j个类别ꎬ故其属于伪阴性ꎻPji则是将第j个类别错误地标示为第i个类别ꎬ故其属于伪阳性.
为了评价深度估测网络的性能ꎬ本文采用CNN估计单目图像深度[32]的评价方法ꎬ该评价方法有以下5个评价指标:RMSE㊁RMSElog㊁AbsRel㊁SqRel及Accuracyꎬ其定义分别如下:
RMSE=1NðiɪI di-d∗i 2(3)
RMSElog=1NðiɪI log(di+1)-log(d∗i-1) 2(4)
AbsRel=1NðiɪI|di-d∗i|d∗i(5)
SqRel=1NðiɪI di-d∗i 2d∗i(6)
Accuracy=%ofdis.tmaxdid∗iꎬd∗idiæèçöø
÷=δ<thr(7)式中:di与d∗i分别表示图像深度的预测值与真值ꎻI为图像ꎻN是图像的总点数ꎻthr分别采用1.25㊁1.252及1.253.以上指标主要用于评价图像深度真实值(Groundtruth)与预测值(Predictedvalues)间接近的程度ꎬ其中RMSE㊁RMSElog㊁AbsRel及SqRel等指标的值愈小代表深度网络的估
测性能愈好ꎻ反之ꎬAccuracy指标是愈大愈好.表1为在深度神经网络是否加入注意力机制对于语义分割性能的影响.由表可知ꎬ加入一层注352㊀第3期㊀㊀㊀㊀㊀㊀王玉堂:基于深度学习的车辆前方障碍物距离估测
㊀㊀意力机制内存块优于不加入注意力机制的内存块.同样ꎬ从图4(b)与图4(c)中看出ꎬ加入注意力机制内存块的语义分割性能是优于没有加入注意力内存块的.同时ꎬ由表1中亦可看出ꎬ当加入更多层的注意力机制内存块反而会劣化语义分割性能.
表1㊀针对深度神经网络构架中跳跃连接层是否加入注意力机制在Cityscapes数据集的
mIoU和Pixelaccuracy的评分结果
Method
mIoUPixelaccuracyNoattention
0.79580.8856Attention/Stage4
0.79610.8884Attention/Stage3&40.68570.811
5
图4㊀本文所提构架在解码器增加注意力机制在语义分割方面的视觉结果比较
(a)原图ꎻ(b)加入注意力机制之语义分割图ꎻ(c)无注意力机制之语义分割图.
㊀㊀在语义分割方面ꎬ本文所提出的构架在Cityscapes数据集上进行了训练与测试ꎬ并对本文提出的深度网络估测结果与文献[7]㊁[14]和[19]中相应的数据进行了比较.从表2中可以看出ꎬ本方法的mIoU值为79.6ꎬ优于SegNet的57.0ꎬFNC的65.3以及Fast-SCNN的68.0.
表2㊀本文所提方法与现代语义分割方法的mIoU评分比较
Approach
mloU/%Fast-SCNN[19]
68.0FCN[14]
65.3SegNet[7]
57.0Proposed(Attention/Stage4)79.6
㊀㊀在深度估测方面ꎬ本文所提出的构架在KITTI数据集上进行了训练与测试ꎬ评价图像深度真实值(Groundtruth)与预测值(Predictedvalues)间接近的程度.
将本文提出的深度网络估测结果与相关文献进行了比较ꎬ其中ꎬ在选用相同Depth的基础上ꎬ
452㊀㊀㊀辽宁大学学报㊀㊀自然科学版2023年㊀㊀
㊀㊀
RMSEꎬRMSElog指标小于参考文献[31-32]中的数据ꎬARD(Averagerelativedeviations)ꎬRSD(Relativestandarddeviations)等指标均高于参考文献[31-32]中的数据.由表3可看出本文所提出的深度神经网络架构在深度估测的各项评价结果都优于参考文献[31-32].
表3㊀本文所提方法与相关文献在深度估测性能方面比较
Lowerisbetter
HigherisbetterApproach
Depth/mRMSERMSElogARDRSDδ<1.25δ<1.252δ<1.253Coarse[32]
0~807.2160.2730.1941.5310.6790.8970.967Coars+Fine[32]0~807.1560.2700.1901.5150.6920.8990.967DCNF-FCSP[31]
0~807.046 0.217 0.6560.8810.958Proposed
0~804.8790.2310.1581.1010.7840.9330.973㊀㊀注:测试的数据集为KITTIDataset㊀㊀最后本文在车辆与前方障碍物距离估测方面ꎬ从语义分割图像中取得分割目标物ꎬ再对深度图像中取得相应位置的深度数值由小到大进行排序ꎬ取得前20%深度数值作为该物体的距离估测数值ꎬ如图5所示ꎬ从图5(a)中可以看到本文所提方法能有效地估测出本车与前方障碍物间的距离
.
图5㊀车辆与前方目标物间的距离估测图
(a)原图ꎻ(b)深度图像图ꎻ(c)目标分割二值图像图.
3㊀结论
本文提出了一种对称式Encoder和Decoder的深度神经网络架构ꎬ并在深度估测方面采用KITTI资料集进行训练ꎬ在语义分割方面则是采用Cityscapes资料集[33]来进行训练.
实验结果显示ꎬ本文所提障碍物距离估测方法具有可行性.本文所提出的网络架构与其他相似的深度估测网络架构ꎬ在相同的训练及测试条件下ꎬ前者在准确率方面也有不错的表现.在未来的工作中ꎬ将研究不同的解码器架构以及更强健的障碍物侦测方法ꎬ以达成目标物的距离估测ꎬ同时持续改善本文所提深度估测网络的准确度.
552㊀第3期㊀㊀㊀㊀㊀㊀王玉堂:基于深度学习的车辆前方障碍物距离估测
㊀㊀参考文献:
[1]㊀HochreiterSꎬSchmidhuberJ.Longshort ̄termmemory[J].NeuralComputationꎬ1997ꎬ9(8):1735-1780.[2]㊀KrizhevskyAꎬSutskeverIꎬHintonGE.ImageNetclassificationwithdeepconvolutionalneuralnetworks[C]//
NIPSᶄ12:Proceedingsofthe25thInternationalConferenceonNeuralInformationProcessingSystems.NewYork:CurranAssociatesInc.ꎬ2012:1097-1105.
[3]㊀SimonyanKꎬZissermanA.Verydeepconvolutionalnetworksforlarge ̄scaleimagerecognition[EB/OL].(2014-09-04)[2022-12-15].https://arxiv.org/abs/1409.1556.[4]㊀RedmonJꎬDivvalaSꎬGirshickRꎬetal.Youonlylookonce:Unifiedꎬreal ̄timeobjectdetection[C]//2016IEEEConferenceonComputerVisionandPatternRecognition.LasVegas:IEEEꎬ2016:779-788.
[5]㊀RenSQꎬHeKMꎬGirshickRꎬetal.FasterR ̄CNN:Towardsreal ̄timeobjectdetectionwithregionproposalnetworks[EB/OL].(2015-06-04)[2022-12-15].https://arxiv.org/abs/1506.01497.
[6]㊀SermanetPꎬEigenDꎬZhangXꎬetal.OverFeat:Integratedrecognitionꎬlocalizationanddetectionusingconvolutional
networks[EB/OL].(2013-12-21)[2022-12-15].https://arxiv.org/abs/1312.6229.[7]㊀BadrinarayananVꎬKendallAꎬCipollaR.SegNet:Adeepconvolutionalencoder ̄decoderarchitectureforimagesegmentation[J].IEEETransactionsonPatternAnalysisandMachineIntelligenceꎬ2017ꎬ39(12):2481-2495.
[8]㊀HariharanBꎬArbelaezPꎬGirshickRꎬetal.Hypercolumnsforobjectsegmentationandfine ̄grainedlocalization
[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.Boston:IEEEꎬ2015:
447-456.[9]㊀HeKMꎬGkioxariGꎬDollárPꎬetal.MaskR ̄CNN[C]//2017IEEEInternationalConferenceonComputerVision
(ICCV).Venice:IEEEꎬ2017:2980-2988.[10]㊀KuhnertKDꎬStommelM.Fusionofstereo ̄cameraandPMD ̄cameradataforreal ̄timesuitedprecise3Denvironmentreconstruction[C]//2006IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems.
Beijing:IEEEꎬ2006:4780-4785.
[11]㊀HornBKP.Robotvision[M].Boston:TheMITPressꎬ1986.[12]㊀RiblerRLꎬVetterJSꎬSimitciHꎬetal.Autopilot:Adaptivecontrolofdistributedapplications[C]//ProceedingsoftheSeventhInternationalSymposiumonHighPerformanceDistributedComputing(Cat.No.98TB100244).
Chicago:IEEEꎬ1998:172-179.
[13]㊀MilgramPꎬTakemuraHꎬUtsumiAꎬetal.Augmentedreality:Aclassofdisplaysonthereality ̄virtualitycontinuum
[C]//ProcSPIE2351ꎬTelemanipulatorandTelepresenceTechnologies.Boston:SPIEꎬ1995ꎬ2351:282-292.[14]㊀LongJꎬShelhamerEꎬDarrellTꎬetal.Fullyconvolutionalnetworksforsemanticsegmentation[C]//2015IEEEConferenceonComputerVisionandPatternRecognition(CVPR).Boston:IEEEꎬ2015:3431-3440.
[15]㊀SzegedyCꎬLiuWꎬJiaYQꎬetal.Goingdeeperwithconvolutions[C]//2015IEEEConferenceonComputerVisionandPatternRecognition(CVPR).Boston:IEEEꎬ2015:1-9.
[16]㊀BrostowGꎬFauqueurJꎬCipollaR.Semanticobjectclassesinvideo:Ahigh ̄definitiongroundtruthdatabase[J].
PatternRecognitionLettersꎬ2009ꎬ30(2):88-97.[17]㊀LinTYꎬMaireMꎬBelongieSꎬetal.MicrosoftCOCO:Commonobjectsincontext[C]//ComputerVision–ECCV2014.Zurich:SpringerꎬChamꎬ2014:740-755.
[18]㊀EveringhamM.ThePascalVisualObjectClassesChallenge2012(VOC2012)[R/OL].(2012-04-01)[2022-12-15].https://pjreddie.com/media/files/VOC2012_doc.pdf.
652㊀㊀㊀辽宁大学学报㊀㊀自然科学版2023年㊀㊀
㊀㊀
[19]㊀PoudelRPKꎬLiwickiSꎬCipollaR.Fast ̄SCNN:Fastsemanticsegmentationnetwork[EB/OL].(2019-02-12)
[2022-12-15].https://arxiv.org/abs/1902.04502.[20]㊀ZhaoHSꎬZhangYꎬLiuSꎬetal.PSANet:Point ̄wisespatialattentionnetworkforsceneparsing[C]//EuropeanConferenceonComputerVision.Munich:Chamꎬ2018:270-286.
[21]㊀HuangYꎬKangDꎬJiaWJꎬetal.Channelizedaxialattention ̄consideringchannelrelationwithinspatialattentionforsemanticsegmentation[EB/OL].(2021-01-19)[2022-12-15].https://arxiv.org/abs/2101.07434.
[22]㊀SagarꎬAꎬSoundrapandiyanRK.Semanticsegmentationwithmultiscalespatialattentionforselfdrivingcars[EB/
OL].(2020-06-30)[2022-12-15].https://arxiv.org/abs/2007.12685.[23]㊀GeigerAꎬLenzP.Arewereadyforautonomousdriving?TheKITTIvisionbenchmarksuite[C]//ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition.NewYork:IEEEꎬ2012:3354-3361.
[24]㊀GeigerAꎬLenzPꎬStillerCꎬetal.Visionmeetsrobotics:TheKITTIdataset[J].TheInternationalJournalof
RoboticsResearchꎬ2013ꎬ32(11):1231-1237.[25]㊀SaxenaAꎬSunMꎬNgAY.Make3D:Learning3Dscenestructurefromasinglestillimage[J].IEEETransactionsonPatternAnalysisandMachineIntelligenceꎬ2009ꎬ31(5):824-840.
[26]㊀SilbermanNꎬHoiemDꎬKohliPꎬetal.IndoorsegmentationandsupportinferencefromRGBDimages[C]//ECCVᶄ
12:Proceedingsofthe12thEuropeanConferenceonComputerVision.Florence:Springerꎬ2012:746-760.
[27]㊀LiuFYꎬShenCHꎬLinGSꎬetal.Learningdepthfromsinglemonocularimagesusingdeepconvolutionalneuralfields[J].IEEETransactionsonPatternAnalysisandMachineIntelligenceꎬ2016ꎬ38(10):2024-2039.
[28]㊀YonedaKꎬTehraniHꎬOgawaTꎬetal.Lidarscanfeatureforlocalizationwithhighlyprecise3 ̄Dmap[C]//2014IEEEIntelligentVehiclesSymposiumProceedings.Dearborn:IEEEꎬ2014:1345-1350.
[29]㊀VijayanarasimhanSꎬRiccoSꎬSchmidCꎬetal.SfM ̄net:Learningofstructureandmotionfromvideo[EB/OL].
(2017-04-25)[2022-12-15].https://arxiv.org/abs/1704.07804.[30]㊀QiaoSYꎬZhuYKꎬAdamHꎬetal.ViP ̄DeepLab:Learningvisualperceptionwithdepth ̄awarevideopanopticsegmentation[EB/OL].(2020-12-09)[2022-12-15].https://arxiv.org/abs/2012.05258.
[31]㊀LinTYꎬDollárPꎬSergeJ.etal.FeaturepyramidNetworksforobjectdetection[C]//2017IEEEConferenceonComputerVisionandPatternRecognition(CVPR).Honolulu:IEEEꎬ2016:936-944.
[32]㊀EigenDꎬPuhrschCꎬFergusR.Depthmappredictionfromasingleimageusingamulti ̄scaledeepnetwork[EB/
OL].(2014-07-09)[2022-12-15].https://arxiv.org/abs/1406.2283.[33]㊀CordtsMꎬOmranMꎬRamosSꎬetal.Thecityscapesdatasetforsemanticurbansceneunderstanding[C]//2016IEEEConferenceonComputerVisionandPatternRecognition.LasVegas:IEEEꎬ2016:3213-3223.(责任编辑㊀郭兴华)
752㊀第3期㊀㊀㊀㊀㊀㊀王玉堂:基于深度学习的车辆前方障碍物距离估测。