基于CNN特征提取和加权深度迁移的单目图像深度估计
计算机视觉中的单目深度估计技术研究

计算机视觉中的单目深度估计技术研究随着计算机视觉领域的不断发展和进步,单目深度估计技术也越来越成熟,正在成为计算机视觉领域中的一个重要的研究方向。
单目深度估计是指利用单目视觉信息,估计场景中物体的深度信息。
本文将对单目深度估计技术进行详细的介绍和分析。
一、单目深度估计的背景和意义对于计算机视觉来说,物体的三维信息对于场景理解和后续任务的执行是非常重要的。
例如,对于自动驾驶来说,深度信息可以帮助车辆控制系统感知到前方的交通信号和路标等信息,从而更加精准地进行驾驶决策。
而对于机器人来说,深度信息则可以帮助机器人掌握周围环境的结构信息,从而更加高效地执行特定的任务。
在过去,人们通常使用双目或者多目摄像头来进行深度估计。
但是,这种方案需要使用多个摄像头,需要专门的硬件设备,造成了成本和复杂度的增加。
而单目深度估计则可以单独利用一个摄像头来进行,更加方便和实用。
二、单目深度估计的方法(一)传统方法传统的单目深度估计方法通常基于基础矩阵或者本质矩阵来进行,利用摄像头在不同位置所拍摄的图像来计算物体的深度信息。
该方法通常使用多个图像来进行计算,也就意味着计算成本较高。
而且需要对相机参数进行精确的标定,才可以保证计算出的结果准确可靠。
(二)深度学习方法随着深度学习技术的不断发展和进步,深度学习方法在单目深度估计中也开始得到广泛的应用。
深度学习方法可以将大量的图片数据输入到模型中进行训练,可以学习到更丰富和准确的特征信息,从而得到更加精准的深度估计结果。
其中,常用的深度学习方法包括:1. 单幅图像深度估计(Single Image Depth Estimation,SIREN)SIREN是一种基于深度学习的单幅图像深度估计方法。
该方法通过使用卷积神经网络(CNN)来学习输入图像的特征信息,并利用回归模型来估计物体的深度信息。
该方法通常使用图像自编码器来进行训练,可以避免过拟合的问题,得到更加准确和鲁棒的结果。
2. 基于立体匹配的深度估计方法基于立体匹配的深度估计方法是一种用于立体图像的深度估计算法。
单目摄像机场景深度估计及数字识别算法研究

单目摄像机场景深度估计及数字识别算法研究摘要:场景深度估计是计算机视觉领域中一个关键的问题,它可以被广泛地应用于许多应用领域,如自动驾驶、虚拟现实、增强现实等。
本文针对单目摄像机的场景深度估计问题进行了研究,主要探讨了数字识别算法对场景深度估计的影响,并提出了一种基于深度学习的场景深度估计算法。
实验结果表明,本文提出的算法能够有效地估计场景深度,并且在数字识别任务中具有良好的性能。
关键词:单目摄像机;场景深度估计;数字识别;深度学习一、引言随着计算机视觉技术的不断发展,场景深度估计成为了一个重要的研究方向。
场景深度估计可以被广泛地应用于许多应用领域,例如自动驾驶、虚拟现实、增强现实等。
场景深度估计的任务是从单幅图像中推测出场景中各个物体的深度信息,因此,它是计算机视觉领域中的一个关键问题。
单目摄像机是一种常见的图像获取设备,由于其体积小、安装方便等优点,广泛应用于各种领域。
然而,由于单目摄像机只能提供一个视角,因此它的场景深度信息是不完整的。
如何从单幅图像中准确地估计场景深度成为了一个重要的研究问题。
数字识别是计算机视觉领域中的一个基础问题,它是许多应用领域的基础。
数字识别的任务是从图像中自动识别出数字,因此,它和场景深度估计有很大的不同。
然而,数字识别算法也可以被用于场景深度估计中,因为数字识别算法可以有效地识别出图像中的物体。
本文将探讨数字识别算法对场景深度估计的影响,并提出一种基于深度学习的场景深度估计算法,该算法利用数字识别算法对图像中物体的识别结果,进一步提高了场景深度估计的精度。
二、算法研究现状场景深度估计是计算机视觉领域中的一个重要问题,吸引了许多学者的研究。
早期的研究工作主要集中在利用立体图像进行深度估计,其中一些方法使用了两个或多个摄像机拍摄同一场景,然后通过计算两个图像之间的视差来估计深度。
这种方法需要使用多个摄像机进行图像采集,并且需要对图像进行复杂的配准和校正,因此存在许多限制。
基于深度学习的图像特征提取算法优化研究

基于深度学习的图像特征提取算法优化研究随着人工智能技术的发展,深度学习在图像处理领域越来越受到重视。
在图像识别、图像分类、目标检测等方面,特征提取是深度学习中至关重要的一步。
如何优化图像特征提取算法,成为了当前深度学习研究领域的一个重要问题。
一、图像特征提取的基本原理图像特征提取的主要目的是从原始图像中提取出能够表征图像类别的特征。
在深度学习中,图像特征提取的基本原理是使用卷积神经网络(CNN),将图像通过多层的卷积和池化操作实现特征的提取。
CNN能够有效地处理图像中的局部特征和全局特征,并通过特征图的叠加提取出更高层次的特征。
在深度学习的图像特征提取中,常用的CNN模型有AlexNet、VGGNet、GoogLeNet、ResNet等。
二、图像特征提取算法的优化虽然CNN模型已经在图像特征提取方面获得了很好的效果,但是仍然存在一些问题需要优化。
(1)数据增强数据增强是为了丰富原始数据集,增加数据样本的多样性。
通过旋转、翻转、缩放等操作对原始图像进行变换,可以有效地提高模型的泛化能力。
数据增强还可以有效地避免模型过拟合的问题,提高模型的准确性和稳定性。
(2)正则化技术正则化技术也是解决模型过拟合问题的重要手段之一。
目前在深度学习的图像特征提取中,常用的正则化技术有L1正则化、L2正则化、Dropout等。
例如,L1正则化是通过将模型权重中较小的权重设为0,从而减少模型的复杂度;L2正则化是在模型总损失函数中加上权重的平方和,使得权重更加平滑,从而避免过拟合。
(3)卷积核设计卷积核的选择和设计也是影响图像特征提取的关键因素之一。
过大或过小的卷积核会导致信息的丢失或噪声的引入,影响模型的准确性。
因此,卷积核的设计要考虑到局部特征和全局特征的平衡,以及卷积核的数量和大小是否合适等因素。
(4)模型的优化模型的优化是深度学习算法优化的重要方面之一。
在图像特征提取中,通常采用反向传播算法(Back Propagation)对模型进行优化。
基于深度学习的单目图像深度估计

摘要图像深度估计是计算机视觉领域中一项重要的研究课题。
深度信息是理解一个场景三维结构关系的重要组成部分,准确的深度信息能够帮助我们更好地进行场景理解。
在真三维显示、语义分割、自动驾驶及三维重建等多个领域都有着广泛的应用。
传统方法多是利用双目或多目图像进行深度估计,最常用的方法是立体匹配技术,利用三角测量法从图像中估计场景深度信息,但容易受到场景多样性的影响,而且计算量很大。
单目图像的获取对设备数量和环境条件要求较低,通过单目图像进行深度估计更贴近实际情况,应用场景更广泛。
深度学习的迅猛发展,使得基于卷积神经网络的方法在单目图像深度估计领域取得了一定的成果,成为图像深度估计领域的研究热点。
但是单目深度估计仍面临着许多挑战:复杂场景中的复杂纹理和复杂几何结构会导致大量深度误差,容易造成局部细节信息丢失、物体边界扭曲及模糊重建等问题,直接影响图像的恢复精度。
针对上述问题,本文主要研究基于深度学习的单目图像深度估计方法。
主要工作包括以下两个方面:(1)针对室内场景中复杂纹理和复杂几何结构造成的物体边界扭曲、局部细节信息丢失等问题,提出一种基于多尺度残差金字塔注意力网络模型。
首先,提出了一个多尺度注意力上下文聚合模块,该模块由两部分组成:空间注意力模型和全局注意力模型,通过从空间和全局分别考虑像素的位置相关性和尺度相关性,捕获特征的空间上下文信息和尺度上下文信息。
该模块通过聚合特征的空间和尺度上下文信息,自适应地学习像素之间的相似性,从而获取图像更多的全局上下文信息,解决场景中复杂结构导致的问题。
然后,针对场景理解中物体的局部细节容易被忽略的问题,提出了一个增强的残差细化模块,在获取多尺度特征的同时,获取更深层次的语义信息和更多的细节信息,进一步细化场景结构。
在NYU Depth V2数据集上的实验结果表明,该方法在物体边界和局部细节具有较好的性能。
(2)针对已有非监督深度估计方法中细节信息预测不够准确、模糊重建等问题,结合Non-local能够提取每个像素的长期空间依赖关系,获取更多空间上下文的原理,本文通过引入Non-local提出了一种新的非监督学习深度估计模型。
基于多尺度特征提取的单目图像深度估计

第50卷第1期2023年北京化工大学学报(自然科学版)Journal of Beijing University of Chemical Technology (Natural Science)Vol.50,No.12023引用格式:杨巧宁,蒋思,纪晓东,等.基于多尺度特征提取的单目图像深度估计[J].北京化工大学学报(自然科学版),2023,50(1):97-106.YANG QiaoNing,JIANG Si,JI XiaoDong,et al.Monocular image depth estimation based on multi⁃scale feature extraction [J].Journal of Beijing University of Chemical Technology (Natural Science),2023,50(1):97-106.基于多尺度特征提取的单目图像深度估计杨巧宁 蒋 思 纪晓东 杨秀慧(北京化工大学信息科学与技术学院,北京 100029)摘 要:在目前基于深度学习的单目图像深度估计方法中,由于网络提取特征不够充分㊁边缘信息丢失从而导致深度图整体精度不足㊂因此提出了一种基于多尺度特征提取的单目图像深度估计方法㊂该方法首先使用Res2Net101作为编码器,通过在单个残差块中进行通道分组,使用阶梯型卷积方式来提取更细粒度的多尺度特征,加强特征提取能力;其次使用高通滤波器提取图像中的物体边缘来保留边缘信息;最后引入结构相似性损失函数,使得网络在训练过程中更加关注图像局部区域,提高网络的特征提取能力㊂在NYU Depth V2室内场景深度数据集上对本文方法进行验证,实验结果表明所提方法是有效的,提升了深度图的整体精度,其均方根误差(RMSE)达到0.508,并且在阈值为1.25时的准确率达到0.875㊂关键词:单目图像;深度估计;多尺度特征;结构相似性损失函数中图分类号:TP391 DOI :10.13543/j.bhxbzr.2023.01.012收稿日期:20211227第一作者:女,1976年生,副教授,博士E⁃mail:yangqn@引 言近年来,人工智能技术已经大量应用到人类生活中,如自动分拣机器人[1]㊁VR 虚拟现实㊁自动驾驶[2]等㊂深度信息帮助这些应用理解并分析场景的3D 结构,提高执行具体任务的准确率㊂传统的深度信息获取方式主要有两种:一种是通过硬件设备直接测量,如Kinect [3]和LiDAR 传感器,然而该方式存在设备昂贵㊁受限多㊁捕获的深度图像分辨率低等缺点;另一种是基于图像处理估计像素点深度[4],根据视觉传感器数量的多少又可分为单目㊁双目㊁多目等深度估计方法㊂其中双目深度估计主要利用双目立体匹配原理[5]生成深度图,多目深度估计则是利用同一场景的多视点二维图像来计算深度值[6],这两种方法存在的共同缺点是对硬件设备参数要求高㊁计算量大,而且对于远距离物体会产生严重的深度精度误差㊂相比之下,单目深度估计从单幅图像估计像素深度信息,对摄像机参数方面的要求更少㊁成本低㊁应用灵活方便㊂因此,单目图像深度估计受到越来越多研究者的重视[7-16]㊂随着深度学习的快速发展,深度卷积神经网络[8]凭借其高效的图像特征提取性能和优越的表达能力不断刷新计算机视觉各领域的记录㊂在基于深度学习单目图像预测深度图的研究方面,Eigen 等[9]在2014年最先采用粗糙-精细两个尺度的卷积神经网络实现了单目图像深度估计:首先通过粗尺度网络预测全局分布的低分辨率深度图,接着将低分辨率深度图输入到精细尺度网络模块中,学习更加精确的深度值㊂次年,该团队基于深度信息㊁语义分割和法向量之间具有相关性的特点提出了多任务学习模型[10],该模型将深度估计㊁语义法向量㊁语义标签结合在一起进行训练,最终提高了深度图的分辨率和质量㊂随后,大量的团队开始利用深度神经网络进行单目深度估计的研究㊂Laina 等[11]为了提高输出深度图的分辨率,提出了全卷积残差网络(fully convolutional residual networks,FCRN),FCRN 采用更加高效的上采样模块作为解码器,同时在网络训练阶段加入了berHu 损失函数[12],通过阈值实现了L1和L2两种函数的自适应结合,进一步提高了网络的性能㊂Fu 等[13]引入了一个离散化策略来离散深度,将深度网络学习重新定义为一个有序回归问题,最终该方法使得网络收敛更快,同时提升了深度图的整体精度㊂Cao等[14]将深度估计回归任务看作一个像素级分类问题,有效避免了预测的深度值出现较大偏差的现象,获得了更准确的深度值㊂Lee等[15]提出了从绝对深度转变为相对深度的预测像素点的算法㊂Hu等[16]设计了一个新的网络架构,该架构包含编码模块㊁解码模块㊁特征融合模块㊁精细化模块4个模块,针对边缘设计了梯度损失函数,进一步提升了神经网络的训练效果㊂虽然深度学习在单目图像深度估计任务中取得了较大的进展,但是依然存在以下问题:在单目图像深度估计任务中,现实场景具有复杂性,比如物体尺寸大小不一㊁较小的物体需要背景才能被更好地识别等,这增加了网络特征提取的难度㊂现有的单目图像深度估计方法通常通过增加网络层数来提高网络提取特征能力[17-24],在这个过程中,层级之间采用固定尺度的卷积核或卷积模块对特征图提取特征,导致层级之间提取的特征尺度单一,多尺度特征提取不够充分,最终获得的深度图整体精度不高㊂针对以上问题,本文提出了一种基于多尺度特征提取的单目图像深度估计方法,该方法引入Res2Net网络作为特征提取器,以提高网络的多尺度特征提取和表达能力;其次设计了边缘增强模块,解决了网络训练过程中物体边缘像素丢失问题,提高深度图的质量;最后在损失函数中引入了结构相似性损失函数,提高网络提取局部特征的能力㊂1 基于多尺度特征提取的单目图像深度估计方法1.1 基础网络目前,大部分单目图像深度估计方法通常采用编解码结构作为网络架构,本文基于编解码结构对网络中多尺度特征提取㊁表达不够充分的问题展开研究㊂由于文献[16]通过特征融合和边缘损失函数提高了网络的性能,可获得较高的整体深度图精度,因此本文选择该文献中的网络模型作为基础网络㊂基础网络以编解码结构作为网络架构,如图1所示㊂网络结构一共分为4个模块,即编码器模块(En⁃coder)㊁解码器模块(Decoder)㊁特征融合模块(MFF)和精细化模块(Refine)㊂图1 基础网络Fig.1 The basic network 编码器作为特征提取器,主要由1个卷积层和4个下采样模块组成,分别是conv1㊁block1㊁block2㊁block3㊁block4,其对输入图像的下采样提取不同分辨率的细节特征和多尺度特征,然后将最后一个下采样模块(block4)输出的特征图传递到解码器中㊂解码器主要由1个卷积层和4个上采样层组成,分别是conv2㊁up1㊁up2㊁up3㊁up4,编码器提取的特征图经过上采样模块一方面可以恢复空间分辨率,另一方面可实现对特征不同方式的表达㊂特征融合模块主要由up5㊁up6㊁up7㊁up8这4个上采样模块组成,它对编码器中4个下采样模块输出的特征图进行空间恢复,然后将空间恢复的特征图与解码器输出的特征图串联,传递到精细化模块中㊂精细化模块主要由conv4㊁conv5㊁conv6这3个5×5的卷积组㊃89㊃北京化工大学学报(自然科学版) 2023年成,特征图经过精细化模块输出最终的深度图㊂基础网络通过多阶段的运行,有效地将浅层的细节特征与深层的全局特征进行融合,解决了深度图丢失细节信息的问题,最终提升了深度图的整体精度㊂但是该网络存在以下几个问题:(1)Res⁃Net50㊁DenseNet161㊁SENet154作为网络特征提取器,它们都有一个共性,即层级之间只使用一个固定大小的卷积核提取特征,导致层级之间的特征提取能力受限,网络提取多尺度特征不充分,最终深度估计的精度不高[25-26];(2)网络在下采样过程中丢失边缘像素信息,降低了输出的深度图质量;(3)损失函数只考虑了单个像素点之间的深度值差值,没有考虑相邻像素点间深度值具有相关性的特点,使得网络在学习的过程中无法充分提取局部特征,影响最终深度图的精度㊂1.2 方法构建1.2.1 网络模型针对基础网络存在的问题,本文提出基于多尺度特征提取的单目图像深度估计方法,以提高深度图的整体精度㊂本文方法的网络结构如图2所示,红色框表示在基础网络上所作的改进㊂输入图像经过两个分支:第一个分支是对输入图像采用Res2Net 编码器[27]提取丰富的多尺度特征,接着将编码器提取的特征传递到解码器㊁特征融合模块中恢复空间分辨率,最后将解码器和特征融合模块输出的特征进行融合,得到第一个分支输出的特征图;第二个分支是将二维图像经过一个高通滤波器提取边缘信息,然后再经过3×3的卷积得到指定尺寸的特征图㊂最后将以上两个分支的特征图融合,通过精细化模块输出深度图㊂图2 本文方法的网络模型Fig.2 The network model of the method used in this work1.2.2 Res2Net 卷积神经网络现实场景具有环境复杂和物体多样性的特点,大大增加了网络提取多尺度特征的难度㊂为了提高网络的多尺度特征提取能力,本文引入Res2Net 卷积神经网络作为特征提取器㊂Res2Net 网络是对ResNet 网络的改进,它在单个残差块之间对特征图通道进行平均划分,然后对划分出来的不同小组通道采用阶梯形卷积方式连接,使得在层级之间不再提取单一尺度的特征,实现了不同大小尺度的特征提取,提高了网络的多尺度特征提取能力㊂关于ResNet 与Res2Net 模块之间差异的详细概述如下㊂如图3所示,其中图3(a)是ResNet 残差块,图3(b)是Res2Net 残差块㊂ResNet 残差块经过一个1×1的卷积,减少输入的特征图通道数,接着对1×1卷积后的特征图通过3×3卷积提取特征,最后使用1×1的卷积对提取的特征恢复通道数㊂Res2Net 与ResNet 残差块不同的是,Res2Net 网络对1×1卷积后的特征图进行通道小组划分,除了第一组以外,每组特征图都要经过一个3×3的卷积,并且将3×3卷积后的特征图与下一组特征图融合再次经过一个3×3的卷积㊂通过这种方式,使得每组3×3的卷积不仅是对当前通道小组提取特征,同时也对之前所有小组3×3卷积后的特征图再次计算3×3的卷积㊂由此采用阶梯形3×3的卷积方式相比于ResNet 残差块中3×3的卷积可以提取更丰富的多尺度特征㊂最后将3×3卷积后的特征小组串联起来传递到1×1的卷积恢复通道数㊂Res2Net 采用这种阶梯形卷积方式可以在不增加参数量的情况下表达出更丰富的多尺度特征㊂Res2Net 模块详细计算过程可以通过式(1)㊃99㊃第1期 杨巧宁等:基于多尺度特征提取的单目图像深度估计图3 ResNet模块和Res2Net模块Fig.3 ResNet module and Res2Net module 说明㊂y i=x i,i=1K i(x i),i=2K i(x i+y i-1),2<i≤ìîíïïïïs(1)首先输入的特征图经过1×1的卷积输出特征图,然后对输出的特征图划分为s个小组,分别用x i(i∈(1,2, ,s))表示,并且每一小组的特征数为原来的通道数的1/s,图3(b)为s取4的情况㊂除了第一个小组x1的特征图外,其他小组x i(i∈(2, 3, ,s))的特征图都有3×3卷积层㊂用K i表示卷积层,并将x i(i∈(2,3, ,s))卷积后的输出用y i 表示,当前小组的特征x i与上一小组输出的特征y i-1相加作为K i的输入,因此每一个K i()的输入都包含了之前{x j,j≤i}的小组特征,并且由于采用的是阶梯形连接,所以每个y i都在y i-1基础上提取更多的尺度特征㊂由于这种组合的激发效果,Res2Net 中的残差模块可以提取更细粒度的不同尺度大小的特征,提高了网络的多尺度特征提取能力㊂最后将各个小组输出的特征串联起来,输入到1×1的卷积层中,恢复特征通道数㊂由此可以看出,Res2Net残差模块使用阶梯形卷积提取了更丰富的多尺度特征,解决了原网络中特征提取单一的问题,提高了整体的网络特征提取能力㊂1.2.3 边缘增强网络二维图像(RGB图像)经过编码器下采样提取抽象特征,然后经过上采样恢复到原来的尺寸㊂在这个过程中由于图像的分辨率不断的缩放,导致物体的结构像素不断丢失,为了更直观地加以说明,本文对文献[16]里SENet154网络中特征融合模块4个阶段的特征图进行可视化,如图4所示㊂由图4可以发现,第一阶段可以学习到更多的边缘信息,但是边缘不够清晰,包含较多的噪声,随着第二阶段㊁第三阶段㊁第四阶段网络的加深,网络可学习更多的全局特征,边缘细节信息更加模糊㊂为了解决该问题,本文设计了边缘增强网络,保留边缘像素信息,具体的网络结构如图5所示㊂图4 特征融合模块4个阶段输出的特征图Fig.4 Feature map output by four stages of the featurefusion module图5 边缘增强网络示意图Fig.5 Schematic diagram of the edge enhancement network 首先输入的RGB图像通过Sobel算子提取边缘信息,然后边缘特征依次通过3×3的卷积㊁像素值归一化㊁ReLU激活函数运算以加强边缘特征,最后将边缘特征与解码器㊁特征融合模块输出的特征图通道连接,输出最终的深度图,整体结构如图2所示㊂边缘增强模块通过提取和加强图像中物体的边缘信息,有效地保留了物体边缘像素特征㊂1.2.4 结构相似性损失函数文献[16]中采用了3个损失函数来估计深度,如式(2)~(4)所示㊂真实深度图像素值深度g i和预测深度图像素值深度d i的绝对误差为㊃001㊃北京化工大学学报(自然科学版) 2023年l depth=1n∑ni =1F (e i ),F (x )=ln(x +α)(2)式中,e i =‖d i -g i ‖1,n 是像素点总数,α是自定义参数㊂物体边缘像素点的误差为l grad =1n∑ni =1(F (d x (e i ))+F (d y (e i )))(3)式中,d x (e i )㊁d y (e i )为像素点在x 方向和y 方向的导数㊂物体表面法向量误差为l normal =1n∑ni =(11-(n d i,n g i)(n di,n d i)(n g i,n g i))(4)式中,预测深度图法向量n di=[-d x (d i ),-d y (d i ),1]T ,真实深度图法向量n g i =[-d x (g i ),-d y (g i ),1]T ㊂损失函数公式(2)~(4)都是基于真实深度图和预测深度图单个像素点之间的差值,忽略了空间域中相邻像素点之间的相关性,而这种相关性承载着视觉场景中物体结构的信息㊂因此,本文引入了结构性相似损失函数(SSIM)[28],增强网络对物体结构信息的关注度,从而提高整体深度图的精度㊂SSIM 主要从局部区域的亮度㊁对比度㊁结构这3个方面来综合度量两个图像的相似性㊂SSIM 的具体公式可以表示如下㊂F SSIM (X ,Y )=L (X ,Y )*C (X ,Y )*S (X ,Y )(5)式中,L (X ,Y )为亮度的相似度估计,计算公式为L (X ,Y )=2μx μy +c 1μ2x +μ2y +c 1(6)C (X ,Y )为对比度的相似度估计,计算公式为C (X ,Y )=2σx σy +c 2σ2x +σ2y +c 2(7)S (X ,Y )为结构的相似度估计,计算公式为S (X ,Y )=σx ,y +c 3σx σy +c 3(8)上述公式中,X 为原始图像,Y 为预测图像,μx ㊁μy 分别为图像X ㊁Y 的均值,σ2x㊁σ2y分别为图像X ㊁Y 的方差,σx ,y 为图像X ㊁Y 的协方差,c 1㊁c 2㊁c 3为常数,以防止出现分母为零的情况㊂最后的损失函数可表示为L =l depth +l grad +l normal +F SSIM(9)2 仿真实验与结果分析2.1 实验环境本文在ubuntu 16.04系统下,显存大小为11GB的NVIDIAGeForce RTX 2080Ti 显卡上进行实验㊂网络结构通过主流深度学习框架pytorch1.0.0实现㊂根据网络模型结构以及显卡的性能,设置批尺寸(batch size)为8,初始学习率为0.0001,每5个epoch 衰减10%㊂采用Adam 优化器作为网络优化器,权重衰减设置为1×10-4㊂2.2 实验数据集NYU Depth V2是常用的室内深度估计数据集[29],该深度数据通过微软公司的Kinect 深度摄像头采集得到,本文采用NYU Depth V2作为实验数据集㊂原始彩色图片及对应的深度图大小为640×480,为加速训练将原始数据下采样到320×240㊂该数据集包含464个不同室内场景的原始数据,其中249个场景用于训练,215个场景用于测试㊂由于用于训练集的数据量太少,本文对采样的原始训练数据通过水平翻转㊁随机旋转㊁尺度缩放㊁色彩干扰等数据增强方式来进行数据增广㊂2.3 评价指标在单目图像深度估计方法中,通常采用以下几个评价指标来度量方法的性能㊂1)均方根误差(RMSE)E RMSE =1N ∑Ni(d i -d *i )2(10)2)平均相对误差(REL)E REL=1N∑Ni|d i -d *i |d *i(11)3)对数平均误差(LG10)E LG10=1N ∑Ni‖log 10d i -log 10d *i ‖2(12)4)不同阈值下的准确度(Max d i d *i ,d *id )i =δ<thr ,thr ={1.25,1.252,1.253}(13)式中,d i 为像素i 的预测深度值,d *i 为像素i 的真实深度值,N 为图像中像素的总和㊂以上3个误差越小表示预测深度值越接近真实深度值,代表网络性能越好;准确度越大表示在不同阈值下,预测深度值达到指定误差范围的像素点个数越多,获得的深度图精度越高㊂2.4 实验结果及分析2.4.1 实验结果1)Res2Net 的有效性验证为了验证Res2Net 的有效性,本文将基础网络㊃101㊃第1期 杨巧宁等:基于多尺度特征提取的单目图像深度估计中的编码器ResNet50替换成Res2Net50㊂为了验证网络层数不变的情况下,对Res2Net50中的通道数进行细分可以提高网络的特征提取能力,将残差块中的通道分别划分为4㊁6㊁8个不同的小组数,每个小组的通道数为26,分别表示为Res2Net50⁃4s㊁Res2Net50⁃6s㊁Res2Net50⁃8s㊂将基础网络中的Res⁃Net50依次替换成Res2Net50⁃4s㊁Res2Net50⁃6s㊁Res2Net50⁃8s㊂为了验证增加Res2Net50的层数可以提高网络的特征提取能力,将编码器中的Res2Net50⁃4s替换成Res2Net101⁃4s(Res2Net101⁃4s 为在ResNet101基础上将单个残差块中通道数划分为4个小组)㊂实验结果如表1所示㊂表1 数据集NYU Depth V2上ResNet与Res2Net的实验结果对比Table1 Comparison between ResNet and Res2Net of experimental results on the NYU Depth V2dataset模型误差准确度RMSE REL LG10δ<1.25δ<1.252δ<1.253参数量/106ResNet50[16]0.5590.1260.0550.8430.9680.99267.57 Res2Net50⁃4s0.5500.1210.0520.8500.9690.99267.71 Res2Net50⁃6s0.5370.1190.0510.8610.9690.99279.06 Res2Net50⁃8s0.5320.1190.0510.8590.9710.99390.42 Res2Net101⁃4s0.5300.1140.0500.8660.9750.99487.24 从表1结果可以看出,Res2Net50⁃4s相比Res⁃Net50在所有指标上均有提升,其中均方根误差RMSE减小了0.9%,在阈值δ<1.25的准确度上提升了0.7%㊂同样,Res2Net50⁃6s㊁Res2Net50⁃8s与ResNet50相比在误差上均有减小,在准确度上均有所提升㊂以上实验结果说明在网络层数不变的情况下,对ResNet50中残差块的通道数进行细分可以提高网络多尺度特征的提取能力,最终提高深度图的整体精度㊂另外,由Res2Net50⁃4s㊁Res2Net50⁃6s㊁Res2Net50⁃8s结果可以看出,随着划分通道小组数增加,误差越来越小,这是因为在网络层数不变的情况下,增加通道小组数可以提高网络提取多尺度特征的能力,从而提高深度图的整体精度㊂Res2Net101⁃4s相比于Res2Net50⁃4s在均方根误差上减少了2%,在阈值δ<1.25的准确度上提升了1.6%,说明在保持通道小组数不变的情况下,进一步增加网络层数可以提高Res2Net网络的特征提取能力,提高深度值精度㊂Res2Net50⁃4s相比ResNet50[16]参数量仅增加了0.14×106,但是所得深度图的整体精度明显提升,说明在网络参数一致的条件下,Res2Net相比ResNet可以学习更丰富的特征㊂Res2Net50⁃6s相比Res2Net50⁃4s参数量增加了11.35×106,Res2Net50⁃8s相比Res2Net50⁃6s参数量增加了11.36×106,说明在通道数层数保持不变的情况下,逐步增加小组数会增加整体网络的参数量,但模型获得了更高的深度图整体精度㊂ 以上实验结果表明,与ResNet50相比, Res2Net50通过通道数的划分可以提高网络的多尺度特征提取能力,并且划分的小组数越多,提取的特征越丰富,网络整体性能越好㊂而Res2Net101相比Res2Net50在保持通道小组划分一致的条件下增加网络层数,进一步提高了网络的特征提取能力,从而提高了深度图整体精度㊂在层数不变的前提下,增加通道小组数会提高网络模型的参数量㊂为了不过多地增加模型参数量,本文选择通道小组数为4的ResNet101网络作为编码器,即Res2Net101⁃4s,继续验证结构损失函数和边缘增强模块的有效性㊂2)结构相似性损失函数和边缘增强模块的有效性验证为了验证结构相似性损失函数的有效性,本文在Res2Net101⁃4s网络模型基础上增加了结构相似性损失函数,用R2S表示该网络模型;为了验证边缘增强网络的有效性,在R2S网络模型基础上又增加了边缘增强模块,用R2SE表示该网络㊂为了验证本文设计模型的有效性,将R2S㊁R2SE与基础网络中以SENet154作为编码器的模型的实验结果进行对比,如表2所示,其中SENet154表示基础网络中以SENet154作为编码器结构的模型[16]㊂ 从表2可以看出,R2S相比Res2Net101⁃4s在均方根误差上减小了1.9%,在阈值δ<1.25的准确度上提升了0.7%,说明本文加入的结构性损失函 ㊃201㊃北京化工大学学报(自然科学版) 2023年表2 不同模型在NYU Depth V2数据集上的实验结果对比Table2 Comparison of experimental results for different models on the NYU Depth V2dataset模型误差准确度RMSE REL LG10δ<1.25δ<1.252δ<1.253参数量/106SENet154[16]0.5300.1150.0500.8660.9750.993115.09 Res2Net101⁃4s0.5300.1140.0500.8660.9750.99487.24R2S0.5110.1120.0480.8730.9760.99487.24R2SE0.5080.1120.0480.8750.9770.99487.28数可以有效提高深度图的整体精度㊂R2SE相比R2S误差更小,准确度更高,说明本文加入的边缘增强模块可以提升深度图的精度㊂此外还可以看出,Res2Net101⁃4s㊁R2SE相比SENet154误差均有所减小,准确度更高,并且需要的参数量更少㊂这一方面说明了本文引入的Res2Net相比于SENet154可以更少的参数量学习更多的特征,另一方面说明了本文方法通过引入Res2Net㊁边缘增强模块和SSIM提高了网络的整体特征提取能力,获得更高质量的深度图㊂3)与其他方法的性能对比将本文算法得到的评价指标与其他单目图像深度估计方法进行对比,结果如表3所示㊂可以发现本文方法在图像深度估计上的预测误差更小,准确度更高,表明本文方法获得的深度图的精度更高㊂表3 R2SE在NYU Depth V2数据集上与其他方法的实验结果比较Table3 Comparison between R2SE and other methods of ex⁃perimental results on the NYU Depth V2dataset模型误差准确度RMSE REL LG10δ<1.25δ<1.252δ<1.253文献[30]0.5550.1270.0530.8410.9660.991文献[13]0.5090.1150.0510.8280.9650.992文献[16]0.5300.1150.0500.8660.9750.993文献[17]0.5190.1150.0490.8710.9750.993文献[18]0.5230.1150.0500.8660.9750.993文献[19]0.5230.1130.0490.8720.9750.993文献[20]0.5280.1150.0490.8700.9740.993本文方法(R2SE)0.5080.1120.0480.8750.9770.994 2.4.2 可视化分析为了验证本文方法的有效性,选择4组图像进行实验,对不同方法得到的深度图以图像形式呈现,比较主观效果,如图6所示㊂ 从图像一实验结果可以看出,本文方法相比基础网络在两侧书柜上具有更清晰的分层,可以识别出书柜每层的上下轮廓和左右轮廓,而且颜色更加接近真实深度值㊂在电视结构上,本文方法识别的结构相比基础网络具有更清晰的上下轮廓,而且电视的整体颜色更浅,更加接近真实深度值㊂从图像二实验结果可以看出,本文方法相比基础网络可以提取更清晰的电脑轮廓,更加接近真实深度图㊂对于上方书柜,本文方法得到的深度图相比基础网络具有更清晰的分层结构,以及更多的细节信息㊂从图像三㊁图像四的实验结果可以看出,本文方法预测的远处墙壁的误差更小,更加接近真实的深度图㊂综上可知,本文方法相比基础网络可提取更多的细节特征与多尺度特征,得到更加精确的深度图㊂3 结论本文提出了一种基于多尺度特征提取的单目图像深度估计方法,该方法以Res2Net作为特征提取器,可以提取图像中更丰富的多尺度特征;引入的边缘增强模块有效解决了网络训练过程中边缘像素丢失问题;在损失函数中引入结构相似性损失函数提高了网络学习局部特征的能力㊂在NYU Depth V2室内数据集上的实验结果显示,本文提出的R2SE 比基础网络中的SENet154在均方根误差上减小了2.2%,同时在阈值δ<1.25的准确度上提升了0.9%㊂表明本文所提方法通过引入Res2Net㊁边缘增强模块和结构相似性损失函数提高了网络的特征提取能力,可得到具有更多物体结构信息的深度图,提升了深度图的整体精度㊂㊃301㊃第1期 杨巧宁等:基于多尺度特征提取的单目图像深度估计图6 在NYU Depth V2数据集上的可视化结果Fig.6 Visualization of results on the NYU Depth V2dataset参考文献:[1] 王欣,伍世虔,邹谜.基于Kinect的机器人采摘果蔬系统设计[J].农机化研究,2018,40(10):199-202,207.WANG X,WU S Q,ZOU M.Design of robot pickingfruit and vegetable system based on with Kinect sensor[J].Journal of Agricultural Mechanization Research,2018,40(10):199-202,207.(in Chinese) [2] 曾仕峰,吴锦均,叶智文,等.基于ROS的无人驾驶智能车[J].物联网技术,2020,10(6):62-63,66.ZENG S F,WU J J,YE Z W,et al.Driverless intelli⁃gent vehicle based on ROS[J].Internet of Things Tech⁃nologies,2020,10(6):62-63,66.(in Chinese) [3] OLIVA A,TORRALBA A.Modeling the shape of thescene:a holistic representation of the spatial envelope[J].International Journal of Computer Vision,2001,42(3):145-175.[4] 冯桂,林其伟.用离散分形随机场估计图像表面的粗糙度[C]∥第八届全国多媒体技术学术会议.成都,1999:378-381.FENG G,LIN Q ing DFBR field to estimate theroughness of image surface[C]∥The8th National Con⁃ference on Multimedia Technology.Chengdu,1999:378-381.(in Chinese)[5] SAXENA A,SUN M,NG A Y.Make3D:learning3Dscene structure from a single still image[J].IEEE Trans⁃actions on Pattern Analysis&Machine Intelligence,2009,31(5):824-840.[6] FURUKAWA Y,HERNÁNDEZ C.Multi⁃view stereo:atutorial[J].Foundations and Trends®in ComputerGraphics and Vision,2013,9(1-2):1-148. [7] BAIG M H,TORRESANI L.Coupled depth learning[C]∥2016IEEE Winter Conference on Applications of Comput⁃er Vision(WACV).Lake Placid,2016.[8] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Ima⁃genet classification with deep convolutional neural net⁃works[J].Communications of the ACM,2017,60(6):84-90.[9] EIGEN D,PUHRSCH C,FERGUS R.Depth map pre⁃diction from a single image using a multi⁃scale deep net⁃work[C]∥Proceedings of the27th International Confer⁃ence on Neural Information Processing Systems(ICONIPS2014).Montreal,2014.[10] EIGEN D,FERGUS R.Predicting depth,surface nor⁃mals and semantic labels with a common multi⁃scaleconvolutional architecture[C]∥2015IEEE InternationalConference on Computer Vision(ICCV).Santiago,2015.[11] LAINA I,RUPPRECHT C,BELAGIANNIS V,et al.Deeper depth prediction with fully convolutional residualnetworks[C]∥20164th International Conference on3DVision(3DV).Stanford,2016.㊃401㊃北京化工大学学报(自然科学版) 2023年。
基于单目图像的深度估计关键技术

本研究旨在提出一种基于单目图像的深度估计方法,解决现有方法面临的挑战。具体研究内容包括:1)研究 适用于单目图像的深度特征提取方法;2)研究深度特征与深度信息之间的映射关系;3)研究如何提高深度估 计的准确性、鲁棒性和泛化能力;4)研究不同应用场景下的实验结果和分析。
研究方法
本研究采用机器学习的方法进行单目图像的深度估计。首先,利用卷积神经网络(CNN)提取图像中的深度 特征;然后,利用回归模型将深度特征映射到深度信息;最后,通过实验验证方法的可行性和优越性。此外, 本研究还将对不同应用场景下的实验结果进行分析,以验证方法的泛化能力和实用性。
基于单目图像的深 度估பைடு நூலகம்关键技术
2023-11-04
目 录
• 引言 • 单目深度估计基础 • 基于卷积神经网络的深度估计方法 • 基于光流法的深度估计方法 • 基于立体视觉的深度估计方法 • 基于单目图像的深度估计实验与分析 • 结论与展望
01
引言
研究背景与意义
背景
随着计算机视觉技术的不断发展,深度估计已成为许多应用领域的重要研究方向 。在单目图像中,由于缺乏立体视觉信息,深度估计变得更加困难。因此,基于 单目图像的深度估计技术对于实现智能视觉分析和应用具有重要意义。
改进的卷积神经网络模型
残差网络(ResNet)
通过引入残差思想,解决深度神经网络训练过程中的梯度消失问题,提高模型的深度和性 能。
稠密网络(DenseNet)
通过引入稠密连接,减少网络中的参数数量,提高模型的表达能力和计算效率。
轻量级网络
针对移动端和嵌入式设备,设计轻量级的卷积神经网络模型,如MobileNet、ShuffleNet 等,提高模型的计算效率和性能。
深度学习模型中的特征提取与迁移学习算法研究

深度学习模型中的特征提取与迁移学习算法研究深度学习模型中的特征提取与迁移学习算法研究深度学习是一种通过构建多层神经网络来模拟人脑认知过程的机器学习方法。
深度学习模型在图像识别、自然语言处理等领域取得了巨大的成功。
然而,构建一个复杂的深度学习模型需要大量的数据和计算资源,而在很多实际应用中,往往无法获得足够的数据。
特征提取和迁移学习算法可以帮助解决这个问题。
特征提取是指从原始数据中提取有用的特征,以供后续的学习算法使用。
在深度学习中,特征提取是一个至关重要的步骤,因为深度学习模型需要大量的数据来训练。
而在很多实际应用中,往往无法获得足够的数据。
特征提取的目的是提取出数据中的一些重要的特征,将这些特征作为输入,以较少的数据量和计算成本来训练模型。
常用的特征提取方法有卷积神经网络(CNN)和循环神经网络(RNN)等。
卷积神经网络是一种特别适用于图像识别的深度学习模型。
它通过使用多层卷积层和池化层来提取图像中的局部特征,并通过全连接层将这些特征结合起来进行分类。
卷积层可以提取出图像中的边缘、纹理等低层次特征,而池化层可以减少特征的维度,提取出更加抽象的高层次特征。
通过多层卷积层和池化层的组合,可以将图像的复杂特征提取出来,提高模型的准确性。
循环神经网络是一种特别适用于序列数据处理的深度学习模型。
它通过使用循环的神经元来处理序列数据,并通过遗忘门、输入门和输出门等机制来记忆和处理序列中的长期依赖关系。
循环神经网络通过多个时间步骤的迭代来提取序列数据中的特征,可以更好地处理序列中的时间关系、上下文信息等。
除了特征提取,迁移学习是另一种在深度学习模型中广泛应用的方法。
迁移学习可以将已经训练好的模型的特征提取部分应用于新的任务中,从而减少新任务所需要的数据量和计算资源。
迁移学习可以分为两种类型:基于特征的迁移学习和基于模型的迁移学习。
基于特征的迁移学习是将已训练好的模型的特征提取部分作为固定特征提取器,然后在此基础上训练新的分类器。
单目深度估计原理

单目深度估计是指通过一张单一的图像来估计场景中物体的距离信息。
这个过程模拟了人类视觉系统在观察世界时如何通过视觉线索来感知深度。
以下是单目深度估计的一般原理:1.视差:单目深度估计的核心概念是视差(Disparity)。
视差是指在左右两个图像之间
对应点的像素差异,也可以理解为同一物体在两个视角下的偏移量。
视差越大,物体离相机越近;视差越小,物体离相机越远。
2.特征提取:首先,从单张输入图像中提取特征。
这些特征可以是角点、边缘、纹理等
图像上的显著点,用于寻找对应关系。
3.匹配:接下来,通过在图像中寻找匹配点来确定视差。
对于每个特征点,在图像中搜
索其在另一图像中的对应点。
当找到对应的特征点时,可以计算它们之间的像素偏移量,即视差。
4.深度估计:通过视差,可以根据视差-距离关系估计物体的深度。
这个关系可以通过摄
像机参数和场景信息进行计算。
一般来说,具有更大视差的点对应着更近的物体,具有更小视差的点对应着更远的物体。
5.深度图生成:将深度估计应用到整个图像上,生成深度图,其中每个像素表示对应点
的深度值。
6.深度估计网络:近年来,深度学习技术在单目深度估计领域取得了很大进展。
利用卷
积神经网络(CNN)等深度学习模型,可以直接从单张图像中学习深度信息,而不需要传统的匹配和计算步骤。
单目深度估计是一项复杂的任务,可以通过传统的计算方法或深度学习技术来实现。
无论哪种方法,它们都试图从单一图像中获取物体的三维空间位置信息,有助于理解场景并支持各种计算机视觉应用。
基于深度学习的单目深度估计方法综述

基于深度学习的单目深度估计方法综述基于深度学习的单目深度估计方法综述摘要:单目深度估计是计算机视觉领域中的一个挑战性任务,它通过使用单个相机来估计场景中物体的深度信息。
随着深度学习的快速发展,基于深度学习的单目深度估计方法取得了显著的突破。
本文通过综述最近的研究成果,介绍了基于深度学习的单目深度估计方法的发展现状和技术进展。
首先,本文梳理了传统的单目深度估计方法和深度学习方法之间的区别与联系。
然后,针对基于深度学习的单目深度估计方法进行了分类和比较,包括基于回归方法、基于分类方法以及联合训练方法等。
最后,对当前存在的问题和未来的发展方向进行了讨论,为深入研究单目深度估计提供了一些参考和启示。
1. 引言在计算机视觉中,深度信息是理解场景和物体的重要因素之一。
然而,通常情况下只有单个相机的情况下无法直接获得物体的深度信息。
因此,单目深度估计成为了一项重要的研究课题。
传统的单目深度估计方法通常基于一些假设或手工设计的特征,而这些方法往往受限于精度和鲁棒性。
随着深度学习的兴起,基于深度学习的单目深度估计方法受到了广泛关注,并取得了显著的进展。
2. 传统方法与深度学习方法的区别与联系传统的单目深度估计方法通常依赖于手工设计的特征或依靠一些假设。
这些方法的精度和鲁棒性往往受到一些限制,难以处理复杂场景或遭遇遮挡等情况。
相比之下,基于深度学习的方法通过学习大量的数据来自动地学习特征和深度之间的关系,使得模型能够更好地适应各种场景,并取得更好的性能。
3. 基于深度学习的单目深度估计方法的分类与比较基于深度学习的单目深度估计方法可以分为三类:基于回归方法、基于分类方法和基于联合训练方法。
基于回归方法试图通过学习输入图像和真实深度之间的映射关系来直接回归出深度值。
基于分类方法则将单目深度估计问题转化为分类问题来处理,通过学习将输入图像分为不同的深度范围。
联合训练方法将回归和分类方法结合起来,以实现更准确的深度估计。
基于深度学习的图像处理与特征提取技术

基于深度学习的图像处理与特征提取技术深度学习在图像处理和特征提取方面的广泛应用摘要:深度学习是一种基于人工神经网络模型的机器学习技术,近年来在图像处理和特征提取方面取得了巨大的成功。
本文将对基于深度学习的图像处理和特征提取技术进行介绍和探讨,包括深度卷积神经网络(Deep Convolutional Neural Network, CNN)在图像分类、目标检测和图像生成任务中的应用,以及深度自动编码器(Deep Autoencoder)在图像特征提取和重建中的作用。
此外,我们还将讨论深度学习在医学图像处理、自然语言处理和智能视频分析等领域的潜在应用。
1. 引言随着数字图像的广泛使用和存储,对图像处理和特征提取技术的需求越来越迫切。
然而,传统的图像处理算法在处理复杂图像、大规模数据集和多样化应用中存在一定的局限性。
为了克服这些局限性,深度学习技术应运而生。
深度学习是一种模仿人类神经网络的学习过程,通过多层非线性处理单元将输入映射到输出。
它具有自动学习和特征提取的能力,逐渐成为图像处理和特征提取领域的主导技术。
2. 基于深度学习的图像处理技术2.1 深度卷积神经网络(Deep CNN)在图像分类中的应用深度卷积神经网络(Deep CNN)是深度学习领域最为流行的模型之一,它在图像分类任务中取得了巨大的成功。
传统的卷积神经网络通过学习图像的局部特征和上下文信息来对图像进行分类。
然而,由于网络层数的限制,传统的卷积神经网络对于复杂图像和大规模数据集的处理效果受限。
深度卷积神经网络通过增加网络的深度和参数量,使得神经网络能够更好地处理大规模图像数据和复杂特征。
其核心思想是通过多层卷积层和池化层逐步提取和抽象图像的特征,最后通过全连接层进行分类。
由于深度卷积神经网络具有较强的特征学习和表达能力,因此在图像分类任务中被广泛应用。
2.2 深度卷积神经网络在目标检测中的应用在目标检测任务中,深度卷积神经网络同样具有出色的表现。
基于深度学习的单目深度估计算法

数据集
KITTI数据集:包含大量的城市、公路、住宅区等场景的2D 图像和对应的3D点云数据
Make3D数据集:包含不同视角、不同场景的大量图像和 对应的深度图
实验结果展示
定量评估
1
2
MAE(平均绝对误差):0.72 m(KITTI数据集 )
3
RMSE(均方根误差):1.15 m(KITTI数据集)
畸变纠正
由于镜头畸变的存在,需要对图像进行畸变校正,以恢复物体的真实形状和大小 。
深度估计基本原理
01
三角测量法
基于两个或多个视角下的图像, 通过几何关系计算物体表面的深 度信息。
光流法
02
03
语义分割
通过计算相邻帧之间像素点的运 动矢量,推算出物体的深度信息 。
通过深度神经网络将图像中的每 个像素赋予一个类别标签,再根 据类别标签进行深度估计。
模型评估
使用测试集对训练好的模型进行评估 ,包括精度、召回率等指标。
04
实验结果与分析
实验环境与数据集
实验环境
硬件:NVIDIA GeForce GTX 1080 Ti GPU,Intel(R) Core(TM) i7-6700K CPU @ 4.00GHz
软件:PyTorch框架,CUDA驱动程序,Windows 10操作系统
研究不足与展望
未来研究方向包括
探索更有效的数据增强方法, 以提高模型的泛化能力和鲁棒 性。
研究更优的模型结构和训练策 略,以提高模型的计算效率和 精度。
拓展更多的应用场景,如自动 驾驶、机器人视觉等,以推动 该领域的发展和应用。
06
参考文献
参考文献
• 请输入您的内容
THANKS
【CN110060286A】一种单目深度估计方法【专利】

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910340694.6(22)申请日 2019.04.25(71)申请人 东北大学地址 110169 辽宁省沈阳市浑南区创新路195号(72)发明人 张云洲 刘及惟 冯永晖 王帅 裴美淇 (74)专利代理机构 北京易捷胜知识产权代理事务所(普通合伙) 11613代理人 韩国胜(51)Int.Cl.G06T 7/50(2017.01)(54)发明名称一种单目深度估计方法(57)摘要本发明实施例涉及一种单目深度估计方法,其包括:获取待处理图像,并对所述待处理图像进行缩放处理,得到缩放图像;对所述缩放图像基于多尺度全卷积密集神经网络进行训练,得到深度图;对所述深度图进行放大处理,得到与所述待处理图像的尺寸大小相同的深度图;其中对所述缩放图像基于多尺度全卷积密集神经网络进行训练包括:对所述缩放图像进行特征提取,得到浅层特征;通过多尺度模块对所述浅层特征进行特征连接,得到深层特征;将所述深层特征与处理后的浅层特征进行特征连接,得到所述深度图。
本发明实施例提供的方法通过多尺度全卷积密集神经网络对待处理图像进行训练,不仅可以大幅提高单目深度估计的准确率,还能提高单目深度估计的精度。
权利要求书2页 说明书8页 附图6页CN 110060286 A 2019.07.26C N 110060286A1.一种单目深度估计方法,其特征在于,其包括:获取待处理图像,并对所述待处理图像进行缩放处理,得到缩放图像;对所述缩放图像基于多尺度全卷积密集神经网络进行训练,得到深度图;对所述深度图进行放大处理,得到与所述待处理图像的尺寸大小相同的深度图;其中对所述缩放图像基于多尺度全卷积密集神经网络进行训练包括:对所述缩放图像进行特征提取,得到浅层特征;通过多尺度模块对所述浅层特征进行特征连接,得到深层特征;将所述深层特征与处理后的浅层特征进行特征连接,得到所述深度图。
人脸识别算法中的单目深度估计研究与优化

人脸识别算法中的单目深度估计研究与优化近年来,人脸识别技术得到了广泛应用,其中的单目深度估计方法对于提高识别的精确性和准确性起着重要作用。
本文将对人脸识别算法中的单目深度估计进行研究与优化。
单目深度估计是指通过单个摄像机来估计物体与相机的距离。
在人脸识别领域,单目深度估计可以帮助判断人脸是否为真人,从而有效防止欺骗攻击。
因此,提高单目深度估计的准确性和鲁棒性对于人脸识别的可靠性至关重要。
目前,人脸识别算法中的单目深度估计方法主要包括基于传统视差法的方法和基于深度学习的方法。
传统视差法是最早被使用且有效的深度估计方法之一。
它通过计算从左右两个视角下观察到的图像的差异来得到深度信息。
然而,传统视差法在人脸识别中存在一些缺点,比如对纹理丰富的区域表现良好,但对纹理贫乏的区域准确度较低,容易受到光照变化的影响。
为了解决传统视差法的问题,研究者们开始探索基于深度学习的方法。
深度学习是一种基于神经网络的机器学习方法,它可以从大规模数据中学习到更准确的深度估计模型。
近年来,深度学习技术在计算机视觉领域取得了巨大的成功,人脸识别算法中的单目深度估计也受益于此。
基于深度学习的方法通常利用卷积神经网络(CNN)来提取图像特征,并通过回归方法将特征映射到深度空间。
在设计深度估计模型时,关键问题是如何选择适当的网络结构和损失函数。
一些研究者提出了一系列优化方法,比如引入多尺度信息、加入上下文信息和注意力机制等,这些方法能够进一步提高深度估计的准确性和鲁棒性。
除了模型的设计优化,数据集的选择和数据增强也对单目深度估计的性能有重要影响。
选择合适的数据集可以提供足够多样化和代表性的样本,有利于训练深度学习模型。
同时,数据增强技术可以通过对训练数据进行旋转、缩放、翻转等操作来增加数据的多样性,提高模型的泛化能力。
此外,硬件的选择也对单目深度估计算法的性能起到一定影响。
随着深度学习技术的发展,一些专用的深度学习硬件,如GPU和TPU等,能够加速深度学习算法的训练和推理过程,提高算法的运行速度和效率。
使用深度迁移学习进行图像特征抽取的步骤

使用深度迁移学习进行图像特征抽取的步骤深度迁移学习是一种通过在源领域上训练深度神经网络,并将其迁移到目标领域上进行特征抽取的方法。
它通过利用源领域上已有的大规模标注数据来提取图像的高层次特征,然后将这些特征应用于目标领域的任务中。
下面将介绍使用深度迁移学习进行图像特征抽取的步骤。
1. 数据准备在进行深度迁移学习之前,首先需要准备好源领域和目标领域的数据集。
源领域的数据集通常是一个大规模的已标注数据集,而目标领域的数据集可以是一个小规模的已标注数据集或者是一个未标注数据集。
确保数据集的质量和多样性对于迁移学习的成功非常重要。
2. 模型选择选择适合的深度神经网络模型作为基础模型进行迁移学习。
常用的模型包括VGG、ResNet和Inception等。
这些模型在大规模图像分类任务上已经取得了很好的性能,可以作为迁移学习的基础模型。
3. 源领域上的预训练在源领域上使用大规模数据集对选择的深度神经网络模型进行预训练。
通过在源领域上进行大规模数据集的训练,可以使得模型学习到丰富的图像特征。
4. 特征提取使用预训练好的模型对源领域和目标领域的图像进行特征提取。
将图像输入到模型中,提取模型中某一层的输出作为图像的特征表示。
通常选择深度网络的倒数第二层或者倒数第三层作为特征提取的层。
5. 特征融合将源领域和目标领域的图像特征进行融合。
可以使用简单的特征融合方法,如将两个特征向量进行拼接或相加。
也可以使用更加复杂的融合方法,如使用自适应融合方法来动态地调整源领域和目标领域的特征权重。
6. 目标领域上的微调在特征融合后,可以选择在目标领域上对模型进行微调。
微调是指在目标领域上使用少量标注数据对模型进行进一步训练,以适应目标领域的任务。
微调可以提高模型在目标领域上的性能,使得模型更好地适应目标领域的特征分布。
7. 评估和调优最后,对迁移学习的模型进行评估和调优。
使用目标领域上的测试数据集对模型进行评估,计算模型在目标领域上的性能指标。
基于DSPP的单目图像深度估计

基于DSPP的单目图像深度估计
张竞澜;魏敏;文武
【期刊名称】《计算机应用研究》
【年(卷),期】2022(39)12
【摘要】空洞空间金字塔池化(ASPP)在深度学习各种任务中均有应用,传统ASPP 模块只考虑了提升卷积感受视野,但ASPP中的每次空洞卷积选取的像素点分散,会丢失大量像素点间的信息,而深度估计属于密集预测任务。
针对ASPP模块这一弊端提出了一种动态密集的DSPP模块。
该模块用一种动态卷积代替空洞卷积,结合ASPP的思想,采用不同大小的卷积尺寸,并结合通道注意力充分利用每一层的特征,解决了ASPP丢失信息的问题,与ASPP相比在大大减小模块参数量的前提下,提升了整体模型的准确率。
在NYU Depth v2数据集上与主流算法相比,深度图在均方根误差(RMSE)上降低了12.5%,到0.407,并且准确率(δ<1.25)提高了3.4%,达到0.875,验证了算法的有效性。
【总页数】4页(P3837-3840)
【作者】张竞澜;魏敏;文武
【作者单位】成都信息工程大学计算机学院
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于CNN特征提取和加权深度迁移的单目图像深度估计
2.基于CNN特征提取和加权深度迁移的单目图像深度估计
3.基于带squeeze-and-excitation模块的ResNeXt的单目图像深度估计方法
4.基于注意力机制的自监督单目图像深度估计
5.基于多尺度特征融合的快速单目图像深度估计
因版权原因,仅展示原文概要,查看原文内容请购买。
基于ResNeXt单目深度估计的幼苗植株高度测量方法

基于ResNeXt单目深度估计的幼苗植株高度测量方法宋磊;李嵘;焦义涛;宋怀波【期刊名称】《农业工程学报》【年(卷),期】2022(38)3【摘要】幼苗高度是幼苗培育过程中的重要性状,是幼苗生长状况和优良性状筛选的重要参考指标。
针对目前研究多选用专业测量工具、使用带有标记的测量手段这一现状,该研究提出了一种基于单目图像深度估计技术的幼苗高度无参测量方法。
首先以NYU Depth Dataset V2深度数据集为基础,以ResNeXt 101网络为深度估计网络主体实现植株图像深度估计。
通过深度信息计算出拍摄点到植株的真实距离,结合图像中幼苗植株的像素高度和标定好的视场角实现幼苗高度的测量。
为验证该方法的有效性,通过采集不同距离下的番茄幼苗图像1728幅,辣椒幼苗图像160幅,甘蓝幼苗图像160幅进行植株高度测量试验。
试验结果表明,在拍摄距离为105cm内番茄幼苗平均绝对误差(Mean Absolute Error,MAE)为0.569 cm,均方根误差(Root Mean Square Error,RMSE)为0.829 cm,平均植株高度比例为1.005。
辣椒,甘蓝幼苗的MAE为0.616和0.326cm,RMSE为0.672和0.389cm。
每株幼苗高度的平均计算时间为2.01s。
试验结果表明该方法具有较好的可行性和普适性。
不同光照强度下植株高度测量结果表明,在感光度小于160时,植株高度测试结果的MAE为0.81 cm,仍具有较好的测量准确度。
当单幅图像中植株个数处于5以内时,MAE和RMSE的平均值分别为0.652和0.829cm。
研究结果表明,该模型可以较准确地从单幅图像中检测出多株植株高度,且在不同距离和一定光照强度变化内均可完成多种幼苗植株高度的精确测量。
可为幼苗培育和成长时期判断等研究提供一种无损的植株高度测量方法。
【总页数】9页(P155-163)【作者】宋磊;李嵘;焦义涛;宋怀波【作者单位】西北农林科技大学机械与电子工程学院;农业农村部农业物联网重点实验室;陕西省农业信息感知与智能服务重点实验室【正文语种】中文【中图分类】TP391.41【相关文献】1.基于CNN特征提取和加权深度迁移的单目图像深度估计2.基于CNN特征提取和加权深度迁移的单目图像深度估计3.基于深度CRF网络的单目红外场景深度估计4.基于带squeeze-and-excitation模块的ResNeXt的单目图像深度估计方法5.基于分层压缩激励的ASPP网络单目深度估计因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019年4月图 学 学 报 April2019第40卷第2期JOURNAL OF GRAPHICS V ol.40No.2基于CNN特征提取和加权深度迁移的单目图像深度估计温静,安国艳,梁宇栋(山西大学计算机与信息技术学院,山西太原 030006)摘要:单目图像的深度估计可以从相似图像及其对应的深度信息中获得。
然而,图像匹配歧义和估计深度的不均匀性问题制约了这类算法的性能。
为此,提出了一种基于卷积神经网络(CNN)特征提取和加权深度迁移的单目图像深度估计算法。
首先提取CNN特征计算输入图像在数据集中的近邻图像;然后获得各候选近邻图像和输入图像间的像素级稠密空间形变函数;再将形变函数迁移至候选深度图像集,同时引入基于SIFT的迁移权重SSW,并通过对加权迁移后的候选深度图进行优化获得最终的深度信息。
实验结果表明,该方法显著降低了估计深度图的平均误差,改善了深度估计的质量。
关键词:单目深度估计;卷积神经网络特征;加权深度迁移;深度优化中图分类号:TP 391 DOI:10.11996/JG.j.2095-302X.2019020248文献标识码:A 文章编号:2095-302X(2019)02-0248-08Monocular Image Depth Estimation Based on CNN Features Extraction andWeighted Transfer LearningWEN Jing, AN Guo-yan, LIANG Yu-dong(School of Computer and Information Technology, Shanxi University, Taiyuan Shanxi 030006, China)Abstract: The depth estimation of monocular image can be obtained from the similar image and its depth information. However, the performance of such an algorithm is limited by image matching ambiguity and uneven depth mapping. This paper proposes a monocular depth estimation algorithm based on convolution neural network (CNN) features extraction and weighted transfer learning.Firstly, CNN features are extracted to collect the neighboring image gallery of the input image.Secondly, pixel-wise dense spatial wrapping functions calculated between the input image and all candidate images are transferred to the candidate depth maps. In addition, the authors have introduced the transferred weight SSW based on SIFT. The final depth image could be obtained by optimizing the integrated weighted transferred candidate depth maps. The experimental results demonstrate that the proposed method can significantly reduce the average error and improve the quality of the depth estimation.Keywords: monocular depth estimation;convolution neural network features; weighted depth transfer; depth optimization收稿日期:2018-09-07;定稿日期:2018-09-12基金项目:国家自然科学基金项目(61703252);山西省高等学校科技创新项目(2015108)第一作者:温静(1982 ),女,山西晋中人,副教授,博士,硕士生导师。
主要研究方向为图像处理、计算机视觉等。
E-mail:wjing@第2期温静,等:基于CNN特征提取和加权深度迁移的单目图像深度估计249单目图像深度估计是计算机视觉领域的热点问题。
然而,受到单个摄像头的制约,想要通过空间立体几何计算图像中精确的深度信息是极其困难的。
现有的单目图像深度估计算法大都是对1幅图像上的所有像素点赋予一个相对深度关系,有基于线索、基于图模型和基于采样的深度估计方法。
基于线索的估计方法是利用各种单目深度线索进行深度估计,常用的深度线索包括:运动信息[1]、聚焦[2]、线性透视[3]、纹理、遮挡[4]、阴影[5]等。
因为不同的线索只出现在特定的场景,且各线索与深度间的关系不是绝对的,所以存在场景适用性和深度估计失败的问题。
基于图模型的估计方法[6]考虑到场景在不同深度处成像的阴影、纹理存在差异,以及彼此间的遮挡关系,采用图模型来描述图像特征和彼此间的相对位置关系,并通过监督学习进行训练。
该类算法的缺点是需要设计参数化的模型以及引入太多的场景假设。
针对此问题,KONRAD等[7]提出基于采样的估计方法,首先从RGBD (red green blue depth)数据库中检索出匹配的图像,然后通过融合匹配图像的深度得到测试图像的深度。
文献[8]提出基于尺度不变特征变换(scale invariant feature transform, SIFT)流的深度迁移方法,在相似场景间通过SIFT流建立像素级稠密空间对应关系,并将相似图像对应位置上的深度直接迁移到输入图像上。
文献[9-11]构建能量方程对迁移后的深度进行插值和平滑,进一步改善了深度估计的质量。
但该方法没有考虑同一对象深度的均匀性,使得同一目标的深度关系不一致。
此外,该类算法的核心步骤是从深度数据库中进行相似图像的采样,将直接影响最终深度融合的效果,目前其算法的采样都是基于传统的图像全局特征之间的欧式距离,没有考虑到输入图像中不同目标的差异性和同一目标的一致性。
本文在基于采样的深度估计方法基础上通过引入了卷积神经网络(convolution neural network, CNN)特征获得更精确有效的相似图像集,并利用基于SIFT的迁移权重(SIFT similar weight,SSW)改善深度迁移时的图像深度均匀性问题。
为此,本文提出了基于CNN特征提取和加权深度迁移的单目图像深度估计算法。
1 算法框架基于CNN特征提取和加权深度迁移的单目图像深度估计算法框架如图1所示,主要分为KNN 检索、加权的SIFT流[8]深度迁移、深度图融合和基于目标函数的深度图优化4个模块。
对于一幅输入图像,①通过KNN检索出K对近邻图像和深度图;②通过SIFT流计算输入图像和各近邻图像的形变函数,将形变函数分别迁移到对应的候选近邻深度图并加权;③融合加权迁移后的候选深度图作为输入图像的初始深度估计;④建立目标函数对加权迁移后的候选深度图进行优化,便可得到最终的深度估计。
图1基于CNN特征提取和加权深度迁移的单目图像深度估计算法框架250 专论:CHINAGRAPH 2018广州2019年1.1 基于CNN 特征的KNN 检索 1.1.1 CNN 特征提取近年来,基于深度模型的CNN [12]在计算机视觉领域取得了重要进展,如物体识别和图像分类等。
从深度网络模型提取的CNN 特征在一定程度上可以弥补电子设备所捕获的特征和视觉特征所感知到的语义信息之间的差异,如Gist [13]、HOG [14]、LBP [15]和SIFT [16]等特征,其用以表征丰富的语义信息。
本文提取CNN 特征所采用的CNN 模型如图2所示,该网络模型是一个在大量ImageNet 数据集上训练得到的预训练模型,其包含13个卷积层和3个全连接层。
卷积层和前2个全连接层使用RELU(rectified linear units)作为激励函数。
本文使用第2个全连接层的特征图作为图像的一种表示,因为该特征具有较好的性能。
因此,对于给定图像,首先将其放缩到224×224大小作为网络的输入;其次通过网络逐层向前传播;最后,从第2个全连接层提取得到的特征图C (I )大小为1×1×4096,将其编码为1×4096大小的一维向量作为CNN 的特征表示。
图2 卷积神经网络模型1.1.2 KNN 检索对于1幅输入图像,首先采用1.1.1节中的方法提取其CNN 特征,并计算其基于CNN 特征余弦匹配在RGBD 数据库中的相似图像集。
假设I 为输入图像,C 为候选近邻图像,C (·)为CNN 特征,由式(1)计算输入图像和RGBD 数据库中每幅图像的CNN 特征的余弦距离;然后,对距离从大到小进行排序;最后,将前K 个最大CNN 余弦距离对应的图像作为I 的KNN (K-Nearest Neighbor),其对应的深度作为I 的候选近邻深度,即cos ()()(,)()()C I C C d I C C I C C ⋅=⋅ (1) 1.2 加权的SIFT 流深度迁移利用SIFT 流[8]建立图像之间的稠密像素级形变函数,将该形变函数迁移至候选近邻深度图像集,可作为输入图像估计的深度图。
然而,该方法是对某幅候选近邻深度图像的全局迁移,没有考虑输入图像与候选近邻图像的空间关系局部差异性,使在同一目标估计出的深度信息缺乏一致性。
为此,本文提出基于SSW 权重的深度迁移,用于抑制因匹配误差造成的深度迁移误差。
1.2.1 基于SIFT 流的形变函数通过计算候选近邻图像与输入图像之间的SIFT 流[8],进而构建候选近邻图像到输入图像的形变函数F w 。
设p 为图像中(x ,y )处的像素,候选近邻图像到输入图像间的SIFT 流为f (p ),则形变函数F w 为候选图像各像素叠加SIFT 流的集合,即{},()|,1,2,,w i i i F p f p p C i K =+∈=⋅⋅⋅ (2) 通过形变函数F w 可以将候选近邻图像C i 近似变形为原始输入图像I ,因此F w ,i 可看作从C i 到I的映射,即,: (1,2,,)w i i F C I i K →=⋅⋅⋅。