基于编解码卷积神经网络的单张图像深度估计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

种基于卷积神经网络(CNN)的单张图像深度估计方法。首先,提出层级融合编码器-解码器网络,
该网络是对端到端的编码器-解码器网络结构的一种改进。编码器端引入层级融合模块,并通过
对多层级特征进行融合,提升网络对多尺度信息的利用率。其次,提出多感受野残差模块,其
作为解码器的主要组成部分,负责从高级语义信息中估计深度信息。同时,多感受野残差模块
Keywords: CNN; encoder-decoder; depth estimation; monocular vision
收稿日期:2019-02-14;定稿日期:2019-03-18 基金项目:北京市教委面上基金(KM201510009005);北方工业大学学生科技活动项目(110051360007) 第一作者:贾瑞明(1978),男,北京人,助研,博士,硕士生导师。主要研究方向为图像处理与智能识别等。E-mail:jiaruiming@ncut.edu.cn
可灵活地调整网络感受野大小,提高网络对多尺度特征的提取能力。在 NYUD v2 数据集上完
成网络模型有效性验证。实验结果表明,与多尺度卷积神经网络相比,该方法在精度 δ<1.25 上
提高约 4.4%,在平均相对误差指标上降低约 8.2%。证明其在单张图像深度估计的可行性。
关 键 词:CNN;编码器-解码器;深度估计;单目视觉
第4期
贾瑞明,等:基于编解码卷积神经网络的单张图像深度估计
719
随着人工智能技术的快速发展,虚拟现实[1]和 自动驾驶[2]等技术对于三维重建需求巨大。准确的 深度信息对于重建三维场景具有重要意义,其广泛 应用于语义分割[3-4]、目标跟踪[5-6]和机器人控制系 统[7]等任务。工业界多使用激光雷达或激光扫描仪 获取深度图。前者可用于动态场景,但获取的深度 图较为稀疏;后者获取的深度图稠密但成像耗时 长,且一般用于静态场景。同时两者的成本较高, 而单张图像获取成本较低。因此,研究通过单张图 像进行深度估计具有较大的实用价值。然而,由于 单张图像本身存在信息缺失,使用单张图像进行深 度估计属于病态问题,具有较大的挑战。
2019 年 8 月 第 40 卷 第 4 期
图学学报
JOURNAL OF GRAPHICS
August 2019 Vol.40 No.4
基于编解码卷积神经网络的单张图像深度估计
贾瑞明, 刘立强, 刘圣杰, 崔家礼
(北方工业大学信息学院,北京 100来自百度文库44)

要:针对传统方法在单目视觉图像深度估计时存在鲁棒性差、精度低等问题,提出一
JIA Rui-ming, LIU Li-qiang, LIU Sheng-jie, CUI Jia-li
(School of Information Science and Technology, North China University of Technology, Beijing 100144, China)
中图分类号 :TP 391
DOI:10.11996/JG.j.2095-302X.2019040718
文献标识码 :A
文 章 编 号:2095-302X(2019)04-0718-07
Single Image Depth Estimation Based on Encoder-Decoder Convolution Neural Network
Abstract: Focusing on the poor robustness and lower accuracy in traditional methods of estimating depth in monocular vision, a method based on convolution neural network (CNN) is proposed for predicting depth from a single image. At first, fused-layers encoder-decoder network is presented. This network is an improvement of the end-to-end encoder-decoder network structure. Fused-layers block is added to encoder network, and the network utilization of multi-scale information is improved by this block with fusing multi-layers feature. Then, a multi-receptive field res-block is proposed, which is the main component of the decoder and used for estimating depth from high-level semantic information. Meanwhile, the network capacity of multi-scale feature extraction is enhanced because the size of receptive field is flexible to change in multi-receptive field res-block. The validation of proposed network is conducted on NYUD v2 dataset, and compared with multi-scale convolution neural network, experimental results show that the accuracy of proposed method is improved by about 4.4% in δ<1.25 and average relative error is reduced by about 8.2%. The feasibility of proposed method in estimating depth from a single image is proved.
相关文档
最新文档