基于单目图像的人脸深度估计

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

0 引言
基于单目图像的人脸深度估计是计算机视觉中很基础的任务，对于三维人脸重建、人脸识别等方面都有着广泛的应用前景。尽管人类可以依靠多年的经验很轻易地完成这项任务，但是对于机器来说这个目标依旧很难实现。
研究人员对于这个问题进行过很多尝试。Saxena[1] 等人于 2005 年首次提出监督型学习方法，将图像划分为很多极小的区域（超像素块）并利用马尔可夫随机场（MRF）来推断区域的位置和方向。该方法改进后被扩展成为了视觉效果更好的 3D 重建方法 Make3D[2]。之后 Liu B[3] 等人通过加入对语义信息的考量，在深度估计上取得了更好的效果。上述方法大多需要人工标注特征以及对于人脸几何关系的典型假设，而深度学习的引入则有效解决了这一问题。
1 算法 1.1 网络结构
网络总体结构大致可分为两部分。一部分由 RefineNet 构成，用于表述原始图像与深度图像相应像素点之间的关系。另一部分由卷积网络构成，用于表述图像相邻像素点之间的关系。损失层的构建基于条件随机场，通过反向传播确定网络参数后，再对条件随机场进行推断求得算法的最优解作为最终预测结果。
近年来，Eigen D[4] 等人提出一种由两个部分组成的多尺度卷积神经网络，第一部分先从图像全局出发得到一个粗糙的全局结构，再由第二部分通过局部特征对之前的结果进
行细部优化。但是卷积神经网络由于连续的下采样操作如池化、卷积，导致了图像的细节特征丢失。而 Lin G[5] 等人提出的 RefineNet 很有效地克服了这个问题，在同为像素级任务的图像语义分割中取得了很好的效果。Liu F[6] 等人则将问题表述为条件随机场模型，将像素点之间的关系及 RGB 图像与深度图之间的关系参数化，通过求解概率图模型来估计人脸深度。本文采用 RefineNet 结合条件随机场的方法实现由单目图像到人脸图像的估计。
理论算法
2019.10
基于单目图像的人脸深度估计
李云龙，凌滨，徐家兴，杜永勤，陈章桓（东北林业大学，黑龙江哈尔滨，150040）
摘要：近年来，深度卷积神经网络在人脸识别、特征提取等图像处理任务上都展现出了极为优越的性能，基于深度网络与条件随机场的算法也在人脸深度识别的任务中取得了很好的效果。但是，随着卷积网络连续不断的下采样操作如卷积和池化，图像的分辨率也随之降低，图像细节随之丢失，十分不利于像素级的图像处理任务。因此，本文对于以往基于深度网络与条件随机场结合的算法进行了改进，利用残差连接将下采样过程中各层信息向前传递。算法将问题表述为求解条件随机场的最大化后验概率问题，并以此构建损失层，可实现整个网络端到端的训练，之后通过求解条件随机场的最大化后验概率，求得深度图像的最优解。通过实验，算法在 NYU Depth V2 数据集上得到验证，准确度较改进前算法具有明显提高，表明了算法的有效性。关键词：深度估计；单目图像；人脸识别；条件随机场；卷积神经网络
基金项目：东北林业大学大学生省级创新训练计划项目资助（201910225240）。
Abstract: Recently, very deep convolutional neural networks have shown outstanding performance in image processing tasks, such as face recognition and Image feature extraction. However, repeated subsampling operations like pooling or convolution striding in deep CNNs lead to decrease in the image resolution and lost of image details. In this paper, residual connection is used to pass forward the information along the down-sampling process, in order to improves the previous algorithm based on the combination of CNN and CRF. The algorithm formulates the pr百度文库blem as maximization of posteriori probability of conditional random fields, and constructs the loss layer based on it. In this way, the entire network can be trained end-to-end and then the MAP is obtained as the optimal inference of the depth image. Through experiments, the algorithm is tested on the NYU Depth V2 dataset, and its accuracy is obviously improved compared with the original algorithm, which shows its effectiveness. Keywords: depth estimation; single image; face recognition; CRF; CNN
Face depth estimation based on monocular image
Li Yunlong , Ling Bin, Xu Jiaxing, Du Yongqin, Chen Zhanghuan （Northeast Forestry University,Harbin Heilongjiang,150040）