一种不同于双线性插值的上采样方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一种不同于双线性插值的上采样方法

今天为大家推荐一篇CVPR2019 关于语义分割的文章Decoders Matter for Semantic Segmentation: Data-Dependent Decoding Enables Flexible Feature Aggregation，该文章提出了一种不同于双线性插值的上采样方法，能够更好的建立每个像素之间预测的相关性。得益于这个强大的上采样方法，模型能够减少对特征图分辨率的依赖，能极大的减少运算量。该工作在PASCAL VOC 数据集上达到了88.1% 的mIOU，超过了DeeplabV3 + 的同时只有其30% 的计算量。

论文传送门：https://arxiv/abs/1903.02120

1. Introduction

在之前的语义分割方法中，双线性插值通常作为其最后一步来还原特征图的分辨率，由于非线性差值不能建立起每个像素的预测之间的关系，因此为了得到精细的结果，对特征图的分辨率要求较高，同时带来了巨额的计算量。

为了解决这个问题，本工作提出了Data-dependent Up-sampling (DUpsample)，能够减少上采样操作对特征图分辨率的依赖，大量的减少计算量。同时得益于DUpsample，Encoder 中的low-level feature 能够以更小的运算量与Decoder 中的high-level feature 进行融合，模型结构如下所示：

我们可以看到，该网络将传统的非线性插值替换成DUpsample，同时在feature fuse 方面，不同于之前方法将Decoder 中的特征上采样与Encoder 特征融合，本工作将Encoder 中的特征下采样与Decoder 融合，大大减少了计算量，这都得益于DUpsample。

2. Our Approach

之前的语义分割方法使用下列公式来得到最终的损失：

其中Loss 通常为交叉熵损失，F 为特征图，Y 为ground truth，由于双线性插值过于简单，对特征图 F 的分辨率较高，因此引入了大量的计算。一个重要的发现是语义分割输入图像的label Y 并不是i.i.d 的，所以Y 可以被压缩成Y′，我们令, 并将Y 划分成