卷积递归深度学习在3D物体分类上的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
卷积递归深度学习在3D物体分类中的应用
(Convolutional-Recursive Deep Learning for 3D Object Classification)
Richard Socher, Brody Huval, Bharath Bhat, Christopher D. Manning, Andrew Y. Ng Computer Science Department, Stanford University, Stanford, CA 94305, USA
摘要
3D传感技术的最新进展使人们有可能轻松地拍摄彩色和深度信息并存的图片,以提高物体识别的图像。目前,大多数方法对于这个新的3D方式依赖于非常精心设计的特征。引入一个基于卷积和递归神经网络(CNN和RNN)组合的模型,用于特征学习和RGB-D图像分类。CNN层用于学习低水平的平移不变性的特征,然后作为多个固定树RNN的输入,以组成高阶特征。RNN可以被看作是结合卷积,并汇集到一个高效的、分层的操作。我们的主要结果是,甚至随机权重的RNN也组成强大的特征集。我们的模型在标准RGB-D对象集上获得了较好的艺术表现力,与其他可比的架构相比(如两层CNN),在训练和测试的阶段能更准确、快捷地得到结果。
1.简介
物体识别是计算机视觉中最困难的问题之一,并对于实用化家庭环境下的机器人十分重要。新的传感技术(如Kinect)可以记录高品质RGB和深度图象(RGB-D)信息,并且现在已经结合标准视觉系统在家用机器人中运用了。深度模式为复杂问题的总体目标检测提供有用的额外信息,由于深度信息是不随亮度或颜色的变化而变化的,并提供了几何线索使得可以更好地从背景中分离。目前,大多数基于RGB-D图像的物体识别使用手工设计的特征集,如二维图像的SIFT [2],三维点云的旋转图片[3],或特定的颜色,形状和几何特征[4,5]。
本文介绍了用于对象识别的第一卷积递归深度学习模型,该模型可以借鉴原始RGB-D图像。相比近期其他3D特征学习方法[6,7],我们的做法具有更快速度、不需要额外的输入渠道(如表面法线)、艺术性地检测家用物品的特点。图图1列出了我们的做法。训练和测试代码在上可以找到。
模型采用原始的RGB和深度图像进行分析,并首次分别从中提取特征。每一种模式首先输入一个卷积神经网络层(CNN,[8]),这个网络层提供了低层特征(如边缘)上有效的平移不变性,并且允许对象在一定程度上变形。汇集的滤波器相应随后传送给一个递归神经网络(RNN,[9]),它可以学习成分特征和部分交互作用。通过绑定权重和非线性的多个层次,将RNN分层地投入到低维空间中。
本文也探索了计算机视觉中新的深度学习架构。之前,RNN在自然语言处理
和计算机视觉[9,10]方面的工作中,(i)为每组输入使用了不同的树型结构,(ii)采用具有一组权重的单一RNN,(iii)限制树状结构为二叉树,及(iv)通过结构的反向传播训练RNN[11,12]。在本文中,利用固定树结构、输入多个BNN和N叉树的方法,针对这四个方面拓展基于RNN结构的可能性。由此表明,由于CNN层中固定的树结构不仅不会降低性能,而且提高了识别速度。类似于近期的工作[13,14]可见,随着特征数量的增加,RNN模型的性能也随之提高。每种模式分层组成的RNN特征相互连接,作为联合SOFTMAX分类器的输入
图1:模型概述:一个从RGB和深度图像信息中提取低层特征的单一CNN层。这两种表示法都作为一组随机加权RNN的输入。若干个RNN(每个模式约100个)将特征递归映射到一个较低的维空间中,所有结果向量的串联形成最终的SOFTMAX分类器特征向量。
最重要的是,经证实,随机权重的RNN也可以得到高质量的特征。到目前为止,随机权重仅被证明可用于卷积神经网络[15,16]。由于监督训练减少了最终SOFTMAX分类器的权重的优化,可以很快地发掘大量的RNN结构。综上所述,得到了一个既能快速训练,又能在测试阶段高度并行的3D物体分类艺术系统。
首先,本文简要介绍了过滤器权重及其卷积的无监督学习,由此得到低级的特征。其次,详细描述了如何用多个随机RNN用来获得整幅图像的高水平特征。最后,讨论了相关工作。实验中,定量比较了不同的模型,分析了模型的消融,描述得到Lai[2]等人的RGB-D数据集结果
2.卷积递归神经网络
本节描述了新建立的CNN-RNN模型。首先,利用随机曲面的聚类使CNN过滤器进行无监督学习,然后将这些曲面转化成CNN层。将所得低级别、平移不变的特征传递给递归神经网络。由高阶特征组成的RNN可被用于图像分类。
2.1 CNN过滤器的无监督预训练
根据Coates[13]等人描述的过程,学习在卷积中要使用的过滤器。首先,根据模式(RGB和深度)提取随机曲面到两个集合中,然后对每组曲面进行规范化和白化。预处理后的曲面用简单k-means方法进行聚类操作,图2展示了两种方法得到的过滤器,他们捕获了标准边缘和颜色特征。在深度通道应用此方法的一个结果是锐化物体边界,这是因为物体边界和背景较大的不连续性,虽然深度通道往往有很多噪声,但是大部分特征依然平滑。
图2:非监督预训练后CNN层中k-means过滤器的可视化:(左)标准RGB过滤器(颜色显示效果最好)捕获边缘和颜色。当此方法适用于深度图象(中),由于物体边界强烈的不连续性,所得到的过滤器具有较明显的边缘。与使用图像的灰度信息训练得到的过滤器(右)相比,得到的结果是类似的,尽管边缘锐化程度较小。
2.2 单层CNN
由于CNN结构具有平移不变性特点,选择CNN生成RNN层的特征。 CNN的主要思想是,将输入图像卷积过滤,从而提取特征集。文中使用的单层CNN与Jarrett[17]等提出的类似,在矫正和局部对比度标准化(LCN)后包含一个卷积过程。LCN的设计灵感来自于计算神经科学,被用于在一个特征映射内对比特征以及相同空间位置的跨特征映射[17 , 18 ,14 ] 。
将每个图像的大小(高和宽)d
I 与K方形过滤器的大小d
p
进行卷积,每个维
度大小为d
I -d
p
+1,得到K滤波器的响应。然后用方形区域大小d
l
和步幅大小s
取均值,汇集得到一个宽和高都等于r=(d
I -d
l
)/s+1的响应。因此,一幅图像通
过CNN层得到的输出X是一个K×r×r的三维矩阵。分别在颜色和深度图像信息中进行以上步骤。
2.3固定树递归神经网络
递归神经网络[19,10]的思路是在一个树状结构中递归地应用相同的神经网络,学习分层特征表示形式。本例中,树的叶节点是K维向量(一张图像切片的CNN汇集结果在所有K过滤器上重复),一共有r2个。
在我们之前的递归神经网络的工作[9,10,20]中,树的结构取决于输入。虽然这样做有更大的灵活性,但是对于在关联CNN层的物体分类任务中获得高性能是不必要的。此外,在最优树上的搜索大大降低了这个方法的速度,因为并行搜索和并行化大矩阵产品不容易实现。后者可以从新的多核硬件(如GPU)中获益匪浅。在这项工作中,重点在于设计出平衡的固定树结构。之前的工作只是合并了向量对,本文将RNN结构由合并向量对推广到允许合并各层邻向量块。
由每个图像的3D矩阵X∈R K×r×r开始(列是K维的),定义一个全为相邻列向量的块,合并为一个父向量p∈R K。为方便起见,下文只使用方形块,块的大小为K×b×b。例如,如果以b=3合并一个向量组为一个块,最终得到大小为128
×3×3的块和一张向量组结果列表(x
1,…,x
9
)。一般情况下,在每个块中有b2