深度学习理论研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

【王晓刚】深度学习在图像识别中的研究进展与展望

标签：深度学习机器学习LinJM 2015-06-03 20:37 4728人阅读评论(2) 收藏举报算法与理论研究（31）

目录(?)[+]深度学习是近十年来人工智能领域取得的最重要的突破之一。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功。本文将重点介绍深度学习在物体识别、物体检测、视频分析的最新研究进展，并探讨其发展趋势。

1. 深度学习发展历史的回顾

现有的深度学习模型属于神经网络。神经网络的历史可追述到上世纪四十年代，曾经在八九十年代流行。神经网络试图通过模拟大脑认知的机理，解决各种机器学习的问题。1986 年Rumelhart，Hinton 和Williams 在《自然》发表了著名的反向传播算法用于训练神经网络[1]，直到今天仍被广泛应用。

但是后来由于种种原因，大多数学者在相当长的一段的时间内放弃了神经网络。神经网络有大量的参数，经常发生过拟合问题，即往往在训练集上准确率很高，而在测试集上效果差。这部分归因于当时的训练数据集规模都较小。而且计算资源有限，即便是训练一个较小的网络也需要很长的时间。总体而言，神经网络与其它模型相比并未在识别的准确率上体现出明显的优势，而且难于训练。

因此更多的学者开始采用诸如支持向量机、Boosting、最近邻等分类器。这些分类器可以用具有一个或两个隐含层的神经网络模拟，因此被称作浅层机器学习模型。它们不再模拟大脑的认知机理；相反，针对不同的任务设计不同的系统，并采用不同的手工设计的特征。例如语音识别采用高斯混合模型和隐马尔可夫模型，物体识别采用SIFT 特征，人脸识别采用

LBP 特征，行人检测采用HOG特征。

2006 年，Geoffrey Hinton 提出了深度学习。之后深度学习在诸多领域取得了巨大成功，受到广泛关注。神经网络能够重新焕发青春的原因有几个方面。首先是大数据的出现在很大程度上缓解了训练过拟合的问题。例如ImageNet[2]训练集拥有上百万有标注的图像。计算机硬件的飞速发展提供了强大的计算能力，使得训练大规模神经网络成为可能。一片GPU 可以集成上千个核。此外神经网络的模型设计和训练方法都取得了长足的进步。例如，为了改进神经网络的训练，学者提出了非监督和逐层的预训练。它使得在利用反向传播对网络进行全局优化之前，网络参数能达到一个好的起始点，从而训练完成时能达到一个较好的局部极小点。

深度学习在计算机视觉领域最具影响力的突破发生在2012 年，Hinton 的研究小组采用深度学习赢得了ImageNet [2] 图像分类的比赛[3]。ImageNet 是当今计算机视觉领域最具影响力的比赛之一。它的训练和测试样本都来自于互联网图片。训练样本超过百万，任务是将测试样本分成1000 类。自2009 年，包括工业界在内的很多计算机视觉小组都参加了每年一度的比赛，各个小组的方法逐渐趋同。在2012 年的比赛中，排名2 到4 位的小组都采用的是传统的计算机视觉方法，手工设计的特征，他们准确率的差别不超过1%。Hinton 的研究小组是首次参加比赛，深度学习比第二名超出了10%以上。这个结果在计算机视觉领域产生了极大的震动，掀起了深度学习的热潮。

计算机视觉领域另一个重要的挑战是人脸识别。Labeled Faces in the Wild (LFW) [4] 是当今最著名的人脸识别测试集，创建于2007 年。在此之前，人脸识别测试集大多采集于实验室可控的条件下。LFW 从互联网收集了五千多个名人的人脸照片，用于评估人脸识别算法在非可控条件下的性能。这些照片往往具有复杂的光线、表情、姿态、年龄和遮挡等方面

的变化。LFW的测试集包含了6000 对人脸图像。其中3000 对是正样本，每对的两张图像属于同一个人；剩下3000 对是负样本，每对的两张图像属于不同的人。随机猜的准确率是50%。有研究表明[5]，如果只把不包括头发在内的人脸的中心区域给人看，人眼在LFW 测试集上的识别率是97.53%。如果把整张图像，包括背景和头发给人看，人眼的识别率是99.15%。经典的人脸识别算法Eigenface [6] 在这个测试集上只有60%的识别率。在非深度学习的算法中，最好的识别率是96.33% [7]。目前深度学习可以达到99.47%的识别率[8]。在学术界收到广泛关注的同时，深度学习也在工业界产生了巨大的影响。在Hinton 的科研小组赢得ImageNet 比赛之后6 个月，谷歌和百度发都布了新的基于图像内容的搜索引擎。他们沿用了Hinton 在ImageNet 竞赛中用的深度学习模型，应用在各自的数据上，发现图像搜索的准确率得到了大幅度的提高。百度在2012 年就成立了深度学习研究院，于2014 年五月又在美国硅谷成立了新的深度学习实验室，聘请斯坦福著名教授吴恩达担任首席科学家。Facebook 于2013 年12 月在纽约成立了新的人工智能实验室，聘请深度学习领域的著名学者，卷积网路的发明人YannLeCun 作为首席科学家。2014 年1 月，谷歌四亿美金收购了一家深度学习的创业公司，DeepMind。鉴于深度学习在学术和工业界的巨大影响力，2013 年MIT Technology Review将其列为世界十大技术突破之首。

2. 深度学习有何与众不同？

许多人会问，深度学习和其它机器学习方法相比有哪些关键的不同点，它成功的秘密在哪里？我们下面将对这此从几个方面作简要的阐述。

2.1 特征学习

深度学习与传统模式识别方法的最大不同在于它是从大数据中自动学习特征，而非采用手工

设计的特征。好的特征可以极大提高模式识别系统的性能。在过去几十年模式识别的各种应用中，手工设计的特征处于同统治地位。它主要依靠设计者的先验知识，很难利用大数据的优势。由于依赖手工调参数，特征的设计中只允许出现少量的参数。深度学习可以从大数据中自动学习特征的表示，其中可以包含成千上万的参数。手工设计出有效的特征是一个相当漫长的过程。回顾计算机视觉发展的历史，往往需要五到十年才能出现一个受到广泛认可的好的特征。而深度学习可以针对新的应用从训练数据中很快学习得到新的有效的特征表示。一个模式识别系统包括特征和分类器两个主要的组成部分，二者关系密切，而在传统的方法中它们的优化是分开的。在神经网络的框架下，特征表示和分类器是联合优化的，可以最大程度发挥二者联合协作的性能。以2012 年Hinton 参加ImageNet 比赛所采用的卷积网络模型[9]为例，这是他们首次参加ImageNet 图像分类比赛，因此没有太多的先验知识。模型的特征表示包含了6 千万个参数，从上百万样本中学习得到。令人惊讶的是，从ImageNet 上学习得到的特征表示具有非常强的泛化能力，可以成功地应用到其它的数据集和任务，例如物体检测、跟踪和检索等等。在计算机视觉领域另外一个著名的竞赛是PSACAL VOC。但是它的训练集规模较小，不适合训练深度学习模型。有学者将ImageNet 上学习得到的特征表示用于PSACALVOC 上的物体检测，将检测率提高了20%[10]。

既然特征学习如此重要，什么是好的特征呢？一幅图像中，各种复杂的因素往往以非线性的方式结合在一起。例如人脸图像中就包含了身份、姿态、年龄、表情和光线等各种信息。深度学习的关键就是通过多层非线性映射将这些因素成功的分开，例如在深度模型的最后一个隐含层，不同的神经元代表了不同的因素。如果将这个隐含层当作特征表示，人脸识别、姿态估计、表情识别、年龄估计就会变得非常简单，因为各个因素之间变成了简单的线性关系，不再彼此干扰。