深度学习及其在动作行为识别中的进展

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

深度学习及其在动作行为识别中的进展

深度学习是近年来备受关注的一个研究领域，是机器学习的一个延伸。通过构建深度学习神经网络来提取特征是目前应用于动作行为识别中的一个新研究方向。为了引起更多的视觉领域研究者对深度学习的探索和深入，推动在动作行为识别中的研究，文章首先介绍了深度学习的由来、概念和原理，探讨深度学习与机器学习（神经网络）之间的关系；然后介绍近阶段利用深度学习在动作行为识别中的进展。最后阐述深度学习目前发展所面临的问题，以及对未来的展望。

标签：深度学习；行为识别；神经网络

1 概述

动作行为识别是计算机视觉领域中的一个研究热点，已经广泛应用于智能监控、人机交互、视频检索等领域中[1]。动作行为识别技术是通过对视频或者图像中人体动作行为做出有意义的判断。有效表达图像（视频）中的实际目标和场景内容是最基本，最核心的问题。因此，对于特征的构建和选择得到广泛关注，例如STIP、SIFT、MSER等。但是，能通过无监督方式让机器自动从样本中学习到表征样本的特征，会让人们更好地利用计算机来实现人的视觉功能。而深度学习作为神经网络的延伸和发展，是通过逐层构建一个多层网络来使得机器自动学习到隐含在数据内部的关系，从而让学习到的特征更加准确性。

文章旨在探讨深度学习与机器学习（神经网络）之间的关系，并且介绍深度学习的由来、概念和原理；同时介绍目前深度学习在计算机视觉中的应用。最后提出深度学习目前发展所面临的问题，以及对未来的展望。

2 深度学习

2.1 深度学习概述

深度学习源于人工神经网络的研究，是机器学习的拓展。深度学习是经过组合低层特征来形成更加抽象的属性类别和特征，从中发现原始数据的特征表征[2]。现在用于动作行为识别的技术是通过“动作表征”+“动作分类器”的框架来进行行为识别的。其中“动作表征”是人们手动设计特征获取到的，也就是在目前识别框架内存在一个对动作图像（视频）的预处理过程。

深度学习和浅层学习相对。目前许多学习算法是浅层网络学习方法，具有一定的局限性，例如在样本有限的状况下，表示复杂函数的能力有限制，且对复杂分类问题的泛化能力也会受到一定约束[3]。而深度学习通过学习深层非线性网络结构，达到复杂函数逼近，又能在样本少的情况下学习原始数据的特征。BP 算法作为传统神经网络的典型算法，虽然训练多层网络，但仅含几层网络，训练方法很不理想[3]。因为其输入和输出间非线性映射让网络误差函数形成含多个极小点的非线性空间，因而经常收敛到局部最小，且随着网络层数的增加，容易

过拟合。而深度学习可以获得分布式表示，通过逐层学习算法来得到原始输入数据的主要变量。通过深度学习的非监督训练完成，同时利用生成性训练避免因函数表达能力过强而出现过拟合情况。

2.2 深度学习原理

传统机器学习仅含单层非线性变换的浅层网络结构，而且浅层模型单一。这对于深度网络来说易造成陷入最优或产生梯度分散等问题。因此，Hinton等人在基于深度置信网（DBNs）的情况下提出非监督贪婪逐层训练算法，随后提出了多层次自动编码器深层结构，这给解决深层网络结构相关的优化难题带来了希望。此外Lecun等人提出的卷积神经网络是第一个多层次结构的学习算法。同时深度学习还出现了许多结构：多层感知机、去噪自动编码器、稀疏编码等。

卷积神经网络是第一个真正采用多层次网络结构，具有鲁棒性的深度学习算法，通过探究数据在空间上的相关性，减少训练参数的数量。而且卷积神经网络（CNN）适应性强，善于发现数据的局部特征。它的权重共享结构降低了网络模型的复杂度，减少了权值的数量，使得卷积神经网络在模式识别中取得了很好的结果。

自动编码器的核心关键是将原始图像（视频）输入信号进行编码，使用编码后的信号来重建原始信号，使得两者之间的重建误差最小。通过将原始信号编码成另一形式，能够有效地提取信号中的主要信息，能够简洁地表达原始图像（视频）的特征。

3 深度学习的应用

3.1 语音识别

从2009年开始，微软研究院语音识别专家通过与Hinton合作，首先将RBM 和DBN引入到语音识别声学模型训练中，使得语音识别的错误率相对减低30%，这彻底改变了语音识别原有的技术框架。在国际上，IBM、google等公司都快速进行了DNN语音识别的研究，并且速度飞快。国内方面，阿里巴巴，科大讯飞、百度、中科院自动化所等公司或研究单位，也在进行深度学习在语音识别上的研究。

3.2 视频中的动作行为识别

准确迅速识别视频中人的动作行为对于视频搜索和视频监控具有划时代的意义。最近几年，深度学习技术被应用于视频动作行为识别中。如Ji等人[4]提出多层网络的3D卷积神经网络来学习视频中的时空特征，并通过卷积来实现对整个视频特征的学习，从而代替之前的时空兴趣点检测和特征描述提取。在TRECVID数据库上进行的实验取得了不错效果。

4 结束语

文章对深度学习的主要概念进行了全面阐述，包括其由来、原理、研究进展和相应的应用等。在很多领域中，深度学习都表现了潜在的巨大价值，但深度学习作为浅层学习的延伸，仍处于发展阶段，还有很多问题值得我们深入探讨：

（1）我们需要了解深度学习的样本复杂度，需要多少训练样本才能学习到足够的深度模型。

（2）在推进深度学习的学习理论和计算理论的同时，我们是否可以建立一个通用的深度学习网络模型，作为统一的框架来处理语音、图像和语言。

（3）神经网络具有前馈性连接和反馈性连接，可是我们研究的深度网络中还没有加入反馈连接，这些都给深度学习的研究带来了严峻的挑战。

参考文献

[1]王亮，胡卫明，谭铁牛.人运动的视觉分析综述[J].计算机学报，2002，25（3）：225-237.

[2]余凯，贾磊，陈雨强.深度学习的昨天、今天和明天[J].计算机研究与发展，2013，50（9）：1799-1804.

[3]李海峰，李纯果.深度学习结构和算法比较分析[J].河北大学学报：自然科学版，2012，32（5）：538-544.

[4]孙志军，薛磊，许阳明.深度学习研究综述[J].计算机应用研究，2012，29（8）：2806-2810.