基于视频的人体姿态检测方法及其应用综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019.09
1
研究现状与技术发展趋势
1.1单人骨架检测方法
人体骨架关键点对于描述人体姿态和预测人体行为
十分重要,它是很多计算机视觉技术的基础步骤,例如行为预测,智能监控等方面。近年来,随着人体骨架关键点检测效果的不断提升,开始比较广泛地应用于计算机视觉的相关工作中,其中,单人骨架检测是这些工作的入门基础和最简单的实践任务。1.2姿态卷积网络
姿态卷积网络(Convolutional Pose Machines,简称
CPM [1])由一系列卷积网络组成,这些卷积网络重复产
生每个部分位置的2D 置信图(2D belief maps,表征对整体骨架的一种预测),在CPM 的每个阶段,把图像特征和上一阶段所产生的置信图作为输入。为后续的阶段提供每个部分位置的空间不确定性的非参数编码,它不是通过几何处理[2][3]或者专门的后续处理步骤[4]来显性地处解析这种置信图,而是通过隐式直接从数据中学习图像和附近区域特征的方式。
同时使用多阶段监督,来避免网络过深而导致的梯度丢失导致无法进行优化
[5][6]
,除了第一阶段之外(因为
第一阶段网络的作用是预测初步的结果),对于每个阶段的预测输出都要进行监督训练从而通过反向传播来对上一个阶段的与猜测结果进行一定程度的优化和修正。
两层之间损失函数如下(见式1,式2),其中f 为
每层的损失函数,F 为总损失函数[1]
:
(1)
(2)
CPM 的流程图如图1所示。
1.3多情景关注机制
在关注一张图片的时候,通过关注图片的不同尺度
可以更准确地对人体姿态进行分析,一些局部信息,对于比如脸部、肘部的特征判断很有必要,而最终的整体姿态需要对人体进行整体理解,不同的尺度下分析可能体现更多信息,比如人体的动作,相邻节点的关系等,这是多情景关注机制的理论基础。
作者简介:连仁明(1979-),男,本科,工程师,研究方向:计算机技术。收稿日期:2019-06-14
基于视频的人体姿态检测方法及其应用综述
连仁明,刘颖,于萍,刘畅
(91001部队,北京100841)
摘
要:视觉是人类认知周围事物的重要感知。随着人类对于视频处理需求的不断增长和计算机性能
与技术的不断发展,我们希望计算机能够在特定场合具有部分与人类视觉类似的视觉功能,并且对于这种视觉功能有一定的初步处理和判断功能。基于视频的人体姿态检测是理解和识别人与人的交互运动,人与环境交互关系等。通过相关的计算机技术,实现对于视频中人的检测,动作分析以及涉及多人交互情境下的行为分析和关系分析等。尽管这种分析对于人的视觉以及大脑似乎是一件不算困难的任务,但是随着时代的发展,视频的规模不断扩大,仅仅依靠人眼进行识别是远远不能够满足现代社会需要,通过计算机技术进行识别已经成为一种必然需求。但对于计算机而言,因为涉及到背景环境的复杂性,人类体态的多样性,运动习惯的差异性,在视频中能够较为精确检测人的位置,分析人的行为还是一件比较有挑战性的任务。关键词:人体检测;计算机识别技术;情景
图1CPM 方法卷积网络流程以及效果示例
[1]
127
2019.09
这种方法注重将卷积神经网络与多情景关注机制[7]
结合到人体姿势估计的框架中,模仿自然人的视觉效果,用较大尺度的图像来估计整体姿态,通过较小尺度的图像来关注局部细节,采用堆叠沙漏网络(Stacked Hourglass Networks),以多种分辨率生成多种语义图像。这种方法通过引入CRF (条件随机场)模拟邻域关节之间的空间相关性,从而使整个模型既能侧重全身人体的一致性,又能关注到身体部位的局部性。这种方法引入新型的残差沙漏单元(Hourglass Residual Unit ,HRU),这些单元是残差模块的扩展,其侧分支包括比较大区域的滤波器,因此这种模型能在HRU 内学习并且综合具有各种尺度的特征,进而更加准确地对人体骨架进行检测。整个网络采用8层沙漏网络[8],其中前4层用于编码
整个人体的姿态,而在后4层,则为一个分层由粗到细来放大局部的部分。同时在每层之间进行中间监督。而HRU 则用于这多个分辨率的特征,进而通过整个框架进行综合,用于生成更为准确的估计图和进一步细化的特征。HRU 的递推公式为,其中F 为上一级的残余块,P 为设计的3×3的卷积[8]:
多情景关注机制的流程图如图2所示。
2
应用前景
2.1人机交互
相对于传统的键盘鼠标等外设交互,通过视频(摄像头)进行的人机交互拥有着理论上更为灵敏和方便的应用前景。相对于人与人的交互而言,通过现有外设如键盘,摄像头显得不够方便和直接,会造成一定的信息损失。但是要达到人机交互的自然应用程度,对于处理的实时性有着更高的要求:要求计算机对于人体行为的检测要比起传统的交互方式有着更快的处理速度和识别的准确度,这一点对于算法的精度和速度有着更高的要求。将计算机作为一个能理解个人行为的交互对象或者中间媒介,真正实现更加自然和方便的人机交互。2.2公共场所的安全监控
近年来,恐怖主义袭击时有发生,社会所面临的安
全问题不断凸显,对于关键场所的智能监控变得更加具
有必要性。我国的“天网系统”就是依据这种形势的需求而构建的,在一些人流密集如火车站、演唱会、机场、关键会议等地点进行了覆盖式的监控,但是这种监控往往用于突发事件发生时进行支援或者在事件发生之后对事件的调查进行录像回放。这种方式(1)很有可能损失已经发生或者只能事后进行弥补,
(2)对于想
要达到比较高的安全监控标准,对于人力的需求是很大的。在这种前提下,如果能够利用人体行为识别的技术,在犯罪分子进行准备时就对他的行为进行专门的标注和预警,从而预防和减少生命财产的损失。近年来,随着计算机视觉技术的发展,让着这种智能监控变得可能,如智能监控系统(Intelligent Surveillance Systems,ISSs)[9]和以色列IOI 公司[10]所推出的针对机场、车站等场所的智能监控,虽然这些系统的实际效果还比较有限,但足以证明将人机交互的智能监控应用到传统监控领域,其前景是可观的。2.3基于视频的行为标签和跟踪
近年来,随着摄像装备的逐渐普及,视频的数量和
长度都在不断增长,这使得对于视频的分类和标签变得困难,如果只能进行人为手动标签和分类,效率比较低而且容易产生误差,这也增加了视频搜索的困难程度。而通过计算机视觉进行行为识别,不仅可以增加标注的效率和准确度,还能进一步确定某些具体人体行为或者多人交互所发生的时间段,进而增加标签的准确度,对
于视频的检索,分类等方面有很大的帮助。
3结语
计算机视觉技术的发展令这一点变得具有可实施
性,同时把这种计算机视觉的技术应用于视频中人物的追踪,也可以在比较复杂背景环境下重点观测某个人的行为,对于刑警侦测、犯罪画像、实时追踪和保护等社会安全方面有光明的应用前景。
参考文献
[1]Wei S E ,Ramakrishna V ,Kanade T ,et al.Convolu⁃
tional Pose Machines [J].2016IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016,6:4724-4732.
[2]Pishchulin L ,Insafutdinov E ,Tang S ,et al.Deep⁃
Cut:Joint Subset Partition and Labeling for Multi Per⁃son Pose Estimation [J].2016IEEE CVPR,2016,6:
4929-4937.
图2多情景关注方法沙漏网络[8]128