基于视频的人体姿态检测方法及其应用综述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2019.09
1
研究现状与技术发展趋势
1.1单人骨架检测方法
人体骨架关键点对于描述人体姿态和预测人体行为
十分重要,它是很多计算机视觉技术的基础步骤,例如行为预测,智能监控等方面。

近年来,随着人体骨架关键点检测效果的不断提升,开始比较广泛地应用于计算机视觉的相关工作中,其中,单人骨架检测是这些工作的入门基础和最简单的实践任务。

1.2姿态卷积网络
姿态卷积网络(Convolutional Pose Machines,简称
CPM [1])由一系列卷积网络组成,这些卷积网络重复产
生每个部分位置的2D 置信图(2D belief maps,表征对整体骨架的一种预测),在CPM 的每个阶段,把图像特征和上一阶段所产生的置信图作为输入。

为后续的阶段提供每个部分位置的空间不确定性的非参数编码,它不是通过几何处理[2][3]或者专门的后续处理步骤[4]来显性地处解析这种置信图,而是通过隐式直接从数据中学习图像和附近区域特征的方式。

同时使用多阶段监督,来避免网络过深而导致的梯度丢失导致无法进行优化
[5][6]
,除了第一阶段之外(因为
第一阶段网络的作用是预测初步的结果),对于每个阶段的预测输出都要进行监督训练从而通过反向传播来对上一个阶段的与猜测结果进行一定程度的优化和修正。

两层之间损失函数如下(见式1,式2),其中f 为
每层的损失函数,F 为总损失函数[1]
:
(1)
(2)
CPM 的流程图如图1所示。

1.3多情景关注机制
在关注一张图片的时候,通过关注图片的不同尺度
可以更准确地对人体姿态进行分析,一些局部信息,对于比如脸部、肘部的特征判断很有必要,而最终的整体姿态需要对人体进行整体理解,不同的尺度下分析可能体现更多信息,比如人体的动作,相邻节点的关系等,这是多情景关注机制的理论基础。

作者简介：连仁明(1979-),男,本科,工程师,研究方向:计算机技术。

收稿日期：2019-06-14
基于视频的人体姿态检测方法及其应用综述
连仁明，刘颖，于萍，刘畅
（91001部队，北京100841）
摘
要:视觉是人类认知周围事物的重要感知。

随着人类对于视频处理需求的不断增长和计算机性能
与技术的不断发展，我们希望计算机能够在特定场合具有部分与人类视觉类似的视觉功能，并且对于这种视觉功能有一定的初步处理和判断功能。

基于视频的人体姿态检测是理解和识别人与人的交互运动，人与环境交互关系等。

通过相关的计算机技术，实现对于视频中人的检测，动作分析以及涉及多人交互情境下的行为分析和关系分析等。

尽管这种分析对于人的视觉以及大脑似乎是一件不算困难的任务，但是随着时代的发展，视频的规模不断扩大，仅仅依靠人眼进行识别是远远不能够满足现代社会需要，通过计算机技术进行识别已经成为一种必然需求。

但对于计算机而言，因为涉及到背景环境的复杂性，人类体态的多样性，运动习惯的差异性，在视频中能够较为精确检测人的位置，分析人的行为还是一件比较有挑战性的任务。

关键词:人体检测；计算机识别技术；情景
图1CPM 方法卷积网络流程以及效果示例
[1]
127
2019.09
这种方法注重将卷积神经网络与多情景关注机制[7]
结合到人体姿势估计的框架中,模仿自然人的视觉效果,用较大尺度的图像来估计整体姿态,通过较小尺度的图像来关注局部细节,采用堆叠沙漏网络(Stacked Hourglass Networks),以多种分辨率生成多种语义图像。

这种方法通过引入CRF (条件随机场)模拟邻域关节之间的空间相关性,从而使整个模型既能侧重全身人体的一致性,又能关注到身体部位的局部性。

这种方法引入新型的残差沙漏单元(Hourglass Residual Unit ,HRU),这些单元是残差模块的扩展,其侧分支包括比较大区域的滤波器,因此这种模型能在HRU 内学习并且综合具有各种尺度的特征,进而更加准确地对人体骨架进行检测。

整个网络采用8层沙漏网络[8],其中前4层用于编码
整个人体的姿态,而在后4层,则为一个分层由粗到细来放大局部的部分。

同时在每层之间进行中间监督。

而HRU 则用于这多个分辨率的特征,进而通过整个框架进行综合,用于生成更为准确的估计图和进一步细化的特征。

HRU 的递推公式为,其中F 为上一级的残余块,P 为设计的3×3的卷积[8]:
多情景关注机制的流程图如图2所示。

2
应用前景
2.1人机交互
相对于传统的键盘鼠标等外设交互,通过视频(摄像头)进行的人机交互拥有着理论上更为灵敏和方便的应用前景。

相对于人与人的交互而言,通过现有外设如键盘,摄像头显得不够方便和直接,会造成一定的信息损失。

但是要达到人机交互的自然应用程度,对于处理的实时性有着更高的要求:要求计算机对于人体行为的检测要比起传统的交互方式有着更快的处理速度和识别的准确度,这一点对于算法的精度和速度有着更高的要求。

将计算机作为一个能理解个人行为的交互对象或者中间媒介,真正实现更加自然和方便的人机交互。

2.2公共场所的安全监控
近年来,恐怖主义袭击时有发生,社会所面临的安
全问题不断凸显,对于关键场所的智能监控变得更加具
有必要性。

我国的“天网系统”就是依据这种形势的需求而构建的,在一些人流密集如火车站、演唱会、机场、关键会议等地点进行了覆盖式的监控,但是这种监控往往用于突发事件发生时进行支援或者在事件发生之后对事件的调查进行录像回放。

这种方式(1)很有可能损失已经发生或者只能事后进行弥补,
(2)对于想
要达到比较高的安全监控标准,对于人力的需求是很大的。

在这种前提下,如果能够利用人体行为识别的技术,在犯罪分子进行准备时就对他的行为进行专门的标注和预警,从而预防和减少生命财产的损失。

近年来,随着计算机视觉技术的发展,让着这种智能监控变得可能,如智能监控系统(Intelligent Surveillance Systems,ISSs)[9]和以色列IOI 公司[10]所推出的针对机场、车站等场所的智能监控,虽然这些系统的实际效果还比较有限,但足以证明将人机交互的智能监控应用到传统监控领域,其前景是可观的。

2.3基于视频的行为标签和跟踪
近年来,随着摄像装备的逐渐普及,视频的数量和
长度都在不断增长,这使得对于视频的分类和标签变得困难,如果只能进行人为手动标签和分类,效率比较低而且容易产生误差,这也增加了视频搜索的困难程度。

而通过计算机视觉进行行为识别,不仅可以增加标注的效率和准确度,还能进一步确定某些具体人体行为或者多人交互所发生的时间段,进而增加标签的准确度,对
于视频的检索,分类等方面有很大的帮助。

3结语
计算机视觉技术的发展令这一点变得具有可实施
性,同时把这种计算机视觉的技术应用于视频中人物的追踪,也可以在比较复杂背景环境下重点观测某个人的行为,对于刑警侦测、犯罪画像、实时追踪和保护等社会安全方面有光明的应用前景。

参考文献
[1]Wei S E ,Ramakrishna V ,Kanade T ,et al.Convolu⁃
tional Pose Machines [J].2016IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016,6:4724-4732.
[2]Pishchulin L ,Insafutdinov E ,Tang S ,et al.Deep⁃
Cut:Joint Subset Partition and Labeling for Multi Per⁃son Pose Estimation [J].2016IEEE CVPR,2016,6:
4929-4937.
图2多情景关注方法沙漏网络[8]128
2019.09
其他地区气象中心。

目前,系统信息发布功能还成功运用于西南空管局运管中心、设备监控中心、飞行服务中心等有信息发布需求的部门,并且逐渐成为这些部门信息通告的重要手段,协助其完成一系列保障工作,有效提高这些部门的工作效率,并受到一致好评与感谢。

相信该系统在未来航空气象及空管保障工作中会发挥更大的作用
参考文献
[1]罗迎.气象短信业务在气象服务中的应用与发展
[J].农业与技术,2012,32
(5):159-159.
[2]张炜,赵伯听,周武.新形势下防雷气象短信服务
的现状与策划[J].福建电脑,2017.
[3]王实,陆建德.基于公共服务的互联网短信平台的
设计和实现[J].微机发展,2005,(08).[4]卢强宗.航空气象技术在空中交通管理中的应用[J].科技创新导报,2014,(03).
[5]王良发,黄盛军.怎样做好航空气象服务[J].科
技视界,2013,(26).
图1评价特征集中各评价节点的置信度
f14
f15
f16
f12
f11
f13
评价特征节点(F4大类为例)
熵权法均权法
0.260.240.220.200.180.160.140.12
准确性的过分依赖,同时也减少小部分错误和分歧对评价结论的影响,从而尽可能地获取到更符合客观实际的评价结果。

所提出的数据分析算法和模型架构方法,对相关领域的研究有一定的借鉴和参考价值。

参考文献
[1]刘巧稚.协同治理视角下我国政务微博矩阵运营管
理研究[D].广西大学,2018.
[2]董晓睿,丁健,孟凡芬,许凯.基于SSM 框架的微
博矩阵管理系统设计与开发[J].电脑编程技巧与维护,2019,(07):4-6+16.
[3]周薇,李筱菁.基于信息熵理论的综合评价方法[J].科学技术与工程,2010,10(23):5839-5843.
[4]饶泓,董晓睿,何宇东,李祥文.采用熵权和模糊
集的特征评价方法及应用[J].计算机工程与应用,
2012,48(23):47-51.
[5]程启月.评测指标权重确定的结构熵权法[J].系
统工程理论与实践,2010,30(07):1225-1228.
(上接第112页)
[3]Tompson J ,Goroshin R ,Jain A ,et al.Efficient Ob⁃
ject Localization Using Convolutional Networks [J].
Proc.CVPR,2015.
[4]Tompson J ,Jain A ,Lecun Y ,et al.Joint Training of
a Convolutional Network and a Graphical Model for Human Pose Estimation [J].Eprint Arxiv,2014,6:1799-1807.
[5]Bengio Y .Learning Long-term Dependencies W ith
Gradient Descent is Difficult [J].IEEE Transactions
on Neural Networks,1994,5.
[6]J.Carreira,P.Agrawal,et al.Human pose estimation
with iterative error feedback [R],arXiv preprint arX⁃iv:1507.06550,2015.
[7]X.Chu,W.Yang,et al.Multi-context attention for hu⁃
man pose estimation [J]put.Vis.Pattern
Recognit.,2017,7:5669-5678,.
[8]A.Newell,K.Yang,and J.Deng.Stacked hourglass
networks for human pose estimation [R].Amsterdam,
ECCV,2016.
[9]Pishchulin L ,Insafutdinov E ,Tang S ,et al.Deep⁃
Cut:Joint Subset Partition and Labeling for Multi Per⁃son Pose Estimation [J].2016IEEE CVPR,2016,6:4929-4937.
[10]Tompson J ,Goroshin R ,Jain A ,et al.Efficient Ob⁃
ject Localization Using Convolutional Networks [J].
Proc.CVPR,2015.
(上接第115页)129。