二维人体姿态估计研究综述
2d人体姿态估计 算法
2d人体姿态估计算法2D人体姿态估计算法引言:2D人体姿态估计是计算机视觉领域的一个重要研究方向,旨在通过分析图像或视频中人体的姿态信息,实现对人体关节位置和姿态角度的准确估计。
该技术在人机交互、运动分析、行为识别等领域具有广泛的应用前景。
本文将介绍几种常见的2D人体姿态估计算法,并对其原理和特点进行详细阐述。
一、基于深度学习的2D人体姿态估计算法近年来,随着深度学习技术的迅猛发展,基于深度学习的2D人体姿态估计算法取得了重要突破。
这类算法通常使用卷积神经网络(Convolutional Neural Network,CNN)作为主干网络,通过对图像进行特征提取和姿态回归,实现对人体姿态的估计。
1. Hourglass网络Hourglass网络是一种经典的基于深度学习的2D人体姿态估计算法,其特点是通过堆叠多个Hourglass模块来实现对多尺度特征的融合和姿态回归。
每个Hourglass模块由对称的上采样和下采样组成,通过逐步减少分辨率和增加通道数,提取多尺度的特征表示。
该算法能够有效地处理遮挡和姿态变化等复杂场景,具有较好的鲁棒性和准确性。
2. OpenPoseOpenPose是另一种基于深度学习的2D人体姿态估计算法,其主要思想是将姿态估计问题转化为关键点检测问题。
该算法通过在CNN 网络中引入多分支结构,同时回归多个关键点的位置,实现对人体姿态的估计。
OpenPose算法具有较高的准确性和实时性,在人机交互、动作识别等领域具有较广泛的应用。
二、基于传统计算机视觉方法的2D人体姿态估计算法除了基于深度学习的方法,传统的计算机视觉方法也被广泛用于2D 人体姿态估计。
这类方法通常基于手工设计的特征提取和机器学习算法,虽然在准确性上不及深度学习方法,但仍具有一定的应用价值。
1. 随机森林随机森林是一种常用的机器学习算法,可以应用于2D人体姿态估计。
该算法通过构建多个决策树,使用随机的特征子集和样本子集进行训练,实现对人体关节位置的回归。
基于深度学习的人体姿态估计方法综述
1引言人体姿态估计课题的发展已越来越贴近实际,例如在步态分析、人机交互以及视频监控等领域,人体姿态估计均具有广泛的应用前景。
目前主流的人体姿态估计算法可以划分为传统方法和基于深度学习的方法。
传统方法一般是基于图结构和形变部件模型,设计2D 人体部件检测器,使用图模型建立各部件的连通性,并结合人体运动学的相关约束不断优化图结构模型来估计人体姿态。
传统方法虽然拥有较高的时间效率,但是由于其提取的特征主要是人工设定的HOG(Histogram of Oriented Gradient)[1]和SHIFT(Scale Invariant Fea-ture Transform)[2]特征,无法充分利用图像信息,导致算法受制于图像中的不同外观、视角、遮挡和固有的几何模糊性。
同时,由于部件模型的结构单一,当人体姿态基于深度学习的人体姿态估计方法综述邓益侬,罗健欣,金凤林中国人民解放军陆军工程大学指挥控制工程学院,南京210007摘要:基于深度学习的人体姿态估计方法旨在通过构建合适的神经网络,直接从二维的图像特征中回归出人体姿态信息。
主要按照2D人体姿态估计到3D人体姿态估计的顺序,并从单人检测与多人检测、稀疏的关节点检测与密集的模型构建等方面,对近年来基于深度学习的人体姿态估计方法进行系统介绍,从而初步了解如何通过深度学习的方法得到人体姿态的各个要素,包括肢体部件的相对朝向和比例尺度、骨骼关节点的位置坐标和连接关系,甚至更为复杂的人体蒙皮模型信息。
最后,对当前研究面临的挑战以及未来的热点动向进行概述,清晰地呈现出该领域的发展脉络。
关键词:人体姿态估计;深度学习;关节点坐标;人体模型;检测回归文献标志码:A中图分类号:TP391.4doi:10.3778/j.issn.1002-8331.1906-0113邓益侬,罗健欣,金凤林.基于深度学习的人体姿态估计方法综述.计算机工程与应用,2019,55(19):22-42.DENG Yinong,LUO Jianxin,JIN Fenglin.Overview of human pose estimation methods based on deep puter Engineering and Applications,2019,55(19):22-42.Overview of Human Pose Estimation Methods Based on Deep LearningDENG Yinong,LUO Jianxin,JIN FenglinCollege of Command&Control Engineering,Army Engineering University of PLA,Nanjing210007,ChinaAbstract:Human pose estimation is a research hot point in the field of computer vision.The human pose estimation methods based on deep learning get directly human pose information from two-dimensional image features through an appropriate neural network.This paper mainly follows the sequence from2D to3D human pose estimation,from the single-person detection to multi-person detection,from sparse node detection to dense model building,has systematically introduced the human post estimation methods in recent years based on deep learning to give a preliminary understanding of how to acquire the elements of human pose through deep learning,including the relative orientation and ratio scale of limb parts,the position coordinates and connection relations of joint points,and the information of the even more complex human skin model information.In the end,it summarizes the current research challenges and future hot point trends, which clearly present the development venation of this field for readers.Key words:human pose estimate;deep learning;joint point coordinates;body model;detection and regression作者简介:邓益侬(1990—),男,硕士研究生,主要研究领域为深度学习,E-mail:nongyanquan@;罗健欣(1984—),男,博士,讲师,主要研究领域为深度学习、智能信息处理、图形学;金凤林(1972—),男,副教授,主要研究领域为计算机网络、卫星通信。
2D人体姿态估计综述
2D人体姿态估计综述作者:岳程宇闫胜业来源:《现代信息科技》2020年第12期摘 ;要:在神经网络深度学习流行的今天,2D人体姿态估计作为其他计算机视觉任务的研究基础,它的检测精度和速度对后续其他检测等任务有着重大的影响,并且引起了学者们的广泛关注。
文章针对该方向的研究内容进行了综述,阐述了研究意义和应用,对数据库和评价指标进行介绍,接着结合代表作分析研究了姿态估计的传统方法、深度学习方法,最后总结讨论现阶段研究的问题和趋势。
关键词:计算机视觉;姿态估计;人体关键点中图分类号:TP391.41 ; ; ;文献标识码:A 文章编号:2096-4706(2020)12-0090-03Abstract:Under the popularity of neural network and deep learning,2D pose estimation,the precision and speed of it has a great influence on the next task,and it has attracted wide attention of scholars. For this research details,this paper expounds the meanings and applications,introduces the databases and the evaluation indexes,then analyses the conventional methods and deep learning methods. Finally,it summarizes and discusses the current research problems and trend.Keywords:computer vision;pose estimation;key points of human body0 ;引 ;言2D人体姿态估计是计算机视觉研究中的一个重要分支,其研究结合了检测、识别、跟踪的相关方法。
人体姿态识别技术综述
人体姿态识别技术综述1.引言人体姿态识别技术作为计算机科学与人工智能领域的一个重要研究方向,已经取得了显著的进展。
该技术能够利用计算机对人体的姿态和动作进行准确识别和分析,为人机交互、虚拟现实、智能监控等领域提供了重要支持。
本文将对人体姿态识别技术的基本原理、现有方法以及应用领域进行综述,旨在系统地介绍该领域的进展和展望。
2.人体姿态识别技术的基本原理2.1 图像采集与预处理在人体姿态识别技术中,首先需要通过图像传感器或深度摄像头采集人体图像或视频。
然后,对采集到的图像进行预处理,包括图像去噪、图像增强、人体分割等,以便更好地提取人体姿态信息。
2.2 特征提取与表示特征提取与表示是人体姿态识别中的核心步骤。
常用的特征包括人体关节点位置、骨架结构、人体形状等。
在二维图像中,可以通过检测人体关键点或者骨架来提取姿态特征;在三维场景中,可以通过深度信息进行姿态估计。
2.3 姿态分类与识别基于提取到的姿态特征,可以通过机器学习算法或深度学习模型来实现人体姿态的分类与识别。
常见的方法包括支持向量机(SVM)、人工神经网络(ANN)和卷积神经网络(CNN)。
这些方法能够对人体的姿态进行准确分类和识别,为后续的应用提供关键信息。
3.现有的人体姿态识别方法3.1 基于传统计算机视觉的方法传统的计算机视觉方法主要包括模板匹配、卡尔曼滤波、矩形拟合等。
这些方法在处理简单场景和静态图像时具有一定的效果,但在复杂场景和动态环境下表现不佳。
3.2 基于深度学习的方法随着深度学习的快速发展,基于深度学习的人体姿态识别方法逐渐成为主流。
深度学习模型如卷积神经网络(CNN)、循环神经网络(RNN)和生成对抗网络(GAN)等在人体姿态识别领域表现出色。
这些模型能够从大量图像或视频数据中学习人体姿态的特征,并实现高效准确的姿态估计与识别。
4.人体姿态识别技术的应用领域4.1 人机交互人体姿态识别技术可以为人机交互提供更加自然和智能的方式。
人体姿态估计算法的研究与实现
人体姿态估计算法的研究与实现正文:一、绪论人类的日常活动与工作中,持续时间长、站姿不正、歪脖子撇肩等不良姿态现象普遍存在,使得人们的身体健康受到了很大的威胁。
姿态估计技术是解决这些问题的重要方法之一,也广泛应用于医学、体育、电影、虚拟现实等领域。
本文就人体姿态估计算法的研究与实现进行探讨。
二、人体姿态估计算法人体姿态估计算法的研究包括基于图像的方法和基于传感器的方法。
1. 基于图像的方法基于图像的姿态估计方法通常采用计算机视觉技术,基于单目或多目相机对人体图像的处理、提取特征和估计姿态。
其中比较成熟的包括基于模型的方法和基于深度学习的方法。
- 基于模型的方法基于模型的方法使用已知的人体模型来拟合人体姿态,包括人体骨骼结构和肌肉组织等。
通过对模型姿态参数的估计,实现对真实人体姿态的估计。
- 基于深度学习的方法基于深度学习的方法主要采用卷积神经网络(CNN)和循环神经网络(RNN)等模型,通过训练模型学习特征和姿态估计。
常见的网络结构包括Stacked Hourglass和OpenPose等。
2. 基于传感器的方法基于传感器的姿态估计方法通常采用陀螺仪、加速度计、磁力计和传感器融合等技术,通过传感器采集数据并融合处理,实现对人体姿态的估计。
其中比较成熟的包括惯性测量单元和磁力计惯性导航系统等。
三、姿态估计实现技术人体姿态估计的实现技术包括人体建模、特征提取和姿态估计三个步骤。
1. 人体建模人体建模是人体姿态估计基础。
人体建模需要将人体模型与图像对齐,即将一个三维人体模型映射到二维图像平面上。
建模技术主要包括基于形状的建模和基于纹理的建模两种方法。
其中基于形状的建模使用体素网格、三角网格等技术,基于纹理的建模使用纹理参数化、模型展开等方法。
2. 特征提取特征提取是从人体图像中提取有用的信息作为姿态估计的输入,包括人体关键点、人体骨骼信息和肢体关系等。
特征提取常采用卷积神经网络和深度学习技术,根据不同的应用场景和任务,可以设计不同的特征提取网络。
二维人体姿态估计研究综述
二维人体姿态估计研究综述李崤河; 刘进锋【期刊名称】《《现代计算机(专业版)》》【年(卷),期】2019(000)022【总页数】5页(P33-37)【关键词】深度学习; 人体姿态估计; 关键点检测【作者】李崤河; 刘进锋【作者单位】宁夏大学信息工程学院银川750021【正文语种】中文0 引言人体姿态估计长久以来一直是计算机视觉领域的一个热点问题。
其主要内容,是让计算机从图像或视频中定位出人物的关键点(也称为关节点,如肘、手腕等)。
人体姿态估计作为理解图像或视频中人物动作的基础,一直受到众多学者的关注。
随着计算机技术的迅猛发展,人体姿态估计已经在动作识别、人机交互、智能安防、增强现实等领域获得了广泛应用。
人体姿态估计按维度可分为二维和三维两种:二维人体姿态估计通常使用线段或者矩形来描述人体各关节在图像上的投影位置,线段的长度和角度表示了人体的二维姿态;三维人体姿态估计通常使用树模型来描述估计的姿态,各关节点的位置使用三维坐标确定。
在实际应用中,目前获取的大多数图像仍是二维图像,同时三维姿态估计可以使用二维预测进行推理[1],所以二维姿态估计有着重要的研究价值。
自人体姿态估计的概念提出以来,国内外的学者对此做出了不懈的努力。
传统的姿态估计算法主要是基于图结构(Pictorial Structures)模型[2]。
该模型将人或物体表示为多个部件的集合,这些部件之间含有空间约束,通过人工指定的特征检测组件实现关节点检测。
传统方法过于依赖手工设计的模板,难以应付复杂的姿态变换并且推广到多人姿态估计。
随着深度学习技术在计算机视觉领域大放异彩,部分学者开始研究如何利用深度学习来解决人体姿态估计问题。
Toshev 等人利用深度卷积神经网络对人体姿态进行全局推断,提出了完全基于神经网络的模型DeepPose[3]。
DeepPose 是第一个将深度学习方法应用于人体姿态估计的主要模型。
该模型实现了SOTA 性能并击败了当时的传统模型。
基于深度学习的人体运动姿态估计技术研究
基于深度学习的人体运动姿态估计技术研究近年来,随着人工智能技术的不断发展,深度学习已经成为了人工智能领域的热点话题。
深度学习算法通过大量数据的训练,可以自动学习特征,从而实现对于复杂问题的解决。
在计算机视觉领域中,深度学习技术得到了广泛应用,其中的基于深度学习的人体运动姿态估计技术也逐渐成熟。
1. 人体姿态估计技术的意义人体姿态估计技术是指通过计算机对人体运动姿态进行识别和分析,得到人体部位的三维位置和运动状态等信息。
这项技术可以广泛应用于体育教学、运动训练、视频游戏、健康管理等领域。
在体育教学中,通过对运动员的姿态进行计算和分析,可以评估运动员的动作、减少运动员的受伤风险,提高运动员的表现水平。
在运动训练方面,对运动员的姿态进行测量和分析,可以为运动员的训练提供更加科学的依据,从而提高运动员的训练效果。
而在健康管理方面,人体姿态估计技术可以通过检测人体姿态,提供姿势不良的改正建议,并且可以通过定期对身体姿态的检测来评估身体的健康状况。
2. 基于深度学习的人体姿态估计技术基于深度学习的人体姿态估计技术是指利用深度学习算法对人体运动姿态进行识别和分析。
深度学习技术可以通过网络模型对大量的数据进行训练,从而实现对于人体运动轨迹的自动学习和预测。
目前,基于深度学习的人体姿态估计技术主要分为两种方法:一种是基于二维图像的姿态估计,另一种是基于三维点云的姿态估计。
(1)基于二维图像的姿态估计基于二维图像的姿态估计是指利用摄像机采集到的图像对人体进行分析和识别,从而得到人体运动姿态的信息。
该方法通常基于卷积神经网络(ConvolutionalNeural Networks,CNN)来进行分析和识别。
CNN模型可以通过对大量的图像进行训练,从而实现对人体姿态的自动识别和分析。
(2)基于三维点云的姿态估计基于三维点云的姿态估计是指利用激光雷达、立体相机等设备对人体进行采集,从而获取人体三维点云数据,再利用深度学习模型对三维点云数据进行分析和处理。
人体姿态识别与追踪算法综述
人体姿态识别与追踪算法综述摘要:人体姿态识别与追踪算法在计算机视觉和机器人领域具有重要的应用价值。
本文综述了人体姿态识别与追踪的相关算法和技术,包括基于深度学习的方法、基于传统机器学习的方法以及基于传感器的方法。
同时,我们还探讨了算法的优缺点以及未来的发展方向。
1. 引言人体姿态识别与追踪算法是一种通过计算机视觉技术对人体姿态进行自动检测的方法。
它在人机交互、智能驾驶、运动分析等领域具有广泛的应用。
本文将综述目前常见的人体姿态识别与追踪算法,并对其进行分析和比较。
2. 基于深度学习的方法深度学习在图像处理领域取得了显著的成果,也被广泛应用于人体姿态识别与追踪任务。
基于深度学习的人体姿态识别算法主要基于卷积神经网络(CNN)和循环神经网络(RNN)。
例如,OpenPose算法通过将人体姿态识别问题转化为关键点检测问题,使用了一个多阶段的卷积神经网络来预测人体的关键点坐标。
Hourglass网络通过堆叠多个子网络来提取多尺度特征,从而更加准确地估计人体姿态。
这些基于深度学习的方法在准确性和鲁棒性方面取得了显著的提升。
3. 基于传统机器学习的方法除了深度学习方法,传统的机器学习方法也被应用于人体姿态识别与追踪任务。
这些方法主要基于特征提取和分类器训练两个步骤。
例如,隐马尔可夫模型(HMM)被广泛用于动作识别和轨迹追踪。
支持向量机(SVM)在人体姿态的分类和识别中表现出良好的性能。
这些传统机器学习方法在一些特定场景下仍然具有一定的应用优势。
4. 基于传感器的方法传感器在人体姿态识别与追踪中扮演重要角色。
通过使用传感器,可以获取更加精确和丰富的人体姿态信息。
例如,惯性测量单元(IMU)可以用于测量人体的运动状态,通过与图像处理算法结合使用,可以实现更加准确的人体姿态识别。
此外,激光扫描仪、红外热像仪等传感器也可以用于获取人体姿态相关的信息。
5. 算法的优缺点不同的人体姿态识别与追踪算法具有各自的优缺点。
基于深度学习的方法虽然在准确性方面表现出色,但其模型复杂度高,对硬件要求较高,且需要大量的训练数据。
人体运动姿态识别算法综述
人体运动姿态识别算法综述人体运动姿态识别是近年来计算机视觉领域的研究热点之一。
它的应用非常广泛,涵盖动作捕捉、运动分析、人机交互等许多领域。
随着深度学习技术的发展,许多基于深度学习的人体运动姿态识别算法也应运而生,这些算法在性能上已经可以达到甚至超过传统的基于手工特征的算法。
本文将综述一下常见的人体运动姿态识别算法。
1、朴素贝叶斯分类器朴素贝叶斯分类器是一种基于统计学习的分类方法,它的思想是利用贝叶斯定理来预测样本的类别。
在人体运动姿态识别中,朴素贝叶斯分类器可以用来区分不同的姿态,例如抬手、握拳等。
该方法的好处是算法简单、执行速度快,但是它的准确率相对其他算法比较低。
此外,朴素贝叶斯分类器对于连续型变量的应用不太适合,因为它假设样本的属性之间是相互独立的。
2、支持向量机支持向量机是一种广泛应用于模式识别和分类的机器学习方法。
它的基本思想是将样本映射到高维空间中,然后找到一个超平面来分隔不同类别的样本。
在人体运动姿态识别中,支持向量机可以用来实现多类别分类,例如区分站立、跑步、跳跃等不同的运动状态。
支持向量机的优势在于可以处理高维数据、泛化能力强、适用于非线性分类等方面。
3、隐马尔可夫模型隐马尔可夫模型是一种基于统计的序列分类模型。
它的核心思想是,通过转移矩阵和发射矩阵来描述样本之间的关联关系。
在人体运动姿态识别中,隐马尔可夫模型可以用来识别动作序列,例如区分连续起跳和单次起跳等。
该方法的优点在于能够处理序列数据,并且可以适应不同的时间长度。
4、深度学习算法深度学习算法是当前人体运动姿态识别领域研究的热点之一。
它的基本思想是通过多层神经网络来学习抽象的特征表示。
在人体运动姿态识别中,深度学习算法可以用来实现端到端的姿态估计,例如使用卷积神经网络来预测人体骨架的姿态。
深度学习算法的优点在于它能够自动地学习特征表示,克服了传统手工特征需要耗费大量时间的问题。
总之,人体运动姿态识别是一个非常重要的领域,有许多不同的算法可以用来实现它。
人体姿态估计技术及其在医学影像中的应用研究
人体姿态估计技术及其在医学影像中的应用研究随着科技的不断进步,人体姿态估计技术也得到了日益广泛的应用。
人体姿态估计是指通过计算机视觉、模式识别、计算机图形学等技术,对人体在三维世界中的姿势进行检测和分析,从而获取人体各关节角度、空间位置等信息。
该技术在医学影像领域中的应用尤为突出,能够为医生提供更加精准、有效的数据,从而提升医疗诊断和治疗水平。
一、人体姿态估计技术的分类与发展目前,人体姿态估计技术主要分为两类:一种是基于单目RGB图像的2D人体姿态估计技术,主要应用于人脸识别、动作识别等方面;另一种是基于深度传感器的3D人体姿态估计技术,主要应用于医学影像、虚拟现实等领域。
随着深度学习技术的发展,2D和3D人体姿态估计技术都得到了不断完善。
目前,应用最为广泛的是基于深度传感器的3D人体姿态估计技术。
该技术利用深度传感器获取场景中人体的深度信息,利用深度图像进行三维点云重建并进行人体姿态计算。
该技术具有精度高、稳定性好、鲁棒性强等优点,已广泛应用于虚拟现实、医学影像、运动分析等领域。
二、人体姿态估计技术在医学影像中的应用人体姿态估计技术在医学影像中的应用主要是利用深度传感器进行三维重建,获取人体各关节的角度、空间位置等信息,从而为医生提供更加准确、有效的数据,从而提升医疗诊断和治疗水平。
1.关节识别与分析人体关节是各种运动的枢纽,人体姿态估计技术可以快速、准确地识别人体各个关节,并分析其运动状态。
例如,运用该技术可以准确测量髋、膝、肩等关节的角度和活动范围,并结合病人的病历记录,帮助医生进行更加精准的诊断和治疗。
2.运动分析与康复训练人体姿态估计技术可以通过对运动的跟踪和分析,为康复训练提供更加科学、有效的数据和方式。
例如,在康复训练中,可以通过该技术准确跟踪运动员的关节运动情况,并通过数据分析和图像对比,在调整训练计划和康复方案方面提供更加科学的依据。
3.疾病筛查与监测通过应用人体姿态估计技术,医生可以更加高效地进行疾病筛查,监测病人的健康状况,从而更好地制定诊疗计划。
《基于深度学习的人体姿态估计算法研究》
《基于深度学习的人体姿态估计算法研究》一、引言随着深度学习技术的飞速发展,人体姿态估计成为了计算机视觉领域的研究热点。
人体姿态估计是识别和解析图像或视频中人体各个部分的位置、姿态以及其之间的相对关系。
其在实际应用中,如体育训练、行为分析、医疗诊断以及虚拟现实等场景中发挥着重要作用。
本文将就基于深度学习的人体姿态估计算法进行深入研究。
二、深度学习在人体姿态估计中的应用深度学习在人体姿态估计中发挥了重要作用,通过大量的训练数据和复杂的神经网络模型,可以有效地估计人体各个部位的位置和姿态。
主要的算法包括卷积神经网络(CNN)、循环神经网络(RNN)等。
这些网络通过不断学习、训练和优化,能有效地捕捉人体各部位的空间关系和运动模式。
三、基于深度学习的人体姿态估计算法研究1. 数据集与预处理在人体姿态估计中,数据集的选择和预处理至关重要。
常用的数据集包括MPII、COCO等,这些数据集包含了大量的人体姿态图像和标注信息。
在预处理阶段,需要对图像进行归一化、去噪等操作,以便于模型的训练和优化。
2. 卷积神经网络模型卷积神经网络是人体姿态估计中的常用模型。
该模型通过多层卷积和池化操作,从图像中提取出人体的特征信息。
在此基础上,利用全连接层对特征进行分类和定位,从而实现对人体姿态的估计。
3. 循环神经网络模型除了卷积神经网络外,循环神经网络也在人体姿态估计中发挥了重要作用。
该模型能够捕捉时间序列信息,对动态的人体姿态进行估计。
通过将图像序列输入到RNN中,可以实现对人体姿态的实时跟踪和估计。
4. 算法优化与改进针对人体姿态估计的难点和挑战,研究者们不断对算法进行优化和改进。
例如,通过引入注意力机制、使用更复杂的网络结构、采用多模态信息融合等方法,提高算法的准确性和鲁棒性。
此外,还有一些算法利用弱监督学习或自监督学习的思想,从无标注或部分标注的数据中学习到有用的信息,进一步提高了算法的泛化能力。
四、实验与分析本文通过实验验证了基于深度学习的人体姿态估计算法的有效性。
计算机视觉中的人体姿态估计算法研究
计算机视觉中的人体姿态估计算法研究随着计算机技术的不断发展,计算机视觉技术已经成为了一个热门的研究领域。
在人体姿态估计方面,也得到了越来越多的关注。
人体姿态估计是指通过计算机视觉技术来捕捉、测量并推理人体姿态的过程。
它具有重要的实际应用价值,特别是在运动分析、人机交互、安防监控等领域。
本文将介绍人体姿态估计算法的研究现状和发展趋势,以期促进研究进展。
1. 人体姿态估计算法的研究现状人体姿态估计算法的研究历史可以追溯到上世纪80年代。
早期的方法主要是基于基础模型或人手工设计的关键点来进行姿态估计,这些方法需要大量的人工标注数据。
在21世纪初,基于人工神经网络和深度学习技术的姿态估计方法开始出现,并且得到了广泛的应用。
这些深度学习技术,如卷积神经网络(CNN)、循环神经网络(RNN)、图像处理网络(IPN)等,可以自动提取特征,并学习到更为高级的特征表示。
2. 基于深度学习的人体姿态估计算法深度学习技术在人体姿态估计中的优势在于其可以高效地学习对姿态进行正确描述的特征表示。
事实上,大部分基于深度学习的姿态估计模型都采用了CNN网络结构,并在该基础上添加自适应学习模型。
早期的深度学习模型通常利用图像数据通过预处理,比如旋转、平移、裁剪等方式来增加样本量,从而达到更好的训练效果。
现在,这些方法已经得到了较好的发展和推广,但是还存在一定的问题,如在应对复杂场景时的泛化能力不足等。
3. 其他人体姿态估计算法除了基于深度学习技术的算法外,还有其他的姿态估计算法值得关注。
例如,基于迭代优化的方法,这种方法可以在传统的姿态估计模型中加入姿态优化策略,从而提高姿态检测的准确度。
另一方面,基于传统的机器学习技术,如支持向量机(SVM)、决策树等,也已经在人体姿态估计中得到了不少的应用。
这些算法在特定的场景下有很好的表现,并且在运行速度等方面具有着优势。
4. 未来发展趋势在未来的研究中,有几个方向值得关注。
首先,针对复杂场景下的人体姿态估计问题,需要在深度学习和机器学习领域进一步探索。
人体姿态估计技术研究
人体姿态估计技术研究人体姿态估计技术是一种基于计算机视觉和机器学习的技术,旨在通过处理图像或视频数据来推测人体的姿势和动作。
该技术在许多领域有着广泛的应用,例如人机交互、医疗保健、计算机辅助设计和安防系统等。
在本文中,我们将探讨人体姿态估计技术的研究进展、应用场景和未来发展趋势。
一、人体姿态估计技术的研究进展人体姿态估计技术的研究始于上世纪80年代。
最初的研究集中在通过计算机处理图像数据来提取人体关节位置信息。
这些技术大多基于图像分割、边缘检测和特征提取等方法。
然而,由于图像数据难以处理,人体姿态估计技术的研究进展缓慢。
随着人工智能和深度学习技术的出现,人体姿态估计技术开始迎来显著的进展。
人工神经网络技术使得计算机能够学习和识别复杂的图像特征,从而实现更精准的人体姿态估计。
人体姿态估计技术也被应用于虚拟现实和增强现实等领域,使得用户能够更加自然地与虚拟环境交互。
二、人体姿态估计技术的应用场景1. 医疗保健在医疗保健领域,人体姿态估计技术被应用于康复和运动训练。
例如,在物理治疗中,医生可以使用计算机来监测受伤部位的运动,从而制定最适合的训练计划。
在运动训练中,锻炼者可以通过对比自己的姿势和标准姿势来纠正自己的动作。
2. 计算机辅助设计人体姿态估计技术也被广泛应用于计算机辅助设计领域。
例如,在衣服设计中,设计师可以使用人体姿态估计技术来确定衣服的穿着感和舒适度。
在汽车设计中,汽车制造商可以使用人体姿态估计技术来确定车辆座椅的舒适度和可调性。
3. 安防系统人体姿态估计技术被广泛应用于安防系统中。
例如,在公共场所,计算机可以通过摄像头监测人们的姿势,并自动报警或触发安全措施。
在工厂和仓库中,计算机可以监测员工的工作姿势,并预测和防止工伤事故的发生。
三、未来的发展趋势人体姿态估计技术在未来将继续得到广泛的应用,其发展趋势主要包括以下几个方面:1. 数据集的扩大随着人体姿态估计技术应用场景的不断增加,需要更多的数据集来支撑算法的训练和优化。
基于深度学习的人体姿态估计综述
基于深度学习的⼈体姿态估计综述定义姿态估计:在⼈体关节连接的所有姿势空间中搜索某个特定姿势,本质为关节点的定位。
⼈体⾻架以⼀种图的⽅式表⽰了⼈的⽅位姿态,本质上是⼀组能被连接起来表⽰⼈体姿态的坐标。
坐标点⼜称为关节或关键点,两坐标点之间的连接称为肢体--limb姿势空间的⼦集:⾻架表⽰的⽰例:准确的说左侧是openpose中的格式2D Pose Estimation:从RGB图像中估计每个关节点的2D姿势坐标,2D pose (x,y)3D Pose Estimation: 从RGB图像中估计每个关节点的3D姿势坐标,3D pose (x,y,z),z---the depth应⽤1. 动作识别2. 训练机器⼈3. 游戏中跟踪交互对象的动作4. 动画视频中增强现实--动作渲染难点1. 关节的特点:强⼤⽽复杂的表达能⼒;⼩且⼏乎看不见2. 遮挡、服装和照明变化2D Pose估计传统的⽅法是:过可变形区域建模,缺点是表性能⼒差,没有考虑上下⽂信息。
基于深度学习的⽅法:DeepPose——第⼀篇将基于卷积神经⽹络的深度学习⽅法应⽤到姿势估计的论⽂0.将关节点估计建模为回归问题,证明了从整体推理隐藏的关节点的合理性,展⽰了CNN强⼤的表现⼒。
1.将alexnet前⾯的七层拿出来,加⼀个2K的向量(x,y)*k. k-----⼈体⾻骼建模的关节点个数2.再级联⼀个同样的回归器,对1阶段粗回归得到的关节点位置从原图上裁剪得到ROI区域,再⼀次回归精修位置----此时分辨率变⼤弊端:直接回归⼀组向量作为xy坐标很困难,增加了学习的复杂度,降低了泛化能⼒,因此某些地⽅表现⼀般。
最新的SOTA⽅法:是回归K张heatmap,代表某种关节点发⽣在此对应像素位置的置信度。
如下⾯论⽂Efficient Object Localization Using Convolutional Networks并⾏的在多分辨率图⽚上操作精修时直接从第⼀层回归器拿特征图ROI,⽽不是去原图拿ROI优点:热图预测⽐直接回归关节点效果好不⾜:没有考虑⼈体的结构建模------⼈体具有⾼度对称性,部位⽐例关系,物理连接性(肘⼀定是连接腕关节或肩关节),贯通性以及关节局限性(⽐如肘向后弯曲限制)等,通过建模这种结构关系可以使关键点的确定更容易,使遮挡关节的估计变成可能。
基于深度学习的人体姿态检测算法综述
基于深度学习的人体姿态检测算法综述作者:张增会姚彦鑫来源:《电脑知识与技术》2021年第27期摘要:近年来随着深度学习和人工智能的蓬勃发展,人体姿态检测逐渐成为计算机视觉领域研究的热点问题,许许多多的人体姿态检测方法和研究理论也在被不断地提出。
人体姿态检测可以理解为人体关键点识别以及连接问题,本文通过对姿态检测的算法的描述,主要介绍单人与多人这两种主要人体姿态检测的主流算法,同时重点对于多人场景下的人体姿态检测算法介绍。
通过对不同算法的对比得出各个算法的优缺点,并对人体姿态检测的应用进行阐述。
本文的结尾结合人体姿态检测领域的发展现状,对此领域的未来发展趋势进行展望。
关键词:深度学习;人体姿态检测;人体关键点识别中图分类号:TP311 文献标识码:A文章编号:1009-3044(2021)27-0092-021 概述随着计算机技术的不断进步以及人工智能时代的来临,人体姿态识别技术已经成了计算机视觉领域不可或缺的一部分,也越来越引起各个国家和科研机构的重视。
人体姿态检测作为计算机视觉当下的研究热点,在生活中也具有十分广泛的应用,例如在视频监控烦那个面对公共领域的安全问题进行保障,以及在人机交互方面增强人与机器之间的流畅度。
一般来说人体姿态检测从算法层面上讲就是先使用卷积神经网络将图片或者视频中的人体的关键节点检测出来,然后对这些关键点进行连接的一个过程。
通过对人体不同的关键点之间的连接得到人体完整的人体节点信息。
在将深度学习算法应用于人体姿态检测之前,不少算法采用基于图形结构[1]算法来处理人体姿态检测问题。
这些方法主要是基于局部检测器,局部检测器使用的原理即通过人体关键点之间的内在联系来建立模型,虽然在识别精确度方面有所提高,但是往往容易受到拍摄角度以及光照等不确定因素的影响。
除此之外还容易受到人工标注等因素的制约,如边缘特征[2],方向梯度直方图[3],此种标注需要耗费大量的人力和物力。
人体姿态估计通常可以分为二维人体姿态和三维人体姿态两种,由于在现实生活中需要处理的图像大多为二维图像,所以一般来说我们理解的人体姿态检测为二维人体姿态检测。
人体运动姿态识别技术研究综述
人体运动姿态识别技术研究综述人体运动姿态识别技术是一项快速发展的领域,依托计算机视觉算法,可以实现对人体运动姿态的快速识别和分析,为人们的健康状况监测、运动训练和体育竞技等方面提供了有力的支持。
一、人体运动姿态识别技术的发展历程人体运动姿态识别技术起源于计算机视觉技术的兴起,最早的研究目的是实现对运动情况的跟踪和监测。
随着计算机硬件和视觉算法的不断提升,这项技术也逐渐有了更广泛的应用,包括人体运动姿态的实时监测、行为识别和模拟等方面。
近年来,3D传感技术的进步更加丰富了人体运动姿态识别技术的发展,使其能够更精确地感知人体运动姿态的细节和特征。
二、人体运动姿态识别技术的实际应用人体运动姿态识别技术广泛应用于医疗保健领域、体育竞技领域以及娱乐健身等方面。
在医疗保健领域,可以通过运动姿态识别技术实现对病人恢复训练的监测和指导,同时也可以用于老年人和残障人士的康复训练。
在体育竞技领域,人体运动姿态识别技术能够提供运动员实时训练反馈和技术分析,为运动员提高训练效果和竞技成绩提供有力支持。
在娱乐健身领域,人体运动姿态识别技术能够帮助用户监测运动姿态和进展,为用户的健康状况提供有效的监测和管理。
三、人体运动姿态识别技术在未来的发展未来,人体运动姿态识别技术将继续向更高更精确的方向发展。
随着训练数据的积累和算法的优化,人体运动姿态识别技术的可靠性和准确度将会进一步提升。
接下来,还有一些技术挑战需要克服,包括复杂场景下的姿态识别、实时姿态重建和人体运动动作的自动分割等。
此外,随着智能穿戴设备和虚拟现实技术的发展,人体运动姿态识别技术还将与这些技术相结合,开拓更广泛的应用场景。
四、结语人体运动姿态识别技术是一项快速发展的计算机视觉技术,在医疗、体育和娱乐领域都有广泛的应用。
未来,人体运动姿态识别技术将继续发展,为人们的健康和生活带来更多的便利和机会。
《基于深度学习的人体姿态估计算法研究》
《基于深度学习的人体姿态估计算法研究》一、引言随着深度学习技术的飞速发展,人体姿态估计成为了计算机视觉领域的一个重要研究方向。
人体姿态估计是通过对图像或视频中的人体进行识别和定位,进而推断出人体的姿态信息。
这项技术在智能监控、人机交互、运动分析、虚拟现实等领域有着广泛的应用前景。
本文将就基于深度学习的人体姿态估计算法进行深入研究。
二、人体姿态估计的研究背景及意义人体姿态估计是计算机视觉领域中的一项重要任务,其研究意义在于能够帮助计算机更好地理解人类的行为和动作。
在智能监控、人机交互、运动分析等领域,人体姿态估计技术都有着广泛的应用。
例如,在智能监控中,通过对人体姿态的识别和估计,可以实现对异常行为的检测和预警;在人机交互中,通过对人体姿态的识别和估计,可以实现更加自然和便捷的人机交互方式。
因此,研究人体姿态估计算法具有重要的理论和应用价值。
三、深度学习在人体姿态估计中的应用深度学习在人体姿态估计中发挥了重要作用。
通过对深度神经网络的训练,可以实现对人体关键点的准确检测和定位。
目前,基于深度学习的人体姿态估计算法主要分为两类:基于模型的方法和基于卷积神经网络的方法。
基于模型的方法通过构建人体模型,将人体姿态估计问题转化为模型参数的优化问题。
该方法在处理简单场景下的人体姿态估计问题时具有一定的优势,但在复杂场景下,由于模型的复杂性和多样性,其效果并不理想。
基于卷积神经网络的方法则通过训练深度神经网络来检测人体关键点。
该方法可以自动学习人体的特征表示,具有更好的泛化能力和鲁棒性。
目前,基于卷积神经网络的人体姿态估计算法已经成为主流的研究方向。
四、基于深度学习的人体姿态估计算法研究本文提出了一种基于深度学习的人体姿态估计算法。
该算法采用卷积神经网络来检测人体关键点,并利用循环神经网络对关键点进行序列化处理,以提高姿态估计的准确性和鲁棒性。
首先,我们采用卷积神经网络来检测人体关键点。
在卷积神经网络中,我们使用多个卷积层和池化层来提取人体的特征表示。
基于人工智能平台的人体二维图像姿势评估系统研发
假肢矫形器的装配需要进行严格的适配评估,其中关于患者穿戴后的站立姿势评估是其中重要的一环。
早期都是采用技师经验定性分析,后期也出现了专业的三维人体步态分析系。
现在的人工智能技术越来越多的应用于康复医疗领域,特别是在人脸识别,医疗诊断、人体姿势识别等方面,CNN、LSVM、RNN、GAN等各种机器学习理论算法模型层出不穷[1]。
随着“互联网+”技术的出现,很多高科技互联网企业提供了各种人工智能分析平台。
本文利用百度大脑AI 开放平台提供的人体分析模块中的人体关键点识别技术数据,采用python编程设计了一款简易假肢矫形器二维人体姿势分析系统,用于假肢矫形器装配后的人体姿势识别,对临床评估起到辅助作用。
一、人体姿态评估技术发展人体姿态评估主要通过计算机视觉任务完成人体骨骼关键点的检测。
传统的人体骨骼关键点检测算法基本上都是在几何先验的基础上基于模版匹配的思路表示整个人体结构和关键点的表示、肢体结构的表示以及不同肢体结构之间关系的表示[2]。
2000年以后随着神经网络、图像卷积技术的发展,出现了各种关于人体姿势的评估方法和自上而下、自下而上的检测方向。
Alexander Toshev和Christian Szegedy 最早将DNN(Deep Neural Networks)技术应用于人体关节点检测, 直接回归人体关节坐标[3]。
随后基于神经网络模型出现了各种关于人体关键点的算法,例如Flowing ConvNets、CPM(convolution pose machine)和基于Caffe框架下的Open Pose等技术[3-4]。
二、关键技术实现(一)平台数据提取 百度AI(Artificial Intelligence,人工智能)生态布局基于三个部分:百度大脑、百度云和DuerOS。
百度大脑是百度的核心能力和核心算法,其中包括语音识别、图像识别、视频识别、自然语言处理、大数据和用户画像等核心能力[5];人体关键点识别是人脸与人体识别大类、人体分析次类中的一个细类。
基于深度学习的人体姿态估计技术研究
哈尔滨工业大学工学硕士学位论文摘要随着近几年计算机软硬件技术的蓬勃发展,各种人机交互游戏与应用被广泛普及。
人体姿势估计是众多人机交互任务的基础,它通过准确估计图像或视频信息中人体各个关节点的坐标,完成对人物的动作识别和行为分析,从而为人机交互设备提供下一步的操作数据,因此它是人机交互系统必不可少的重要部分。
人体姿态估计算法可以分为传统的基于图模型的方法和现阶段的基于深度学习的方法。
传统的基于图模型的方法将人体视为一系列具有强相关性的部件,使用图像结构模型来模拟人体每个组件的外观模型和组件与组件之间的空间约束,并利用图形推理的方法来最后优化一下人体各个关节的位置。
这类方法的算法准确度和算法复杂度成正比,子模型空间越大,能模拟的人体姿态越多,算法的计算量和复杂度就越高。
与传统方法相比,基于深度学习的方法不需要模型先验知识,却能取得更好的效果。
所以本论文基于深度学习实现了两个人体姿态估计网络,主要的贡献如下所示:(1)实现的基于FPN的two-stage R-FPN网络将残差模块和转置卷积应用于特征金字塔网络得到的多尺度融合的特征之上,它们在网络层数很深和上采样倍数很大的情况下仍然能取得不错的效果,之后通过多阶段的网络设计和多处中继监督点的设置,将多处预测的热力图和基于数据标注用2D高斯函数构建的热力图做L2损失计算,从而优化网络参数。
以上措施的应用解决了原始特征金字塔网络对被遮挡的关节点定位不准的问题。
(2)实现的Densely-hourglass Network通过巧妙的设计使经典网络Stacked hourglass network中的沙漏模块能像DenseNet网络一样进行相同通道数相同分辨率大小的特征图的紧密连接,从而达到在网络使用比较少参数的情况下都能实现很好的效果,之后通过网络中部分concatenate和BN操作的优化显存使用量的策略,达到了压缩显存使用量的目的,从而让我们能在有限的硬件条件下,训练出更深的网络。
基于深度学习的二维人体姿态估计综述
基于深度学习的二维人体姿态估计综述
王珂;陈启腾;陈伟;刘珏廷;杨雨晴
【期刊名称】《郑州大学学报(理学版)》
【年(卷),期】2024(56)4
【摘要】人体姿态估计是近年来计算机视觉问题中的一个热门话题,它在改善人类生活方面具有巨大的益处和潜在的应用。
近年来深度神经网络得到快速发展,相较于传统方法而言,采用深度学习的方法更能提取图像表征信息。
综合分析近年来人体姿态估计的进展,根据检测人数分为单人和多人人体姿态估计。
针对单人姿态估计,介绍了基于直接预测人体坐标点的坐标回归方法及基于预测人体关键点高斯分布的热图检测方法;针对多人姿态估计,采用解决多人到解决单人过程的自顶向下方法和直接处理多人关键点的自底向上方法。
总结了各方法网络结构的特点和优缺点,并阐述当前面临的问题及未来发展趋势。
【总页数】10页(P11-20)
【作者】王珂;陈启腾;陈伟;刘珏廷;杨雨晴
【作者单位】中国矿业大学计算机科学与技术学院;中国矿业大学矿山数字化教育部工程研究中心
【正文语种】中文
【中图分类】TP391
【相关文献】
1.深度学习的二维人体姿态估计综述
2.深度学习的二维人体姿态估计综述
3.基于深度学习的二维人体姿态估计算法综述
4.基于深度学习的二维人体姿态估计:现状及展望
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文章编号:1007-1423(2019)22-0033-05DOI:10.3969/j.issn.1007-1423.2019.22.007二维人体姿态估计研究综述李崤河,刘进锋(宁夏大学信息工程学院,银川750021)摘要:人体姿态估计一直是计算机视觉中一个备受关注的研究热点,在智能安防、人机交互、动作识别等领域有着重要的研究价值。
近年来,随着深度学习技术的快速发展,人体姿态估计效果不断提升,已经开始广泛应用于计算机视觉的相关领域。
梳理二维人体姿态估计算法的发展与现状,总结传统算法与基于深度学习的姿态估计算法的发展与改进,并做出对比;讨论二维人体姿态估计所面临的困难与挑战,并对未来的发展方向做出展望。
关键词:深度学习;人体姿态估计;关键点检测基金项目:宁夏高等学校科学研究项目(No.NGY2015044)0引言人体姿态估计长久以来一直是计算机视觉领域的一个热点问题。
其主要内容,是让计算机从图像或视频中定位出人物的关键点(也称为关节点,如肘、手腕等)。
人体姿态估计作为理解图像或视频中人物动作的基础,一直受到众多学者的关注。
随着计算机技术的迅猛发展,人体姿态估计已经在动作识别、人机交互、智能安防、增强现实等领域获得了广泛应用。
人体姿态估计按维度可分为二维和三维两种:二维人体姿态估计通常使用线段或者矩形来描述人体各关节在图像上的投影位置,线段的长度和角度表示了人体的二维姿态;三维人体姿态估计通常使用树模型来描述估计的姿态,各关节点的位置使用三维坐标确定。
在实际应用中,目前获取的大多数图像仍是二维图像,同时三维姿态估计可以使用二维预测进行推理[1],所以二维姿态估计有着重要的研究价值。
自人体姿态估计的概念提出以来,国内外的学者对此做出了不懈的努力。
传统的姿态估计算法主要是基于图结构(Pictorial Structures)模型[2]。
该模型将人或物体表示为多个部件的集合,这些部件之间含有空间约束,通过人工指定的特征检测组件实现关节点检测。
传统方法过于依赖手工设计的模板,难以应付复杂的姿态变换并且推广到多人姿态估计。
随着深度学习技术在计算机视觉领域大放异彩,部分学者开始研究如何利用深度学习来解决人体姿态估计问题。
Toshev等人利用深度卷积神经网络对人体姿态进行全局推断,提出了完全基于神经网络的模型DeepPose[3]。
DeepPose是第一个将深度学习方法应用于人体姿态估计的主要模型。
该模型实现了SOTA性能并击败了当时的传统模型。
之后,越来越多基于深度学习的人体姿态估计方法相继提出。
本文总结了近几年来二维人体姿态估计的发展历程,从早期的基于模板匹配算法到目前的基于深度学习的姿态估计算法,分析比较相关算法的优缺点及性能,并结合现有问题对未来发展进行了展望。
1传统算法早期的人体关键点检测算法基本都是在几何先验的基础上基于模板匹配的思路进行的,其中Fischler[2]于1973年提出的图结构是其中一个较为经典的算法思路。
它将物体表示为多个部件的集合,部件之间具有一定的空间约束。
2005年,Felzenszwalb和Huttenlo⁃cher[4]将图结构归入统计学的框架,并假设各个部件之间服从树形结构。
这极大地降低了计算复杂度,使图结构在人体姿态估计领域得到了很好的应用。
此后,一系列基于图结构的人体姿态估计算法被提出。
图结构主要包含两个部分,其一是部件模型(Part Model),用于描述组成物体的各个部件;其二是空间模型(Spatial Model),用于描述各个部件之间的空间关系。
大多数的研究致力于寻找表达能力更强的部件模型和空间模型来提高姿态估计的准确率。
与早期方法相比,部件模型中使用了表达能力更强的图像特征,例如,HOG[5]和SIFT[6]特征。
Ramanan从图片中提取具有表达能力的模板来解决关节匹配问题。
此外,前景分割技术也被集成到姿态估计中[7],更具判别性的部件检测器被训练出来用于姿态估计[8]。
空间模型方面,非树形结构的模型被提出,用于解决人体姿态估计中的自遮挡问题[9]。
Yang和Ra⁃manan[10]提出的混合部件(Mixtures of Parts)模型能够表达更为复杂多样的空间约束。
该模型包含多种对姿态估计非常重要的信息,例如,部件的几何形变约束、部件的外观信息等。
除了关注两个部件之间的空间约束,也有一些工作关注更大范围的约束。
例如,用于上半身姿态估计的Armlet[11]和用于整体姿态估计的Pose⁃let[12]。
2基于深度学习的方法传统的姿态估计算法依赖于物体的外观特征,如纹理、边缘、颜色、前景轮廓或手工设计的局部特征,有一定的局限性。
卷积神经网络的提出极大地促进了计算机视觉技术的发展。
随着Toshev等人提出Deep⁃Pose网络[3],人体姿态估计的研究开始从经典方法转向深度学习方法。
近几年提出的姿态估计算法普遍采用ConvNets作为模型的主要构建单元,这一策略极大地提升了姿态估计的准确率。
基于深度学习的人体姿态估计主要分为单人姿态估计和多人姿态估计两个方向。
单人姿态估计指输入图像中只包含一个人物,算法的主要任务是检测出该目标的所有关键点。
多人姿态估计的输入图像中包含不定数量的人物,该研究方向更适用于实际场景。
同时,多人姿态估计不光要检测出图像中所有的关键点,还要对关键点进行聚类,将同一个人的关键点分配到一起。
2.1单人姿态估计(1)相关算法Toshev[3]将姿态估计设计为一个基于神经网络的人体关节点回归问题。
与基于图模型的方法相比,该方法不需要显式地设计出部件的特征表示和部件检测器,也不需要显式地设计出模板间的拓扑关系。
更进一步,作者使用了基于神经网络的级联回归器。
这种级联回归器能够增加关节点定位的精度。
Carreira[13]针对前馈神经网络不能很好地对输出空间中的依赖关系进行有效建模问题,提出了一个自校正模型——迭代错误反馈(Iterative Error Feedback),该模型通过反馈错误预测逐步调整初始预测。
同时,一部分学者[14-15]将图结构作为人体先验知识加入神经网络模型中,借此提高模型的学习能力。
2015年之前的主要方法将关节点直接回归到精确的坐标点(x,y),这增加了学习复杂度,降低了模型的泛化能力,因此在某些场景表现很差。
随后,Tompson[16]对网络模型进行了改进。
该网络输出低分辨率、逐像素的热图,热图描述了该部件可能位置的概率分布,而不是直接回归预测关节点坐标,提高了关节点定位的鲁棒性。
然后将各部件位置的概率分布作为先验输入“位置细化”模型计算出部件的最终位置。
这种输出模型非常成功,许多后续的论文都采用了这种方法。
为了增强网络模型对不可见关节点的预测能力,Tompson[14]和Yang[17]将图模型应用到神经网络中。
同时,部分学者通过构建多阶段CNN回归模型[18-20],增加网络的感受野,以此提高模型的预测能力。
例如,Wei[18]提出的卷积姿态机(Convolutional Pose Machine)可以同时学习图像特征和依赖于图像的空间模型;Newell[19]构造的经典网络结构——堆叠沙漏网络,可以更好地混合全局和局部信息。
(2)性能比较单人姿态估计的公开数据集主要有MPII单人数据集[21]、LSP数据集[22]和FLIC数据集[23]。
评价指标为PCK(Percentage of Correct Keypoints)即关键点正确估计的比例,通常需要计算检测的关键点与其对应真值之间的归一化距离小于设定阈值的比例。
MPII数据集中是以头部长度的50%作为归一化参考,即PCKh@ 0.5。
目前MPII单人数据集的算法排名如表1所示。
表1单人姿态估计算法性能对比2.2多人姿态估多人姿态估计计单人姿态估计的输入图像中仅包含单个目标,算法只需要确定单人的关键点坐标即可,应用场景简单。
而多人姿态估计需要确定图像中不定数量人体的关键点坐标,同时将同一个人的关键点聚类到一起,算法更为复杂。
目前,多人姿态估计有两种主流的研究方法:自顶向下(Top-Down)和自底向上(Bottom-Up)。
(1)基于自顶向下的方法该类方法的基本思路是先使用目标检测算法检测出多个人,再对每个人应用单人姿态估计。
该方法的精度依赖于目标检测算法的输出精度和单人姿态估计的精度。
同时,多人图像中遮挡问题更加严重,如何准确预测出不可见关节点是多人姿态估计中的一个重要研究方向。
Papandreou[29]构建了一个二阶段网络,其中第一阶段使用Faster R-CNN检测出可能包含人物的区域,第二阶使用全卷积残差网络预测每个人的关节点坐标。
作者在第二阶段引入了两个偏移参数来提高关节点的预测精度。
Chen等人[30]通过将第一阶段网络得到的所有层次特征整合到一起,并结合在线困难关键点挖掘(Online Hard Keypoint Mining)技术,着重于“困难”关键点的检测。
针对自顶向下方法可能会产生的检测框定位误差以及对同一个目标重复检测等问题,Fang[31]提出了RMPE(Regional Multi-person Pose Estimation)框架。
其中,SSTN(Symmetric Spatial Transformer Net⁃work)网络可以从一个不准确的目标框中提取高质量的单人区域;参数化的姿态非极大值抑制算法用于消除冗余位姿。
(2)基于自底向上的方法该类方法主要包含两部分,关键点检测和关键点聚类。
其中,关键点检测需要将图片中所有类别的所有关键点全部检测出来,然后对这些关键点进行聚类,将不同人的不同关键点连接到一起,从而聚类产生不同的个体。
这方面的论文主要侧重于对关键点聚类方法的探索。
Cao等人[32]使用向量场对人体的不同肢体结构进行建模,解决了单纯使用肢体中间点产生的错连问题。
Xia[33]则采用部位分割的思想对关键点间的关系进行建模,该方法既可以显示的提供人体关键点之间的空间先验知识,同时也对关键点的聚类产生辅助作用。
Newell等人[34]提出了一个单阶段的端到端多人姿态估计网络,通过使用高维空间向量来编码不同人体的不同关键点之间的关系,实现了检测和分组同步进行。
(3)性能比较多人姿态估计的基准数据集主要有MPII多人数据集[21]和MSCOCO关键点数据集[35]。
评价指标主要为mAP。
表2展示了多人姿态估计算法在MPII多人数据集上的性能比较。
表2多人姿态估计算法性能对比3结语由于人体姿态的多变性,以及受人物着装、自遮挡、复杂背景和相机视角等多重因素影响,人体姿态估计一直是计算机视觉领域的一大挑战。
本文对二维人体姿态估计算法进行了简单回顾,较为详细地介绍了姿态估计的分类以及几种常见算法。