基于改进卷积神经网络的人体姿态估计
top-down人体姿态估计算法
top-down人体姿态估计算法Top-down人体姿态估计算法是一种用于从图像或视频中推断人体姿态的方法。
它通过先检测人体的整体框架,然后逐步细化到各个关节的位置和角度,从而实现对人体姿态的准确估计。
该算法的基本思想是将人体姿态估计问题分解为两个子问题:人体检测和关节定位。
首先,通过使用目标检测算法,如Faster R-CNN 或YOLO,从图像中定位出包含人体的矩形框。
然后,将这些矩形框输入到关节定位网络中,逐步细化到每个关节的位置和角度。
在关节定位阶段,通常使用卷积神经网络(CNN)来对每个关节进行回归。
这些CNN模型通常包含多个卷积层和全连接层,用于从图像中提取特征并预测关节的位置和角度。
为了提高准确性,可以使用残差连接、空洞卷积等技术来改进模型。
除了CNN模型,还可以使用其他技术来改进关节定位的准确性。
例如,可以使用姿态先验信息来约束关节位置和角度的范围。
另外,还可以使用多尺度和多尺度融合的方法来提高对不同尺度人体的姿态估计准确性。
在实际应用中,Top-down人体姿态估计算法已经取得了很多成功。
它被广泛应用于人体动作识别、人机交互、虚拟现实等领域。
例如,在人机交互中,可以通过识别用户的手势和动作来实现自然的人机交互;在虚拟现实中,可以通过捕捉用户的姿态来实现身体感知和交互。
然而,Top-down人体姿态估计算法也存在一些挑战和限制。
首先,由于人体姿态的多样性和复杂性,算法对于姿态变化较大的情况可能存在一定的误差。
其次,算法对于遮挡、光照变化和背景干扰等因素也较为敏感。
此外,算法的计算复杂度较高,需要较大的计算资源和时间。
Top-down人体姿态估计算法是一种有效的方法,可以用于从图像或视频中推断人体的姿态。
它通过分解问题、使用CNN模型和其他技术来实现对人体姿态的准确估计。
尽管存在一些挑战和限制,但该算法在人机交互、虚拟现实等领域具有广泛的应用前景。
未来,随着算法的不断改进和硬件的发展,Top-down人体姿态估计算法将会变得更加准确和可靠。
基于深度学习的人体姿态识别研究
基于深度学习的人体姿态识别研究人体姿态识别是计算机视觉领域的重要研究方向之一,其在人工智能、机器人、虚拟现实等领域有着广泛的应用前景。
近年来,随着深度学习技术的兴起,基于深度学习的人体姿态识别也获得了突破性的进展。
本文将从基本概念、研究方法和应用前景三个方面探讨基于深度学习的人体姿态识别研究。
一、基本概念1.深度学习:深度学习是一种通过多层神经网络模拟人脑工作原理的机器学习方法。
其核心是构建多层次的特征提取器和分类器,通过大量数据的训练来自动学习特征和模式。
2.人体姿态:人体姿态是指人体在特定时间点的身体姿势和关节角度。
人体姿态识别旨在通过计算机对人体在图像或视频中的姿态进行准确判断和估计。
二、研究方法N(卷积神经网络):卷积神经网络是深度学习领域常用的一种神经网络结构。
通过卷积层、池化层和全连接层等结构,CNN可以自动从图像中提取特征,从而实现对人体姿态的准确识别。
2.RNN(循环神经网络):循环神经网络是一种具有内部记忆机制的神经网络结构,可用于处理序列数据。
在人体姿态识别中,RNN可以有效地捕捉姿态的时序信息,提高识别精度。
3.GAN(生成对抗网络):生成对抗网络由生成器和判别器组成,通过对抗学习的方式逐步提升生成器生成逼真样本的能力。
在人体姿态识别中,GAN可以生成大量真实的姿态样本,从而扩充训练数据,提高模型的鲁棒性。
三、应用前景1.人机交互:基于深度学习的人体姿态识别可以实现人机交互的自然和便捷,如姿势识别控制电脑、智能家居、虚拟现实等。
2.运动分析:人体姿态识别对于运动员的动作分析和训练评估有着重要的作用,可以帮助教练员和运动员改进训练方法,提高训练效果。
3.安防监控:基于深度学习的人体姿态识别可以应用于安防监控系统中,实现对异常行为的实时识别和报警,提高社会安全性。
总结:基于深度学习的人体姿态识别是计算机视觉领域的研究热点,其应用前景广泛。
本文介绍了基本概念、研究方法和应用前景三个方面的内容,从而全面了解了基于深度学习的人体姿态识别的重要性和发展趋势。
基于深度学习的人体运动姿态估计算法研究
基于深度学习的人体运动姿态估计算法研究深度学习作为人工智能领域的一种重要技术,已经在各个领域得到了广泛的应用。
其中一个重要的应用领域是人体运动姿态估计。
这一领域的研究已经取得了一定的进展,但是仍然有许多挑战和待解决的问题。
一、人体运动姿态估计的意义和难点人体运动姿态估计是指通过分析人的运动视频,计算出人体各个关节的角度、位置和运动轨迹等信息。
这一技术在许多领域有着重要的应用,例如体育科学、医学、游戏等。
在体育科学中,人体运动姿态估计可以用于评估运动员的技术和姿势是否正确,以及分析运动员的运动轨迹和运动效率。
在医学中,人体运动姿态估计可以用于康复训练和疾病诊断等方面。
在游戏中,人体运动姿态估计可以用于实现更加真实、自然的玩家操作体验。
人体运动姿态估计的难点主要在于以下几个方面:1. 多样性和变化性:人的姿势和动作具有较大的多样性和变化性,例如不同的运动员在做同一种运动时姿势可能不同;同一个人在不同的时间和场景下所做的动作也可能不同。
2. 姿态语义的复杂性:姿态语义是指人体各个关节的角度和位置的语义含义和关联关系。
例如,手臂伸直时,肩膀和手肘的角度应该是多少,手臂应该在哪个位置,这些都是姿态语义的一部分。
3. 估计精度:对于不同的应用场景,对于人体运动姿态估计的估计精度要求也不同。
例如,在体育科学中,估计精度通常要求在1-2度范围内,而在游戏中要求较低的估计精度。
二、基于深度学习的人体运动姿态估计算法随着深度学习技术的不断发展,基于深度学习的人体运动姿态估计算法也逐渐受到了研究者的关注。
目前最常用的深度学习算法是卷积神经网络(CNN)和循环神经网络(RNN)。
1. 卷积神经网络(CNN)卷积神经网络是一种能够自动从数据中提取特征的神经网络模型,已被广泛应用于图像识别、语音识别、自然语言处理等领域。
在人体运动姿态估计中,卷积神经网络可以自动从运动视频中提取关键点的位置信息,并计算出各个关节的角度和运动轨迹。
基于神经网络的人体姿态识别研究
基于神经网络的人体姿态识别研究一、引言随着科技的不断发展,计算机视觉领域也取得了长足的进步。
在计算机视觉应用中,人体姿态识别被广泛用于人机交互、视频监控、虚拟现实等领域。
而神经网络作为一种强大的模型,被应用于人体姿态识别研究中,以提高识别的准确性和效率。
本文将介绍基于神经网络的人体姿态识别的研究现状、方法和应用。
二、人体姿态识别的研究现状人体姿态识别旨在通过计算机视觉技术,提取图像/视频中的人体关键点坐标,从而实现对人体姿态的识别和分析。
在过去的几十年里,人体姿态识别一直是计算机视觉领域的研究热点之一。
传统的人体姿态识别方法主要基于手工设计的特征提取和机器学习算法。
然而,这种方法依赖于人工提取的特征,对复杂环境和姿态变化较大的场景表现欠佳。
随着深度学习和神经网络的兴起,基于神经网络的人体姿态识别方法逐渐成为主流。
三、基于神经网络的人体姿态识别方法1.卷积神经网络(CNN)卷积神经网络是一种深度学习模型,具有用于图像处理的强大的特征提取能力。
在人体姿态识别中,卷积神经网络可以用于提取图像中的人体关键点坐标。
通过建立包含多个卷积层和池化层的网络结构,CNN可以自动学习特征,并通过全连接层将特征映射到关键点坐标。
通过反向传播算法,网络可以通过学习样本来调整权重,从而实现对人体姿态的准确识别。
2.循环神经网络(RNN)循环神经网络是一种适用于时序数据处理的神经网络模型。
在人体姿态识别中,RNN可以通过建立时间序列模型,对视频数据中的人体姿态进行逐帧分析。
通过将前一帧的输出作为当前帧的输入,RNN可以捕捉到人体姿态的时序信息。
这种方法可以提高对连续动作的识别准确性。
3.卷积循环神经网络(CRNN)卷积循环神经网络是卷积神经网络和循环神经网络的结合体,在人体姿态识别中具有优势。
CRNN可以同时对图像和时间序列信息进行建模,从而达到更准确的姿态识别效果。
通过在卷积层和循环层之间进行数据传递,CRNN可以综合考虑图像和时序特征,提高对人体姿态的识别结果。
ConvolutionalPoseMachines CPM 在计算机视觉中的应用与优化
ConvolutionalPoseMachines CPM 在计算机视觉中的应用与优化近年来,随着计算机视觉技术的迅猛发展,ConvolutionalPoseMachines(CPM)作为一种先进的姿态估计方法,受到了广泛的关注和应用。
本文将详细介绍CPM在计算机视觉领域中的应用,并探讨如何对其进行优化,以提升算法的性能。
一、CPM简介ConvolutionalPoseMachines(CPM)是一种基于卷积神经网络(CNN)的姿态估计方法。
它采用了多阶段的网络结构,通过不断迭代的方式来逐步提升姿态估计的精度。
CPM的核心思想是将姿态估计问题转化为关键点的回归问题,通过预测关键点的位置来得到目标的姿态信息。
二、CPM在人体姿态估计中的应用1. 单人姿态估计CPM在单人姿态估计中取得了良好的效果。
通过对人体关键点的准确回归,CPM可以实现对人体姿态的精细描述,为动作识别、行为分析等任务提供了基础。
例如,在体育竞技中,通过对选手的关键点进行跟踪和分析,可以帮助教练和运动员改善动作技巧、提升竞技水平。
2. 多人姿态估计相较于单人姿态估计,多人姿态估计更具挑战性,因为关键点之间存在相互遮挡和干扰的情况。
CPM通过引入类似于人体部分语境(part affinity fields)的概念,可以有效地解决多人姿态估计中的关键点匹配问题,提高了姿态估计的准确性和鲁棒性。
多人姿态估计在人群监控、行人重识别等领域具有重要的应用价值。
三、CPM的优化方法1. 网络结构的优化CPM的网络结构决定了其姿态估计的性能。
为了提升算法的准确度和效率,研究者们提出了一系列的网络结构优化方法。
例如,引入更深的网络结构、增加卷积核的数量和尺寸、使用适当的归一化方法等,都可以有效地改善CPM的性能。
2. 数据增强数据增强是提升CPM性能的常用方法之一。
通过对训练数据进行旋转、缩放、平移等操作,可以增加数据的多样性,提高模型的泛化能力。
基于卷积神经网络的人物姿势识别方法研究
基于卷积神经网络的人物姿势识别方法研究近年来,电子产品如智能手机、可穿戴设备、智能家居等的普及,导致人们日常生活中使用的智能设备越来越多。
其中,人体姿势识别技术作为一种重要的人机交互方式,得到了广泛的关注。
传统的人体姿势识别技术依赖于手动提取特征和分类器,效率低、精度不高。
而卷积神经网络(Convolutional Neural Network,简称CNN)作为一种新兴的深度学习算法,具有自主学习特征、准确性高等优势,被广泛应用于人体姿势识别。
本文将围绕基于卷积神经网络的人物姿势识别方法展开研究,并讨论其实现细节和应用前景。
一、卷积神经网络介绍卷积神经网络是一种由一系列卷积层和池化层组成的深度神经网络。
主要包括卷积层、池化层、激活层和全连接层。
1. 卷积层:通过不同大小的卷积核对输入图像进行滤波处理,提取图像中的特征信息,扩大其感受野。
2. 池化层:对特征映射进行下采样操作,降低网络中参数数量,减小过拟合风险。
3. 激活层:引入非线性激活函数,使得卷积层通过滤波得到的特征能够更好地与目标相关。
4. 全连接层:对卷积网络中的特征进行分类,输出姿势类别结果。
二、人物姿势识别应用场景1. 健身辅助:通过穿戴式设备进行人体姿势监测和纠正,提供精准的健身辅导。
2. 外科手术:通过监测外科手术中医生和患者的手部姿势,提高手术效率和安全性。
3. 车辆驾驶:通过车载摄像头实时检测司机姿势,有效避免疲劳驾驶和交通事故。
三、基于卷积神经网络的人物姿势识别方法下面以基于深度学习的人物姿势识别方法为例,详细介绍其具体实现流程。
1. 数据预处理:对收集到的数据进行预处理,包括姿势数据的清洗、标注和分组等操作。
2. 特征提取:使用卷积神经网络对数据的特征进行提取,并将不同的特征映射融合成更高级别的特征。
在训练过程中,使用目标姿势的真实标签作为监督信息,可以通过反向传播算法更新卷积层的权重参数。
3. 姿势分类:将提取出来的特征输入全连接层,进行姿势分类预测。
基于机器视觉的人体姿态识别与动作分析
基于机器视觉的人体姿态识别与动作分析人体姿态识别和动作分析是计算机视觉领域的重要研究方向,它涉及到从图像或视频中准确地识别和分析人体的姿态以及动作。
借助于机器视觉技术的发展,人体姿态识别和动作分析已经取得了突破性的进展,并广泛应用于人机交互、运动分析、智能监控等领域。
一、人体姿态识别人体姿态识别是指从静态或动态图像中准确地检测和估计人体的关键点位置,从而得到人体的姿态信息。
它的关键挑战在于解决人体姿态的多样性、复杂性和灵活性。
在人体姿态识别的研究中,常用的方法包括基于深度学习的方法和基于传统计算机视觉算法的方法。
基于深度学习的方法通过搭建深度卷积神经网络(CNN)或循环神经网络(RNN),实现对人体关键点的准确检测和姿态估计。
而传统计算机视觉算法的方法则通过对人体的边缘检测、形状分析、模型匹配等技术,实现对人体姿态的识别。
人体关键点的准确检测是人体姿态识别的核心问题之一。
近年来,一些研究者提出了一些先进的检测框架,如卷积神经网络和基于图模型的方法,能够有效提高关键点检测的准确性和鲁棒性。
此外,还有一些方法结合了时空信息,通过对姿态变化的建模,能够更好地应对复杂姿态的检测问题。
在实际应用中,人体姿态识别已经被广泛应用于人机交互、运动分析、姿态跟踪和智能监控等领域。
例如,在虚拟现实和增强现实中,人体姿态识别可以用于人机交互和虚拟人物动画的生成。
在运动分析和运动疾病康复领域,人体姿态识别可以用于姿势评估和运动分析。
此外,人体姿态识别还可以应用于智能家居、智能驾驶等领域,实现更加智能化和便利化的生活方式。
二、动作分析动作分析是指从图像序列或视频中准确地分析和识别人体的运动行为。
它的目标是推断人体运动的目的、意图和情感状态,为智能监控、行为识别、人机交互等领域提供基础支持。
在动作分析中,常用的方法包括基于深度学习的方法和基于传统计算机视觉算法的方法。
基于深度学习的方法通常是通过搭建循环神经网络(RNN)、长短时记忆网络(LSTM)或卷积神经网络(CNN)等模型,学习和提取动作序列的空间和时间特征,从而实现对动作的分类和识别。
使用计算机视觉技术进行人体姿态估计的方法与技巧
使用计算机视觉技术进行人体姿态估计的方法与技巧人体姿态估计是计算机视觉领域中一项重要的任务,它可以通过分析图像或视频中人体的姿势和动作,从而实现对人体行为的理解和分析。
在近年来,随着深度学习技术的发展,人体姿态估计取得了巨大的进展。
本文将介绍一些常用的方法和技巧,帮助读者更好地理解与应用人体姿态估计技术。
一、基于关节检测的方法基于关节检测的方法是目前应用最广泛的人体姿态估计方法之一。
其思路是通过检测出人体关键部位的坐标信息,进而估计人体的姿态。
经典的关节检测方法包括基于随机森林的方法和基于卷积神经网络的方法。
其中,卷积神经网络方法在关节检测任务上取得了显著的突破,特别是Hourglass网络结构的引入。
Hourglass网络通过多尺度的特征融合和逐级的自顶向下的预测,提高了关节检测的准确率。
二、基于姿态回归的方法基于姿态回归的方法旨在直接从输入的图像中回归出人体姿态的参数。
这种方法通常使用一个回归器来学习输入图像与真实姿态之间的映射关系。
其中比较有代表性的方法有卷积神经网络回归模型和全连接神经网络回归模型。
这些方法通过训练回归器,使其能够从给定的图像中准确地估计人体的姿态。
然而,这种方法对于复杂的姿态估计任务来说存在一定的挑战,需要大规模的训练数据和合适的网络架构设计。
三、基于姿态生成的方法基于姿态生成的方法采用生成模型来生成符合真实人体姿态分布的样本。
通过训练生成模型,可以得到一个能够生成高质量姿态样本的模型。
这种方法的优点在于能够生成多样化的姿态样本,并且能够通过生成模型来解决数据不平衡和数据缺失的问题。
常见的生成模型包括变分自编码器和生成对抗网络。
近年来,生成对抗网络在人体姿态估计任务上取得了一些令人振奋的成果,尤其是关于人体姿态的插值和缺失数据填充。
四、数据增强与模型融合在进行人体姿态估计任务时,数据增强和模型融合是提高姿态估计性能的重要技巧。
数据增强技术的目的是增加训练数据的数量和多样性,从而提高模型的泛化能力。
基于YOLOPose_的人体姿态估计轻量级网络
第42卷第6期2023年12月沈㊀阳㊀理㊀工㊀大㊀学㊀学㊀报JournalofShenyangLigongUniversityVol 42No 6Dec 2023收稿日期:2023-04-27基金项目:辽宁省自然科学基金指导计划项目(2022-MS-276)作者简介:王红霞(1977 )ꎬ女ꎬ教授ꎬ博士ꎬ研究方向为人工智能与云计算㊁物联网与网络技术ꎮ文章编号:1003-1251(2023)06-0010-07基于YOLOPose的人体姿态估计轻量级网络王红霞ꎬ李枝峻ꎬ顾㊀鹏(沈阳理工大学信息科学与工程学院ꎬ沈阳100159)摘㊀要:为解决人体姿态估计模型在提升预测精度时参数量和计算量增多导致模型运行效率低下的问题ꎬ在YOLOPose模型基础上设计出一种轻量级人体姿态估计网络MWE ̄YOLOPoseꎮ选择轻量级MobileNetV3网络重新构建骨干网络ꎬ保持特征丰富性同时加快特征提取速度ꎻ调整特征融合层通道数并添加ECA注意力机制进行跨通道交互ꎬ实现模型轻量化与准确度的平衡ꎻ引用WIOUV2损失函数降低几何因素的惩罚ꎬ增强模型的鲁棒性和泛化能力ꎮ实验结果显示ꎬ在OC_Human数据集上ꎬ改进后模型对比原始YOLOPose模型ꎬ在保持一定准确度的情况下ꎬ模型参数量和计算量分别降低86.8%和71.2%ꎬ有效降低了模型运算复杂度ꎮ关㊀键㊀词:人体姿态估计ꎻYOLOPoseꎻMobileNetV3ꎻWIOUV2ꎻECA注意力机制中图分类号:TP391.41文献标志码:ADOI:10.3969/j.issn.1003-1251.2023.06.002ALightweightNetworkforHumanPoseEstimationBasedonYOLOPoseWANGHongxiaꎬLIZhijunꎬGUPeng(ShenyangLigongUniversityꎬShenyang110159ꎬChina)Abstract:Toaddresstheissueofincreasedparameterandcomputationalcomplexityinhu ̄manposeestimationmodelswhenaimingtoimprovepredictionaccuracyꎬalightweighthu ̄manposeestimationnetworkꎬMWE ̄YOLOPoseꎬisdesignedbasedontheYOLOPosemod ̄el.ThelightweightMobileNetV3networkischosentoreconstructthebackbonenetworkꎬtomaintainfeaturerichnesswhileacceleratingfeatureextractionspeed.ThechannelnumberofthefeaturefusionlayerisadjustedꎬandanECAattentionmechanismisaddedtorealizeabalancebetweenmodellightweightingandaccuracy.TheWIOUV2lossfunctionisrefer ̄encedtoreducethepunishmentofgeometricfactorsꎬenhancingtherobustnessandgenerali ̄zationabilityofthemodel.ExperimentalresultsshowthatontheOC_HumandatasetꎬtheimprovedmodelcomparedwiththeoriginalYOLOPosemodelꎬwhilemaintainingacertainlevelofaccuracyꎬcanreducethemodelᶄsparameterandcomputationalcomplexityby86.8%and71.2%ꎬeffectivelyreducingthecomplexityofmodeloperation.Keywords:humanposeestimationꎻYOLOPoseꎻMobileNetV3ꎻWIOUV2ꎻECAattentionmechanism㊀㊀人体姿态估计是计算机视觉领域中对图片中人体关键点进行定位ꎬ在视频监控㊁智能驾驶等领域有着重要作用ꎮ随着神经网络的迅猛发展ꎬ基于深度学习的多人姿态估计网络通常分为由下至上和由上至下两类ꎮ2020年ꎬCheng等[1]提出了一种由下至上的HigherHRNet网络ꎬ该网络在HRNet网络末端添加了一个高效反卷积模块ꎬ并采用了多分辨率训练以及热图聚合策略ꎬ从而有效地解决了小人物关键定位不准确的问题ꎮ2021年ꎬGeng等[2]提出了解耦关键点回归(DEKR)网络ꎬ通过多个并行分支结构对每个关键点独立进行特征提取和回归ꎬ实现了关键点之间的解耦ꎮ同年ꎬYuan等[3]对HRNet网络进行改进并提出了HRFormer网络ꎬ该网络将多分辨率并行设计以及局部窗口自注意力引入HRNetꎬ并在前馈神经网络中添加卷积操作ꎬ有效实现了断开连接的图像窗口之间的信息交换ꎮ此外ꎬYang等[4]提出了一种名为TransPose的模型ꎬ该模型将变换神经网络引入人体姿态估计ꎬ能够捕获人体各部位的全局空间依赖关系ꎬ提高了模型识别准确度ꎮ上述人体姿态估计网络虽提升了关键点定位准确度ꎬ但同时模型参数量或计算量也随之增加ꎬ致使模型运行效率低下ꎬ无法有效作用于实时性设备ꎮ因此ꎬ本文重点研究如何使模型在具有较高关键点定位准确度的前提下有效减少模型参数量和计算量ꎮ1㊀模型改进YOLOPose[5]是一种无热度图ꎬ端到端ꎬ单阶段的联合检测方法ꎮ与自上而下方法相比ꎬ该模型不需要通过目标检测算法以及单人姿态估计网络进行关键点定位ꎬ也不同于基于热度图的自下而上方法ꎬ其关键点后处理与多个前向传播被取消ꎮ该模型在一次前向传播中联合检测出多人边框以及相应人体关键点ꎬ每个人体边框都对应一个人体姿态ꎬ从而形成单人关键点的固有分组ꎮ因此ꎬ本文选择YOLOPose模型并进行如下改进ꎮ1)选择轻量级MobileNetV3网络作为骨干网络ꎬ加快特征提取速度ꎮ2)使用损失函数WIOUV2评估网络边框损失ꎮ3)添加ECA高效通道注意力机制保证网络识别准确度ꎮ1.1㊀改进网络总体架构本文对原始YOLOPose模型具体做出如下改进ꎮ为实现特征提取网络轻量化ꎬ本文删除了原始YOLOPose模型骨干网络最后一个C3模块ꎬ将删除了最后一层池化以及三个二维1ˑ1卷积的轻量级MobileNetV3 ̄Small网络作为新的骨干网络ꎬ保留了原始模型中特征提取网络的空间金字塔池化(SPP)层ꎮ随后将不同尺度输出特征经过上采样输入到特征融合层中ꎮ为进一步减少模型参数量ꎬ本文将特征融合层的卷积与C3模块通道数由1024㊁768㊁512㊁256分别对应调整为512㊁256㊁128㊁96ꎬ同时为保持识别准确度ꎬ在特征金字塔(FPN)结构的上采样以及金字塔注意力(PAN)结构的卷积模块之前添加了ECA注意力机制ꎮ最后ꎬ为更好评估模型性能ꎬ本文使用WIOUV2损失函数替换原有CIOU边框损失函数ꎮ其改进后总体网络架构如图1所示ꎮ1.2㊀骨干网络改进原始YOLOPose模型使用CSPDarkNet53骨干网络ꎬ其首先会通过对输入图片进行切片操作ꎮ其次ꎬ使用4个卷积及C3模块对输入特征进行不同尺度特征提取ꎬ其中C3模块由3个卷积模块与1个残差块Bottleneck组成ꎬC3模块将输入特征映射为两部分ꎬ并通过跨阶段层次使用通道拼接操作进行合并ꎮ最后ꎬSPP对输入特征进行一次卷积后分别经过5ˑ5㊁9ˑ9以及13ˑ13的池化ꎬ并将不同池化输出特征与卷积输出特征进行通道拼接ꎮ综上可知ꎬYOLOPose骨干网络主要由Fo ̄cus㊁Conv和C3模块构成ꎬ带来了较大计算量ꎬ特征提取速度较慢ꎮ因此ꎬ本文选择轻量级Mobile ̄NetV3网络替换原有骨干网络ꎬ使得模型轻量化的同时保证网络的特征提取能力ꎮMobileNetV3[6]有Large与Small两个版本ꎬ本文将MobileNetV3 ̄Small作为新的骨干网络ꎬ其具体原理如下ꎮ首先ꎬMobileNetV3网络将Block模块作为基本单元进行神经网络搜索ꎬ使得不同模块具有不同的宏观结构ꎬ并使用NetAdapt算法对结构进行微调ꎬ减小了扩充层与每层的大小ꎬ11第6期㊀㊀㊀王红霞等:基于YOLOPose的人体姿态估计轻量级网络图1㊀改进后总体网络架构图Fig.1㊀Improvedoverallnetworkarchitecturediagram图2㊀MobileNetV3 ̄Small的Block单元Fig.2㊀BlockunitofMobileNetV3 ̄SmallBlock模块结构如图2所示ꎮ其次ꎬMobileNetV3网络加入了SE注意力机制[7]ꎬ结构如图3所示ꎬ图中X㊁U㊁X~分别为输入特征㊁卷积操作的结果特征㊁通道赋权操作的结果特征ꎻH㊁W㊁C分别代表输入特征宽㊁高与通道数ꎻHᶄ㊁Wᶄ㊁Cᶄ则表示卷积操作之后的特征宽㊁高与通道数ꎬ图中Ftr为一系列卷积操作ꎬFsq( )表示全局平均池化操作ꎬFex( ꎬW)是指非线性变换操作ꎬFscale( ꎬ )代表通道赋权操作ꎮSE注意力机制首先对输入特征进行卷积与全局平均池化操作ꎬ然后将尺寸为(1ꎬ1ꎬC)的向量输入激活函数分别为ReLU与σ的两个全连接层ꎬ最后与输入特征进行相乘操作ꎬ使得特征图在通道数不变的情况下每个通道具备不同的权重ꎬ并让其值保持在[0ꎬ1]区间ꎮ图3㊀SE注意力模块Fig.3㊀SEattentionmodule㊀㊀最后ꎬMobileNetV3基于ReLU6函数重新设计出h ̄swish瓶颈残差激活函数ꎬReLU6函数与h ̄swish函数分别为ReLU6(x)=min(max(xꎬ0)ꎬ6)(1)h ̄swish(x)=xReLU6(x+3)6(2)并使用h ̄sigmoid函数取代SE结构原有σ函数ꎬ消除指数运算对模型运算速度的影响ꎮh ̄sig ̄moid函数和σ函数分别为h ̄sigmoid(x)=ReLU6(x+3)6(3)σ(x)=11+e-x(4)1.3㊀特征融合网络改进随着神经网络的层次加深ꎬ提取到的特征语义信息越加丰富ꎬ但特征位置信息也会逐渐丢失ꎬYOLOPose采取FPN与PAN来解决此问题ꎮ首先将输入特征图送入FPN结构ꎬ经过卷积和上采样操作ꎬ随后与骨干网络不同尺度输出特征进行融合并送入C3模块ꎬ反复迭代ꎬ使其深层特征图包含更强的位置信息ꎬ最后PAN结构通过下采样加强特征图语义信息并融合两个特征ꎬ使不同尺度特征图充分保留了语义与位置信息ꎮYOLOPose在YOLOV5原有特征融合结构基础上加深了一层ꎬ但增强特征融合能力的同时模型计算量和参数量也随之增多ꎮ因此本文对特征融合层卷积通道数做出调整ꎬ并添加ECA注意力机制保证模型的识别精度ꎮECA注意力机21沈㊀阳㊀理㊀工㊀大㊀学㊀学㊀报㊀㊀第42卷制[8]是一种改进的SENet网络ꎬ其在SENet基础上提出了无降维局部交叉信道交互策略ꎬ结构如图4所示ꎬ图中h为自适应一维卷积核大小ꎬσ表图4㊀ECA注意力模块Fig.4㊀ECAattentionmodule㊀㊀ECA将原有SENet中全连接层替换成一维卷积ꎬ在避免维度缩减的同时捕获部分通道信息ꎬ减少了模型参数ꎬ具体原理如下ꎮ首先ꎬ对输入特征进行全局平均池化ꎬ其次通过自适应大小为h的一维卷积及σ激活函数得到通道权重ꎬ并与输入特征进行通道相乘操作ꎬ得到加权后的特征图ꎮ决定h值自适应大小函数形式为h=ψ(C)=log2(C)γ+bγodd(5)式中:h为自适应一维卷积核大小ꎻb和γ决定了C与h的比例ꎬb值设置为1ꎬγ值为2ꎻ||odd表示取奇数操作ꎮ1.4㊀损失函数替换YOLOPose损失包括边框㊁关键点位置以及置信度损失ꎬ其总损失公式为Ltotal=ðsꎬiꎬjꎬk(λbLb+λkptsLkpts+λconfLconf)(6)式中:s为对象分割区域平方根ꎻiꎬj分别代表真实边框横纵坐标ꎻk表示s尺度的第k个锚框ꎻLtotal㊁Lb㊁Lkpts㊁Lconf分别代表总损失㊁边框损失㊁关键点位置损失以及关键点置信度损失ꎻλb㊁λkpts㊁λconf表示不同损失权重ꎬ默认值为0.5ꎮ1.4.1㊀边框损失YOLOPose采取CIOU损失函数[9]评估边框损失ꎬCIOU损失函数公式形式为LCIOU=1-IOU+ρ2(bꎬbgt)c2+αν(7)式中:bꎬbgt分别代表预测及真实边框坐标ꎻρ是预测与真实框中心点欧式距离ꎻc为包含预测和真实框的最小框对角线长度ꎻIOU表示预测框与真实框交并比ꎻα为权重函数ꎻν为长宽比相似性度量ꎮ1.4.2㊀关键点位置以及置信度损失人体关键点标签为[x1ꎬy1ꎬv1ꎬ ꎬxtꎬytꎬvt]ꎬ预测结果为[x1ꎬy1ꎬc1ꎬ ꎬxtꎬytꎬct]ꎬ其中t为标签及预测关键点序号ꎻxtꎬyt分别代表第t个关键点横轴㊁纵轴坐标ꎻvt为第t个关键点标签可见性标志ꎬ0表示未标记ꎬ1表示标记被遮挡ꎬ2表示标记未遮挡ꎻct为第t个关键点的预测置信度ꎮ关键点损失包括位置损失以及置信度损失ꎮ基于热度图的自底向上人体姿态估计网络使用的L1损失函数未考虑目标尺度与关键点类型对损失的影响ꎬ无法有效评估关键点损失ꎮ而关键点相似度(OKS)损失预测关键点和真实关键点的接近程度ꎬ是一个与IOU损失类似的相似性度量ꎬ尺度不变且不会造成梯度消失ꎬ更适用于估计关键点损失ꎮOKS损失值介于0和1之间ꎬ计算公式为Lkpts=1-ðNkptst=1expd2t2s2k2tæèçöø÷νtðNkptst=1νt(8)式中:Nkpts表示第N个关键点ꎻdt表示第t个真实与预测关键点欧式距离ꎻkt是指第t个关键点权重ꎮ置信度损失是基于可见性标志进行训练的ꎬ可见性标志大于0的关键点标签置信度记为1ꎬ反之为0ꎬ其计算公式为Lconf=ðNkptst=1BCE(vtꎬct)(9)式中BCE表示二分类交叉熵损失函数ꎮ1.4.3㊀WIOUV2损失数据集中低质量图片会加重CIOU损失函数对锚框中心点距离以及纵横比的惩罚ꎬ从而降低模型的泛化能力ꎮ针对此问题ꎬ本文删除了原有CIOU边框损失函数ꎬ并引入新的WIOUV2函数[10]评估边框损失ꎮWIOUV2损失函数计算公式为LWIOUV2=L∗IOULIOUæèçöø÷γLWIOUV1㊀(γ>0)(10)式中:γ为调节因子ꎬγ值越大ꎬ代表模型在低质量图片上的聚焦度更高ꎻLγ∗IOU为单调聚焦系数ꎬ∗表示单调聚焦系数为非零自然数ꎻLIOU为归一化因子ꎻLWIOUV1表示基于距离度量构建出的具有两层31第6期㊀㊀㊀王红霞等:基于YOLOPose的人体姿态估计轻量级网络注意力机制的WIOUV1损失函数ꎬWIOUV1函数能够在IOU值较大时降低对几何距离的惩罚ꎬ公式为LWIOUV1=RWIOULIOU(11)式中:LIOU为交并比损失ꎻRWIOU函数的作用是放大普通质量锚框的LIOUꎮWIOUV2损失函数是基于Focal损失函数[11]的交叉熵单调聚焦机制所构建的单调聚焦系数Lγ∗IOU与WIOUV1损失函数所提出的ꎮWIOUV2函数不仅继承了WIOUV1损失函数的优点且引入了归一化因子LIOU均值ꎬ解决了WIOUV2损失函数在训练过程中因单调聚焦系数减小而导致后期收敛速度慢的问题ꎬ从而能够更好地评估边框损失ꎮ2㊀实验与分析2.1㊀实验数据和环境本文所有实验均基于表1环境运行ꎮ采用公共OC_Human数据集ꎬ该数据集存在严重的人体遮挡以及复杂背景ꎬ是多人姿态识别领域最具挑战性的数据集之一ꎬ包含5081张图片ꎬ标注人体姿态实例13360个ꎮ训练前使用Mosaic㊁Fliplr等方式进行数据增强ꎬ设置初始学习率为0.01ꎬ预热学习率为0.1ꎬ批次大小为32ꎬ训练轮数为300ꎬ采用平均准确度㊁参数量及运算量对模型性能进行评价ꎮ表1㊀实验环境Table1㊀Experimentalenvironment名称相关配置操作系统Ubuntu20.04内存80GBCPUCPUAMDEPYC764248 ̄CoreProcessorGPURTX3090(24GB)软件环境PyTorch1.10.0ꎬPython3.8GPU加速库Cuda11.3ꎬCUDNN82.2㊀消融实验为比较不同方法对模型性能的影响进行消融实验ꎬ所有实验输入图片尺寸均为640ˑ640ꎬ实验参数与环境保持一致ꎬ实验结果见表2ꎮ表2㊀消融实验结果对比Table2㊀Comparisonsofablationexperiments实验序列MobileNetV3ECAWIOUV2AP50/%AP/%参数量/MBFLOPs/109s-11ˑˑˑ80.548.315.120.52ɿˑˑ74.138.42.05.93ˑɿˑ78.946.915.120.54ˑˑɿ80.248.115.120.55ɿɿˑ74.839.02.05.96ɿˑɿ76.740.52.05.97ɿɿɿ77.641.62.05.9㊀㊀首先ꎬ由表2中实验1和实验2的对比结果可知ꎬ在采用轻量级骨干网络MobileNetV3并减少特征融合层通道数的情况下ꎬ模型的准确度小幅下降ꎬ但模型参数量和计算量分别下降了86.8%和71.2%ꎻ其次ꎬ实验3和实验4的结果表明ꎬ添加ECA注意力机制以及WIOUV2损失函数后模型识别准确度变化不大ꎬ但并未引起参数量和计算量增多ꎻ从实验5的结果看ꎬ在实验2基础上单独加入ECA注意力机制能够使预测准确度提升0.7%ꎻ实验6的结果显示ꎬ与加入ECA注意力机制相比ꎬ引入WIOUV2损失对轻量化模型识别准确度提升尤为明显ꎬ其准确度上升了2.6%ꎻ最后将ECA注意力机制与WIOUV2损失函数同时加入轻量化模型ꎬ结果如实验7所示ꎬ模型预测准确度相比实验5和6有了更大的提高ꎮ消融实验数据表明ꎬ优化之后的模型在保持较高准确度的同时参数量和计算量均有明显降低ꎬ模型运行效率得到了有效提升ꎮ2.3㊀对比实验本文在OC_Human数据集上对YOLOPose41沈㊀阳㊀理㊀工㊀大㊀学㊀学㊀报㊀㊀第42卷和本文提出的MWE ̄YOLOPose模型进行了测试ꎬ并与HigherHRNet[1]㊁DEKR[2]㊁HRFormer ̄B[3]㊁TransPose ̄H[4]模型进行了比较ꎮ其中ꎬHR ̄Former ̄B㊁TransPose ̄H为自上而下的方法ꎬ而HigherHRNet㊁DEKR采用由下至上的方法ꎬ对比结果见表3ꎮ实验结果表明ꎬ相比目前主流的姿态估计模型HigherHRNetꎬ本文提出的MWE ̄YOLOPose模型不仅在AP和AP50分别高13.9%和10.7%ꎬ而且参数量和计算量分别减少93.0%和87.7%ꎮ与HRFormer ̄B模型相比ꎬ本文模型的预测精度有所下降ꎬ但网络模型参数量和计算量分别减少95.4%和51.6%ꎮ同时对比DEKR模型ꎬ本文模型在预测精度AP上减少10.6%ꎬ但在AP50上获得了7.7%的精度增长ꎬ参数量和计算量降低93.2%与87.0%ꎮ此外ꎬ虽然自上而下的Trans ̄Pose ̄H模型在AP上比本文模型更具竞争力ꎬ但本文模型在AP50上仅下降5.1%ꎬ且参数量和计算量降低了88.6%和72.9%ꎬ算法运算效率更高ꎮ最后ꎬ本文MWE ̄YOLOPose对比原始YOL ̄OPose模型在精度AP50下降2.9%㊁AP降低6.7%的情况下ꎬ参数量和计算量分别减少了86.8%和71.2%ꎮ综上可得ꎬ本文提出的MWE ̄YOLOPose模型对比原始YOLOPose模型性价比更高ꎬ且在保持一定准确度的情况下ꎬ模型参数量和计算量大幅低于目前主流的自下而上和自上而下方法ꎬ有效降低了模型参数量和运算复杂度ꎮ表3㊀不同算法结果对比Table3㊀Comparisonsoftheresultsbasedondifferentalgorithms模型序列检测模型AP50/%AP/%参数量/MBFLOPs/109s-11YOLOPose80.548.315.120.52HigherHRNet[1ꎬ12]66.927.728.647.93DEKR[2ꎬ12]69.952.229.645.44HRFormer ̄B[12]81.462.143.212.25TransPose ̄H[12]82.762.317.521.86MWE ̄YOLOPose77.641.62.05.92.4㊀效果展示为验证改进后模型性能ꎬ本文对预测结果进行了可视化ꎮ图5和图6分别是部分图片标签及预测结果ꎬ两组图片分别包含单人㊁双人以及多人ꎬ且存在人体遮挡㊁部位缺失等特点ꎮ从图6中可见ꎬ单人标签的17个关键点能预测出来ꎬ且构成了一副完整的人体骨骼ꎬ边框置信度达0.9ꎮ其次ꎬ虽然图5双人图片存在人体遮挡ꎬ但改进后的模型也能够比较准确地预测出遮挡关键点ꎬ边框置信度分别为0.8和0.2ꎮ图5第三张图片背景为街道ꎬ且存在人群拥挤ꎬ关键点遮挡ꎬ人体部位缺失等特点ꎬ预测结果如图6第三张图片所示ꎬ改进后模型不仅预测出小女孩的关键点与身后被遮挡男子的关键点ꎬ且对于缺失人体部分ꎬ模型也识别出存在部位关键点并进行了连接ꎮ通过可视化分析可知ꎬ改进后模型在大幅降低参数量和计算量后ꎬ对多人姿态估计依然有着较好的识别效果ꎮ图5㊀不同场景标签图Fig.5㊀Labelmapofdifferentscene图6㊀不同场景预测结果图Fig.6㊀Predictionresultsofdifferentscenarios51第6期㊀㊀㊀王红霞等:基于YOLOPose的人体姿态估计轻量级网络3㊀结论针对目前人体姿态估计方法为提升模型准确度导致模型深度加深ꎬ从而使模型参数量与计算量增多㊁模型运行效率低下的问题ꎬ给出了一系列的改进方案ꎮ本文使用MobileNetV3将骨干网络轻量化ꎬ调整通道数并引入ECA高效注意力机制ꎬ同时采用了WIOUV2损失函数评估模型损失ꎮ实验表明ꎬ对比原始模型以及其他多人姿态估计方法ꎬ本文MWE ̄YOLOPose模型参数量和计算量明显减少ꎬ同时保证了一定的模型识别准确度ꎬ具备较强的泛化性和鲁棒性ꎬ更易作用于实时性设备ꎮ参考文献(References):[1]CHENGBWꎬXIAOBꎬWANGJDꎬetal.HigherHR ̄Net:scale ̄awarerepresentationlearningforbottom ̄uphumanposeestimation[C]//2020IEEE/CVFConfer ̄enceonComputerVisionandPatternRecognition(CVPR).SeattleꎬWAꎬUSA:IEEEꎬ2020:5385-5394.[2]GENGZGꎬSUNKꎬXIAOBꎬetal.Bottom ̄uphumanposeestimationviadisentangledkeypointregression[C]//2021IEEE/CVFConferenceonComputerVi ̄sionandPatternRecognition(CVPR).NashvilleꎬTNꎬUSA:IEEEꎬ2021:14671-14681.[3]YUANYHꎬFURꎬHUANGLꎬetal.HRFormer:high ̄resolutiontransformerfordenseprediction[EB/OL].2021:arXiv:2110.09408.https://arxiv.org/abs/2110.09408.[4]YANGSꎬQUANZBꎬNIEMꎬetal.TransPose:key ̄pointlocalizationviatransformer[C]//2021IEEE/CVFInternationalConferenceonComputerVision(ICCV).MontrealꎬQCꎬCanada:IEEEꎬ2022:11782-11792.[5]MAJIDꎬNAGORISꎬMATHEWMꎬetal.YOLO ̄pose:enhancingYOLOformultipersonposeestima ̄tionusingobjectkeypointsimilarityloss[C]//2022IEEE/CVFConferenceonComputerVisionandPat ̄ternRecognitionWorkshops(CVPRW).NewOrleansꎬLAꎬUSA:IEEEꎬ2022:2636-2645.[6]张上ꎬ陈益方ꎬ王申涛ꎬ等.基于YOLOv5的改进舰船目标检测算法[J/OL].电光与控制ꎬ2023:1-9[2023-03-15].https://kns.cnki.net/kcms/detail/41.1227.TN.20230314.1418.002.html.㊀㊀ZHANGSꎬCHENYFꎬWANGSTꎬetal.Anim ̄provedshiptargetdetectionalgorithmbasedonYOLOv5[J/OL].ElectronicsOptics&Controlꎬ2023:1-9[2023-03-15].https://kns.cnki.net/kcms/detail/41.1227.TN.20230314.1418.002.html.(inChinese)[7]HUJꎬSHENLꎬSUNG.Squeeze ̄and ̄excitationnet ̄works[C]//2018IEEE/CVFConferenceonComput ̄erVisionandPatternRecognition.SaltLakeCityꎬUTꎬUSA:IEEEꎬ2018:7132-7141.[8]WANGQLꎬWUBGꎬZHUPFꎬetal.ECA ̄net:effi ̄cientchannelattentionfordeepconvolutionalneuralnetworks[C]//2020IEEE/CVFConferenceonCom ̄puterVisionandPatternRecognition(CVPR).SeattleꎬWAꎬUSA:IEEEꎬ2020:11531-11539. [9]赵宏ꎬ冯宇博.一种基于CGS ̄GhostYOLO的交通标志检测研究[J/OL].计算机工程:1-13[2023-05-04].https//doi.org/10.19678/j.issn.1000-3428.0066520.㊀㊀ZHAOHꎬFENGYB.Researchontrafficsigndetec ̄tionbasedonCGS ̄GhostYOLO[J/OL].ComputerEngineering:1-13[2023-05-04].https//doi.org/10.19678/j.issn.1000-3428.0066520.(inChinese) [10]TONGZJꎬCHENYHꎬXUZWꎬetal.Wise ̄IoU:boundingboxregressionlosswithdynamicfocusingmechanism[EB/OL].2023:arXiv:2301.100051.ht ̄tps://arxiv.org/abs/2301.10051.[11]ZHANGYFꎬRENWQꎬZHANGZꎬetal.FocalandefficientIOUlossforaccurateboundingboxregression[J].Neurocomputingꎬ2022ꎬ506:146-157. [12]DINGYWꎬDENGWJꎬZHENGYLꎬetal.I2R ̄net:intra ̄andinter ̄humanrelationnetworkformulti ̄personposeestimation[EB/OL].2022:arXiv:2206.10892.https://arxiv.org/abs/2206.10892.(责任编辑:和晓军)61沈㊀阳㊀理㊀工㊀大㊀学㊀学㊀报㊀㊀第42卷。
基于卷积神经网络的人体动作识别技术研究
基于卷积神经网络的人体动作识别技术研究人体动作识别技术在计算机视觉领域中具有广泛的应用前景,基于卷积神经网络(Convolutional Neural Network,CNN)的人体动作识别技术成为研究的热点之一。
本文将从卷积神经网络的基本原理、人体动作识别技术的研究现状和挑战、基于卷积神经网络的人体动作识别方法以及未来的发展方向等方面展开详细介绍。
首先,我们需要了解卷积神经网络的基本原理。
卷积神经网络是一种能够自主学习特征表示的深度学习模型。
它通过卷积层、池化层和全连接层构成,在卷积层中利用卷积核提取图像的局部特征,通过池化层对特征图进行下采样,最后通过全连接层实现分类和预测任务。
卷积神经网络具有较强的抽象特征表示能力和对平移、尺度、旋转等变换具有一定的不变性,因此在人体动作识别中能够很好地处理空间和时间上的相关性。
其次,我们需要了解人体动作识别技术的研究现状和挑战。
随着深度学习技术的发展,基于卷积神经网络的人体动作识别取得了令人瞩目的成绩。
早期的研究工作主要集中在使用2D图像进行人体动作识别,后来逐渐发展到利用3D体素表达人体动作。
目前,一些前沿研究尝试将时空信息融入人体动作识别中,如使用光流信息、3D卷积神经网络等。
然而,人体动作识别依然面临着诸多的挑战,如复杂背景下的鲁棒性、数据集的缺乏和标注困难、动作时序和长度的变化等。
基于卷积神经网络的人体动作识别方法是一种较为常用的方法。
首先,我们可以利用数据增强技术增强数据的多样性和数量,并采用预训练的网络模型作为初始模型进行微调,以提高分类性能。
其次,我们可以引入注意力机制来进一步挖掘动作中的关键信息,增强网络对于重要特征的关注。
另外,我们可以使用LSTM(Long Short-Term Memory)等循环神经网络来处理时序信息,从而更好地捕捉动作的时态特征。
最后,我们可以尝试构建更大规模的数据集、设计更合理的评价指标和开发更有效的模型结构,以进一步提高人体动作识别的性能和广泛适用性。
基于卷积神经网络的人体姿态估计算法研究
基于卷积神经网络的人体姿态估计算法研究人类姿态估计是一项重要的计算机视觉任务,旨在从一个或多个视角中确定人体在空间中的位置和姿态。
这项任务已经在许多应用程序中得到了广泛的应用,例如体育竞技、人机接口、虚拟现实和医疗诊断。
目前,关节角度的测量是确定人体姿态的主要方法。
然而,在实际应用中,测量导线和传感器的使用限制了测量的范围和精度。
与此相反,从图像中估计人体姿态的方法是一种更为便捷和低成本的方法,因此已引起了研究人员的广泛关注。
一种基于卷积神经网络的人体姿态估计算法近年来逐渐成为主流。
传统的图像处理技术往往涉及复杂的手动特征提取过程,而基于卷积神经网络的人体姿态估计算法可以自动学习图像中的特征和姿势信息。
因此,其性能往往比传统方法更好,同时也减少了人工的干预。
卷积神经网络作为一种深度学习模型,具有许多优势,例如对非线性特征的高泛化能力和异构数据的处理能力。
在人体姿态估计领域,卷积神经网络一般用于从图像中检测出人体部件的位置,然后再通过推断来计算关节角度。
因此,人体关节估计任务通常分为两个步骤:人体部位定位和姿态推断。
具体来说,深度学习模型通过分析人体部件的位置和姿态信息,预测身体关节的位置和角度,从而完成人体姿态估计任务。
基于卷积神经网络的人体姿态估计算法一般具有以下几个关键技术点:1. 人体检测和部位定位卷积神经网络可以精确地检测人物的位置和结构,并确定不同的身体部位如手、脚、头、肩等的位置。
关节角度的计算需要对所有身体部位的位置进行精确建模,因此人体检测和部位定位是人体姿态估计算法的关键技术点。
2. 并行多任务学习通常使用卷积神经网络进行人体姿态估计时,需要在同时预测身体部位位置和关节角度。
因此,多任务学习方法的使用可以增强深度学习模型的泛化能力,提高网络的精确度和速度。
3. 姿态自适应特征提取对于每个人体姿态,其身体部位之间的相对位置和角度是不同的。
因此,将具有不同颜色、大小和比例的身体部位映射到标准姿势空间的转换显得更为难以实现。
基于深度学习的人体关键点检测与姿态估计技术研究
基于深度学习的人体关键点检测与姿态估计技术研究人体关键点检测与姿态估计技术是计算机视觉领域的重要研究方向,它在人机交互、行为分析和人体运动跟踪等领域具有广泛的应用。
随着深度学习技术的快速发展,基于深度学习的人体关键点检测与姿态估计技术在准确性和鲁棒性上取得了显著的突破和改进。
本文将对基于深度学习的人体关键点检测与姿态估计技术的研究进行综述,分析其原理、方法和应用,并展望未来的发展趋势。
首先,我们介绍人体关键点检测与姿态估计技术的基本概念。
人体关键点是指在人体图像中具有特殊意义的关键点,如关节、脸部特征等。
人体姿态是指人体关键点之间的相对位置和角度。
人体关键点检测与姿态估计的任务是从给定的人体图像中准确地检测出人体关键点,并估计出人体的姿态信息。
基于深度学习的人体关键点检测与姿态估计技术在处理复杂背景、姿态变化和遮挡等问题上相较于传统方法具有更好的性能。
深度学习模型通过学习大量数据中的特征表示,能够自动提取出具有判别性的特征,从而实现更精确的人体关键点检测与姿态估计。
在研究方法方面,基于深度学习的人体关键点检测与姿态估计技术主要包括两个步骤:特征提取和关键点定位。
特征提取是指从输入的人体图像中提取具有区分度的特征表示。
传统的方法使用手工设计的特征,如Haar特征和HOG特征。
而基于深度学习的方法通过卷积神经网络(CNN)自动学习特征表示。
关键点定位是指根据提取到的特征,通过回归或分类方法准确地定位人体关键点。
深度学习模型可以通过监督学习或无监督学习的方式进行训练,使得其能够准确地预测人体关键点位置。
近年来,研究者们提出了许多基于深度学习的人体关键点检测与姿态估计方法。
其中,一些方法采用了多尺度特征表示,以应对不同尺度的人体图像。
另一些方法采用了自顶向下或自底向上的策略,通过关节之间的依赖关系来提高关键点检测的准确性。
还有一些方法结合了姿态估计和姿态渲染,能够实现更加精细的人体姿态估计。
这些方法在各种数据集和应用场景中都取得了良好的性能。
人体姿态估计论文解析
★表示channel-wise Hadamard矩阵产品操作。 重新加权的特征,和f的大小相同。
是精细化的feature map,是注意力地图
3
人体姿态估计新思路(怎么做?)
多语义注意力机制
不同的栈有不同的语义:低层栈关注局部表示,而更高的栈编码全局表示。 因此不同栈产生的注意力地图也可以编码各种语义。下图为一个8层的沙漏网 络框架的基本结构。
4
人体姿态估计新思路成效(结果)
结果
通过在每一堆沙漏(BL+MS)的末端添加整体注意力模型,得到87.2%的PCKh 分数,与基线模型相比,这是一个1.2%的改进。 使用HRUs来代替原来的剩余单元,将不同分辨率的特征组合在一起 (BL+MS+HRU) 。增加沙漏的残余单位,进一步提高1%。 通过多分辨率(BL+MS+HRU+MR)生成注意力地图的多分辨率关注,得到了进 一步的1%的改进。 在层次注意力模型中,将精细的整体注意力地图替换成一组,从4到8的部 分注意力地图,获得最高的平均PCKh分数89.4%。这些改进主要是由身体部位 的精细定位带来的。
4、设计了新的沙漏残差单元(HRUs)来增加网络的接收范围。
模型优点:我们的模型有能力关注从局部显著区域到全局语义一致空间的不 同粒度。
1
卷积神经网络用于人体姿势估计面临的问题(为什么做?)
卷积神经网络应用于计算机视觉方向成效显著,但是有以下局限性: 1、肢体关联性 2、身体自遮挡及被遮挡 3、服装影响
2
构建Multi-context Attention模型(怎么做?)
视觉注意力是人类大脑有效理解场景的重要机制,计算机构建视觉注意力机制 来表达复杂语境。主要方法是通过注意力模型生成整体注意力图和部分注意力 图,注意力机制优点: 1、视觉注意力提供了一种明确的方法来模拟人体各部位之间的空间关系 2、部分注意映射可以通过解决重复计数问题来进一步细化部分位置。 3、注意力图由注意力模型生成,它依赖于图像特征,并提供一种有原则的方 法来聚焦于可变形状的目标区域 4、它有助于恢复丢失的身体部分,并将模糊的背景区分开来。这允许增加上 下文的多样性,因此上下文区域可以更好地适应每个图像 5、而是设计了一种基于条件随机场的新型关注模型,该模型较好地模拟了相 邻区域之间的空间相关性。利用条件随机场算法(CRF)对注意力图中相邻区域之 间的相关性进行建模
深度学习技术在人体姿态估计中的应用
深度学习技术在人体姿态估计中的应用人体姿态估计是计算机视觉领域的一个重要问题,它的目标是从给定的图像或视频中估计人体的姿态,即人体关节的位置和姿势。
准确的人体姿态估计对于许多应用领域具有重要的意义,例如人机交互、运动分析、姿态识别、动作捕捉等。
传统的姿态估计方法通常依赖于手工设计的特征和机器学习算法,其准确性和鲁棒性有一定的局限性。
而深度学习技术的快速发展为人体姿态估计带来了新的突破。
深度学习技术在人体姿态估计中的应用主要包括两个方面:单人姿态估计和多人姿态估计。
单人姿态估计的任务是从图像或视频中估计单个人的姿态,即人体关节点的位置。
这一任务的关键挑战是解决人体姿态在不同视角、姿势变化和遮挡的情况下的准确估计。
通过利用深度学习技术,研究者们提出了一系列方法来解决这一问题。
其中,基于卷积神经网络(Convolutional Neural Network,CNN)的方法在单人姿态估计中取得了显著的效果。
这些方法通常将图像作为网络的输入,通过多层卷积和池化操作提取特征,并通过全连接层输出关节点的位置。
此外,研究者们还提出了一些改进方法,如利用上下文信息、引入空间关系等来进一步提高单人姿态估计的准确性。
多人姿态估计是在同一图像或视频中估计多个人的姿态。
相比于单人姿态估计,多人姿态估计面临着更大的挑战,主要是解决关节点匹配、遮挡和姿态之间的相互干扰等问题。
近年来,研究者们提出了一些创新的方法来解决这一问题。
其中,基于图神经网络(Graph Neural Network,GNN)的方法在多人姿态估计中取得了显著的效果。
这些方法通常使用图结构来表示姿态之间的关系,通过图卷积操作来学习关节点之间的相互影响,并通过优化算法进行姿态估计。
此外,研究者们还提出了一些基于注意力机制、时空建模等方法来进一步提高多人姿态估计的准确性和鲁棒性。
深度学习技术在人体姿态估计中的应用不仅提高了姿态估计的准确性,而且大大提升了计算效率。
基于深度学习的人体姿态识别算法
基于深度学习的人体姿态识别算法人体姿态识别是计算机视觉领域的一个重要研究方向,它能够准确地识别人体在图像或视频中的姿态信息。
基于深度学习的人体姿态识别算法是近年来取得显著进展的方法之一,通过深度神经网络模型训练,实现了更准确和稳定的结果。
本文将介绍基于深度学习的人体姿态识别算法的原理、应用和发展前景。
基于深度学习的人体姿态识别算法主要基于卷积神经网络(CNN)和循环神经网络(RNN)的结构。
其中,CNN用于提取图像或视频中的人体特征,而RNN则用于捕捉人体姿态的时间序列信息。
这两个网络结合起来,可以实现对人体姿态的高精度识别。
通过引入注意力机制和姿态关节的空间和时间约束,算法可以进一步提高姿态识别的准确性和稳定性。
基于深度学习的人体姿态识别算法在许多领域有广泛的应用。
其中最常见的应用是人体动作识别和人机交互。
通过识别人体姿态信息,计算机可以理解人类的动作意图,进而实现更自然和智能的交互方式。
在体育训练和健身监测领域,人体姿态识别算法可以提供准确的姿态分析和动作评估,帮助教练和运动员改善训练效果。
基于深度学习的人体姿态识别算法还应用于人类行为分析、安防监控等许多领域,为人们的生活和工作带来便利。
随着深度学习技术的不断发展,基于深度学习的人体姿态识别算法也在不断改进和优化。
一方面,研究人员通过引入更复杂的网络结构和更丰富的数据集来提高算法的性能。
例如,通过堆叠多个卷积层和循环层,可以构建更深的网络模型来提高姿态识别的准确性。
另一方面,研究人员致力于解决算法对人体姿态变化和遮挡的敏感性问题。
通过数据增强技术和关键帧选择算法等手段,可以提高算法对复杂场景的适应能力。
基于深度学习的人体姿态识别算法在未来的发展前景十分广阔。
随着硬件设备的不断升级和计算能力的提高,越来越多的应用场景将需要高效且准确的人体姿态识别算法。
同时,人体姿态识别算法与虚拟现实、增强现实等领域的结合也将带来更多创新和发展机遇。
可以预见,基于深度学习的人体姿态识别算法将在未来成为计算机视觉领域的重要研究方向之一。
基于深度神经网络的人体姿态估计方法研究
基于深度神经网络的人体姿态估计方法研究随着计算机视觉技术的不断发展,人体姿态估计在工业界、医疗领域、娱乐行业等众多领域得到了广泛应用。
它是指通过对人体动态或静态照片进行分析,得出人体关节的位置、角度等信息。
目前,基于深度神经网络的人体姿态估计方法已成为研究热点之一,尤其是在电脑视觉领域。
本文将系统综述基于深度神经网络的人体姿态估计方法的研究现状和面临的困难,以及未来的发展趋势。
一、研究现状目前,基于深度神经网络的人体姿态估计方法有许多,如PoseNet、OpenPose、HRNet等。
其中,OpenPose是一种可旋转关节的多人姿态估计方法,通过使用深度学习算法对图像进行分析来寻找人体骨骼和关节点。
HRNet则是一种高分辨率的姿态估计算法,它能够实现较高精度的人体姿态估计,而且计算速度快,运行效果稳定。
PoseNet则是一种计算速度快、姿态估计精度较高的算法。
针对上述方法,不同研究者在算法的改进和优化上不遗余力。
Yi et al.提出了HRNet-3D,采用三维卷积构建多级高分辨率特征图,从而提高了精度和召回率。
Yang et al.则提出了HRNet-W32,采用更深的网络结构和更多的分支,进一步提高了精度和召回率。
而OpenPose则在原基础上,增加了一些实用功能,例如能够检测头部姿势和手势。
这些算法的优化和改进,使得基于深度神经网络的人体姿态估计在各个领域应用更加广泛。
二、面临的困难随着深度神经网络算法的发展,人体姿态估计的精度已经很高,但仍面临一些困难。
1.数据集缺乏目前,要训练优秀的人体姿态估计模型,需要大量的人类姿态数据,然而人体姿态数据是很重要的,但是由于采集难度大,数据集常常是稀缺的。
同时,由于人体姿态数据的多样性,很难获得关于不同种族、不同人群、不同场景等大量数据,这也是人体姿态估计技术发展的瓶颈之一。
2.计算速度限制人体姿态估计算法大多数需要耗费大量的计算资源,例如,HRNet需要显存4G以上,DeepPose需要GPU支持才能进行计算。
mediapipe人体姿态估计原理
mediapipe人体姿态估计原理
Mediapipe是一个由Google开发的开源框架,用于构建机器学
习基础视觉应用程序。
其中的人体姿态估计模块可以通过摄像头捕捉到的图像来推断出人体的各个关节的位置和姿势。
Mediapipe人体姿态估计原理基于深度学习模型,使用卷积神经网络(CNN)和卷积时空网络(Convolutional Spatio-Temporal Network,CSTN)来提取图像特征和时空特征。
模型使用了基于关节
坐标的多阶段监督学习方法,对每个关节的位置进行精细调整和优化。
在姿势估计过程中,模型首先进行人体检测来确定感兴趣的区域。
然后,图像被输入到CNN网络中,提取2D姿态估计的特征。
接着,CSTN网络将这些特征转化为时空特征,以便更好地捕捉人体运动的
动态变化。
最后,通过关节坐标的多阶段监督学习,精细调整和优化每个关节的姿势位置。
Mediapipe人体姿态估计模块的优点在于速度快,精度高,能够实时地对人体进行姿态估计,并且能够处理多人的姿态估计。
它可以广泛应用于虚拟试衣、人机交互、体育运动分析等领域。
- 1 -。
使用计算机视觉技术进行人体姿态估计的方法和工具介绍
使用计算机视觉技术进行人体姿态估计的方法和工具介绍计算机视觉技术近年来取得了长足的进步,其中人体姿态估计成为一个热门的研究领域。
人体姿态估计是指通过计算机视觉技术分析图像或视频中的人体姿态,包括关节位置、角度和姿势等信息。
这一技术在许多领域中具有广泛的应用,如人机交互、动作分析、运动捕捉和增强现实等。
本文将介绍几种常见的方法和工具,用于实现人体姿态估计。
一、基于深度学习的方法深度学习是计算机视觉领域中的一个重要技术,其在人体姿态估计方面也取得了良好的效果。
基于深度学习的方法通常使用卷积神经网络(Convolutional Neural Networks, CNN)或递归神经网络(Recurrent Neural Networks, RNN)进行姿态估计。
例如,一种常见的方法是使用具有卷积和池化层的深度卷积神经网络来提取图像特征,并通过全连接层预测关节的三维坐标。
这种方法可以通过大量的数据进行训练,从而获得良好的姿态估计精度。
此外,还有一些先进的深度学习模型,如Hourglass和OpenPose,它们通过多阶段的卷积神经网络和堆叠的热图来推断姿态信息。
这些方法在精确度和实时性方面取得了显著的进展,并在姿态估计任务中取得了很好的效果。
二、基于传统机器学习的方法除了深度学习方法,还有许多基于传统机器学习的方法可用于人体姿态估计。
这些方法通常使用基于特征提取和分类的技术。
一种常见的方法是使用人工设计的特征,如SIFT、HOG等,以及基于姿态模型的优化算法。
该方法通过提取图像中的特征点或特征描述子,并使用优化算法来拟合关节的位置和角度。
虽然这些方法在一些简单的情况下可以取得不错的结果,但在复杂的场景中往往表现不佳。
三、开源工具介绍为了帮助研究者和开发者更方便地进行人体姿态估计,一些开源的工具和框架也得到了广泛应用。
以下是一些常用的开源工具介绍。
1. OpenCV:OpenCV是一个广泛使用的计算机视觉库,提供了许多用于人体姿态估计的功能。
基于深度学习的人体姿态估计技术研究
基于深度学习的人体姿态估计技术研究概述:人体姿态估计是计算机视觉领域的一个重要研究方向,其主要任务是通过分析图像或视频来推断人体的姿势和关节角度。
近年来,基于深度学习的人体姿态估计技术取得了显著的进展,实现了更高的准确性和鲁棒性。
本文将介绍基于深度学习的人体姿态估计技术的原理、方法和应用,以及当前的研究挑战和发展方向。
一、原理和方法1. 深度学习基础基于深度学习的人体姿态估计技术一般基于卷积神经网络(CNN)和递归神经网络(RNN)等网络结构。
CNN可以提取图像的空间特征,并学习到不同层次的抽象表示。
RNN则可以建模时间依赖关系,用于处理序列数据,比如视频中的帧序列。
这些网络结构的组合和改进使得人体姿态估计得到了质的提升。
2. 数据集和标注深度学习需要大量的标注数据进行训练。
人体姿态估计领域常用的数据集有MPII Human Pose、COCO和Human3.6M等。
这些数据集包含了大量的图像或视频以及每个关节点的标注位置。
标注位置可以通过手工标注或者使用传感器等设备进行自动标注。
3. 网络架构目前,基于深度学习的人体姿态估计技术主要采用两种网络结构,即自顶向下和自底向上。
自顶向下方法先使用人体检测器检测出人体的大致位置,然后对每个人体进行姿态估计。
自底向上方法则先检测出所有关节点的候选位置,然后将它们组合成人体姿态。
这两种方法各有优劣,研究者们正在不断改进和探索更有效的网络架构。
二、应用领域基于深度学习的人体姿态估计技术在许多应用领域都有重要的作用,下面介绍几个典型的应用领域。
1. 人机交互人体姿态估计可以应用于人机交互技术。
通过姿态估计,计算机可以实时感知和理解人体的姿势和动作,从而更好地响应用户的意图。
这在虚拟现实、增强现实、手势识别等领域具有广泛的应用前景。
2. 健康监测人体姿态估计可以应用于健康监测领域,帮助医生或病患者监测姿势和运动状态。
例如,在康复训练中,姿态估计技术可以对患者的姿势和动作进行实时监测和反馈,帮助他们正确地进行康复训练。
基于深度学习的人体姿态估计综述
基于深度学习的⼈体姿态估计综述定义姿态估计:在⼈体关节连接的所有姿势空间中搜索某个特定姿势,本质为关节点的定位。
⼈体⾻架以⼀种图的⽅式表⽰了⼈的⽅位姿态,本质上是⼀组能被连接起来表⽰⼈体姿态的坐标。
坐标点⼜称为关节或关键点,两坐标点之间的连接称为肢体--limb姿势空间的⼦集:⾻架表⽰的⽰例:准确的说左侧是openpose中的格式2D Pose Estimation:从RGB图像中估计每个关节点的2D姿势坐标,2D pose (x,y)3D Pose Estimation: 从RGB图像中估计每个关节点的3D姿势坐标,3D pose (x,y,z),z---the depth应⽤1. 动作识别2. 训练机器⼈3. 游戏中跟踪交互对象的动作4. 动画视频中增强现实--动作渲染难点1. 关节的特点:强⼤⽽复杂的表达能⼒;⼩且⼏乎看不见2. 遮挡、服装和照明变化2D Pose估计传统的⽅法是:过可变形区域建模,缺点是表性能⼒差,没有考虑上下⽂信息。
基于深度学习的⽅法:DeepPose——第⼀篇将基于卷积神经⽹络的深度学习⽅法应⽤到姿势估计的论⽂0.将关节点估计建模为回归问题,证明了从整体推理隐藏的关节点的合理性,展⽰了CNN强⼤的表现⼒。
1.将alexnet前⾯的七层拿出来,加⼀个2K的向量(x,y)*k. k-----⼈体⾻骼建模的关节点个数2.再级联⼀个同样的回归器,对1阶段粗回归得到的关节点位置从原图上裁剪得到ROI区域,再⼀次回归精修位置----此时分辨率变⼤弊端:直接回归⼀组向量作为xy坐标很困难,增加了学习的复杂度,降低了泛化能⼒,因此某些地⽅表现⼀般。
最新的SOTA⽅法:是回归K张heatmap,代表某种关节点发⽣在此对应像素位置的置信度。
如下⾯论⽂Efficient Object Localization Using Convolutional Networks并⾏的在多分辨率图⽚上操作精修时直接从第⼀层回归器拿特征图ROI,⽽不是去原图拿ROI优点:热图预测⽐直接回归关节点效果好不⾜:没有考虑⼈体的结构建模------⼈体具有⾼度对称性,部位⽐例关系,物理连接性(肘⼀定是连接腕关节或肩关节),贯通性以及关节局限性(⽐如肘向后弯曲限制)等,通过建模这种结构关系可以使关键点的确定更容易,使遮挡关节的估计变成可能。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
先进算法与人工智能测控技术2018年第37卷第6期• 9 *基于改进卷积神经网络的人体姿态估计赵勇$,2,巨永锋1(1.长安大学电子与控制工程学院,陕西西安710064 ; 2.西安邮电大学自动化学院,陕西西安710121)摘要:卷积神经网络是人体姿态估计中应用最成功的深度学习模型,但仍存在着一些诸如关节搜索空间过于巨大以及不同卷积核得到的抽象特征被平等对待等缺陷。
为此,提出了一种基于改进卷积神经网 络的人体姿态估计算法,利用先验分布减小关节搜索空间,改进卷积神经网络结构建立新的关节外观模 型。
改进的网络利用单个卷积核对应的全局和局部抽象特征计算关节的初始定位概率,通过对所有卷 积核对应的关节初始定位概率进行线性组合来计算关节的最终定位概率,利用线性组合中不同的权值 来体现不同抽象特征在定位关节时所起的不同作用。
仿真实验表明,与现有基于卷积神经网络的人体 姿态估计算法相比,所提出的算法具有更低的计算复杂度和更高的估计准确度。
关键词:人体姿态估计;深度学习;卷积神经网络;先验分布;全局特征中图分类号:TP 391.4 文献标识码:A 文章编号!1000 -8829(2018)06 -0009 -06doi :10.19708/j . ckjs . 2018.06.002Human Pose Estimation Algorithm Based on Improved ConvolutionalNeural NetworkZHAO Y ong1’2, JU Y o n g -fe n g 1(1. School of Electronic and Control Engineering, Chang, an University, Xi, an 710064, China;2. School of Automation, Xi, an University of Posts & Telecommunications, Xi, an 710121, China)Abstract : T he convolutional neural networl ^ is the most successful deep learning model for human pose estima tion , but tliere are still some deficiencies such as the joint search space is too large and the abstract features obtained by different convolution kernels are treated equally . For overcoming these two deficiencies , a pose estimation algorithm based on an improved convolutional neural network is proposed , in which the prior distrilDution is used to reduce the joint search space and improve the structure of traditional ral networl ^ to establisli a new joint appearance model . T he joint initial location probability sing the global and local abstract features corresj^onding to the convolution kernel , and the bility is obtained through l inear combination of tlie initial location probabilities , in which the diferent weights indicate the different e ffects of different abstract features . T he simulation results showthat the proposed algo rithm has lower computational complexity and higher estimation accuracy than the human pose estimation algo rithms based on the traditional convolutional neural network .Key words : human pose estimation ; deep learning ; convolutional neural network ; prior distribution ; global features 究方向。
人体姿态估计是人体动作行为识别的基础,是一个确定四肢、躯干和头部等人体部位在图像中具 体定位的过程1]。
经过十几年的研究,已经提出了多 种人体姿态估计算法[1_10],取得了良好的估计效果。
人体姿态估计算法主要可分为基于整体的人体姿 态估计和基于部件的人体姿态估计算法两大类[2]。
基于整体的人体姿态估计算法一般通过待处理图像到 部位或关节定位的非线性映射来实现,由于深度学习 具有很强的非线性变换能力,已成为当前实现人体姿在视频监控、人机交互和行为分析等计算机视觉 研究领域中,人体动作行为识别是一个非常热门的研收稿日期:2017-10-03基金项目:陕西省教育厅科学研究计划项目(16JK1699)作者简介:赵勇(1979!),男,陕西周至人,博士研究生,高级工 程师,主要研究方向为计算机视觉在交通中的应用;巨永锋 (1962!),男,陕西周至人,博士,教授,博士生导师,主要研究 方向为交通控制与管理、计算机视觉在交通中的应用。
• 10 *《测控技术》2018年第37卷第6期态的非线性映射的主要研究方向[3_5]。
基于部件的人 体姿态估计算法根据部位或关节间的外观和位置的关 联建立人体模型,并通过优化由人体模型构造的能量 函数来实现。
人体部位或关节模型的建立是算法的关 键,传统的部位或关节模型采用的都是手工设计的图 像特征[2],难以准确地表征真实的外观,而深度学习 可以从大数据中自动学习具有更强表达和区分能力的 特征,能更准确地表征真实人体部位或关节的外观,目 前应用最成功的是卷积神经网络[6_10]。
人体姿态估计过程中部位或关节的定位是在整幅 图像中搜索的,而一幅图像的像素点往往有几万个甚 至更多,巨大的搜索空间对人体姿态估计的收敛速度 影响很大。
此外,文献[6]〜文献[9]利用卷积神经网 络建立的关节外观模型仅考虑了图像的局部特征,这 与人类在识别物体时同时依赖局部和全局特征的特性 并不相符。
DeepID 网络[11]在进行人脸识别虽然同时 考虑了图像的局部和全局特征,但将利用不同卷积核 得到的抽象特征平等地对待,而不同特征所起的作用 往往并不相同。
为解决上述两种不足,提出一种基于 改进卷积神经网络的人体姿态估计算法。
根据关节分 布在人体躯干周围相对固定范围内的特性,提出一种 基于先验分布的关节搜索空间减小方法;改进卷积神 经网络结构,通过将每一种卷积核对应的图像全局和 局部特征时的关节初始定位概率按照不同权值进行线 性组合计算得到关节的最终定位概率。
1基于先验分布的关节搜索空间减小方法人体由四肢、躯干和头部等部位通过关节连接在 一起,不管姿态如何变换,关节都会分布在躯干周围一 个相对固定的范围内。
基于这一点,利用训练图像集 学习出关节相对于人体上半身的先验分布,在对待处 理图像进行人体姿态估计时,首先利用人体上半身检 测器[12]检测上半身,然后根据关节的先验分布确定关 节的分布区域,从而将关节的搜索空间从整幅图像减 小为一个较小的图像区域,达到减小关节搜索空间的 睡。
关节先验分布的学习可分为3个步骤来完成,图1以左肩关节为例给出了学习的过程。
① 对图1 ( a #所示已标注出所有关节的训练图 像,标注出以左肩关节为中心的正方形框,然后利用人 体上半身检测器[12]检测出人体上半身正方形框,如图 1(b )所示;② 将标注出的人体上半身和以左肩关节为中心的正方形框都投影到统一的坐标系,如图1 (5所示;③ 所有投影到同一坐标系下的以左肩关节为中心的正方形框的覆盖区域如图1⑷所示,包围覆盖区 域的最小矩形即为关节相对于人体上半身正方形框的先验分布。
2基于改进卷积神经网络的关节外观 模型深度学习是当前机器学习领域中最热门的研究方 向,起源于人工神经网络,通过对低层特征进行组合形 成抽象的高层特征,从而发现数据的分布式特征表 示[13]。
卷积神经网络是-一特殊的?米层如馈神经网 络模型,是人体姿态估计算法中建立外观模型时应用 最为成功的深度学习模型[6)9],基本结构包括卷积层 和池化层,卷积层为特征提取层,利用卷积核提取抽象 特征,通过局部感知和权值共享来减少参数数量;池化 层是特征统计层,通过下采样来进一步减小神经元个 数。
为更好地利用图像的全局和局部特征,对传统卷 积神经网络结构进行了改进,改进后的网络结构如图 2所示,由3个卷积层、4个池化层、1个引入层和3个 全连接层组成。
与文献[6]〜文献[9]仅将与卷积层 3类似的表征图像局部特征的卷积层作为全连接层的 输入不同,将卷积层3和表征图像全局特征的池化层4共同作为全连接层的输入;与文献[11 ]将与卷积层 3和池化层4类似的表征图像局部和全局特征的卷积 层和池化层看作一个整体作为全连接层的输入不同, 本文将全连接层1分为32个部分,分别连接32个卷积核对应的卷积层3和池化层4的特征图,在全连接 层2计算出利用每一种卷积核对应特征时的关节初始 定位概率,全连接层3只有一个神经元,将全连接层2计算出的对应不同卷积核的关节初始定位概率按照基于改进卷积神经网络的人体姿态估计• 11 *不同权值进行线性组合得到关节最终定位概率,权值 即为神经元权值。
由于每一个卷积核对应一种特征提 取的方式,卷积后得到一种抽象的图像特征,所设计的 卷积神经网络不仅在进行关节定位的同时考虑到了图 像全局和局部特征,而且不同特征起着不同的作用。
网络各层的具体参数如表1所示。
表1改进卷积神经网络结构参数网络层输入尺寸输出尺寸核尺寸卷积层164 x64 x360 x60 x32 5 x5 x3池化层160 x60 x3230 x30 x322x2x1卷积层230 x30 x3226 x26 x32 5 x5 x32池化层226 x26 x3213 x13 x322x2x1卷积层313 x13 x329 x9 x32 5 x5 x32池化层39 x9 x32 5 x5 x322x2x1池化层4 5 x5 x321x1x325x5x1引入层1x1x26241x1x2624全连接层11x1x26241x1x640全连接层21x1x6401x1x32全连接层31x1x321x1x1网络的输入为64 x64大小的彩色图像块,将从所 有训练图像剪切出的关节和非关节图像块作为训练样 本,图3给出了一些左肩图像块的正负样本示例。