基于混合高斯模型的非固定握持姿势手势识别
手势识别技术综述
手势识别技术综述作者单位:河北工业大学计算机科学与软件学院内容摘要:手势识别是属于计算机科学与语言学的一个将人类手势通过数学算法针对人们所要表达的意思进行分析、判断并整合的交互技术。
一般来说,手势识别技术并非针对单纯的手势,还可以对其他肢体动作进行识别,比如头部、胳臂等。
但是这其中手势占大多数。
本文通过对手势识别的发展过程、使用工具、目的与市场等进行综述,梳理出手势识别发展的思路,让读者对手势识别有一个总体上的认识,同时也可以让读者在此基础上进行合理想象,对手势识别的未来有一个大体印象。
Abstract:Gesture recognition is an interactive technology using mathematical arithmetic to the analysis,judge and assembly meaning that people want to convey which belongs to computer science and Linguistics.In general, gesture recognition technology is not for simple gestures expressed by hands ,it can also aim to other body movement recognition, such as the head, arm and so on. But the gesture accounted for most of the analysis. In this paper, by describing the development process, tools used , objective and market of gesture recognition , we can sort out the ideas of the development of gesture recognition, and let readers have an overall understanding of gesture recognition. At the same time, it can let the reader imagine that on hand gesture recognition based on reason ,and have a general impression of its future.1.定义说到手势识别,首先要对手势识别中的手势有一个清晰的认知。
基于混合高斯模型的非固定握持姿势手势识别
VO 1 . 4 4 N O. 2
Ma r .2 01 4
d o i : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 1— 0 5 0 5 . 2 0 1 4 . 0 2 . 0 0 3
基 于 混 合 高 斯模 型 的非 固定 握持 姿 势 手 势 识别
b a s e d o n Ga u s s i a n mi x t u r e mo d e l
W a n g Yua n Ta n g Yo n g mi n g Wa ng Ba o p i n g
( S c h o o l o f E l e c t r o n i c S c i e n c e a n d E n g i n e e r i n g, S o u t h e a s t U n i v e r s i t y , Na n j i n g 2 1 0 0 9 6 ,C h i n a )
h a n c e me n t a l g o i r t h m b a s e d o n t h e G a u s s i a n mi x t u r e mo d e l ( GMM)i s p r e s e n t e d . I t c a n a c h i e v e g e s -
t u r e r e c o g n i t i o n wi t h u nf i x e d h o l d i n g po s i t i o n a n d i mp r o v e t h e i n t e r a c t i o n c o mf o r t a b i l i t y.Fi r s t ,t he h ol di ng po s i t i o n i n f o r ma t i o n i s a bs t r a c t e d f r o m r a w a c c e l e r a t i o n d a t a b y t he GM M .Th e n t h e c o o r d i —
融合手势全局运动和手指局部运动的动态手势识别
第32卷第9期计算机辅助设计与图形学学报Vol.32No.9 2020年9月Journal of Computer-Aided Design & Computer Graphics Sept. 2020融合手势全局运动和手指局部运动的动态手势识别缪永伟, 李佳颖, 孙树森(浙江理工大学信息学院杭州 310018)(***************.cn)摘要: 传统基于手部轮廓或手部运动轨迹的动态手势识别方法, 其提取的特征通常难以准确表示动态手势之间的区别. 针对动态手势的复杂时序、空间可变性、特征表示不准确等问题, 提出一种融合手势全局运动和手指局部运动的手势识别方法. 首先进行动态手势数据预处理, 包括去除手势无效帧、手势帧数据补全和关节长度归一化; 然后根据给定的手部关节坐标, 利用手势距离函数分段提取动态手势关键帧, 并基于手势关键帧提取手在空间中的全局运动特征和手内部手指的局部运动特征; 其次融合手势全局运动和手指局部运动的关键帧手势特征, 并采用线性判别分析进行特征降维; 最后利用带高斯核的支持向量机实现动态手势识别与分类. 对DHG-14/28动态手势数据集中14类手势和28类手势数据集进行实验, 其分类识别准确率分别为98.57%和88.29%, 比现有方法分别提高11.27%和4.89%. 实验结果表明, 该方法能准确地表征动态手势并进行手势识别.关键词: 动态手势识别; 手势全局运动; 手指局部运动; 关键帧; 线性判别分析; 支持向量机中图法分类号: TP391. 41 DOI: 10.3724/SP.J.1089.2020.18126Dynamic Gesture Recognition Combining Global Gesture Motion and Local Finger MotionMiao Yongwei, Li Jiaying, and Sun Shusen(College of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018)Abstract: Traditional gesture recognition methods always focus on hand contours or hand movement track, and the extracted gesture features are often difficult to represent the difference between dynamic gestures accurately. To overcome the issues of complex time series, the spatial variability and inaccurate feature rep-resentation of different dynamic gestures, a novel dynamic gesture recognition method is proposed here by combining global gesture motion and local finger motion. Firstly, based on the given hand joint positions, several data pre-processing steps are performed for dynamic gesture data, such as removing of the invalid gesture frames, completing the gesture frames, and the normalization of joint lengths for different gestures.Secondly, the key gesture frames will be extracted according to the distance function defined by the differ-ence of hand translation and rotation, fused by the difference of panning and rotating of fingers. Meanwhile, according to the extracted key gesture frames, the gesture features of global gesture motion and local finger motion can be calculated. Finally, by combining the extracted gesture features, dynamic hand gestures can be classified and recognized using linear discriminant analysis (LDA) and Gaussian kernel based SVM. The proposed method has been evaluated on the DHG-14/28 datasets, which includes 14 kinds of gestures and 28 kinds of gestures. And the accuracy of hand gesture recognition is 98.57% and 88.29% respectively, which is收稿日期: 2019-10-24; 修回日期: 2020-03-28. 基金项目: 国家自然科学基金(61972458); 浙江理工大学科研基金(17032001-Y).缪永伟(1971—), 男, 博士, 教授, 博士生导师, CCF杰出会员, 主要研究方向为计算机图形学、数字几何处理、计算机视觉、机器学习; 李佳颖(1995—), 女, 硕士研究生, 主要研究方向为计算机图形学、机器学习; 孙树森(1975—), 男, 博士, 副教授, 主要研究方向为计算机图形学、虚拟现实.第9期缪永伟, 等: 融合手势全局运动和手指局部运动的动态手势识别 149311.27% and 4.89% higher than the existing methods. Experimental results demonstrate that our method can represent the difference between dynamic hand gestures accurately and recognize them effectively.Key words: dynamic gesture recognition; global gesture motion; local finger motion; key frame; linear discrimi-nant analysis; support vector machine作为计算机图形学、虚拟现实、人机交互和手语翻译等领域的一种重要交互模式, 手势交互提供了一种简单便捷的交互体验[1]. 根据手势是否具有时序性, 可以将手势分为静态手势和动态手势2类[2], 静态手势顾名思义指的是单帧静止的手势, 而动态手势指的是一段时间内连续的多帧手势. 相比于静态手势, 动态手势由于不仅需要关注手部手形的变化, 还要关注手指在时间、空间中的运动而变得难以准确识别[3]. 通常, 复杂动态手势的运动规律具有以下3个明显特点: (1) 时间的可变性. 动态手势的运动速度不确定, 对于相同的手势, 不同的人可以用不同的速度来完成; 即使是同一个人, 每次的完成速度也并不一样. (2) 手势完整性的可变性. 在许多情况下, 与系统预先定义的手势相比, 用户/操作员的手势是不完整的或冗余的. (3) 空间的可变性. 手势的运动空间和运动距离是不同的, 不同的人所做相同手势的距离和范围也总是不同的. 这些特点将导致难以准确表征不同动态手势的特征. 动态手势的复杂时序、空间可变性、特征表示不准确等问题, 给动态手势的识别和分类带来困难与挑战[2].许多动态手势识别的工作都是基于RGB图像、深度图像、光流信息或手势轨迹[4]. Simonyan 等[4]利用双数据流特征进行动态手势分类, 其中一个数据流利用静态的RGB图像进行分类, 而另一个数据流利用光流和轨迹信息. RGB图像信息中包含了单帧手势的局部特征信息, 光流和轨迹信息中包含了手势的全局特征信息, 但是该方法并没有将2个数据流的特征相结合, 仅仅是分开使用2个数据流. 本文考虑手势全局运动特征和手内部手指局部运动特征, 并将融合2个特征进行动态手势识别和分类. 基于手势图像, Molchanov等[5]采用联接时间分类(connectionist temporal classifica-tion, CTC)方法解决动态手势时序问题, 但是该方法具有条件独立性, 假设不同时间帧的输出之间是独立的, 对于动态手势序列而言, 手势序列是具有时间空间连续性的, 该假设并不符合动态手势运动.最近受益于Intel real sense, Microsoft Kinect, OpenPose等硬件设备的广泛使用以及高精度手部跟踪方法的发展, 使得人们很容易获取高精度的手部骨架数据. 实际上, 手部骨骼的运动通常能准确反映不同动态手势的特征差异[3,6]. 基于手部关节点坐标输入, 针对动态手势时间的可变性和手势完整性的可变性等问题, 本文首先提出动态手势关键帧的有效提取方法, 从而去除不同动态手势中的冗余帧, 并将不同长度的动态手势视频统一到同一长度; 然后基于动态手势关键帧, 将手势运动特征表征为手部在空间中的全局运动和手内部手指的局部运动, 并融合2类特征进行降维; 最后利用带高斯核的支持向量机(support vector ma-chine, SVM)实现有效的动态手势识别. 本文提出了一种动态手势特征表示, 该表示能够有效表征动态手势的运动特征, 并为手势准确识别奠定了基础.1 相关工作动态手势的时空信息特征处理是动态手势识别与分类的关键和难点[2]. 动态手势识别大致可以分为传统手工特征提取方法和深度学习方法等.针对动态手势的传统手工特征提取方法, 大多采用动态时间规划(dynamic time warping, DTW)[7-8]、傅里叶时间金字塔[9]、隐马尔可夫模型(hidden Markov models, HMM)[10]等解决动态手势的时空信息处理问题. 其中DTW方法[7-8]采用两两对比的策略来规整时间信息, 该方法依赖于一个标准手势版本进行对比, 但是在手势数据集中并没有这个标准版本可供对比, 只能人为设定标准手势; 傅里叶时间金字塔方法[9]采用将完整的手势帧进行分段提取的方式来处理动态手势的时空信息特征; HMM则认为动态事件的下一状态只与上一状态有关, 与之前的状态都没有关系[10], 其忽略了动态手势的连贯性.针对动态手势识别的深度学习方法往往利用HMMs[10]、长短期时间记忆(long short-term mem-1494计算机辅助设计与图形学学报 第32卷ory, LSTM)[11-12]、广义时间规划(generalized time warping, GTW)[13], DTW [7-8]、空间金字塔池化(spatial pyramid pooling, SPP)[14]等解决时空信息处理问题. Wu 等[15]使用HMMs, 结合深度置信网络和卷积神经网络, 从RGB-D 数据中提取骨架特征中的时间依赖性. 然而, 由于深度置信网络采取无监督方式学习, 并没有结合手势类别对数据进行压缩. Nguyen 等[6]提出一种基于手部关节点坐标的对称正定(symmetrical positive determined, SPD)矩阵流形学习的神经网络方法. 该网络由3个部分组成: 一层卷积层、一层时空高斯聚合层和从骨架数据中学习到的最终SPD 矩阵. 该方法与本文类似利用关节之间的物理链接点提取特征. 然而, 该方法对时间序列的处理较粗糙, 为了捕获骨架序列的时间顺序, 采用了时空手势识别网络构造许多子序列: 原始序列、将原始序列分成2个子序列、再分成3个子序列等. Abavisani 等[16]提出了一种基于多模态训练的单模态动态手势识别方法, 对时间和位置信息利用时空语义对齐损失进行对齐, 这与协方差矩阵对齐密切相关. 然而, 利用神经网络进行动态手势识别的方法中网络设计往往难以充分考虑动态手势特定的手势运动特征. 本文提出了一种新的动态手势识别方法. 该方法将动态手势的运动分为手部在空间的全局运动和手内部手指的局部运动2部分, 并利用关键帧提取解决时间信息处理问题.2 动态手势识别方法本文从动态手势运动的内在特性出发, 结合手势所具有的个体差异性、时空连续性等特点, 提出了一种新的动态手势识别框架. 如图1所示, 该框架输入为动态手势3D 关节坐标, 首先进行数据预处理, 包括去除手势无效帧、手势帧数据补全和关节长度归一化; 然后提取动态手势关键帧, 并基于手势关键帧提取手在空间中运动的全局特征和手内部手指的局部特征; 并将两者特征融合后进行线性判别分析(linear discriminant analysis, LDA)特征降维, 最后利用带高斯核的SVM 进行动态手势识别分类. 该框架结合动态手势的时空连续特性, 解决了手势的时序问题, 同时有效提取了手部运动全局特征和手指运动局部特征.图1 动态手势识别框架2.1 动态手势数据预处理首先, 针对动态手势的时间可变性, 本文认为对于相同的手势动作, 由于测试者的动作有快有慢导致手势视频中出现较多冗余帧. 另外, 在手势提取过程中, 由于初始化问题或者出于提取关节位置信息考虑, 通常会需要测试者保持若干秒静止状态, 该手势帧与手势类别无关, 本文中将与手势类别无关的手势帧定义为手势无效帧, 为避免在关键帧提取中产生干扰, 需要首先去除手势无效帧.其次, 针对动态手势的完整性, 对不满关键帧帧数的手势将采用手势帧补全的方法, 使得动态手势数据帧数达到关键帧帧数的要求.最后, 针对动态手势的空间可变性, 本文认为当不同人做相同手势时, 不同的手掌大小和不同的手势幅度等通常会产生个体差异性. 本文将利用关节长度归一化方法消除个体差异性带来的影响, 从而解决动态手势的空间可变性问题. 2.1.1 手势的无效帧删除动态手势是一段时间内连续变化的手势序列, 手的形状和位置随着时间而变化. 动态手势数据集通常通过深度相机或数据手套获取, 获取的动态手势通常存在如何定义起始帧和结束帧的问题.第9期缪永伟, 等: 融合手势全局运动和手指局部运动的动态手势识别 1495本文所采用的数据集序列中, 要求参与者在每一个序列开始前的几秒内将整个手完全打开在摄像机前, 这一操作主要用于初始化手势估计算法. 因此, 每个手势序列中都有一些与手势类别无关的手势无效帧, 为了避免无效帧对手势分类造成干扰, 首先需要删除手势无效帧. 另外, 动态手势起始帧提取也是动态手势分类中的一个难点, 本文采用的动态手势数据集中已手工标注了有效的起止帧, 因此本文只需根据数据集中提供的手势起止帧数, 删除起始帧之前和结束帧之后的无效帧. 2.1.2 手势帧数据补全当手势关键帧确定之后, 对于关键帧帧数不足的手势处理问题, 本文考虑如果直接将小于关键帧数量的手势视为无效手势删除, 随着关键帧数量的增加, 数据集中的手势数量将急剧下降. 因此, 本文对帧数小于关键帧的手势数据采用数据补全的方法, 利用重复手势帧进行数据补全; 即从起始帧开始不断依次重复所有现有帧, 且为了保持手势运动特性, 将重复的手势帧直接插在被重复的手势帧之后, 直至手势视频达到规定帧数为止, 然后删除一个起始帧. 通过手势帧补全, 可以使训练数据集中样本数保持不变, 而重复现有手势帧可以有效地保持动态手势的完整性, 更好地说明手势识别准确率的提升和本文方法的泛化性. 2.1.3 手部关节长度归一化手势数据集通常需要由不同参与者采集数据, 并保持手势的通用性. 但是, 不同的参与者手的大小和关节之间的长度不同. 为了消除手部的个体差异性, 本文将手部关节长度归一化为相同长度, 即改变关节长度但不改变关节间的夹角. 例如, 在握拳手势时可能会出现指尖穿过手掌平面的异常运动. de Smedt 等[3]将手部关节长度归一化为数据集的平均长度, 但增加了计算量. 本文在标准手指长度的基础上, 对手部关节长度进行归一化.不妨以某一帧为例简述归一化过程. 利用,i j W 表示第j 帧中第i 个关节点位置. 为方便起见,归一化过程中下标j 均省略, 即表示为i W , 其中,0,1,2,,21i = . 利用向量表示22个关节点构成的关节对, 即15,1216,10,14,18 ,6,10,14,18i i i i i i i --≠⎧=⎨-=⎩W W V W W 且≤≤.归一化过程为,iii iL =V V V015, 0+,1216,10,14,18+, 6,10,14,18i i i i i i i i -=⎧⎪=≠⎨⎪=⎩W W V W V W ≤≤且 (1)需要指出的是, 本文对手部关节长度归一化时基于一个标准手指长度进行, 标准手指长度参考ACT hand 关节段[17]确立, 其中, i L 为对应第i 节关节段标准长度.2.2 动态手势特征表示首先, 从全局来看, 动态手势是手随着时间的流逝发生的一系列空间上的变化, 该变化可以根据物体运动的特性划分为平移运动和旋转运动. 其中平移运动通过手部中心点的移动距离表示, 根据手的运动特性, 手掌中心点的位置可以唯一确定手在空间中的位置. 旋转运动则是通过手的主方向向量的改变来进行刻画, 本文中手的主方向定义为: 手肘指向手掌中心点的向量. 考虑交互手势特征, 并不包含手绕中指指根关节与手肘连线所在直线的自旋转运动, 所以本文没有考虑自旋转运动的特征.其次, 从局部来看, 除了手在空间上的变化, 还有手内部手指的局部运动引起的手形变化, 本文将手部关节等同于21段链段结构. 而手指的局部运动是由手指的关节弯曲所引起, 可以理解为链段之间的角度变化引起的链段结构的整体变化. 考虑旋转矩阵所使用的元素多达16个, 而欧拉角会出现万向节死锁现象, 故本文中利用旋转四元数表示该变化. 而对于链段结构而言, 细微的角度误差将被累积, 经过多段链段后容易引起较大的距离误差[3], 故本文为消除由于角度误差累积引起的距离误差, 将手指相对距离特征加入手指的局部运动特征中. 同样考虑手部物理特征, 手指不存在绕该指指根关节与手肘连线所在直线的自旋转运动.综上所述, 本文基于手势的几何特性和时间空间连续性的角度, 提出了动态手势的4个特征表示. 动态手势运动的过程包括整只手在空间中的全局运动(即手在空间中的平移运动、旋转运动)和手内部手指的局部运动(即手内部手指的平移运动、旋转运动). 具体表示如下:(1) 手在空间中的平移运动.手在空间中的移动过程通过前后2帧手中心1496计算机辅助设计与图形学学报 第32卷点(关节点1)的距离刻画, 即1,11,1j j j j T T --=--W W .(2) 手在空间中的旋转运动.手在空间中的翻转信息通过前后2帧之间的手主方向向量距离刻画, 本文中手的主方向定义为10-W W , 翻转信息表示为1,0,1011,,1j j j j j j P P ---=----W W W W . (3) 手内部手指的平移运动.手指的平移运动则利用手指指尖相对距离特征刻画. 为避免因关节段之间旋转角度信息作为特征而出现旋转误差累积的现象, 本文提取手指相邻指尖之间的距离和手指指尖相对于手腕的距离作为手指平移特征, 具体表征为手指相邻指尖之间的距离094D =-W W ,1139D =-W W , 21713D =-W W ,32117D =-W W ,以及手指指尖相对于手腕的距离440D =-W W ,590D =-W W ,1630D =-W W , 1770D =-W W ,2810D =-W W .(4) 手内部手指的旋转运动.手的弯曲变化利用手部关节之间的旋转四元数刻画, 以00001111(,,)(,,)x y z x y z V V 关节段之间的四元数为例, 可得四元数中的旋转角度特征为Q = 01cos(arccos()/2)⨯V V .2.3 动态手势关键帧提取 2.3.1 手势距离函数为了有效提取动态手势的关键帧, 融合手势全局运动和手指局部运动的4个特征表示, 本文提出了一种手势距离函数, 并通过对手势距离进行排序选取动态手势中特征变化显著的手势帧作为关键帧, 即产生运动突变的帧作为手势关键帧. 定义一个动态手势前后2帧之间的距离为1381,,12,,103141()()()(),1,,j i j i j k j k j i k j j j j L Q Q D D P P T T j S E λλλλ--==--=-+-+-+-=+∑∑ (2)其中动态手势起始帧序号为S , 结束帧序号为E .实验中参数取1234=100, =1, =1, =1λλλλ. 2.3.2 关键帧分段提取对于动态手势视频序列, 若直接选取手势距离函数最大的前k 帧作为关键帧, 容易出现关键帧全是邻近帧的情况, 如对于图2所示的有效帧为第44~66帧的向上滑动的手势动态序列, 直接利用手势距离函数提取出的关键帧为第52~56帧, 这些关键帧全是邻近帧, 从而无法有效地表示整个手势过程. 为方便观察, 以深度图为例, 如图2所示, 图中显示不经过分段直接提取手势关键帧时出现严重信息冗余, 且不包含起始手势, 丢失了动态手势的完整信息. 为了避免信息冗余和保持手势的完整性, 需要考虑分段提取动态手势的关键帧.a. 输入的动态手势视频帧b. 提取的动态手势关键帧图2 不分段提取的手势关键帧第9期缪永伟, 等: 融合手势全局运动和手指局部运动的动态手势识别 1497在采用分段提取动态手势关键帧中, 假设手势起始帧为S F , 结束帧为E F , 则整个有效手势可表示为,}{,S E F F . 若提取k 帧关键帧则可将整个手势均匀分成k 段, 经分段后手势段I 为1(1){{,,},,{,,}}S S d S k d E +-+-⋅=F F F I F (3) 其中, (1)/d E S k -+⎢⎥⎣⎦=. 然后在每个手势段内选取距离函数式(2)最大的帧作为该段关键帧.本文数据集删除无效帧后帧数范围为7~149帧, 可选取的关键帧帧数范围较广. 为不失一般性, 考虑人体动作识别视频序列长度与手势动作的差异性, 通过手势识别准确率的对比实验选取关键帧帧数为31帧. 最后, 为保证手势完整性, 添加手势起止帧作为关键帧. 若起始帧(结束帧)已经包含在关键帧中则选取该帧的邻近帧, 即后1帧或前1帧取代该帧, 并添加起止帧. 算法步骤如下.算法1. 关键帧提取算法.输入. 动态手势的22个关节点3D 坐标信息. 输出. 该动态手势的k 帧关键帧.Step1. 根据手势起止帧, 删除手势无效帧{}{}1,,,S E N ''←F F F F .Step2. 补全手势帧{}{},,,,S E S E ''←F F F F .Step3. 利用式(1)对每一帧的关节长度进行归一化, 得到归一化后关节点位置信息,,0,1,,21,i j i S j E =≤≤W .Step4. 将动态手势按照式(3)进行分段.Step5. 根据式(2)计算视频段内前后2帧距离j L . Step6. 在每个视频段中分别选取具有最大距离的帧作为其关键帧,,,m m m F F F .Step7. 加入手势起止帧S F 和E F , 最终得到动态手势的关键帧为,,,,,S m m m E F F F F F .以抓取手势为例, 说明本文中关键帧提取的有效性. 图3a 给出了抓取手势中的每隔5帧手势深度图, 分别对应第10帧、第15帧、第20帧、第25帧、第30帧、第35帧、第40帧、第45帧手势图; 图3b 给出了利用算法1提取的抓取手势的关键帧, 分别对应第10帧、第17帧、第22帧、第31帧、第38帧、第40帧、第45帧手势图, 可以看出利用分段提取动态手势的关键帧能够有效地表示手势的完整变化过程.a. 每隔5帧的手势深度图b. 分段提取的手势关键帧图3 抓取手势的关键帧提取本文采用的动态手势关键帧提取算法包含手势数据预处理、手势分段、手势帧距离计算等, 由于手势帧数的不同, 其关键帧提取时间也不尽相同. 表1给出了对不同手势帧帧数统计其关键帧提表1 关键帧提取时间统计手势帧帧数平均时间/s0~31 0.0032~40 40.1541~50 41.8951~60 42.25 61~70 46.07 >70 74.63取的平均时间列表. 当手势帧帧数不超过31帧时, 仅需补全手势帧, 不计关键帧提取时间; 随着手势帧帧数的增多, 关键帧提取时间变长. 本文中的关键帧提取实时性较低, 在未来工作中将探讨如何进一步提高关键帧提取的实时性.2.4 动态手势识别和分类 2.4.1 手势特征融合由于本文提出的融合手势全局运动和手指局部运动的特征将共同表征一个动态手势, 类似于Luvizon 等[18]将特征进行融合的思路, 本文将特征进行联接融合为单个手势的m 维特征向量=Y 1,],[ m y y . 在含有N 个样本的数据集中分别得到1498计算机辅助设计与图形学学报 第32卷N 个手势特征向量为,1,,[],1,2,,,. m i i i y y i N ==Y对特征向量中各维特征分别归一化,,i j ji j jf f f σ-=.其中, ,1/;N j i j j i f f N σ===∑ 从而得到N 个手势的归一化特征向量为,1,[], ,,,,1,2i i i m f f i N ==F .2.4.2 手势特征降维对于SVM 来说, 本文的样本特征向量维数过多, 在动态手势关键帧中存在信息冗余. 为了使变量相互独立并去除手势特征中的噪声, 同时考虑样本中存在的类别标签, 这里采用监督降维中的LDA 方法进行特征降维. 该方法降维原理如下: 同类数据应尽可能接近, 不同类别的数据应尽量远离, 即投影后类内方差最小, 类间方差最大. 本文在降维过程中, 充分利用手势类别的先验知识. 将手势特征映射到一个低维空间中, 该过程充分利用了手势类别的信息, 使得不同类别手势间的特征方差最大, 同一类别手势间的特征方差最小, 方便进行手势识别和分类.2.4.3 基于带高斯核SVM 的手势识别和分类与其他机器学习分类方法相比, SVM 理论避开了高维空间的复杂性并直接利用核函数向高维空间进行映射, 再利用线性可分情况下的求解方法直接求解对应的高维空间决策问题. 当核函数已知时可以简化高维空间问题的求解难度. 同时SVM 有很好的理论基础, 不涉及概率测度, 最终的决策函数也只由少量的支持向量决定, 计算复杂度取决于支持向量的数目, 而不是样本空间的维数, 从而避免了维数灾难.本文采用带高斯核的SVM 实现对动态手势的识别和分类. 该方法能根据有限样本信息找到特定训练样本的学习精度与学习能力之间的折中, 在解决小样本、非线性和高维识别方面具有优势.3 实验结果与分析本文实验平台为Intel Core i5-7500, 4 GB RAM, 操作系统为Windows10 64位. 本文基于手部关节点的3D 坐标信息, 通过确定起止帧、删除手势无效帧; 然后进行关节长度归一化以消除个体差异性, 提取手势关键帧, 再分别提取手在空间中的全局运动和手内部手指的局部运动特征, 并进行特征融合和LDA 降维; 最后利用带高斯核的SVM 进行动态手势识别与分类.3.1 实验数据集本文方法所采用的数据集是DHG-14/28动态手势数据集[3], 该数据集中包含有14类动态手势类别, 如表2所示, 并以2种方式执行手势: 只用一个手指的方式和整个手的方式. 每个手势由20名参与者以上述2种方式完成, 每个执行方式各完成5次, 共2 800个动态手势序列. 14种手势中5种为Fine 类手势, 9种为Coarse 类手势. 同时, 数据集中不仅包含动态手势视频帧深度图像, 还包含2D 深度图像中和3D 空间中的22个手部关节坐标, 其中深度图像分辨率为640×480, 深度图和手骨架均以30帧/s 的速度拍摄获取.表2 数据集中包含的手势类别序号 手势类别1 Grab(抓取) Fine2 Expand(展开) Fine3 Pinch(抓紧) Fine4 Rotation CW(顺时针旋转) Fine5 Rotation CCW(逆时针旋转) Fine6 Tap(轻敲) Coarse7 Swipe right(向右滑动) Coarse8 Swipe left(向左滑动) Coarse 9Swipe up(向上滑动) Coarse10 Swipe down(向下滑动) Coarse 11 Swipe X(在空中画X) Coarse 12 Swipe V(在空中画V) Coarse 13 Swipe +(在空中画+) Coarse14 Shake(摇手) Coarse3.2 手势关键帧帧数的确定需要说明的是, 在动态手势关键帧提取中首先需要确定手势关键帧帧数, 选取合适的关键帧帧数将影响手势的识别准确率. 本文对比手势识别准确率, 对不同关键帧帧数k 值进行实验分析. 如图4所示, 随着关键帧帧数的增加, 手势识别准确率有所上升且趋于稳定; 当关键帧帧数大于31时, 手势识别准确率趋于下降. 从图5可以看出, 对于DHG-14/28动态手势数据集[3]中28种手势,关键帧帧数31k =时, 手势识别准确率为88.29%, 达到最高. 实验表明, 若关键帧帧数较少, 则同一种手势的关键帧选取可能具有较大差异性, 导致手势识别准确率较低. 因此, 为了提高手势识别准。
基于轨迹模板匹配的动态手势识别方法
基于轨迹模板匹配的动态手势识别方法王浩宇;漆晶;方天恩;刘德庆【摘要】首先采用基于混合高斯模型与椭圆肤色模型进行手势分割,分割出手势区域,使用卡尔曼滤波器进行手势跟踪,获得手势中心点的位置.在此基础上,记录各帧中心点位置,得到运动轨迹,利用提出的轨迹模板匹配方法对动态手势进行识别.该方法利用基本的几何特征便可完成手势运动轨迹的设置与识别,无需特征选择或训练样本的搜集.最后,采用基于Zynq-7000的Zedboard平台对该算法进行实现,并采用HLS硬件加速工具进行算法加速.实验结果表明,该算法可实现较精确的手势识别,接受弹性的输入采样,识别正确率在95%以上,且通过硬件加速后,可在嵌入式平台中实时识别,具有较好的实时性.%Firstly,the mixed Gaussian model and ellipse skin color model are used to segment the gesture region and then Kalman filter is used to track gesture,then the center position of the gesture is obtained.On the basis,the center position of each frame is recorded,and then the moving track is gotten.Next,the proposed track template matching method is used for dynamic gesture recognition.This method uses the basic geometric features to complete the setting and recognition of the trajectory of hand gestures,without the need of feature selection or collection of training samples.Finally,the algorithm is implemented on the Zedboard platform based on Zynq-7000 and the HLS hardware acceleration tool is used to accelerate the algorithm.The experiment results show that the proposed algorithm can achieve more accurate gesture recognition and accept flexible input sampling.The recognition rate is more than 95%,and it can be real-time recognized by the embeddedplatform after the hardware acceleration.So the algorithm has better real-time performance.【期刊名称】《单片机与嵌入式系统应用》【年(卷),期】2017(017)007【总页数】6页(P39-43,46)【关键词】轨迹模板匹配;卡尔曼滤波;椭圆肤色模型;硬件加速【作者】王浩宇;漆晶;方天恩;刘德庆【作者单位】重庆邮电大学移动通信技术重庆市重点实验室,重庆 400065;重庆邮电大学移动通信技术重庆市重点实验室,重庆 400065;重庆邮电大学移动通信技术重庆市重点实验室,重庆 400065;重庆邮电大学移动通信技术重庆市重点实验室,重庆 400065【正文语种】中文【中图分类】TP391.4随着科技的发展与进步,计算机与嵌入式技术也随之迅猛发展,当前,嵌入式技术朝着更高速、更高效、并行化、更高可靠性方向飞速发展的同时,也向着更自然、更简洁、更舒适的人机交互领域阔步前进。
基于模型的三维双手姿态估计研究
基于模型的三维双手姿态估计研究在人机交互领域中,双手姿态估计是一项重要的任务。
它指的是通过图像或传感器捕捉到的手部运动信息,利用计算机算法还原手的三维姿态及其运动状态。
基于模型的三维双手姿态估计研究,就是利用建立的模型进行手部姿态的估计和识别,以实现更加精准、快速地手势控制。
一、简介在传统的手势识别技术中,通过分析手的形状、拇指位置、手指长度及相对位置等参数,来判断手势的种类。
但是这种方法存在的问题是,难以准确识别手势的动态特征,如手指的弯曲、旋转等。
而基于模型的方法,通过将手的三维形态建模,将手势识别转化为模型参数估计,有效解决了这个难题。
二、建模方法基于模型的三维双手姿态估计方法,主要分为两类:线性模型和非线性模型。
线性模型主要包括PCA、LDA、ICA等方法。
它们基于数据空间的分析,通过矩阵变换的方式将手的三维形态转化为低维空间,然后通过这个低维表示来实现手势的识别。
这种方法的优点是计算简单、速度快;缺点则在于模型的拟合能力较弱,对于手的姿态变化范围较大的情况表现不佳。
非线性模型则采用更加复杂的模型来表示手的形态,如高斯混合模型、神经网络、支持向量机等。
这些方法的优点是准确度较高,具有较强的拟合能力;缺点则在于计算量大、时间复杂度高,需要消耗大量的计算资源。
三、数据集和算法构建基于模型的三维双手姿态估计系统,需要依靠大量的数据集和算法。
数据集主要包括手部运动数据、手部形状数据、手部运动轨迹数据等。
其中,手部运动数据是通过传感器得到的,可以反映出手的运动方向和速度等信息;手部形状数据则是通过图像处理技术得到的,能够反映出手的姿态和形态等特征;手部运动轨迹数据是通过手部运动数据和形状数据的结合得到的,能够表示手的运动过程。
算法方面,基于模型的三维双手姿态估计涉及到多种算法,如特征提取、分类器设计、优化算法等。
在特征提取方面,可以采用局部特征、全局特征、关节运动特征等方式,将手的三维形态信息转化为可靠的低维表示。
基于轨迹模板匹配的动态手势识别方法
s e l e c t i o n o r c o l l e c t i o n o f t r a i n i n g s a mp l e s . Fi n a l l y , t h e a l g o r i t h m i s i mp l e me n t e d o n t h e Z e d b o a r d p l a t f o r m b a s e d o n Z y n q 一 7 0 0 0 a n d t h e
us e d t o t r a c k g e s t u r e, t h e n t he c e nt e r po s i t i on of t h e ge s t ur e i s ob t ai n e d. On t he b a s i s, t he c e nt e r pos i t i o n o f e a c h f r a me i s r e c or de d, a n d t he n t he m ov i ng t r a c k i s go t t e n. Ne xt , t h e p r o po s e d t r a c k t e mp l a t e ma t c h i ng me t ho d i s us e d f o r dy na mi c g e s t ur e r e c og ni t i on. Th i s me t ho d
利用轨迹模板匹配方法的实时动态手势识别
利用轨迹模板匹配方法的实时动态手势识别彭露茜;姚加飞【摘要】利用混合高斯模型进行运动检测,分割出运动前景,采用粒子滤波器结合皮肤椭圆模型进行手势跟踪,获得手势中心点运动轨迹,在此基础上提出利用轨迹模板匹配方法进行动态手势识别.该方法利用基本的几何和三角函数就能完成手势运动轨迹的定义和识别,不需要选择特征或训练样本.实验结果表明,该算法能够实现实时动态手势识别.%The Gaussian mixture model is used to segment the motion foreground.A particle filter anda skin ellipse model are used to track the motion of the center of the gesture.Based on this,the dynamic gesture recognition is proposed using the track template matching method.This method can use the basic geometric and trigonometric functions to complete the recognition of the trajectory of the gesture,without selecting features or training samples.The experiment results show that the algorithm can achieve real-time dynamic gesture recognition.【期刊名称】《单片机与嵌入式系统应用》【年(卷),期】2017(017)008【总页数】4页(P17-20)【关键词】轨迹模板匹配;动态手势识别;皮肤椭圆模型;粒子滤波器【作者】彭露茜;姚加飞【作者单位】重庆大学输配电装备及系统安全与新技术国家重点实验室,重庆400044;重庆大学建筑设计研究院【正文语种】中文【中图分类】TP391.4手势识别作为新型人机交互方式之一,成为一项越来越重要的热点研究内容。
基于高斯混和模型与Blob分析的人手定位
@ 2 0 1 3 S c i . T e c h . E n g r g .
基于高斯 混和模 型与 B l o b分析的人 手定位
张瑜 慧 吴 江梅 孙 莹 刘 海朦
( 宿迁学院 , 宿迁 2 2 3 8 0 0)
摘
要
在基 于机器视 觉的手势识别研究 中, 手势分 割 与定位 是关键 技术 。在分 析肤色 的颜色特 征和人 手运 动特 性 的基 础
1 肤色检测
肤 色是 人 体 最 为 显 著 的特 征 之 一 。在 人 手 区 域定 位 中 , 可 以通 过人 手 的颜 色 信 息 实现 粗 略 的定
2 0 1 3年 6月 2 5 日收到 图 1 是视频中的某一帧
图像 , 图 2为本 文算 法 实 现 的肤 色 检测 结 果 。虽 然
个R G B颜色空间( R , G , 日 ) 表示下 的像素点在( y , c r ) 空 间的值可 以通过下 面 的转换关 系得 到 :
,
Y =0 . 2 9 9 O R +0 . 5 8 7 0 G+0 . 1 1 4 0 B
( 1 )
Cb = 一0 .1 6 8 7 R 一0 . 3 31 3G + 0 . 5 0 0 OR +1 2 8
处 理 。E — m a i l : 4 1 2 0 1 9 9 @q q . c o m。
2 基于高斯混合模型的运动 目标检测
当前运 动 目标 检 测 技 术 可 分 为 三 类 : 光流法 、 帧差 法 和 背 景差 法 。其 中光 流 法 要 求 相 邻 图像 之
科
学
技
术
与
工
关键词 肤色 区域检测
手势分割
高斯混合模型
基于Hu矩和支持向量机的静态手势识别及应用(1)
more attention and more research in static
hand gesture recognition.
KEY
WORDS:Hu
Invariant Moments
Support Vector Machine
Static Hand
Gesture
Recognition
Hand Completeness Checking
STAT I C HAND GESTURE RECOGN l T l 0N AND
I TS APPL l CAT l 0N
BASED ON Hu MOMENTS&SUPPORT VECTOR MACH I NE
ABSTRACT
Recently,more and more interface based
System is satisfactory.
paper
puts forward
a
new algorithm for static
gesture recognition based
on
Hu
moments and SVM according to their specific
characteristics.This
1.1手势识别的研究背景
整个社会的计算机化为我们带来一种新的交互方式,这就是人机交互 (Human.Computer IIltemctionll21。人和计算机的交互界面的发展,经历了一开始的 以键盘为主要工具的文本用户界面和后来的以鼠标为主要工具的图形用户界面 f3J。今天,虽然人机交互仍主要是通过键盘和鼠标进行,然而这些需要操纵硬件
based
on
VC dimension
CNN联合BI-LSTM混合模型的手势识别算法
of pictures to solve the lack of s o m e gestures in the pictures,and finally the classification w a s completed. T h e recogni tion rate w a s u p to 94. 6 % at the speed of 46. 36 f •s_l on the National University of Singapore h a n d Posture Data set. This m e t h o d has higher recognition rate a n d stronger robustness than traditional algorithms,which effectively alleviates the problem of low recognition rate caused by missing part of gesture im a g e s .
R e L U )[12]是 R e L U 的 变 体 ,其参数由一个超函数在所
有 输 入 元 素 上 生 成 ,并 且 将 全 局 上 下 文 编 码 到 超 函 数 中 ,相 应 地 调 整 分 段 线 性 激 活 函 数 。D Y - R e L U 激活
函数公式如下:
yc= ms^ k{acxc+ bkc)
假 设 训 练 图像的大小为W •//。图 像 的 面 积 S = W -//。将 擦 除 矩 形 区 域 的 面 积 随 机 初 始 化 为 S ,,其 中 S / S 由 最 小 S , 和 最 大 S h 范围指定。在 r, 和 r2 之 间 随 机 初 始 化 擦 除 矩 形 区 域 的 高 宽 比 ,设定为
手势识别及其在人机交互系统中的应用
手势识别作为最自然的交互方式之一,在人机交互上有着很高的应用价值。基于单 目 RGB 摄像头实现手势识别具有设备简单、成本低廉的优势,因而,增强单目 RGB 摄 像头手势识别方法的鲁棒性和快速性,将其用于人机交互中,有着很好的前景。
本文旨在研究在单目 RGB 摄像头下的手势检测方法、手势跟踪方法、动态手势识 别方法和指尖点识别方法,并针对手势的特点,对相关方法做出改进,将其应用于人机 交互系统中。本文工作主要分为以下四个方面:
II
4) Human-machine interaction in aerial handwriting: Firstly, the functional requirements and program framework of the software system are introduced. Then, according to the requirement analysis of each functional module of the software, the corresponding design scheme is given. Finally, the results of software data acquisition, data annotation and aerial handwriting are given. Keyword: Gesture detection; Gesture tracking; Dynamic gesture recognition; Fingertip point recognition; Human-computer interaction;
1.2.1 目标检测研究现状 .......................................................................................... 2 1.2.2 目标跟踪研究现状 .......................................................................................... 6 1.2.3 手势识别研究现状 .......................................................................................... 7 1.3 论文章节安排 ............................................................................................................. 9 第二章 单目 RGB 摄像头下的手势检测方法 ..................................................................... 11 2.1 基于肤色建模的检测方法 ....................................................................................... 11 2.1.1 肤色建模检测 ................................................................................................ 11 2.1.2 肤色建模方法实验分析 ................................................................................ 13 2.2 基于机器学习的检测方法 ....................................................................................... 14 2.2.1 相关特征 ........................................................................................................ 14 2.2.2 机器学习检测方法 ........................................................................................ 16 2.3 基于深度学习检测方法 ........................................................................................... 19 2.4 检测精度 mAP.......................................................................................................... 21 2.5 一种融合 GMM 肤色检测和 ELM 分类器的手势检测方法 ................................ 22 2.5.1 基础技术原理 ................................................................................................ 23 2.5.2 融合 HSV 和 YCrCb 色彩空间的 GMM 肤色模型 .................................... 24 2.5.3 基于 GMM 肤色检测和 ELM 分类器的手势检测方法 ............................. 28 2.5.4 实验对比和分析 ............................................................................................ 30 2.6 本章小结 ................................................................................................................... 32 第三章 单目 RGB 摄像头下的手势跟踪方法 ..................................................................... 34 3.1 运动目标检测 ........................................................................................................... 34 3.1.1 运动目标检测 ................................................................................................ 34 3.1.2 运动目标检测方法实验分析 ........................................................................ 37 3.2 基于机器学习的目标跟踪方法 ............................................................................... 40
基于Gan-St-YOLOv5的复杂环境下的手势识别
机交互中运用先进图像识别技术的手势识别取得
标、小目标的检测能力和检测框的精准度与准确
了突破性进展ꎬ精确度、准确度作为手势识别进行
度ꎬ通过本文模型与 YOLOv5 对比分析ꎬ结果验
人机交互的标准直接影响了人机交互的效率ꎬ在
证了本文在目标检测中的可行性.
工业生产中ꎬ人机交互的环境可能非常复杂ꎬ其中
可能存在遮挡、强光照、远距离小目标等复杂情
GAN) ꎬ并结合 Swin Transformer 和 YOLOv5ꎬ通过
GAN 对特征损失的图片进行重构[7 - 11] ꎬ将重构图
片输入到 Swin Transformer 和 YOLOv5 结合的模
型中进行目标检测ꎬ加入了 SENet 注意力机制及
近年来ꎬ随图像识别算法不断更新迭代ꎬ使人
Confluence 检测框选取算法ꎬ提高了特征损失目
用 CNN - SPP 进行手势识别ꎬ提供不同大小的输
域:未损坏区域、损坏区域. 给定 Input feature 和
networks ̄spatial pyramid poolingꎬ CNN ̄SPP) ꎬ 使
入ꎬSPP 可以生成固定长度的特征ꎬ实证结果表
明ꎬCNN - SPP 优 于 其 他 深 度 学 习 驱 动 的 实 例
东北大学学报( 自然科学版)
954
显得尤为重要ꎬ手势识别作为一种人与人之间的
交互方式ꎬ具有高效性、自然性、多维性ꎬ通过手势
传递信息ꎬ计算机通过图像识别接收信息ꎬ使人和
计算机之间的信息传递近似于人与人之间实时的
沟通交流ꎬ提高了工业的交互效率
第 44 卷
成 对 抗 网 络 ( generative adversarial networkꎬ
基于人脸先验知识和混合高斯模型的手势检测
基于人脸先验知识和混合高斯模型的手势检测作者:李加力来源:《消费电子·理论版》2013年第01期摘要:手势检测是时下人机交互的热点。
针对现在手势检测系统中的设备较为昂贵复杂,本文设计了一个采用普通摄像头采集图像,利用人脸先验知识来进行肤色建模和肤色分割,提取出图像里的肤色区域,然后利用基于混合高斯模型的方法去除背景检测手势的方法。
该方法检测成功率高,适用于手势检测系统。
关键词:手势检测;人机交互;肤色分割;混合高斯模型中图分类号:TP391 文献标识码:A 文章编号:1674-7712 (2013) 02-0045-02一、引言人际交互技术最近几年得到人们越来越广泛的关注。
手势,作为一种自然直观的人际交流方式,现已成为一种热门的人机交互方式。
一个基于视觉的手势识别系统主要包括手势采集、检测、识别等部分。
要检测到手,首先需要进行有效的手势分割。
手势分割是指将手势图像从复杂背景中分割出来,仅保留手势部分。
手势分割的好坏也将直接影响整个手势识别系统的效率。
目前有许多图像分割的方法,有基于简单的肤色阈值分割法[1],有的用k-means聚类分割图像[2],有的采用混合高斯进行图像分割的[3],但至今任何一种分割算法都有它的局限性和针对性。
实践表明,要提高图像分割效果的途径是将一些分割算法组合起来形成一个系统,根据图像的特点,分层次有针对性地使用不同的分割算法。
本文中,作者采用了普通摄像头作为输入来采集图像,设计了一个基于人脸先验知识和混合高斯模型的方法来进行手势检测。
本文说明了该方法的系统结构,并在Linux下运行了该检测系统,并成功进行手势检测,检测率高。
二、系统结构(一)系统方案图1为本文的系统流程图,采集到图像以后,利用人脸检测提取肤色信息,对图像进行肤色检测判断是否为肤色区域,并用图像平滑和图像形态学的方法对手势图像进行图像预处理,实现图像的肤色二值分割;同时,对图像进行混合高斯建模去除背景,提取出前景区域,若同时为前景区域且是肤色区域则可以判定为人手或人脸区域,又因为前面已检测到人脸区域,因此可排除干扰,定位出手势区域。
一种融合视觉不变矩参数表征的动态手势识别方法
一种融合视觉不变矩参数表征的动态手势识别方法
文政颖;王旭辉;于海鹏
【期刊名称】《智能计算机与应用》
【年(卷),期】2021(11)12
【摘要】为了提高对连续帧变换下动态手势的识别能力,本文提出一种基于融合视觉不变矩参数表征的动态手势识别方法。
采用图像处理和视觉融合分析技术进行特征采集和信息预处理,通过匹配滤波检测方法,实现动态手势图像的增强和滤波检测,去除干扰分量,提高图像的空间分辨率。
根据图像信息融合分布检测,建立动态手势特征分析模型,采用高分辨的特征变换和模糊度检测方法,实现动态手势特征参数检测分析,提取动态手势图像的模糊特征分量;采用空间轮换变换方法,实现动态手势的不变矩特征检测,融合视觉不变矩参数表征方法,实现动态手势的参数检测和识别。
仿真结果表明,采用该方法进行连续帧变换下动态手势识别的精度较高,识别性能较好,对动态手势特征点的标记能力较强。
【总页数】5页(P7-11)
【关键词】视觉不变矩;参数表征;动态手势识别;图像处理;连续帧变换
【作者】文政颖;王旭辉;于海鹏
【作者单位】河南工程学院软件学院;河南工程学院计算机学院
【正文语种】中文
【中图分类】TP391.41
【相关文献】
1.一种基于不变矩和最小范数分类的图像识别方法的研究
2.一种基于组合不变矩的新的舰船图像目标识别方法
3.一种基于多区域不变矩的步态识别方法
4.一种基于不变矩和BP网络的目标识别方法
5.一种基于不变矩和SVM的图像目标识别方法
因版权原因,仅展示原文概要,查看原文内容请购买。
基于高斯混和模型与Blob分析的人手定位
基于高斯混和模型与Blob分析的人手定位
张瑜慧;吴江梅;孙莹;刘海朦
【期刊名称】《科学技术与工程》
【年(卷),期】2013(013)031
【摘要】在基于机器视觉的手势识别研究中,手势分割与定位是关键技术.在分析肤色的颜色特征和人手运动特性的基础上,提出了一种在视频图像序列中实现手势分割和定位的算法.首先结合肤色检测技术和基于高斯混合模型的运动目标检测技术,获得了图像序列的初始手势区域;之后利用Blob技术实现了最终手势的分割和定位.实验结果显示,该方法具有较高的分割和定位准确度.
【总页数】5页(P9371-9374,9385)
【作者】张瑜慧;吴江梅;孙莹;刘海朦
【作者单位】宿迁学院,宿迁223800;宿迁学院,宿迁223800;宿迁学院,宿迁223800;宿迁学院,宿迁223800
【正文语种】中文
【中图分类】TN911;TP391.41
【相关文献】
1.基于高斯肤色模型与Blob算法的人脸检测 [J], 李岚;张云
2.基于高斯校正模型的MDS-MAP定位算法 [J], 胡良梁
3.基于贝叶斯算法与高斯混和模型的语者确认研究 [J], 胡海波;傅鹂;向宏;周元;刘晓艳
4.基于高斯混合模型最大期望聚类的同时定位与地图构建数据关联 [J], 阮晓钢;张
晶晶;朱晓庆;周静
5.基于高斯模型的无线传感网络质心定位算法 [J], 王全有
因版权原因,仅展示原文概要,查看原文内容请购买。
基于HR-MANO的手姿态动作识别算法研究
基于HR-MANO的手姿态动作识别算法研究
张睿敏;杜叔强;刘博宇
【期刊名称】《陕西理工大学学报:自然科学版》
【年(卷),期】2022(38)6
【摘要】利用改进的端到端学习目标检测算法对普通摄像头拍摄的RGB视频图像中的手部目标进行检测。
在检测时将特征映射函数重新定义,使其满足特征图谱具有高分辨率并且将图像转为特征图谱的卷积层足够深的条件,使用交叉熵损失作为分类损失函数。
利用HR-MANO对手部姿态动作进行3D估计和识别,将手部的标准mesh由一个平均mesh替代,在MANO算法模型之前增加了HRNet和ResNet网络。
实验在FreiHAND数据集上进行,结果表明算法模型优于其他方法,能够对手姿态动作进行有效识别。
【总页数】8页(P38-44)
【作者】张睿敏;杜叔强;刘博宇
【作者单位】兰州工业学院计算机与人工智能学院;西安科技大学计算机科学与技术学院
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于深度学习模型的表面肌电信号手势动作识别算法研究
2.基于姿态估计与GRU网络的人体康复动作识别
3.基于姿态校正与姿态融合的2D/3D骨架动作识
别方法4.基于深度学习和姿态驱动下特征集成的视频人体动作识别方法5.基于轻量化二维人体姿态估计的小样本动作识别算法
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在处理时间框架下的连续数据时, 该模型是一种有 3] . 然 效的手势识别工具, 这已经被很多研究证明 [ 而 HMM 计算的复杂程度随着状态数目和特征向 4] , 庞大的计算量制 量维度的增大而成比例增加 [ 约着 HMM 的广泛应用. 较新的识别算法中, 动态 时间规整( dynamic time warping , DTW) 可以在识 别正确率和计算量之间做出很好的平衡, 吸引了众 [ 5 7] . 然而 DTW 是一种用户依 多研究人员的关注 赖的识别算法, 即目标用户必须亲自训练系统, 否 则系统识别率会下降很多. 最新的研究中, 研究人 员开始深入挖掘手势数据自身的特点, 而不完全依 赖于复杂的模型, 这种基于特征提取的算法可使计 算量和识别时间大幅减少, 同时保证较高的识别 [ 8 9] , 特别适合于以人机交互为目的的手势识别. 率 手势识别研究普遍以提高识别率和识别速度 为焦点, 在采集手势命令数据时, 要求用户必须严 格以固定方式握持加速度采集设备, 以排除用户不 同握持姿势引起的数据变化. 但在实际应用中, 这 会严重影响用户的舒适性, 也不符合 “ 机器适应 人” 的 交 互 理 念. 本文通过使用混合高斯模型 ( Gaussian mixture model,GMM) 实现非固定握持 姿势的手势识别, 以提高手势交互的用户体验. 首 先通过 GMM 从加速度传感器数据中提取用户握 持姿势信号, 然后借助握持信号实现手势命令数据 提取与坐标转换, 使识别系统能够自适应不同的握 持姿势. 为使 GMM 可以同时满足手势识别应用中 对稳定性和适应速度的要求, 优化了 GMM 的学习 机制, 包括增加备则模态和改善优先级计算.
Abstract:In most gesture recognition researches,participants are asked to hold the data collecting device in fixed position strictly,which causes poor user experience.To solve this problem,an en hancement algorithm based on the Gaussian mixture model ( GMM)is presented.It can achieve ges ture recognition with unfixed holding position and improve the interaction comfortability.First,the holding position information is abstracted from raw acceleration data by the GMM.Then the coordi nate transformation is conducted and the gesture operating information is separated with the holding position information.To meet the requirements for stability and recognition speed,the parameter up dating strategy of the GMM is improved by adding backup component and optimizing the priority consideration.The experimental results show that when the roll angle and the pitching angle are be tween - 60 ° to + 60 ° , the yaw angle is between - 20 ° to + 20 ° , the holding position has no signifi cant impact on recognition accuracy.So the gesture recognition algorithm is improved without fixed holding position,thus achieve better user experience. Key words:gesture recognition;Gaussian mixture model;user experience 手势是通过肢体, 特别是手部的运动来完成明 确的可识别动作. 手势识别是指将这些动作分类和 1] . 作为一种本能自然的表 理解这些动作的过程 [ 达方式, 手势可以简化交互过程, 使人机交互愈发 [ 2] 自然. Popa 甚至预言更加贴近自然的交互方式 正在被发掘, 并且逐步取代着传统的交互方式. 键 盘、 鼠标和操纵杆会消亡, 至少被语音识别、 触摸 屏、 手势识别及一些其他系统所补充完善. 早期手 势 识 别 算 法 中, 隐性马尔科夫模型 ( hidden Markov model, HMM) 受到最广泛的认可.
基于混合高斯模型的非固定握持姿势手势识别
王 原 汤勇明 王保平
( 东南大学电子科学与工程学院, 南京 210096 )
摘要:针对手势识别研究中普遍要求用户以严格固定方式握持数据采集设备, 致使用户体验差 的问题, 使用混合高斯模型( Gaussian mixture model, GMM) 对非固定握持姿势的手势识别算法 进行改进, 以提高手势人机交互时的舒适性. 首先通过 GMM 从加速度传感器数据中提取用户握 持姿势数据, 然后借助握持信号实现手势命令数据提取与坐标转换, 使识别系统能够自适应不同 的握持姿势. 为使 GMM 可以同时满足手势识别应用中对稳定性和适应速度的要求, 优化了 GMM 的学习机制, 包括增加备则模态和改善优先级计算. 实验结果表明, 所述系统在滚转角和 俯仰角 + 60 ° ~- 60 ° 、 偏摆角 + 20 ° ~- 20 ° 范围内, 握持姿势对手势识别正确率没有明显影响, 实现了非固定握持姿势的手势识别, 起到了提高用户体验的作用. 关键词:手势识别; 混合高斯模型; 用户体验 中图分类号:TM39 1 . 4 文献标志码:A 文章编号:1001 - 0505 ( 2014 ) 02 0239 05
GMM 最常见的应用之一是提取视频背景, 以 作为检测运动的前景. 在手势识别中, 用户握持设 备的信号可以看作背景, 手势命令信号可以看作前 景. 以加速度传感器三轴读数为特征值建立 3 组 作为 GMM, 3 组 GMM 的总体期望组成向量 AGMM, 用户握持设备信息. 前景信号为传感器实时读数与 背景信号之差, 即 AGMM ( 9) A= Areal - A 为手势命 式中, Areal 为加速度传感器实时读数; 令信号. 设 A 沿用户坐标系三轴分量分别为 AX, AZ ,AZ 为 A 在 AGMM反方向的投影, 即 A Y, A·AGMM AGMM AZ =- ( 10 ) AGMM AGMM 将 AX + AY = A- AZ 记为 AY = a hx x + a hy y + a hz z ( 11) AX + 根据能量守恒
收稿日期: 2013 09 27 . 作者简介:王原( 1986 —) , 男, 硕士生; 汤勇明( 联系人) , 男, 博士, 研究员, tym@ seu. edu. cn. 基金项目:国家高技术研究发展计划( 863 计划) 资助项目( 2012 AA03 A302 ) 、 高等学校学科创新引智计划资助项目( B07027 ) . 239 引用本文:王原, 汤勇明, 王保平. 基于混合高斯模型的非固定握持姿势手势识别[ J] . 东南大学学报: 自然科学版, 2014 , 44 ( 2) : [ doi: 10 . 3969 / j. issn. 1001 - 0505 . 2014 . 02 . 003 ] 243 .
C
2
2
2
U =∑ w k u k
k= 1
( 8)
Байду номын сангаас
2 GMM 的应用与改进
2. 1 GMM 的应用 本文中坐标系设置如图 1 所示, Z 轴垂直于水 平面, Y 轴指向用户.
1 GMM 基本原理
10 ] 混合高斯模型 [ 是用高斯概率密度函数精确 地量化事物, 将一个事物分解为若干基于高斯概率 密度函数形成的模型, 其中每一个高斯概率密度称 为模态. 若某变量 x 服从高斯分布, 则其概率密度 函数为 2 1 ( x -u) exp - ( 1) N( x; u, )= σ 2 2σ 2π σ 槡 式中, u 为期望; GMM 采用若干个模 σ为标准差. 态进行加权, 表示变量的概率密度函数 P 为
2 40
东南大学学报( 自然科学版) 第 44 卷 分布, 如新值满足模态 i 的分布, 则对模型中各模 态进行如下更新: ( 1 -α ) w k, k =i t- 1 +α ( 3) w k, t = k≠i ( 1 -α ) w k, t- 1 α ( 4) pi = w i, t- 1 u i, 1 -ρ ) u t -1 +ρ xt ( 5) t =(
Gesture recognition with unfixed holding position based on Gaussian mixture model
Wang Yuan Tang Yongming Wang Baoping
( School of Electronic Science and Engineering ,Southeast University,Nanjing 210096 ,China)
第 44 卷第 2 期 2014 年 3 月
东 南 大 学 学 报 (自 然 科 学 版 )
JOURNAL OF SOUTHEAST UNIVERSITY ( Natural Science Edition)
Vol. 44 No. 2 Mar. 2014