基于红外传感器和隐马尔可夫模型的动态手势识别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于红外传感器和隐马尔可夫模型的动态手势识别
施向军;王星尧
【摘要】非接触式手势控制交互识别作为一种人机交互的新型技术,摆脱了传统的人机设备限制,更符合人际交流习惯.从其实现原理来看,非接触式手势控制交互识别有多种实现,有基于摄像头的识别,也有基于体感遥控的手势识别.采用了基于红外传感器的动态手势识别,其基本实现原理是利用4个定向二极管来感知反射的红外线能量,然后将该数据转换为4个方向的距离信息.对于如何从距离信息识别手势,一般多采用动态时间规整、人工神经网络以及隐马尔可夫模型HMM(Hidden Markov Model)等模式匹配算法.HMM是一种随时间变化的信号模型,具有自动分割和分类能力,适合进行动态手势识别.通过HMM对传感器输出的4个方向距离信息进行训练识别,经过多次试验及调整,使得对于5种手势的识别率平均都达到了75%以上,并且随着手势训练数据的增加,识别率会随之提高.
【期刊名称】《电子器件》
【年(卷),期】2018(041)005
【总页数】5页(P1286-1290)
【关键词】手势;隐马尔可夫模型;红外传感器;模式识别
【作者】施向军;王星尧
【作者单位】南京新港中等专业学校,南京210046;东南大学信息科学与工程学院,南京210096
【正文语种】中文
【中图分类】TP391;TM206
人类的姿势信息包含一系列身体,脸部表情或手势的运动,这之中手势是最具表现力且被最频繁使用的身体表达方式[1-3]。

在本篇论文中,我们将一些特定的手势运动定义为有意义的人体姿势信息,让计算机识别这些特定的手势并通过这些手势与计算机进行交互。

从离散点数据流确定有意义的模式被称为模式识别[4]。

手势识别作为模式识别一个实例,对手势的起始点和终止点的判断对于手势识别模型的建立至关重要。

由于信号具有切分歧义性以及时空变异性,动态手势识别中的端点检测具有相当大的难度,易在手势的切分中产生误差致使手势模型建立以及最终识别产生偏差[5]。

切分歧义问题在动态手势识别中主要是指如何在动态持续的手势轨迹中判断手势的起始和结束点[6]。

当两个手势交替,手一般会交替过程中产生一个间隔移动。

在不知道手势界限的前提下,与需识别手势相关的模式必须与所有输入手势信号可能的切分段相匹配。

在这种情况下,手势过渡动作有可能会被误认为有意义的手势。

另一个难点在于相同的手势其最终产生的离散点信号在形状和间隔上是动态变化的。

一个理想的识别器能够从持续的输入信号中提取相应手势的切分段并能够容许时空变异性产生的误差,将切分段准确匹配到对应的动态手势模型,最终让计算机能够准确翻译出手势产生的信息。

近年来,HMM吸引了众多研究者的注意力,将其运用在离散时序信号的模型建立中[7]。

本文采用红外测距传感器采集手势行进轨迹中手与传感器东南西北4个方向的距离信息,最终产生4维的离散时序信号,这与语音输入有一定的相似性,而随着HMM在语音识别领域的成功,不少研究者尝试将该模型应用到手势识别领域。

本文以手势过程中生成的时序离散距离信息为观测序列建立了HMM模型,并优化了手势的端点提取和观测值的计算。

1 动态手势识别系统框架
动态手势识别系统框架如图1所示。

手势识别模块的大体目标不仅是手势的识别,更重要的是不同手势的模型建立[13]。

最终通过大量手势距离信息训练得到的HMM手势模型必须要有普适性,即能够识别非训练集中的相同手势。

因此在数据准备过程中,需要分别采集20组手势数据作为测试数据,每组数据为一个手势。

同时每种手势采集连续50次手势距离信息用于HMM模型训练。

图1 动态手势识别系统框架
由于HMM是基于统计的概率评价模型,所以训练过程中手势数据的预处理非常重要,每一步都会关系到最终模型建立的普适性和识别的准确性。

本文对动态手势距离信息的预处理重点在手势的端点检测和手势切分上,同时对HMM模型隐状态数量的选取和参数的优化也直接关系到模型训练的代价和最终识别的效率。

2 背景
2.1 数据预处理
动态手势数据一共分为东南西北4个方向,记录的是4个方向手距离传感器的时间联系的距离数据。

为了方便隐马尔科夫模型进行训练,我们将原来四维数据压缩成一维,并且通过前后差分编码减少每个隐状态下观察的标志位数量。

具体办法是,将4个方向的数据进行前向差分,大于5的置为2,小于-5的置为0,其余位于-5和5之间的置为1,进行3进制编码。

最终将观测序列的观测值范围限定在1到81。

该数据预处理的方式的缺陷是会对手势信息造成一定的损失,但节省了HMM训练的成本,加快了识别速度。

2.2 端点检测与手势切分
端点检测[9]原是语音识别和语音处理的一个环节,也是语音识别研究的一个重点领域。

本文采用的基于手与传感器之间距离信息的动态手势识别方法产生的信号为时
序信号,其对手势划分与语音信号中滤掉静音成分,提取有效语音非常相似。

在语音
信号的处理中,端点检测常用方法有:能量阈值、基音检测、频谱分析、倒谱分析及LPC(Linear Prediction Coefficient)线性预期系数等。

其中基于能量和过零率的双门限判决法最为常用。

本文采用双门限判决法[9]对手势数据进行端点检测。

在开始进行端点检测前,要为短时能量和过零率分别确定两个门限。

一个是较低的
门限,其数值较小,对信号变化敏感。

另一个是较高门限,信号数值必须达到一定强度才能被超过。

实现基于能量与过零率的端点检测算法步骤如下:
(1)计算所有动态手势发生时生成的时序信号的平均能量:
(1)
(2)计算每一个时刻手势信号的过零率,得到短时过零率:
(2)
式中:
(3)
(3)根据手势信号的平均能量设置一个较高的门限T1,用于确定手势的开始,然后再
根据背景噪声的平均能量确定一个较低的门限T2,用于确定第1级中的手势结束点。

其中T2=α1EN,En为噪声能量的平均值。

第2级判决根据背景噪声的平均过零率ZN设置一个门限T3,用于判断手势信号前端动作开始的距离信息和尾端动作结束
的距离信息。

2.3 隐马尔科夫模型
隐马尔可夫模型是一种统计模型,用来描述一个含有隐含未知参数的马尔科夫过程
[7-8,11]。

其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来做进一步的分析。

结合HMM的建模思想,对于动态手势识别中的每一类手势,我们使用从左到右型隐马尔科夫模型(Left-Right HMM)对其进行建模。

在该模型中我
们假定一个初始状态和一个终止状态,中间的隐状态数量作为模型参数,如图2所示。

图2 动态手势模型示例
对于HMM来说,有如下3个重要假设:
(1)马尔科夫假设(状态构成一阶马尔科夫链):
P(Xi|Xi-1,…,Xi)=P(Xi|Xi-1)
(4)
(2)不动性假设(状态与具体时间无关):
P(Xi+1|Xi)=P(Xj+1|Xj)
(5)
(3)输出独立性假设(输出仅与当前状态有关):
P(O1,…,OT|X1,…,XT)=∏ P(Ot|Xt)
(6)
一个HMM可用一个5元组{N,M,π,A,B}表示,其中N表示隐藏状态的数量,可以是确切的值,也可以作为参数被设置;M表示可观测状态的数量,可以通过训练集获
得;π={πi},i∈[0,N-1]为初始状态概率;A={aij},i∈[0,N-1],j∈[0,N-1]为隐藏状态的
转移矩阵P(Xt(i)|Xt-1(j));B={Bj(k)},j∈[0,N-1],k∈[0,M-1]表示某个时刻隐藏状态
下可观测的值得概率P(Ot(i)|Xt(j)),i∈[0,M-1],j∈[0,N-1],即混淆矩阵。

在状态转移矩阵和混淆矩阵中的每个概率都是时间无关的,即这些矩阵不随时间改变。

对于一个N和M固定的HMM来说,可以用λ={π,A,B}表示HMM参数。

由于A,B,π是概率矩阵,所以他们必须满足一下限制条件:
∑jaij=1∀i且aij≥0
∑kbj(k)=1∀j且bj(k)≥0
∑iπi=1且πi≥0
在HMM中有3个典型问题:
(1)已知模型参数,计算某一给定可观察状态序列的概率;
(2)根据可观察状态的序列找到一个最可能的隐藏状态序列;
(3)根据观察到的序列集来找到一个最有可能的HMM。

在动态手势识别中,手与红外传感器的距离信息为观测序列,通过解决上述问题3得到每一种手势的HMM。

在训练出相应模型之后,通过解决问题1,计算未知动态手势数据输入后,其观测序列在每种手势HMM下的概率。

2.4 Baum-Welch算法
Baum-Welch算法也称前向后向算法,是对HMM学习问题的一个近似的解决办法,算法旨在解决已知观测序列O=(o1,o2,…,oT)的情况下,估计模型参数λ=(A,B,π),使得在该模型1观测序列P(O|λ)最大。

由于状态序列未知,因此可以看做是一个含有隐变量的参数估计问题。

EM算法是解决这类问题的经典算法,而Baum-Welch算法就是EM算法在HMM学习中的具体体现[12]。

Baum-Welch算法的参数学习过程可以表达为以下3个参数重估公式:
(7)
(8)
(9)
式中:γt(i)为后验概率,ξt(i,j)为t时刻为状态i并且t+1时刻为状态j的概率,即
γt(i)=P(qt=i|O,λ)
(10)
ξt(i,j)=P(qt=i,qt+1=j|O,λ)
(11)
利用前向变量αt(i)和后向变量βt(i),式(10)和式(11)可以表示为:
(12)
(13)
根据重估式(7)~式(9)对HMM参数进行迭代更新,最终得到HMM模型的一个最大似然估计。

需要注意的是根据Baum-Welch算法得到的最大似然估计是一个局部最优解。

3 HMM动态手势模型训练及识别
3.1 HMM训练动态手势
本文设定5种动态手势,分别为向左划,向右划,向上划,向下划4种基本手势以及之后加入的顺时针画圆的不规则手势,以检测不规则手势对识别效果的影响。

对5种手势分别采集手在运动过程中与红外传感器的动态距离信息,收集每种手势20组数据首尾相连作为动态手势训练数据。

在动态手势隐马尔可夫模型训练过程中假定HMM隐状态数为6,由于数据预处理中将距离信息做三进制编码,所以观察标志数为81(0~81),训练模型算法为Baum-Welch算法。

3.2 模型测试
由于在采集手势信号过程中相同手势要连续划动20次,为了避免在采集手势信号的过程中手的运动模式受时间的影响,对于4种基本手势,我们提取不同时间段的手势数据作为训练数据。

第1种手势用第1~5组数据作为训练数据,第2种手势用6~
10组,第3种手势用11组~15组,第4种手势用16组~20组。

4种手势的测试
结果工作特征曲线如图3 所示。

图3 4种基本手势模型的工作特征曲线
当增加训练样本,从25%增加到50%后,ROC特性曲线有明显的改善。

如图4所示。

采集上下左右加顺时针圆圈的手势数据后的ROC特性曲线如图5所示。

图4 降低训练样本到5%后手势模型工作特性曲线
图5 加入顺时针画圆后手势模型的工作特性曲线
4 结果分析及结论
当训练样本占到所有样本的25%时,4种基本手势的识别率有着很大的差别。

其中
第3类和第4类基本手势识别效果较好,二者平均识别率达到95%,但第1类手势
的识别效果一般。

当增加训练样本,使训练样本达到总样本的50%时,识别效果得到明显改善。

上述结果表明隐马尔可夫模型可明显区分出不同组手势的数据,但训练数据需要恰
当和尽量全覆盖,如果训练数据不足,虽然能区分但会导致判别门限的选取难度增加。

本文提供了基于手与传感器的距离信息通过HMM训练识别动态手势的方法,该方
法不仅能有效识别出简单的动态手势,对于一些不规则手势,例如本文所测试的顺时
针画圆手势,也展现了良好的识别效果,说明基于红外传感器和HMM的动态手势识别方法对于不规则的手势也具有不错的相容性。

参考文献:
【相关文献】
[1] Maggioni C. A Novel Gestural Input Device for Virtual Reality[C]//Proc IEEE Virtual Reality Ann Int’l Symp,Seattle,Wash,1993:118-124.
[2] Vaananen K,Boehm K. Gesture Driven Interaction as aHuman Factor in Virtual Environments—An Approach with Neural Networks,”Virtual Reality Systems,Earnshaw R,Gigante M,Jones H,et al. chapter 7,Academic Press,1993:93-106.
[3] Davis J,Shah M. Visual Gesture Recognition[[C]//IEEE Proc Visualization and Image Signal Processing,1994,141(2):101-106.
[4] Rose R C. Discriminant Wordspotting Techniques for Rejection Non-Vocabulary Utterances in Unconstrained Speech[C]//Proc IEEEInt’l Conf. Acoustics,Speech,and Signal Processing,San Francisco,1992(2):105-108.
[5] Baudel T,Beaudouin-Lafon M. CHARADE:Remote Controlof Objects Using Free-Hand Gestures[J]. Comm ACM,1993,36(7):28-35.
[6] Rokade-Shinde R,Sonawane J. Dynamic Hand Gesture Recognition[C]//International Conference on Signal and Information Processing(IConSIP),IEEE,2016:1-4.
[7] Huang X D,Ariki Y,Jack M A. Hidden Markov Models for Speech Recognition[M]. Edinburgh:Edinburgh Univ Press,1990.
[8] Rabiner L R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[C]//Proc IEEE,1989:77:257-285.
[9] Shen J,Hung J,Lee L. Robust Entropy-Based Endpoint Detection for Speech Recognition in Noisy Environments[J]. ICSLP. 1998,98:232-235.
[10] 路清起,白燕燕. 基于双门限判决的语音端点检测方法[J]. Electronic Sci and Tech,2012:1-25.
[11] Eddy S R. Hidden Markov Models[J]. Current Opinion in Structural
Biology,1996,6(3):361-365.
[12] Baggenstoss P M. A Modified Baum-Welch Algorithm for Hidden Markov Models with Multiple Observation Spaces[J]. IEEE Transactions on Speech and Audio Processing,2001,9(4):411-416.
[13] Suk H I,Sin B K,Lee S W. Hand Gesture Recognition Based on Dynamic Bayesian Network Framework[J]. Pattern Recognition,2010,43(9):3059-3072.。

相关文档
最新文档