基于手势识别的人机交互综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于手势识别的人机交互综述
摘要:近年来,得益于虚拟现实、人机界面技术、计算机视觉等领域的发展,基于手势识别的人机交互技术得到大力的推动。本文就基于手势识别的人机交互技术展开综述。首先概括手势交互的涉及领域,回顾其发展史和国内外研究现状。接着阐明它的基本界定和分类,并在此基础上分析其热点关键技术。然后实例讨论了几种类型手势交互的典型应用。最后给出了结论。
关键词:虚拟现实;手势交互;计算机视觉;手势识别;特征跟踪
1.引言
人机交互技术通过输入、输出设备,以有效的方式实现交互主体与交互客体的对话。当前的人机交互技术已经从过去交互主体适应交互客体,发展为交互客体不断地适应交互主体的习惯和以交互主体为中心的新阶段[1,2,3,4]。以用户为中心的,新型、自然的人机交互技术逐渐成为开发者和科研工作者的关注重点。这类交互方式要求输入与输出能够最大限度地符合交互主体的行为习惯,并能够在交互主体的脑中顺利构建交互环路。由于手势具有极强的信息表述功能,加之人手操作行为本身就是人与世界相互作用的主要方式,因此,基于手识别的人机交互技术相关研究有着重要的理论价值和应用价值。基于手势识别的人机交互技术涉及计算机科学、认知心理学、行为学等诸多方面的知识。本文不能面面俱到,仅就手势交互的基本问题:手势语义的分类,以及当前发展概况、研究热点技术和典型系统应用等相关问题进行综述。
2.研究现状
目前,基于视觉的手势交互已被广泛的研究,由于手势本身的多义性及时空差异性,加之手形变的高维度及视觉问题本身的不适定性,基于视觉的手势识别一直是一项极富挑战性的究课题[5]。需要解决的核心问题是对手形的识别,对手势的跟踪等。传统的方法主要分为两大类:(1)基于模型(model-base)的方法;(2)基于表征(appearance-based)的方法[6]。这些方法及其衍生算法极大程度地依赖于计算机科学中虚拟现实、机器视觉、模式识别、人机交互等多个领域的交流与合作。相关的国际会议:CHI、ICCV、CVPR、ICAT、IEEE VR 为研究者提供了一个能充分交流的空间,并吸引了越来越多的研究人员共同参与合作。此外,学科之间的交流也吸引了心理学研究人员的共同参与。他们以从用户为中心出发,为基于手势交互研究和开发提出了宝贵意见[7]。纵观手势交互的发展历程,其研究重点也从早期简单的系统框架、低层特征提取[8]、手形模板匹配[8]等问题转变到关节式物体跟踪[9,10, 11]、跟踪性能评价[12]、操作型手势解析[14]等问题上。我国在基于手势识别的人机交互领域的研究近年来得到了长足的发展。研究机构集中在国内的研究所和高校的科研单位。目前国内手势交互的研究成果主要有:中国科学院软件研究所[15]的研究中,对二阶自回归过程动力学模型(Auto-Regressive Process, ARP)进行训练和学习,进而建立基于ARP 的预测模型,实现了人手运动的鲁棒性跟踪,在出现跟踪丢失的情况下在后续序列中可以自动恢复正确跟踪。中国科学院自动化研究所模式识别实验室提出一种基于区域的多连接体(手指)的三维运动跟踪算法[13],用多约束融合的方法以及手指的运动特性,建立多刚体的三维运动描述,通过三类基本约束条件,把跟踪问题归结为一个约束误差优化问题。清华大学的崔锦实博士,提出一种基于回归-优化方法的关节式物体的姿态估计方法[16]。该方法把回归分析与全局优化搜索相结合,保证了估计的精度和连续性;针对现有滤波器在高维非线性多峰
跟踪问题上的困难,将粒子滤波器与全局搜索算法的演化粒子滤波器方法相结合,提高了高维跟踪的精确度。其他高校与科研单位也做出了不少优秀的工作与关键的贡献。
3. 关键技术
首先区分手势识别中的两个重要概念:手形(hand posture)与手势(hand gesture)[17]。手形,是以手的一个特定姿势表示一个语义。而狭义的手势,则是以手在时间轴上的连续位置构成的轨迹代表一个语义。简单来说,我们可以理解手势为一段时间轴上连续的手形。有的研究者也使用广义的手势涵盖这两个概念,即静态手势和动态手势,在这种理解下,手形也是一种特殊的手势。对静态的手形进行识别,与对连续的手势进行跟踪,是手势识别中的关键问题。
3.1 手势交互的分类
对手势的交互语义进行分类和界定,是手势交互的重要问题,是深入手势交互研究的基础工作,界定工作涉及人机界面、行为学、认知心理学等多个领域。对于手势交互语义的分类,Pavlocvic.等人发表在1997 年PAMI 的文献[18]有着指导意义。他们从行为学角度出发,将手的动作分为两类:无意识动作与手势;进而从认知心理学的角度,对实际生活中包含交互语义的手势再进行细分。首先,将手势分为通信型手势与操作型手势。通信型手势如手语,是一种天生的交互工具,具有强大的信息表述功能,借用到人机交互领域的此类手势交互正被广泛地研究。而操作型手势,如在真实环境中对物体的操作,则作为人的一种自然行为,并不专为人机交互的应用而生,然而随着以用户为中心的人机交互研究的进一步深入,这类更贴近自然行为的交互方式具有深远的理论与应用价值,在虚拟现实和增强现实中具有极高的应用潜力。接着,通信型手势又被分为符号与动作。符号表示事先约定的语义,进一步被分类为指代型符号和模式型符号,指代型符号如“V 手形”字表示胜利,“W 手形”表示OK 等,通常是一种静态手势;模式型符号,如耸肩,摊手,挥手等,常用来表示某种情绪。动作则通过连续的手形表达语义,包括模仿型动作和指示型动作,模仿型动作如手握方向盘驾驶的交互操作;指示型动作如手指指示方向等交互操作等。具体分类方法见图1。纵观整个问题领域,我们发现针对通信型手势的研究,发展地比较成熟。其原因在于,一方面通信型手势天然的信息表达与交互优势,另一方面也在于这类方法实现起来的相对简单。而操作型手势作为更加自然的手势交互模式,由于涉及到的识别问题与跟踪问题更加复杂,所以发展相对滞后。目前尚处于亟待开发的状态。
3.2 手形的识别
对手形的识别,基于表征的方法分为两个层次:(1)图像特征的提取,(2)语义特征
的提取。基于模型的方法则通过搜索匹配模型,获得手形的语义。
3.2.1 基于表征的方法
基于表征的方法直接从观察到的图像推算出手势,需要计算的参数包括图像的几何信息、手掌和手指的位置信息、轮廓边界信息等。目前来看,较之基于模型的方法,此类方法缺乏通用性,但优点在于速度快,能够满足实时应用的需求,具有较强的实用性。这类问题主要涉及图像处理的系列操作,属于对手势低层次特征的提取。在低层次特征被提取之后,可以由此分析得到包含手形语义的高层次信息,从而实现手形识别。与手势识别相关的图像处理算法中,实时目标分割算法主要有肤色检测和背景减法(BGS)。肤色检测算法优点是速度快,在运动摄像机的情况下也可以分割出人手前景,缺点是易受环境影响,应用领域单一。操作型手势交互并不排除手持简单物体(小棒,笔等)对虚拟目标进行交互,在此情况下