自然人机交互技术研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

自然人机交互技术研究

摘要：人机交互(Human-Computer Interaction,HCI)是研究人、计算机以及它们间相互作用的技术。人机交互的功能主要依靠可输入输出的外部设备和相应的软件来完成。该领域的发展使得人机交互愈加趋于方便和自然化，并且随之产生了多种类型的人机交互模式。在现在的3D游戏市场上，人机交互领域已经出现了很多成熟的产品，如苹果的iPhone和微软的kinect，它们普遍具有方便灵活且人性化的用户操作模式，为人们的生活带来了很大的便利。

本文主要是对微软kinect的研究，并在此的基础下提出一种能识别手指运动的简单系统。该系统以两个普通CMOS摄像头作为图像采集接口，实时采集用户做出的各种手势图像，利用计算机双目视觉技术，实现了一个三维空间内的多手指点检测、定位和识别的系统，结构比较简单、容易实现、成本较低，在三维鼠标等方面有着较大的应用前景。

关键词：人机交互，kinect，深度获取，手指识别

摘要............................................................................................................. I

1 项目需求的分析 (1)

2 项目的国内外研究现状 (2)

2.1国内研究现状 (2)

2.2国内研究现状 (3)

3 项目的研究内容 (4)

4 项目研究内容的技术路线 (5)

4.1微软kinect介绍 (5)

4.2 手指手势的识别 (7)

4.2.1双摄像头的标定 (8)

4.2.2手势分割和指尖检测模块 (10)

4.2.3指尖三维重建模块 (12)

5 项目讨论 (13)

1 项目需求的分析

自世界上第一台电脑诞生以来，人类就没有停止创造更好的人机交互方式。从具有悠久历史的键盘，鼠标，到最新的WII，Kinect等体感游戏，人机交互技术随着科技进步不断发展。从上世纪70年代至今，国内外无数的研究者和小组投入到人机交互技术的研究中。自然，便携，智能化，无侵入性是人机交互系统的发展方向，也是国内外研究者所关注的焦点。人机交互系统从交互方式上可分为语音交互系统、基于接触式传感器的交互系统和基于视觉的交互统。早期的智能人机交互系统使用语音识别系统或数据采集设备来进行交互。使用语音方式进行交互，效率较低，且受环境的影响较大，在嘈杂环境中性能急剧下降，而且也不易于实现多人交互系统。基于接触式传感器的交互系统，通常依赖于在人体设置一定数量的传感器，通过自主操控，或是采集神经信号来发出操纵指令。这种方法设备成本高，不易携带，且对用户造成侵入性，用户体验不好。基于计算机视觉的交互系统，通常是利用图像采集设备获取图像或视频，进行后续图像分割，目标检测跟踪，行为识别等操作，从而获取人的意图，通过各种显示设备进行反馈。由于其使用方便，无任何侵入性，交互方式多样，从手势到表情、瞳孔，甚至肢体语言，都可以成为交互手段，而且硬件成本低，基于视觉的人机交互系统成为国内外研究的热点。

随着我国经济的高速发展，国民生活水平的持续提高，人们的生活压力也在不断增大，缺乏锻炼是不容忽视的问题。人们特别是游戏者们越来越希望自然逼真的人机交互技术，从而能够在游戏时以最快的速度和最方便的方式完成对游戏角色控制。通过身体的移动跳跃还可以一边游戏一边锻炼身体，两全其美，因此可以得到广大游戏者们的喜欢和推广，如图1.1和图1.2所示。

如何让广大普通电脑用户感受多输入和灵活自由的人机交互，成为众多电脑厂商下一步需要考虑的目标，也是人机交互发展领域的一个比较有挑战性，新的研究领域。

图1.1 图1.2

图1.1 微软Kinect 体感游戏，对人体建模，无需接触即可操控游戏中的人物；

图1.2 诺基亚Plug&Touch 系统，在移动设备上实现了基于视觉的人机交互系统，可以用手势控制任意屏幕中的显示

2 项目的国内外研究现状

本系统它是一种3D体感摄影机，同时它导入了即时动态捕捉、影像辨识、麦克风输入、语音辨识、社群互动等功能。主要可以运用于体感游戏中，玩家可以通过这项技术在游戏中开车、与其他玩家互动、通过互联网与其他玩家分享图片和信息等。

2.1国内研究现状

国内在人机交互技术的研究方面主要有一些高校研究机构和一些大公司。浙江大学计算机学院，利用计算机双目视觉技术，实现了一个三维鼠标，以及以手指指尖为基础的三维手势交互游戏系统，如图2.1所示。该系统通过在线的肤色检测算法结合混合高斯背景相减法进行手势前景分割，通过手掌轮廓凸包以及缺陷属性实现多指尖检测，之后重建指尖位置，获得指尖运动速度的参数信息，实现了一些基于指尖手势的简单三维游戏。爱动体感运动机（如图2.2所示）是深圳泰山科技在线科技有限公司联合泰山体育产业集团、中国科学院历经数年，耗资过亿，研发出全球领先的计算机视觉识别技术。可以实时捕捉目标（用户）的空间位置和运动轨迹，以每秒60针的速度，高速采集运动目标的信息，精确跟踪一厘米运动位移，同时能根据运动模型精确反映运动的速度和加速度信息，全

面地反映人体的运动特征，并结合自主研发的动作模型库，将目标（用户）的动作行为特征实时输出给相关系统，并结合运动项目软件的开发最后实现在线运动。

图2.1 手掌面模拟飞机驾驶的游戏

图2.2 爱动体感运动机

2.2国内研究现状

国外在人机交互技术的研究方面起步较早，也有了比较大的研究成果。美国国防高级研究项目署在1997年设立了以卡内基梅隆大学为首、麻省理工学院等高校参与的视觉监控项目VSAM(Visual Surveillance And Monitoring)，主要研究内容是基于视频内容的人体动作理解技术，应用于战场或商业场景。实时视觉监控

系统不仅能够实现人体定位和身体各部位的识别，而且可以通过建立外观模型来实现多人的跟踪，并可以检测判断人是否携带物体等简单行为。麻省理工学院多媒体实验室在单目视觉的条件下，利用空间特征点和头部统计模型，采用扩展的卡尔曼滤波器的方法(EKF，Extended Kalman Filter)实时跟踪人体头部姿态。

而到目前为止，已经出现了通过摄像头的方式进行人机交互最成熟也最方便智能的产品—微软于2010年11月推出的kinect（图2.3），它主要用于互动游戏中（图2.4），通过一个功能强大的深度摄像头，以及其他麦克风，传感装置等，采集玩家的各种肢体动作，配以微软强大的图像处理技术，能识别出玩家在游戏中的各种对应动作，形成互动，并且它还能够识别人脸，让玩家自动连上游戏，还可以辨别声音和接受命令等。它利用一种特殊的红外光给需要测量的空间编上码，它的光源打出去的是一种具有三维纵深的“体编码”。这种光源叫做激光散斑（laser speckle），是当激光照射到粗糙物体或穿透毛玻璃后形成的随机衍射斑点，这种散斑具有很高的随机性，会随不同距离变换不同的图案，也即立体空间中任意两个位置的散斑图案都不同，当在空间中打上这样特殊的光后，整个空间相当于被标记起来，在此空间中的某个物体，只需观察物体上的散斑图案，就能够知道此物体在哪个三维位置了。

图2.3 Kinect图2.4 Kinect互动游戏

3 项目的研究内容

人与计算机的交互是一个输入与输出的过程，用户通过交互界面输入指令，计算机将输出有效的呈现出来。输入输出方式的不同导致人机交互模式多样化。实现人机交互最重要的就是“互动”，现在最常用的有四种：

(1)数据互动