人机交互的新进展

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

人机交互的新进展

刘强

摘要:本文阐述了人机交互的概念和地位,分析了当前人机交互领域的一些进展情况。

关键词:人机交互;识别技术;感知;融合;Virtual Reality(虚拟现实);

1 人机交互的概念和地位

人机交互,简单来说,就是人类与计算机交流互动。两者之间有这样一个传导链:通过人机接口技术,使人能够与计算机发生联系;而计算机则通过一种界面,使人能了解联系后的效果。

人机交互是计算机系统的重要组成部分,是当前计算机行业竞争的焦点,它的好坏直接影响计算机的可用性和效率。计算机处理速度和性能的迅猛提高并没有相应提高用户使用计算机交互的能力,其中一个重要原因就是缺少一个与之相适应的高效、自然的人-机界面。人机交互是未来IT的核心技术,也是目前国际上计算机科学研究领域中的一个热点。随着计算机在人们日常生活和工作中的作用越来越大,人机交互技术变得越来越重要。

2 人机交互的现状

目前,在国际上人机交互研究的内容主要包括以下几个方面:单一模式的识别技术研究;多模式人机交互技术研究;多感知信息的融合机理研究等。其中,最重要的是多模式人机交互技术研究和多感知信息的融合机理研究。

2.1 多模式人机交互

多模式人机交互实际上是人与人之间的交互的模拟。它的目标是将人与人之间的自然交互方式移植到人与计算机的交互中,即将人的各种行为通过键盘、鼠标、麦克风及摄像机等转换成计算机能感知到的位置、运动及听觉、视觉等信息。感知过程是人机交互的基础,但其实现也是非常困难的。特别是视觉感知部分尚未很好地得到解决,在处理诸如人体感知、手势识别、表情识别等感知行为时,目前的技术尚处于实验室研究阶段。

多模式人机交互的研究主要包括以下几个部分:

2.1.1语音识别技术

通过语音与计算机交互是人机交互过程中最自然的一种交互方式,也是未来最被看好的人机交互方式。目前,在此领域内可用的技术包括:语音识别、自然语言理解、自然语句的生成及自然语言对话等。语音识别的研究工作可以追溯到20世纪50年代贝尔实验室的Audry系统,此后研究者们逐步突破了大词汇量、连续语音和非特定人这三大障碍。目前,国内外已经出现了一些商业化的产品,比如语音识别在身份确认上的应用,准确率已经达到99%,一句“芝麻开门”打开房门已经不是传说。

2.1.2手势识别技术

在人与人之间的交互过程中,手势一般是伴着语音同时进行的。在语言交流存在困难的情况下,手势的理解是非常重要的。而在大部分场合下,手势是对语言交互的补充。比如,我们在介绍一个物体的模糊的大小时,往往要利用手势。在人机交互过程中,手势分为两种:一种是基于笔输入的二维手势,另一种是真正用手作出的三维手势。目前比较常用的是基于笔输入的手势,这是因为这种手势的识别处理相对容易一些。而三维手势,由于计算机视觉技术存在的困难,目前实用化的系统不多。有些系统虽然采用了三维手势技术,但大多是利用数据手套完成的。而这一方面系统成本较高,另一方面,交互起来也不自然。最近,在ieee的模式识别与机器智能杂志上,连续发表了几篇有关三维手势的识别研究,他们采用的方法主要有隐马尔可夫模型(hmm)及彩色petri网模型。

2.1.3人脸识别技术

表情是人类交流信息的一种重要手段。因此,表情识别可以大大增强计算机的友好程度,提高其智能感知水平。另外,人脸的方向、人眼的跟踪都表达着交互的信息。视点的变化既能反映心理活动,又能反映注意方向,正所谓眼睛是心灵的窗户。通过视点跟踪,可以检测目光在屏幕上的所及之处,并作出恰当的响应。这尤其可帮助某些行动不便的残疾人使用计算机。因此,有关人脸的研究,在新一代人机交互中非常重要。相应的

研究内容主要包括:人脸的检测与定位、人脸的识别、人脸表情的识别、脸部特征定位、人脸的跟踪、眼睛注视的跟踪以及人脸的三维重建等等。所有这些问题都没有完全解决。国际上有许多研究机构在从事人脸的研究工作,这其中包括美国几所著名的大学,如mit、cmu、sri等。

2.1.4动作识别技术

动作识别是一项正在发展中的技术,在很多方面都可得到应用,如可穿戴式计算机、隐身技术、浸入式游戏以及情感计算(一种可对人类的情感进行侦测、分类、组织和回应的系统或应用,可以帮助使用者获得高效而又亲切的感觉)等。过去大部分动作识别系统重点分析的是脸部和手部的动作,不过现在,研发人员也开始将关注点转移到身体姿势、步态和其他行为举止上来。这一研究方向对三维人体的重建及虚拟现实的研究有着重要的意义。

而体感技术的突破,让我们看到离开键盘、鼠标的希望。玩网球、钓鱼这些游戏时,游戏者要像真打网球那样挥舞手柄。这就是2006年日本任天堂公司推出的家用游戏主机Wii。通过加速度感知与光学定位,Wii遥控器可以准确掌握玩家手持控制器的一举一动。动作识别系统也开始进入医疗领域,医生无需触碰键盘或者屏幕就可以操控数字影像。

2.1.5触觉交互技术

触觉交互已成为人机交互领域的最新技术,其可借助人的触感,产生一种虚拟现实的效果。触碰可以产生多种不同的感受,包括轻碰、重碰、压力、疼痛、颤动、热和冷,因此人工模拟这些感受的方式也各异。

触觉交互技术已经开辟了多种可能的应用领域,包括虚拟现实、遥控机器人、远程医疗、工作培训、基于触觉的三维模型设计等。而在电子商务方面,触觉交互也能够发挥重要作用。比如,顾客在网上购买服装之前,可以先感知一下衣料的质地,然后再做决定。

2.2 多感知信息的融合

多功能感知的最后输出是对用户的智能感知,因此还需要对各个识别结果进行总的融合。多感知信息的融合是指将各种感知通道所产生的输出信息以一定的方式加以联合、相关和组合,以产生高层的决策行为。认知科学的研究表明,人类的信息加工过程是在多个层次上进行的,而且,在每个层次上都存在多个信息源。近年来,多媒体计算机的迅速崛起,虽然提供了多媒体信息处理的可能性,但是就当前发展的现状,仍处于独立媒体的存取;编辑及媒体间的并合水平,尚未涉及多媒体信息的综合处理。实际上从单媒体走向多媒体,它可能发生的作用决不应该是它们间的量的简单合并,而应该是一种质的根本飞跃。多媒体信息处理为研究更接近于人类大脑认知加工过程的信息处理过程提供了一种可能。

多功能感知过程的融合是综合各个不同的通道,提高各个通道的输入准确程度,形成相对完整的用户输入,最终形成对用户输入的智能感知。比如,人与人之间交互时,我们在听对方的语言,又注视着对方的眼睛,还观察对方的手势等。我们在作出反应前,是综合所感知到的各种信息,最终在大脑中加工形成一系列清晰的概念。

由于多功能感知是多通道信息输入过程,其主要功能是正确识别各个感知通道的输入,经高层模块处理后,形成对输入的统一理解。所以,就融合的方式看,可以分为两个方面。第一、将融合过程应用到各个识别过程中,以形成一个高可信度的目标识别信息。第二、对各个识别结果经过判断、比较,并应用相应的知识、规则进行推理,最终形成一个合理的感知结果。目前,由于人工智能领域中的技术难点,特别是自然语言理解的进展困难,第二方面的融合还不能达到一个令人满意的结果,这方面的工作往往集中在对命令系统的形成上。国外对相应的多通道界面技术的研究是近年来迅猛发展的热点。

3 Virtual Reality(虚拟现实)

虚拟现实技术是仿真技术的一个重要方向是仿真技术与计算机图形学人机接口技术多媒体技术传感技术网络技术等多种技术的集合是一门富有挑战性的交叉技术前沿学科和研究领域。虚拟现实技术丰要包括模拟环境、感知、自然技能和传感设各等方面。模拟环境是由计算机生成的、实时动态的三维立体逼真图像。感知是指理想的VR应该具有一切人所具有的感知。除计算机图形技术所生成的视觉感知外,还有听觉、触觉、力觉、运动等感知,甚至

相关文档
最新文档