情感计算——人机交互技术新前景
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
情感计算——人机交互技术新前景
摘要:情感在人类的认识和人机交互中起着关键性的作用.具有情感能力的计算机就是让计算机能够在和人类相处时更有智能、更为敏感和更为和谐和亲切。情感研究的进展与展望如何,情感计算的应用等都将是本文探讨的内容。
关键字:情感计算人机交互应用展望
一、情感计算的发展与展望
情感计算研究的提出最早可以追溯到20世纪90年代初,耶鲁大学心理系的Salovey教授提出了情感智能的概念,开展了一系列的研究。该概念随后被Goleman发展为与智商(IQ)相对的情商(EQ),并随着Goleman的畅销书而迅速流行,在心理、认知、计算机等领域掀起了一个研究情感智能的小高潮。MIT的Picard教授根据这些新的概念和研究方向,于1997年出版了《情感计算》一书,希望赋予智能机器感知、理解和表达情感的能力。
进入新世纪以后,特别是近年来,随着普适计算、人本计算、社会计算等概念和研究方向的提出,自然的人机交互日益成为各研究领域的研究内容和目标,情感计算也自然地成为各学科共同关注的热点、焦点。中国国家自然科学基金委也不失时机地支持了“情感计算理论与方法”的研究。
情感计算从本质上,是一个典型的模式识别问题。智能机器通过多种传感器,获取人的表情、姿态、手势、语音、语调、血压、心率等各种数据,结合当时的环境、语境、情境等上下文信息,识别和理解人的情感。在实际的自然交互系统中,智能机器还需要对上述信息作出及时的、恰当的、情感化的反应。情感之间距离的定义和计算方法是情感计算的核心问题,例如需要定义和计算“微笑、笑、大笑、狂笑”之间的距离,以便把它们分别聚类,从而使系统能够识别出不同程度的笑。遗憾的是,目前情感计算的研究还只能对情感进行粗分类,即识别7种典型的情感。
目前,我国在情感计算这一领域的研究主要在人脸识别。这一方面是因为人脸表情容易获取,易于分析处理,其成果具有重要的应用前景等;另一方面,也反映了情感计算研究的一个普遍的问题,即尽管人类是通过表情、语言、动作等
各种信息的融合,识别和理解情感,但是,当前多模态情感数据获取、分析、融合、识别和理解,以及情景等上下文信息的融合依然是情感计算研究中富有挑战性的课题。实现具有情感反馈的自然的人机交互是情感计算研究的最终目标,这需要在上述情感理解的基础上,研究人类情感反馈和表达的机制,建立模型。
目前国内的研究成果已有基于已有的情绪模型,提出了虚拟人的认知结构,建立了一种新的基于动机驱动的自主情绪模型。清华大学戴振龙的论文则介绍了一种人脸表情的合成方法,能够生成具有细微表情动作的虚拟说话人。可以看出,这方面的研究在国际上依然是自然交互领域的一个新兴的方向,面临着许多挑战性的问题,具有广阔的发展前景。
二、情感计算的具体研究内容
根据情感计算的过程.可将情感计算的研究内容分为以下九个方面:情感机理、情感信息的获取、情感模式识别、情感的建模与理解、情感的合成与表达、情感计算的应用、情感计算机的接口、情感的传递与交流和可穿戴计算机。
从人类情感的交流过程来讲,情感计算的研究可分为四步:通过传感器直接或间接与人接触获得情感信息:通过建立模型对情感信息进行分析与识别;对分析结果进行推理达到感性的理解;将理解结果通过合理的方式表达出来。也就完成了情感交流的全过程。
根据上述过程,情感计算的研究内容主要应包括:情感信号的获取、情感信息的分析与识别、情感信息的理解和情感的表达。
情感信号的获取现在主要通过一些采集输入设备提取人的面部表情、语音语调和肢体动作,也就是特征提取。此外通过测量人的一些生理反应包括心率、血压的舒张压和收缩压、脉搏、瞳孔扩大、呼吸、皮肤导电、荷尔蒙胆汁的分泌以及皮色和体温等用于情感状态的识别理解。
情感信息的分析和识别主要是对所提取到的信息进行预处理、模式分类。
情感信息的理解就是根据上一步的分类结果和数据库中的模板进行比对判断。把所提取到的情感以最大概率确定出来,然后合成表情。
情感的表达就是把上一步理解的结果呈现出来进行交互。在这四个方面的研究中情感的识别和合成是目前的关键部分,也是我们研究的重点。
三、情感模型的描述语言
智能型计算特性大多采用无所不在的分布式计算模型,因此使用者状况及环境等情境数据有多方的来源.而系统所推导出的情感模型,也需要通过网络传递到其它有兴趣的模块。因此如何建立外显的情感模型描述语言,并通过适当的网络协议将情感状态完整表达并传递出去,是一个重要的研究课题。目前大部分的情感模型描述语言都是虚拟人体描述语言的一部分。以下就几种包含情感标记的人体描述语言作进一步的说明。
AML(Avatar Markup Language)是一种基于XML的多形式脚本语言.设计的重点之一是希望它可以容易地被动画师了解.也可以容易地由软件产生。AML 将脸部动画和肢体动画封装在一个附加同步化信息的表示法中。例如,在MPEG 4标准中.定义了一套关于脸部和身体的低阶动画参数,但并没有提供任何对于代理人的高阶控制方式。在此环境下的系统,中介层(Middleware Layer)显得特别有价值.它提供智能型的软件代理人可以轻易控制三维空间的图像表现,而不需要担负每次产生所有低阶设定的重担,3D内容制作者因此能简易快速地制作与分享丰富的代理人动画,AML的作用就是充当这一中介层。
CML(Character Markup Language)是一种基于XML语言的动画语言,为代理人的结合与在线应用软件或虚拟世界提供帮助。CML使用由上而下的方式,分开描述动作跟虚拟人的功能制定.角色动作、模型和语音定义在一个设定档,将情感等虚拟人的状态定义在另外一个设定档,定义角色特质、情感和行为等高阶属性.整合这些高阶属性,产生具备同步能力的动画脚本。而新的或者未被指定的行为可以由调和基本元素或属性形成。提供开发者一个具有弹性的动画语言。
VHML(Virtual Human Markup Language)是一个逐步形成标准且基于XML 的语言,主要控制银幕上的虚拟人。使用VHML的虚拟框架是结合很多技术提供对网站拟人般的互动。VHML对每个型式提供子语言,如GML用于姿势、SML 用于说话、BAML用于身体、FAML用于面部;也提供比较高阶的子语言,如EML用于表情、DMML用于对话。以此实现使用者和虚拟代理人的互动简易化。
PAR(Parameterized Action Representation参数化行为表示)。PAR认为要表示一个行为,构成的要素应当包括行为的核心语义(状态变化、运动、力量)、行