多模态表情识别(译文)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多模态的情感识别
近年随着科技的发展,激发了人与计算机之间在以前意想不到的交互形式,除了键盘,鼠标,新的人机交互模式也已经产生了,例如声音,姿势,强力反馈等。

尽管有了重大的发展,但是对于人类交互一个必须的因素仍然还是被遗忘的,这就是情感。

情感在人与人进行交流和交互时扮演着重要的角色,允许人们依靠口头形式来表达自己。

对人类感情能力的理解是值得计算机进行应用的。

这章对人机交互的新的方法进行了探索,能够使计算机更好的理解用户的情感和来关注用户的表情。

我们介绍了在这个领域的基本研究和最近对情感识别的新进展,包括从面部,声音和生理信号来进行研究,不同模式是相互独立的。

我们然后对多模态的感情识别所面临的挑战进行了描述,当融合不同模态的信息时,我们主张用概率图模型来完成。

我们也讨论了获得可靠的情感数据库的困难,获得情感识别的真相及如何使用未标识的样本。

介绍
或许现在电影未探索人类比Blade Runner(一部电影)强的意义是什么。

Tyrell Corporation的格言是―More human than human‖,作为探索人类实验的基础,我们可以通过真正的人,创造的人,或Replicants来进行。

Replicants 是机器人,他们被构造的像人类,可以进行工作或进行战争。

他们开始可以及时的获取情感(和人类十分相象)但是分辨起来十分困难。

伴随着情感,他们开始感觉到压力,他们中的一些人变得十分危险,采取极端暴力的行为来获得自由。

幸运的是,Elden Tyrell 博士,Replicants的创造者,在这些模型中安装了一个内置的安全装置:使它们只有4年的寿命。

(电影的大致内容是:2019年,洛杉机变成乌烟障气的九反之地.人类制造了与真人无异的复制人为人类工作,但当这些复制人有了思想感情时就要将他们毁灭.人造人虽然生性残暴,却对自己只拥有的四年的生命充满着渴望和留恋.人类不允许这些复制品拥有做正常人的权利,所以必须毁灭这些被定罪为"妄图成为人类"的生命.)
从上面的故事我们可以明显的发现对于一个机器(计算机)让它看起来像人(例如,有皮肤,脸盒面部特征,肢体等)是不够的。

有些时候还是需要一些本质的东西:能力的获取或情感的表现。

此外,机器也必须学会识别人脸,理解情感,能够像人一样与它的人类副本进行交流。

机器可能不需要有情感技能,但是人们不可避免它们具有这样的功能,当与人进行交互时,以显示它们的聪明。

真正的达到人机智能交互(HCII)的效果是有争议的,这需要计算机能够自然的与用户进行交互,类似于发生在人与人之间的交互。

例如,如果一个机器与你谈话但是从来不听你的,它就会看起来很讨厌,类似于有个人和你谈话但不听你的,你就会觉得这个人很讨厌。

Reeves and Nass55进行了一些典型的人与人之间的交互实验,将一个人用一台计算机来代替,他们得到的结论是,对于一个智能的交互,必须将基本的人与人之间的问题把握住。

人类彼此之间的交互主要是通过谈话,但是也有通过身体的姿势来强调谈话的某个部分和进行情感表现的。

一个新的交互技术能够平稳的向信息交互来发展,需要通过自然的感知模式来完成,包括看,听,和接触。

在面对面的交流中,人类同时使用了这些信息途径,将他们组合起来,用一个去补充和提高另一个。

交互的信息是大量的压缩的,多模态的形式。

典型的,对于一个会话交互模式它的主要完成的任务是人的信息传递,所以对于视觉,凝视,表情和手势等通常作为辅助信息起着重要的作用,另外例如情感,语气,姿势等也常常起到辅助作用。

但是多种形式的任务和它们
之间的交互仍然可以量化和科学的解释。

需要什么,是人与计算机交流的研究方向,要建立一个面向多模态的―语言‖和―对话‖的框架,使它看起来十分像我们进行交流的框架。

在一些应用中,也许不需要计算机来识别情感。

例如,将计算机嵌入到一个自动取款机或飞机上时,它就不需要识别情感。

但是有些应用中,计算机将扮演一个社会角色,例如―教师‖,―助手‖或者―共事者‖,这就需要提高它们的功能,使它们能够识别用户的情感。

在最近的书中,Picard52给出了一些应用,它有利于计算机对人类情感进行识别。

例如,知道了用户的情感,计算机可以变成一个很好的教师。

带有情感的语音合成比一个单调的语音更令人高兴。

计算机的―Agents‖能够通过用户情感来学习用户的喜好。

其它的应用可以帮助人类用户来监测他们的压力水平。

在临床应用上,识别一个人无法表达的某个面部表情也许能够帮助及早的诊断心理疾病。

心理学者和工程师都同样在努力通过分析面部表情,声音情绪,姿势和生理信号去理解和获得情感。

这个知识能够用来教计算机学会从摄像机中获得的视频图像和从麦克中获得的语音信息中来识别人类的情感。

一个自然的通过多模态的人与计算机之间的双向交互描述如图1所示。

在这个图中,输入计算机的是一个视觉(视频),从视觉,姿势,手势,面部和嘴角的运动来获得。

计算机可以进行姿势识别,手势识别,表情识别和眼睛接触识别等等。

同样的,讲话和声音(音频)通过麦克可以作为语言信息进行传达,也就是超语言信息。

在输出的一面,计算机可以用一个―agent‖——一个动画脸或者是一个拟人的动画身份出现。

这个―agent‖能够通过合成语音与人进行谈话,并在屏幕上显示相应的面部运动和嘴部运动。

即使它们没有明确的在图中表示出来,一些其它的形式,例如触觉或生理信号也可以与视频和音频信号来一起联合使用。

图1:多模态的人机交互
这章的主要目的是探索人机交互的新方法,能够使计算机更好的明白人类用户情感同时进行表达。

特别是,我们集中讨论的问题是将视听作为输入来检测用户的面部表情和声音情绪以及关注程度。

通过―情感表达‖我们能够理解当一些刺激事件发生时人类表现出来的一些表情。

这些包括典型的表情,例如―笑‖表示的是高兴,或者表示喜欢看到的东西。

我们从基本的研究来入手解决这些问题,这些问题包括什么是情感,它们在人与人进行交互时的重要性和人是如何来表现情感的(第2部分)。

这些基本的研究都是为通过计算机自动的进行情感
识别打基础的,并且作为一个模式识别问题来进行研究。

接下来,我们回顾了情感表情识别领域的发展,从面部,语音和生理信号等方面来回顾。

在这里不同的模式处理是相互独立的(第3部分)。

我们也讨论了获得可靠的情感数据库这一难题。

获得情感识别的真相及如何使用未标记样本的(第4部分)。

贯穿本章,我们尝试着对下列问题进行了解答和探索:
●通过面部和声音表现出一个人的情感,偏好和关注程度的线索是什么?
●如何恰当的用这些线索来训练计算机从音频和视频中来识别人类的情感?
●将视听作为联合输入比用单模态作为输入对于情感识别更准确有效吗?
●在实际应用中,两种模态可以分别处理吗?
●如何收集情感表情的多模态数据库和如何进行标识?
●我们能够用标识的小样本数据和未标识的数据来训练模板进行情感表情识别吗?
●要收集什么样的数据?自然的还是人为的?
人类情感的研究
我们只回顾支持本文工作的有关情感的实质是什么?最近的研究提出情感是杂乱的连接着其它功能,例如注意力,感知,记忆,做出的决定和学习等。

这个理论对于计算机去识别人类用户的情感,其它相关联的状态和表情是十分有益的。

在本章,我们集中考虑情感的自然表达形式,特别是在声音和脸部的表达。

2.1 情感的人机交互
在一些重要的HCI应用中,例如用计算机辅助教学,计算机如果能够理解人类的情感或认知状态将是十分有用的。

情感通过视觉,声音或者其它的生物手段来展现。

对于这些情感技能的体现就是什么是―智能‖58,25的一部分。

现在的计算机已经过能够识别很多内容了,例如它说的是什么及其一些扩展,是谁说的。

但是他们完全是在黑暗中的,当说某件事情时没有情感信息。

事实上,无论是在讲话中,还是在视频通讯中,人脸表情,姿势,和手势交流对于人们的感受都是一些重要的数据。

当人机进行交换时,在进行情感传达时,明确的考虑了如何来识别和表达情感。

当发展一个系统的时候,对于情感信息的获得,Bianchi-Berthouze 和Lisetti2定义了3个关键点:化身(进行真实感体验),运动(给它的样本进行映射,体验情感状态),适当的交互(传输情感响应,回应一个识别到的情感状态)。

今天在大多数情况下,如果你进行一个人与人的交互时,用一个计算机来代替一个人,然而它的情感交流就消失了。

此外,人们停止交流——我们已经发现一个人对它的机器表现出愤怒的情绪。

这个问题的产生是计算机在人类发生高兴,生气,感兴趣或厌恶时计算机没有能力来识别。

注意这点,如果一个人忽略这个信息,在我们十分困倦时,继续长时间的胡说,我们不会认为这个人十分聪明。

能够进行情感识别是智能52的主要组成部分。

计算机目前的影响被消弱。

而且,如果我们将一台计算机嵌入到二个或多个人之间(如作为一个沟通的通道),那么相应的情感带宽就可能被减少很多。

Email也许是在电子通讯中常常使用的一种手段,但是当我们的想法被转换为数字媒体进行传输时,所有典型的情绪信息都被丢失了。

因此需要研究一种新的方法通过计算机媒介环境来进行交流。

当前的计算机媒介沟通几乎都比―在那里,面对面‖的情感带宽要低得多。

情感可穿戴的计算机的出现,能够帮助从一个人的生理状态
来感知放大情感信息,但是对于这个改变的一个可能性只是为了进行自然的交流。

2.2 情感的理论
这里有少量的关于情感的定义。

一些情感的理论被提出。

它们的一些观点无法被验证,直到最近当可以对一些生物信号进行测量时才变得可能。

通常,情感是短期的,但是心情却是长期的,性情或者个性也是长期的29。

一个特别的心情可能会持续好几天,性情可以持续几个月或几年。

最后,情感混乱能够使一个人在这样情绪的影响下,将不再能过正常人的生活。

Darwin14指出情感表达是一种行为学的观点,争论是这种表达是从幼年形成的还是存在于成年时期。

在物种起源后,他写了人与动物的情感表达。

依据他的理论,情感表达是与生存息息相关的。

因为,在人们进行交流时,这些非语言的表达与语言交流一样重要。

James28的观点是情感不是起因但是是有影响的。

这种情况出现在我们周围,起因是因为生理信号的改变。

依据James的理论,―一个刺激或一组刺激引起了生理上的唤醒,同时伴随着生理上的变化。

‖Carl Lange在相同的时间独立的提出了类似的理论。

因此这个理论常常被叫做―James-Lange‖情感理论。

Cannon5与James相反,他认为情感是第一感觉,然后通过某个确定的行为表现出来。

尽管有许多理论,但是人们以不同程度的方式来进行表达是显而易见的。

一个最常见的研究任务是对情感的判断——如何能很好的从声音或脸部等信息来进行情绪表达的观测?相关问题是:这些表达了他们正确的情绪吗?他们描述的令人信服吗?人们如何来很好的隐藏它们的情绪?在类似的任务中,研究者通常用两种不同的方法来描述情感。

一种方法是在离散的范畴内标识情感,也就是人们进行判断是要从指定的词汇列表中进行选择,例如,高兴,恐惧,喜欢,吃惊,伤心等等。

伴随着这个方法的一个问题是对于一种刺激可能会产生包含多种混合的情绪,也就是说在选择词汇时也许会受到限制或者要依靠分析来进行选择。

另一种方法是可以采用多种尺度去描述情感。

代替从离散的列表中进行选择,观测者可以在几个连续的尺度下对他们观测到的每种刺激下的印象都做出反应,例如,从高兴到不高兴,关注到漠视,简单到复杂等等。

两个共同的尺度是valence和arousal。

Valence表述的是对刺激做出的反应有正(高兴)和负(不高兴)。

例如,高兴是一个正valence,那么厌恶就是反valence。

另外一个尺度是arousal或者activation。

例如,伤心是一个低的arousal,那么反之吃惊就是一个高的arousal。

这样不同的情感标识就可以在二维空间平面上划分为不同的位置,通过这些可以构建一个2D情感模型31。

Scholsberg62提出了一种三维模型,除了上面两种尺度外,他增加了一种关注和漠视的尺度。

另外感兴趣的主题是研究者如何从观测者那获得这些数据。

一些人采用人为定义的方法来获得,包括请一些专业或非专业的演员进行表演。

一些尝试是通过聪明的手段来引起情感反应。

例如Ekman 用对鼻子施加的压力在观察者的脸上产生厌恶的表情。

一些实验者甚至用泼水或没上子弹的枪来引导测试者表现出吃惊的情绪来,还有一些笨拙的技术人员,用粗鲁的方法来使观测者产生恐惧和生气的情绪26。

显然,这些方法不是获取数据的有效方法。

在学习后表演和自然的表达,Ekman认为这样的表情才是值得信服的。

一个合理的问题必须被考虑,当我们进行多模态情感识别时,有多少信息是脸部的,相对的声音,讲话和身体运动对情绪又做了多少贡献。

一些实验者发现通过脸部表情能够做更为正确的判断,产生一个高的可信度,发现基于全部的视听比基于声音所做出的决定更加可信38,17。

Ekman17发现对面部表情,声音和身体的暗示给出的对应权重是依靠判断的任务和行为发生的条件来产生。

大多数信息的全部问题都是通过―单独‖通道来进行传递的,这样就不可避免的会照成一些误解。

没有证据显示在真实社会中人与人进行交流时,会选择的关注交谈的人的脸,身体,声音或者通过这些渠道进行简单叠加得到的信息。

所以,对行为做出指导中心思想是通过多渠道的沟通来完成。

例如,脸,身体,声音等的一些确定部分是更为自然的,而其他部分更容易监视和控制。

这就使观测者能够有选择性的来关注那些特殊通道甚至是一类特殊的信息。

(例如暗示的情感,诡计或认知行为),这也许需要多个通道。

调查者未探索这种可能性或不同个体关注不同类型信息的可能性。

面向人机交互的情感表达识别
在人与人进行交流时,情感的重要性的证据为进行工程和计算机科学的研究提供了基础,发展了一个自动的方法用计算机来识别情感表达。

作为人机智能交互的一个目标来实现。

大多数研究者用模式识别的方法来完成情感识别。

用不同形式的情感识别模型作为输入。

下面我们回顾一些现有的工作。

3.1. 面部表情识别的研究
从70年代初期开始,Paul Ekman和他的同志们就开始对人类的面部表情展开研究18。

他们发现证据来支持面部表情的普遍性。

这些―普遍的面部表情‖可以表示为高兴,伤心,生气,害怕,吃惊和压恶。

他们研究在不同文化背景下面部表情,发现大多数人的表情和情绪识别都表现在脸上。

然而,他们也对于不同的社会环境下的不同面部表情是通过―显示规则‖来支配的。

例如对于日本人和美国人表现微笑表情时,虽然是对同一刺激做出的反应,但是,日本的观测者更不情愿的表达他们真正的表情。

Matsumoto36提出了第七种普遍的面部表情:轻蔑。

婴儿似乎不需要被教,就能够表现出很宽范围的面部表情,所以认为这些表情是天生的27。

Ekman和Friesen19提出了面部动作编码系统(FACS)用来编码面部表情,这里对于人脸的面部运动可以看作是通过一组运动单元(AUs)来完成的。

每个AU由一些相关的肌肉作为基础。

每种表情可以通过一些Aus的组合来进行表达。

面部表情的编码系统可以通过一组指定规则来手动完成。

它的输入仍然是面部表情的图像,通常是表情的最高峰,这个过程是十分耗时的。

Ekman的工作激发了许多研究人员的灵感,他们对面部表情的分析都采用图像和视频处理的手段来完成。

通过跟踪面部特征和衡量整个面部的运动,他们尝试对不同的面部表情进行分类。

当前对于面部表情分析和识别工作35,65,32,3,56,20,44,33,42,34,43,12,6,10都是用这些―基本表情‖或它们的一个子类来表示的。

在最近关于这方面的研究21,47,48,研究人员把重点都放在了自动的面部表情识别上。

对于面部表情的计算机辅助研究直到90年代才开始。

Mase35用光流(OF)的方法来识别面部表情。

他也是第一个用图像处理技术来进行表情识别的人。

Lanitis等32用可变形状和外观模型来对图像编码,用来进行身份识别,姿势恢复,性别识别和表情识别。

Black和Yacoob3用图像运动的局部参数模型来恢复非刚性的运动。

一旦恢复,这些参数将反馈给一个基于规则的分类器,能够识别六种基本的面部表情。

Yacoob和Davis68通过光流的计算和用类似规则来分类六种面部表情。

Rosenblum 等56也采用区域的光流方法对人脸进行计算,然后应用径向基函数神经网络来对表情进行分类。

Essa 和Pentland20也用基于区域的光流方法去识别表情。

Otsuka和Ohya44首先计算光流,然后计算它们的2D Fourier转换系数,最后用HMM获得的特征向量来进行表情分类。

这个训练系统能够识别六种中的一种,时间接近于实时(大约10Hz)。

此外,他们用跟踪运动来控制一个Kabuki动画系统45的面部表情。

和这个类似的方法,Lien33采用不同的特征来完成。

Nefian和Hayes42提出了一种深入的HMM 方法来进行人脸识别,在DCT系数的基础上采用一组有效的观测向量来完成该识别。

Martinez34介绍
了一种在不同光照条件下的基于正面人脸图像的识别检索方法。

Bayesian方法被采用,发现能够在局部观测和局部特征学习之间建立很好的匹配,同时HMM被发现对于识别也能够取得很好的效果,甚至在学习阶段,一个新的条件与先前的条件不能很好的对应时也能取得很好的效果。

Oliver等43采用底层的人脸跟踪来提取嘴部形状特征,并且用他们作为HMM的输入来完成表情识别系统(能够认可中性脸,高兴,悲伤和张嘴)。

Chen6用一组静态分类器进行表情识别。

Cohen等12对面部表情建立了分类表,有两类组成:动态和静态分类。

静态分类器基于对那一帧的跟踪结果将视频图像中的一帧分为表情中的一类。

在这里,作者用通过脸部跟踪系统得到的12个运动单元作为输入,采用Bayesian网络分类器来完成分类。

同时作者利用的数据包括未标识的数据和标识过的数据10,11。

对于动态分类,他们用了多层的HMM分类器结合时间信息,并且不但允许对一个视频段对应的表情进行分类,类似前面提到的HMM分类器,而且在不采用启发式分割方法的前提下,还能够自动的分割一个任意长度包含不同表情段的序列。

这些方法与普通的认识方法是类似的,他们首先从图像中提取一些特征,然后将这些特征反馈给一个分类系统,最后输出的结果是事先预定的情感分类的一种。

他们的主要不同点在于从视频图像中的特征提取或视频图像到分类情感的处理过程。

视频处理分成二类。

一种是―基于特征的‖,这一类试图检测和跟踪一些特殊的特征,例如嘴角,眼眉等;另外一种方法是―基于区域的‖,在这种方法中面部运动是通过脸上的固定区域来衡量的,例如眼睛/眉毛和嘴部区域。

人们用不同的分类算法来分类这些运动。

在表1中,我们比较了几种表情识别算法。

大体上,这些算法运行的都很好,如Bassili1报道的训练识别率大约是87%。

表1:表情识别算法的比较
与上面描述的分类方法不同的方法,Ueki等65提取AUs,并且用神经网络(NN)来分析情感,用恒等映射网将17种AUs映射到2维空间上,与2D心理情感模型类似。

随后,Morishima39提出了一种3D情感模型,目的是处理两种情感之间的转换,要求与3D心理情感模型62相关。

另外感兴趣的问题是如何将六种基本表情中容易混淆的表情进行分类。

Ekman提出在判别学习中,生气和压恶的表情容易被混淆,害怕和惊讶的表情也容易被混淆。

产生混淆的原因是因为他们共享了许多类似的面部运动19。

惊讶有时候也被错误的认为是感兴趣,但是他们不是相反的一对。

在计算机进行识别研究时,这些混淆是要被观测的3,68,12。

3.2 声音情绪识别的研究
通过声音进行交流我们可有传递不同的信息。

如果我们忽略这些,信息只是说和考虑的只是口头(例如单词)部分,我们也许会错过相关表达的重要部分,我们甚至会完全误解信息所表达的意义。

然而,与这类处理相反的是,最近这方面有了重大的发展,对于有情绪的语音处理还是没有广泛的研究。

从30年代开始,对带有情绪的语音研究比表情识别的研究历史要长很多。

大多数关于带有情绪的语音研究40,9,13,16,30,59,61采用―Prosodic‖信息,他包括声调,持续时间,和语气的强度57。

Williams 和Stevens66研究真实情感语音的声谱图并且与生成的语音进行比较。

他们发现与生成的数据是类似的。

Murray和Arnott40回顾了在人类带有情绪声音方面的调查结果,他们也构建了一个通过规则的合成系统在合成语音时来混合情绪41。

一些人集中研究的是对人类含有情绪的语音的分析一些研究的是识别带情绪语音的能力。

这些研究对于当前的工作都是十分有用的。

对于通过计算机来识别人类带有情绪的语音研究比通过机器来识别表情的研究要少的多。

Chiu 等9从语音中提取5个特征用多层神经网进行分类。

对于20个测试的句子,他们能够准确的标识出三类。

Dellaert等16用17个特征和比较不同的分类算法,及其特征选择方法。

他们对于4类和每类5个演讲者说50个短句进行分类,获得了79.5%的正确率。

Petrushin51对人和机器在讲话中的情感识别进行了对比,获得了类似的识别率(65%左右)。

在他们的研究中,30个人说4个句子,每个句子重复5次,代表一类情绪。

Scherer61完成了一个大尺度的研究通过14个专业演员。

在他的研究中,从说话总提取了29个特征,通过他的研究发现,人类通过纯粹的声音来进行情感识别的正确率大概是60%。

他指出―悲伤和生气最容易被识别,接下来是害怕和高兴,厌恶是最坏的‖。

Chen6提出了一种基于规则的方用来对输入的音频数据进行分类,能将其分为下列几类情绪:高兴,伤心,害怕,生气,惊讶和厌恶。

输入的数据包括3个人,一个说的是西班牙语,另一说的是僧伽罗语。

这些语言的选择是主观的判断不受语言环境的影响。

每个演讲者对于每种情绪说6个不同的句子,并且这些句子的内容在大部分情况下所讲的是一类的。

他们其中的一些可以被适用于两种不同的类。

从语音信号的声调,强度和声调的等高线来估计声音的特征,然后用一些规定好的规则来进行分类。

虽然在过去有些人用更多的分类,但是最近的研究几乎都用Ekman提出的六种基本情绪分类,有时用这六种基本分类是不恰当的。

用这六类对声音进行分类,有时候不能清楚的表示出―普遍的‖情感特征。

表2给出了Murray和arnott40提出的人类声音影响的总结。

这个表结合这些情感给出了大多数的性质特征。

列出了与中立声音之间的关系。

表2:人类声音表现与中立声音之间的关系
3.3 从生理信号中进行情感识别
情感大多数趋于外在的物理表现,它也有内在的感知和想法,但是对这些内在人类拥有的情感。

相关文档
最新文档