多模态信息处理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多模态信息处理研究进展、现状及趋势

1. 任务定义、目标和研究意义

多模态(multimodality)的概念起源于计算机人机交互领域信息表示方式的研究,其中术语“模态”一词被定义为在特定物理媒介上信息的表示及交换方式。在研究中人们发现,用语言、视频、音频等媒体指称来描述信息表示方式过于宽泛、粒度太大,不足以区分实际采用的表示方式,为此引入了比媒体(或媒介)更细粒度的“模态”概念。而多媒体媒介可以分解为多个单模态,如视频作为一种多媒体媒介,可以分解为动态图像、动态语音、动态文本等多个单模态。为了模态概念定义的科学性和实用性,单模态的分类必须满足完整性、正交性、关联性和直观性的要求。在同一事物上多类单模态信息共生或共现的现象是十分普遍的。人与人交谈时有声语音与文字文本是共生的;互联网网页中图片与其对应的解说文字是共现的,凡此等等。共生或共现的多种单模态信息的统称即所谓的多模态信息。融合多种单模态的信息处理即所谓的多模态信息处理,其中涉及对多模态信息的获取、组织、分析、检索、理解、创建等。

多模态信息处理技术主要应用于对象识别、信息检索、人机对话等与智能系统及人工智能相关的领域。大量研究成果显示,基于多模态理念的信息处理算法和方法,往往会得到比传统方法更好的性能和效果。例如,语义计算相关领域基于指称语义的研究发现,采用语言表达式的视觉指称(即一组图片)来定义指称相似性度量,在某些语义推导任务中,效果好于基于纯文本的分布式语义表示;情感计算领域相关研究发现,不同模态的数据在情感表达中具有互补性,在愉悦度表达方面文本模态优于音频模态,而在激活度表达方面音频模态则优于文本模态。在基于内容的多媒体信息检索领域,针对基于内容的视音频检索中的语义鸿沟问题,利用与视音频数据共生或共现的文本信息,进行多模态的语义分析和相似性度量,是克服语义鸿沟问题的一种十分有效的方法。以媒体为单位的跨媒体信息处理任务,普遍存在语义鸿沟问题,所处理信息对象的语义,无论是基于外延语义(指称语义)还是内涵语义(关联语义)概念,在单一媒体信息范围内得不到完整或最终表达,而多模态信息处理方法为该问题的解决提供了新的思路和方法。

2. 研究内容和关键科学问题

多模态信息处理是在文本、图像、音频等现有单媒体信息处理的基础上发展起来的,现有单媒体数据的处理方法是多模态数据处理的基础。例如在特征提取层面,针对文本、图像、音频等单模态数据,往往直接利用成熟的文本、图像、音频特征提取方法来实现。多模态信息处理特有的研究内容主要关注于多模态信息的建模、获取、融合、语义度量、分析、检索等方面。

2.1 多模态信息建模

如何科学、严谨的定义单模态信息,是多模态信息建模要解决的问题。由于用媒体方式界定人机交互方式粒度太大,从而引入了模态的概念。所谓多模态信息建模,就是要构建一个单模态的分类体系,在该分类体系中,各单模态类别之间满足完整性、正交性、关联性和直观性的要求。Niels Ole Bernsen 2008年基于前人的工作,在“多模态理论(Multimodality Theory)”一文中给出了一个满足这些要求的单模态的分类体系,如表1所示。

表1 一个输入/输出模态的分类

随着人机交互设备的发展和丰富,新的传感器可以采集到更多新的、可与人交互的信息,如定位信息、重力加速度信息、脑电信息、热量消耗信息、步行运动信息等,表1 给出模态分类体系已不能完全覆盖新模态信息的种类,因此需要持续研究新的模态分类体系。

2.2 多模态信息获取

尽管人与人、人与机器之间交互信息的多模态现象是普遍存在的,但对于多模态信息处理而言,所处理的对象数据往往需要特殊处理才能获得。多模态信息的获取主要包括数据的采集、解析与数据集构建。

2.1.1多模态数据的采集

尽管可以对单模态数据类别进行比较形式化的定义,但实际研究中只要尽可能地遵守完整性、正交性、关联性和直观性的原则,新模态数据类别的引入是比较灵活,同时也是比较活跃的。比如除了图像、声音等信息外,针对社交媒体,可通过智能终端,采集到位置、重力加速度、睡眠、运动等人体信息;针对车联网,可通过车载传感器,采集到车速、位置、温度、发动机转速、雷达等汽车状态信息;针对监控网,可以采集红外、震动、烟雾浓度、生物指纹等与安防相关的信息。

多数情况下,多模态信息处理任务要求所有处理样本数据的各单模态数据是完整的。好在各单模态数据源经常是共生或共现的,满足完整性要求是可以做得到的。但也有例外的情况,例如歌曲多模态信息中,尽管音频与歌词是共生的,但歌词很难从音频中分离,因此,歌词文本数据还要通过其它单独途径采集。2.2.2多模态数据的解析

多模态数据的解析就是将原始混合状态的多模态数据,分解为单模态的数据。例如视频数据,需要分解为动态图像、音频语言、文本语言等三种单模态数据,其中文本语言部分,可能来自于视频字幕、图像内容中的文字和语音识别的结果等。

多模态数据的解析往往需要与数据采集相结合,例如歌曲MTV视频的解析,歌词文本很难从视频本身得到,可以通过采集系统来弥补。再例如,艺术、影视评论类文本数据的解析,其中涉及的图像、视频、音频数据的获取,更需要借助采集系统来完成。

2.2.3多模态训练数据集的构建

为了进行对多模态信息的机器学习处理,如分类、回归、聚类等,需要构建训练用样本数据集,特别是针对有监督学习,还需要进行数据标注。多模态训练数据集的构建有自己独特的方法。

以多模态人脸情感识别为例,需要选择一组参试人员,选择一组表达不同情感的诗词,准备一个相对封闭的环境,一个显示诗词的屏幕,一个面对受试人员脸部的摄像头,一个录音麦克风,一个采集视频、音频和交互数据的软件,交互数据通过受试人员拖动屏幕上采集软件的滚动条来产生。标注的情感数据可采用二维连续的VA情感模型来量化,由于标注的情感模型是二维的,因此每个诗词样本都需要标注两次。标注开始后,受试人朗诵屏幕上的诗词,并根据朗诵诗词的情感体验拖动滚动条。最终可以获得包含有声语言、文本语言和人脸视频的多模态情感标注数据及相应的训练数据集。

2.3 多模态语义分析

术语“语义分析”在不同领域有不同的含义,这里特指机器学习中的语义分

相关文档
最新文档