语音情感识别研究进展综述
语音情感识别技术研究
语音情感识别技术研究一、概述语音情感识别技术是一种基于语音信号分析的情感分析技术,其主要应用于情感智能交互、情感测评等领域。
本文将结合当前研究现状,综述语音情感识别技术的研究进展、方法原理、应用现状与前景展望。
二、研究进展语音情感识别技术研究起源于上世纪六七十年代,在此后的几十年中,该领域得到了快速发展。
当前,语音情感识别技术已经进入了深度学习时代。
近年来,针对语音情感识别的深度学习算法不断涌现,如基于卷积神经网络(CNN)的方法、基于长短时记忆网络(LSTM)的方法、基于注意力机制的方法等。
同时,在模型结构优化、特征提取等方面也有了较大的进展。
为了提高模型的鲁棒性和适应性,研究人员提出了各种增强方法,如数据增强、特征增强等。
与此同时,以不同语言和文化为背景的语音情感识别研究也在逐步深入。
三、方法原理语音情感识别技术的方法可以分为两个阶段:特征提取和模型训练。
其中,特征提取是将语音信号转化为上下文相关的语音特征,以能够较好地表达语音信号。
目前,最常用的特征包括基频、倒谱系数(MFCC)、线性预测系数(LPC)等。
模型训练是指利用深度学习等技术将语音情感数据进行训练并输出情感结果。
常用的深度学习模型包括多层感知机(MLP)、卷积神经网络(CNN)、循环神经网络(RNN)和长短时记忆网络(LSTM)等。
四、应用现状语音情感识别技术已经广泛应用于很多领域,包括情感识别、情感智能交互、情感测评和心理健康行业等。
在情感识别方面,语音情感识别技术可以帮助识别说话人的情感状态,如喜怒哀乐等,从而更好地辅助情感研究。
在情感智能交互方面,语音情感识别技术可以自动进行双向交互,让机器能够理解和响应用户的情感需求。
在情感测评方面,语音情感识别技术可以帮助评估人们在特定环境下的情感状态,从而进一步推动情感智能的发展。
在心理健康领域,语音情感识别技术可以帮助判断说话人是否存在心理障碍,指导精神治疗和康复。
五、前景展望随着人工智能技术的不断发展和应用,语音情感识别技术的应用前景正在不断拓展。
语音情感识别技术研究与应用分析
语音情感识别技术研究与应用分析一、引言随着智能化技术的发展,语音情感识别技术在生活和工作中扮演着越来越重要的角色。
语音情感识别技术是一项通过对语音信息进行分析和处理,结合情感心理学和计算机科学的基础理论,来识别和分析语音中的情感信息的技术。
本文将从语音情感识别的定义、研究现状、技术原理、应用场景和未来发展等方面进行探讨,以期为相关领域研究者提供参考。
二、语音情感识别的定义语音情感识别是指通过对人类语音进行分析和处理,通过结合情感心理学和计算机科学的基础理论,进行情感识别和情感分析的技术。
与传统的情感识别技术不同,语音情感识别是一种基于声音的情感识别技术,其主要的应用场景包括语音助手、智能客服等。
三、语音情感识别的研究现状语音情感识别技术已经成为了人工智能领域的重要研究方向之一。
国内外相关领域的研究者们进行了大量的探索和实践。
在算法上,针对语音信号的特征提取、分类器的选择、情感分析的标注等都进行了不断的优化和改进。
同时,研究者利用大规模情感数据库,进行了实验验证和评估。
从研究成果的统计数据来看,近年来,在语音情感识别技术方面,国际间出现了一种新的评测方式,即使用IEMOCAP(InteractiveEmotional DyadicMotionCapture)这个基于情境的口语语音数据库进行测试整个识别系统。
同时,N-先进方法也逐渐受到了研究者们的重视。
四、语音情感识别的技术原理目前,语音情感识别技术主要有两种方法,即基于语音信号特征的方法和基于语音语调特征的方法。
1. 基于语音信号特征的方法基于语音信号特征的方法是指从语音信号中提取特征,并传递到分类器进行分类。
特征的提取可以借鉴语音信号分析的方法,例如MFCC、PLP等。
分类器的选择可以根据不同的场景和需求,可以选择SVM、KNN、NB等。
2. 基于语音语调特征的方法基于语音语调特征的方法是指从语音的声调信息中提取特征,这种方法通常被称为基于语音语调的情感分析方法。
语音情感识别技术的研究与应用
语音情感识别技术的研究与应用一、引言随着科技的不断发展,人工智能技术的趋势也随之而来。
作为人工智能技术的一种,语音情感识别技术得到了越来越多的关注。
语音情感识别技术可以通过检测人的语音和声音中的情感来了解人的情绪状态,对于智能客服、情感分析和智能家居等领域的应用有着很大的潜力。
本文将从语音情感识别技术的原理、研究现状、应用和发展前景等方面进行探讨。
二、语音情感识别技术的原理语音情感识别技术的核心是利用人的语音、声调和音色等信息来分析其情感状态。
其基本流程可以分为以下几步:1. 数据采集阶段:采集人的语音、声调、音色等信息作为分析数据。
2. 特征提取阶段:对数据进行处理和分析,提取出能够表征情感状态的特征,如音高、频率等。
3. 情感分类模型训练阶段:通过机器学习算法对所提取出的特征进行训练,建立情感分类模型。
4. 情感分类阶段:通过建立好的模型对新数据进行情感状态分类。
三、语音情感识别技术的研究现状目前,语音情感识别技术已经成为人工智能技术研究的热门领域之一。
在国外,很多研究团队已经进行了大量的研究工作,取得了一些进展。
例如,美国麻省理工学院的研究团队使用深度神经网络来识别语音情感,其准确率可以达到87%。
日本东京大学的研究团队则采用了“基于发音韵律平衡性”的技术来识别语音情感,准确率达到了94%。
在国内,也有很多研究团队在开展相关的研究。
例如,中国科学院软件研究所研究人员已经成功开发出了一种通过语音和脸部表情识别情感的系统,该系统可以准确地识别人的情感状态。
四、语音情感识别技术的应用语音情感识别技术的应用领域非常广泛,下面为大家介绍几个典型的应用场景。
1. 智能客服:语音情感识别技术可以帮助客服人员及时捕捉到客户的情绪状态,主动提供解决方案,提高客户满意度。
2. 情感分析:语音情感识别技术可以帮助企业进行情感分析,了解消费者的心理需求,提高产品质量。
3. 智能家居:语音情感识别技术可以帮助家居设备了解住户的情绪状态,从而主动提供更贴心的服务。
语音情感识别算法研究
语音情感识别算法研究语音情感识别是一种通过分析语音信号中的声调、语速、语气等特征,来准确识别说话者情感状态的技术。
这种技术在人机交互、智能音箱、情感监测等领域具有重要的应用价值。
本文将会探讨语音情感识别算法的研究现状和发展趋势。
一、研究现状语音情感识别算法的研究已经取得了很大的进展。
传统的基于声学特征的方法主要关注语音中的声调、音频能量、频率等特征。
这些特征的变化与说话者的情感有一定的关联性。
然而,由于语音信号中的情感表达是多维度的,这些基于声学特征的算法存在一定的局限性。
随着深度学习的兴起,越来越多的学者开始尝试使用神经网络来进行语音情感识别。
其中,使用卷积神经网络(CNN)和循环神经网络(RNN)的方法相对较为常见。
这些方法不再依赖于手工提取的特征,而是通过学习分析语音信号中的上下文信息和时序特征。
由于深度学习模型具有较强的拟合能力,因此在语音情感识别任务中取得了较好的效果。
除了基于声学特征的算法和深度学习算法外,还有一些研究者开始利用融合多模态信息的方法来提高语音情感识别的准确性。
例如,将语音信号中的语义信息与面部表情、身体姿势等多种感知方式进行融合,能够更全面地理解说话者的情感状态。
这种多模态融合的方法在情感监测和人机交互等领域具有广泛的应用前景。
二、算法发展趋势随着研究的不断深入,语音情感识别算法在以下几个方面有望得到进一步发展。
首先,算法的准确性将得到进一步提高。
目前的语音情感识别算法虽然已经能够取得不错的效果,但在复杂情感状态的识别上仍然存在一定的挑战。
未来的研究将更加关注复杂情感状态的识别,例如愤怒、恐惧、厌恶等情绪。
同时,需要进一步改进数据集的标注质量,提高模型对于少样本和无样本情况下的泛化能力。
其次,算法的实时性和鲁棒性将会得到增强。
实时性是指算法在实际应用场景中的响应速度,鲁棒性是指算法对于噪声、干扰等外部因素的抗干扰能力。
这两个指标对于语音情感识别的应用非常重要。
未来的研究将重点关注如何在保证准确性的前提下提高实时性和鲁棒性,以适应实际应用的需求。
情感语音识别研究综述
研究综述-声学参量
情感语音的最佳特征:全局统计特征&局部特征 特征参数优化
多类特征组合
[4] M.E. Ayadi, M.S. Kamel, and F. Karray, “Survey on Speech Emotion Recognition: Features, Classification Schemes, and Databases,”Pattern Recognition, vol. 44, no. 3, pp. 572 -587, Mar. 2011.
研究综述-语音库的选择
现有的情感语言库有很多
公开库,私有库,商用库
名称 Berlin emotional database[2] Danish emotional database[3] Natural BabyEars 性质 公开库 公开库 私有库 私有库 语言 德语 丹麦语 普通话 英语
[2] I . S. Engberg and A. V. Hansen, “Documentation o f the Danish Emo -tional Speech Database ( DES),” Internal AAU report, Center for PersonKo mmunikation, Denmark, 1996. [3] F. Burkhardt, A. Paeschke, M. Rolfes, W. Sendlmeier, B. Weiss, A database of German emotional speech, in: Proceedings of the Interspeech 2005, Lissabon, Portugal, 2005, pp. 1517 –1520.
语音情感识别技术研究与应用
语音情感识别技术研究与应用近年来,随着互联网的普及,人们使用语音交互的频率越来越高。
但是,人们的情感表达并不仅仅停留在语言上,而是往往通过语音来表现出来。
在这种情况下,语音情感识别技术的开发和应用就变得尤为重要。
本文将会涉及语音情感识别技术的研究与应用情况。
一、语音情感识别技术的研究现状语音情感识别技术是一项基于人工智能和机器学习的技术,它能够通过动态分析语音信号中的声学特征,自动判断说话人的情感状态。
当前研究中,语音情感识别技术主要有以下几种:1.基于情感语料库的方法情感语料库是由完整的语音信号组成的数据集。
通常情况下,利用情感语料库可以获取到每个语音信号的基本情感特征,包括音频文件中的波形,功率谱、基音周期和线性变化。
这些特征被用来训练一个过程化的分类模型,以进行情感识别。
2.基于语音特征向量的方法基于语音特征向量的情感识别方法需要从语音信号中提取关键的语音特征。
这些特征可以是谐波、基音周期、语速、能量、频率和线性预测系数等。
基于这些特征向量,可以使用机器学习算法来对语音进行情感识别。
二、语音情感识别技术的应用场景语音情感识别技术在众多应用场景中,得到了广泛的关注和研究。
在这种情况下,我们就能看到许多应用场景发展出来,包括:1.客服语音助手随着人们对智能家居的需求不断增加,智能客服也成为了越来越重要的领域之一。
语音情感识别技术可以用来识别客服工作人员和用户之间的情感状态,进而提高工作人员的工作效率。
2.教育领域在教育领域,语音情感识别技术也得到了广泛的应用。
例如,在英语教育领域中,语音情感识别技术能够识别学生发音方面的问题,从而及时纠正,提高英语学习的效率。
3.医疗领域在医疗领域中,语音情感识别技术也有着很大的应用空间。
例如,在提高自闭症患者社交能力方面,语音情感识别技术可以通过识别患者的情感状态来引导患者进行相关的训练。
三、存在的问题尽管语音情感识别技术在应用方面已经取得了一定的成就,但目前仍然存在一些问题:1. 数据集问题在使用语音情感识别技术时,获取大量的情感语音数据集也是至关重要的。
语音情感识别技术在语音识别中的应用研究
语音情感识别技术在语音识别中的应用研究引言语音识别技术一直以来都是人工智能领域的一个重要研究方向。
近年来,随着语音情感识别技术的快速发展,语音识别系统开始将情感因素考虑在内,从而为用户提供更加智能、个性化的服务。
本文将探讨语音情感识别技术在语音识别中的应用研究,并深入探讨其在不同领域中的潜在应用。
一、语音情感识别技术的发展及研究进展1.1 语音情感识别技术概述语音情感识别技术是通过对语音信号进行分析和处理,从中提取出与情感有关的特征信息,并通过机器学习等方法进行分类和识别的一种智能技术。
1.2 语音情感识别技术的研究进展近年来,语音情感识别技术得到了极大的发展。
研究者们通过对语音信号的频谱、声音强度、声调等特征进行提取,并利用机器学习算法对这些特征进行分类,从而实现对语音情感的准确识别。
目前,常用的语音情感识别算法包括基于统计的方法、基于神经网络的方法以及混合方法等。
这些方法在提高语音情感识别准确率、降低误识率等方面取得了重要突破。
二、语音情感识别技术在语音识别中的应用研究2.1 语音助手领域语音助手是目前应用最广泛的语音识别系统之一。
它可以通过识别用户的语音情感,为用户提供更加智能、个性化的服务。
例如,在用户情感较低的时候,语音助手可以选择更温柔、亲切的语气进行回答;而在用户情感较高的时候,语音助手可以选择更加鼓励和激励的语气进行回答,从而提高用户体验。
2.2 语音情感识别技术在情感分析中的应用语音情感识别技术可以广泛应用于情感分析领域。
通过对用户的语音情感进行识别,可以更加准确地推断用户的情感状态,从而为用户提供个性化的服务。
例如,在电子商务领域中,可以通过对用户的电话录音进行情感识别,进而判断用户对服务的满意度,帮助企业优化服务质量。
2.3 语音情感识别技术在心理辅导中的应用语音情感识别技术还可以应用于心理辅导领域。
通过对患者的语音情感进行识别,医生可以更好地了解患者的情感状态,为他们提供相应的心理支持和治疗方案。
基于语音的情感识别技术研究
基于语音的情感识别技术研究近年来,随着人工智能技术的快速发展,基于语音的情感识别技术也日益成熟。
这项技术可以通过分析说话人的语音特征,推断出其情感状态,为人工智能应用提供更为智能化的服务。
一、技术原理基于语音的情感识别技术主要利用音频信号处理和机器学习技术来分析音频特征,探测人的情感状态。
首先,需要把音频信号进行预加重、分帧、加窗、FFT变换等基本处理,然后提取出频域和时域特征参数。
这些参数包括基音频率、共振峰频率、能量、过零率等,都能反映语音信号中包含的情感信息。
接着,利用相关算法,如支持向量机、神经网络等,对这些特征进行学习和分类,从而实现情感识别。
二、应用领域基于语音的情感识别技术可以广泛应用于多个领域。
在语音交互技术中,情感识别可以实现智能语音助手更智能化的服务,使其能够了解用户的情感需求,更好地为用户提供服务。
在医疗健康领域,情感识别技术可以帮助医生了解患者的情感状态,有助于更好地为患者提供治疗方案。
在广告营销领域,情感识别可以分析客户的情感需求,制定更具吸引力、切实可行的营销方案。
此外,在教育、娱乐等领域也有着广泛的应用。
三、技术进展和挑战目前,基于语音的情感识别技术已经较为成熟,一些商业应用已经陆续推出。
然而,仍然存在不少技术挑战。
首先,由于人的语音表达情感相对复杂,情感识别的准确度一直是技术研究的难点。
其次,虽然机器学习技术对语音信号进行分类可以提高准确度,但所需的训练数据规模较大,数据获取和标注也是较大的工作量。
此外,语音信号受到环境噪声和说话人口音的影响,也会影响情感识别的准确度。
四、未来展望随着技术的不断发展和研究的深入,基于语音的情感识别技术将会朝着更加精准、高效的方向发展。
同时,更好的数据标注和获取工作也会促进情感识别技术的发展。
未来,无论是在智能语音助手、医疗健康、广告营销等领域,还是在娱乐、教育等领域,情感识别都将成为人工智能技术的重要应用之一。
也许,将来即使人距离彼此越来越远,但基于语音的情感识别技术也能帮助我们更好地理解对方,并实现更为智能化的互动。
基于深度学习的语音情感识别算法研究进展
基于深度学习的语音情感识别算法研究进展引言:语音情感识别是一项重要的研究领域,它可以帮助计算机理解人类情感表达,进而改善人机交互体验。
近年来,基于深度学习的语音情感识别算法取得了显著的进展。
本文将探讨这一研究领域的最新进展,并分析其应用前景。
一、深度学习在语音情感识别中的应用深度学习是一种模仿人脑神经网络结构的机器学习方法,它通过多层次的神经网络来提取抽象的特征表示。
在语音情感识别中,深度学习可以通过学习大量标注的语音数据,自动学习到语音信号中与情感相关的特征。
二、基于深度学习的语音情感识别算法1. 基于卷积神经网络的语音情感识别算法卷积神经网络(CNN)是一种广泛应用于图像处理领域的深度学习模型。
近年来,研究者们将CNN成功应用于语音情感识别中。
通过将语音信号转换为时频图像,然后使用CNN进行特征提取和分类,取得了较好的识别效果。
2. 基于循环神经网络的语音情感识别算法循环神经网络(RNN)是一种能够处理序列数据的深度学习模型。
由于语音信号是时序数据,因此RNN非常适合用于语音情感识别。
研究者们通过将语音信号输入到RNN中,并结合注意力机制等技术,提高了情感识别的准确率。
3. 基于深度自编码器的语音情感识别算法深度自编码器(DAE)是一种无监督学习方法,可以用于自动学习数据的低维表示。
研究者们将DAE应用于语音情感识别中,通过无监督地学习语音信号的特征表示,提高了情感识别的性能。
三、基于深度学习的语音情感识别算法的挑战尽管基于深度学习的语音情感识别算法取得了一定的进展,但仍然存在一些挑战。
首先,缺乏大规模标注的语音情感数据集限制了算法的性能。
其次,语音信号的时变性和噪声干扰使得情感识别更加困难。
此外,算法的可解释性和鲁棒性也是需要进一步研究的问题。
四、基于深度学习的语音情感识别算法的应用前景基于深度学习的语音情感识别算法具有广泛的应用前景。
首先,它可以应用于智能客服领域,帮助机器理解用户的情感需求,提供更加个性化的服务。
基于深度学习的语音情感识别研究
基于深度学习的语音情感识别研究一、引言语音情感识别是人工智能领域的热门研究方向之一。
传统情感识别技术主要依靠对文字、图片等非语音信号的分析,而随着语音识别技术的不断发展,基于深度学习的语音情感识别技术也变得越来越成熟。
本文将介绍深度学习在语音情感识别方面的应用及其研究进展。
二、基本概念1. 深度学习深度学习是一种基于神经网络的机器学习方法,通常由多个隐藏层组成。
深度学习的优势在于可以自动地从大规模数据中学习知识,避免了手工设计特征的繁琐过程。
2. 语音情感识别语音情感识别指的是识别语音中所表现出的情感状态,包括愤怒、高兴、悲伤等。
三、深度学习在语音情感识别中的应用1. 声学特征提取深度学习可以用于提取声学特征,例如基音频率、共振峰等,这些特征能够描述语音信号的音调、音色等方面。
利用这些声学特征,我们可以更加准确地捕捉语音中所表现出的情感状态。
2. 情感分类模型在深度学习中,通常使用循环神经网络(RNN)或卷积神经网络(CNN)等模型进行语音情感分类。
RNN模型主要用于处理序列数据,而CNN模型则更擅长于处理图像等类型的数据。
其中,LSTM(Long short-term memory,长短期记忆网络)是一种广泛应用于语音情感识别中的RNN模型。
LSTM的优点在于通过加入门机制,可以避免梯度消失或爆炸的问题,从而有效地处理长序列数据。
3. 数据增强技术由于样本数量的限制,语音情感识别往往会面临着过拟合的问题。
在深度学习中,我们可以使用数据增强技术,例如随机扰动语音信号、调整语速等,从而扩充数据集,提高模型的泛化能力和鲁棒性。
四、语音情感识别的研究进展近年来,很多学者对基于深度学习的语音情感识别进行了大量研究。
以下是一些最新进展的例子:1. 基于生理学特征的情感识别许多研究者认为,生理学特征,例如心率、皮肤电导等,能够反映出人的情感状态。
因此,可以将这些特征与语音信号进行联合分析,更加准确地进行情感识别。
基于深度学习的语音情感识别技术研究
基于深度学习的语音情感识别技术研究随着人工智能的不断发展,深度学习技术在各个领域逐渐得到广泛应用。
其中,语音情感识别技术是近年来备受关注的一个分支。
语音情感识别技术可以通过分析人的语音特征,判断人的情感状态,对于提高机器的智能化水平,增强人机交互效果具有重要意义。
本文将介绍基于深度学习的语音情感识别技术的研究进展,并探讨其应用前景。
一、语音情感识别技术的现状及挑战传统的语音情感识别技术需要依靠一系列特征工程,包括语音信号的预处理、自适应滤波器设计等等。
这些技术虽然能够部分识别出人的情感状态,但是难以处理不同语音之间的差异性,且需要耗费大量的人力物力。
因此,基于深度学习的语音情感识别技术应运而生。
基于深度学习的语音情感识别技术利用神经网络的深度学习算法,自动提取语音信号的特征,并进行情感分类。
在论文《基于深度学习的语音情感识别研究》中,研究人员使用了卷积神经网络和长短时记忆神经网络,对语音情感进行分类。
通过实验结果表明,基于深度学习的语音情感识别技术比传统的方法更加准确。
但是,基于深度学习的语音情感识别技术仍然存在一些挑战。
首先,语音信号受噪声等外部因素的影响较大,如何过滤掉这些干扰因素是一个难题。
其次,语音情感的分类标准不够统一,如何建立一个公认的分类标准也是需要解决的问题。
二、基于深度学习的语音情感识别技术的研究进展基于深度学习的语音情感识别技术在近年来得到了广泛的研究。
目前,主流研究方法包括利用卷积神经网络和循环神经网络等模型,对语音信号进行特征提取,并进行分类。
在卷积神经网络方面,一些研究利用了不同深度的卷积层或池化层,来提取语音信号中的时间和频率特征。
在这方面,论文《基于卷积神经网络的语音情感识别技术研究》中,研究人员将语音信号分割成若干个短时序列,利用卷积神经网络结构提取每一个时序列中的特征,并进行情感分类,同时将多个时序列的特征进行平均池化,得到整个语音信号的情感状态。
在循环神经网络方面,学者们也做出了一些探索。
基于语音信号处理技术的语音情感识别研究
基于语音信号处理技术的语音情感识别研究一、引言语音是人们日常生活中重要的交流工具,而情感是人类感官和情感的内在表达,语音情感识别技术将语音和情感相结合,旨在帮助计算机更好地理解和自然地与人进行交互。
语音情感识别技术的研究发展已经成为语音处理领域的一个重要研究方向。
二、语音情感识别技术的研究现状随着人工智能的发展,语音情感识别技术也在快速发展。
其研究方向主要涉及两大类问题:一是如何提取出语音信号中的情感信息;二是如何将情感信息进行分类识别,并组合成最终的情感判断结果。
目前已有众多机器学习和深度学习算法应用于语音情感识别技术领域,包括支持向量机(SVM)、K近邻算法(KNN)、高斯混合模型(GMM)、深度置信网络(DBN)、卷积神经网络(CNN)和循环神经网络(RNN)等。
这些算法均可进行语音情感特征提取以及情感分类、情感预测等任务,从而实现语音情感识别。
三、语音情感信号的特征提取语音信号的情感特征是指从语音信号中提取用于表示情感的特征参数。
常见的特征参数包括基频、声调、语气、音量、说话速度、语音韵律等。
情感特征提取的主要目标是把语音信号中的情感部分有效地刻画出来,并将其表达成特征向量。
这些特征向量可以用于后续的情感分类和识别任务。
在实际应用中,语音情感信号的特征提取过程需要根据具体应用场景和需求进行相应的选择和优化。
四、情感分类识别算法情感分类算法是将语音信号的特征参数与指定的情感类别建立关联模型,然后用该模型对未知语音输入进行情感分类的过程。
常见的情感分类算法包括统计学习方法和深度学习方法。
在深度学习方法中,卷积神经网络(CNN)和循环神经网络(RNN)是两种常见的模型。
在CNN模型中,卷积层负责进行特征提取和抽象,池化层则进一步降低特征维度和复杂度,全连接层用于进行情感分类和预测。
而RNN模型则可以更好地刻画语音信号的时序性质,将语音信号的历史信息带入当前的情感分类过程中,从而提高分类的准确度和鲁棒性。
语音情感识别技术综述
语音情感识别技术综述随着科技的飞速发展,语音情感识别技术越来越受到人们的重视。
它不仅可以帮助我们更好地理解他人的情感状态,还可以在人机交互、医疗辅助等诸多领域得到广泛应用。
本文将综述当前语音情感识别技术的发展现状及其应用前景。
一、技术发展现状语音情感识别技术是指通过分析人的语音信号,从中提取出一系列与情感有关的特征,然后利用机器学习技术对这些特征进行分类,进而识别出人的情感状态。
经过技术的不断改进,目前的语音情感识别技术已经具备了较高的准确度和稳定性。
1. 特征提取技术的改进在语音情感识别技术中,特征提取是非常关键的一步。
因为人的情感状态是通过声音的变化来传递的,因此从语音信号中提取出与情感有关的特征是判别情感状态的基础。
现有的特征提取方法主要包括基于频率域的方法、基于时域的方法、基于小波分析的方法、基于短时时域分析的方法等。
其中,短时时域分析方法是最为常用的一种,它可以将长时间的信号切分成多个短时维度的信号,然后通过短时傅里叶变换等技术将其转化为频域信息,最终提取出与情感有关的特征。
2. 机器学习算法的优化在特征提取完成后,需要通过机器学习算法将其进行分类,并进而识别出人的情感状态。
目前主流的机器学习算法包括支持向量机、神经网络、朴素贝叶斯等。
其中,深度学习算法在语音情感识别领域取得了显著的进展。
深度学习算法可以通过多层次的非线性变换来提取出高层次的特征,并通过后续的分类算法进行情感状态的识别。
例如,深度置信网络和卷积神经网络等深度学习算法已经成为当前语音情感识别领域中的主流算法。
二、应用前景展望语音情感识别技术具有广泛的应用场景,在人机交互、医疗辅助、教育智能等领域都有着巨大的应用前景。
1. 人机交互随着智能语音助手的普及,语音情感识别技术在人机交互领域的应用已经开始呈现出广泛的需求。
通过识别用户的情感状态,智能语音助手可以更加智能地响应用户的需求,提高用户体验。
2. 医疗辅助语音情感识别技术在医疗领域中也具有广泛的应用前景。
基于模式识别的语音情感识别技术研究进展
基于模式识别的语音情感识别技术研究进展语音情感识别技术是人工智能领域中的一个重要研究方向,其主要目标是从语音信号中分析和提取情感信息。
通过对语音信号中的音调、语速、音量、频谱等特征进行分析,可以识别出说话者所表达的情感状态,如喜悦、愤怒、悲伤等。
在语音情感识别技术的研究中,基于模式识别的方法被广泛应用,取得了一定的研究进展。
一、语音情感识别的背景与意义语音情感识别技术的研究背景主要源于人机交互、情感计算和智能音响等领域的需求。
随着人工智能技术的发展,人们对于机器能够理解和感知人类情感的需求日益增长。
通过语音情感识别技术,机器可以更好地理解用户的情感需求,提供个性化的服务,提升人机交互的体验。
二、语音情感识别技术的研究方法在基于模式识别的语音情感识别技术研究中,主要包括以下几个方面。
1. 数据集构建与预处理为了进行准确的情感识别,研究者首先需要构建一个包含不同情感状态的语音数据集。
数据集的构建需要考虑到多种情感状态的覆盖性以及数据的平衡性。
在数据预处理阶段,研究者通常会对语音信号进行降噪、分段和特征提取等处理,以便后续的情感识别分析。
2. 特征提取与选择语音信号中蕴含了大量的情感信息,研究者需要通过特征提取的方式将这些信息抽取出来。
常用的特征参数包括音调、频谱、能量、共振峰等。
针对不同的情感分类任务,研究者会选择不同的特征参数进行分析和建模。
3. 模式识别与分类算法在语音情感识别的研究中,常用的模式识别与分类算法包括支持向量机(SVM)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)和深度学习等。
这些算法可以对提取到的特征进行分类和建模,实现情感状态的自动识别。
三、语音情感识别技术的应用与挑战语音情感识别技术在多个领域具有广泛的应用前景。
首先,它可以应用于智能音响和智能助理等人机交互设备中,实现根据用户情感自动调整服务。
其次,语音情感识别技术还可以应用于情感计算领域,帮助分析人类在不同情感状态下的行为和心理特征。
语音情感识别技术研究及应用
语音情感识别技术研究及应用一、引言近年来,随着人工智能技术的发展,语音情感识别技术在各领域得到了广泛应用。
语音情感识别技术是指通过对语音信号进行分析和处理,提取出其中的情感信息,并对其进行分类判断的技术。
它可以用来分析人们说话时的情感状态,从而帮助人们更好地理解和沟通。
本文将对语音情感识别技术的研究现状和应用方向进行介绍。
二、语音情感识别技术的研究现状语音情感识别技术是一个涉及多个学科领域的复杂问题。
目前,相关研究主要涉及语音信号处理、情感分类算法和情感数据库的构建等方面。
1. 语音信号处理语音信号处理是语音情感识别技术的基础,它主要涉及语音信号的录制、采样、特征提取和预处理等方面。
其中,语音信号的特征提取是关键环节,常用的特征包括短时能量、短时过零率、Mel频率倒谱系数等。
此外,还要对语音信号进行预处理,包括去除噪声、降低失真等工作,以保证识别准确性。
2. 情感分类算法情感分类算法是实现语音情感识别的核心,它主要涉及机器学习、深度学习等方面。
其中,支持向量机、决策树和随机森林等算法是常用的机器学习算法,它们通过对训练集进行学习,建立感知模型,从而对新的语音信号进行情感分类。
深度学习算法包括卷积神经网络和长短时记忆网络等,它们通过对深度神经网络的训练和学习,提取出语音信号中的情感特征,从而实现情感分类。
3. 情感数据库的构建情感数据库是语音情感识别技术的重要组成部分,它是用来对情感分类算法进行训练和评估的基础数据集。
常见的情感数据库包括RAVDESS、EMODB和IEMOCAP等,它们包含了多种情感状态的语音信号,可以用来训练情感分类算法,并通过交叉验证等方法评估分类效果。
三、语音情感识别技术的应用方向语音情感识别技术在人机交互、情感诊断和语音翻译等方面都有广泛的应用。
1. 人机交互在人机交互中,语音情感识别技术可以用来识别用户的情感状态,从而提供个性化的服务和建立更好的用户体验。
例如,智能语音助手可以通过识别用户的情感状态,提供情感化的回复,缓解用户的负面情感。
基于深度学习的语音情感识别技术研究
基于深度学习的语音情感识别技术研究随着科技发展的不断进步,我们的生活中出现了越来越多基于人工智能的智能产品。
其中,语音情感识别技术就是一项非常重要的技术。
它可以让机器感知人类的情感状态并做出相应的反应,实现更加智能化、便捷化的交互方式。
本文将从深度学习的角度探讨语音情感识别技术的研究现状以及未来的发展方向。
一、语音情感识别技术的研究现状语音情感识别技术的研究始于上世纪八十年代,但当时由于计算机性能和数据量的限制,研究进展缓慢。
在近十年中,随着深度学习等技术的发展,语音情感识别技术得到了长足的发展。
目前,该技术已经应用到市场调查、电信客户服务、心理健康等多个领域。
在语音情感识别技术的研究中,最主要的难点在于如何从语音信号中提取情感信息。
传统的方法是依靠专家手工提取特征,但也存在一些问题,比如特征提取效果不佳、人工成本高等。
而基于深度学习的方法可以从原始语音信号中自动提取情感相关的特征。
因此,该方法在语音情感识别研究中被广泛采用。
二、基于深度学习的语音情感识别技术深度学习是指一类基于神经网络的机器学习算法,其核心思想是模拟人类神经系统的工作方式,通过多层非线性模型来提取数据中的高级特征。
基于深度学习的语音情感识别技术通常包含以下步骤:1.语音信号预处理首先,需要对语音信号进行一些预处理,比如去除噪声、分帧、预加重等。
这些预处理步骤可以提高信号的可分辨性,从而有利于后续的处理。
2.特征提取在深度学习中,我们通常使用Mel频率倒谱系数(MFCC)作为语音信号的特征。
MFCC是一种用于音频信号分析的特征提取方法,其基本思想是将频率轴划分成一系列的Mel频率带,再对每个带内的信号进行离散余弦变换(DCT),最终得到一系列的MFCC系数作为特征向量。
3.分类器训练在特征提取之后,我们需要对特征向量进行分类。
通常可以采用基于深度学习的分类器,比如卷积神经网络(CNN)、长短时记忆网络(LSTM)等。
这些分类器可以通过大量的数据进行训练,从而学习到语音信号中不同情感状态的特征。
语音情感识别技术的研究
语音情感识别技术的研究随着科技的不断发展和人工智能技术的不断革新,语音情感识别技术已然成为了当前最热门的研究领域之一。
随着其在人机交互、智能音箱、自动语音问答、情感分析等领域开展的广泛应用,语音情感识别技术已经成为了代表人工智能技术发展方向之一的热门话题。
一、语音情感识别技术的发展历程语音情感识别技术的发展经历了多个阶段的发展,早期的语音情感识别技术主要采用基于统计学习的方法,例如隐马尔科夫模型、贝叶斯网络和支持向量机等,这些方法主要是通过对语音信号特征进行提取,并基于训练样本进行模型训练,以达到语音情感的识别目的。
但由于这种方法仍然受限于模型以及特征选择的问题,因此其情感识别准确性较低。
随着深度学习技术的兴起,语音情感识别技术迎来了快速发展。
在深度学习算法的支持下,通过构建深层神经网络模型,可以实现对语音信号的端到端的学习,无需进行额外的特征提取,同时,深度学习技术的强大的表达能力也使得其具有更高的情感识别准确率。
如现在常见的语音识别技术公司,旗下的语音情感识别模型中便大量采用了深度学习方法,以实现对客户情绪的分析和应对。
二、语音情感识别技术的应用领域语音情感识别技术被广泛应用于人机交互、智能音箱、自动语音问答、情感分析等领域。
比如,通过分析客户的语音情感,可以快速响应其神态和需求,从而为客户提供更加个性化的呼叫中心服务。
在智能音箱中,利用情感识别技术,可以实现用户与设备之间进一步的情感联系,有效提高设备的用户黏性。
此外,在自动语音问答和情感分析领域,语音情感识别技术也发挥着不可替代的作用。
三、语音情感识别技术的挑战在语音情感识别技术的应用过程中,随着其运用场景越来越广泛,该技术也面临着一系列挑战。
1、准确性方面的挑战:尽管语音情感识别技术已经取得了长足的进步,但是仍然存在着准确率较低的情况;2、数据集不足的挑战:模型的表现能力与训练样本的质量和数量有很大关系,但是当前市场上的语音情感数据集较为有限;3、噪声干扰的挑战:实际应用场景中常常受到噪声的影响,语音情感识别技术如何在噪声环境下准确识别情感,是当前的重要难点。
语音情感识别研究综述
语音情感识别研究综述首先,语音情感识别的研究可以追溯到20世纪80年代。
当时,研究者开始关注语音中情感信息的提取和分析。
最早的方法是基于语音的声学特征进行情感分类,如基频、共振峰等。
然而,这种方法受到语音质量、语音长度和环境噪声等因素的影响,准确率较低。
随着技术的进步,研究者开始尝试使用机器学习方法来提高语音情感识别的准确率。
其中,支持向量机(SVM)是常用的分类器之一、SVM通过构建一个分类超平面,将不同情感状态的语音样本分隔开。
此外,深度学习方法如卷积神经网络和循环神经网络也被应用于语音情感识别,并取得了很好的效果。
除了声学特征外,语音的内容也包含了情感信息。
因此,研究者开始探索通过文本特征来识别语音情感。
一种常用的方法是使用情感词典,将情感词与语音中的文本进行匹配,并计算情感得分。
此外,还有一些基于深度学习的方法,如循环神经网络在语音文本中提取情感特征。
实际应用中,场景和语境对语音情感识别也有较大影响。
因此,部分研究者开始研究基于多模态数据的情感识别。
多模态数据包括语音、面部表情、手势等多种形式的信息。
研究表明,将多种信息进行融合可以提高情感识别的准确率。
另外,语音情感识别也遇到了一些挑战。
首先是标注数据的问题,由于情感是主观的感受,标注数据的一致性很难保证。
其次是多样性和个体差异的问题,不同文化背景、性别年龄等因素都会影响人的情感表达。
最后是动态性的问题,情感是随着时间变化的,因此需要建模动态情感变化的方法。
综上所述,语音情感识别是一个很有挑战性的研究方向。
随着技术的不断进步,我们对于语音情感的识别能力也在不断提高。
未来,我们可以进一步研究如何克服挑战,提高情感识别的准确率和适用性,进一步拓展语音情感识别的应用领域。
语音情感识别技术的最新研究进展调研报告
语音情感识别技术的最新研究进展调研报告一、引言语音情感识别技术是指通过分析人们语音中的音调、语速、声音强度等声音特征,从而判断出人们表达情感的能力。
随着人工智能技术的不断发展,语音情感识别技术也得到了广泛应用和研究。
本报告旨在调研当前语音情感识别技术的最新研究进展和应用情况,为相关领域的学术研究和实践探索提供参考。
二、研究方法与技术1. 声音特征提取为了准确识别语音中的情感信息,研究者提出了多种声音特征提取的方法。
常用的方法有基于频谱的声音特征提取、基于时域的声音特征提取和基于深度学习的声音特征提取等。
这些方法中,基于深度学习的声音特征提取具有较高的准确性和鲁棒性,成为了当前研究的热点。
2. 情感识别算法目前,基于深度学习的情感识别算法取得了显著的成果。
这些算法主要通过构建深层神经网络模型,实现对语音情感进行有效分类。
其中,卷积神经网络(CNN)和循环神经网络(RNN)常用于解决时间序列数据的情感识别问题,而注意力机制(Attention)则可以提升模型对关键信息的关注度。
此外,基于生成对抗网络(GAN)的情感识别算法也逐渐受到关注。
三、研究应用领域1. 情感识别与情感分析语音情感识别技术广泛应用于情感分析领域。
通过对人们语音中的情感进行识别和分析,可以了解人们的真实感受,为企业市场调研、社交媒体分析等提供有力支持。
此外,还可以在心理健康辅助诊断、情感智能导航等方面发挥作用。
2. 人机交互与智能辅助语音情感识别技术在人机交互和智能辅助领域也有着广泛应用。
通过识别用户语音中的情感,智能终端可以更好地理解用户需求,提供个性化的服务和交互体验。
此外,语音情感识别技术还可以应用于智能辅助驾驶、情感智能机器人等领域,提升智能设备的人性化交互能力。
四、挑战与未来发展方向尽管语音情感识别技术取得了一定的研究成果和应用进展,但仍面临一些挑战。
其中,多样性及跨文化情感识别、语音噪声干扰等问题亟待解决。
未来,研究者可以结合多模态信息、迁移学习等方法,进一步提升语音情感识别的性能和鲁棒性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@Journal of Software,2014,25(1):37−50 [doi: 10.13328/ki.jos.004497] +86-10-62562563 ©中国科学院软件研究所版权所有. Tel/Fax:∗语音情感识别研究进展综述韩文静1, 李海峰1, 阮华斌2, 马琳11(哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 150001)2(清华大学计算机科学与技术系,北京 100084)通讯作者: 韩文静, E-mail: hanwenjing07@摘要: 对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望.从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析.关键词: 人机交互;情感计算;情感描述模型;情感语音库;情感声学特征;语音情感识别中图法分类号: TP391文献标识码: A中文引用格式: 韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述.软件学报,2014,25(1):37−50./1000-9825/4497.htm英文引用格式: Han WJ, Li HF, Ruan HB, Ma L. Review on speech emotion recognition. Ruan Jian Xue Bao/Journal of Software,2014,25(1):37−50 (in Chinese)./1000-9825/4497.htmReview on Speech Emotion RecognitionHAN Wen-Jing1, LI Hai-Feng1, RUAN Hua-Bin2, MA Lin11(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)2(Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China)Corresponding author: HAN Wen-Jing, E-mail: hanwenjing07@Abstract: This paper surveys the state of the art of speech emotion recognition (SER), and presents an outlook on the trend of futureSER technology. First, the survey summarizes and analyzes SER in detail from five perspectives, including emotion representation models,representative emotional speech corpora, emotion-related acoustic features extraction, SER methods and applications. Then, based on thesurvey, the challenges faced by current SER research are concluded. This paper aims to take a deep insight into the mainstream methodsand recent progress in this field, and presents detailed comparison and analysis between these methods.Key words: human-computer interaction; affective computing; emotion representation model; emotional speech corpora;emotion-related acoustic feature; speech emotion recognition人类之所以能够通过聆听语音捕捉对方情感状态的变化,是因为人脑具备了感知和理解语音信号中的能够反映说话人情感状态的信息(如特殊的语气词、语调的变化等)的能力.自动语音情感识别则是计算机对人类上述情感感知和理解过程的模拟,它的任务就是从采集到的语音信号中提取表达情感的声学特征,并找出这些声学特征与人类情感的映射关系.计算机的语音情感识别能力是计算机情感智能的重要组成部分,是实现自然∗基金项目: 国家自然科学基金(61171186, 61271345); 语言语音教育部微软重点实验室开放基金(HIT.KLOF.2011XXX); 中央高校基本科研业务费专项资金(HIT.NSRIF.2012047)收稿时间:2013-05-08; 定稿时间: 2013-09-02; jos在线出版时间: 2013-11-01CNKI网络优先出版: 2013-11-01 13:49, /kcms/detail/11.2560.TP.20131101.1349.001.html38 Journal of Software 软件学报 V ol.25, No.1, January 2014人机交互界面的关键前提,具有很大的研究价值和应用价值.语音情感识别研究的开展距今已有30余年的历史,在此期间,它得到了世界范围内相关研究者们的广泛关注,也取得了一些令人瞩目的成绩,但同时也面临着诸多问题的考验与挑战.本文将立足于语音情感识别研究领域的已有成果,对领域内的研究进展进行总结,并对未来的技术发展趋势加以展望.一般说来,语音情感识别系统主要由3部分组成:语音信号采集、情感特征提取和情感识别,系统框图如图1所示.语音信号采集模块通过语音传感器(例如,麦克风等语音录制设备)获得语音信号,并传递到下一个情感特征提取模块对语音信号中与话者情感关联紧密的声学参数进行提取,最后送入情感识别模块完成情感的判断.需要特别指出的是,一个完整的语音情感识别系统除了要完善上述3部分以外,还离不开两项前期工作的支持:(1) 情感空间的描述;(2) 情感语料库的建立.情感空间的描述有多重标准,例如离散情感标签、激励-评价-控制空间和情感轮等,不同的标准决定了不同的情感识别方式,会对情感语料的收集标注、识别算法的选择都产生影响.情感语料库更是语音情感识别研究的基础,负责向识别系统提供训练和测试用语料数据.国内外相关研究根据研究者的出发点不同会各有侧重,但归根结底都可以涵盖到上述5个关键模块之中.Fig.1 Framework of a standard speech emotion recognition system图1 语音情感识别系统框图因此,本文将首先对语音情感识别接近40年的发展历程进行简要的回顾,然后从情感描述模型、情感语音数据库、语音情感相关声学特征提取、语音情感识别算法、语音情感识别技术应用这5个角度对当前的语音情感识别技术主流方法和前沿进展进行系统的总结和分析,最后给出技术挑战与展望.1 语音情感识别历史回顾最早的真正意义上的语音情感识别相关研究出现在20世纪80年代中期,它们开创了使用声学统计特征进行情感分类的先河[1,2].紧接着,随着1985年Minsky 教授“让计算机具有情感能力”观点的提出,以及人工智能领域的研究者们对情感智能重要性认识的日益加深,越来越多的科研机构开始了语音情感识别研究的探索.在20世纪80年代末至90年代初期,麻省理工学院多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采集,综合使用人体的生理信号、面部表情信号、语音信号来初步识别各种情感,并让机器对各种情感做出适当的简单反应[3];1999年,Moriyama 提出语音和情感之间的线性关联模型,并据此在电子商务系统中建造出能够识别用户情感的图像采集系统语音界面,实现了语音情感在电子商务中的初步应用[4].整体而言,语音情感识别研究在该时期仍旧处于初级阶段,语音情感识别的研究主要侧重于情感的声学特征分析这一方面,作为研究对象的情感语音样本也多表现为规模小、自然度低、语义简单等特点,虽然有相当数量的有价值的研究成果相继发表,但是并没有形成一套被广泛认可的、系统的理论和研究方法.进入21世纪以来,随着计算机多媒体信息处理技术等研究领域的出现以及人工智能领域的快速发展,语音情感识别研究被赋予了更多的迫切要求,发展步伐逐步加快.2000年,在爱尔兰召开的ISCA Workshop on Speech and Emotion 国际会议第1次把致力于情感和语音研究的学者聚集在一起.近年来,先后又有若干以包括语音情感计算在内的情感计算为主题的会议和期刊被创立,并得到了世界范围内的注目,其中较为著名的有:始于2005年的Affective Computing and Intelligent Interaction 双年会,始于2009年的INTERSPEECH Emotion Challenge 年度竞赛,创刊于2010年的《IEEE Transactions on Affective Computing 》期刊以及始于2011年的International 自然语音语音信号采集情感特征提取数字语识别结果情感识别语音情感特征情感空间描述模型语料库韩文静等:语音情感识别研究进展综述39Audio/ Visual Emotion Challenge and Workshop(AVEC)年度竞赛等.同时,越来越多国家的大学或科研机构涉足到语音情感识别研究的工作中来,著名的有:贝尔法斯特女王大学Cowie和Douglas-Cowie领导的情感语音小组;麻省理工大学Picard领导的媒体研究实验室;慕尼黑工业大学Schuller负责的人机语音交互小组;南加州大学Narayanan负责的语音情感组;日内瓦大学Soberer领导的情绪研究实验室;布鲁塞尔自由大学Canamero领导的情绪机器人研究小组等.国内对语音情感识别研究的关注起始于21世纪初,经过近10年的发展,目前已有越来越多的科研单位加入该领域的研究,著名的有东南大学无线电工程系、清华大学人机交互与媒体集成研究所、模式识别国家重点实验室、浙江大学人工智能研究所和中国科学院语言研究所等.近10余年来,语音情感识别研究工作在情感描述模型的引入、情感语音库的构建、情感特征分析等领域的各个方面都得到了发展.Cowie等人[5]开发的FEELTRACE情感标注系统为语音情感数据的标注提供了标准化工具.Grimm等人[6,7]将三维情感描述模型(activation-evaluation-power space)引入到自发语音情感识别的研究中,并将维度情感识别问题建模为标准的回归预测问题.Grimm的工作为维度语音情感识别研究的发展争取到更多的关注,激发了维度语音情感识别的热潮[7−11].慕尼黑工业大学的Eyben等人[12]开发了面向语音情感特征提取的开放式工具包openSMILE,实现了包括能量、基频、时长、Mel倒谱系数等在内的常用语音情感特征的批量自动提取,并逐渐得到广泛认可[13,14].McKeown等人[15]以科研项目为依托,创建了一个以科学研究为目的的大型多媒体情感数据库SEMAINE,并提供了情感数据的维度标注结果,为语音情感识别的研究和发展提供了公开的、丰富的、高质量的自然情感语料.正是这些研究成果的不断涌现,为构建语音情感识别标准化平台做出了里程碑式的贡献.2 两类主流情感描述模型情感描述方式大致可分为离散和维度两种形式.前者将情感描述为离散的、形容词标签的形式,如高兴、愤怒等,在人们的日常交流过程中被广泛使用,同时还被普遍运用于早期的情感相关研究中.丰富的语言标签描述了大量的情感状态,那么,其中哪些情感状态的研究价值更具有普遍性呢?这个问题可以归结为对基本情感类别的确定.一般认为,那些能够跨越不同人类文化,甚至能够为人类和具有社会性的哺乳动物所共有的情感类别为基本情感.表1[16]列举了不同学者对基本情感的定义和划分,其中,美国心理学家Ekman提出的6大基本情感(又称为big six)在当今情感相关研究领域的使用较为广泛[17].Table 1Various definitions of emotion from different researchers[16]表1不同学者对基本情感的定义[16]学者基本情感Ekman, Friesen, Ellsworth Anger, disgust, fear, joy, sadness, surpriseFridja Desire, happiness, interest, surprise, wonder, sorrowGray Desire, happiness, interest, surprise, wonder, sorrowIzard Anger, contempt, disgust, distress, fear, guilt, interest, joy, shame, surpriseJames Fear, grief, love, rageMcDougall Fear, disgust, elation, fear, subjection, tender-emotion, wonderpleasure Mower Pain, Oatley, Johnson-Laird Anger, disgust, anxiety, happiness, sadnessPanksepp Anger, disgust, anxiety, happiness, sadnessPlutchik Acceptance, anger, anticipation, disgust, joy, fear, sadness, surpriseTomkins Anger, interest, contempt, disgust, distress, fear, joy, shame, surpriseWatson Fear, love rageWeiner, Graham Happiness, sadness后者则将情感状态描述为多维情感空间中的点.这里的情感空间实际上是一个笛卡尔空间,空间的每一维对应着情感的一个心理学属性(例如,表示情感激烈程度的激活度属性以及表明情感正负面程度的效价属性).理论上,该空间的情感描述能力能够涵盖所有的情感状态.换句话说,任意的、现实中存在的情感状态都可以在情感空间中找到相应的映射点,并且各维坐标值的数值大小反映了情感状态在相应维度上所表现出来的强弱40Journal of Software 软件学报 V ol.25, No.1, January 2014程度.由于维度情感模型使用连续的实数值来刻画情感,因此在有些文献中又被称作连续情感描述模型[18].一些既简单又能被广泛使用的维度情感描述模型有二维的激活度-效价空间理论(arousal-valence space)、三维的激励-评估-控制空间理论(valence-activation-dominancespace)[19]和情感轮理论(emotion wheel)[18]等.其中,激活度-效价空间理论如图2所示[18]:垂直轴是激活度维,是对情感激烈程度的描述;水平轴是效价维,是对情感正负面程度的评价.情感状态的日常语音标签和该坐标空间可以进行相互转化,通过对情感状态语言描述的理解和估计,就可以找到它在情感空间中的映射位置.两种表达模型各有千秋:从模型复杂度而言,离散描述模型较为简洁、易懂,有利于相关研究工作的着手和开展,而维度模型却要面对定性情感状态到定量空间坐标之间如何相互转换的问题;从情感描述能力的角度而言,离散情感模型的情感描述能力则显示出较大的局限性,多数情况下,它只能刻画单一的、有限种类的情感类型,然而人们在日常生活中所体验的情感却是微妙而多变的,甚至是复杂而模糊的(例如,人们在受到惊吓时所表现出来的情感不仅有吃惊,往往还包含害怕甚至恐惧的成分;又比如,人们对愉悦的表达可以呈现出若干的程度,可以从喜上眉梢,到眉飞色舞,再到手舞足蹈),可以说,离散描述方式和自发情感的描述之间还存在着较大的障碍,然而维度情感模型从多侧面、连续的角度进行情感的描述,很好地化解了自发情感的描述问题,并且以精确的数值很大程度上回避了离散情感标签的模糊性问题.最后,我们以表格的形式对两个情感描述模型之间的区别进行了直观的总结和展示,见表2.Table 2 Comparison of two emotional representation models表2 两种情感描述模型的区别 考察点离散情感描述模型 离散情感描述模型 情感描述方式形容词标签 笛卡尔空间中的坐标点 情感描述能力有限的几个情感类别 任意情感类别 被应用到语音情感识别领域的时期1980s 2000s 优点简洁、易懂、容易着手 无限的情感描述能力 缺点 单一、有限的情感描述能力无法满足对自发情感的描述将主观情感量化为客观实数值的过程是一个繁重且难以保证质量的过程3 具有代表性的情感语音数据库语音情感识别研究的开展离不开情感语音数据库的支撑.情感语音库的质量高低,直接决定了由它训练得到的情感识别系统的性能好坏.目前,领域内存在的情感语音库类型多样,并没有统一的建立标准,按照激发情感的类型可分为表演型、引导型、自然型这3个类别;按照应用目标可分为识别型和合成型两个类别;按照语种不同可分为英语、德语、汉语等.不同于一般文献中的分类方法,本文将依据情感描述模型的不同,将数据语料资源划分为离散情感数据库和维度情感数据库两个分支,二者的区别在于情感标注形式的不同,前者以离散的语言标签(如高兴、悲伤等)作为情感标注,而后者则以连续的实数坐标值表示情感.由此,我们称以语言标签进行标注的情感语料库为离散情感语料库,而以情感空间坐标值进行标注的语料库为维度情感语料库.目前,就国内外整个研究领域而言,以离散情感语料库居多,而维度情感语料库还有待丰富.本文将依照上述两个分支对当前国内外颇具代表性的情感语音库进行简要综述.它们虽然没有涵盖领域内大部分的语音资源,但都是经过精挑细选的、语料质量较高、影响较为广泛的情感语音库.若需了解更多的情Fig.2 Arousal-Valence emotional space图2 激活度-效价情感空间韩文静等:语音情感识别研究进展综述41感语料库情况,可以参考文献[20−22]中的相关内容.3.1 离散情感数据库一个离散情感数据库一般包括有限的几类基本情感类型,并且希望每类情感的演绎都能达到单一、浓重、易辨识的标准,然而这恰恰是生活化的自然语音难以满足的.因此,目前的离散情感数据库多属于表演型或者引导型,或者二者的融合.例如,下面列举的代表性数据库中只有FAU AIBO属于自然型.3.1.1 Belfast英语情感数据库Belfast情感数据库[5,23]由Queen大学的Cowie和Cowie录制,由40位录音人(18岁~69岁,20男20女)对5个段落进行演绎得到.每个段落包含7~8个句子,且具有某种特定的情感倾向,分别为生气/anger、悲伤/sadness、高兴/happiness、恐惧/fear、中性/neutral.3.1.2 柏林EMO-DB德语情感语音库DMO-DB[24]是由柏林工业大学录制的德语情感语音库,由10位演员(5男5女)对10个语句(5长5短)进行7种情感(中性/nertral、生气/anger、害怕/fear、高兴/joy、悲伤/sadness、厌恶/disgust、无聊/boredom)的模拟得到,共包含800句语料,采样率48kHz(后压缩到16kHz),16bit量化.语料文本的选取遵从语义中性、无情感倾向的原则,且为日常口语化风格,无过多的书面语修饰.语音的录制在专业录音室中完成,要求演员在演绎某个特定情感前通过回忆自身真实经历或体验进行情绪的酝酿,来增强情绪的真实感.经过20个参与者(10男10女)的听辨实验,得到84.3%的听辨识别率.3.1.3 FAU AIBO儿童德语情感语音库FAU AIBO[25]录制了51名儿童(10岁~13岁,21男30女)在与索尼公司生产的电子宠物AIBO游戏过程中的自然语音,并且只保留了情感信息明显的语料,总时长为9.2小时(不包括停顿),包括48 401个单词.语音通过一个高质量的无线耳麦进行收集,并由DAT-recorder录制,48kHz采样(而后压缩到16kHz),16bit量化.为了记录真实情感的语音,工作人员让孩子们相信AIBO能够对他们的口头命令加以反应和执行,而实际上,AIBO则是由工作人员暗中人为操控的.标注工作由5名语言学专业的大学生共同完成,并通过投票方式决定最终标注结果,标注共涵盖包括joyful,irritated,angry,neutral等在内的11个情感标签.该数据库中的18 216个单词被选定为INTERSPEECH 2009年情感识别竞赛用数据库[26].3.1.4 CASIA汉语情感语料库该数据库(/resource_info.php?rid=76)由中国科学院自动化研究所录制,由4位录音人(2男2女)在纯净录音环境下(信噪比约为35db)分别在5类不同情感下(高兴、悲哀、生气、惊吓、中性)对500句文本进行的演绎得到,16kHz采样,16bit量化.经过听辨筛选,最终保留其中9 600句.3.1.5 ACCorpus系列汉语情感数据库该系列情感数据库(/accenter/fruit/database.html)由清华大学和中国科学院心理研究所合作录制,包含5个相关子库:1) ACCorpus_MM多模态、多通道的情感数据库;2) ACCorpus_SR情感语音识别数据库;3) ACCorpus_SA汉语普通话情感分析数据库;4) ACCorpus_FV人脸表情视频数据库;5) ACCorpus_FI人脸表情图像数据库.其中,ACCorpus_SR子库共由50位录音人(25男25女)对5类情感(中性、高兴、生气、恐惧和悲伤)演绎得到,16kHz采样,16bit量化.每个发音者的数据均包含语音情感段落和语音情感命令两种类型.3.2 维度情感数据库对维度情感语音数据库的建立而言,由于维度情感描述模型的使用,使得数据的采集不再受情感类别的制约,理论上,蕴含任意情感信息的自然语音都可以被收纳到数据库中.然而,接下来的维度情感标注工作却显得并不轻松.目前而言,维度情感的标注工作一般都是基于打分制进行的(例如著名的情感标注工具FEELTRACE[5]),即要求标注者在各个情感维度上对语音中的情感程度进行听辨,并赋以合适的分值.然而看似简单的打分工作,实际上却伴随了标注者们“将主观情感直接量化为客观实数值”的思考过程,尤其是当数据量42 Journal of Software软件学报 V ol.25, No.1, January 2014变得庞大时,相应的标注工作也会变得枯燥、劳累、令人难以忍受.近些年来,随着研究者们对维度情感识别领域的关注,尤其是维度情感识别竞赛(例如,2012年Continuous AVEC 2012[14])的开展,一些公开的维度情感数据库逐渐被发布出来.3.2.1 VAM数据库VAM数据库[27]是一个以科学研究为目的的无偿数据库,通过对一个德语电视谈话节目“Vera am Mittag”的现场录制得到,语音和视频被同时保存,因此,数据库包含语料库、视频库、表情库这3个部分.谈话内容均为无脚本限制、无情绪引导的纯自然交流.以VAM-audio库为例,该子库包含来自47位节目嘉宾的录音数据947句, wav格式,16kHz采样,16bit量化.所有数据以句子为单位进行保存(1 018句),标注在Valence,Activation和Dominance这3个情感维度上进行,标注值处于−1~1之间.标注工作由多个标注者共同完成,最终的情感值是相关标注者的平均值.VAM-audio是一个应用较为广泛的情感语料库,在本文的后续研究中也会加以使用.3.2.2 Semaine数据库Semaine[15]数据库是一个面向自然人机交互和人工智能研究的数据库,可供科研人员无偿使用(http:// semaine-db.eu/).数据录制在人机交互的场景下进行,20个用户(22岁~60岁,8男12女)被要求与性格迥异的4个机器角色进行交谈(实际上,机器角色由工作人员扮演).这4个角色分别是:1) 温和而智慧的Prudence;2) 快乐而外向的Poppy;3) 怒气冲冲的Spike和4) 悲伤而抑郁的Obadiah.录音过程在专业配置录音室内进行,同时有5个高分辨率、高帧频摄像机和4个麦克风进行数据的收集,其中,音频属性为48kHz采样,24bit量化,数据时长在7小时左右.标注工作由多个参与者借助标注工具FEELTRACE[5]在Valence,Activation,Power, Expectation和Intensity这5个情感维度上进行.该数据库中的部分数据被用于AVEC 2012的竞赛数据库[14]. 3.3 语音情感特征提取当前,用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征这3种类型.这些特征常常以帧为单位进行提取,却以全局特征统计值的形式参与情感的识别.全局统计的单位一般是听觉上独立的语句或者单词,常用的统计指标有极值、极值范围、方差等.3.3.1 韵律学特征韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排.它的存在与否并不影响我们对字、词、句的听辨,却决定着一句话是否听起来自然顺耳、抑扬顿挫.韵律学特征又被称为“超音段特征”或“超语言学特征”,它的情感区分能力已得到语音情感识别领域研究者们的广泛认可,使用非常普遍[28−31],其中最为常用的韵律特征有时长(duration)、基频(pitch)、能量(energy)等.Luengo等人[31]在一个Basque情感语音数据的基础上进行了一系列的韵律特征分析研究,他们首先为每个情感语句提取能量和基频曲线和对数曲线,然后继续为各条曲线计算相应的一阶差分和二阶差分曲线,最后统计出每条曲线的最大值、最小值、均值、方差、变化范围、偏斜度(skewness)、峰度(kurtosis),从而获得了84个特征组成的韵律特征集.经过特征选择与分析,最后共有基频均值、能量均值、基频方差、基频对数的斜交、基频对数的动态范围和能量对数的动态范围这6维特征被认为具有最佳的情感区分能力.Origlia等人[32]使用基频和能量相关的最大值、最小值、均值、标准差组成了一个31维的韵律特征集,在一个包含有意大利语、法语、英语、德语在内的多语种情感语料库上取得接近60%的识别率.Seppänen等人[33]使用基频、能量、时长相关的43维全局韵律特征进行芬兰语的情感识别,在说话人不相关的情形下取得了60%的识别率.Iliou等人[30]和Wang等人[34]则分别将基频、能量、时长的韵律特征用于德语的说话人不相关的情感识别和汉语普通话情感的说话人相关的情感识别,分别得到了51%和88%的识别率.除此之外,学者们还针对韵律特征与特定情感类型之间的关联上展开了研究[3,19,35−38],这些研究工作进一步验证了韵律特征区分情感的性能,但也出现了一些不甚一致的结论.例如,Murray等人认为,较快的语速与愤怒的情感相关;而Oster等人却在文献[35]中给出了相反的结论.再者,学者们还发现:韵律特征区的情感区分能力是十分有限的.例如,愤怒、害怕、高兴和惊奇的基频特征具有相似的表现[3,36].。