语音情感识别中特征参数的研究进展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
传感器与微系统(Transducer and Microsystem Technologies)2012年第31卷第2期
语音情感识别中特征参数的研究进展*
李杰1,周萍2
(1.桂林电子科技大学计算机科学与工程学院,广西桂林541004;
2.桂林电子科技大学电子工程与自动化学院,广西桂林541004)
摘要:语音情感识别是近年来新兴的研究课题之一,特征参数的提取直接影响到最终的识别效率,特征
降维可以提取出最能区分不同情感的特征参数。提出了特征参数在语音情感识别中的重要性,介绍了语
音情感识别系统的基本组成,重点对特征参数的研究现状进行了综述,阐述了目前应用于情感识别的特征
降维常用方法,并对其进行了分析比较。展望了语音情感识别的可能发展趋势。
关键词:语音;情感识别;特征参数;特征降维
中图分类号:TP391文献标识码:A文章编号:1000—9787(2012)02—0004—04
Research progress on feature parameters of speech
emotion recognition*
LI Jie1,ZHOU Ping2
(1.School of Computer Science and Engineering,Guilin University of Electronic Technology,Guilin541004,China;2.School of Electric Engineering and Automation,Guilin University of Electronic Technology,Guilin541004,China)
Abstract:Speech emotion recognition is one of the new research projects,the extraction of feature parameters
extraction influence the final recognition-rate efficiency directly,dimension reduction can extract the most
distinguishing feature parameters of different emotions.The importance of feature parameters in speech emotion
recognition is point out.The system of speech emotion recognition is introduced.The common methods of feature
parameters is detailed.The common methods of dimension reduction which are used in emotion recognition are
compared and analyzed.The development of speech emotion recognition in the future are prospected.
Key words:speech;emotion recognition;feature parameter;dimension reduction
0引言
随着计算机技术的高速发展和人类对计算机依赖性的不断增强,人机交流变得越来越普遍,人机交互能力也越来越受到研究者的重视,语音情感识别就是人机交互与情感计算的交叉研究领域。语音中的情感之所以能够被识别与表达,是因为语音特征在不同情感状态下的表现不同。因此,很多研究者对特征与情感类别之间的对应关系产生了浓厚的兴趣并进行了深入的探讨。Murray I和Amott J L完成的实验得出了基频、能量、时长等韵律特征,以及语音质量特征与情感之间的定性关系[1],使得韵律学特征成为语音情感识别的常用特征。此后,研究者又加入了共振峰参数和语音学特征,如MFCC,使得韵律学特征与语音学特征结合识别情感。通常在利用这些基本特征进行研究时,还需要求出其派生特征和各种统计特征,如范围、均值和方差等,并把它们组成特征向量。由于到目前为止,声学特征与情感状态的对应关系缺乏统一的结论,为了尽可能保留有意义的信息,研究者只能在研究中保留这维数少则几十条多则上百条的特征向量。但根据模式识别的理论,高维特征集合不仅不会提高识别率,还会造成“维数灾难”[2]。大量的研究表明:语音情感识别的关键就在于从数量众多的特征中求得高效的情感声学特征组,这就需要用到特征降维技术。
目前,已有数篇综述文献总结了语音情感识别的研究成果[3 6],但主要都是针对识别算法的研究进展进行综述。本文从模式识别的角度对目前语音情感识别研究中所采用的特征降维技术进行总结,并对近几年提出的情感特征参数进行阐述。
1语音情感识别系统的概述
基于语音的情感识别大致分为预处理、特征提取和情感分类三步,大致框架如图1所示。特征提取作为情感分
收稿日期:2011—07—20
*基金项目:国家自然科学基金资助项目(60961002)4
第2期李杰,等:语音情感识别中特征参数的研究进展
类的前向步骤,能直接影响到最终的识别效率,是从输入的语音信号中提取能够区分不同情感的参数序列。在提取特征数据时,为获得最优特征子集还需进行对特征降维。
图1语音情感识别系统
Fig1Speech emotion recognition system
2语音情感特征参数
本文从发音语音学和声学语音学两方面出发,将语音情感分为基于发音特征参数和基于声学特征参数。
2.1基于发音特征参数
此类特征按照语音信号生成的数学模型不同,分为线性激励源—滤波器(source-filter)语音生成模型特征和非线性语音生成模型特征。
2.1.1线性激励源—滤波器语音生成模型特征
在激励系统中,声门每开启和闭合一次的时间就是基音周期,其倒数称为基频,决定了语音的音调高低。由于语音是声门激励信号和声道冲激响应的卷积,直接对语音提取基音周期将受到声道共振峰的影响,所以,需要先求出声门激励信号(声门波)。获得声门波的常用方法有线性预测法和倒谱分析法,都是基于声道建模,通过逆滤波消除共振峰的影响得到声门波。由于这2种方法只是对声道传输特性的近似,故通过逆滤波得到的声门波差分波形频谱都会不可避免地带有“波纹”。为了准确估计声门波参数,研究者提出了对声门波进行参数建模的方法,其中LF[7]模型最常用。赵艳等人[8]将通过该方法提取的音质参数运用到情感识别中去,取得了不错的识别率。
归一化振幅商(normalized amplitude quotient,NAQ)是由文献[9]提出的,一种新的用来刻画声门激励特性的时域参数。Airasm A P[10]和白洁等人[11]分别比较了连续语音中单一元音的较短片段、整句及元音段NAQ值的情感识别效果,实验表明了元音段的NAQ值是一种具有判别力的语音情感特征。
共振峰是当声音激励进入声道引起共振产生的一组共振频率。不同情感的发音可能使声道有不同的变化,因此,共振峰是反映声道特性的一个重要参数。提取共振峰参数的方法主要有倒谱法和线性预测法(LPC)。
2.1.2非线性模型特征
传统的线性声学理论认为,声音的产生取决于声带的振动和声道内的激励源位置。而Teager H等人[12]认为声源是声道内非线性涡流的交互作用。为度量这种非线性过程产生的语音,文献[12]提出了能量操作算子(teager ener-gy operator,TEO)。随着TEO的提出,许多基于TEO的特征被用于识别语音中的情感。文献[13]将多分辨率自带分析与TEO结合,提出一种新的特征参数TEOCEP,其识别性能优于使用短时能量的自带倒谱参数。高慧等人[14]结合小波分析将不同形式的TEO与MFCC结合提出了5种非线性特征,当与文本有关时,这些特征语音情感识别的效果优于MFCC。林奕琳[15]将基于TEO的非线性特征用于带噪语音情感的识别,证明了上述特征具有较高鲁棒性。
2.2基于声学特征参数
2.2.1听觉模型特征
研究者发现人耳在嘈杂的环境中之所以仍能正常地分辨出各种声音,耳蜗是其中的关键所在。耳蜗相当于一个滤波器组,在低频区呈线性关系,在高频区呈对数关系,从而使得人耳对低频信号更敏感。根据这一原则,研究者根据心理学实验得到了类似于耳蜗作用的一组滤波器组——Mel频率滤波器组。研究者又利用这一原理和倒谱的解相关特性提出了Mel频率倒谱系数(Mel frequency cepstrum coefficient,MFCC)。MFCC在语音情感识别领域已经得到广泛的应用。
2.2.2非基于模型特征
这类特征通常不假设语音模型,如语速、短时平均过零率、发音持续时间和能量等,文献[5]对这些特征进行了详细的叙述。研究者发现以往常被用于诊断喉部疾病的谐波噪声比(HNR)可以有效评估说话人嗓音嘶哑程度,余华[16],赵艳等人[8]已把HNR作为特征参数成功运用于语音情感识别当中。
3特征降维
高维数据特征不仅可能造成维数灾难,而且其可能存在较大的数据冗余,影响识别的准确性。为了有效地进行数据分析,提高正确识别率和降低计算工作量,特征降维就显得异常重要。特征降维包括特征抽取和特征选择。特征抽取是用全部可能的变量把数据变换(线性或非线性变换)到维数减少了的数据空间上。特征选择是选出有用的或重要的特征,而去除其他的特征。
3.1特征抽取
3.1.1线性特征抽取算法
主成分分析(principal component analysis,PCA)和线性判别分析(linear discriminant analysis,LDA)是最常用的线性特征抽取算法。PCA因未能利用原始数据中的类别信息,降维后的数据有时反而不利于模式分类,直接用于语音情感识别时效果并不好。LDA考虑了训练样本的类别信息,强调了不同类别样本之间的分离,用于语音情感识别时取得了良好的识别率[17]。文献[2]针对PCA,LDA在不同性别、不同情感状态有不同的识别表现,设计了结合PCA
5