基于时序深度学习模型的语音情感识别方法研究

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于时序深度学习模型的语音情感识别方法研究随着语音识别技术的成熟,人们对语音情感识别技术的呼声越来也高,因为语音情感识别技术的发展将使机器步入更加人性化的时代,同时在很多领域都有不可估量的作用,如汽车驾驶、医疗服务、远程教育、疾病诊断等。但目前语音情感识别技术还未达到实用的程度,一方面因为情感活动本身是一种复杂的生理过程,另一方面用于语音情感识别的数据库、模型等还需要进一步的开发。本文从语音情感识别模型出发,针对传统长短时记忆模型(Long-Short Term

Memory,LSTM)对所有语音帧信息都要学习的问题,认为情感语音的帧序列中分为情感帧和非情感帧,并提出面向情感语音识别的LSTM-CTC 时序深度学习模型,通过联结主义时间分类(Connectionist temporal classification,CTC)方法自动对齐能力将情感标签对齐

到语音中的情感帧上。在IEMOCAP情感数据库使用4类情感进行话者独立实验(高兴、悲伤、中性、生气)取得了65.7%(UAR)和64.2%(WAR)的识别性能,比目前性能最好的LSTM-ELM模型提高了2.3%(UAR)和1.8%(WAR)。接着,针对LSTM-CTC模型中对语音情感帧一视同仁的问题,分析认为语音情感中每一个情感帧的情感信息含量不同,所以本

文从注意力机制角度出发提出Att RNN-RNN时序深度学习模型,将语音情感识别过程看作是一个编解码问题,考虑到人类的注意力具有从整体到局部的变化特性,使用LSTM作为解码器在每个时间步中计算

注意力进行情感识别推断,模拟人类的注意力转变过程。在IEMOCAP 数据库的四类情感识别上,获得了67.6%(UAR)和67.5%(WAR)的性能,

优于LSTM-CTC模型。但是考虑到CTC方法具有将情感标签与语音帧自动对齐的特性,为了充分利用这一优势,在Att RNN-RNN模型基础上引入CTC方法,提出Attention-CTC融合模型,通过共用一个情感语义编码器,将CTC方法和Attention机制联系起来,CTC负责对齐语音中的情感关键帧,Attention机制负责在不同情感帧中抽取不同程度的信息进行学习。此模型在IEMOCAP库上取得了70.3%(UAR)和

65.1%(WAR)的识别性能。最后,本论文实现一个在线语音情感识别系统——OESERS系统,将上述的研究成果转化为实际应用产品。系统采用Client/Server结构,具有良好的识别性能、友好的人机交互界面和大规模并发任务处理能力。该系统为三星Bixby语音助手提供语音情感识别支持。本文的研究工作为目前语音情感识别领域中存在的关键性问题提供了有效的改进方案,经过实验证明,本文所提出的时序深度学习模型对语音情感识别任务效果显著,同时也为深度学习技术在处理时序序列问题上提供了新的思路和方向。