基于深度学习的语音情感识别建模研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于深度学习的语音情感识别建模研究

随着计算机技术的发展和人工智能的普及,语音情感识别研究收到学界和工业届的广泛关注。目前的情感识别任务大多采用人工提取多种声学特征并物理降维,构建特征工程的方法,提升识别结果。本文旨在探究语音中情感信息的表达,了解语音中情感信息的变与不变,

从语音中提炼出情感的本质特征,并搭建最合适的表征情感信息的网络结构。基于以上研究重点,本文内容包括以下几个部分:1.研究了基于传统声学特征的情感识别网络在大量的声学特征中,对现有数据做统计分析筛选出声学特征及其统计特征,搭建有效且完备的情感特征工程。从物理意义上出发,筛选合理的表达情感的特征并验证它们的有效性;从数学统计层面考虑,使用卡方检验做特征选择,去除特征集合的冗余信息,提高网络训练效率,构建完备的特征工程。2.研究了基于语谱图的深度学习情感识别网络语谱图几乎包含了所有的语音特征,二维频谱结构既可以体现谐波等激励源特征,又可以分析倒谱、共振峰等声道特性。深度神经网络引入非线性信息,具有自主学习输入数据特征的优点。搭建基于语谱图的深度学习情感识别网络,选用局部感知和跳跃连接的ResNet网络,并基于卷积核权重系数做出改进。再此基础上,搭建ResNet-LSTM网络,对ResNet网络学出的高层情感特征进行时序建模。3.引入了注意力机制,研究了低级描述符和高层语义信息的特征融合将经过验证的可以表征情感信息的声学特征集

合作,与ResNet-LSTM网络学习到的语音信号的高层语义信息进行融合,将融合后的特征经过DN-N网络分类输出,增加深度学习的解释性

和人工辅助。此外,引入注意力机制,探索语音中的关键帧信息。将学习到的注意力作为权重系数加入到人工提取的低级描述符特征中,并将它应用于特征融合实验。本文主要从情感的产生和感知层面出发,落实到特征和网络两个研究重点上展开工作,产生上探究如何构建具有情感表征意义的完备的特征集合,感知上从网络结构入手,尝试搭建具有情感认知的网络结构,并通过注意力机制讨论语音情感的局部关键性,结合产生、感知、和局部特性探讨语音情感的表达。

相关文档
最新文档