结合语谱图和神经网络的语音情感识别

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

结合语谱图和神经网络的语音情感识别

语音作为人们日常交流最重要的方式之一,其中蕴含了大量的跟

情感相关的信息。随着近年来人工智能的发展以及技术研究的深入,

使得人机交互成为了当今的研究热点,让机器具备跟人一样能识别和

表达情感的能力成为研究者们的目标,语音情感识别的重要性也日益

凸显出来。语音情感识别是语音处理领域富有挑战性的课题之一,它

的应用非常广泛,因此,这项研究具有重要的理论意义和应用前景。目前,在语音特征提取方面,大多数研究者选择的是韵律特征、音质特征或者是基于谱的特征,而把时域和频域结合在一起的研究则相对较少。而语谱图具有把时域信息和频域信息结合在一起的特点,它本身就包

含了大量跟语音相关的信息,因此本文选用语谱图来提取语音情感特征。本文的主要研究工作如下:1)阐述了语音情感识别的研究背景和

意义,对语音情感识别的研究历史和现状做了简单的归纳总结,研究

情感分类的模型、常用的语音情感数据库。2)对语音情感数据的预处理能够提高分析精确度,本文对语音的预处理包括预加重、分帧加窗

和端点检测,经过预处理之后,提取出语音信号的基音频率、短时能量、短时过零率、共振峰和梅尔倒谱系数等参数组成情感特征矢量。3)

在简单研究人工神经网络的发展、基本的模型、分类的基础上,运用

典型的多层感知器——BP(Back Propagation)网络进行语音情感识

别的实验,并运用增加动量项对BP网络进行优化。实验结果表明,改

进的BP网络的识别率高于普通的BP网络。4)研究典型的深度学习网络结构——卷积神经网络(Convolutional Neural Network,CNN),并

将其与传统的人工神经网络进行了对比,重点研究CNN的基本原理和优势。本文提出将语谱图和CNN结合进行语音情感识别的研究,通过实验找到最佳的网络模型结构,在不同的环境以及不同的信噪比下进行对比实验,并选用softmax和支持向量机(Support Vector Machine,SVM)两种不同分类器做对比。为了更进一步的验证算法的有效性,将实验在不同的语音库上进行。实验结果表明,将语谱图和CNN 相结合的方法大大地提高了语音情感的识别率,并且使用SVM作为分类器效果比softmax的识别效果更好。