多粒度特征融合的维度语音情感识别方法

合集下载

基于视音频多特征融合的情感识别研究

基于视音频多特征融合的情感识别研究

基于视音频多特征融合的情感识别研究伴随着这几十年来人工智能技术突飞猛进的发展,情感识别得到了越来越多研究者们的关注。

计算机只有拥有人类的情感才能真正的实现智能化,而情感识别是其首要考虑的问题。

本文提出新的特征描述子,再通过多个视频特征的融合,结合具有判别力的音频特征,显著提高了视音频情感识别的效果。

本文主要的研究工作如下:1、针对视频表情识别大多数是基于静态图片的,缺乏时域信息,本文提出新的特征描述子——时空多值韦伯特征提取算法(STMWLD),STMWLD不仅可以提取时空域信息,还可以细化纹理信息。

再融合具有互补性的全局特征(CNN、Gist)和局部特征(LBP、STMWLD),经过KECA+DMCCA融合框架不但实现了特征的有效融合,而且显著降低了冗余信息。

论证了单一特征往往不能充分描述人脸的面部特征信息,需要将不同的具有互补性的特征进行融合,才能有效提高表情识别率。

2、自建自然表情视频库。

目前面部表情的识别大多处于实验研究阶段,实际自然场景中的表情不止仅限于标准数据库中的六种表情,并且真实场景中的表情识别易受各种复杂因素的影响。

为了更为准确的反应真实复杂自然场景中视频表情识别的效果,本文自制视频表情数据库,采用以上提出的多特征融合方法,在该自建数据库上的情感识别率达到55.45%。

3、双模态情感识别。

为了更有利于提高情感识别的精度,本文采用视音频特征融合的双模态情感识别方法。

利用上述互补性特征作为视频特征,利用最有判别力的25个韵律特征和MFCCs作为音频特征。

由于视音频特征之间存在一定的差异性,本文采用MKL-SVM解决该问题。

最终实验分别在标准数据库RML和SAVEE上进行,实验结果表明双模态多特征融合的情感识别效果明显好于单模态的,且视音频情感识别率平均分别达到78.82%和87.64%,更进一步的提高了视频情感识别率。

基于多特征融合的藏语语音情感识别

基于多特征融合的藏语语音情感识别

现代电子技术Modern Electronics Technique2023年11月1日第46卷第21期Nov. 2023Vol. 46 No. 210 引 言语音情感识别(Speech Emotion Recognition, SER )是实现人机交互的重要发展方向,其主要有语音情感数据库构建、语音情感特征提取和分类模型三大方面[1]。

由于影响语音情感识别的因素很多,其中不同的语言对情感的表达影响是很大的,这就让语音情感特征提取成为一个重要的研究方向。

深度学习的发展让提取特征变得容易,但是只有输入最能表征语音情感的手工特征,深度学习模型才能从中提取最好的深度特征,得到更好的效果。

为了提高藏语语音情感识别率,本文提出了一种基于藏语的语音情感特征提取方法,通过藏语本身的语言特点手工提取出一个312维的藏语语音情感特征集(TPEFS ),再通过长短时记忆网络(Long Short Term Memory Network, LSTM )提取深度特征,最后对该特征进行分类。

藏语语音情感识别结构如图1所示。

基于多特征融合的藏语语音情感识别谷泽月1, 边巴旺堆1,2, 祁晋东1(1.西藏大学 信息科学技术学院, 西藏 拉萨 850000; 2.信息技术国家级实验教学示范中心, 西藏 拉萨 850000)摘 要: 藏语语音情感识别是语音情感识别在少数民族语音处理上的应用,语音情感识别是人机交互的重要研究方向,提取最能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别的重要研究内容。

基于此,为了构建具有高效性和针对性的藏语语音情感识别模型,文中构建了一种藏语语音情感数据集(TBSEC001),并提出一种适合于藏语的手工语音情感特征集(TPEFS ),该特征集是在藏语与其他语言的共性和特性的基础上手工提取得到的,TPEFS 特征集在支持向量机(SVM )、多层感知机(MLP )、卷积神经网络(CNN )、长短时记忆网络(LSTM )这些经典网络中都取得了不错的效果。

基于多粒度语义分析的文本情感识别技术研究

基于多粒度语义分析的文本情感识别技术研究

基于多粒度语义分析的文本情感识别技术研究随着社交媒体的普及,人们越来越倾向于在网上发布自己的情感状态,这促进了文本情感识别技术的应用。

文本情感识别技术旨在通过分析文本语言中的情感信息,识别出文字发表者表达的情感态度。

多粒度语义分析是一种文本情感识别技术,它能够更准确地分析文本中的情感。

多粒度指的是从句子、词组、词语等多个层面进行语义分析。

这种方法可以克服单一粒度分析技术在情感处理上存在的偏差和误差,提高情感识别的准确率。

多粒度语义分析的核心思想是对语言中的词汇进行分析,从而确定它们之间的关系。

通过多层次的分析,可以理解文本的整体意思,从而更好地识别情感。

多粒度语义分析中常用的技术包括:基于规则的方法、基于统计学习的机器学习方法、基于深度学习的神经网络方法等。

基于规则的方法是运用人们的语言规则和常识进行情感分析。

这种方法需要专业人员对语言规则和情感词典进行维护。

缺点是需要大量的人力资源,且准确率相对较低。

基于统计学习的机器学习方法是通过训练机器学习模型,从而对文本情感进行识别。

通过大量的数据训练,这种方法可以提高准确率,但对于数据集过小、数据噪声过多的情况,准确率会受到较大影响。

基于深度学习的神经网络方法则是近年来比较流行的一种技术,通过构造多层神经网络来分析文本中的情感信息。

这种方法的优势是对数据的处理更加精细,可以有效地处理大量文本并提高准确率。

缺点是需要大量的训练数据和计算资源。

总之,多粒度语义分析是目前研究文本情感识别技术中的重要方法。

随着大数据和人工智能技术的不断发展,多粒度语义分析的应用前景也越来越广阔,将为人们生活带来更多便利。

基于D-S证据的多语段融合语音情感识别

基于D-S证据的多语段融合语音情感识别

基于D-S证据的多语段融合语音情感识别陆捷荣;詹永照;毛启容【摘要】为获得更丰富的情感信息、有效识别长语音的情感状态,提出基于D-S证据理论的多粒度语段融合语音情感识别方法.采用2种分段方法对语音样本分段,用SVM对语段进行识别,再利用D-S证据理论对各语音段识别结果进行决策融合,得到2种分段方法下语音的情感识别结果,将这2个识别结果进一步融合得到最终结果.实验结果表明,该方法具有较好的整体识别性能,能有效提高语音情感的识别率.【期刊名称】《计算机工程》【年(卷),期】2010(036)018【总页数】3页(P205-207)【关键词】语音情感识别;支持向量机;D-S 证据理论;语句分段;决策融合【作者】陆捷荣;詹永照;毛启容【作者单位】江苏大学计算机科学与通信工程学院,江苏,镇江,212013;江苏大学计算机科学与通信工程学院,江苏,镇江,212013;江苏大学计算机科学与通信工程学院,江苏,镇江,212013【正文语种】中文【中图分类】TP391.421 概述由于以往的语音情感识别方法大多比较单一,因此识别率的提高十分有限。

最近,研究人员提出了将信息融合技术与语音情感识别相结合的方法,主要分为特征层融合[1]和决策层融合[2-3]的两大类识别方法。

文献[2]将语句按固定帧数分段后利用ACON神经网络进行识别,再采用投票制方法融合各语段的识别结果,该方法通过语音分段比基于语句的识别方法获得更多的特征信息,但是投票法的融合决策规则简单,不能很好地处理语段结果冲突较大的情况,因此整体识别效果的提升不明显。

文献[3]提出对语句按固定长度比例分段后由 SVM 识别,采用决策模板来融合各段的识别结果,但该方法需为每类情感分别训练一个决策模板,测试时计算样本与各情感模板的相似度,再根据决策规则得到最终结果,决策融合的计算量较大,且当情感类别数或语句分段数改变时需重新训练模板。

为获得更丰富的情感特征信息并有效处理语句分段识别后的不确定性,本文提出基于D-S证据理论[4-5]的多粒度语段融合语音情感识别方法,能在提高一种甚至几种情感识别效果的基础上提高整体识别率。

基于多模态特征提取与融合的语音情感识别方法

基于多模态特征提取与融合的语音情感识别方法

在语音情感识别方面,基于多模态特征提取与融合的方法是一种重要的研究方向。

通过综合利用语音、文本、图像和其他多种信息,可以提高情感识别的准确性和鲁棒性。

本文将从多个层面探讨基于多模态特征提取与融合的语音情感识别方法,以期帮助读者深入理解并掌握这一领域的研究进展。

1. 多模态特征提取的意义与重要性多模态特征提取意味着从不同的信息源中获取语音情感的相关特征,例如从语音信号中提取声音特征,从文本中提取情感词汇特征,从图像中提取面部表情特征等。

这种跨领域的信息融合可以帮助识别情感时更全面地考虑到不同信息源的贡献,从而提高情感识别的准确性和鲁棒性。

2. 多模态特征融合的方法与模型在语音情感识别中,多模态特征融合可以采用不同的方法和模型,常见的包括深度学习模型、集成学习模型和注意力机制模型等。

这些模型能够将来自不同信息源的特征进行有效地融合,并能够更好地挖掘出不同信息源之间的关联,从而提高情感识别的效果。

3. 个人观点与理解在我看来,基于多模态特征提取与融合的语音情感识别方法是未来语音识别领域的重要发展方向。

通过充分利用不同信息源的特征,可以更好地表达和理解语音中的情感信息,从而在情感识别任务中取得更好的效果。

我认为未来的研究还可以进一步探索不同信息源之间的相关性,以及如何更好地融合这些信息来提高情感识别的性能。

总结回顾通过本文的探讨,我们深入了解了基于多模态特征提取与融合的语音情感识别方法。

这种方法的意义与重要性在于可以全面地考虑不同信息源对情感识别的贡献,因此在未来的研究中将会有更大的发展空间。

希望本文能够帮助读者更全面、深入和灵活地理解这一领域的研究进展。

通过以上文章,从浅入深地介绍了基于多模态特征提取与融合的语音情感识别方法。

希望这篇文章能帮助你更好地理解并掌握这一重要研究方向。

随着智能技术的发展,情感识别在人机交互、情感智能等领域具有广泛的应用前景。

然而,传统的语音情感识别方法往往依赖于单一信息源,难以全面准确地表达语音中的情感信息。

融合多元信息的多方对话情感识别方法研究

融合多元信息的多方对话情感识别方法研究

融合多元信息的多方对话情感识别方法探究随着社交媒体和即时通讯工具的普及和进步,人们之间的交往和信息传递已经不再局限于传统的语言沟通方式。

现如今,人们在社交媒体上使用的各种文字、表情、语气、声音和图像等多元信息已经成为人们沟通的重要组成部分。

这些多元信息的同时存在也使得面对面沟通时的情感识别、沟通和互相理解变得更为复杂和困难。

为了解决这一问题,本文提出了一种基于融合多元信息的多方对话情感识别方法。

该方法基于多源信息处理和深度进修技术,结合自然语言处理、图像处理和声音处理等多模态信息,通过多方对话数据之间的交互进修来实现情感分类。

本文对该方法进行了试验验证和分析,取得了不错的效果和结果,为今后的多方对话情感识别和探究提供了借鉴和参考。

关键词:社交媒体;多元信息;多方对话;情感识别;深度进修第一章绪论1.1 探究背景社交媒体和即时通讯工具的普及,使得人们之间的交往和信息传递不再局限于传统的语言沟通方式。

现如今,人们在社交媒体上使用的各种文字、表情、语气、声音和图像等多元信息已经成为人们沟通的重要组成部分。

这些多元信息的同时存在也使得面对面沟通时的情感识别、沟通和互相理解变得更为复杂和困难。

情感识别作为人机交互和自然语言处理领域的重要探究课题,在社交媒体中得到了广泛的应用和探究。

然而,在多方对话场景中,情感识别的复杂度更高,需要思量不同角色之间的交互,以及不同信息之间的加权干系,这就需要通过融合多元信息来实现情感分类。

1.2 探究现状随着社交媒体和即时通讯工具的普及和进步,人们对多方对话情感识别的需求也在不息增加,同时也推动着情感识别技术的快速进步和更高层次的探究。

目前,在情感识别领域已经出现了不少基于深度进修的情感分类方法,如卷积神经网络、循环神经网络、注意力模型和多模态模型等。

在多模态模型中,探究者们通常会融合多个模态的信息,如文本、图像、音频和视频等,以增加情感分类的准确性和鲁棒性。

同时,多模态模型也可以依据不同场景的需求进行灵活的调整和组合,从而达到更好的性能表现。

基于D-S证据的多语段融合语音情感识别

基于D-S证据的多语段融合语音情感识别

分段方法对语音样本分段 ,用 S M 对语 段进行 识别 ,再利用 D S证据理论对各语音段识 男结果进行决策 融合 ,得到 2 V — Ⅱ 种分段方法下语音 的情感识别结果 ,将这 2 个识另 结果进 一步融合得到最终结果 。实验结果表明 ,该方法具有较好的整体识别性能 ,能有效提高语音情感 的 0
中 圈分类号l P9・ 312 T 4
基 于 D. S证据 的 多语 段 融 合语 音 情 感识 别
陆捷荣 ,j永照 ,毛启容 皇 |
( 苏大学计算机科 学与通信工程学院 ,江苏 镇江 2 2 1) 江 10 3

耍 :为获得 更丰富的情感信 息、有效识别长语音 的情感状态 ,提出基于 D S证据理论的多粒度语段融合 语音情感识 别方法 。采用 2 — 种
个集 函数 m:2- [, ]  ̄ -0 1,满 足式() - } 1、式() 2个条件 : 2这
m( =0 ) ∑ r( ) e A =1 () 1 () 2
其 中, ) m 为命题 A 的基本概率赋值 , 表示对 A的支持程度。 设 bl和 bl是 同一识别框架上 的 2个信任函数 ,ml e1 e2 和 m 分别是其对应的基本概率赋值函数 , 2 焦元分别为 A , 2 A , …,
rc g io fmul—r n lrt e me u in u ig D— v d n et e r n d cso uso sp o o e .S e c a pe i e me td by t O e o nt n o i t g a uaiy s g ntf so sn S e ie c o y i e iin f i n i r p s d p e h sm l ss g ne W i h
L i・o g Z U Jern , HANY n ・h o MAO Qi o g o gz a , - n r

融合多尺度特征和上下文信息的语音增强方法

融合多尺度特征和上下文信息的语音增强方法

融合多尺度特征和上下文信息的语音增强方法语音增强方法在音频处理领域中起着至关重要的作用。

它能有效提高语音信号的质量和可理解性,使得在嘈杂环境中的语音通信更加清晰。

为了进一步提升语音增强算法的效果,近年来,研究者们开始将多尺度特征和上下文信息融合到语音增强方法中。

本文将介绍一种融合多尺度特征和上下文信息的语音增强方法,以期改善语音增强算法的性能。

一、引言语音增强是一种通过信号处理技术改善语音信号质量的方法。

在实际应用中,由于环境噪声、麦克风质量等因素的存在,语音信号常常受到不同程度的干扰,导致语音质量下降以及语音内容不清晰。

因此,语音增强方法成为提高语音通信质量的重要手段。

二、多尺度特征的应用多尺度特征是指在不同时间和空间上对语音信号进行分析的方法。

传统的语音增强方法通常使用单一尺度的特征表示语音信号,往往无法充分挖掘语音信号的内在特征。

而多尺度特征能够从不同的角度对语音信号进行分析,更好地描述语音信号的时频特性。

在融合多尺度特征的语音增强方法中,我们可以首先提取语音信号的不同尺度特征,例如短时能量、短时幅度谱、梅尔频率倒谱系数等。

然后,通过融合这些特征,得到更加全面和准确的语音表示。

这样一来,我们就能够更好地恢复被环境噪声干扰的语音信号,提高语音增强效果。

三、上下文信息的利用除了多尺度特征,上下文信息也是对语音信号进行增强的重要思路之一。

上下文信息能够提供语音信号的语法、语义等方面的相关信息,有助于进一步准确还原原始语音信号。

融合上下文信息的语音增强方法通常基于语音识别和自然语言处理的技术。

通过建立语音模型和语言模型,我们可以利用上下文信息对语音信号进行更深入的分析和理解。

这样一来,在恢复语音信号时,我们就能够更准确地还原原始语音内容,提高语音增强的效果。

四、融合多尺度特征和上下文信息的方法基于以上思路,我们提出了一种融合多尺度特征和上下文信息的语音增强方法。

该方法首先通过多尺度特征提取得到语音信号的不同尺度表示。

融合多特征的语音情感识别方法

融合多特征的语音情感识别方法

融合多特征的语音情感识别方法
王怡;王黎明;柴玉梅
【期刊名称】《小型微型计算机系统》
【年(卷),期】2022(43)6
【摘要】语音情感识别已经成为下一代人机交互技术的重要组成部分,从语音信号中提取与情感相关的特征是语音情感识别的重要挑战.针对单一特征在情感识别中
准确度不高的问题,该文提出了特征级-决策级融合的方法融合声学特征和语义特征进行情感识别.首先提取声学特征,包括:1)低层次手工特征集,包括基于谱相关、音质、能量、基频等相关特征,以及基于低层次特征的高级统计特征;2)DNN提取的谱相
关特征的深度特征;3)CNN提取的基于Filter_bank特征的深度特征.并且使用基于Listen-Attend-Spell(LAS)模型的语音识别模块提取语义特征.然后将声学特征中的3类特征与语义特征进行特征级融合,在确定融合特征的先后顺序时引入了构造哈
夫曼树的方法.最后得到融合后特征和原始4类特征各自的情感识别结果,在结果之上进行决策级融合,使用此方法在IEMOCAP数据集中分类准确度可达76.2%.
【总页数】8页(P1232-1239)
【作者】王怡;王黎明;柴玉梅
【作者单位】郑州大学信息工程学院
【正文语种】中文
【中图分类】TP391
【相关文献】
1.一种新的基于多核学习特征融合方法的语音情感识别方法
2.多粒度特征融合的维度语音情感识别方法
3.融合语音情感词局部特征的语音情感识别方法
4.基于多核学习特征融合的语音情感识别方法
5.基于语音PZCPA时频域特征融合的语音情感识别方法
因版权原因,仅展示原文概要,查看原文内容请购买。

语音情感识别的模型与算法研究

语音情感识别的模型与算法研究

语音情感识别的模型与算法研究概述语音情感识别是指通过分析人类语音中的情感信息来判断其情感状态,是人机交互、情感计算等领域的重要研究方向。

本文将探讨语音情感识别模型与算法的研究进展,并对未来的发展方向进行展望。

一、背景语音情感识别的研究得益于人工智能技术的快速发展,尤其是在语音处理和模式识别领域。

通过利用机器学习、深度学习等技术,我们可以从语音信号中提取特征,并基于这些特征训练模型,从而实现对语音情感的准确识别。

二、语音情感识别的模型与算法1. 特征提取特征提取是语音情感识别的第一步,目的是将语音信号转化为计算机可以处理的形式。

常用的特征提取方法包括:Mel频率倒谱系数(MFCC)、线性预测系数(LPC)、短时能量、短时平均幅度等。

这些特征可以反映语音信号的频谱、能量、时域特征等。

2. 模型选择在语音情感识别中,常用的模型包括:支持向量机(SVM)、随机森林(RF)、卷积神经网络(CNN)和长短时记忆网络(LSTM)等。

SVM和RF是传统的机器学习方法,具有较好的泛化能力和可解释性。

而CNN和LSTM则是深度学习方法,能够自动学习特征,并在大规模数据上展现出更好的性能。

3. 情感分类根据不同的情感类型,我们可以将语音情感识别任务分为多分类和二分类问题。

在多分类任务中,将语音信号分为愤怒、快乐、悲伤、中性等不同情感类别;而在二分类任务中,常常将语音信号分为积极和消极两个类别。

在训练过程中,我们需要使用标记好的情感语料库来训练模型,并使用验证集和测试集来评估模型的性能。

三、研究进展近年来,语音情感识别的研究取得了显著的进展。

研究者们通过改进特征提取方法、模型选择和情感分类策略,不断提高语音情感识别的准确率。

此外,一些研究还探索了多模态情感识别,将语音信号与面部表情、手势等信息相结合,以提高情感识别的性能。

四、面临的挑战尽管语音情感识别取得了很大进展,但仍然面临一些挑战。

首先,语音情感识别的数据集数量有限,导致模型的泛化能力有限。

《基于深度特征及多核PCA特征融合的语音情感识别》范文

《基于深度特征及多核PCA特征融合的语音情感识别》范文

《基于深度特征及多核PCA特征融合的语音情感识别》篇一一、引言语音情感识别(Voice Emotion Recognition,VER)技术是一项融合语言学、人工智能以及多模态技术的综合研究领域。

该技术在社交机器人、语音交互、智能辅助等应用场景中扮演着越来越重要的角色。

在情感识别的研究中,深度学习因其对数据表示能力而备受欢迎。

而基于传统统计分析的特征融合技术也因能利用多维度的特征信息在模式识别领域具有广泛的应用。

本文旨在探讨基于深度特征及多核PCA特征融合的语音情感识别方法,以期提升情感识别的准确率。

二、背景与相关研究近年来,随着深度学习技术的发展,语音情感识别技术得到了长足的进步。

深度学习模型如循环神经网络(RNN)、卷积神经网络(CNN)和长短时记忆网络(LSTM)等被广泛应用于情感特征提取。

此外,传统的多核PCA(Multiple Kernel Principal Component Analysis)技术也被用于特征融合和降维,以提取更丰富的情感信息。

然而,单一的特征提取方法往往无法全面捕捉到语音中的情感信息,因此需要融合多种特征提取方法以提升情感识别的性能。

三、方法本文提出了一种基于深度特征及多核PCA特征融合的语音情感识别方法。

该方法包括以下几个步骤:1. 深度特征提取:利用深度学习模型(如CNN、RNN等)从原始语音数据中提取深度特征。

这些深度特征包含了语音的音素、语调等情感信息。

2. 多核PCA特征提取:在提取深度特征的基础上,利用多核PCA技术对原始音频数据进行处理,提取出更多的情感相关特征。

多核PCA可以同时考虑多个核函数,从而提取出不同维度的情感信息。

3. 特征融合:将深度特征和多核PCA特征进行融合,形成综合性的特征向量。

这一步可以通过简单的拼接或加权求和等方式实现。

4. 分类器训练:使用融合后的特征向量训练分类器(如支持向量机、随机森林等),以实现对情感的分类。

四、实验与分析本文通过实验验证了所提出方法的性能。

语音情感识别的主要特征提取技术与算法比较

语音情感识别的主要特征提取技术与算法比较

语音情感识别的主要特征提取技术与算法比较语音情感识别是指通过分析和识别人类语音中所表达的情感状态,如喜悦、愤怒、悲伤等。

在日常生活中,人们通过对语音中的情感状态进行判断,可以更好地理解对方的情感和意图。

因此,语音情感识别在人工智能和社交交流等领域具有广泛的应用价值。

本文将重点比较语音情感识别中的主要特征提取技术和算法。

1. 基于语音的特征提取技术1.1 基于声学特征的提取基于声学特征的提取是指通过对语音信号的频域、时域和能量等进行分析和处理,提取其中的特征信息。

常用的声学特征包括基频、音高、音强、语速等。

这些特征可以通过信号处理和数学算法来提取和计算。

1.2 基于语音质量的提取基于语音质量的特征提取是指通过语音信号的信噪比、清晰度、音色等参数来判断情感状态。

这些特征可以通过语音信号的频谱分析和滤波处理得到。

同时,聚焦于语音的质量和特点,这种方法可以有效地提取出情感识别所需的特征。

2. 基于机器学习的算法比较2.1 隐马尔可夫模型(HMM)隐马尔可夫模型是一种用于序列建模的统计模型,常用于语音识别和语音情感识别等领域。

HMM的基本思想是将参数化的语音特征序列和情感状态序列进行联合建模,通过训练和学习模型参数,然后利用概率计算出对应的情感状态序列。

2.2 支持向量机(SVM)支持向量机是一种非常灵活的机器学习算法,广泛应用于模式分类和回归分析等任务。

在语音情感识别中,SVM可以通过将语音特征序列映射到高维特征空间中,然后利用最大间隔原理将不同情感状态进行分类。

2.3 深度神经网络(DNN)深度神经网络是一种分层结构的神经网络模型,可以通过训练和学习大量的语音数据,来自动提取特征并进行语音情感识别。

与传统的神经网络相比,深度神经网络具有更强的非线性建模能力,能够更准确地捕捉语音中的情感状态。

2.4 长短时记忆神经网络(LSTM)长短时记忆神经网络是一种特殊类型的循环神经网络,具有记忆单元和遗忘门机制,可以很好地处理语音序列数据。

基于多核学习特征融合的语音情感识别方法

基于多核学习特征融合的语音情感识别方法
(西安邮电大学a.计算机学院;b.陕西省网络数据分析与智能处理重点实验室,西安710121)
摘要:在音情感识别
倒谱系数(MFCC)会

感识别
较低&为此,MFC和的语音情感识别方法&从音 号
MFCC
,将号转换为

利用卷积神经网络提取图像特征&在此基础上,使用多核学习算法融合音频特征,并将生成的核函数应用于支持
作者简介:王 (1967-),男,教授、博士,主研方向为语音情感识别、嵌入式系统、智
处理;刘戈,硕士研究生;宋辉,讲师、硕士。
收稿日期:20;8-;; -23 修回日期:20;9 序]标] E-mail : bUk;230+ 163 .com
第45卷第8期
王忠民,刘 戈,宋 辉:基于多核学习特征融合的语音情感识别方法
向 进行情感分类&在一种语音情感数据集上的实验
,与
的 器相比,该方法的语音情感

96% &
关键词:语音情感识别;多核学习;卷积 经网络;梅尔频率倒谱系数;语谱图
开放科学(资源服务)标志码(OSID) : jjj
中文引用格式:王忠民,刘戈,宋辉.基于多核学习特征融合的语音情感识别方法)J* •计算机工程,2019,45 (8) :248序54. 英文引用格式:WANG Zhongmin,LIU Ge,SONG Hui. Speech emotion recognition method based on multiple kerne­ learning feature Fision [ J ]. Computer Engineering,2019,45 ( 8) :248-254.
Speech Emotion Recognition Method Based on Multiple Kernel Learning Featurr Fusion

一种语音情感维度区域的自动识别方法[发明专利]

一种语音情感维度区域的自动识别方法[发明专利]

专利名称:一种语音情感维度区域的自动识别方法专利类型:发明专利
发明人:黄程韦,赵力,张昕然,余华,杨晶,徐新洲,陶华伟申请号:CN201510976875.X
申请日:20151223
公开号:CN105609116A
公开日:
20160525
专利内容由知识产权出版社提供
摘要:本发明公开了一种语音情感维度区域的自动识别方法,属于语音识别技术领域。

我们采用了一种特征空间重构的方法进行分类器的优化。

第一,我们提取和优化基本声学特征作为区分情感区域的基准;第二,我们采用特征空间重构的方法将多个情感特征空间分解和配对,分别采用LDA和PCA模块级联的方法,提高目标类之间的离散程度;第三,我们提出两种情感区域的分割方法,即四个区域和十六个区域的分割方法,进行复合情感的分解,取代传统的基本情感类型,通过相关计算来融合分类器输出,进行情感区域的识别,获得了更高的识别效果。

申请人:东南大学
地址:211189 江苏省南京市江宁区东南大学路2号
国籍:CN
代理机构:南京瑞弘专利商标事务所(普通合伙)
代理人:严巧巧
更多信息请下载全文后查看。

一种新的基于多核学习特征融合方法的语音情感识别方法

一种新的基于多核学习特征融合方法的语音情感识别方法

一种新的基于多核学习特征融合方法的语音情感识别方法金赟;宋鹏;郑文明;赵力
【期刊名称】《东南大学学报(英文版)》
【年(卷),期】2013(029)002
【摘要】为了提高语音情感识别率,提出一种新的特征融合方法.在全局特征的基础上,利用各种不同特征的局部信息,把全局特征和局部特征结合起来,引入多核学习的方法,使整体的全局特征和每类局部特征都对应一个核函数,加权求和得到一个组合核进行非线性映射,使不同类别的情感特征在高维再生核Hilbert空间中变得更容易分开.采用Berlin语音情感数据库,利用交叉验证的方法确定相应的全局核和局部核的参数,经过多核学习计算,得到所有核的权重,确定共振峰和强度是情感识别中相对重要的特征.实验表明,采用传统的方法识别率为78.74%,而采用所提出的方法,识别率为81.10%.因此,所提出的特征融合方法能够有效地提高语音情感的识别率.【总页数】5页(P129-133)
【作者】金赟;宋鹏;郑文明;赵力
【作者单位】东南大学信息科学与工程学院,南京210096;江苏师范大学物理与电子工程学院,徐州221116;东南大学信息科学与工程学院,南京210096;东南大学学习科学与研究中心,南京210096;东南大学信息科学与工程学院,南京210096【正文语种】中文
【中图分类】TN912.3
因版权原因,仅展示原文概要,查看原文内容请购买。

语音情感的维度特征提取与识别

语音情感的维度特征提取与识别

语音情感的维度特征提取与识别李嘉;黄程韦;余华【期刊名称】《数据采集与处理》【年(卷),期】2012(027)003【摘要】研究了情绪的维度空间模型与语音声学特征之间的关系以及语音情感的自动识别方法.介绍了基本情绪的维度空间模型,提取了唤醒度和效价度对应的情感特征,采用全局统计特征减小文本差异对情感特征的影响.研究了生气、高兴、悲伤和平静等情感状态的识别,使用高斯混合模型进行4种基本情感的建模,通过实验设定了高斯混合模型的最佳混合度,从而较好地拟合了4种情感在特征空间中的概率分布.实验结果显示,选取的语音特征适合于基本情感类别的识别,高斯混合模型对情感的建模起到了较好的效果,并且验证了二维情绪空间中,效价维度上的情意特征对语音情感识别的重要作用.%The relation between the emotion dimension space and speech features is studied. The automatic speech emotion recognition problem is addressed. A dimensional space model of basic emotions is introduced. Speech emotion features are extracted according to the arousal dimension and the valence dimension. And statistic features are used to reduce the influence of the text variations on emotional features. Anger, happiness, sadness and neutral state are studied. Gaussian mixture model is adopted for modeling and recognizing the four categories of emotions. Gaussian mixture number is optimized through experiment for the probability distribution of the 4 categories in the feature space. The experimental results show that the chosen features aresuitable for recognizing basic emotions. The Gaussian mixture model achieves satisfactory classification results. The valence features in the two-dimensional space plays a more important role in emotion recognition.【总页数】5页(P389-393)【作者】李嘉;黄程韦;余华【作者单位】江苏省广播电视总台(集团),南京,210013;东南大学信息科学与工程学院,南京,210096;南京信息职业技术学院电子信息学院,南京,210013【正文语种】中文【中图分类】TP391.42【相关文献】1.考虑情感程度相对顺序的维度语音情感识别 [J], 韩文静;李海峰;马琳2.面向情感语音识别的非线性几何特征提取算法 [J], 宋春晓;孙颖3.面向语音情感识别的语谱特征提取算法研究 [J], 唐闺臣;冯月芹;梁瑞宇;包永强;赵力4.面向情感语音识别的情感维度PAD预测 [J], 孙颖; 胡艳香; 张雪英; 段淑斐5.基于MFCC特征提取和改进SVM的语音情感数据挖掘分类识别方法研究 [J], 张钰莎;蒋盛益因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3 3卷 第 3期 2 0 1 7年 3月
文章编号: 1 0 0 3 - 0 5 3 0 ( 2 0 1 7 ) 0 3 - 0 3 7 4 - 0 9




J O U R N A LO FS I G N A LP R O C E S S I N G
V o l . 3 3 N o . 3 M a r . 2 0 1 7
基金项目:国家自然科学基金资助项目( 6 1 1 7 1 1 8 6 , 6 1 2 7 1 3 4 5 , 6 1 6 7 1 1 8 7 ) ;深圳市基础研究项目( J C Y J 2 0 1 5 0 9 2 9 1 4 3 9 5 5 3 4 1 ) ;语言语音教育部- 微软 重点实验室开放基金资助项目( H I T K L O F 2 0 1 5 0 X X , H I T K L O F 2 0 1 6 0 x x ) ;中央高校基本科研业务费专项资金( H I T N S R I F 2 0 1 2 0 4 7 )
多粒度特征融合的维度语音情感识别方法
陈 婧 李海峰 马 琳 陈 肖 陈晓敏
( 哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 1 5 0 0 0 1 ) 摘 要:针对传统维度语音情感识别系统采用全局统计特征造成韵律学细节信息丢失以及特征演化规律缺失的问 题,本文提出了一种基于不同时间单元的多粒度特征提取方法,提取了短时帧粒度、中时段粒度以及长时窗粒度 C o g n i t i o n I n s p i r e dR e c u r r e n t N e u r a l N e t 特征,并提出了一种可以融合多粒度特征的基于认知机理的回馈神经网络( w o r k ,C I R N N ) 。该网络模拟了人脑处理语音信号时 “ 循序渐进”的过程,通过融合多粒度特征,使得不同时间单 元的特征均参与网络训练,既突出了情感的时序性,也保留了全局特性对情感识别的作用,实现多层级信息融合。 该网络同时模拟大脑运用以往经验模式进行对比的过程,在网络中引入记忆层,用于记忆上文情感特征,强化了 A M 维度语料库的维度情感识别,分别从 A c t i v a t i o n 、D o m i 上下文信息对识别的影响作用。本文将该方法用于 V 、V a l e n c e 三个维度进行测试,平均相关系数为 0 6 6 ,识别结果明显优于传统 A N N和 S V R的识别结果。 n a n c e 关键词:维度语音情感识别;多粒度特征融合;基于认知机理的回馈神经网络;认知机理 中图分类号:T P 3 9 1 . 4 2 文献标识码:A D O I : 1 0 . 1 6 7 9 8 / j . i s s n . 1 0 0 3 0 5 3 0 . 2 0 1 7 . 0 3 . 0 1 8
1 引言
语音情感识别技术是让机器有足够的智能, 从 语音中提取有用的情感信息, 使得人与机器之间能
收稿日期:2 0 1 6 - 1 0 - 2 6 ;修回日期:2 0 1 7 - 0 1 - 1 7
像人与人之间自然、 友好的交流。由于人类情感极 其复杂, 不同研究者对情感的定义存在很大的争 议, 直到现在研究者们也没有得出情感的公认定义。 情感描 述 模 型 是 语 音 情 感 识 别 实 现 的 基 础。
第 3期
陈 婧 等: 多粒度特征融合的维度语音情感识别方法
为离散情感 模型和维度情感模型, 尽管目前并没有形成统一模 型, 但也明显地呈现出了由离散情感模型发展到维
1 3 ] 度情感模型的总体趋势 [ 。离散模型把情感分为
2 9 3 1 ] 3 2 3 3 ] 3 4 3 5 ] 、 基于谱的相关特征[ 和音质特征[ 学特征[
三种类型。这些特征常常以帧为单位进行提取, 却以
3 6 ] 全局特征统计值的形式参与情感的识别[ , 常用的统
计指标有极值、 极值范围、 方差、 峰度、 偏斜度等。 情境上下文对情感的识别具有关键性作用, 然而 全局特征统计特征会缺失上下文信息, 这是导致情感 识别率较低的原因之一。目前已有少量文献尝试选 取不同窗长来提高情感识别率, 但存在的文献没有统
( S c h o o l o f C o m p u t e r S c i e n c ea n dT e c h n o l o g y ,H a r b i nI n s t i t u t eo f T e c h n o l o g y ,H a r b i n ,H e i l o n g j i a n g 1 5 0 0 0 1 ,C h i n a ) A b s t r a c t :I no r d e r t o r e d u c e t h e p r o s o d i c i n f o r m a t i o nl a c k i n g i n d u c e db yu t t e r a n c e t e r mg l o b a l s t a t i s t i cf e a t u r e s w h i c hw e r e w i d e l y u s e db y t r a d i t i o n a l s p e e c he m o t i o nr e c o g n i t i o n ,a n o v e l m u l t i g r a n u l a r i t y f e a t u r e e x t r a c t i o nm e t h o di s p r o p o s e di nt h i s p a p e r .T h i s m e t h o di s b a s e do nd i f f e r e n t t i m e u n i t s w h i c hi n c l u d e s h o r t t e r mf r a m e f e a t u r e s , m i d t e r mf r a g m e n t s f e a t u r e s a n d ,w e p r o p o s e ac o g n i t i v e i n s p i r e dr e c u r r e n t n e u r a l n e t l o n g t e r mw i n d o w i n g f e a t u r e s .T o f u s e t h e s e m u l t i g r a n u l a r i t y f e a t u r e s w o r k( C o g n i t i o n I n s p i r e dR e c u r r e n t N e u r a l N e t w o r k ,C I R N N ) .C I R N Na s s e m b l e sd i f f e r e n t t i m e l e v e l f e a t u r e st os i m u l a t e t h e h u m a nb e i n g ’ s s t e pb y s t e pp r o c e s s o na u d i o s i g n a l s a n di t r e a l i z e s t h e m u l t i l e v e l i n f o r m a t i o nf u s i o nb y h i g h l i g h t i n g b o t h t h e t i m e s e q u e n c e o f e m o t i o na n dt h e r o l e o f c o n t e n t i n f o r m a t i o n .T h ep r o p o s e dm e t h o d s a r ef u r t h e r e x a m i n e do nt h eV A M ,v a l e n c e ,a n d d a t a b a s e t o e s t i m a t e c o n t i n u o u s e m o t i o np r i m i t i v e s i nat h r e e d i m e n s i o n a l f e a t u r es p a c es p a n n e db ya c t i v a t i o n d o m i n a n c e a n dt h e a v e r a g e c o r r e l a t i o nc o e f f i c i e n t i s 0 6 6 . T h e e x p e r i m e n t a l r e s u l t s s h o wt h a t , t h e p r o p o s e ds y s t e mh a s a s i g n i f i c a n t i m p r o v e m e n t f o r s p e e c he m o t i o ne s t i m a t i o nc o m p a r e dw i t ht h e c o m m o n l y u s e dA N Na n dS V Ra p p r o a c h e s . K e yw o r d s : d i m e n s i o n a l e m o t i o nr e c o g n i t i o n ; m u l t i g r a n u l a r i t y f e a t u r e f u s i o n ; c o g n i t i o n i n s p i r e dr e c u r r e n t n e u r a l n e t w o r k ; c o g n i t i v em e c h a n i s m
Mu l t i g r a n u l a r i t yF e a t u r eF u s i o nf o rD i me n s i o n a l S p e e c hE mo t i o nR e c o g n i t i o n
相关文档
最新文档