多粒度特征融合的维度语音情感识别方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基金项目:国家自然科学基金资助项目( 6 1 1 7 1 1 8 6 , 6 1 2 7 1 3 4 5 , 6 1 6 7 1 1 8 7 ) ;深圳市基础研究项目( J C Y J 2 0 1 5 0 9 2 9 1 4 3 9 5 5 3 4 1 ) ;语言语音教育部- 微软 重点实验室开放基金资助项目( H I T K L O F 2 0 1 5 0 X X , H I T K L O F 2 0 1 6 0 x x ) ;中央高校基本科研业务费专项资金( H I T N S R I F 2 0 1 2 0 4 7 )
Mu l t i g r a n u l a r i t yF e a t u r eF u s i o nf o rD i me n s i o n a l S p e e c hE mo t i o nR e c o g n i t i o n
C H E NJ i n g L I H a i f e n g M AL i n C H E NX i a o C H E NX i a o m i n
[ 3 7 ] 一的答案。O r i g l i a 认为目前特征提取方法是基于
固化在人类神经自主系统中的基本情感, 以及由基 本情感不同程度修改和组合而成的次级情感。离 散模型简 单 直 观, 但不可避免地存在只能刻画单 一、 有限种类情感的问题, 很难精确描述自发情感。 维度模型把情感看作是情感属性逐渐的、 平滑的转 变, 属性维度组成的空间包括了人类所有的情感, 不同情感则映射成高维空间上的不同点。代表性
多粒度特征融合的维度语音情感识别方法
陈 婧 李海峰 马 琳 陈 肖 陈晓敏
( 哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 1 5 0 0 0 1 ) 摘 要:针对传统维度语音情感识别系统采用全局统计特征造成韵律学细节信息丢失以及特征演化规律缺失的问 题,本文提出了一种基于不同时间单元的多粒度特征提取方法,提取了短时帧粒度、中时段粒度以及长时窗粒度 C o g n i t i o n I n s p i r e dR e c u r r e n t N e u r a l N e t 特征,并提出了一种可以融合多粒度特征的基于认知机理的回馈神经网络( w o r k ,C I R N N ) 。该网络模拟了人脑处理语音信号时 “ 循序渐进”的过程,通过融合多粒度特征,使得不同时间单 元的特征均参与网络训练,既突出了情感的时序性,也保留了全局特性对情感识别的作用,实现多层级信息融合。 该网络同时模拟大脑运用以往经验模式进行对比的过程,在网络中引入记忆层,用于记忆上文情感特征,强化了 A M 维度语料库的维度情感识别,分别从 A c t i v a t i o n 、D o m i 上下文信息对识别的影响作用。本文将该方法用于 V 、V a l e n c e 三个维度进行测试,平均相关系数为 0 6 6 ,识别结果明显优于传统 A N N和 S V R的识别结果。 n a n c e 关键词:维度语音情感识别;多粒度特征融合;基于认知机理的回馈神经网络;认知机理 中图分类号:T P 3 9 1 . 4 2 文献标识码:A D O I : 1 0 . 1 6 7 9 8 / j . i s s n . 1 0 0 3 0 5 3 0 . 2 0 1 7 . 0 3 . 0 1 8
三种类型。这些特征常常以帧为单位进行提取, 却以
3 6 ] 全局特征统计值的形式参与情感的识别[ , 常用的统
计指标有极值、 极值范围、 方差、 峰度、 偏斜度等。 情境上下文对情感的识别具有关键性作用, 然而 全局特征统计特征会缺失上下文信息, 这是导致情感 识别率较低的原因之一。目前已有少量文献尝试选 取不同窗长来提高情感识别率, 但存在的文献没有统
第3 3卷 第 3期 2 0 1 7年 3月
文章编号: 1 0 0 3 - 0 5 3 0 ( 2 0 1 7 ) 0 3 - 0 3 7 4 - 0 9


ห้องสมุดไป่ตู้


J O U R N A LO FS I G N A LP R O C E S S I N G
V o l . 3 3 N o . 3 M a r . 2 0 1 7
整个语音信号, 没有考虑语音内容的变化, 这与韵律 研究的理论基础是矛盾的。并以此提出一种基于音 节的特征提取办法, 同时考虑音节核, 可以减少信息
[ 3 8 ] 的处理量。S e t h u 认为帧特征和全局统计特征不足
以全面的表征情感的时序信息, 因此提出以段为单位 的特征提取, 可通过基音频率和前三个共振峰的轮廓 进行提取, 将该特征与短时帧特征和全局统计特征融 合可以提高情感识别率。 本文针对全局统计特征引起的时序信息丢失 问题, 研究了合适的情感表达时长, 提出基于不同 时间单元的多粒度情感特征提取方法, 包括短时帧 特征、 中时段特征和长时窗特征, 并提出了可以融 合多粒 度 特 征 的 基 于 认 知 机 理 的 回 馈 神 经 网 络 ( C o g n i t i o n I n s p i r e dR e c u r r e n t N e u r a l N e t w o r k ,C I R N N ) 用于维度语音情感识别, 实现了时序信息对情 感识别的补充作用。 本文的组织结构如下: 第 2部分介绍了多粒度 情感特征的提取方法, 第 3部分提出了基于认知机 理的回馈神经网络的构建与学习方法, 第 4部分在 V A M 维度情感数据集上进行实验, 通过与当前研究 效果进行对比, 验证了本文方法较传统方法的维度 情感识别效果具有明显提高, 最后对本文做了总结。
[ 4 ] P l u t c h i k 抛 物 锥 情 感 空 间 模 型、 的维度 理 论 有: [ 5 ] [ 6 ] Wu n d t 情感三度说、 S c h l o s b e r g 倒圆锥三维情感 [ 7 ] [ 8 ] 空间、 R u s s e l l 愉快度和强度环形模型、 P A D 情感
1 引言
语音情感识别技术是让机器有足够的智能, 从 语音中提取有用的情感信息, 使得人与机器之间能
收稿日期:2 0 1 6 - 1 0 - 2 6 ;修回日期:2 0 1 7 - 0 1 - 1 7
像人与人之间自然、 友好的交流。由于人类情感极 其复杂, 不同研究者对情感的定义存在很大的争 议, 直到现在研究者们也没有得出情感的公认定义。 情感描 述 模 型 是 语 音 情 感 识 别 实 现 的 基 础。
第 3期
陈 婧 等: 多粒度特征融合的维度语音情感识别方法
3 7 5
语音情感识别领域常用的情感模型分为离散情感 模型和维度情感模型, 尽管目前并没有形成统一模 型, 但也明显地呈现出了由离散情感模型发展到维
1 3 ] 度情感模型的总体趋势 [ 。离散模型把情感分为
2 9 3 1 ] 3 2 3 3 ] 3 4 3 5 ] 、 基于谱的相关特征[ 和音质特征[ 学特征[
( S c h o o l o f C o m p u t e r S c i e n c ea n dT e c h n o l o g y ,H a r b i nI n s t i t u t eo f T e c h n o l o g y ,H a r b i n ,H e i l o n g j i a n g 1 5 0 0 0 1 ,C h i n a ) A b s t r a c t :I no r d e r t o r e d u c e t h e p r o s o d i c i n f o r m a t i o nl a c k i n g i n d u c e db yu t t e r a n c e t e r mg l o b a l s t a t i s t i cf e a t u r e s w h i c hw e r e w i d e l y u s e db y t r a d i t i o n a l s p e e c he m o t i o nr e c o g n i t i o n ,a n o v e l m u l t i g r a n u l a r i t y f e a t u r e e x t r a c t i o nm e t h o di s p r o p o s e di nt h i s p a p e r .T h i s m e t h o di s b a s e do nd i f f e r e n t t i m e u n i t s w h i c hi n c l u d e s h o r t t e r mf r a m e f e a t u r e s , m i d t e r mf r a g m e n t s f e a t u r e s a n d ,w e p r o p o s e ac o g n i t i v e i n s p i r e dr e c u r r e n t n e u r a l n e t l o n g t e r mw i n d o w i n g f e a t u r e s .T o f u s e t h e s e m u l t i g r a n u l a r i t y f e a t u r e s w o r k( C o g n i t i o n I n s p i r e dR e c u r r e n t N e u r a l N e t w o r k ,C I R N N ) .C I R N Na s s e m b l e sd i f f e r e n t t i m e l e v e l f e a t u r e st os i m u l a t e t h e h u m a nb e i n g ’ s s t e pb y s t e pp r o c e s s o na u d i o s i g n a l s a n di t r e a l i z e s t h e m u l t i l e v e l i n f o r m a t i o nf u s i o nb y h i g h l i g h t i n g b o t h t h e t i m e s e q u e n c e o f e m o t i o na n dt h e r o l e o f c o n t e n t i n f o r m a t i o n .T h ep r o p o s e dm e t h o d s a r ef u r t h e r e x a m i n e do nt h eV A M ,v a l e n c e ,a n d d a t a b a s e t o e s t i m a t e c o n t i n u o u s e m o t i o np r i m i t i v e s i nat h r e e d i m e n s i o n a l f e a t u r es p a c es p a n n e db ya c t i v a t i o n d o m i n a n c e a n dt h e a v e r a g e c o r r e l a t i o nc o e f f i c i e n t i s 0 6 6 . T h e e x p e r i m e n t a l r e s u l t s s h o wt h a t , t h e p r o p o s e ds y s t e mh a s a s i g n i f i c a n t i m p r o v e m e n t f o r s p e e c he m o t i o ne s t i m a t i o nc o m p a r e dw i t ht h e c o m m o n l y u s e dA N Na n dS V Ra p p r o a c h e s . K e yw o r d s : d i m e n s i o n a l e m o t i o nr e c o g n i t i o n ; m u l t i g r a n u l a r i t y f e a t u r e f u s i o n ; c o g n i t i o n i n s p i r e dr e c u r r e n t n e u r a l n e t w o r k ; c o g n i t i v em e c h a n i s m
相关文档
最新文档