基于情感特征分类的语音情感识别研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1 0 期
周晓凤, 等: 基于情感特征分类的语音情感识别研究
·3 6 4 9 ·
D S 证据理论是建立在一个完备集合的识别框架 U上的, 其中 U包含了某个问题的所有可能答案且元素之间是互不相交的 基本命题, 即识别结果只能取 U中的某一个基本命题。 D S 证 来为该框架的 据理论通过基本概率分配函数( 通常为 m函数) # # <(66 参数的提取 L P C C是在 L P C ( 线性预测系数) 的基础上得到的。线性 预测分析认为, 语音信号样点之间存在相关性, 可以用过去的 若干个样本点或它们的线性组合预测现在或将来的样本值。 它可以提供一个很好的声道模型, 而且只要十几个倒谱特征参 数就能很好地反映出语音信号的共振峰特性。一般倒谱分析 6左右就能较好地表征语音的特征参数, 本文对 L P C 阶数取 1 的阶数取 1 4 、 1 5 、 1 6 、 1 7时, 分别进行识别实验, L P C阶数为 1 4 时, 效果最佳, 因此本文 L P C的阶数取 1 4 。 # $ 其他特征参数的提取 短时能量和短时过零率特征能够用来很好地区分清音段 和浊音段。清音的短时能量明显小于浊音的短时能量, 而清音
应用广泛, 是语音情感识别比较常用的短时光谱特征。它通过 构造人的听觉模型, 以语音通过该模型的输出为声学特征, 直 接通过 D F T ( 离散傅里叶变换) 进行变换。提取 M F C C的步骤 如图 1所示。由于 M F C C特征反映的是语音信号的静态特征, 而其一阶及二阶差分反映的是语音信号的动态特征, 因此本文 还提取了 M F C C的一阶和二阶差分。
第2 9卷第 1 0期 2 0 1 2 年1 0月
计 算 机 应 用 研 究 A p p l i c a t i o nR e s e a r c ho f C o m p u t e r s
V o l 2 9N o 1 0 O c t 2 0 1 2
基于情感特征分类的语音情感识别研究
# 特征提取及分类
[] # " :/; 倒谱系数的提取 "
M F C C自 1 9 8 0年由 D a v i sBaidu Nhomakorabea等人提出以来, 在语音识别领域
" 情感识别语音语料库的建立
目前汉语语音情感识别尚未有统一的公开数据库可供研 究, 因此普遍采用两种方式获得情感语音资料: a ) 通过具有丰 富情感表达能力的人, 利用录音软件采集其在各种模拟情感状 态下的语音数据作为识别用的语料; b ) 是通过剪辑影视剧作 品中的相关情节得到识别用的语料。方法 a ) 由于主观影响比 较大, 对情感状态的理解和表达因人而异, 所以本文采用方法 b ) 。考虑语音的三音子因素, 选择合适且尽量无噪声的语音
m ( 0 )= 0 ( A ) , ≤m ≤1 A U
A U
{
据的焦元。
( 5 )
( A )= 1 ∑m
其中: m ( 表示 A为空集时初始概率密度为 0 , 且 A的幂集 )
A 2 中元素初始概率密度总和为 1 。如果 m ( A )> 0 , 则称 A为证
假设识别框架 U中包含 n 个证据, 且任意两个证据 i 、 j 的 、 m , 焦元分别为 A 、 A , 由文献[ 6 ] , 证据 i 基本概率密度为 m i j i j 和j 之间的距离为
A b s t r a c t :B e c a u s e t h e s p e e c hs i g n a l s w e r e h i g h l y r e a l t i m e u n c e r t a i n t y , t h i s p a p e r p r o p o s e de v i d e n c e s ’t r u s t e n t r o p y a n dd y n a m i c p r i o r w e i g h t s t oi m p r o v et h e b a s i cp r o b a b i l i t yf u n c t i o no f t r a d i t i o n a l D St h e o r y .A s t h ee m o t i o nr e c o g n i t i o nr e s u l t w a s ,i t p r e s e n t e da c l a s s i f i c a t i o nm e t h o do f e m o t i o nf e a t u r e s .I no r d e r t o r e n o t t h es a m eb ye m o t i o nf e a t u r e s i nd i f f e r e n t e m o t i o n s , i t u s e d t h e r e c o g n i t i o n d a t a o f d i f f e r e n t c l a s s i f i c a t i o n a n d t h e i m p r o v e dD S t h e a l i z e t h e f i n e g r a i ns p e e c he m o t i o n r e c o g n i t i o n o r y t o r e a l i z e t h ee m o t i o nr e c o g n i t i o nb a s e do nm u l t i c l a s s i f i c a t i o ne m o t i o nf e a t u r e s .T h e i m p r o v e dD St h e o r yi s p r o v e dt ob e e f f e c t i v e b ys i m u l a t i o n .A n dc o m p a r i n g s i m u l a t i o nr e s u l t s s h o wt h a t t h em u l t i c l a s s i f i c a t i o ne m o t i o nf e a t u r e s a r ee f f e c t i v ea n d s t a b i l i t y . K e yw o r d s :s p e e c he m o t i o nr e c o g n i t i o n ;e m o t i o nf e a t u r e s c l a s s i f i c a t i o n ;i m p r o v e dD St h e o r y ;e v i d e n c e s ’t r u s t e n t r o p y ;d y ;d a t a f u s i o n n a m i c p r i o r w e i g h t s
2 ] 的过零率却高于浊音的过零率。基音频率 [ 反映的是整个语
S证据理论一个关键和重要的 各个基本命题分配信任度。 D 问题就是如何为各个基本命题分配初始信任度, 即初始概率密 度。由于证据之间的信息有可能有交叉和冲突的情况, 在利用 传统 D S 证据理论时, 若存在高冲突的证据则会产生不合理的 结果。本文在基本概率赋值方法上对该问题进行了改进。 则A , 则 m满足 若 A为 U中的一个元素, ∈U
R e s e a r c ho f s p e e c he m o t i o nr e c o g n i t i o nb a s e do ne m o t i o nf e a t u r e s c l a s s i f i c a t i o n
Z H O UX i a o f e n g ,X I A ON a n f e n g ,WE NH a n
( S c h o o l o f C o m p u t e r S c i e n c e &E n g i n e e r i n g ,S o u t hC h i n aU n i v e r s i t y o f T e c h n o l o g y ,G u a n g z h o u5 1 0 0 0 6 ,C h i n a )
M
M F C C n x ′ ( k ) c o s [ ( k - 0 5 ) n / M] n = 1 , 2 , …, L ( 1 ) π n =∑ l
k = 1
其中: x ′ ( k ) 为第 k 个滤波器的输入功率谱。
收稿日期:2 0 1 2 0 3 0 6 ;修回日期:2 0 1 2 0 4 0 8 基金项目:国家自然科学基金资助项目( 6 1 1 7 1 1 4 1 ) 作者简介:周晓凤( 1 9 8 7 ) , 女, 河北石家庄人, 硕士研究生, 主要研究方向为家庭服务机器人、 语音情感识别( w o . j i u s h i @1 6 3 . c o m ) ; 肖南峰 ( 1 9 6 2 ) , 男, 江西南昌人, 教授, 博导, 博士, 主要研究方向为仿人机器人;文翰( 1 9 7 7 ) , 男, 湖南益阳人, 博士研究生, 主要研究方向为机器学习.
41 0 0H z , 采样位数为 1 6位。本文采用 片段, 其采样频率为 4 的语音情感数据库由恐惧、 愤怒、 悲哀、 高兴、 惊奇和平静六种 基本情绪组成。每种情绪剪辑 3 0 0句相关语音片段, 并将语音 数据的顺序打乱, 邀请剪辑语音数据以外的 8人收听语音数据 并对其进行分类, 最后根据分类结果并结合语音文件的质量, 每种情绪选取 2 0 0句语音数据, 共 12 0 0句语音情感数据。随 2 0句用于训练, 4 8 0句用于识别。 机抽取 7
周晓凤,肖南峰,文 翰
( 华南理工大学 计算机科学与工程学院,广州 5 1 0 0 0 6 ) 摘 要:针对语音信号的实时性和不确定性, 提出证据信任度信息熵和动态先验权重的方法, 对传统 D S 证据 理论的基本概率分配函数进行改进; 针对情感特征在语音情感识别中对不同的情感状态具有不同的识别效果, 提出对语音情感特征进行分类。利用各类情感特征的识别结果, 应用改进的 D S证据理论进行决策级数据融 合, 实现基于多类情感特征的语音情感识别, 以达到细粒度的语音情感识别。最后通过算例验证了改进算法的 迅速收敛和抗干扰性, 对比实验结果证明了分类情感特征语音情感识别方法的有效性和稳定性。 关键词:语音情感识别;情感特征分类;改进 D S 证据理论;证据信任度信息熵;动态先验权重;数据融合 中图分类号:T P 3 8 9 1 文献标志码:A 文章编号:1 0 0 1 3 6 9 5 ( 2 0 1 2 ) 1 0 3 6 4 8 0 3 d o i : 1 0 3 9 6 9 / j i s s n 1 0 0 1 3 6 9 5 2 0 1 2 1 0 0 1 2
随着计算机技术的蓬勃发展, 人机交流也变得越来越普 遍, 情感理解能力日渐成为衡量一个机器是否具有智能的关键 因素。目前已经出现能够根据人类特定的命令去执行特定动 作的产品, 但是要实现人机的自然交互, 机器必须能够更准确 地理解和区分人类的情感。作为人类日常情感交流的主要方 式, 人类话语中所携带的情感信息越来越受到人们的重视。本 文在建立语音情感数据库的基础上, 提取语音信号的基音、 共 振峰、 L P C C和 M F C C等情感特征组成语音情感特征集, 并将情 感特征集分为两类, 针对现有 D S 证据理论融合技术在基本概 率赋值方法上的缺陷, 提出改进方法。在此基础上, 对恐惧、 愤 怒、 悲哀、 高兴、 惊奇和平静六种情感进行识别。