基于协方差描述子和黎曼流形的语音情感识别
基于多任务学习与注意力机制的多层次音频特征情感识别研究
基于多任务学习与注意力机制的多层次音频特征情感识别研究李磊;朱永同;杨琦;赵金葳;马柯
【期刊名称】《智能计算机与应用》
【年(卷),期】2024(14)1
【摘要】传统音频分类任务仅仅是从单层次音频提取特征向量进行分类,即便使用过大的模型,其过多的参数也会造成特征之间的耦合,不符合特征提取“高聚类,低耦合”的原则。
由于注意到一些与情绪相关的协变量并没有得到充分利用,本文在模型中加入性别先验知识;将多层次音频特征分类问题转化为多任务问题进行处理,从而对多层次特征进行解耦再进行分类;针对特征分布的再优化方面设计了一个中心损失模块。
通过在IEMOCAP数据集上的实验结果表明,本文提出模型的加权精度(WA)和未加权精度(UA)分别达到了71.94%和73.37%,与原本的多层次模型相比,WA和UA分别提升了1.38%和2.35%。
此外,还根据Nlinear和Dlinear算法设计了两个单层次音频特征提取器,在单层次音频特征分类实验中取得了较好的结果。
【总页数】11页(P85-94)
【作者】李磊;朱永同;杨琦;赵金葳;马柯
【作者单位】上海理工大学健康科学与工程学院;上海理工大学机器智能研究院;上海理工大学机械工程学院;商丘学院机械与电气信息学院
【正文语种】中文
【中图分类】TP241
【相关文献】
1.基于注意力的多层次混合融合的多任务多模态情感分析
2.基于注意力机制的多任务3D CNN-BLSTM情感语音识别
3.基于注意力机制的语音情感识别非线性特征融合方法的研究
4.融合级联注意力和多任务学习的语音情感识别
5.基于多层次注意力网络的多模态情感识别研究
因版权原因,仅展示原文概要,查看原文内容请购买。
基于GMM的语音情感信息识别
基于GMM的语音情感信息识别
孙红进
【期刊名称】《信息技术》
【年(卷),期】2008(32)12
【摘要】实际的研究表明,语音情感识别方法有多种.介绍了一种基于GMM的语音情感识别方法,包括该方法的优点、存在的问题或不足等,并对此进行了思考,给出了一些处理办法.
【总页数】3页(P138-140)
【作者】孙红进
【作者单位】南京工业大学信息科学与工程学院,南京,210009
【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.基于短文本情感分析的敏感信息识别 [J], 李扬;潘泉;杨涛
2.基于两种GMM-UBM多维概率输出的SVM语音情感识别 [J], 黄永明;章国宝;董飞;达飞鹏
3.基于改进GMM的耳语语音情感识别方法研究 [J], 蒋庆斌;包永强;王浩;赵力
4.一种基于GMM模型的语音情感识别方法 [J], 黄锋;尹俊勋
5.基于情感分析的虚假信息识别模型 [J], 李亦轩;刘克剑;杨潇帅;李伟豪;冯媛媛因版权原因,仅展示原文概要,查看原文内容请购买。
基于一种新的特征提取的语音辨识
基于一种新的特征提取的语音辨识
刘嘉;骆瑞玲;李明
【期刊名称】《科学技术与工程》
【年(卷),期】2009(009)002
【摘要】提出了一种新的二次特征提取的方法应用于说话人语音辨识.首先,通过基于熵的特征筛选方法,有效地剔除不重要或者噪声特征,消除语音特征的冗余,并获得其重要性排序,减少语音特征矢量的维数.然后,采用Fisher准则进一步进行参数选择,按 Fisher 比的大小选择特征向量作为投影轴,将高维空间中的特征矢量映射到低维的特征判别空间,然后以SVM作为分类器实现说话人辨识系统.实验结果表明,本文提出的方法在不影响识别率的情况下可以对输入数据有效降维,在噪音环境下取得了较好的识别效果,增加了系统的鲁棒性.
【总页数】5页(P460-464)
【作者】刘嘉;骆瑞玲;李明
【作者单位】兰州理工大学计算机与通信学院,兰州,730050;兰州理工大学计算机与通信学院,兰州,730050;兰州理工大学计算机与通信学院,兰州,730050
【正文语种】中文
【中图分类】TP391.42
【相关文献】
1.一种基于Zernike矩双谱的雷达信号特征提取新算法 [J], 张立东;吕涛;王东风;王世强
2.一种新的基于DBN的声学特征提取方法 [J], 陈雷;杨俊安;王龙;李晋徽
3.一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用 [J], 李晋徽;杨俊安;王一
4.一种基于压缩感知和动态时间规整的信号肽特征提取新算法 [J], 张洋俐君;高翠芳;陈卫;田丰伟
5.一种新的基于2维傅里叶谱图像的恒星光谱特征提取方法和深度网络分类应用[J], 张静敏; 马晨晔; 王璐; 杜利婷; 许婷婷; 艾霖嫔; 周卫红
因版权原因,仅展示原文概要,查看原文内容请购买。
语音情感识别技术研究及其应用
语音情感识别技术研究及其应用随着人工智能技术的发展,语音识别技术已经成为当前人工智能领域的研究热点。
其中一个重要的方向就是语音情感识别技术。
语音情感识别技术可以帮助人们识别自然语言或语音中所包含的情感信息,从而更加深入地理解人类交流方式,拓展人机交互技术的应用领域,具有广泛的应用前景。
一、语音情感识别技术的研究现状语音情感识别技术是一门涉及语音处理、自然语言处理、机器学习等多个领域的交叉学科。
近年来,随着深度学习等技术的发展,语音情感识别技术取得了长足的进展。
目前,最常用的情感分类模型是基于深度神经网络的模型,如卷积神经网络(CNN)、长短时记忆网络(LSTM)等。
同时,传统的特征提取方法如梅尔倒谱系数(MFCC)等也仍然有其应用的空间。
近年来,语音情感识别技术在多个领域得到广泛应用,如教育、医疗、智能客服、智能家居等。
具体来说,语音情感识别技术可以帮助教师和学生更好地互动,帮助医生更全面地了解患者的情感变化,提升客服质量,智能家居也可以通过语音情感识别技术了解用户的情感需求,实现更加便捷的智能控制。
这些领域的应用推广也进一步促进了语音情感识别技术的发展和研究。
二、语音情感识别技术的应用前景语音情感识别技术的应用前景非常广阔。
未来,随着智能家居、智能医疗、汽车智能驾驶等领域的不断拓展,语音情感识别技术的应用场景也会越来越多样化。
下面,本文将分别从教育、医疗、智能客服等三个方面探讨语音情感识别技术的应用前景。
1.教育领域在教育领域,语音情感识别技术可以应用于教师和学生之间的交流。
在日常教育中,学生的情感状态也会直接影响到学习效果。
因此,通过语音情感识别技术可以更好地了解学生的情感变化,及时发现学生的疑惑或焦虑情绪,从而更好地调整教学策略,提升教学效果。
此外,语音情感识别技术也可以帮助评估学生的情感状态,更好地促进学生的学习兴趣和积极性。
2.医疗领域医疗领域是另一个语音情感识别技术的应用领域。
通常情况下,患者的情感状态也会直接影响到疗效和康复时间。
基于变分模态分解的语音情感识别方法
基于变分模态分解的语音情感识别方法王玮蔚; 张秀再【期刊名称】《《应用声学》》【年(卷),期】2019(038)002【总页数】8页(P237-244)【关键词】变分模态分解; Mel倒谱系数; 希尔伯特谱; 极限学习机【作者】王玮蔚; 张秀再【作者单位】南京信息工程大学电子与信息工程学院南京 210044; 江苏省大气环境与装备技术协同创新中心南京 210044【正文语种】中文【中图分类】TN912.340 引言在多种通信方式中,语音信号是人与人、人与机器通信最快的自然方法。
人类甚至可以从语音交流中感觉到说话人的情绪状态。
语音情感是分析声音行为的一种方法,是指各种影响(如情绪、情绪和压力)的指针,侧重于语音的非言语方面。
在这种情况下,语音情感识别的主要挑战是提取一些客观的、可测量的语音特征参数,这些参数可以反映说话人的情绪状态。
近年来,语音情感识别在人机通信、机器人通信、多媒体检索等领域得到了广泛关注。
语音情感识别研究主要是利用语音中的情感和语音特征的统计特性,进行一般定性的声学关联[1−2]。
语音情感识别的主要工作为语音情感特征提取和分类网络模型选择。
当前国内外的研究方向多为分类网络模型选择,而情感特征提取方向研究内容较为匮乏,因此,提取有效的语音情感特征也是当前语音情感识别的关键任务。
2004年,Ververidis等[3]从能量、基音和语音频谱的动态行为中提取出87个静态特征,并提出了谱平坦度测度与谱中心的比值作为说话人独立的特征,利用帧级特征、基音周期、能量和Mel倒谱系数(Mel frequency cepstral coefficents, MFCC)对性别和情感进行了层次分类。
2011年,Sun 等[4]将Teager 能量中提取的小波系数引入到语音情感识别中。
2008年,韩一等[5]将MFCC 参数作为特征对语音情感进行识别,也取得了较好的结果。
2011年,He 等[6]首先将经验模态分解(Empirical mode decomposition, EMD)引入到语音情感识别中。
基于机器学习的中文语音情感识别研究
基于机器学习的中文语音情感识别研究中文语音情感识别是一项基于机器学习的研究领域,它的目标是通过分析人们的语音信号,准确地识别出他们所表达的情感状态。
随着人工智能技术的快速发展,中文语音情感识别在智能交互、情感分析和人机交互等领域具有广泛应用前景。
本文将从相关研究背景、方法和应用等方面进行探讨。
一、研究背景随着社交媒体和智能设备的普及,人们越来越倾向于使用语音进行交流。
然而,通过语音来准确地识别出说话者所表达的情感状态并非易事。
中文是一种复杂而多样化的语言,在不同地区和不同人群之间存在着巨大差异。
因此,开展中文语音情感识别研究具有重要意义。
目前,已有许多学者在这一领域开展了大量工作。
他们通过采集大量中文语音样本并结合标注数据进行分析,在此基础上提出了各种方法和模型来实现中文语音情感识别。
然而,在实际应用场景中,中文语音情感识别仍然面临一些挑战,如情感表达的主观性、语音信号的多样性以及数据标注的主观性等。
二、研究方法为了解决中文语音情感识别中的挑战,研究者们采用了多种机器学习方法。
其中,深度学习是一种常用且有效的方法。
深度学习模型可以通过对大量标注数据进行训练,自动地学习到表达情感的特征,并通过对新样本进行预测来实现情感识别。
在深度学习模型中,常用的方法包括卷积神经网络(CNN)、循环神经网络(RNN)和长短时记忆网络(LSTM)等。
这些模型可以有效地捕捉到语音信号中包含的时序信息,并提取出有用的特征来进行情感分类。
此外,为了提高模型在实际应用场景中的泛化能力,研究者们还采用了迁移学习和领域自适应等技术。
迁移学习可以利用已有数据集上训练得到的知识来辅助新任务;领域自适应则可以通过对不同领域数据进行适应,提高模型在新领域中的性能。
三、应用前景中文语音情感识别在智能交互、情感分析和人机交互等领域具有广泛应用前景。
首先,通过识别用户的情感状态,智能交互系统可以根据用户的情感偏好提供个性化的服务,提高用户体验。
基于SVM的语音情感识别算法
基于SVM的语音情感识别算法朱菊霞;吴小培;吕钊【期刊名称】《计算机系统应用》【年(卷),期】2011(020)005【摘要】为有效提高语音情感识别系统的识别正确率,提出一种基于SVM的语音情感识别算法.该算法提取语音信号的能量、基音频率及共振峰等参数作为情感特征,采用SVM(Support Vector Machine,支持向量机)方法对情感信号进行建模与识别.在仿真环境下的情感识别实验中,所提算法相比较人工神经网络的ACON(All Class inone Network,"一对多")和OCON(One class in one network,"一对一")方法识别正确率分别提高了7.06%和7.21%.实验结果表明基于SVM的语音情感识别算法能够对语音情感信号进行较好地识别.%In order to improve recognition accuracy of the speech emotion recognition system effectively, a speech emotion recognition algorithm based on SVM is proposed. In the proposed algorithm, some parameters extracted from speech signals, such as: energy, pitch frequency and formant, are used as emotional features. Furthermore, an emotion recognition model is established with SVM method. Simulation environment experiential results reveal that the recognition ratio of the proposed algorithm obtains the relative increasing of 7.06% and 7.21% compared with artificial neural networks such as ACON (All Class in one Network, "one to many") and OCON (One class in one network, "one to one") methods. The result of the experiment showsthat the speech emotion recognition algorithm based on SVM can improve the performance of the emotion recognition system effectively.【总页数】5页(P87-91)【作者】朱菊霞;吴小培;吕钊【作者单位】安徽大学,计算智能与信号处理教育部重点实验室,合肥,230039;安徽大学,计算智能与信号处理教育部重点实验室,合肥,230039;安徽大学,计算智能与信号处理教育部重点实验室,合肥,230039【正文语种】中文【相关文献】1.基于改进型SVM算法的语音情感识别 [J], 李书玲;刘蓉;张鎏钦;刘红2.基于多级SVM分类的语音情感识别算法 [J], 任浩;叶亮;李月;沙学军3.基于参数寻优决策树SVM的语音情感识别 [J], 王富;孙林慧;苏敏;赵城4.一种改进的FSVM语音情感识别算法 [J], 邢玉娟;李恒杰;张成文5.基于遗传优化的多级SVM语音情感识别 [J], 谈利芳;刘蓉;黄刚;张雄因版权原因,仅展示原文概要,查看原文内容请购买。
【国家自然科学基金】_情感识别_基金支持热词逐年推荐_【万方软件创新助手】_20140801
科研热词 情感识别 语音情感识别 特征选择 支持向量机 情感分类 遗传算法 生理信号 文本挖掘 情感语义 情感空间 情感建模 情感分析 循环策略 在线评论 d-s证据理论 颤音 颜色直方图 颜色特征提取 音乐特征 音乐检索 音乐标注 音乐摘要 音乐推荐 音乐情感 面部表情识别 非线性降维 非线性特征降维 隶属度函数 诱发语音 语句分段 语义网规则描述语言 语义理解 语义特征 词汇上下文极性 评价主题 认知语境 认知评价 认知-评价理论 褒贬分类 蚁群系统 舆情监测 自组织映射 脑电信号 脉搏率 脉搏波 耳语音 网络推手 网络学习 综述 离散小波变换 神经网络 社交
53 54 55 56 57 58 59 60 61 62 63 64
交叉算子 互信息 二维离散余弦变换 事实性问答 义原 主观表现模型 主观性文本 主动表观模型 mpeg-4标准 gabor小波变换 f-ratio准则 boosting算法
1 1 1 1 1 1 1 1 1 8 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87
科研热词 推荐指数 隐马尔可夫模型 3 本体 3 情感计算 3 语音情感识别 2 语义网规则语言 2 计算机应用 2 表情识别 2 知网 2 中文信息处理 2 面部表情自动识别 1 遗传算法 1 迭代自适应逆滤波 1 进化 1 语义极性 1 词语相似度 1 词语极性识别 1 自适应权重 1 脸部特征提取 1 综述 1 组块分析 1 离散小波交换 1 矢量量化 1 病例对照研究 1 男性 1 电子社会 1 特征标识 1 混淆交叉 1 混合高斯模型 1 模糊c均值 1 标准正交非负矩阵分解 1 支撑向量机树 1 抑郁症 1 意见挖掘 1 情感问答 1 情感本体 1 情感推理引擎 1 情感分类 1 性别规整 1 归一化振幅商 1 嵌入式隐马尔可夫模型(e-hmm) 1 图像特征表示 1 图像情感识剐 1 图像情感识别 1 图像情感推理模型 1 双模态情感识别 1 动态面部表情 1 功能核磁共振 1 典型相关分析 1 伪zernike矩 1 人计算机交互 1 人脸动画 1 人工情感 1
基于的语音情绪识别毕业设计开题报告
2 目前,现有的语音情绪识别方法主要基于声学谱系数(MFCC)、倒谱系数(cepstral coefficients)、线性预测系数 (LPC)等,而深度学习模型则包括循环神经网络(RNN)、长短期记忆网络(LSTM)、卷积神经网络(CNN)等
深度学习模型的设计:设计一种基于深度学习的语音情绪识别模型,包括特征提取、 情感分类器等模块
模型训练与优化 :通过对训练样 本的训练,优化 模型的参数和结 构,提高模型的 准确率和泛化能 力
实验与分析:对 设计的模型进行 实验验证,并对 实验结果进行分 析和讨论
研究内容与方法
研究内容与方法
2. 研究方法
实验与分析:对设计的模型 进行实验验证,采用准确率 、混淆矩阵、F1分数等指标 对实验结果进行分析和讨论
PART 3
预期成果与价值
预期成果与价值
本毕业设计的预 期成果主要包括 以下几个方面
预期成果与价值
开发一种基于深度学习的语音情绪识别系统:提高现
1
有方法的准确率和泛化能力
为人机交互、心理咨询、智能客服等领域提供一种有
-
XXX
谢谢观看
汇报人:xxxx
2
效的情感识别方法和技术支持
为相关领域的研究人员提供一种新的研究思路和方法
3
参考
预期成果与价值
本毕业设计的价值主要体现在以下几个方面 推动情感识别技术的发展和应用 为人机交互、心理咨询等领域的实际应 用提供技术支持和服务 为相关领域的研究人员提供参考和借鉴
PART 4
计划与进度
计划与进度
本毕业设计的计划与进度安排如下 第一阶段:数据采集与标注(1-2个月) 第二阶段:模型设计与实现(3-4个月) 第三阶段:模型训练与优化(4-5个月) 第四阶段:实验与分析(5-6个月) 第五阶段:论文撰写与答辩(6-7个月)
一种基于混合小波包特征深度学习的语音情感识别方法[发明专利]
专利名称:一种基于混合小波包特征深度学习的语音情感识别方法
专利类型:发明专利
发明人:孟浩,闫天昊,袁菲,乔海岩,邓艳琴,杨笑天,陈连钰
申请号:CN202011006934.8
申请日:20200923
公开号:CN112151071A
公开日:
20201229
专利内容由知识产权出版社提供
摘要:本发明提供基于混合小波包特征深度学习的语音情感识别方法,S1:通过自相关函数算法对语音数据进行端点检测;S2:将语音序列数据截取成相同长度,将语音序列采样统一为1024,针对该序列用3层小波包重构算法生成新的8个重构信号,组成特征集1;S3:将语音信号直接通过快速傅里叶变换(FFT)提取140个融合了LLDs及其泛化函数的特征值,组成特征集2;S4:将特征集2用DNN的深度学习结构进行进一步提取特征,将特征集1进行进一步提取特征;S5:将两种利用不同结构所提取到的特征集融合在一起,利用Softmax损失函数进行最终分类。
本发明能够混有噪声的情况下,能够充分提取语音信号的时域信息和频域信息特征,进而利用深度学习算法实现。
申请人:哈尔滨工程大学
地址:150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室国籍:CN
更多信息请下载全文后查看。
基于一种改进的监督流形学习算法的语音情感识别
基于一种改进的监督流形学习算法的语音情感识别张石清;李乐民;赵知劲【期刊名称】《电子与信息学报》【年(卷),期】2010(032)011【摘要】为了有效提高语音情感识别的性能,需要对嵌入在高维声学特征空间的非线性流形上的语音特征数据作非线性降维处理.监督局部线性嵌入(SLLE)是一种典型的用于非线性降维的监督流形学习算法.该文针对SLLE存在的缺陷,提出一种能够增强低维嵌入数据的判别力,具备最优泛化能力的改进SLLE算法.利用该算法对包含韵律和音质特征的48维语音情感特征数据进行非线性降维,提取低维嵌入判别特征用于生气、高兴、悲伤和中性4类情感的识别.在自然情感语音数据库的实验结果表明,该算法仅利用较少的9维嵌入特征就取得了90.78%的最高正确识别率,比SLLE提高了15.65%.可见,该算法用于语音情感特征数据的非线性降维,可以较好地改善语音情感识别结果.【总页数】6页(P2724-2729)【作者】张石清;李乐民;赵知劲【作者单位】电子科技大学通信与信息工程学院,成都,610054;台州学院物理与电子工程学院,台州,318000;电子科技大学通信与信息工程学院,成都,610054;杭州电子科技大学通信工程学院,杭州,310018【正文语种】中文【中图分类】TN912.34【相关文献】1.一种融合流形学习的视频人脸性别识别改进算法 [J], 张丹2.基于改进多核学习的语音情感识别算法 [J], 奚吉;赵力;左加阔3.一种提高文本分类效果的改进流形学习算法 [J], 连顺金4.一种新的基于MMC和LSE的监督流形学习算法 [J], 袁暋;程雷;朱然刚;雷迎科5.基于改进的带监督流形学习算法的通信电台识别 [J], 王金明;徐玉龙;徐志军因版权原因,仅展示原文概要,查看原文内容请购买。
基于短时和长时特征的语音情感识别研究
基于短时和长时特征的语音情感识别研究
林奕琳;韦岗
【期刊名称】《科学技术与工程》
【年(卷),期】2006(006)004
【摘要】基于语音的自动人类情感识别是近年来新兴的研究课题,它在人机通信中有广阔的应用前景.分别利用语音的短时和长时特征识别说话者的五种情感状态,即生气、高兴、悲伤、惊奇和一种无情感状态.提出了一种基于基音频率、子带频谱能量与共振峰频率的短时特征矢量和一种反映能量频谱分布及动态的长时特征参数,分别利用隐马尔可夫模型和支持矢量机两种方法进行识别.试验用的情感语音包括一个普通话情感语音库和一个丹麦语情感语音库,试验结果表明使用两类特征参数都可以得到较高的识别率.
【总页数】5页(P450-454)
【作者】林奕琳;韦岗
【作者单位】华南理工大学电子与信息学院,广州,510640;华南理工大学电子与信息学院,广州,510640
【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.长时和短时收缩压变异性指标与老年人群肾脏损害的关联研究 [J], 施继红;吴寿岭;宋路;朱晨蕊;熊海亮;王永芝;李春慧;赵华灵;王一鸣;陈朔华
2.基于卷积神经网络和长短时记忆神经网络的非特定人语音情感识别算法 [J], 姚增伟;刘炜煌;王梓豪;刘雅倩;潘家辉
3.基于声门特征与语音特征的语音情感识别对比研究 [J], 朱智豪;郑徵羽;肖仲喆
4.关于系列材料的长时和短时记忆的实验研究 [J], 沈德立;阴国恩;林镜秋;刘景全
5.中小学生对于系列材料的长时与短时记忆的实验研究 [J], 沈德立;阴国恩;林镜秋;刘景全
因版权原因,仅展示原文概要,查看原文内容请购买。
基于韵律变换的情感说话人识别
基于韵律变换的情感说话人识别
宋鹏;赵力;邹采荣
【期刊名称】《东南大学学报(英文版)》
【年(卷),期】2011(027)004
【摘要】为了解决由情感变化引起的说话人识别性能下降问题,提出了一种新的情感说话人识别系统.首先,通过引入情感识别作为前端处理模块,对中性语音和情感语音进行分类.然后,对情感语音进行韵律修正,分别采用高斯归一化、高斯混合模型( GMM)和支持向量回归(SVR)等方法建立情感语音和中性语音的基频映射规则,并根据平均线性变化率对时长进行了修正.最后,对韵律修正后的情感语音进行识别.实验结果表明,提出的情感说话人识别系统可以有效地提高情感说话人识别的性能,识别率相比传统方法有了显著的提高.并且通过基频和时长修正的情感语音更接近于中性语音.
【总页数】4页(P357-360)
【作者】宋鹏;赵力;邹采荣
【作者单位】东南大学水声信号处理教育部重点实验室,南京210096;东南大学水声信号处理教育部重点实验室,南京210096;东南大学水声信号处理教育部重点实验室,南京210096;佛山科学技术学院,佛山528000
【正文语种】中文
【中图分类】TN912.3
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
到均值点处的切空间上, 我们还需定义该切空间的
正交坐标系, 将切空间中的向量用正交坐标表示, 以
此作为传统分类器的输入, 实现情感分类. 位于切空 间 S 中的向量 V 的正交坐标为 [ 10]
其中令
vec ( V) =
vecI (
V -
1 2
-
1 2
),
V -
1 2
K ey W ord s Speech Emo tion Recogn ition, Covar iance Descriptor, R iem ann ian M an ifo ld, N o isy Env ironm en,t Support V ecto rM ach ine ( SVM )
语音情感识别过程主要包括两个步骤: 1) 对输 入语音信号进行分析, 提取其中的各种声学特征构 造语音 特征 向 量; 2) 训 练 分类 器, 如 支持 向 量机 ( SVM ) 、隐马尔可夫模型等, 用于语音情感识别. 目 前在语音情感识别中常用的声学特征包括: 基音频 率、短时过零率、对数能量、共振峰、线性预测倒谱系 数、M el频率倒谱系数 ( M e l F requency C epstra l Coe-f ficients, MFCC )、线谱对 ( L ine Spectrum P air, LPS) 、 感知线性预测倒谱系数 ( Perceptua l L inear P red ict ion Cepstra l Coefficients, PLPCC )等 [ 4- 5] . 传统的识别方 法首先将语音信号分帧, 提取每帧数据的声学特征. 然后在句子层面计算声学特征的多项统计量, 如均 值、中间值、方差、最大值、最小值等, 得到一个多维 统计特征向量表征情感信息. 最后, 根据这些统计特 征向量训练语音情感分类器. 目前这类方法能取得 70% ~ 90% 的识别准确率 [ 1, 6- 7] . 然而, 由于语音情 感空间实际上是由一系列声学特征向量所张成的高
( n + 1) /2维线性空间中的一个凸锥. 由于语音存
在波动性, 每句语音提取的 n 个声学特征序列 [ F 1,
F 2, , Fn ] 的方差皆为非零, 所以我们只需考虑协
方差矩阵非奇异 (对称且正定 ) 的情形. 该对称正定
矩阵对应上述凸锥的内部. 凸锥内部是一个微分流
形, 在该流形上进行分类仍欠缺一个有效的度量. 度
成. 出于对分类的考虑, 可将流形上的 平面 看作 n
维切空间中一组 n - 1维向量的任意线性组合在指 数映射下的像. 因此, 对于给定的度量, 计算出指数
映射和对数映射, 问题便迎刃而解. 但是, 算法中还
需考虑两处细节.
1) 流形 M 上的每一点处都有一个切空间, 那么 用于映射的切空间应该如何选取. 直观想象, 对于流 形 M 上的一簇点 (X 1, X 2, , XN ), 应当在这一簇点 的均值处作一个切空间, 才能得到最优逼近. 也就是 说, 我们需要计算流形上的均值 . 文献 [ 10] 提出
生, 教授, 博士生导师, 主要研究方向为图形图像处理、语音分析、嵌入式系统. 叶承羲, 男, 1985年生, 硕士 研究生, 主要研究 方向为模式识别、图像处理. 李娜, 女, 1978年生, 博士后, 主要研 究方向为 模式识别. 卜佳 俊, 男, 1973年 生, 教 授, 博 士生导 师, 主要研究方向为嵌入式系统、语音和图形图像处理.
exp(X -
1 2
VX -
1 2
)X
1
2.
指数映射的逆映射, 即对数映射, 则将流形上的点 X
到点 Y的测地线映射为切空间 SX 中等长同向的向
量 V:
V=
logX
( Y)
=
1
X2
log(X -
1 2
Y将该仿射不变度量用于协方差矩阵构成的
凸锥上, 使其满足黎曼流形的要求, 然后构建语音情 感分类框架. 在线性空间中, 平面可由一组基向量张
维空间, 利用上述传统统计向量直接进行分类的方 式显然难以反映情感语音的高维特性, 从而导致识 别效果参差不齐, 系统的稳定性和鲁棒性较差.
考虑到传统的语音情感识别方所存在的问题, 本文提出一个基于协方差描述子和黎曼流形的语音
情感特征表征和度量方法. 在前述常用的声学特征 的基础上, 计算这些特征的协方差矩阵, 作为句子层 面的统计量, 并且利用黎曼流形的相关理论, 解决协 方差矩阵空间的度量问题. 与利用传统统计量进行 语音情感识别相比, 基于协方差描述子的语音特征 表达能够更好地反映情感信号的高维特性, 更便于 分类和识别. 实验证明, 在进行语音情感识别, 尤其 是噪声环境下语音情感识别时, 本文方法能够有效
存在一个小邻域, 与欧氏空间上的一个小邻域微分
同胚.
度量是附加于流形之上的一种结构. 同一流形
上可以有许多不同的度量. P ennec等人在文献 [ 10]
中, 提出微分流形上的一种仿射不变度量. 该度量的
主要思想是, 对于黎曼流形 M 上的任意一点 X, 均可
作一个切空间 SX , 并构造切空间 SX 和流形 M 的微分
同胚. 对切空间 SX 中的向量 V, 可通过指数映射将 V 映射为流形 M 上从点 X 出发的等长同向的测地线.
5期
刘 佳 等: 基于协方差描述子和黎曼流形的语音情感识别
6 75
测地线 即是线性 空间中 直线的 推广. 该指 数映射
expX ( V ) 定义如下:
Y=
expX ( V )
=
X
1 2
Speech Em otion Recogn ition B ased on Covariance Descriptor and R iemannian M anifold
L IU Jia, CHEN Chun, YE Cheng-X,i L I Na, BU Jia-Jun (K ey Laboratory of Service R obot T echnique, C ollege of Computer Science and T echnology,
* 国家自然科学基金 项目 ( N o. 60873124) 、国家科技支撑计划项目 ( N o. 2008BAH 26B02)资助 收稿日期: 2008- 10- 27; 修回日期: 2009- 03- 31 作者简介 刘佳, 女, 1981年生, 博士研究 生, 主要研 究方 向为语 音情 感识别. E-ma i:l liujia@ zju. edu. cn. 陈 纯, 男, 1955年
Zhejiang Un iversity, H angzhou 310027)
ABSTRACT
An a lgorithm for speech em otion recognition is proposed based on covariance descr iptor and R iem annian m an ifo ld. A ccord ing to the extracted acoustic features, covariance m atrices are com puted as the em ot ion descriptors of sentences. W ith the consideration of h igh dim ensional characteristic of the space constructed by non- singu lar covariance m atrices, an affine invariance m etric is adopted to m ake the space m eet the requirem ent of R iem annian m an ifo ld. W ith d ifferent ial geom etry, the speech em otion recogn ition is perform ed on the m anifold. T he experim enta l results show a sign if icant improvem en t in recogn ition accuracy, especia lly under no isy env ironm ents.
的语音帧. 假设每句语音可以分成 T 帧, 对于 t时刻
( 1 t T ) 的帧数据 I( t ), 提取 n个语音声学特征,
标记为 [ F 1 ( t), F2 ( t ), , Fn ( t ) ] . 基于每句语音所 提取的 n 个特征序列, 可构建协方差矩阵 COVn n,
以此作为对应语音的特征描述子. 协方差矩阵
COVn n 中的各元素为
CO Vij
=
T
1 -
T
1 t= 1
(F i ( t)
- m i ) (F j ( t)
-
mj ),
其中, m i 和 m j 分别是编号为 i的声学特征和编号为
j的声学特征的平均值.
协方差矩阵自身具有对称、半正定的结构属性.
文献 [ 9] 指出, n n 的对 称半正定 矩阵构成 n
量是分类算法的基础, 所有分类相关的计算都必须
在度量空间中进行. 因此, 我们赋予该微分流形一个
可计算的度量, 使其满足黎曼流形的要求, 进而运用
微分几何方法, 给出分类在流形上的算法架构.
2. 2 黎曼流形
黎曼流形 M 是一个局部欧氏的拓扑空间, 是有
着连续黎曼度量的微分流形. 流形 M 上的每个点都
2 协方差描述子和黎曼流形
2. 1 协方差描述子
最先采用协方差矩阵进行特征描述和表征是在
纹理识别和物体检测等研究领域 [ 8] . 考虑到语音情
感信号也具有类似的高维空间分布特征, 我们将其