语音情感识别

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

31
特征应该具有的特点
1.
2.
3.
4.
区分性。特征应具有很高的区别情感的能力，而在同类的情感语音发生变化时保持相对稳定。鲁棒性。当语音受到诸如传输通道、噪声等的影响时，特征对这些影响的敏感性较小。可表示性。只有转化为易于计算机表示和计算的特征才能用于自动语音情感识别。提取的效率。特征提取的时间应越快越好，对于实时性要求较高的场合特征提取的效率尤为重要。
情感计算包括3部分：情感识别、情感理解、表示和计算、情感表达。其中，SER：计算机通过语音判断人的情感
信号获取分析识别情感理解情感表达
4

2013-8-8
语音情感识别

为什么研究语音情感识别呢？语音是人与人之间沟通的重要手段，也是传递情感的重要媒介，因而也就成为智能人机交互中人们期待的最为方便、自然的交互方式之一。研究热点
能感知人类情感的❀：KOTOHANA
2013-8-8 13
国内

普通话和西方语系有地域、文化差异，不能完全照搬。要研究普通话SER
1.
东南大学无线电工程系
赵力教授的实验小组在国内率先开展了普通话语音情感识别的研究，2001，采用PCA 南航电子工程系钱向民教授
2.
清华大学计算机科学与技术系
蔡莲红教授领导的人机语音交互实验室
③连续性，情感素材应在连续的情感场景中发生，存在着多种情感状态的转移。 ④丰富性，数据库中的情感素材应尽可能地包含多媒体信息，如声音，表情等。
28

2013-8-8
例如
女：我从火车站怎么到你那？男：我到火车站接你。（正常，Level 0）。女：不，谢谢。告诉我去的路就行。男：我到火车站接你。。（有点不高兴，Level 1）。女：只要告诉我去的路，我自己能去。男：我到火车站接你！（有点急躁，Level 2）。女：我自己去。男：我到火车站接你！！（生气，Level 3）。女：你真要来接我呀？男：我到火车站接你！！！（愤怒，Level 4）。
哪些模式识别的方法可用于SER呢？哪些分类算法？
1. 2. 3. 4. 5. 6. 7. 8.
9.
10. 11.
PCA 决策树 ANN K近邻 GMM VQ、DTW、HMM 朴素贝叶斯 SVM 集成学习算法：多个子分类器组合成一个模型，如Boosting， Bagging EA、GA 半监督学习
35
情感状态。自然语料：从电视访谈节目中选取剪辑的125位说话人的多种情感。
2、CREST情绪语料库
日本的国际电气通信基础技术研究所(ATR)录制，包含完全自然状态下的1000小时情
感语音，其中60%是日语语料，汉语和英语语料各占20%。
3、丹麦语情感语音库
包括5种情感:高兴、生气、惊奇、悲伤、平静。共260条语音。
广播、电视、媒体
27
4.
2013-8-8
情感语音数据的获取的原则

Douglas-Cowie提出了情感数据库建立必须依据的四个原则： ①真实性，数据库中的素材应是人们所经历过的真实的情感体验。

②交互性，数据库中的情感素材应是人们在人与人之间交互过程中产生的，这样更接近于语音情感人机交互的目的。
2013-8-8
PCA
1、进行规范化处理，即将数据都转化为标准正态分布序列。 2、假设有M个样本信号，S个特征参数，J种情感类别。例如：J=6，S=8。分别计算第s个特征参数相对于不同的情感类别j所具有的均值μjs和标准差σjs，并计算：第s个特征参数在情感类别中的分离性：集中性：辨别能力： 3、对S个参数按Hs由大到小排序，取前q个作为识别用特征。 4、求出每种情感类别训练样本主元素特征矢量集的重心和方差。 5、待识别样本的主元素向量和各类别重心的马氏距离，距离最近的即为识别结果。
15

IEEE 2013-8-8
4、SER流程
2013-8-8
16
SER流程

语音情感数据库

预处理：A/D转换，高频部分预加重（使信号频谱变得平滑）
用窗函数分帧，如汉明窗在每一个语音分析帧上提取瞬时特征，具体分为时域分析和变换域分析。特征太多则需要降维。训练，可看成分类器，模式分类
19
1.
2.
3. 4.
2013-8-8
1、基本情感和复合情感
一般认为有六大类基本情感：恐惧(fear) 生气(anger) 高兴(happiness) 悲伤(sadness) 吃惊(surprise) 厌恶(disgust)
复合情感由基本情感变化或混合得到——情感的调色板理论
2013-8-8
2、情感空间模型38 Nhomakorabea语音情感数据的采集

语音情感数据的采集：通过计算机游戏诱发情感。愉悦、烦躁、平静

依据：在实验心理学中，计算机游戏通过画面和音乐的视觉、听觉刺激，能提供一个互动的、具有较强感染力的人机交互环境，能够有效地诱发出被试人员的正面与负面的情感。特别是在游戏接连胜利时，被试人员由于在游戏虚拟场景中的成功与满足，被诱发出喜悦的情感；在游戏连续失败时，被试人员在虚拟场景中受到挫折，容易引发包括烦躁在内的负面情感。在进行较长时间的实验过程中，重复性的游戏操作和失败，能顺利地诱发烦躁情感。对于语句文本的设计，考虑到烦躁等实用语音情感识别的一个主要应用领域为长期的航空、航天和航海任务所引发的负面情绪的评估，20句无情感倾向性的工作用语短句选自国际海事组织(IMO)发布的《标准航海通信用语》(SMCP)。
到细。
2013-8-8
23
6、情感语音数据库 ——SER的基础和对象
因为现阶段的SER系统大多是基于语料库的统计学习来实现的
2013-8-8
24
情感语音数据库

有哪些现成的情感语音数据库呢？包括多种语言多个不同年龄不同性别说话者的大规模情感语音库至今还没有。
1、Belfast英语情绪语料库
引导语料：由50位说话人根据引导文本，表达愤怒、恐惧、高兴、悲伤和中性这五种
12
2013-8-8
国外
4、以色列Nemesysco公司 ()
实际应用：以分层声音分析技术(LVA)在安全、
商业和个人娱乐领域为客户提供解决方案。
5、日本SGI研究院 (http://www.sgi.co.jp/solutions/bbu/ST/in dex.html)
2013-8-8
25
情感语音数据库
4、柏林情感数据库引导型情感语音。日常交流中常用的十个德语语句，共800句语句，含七种情感：中性、愤怒、恐惧、高兴、悲伤、厌恶和惊奇。 5、汉语普通话情感语音数据库（1）由中国科学院自动化研究所提供，所有的情感语料由专业和非专业人员模仿情感进行录制，共9600条语音，包括6种情感:高兴、生气、惊奇、恐惧、悲伤、平静。（2）东南大学无线工程系制作完成，表演型情感语音。由10名善于表演的男性话者对4个语句分别用喜、怒、惊、悲四种情感各发音三次收集到情感语句480句。
2013-8-8
3
背景

主要用于逻辑推理的计算机是否应该具有情感智能？ MIT的Minsky教授在1985年的专著《The Society of Mind》中指出：问题不在于智能机器能否有任何情感，而在于机器实现智能时怎么能够没有情感。

情感计算：1997年MIT媒体实验室的Picard教授，《Affective Computing》，定义：与情感有关、由情感引发或刻意影响情感的计算。现为研究热点。中国：王志良
80年代末90年代初，根据韵律控制人机
会话的过程。 90年代中后期开始快速发展。
2013-8-8
11
国外
1.
英国贝尔法斯特女王大学的情感语音组
收集并创建了第一个大规模的高自然度声音情感数据库，R Cowie,
E Douglas-Cowie 教授，2000年。重点研究心理学和语音分析。
2.
美国MIT媒体实验室情感计算研究所（）
Picard教授领导的情感计算组是世界上第一个大规模研究情感及其
计算的科研机构。
3.
美国南加州大学语音情感组（/emotion/index.php）Narnyana教授，情感语音的声学分析、合成和识别，以及有关笑声的合成研究。

识别，模式匹配，分类
17
2013-8-8
5、情感理论和语音情感分类 —— SER的前提
2013-8-8
18
情感理论和语音情感分类

什么是情感？如何划分情感类型？情感属于人类经验的一个基本方面，它在人类使用文字符号前就早已存在，因此很难给出情感定义，因此划分情感类型也颇有争论。主要有以下分类方法：基本情感和复合情感情感空间模型情感轮三级情感模型
2013-8-8
5
2、 SER应用
2013-8-8
6
应用

为什么我们需要SER呢？服务业：电话通讯（呼叫中心）安全检测：受害人呼救教育业：远程教学中的人文关怀，提高学习效率娱乐业：玩具（AIBO狗，PLEO恐龙，小Q）、游戏工业：汽车（车载监控，安全性），手机，家电，情感香水喷射器医学：情感虚拟人，情感交流

情感之间是连续和渐变的过程激励—评价—强度空间模型激活度或唤醒度评价度或愉悦度强度维度或控制维

2013-8-8
21
3、情感轮
情感用情感矢量E表示
情感强度：E幅度
情感方向：E角度中心：没有情感常用这八种情感
2013-8-8
22
4、三级情感模型
按照情感中表现的主动和被动的程度，由粗
2013-8-8
32
情感语音特征
情感语音特征的具体提取方法
教材P85
注意事项：
韵律特征和语音特征要结合分析情感语音和平静语音相对关系，找出这种相
对特征的构造、特点和分布规律。以消除语义影响。
2013-8-8 33
8、 SER方法
SER本质上属于模式识别
2013-8-8
34
SER方法
2013-8-8 36
识别引擎实例
中科院语音情感识别引擎
/node/53
评价指标
识别率
计算效率
2013-8-8
37
9、SER研究举例
黄程韦, 赵艳等. 实用语音情感的特征分析与识别的研究. 电子与信息学报, 2011,33(1)
2013-8-8
3.
模式识别国家重点实验室
以陶建华博士为主的研究小组
4.
台湾大同大学资讯工程学系
包苍龙教授领导的数据通讯与信号处理实验室

其他：中科院自动化所、中国社科院语言研究所、哈工大、浙大、华南理工、中科大、江苏大学等等
14
2013-8-8
期刊会议

国际语音通信协会(ISCA)每两年举办一次Eurospeech和Interspeech国际会议。其他会议：ICASSP，ICSLP，ISCSLP 期刊： pattern recognition，JCR-2 IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE， JCR-1 JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA， JCR-3 Speech Communication， JCR-4 Signal Processing，JCR-3 COMPUTER SPEECH AND LANGUAGE，JCR-3 Transactions on Audio Speech and Language Processing，JCR-3

其他包括西班牙语、瑞典语、荷兰语等等。微软研究院，浙大CCNT实验室的 MASC
26
2013-8-8
情感语音数据的获取方法

自己怎样获取语音情感数据呢？比较困难，方法：演员表演：想象，朗读。一句话多种情感，去除语义的影响。虚拟环境中诱发情感：例如玩游戏。
1.
2.
3.
现实生活：最真实，较困难。

…只要能够想到的地方
7
2013-8-8
小Q
/show/214.html
2013-8-8
8
情侦宝

中科院自动化所联通增值业务
2013-8-8
9
3、 SER发展与现状
2013-8-8
10
发展与现状
SEC是怎么发展起来的？谁在研究它？
2013-8-8
29
7、情感语音特征
不同的情感，不同的语音特征
2013-8-8
30
情感语音特征
不同情感对语音产生了什么影响？可以通过哪些特征反映出来呢？

韵律特征：最主要的语音情感特征。如语速、音量、音调等，例如发怒时，都会增加。语音特征：振幅、共振峰频率、基音频率、持续时间等
2013-8-8
语音情感识别（SER）
目录
1. 2.
3.
4. 5. 6. 7. 8. 9. 10. 11.
SER背景 SER应用 SER发展与现状 SER流程情感理论和语音情感分类情感语音数据库情感语音特征 SER方法 SER研究举例 SER存在的问题及思考主要参考文献
2
2013-8-8
1、 SER背景