语音信号处理第8章 语音信号情感处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
③ 两侧嘴角微微下拉
多模态情感识别
情感行为识别:
– –
–
面部表情识别 语音情感识别 姿态识别 皮肤电反应 呼吸 心率 体温 脑电波等
生理模式识别:
– – – – –
8.1
概述
计算机要能够更加主动的适应操作者的需要,首先必须能 够识别操作者的情感,而后再根据情感类型来调整交互对 话的方式。对于情感信息处理技术的研究包括多个方面, 主要有情感特征分析、情感识别(如肢体情感识别、面部 情感识别和语音情感识别等)、情感模拟(如情感语音合 成等)。 近年来,语音情感的研究进展可以大致分为四个方面:一、 情感特征的选择和优化;二、建模算法的研究;三、自然 情感数据库的建立;四、关注情感模型适应能力的环境自 适应方法,如上下文信息、跨语言、跨文化,和性别差异 等。
典型应用
索尼公司的AIBO狗 :第一个实现规模商品化 的宠物机器人(2006年生产6万只,收益10亿 美元), QRIO、SDR-4X等宠物机器人。为 有情感交互能力的机器人及相关的研究打开了 想象的空间。
Βιβλιοθήκη Baidu
Pepper是一款人形机器人,由日本软银集团和 法国Aldebaran Robotics研发,可综合考虑周 围环境,并积极主动地作出反应。机器人配备 了语音识别技术、呈现优美姿态的关节技术, 以及分析表情和声调的情绪识别技术,可与人 类进行交流。
8.2.2 实用语音情感数据库的建立
3)建立过程和一般规范
参考国内外著名语料库及其相关的规范,实用语音情感数 据库建立的流程主要包含五个步骤:制定情感诱发方式、 情感语音采集、数据检验与补录、语句切分与标注和听辨 测试。
规范 发音人规范 语料设计规范 详细说明 描述发音人的年龄、性别、教育背景和性格特征等。 描述语料的组织和设计内容,包括文本内容设计、情感选择、语 料来源等。 录音规范 描述录音环境的软硬件设备、录音声学环境等技术指标。 数 据 存 储 技 术 描述采样率、编码格式、语音文件的存储格式及其技术规范。 规范 语 料 库 标 注 规 情感标注内容和标注系统说明。 范 法律声明 发音人录音之后签署的有关法律条文或者声明。
第8章 语音信号情感处理
概述 情感理论与情感诱发实验 情感的声学特征分析 实用语音情感的识别算法 应用与展望
何为情感?
吃惊
① 眉毛向上挑
② 眼睛圆睁
③ 嘴唇无意识地张开
恐惧
① 双眉上扬,聚拢
② 上眼皮上扬
③ 眼袋紧绷 ④ 双唇向两耳水平方 向略微拉伸
悲伤
① 上层眼皮下垂
② 两眼无光
8.2.1 情感的心理学理论
2)维度空间论
维度模型,是由效价度和 唤醒度组成的二维空间:1) 效价度或者快乐度,其理 论基础是正负情感的分离 激活,主要体现为情感主 体的情绪感受,是对情感 和主体关系的一种度量;2) 唤醒度或者激活度,指与 情感状态相联系的机体能 量激活的程度,是对情感 的内在能量的一种度量。
人类情绪的基本类型
快乐 愤怒 恐惧 悲哀
※快乐:盼望的目的 达到后继之而来的 紧张解除时的情绪 1.快乐:追求并达到所盼望的目的。 体验。
※愤怒:愿望不能达到或 事与愿违,并一再受到妨 碍的情况下产生的情绪体 验。
恐惧:由于缺乏 处理或摆脱可怕 的情景或事物的 能力引起的情绪 体验。
悲伤:与失去所 热爱的事物或所 盼望的东西有关 的体验。
国内外研究现状
MIT CMU 东京大学 早稻田大学 日内瓦大学 情绪研究实验室 伯明翰大学
中科院计算所:研究带有表情和动作的虚拟人。 中科院自动化所:基于生物特征的身份验证。 中科院心理学所、生物所:情绪心理学、生理学研究 中科院软件所:智能用户界面 浙江大学:虚拟人物、情绪系统构造 北京工业大学:多功能感知机同情感计算的融合研究。 东南大学:语音情感识别 南京航空航天大学:语音情感计算。 中国科技大学:基于内容的交互式感性图像检索的研究
8.2
情感理论与情感诱发实验
8.2.1 情感的心理学理论
1)基本情感论
基本情感论认为,人类的复杂的情感是由若干种有限的基 本情感构成的,基本情感按照一定的比例混合构成各种复 合情感。基本情感论认为情感可以用离散的类别模型来描 述,目前大部分的情感识别系统,都是建立在这一理论体 系之上的。 在心理学领域对基本情感类别的定义还没有一个统一的结 论,然而在语音情感识别的文献中,较多的研究者采用的 是六种基本情感状态:“喜悦”、“生气”、“惊讶”、“悲 伤”、“恐惧”和“中性”。
8.2.2 实用语音情感数据库的建立
1)概述
语音情感数据库的建立,是研究语音情感的必需的研究基 础,具有极为重要的意义。目前国际上流行的语音情感数 据库有AIBO(Artificial Intelligence Robot)语料库、 VAM(The Vera am Mittag)数据库、丹麦语数据库 (Danish Emotional Speech,DES)、柏林数据库、 SUSAS(Speech under Simulated and Actual Stress)数据 库等。
重庆大学:智能服务、增强现实、环境感知、 智能手表等,注重软件方面的研究。 海南大学:军用无线局域网结构中的可穿戴计 算机。 哈工大:“具有六种面部表情及视觉的类人头 像型机器人及行为研究” ,于2004年研制出 具有八种面部表情的仿人头像机器人系统,并 进行了表情实验,实现了喜、怒、哀、乐、悲 伤、严肃、吃惊、自然(中性)等8种表情。
8.2.2 实用语音情感数据库的建立
2)实用语音情感数据库的需求
情感语料可以分为自然语音、诱发语音和表演语音三类。 表演语料的优点是容易采集,缺点是情感表现夸张,与实 际的自然语音有一定的差别。早期基于表演语料的识别系 统,它的情感模型在实验室条件下是符合样本数据的,在 实验测试中也能获得较高的识别率,但是在实际条件下, 系统的情感模型与真实的情感数据不能符合的很好,导致 应用中的技术瓶颈。 面向实际应用的需求,实用语音情感数据库必须要保证语 料的真实可靠,不能采用传统的表演方式采集数据。通过 实验心理学中的方法来诱发实用语音情感数据,可尽可能 的使训练数据接近真实的情感数据。
多模态情感识别
情感行为识别:
– –
–
面部表情识别 语音情感识别 姿态识别 皮肤电反应 呼吸 心率 体温 脑电波等
生理模式识别:
– – – – –
8.1
概述
计算机要能够更加主动的适应操作者的需要,首先必须能 够识别操作者的情感,而后再根据情感类型来调整交互对 话的方式。对于情感信息处理技术的研究包括多个方面, 主要有情感特征分析、情感识别(如肢体情感识别、面部 情感识别和语音情感识别等)、情感模拟(如情感语音合 成等)。 近年来,语音情感的研究进展可以大致分为四个方面:一、 情感特征的选择和优化;二、建模算法的研究;三、自然 情感数据库的建立;四、关注情感模型适应能力的环境自 适应方法,如上下文信息、跨语言、跨文化,和性别差异 等。
典型应用
索尼公司的AIBO狗 :第一个实现规模商品化 的宠物机器人(2006年生产6万只,收益10亿 美元), QRIO、SDR-4X等宠物机器人。为 有情感交互能力的机器人及相关的研究打开了 想象的空间。
Βιβλιοθήκη Baidu
Pepper是一款人形机器人,由日本软银集团和 法国Aldebaran Robotics研发,可综合考虑周 围环境,并积极主动地作出反应。机器人配备 了语音识别技术、呈现优美姿态的关节技术, 以及分析表情和声调的情绪识别技术,可与人 类进行交流。
8.2.2 实用语音情感数据库的建立
3)建立过程和一般规范
参考国内外著名语料库及其相关的规范,实用语音情感数 据库建立的流程主要包含五个步骤:制定情感诱发方式、 情感语音采集、数据检验与补录、语句切分与标注和听辨 测试。
规范 发音人规范 语料设计规范 详细说明 描述发音人的年龄、性别、教育背景和性格特征等。 描述语料的组织和设计内容,包括文本内容设计、情感选择、语 料来源等。 录音规范 描述录音环境的软硬件设备、录音声学环境等技术指标。 数 据 存 储 技 术 描述采样率、编码格式、语音文件的存储格式及其技术规范。 规范 语 料 库 标 注 规 情感标注内容和标注系统说明。 范 法律声明 发音人录音之后签署的有关法律条文或者声明。
第8章 语音信号情感处理
概述 情感理论与情感诱发实验 情感的声学特征分析 实用语音情感的识别算法 应用与展望
何为情感?
吃惊
① 眉毛向上挑
② 眼睛圆睁
③ 嘴唇无意识地张开
恐惧
① 双眉上扬,聚拢
② 上眼皮上扬
③ 眼袋紧绷 ④ 双唇向两耳水平方 向略微拉伸
悲伤
① 上层眼皮下垂
② 两眼无光
8.2.1 情感的心理学理论
2)维度空间论
维度模型,是由效价度和 唤醒度组成的二维空间:1) 效价度或者快乐度,其理 论基础是正负情感的分离 激活,主要体现为情感主 体的情绪感受,是对情感 和主体关系的一种度量;2) 唤醒度或者激活度,指与 情感状态相联系的机体能 量激活的程度,是对情感 的内在能量的一种度量。
人类情绪的基本类型
快乐 愤怒 恐惧 悲哀
※快乐:盼望的目的 达到后继之而来的 紧张解除时的情绪 1.快乐:追求并达到所盼望的目的。 体验。
※愤怒:愿望不能达到或 事与愿违,并一再受到妨 碍的情况下产生的情绪体 验。
恐惧:由于缺乏 处理或摆脱可怕 的情景或事物的 能力引起的情绪 体验。
悲伤:与失去所 热爱的事物或所 盼望的东西有关 的体验。
国内外研究现状
MIT CMU 东京大学 早稻田大学 日内瓦大学 情绪研究实验室 伯明翰大学
中科院计算所:研究带有表情和动作的虚拟人。 中科院自动化所:基于生物特征的身份验证。 中科院心理学所、生物所:情绪心理学、生理学研究 中科院软件所:智能用户界面 浙江大学:虚拟人物、情绪系统构造 北京工业大学:多功能感知机同情感计算的融合研究。 东南大学:语音情感识别 南京航空航天大学:语音情感计算。 中国科技大学:基于内容的交互式感性图像检索的研究
8.2
情感理论与情感诱发实验
8.2.1 情感的心理学理论
1)基本情感论
基本情感论认为,人类的复杂的情感是由若干种有限的基 本情感构成的,基本情感按照一定的比例混合构成各种复 合情感。基本情感论认为情感可以用离散的类别模型来描 述,目前大部分的情感识别系统,都是建立在这一理论体 系之上的。 在心理学领域对基本情感类别的定义还没有一个统一的结 论,然而在语音情感识别的文献中,较多的研究者采用的 是六种基本情感状态:“喜悦”、“生气”、“惊讶”、“悲 伤”、“恐惧”和“中性”。
8.2.2 实用语音情感数据库的建立
1)概述
语音情感数据库的建立,是研究语音情感的必需的研究基 础,具有极为重要的意义。目前国际上流行的语音情感数 据库有AIBO(Artificial Intelligence Robot)语料库、 VAM(The Vera am Mittag)数据库、丹麦语数据库 (Danish Emotional Speech,DES)、柏林数据库、 SUSAS(Speech under Simulated and Actual Stress)数据 库等。
重庆大学:智能服务、增强现实、环境感知、 智能手表等,注重软件方面的研究。 海南大学:军用无线局域网结构中的可穿戴计 算机。 哈工大:“具有六种面部表情及视觉的类人头 像型机器人及行为研究” ,于2004年研制出 具有八种面部表情的仿人头像机器人系统,并 进行了表情实验,实现了喜、怒、哀、乐、悲 伤、严肃、吃惊、自然(中性)等8种表情。
8.2.2 实用语音情感数据库的建立
2)实用语音情感数据库的需求
情感语料可以分为自然语音、诱发语音和表演语音三类。 表演语料的优点是容易采集,缺点是情感表现夸张,与实 际的自然语音有一定的差别。早期基于表演语料的识别系 统,它的情感模型在实验室条件下是符合样本数据的,在 实验测试中也能获得较高的识别率,但是在实际条件下, 系统的情感模型与真实的情感数据不能符合的很好,导致 应用中的技术瓶颈。 面向实际应用的需求,实用语音情感数据库必须要保证语 料的真实可靠,不能采用传统的表演方式采集数据。通过 实验心理学中的方法来诱发实用语音情感数据,可尽可能 的使训练数据接近真实的情感数据。