服务机器人的语音情感识别与交互技术研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

万方数据
7期
袁健等:服务机器人的语音情感识别与交互技术研究
1467
音研究领域非常出名的大会. 在国内,语音情感识别的研究起步较晚,但是国家以及大
学和科研院所都加大了在这个领域的研究力度,比如中科院 自动化所、清华大学、北京科技大学、东南大学、浙江大学等. 2001年,东南大学赵力等人提出语音信号中的情感识别研 究【7].2003年,北京科技大学谷学静等人将BDI Agent技术 应用与情感机器人的语音识别技术研究中.另外,2003年12 月中科院自动化所等单位在北京主办了第一届中国情感计算 及智能交互学术会议,2005年lO月又在北京主办了首届国 际情感计算及智能交互学术会议"j.
Xiao-wei2-删埘 YUAN Jianl。趣Xian91.xU Hua-hul-FENG University,Shanghai200444,‰) 1(College o/ComputerEngineering andScience,Shanghai
2(College口,Mechatronics Enginee—ng and Automation,Shanghai University,Shanghai 200444。C舳W) ’(Computer Center。Shanghai University,Shanghai 200444,China)
合、头部的转动等并能做出基本的表情.机器人的结构设计和
系统设计完全根据生理学人体结构来设计,控制系统采用上
下位机结构.机器人的移动部分使用两轮差动机构进行驱动,
并且配有两个6自由度的手臂,可以进行复杂操作.上位机采
计算每一情感语音从开始到结束的持续时间.提取持续 时间时应包括无声部分,因为无声部分对情感是有贡献的. 3.I.2基音频率
基音是指物体振动时所发出频率最低的音,利用倒谱法 逐帧计算出基音频率,考虑到可能产生检测错误,因此对结果 进行中值滤波和线性平滑处理¨0。.选取平均基音频率,最大 基音频率、基音频率的平均变化率等参数用于情感识别. 3.1.3语音信号的能量u¨
对于语音情感识别技术的研究,情感语音库是个基础工 程:另外还需要提取有效的情感特征,改进语音情感识别算 法。提高情感的识别率.
3语音情感识别的关键技术
3.1语音信号的情感特征提取 基于心理学和韵律学研究的结果,说话者的情感在语音
中最直观的表现就是韵律特征和语音质量的变化.因此对语 音情感识别的研究普遍从韵律特征和音质特征开始,尤其是 韵律特征,被认为是最主要的语音情感特征【9J.本文采用窗 长23.22ms(256点),窗移10ms的汉明窗,选取语音持续时 间、平均基音频率、最大基音频率、基音频率的平均变化率、语 音短时能量变化率和有声部分平均短时能量、短时平均振幅、 最大振幅、振幅平均变化率、共振峰频率的平均值、共振峰频 率的平均变化率、共振峰峰值点回归直线的平均斜率以及共 振峰峰值的平均值等情感特征作为情感识别用参数. 3.I.I语音持续时间
用,该机器人能够识别人的语音情感并能与人进行一定的交互.
关键词:语音情感识别;服务机器人;情感机器人
中图分类号:TP912
文献标识码:A
文章编号:1000一1220(2010)07-1466-04
Study on the Speech Emotion Recognition and Interactive Technology of Service Robot
■o^一^+I
(2)
式2可以理解为窗函数∞(n)对信号进行了线性滤波运
算.与短时能量比较,短时平均振幅用绝对值之和代替了平方
和,简化了运算.由于振幅的瞬间最大值很难屏蔽掉一些干扰
导致的突变,那么取得的值将是不准确的.因此,选取从发音
开始到结束之间的平均振幅的最大值作为最大振幅,同时提
取振幅平均变化率作为参数用于语音情感识别.
Abstract:This paper analyzes the development and key technologies of speech emotion recognition technology,then applies the speech emotion recognition technology based on HMM tO robot.The purpose is tO enable the robot tO recognize and tO understand the ornodonal information that lies in speech signal and then to give the corresponding emotion expression through speech,facial expres- sion,body action and SO 011.The paper gives the印plication of applying the speech emotion mcognition and interactive technology to service robot.Thus it forms natural and user-friondly interaction and establishes friendly human—machine interaction environment. Key words:speech emotion recognition;service robot;emotion mbot
小型微型计算机系统 Journal of Chinese Computer Systems
2010年7月第7期 V01.31 No.7 2010
服务机器人的语音情感识别与交互技术研究
袁 健1,贺 祥1,许华虎1,冯肖维2,刘 玲3
1(上海大学计算机工程与科学学院,上海200444) 2(上海大学机电工程与自动化学院,上海200444)
也可以用于刑事侦察中自动检测犯罪嫌疑人的心理状态以及 辅助测谎‘41等.
本文介绍了VC++开发环境下服务机器人的语音情感 识别和语音交互系统的实现,通过实验表明,机器人能够识别 人的情感并能与人进行友好的交互.
2语音情感识别的研究现状
在19r72年,Williams发现人的情感变化对语音的基音轮 廓有很大的影响,这是国外最早的语音情感方面的研究之一. 近年来研究最活跃的是美国麻省理工学院媒体实验室.1990 年,麻省理工学院媒体实验室构造了一个”情感编辑器”对外 界各种情感信号进行采样,如人的语音信号、脸部表情信号等 来识别各种情感"J.1996年日本东京Seikei大学提出情感空 间的概念并建立了语音情感模型.2000年,Maribor大学的 Vladimir Hogan研究了基于多种语言的语音情感识别【6】.国 际语音通信协会(ISCA)为此也做了很大的贡献,现在该协会 每两年举办一次的Earospccch或Interspeech国际会议,是语
1,‘;嘴.m楚[P(O/A,)]
(3)
万方数据
1468
小型微型计算机系统
2010年
4技术应用
4.1机器人平台介绍
本文将语音情感识别技术应用在国家”八六三“高技术
研究发展计划项目”家庭生活支援多机器人系统”的语音子
系统中,验证了语音情感特征提取和情感识别方法的有效性.
该机器人的头部能够实现眼球的转动、眼睑的闭合、嘴的闭
3E-(m上ai海l:大j学ia计ny算ua中nc心lm,@删上.海t2o0m0444)
摘要:分析语音情感识另ll技术的发展现状和关键技术,将基于隐马尔可夫模型的语音情感识别方法应用在机器人中,目的在
于使机器人能够识别人的语音信号中的情感信息,并做出相应的情感表达.这在我们研制出的服务机器人中得到了较好的应
信号的振幅特征与各种情感信息具有较强的相关性.短
图l 隐马尔可夫模型状态转换图 Fig.1 Tbe star transition d/agram for H3MM
2)对于任何一个待识别的语音样本,执行图1中所示的 步骤,在图1中a。是状态转移矩阵A中的元素,bj(0)是分布 矩阵B的列向量.首先通过特征提取得到待识别单词的观测 矢量序列0:随后依次对每个模型计算其匹配得分,匹配得分 可以通过Viterbi算法得到;最后选择匹配得分最高的模型作 为识别结果,即:
以及共振峰峰值的平均值等作为识别用特征参数.
3.2语音情感识别方法
语音情感识别是一个模式识别问题,大部分模式识别和
分类方法都被尝试用于语音中情感的自动识别,这些方法包
括人工神经网络,隐马尔可夫模型,混合高斯模型,支持向量
(删)的方法实现对语音信号中的情感的识别. 机和最大似然贝叶斯分类等.本文利用隐马尔可夫模型
l引言
服务机器人是一种半自主或全自主工作的机器人,它能 完成有益于人类的服务工作,但不包括从事生产的设备¨1. 与工业机器人注重精密、快速和高效相比,服务机器人则更重 视安全可靠和使用方便,这是因为服务机器人更贴近人类的 日常生活.
语音情感识别就是从语音信号中识别出说话人的情感信 息,它是情感机器人中情感识别系统的一个重要组成部分.情 感机器人是指具有人类智能的机器人.它从人类中成长,学习 人类的技能,与人类拥有共同的价值标准,可以看成是人类思 维的后代.这里所说的人类智能,是一种广义上的智能,它不 但包括一定的智商,同时还具有一定的”情商¨“.语音情感 识别在自然人机交互、多媒体分段与检索、安全系统自动监管 等方面有着广泛的应用前景.比如,用于自动远程电话服务中 心,及时发现客户的不满情绪H1;用于远程教学和婴儿教育, 及时识别学生的情绪并做出适当的处理,从而提高教学质量;
收稿日期:2009-03.16基金项目:国家。八六三。高技术研究发展计划项目(2007AA041604)资助. 作者简介:袁健.男,1985年生。硕士
研究生,研究方向为语音情感识别、多媒体技术;贺祥,男,1984年生。硕士研究生,研究方向为机器视觉;许华虎,男,1966年生,教授,博士, CCF高级会员,研究方向为多媒体技术、CIMS、网络等;冯肖堆.男,1982年生,博士研究生,研究方向为智能机器人控制等;刘玲.女,1977年 生。研究方向为网络管理.
由于语音信号的能量随时问变化,清音和浊音问的能量 差别相当显著,因此对短时能量进行分析,可以描述语音的清 浊音变化情况.短时能量定义为
时能量函数存在对信号电平值过于敏感的问题,可通过平均 振幅函数来衡量语音幅度的变化,其定义为


^L=∑ix(丹)l∞(以一w)= ∑...I工(n)I∞(疗一卅)
I■;一■
1)语音库中的每个情感状态V建立其对应的隐马尔可 夫模型入,,即得到和每种情感状态用于训练的所有观察序列 最为匹配的参数模型(1r,A,B).
(0)
E=∑[工(m)∞(n一,,1)]2= m=·■
来自百度文库
■m墨^+.I.[工(m)∞(刀一肌)】2(1)
式l中,汉明窗函数∞(n)平方的物理含义是一个冲激响 应为∞(n)2的滤波器.首先求出语音信号各样本点值的平 方,然后样点通过滤波器输出由短时能量构成的时间序列.采 用窗长N=23.22ms(256点),在满足对语音振幅瞬问变化的 细节进行了有效平滑的前提下,保证了短时能量的明显变化. 识别时将情感语音短时能量变化率和有声部分平均短时能量 作为特征参数. 3.1.4语音信号的振幅
隐马尔可夫模型作为语音信号的一种较为理想的统计模 型,今天已经在语音处理领域获得了广泛的应用,}IMM已成 为语音识别领域很成熟的方法。形成了用于语音识别的基本 结构框架:如Bamn Welch训练算法、Viterbi识别算法等.
假定有一个含有V种情感状态语音的待识别语音库,每 个情感状态都有K个语音样本.对于情感语音的识别,要完 成以下工作u”:
3.1.5共振峰
共振峰是反映声道特性的一个重要参数,因为不同情感
的发音可能使声道有不同的变化,所以能够预料到不同情感
发音的共振峰的位置不同.本文首先用线性预测法求出预测
系数,然后用预测系数估计出声道的频响曲线,再用峰值检出
法计算出各共振峰的频率H“.选取共振峰频率的平均值、共
振峰频率的平均变化率、共振峰峰值点回归直线的平均斜率
相关文档
最新文档