多通道用户界面的设计

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

青岛理工大学

人机交互实验设计报告

院（系）：

专业：

学生姓名：

班级学号：

题目：＿＿多通道用户界面的设计＿＿＿＿＿起迄日期：＿

完成日期: 2015 年7月 2 日

语音识别综述：

随着信息技术的高速发展和人类对计算机的依赖性不断增强，人机交互能力越来越受到研究者的重视。如何实现计算机的拟人化，使其能感知周围的环境和气氛以及对象的态度、情感的内容，自适应地为对话对象提供最舒适的对话环境，尽量消除操作者和机器之间的障碍，已经成为下一代计算机发展的目标。显然，人的大脑所表现出来的心智现象不仅仅体“智”的方面，而且还体现在“心”的方面。人工智能已经不仅仅把研究重点放在

对人脑智能实现上，而且也开展了对情感和意识方面的研究。一般认为情感是通过语言、姿态、音乐和行为等表达模式来进行交流的，而其中语音信号中的情感信息处理的研究正越来越受到人们的重视。

顾名思义，语音情感识别包括语音识别和情感识别两大领域，而情感识别中又包括诸如心理学、生理学等多个学科，所以如果要想使计算机准确的在语音中提取出说话人所表达情，就必须要从多方面知识领域着手。目前有许多关于语音和情感之间相互联系的研究，如美国、日本、欧洲、韩国等许多国家的一些研究单位都在进行情感语音处理研究工作。语音情感识别技术的用途非常广泛，可以用来设计人性化的语音人机界面；可以用于互动影视；可以用于辅助语音识别；可以用于情感翻译；还可以用在测谎、电子游戏和辅助心理治疗等方面。

语音情感的特征提取：

一般来说，语音中的情感特征往往通过语音韵律的变化表现出来。语音情感的变化通常可以体现为语音特征参数的变化。统计分析表明，高兴时，通常是语速较快，音量较大；悲伤时，通常是语速缓慢，音量较小。基音是最常用的判定情感的语音特征，它反映了超音段的信息。在语音情感识别中使用的特征参数有基频（Pitch），其次才是能量（Energy）、语速（Speech Rate）、共振峰频率（Formant）、单个音节的持续时间（Duration）、音节之间的停顿时间（Pause）、线性预测系数（LPC）、Mel倒谱系数（MFCC）等，以及它们的各种变化形式，如最大值、最小值、均值、范围、变化率等等。这些参数主要体现的是人体的声门和声道的特征，因此和人的生理构造有着密切的关系，在不同的个体上显现出较强的相异性。Dellaerat等人主要使用了基音轮廓线，来区分悲伤、生气、高兴和害怕，识别率能达到60-65%。Seppanen等人在利用韵律学对芬兰语进行语音情感识别时，提出了共43种情感参数，其中基音部分包括基音均值、中值、最大值、最小值、基音范围等参数，对于单个确定人的情感识别取得了80.7%的识别率。Petrushin采用了基音、一次共振峰和二次共振峰、能量、说话速率等参数对五种情感识别取得了很好的效果，平均识别率达到70%。McGilloway等人研究了高兴、生气、悲伤、害怕和正常这五种情感状态的分类，从能量、基音的运动轨迹中抽取了32个潜在的特征，得到了55%的识别率。以下比较详细地分析一下常用的特征。

语音情感识别的方法与手段：

各种模式识别方法，如线性判别分类(Linear Discriminant Classifier)，K最近邻法(K-Nearest Neighborhood)、支持向量机(Support Vector Machine)、高斯混合模型(Gaussian Mixtures)、隐马尔可夫模型(Hidden Markov Model)等，都被应用于语音的情感识别。许多学者针对这些情感语音的特征，比较了不同的分类方法能够达到的不同效果。在这些分类方法中，人工神经网络和隐马尔可夫模型的性能比较出色。

在模式识别方面，各国研究人员在语音情感信息处理领域几乎利用了所有的模式识别手段，新的方法的应用和对比层出不穷。Chul Min Lee等把语音情感识别归结为模式识别问题，并提出了三种方法[9]：线性判别分类(LDC)，K最近邻法(k-NN),支持向量机（SVC）。LDC是带有高斯概率分布的参数方法，估算完参数的均值和方差后，LDC利用贝叶斯准则计算出最大后验概率对情感进行分类。K-NN方法通过计算k领域的平均均值估算每类情感的局部

后验概率。在SVC方法中，用非线性的映射方法将输入向量映射到更高维的特征空间中进行计算。Tin Lay New等采用了Mel频率语音能量系数和HMM分类方法[10]，将语音信号分成16ms一帧的互相重叠的窗口，每一段语音帧都用12Mel频率下边带能量评价准则来进行参数化，对参数化后的再用矢量量化器进行编码。在系统的训练阶段，按照分类情感训练生成的码本，训练产生4状态各态历经HMM。在识别阶段，把没有经过事先分类的语音进行特征编码，之后用已经训练好的HMM进行识别，识别后的输出有五类，第一类输出是愤怒，第二类为伤心，愤怒与惊讶被作为一个输出分到了第三类，第四类为恐惧和高兴，第五类为厌恶和悲伤。Tin共做了三次实验，第一次只对第一组和第二组进行识别，其平均识别准确率达到了95%；第二次实验，对第三类和第五类进行了识别，其平均识别率达到了87.5%，第三次实验，对第三、第四、第五类进行识别，其平均识别率达到了82.22%。Tin从一个新的角度提出了语音情感识别的方法。

在基于神经网络的分类方法方面，Nicholson所研究的系统的整个神经网络由8个子网构成，其处理流程分两部分：语音处理（包括特征计算、句点提取和特征提取）情感识别（包括神经网络训练和识别情感）。其每个子网处理一种特定的情感。测试发现[11]，负面的情感，如愤怒和悲伤容易识别，但正面的情感（比如喜悦）不易识别。H. Sato等也采用神经网络，但是只能把平静时的情感和其他3种情感区分开来，还不能具体识别每一种情感[12]。McGilloway等人利用几位不同乘客的抽取语音作为研究对象，情感同样是高兴、生气、悲伤、害怕和正常状态，从强度、基音的运动轨迹中抽取了32个潜在的特征，使用了两个不同的分类器，其中的神经网络分类器采用90％作训练，10％作测试，得到了55％的识别率

总结与研究展望：

许多学者已经把语音情感识别和人脸表情识别结合起来研究，并取得了比较理想的效果。另外，语音中情感的识别和合成带有情感的语音是相辅相成的。合成情感语音最重要的韵律参数包括振幅和基音频率，通过修改平静时语音的发音持续时间，基音和振幅来产生带有情感的语音。对这些特征的分析，不仅有助于语音情感识别，还有助于情感语音合成。这些方面的研究将有助于人工智能向更人性化方向发展。尽管语音情感信息处理已经在很多方面取得了一系列的进展，但是面对真正的人机交互，还有许多的问题值得研究。