(完整版)情感语音信号中共振峰参数的提取方法毕业设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
太原理工大学
毕业设计(论文)任务书毕业设计(论文)题目:
情感语音信号中共振峰参数的提取方法毕业设计(论文)要求及原始数据(资料):
要求:
1:大量查阅关于共振峰提取技术的资料(通过Internet或图书馆)。
2:分析总结各种共振峰的提取方法。
3:用一种共振峰提取方法实现情感语音中共振峰的提取。
4:写一篇论文并给出共振峰提取结果。
原始数据:
1:共振峰研究意义
随着多模态人机交互技术的发展,新型人机交互模式的应用前景更加广阔。
语音作
为一种自然有效的人机交互方式,成为当前的研究热点。
语音信号不仅包含语音信息,
还包含着说话人的情感信息。
语音情感信息处理技术的研究对于提高计算机的智能化具
有重要的现实意义。
语音情感信息处理技术作为一个重要的研究领域已经有很长时间的研究历史了,然
而在传统语音信号处理中往往忽略了在语音信号中的情感因素。
共振峰是反映声道谐振
第1页
特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。
所以共振峰是语音信号处理中非常重要的特征参数,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。
人在语音感知中也利用了共振峰信息。
所以共
振峰已经广泛地用作语音识别的主要特征和语音编码的基本信息。
语音的频率特性主要是由共振峰决定的,当声音沿声管传播时,其频谱形状就会随声管而改变。
如果讲话者的发音中包含喜、怒、哀、乐等情感信息,那么讲话者的声道形状就会发生不同的变化。
共振峰作为情感特征信息的非韵律特征参数,我们研究提取它的方法对包含在语音信号中的情感信息分析和处理时及其有意义的。
2:共振峰的几种提取方法
(1)谱包络提取法:共振峰信息包含在语音频谱包络中,因此共振峰参数提取的关键是
估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰。
(2)倒谱法提取共振峰:因为倒谱运用对数运算和二次变换将基音谐波和声道的频谱包
络分离开来。
去除了激励引起的谐波波动,所以可以更精确地得到共振峰参数。
(3)LPC法提取共振峰:从线性预测导出的声道滤波器是频谱包络估计器的最新形式,线
性预测提供了一个优良的声道模型(条件是语音不含噪声)。
(4)求根法提取共振峰:找出多项式复根的过程通常采用牛顿—拉夫逊(Newton-Raphson)
算法。
(5)LPC倒谱法提取共振峰:语音信号的倒谱可以通过对信号做傅里叶变换,取模的对
数,再求反傅里叶变换得到。
第2页
毕业设计(论文)主要内容:
1:介绍情感语音信号共振峰提取的背景及研究意义,分析语音合成技术的国内外研究现
状、应用领域。
2.探索提取情感语音信号中共振峰参数所所遇到的问题困扰。
(1)虚假峰值(2)共振峰合并(3)高音调语音
3.分析掌握共振峰的多种提取方法,对多种共振峰提取方法进行比较和分析。
(1)谱包络提取法
(2)倒谱法提取共振峰
(3)LPC法提取共振峰
(4)求根法提取共振峰
(5)LPC倒谱法提取共振峰
4.重点研究分析倒谱法提取语音信号共振峰,分析其优缺点并利用这种方法提取情感语
音中的共振峰。
学生应交出的设计文件(论文):1:开题报告
2:中期检查
3:毕业论文
第3页
主要参考文献(资料):
[2] 张刚, 张雪英, 马建芬. 语音处理与编码[M]. 北京, 兵器工业出版社, 2000.
[4] Cowie R and Cornelius R. Describing the emotional stares that are expressed
in Speech[J], Human-Computer Studies, 2003, 40:5-3.
[5] D Ververidis and C Kotropoulos, Emotional speech recognition:Resources,
features and [6] Cowie, R.Douglas-Cowie, E.Savvidou, MeMahon, E.Sawey, M.Sehroder, M.FEELTRACE’:An Instrument for Recording Perceived
Emotion in Real Time. In ISCA Workshop on Speech and Emotion, Belfast 2000.
[7] Cowie, R.Douglas-Cowie, E.Speakers and hearers are people:Reflections on
Speech deterioration as a consequence of acquired deafness in Profound
Deafness and Speech Communication. London, 1995.
[8] R.Cowie,E.Douglas-Cowie, E.Automatic statistical analysis of the signal and
prosodic signs of emotion in speech.In Proc. 4th Int. Conf. Spoken Language Processing.PhiladelPhia, PA,
[9] 赵力, 蒋春辉, 邹采荣. 语音信号中的情感特征分析和识别的研究[N]. 电子学
报, 2004,
[10] 付丽琴, 王玉宝, 王长江. 基于多特征向量的语音情感识别[J]. 计算机科学,
2009,
专业班级通信0902班学生赵智越
要求设计(论文)工作起止日期2013年2月25日—2013年6月16日指导教师签字日期
教研室主任审查签字日期
系主任批准签字日期
第4页
情感语音信号中共振峰参数的提取方法
摘要
语音情感识别是新型人机交互技术的研究热点之一,在人工智能方面有着较广泛的应用前景。
共振峰频率是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源。
所以研究情感语音信号中共振峰参数是有很大意义的。
基于共振峰参数在情感语音信号中的重要性,本文主要研究了情感语音信号中共振峰参数的提取方法。
提取共振峰的常用方法包括:谱包络提取法、倒谱法和LPC法。
由于倒谱法根据对数功率谱的逆傅立叶变换,能够分离频谱包络和细微结构,很精确地得到共振峰信息,所以本文重点研究倒谱法提取共振峰。
本文通过MATLAB软件利用倒谱法实现了对高兴、生气、中立三种情感状态的共振峰参数的提取。
分析提取结果,得到了下面的一些结论:相对于中立发音而言,高兴和生气的第一共振峰频率相对升高,从人的发音特点来看,人们在表达高兴和生气时,嘴比平静发音时张得更大,因此会出现这样的结果。
所以说,可以用共振峰作为区分不同情感语音的手段。
关键词:语音情感识别;共振峰参数;共振峰提取方法;倒谱法
Extraction method of emotional speech signal of the
formant parameters
Abstract
Speech emotion recognition is one of the hot research of new human-computer interaction technology, which has a wide application prospect in artificial intelligence. Formant frequency is an important characteristic of reflecting the resonant characteristics of channel, it represents the pronunciation of the most direct source of information. So the research of emotional speech signal of the formant parameters is of great significance.
Based on the importance of formant parameter in the emotional speech signals, this paper mainly studied the extraction method of emotional speech signal of the formant parameters. Several main methods of extraction of formant are: spectral envelope extraction, cepstrum method and LPC method. Since cepstrum based on the number of inverse Fourier transform power spectrum, it can separate spectral envelope and the fine structure and get very precise information on the formant, so this paper focuses on research cepstrum formant extraction.
This paper use MATLAB software cepstrum emotional state to achieve happy, angry and neutral three formant parameter extraction. Analysis to extract a result, I get some of the following conclusions: Relative to the neutral pronunciation, the happy and angry the first formant frequency is
relatively increased. Pronunciation features from the human point of view, people are happy and angry expression, mouth to pronounce than when Zhang was more calm, so there will be such an outcome. So, you can use the formant speech as a means to distinguish between different emotions.
Key Words: Speech Emotion Recognition; Formant parameters; Formant extraction method; Cepstrum
目录
摘要 .................................................................. Abstract . (II)
第1章绪论 ............................................................
1.1 选题意义.......................................................
1.2 情感语音识别技术的国内外发展现状 ...............................
1.2.1 国际情感语音识别发展现状..................................
1.2.2 国内情感语音识别发展现状..................................
1.3 本文的主要研究内容及结构安排 ...................................
1.3.1 本文的主要研究内容........................................
1.3.2 本文的结构安排............................................ 第2章情感的分类与语音情感识别.........................................
2.1 情感的分类.....................................................
2.2 情感语音数据库.................................................
2.3 语音情感识别系统............................................... 第3章共振峰的基本概念 (1)
3.1 共振峰参数的概念及产生原理 (1)
3.2 共振峰参数的研究意义 (1)
3.3 提取共振峰参数所遇到的问题 (1)
第4章共振峰的提取方法及分析 (1)
4.1 谱包络提取法 (1)
4.2 倒谱法提取共振峰 (1)
4.3 LPC法提取共振峰 (1)
4.4 求根法提取共振峰 (1)
4.5 LPC倒谱法提取共振峰 (1)
4.6 几种提取方法分析比较 (1)
4.7 同类文章提取方法比较 (1)
第5章倒谱法提取共振峰的实现 (2)
5.1 倒谱的定义 (2)
5.2 倒谱法提取共振峰原理 (2)
5.3 倒谱法提取情感语音共振峰具体实现过程 (2)
5.4 共振峰提取结果及结论分析 (2)
5.4.1 情感语音原始波形 (2)
5.4.2 情感语音共振峰提取结果 (2)
5.4.3 结论分析 (2)
第6章总结与展望 (2)
6.1 全文总结 (2)
6.2 展望 (2)
参考文献 (2)
致谢 (3)
外文原文 (3)
中文翻译 (4)
第1章绪论
1.1 选题意义
随着多模态人机交互技术的发展,新型人机交互模式的应用前景更加广阔。
语音作为一种自然有效的人机交互方式,成为当前的研究热点。
语音信号不仅包含语音信息,还包含着说话人的情感信息。
语音情感信息处理技术的研究对于提高计算机的智能化具有重要的现实意义。
语音信号处理技术作为一个重要的研究领域有着很长时间的研究历史,然而在传统语音信号处理中往往忽略了在语音信号中的情感因素。
语音情感识别是语音识别的一个重要的分支,而语音识别则是数字信号处理技术与语音学的交叉学科,它和心理学、计算机科学、认知科学、语言学、人工智能和模式识别等学科紧密联系。
近年来,人们研究发现情感所引起的语音信号变化对语音识别、语音合成、说话人确认等方面有较大影响,所以语音情感处理的研究逐步提高了人们的重视。
目前有很多研究者在致力于研究并处理语音情感信息有效方法以及情感对语音的影响。
汉语普通话发音中情感特征信息的特征参数主要包括发音持续时间、振幅能量、基音频率和共振峰频率等。
共振峰频率简称共振峰,它与声道的形状和大小有关,一种形状对应着一套共振峰。
共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。
所以共振峰是语音信号处理中非常重要的特征参数,人在语音感知中也利用了共振峰信息,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。
语音的频率特性主要是由共振峰决定的,当声音沿声管传播时,其频谱形状就会随声管而改变。
如果讲话者的发音中包含喜、怒、哀、乐等情感信息,那么讲话者的声道形状就会发生不同
的变化。
共振峰作为情感特征信息的非韵律特征参数,我们研究提取它的方法对包含在语音信号中的情感信息分析和处理是极其有意义的[1][2]。
1.2 情感语音识别技术的国内外发展现状
九十年代中期之后,语音情感信息处理受到了越来越多的关注,这方面的研
究也在不断深入,并取得了一定的进展。
近几年,研究者对语音中的情感信息表现出日益浓厚的兴趣。
他们从生理、心理学角度的情感建模到语音情感的声学关联特征,以及各种针对语音情感识别和合成的算法、理论展开了深入的研究,还从工程学的角度将情感作为信息信号工学的研究对象。
但是,目前不论从国外还是国内来看,情感信息处理的研究,还是处在一个低级水平,存在一些需要进一步深入研究的课题。
如:合理的有效的语音情感特征建模方法;开发更全面更有效的语音情感特征;对情感语句中主要反映情感变化的关键词和短语的研究。
下面将分别简单介绍国内外情感语音识别发展现状。
1.2.1 国际情感语音识别发展现状
目前,关于情感的研究正处在不断的深入之中,语音的情感识别因为涉及到不同语种之间的差异,发展也不尽相同。
美国MIT媒体实验室Rosalind Wpicard教授领导的情感研究组织首次尝试了用基频、时长、音质和清晰度等声学参数的变化来合成情感语音。
她后来又验证了情感状态与语音声学参数的相关性,并提出悲伤情感最容易区分,而高兴、惊讶和愤怒等具有相似的语音特性参数,不容易区分[3]。
此后,MIT媒体实验室Raul Fernandez在2003到2004年还完成了关于从语音的韵律学参数入手的语音情感识别的计算模型研究,试验用有韵律
特征进行分类实验,比较了与人类情感识别的性能差异[4][5]。
英国贝尔法斯特女王大学的RoddyCowie和EllenDouglas-Cowie教授领导的情感语音小组研究的重点在于心理学和语音分析。
他们收集并创建了第一个大规模的高自然度声音的情感数据库,同时还开发了一个FEELTRACE工具用来记录人类从语音中感知到的情感信息[6]。
他们还开发了一个情感语音分析的ASSESS工具,用统计的方法分析语音的声学特征与情感的相关性,并用基频曲线、能量强度和停顿、摩擦音及爆破音的边界信息等,对愤怒、害怕、高兴和悲伤4类主要情感进行了分类,用判别分析的方法达到了55%的识别率[7][8]。
美国南加州大学语音情感组由Narnyanan教授领导。
在语音情感识别方面,他们以客服系统的呼叫中心为应用背景,研究识别正面情感和负面情感。
首次将语音的声学信息、词汇和语义信息结合,并将模糊推论系统用于识别系统,初步试验结果表明,结合这三种信息进行语音信号的情感识别要比单纯使用声学信息识别率平均提高了38.5%[9]。
C N Anagnostopoulos和T Iliou.建立了德语语音库,提取了133个语音特征来识别其中语音情感,根据统计分析来估计每种语音特征、人工神经网络用于训练情感分类,最后达到了平均51%的识别率[10]。
1.2.2 国内情感语音识别发展现状
目前,国内也已经有多所高校从事语音情感识别的研究,东南大学、清华大学、浙江大学、中国台湾大学、中国科学院、微软亚洲研究院、哈尔滨工业大学等机构在这方面做了大量工作。
东南大学无线电工程系赵力教授的实验小组在国内率先开展了普通话语音情感识别的研究。
他们分析了不同情感的语音在时间构造,能量构
造,基音构造,共振峰构造等方面的差别,以情感语音和自然语音特征向量的差值作为情感识别特征,用主成分分析法识别高兴、惊奇、愤怒、悲伤四类情感,在较小的实验数据集中能达到约80%的识别率[11]。
由清华大学计算机科学与技术系的蔡莲红教授领导的人机语言交互实验室也开展了普通话语音情感识别研究。
蒋丹宁通过特征的区别特性分析和分类实验,研究了韵律特征在普通话语音情感识别中的作用。
将韵律特征分解为纯语音的特征和纯情感的特征,并将后者运用于语音情感识别,用多层感知器对六种情感进行识别,得到平均82.4%的识别率[12]。
台湾大同大学资讯工程学系的包苍龙教授领导的数据通讯与信号处理实验室也较早地致力于普通话语音情感识别的研究。
他们构建一个包含愤怒、高兴、悲伤、厌烦和中立五个情感类别,约800句情感语音的普通话情感语音数据库。
在语音情感识别中,提取16个LPC参数,12个LPCC 参数,16个LFPC参数,16个PLP参数,20个MFCC参数组成向量,作为识别特征,用LDA,KNN和HMM分类器对说话人无关和说话人相关两组语音素材做识别,得到最高88.7%的识别率[13]。
中国电子科技研究院的付丽琴等人以HMM作为语音情感分类器模型,对不同情感状态选择不同的特征向量进行识别。
系统分两个阶段完成:首先基于漏识率和误识率最小的决策原则,采用优先选择(PFS)算法分别为每种情感状态选择最优的特征向量,然后用这些特征向量分别建立对应情感状态的HMM模型。
利用北航情感语音库(BHUDES)对算法进行验证,将所有实验样本分为训练样本集、特征选择样本集和测试样本集3组,采用交叉实验的方法对本算法进行验证,结果表明,与单特征向量HMM相比,多特征向量HMM可达到更高识别精度[14]。
1.3 本文的主要研究内容及结构安排
1.3.1 本文的主要研究内容
1.研究情感语音信号共振峰提取的背景及研究意义,分析情感语音识别技术的国内外研究现状、应用领域。
2.探索提取情感语音信号中共振峰参数所所遇到的问题困扰。
(1)虚假峰值(2)共振峰合并(3)高音调语音
3.分析共振峰的多种提取方法。
(1)谱包络提取法
共振峰信息包含在语音频谱包络中,因此共振峰参数提取的关键是估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰。
(2)倒谱法提取共振峰
因为倒谱运用对数运算和二次变换将基音谐波和声道的频谱包络分离开来。
去除了激励引起的谐波波动,所以可以更精确地得到共振峰参数。
(3)LPC法提取共振峰
从线性预测导出的声道滤波器是频谱包络估计器的最新形式,线性预测提供了一个优良的声道模型(条件是语音不含噪声)。
(4)求根法提取共振峰
找出多项式复根的过程通常采用牛顿—拉夫逊(Newton-Raphson)算法。
(5)LPC倒谱法提取共振峰
语音信号的倒谱可以通过对信号做傅里叶变换,取模的对数,在求反傅里叶变换得到。
4.重点研究分析倒谱法提取语音信号共振峰,并利用这种方法提取情感语
音中的共振峰。
5.对共振峰提取结果进行分析,并得出结论。
1.3.2 本文的结构安排
第一章是绪论,说明了本文的选题意义,概括介绍了情感语音识别的国内外发展现状,最后介绍了本文的主要研究内容及结构安排。
第二章主要介绍了情感分类的基础理论和情感语音数据库,最后介绍了语音情感识别系统。
首先简单地介绍通过离散形式和情感维度空间两种方法概述了情感的分类,然后介绍了情感语音数据分为3个类别以及本文所用的情感语音数据库。
最后介绍了语音情感识别系统。
第三章介绍了共振峰的概念,说明了共振峰在情感语音识别中的重要性;接下来分析了提取共振峰参数所遇到的问题。
第四章对语音情感识别中的共振峰的提取方法进行了分析介绍。
包括谱包络提取法、倒谱法提取共振峰、LPC法提取共振峰、求根法提取共振峰和LPC倒谱法提取共振峰,并简单分析了这几种提取共振峰方法的优缺点。
第五章重点介绍了倒谱法提取共振峰的过程。
首先介绍了倒谱的定义以及倒谱法提取共振峰的原理,接下来画出了共振峰提取框图和共振峰提取流程图,最后给出了情感语音中高兴、生气和中立的共振峰提取结果。
并对共振峰提取结果进行分析与总结。
第六章是对本文主要工作和研究成果的总结,并对下一步语音情感识别中共振峰提取的研究工作做出展望。
第2章情感的分类与语音情感识别
2.1 情感的分类
情感类型的合理界定是对语句进行情感标注的基础。
在情感计算领域,许多学者从不同的角度研究了情感的分类问题,并提出了相应的情感类型定义。
传统的研究通常用日常语言标签来标识和分类情感,比如把情感分为高兴、愤怒、害怕等[15]。
美国心理学家Eckman提出了六种基本情绪[16]:愤怒、恐惧、悲伤、惊讶、高兴和厌恶。
而Plutchik提出过八种基本情绪[17]悲痛、恐惧、惊奇、接受、狂喜、狂怒、警惕、憎恨。
Shaver等人则认为原始情绪有愤怒、爱、高兴、害怕、悲伤、惊讶六类[18],这和Eckman的六类墓本情绪存在微小差异。
另外,关于语音情感的研究还可以更为简单化,部分研究对情感的分类更侧重于系统的实用性。
例如,将语音仅分为“无情感含义”与“带情感含义”两大类;或是分为“情感强烈”与“情感不强烈”两大类;部分研究只关注于用户的情感状态是“正常”还是“不正常”;还有的研究只注重用户的某些负面情感,如“挫败”、“厌烦”、“僧恶”等等。
除了以标签法将情感分成离散的类别之外,一些研究者尝试在连续的空间中描述情感,也称作维度轮[19]。
在此基础上,Plutchik等人提出了“情感轮”理论,认为情感分布在一个类似于钟表盘的圆形结构上,圆心是自然原点,表示人在内心平静时的情感状态,而圆周上的标注标明儿种基本情感类型,其排列方式可根据具体研究需要设置[20]。
情感语句的情感类型和强度可用情感轮组成的二维空间中的情感矢量表示,该矢量同自然原点之间的距离体现了情感的强度,方向则表示情感类别。
尽管心理学、认知学等领域的研究人员对于情感种类的定义五花八
门,但在目前绝大多数的语音情感识别系统中,使用的情感类别是MPEG-4国际标准定义的五种情感状态,即“愤怒(Anger)”、“恐惧(Fear)”、“高兴(Happiness)”、“悲伤(Sadness)”和“惊讶(Surprise)”,外加“中立(Neutral)”来表征语音不具有情感含义。
2.2 情感语音数据库
要对语音进行情感识别,情感语音数据库的建立是基础。
怎么样才能获取高质量的情感语音是建立语音库的关键问题。
因为语音的质量将直接影响整个语音情感识别系统的性能。
按照表达的情感自然度可以将情感语音数据分为3个类别:自然型情感语音、表演型情感语音和引导型情感语音[19]。
自然型情感语音是在说话人不知情的情况下获取的完全放松状态下的情感语音。
这种类型的语音被普遍认为是最理想最可信的情感语料。
然而,由于涉及法律和版权问题,这类情感语音的录制较为困难,成本也比较高。
表演型情感语音是指情感表现力较强的演员模仿不同情感朗诵指定语句获得的情感语料。
相对于自然型情感语音,表演型情感语音较容易获取,可控制性较强,可以根据需要录制任意说话内容的情感语句。
然而表演型情感语句中的情感成分被夸张了,而且自然度也受说话人的演技高低影响。
引导型情感语音是指通过一定的外界环境和手段,引导说话人的情绪进入某种特定的状态,从而录制情感语音的方法。
引导型情感语音通常通过文字对说话者进行引导,即通过说话人朗读带有一定感情色彩的文本,获得所需要的情感语句。
引导型情感语音是自然型和表演型情感语音录制
方法的一种折中,定制性比较强且语料的获取相对方便,适合基于不同文本的语音情感方面的研究。
然而,纯文本引导对于内心情感状态的生成比较缓慢和微弱,这种方式获得的情感语句对文本内容的选择性比较强。
由于语音情感信息的地域性差异,目前情感语音研究领域中缺乏标准
数据库,需要研究者录制符合自身研究要求的情感语料库。
本文应用的是由高兴、生气、中立三种情感语音组成的情感语音数据库,每种情感语音分别有中英文两种语言,所用情感语句的中文文本为“我到北京去”英文文本为“Good morning ”以wav 格式存储,持续时间五秒以内,经过反复的主观听觉实验,认为该情感语音数据库的语料情感辨识度较高,自然度也比较理想,可以满足本文的研究需求。
2.3 语音情感识别系统 预处理特征提取
情感语音输入模式匹配模板库
参考模式
识别结果输出
图 2-1 典型语音情感识别系统的框图
语音情感识别系统与语音识别系统类似,分为语音情感语句预处理、
特征参数提取和模式匹配三个部分。
其识别过程如下:首先对情感语句进行预处理,语音情感语句预处理包括预加重、分帧加窗和端点检测等;其次是对情感语句提取特征参数,如MFCCI 、LPCC 、LPMCC 和ZCPA 等频谱。