语音信号处理文献翻译
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用扬声器元音的特征进行情感语音合成
卡努仆•太郎浅田•川端康成•吉富正义田卧勇太
摘要:近来,情感语音合成方法已经在语音合成领域的研究中受到相当的重视。
我们先前提出了一种基于案例的方法,通过利用最大振幅和元音的发声时间,和情感语音的基频特性产生情绪合成语音。
在本研究中,我们提出了一种方法,其中,我们报告的方法是通过控制情绪合成语音的基频进一步提高。
作为一个初步调查,我们采用一个语义是中性的日本名字的话语。
使用该方法,从一个男性受试者带有情绪的讲话做出的情感合成语音,其平均可辨别度达到了83.9%,18名受试者听取了情感合成话语“生气”、“快乐”、“中性”、“悲伤”或者“惊讶”时的发声是日本人“Taro ”,或“Hiroko ”。
在提出的方法中对基频的进一步调整使情感合成语音项目更清楚。
关键词:情感语音 特征参数 合成语音 情感合成语音 元音
中图分类号:Ó ISAROB 2013
1.介绍
近来,情感语音合成方法已经在语音合成领域的研究中受到相当的重视。
为了产生情感合成语音,有必要控制该话语的韵律特征。
自然语言主要由元音和辅音组成。
日语有五个元音字母。
元音比辅音留给听者的印象更深,主要是因为元音的发音时间比辅音更长,幅度比辅音更大。
我们之前提出了一种基于实例的方法来产生情感合成语音,就是利用了元音的最大幅度和发音时间,这两个元素可以通过语音识别系统和情感语音的基频得到。
在本研究中,我们提出了一种方法,其中,我们报告的方法是通过控制情绪合成语音的基频进一步提高。
我们的研究在报告研究中的优势是在情感语音中利用了元音的特征来产生情感合成语音。
2.提出的方法
在第一阶段中,我们得到的情感语音的音频数据为WA V 文件,受试者讲话时用了特意的情绪“愤怒”、“快乐”、“中性”、“难过”和“感到吃惊”。
那么,对于每一种情绪讲话,我们测量每个元音发声的时间和波形的最大幅值,和情感语音的基频。
在第二阶段中,我们把受试者的话语音素按序列进行综合。
这个阶段包括的以下五个步骤:
第1步对于一个元音前面出现一个辅音的情况,用中性情感进行语音分析的话,元音和辅音的总发声时间被转换成受试者中性情感语音的发声时间。
总前元音的发声持续时间和辅音是变换到时的语音与中性情感由人受试者。
通过这个过程获得的合成语音在下文中被叫做“中性合成语音”。
第2步对于一个元音前面出现一个辅音的情况,用以下情感“愤怒”、“快乐”、“难过”和“惊讶”进行语音合成的话,元音和辅音总发声持续时间被设定为一个值,这个值在中性合成语音中的比例等于元音发声持续时间在情感语音发声时间中的比例,等于在中性语音中元音的持续时间。
第3步 合成语音的基频,由第2步获得,首先被基于情感语音的基频调整。
第4步 由第三步获得的合成语音中如果辅音出现在元音之前,该幅度通过两次乘以比例)/(ne em Max Max 被变换成最终值,其中,em Max 和ne Max 分别表示情感语音和中性语音中元音的最大振幅。
由步骤1-4获得的合成语音在下文中被称为“情感合成语音”。
第5步由第4步处理获得的情感合成语音的基频,被基于情感语音的基频进一步调整。
如果没有出现辅音,在步骤1-5中描述的过程仅适用于元音。
在本研究中,该在步骤5中描述的处理被添加到[9]中报道的方法。
方法[10]使用重采样时对于第5步。
3.实验
3.1状况
我们使用了一个名为朱利[11]的语音识别系统保存语音开始的定时位置,和元音。
一个男性受试者(A)在他50多岁时用每一种特意的情绪说出了语义上是中性的日本姓“Taro”和“Hiroko”其中的情绪包括“生气”、“高兴”、“中性”、“伤心”和“吃惊”。
他的音频数据被记录为W A V文件。
当发元音的时候,我们测量元音的发音时间和波形振幅的最大绝对值。
表1和2分别显示出受试者用每一种情感发出每个元音的发声时间和最大振幅。
表1 受试者发元音的发声时间
表2 受试者发出元音的最大振幅
我们进行了主成分分析(PCA),来揭示情感语音中“愤怒”、“幸福”、“中性”、“难过”和“惊讶”的韵律特征,通过使用归一化的发声时间和第一个和最后元音的归一化最大振幅作为特征参数[9]。
这里,发声时间和最大振幅的归一化通过设定五个情绪的进行时间和最大振幅的平均值为零,并为每一个情绪设置标准偏差。
根据我们报道研究中的主成分分析[9],“Taro”被选中是因为“愤怒”、“快乐”、“中性”、“难过”和“惊讶”的特征向量在每对情绪中间有很大的距离。
另一方面,“Hiroko”被选中的原因是它的“愤怒”、
“快乐”、“中性”、“难过”和“惊讶”的特征向量在每对情绪中间没有很大的距离。
图1所示为对“Taro”和“Hiroko”的五种情感语音进行主要成分分析获得的第一个和第二个元素所表达的特征向量空间。
于是,日本姓“Taro”和“Hiroko”的五种情感“愤怒”、“快乐”、“中性”、“难过”和“惊讶”的情感语音的基频被测量了。
之所以选择基频,是因为它是语音中众所周知的特征参数。
如图2和3中所示,“Taro”和“Hiroko”对于每种情感分别有基频的特征时间依赖性。
语音侍酒师Neo(高级版本;日立商务解决方案有限公司,日本横滨)[12]在第二部分的步骤1-3中被用作语音合成器。
在第二部分的步骤4中,数字音频编辑器被用于转换每个元音和辅音。
然后使用重采样的方法[10]被用于第二部分的步骤5中。
当我们在以上案例中使用第二部分描述的方法时,我们使用了语音侍酒师Neo的男性1模式。
在“Taro”中,每个元音是/a/和/ o /,然后辅音在元音之前,为/ ta /和/ro/。
在“Hiroko”中,每个元音为/ i /,/ o /和/ o/,然后辅音在元音之前为/hi/,/ ro /和/ko/。
没有经过第二部分步骤5描述的处理过程的情感合成语音在下文中被称作“情感合成语音1”,而经过处理的情感合成语音被称作“情感合成语音2”。
情感合成语音1被[9]中报道的方法得到,并且对第二部分的步骤5作出评估。
这是一种在已经提到的方法中的一种新处理过程。
参与试验的18名受试者由以下人员组成:两个50多岁的男性(包括受试者A),一个30多岁的男性,11个20多岁的男性,4个20多岁的女性。
受试者听完以下排序的五种语音后对它们的情感分类作出判断,分别是:受试人A的情感语音、情感合成语音1、受试人A的情感语音、情感合成语音2。
图1 第一个(水平)和第二个(垂直)元素的特征空间a/taro/ b/hiroko/
图2 受试者A说“Taro”的波形基频
图3 受试者A说“Hiroko”的波形基频
图4 用情感合成语音1合成的“Taro”波形基频
图5 用情感合成语音2合成的“Taro”波形基频
图6 用情感合成语音1合成的“Hiroko”波形基频
图7 用情感合成语音2合成的“Hiroko”波形基频
3.2结果与讨论
图4 [9]和5分别显示出了情感合成语音1、2对于“Taro ”的基频,图6和图7分别显示出了情感合成语音1、2对于“Hiroko ”的基频。
图2和图3分别显示出了“Taro ”和“Hiroko ”的每种类型的情感合成语音的特征。
相比较运用了[9]中所提到的方法得出的图4和图6的结果,经过上述方法的处理,图5和图7能更精确地反映出结果。
如图8和图9所示,我们分别对“Taro ”和“Hiroko ”的情感语音波形的差异进行观察。
在某种程度上,波形的差异也反映在每个情感合成语音上(图8和图9)。
语音侍酒师Neo 在用第二部分的步骤3控制合成语音的频率时有一些限制,所以很难充分地调整基频。
图8和图9所示分别为“Taro ”和“Hiroko ”的“中性”情感语音波形和合成语音波形的波形之间的差异。
正如预期的那样,情感合成语音不可避免地与相应的情感讲话有一些波形差异。
图8 受试者A 和情感合成语音1、2生成的“Taro ”波形比较
图9 受试者A 和情感合成语音1、2生成的“Hiroko ”波形比较
表3和表4所示分别为对“Taro”和“Hiroko”的主观评价结果。
表3和表4为情感语音的结果被计算为所有18名受试者中的两组听力获得的平均值。
如表3所示情感语音的平均准确度,情感合成语音1,和情感语音合成2的准确度分别为95.0,70.0,“Taro”的准确度为90.0%。
情感语音、情感合成语音1和情感语音合成2的平均准确度为96.7、61.1,“Hiroko”的准确度为77.8 %(表4)。
对于“Taro”和“Hiroko”,情感语音、情感合成语音1、情感合成语音2的平均准确度分别为95.9、65.6和83.9 %。
第二部分的步骤5对“Taro”和“Hiroko”的情感合成语音平均准确度提高了主观评价结果18.3%(=83.9-65.6%)。
同样对于“Taro”和“Hiroko”,情感合成语音2比情感合成语音1的优势在于该方法在情感合成语音项目中对进一步调整基频做了一个更清晰的印象。
表3 “Taro”的主观评价结果
表4 “Hiroko”的主观评价结果
表4 “Hiroko”的主观评价结果
4结论
我们之前提出了一种基于实例的方法来产生情感合成语音,就是利用了元音的最大幅度和发音时间,这两个元素可以通过语音识别系统和情感语音的基频得到。
在本研究中,我们提出了一种方法,其中,我们报告的方法是通过控制情绪合成语音的基频进一步提高。
使用该方法,从一个男性受试者带有情绪的讲话做出的情感合成语音,其平均可辨别度达到了83.9%,18名受试者听取了情感合成话语“生气”、“快乐”、“中性”、“悲伤”或者“惊讶”时的发声是日本人“Taro”,或“Hiroko”。
致谢我们要感谢所有实验中合作的参与者。