关于语音合成方法的调查报告

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

关于语音合成方法的调查报告

摘要：本文是一篇关于语音合成方法的调查报告，在搜集整理大量相关文献的基础上，简要的总结了几种常用的语音合成方法，讨论各种合成方法的原理及算法，并简要分析各种合成方法的性能及适用场合。

关键词：语音合成；种类；原理；算法；性能

正文

语音合成技术是利用电脑,按规定的程序和指令,人为产生语音的技术。语音合成从技术方式讲可分为波形合成、参数分析合成以及规则合成等三种。

1、波形合成

波形合成法一般有两种形式。一种是波形编码合成，它类似于语音编码种的波形编解码法，该方法直接把要合成的语音的发音波形进行存储或者进行波形编辑压缩后存储，合成重放时再解码输出，称PCM波形合成法。另一种是波形编辑合成，他把波形编辑技术用于语音合成，通过选取音库中采取自然语言的合成单元的波形，对这些波形进行编辑拼接后输出。1．1波形编码合成

基本原理：波形编码合成方法以语句、短语、词或音节为合成单元，这些单元被分别录音后直接进行数字编码，经适当的数据压缩，组成一个合成语音库。重放时，根据待输出的信息，在语音库中取出相应单元的波形数据，串接或编辑在一起，经解码还原出语音。

性能分析：波形编码语音合成技术用原始语音波形替代参数，而且这些语音波形取自自然语音的词或句子，它隐含了声调、重音、发音速度的细微特性，也叫录音编辑合成，合成单元越大，合成的自然度越好，其质量普遍高于参数合成。且系统结构简单，价格低廉。但合成语音的数码率较大，存储量也大，因而合成词汇量有限。通常只能合成有限词汇的语音段。目前用于自动报时、报站和报警等。

1．2波形编辑合成

基本原理：波形编辑合成方法将波形编辑技术用于语音合成，通过选取音库中采取自然语言的合成单元的波形，对这些波形进行编辑拼接后输出。它采用语音编码技术，存储适当的语音基元。合成时，经解码、波形编辑拼接、平滑处理等输出所需的短语、语句或段落。

算法简述：80年代末E.Moulines和F.Charpentier提出基于时域波形修改的语音合成算法。PSOLA就是基音同步叠加，它把基音周期的完整性作为保证波形及频谱平滑连续的基本前提。该算法按以下三步实施：对原始波形进行分析，产生非参数的中间表示；对中间表示进行修改；将修改过的中间表示重新合成为语音信号。由于修改的参数不同，又分为

TD-PSOLA、FD-PSOLA和LP-PSOLA。

PSOLA是用于波形编辑合成语音技术中对合成语音的韵律进行修改的一种算法。下图是利用PSOLA算法的语音合成系统的基本结构：

图1基于PSOLA算法的语音合成系统

本质上说，PSOLA 算法是利用短时傅里叶变换重构信号的叠结相加法。信号的x(n)短时

傅里叶变换为：由于语音信号是一个短时平稳信号，因此在时域每隔若干个（例如R 个）样本取一个频谱函数就可以重构信号x(n)，即可令：

其傅里叶逆变换为：然后就可以通过叠加得到原信号，即：时域基音同步叠加技术作为基音同步叠加技术的一种，通过以下步骤实现语音的合成：

(1)对语音合成单元设置基音同步标记。

(2)以语音合成单元的同步标记为中心，选择适当长度（一般取两倍的基音周期）的时窗对合成单元做加窗处理，获得一组短时信号。

(3)在合成规则的指导下，调整步骤1）中获得的同步标记，产生新的基音同步标记。

(4)根据步骤3）得到的合成语音的同步标记，对步骤2）中得到的短时信号进行叠加，从而获得合成语音。

性能分析：PSOLA 算法在编辑和拼接语音波形前能根据上下文的要求，对拼接单元的韵律特征作出调整，而且音库中的采佯波形中保留了一部分原发音人的语音特征．这样使台成语音的自然度和清晰度都得到了显著提高。

2、参数分析合成

参数分析合成多以音节、半音节或音素为合成单元。首先，按照语音理论，对所有合成单元的语音进行分析，提取有关语音参数，这些参数经编码后组成一个合成语音库；输出时，根据待合成的语音的信息，从语音库中取出相应的合成参数，经编辑和连接，顺序送入语音合成器。在合成器中，通过合成参数的控制，将语音波形重新还原出来。

参数分析合成方法基于声道截面积函数或声道谐振特性合成语音，如共振峰合成、LPC 合成。这类合成技术在的比特率低，音质适中。为改善音质，发展了混合编码技术，主要手段是改善激励，如码本激励、多脉冲激励、长时预测规则码激励等，这样，比特率有所增大，同时音质得到提高。

参数分析合成的主要优点是数据量小，易于实现韵律修改，但有限的参数很难表述自然语音的细微变化。

2.1共振峰合成

基本原理：语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下，声波经谐振腔（声道），由嘴或鼻辐射声波。因此，声道参数、声道谐振特性一直是研究的重点。习惯上，把声道传输频率响应上的极点称之为共振峰，而语音的共振峰频率（极点频率）的分布特性决定着该语音的音色。

音色各异的语音具有不同的共振峰模式，因此，以每个共振峰频率及其带宽作为参数，可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性（频率响应），Z

n e m n m x e X m n j j n ∈-=

∑∞-∞=-ωωω)()()(Z

n r e X e Y rR n j n j r ∈==,)

()(ωωZ

m d e e Y m y m j j r r ∈=⎰∞∞-ωπωω)(21)(()()r r y m y m ∞

=-∞=∑

对激励源发出的信号进行调制，再经过辐射模型就可以得到合成语音。这就是共振峰合成技术的基本原理。基于共振峰的理论有以下三种实用模型。

1）级联型共振峰模型

在该模型中，声道被认为是一组串联的二阶谐振器。该模型主要用于绝大部分元音的合成。

2）并联型共振峰模型

许多研究者认为，对于鼻化元音等非一般元音以及大部分辅音，上述级联型模型不能很好地加以描述和模拟，因此，构筑和产生了并联型共振峰模型。

3）混合型共振峰模型

在级联型共振峰合成模型中，共振峰滤波器首尾相接；而在并联型模型中，输入信号先分别通过幅度调节再加到每一个共振峰滤波器上，然后将各路的输出叠加起来。将两者比较，对于合成声源位于声道末端的语音（大多数的元音），级联型合乎语音产生的声学理论，并且无需为每一个滤波器分设幅度调节；而对于合成声源位于声道中间的语音（大多数清擦音和塞音），并联型则比较合适，但是其幅度调节很复杂。基于此种考虑，人们将两者结合在一起，提出了混和型共振峰模型。

图2共振峰合成器的系统模型

性能分析：共振峰模型是基于对声道的一种比较准确的模拟，因而可以合成出自然度比较高的语音，另外由于共振峰参数有着明确的物理意义，直接对应于声道参数，因此，可以容易利用共振峰描述自然语流中的各种现象，并且总结声学规则，最终用于共振峰合成系统。高级共振峰合成器可合成出高质量的语音，几乎和自然语音没有差别。但关键是如何得到合成所需的控制参数，如共振峰频率、带宽、幅度等。而且，求取的参数还必须逐帧修正，才能使合成语音与自然语音达到最佳匹配。

但是，人们同时也发现该技术有明显的弱点。首先由于它是建立在对声道的模拟上，因此，对于声道模型的不精确势必会影响其合成质量。另外，实际工作表明，共振峰模型虽然描述了语音中最基本最主要的部分，但并不能表征影响语音自然度的其他许多细微的语音成分，从而影响了合成语音的自然度。另外，共振峰合成器控制十分复杂，对于一个好的合成器来说，其控制参数往往达到几十个，实现起来十分困难。

2.2LPC参数合成

LPC合成技术本质上是一种时间波形的编码技术，目的是为了降低时间域信号的传输速率。LPC语音合成器利用LPC语音分析方法，通过分析自然语音样本，计算出LPC系数，就可以建立信号产生模型，从而合成出语音。