语音合成的原理及分类

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
参数合成法有:发音器官参数合成和声道模型 参数合成。 发音器官参数合成法: 是对人的发音过程直接进行模拟。它定义了唇、 舌、声带的相关参数,如唇开口度、舌高度、舌位 置、声带张力等,由发音参数估计声道截面积函数, 进而计算声波。 缺点:合成语音的质量不理想。
参数合成方法的优点:音库一般较小,并且整 个系统能适应的韵律特征的范围较宽,这类合成器 比特率低,音质适中。 缺点:算法复杂,参数多,并且在压缩比较大 时,信息丢失亦大,合成出的语音总是不够自然、 清晰。
9.3 共振峰合成法
共振峰语音合成器的构成原理: 将多个共振峰滤波器组合起来模拟声道的传 输特性,对激励声源发生的信号进行调制,经过 辐射得到合成语音。 基于共振峰的理论有三种实用模型。
9.3.1
级联型共振峰模型
在该模型中,声道被认为是一组串联的二阶谐 振器,共振峰滤波器首尾相接,其传递函数为各个共 振峰的传递函数相乘的结果。

1
R
r0 p
br z r ak z k

k 1
上式可分解成以下部分分式之和:
(z )
A l 1 2 B z C z l 11 l l
M
其中Al为各路的增益因子。
下图就是一个M=5的并联型共振峰模型。
A
激励源
A
A
1
2
5

1

2
+
辐射模型
语音
5
图9.3 并联型共振峰模型
第九章 语音合成
1 2 3 4 5 6
9.1 概述 9.2 语音合成的原理及分类
9.3 共振峰合成法
9.4 线性预测参数合成法 9.5 基音同步叠加法 9.6 文语转换系统
9.1 概述
语音合成是人机语声通信的一个重要组成部分, 解决让机器像人那样说话的问题。
最早的合成器是 1835 年由 W.von Kempelen 发 明,经 Weston 改进的机械式会讲话的机器。而最 早的电子式语音合成器也是 1939 年 Homer Dudley 发明的声码器,它不是简单的模拟人的生理过程, 而是通过电子线路来实现基于语音产生的源 - 滤波 器理论。
激励源
G V1 V2 ---- V5
辐射模型 语音
图9.2 共振峰级联模型
9.3.2 并联型共振峰模型
在并联型模型中,输入信号先分别进行幅度 调节,再加到每一个共振峰滤波器上,然后将各 路的输出叠加起来。
其传递函数为:
v(z)

1
R
r0 p
br z r ak z k

k 1
v(z)
五个极点的共振峰级联模型传递函数为:
( z)
5
G 1 ak z k
k 1 10
1 () z G () z G 即: i 1 2 1 b z c z i 1 i 1 i i
5
式中,G为增益因子。 一个五个极点的共振峰级联模型如下
另一种波形合成法是波形编辑合成,它把波形 编辑技术用于语音合成,通过选取音库中采取自然 语言的合成单元的波形,对这些波形进行编辑拼接 后输出。它采用语音编码技术,存储适当的语音基 元,合成时,经解码、波形编辑拼接、平滑处理等 输出所需的短语、语句或段落。
9.2.2 参数合成法
参数合成法也称为分析合成法。
在语音合成技术发展中,早期研究主要是采 用参数合成方法。 1990年提出的基音同步叠加 PSOLA方法,使 基于时域波形拼接方法合成的语音音色和自然度 大大提高。 我国的汉语语音合成研究从 80 年代初就基本 上与国际研究同步发展。大致也经历了共振峰合 成、LPC合成到应用PSOLA技术的过程。
9.2 语音合成的原理及分类
9.3.3 混合型共振峰模型
比较以上两种模型,对于大多数的元音,级 联型合乎语音产生的声学理论,并且无需为每一 个滤波器分设幅度调节;而对于大多数清擦音和 塞音,并联型则比较合适,但是其幅度调节很复 杂。于是考虑将两者结合在一起,提出了混和型 共振峰模型。
混和型共振峰模型如下图所示:
图9.4
பைடு நூலகம்
混和型共振峰模型
9.2.1 波形合成法
波形编码合成法是一种波形合成法,类似于语 音编码中的波形编解码方法,该方法直接把要合成 的语音的发音波形进行存储或者进行波形编码压缩 后存储,合成重放时再解码组合输出。 特点:所需的存储容量太大,词汇量不能很大; 相对简单,通常只能合成有限词汇的语音段。目前 用于自动报时、报站和报警等。
为了改善音质,近几年发展了混合编码技术, 以改善激励信号的质量。
9.2.3 规则合成法
规则合成方法:一种高级的合成方法,通过 语音学规则产生语音,可以合成无限词汇的语句。 合成的词汇表不是事先确定,系统中存储的是最 小的语音单位的声学参数,以及由音素组成音节、 由音节组成词、由词组成句子和控制音调、轻重 音等韵律的各种规则。 算法中,用于波形拼接和韵律控制的较有代 表性的算法是基音同步叠加PSOLA技术。
LPC,LSP共振峰
50~75 kbit/s 无限 音素、双音素、音 节 复杂
硬件主体
存储器
存储器和处理器
处理器
9.3 共振峰合成法
共振峰合成理论中声道参数、声道谐振特性 一直是研究的重点。 共振峰合成模型是把声道视为一个谐振腔, 利用腔体的谐振特性,如共振峰频率及带宽,以 此为参数构成一个共振峰滤波器。因为音色各异 的语音有不同的共振峰模式,以每个共振峰频率 及其宽带为参数,可以构成一个共振峰滤波器。
9.2.3 规则合成法
基音同步叠加PSOLA技术主要特点:
在语音波形片断拼接之前,首先根据语义,用 PSOLA 算法对拼接单元的韵律特征进行调整,使 合成波形既保持了原始语音基元的主要音段特征, 又使拼接单元的韵律特征符合语义,从而获得很高 的可懂度和自然度。
表9.1 三种语音合成方式的比较
项目 波形合成方式 参数合成方式 按规则合成方式
语音 质量
可懂度
自然度

高 小(500字以下)

中 大(数千字)

低 无限
词汇量
合成方法
数码率 1兆比特可合成 的语音长度 合成基元 装置
PCM,ADPCM
9.6~64kbit/s 15秒~100秒 音节、词组、句 子 简单
LPC,LSP,共振峰
2.4~9.6 kbit/s 100秒~7分 音节、词组、句子 比较复杂
相关文档
最新文档