语音合成的原理及分类

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

词汇量 合成方法 数码率 1兆比特可合成 兆比特可合成 的语音长度 合成基元 装置 硬件主体
音节、词组、 音素、双音素、 音节、词组、句 音素、双音素、音 音节、词组、 音节、词组、句子 子 节 简单 存储器 比较复杂 存储器和处理器 复杂 处理器
10
数字语音处理及MATLAB仿真 张雪英编著
9.3 共振峰合成法
9.3.3 混合型共振峰模型
比较以上两种模型,对于大多数的元音, 比较以上两种模型, 对于大多数的元音 , 级 联型合乎语音产生的声学理论, 联型合乎语音产生的声学理论,并且无需为每一 个滤波器分设幅度调节; 个滤波器分设幅度调节;而对于大多数清擦音和 塞音,并联型则比较合适, 塞音,并联型则比较合适,但是其幅度调节很复 于是考虑将两者结合在一起, 杂。于是考虑将两者结合在一起,提出了混和型 共振峰模型。 共振峰模型。
5
数字语音处理及MATLAB仿真 张雪英编著
9.2.2 参数合成法
参数合成法也称为分析合成法。 参数合成法也称为分析合成法。 参数合成法有: 参数合成法有 : 发音器官参数合成和声道模型 参数合成。 参数合成。 发音器官参数合成法: 发音器官参数合成法: 是对人的发音过程直接进行模拟。 它定义了唇、 是对人的发音过程直接进行模拟 。 它定义了唇 、 声带的相关参数, 如唇开口度、 舌高度、 舌 、 声带的相关参数 , 如唇开口度 、 舌高度 、 舌位 声带张力等, 由发音参数估计声道截面积函数, 置 、 声带张力等 , 由发音参数估计声道截面积函数 , 进而计算声波。 进而计算声波。 缺点:合成语音的质量不理想。 缺点:合成语音的质量不理想。
数字语音处理及MATLAB仿真 张雪英编著
第九章 语音合成
1 2 3 4 5 6
9.1 概述 9.2 语音合成的原理及分类 9.3 共振峰合成法 9.4 线性预测参数合成法 9.5 基音同步叠加法 9.6 文语转换系统
1
数字语音处理及MATLAB仿真 张雪英编著
9.1 概述
语音合成是人机语声通信的一个重要组成部分, 语音合成是人机语声通信的一个重要组成部分, 解决让机器像人那样说话的问题。 解决让机器像人那样说话的问题。 最早的合成器是1835年由 最早的合成器是 年由W.von Kempelen发 发 年由 改进的机械式会讲话的机器。 明 , 经 Weston改进的机械式会讲话的机器 。 而最 改进的机械式会讲话的机器 早的电子式语音合成器也是1939年 Homer Dudley 早的电子式语音合成器也是 年 发明的声码器,它不是简单的模拟人的生理过程, 发明的声码器,它不是简单的模拟人的生理过程, 而是通过电子线路来实现基于语音产生的源-滤波 而是通过电子线路来实现基于语音产生的源 滤波 器理论。 器理论。
12
wenku.baidu.com 数字语音处理及MATLAB仿真 张雪英编著
9.3.1
级联型共振峰模型
在该模型中, 在该模型中 , 声道被认为是一组串联的二阶谐 振器,共振峰滤波器首尾相接, 振器,共振峰滤波器首尾相接,其传递函数为各个共 振峰的传递函数相乘的结果。 振峰的传递函数相乘的结果。
13
数字语音处理及MATLAB仿真 张雪英编著
20
数字语音处理及MATLAB仿真 张雪英编著
共振峰合成技术弱点: 共振峰合成技术弱点: (1)由于它是建立在对声道的模拟上,因此,声道 )由于它是建立在对声道的模拟上,因此, 模型的不精确势必会影响其合成质量。 模型的不精确势必会影响其合成质量。 (2)实际工作中共振峰模型并不能表征影响语音自 然度的其他许多细微的语音成分, 然度的其他许多细微的语音成分,从而影响了合成 语音的自然度。 语音的自然度。 共振峰合成器控制十分复杂, (3)共振峰合成器控制十分复杂,实现起来十分困 难。
激励源
G V1 V2 ---- V5
辐射模型 语音
图9.2 共振峰级联模型
14
数字语音处理及MATLAB仿真 张雪英编著
9.3.2 并联型共振峰模型
在并联型模型中, 在并联型模型中,输入信号先分别进行幅度 调节,再加到每一个共振峰滤波器上, 调节 , 再加到每一个共振峰滤波器上 , 然后将各 路的输出叠加起来。 路的输出叠加起来。 其传递函数为: 其传递函数为
9
数字语音处理及MATLAB仿真 张雪英编著
表9.1 三种语音合成方式的比较
项目 语音 质量 可懂度 自然度 波形合成方式 高 高 字以下) 小(500字以下) 字以下 PCM,ADPCM 9.6~64kbit/s ~ 15秒~100秒 秒 秒 参数合成方式 高 中 大(数千字) 数千字) LPC,LSP,共振峰 共振峰 2.4~9.6 kbit/s ~ 100秒~7分 秒 分 按规则合成方式 中 低 无限 LPC,LSP共振峰 共振峰 50~75 kbit/s ~ 无限
18
数字语音处理及MATLAB仿真 张雪英编著
混和型共振峰模型如下图所示: 混和型共振峰模型如下图所示:
图9.4
混和型共振峰模型
19
数字语音处理及MATLAB仿真 张雪英编著
对于共振峰合成器的激励, 对于共振峰合成器的激励,简单地将其分为浊 音和清音两种类型是有缺陷的, 音和清音两种类型是有缺陷的,为了得到高质量的 合成语音,激励源应具备多种选择, 合成语音,激励源应具备多种选择,以适应不同的 发音情况。 发音情况。 混和型共振峰模型中激励源有三种类型: 混和型共振峰模型中激励源有三种类型:合成 浊音语音时用周期冲激序列; 浊音语音时用周期冲激序列;合成清音语音时用伪 随机噪声; 随机噪声;合成浊擦音语音时用周期冲激调制的噪 声。
共振峰合成理论中声道参数、 共振峰合成理论中声道参数、声道谐振特性 一直是研究的重点。 一直是研究的重点。 共振峰合成模型是把声道视为一个谐振腔, 共振峰合成模型是把声道视为一个谐振腔 , 利用腔体的谐振特性,如共振峰频率及带宽, 利用腔体的谐振特性 , 如共振峰频率及带宽 , 以 此为参数构成一个共振峰滤波器。 此为参数构成一个共振峰滤波器 。 因为音色各异 的语音有不同的共振峰模式,以每个共振峰频率 的语音有不同的共振峰模式, 及其宽带为参数,可以构成一个共振峰滤波器。 及其宽带为参数,可以构成一个共振峰滤波器。
11
数字语音处理及MATLAB仿真 张雪英编著
9.3 共振峰合成法
共振峰语音合成器的构成原理: 共振峰语音合成器的构成原理: 将多个共振峰滤波器组合起来模拟声道的传 输特性,对激励声源发生的信号进行调制, 输特性,对激励声源发生的信号进行调制,经过 辐射得到合成语音。 辐射得到合成语音。 基于共振峰的理论有三种实用模型。 基于共振峰的理论有三种实用模型。
8
数字语音处理及MATLAB仿真 张雪英编著
9.2.3 规则合成法
基音同步叠加PSOLA技术主要特点: 技术主要特点: 基音同步叠加 技术主要特点 在语音波形片断拼接之前,首先根据语义, 在语音波形片断拼接之前,首先根据语义,用 断拼接之前 PSOLA算法对拼接单元的韵律特征进行调整 , 使 算法对拼接单元的韵律特征进行调整, 算法对拼接单元的韵律特征进行调整 合成波形既保持了原始语音基元的主要音段特征, 合成波形既保持了原始语音基元的主要音段特征, 又使拼接单元的韵律特征符合语义, 又使拼接单元的韵律特征符合语义,从而获得很高 的可懂度和自然度。 的可懂度和自然度。
6
数字语音处理及MATLAB仿真 张雪英编著
参数合成方法的优点:音库一般较小, 优点 参数合成方法的优点:音库一般较小,并且整 个系统能适应的韵律特征的范围较宽, 个系统能适应的韵律特征的范围较宽,这类合成器 比特率低,音质适中。 比特率低,音质适中。 缺点:算法复杂,参数多, 缺点:算法复杂,参数多,并且在压缩比较大 信息丢失亦大,合成出的语音总是不够自然、 时,信息丢失亦大,合成出的语音总是不够自然、 清晰。 清晰。 为了改善音质,近几年发展了混合编码技术, 为了改善音质,近几年发展了混合编码技术, 以改善激励信号的质量。 以改善激励信号的质量。
3
数字语音处理及MATLAB仿真 张雪英编著
9.2 语音合成的原理及分类
9.2.1 波形合成法
波形编码合成法是一种波形合成法, 波形编码合成法是一种波形合成法 , 类似于语 音编码中的波形编解码方法, 音编码中的波形编解码方法 , 该方法直接把要合成 的语音的发音波形进行存储或者进行波形编码压缩 后存储,合成重放时再解码组合输出。 后存储,合成重放时再解码组合输出。 特点: 所需的存储容量太大, 词汇量不能很大; 特点 : 所需的存储容量太大 , 词汇量不能很大 ; 相对简单, 通常只能合成有限词汇的语音段。 相对简单 , 通常只能合成有限词汇的语音段 。 目前 用于自动报时、报站和报警等。 用于自动报时、报站和报警等。
2
数字语音处理及MATLAB仿真 张雪英编著
在语音合成技术发展中, 在语音合成技术发展中 , 早期研究主要是采 用参数合成方法。 用参数合成方法。 1990年提出的基音同步叠加 年提出的基音同步叠加PSOLA方法,使 方法, 年提出的基音同步叠加 方法 基于时域波形拼接方法合成的语音音色和自然度 大大提高。 大大提高。 我国的汉语语音合成研究从80年代初就基本 我国的汉语语音合成研究从 年代初就基本 上与国际研究同步发展。 上与国际研究同步发展 。 大致也经历了共振峰合 合成到应用PSOLA技术的过程。 技术的过程。 成、LPC合成到应用 合成到应用 技术的过程
M
其中Al为各路的增益因子。 其中 为各路的增益因子。
16
数字语音处理及MATLAB仿真 张雪英编著
下图就是一个M=5的并联型共振峰模型。 的并联型共振峰模型。 下图就是一个 的并联型共振峰模型
A1
激励源
A2
A5
ν1
ν2
+
辐射模型
语音
ν5
图9.3 并联型共振峰模型
17
数字语音处理及MATLAB仿真 张雪英编著
五个极点的共振峰级联模型传递函数为: 五个极点的共振峰级联模型传递函数为:
ν (z) =
1−
5
G

10
k =1
ak z −k
5
即: ν ( z ) = G • ∏ν i ( z ) = G • ∏
i =1
1
1 − bi z −1 − ci z −2 i =1
式中, 为增益因子 为增益因子。 式中,G为增益因子。 一个五个极点的共振峰级联模型如下
br z − r ∑ 1 − ∑ ak z − k
k =1 r =0 p R
v( z ) =
15
数字语音处理及MATLAB仿真 张雪英编著
v( z ) =
br z − r ∑ 1 − ∑ ak z − k
k =1 r =0 p
R
上式可分解成以下部分分式之和: 上式可分解成以下部分分式之和:
Al ν ( z) = ∑ 1 − Bl z −1 − Cl z −2 l =1
7
数字语音处理及MATLAB仿真 张雪英编著
9.2.3 规则合成法
规则合成方法: 一种高级的合成方法, 规则合成方法 : 一种高级的合成方法 , 通过 语音学规则产生语音, 可以合成无限词汇的语句。 语音学规则产生语音 , 可以合成无限词汇的语句 。 合成的词汇表不是事先确定, 合成的词汇表不是事先确定 , 系统中存储的是最 小的语音单位的声学参数, 以及由音素组成音节、 小的语音单位的声学参数 , 以及由音素组成音节 、 由音节组成词、 由词组成句子和控制音调、 由音节组成词 、 由词组成句子和控制音调 、 轻重 音等韵律的各种规则。 音等韵律的各种规则。 算法中, 算法中 , 用于波形拼接和韵律控制的较有代 表性的算法是基音同步叠加PSOLA技术。 技术。 表性的算法是基音同步叠加 技术
4
数字语音处理及MATLAB仿真 张雪英编著
另一种波形合成法是波形编辑合成, 另一种波形合成法是波形编辑合成,它把波形 编辑技术用于语音合成, 编辑技术用于语音合成,通过选取音库中采取自然 语言的合成单元的波形, 语言的合成单元的波形,对这些波形进行编辑拼接 后输出。它采用语音编码技术, 后输出。它采用语音编码技术,存储适当的语音基 合成时,经解码、波形编辑拼接、 元,合成时,经解码、波形编辑拼接、平滑处理等 输出所需的短语、语句或段落。 输出所需的短语、语句或段落。
相关文档
最新文档