语音信号处理 第九章

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

7
数字语音处理及MATLAB仿真 张雪英编著
9.2.3 规则合成法
规则合成方法:一种高级的合成方法,通过 语音学规则产生语音,可以合成无限词汇的语句。 合成的词汇表不是事先确定,系统中存储的是最 小的语音单位的声学参数,以及由音素组成音节、 由音节组成词、由词组成句子和控制音调、轻重 音等韵律的各种规则。 算法中,用于波形拼接和韵律控制的较有代 表性的算法是基音同步叠加PSOLA技术。
p
s(n)
a s ( n i ) Gu ( n )
i i 1
其中:ai为预测系数;G为模型增益;u(n)为激励; 合成样本为s(n);p为预测器阶数。
23
数字语音处理及MATLAB仿真 张雪英编著
基音周期 冲激序列发生器
浊 音 /清 音 控制
G
白噪声发生器
u (n )
Z
1
a1
Z
其传递函数为:

v(z)
r0 p
R
br z
r
1

k 1
ak z
k
15
数字语音处理及MATLAB仿真 张雪英编著

v(z)
r0 p
R
br z
r
1

k 1
ak z
k
上式可分解成以下部分分式之和:
(z)
1 B
l 1
M
Al z l
1
Clz
2
其中Al为各路的增益因子。
25
数字语音处理及MATLAB仿真 张雪英编著
LPC语音合成和共振峰语音合成比较:
(1)LPC语音合成有比较简单和完全自动的分析 步骤,合成器结构也比较简单,采用格形滤波器时, 量化特性和稳定性都比较好,硬件实现容易;而共 振峰合成需要较多的参数调整,合成器结构相对讲 要复杂些。 (2)共振峰合成原理和实际发声原理联系紧密, 它的模型控制参数对合成语音谱特性的影响比较直 观。LPC合成中,控制LPC系数的变化轨迹十分有 限。
21
数字语音处理及MATLAB仿真 张雪英编著
9.4 线性预测参数合成法
是一种“源滤波器”模型,由白噪声序列和周 期脉冲序列构成的激励信号,经过选通、放大并通 过时变数字滤波器,就可以再获得原语音信号。
图9.5 LPC语音合成器的框图
22
数字语音处理及MATLAB仿真 张雪英编著
线性预测合成的形式有两种:一种是直接用预 测器系数构成的递归型合成滤波器,用这种方法定 期地改变激励参数u(n)和预测系数,就能合成出语 音。它合成的语音样本由下式决定:
6
数字语音处理及MATLAB仿真 张雪英编著
参数合成方法的优点:音库一般较小,并且整 个系统能适应的韵律特征的范围较宽,这类合成器 比特率低,音质适中。 缺点:算法复杂,参数多,并且在压缩比较大 时,信息丢失亦大,合成出的语音总是不够自然、 清晰。
为了改善音质,近几年发展了混合编码技术, 以改善激励信号的质量。
8
数字语音处理及MATLAB仿真 张雪英编著
9.2.3 规则合成法
基音同步叠加PSOLA技术主要特点:
在语音波形片断拼接之前,首先根据语义,用 PSOLA算法对拼接单元的韵律特征进行调整,使 合成波形既保持了原始语音基元的主要音段特征, 又使拼接单元的韵律特征符合语义,从而获得很高 的可懂度和自然度。
在该模型中,声道被认为是一组串联的二阶谐 振器,共振峰滤波器首尾相接,其传递函数为各个共 振峰的传递函数相乘的结果。
13
数字语音处理及MATLAB仿真 张雪英编著
五个极点的共振峰级联模型传递函数为:
(z)
1
5
G

k 1
10
ak z
k
即:
(z) G i(z) G
9.2 语音合成的原理及分类
9.2.1 波形合成法
波形编码合成法是一种波形合成法,类似于语 音编码中的波形编解码方法,该方法直接把要合成 的语音的发音波形进行存储或者进行波形编码压缩 后存储,合成重放时再解码组合输出。 特点:所需的存储容量太大,词汇量不能很大; 相对简单,通常只能合成有限词汇的语音段。目前 用于自动报时、报站和报警等。
X n (e )
j
31
数字语音处理及MATLAB仿真 张雪英编著
令:
20
数字语音处理及MATLAB仿真 张雪英编著
共振峰合成技术弱点:
(1)由于它是建立在对声道的模拟上,因此,声道 模型的不精确势必会影响其合成质量。
(2)实际工作中共振峰模型并不能表征影响语音自 然度的其他许多细微的语音成分,从而影响了合成 语音的自然度。
(3)共振峰合成器控制十分复杂,实现起来十分困 难。
9
数字语音处理及MATLAB仿真 张雪英编著
表9.1 三种语音合成方式的比较
项目 波形合成方式 参数合成方式 按规则合成方式
语音 质量
可懂度
自然度

高 小(500字以下)

中 大(数千字)

低 无限
词汇量
合成方法
数码率 1兆比特可合成 的语音长度 合成基元 装置
PCM,ADPCM
9.6~64kbit/s 15秒~100秒
27
数字语音处理及MATLAB仿真 张雪英编著
(5)标准LPC的全极点模型,对具有零点谱特性的 那些音,特别是鼻音,效果比较差;共振峰合成方 法则可以采用反谐振器来直接模拟鼻音中最重要的 频谱零点,使得合成语音音质得以提高。
(6)从总体上说,选择LPC语音合成还是共振峰合 成,基于二个因素的折衷;LPC合成具有简单,可 自动进行系数分析的优点;而比较复杂的共振峰合 成可望产生较高质量的合成语音。
数字语音处理及MATLAB仿真 张雪英编著
第九章 语音合成
1 2 3 4 5 6
9.1 概述 9.2 语音合成的原理及分类
9.3 共振峰合成法
9.4 线性预测参数合成法 9.5 基音同步叠加法 9.6 文语转换系统
1
数字语音处理及MATLAB仿真 张雪英编著
9.1 概述
语音合成是人机语声通信的一个重要组成部分, 解决让机器像人那样说话的问题。
1
a pi
Z
1
ap
图9.6 直接用预测器系数ai构成的合成滤波器
24
数字语音处理及MATLAB仿真 张雪英编著
另一种合成的形式是采用反射系数构成的格型 合成滤波器。它的合成语音样本由下式决定:
s(n) G u (n)
kb
i i 1
p
i 1
( n 1)
其中:G为模型增益;u(n)为激励;ki为反射系数; bi(n)为后向预测误差;p为预测器阶数。
30
数字语音处理及MATLAB仿真 张雪英编著
9.5.1 基音同步叠加PSOLA算法原理
信号x(n)的短时傅里叶变换为:
X n (e
j
Hale Waihona Puke Baidu)

m

x ( m ) w ( n m )e
j m
nZ
其中w(n)是长度为N的窗序列,Z表示全体整数集合。
是变量n和ω的二维时频函数,对于n的每个 取值都对应有一个连续的频谱函数,显然存在较大 的信息冗余,所以可以在时域每隔若干个(例如R 个)样本取一个频谱函数来重构原信号x(n)。
5
数字语音处理及MATLAB仿真 张雪英编著
9.2.2 参数合成法
参数合成法也称为分析合成法。
参数合成法有:发音器官参数合成和声道模型 参数合成。 发音器官参数合成法: 是对人的发音过程直接进行模拟。它定义了唇、 舌、声带的相关参数,如唇开口度、舌高度、舌位 置、声带张力等,由发音参数估计声道截面积函数, 进而计算声波。 缺点:合成语音的质量不理想。
28
数字语音处理及MATLAB仿真 张雪英编著
9.5 基音同步叠加法
基音同步叠加PSOLA算法核心思想:直接对 存储于音库中的语音运用PSOLA算法进行拼接, 从而整合成完整的语音。
该系统首先要在大量语音库中,选择最合适的 语音单元用于拼接,并且在选择语音单元的过程中 往往采用多种复杂的技术,最后在拼接时,使用 PSOLA算法,根据上下文的要求,对其合成语音 的韵律特征进行修改。
LPC,LSP,共振峰
2.4~9.6 kbit/s 100秒~7分
LPC,LSP共振峰
50~75 kbit/s 无限
音节、词组、句 音素、双音素、音 音节、词组、句子 子 节 简单 比较复杂 复杂
硬件主体
存储器
存储器和处理器
处理器
10
数字语音处理及MATLAB仿真 张雪英编著
9.3 共振峰合成法
共振峰合成理论中声道参数、声道谐振特性 一直是研究的重点。 共振峰合成模型是把声道视为一个谐振腔, 利用腔体的谐振特性,如共振峰频率及带宽,以 此为参数构成一个共振峰滤波器。因为音色各异 的语音有不同的共振峰模式,以每个共振峰频率 及其宽带为参数,可以构成一个共振峰滤波器。
11
数字语音处理及MATLAB仿真 张雪英编著
9.3 共振峰合成法
共振峰语音合成器的构成原理: 将多个共振峰滤波器组合起来模拟声道的传 输特性,对激励声源发生的信号进行调制,经过 辐射得到合成语音。 基于共振峰的理论有三种实用模型。
12
数字语音处理及MATLAB仿真 张雪英编著
9.3.1
级联型共振峰模型
18
数字语音处理及MATLAB仿真 张雪英编著
混和型共振峰模型如下图所示:
图9.4
混和型共振峰模型
19
数字语音处理及MATLAB仿真 张雪英编著
对于共振峰合成器的激励,简单地将其分为浊 音和清音两种类型是有缺陷的,为了得到高质量的 合成语音,激励源应具备多种选择,以适应不同的 发音情况。 混和型共振峰模型中激励源有三种类型:合成 浊音语音时用周期冲激序列;合成清音语音时用伪 随机噪声;合成浊擦音语音时用周期冲激调制的噪 声。
26
数字语音处理及MATLAB仿真 张雪英编著
(3)共振峰语音合成比较灵活,允许简单地变换以 模仿不同人的发音,通过共振峰频率的移动,容易 改变语声中和讲话人特征有关的部分;LPC合成较 困难,只有将LPC的反射系数转变成极点的位置, 才有可能作类似的修正。 (4)线性预测方法对谱包络谷点的模型要比峰点差 得多,因此共振峰带宽的估计一般是不合适的;共 振峰合成方法中,共振峰的带宽还可以从离散傅里 叶变换谱来估计。
最早的合成器是1835年由W.von Kempelen发 明,经Weston改进的机械式会讲话的机器。而最 早的电子式语音合成器也是1939年Homer Dudley 发明的声码器,它不是简单的模拟人的生理过程, 而是通过电子线路来实现基于语音产生的源-滤波 器理论。
2
数字语音处理及MATLAB仿真 张雪英编著
29
数字语音处理及MATLAB仿真 张雪英编著
由于韵律修改所针对的侧面不同,PSOLA算法 的实现目前有3种方式。分别为: 时域基音同步叠加TD-PSOLA
线性预测基音同步叠加LPC-PSOLA
频域基音同步叠加FD-PSOLA 其中TD-PSOLA算法计算效率较高,已被广泛应 用,是一种经典算法,这里只介绍TD-PSOLA算法原 理。
4
数字语音处理及MATLAB仿真 张雪英编著
另一种波形合成法是波形编辑合成,它把波形 编辑技术用于语音合成,通过选取音库中采取自然 语言的合成单元的波形,对这些波形进行编辑拼接 后输出。它采用语音编码技术,存储适当的语音基 元,合成时,经解码、波形编辑拼接、平滑处理等 输出所需的短语、语句或段落。
16
数字语音处理及MATLAB仿真 张雪英编著
下图就是一个M=5的并联型共振峰模型。
1
A1
激励源
A2
A5

2
+
辐射模型
语音
5
图9.3 并联型共振峰模型
17
数字语音处理及MATLAB仿真 张雪英编著
9.3.3 混合型共振峰模型
比较以上两种模型,对于大多数的元音,级 联型合乎语音产生的声学理论,并且无需为每一 个滤波器分设幅度调节;而对于大多数清擦音和 塞音,并联型则比较合适,但是其幅度调节很复 杂。于是考虑将两者结合在一起,提出了混和型 共振峰模型。
i 1 i 1
5
1 1 bi z
1
ci z
2
式中,G为增益因子。 一个五个极点的共振峰级联模型如下
激励源
G V1 V2 ---- V5
辐射模型 语音
图9.2 共振峰级联模型
14
数字语音处理及MATLAB仿真 张雪英编著
9.3.2 并联型共振峰模型
在并联型模型中,输入信号先分别进行幅度 调节,再加到每一个共振峰滤波器上,然后将各 路的输出叠加起来。
在语音合成技术发展中,早期研究主要是采 用参数合成方法。 1990年提出的基音同步叠加PSOLA方法,使 基于时域波形拼接方法合成的语音音色和自然度 大大提高。 我国的汉语语音合成研究从80年代初就基本 上与国际研究同步发展。大致也经历了共振峰合 成、LPC合成到应用PSOLA技术的过程。
3
数字语音处理及MATLAB仿真 张雪英编著
相关文档
最新文档