语音信号处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.线性预测合成技术
a x(n j )x(n k ) x(n)x(n j )
k 1 k nh nh
p
h N 1
h N 1
其中, j 1,2,..., p 令Q h jk 则
h N 1 nh
x(n j )x(n k )
h oj
线性预测技术有两个特点: a.时域和频域技术相结合。可确定 共振峰频率、带宽和振幅等频域参量。 b.把具有音高和振幅的激励源与控 制音素发音的声道滤波器分离开来,增 强了语音存储的灵活性。
2.线性预测合成技术
(1)线性预测原理
线性预测技术可以看成是一种曲线的拟合 技术。 预测误差e(n)的表达式: e(n)= x(n)-x^(n) = x(n)-∑akx(n-k) 式中,x^(n)=∑akx(n-k)为预测值,ak为预测 系数。
Vortax公司推出的Computalker是一种典型的语音合成 产品——最早进入计算机业余爱好者市场。采用的便 是共振峰语音合成原理。 共振峰模型分为级联型、并联型、混合型三类。 对于英语语音,一种采用混合型共振峰模型的共 振峰语音合成器框图如图所示。
混合型共振峰语音合成模型
2.线性预测合成技术
第6章 语音合成
本章主要讨论的问题:
1.语音合成原理和方法 2.线性预测合成技术 3.语音音素合成技术
Biblioteka Baidu
1.语音合成原理和方法
共振峰语音合成原理如下: ①浊音和清音分别采用不同的激励源。 ②发不同语音对应不同声道路径和滤波器。 ③发不同语音对应不同幅值控制和频率控制。 ④共振峰和基频是语音信号的2个主要特征。
线性预测用于共振峰分析
a1 a2
语音
输入x(n)
线性 预测
多项式 因 式分解 或 峰值检 测
共振峰 参数
…
…
分析
a10
幅值
音高/幅 值检测
音高
浊音/清音标志
激励源 参数
2.线性预测合成技术
线性预测编码(LPC)的关键问题是 在均方误差最小条件下求出线性预测系 数ak。此时,由x^(n)=∑akx(n-k)可近似 地恢复x(n)。 目前,有3种求线性预测系数ak的方 法:直接法、自相关法、协方差法。
这是一个系数对称的线性联立方程。Durbin和 Levinson提出了求解这种特殊方程组的最佳解 算法。
2.线性预测合成技术
③协方差法 这种方法无需对语音信号加窗,它 能精确算出预测系数,而在帧内的分析 时间比自相关法要短。 这种方法假设n求和范围为定数N, 起点在n=h处,计算样本数h到h+N-1时共 N个样本值时的预测系数。此时,联立方 程组可变换为:
a x(n j )x(n k ) x(n)x(n j )
k 1 k n n
p
其中, j 1,2,..., p
2.线性预测合成技术
利用上式的p个线性联立方程,可求 出p个线性预测系数a1,a2,…,ap。 这种求解方式在计算机上进行,很 方便。n的求和范围一般为-∞<n<+∞。 但考虑语音信号的特性,实际上,在一 段时间求和(加窗函数n),即 x(n)* = n· x(n) 窗函数的长度一般为100~250。
2.线性预测合成技术
①直接法 求解线性预测系数的直接法与求出 曲线的拟合系数的方法相同。总的均方 预测误差为:
M e (n) [ x(n) ak x(n k )]
2 n n k 1
p
2
2.线性预测合成技术
对M求偏导数,并使aj的偏导数为0, 得:
p M 2 x(n j )[x(n) ak x(n k )] 0 a j n k 1
完成LPC分析和合成的格型滤波器
2.线性预测合成技术
格型滤波器可以完成语音分析和合成。 格型滤波器用于语音分析和合成的参量有: a.浊音、清音标志。 b.音高。 c.总体振幅水平。 d.反射系数。 其中,前3个参量关于激励源,第4个参 量关于格型滤波器。
3.语音音素合成技术
(1)语音音素合成原理 语音音素合成(或称语音段合成)原理, 有别于共振峰合成、线性预测合成。 它是基于语言发音的最小基本单位(音 素)合成语音的方法。如同英语元音和辅音 代码表、汉语拼音(或笔画)代码表一样, 人们也将语音音素编制成一张代码表,称为 “语音音素代码表”。通过对代码表中语音 音素的不同组合,可合成单词或语句的发音。
3.语音音素合成技术
Votrax音素代码表由如下一系列表 组成,主要包括:
①Votrax音素及其持续时间表。 ②Votrax音素的持续时间分级表。 ③Votrax音素的音高分级表。 ④Votrax音素的连接规则表。 ⑤Votrax音素分类表。 ⑥Votrax音素卡(表)。 ⑦相同国际音标的不同音素代码表。
a Q
k 1 k
p
h jk
Q
其中, j 1,2,..., p
2.线性预测合成技术
因为Qhjk=Qhkj,可见上式是一个对角线对 称的系数矩阵。矩阵Qh 是半正定,可近似地假 设为正定。根据Cholesky定理,正定对称矩阵 可进行如下分解: Q=LLT 其中,L为一个下三角阵,由此,可得一个有 效的求解算法。 通常,用于计算预测系数的语音信号样本 值在50~100之间,每隔100~250个样本值重新 计算预测系数。
3.语音音素合成技术
目前,Votrax公司的音素合成器产品占 主导地位。Votrax音素合成器发音成功的编 码关键——主要音素之间的转换使用了特殊 的音素(不同持续间隔的等效音,同素异构 音,静止等)。但是,它从文字到语音的转 换规则很繁琐,音素转换规则也没有公开。 Votrax语音合成原理:每句英式英语经 过一系列转换,成为Votrax音素表示,最后 以ASCII字符代码,送入到合成器中进行语 音合成。
3.语音音素合成技术
(3)汉语的音素合成 汉语语音中,声母21个,韵母39个,汉语 拼音可拼出416个汉字。若加上声调(四声), 共有1664个不同音的汉字。 目前,还没有专门设计用于汉语音素合成 的芯片。通常是用英语音素合成芯片来合成汉 语。
3.语音音素合成技术
用英语音素合成芯片来合成汉语,需要解 决如下几个问题: ①确定汉语与英语音素的对应关系。 ②注意整个句子的发音效果。
2.线性预测合成技术
将预测误差e(n)的表达式进行Z变换 得: E(Z)=X(Z)(1-∑akZ-k) 由此,可得 X(Z)= E(Z)· [1/(1-∑akZ-k)] 此式即为语音的合成模型。
2.线性预测合成技术
对上式进一步化简,得: X(Z) = H(Z)I(Z) 其中,H(Z)=1/(1-∑akZ-k)为模拟声道滤波器 传递函数。I(Z)为频谱分布为0dB/倍频程的脉 冲激励源,即I(Z)=E(Z)。 上式表明:利用线性预测可以把模拟声道 的滤波器和模拟声源的脉冲激励分离开来。均 方误差最小时,浊音对应脉冲波激励,清音对 应白噪声。 线性预测用于共振峰分析,如图所示。
2.线性预测合成技术
(2)格型合成滤波器 根据以上3种方法,求得线性预测系 数ak后,给定误差信号e(n),便可以恢 复原始语音信号,即语音合成。
x(n) e(n) ak x(n k )
k 1
p
2.线性预测合成技术
上式中,误差信号可用下列参量表示: a.语音源类型(浊音还是清音) b.振幅和音高(浊音时) 其中, 浊音——对应于以适当的音高频率重复的 激励脉冲。 清音——对应于白噪声激励。 由上式组成的合成滤波器可有多种表示方 式。其中,一种完成LPC分析和合成的格型滤 波器结构,如图所示。
3.语音音素合成技术
(2)语音音素合成器
目前,已出现不同型号的语音音素合成器和语音 音素合成芯片。 Votrax公司的音素合成器产品占主导 地位,其代表性的产品有: VS-K——价格低廉的语音音素合成器,主要适用 于计算机业余爱好者。 VS-6——在VS-K基础上,加入4级音高控制,合成 的语音质量有所提高。 Votrax ML-I型音素合成器。每个音素加入8级音 高控制和4种持续时间,合成的语音质量进一步提高。 Votrax SC-01单片语音音素合成器。这是一种采 用模拟开关电容滤波技术的LSI芯片。它可由输入的音 素合成语音。利用这种芯片,已开发出实用的产品。
2.线性预测合成技术
②自相关法 自相关法是上式的另一种解法。 设自相关函数为
R(m) x(n)x(n M )
n
其中, m为延时时间 .
2.线性预测合成技术
联立方程组可变换成: R(0)a1+R(1)a2+R(2)a3+…+R(p-1)ap =R(1) R(1)a1+R(0)a2+R(1)a3+…+R(p-2)ap =R(2) R(2)a1+R(1)a2+R(0)a3+…+R(p-3)ap =R(3) …… R(p-1)a1+R(p-2)a2+R(p-3)a3+…+R(0)ap =R(p)