《语音信号处理》讲稿第6章(1).ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目前,有3种求线性预测系数ak的方 法:直接法、自相关法、协方差法。
2.线性预测合成技术
①直接法
求解线性预测系数的直接法与求出 曲线的拟合系数的方法相同。总的均方 预测误差为:
p
M e2 (n) [x(n) ak x(n k)]2
n
n
k 1
2.线性预测合成技术
对M求偏导数,并使aj的偏导数为0, 得:
线性预测用于共振峰分析
语音
输入
x(n)
线性 预测 分析
音高/幅 值检测
a
1a
多项式
2
因
式分解
a
或
10 幅值
峰值检 测
ቤተ መጻሕፍቲ ባይዱ
音高
浊音/清音标志
… …
共振峰 参数
激励源 参数
2.线性预测合成技术
线性预测编码(LPC)的关键问题是 在均方误差最小条件下求出线性预测系 数ak。此时,由x^(n)=∑akx(n-k)可近似 地恢复x(n)。
M
a j
2
n
p
x(n j)[x(n) ak x(n k)] 0
k 1
p
ak x(n j)x(n k) x(n)x(n j)
k 1
n
n
其中, j 1,2,...,p
2.线性预测合成技术
利用上式的p个线性联立方程,可求 出p个线性预测系数a1,a2,…,ap。
这种求解方式在计算机上进行,很 方便。n的求和范围一般为-∞<n<+∞。 但考虑语音信号的特性,实际上,在一 段时间求和(加窗函数n),即
2.线性预测合成技术
(2)格型合成滤波器 根据以上3种方法,求得线性预测系
数ak后,给定误差信号e(n),便可以恢 复原始语音信号,即语音合成。
p
x(n) e(n) ak x(n k) k 1
2.线性预测合成技术
上式中,误差信号可用下列参量表示: a.语音源类型(浊音还是清音) b.振幅和音高(浊音时)
其中, 浊音——对应于以适当的音高频率重复的
激励脉冲。 清音——对应于白噪声激励。 由上式组成的合成滤波器可有多种表示方
式。其中,一种完成LPC分析和合成的格型滤 波器结构,如图所示。
完成LPC分析和合成的格型滤波器
2.线性预测合成技术
格型滤波器可以完成语音分析和合成。 格型滤波器用于语音分析和合成的参量有:
x(n)* = n·x(n) 窗函数的长度一般为100~250。
2.线性预测合成技术
②自相关法 自相关法是上式的另一种解法。 设自相关函数为
R(m) x(n)x(n M )
n
其中, m为延时时间.
2.线性预测合成技术
联立方程组可变换成: R(0)a1+R(1)a2+R(2)a3+…+R(p-1)ap =R(1) R(1)a1+R(0)a2+R(1)a3+…+R(p-2)ap =R(2) R(2)a1+R(1)a2+R(0)a3+…+R(p-3)ap =R(3) …… R(p-1)a1+R(p-2)a2+R(p-3)a3+…+R(0)ap =R(p)
式中,x^(n)=∑akx(n-k)为预测值,ak为预测 系数。
2.线性预测合成技术
将预测误差e(n)的表达式进行Z变换 得:
E(Z)=X(Z)(1-∑akZ-k) 由此,可得
X(Z)= E(Z)·[1/(1-∑akZ-k)] 此式即为语音的合成模型。
2.线性预测合成技术
对上式进一步化简,得: X(Z) = H(Z)I(Z)
Vortax公司推出的Computalker是一种典型的语音合成 产品——最早进入计算机业余爱好者市场。采用的便 是共振峰语音合成原理。
共振峰模型分为级联型、并联型、混合型三类。 对于英语语音,一种采用混合型共振峰模型的共 振峰语音合成器框图如图所示。
混合型共振峰语音合成模型
2.线性预测合成技术
这是一个系数对称的线性联立方程。Durbin和 Levinson提出了求解这种特殊方程组的最佳解 算法。
2.线性预测合成技术
③协方差法 这种方法无需对语音信号加窗,它 能精确算出预测系数,而在帧内的分析 时间比自相关法要短。 这种方法假设n求和范围为定数N, 起点在n=h处,计算样本数h到h+N-1时共 N个样本值时的预测系数。此时,联立方 程组可变换为:
a.浊音、清音标志。 b.音高。 c.总体振幅水平。 d.反射系数。 其中,前3个参量关于激励源,第4个参 量关于格型滤波器。
3.语音音素合成技术
其中,H(Z)=1/(1-∑akZ-k)为模拟声道滤波器 传递函数。I(Z)为频谱分布为0dB/倍频程的脉 冲激励源,即I(Z)=E(Z)。
上式表明:利用线性预测可以把模拟声道 的滤波器和模拟声源的脉冲激励分离开来。均 方误差最小时,浊音对应脉冲波激励,清音对 应白噪声。
线性预测用于共振峰分析,如图所示。
第6章 语音合成
本章主要讨论的问题:
1.语音合成原理和方法 2.线性预测合成技术 3.语音音素合成技术
1.语音合成原理和方法
共振峰语音合成原理如下: ①浊音和清音分别采用不同的激励源。 ②发不同语音对应不同声道路径和滤波器。 ③发不同语音对应不同幅值控制和频率控制。 ④共振峰和基频是语音信号的2个主要特征。
线性预测技术有两个特点: a.时域和频域技术相结合。可确定 共振峰频率、带宽和振幅等频域参量。 b.把具有音高和振幅的激励源与控 制音素发音的声道滤波器分离开来,增 强了语音存储的灵活性。
2.线性预测合成技术
(1)线性预测原理
线性预测技术可以看成是一种曲线的拟合 技术。
预测误差e(n)的表达式: e(n)= x(n)-x^(n) = x(n)-∑akx(n-k)
因为Qhjk=Qhkj,可见上式是一个对角线对 称的系数矩阵。矩阵Qh 是半正定,可近似地假 设为正定。根据Cholesky定理,正定对称矩阵 可进行如下分解:
Q=LLT 其中,L为一个下三角阵,由此,可得一个有 效的求解算法。
通常,用于计算预测系数的语音信号样本 值在50~100之间,每隔100~250个样本值重新 计算预测系数。
2.线性预测合成技术
p h N 1
h N 1
ak x(n j)x(n k) x(n)x(n j)
k 1
nh
nh
其中, j 1,2,...,p
h N 1
令Q
h jk
x(n j)x(n k)
nh
则
p
ak
Q
h jk
Qohj
k 1
其中, j 1,2,...,p
2.线性预测合成技术
2.线性预测合成技术
①直接法
求解线性预测系数的直接法与求出 曲线的拟合系数的方法相同。总的均方 预测误差为:
p
M e2 (n) [x(n) ak x(n k)]2
n
n
k 1
2.线性预测合成技术
对M求偏导数,并使aj的偏导数为0, 得:
线性预测用于共振峰分析
语音
输入
x(n)
线性 预测 分析
音高/幅 值检测
a
1a
多项式
2
因
式分解
a
或
10 幅值
峰值检 测
ቤተ መጻሕፍቲ ባይዱ
音高
浊音/清音标志
… …
共振峰 参数
激励源 参数
2.线性预测合成技术
线性预测编码(LPC)的关键问题是 在均方误差最小条件下求出线性预测系 数ak。此时,由x^(n)=∑akx(n-k)可近似 地恢复x(n)。
M
a j
2
n
p
x(n j)[x(n) ak x(n k)] 0
k 1
p
ak x(n j)x(n k) x(n)x(n j)
k 1
n
n
其中, j 1,2,...,p
2.线性预测合成技术
利用上式的p个线性联立方程,可求 出p个线性预测系数a1,a2,…,ap。
这种求解方式在计算机上进行,很 方便。n的求和范围一般为-∞<n<+∞。 但考虑语音信号的特性,实际上,在一 段时间求和(加窗函数n),即
2.线性预测合成技术
(2)格型合成滤波器 根据以上3种方法,求得线性预测系
数ak后,给定误差信号e(n),便可以恢 复原始语音信号,即语音合成。
p
x(n) e(n) ak x(n k) k 1
2.线性预测合成技术
上式中,误差信号可用下列参量表示: a.语音源类型(浊音还是清音) b.振幅和音高(浊音时)
其中, 浊音——对应于以适当的音高频率重复的
激励脉冲。 清音——对应于白噪声激励。 由上式组成的合成滤波器可有多种表示方
式。其中,一种完成LPC分析和合成的格型滤 波器结构,如图所示。
完成LPC分析和合成的格型滤波器
2.线性预测合成技术
格型滤波器可以完成语音分析和合成。 格型滤波器用于语音分析和合成的参量有:
x(n)* = n·x(n) 窗函数的长度一般为100~250。
2.线性预测合成技术
②自相关法 自相关法是上式的另一种解法。 设自相关函数为
R(m) x(n)x(n M )
n
其中, m为延时时间.
2.线性预测合成技术
联立方程组可变换成: R(0)a1+R(1)a2+R(2)a3+…+R(p-1)ap =R(1) R(1)a1+R(0)a2+R(1)a3+…+R(p-2)ap =R(2) R(2)a1+R(1)a2+R(0)a3+…+R(p-3)ap =R(3) …… R(p-1)a1+R(p-2)a2+R(p-3)a3+…+R(0)ap =R(p)
式中,x^(n)=∑akx(n-k)为预测值,ak为预测 系数。
2.线性预测合成技术
将预测误差e(n)的表达式进行Z变换 得:
E(Z)=X(Z)(1-∑akZ-k) 由此,可得
X(Z)= E(Z)·[1/(1-∑akZ-k)] 此式即为语音的合成模型。
2.线性预测合成技术
对上式进一步化简,得: X(Z) = H(Z)I(Z)
Vortax公司推出的Computalker是一种典型的语音合成 产品——最早进入计算机业余爱好者市场。采用的便 是共振峰语音合成原理。
共振峰模型分为级联型、并联型、混合型三类。 对于英语语音,一种采用混合型共振峰模型的共 振峰语音合成器框图如图所示。
混合型共振峰语音合成模型
2.线性预测合成技术
这是一个系数对称的线性联立方程。Durbin和 Levinson提出了求解这种特殊方程组的最佳解 算法。
2.线性预测合成技术
③协方差法 这种方法无需对语音信号加窗,它 能精确算出预测系数,而在帧内的分析 时间比自相关法要短。 这种方法假设n求和范围为定数N, 起点在n=h处,计算样本数h到h+N-1时共 N个样本值时的预测系数。此时,联立方 程组可变换为:
a.浊音、清音标志。 b.音高。 c.总体振幅水平。 d.反射系数。 其中,前3个参量关于激励源,第4个参 量关于格型滤波器。
3.语音音素合成技术
其中,H(Z)=1/(1-∑akZ-k)为模拟声道滤波器 传递函数。I(Z)为频谱分布为0dB/倍频程的脉 冲激励源,即I(Z)=E(Z)。
上式表明:利用线性预测可以把模拟声道 的滤波器和模拟声源的脉冲激励分离开来。均 方误差最小时,浊音对应脉冲波激励,清音对 应白噪声。
线性预测用于共振峰分析,如图所示。
第6章 语音合成
本章主要讨论的问题:
1.语音合成原理和方法 2.线性预测合成技术 3.语音音素合成技术
1.语音合成原理和方法
共振峰语音合成原理如下: ①浊音和清音分别采用不同的激励源。 ②发不同语音对应不同声道路径和滤波器。 ③发不同语音对应不同幅值控制和频率控制。 ④共振峰和基频是语音信号的2个主要特征。
线性预测技术有两个特点: a.时域和频域技术相结合。可确定 共振峰频率、带宽和振幅等频域参量。 b.把具有音高和振幅的激励源与控 制音素发音的声道滤波器分离开来,增 强了语音存储的灵活性。
2.线性预测合成技术
(1)线性预测原理
线性预测技术可以看成是一种曲线的拟合 技术。
预测误差e(n)的表达式: e(n)= x(n)-x^(n) = x(n)-∑akx(n-k)
因为Qhjk=Qhkj,可见上式是一个对角线对 称的系数矩阵。矩阵Qh 是半正定,可近似地假 设为正定。根据Cholesky定理,正定对称矩阵 可进行如下分解:
Q=LLT 其中,L为一个下三角阵,由此,可得一个有 效的求解算法。
通常,用于计算预测系数的语音信号样本 值在50~100之间,每隔100~250个样本值重新 计算预测系数。
2.线性预测合成技术
p h N 1
h N 1
ak x(n j)x(n k) x(n)x(n j)
k 1
nh
nh
其中, j 1,2,...,p
h N 1
令Q
h jk
x(n j)x(n k)
nh
则
p
ak
Q
h jk
Qohj
k 1
其中, j 1,2,...,p
2.线性预测合成技术