语音信号处理__第三章_语音信号线性预测分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P ( z ) ai z i
i 1
• 预测误差为: p (n) s (n) ai s (n i ) Ge(n)
i 1
• 线性预测分析要解决的问题是:给定语音序列(显然,鉴于
语音信号的时变特性,LPC分析必须按帧进行),使预测误 差在某个准则下最小,求预测系数的最佳估值ai,这个准则 通常采用最小均方误差准则。
H ( z) G 1 bl z l 1 ai z i
i 1 l 1 p q
预测增益
• 根据H(z)的形式不同,有3种不同的信号模型: • 1)如上式, H(z)同时含有零点和极点,称为自回归-滑动平均 模型,是一种一般的模型。 • 2)当上式中的分子多项式为常数,即bl=0,H(z)为全极点模
线性预测分析就是为线性系统H(z)建立一个模型,并按照某种 准则,利用已知的s(n)进行模型参数估计。估计出来的参数即可 确定H(z),然后根据模型 S z E z V z 则可得到E(z)。这样, 我们就完全确定了语音的激励模型和声道模型。
模型的系统函数H(z)可以写成有理分式的形式:
i 1
• 即语音样点间有相关性,可以用过去的样点值预测未来样点 值。对于浊音,激励e(n)是以基音周期重复的单位冲激,对 于清音,e(n)是稳衡白噪声。
• 在模型参数估计程中,把如下系统称为线性预测器:
ˆ s (n) ai s (n i )
i 1 p
• 式中ai称为线性预测系数。从而,p阶线性预测器的系统函 数具有如下形式: p
• 再考虑公式(3-77)和(3-78) ,可得
n 0, 0 i n 0, i
i 1 p
• 可见,最小预测误差由一个固定分量和一个依赖于预测器
系数 i的分量组成。
§3.6.2 线性预测方程组的求解(自相关法)
• 设从n时刻开窗选取N个样点的语音段Sn,即只用 • sn n ,..., sn n N 1 个语音样点分析该帧的预测系数。对 于语音段sn它的自相关函数为:
p 1 1 p 1 2
1p 1 p 1 2 p 1 p 1 • 设 p
p E 2 ( n) E [ s ( n) ai s ( n i )]2 i 1
(3-75)
• 为使E{ε2(n)}最小,对aj求偏导,并令其为零,有:
p E [ s ( n) ai s (n i )]s ( n j ) 0, j 1,..., p (3-76) i 1 p E [ s ( n) ai s (n i )]s (n j ) • 上式表明采用最佳预测系数时,预测误差ε(n)与过去的语音 i 1
i 1
• 这样,将参数解卷问题归结为估计预测器阶数p和各个系数 i 的过程。
• 可以证明,如果s(n)是由全极点模型产生的话,那么最佳预 测系数p=P,最佳预测系数 i i 1 ~ P 等于该全极点模型的 ˆ 参数。 • 如果模型阶数是已知的,那么可以设置预测阶数p=P。进一 步计算使均方预测误差达到最小时的一组预测系数,就可求 出模型参数。 • 如果模型阶数不确定,可以观察均方最小预测误差随p的变 化规律,确定阶数P。 • 对于语音信号而言,P=8~12就可以对绝大多数语音信号的声 道模型取得足够近似的逼近,P值选得过大尽管可以稍微改 善逼近效果,但是会大大增加计算量,并受有限字长影响使 得参数估计效果变差。 在确定了p=P以后,下面推导最佳预测系数。
样点正交。由于语音信号的短时平稳性,要分帧处理(10p E sn m sn m j ai sn ( m i ) sn ( m j ) 30ms),对于一帧从n时刻开窗选取的N个样点的语音段Sn,记 i 1 Φn(j,i)为 p snj i) E n (m ansn ( m i ) sn ((3-77) ( , m j { E j ) s i (m i)} s E sn m n m j)
p R p t r
1p 1 p 1 p r 2 rp . Rn p 1 Rn 0 p 1 p 1
传输函数为:
H ( z) S ( z) E( z) G 1 ai z i
i 1 p
G A( z )
• 式中,p是预测器阶数, i 是预测器系数,实数,G是声 道滤波器增益,用于控制系统输出序列的幅度大小。 • 由此,语音抽样s(n)和激励信号e(n)之间的关系可用下列的 差分方程来表示: p s n Ge n i s n i
• 这种方程叫Yule-Wslker方程,方程左边的矩阵称为托普利
兹(Toeplitz)矩阵,它是以主对角线对称的、而且其沿着主对 角线平行方向的各轴向的元素值都相等。这种Yule-Wslker 方程可用莱文逊-杜宾(Levinson—Durbin)递推算法来高效地 求解。下面介绍Durbin快速递推算法。
n
• 因此有:
a R (| i j |) R ( j ), j 1,..., p
i 1 i n
p
• 把上式展开写成矩阵形式:
Rn (1) Rn (0) R (1) Rn (0) n Rn ( p 1) Rn ( p 2) Rn ( p 1) a1 Rn (1) Rn ( p 2) a2 Rn (2) Rn (0) a p Rn ( p)
1 1 z 1 2 2 3 3 1 z z z ...
1
• 2) 对全极点模型做参数估计是对线性方程的求解过程,而若 模型中含有有限个零点,则是解非线性方程组,实现起来非
常困难。 • 3)有时无法知道输入序列
• 采用全极点模型,辐射、声道以及声门激励的组合谱效应的
i 1 n j , 0 ij) j ( j ,0), j 1,..., p ai n ( , i n , i n 0
p i 1
i 1 p
• 则有:
(3-78)
• 利用公式(3-76),可得最小 均方预测误差为
p 2 E s n i s n s n i i 1
• 而且能够提供一个非常好的声道模型。
• LP分析还能够对共振峰、功率谱等语音参数进行精确估 计,LP分析得到的参数可以作为语音识别的重要参数之 一。
§3.6.1 线性预分析的基本原理
根据语音信号的产生模型,系统的输入e(n)是语音激励,s(n)是 输出语音,即语音信号S(z)是激励信号E(z)通过一个线性时不变 因果稳定系统H(z)产生的输出,在时域上表现为e(n)和h(n)的卷 积。由s(n)求取e(n)和h(n)的算法称为解卷算法。(同态处理是 一种方法)
线性预测分析的基本思想是:用过去p个样点值来预测现在或
未来的样点值: s (n) ˆ ai s(n i)
i 1
p
ˆ 预测误差ε(n)为: (n) s(n) s (n) s(n) ai s(n i )
p
• 这样就可通过在某个准则下使预测误差ε(n)达到最小值的方 法来决定惟一的一组线性预测系数ai(i=1,2,…,p)。
将上式分为上、下两部分运算,相应的运算式为
1p 1 p 1 p t 2 p 1 p p 1 p p r p 1 Rn 0 Rn p 1 R p 1 r r p 1 p 1 p p
中的i代表p阶全极
点模型系数标号。这样,对于p+1阶模型参数的估值,则有 p R r p R p 1 p 1 r p 1 R p 1 t r p Rn 0 p p t p p r 列矢量的倒置, r 是 r 列矢量的转置。 其中, r 是
• 下面推导线性预测方程。把某一帧内的短时平均预测误差定 p 义为: 2 2 E ( n) E [ s ( n) ai s ( n i )]
E • 显然, 2 (n)越接近于零,线性预测的准确度在均方误差最 小的意义上为最佳。 • 对于一个特定的语音序列 E 2 (n) 取决于预测阶数p和线性预 测系数 i 。 • 如果能够找到特定的阶数和系数,使得预测误差最小,这这 组预测器系数称为最佳预测系数。
• 如果把上面的矩阵形式
p
R p p r p
p
• 求解 i 就是对自相关矩阵 R 求逆。一般Toeplitz矩阵 R p • 是非奇异矩阵,它的逆矩阵存在,则
R R p I 1 p R p r p
p 1
• 在上面的公式中,上标p代表阶数; i
p
• 在信号分析中,模型的建立实际上是由信号来估计模型的参
i 1
数的过程。因为信号是实际客观存在的,用模型表示它不可 能是完全精确的,总是存在误差。且极点阶数p无法事先确 定,可能选的过大或者过小,况且信号是时变的。因此求解 模型参数的过程是一个逼近过程。
• 采用线性预测分析不仅能够得到语音信号的预测波形
Rn ( j ) s (n) s (n j ), j 1,..., p
n j N ห้องสมุดไป่ตู้1
• 自相关函数是偶函数,且 Rn j i 关。因此,可以定义Φn(j,i)为
n ( j, i)
N 1|i j | m 0
的大小只与j-i的值有
sn (m) sn (m i j ) Rn (| i j |)
型,模型的输出只取决于过去的信号值,称为自回归模型;
• 3)如果上式中分母多项式为1,即ai=0,H(z)为全零点模型, 称为滑动平均模型。该模型的输出只由模型的输入来决定。
• 实际上语音信号处理中最常用的是全极点模型,这是因为:
• 1)如果不考虑鼻音和摩擦音,那么语音的声道传递函数就是 一个全极点模型;对于鼻音和摩擦音,细致的声学理论表明, 其声道传递函数既有零点也有极点,但这时如果模型的阶数p 足够高,可以用全极点模型来近似表示零极点模型,因为一 个零点可以用许多极点来近似,即
1 语音信号的线性预测分析 2 语音信号的小波分析
§3.6 语音信号的线性预测分析
• 线性预测分析是语音处理的核心技术,几乎普遍地应用于语音信号处 理的各个方面。
• 线性预测分析的基本思想是:由于语音样点之间存在相关
性,所以可以用过去的样点值来预测现在或未来的样点值, 即一个语音的抽样能够用过去若干个语音抽样或它们的线 性组合来逼近。通过使实际语音抽样和线性预测抽样之间 的误差在某个准则下达到最小值来决定唯一的一组预测系 数。而这组预测系数就反映了语音信号的特性,可以作为 语音信号特征参数用于语音识别、语音合成等。
i 1
• 预测误差为: p (n) s (n) ai s (n i ) Ge(n)
i 1
• 线性预测分析要解决的问题是:给定语音序列(显然,鉴于
语音信号的时变特性,LPC分析必须按帧进行),使预测误 差在某个准则下最小,求预测系数的最佳估值ai,这个准则 通常采用最小均方误差准则。
H ( z) G 1 bl z l 1 ai z i
i 1 l 1 p q
预测增益
• 根据H(z)的形式不同,有3种不同的信号模型: • 1)如上式, H(z)同时含有零点和极点,称为自回归-滑动平均 模型,是一种一般的模型。 • 2)当上式中的分子多项式为常数,即bl=0,H(z)为全极点模
线性预测分析就是为线性系统H(z)建立一个模型,并按照某种 准则,利用已知的s(n)进行模型参数估计。估计出来的参数即可 确定H(z),然后根据模型 S z E z V z 则可得到E(z)。这样, 我们就完全确定了语音的激励模型和声道模型。
模型的系统函数H(z)可以写成有理分式的形式:
i 1
• 即语音样点间有相关性,可以用过去的样点值预测未来样点 值。对于浊音,激励e(n)是以基音周期重复的单位冲激,对 于清音,e(n)是稳衡白噪声。
• 在模型参数估计程中,把如下系统称为线性预测器:
ˆ s (n) ai s (n i )
i 1 p
• 式中ai称为线性预测系数。从而,p阶线性预测器的系统函 数具有如下形式: p
• 再考虑公式(3-77)和(3-78) ,可得
n 0, 0 i n 0, i
i 1 p
• 可见,最小预测误差由一个固定分量和一个依赖于预测器
系数 i的分量组成。
§3.6.2 线性预测方程组的求解(自相关法)
• 设从n时刻开窗选取N个样点的语音段Sn,即只用 • sn n ,..., sn n N 1 个语音样点分析该帧的预测系数。对 于语音段sn它的自相关函数为:
p 1 1 p 1 2
1p 1 p 1 2 p 1 p 1 • 设 p
p E 2 ( n) E [ s ( n) ai s ( n i )]2 i 1
(3-75)
• 为使E{ε2(n)}最小,对aj求偏导,并令其为零,有:
p E [ s ( n) ai s (n i )]s ( n j ) 0, j 1,..., p (3-76) i 1 p E [ s ( n) ai s (n i )]s (n j ) • 上式表明采用最佳预测系数时,预测误差ε(n)与过去的语音 i 1
i 1
• 这样,将参数解卷问题归结为估计预测器阶数p和各个系数 i 的过程。
• 可以证明,如果s(n)是由全极点模型产生的话,那么最佳预 测系数p=P,最佳预测系数 i i 1 ~ P 等于该全极点模型的 ˆ 参数。 • 如果模型阶数是已知的,那么可以设置预测阶数p=P。进一 步计算使均方预测误差达到最小时的一组预测系数,就可求 出模型参数。 • 如果模型阶数不确定,可以观察均方最小预测误差随p的变 化规律,确定阶数P。 • 对于语音信号而言,P=8~12就可以对绝大多数语音信号的声 道模型取得足够近似的逼近,P值选得过大尽管可以稍微改 善逼近效果,但是会大大增加计算量,并受有限字长影响使 得参数估计效果变差。 在确定了p=P以后,下面推导最佳预测系数。
样点正交。由于语音信号的短时平稳性,要分帧处理(10p E sn m sn m j ai sn ( m i ) sn ( m j ) 30ms),对于一帧从n时刻开窗选取的N个样点的语音段Sn,记 i 1 Φn(j,i)为 p snj i) E n (m ansn ( m i ) sn ((3-77) ( , m j { E j ) s i (m i)} s E sn m n m j)
p R p t r
1p 1 p 1 p r 2 rp . Rn p 1 Rn 0 p 1 p 1
传输函数为:
H ( z) S ( z) E( z) G 1 ai z i
i 1 p
G A( z )
• 式中,p是预测器阶数, i 是预测器系数,实数,G是声 道滤波器增益,用于控制系统输出序列的幅度大小。 • 由此,语音抽样s(n)和激励信号e(n)之间的关系可用下列的 差分方程来表示: p s n Ge n i s n i
• 这种方程叫Yule-Wslker方程,方程左边的矩阵称为托普利
兹(Toeplitz)矩阵,它是以主对角线对称的、而且其沿着主对 角线平行方向的各轴向的元素值都相等。这种Yule-Wslker 方程可用莱文逊-杜宾(Levinson—Durbin)递推算法来高效地 求解。下面介绍Durbin快速递推算法。
n
• 因此有:
a R (| i j |) R ( j ), j 1,..., p
i 1 i n
p
• 把上式展开写成矩阵形式:
Rn (1) Rn (0) R (1) Rn (0) n Rn ( p 1) Rn ( p 2) Rn ( p 1) a1 Rn (1) Rn ( p 2) a2 Rn (2) Rn (0) a p Rn ( p)
1 1 z 1 2 2 3 3 1 z z z ...
1
• 2) 对全极点模型做参数估计是对线性方程的求解过程,而若 模型中含有有限个零点,则是解非线性方程组,实现起来非
常困难。 • 3)有时无法知道输入序列
• 采用全极点模型,辐射、声道以及声门激励的组合谱效应的
i 1 n j , 0 ij) j ( j ,0), j 1,..., p ai n ( , i n , i n 0
p i 1
i 1 p
• 则有:
(3-78)
• 利用公式(3-76),可得最小 均方预测误差为
p 2 E s n i s n s n i i 1
• 而且能够提供一个非常好的声道模型。
• LP分析还能够对共振峰、功率谱等语音参数进行精确估 计,LP分析得到的参数可以作为语音识别的重要参数之 一。
§3.6.1 线性预分析的基本原理
根据语音信号的产生模型,系统的输入e(n)是语音激励,s(n)是 输出语音,即语音信号S(z)是激励信号E(z)通过一个线性时不变 因果稳定系统H(z)产生的输出,在时域上表现为e(n)和h(n)的卷 积。由s(n)求取e(n)和h(n)的算法称为解卷算法。(同态处理是 一种方法)
线性预测分析的基本思想是:用过去p个样点值来预测现在或
未来的样点值: s (n) ˆ ai s(n i)
i 1
p
ˆ 预测误差ε(n)为: (n) s(n) s (n) s(n) ai s(n i )
p
• 这样就可通过在某个准则下使预测误差ε(n)达到最小值的方 法来决定惟一的一组线性预测系数ai(i=1,2,…,p)。
将上式分为上、下两部分运算,相应的运算式为
1p 1 p 1 p t 2 p 1 p p 1 p p r p 1 Rn 0 Rn p 1 R p 1 r r p 1 p 1 p p
中的i代表p阶全极
点模型系数标号。这样,对于p+1阶模型参数的估值,则有 p R r p R p 1 p 1 r p 1 R p 1 t r p Rn 0 p p t p p r 列矢量的倒置, r 是 r 列矢量的转置。 其中, r 是
• 下面推导线性预测方程。把某一帧内的短时平均预测误差定 p 义为: 2 2 E ( n) E [ s ( n) ai s ( n i )]
E • 显然, 2 (n)越接近于零,线性预测的准确度在均方误差最 小的意义上为最佳。 • 对于一个特定的语音序列 E 2 (n) 取决于预测阶数p和线性预 测系数 i 。 • 如果能够找到特定的阶数和系数,使得预测误差最小,这这 组预测器系数称为最佳预测系数。
• 如果把上面的矩阵形式
p
R p p r p
p
• 求解 i 就是对自相关矩阵 R 求逆。一般Toeplitz矩阵 R p • 是非奇异矩阵,它的逆矩阵存在,则
R R p I 1 p R p r p
p 1
• 在上面的公式中,上标p代表阶数; i
p
• 在信号分析中,模型的建立实际上是由信号来估计模型的参
i 1
数的过程。因为信号是实际客观存在的,用模型表示它不可 能是完全精确的,总是存在误差。且极点阶数p无法事先确 定,可能选的过大或者过小,况且信号是时变的。因此求解 模型参数的过程是一个逼近过程。
• 采用线性预测分析不仅能够得到语音信号的预测波形
Rn ( j ) s (n) s (n j ), j 1,..., p
n j N ห้องสมุดไป่ตู้1
• 自相关函数是偶函数,且 Rn j i 关。因此,可以定义Φn(j,i)为
n ( j, i)
N 1|i j | m 0
的大小只与j-i的值有
sn (m) sn (m i j ) Rn (| i j |)
型,模型的输出只取决于过去的信号值,称为自回归模型;
• 3)如果上式中分母多项式为1,即ai=0,H(z)为全零点模型, 称为滑动平均模型。该模型的输出只由模型的输入来决定。
• 实际上语音信号处理中最常用的是全极点模型,这是因为:
• 1)如果不考虑鼻音和摩擦音,那么语音的声道传递函数就是 一个全极点模型;对于鼻音和摩擦音,细致的声学理论表明, 其声道传递函数既有零点也有极点,但这时如果模型的阶数p 足够高,可以用全极点模型来近似表示零极点模型,因为一 个零点可以用许多极点来近似,即
1 语音信号的线性预测分析 2 语音信号的小波分析
§3.6 语音信号的线性预测分析
• 线性预测分析是语音处理的核心技术,几乎普遍地应用于语音信号处 理的各个方面。
• 线性预测分析的基本思想是:由于语音样点之间存在相关
性,所以可以用过去的样点值来预测现在或未来的样点值, 即一个语音的抽样能够用过去若干个语音抽样或它们的线 性组合来逼近。通过使实际语音抽样和线性预测抽样之间 的误差在某个准则下达到最小值来决定唯一的一组预测系 数。而这组预测系数就反映了语音信号的特性,可以作为 语音信号特征参数用于语音识别、语音合成等。