数字语音处理知识点总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
绪论
语音信号处理是一门新兴的边缘学科,它是语音学与数字信号处理两个学科相结合的产物。
语音信号处理的目的是要得到某种语音特征参数以便高效地传输或存储,或者是通过某种处理运算以达到某种用途的要求。
通常认为,语音信息的交换大致上可以分为三类:(1)人与人之间的语言通信:包括语音压缩与编码、语音增强等。
(2)第一类人机语言通信问题,指的是机器讲话、人听话的研究,即语音合成。
(3)第二类人际语言通信问题,指的是人讲话、机器听话的情况,即语音识别和理解。
自20世纪80年代末期至今,语音合成技术又有了新的进展,特别是1990年提出的基音同步叠加(PSOLA)方法,使基于时域波形拼接方法合成的语音的音色和自然度大大提高。
语音编码的目的就是在保证一定语音质量的前提下,尽可能降低编码比特率,以节省频率资源。
语音编码技术主要有两个努力方向:一是中低速率的语音编码的实用化及如何在实用化过程中进一步提高其抗干扰、抗噪声能力,另一个是如何进一步降低其编码速率。
语音信号的数字模型
人类的语音是由人的发声器官在大脑的控制下的生理运动产生的,人的发声器官由3部分组成:(1)肺和气管产生气源,(2)喉和声带组成声门,(3)由咽腔、口腔、鼻腔组成声道。
肺的发声功能主要是产生压缩气体,通过气管传送到声音生成系统,气管连接着肺和喉,它是肺与声道联系的通道。
响度——这是频率和强度级的函数,通常用响度(单位为宋)和响度级(单位为方)来表示。
人耳刚刚能听到的声音强度,称为“听阈”,此时响度级定为零方。
响度与响度级是有区别的,60方响度级比30方响度级的声音要响,但没有响了一倍。
响度是刻划数量关系的,2宋响度要比1宋响度的声音响一倍,1宋响度被定义为1kHz纯音在声响级为40dB时(声强为10^-12W/cm^2)的响度。
音高也称基音,物理单位为赫兹,主观感觉的音高单位是美(Mel),当声强级为40dB(或响度级为40方)、频率为1kHz 时,设定的音高为1000美。
由发声机理模型图可知,语音生成系统
包含三部分,由声门产生的激励函数
G(z)、由声道产生的调制函数V(z)和
由嘴唇产生的辐射函数R(z)。
语音生成
系统的传统函数由这三个函数级联而
成,即:H(z)=G(z)V(z)R(z)
发浊音时,由于声门不断开启和关闭,
产生间隙的脉冲。
经仪器测试它类似于
斜三角形的脉冲,也就是说,这时的激
励波是一个以基音为周期的斜三角脉冲
串。
G(z)=
典型的声道模型有两种,即无损声管模
型和共振峰模型,通过两种方法得到的
数字模型本质上没有区别。
当声波通过声道时,受到声腔共振的影
响,在某些频率附近形成谐振,反映在
信号频谱图上,在谐振频率处其谱线包
络产生峰值,一般把它叫做共振峰。
下面的图为浊音的频谱图,具有明显的
蜂起,即为共振峰,一般元音可以有3~5
个共振峰。
例如对成人声道L=17cm长,其共振频
率计算公式为Fi=c(2i-1)/4L i=1,2,3, (i)
共振频率的序号,c=340m/s为声速。
根据随即过程理论,一个零点可以用若
干极点来近似,因此,适当选取极点个
数P,可以用全极点模型即AR(p)过
程来表达语音信号:
H(z)=
语音信号产生的二次元激励模型:
语音信号的短时时域分析
有了语音数据文件后,对语音的预处理
包括:预加重和加窗分帧等。
对输入的数字语音信号进行预加重,其
目的是为了对语音的高频部分进行加
重,去除口唇辐射的影响,增加语音的
高频分辨率,一般通过传递函数为
H(z)=1-αz^-1的一阶FIR高通数字滤波
器来实现预加重,其中,α为预加重系
数,0.9<α<1.0。
进行预加重数字滤波处理后,接下来进
行加床分帧处理。
由于发声器官的惯性运动,可以认为在
一小段时间里(一般为10~30ms)语音
信号近似不变,即语音信号具有短时平
稳性,这样,可以把语音信号分为一些
短段(称为分析帧)来进行处理。
矩形窗的主瓣宽度小于汉明窗,具有较
高的频谱分辨率,但是矩形窗的旁瓣峰
值较大,因此其频谱泄露比较严重,相
比较,虽然汉明窗的主瓣宽度较宽,约
大于矩形窗一倍,但是它的旁瓣衰减较
大,具有更平滑的低通特性。
在确定窗函数后,对语音信号的分帧处
理,实际上就是对各帧进行某种变换或
运算,设这种变换或运算用T[ ]表示,x(n)
为输入语音信号,ω(n)为窗序列,h(n)
是与ω(n)有关的滤波器,则各帧经处
理后的输出可以表示为
Qn=
常见的几种短时处理方法:
1.T[x(m)]=x^2(m),h(n)=ω^2(n),Qn对
应于能量。
2.T[x(m)]=|sgn[x(m)]-sgn[x(m-1)]|,h(n)=
ω(n),Qn对应于平均过零率。
3.T[x(m)]=x(m)x(m+k),h(n)=ω(n)ω
(n+k),Qn对应于自相关函数。
定义n时刻某语言信号的短时平均能量
En为:
短时能量的一个主要问题是En对信号电
平值过于敏感,由于需要计算信号样值
的平方和,在定点实现时很容易产生溢
出,为了克服这个缺点,可以定义一个
短时平均幅度函数Mn来衡量语音幅度
的变化。
短时平均过零率是语音信号时域分析中
的一种特征参数,它是指每帧内信号通
过零值的次数。
因此在统计一帧(N点)的短时平均过
零率时,求和后必须要除以2N,这样就
可以将窗函数ω(n)表示为:
短时平均过零率可以用于语音信号清、
浊音的判断,语音产生模型表明,由于
声门波引起了谱的高频跌落,所以浊音
语音能量约集中在3kHz一下,但对于清
音语音,多数能量却是出现在较高的频
率上,所以,如果过零率高,语音信号
就是清音,如果过零率低,语音信号就
是浊音,但有的音,位于浊音和清音的
重叠部分,这时,只根据短时平均过零
率就不可能来明确地判断清、浊音。
自相关函数用于衡量信号自身时间波形
的相似性。
浊音的时间波形呈现出一定的周期性,
波形之间相似性较好,清音的时间波形
呈现出随机噪声的特性,杂乱无章,样
点间的相似性较差。
窗长对浊音的短时自相关有着直接的影
响。
一方面,由于语音信号的特性是变化的,因此要求N应尽量小。
但是与之相矛盾的另一方面是为了充分反映语音的周期性,又必须选择足够宽的窗,以使得选出的语音段包含两个以上的基音周期,由于基音频率的分布在50~500Hz 的范围内,8kHz采样时对应于16~160点,那么窗长N的选择要求N≥320。
两级判决法采用双门限比较法。
1.第一级判决
①先根据语音短时能量的轮廓选取一个较高的门限T1,进行一次粗判:语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外(即AB段之外)②根据背景噪声的平均能量确定一个较低的门限T2,并从A点往左,从B点往右搜索,分别找到短时能量包络与门限T2相交的两个点C和D,于是CD段就是用双门限方法根据短时能量所判定的语音段。
2.第二级判决
以短时平均过零率为标准,从C点往左和从D点往右搜索,找到短时平均过零率低于某个门限T3的两点E和F,这便是语音段的起止点,门限T3是由背景噪声的平均过零率所确定的。
这里要注意,门限T2、T3都是由背景噪声特性确定的,因此,在进行起止点判决前,通常都要采集若干帧背景噪声并计算其平均短时能量和平均过零率,作为选择T2和T3的依据,当然,T1,T2,T3三个门限值的确定还应当通过多次试验。
基于MATLAB程序实现能量与过零率的端点检测算法步骤如下:
①语音信号x(n)进行分帧处理,每一帧记为si(n),n=1,2,3,……,N,n为离散语音信号时间序列,N为帧长,i表示帧数。
②计算每一帧语音的短时能量,得到语音的短时帧能量:Ei=
③计算每一帧的语音的过零率,得到短时帧过零率:Zi=
其中:
④考察语音的平均能量设置一个较高的门限T1,用以确定语音的开始,然后再根据背景噪声的平均能量确定一个稍低的门限T2,用以确定第一级中的语音结束点,T2=α1En,En为噪声段能量的平均值,完成第一级判决,第二级判决同样根据背景噪声的平均过零率Zn,设置一个门限T3,用于判断语音前端的清音
和后端的尾音,α1,β2为经过大量实
验得到的经验值。
语音信号的短时频域分析
当N固定时,它们就是序列[ω
(n-m)x(n)](−∞≤m≤+∞)的傅里叶变换
或离散傅里叶变换。
当ω或k固定时,
它们就是一个卷积,这相当于滤波器的
运算,因此,语音信号的短时频域分析
可以解释为傅里叶变换或滤波器。
采用矩形窗时,基音谐波的各个峰都比
较尖锐,且整个频谱图显得比较破碎(类
似于噪声),这是因为矩形窗的主瓣较
窄,具有较高的频谱分辨率,但它也具
有较高的旁瓣,因而使基音的相邻谐波
之间的干扰比较严重。
在相邻谐波间隔
内有时叠加、有时抵消,出现了一种随
机变化的现象,相邻谐波之间的这种严
重“泄露”的现象,抵消了矩形窗主瓣
窄的优点。
综上所述,关于短时谱和移动窗可以得
出以下结论:
①长窗具有较高的频谱分辨率,较低的
时间分辨率,从一个基音周期到另一个
基音周期,共振峰是要发生变化的,这
一点即使从语音波形上也能够看出来,
然而如果采用较长的窗,这种变化便被
模糊了,因为长窗起到了时间上的平均
作用。
②短窗具有较低的频率分辨率,较高的
时间分辨率,采用矩形窗时,能够从短
时频谱中提取出共振峰从一个基音周期
到另一个基音周期所发生的变化,当然,
激励源的谐波的细致结构也从短时频谱
图上消失了。
③窗宽的选择需要这种考虑,短窗具有
较好的时间分辨率,能够提取出语音信
号中的短时变化(这常常是分析的目
的),折损了频谱分辨率。
但应注意到,
语音信号的基因周期提取范围很大。
因
此,窗宽的选择应当考虑这个因素。
④矩形窗和汉明窗的频谱特性都具有低
通的性质,在截止频率处都比较尖锐,
当其通带都比较窄时(窗越宽,通带越
窄),加窗后得到的频谱能够很好的逼近
短时语音信号的频谱,窗越宽,逼近效
果越好。
要求线性滤波器近似为一个窄带低通滤
波器。
因此可知,若使用汉明窗,近似
带宽为:
其中,Fs是信号x(n)的采样率,因此,
在时间域内要求的采样率为
信号x(n)ω(n-m)的带宽等于N个采样。
的总采样率(SR)等于:
SR=2B·N(采样/秒)
语音信号的同态处理
通过模仿普通线性系统的叠加原理,我
们能定义一类系统,它服从广义叠加原
理,其中加法可由卷积代替,即有:
H[x(n)]=H[x1(n)*x2(n)]=H[x1(n)]*H[x2(n
)]=y1(n)*y2(n)=y(n)。
因此如果一个系统具有上式所表示的性
质,则称为“卷积同态系统”。
卷积同态系统的典范表示如图所示,它
由三部分组成:特征系统D*[ ]、线性系
统L及逆特征系统
第一部分为特征系统D*[ ],其输入是若
干信号的卷积组合,而输出是若干信号
的加法组合。
第二部分是普通的线性系统,它服从一
般的叠加原理。
第三部分是特征系统D*[ ]的逆系统,它
将信号的加法组合变换回卷积组合。
卷积同态系统的典范表示:
则上式即为信号x(n)的复倒谱的定
义。
倒频谱c(n)为实倒谱,简称为倒谱,即:
复倒谱的重要性质:
1.即使x(n)可以满足因果性,稳定性甚至
持续期有限的条件,一般而言复倒谱也
是非零的,而且在正负n两个方向上都
是无限伸展的。
2.复倒谱是一个有界衰减序列,其界限是
其中,α是的最大绝对
值,而β是一个常数。
3.如果X(z)在单位圆外无极点和零点
(即),则有:
这种信号称为“最小相位”信号,有一个通用的结论:这种序列完全可以用它们的傅里叶变换的实部来表示。
4.对于X(n)在单位圆内没有极点或零点的情形,可以得到与此类似的结论,这种信号称为“最大相位”信号,在此情况下有:
5.如果输入信号为一串冲击信号,它具有如下形式
因而可以容易看出,复倒谱只在Np的各整数倍点上不为零,这意味着也是一个间隔为Np的冲击串。
(浊音信号的激励串在时域和复倒谱域都是周期为Np的脉冲串)
最小相位信号法:是解决相位卷绕的一种比较好的方法,但它有一个限制条件,即被处理的信号x(n)必须是最小相位信号。
实际上许多信号就是最小相位信号,或可以看做最小相位信号。
如果x(n)是最小相位信号,则N(n)和D(n)的所有根均在z平面的单位圆内,同时,由上式可知,此时nx(n)的z变换的所有极点【即上式分母N(z)D(z)的根】也均位于z平面的单位圆内。
这表明,若x(n)是最小相位信号,则必然是稳定的因果序列。
另外,由Hilbert变换的性质可知,任一因果的复倒谱序列都可以分解为偶对称分量和奇对称分量之和。
一个因果序列可由其偶对称分量来恢复,如果引入一个辅导银子g(n),则:
最小相位法求复倒谱的原理框图:对浊音来说,它的激励脉冲串在时域和
复倒谱域都是间隔为Np的周期性冲激
串,在时域的脉冲串与是相卷积的
关系,各周期之间常常存在混叠,无法
把从信号s(n)中很好的分离出来。
但
是,在复倒谱域冲激串与是相加关
系,采用宽度小于Np的复倒谱窗,就可
以去掉激励脉冲,得到的良好估值,
再把它通过逆特征系统就可以求得,
实现解卷。
因此这里倒谱窗定义为:
如果要保留激励分量,选择倒谱窗l(n)
为:
其中<Np。
倒谱窗在对数幅度谱域起
平滑作用。
语音信号线性预测分析
作为最有效的语音分析技术之一,线性
预测分析的基本思想是:一个语音取样
的现在值可以用若干个语音取样过去值
的加权线性组合来逼近。
在线性组合中
的加权系数成为预测器系数,通过使实
际语音抽样和线性预测抽样之间差值的
平方和达到最小值,能够决定唯一的一
组预测器系数。
为了保证在较好的语音编码质量前提
下,尽量减少编码速率,可设法减小编
码器输入信号的动态范围,线性预测编
码就是利用过于的样值对新样值进行预
测,然后将样值的实际值与其预测值相
减得到一个误差信号,显然误差信号的
动态范围远小于原始语音信号的动态范
围,对误差信号进行量化编码,可大大
减少量化所需的比特数,使编码速率降
低。
设为s(n)的预测值,则有:
上式成为线性预测器,预测器的阶数为p
阶,p阶线性预测器的传递函数为
可见,预测误差e(n)是信号,s(n)通过具
有如下传递函数的系统输出
如图所示,称系统A(z)为LPC误差滤
波器,设计预测误差滤波器A(z)就是求
解预测系数a1,a2,……ap,使得预测
器的误差e( n)在某个预定的准则下最
小,这个过程称为LPC分析。
线性预测的基本问题就是由语音信号直
接求出一组预测系数a1,a2,……ap,
这组预测系数就是被看做语音产生模型
中系统函数H(z)的参数,它使得在一短
段语音波形中均方预测误差最小,理论
上常用的是均方误差的最小准
则,E[·]表示对财务查的平方求数学期
望或平均值。
LPC误差滤波器:
预测误差与信号的过去p个取样值是正
交的,成为正交函数。
语音信号模型:参数有清、浊音判决,
浊语音的基因周期、增益常数G及数字
时变滤波器系数a1,a2,……ap,这些
参数是随时间缓慢变化的。
按其有理式不同,有如下3种信号模型:
①自回归华东平均模型(ARMA模型),
这种模型H(z)既有极点又有零点,是一
种一般的模型,此时模型输出s(n)可由信
号的过去值s(n-i),i=0,1,……,q来预
测得到。
②自回归信号模型(AR模型),此时H
(z)只有极点没有零点,模型输出s(n)只由过去的信号值s(n-i),i=0,1,……,p线性组合来得到。
③滑动平均模型(MA模型),此时H(z)只有零点没有极点,模型输出s(n)只由模型的输入u(n-l),l=0,1……,q线性组合来确定。
由声学理论可知,除了鼻音和摩擦音时变声道系统H(z)需用零极点模型ARMA 来模拟,其他的语音均可用全极点AR 模型来模拟。
特普利兹矩阵(自相关求解式):
经典的方法有两种:
一种是自相关法,该方法假定语音信号序列s(n)在间隔0≤n≤N-1以外为0;这相当于用窗函数从语音序列中截取出选定的序列部分,截取出的序列记为s(0),s(1),…s(N-1)。
另一种是协方差法,该方法不规定语音信号序列s(n)的长度范围,但是
中n的范围为0≤n≤N-1,这样相当于在此范围内估算R(k)所需要的s(n)是存在的。
此外,协方差法需要确定的是信号序列之间的互相关函数,由此组成的协方差方程组系数矩阵已经不具备有Toeplitz矩阵的性质,因此其方程的求解不同于自相关法。
由于不需要加窗,协方差法计算精度较自相关法大大提高,但是由于协方差法不具有自相关法系统稳定性的条件,因此在进行线性预测的时候,必须随时判定H(z)的极点位置,并加以修正,才能得到稳定的结果。
利用对称Toeplitz矩阵的性质,自相关求解式可用莱文森-杜兵递推算法求解。
下面对LSP参数的特性归纳如下:
①LSP参数都在单位圆上且满足降序排列的特性。
②与LSP参数对应的LSF都满足升序排列的顺序特性,且P(z)和Q(z)的根相互交替出现,这可使与LSP参数对应的LPC滤波器的稳定性得到保证。
因为它保证了在单位圆上,任何时候P(z)和Q(z)不可能同时为零。
③LPS参数都具有相对独立的性质,如果某个特定的LSP参数中只移动其中任何一个线谱频率ωi的位置,那么它所对应的频谱只在ωi附近与原始语音频谱有差异,而在其他LSP频率上则变化很小,这一特性有利于LSP参数的量化和
内插,在对LSP参数进行量化矢量时可
以把码本分裂为几个低维矢量分别进
行,这样不仅大大减少搜索量、存储量
和训练量,又可以使整体质量得以保证。
④LSP参数能够反映声道幅度谱的特点,
在幅度大的地方分布较密,反之较疏。
这样就相当于反映出了幅度谱中的共振
峰特性,因为按照线性预测分析的原理,
语音信号的谱特性可以由LPC模型谱来
估计。
⑤相邻帧LSP参数之间都具有较强的相
关性,便于语音编码时帧间参数的内插。
P(z)和Q(z)的根在单位圆上的分布图:
矢量量化
矢量量化的理论基础是香农的率—失真
理论。
率—失真函数R(D)定义为:在
给定的失真D条件下,所能够达到的最
小速率(用每维计算)。
率—失真理论指出,利用矢量量化,编
码性能有可能任一接近率—失真函数,
其方法是增加维数k。
通常把所有N个量化矢量(重构矢量或
恢复矢量)构成的集合{Yi}称为码书或
码本。
码书中的矢量成为码字或码矢。
根据上面对量化矢量的描述,我们可以
把量化矢量定义为:
量化矢量是把一个K维模拟矢量
映射为另一个k维量化矢量,其数学表
达式为:Y=Q(X)
式中:X——输入矢量。
——信源空间。
——k维欧氏空间。
Y——量化矢
量。
——输出空间(码字)。
Q(·)—
—量化符号。
N——码书的大小(即码字
的数目)
矢量量化系统通常可以分解为两个映射
的乘积:Q=αβ。
式中,α是编码器,
它是将输入矢量映射为信号符
号集中的一个
元,β是译码器,它是将信道符号
映射为码书中的一个码字Yi,即:
常用的失真测度有如下几种:
①平方失真测度:
②绝对误差失真测度:
此失真测度的主要优点是计算简单,硬
件容易实现。
③加权平方失真测度:
式中:T——矩阵转置符号,W——正定
加权矩阵。
矢量量化原理框图
矢量量化是一种高效的数据压缩技术,
和其他数据压缩技术一样,它除了有失
真以外,还有一个传输速率的问题,即
每一个样值(每维)平均编码所需的比
特数。
矢量量化器的速率定义为:
其中B=log 表示每一个码字的编码
比特数。
N——码书的大小。
K——维数。
信道中传速速率与矢量量化器速率r
的关系为:
式中:为抽样速率。
语音编码
可变速率编码是近年来出现的新技术,
根据统计,两方通话大约只有40%的时
间是真正有声音的,因此一个自然的想
法是采用通、断状态编码。
通状态对应
有声期,采用固定编码速率,断状态对
应无声期,转送极低速率信息(如背景
噪声特征等),甚至不传送任何信息。
可变速率编码主要包括两个算法:一是
语音激活检测(V AD),主要用于确定输
入信号是语音还是背景噪声,其难点在于正确识别出语音段的开始点,确保语音的可懂性,二是舒适噪声的生成(CNG),主要是用于接收端重建背景噪声,其设计必须保证发送端和接收端的同步。
语音质量主观评价方法:
在数字通信中,通常认为MOS分4.0~4.5分为高质量语音通信,达到长途电话网的质量要求,也常称之为网络质量,MOS 评分在3.5分左右时成为通信质量,这时能感觉到重建语音质量有所下降,但是不妨碍正常通话。
MOS评分在3.0分以下的常称合成语音质量,这是指一些声码器合成的语音所能达到的质量,它一般具有足够高的可懂性,但自然度及讲话人的确认等方面不够好。