数字语音处理知识点总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
绪论
语音信号处理是一门新兴的边缘学科,它是语音学与数字信号处理两个学科相结合的产物。
语音信号处理的目的是要得到某种语音特征参数以便高效地传输或存储,或者是通过某种处理运算以达到某种用途的要求。
通常认为,语音信息的交换大致上可以分为三类:(1)人与人之间的语言通信:包括语音压缩与编码、语音增强等。(2)第一类人机语言通信问题,指的是机器讲话、人听话的研究,即语音合成。(3)第二类人际语言通信问题,指的是人讲话、机器听话的情况,即语音识别和理解。
自20世纪80年代末期至今,语音合成技术又有了新的进展,特别是1990年提出的基音同步叠加(PSOLA)方法,使基于时域波形拼接方法合成的语音的音色和自然度大大提高。
语音编码的目的就是在保证一定语音质量的前提下,尽可能降低编码比特率,以节省频率资源。
语音编码技术主要有两个努力方向:一是中低速率的语音编码的实用化及如何在实用化过程中进一步提高其抗干扰、抗噪声能力,另一个是如何进一步降低其编码速率。
语音信号的数字模型
人类的语音是由人的发声器官在大脑的控制下的生理运动产生的,人的发声器官由3部分组成:(1)肺和气管产生气源,(2)喉和声带组成声门,(3)由咽腔、口腔、鼻腔组成声道。
肺的发声功能主要是产生压缩气体,通过气管传送到声音生成系统,气管连接着肺和喉,它是肺与声道联系的通道。响度——这是频率和强度级的函数,通常用响度(单位为宋)和响度级(单位为方)来表示。
人耳刚刚能听到的声音强度,称为“听阈”,此时响度级定为零方。
响度与响度级是有区别的,60方响度级比30方响度级的声音要响,但没有响了一倍。响度是刻划数量关系的,2宋响度要比1宋响度的声音响一倍,1宋响度被定义为1kHz纯音在声响级为40dB时(声强为10^-12W/cm^2)的响度。
音高也称基音,物理单位为赫兹,主观感觉的音高单位是美(Mel),当声强级为40dB(或响度级为40方)、频率为1kHz 时,设定的音高为1000美。由发声机理模型图可知,语音生成系统
包含三部分,由声门产生的激励函数
G(z)、由声道产生的调制函数V(z)和
由嘴唇产生的辐射函数R(z)。语音生成
系统的传统函数由这三个函数级联而
成,即:H(z)=G(z)V(z)R(z)
发浊音时,由于声门不断开启和关闭,
产生间隙的脉冲。经仪器测试它类似于
斜三角形的脉冲,也就是说,这时的激
励波是一个以基音为周期的斜三角脉冲
串。
G(z)=
典型的声道模型有两种,即无损声管模
型和共振峰模型,通过两种方法得到的
数字模型本质上没有区别。
当声波通过声道时,受到声腔共振的影
响,在某些频率附近形成谐振,反映在
信号频谱图上,在谐振频率处其谱线包
络产生峰值,一般把它叫做共振峰。
下面的图为浊音的频谱图,具有明显的
蜂起,即为共振峰,一般元音可以有3~5
个共振峰。
例如对成人声道L=17cm长,其共振频
率计算公式为Fi=c(2i-1)/4L i=1,2,3, (i)
共振频率的序号,c=340m/s为声速。
根据随即过程理论,一个零点可以用若
干极点来近似,因此,适当选取极点个
数P,可以用全极点模型即AR(p)过
程来表达语音信号:
H(z)=
语音信号产生的二次元激励模型:
语音信号的短时时域分析
有了语音数据文件后,对语音的预处理
包括:预加重和加窗分帧等。
对输入的数字语音信号进行预加重,其
目的是为了对语音的高频部分进行加
重,去除口唇辐射的影响,增加语音的
高频分辨率,一般通过传递函数为
H(z)=1-αz^-1的一阶FIR高通数字滤波
器来实现预加重,其中,α为预加重系
数,0.9<α<1.0。
进行预加重数字滤波处理后,接下来进
行加床分帧处理。
由于发声器官的惯性运动,可以认为在
一小段时间里(一般为10~30ms)语音
信号近似不变,即语音信号具有短时平
稳性,这样,可以把语音信号分为一些
短段(称为分析帧)来进行处理。
矩形窗的主瓣宽度小于汉明窗,具有较
高的频谱分辨率,但是矩形窗的旁瓣峰
值较大,因此其频谱泄露比较严重,相
比较,虽然汉明窗的主瓣宽度较宽,约
大于矩形窗一倍,但是它的旁瓣衰减较
大,具有更平滑的低通特性。
在确定窗函数后,对语音信号的分帧处
理,实际上就是对各帧进行某种变换或
运算,设这种变换或运算用T[ ]表示,x(n)
为输入语音信号,ω(n)为窗序列,h(n)
是与ω(n)有关的滤波器,则各帧经处
理后的输出可以表示为
Qn=
常见的几种短时处理方法:
1.T[x(m)]=x^2(m),h(n)=ω^2(n),Qn对
应于能量。
2.T[x(m)]=|sgn[x(m)]-sgn[x(m-1)]|,h(n)=
ω(n),Qn对应于平均过零率。
3.T[x(m)]=x(m)x(m+k),h(n)=ω(n)ω
(n+k),Qn对应于自相关函数。
定义n时刻某语言信号的短时平均能量
En为:
短时能量的一个主要问题是En对信号电
平值过于敏感,由于需要计算信号样值
的平方和,在定点实现时很容易产生溢
出,为了克服这个缺点,可以定义一个
短时平均幅度函数Mn来衡量语音幅度
的变化。
短时平均过零率是语音信号时域分析中
的一种特征参数,它是指每帧内信号通
过零值的次数。
因此在统计一帧(N点)的短时平均过
零率时,求和后必须要除以2N,这样就
可以将窗函数ω(n)表示为:
短时平均过零率可以用于语音信号清、
浊音的判断,语音产生模型表明,由于
声门波引起了谱的高频跌落,所以浊音
语音能量约集中在3kHz一下,但对于清
音语音,多数能量却是出现在较高的频
率上,所以,如果过零率高,语音信号
就是清音,如果过零率低,语音信号就
是浊音,但有的音,位于浊音和清音的
重叠部分,这时,只根据短时平均过零
率就不可能来明确地判断清、浊音。
自相关函数用于衡量信号自身时间波形
的相似性。
浊音的时间波形呈现出一定的周期性,
波形之间相似性较好,清音的时间波形
呈现出随机噪声的特性,杂乱无章,样
点间的相似性较差。
窗长对浊音的短时自相关有着直接的影