语音信号处理复习题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支?
它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。
1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段?
语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。人的说话过程如图2-1所示,可以分为五个阶段:
(1)想说阶段:
(2)说出阶段:
(3)传送阶段:
(4)接收阶段:
(5)理解阶段:
3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况?
声道的数学模型有两种观点:
1)声管模型
将声道看为由多个不同截面积的管子串联而成的系统。在“短时”期间,声道可表示为形状稳定的管道。
另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。
共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。
(1)级联型声道模型
这时认为声道是一组串联的二阶谐振器。从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联:
N=10,M=5时的声道模型如下图所示:
(2)并联型声道模型
对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下:
通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:
这就是并联型的共振峰模型。如图2-21所示(M=5)。
(3)混合型声道模型
上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。采用并联结构的目的就在于此,它比级联型复杂些,每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。
22
12112cos(2)()12cos(2)k k k k B T B T
M
k B T
B T k k e F T e V z e
F T z e z ππ------=-+=-+∏∑∑=-=--=
N k k
k R
r r
r
z a z b
z V 1
1)(∑
=----=M
i i i i z C z B A z V 12
11)(
4、 请写出完整的语音信号数学模型的表示式。什么叫做预加重处理?为什么要进行这些处理?
完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。如图所示:
它的传输函数
)(z H 可表示为:
)()()()(z R z V z U A z H ⋅=
由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz 以上按6dB/倍频程(倍频程:若使每一频带的上限频率比下限频率高一倍,即频率之比为2,这样划分的每一频程称为1倍频程)跌落,所以求语音信号的频谱时,
频率越高相应的成分越小,高频部分的频谱比低频部分难求,要在预处理中进行预加重处理。
预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。
预加重一般在语音信号数字化后,参数分析之前用预加重数字滤波器来实现。
基音频率F 0 振幅A V
语音 s(n) 信号
振幅A U
冲激序列 发生器 声门脉冲 模型G (Z )
随机噪声
发声器
声道模型 V (Z ) 辐射模型 R (Z )
十倍频程-频率按照10⨯增加或按101x 减小,从10Hz 到100Hz 为一个十倍频程;倍频程-频率按2⨯增加或按2
1x 减小,从10Hz 到20Hz 为一个倍频程。
2倍频和10倍频是一回事
对于滤波或运放放大倍数来讲使用dB 来表示的,具体的公式是:
()()001w jw A w A +=,0w 是滤波器或运放的一个极点。
采用dB 表示时是
()w A log 20*,()w A 要取模,即()()0001w w w w sqrt A **+。
对于n 倍频(靠近0w 的频率不准确,n>0),0112
,*w w w n w ≥=(开方中的1可忽略)则有
()()()()()0022012*/*log *20log *20w w w w sqrt A w A w A -=-
()())*/*log(*20log *2000110w w w w sqrt A +-
()())*/*log(*100022w w w w -=
)*log(*10n n -=
这样,对于两倍频,12
2w w *=,则此时下降是
dB 64log *10-=-
当12
*10w w =时,
dB 20100log *10-=-
预加重数字滤波器一般是一阶的数字滤波器
()11--=z Z H μ,
μ值接近于1。
5、短时平均能量(短时平均幅值)和短时平均跨零数的定义。窗口函数的长度和形状对它们有什么影响?常用的有哪几种窗口?这两种时域参数的用途。
设第n 帧语音信号()m x n
的短时能量用n E 表示,则其计算公式如下:
()m x E N m n
n ∑-==1
02
短时平均幅度函数n M ,它定义为: