语音信号处理复习题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音信号处理复习题1 由下面的WAV文件读出语音的编码信息:
52 49 46 46 A4 9A 7B 01 57 41 56 45 66 6D 74 20 10 00 00 00 01 00 02 00 44 AC 00 00 10 B1 02 00 04 00 10 00 64 61 74 61 80 9A 7B 01 42 FF 35 FC E2 FE 07 00 E7 FE AF 03 5F FF 65 01.....................
176,400
04 004Block align =(0004) 16= 4
10 0016Bits/sample = (0010) 16= 16
编码(Code)内容(Contents)批注(Notes)
数据子区块
(data
sub_chunk)
64 61 74 61d a t a
80 9A 7B
01
24,877,696Size:(017B9A80) 16 = 24,877,696
42 FF 35 FC L= 65,346,R=
64,565
(FF42) 16= 65,346
(FC35) 16= 64,565
E2 FE 07 00L= 65,250,R= 7(FEE2) 16= 65,250 (0007) 16=
7
E7 FE AF 03L= 65,255,R=943(FEE7) 16= 65,255 (03AF) 16=
943
5F FF 65 01L= 65,375,R= 357(FF5F) 16= 65,375 (0165 ) 16=
357
2 画出语音信号的产生模型,简述语音的产生过程。
语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。
3 为生么语音信号要进行“短时”分析。
答:语音信号特性是随时间变化的,是一个非平稳的随机过程,但在一个短时间范围内其特性基本保持不变,即语音信号具有“短时平稳性”,因而可将语音信号看成准平稳过程,对其进行短时分析.
4 语音信号的时域分析方法有那些?
答:短时能量,短时平均过零率,短时自相关函数
5 语音信号频率范围是多少?
答:语音信号的频率大约在20Hz~20KHz。
6 什么是浊音的基音频率(F0)?男性、女性和儿童的F0大致分布在什么范围。
答:浊音的基音频率(F0):声带张开和闭合一次的时间的倒数。
由声带的尺寸、特性和声带所受张力决定。
F0的大小决定了声音的高低,称为音高。
男性的F0大致分布在:60-200Hz,女性和儿童的F0大致分布在:200-450Hz
7 可以认为多长的时间范围内,语音信号是平稳信号。
答:10-30ms
8 电话语音的采样率为8kHz;纯语音在进行计算机录入时,一般采样率在15kHz~20kHz
左右;音乐的采样率可以高达44kHz。
9 如何利用语音信号的时域分析方法进行清、浊判断。
答:1、短时能量分析依据:是基于语音信号幅度随时间变化》清音段幅度小,其能量集中高频段;浊音段幅度较大,其能量集中低频段;
2、平均幅度分析的依据:清音段幅度小,浊音段幅度较大。
3、短时平均过零率:浊音平均过零率低,集中在低频段;清音过零率高,集中在
高频段。
4、短时自相关函数:浊音语音的自相关函数具有一定的周期性;
清音语音的自相关函数不具有周期性,类似噪声,有点如语音信号本身
10 通过对语音信号进行分析,可以提取到那些特征参数(列举出三个以上)。
答:短时能量和短时平均幅度,短时平均过零率,短时自相关函数
11 人的发音器官包括那些。
答:人体发音器官—肺、气管、喉(包括声带)和声道。
12、傅立叶分析在信号处理中有什么意义?
答:1、它是分析线性系统和平稳信号和稳态信号特性的强有力手段。
2、以复指数函数为基函数的正交变换,理论完善,计算方便,概念容易理解。
3、傅里叶分析可以使信号的某些特性变得很明显。
语音信号的频谱具有非常明显的语
言学意义,可以获得重要的语音特征(如共振峰频率和带宽等),
13 文语转换系统(TTS)属于那种语音合成系统。
答:规则语音合成系统
14 语音的共振峰是如何形成的?
答:气流流过声道时犹如通过了一个具有某种谐振特性的腔体,放大某些频率,在频谱上形成相应位置的峰起,称为共振峰。
15 同态信号处理也称为同态滤波,画出同态滤波中特征系统框图
16 语音合成的分类及特点,举出一个语音信号参数合成的例子。
1、波形合成法
特点:简单/小词汇(报站器)
2、参数合成法
特点:可以合成大词汇(字典)
3、规则合成法
特点:实现难度较大
如TTS系统(文语转换系统)
17 画出实现语音信号时频语音增强功能的框图。
18 什么是语音信号的“短时”处理方法。
答:语音信号的能量是一种随时间变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音参数也都对时间变化,但这种变化时缓慢的,在一小段时间内10-30ms,语音信号近似不变。
于是,我们把变化的语音信号分成一些相继的段时间段来处理。
而每一段时间具有固定的特性,这种方法称为“短时”处理方法。
19 语音信号短时能量分析的用途
答:1、区分清音段与浊音段;2、区分声母和韵母;
3、在高信噪比下,区分无声与有声的分界;
4、区分连字的边界;
5、用于语音识别。
20 短时自相关函数的物理意义,性质,作用。
答:物理意义
确定两个信号在时域内的相似性,用于研究信号本身。
表示方法
序列经过一个冲激响应为h k(n)的数字滤波器滤波即得到短时自相关函数。
性质:
(1) 对称性R(k)= R(-k)
(2)在k = 0处为最大值,即对于所有k来说,|R(k)|≤R(0)
(3)对于确定信号,值R(0)对应于能量,而对于随机信号,R(0)对应于平均功率作用:
a.区分清/浊音
浊音语音的自相关函数具有一定的周期性。
清音语音的自相关函数不具周期性,类似噪声,与其本身相似。
b.估计浊音语音信号的周期,即估计基音周期。
21利用短时自相关函数进行语音分析时要注意的问题
()()()()m
n
h
k
m
x
m
x
k
R
m
k
n∑
+∞
-∞
=
-
-
=
22 语音信号傅里叶分析的作用(p41)
在语音信号处理中,傅立叶表示在传统上一直起主要作用。
其原因一方面在于稳态语音的产生模型由线性系统组成,此系统被一随时间作周期变化或随机变化的源所激励,因而系统输出频谱反映了激励与声道频率响应特性。
另一方面,语音信号的频谱具有非常明显的语言声学意义,可以获得某些重要的语音特征。
同时,语音的感知过程与人类听觉系统具有频谱分析功能是密切相关的
23 短时傅里叶变换的滤波器的解释。
24 取样率的基本概念
(1)时域取样率的基本概念。
(2)频域取样率的基本概念。
(3)总取样率的基本概念
25 从如下语音信号的短时谱中能得到什么信息?
答:1、快速变化,由激励信号引起的;2、慢速变化,声道滤波器的共振峰引起的;3、采用汉明窗得到的短时频谱较较矩形窗平滑。
26 倒谱分析的作用
答:(1)区分清/浊音
(2)求浊音的基音周期, 可以得到浊音的激励信号。
(3)得到声道的冲激响应h(n)
27 简述语音信号的特点,基频、共振峰是什么含义?
答:特点:语音一般由清音和浊音组成,语音信号具有短时平稳性。
基音频率:浊音的声带振动基本频率。
是声带张开和闭合一次时间的倒数。
共振峰:当元音激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。
共振峰为频谱中明显的几个凸起点,它的出现频率与声道
的谐振频率相对应。
28 线性预测的基本思想。
答:一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近。
通过时实际语音抽样和线性预测抽样之间差值的平方和(在一个有限间隔上)达到最小值,即进行最小均方误差的逼近,能够决定唯一的一组预测数据,而预测系数就是线性组合中所用的加权系数。
29 线性预测分析如何用于语音编码和语音合成。
答:编码:预测误差e(n)就是激励信号G*u(n),预测系数{ak}就是声道虑波器的系数{dk}.ak=dk,e(n)=G*u(n)线性预测分析可以对生成模型的增益参数G和滤波
器系数{dk}进行直接和高效率的计算。
合成:
30 简述矢量量化的过程。
答:(书上定义):将语音信号波形的K个样点的每一帧,或有K个参数的每一参数帧,构成K维空间中的一个矢量,然后对这个矢量进行量化。
(课件上说):当给矢量量化器输入一个任意矢量Xi进行矢量量化时,矢量量化器首先判断它属于哪个子空间,然后输出该子空间的代表矢量Yj.矢量量化过程就
是用Yj代替Xi的过程。
Yj=Q(Xi) 1<j<J 1<i<N
31 通常线性预测分析设定的模型是什么模型。
答:全级点模型。
32 什么是矢量的失真测度?常用的失真测度有哪些
答:失真测度(距离测度)就是将输入矢量Xi用码本重构矢量Yj来表征时所产生的误差或失真的度量方法,它可以描述两个或多个模型矢量之间的相似程度。
常用的失真测度为欧氏距离测度。
33 矢量量化器最佳设计的两个条件?
答:最佳划分,最佳码本
34 初始码书的生成方法
随机选取法:从训练序列中随机选取J个矢量作为初始码字,从而构成初始码本。
分裂法:
35 短时能量和短时过零率的的用途。
答:短时能量:1、区分清音段与浊音段;2、区分声母和韵母;3、在高信噪比下,区分无声与有声的分界;4、区分连字的边界;5、用于语音识别。
过零率:1、区分清音和浊音:浊音平均过零率低,集中在低频端;轻音过零率高,集中在高频端。
2、从背景噪声中找出是否有语音,以及语音的起点。
36 对语音信号进行处理时为什么要进行分帧。
答:语音信号短时平稳,要将语音信号划分为很多短时的语音段,而每个短时的语音段称为一个分析帧。
这样,对语音信号进行分针处理就相当于对特征固定的持续信号进行处理。
经过处理,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理来提取语音特征参数。
37 为什么端点检测有重要意义?
答:端点检测:从包含语音的一段信号中确定出语音的起点和终点。
有效的端点检测不仅能使处理的时间减到最小,而且能排除无声段的噪声干扰。
实验表明:端点检测的正确与否影响到识别率的高低。
语音端点检测的方法:短时能量和短时过零率。
38 什么叫LBG算法,怎样设计初始码本,并用来训练码本。
LBG算法是一种递推算法,从一个事先选定的初始码本开始迭代。
把训练序列按照码本中的元素根据最邻近准则分组,对每一分组找质心,得到新的码本,又作为初始码本,再进行分组,重复上述过程,直到系统性能满足要求和不再有明显的改进为止。
39 为什么说语音信号可以看成隐马尔科夫过程,隐马尔科夫过程有哪些模型参数。
HMM包含两个随机过程,三个概率矩阵,一个输出概率
答:隐马尔可夫模型:只能观察到输出符号序列(ab),而不能观测到状态之间如何转移(状态转移概率)和状态的分布(状态的概率)。
而语音信号是一个可观察的序列:它是由大脑中的思维(不可观测)及语言需要和语法知识(不可观测)所发出的参数流。
40 列举常用语音编码速率的值。
答:64kbit/s; PCM;32kbit/s; ADPCM;
4.8kbit/s; CELP; 2.4kbit/s; LPC声码器
41波形编码、参数编码与混合编码各有什么优缺点。
答:波形编码:话音质量高,编码速率高。
参数编码:编码速率低,自然度低,对环境噪声敏感。
混合编码:质量高和速率低.
42 在语音编码中,如何使用自适应技术。
答:利用自适应的思想改变量化间隔(量阶)的大小,即用小的量化间隔去编码小的差值,使用大的的量化间隔去编码大的差值
43 语音合成的目的是什么?它主要分为哪几类?比较它们的优缺点。
答:目的:让机器说话,达到一定的音质与可懂度(或产生与人类通信相关的语音)(1)、波形合成法。
优点:合成音质好;缺点:存储空间大。
(2)、参数合成法。
优点:存储空间小;缺点:合成音质较差。
(3)、规则合成法。
优点:可以合成无限词汇,存储量小;缺点:合成音质效果较差44在TTS系统中,如何进行语音合成中的韵律控制。
答:韵律特征包括声调、语气、停顿方式、发音长短等。
这些通过基频、音长、音强等参数来体现,通过控制这些参数达到对韵律控制。
包括基音同步帧周期的调整、合成语音幅度的调整、声调曲线的修正等。
预处理:语音信号的放大、防混叠滤波、自动增益控制、模数转换、消除噪声、端点检测。
语音特征参数包括:短时平均能量、短时过零率、频谱、三个共振峰频率(F1、F2、F3的频率值、带宽、幅值)、线性预测系数、LPC倒谱和Mel倒谱等。
模式匹配:将未知语音的特征参数与模板参数逐一进行比较与匹配,判决的依据是失真测度最小的准则。
专家知识库:用来存储各种语言学知识,如汉语声调变调规则、音长分布规则、同音字判别规则、构词规则、语法规则、语义规则等。
识别决策:是最后一步,也是系统识别效果的最终表现。
根据若干准则及专家知识,判决选出可能结果中最好的结果,由识别系统输出。
46 为什么语音识别时需要做时间规整?
答:语音信号具有很强的随机性,不同的发音习惯,发音时所处的环境不同,心情不同都会导致发音持续时间长短不一的现象。
如单词最后的声音带上一些拖音,或者带上一点呼
吸音,此时,由于拖音或呼吸音会被误认为一个音素,造成单词的端点检测不准,造成特征参数的变化,从而影响测度估计,降低识别率,因此在语音识别时,首先有必要对语音信号进行时间规整。
47 说话人识别的目的及分类。
答:目的:确认说话人(即证实说话的人是否是所要求的那个人)或者从某个已知的人群集合中辨认出那个说话人。
分类:说话人确认和说话人辨认。
主要用于身份的验证。
48 什么叫加性噪声和乘性噪声。
为什么加性噪声的处理是语音增强的基础。
答:按噪声和信号相关的性质可将噪声分为加性噪声和乘性噪声。
加性噪声是指噪声和信号相关性是加和关系;(如冲激噪声、周期噪声、宽带噪声等)
乘性噪声是指噪声和信号相关性是乘积关系;(如残响基传输网络的电路噪声)对加性噪声进行处理,从带噪声语音信号中提取尽可能的纯净的原始语音,改善语音质量提高语音可懂度,是语音增强的有效的基本方法。
工作过程:将含噪语音信号和有声、无声判别得到的纯噪声信号进行DFT变化,从含噪语音谱幅度的平方中减去纯噪声的谱幅度的平方,然后开方,得原始语音谱幅度的估值,在借用含噪语音的相位,进行IDFT变化,得到增强的语音。
50 参考:A律压扩编码实例:(课件第五章)LBG算法实例(课件第三章)
隐HMM模型求输出概率实例(课件第四章)
动态时间规正法(DTW)的计算实例(课件第七章)
51 声道冲激响应序列的复倒谱特点。
说明如何在语音信号的倒谱中分离出声道冲激响应,
得到声道冲激响应有何用途?
答:(1)h(n)为有限长实序列,则其复倒谱是双边实序列
(2)由于|ak|、|bk|、|ck|和|dk|均小于1,故复倒谱是衰减序列,随着n的增大而衰减。
(3)复倒谱衰减速度快,复倒谱比原来序列更集中于原点附近,具有短时性,用短时窗
函数提取声道响应序列的复倒谱是很有效的
(4)如果h(n)是最小相位序列,即bk=0和dk=0,则复倒谱序列为因果稳定序列。
因
此,最小相位序列的复倒谱是因果稳定序列。
52 简述LPC方程的建立过程,LPC系数与语音模型有什么关系?
预测误差e(n)就是激励信号G*u(n),
预测系数{ak}就是声道虑波器的系数{dk}.ak=dk,e(n)=G*u(n)
53 利用模式匹配法进行语音识别的步骤
答:先对系统中的每个字,做一个码本作为该字的参考(标准)模板,共有M个字,故共有M个码本,组成一个模板库。
识别时,对于任意输入的语音特征矢量序列X={X1 , X2 , …, XN},计算该序列中每一个特征矢量对模板库中的每个码本的总平均失真量误差,找出最小的失真误差对应的码本(代表一个字),将对应的字输出作为识别的结果。
55 语音信号的预处理过程包括哪些?
答:语音信号的放大、防混叠滤波、自动增益控制、模数转换、消除噪声、端点检测。
56 通常环境中语音信号的声压级范围是多少?
答:60dB左右。