广州大学 数字语音处理复习题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章绪论

1.语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性的学科。p1d3

2.语音信号处理的应用技术列举:语音编码、语音识别、语音合成、说话人识别和语种辨识、语音转换和语音隐藏(语音信息伪装、语音数字水印技术)、语音增强等p4d3

3.当前语音信号处理应用的3个主流技术:矢量量化技术、隐马尔可夫模型技术、人工神经网络技术。p4d3

第二章语音信号处理基础知识

1.语音是组成语言的声音,是声音(Acoustic)和语言(Language)的组合体。p5d2

2.语音的基本声学特性包括音色,音调,音强、音长。p7d2

音色:也叫音质,是一种声音区别于另一种声音的基本特征。

音调:是指声音的高低,它取决于声波的频率。

音强:声音的强弱,它由声波的振动幅度决定。

音长:声音的长短,它取决于发音时间的长短。

3. 说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。p7d3

4.任何语言都有语音的元音(V owel)和辅音(Consonant)两种音素。p7d3

8.当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。p7d3

9.呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。p7d3

7.发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是浊音,声带不振动的是清音。p7d3

8.元音构成音节的主干(因为无论从长度还是能量看,元音在音节中都占主要部分。)p7d3

9.元音的一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。p7d5 16.人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率称为共振峰频率(共振峰)。p7d5

10.汉语音节一般由声母、韵母和声调三部分组成。汉语普通话中有6000多个常用字,每个汉字是一个音节。p10d6

10. 发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期就称为基音周期(pitch),其倒数成为基音频率。

11.汉语是一种声调语言,声调的变化就是浊音基音周期(或基音频率)的变化。p14d5 13. 无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间而变化的,基因频率的不同轨迹成为声调。p9d11

14. 当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象成为掩蔽效应。

15.语音信号的生成模型可由激励模型、声道模型和辐射模型三个子模型构成,三者是串联(串联/并联)的关系。p21-26

16.语音信号激励模型一般分为浊音激励和清音激励,发浊音时激励模型为脉冲波。p21d6

17.语音信号激励模型一般分为浊音激励和清音激励,发清音时激励信号通常被模拟为随机白噪声。p22d2

16.语音信号生成模型的辐射模型是一阶类高通滤波器。 p25d2

17.设截取的一段语音共有160个样本,而采样频率为8kHz ,则该段语音持续时间为20ms 。 18.设采样频率为8kHz ,则25ms 长的语音共有200个采样值。

18.研究语音的时频分析特性所采用的与时序相关的傅立叶分析的显示图形称为语谱图(Sonogram ,或者Spectrogram )p29d1

19.语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。p29d1

20.传输函数形式为1

2

1

()1M

i

i i

i a V z b z

c z

--==--∏的共振峰模型为(2)数学模型;

1.全零点;

2.全极点;

3.极零点;

4.以上都不是;

21.传输函数形式为1

2

1

()1M

i

i i

i a V z b z

c z --==--∏的共振峰模型在结构上为(1 )模型;

1.级联型

2.并联型;

3.混合型;

4.以上都不是;

22.传输函数形式为12

1()1M

i

i i i

A V z

B z

C z --==--∑的共振峰模型为(3)数学模型; 1.全零点; 2.全极点; 3.极零点; 4.以上都不是;

23.传输函数形式为12

1()1M

i

i i i A V z B z

C z --==

--∑的共振峰模型在结构上为(2)模型; 1.级联型

2.并联型;

3.混合型;

4.以上都不是;

24.简述语音产生过程的三个模型:

25.基音频率、共振峰、语谱图的概念,会从语音波形中识别基音周期与共振峰频率。

发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周

期就称为基音周期(pitch ),其倒数成为基音频率。一般来说,男性说话的基音频率大致分布在50-200Hz 范围内,女性和小孩的基因频率在200-450Hz 之间。

人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率成为共振峰频率,简称共振峰。共振峰由低到高依次为第一共振峰、第二共振峰、第三共振峰、。。。,相应的频率用F1、F2、F3。。。。表示。一般浊音中可以辨识的共振峰有5个,其中前三个对于区别不同语音至关重要。

语谱图描述了语音信号随时间而变化的频谱特性。纵轴对应于频率、横轴对应于时间,图像的黑白度对应于信号的能量。

26.汉语中的四种声调与基音频率的关系是什么?

无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间而变化的,基因频率的不同轨迹成为声调。

29.音调:音调是听觉分辨声音高低时,用于描述这种感受的一种特性。音调与声音的频率并不成正比,还与声音的强度及波形有关。描述音调的单位是美(mel )。一个高于听阈40dB 、频率为1KHz 的纯音所产生的音调定位1000mel ,如果一个纯音听起来比1000mel 的声音调子高一倍,则其音调为2000mel 。音调与频率的关系近似表示为:

3323.23lg(10.001)mel Hz T f ≈+

27.掩蔽效应:当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象成为掩蔽效应。

第三章 语音信号分析

21.语音信号分析采用短时分析技术。p32d2

20. 语音信号分析,根据所分析出的参数的性质的不同可以分为:时域分析、频域分析、倒频域分析、线性预测分析等。根据分析方法的不同,分为模型分析方法和非模型分析方法两种。p32d3

22.由于辐射模型的影响,语音信号高频部分衰减较大,所以在预处理中需采用预加重技术,即提升高频部分,使信号的频谱变得平坦。

23.不论是分析怎么样的参数以及采用什么分析方法,在按帧进行语音分析,提取语音参数之前,有一些经常使用的、共同的短时分析技术必须预先进行,如语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等

23.语音信号加窗、分帧常用的窗函数有矩形窗、汉明窗等(列举两个)。

25.对于频率分布为0~3400Hz 的语音信号,最低无失真采样频率应为6800Hz (2倍采样)

25.若信号波形的变化足够大,或量化间隔Δ足够小时,以下有关量化噪声描述错误的是(4)p33d2

1.是平稳的白噪声过程

2.量化噪声与输入信号不相关

3.量化噪声在量化间隔内均匀分布,即具有等概率密度分布

相关文档
最新文档