语音信号处理复习题
语音信号处理 华工 2015
一、分析题
1、语谱图的定义以及对其进行解读,答出横杠、竖直条、乱纹的物理意义(7分)
2、隐马尔科夫模型的三个基本问题,其中哪一个最难解决,并说出主要原因(7分)
二、简答题
1、同态信号处理的基本原理,以语音信号为例。
(5分)
2、MFCC特征提取的流程。
(5分)
3、波形编码与参数编码的区别。
(5分)
4、DTW算法的目的以及其基本思想(5分)
5、矢量编码的基本原理(4分)
6、HMM的两个随机过程(4分)
三、填空题(每空2分)
1、预处理一般包括预加重、加窗、分帧。
2、说话人识别系统包括预处理、特征提取、模式匹配、判决。
3、语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。
4、一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。
5、。
(实在是记不起啦)
四、选择题
五.判断题
(后面的选择、判断题自求多福吧)。
语音信号处理复习题
语音信号处理复习题1 由下面的WAV文件读出语音的编码信息:52 49 46 46 A4 9A 7B 01 57 41 56 45 66 6D 74 2010 00 00 00 01 00 02 00 44 AC 00 00 10 B1 02 0004 00 10 00 64 61 74 61 80 9A 7B 01 42 FF 35 FCE2 FE 07 00 E7 FE AF 03 5F FF 65 01.....................2 画出语音信号的产生模型,简述语音的产生过程。
语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。
3 为生么语音信号要进行“短时〞分析。
答:语音信号特性是随时间变化的,是一个非平稳的随机过程,但在一个短时间范围内其特性根本保持不变,即语音信号具有“短时平稳性〞,因而可将语音信号看成准平稳过程,对其进行短时分析.4 语音信号的时域分析方法有那些?答:短时能量,短时平均过零率,短时自相关函数5 语音信号频率范围是多少?答:语音信号的频率大约在20Hz~20KHz。
6 什么是浊音的基音频率(F0)?男性、女性和儿童的F0大致分布在什么范围。
答:浊音的基音频率(F0):声带张开和闭合一次的时间的倒数。
由声带的尺寸、特性和声带所受张力决定。
F0的大小决定了声音的上下,称为音高。
男性的F0大致分布在:60-200Hz,女性和儿童的F0大致分布在:200-450Hz7 可以认为多长的时间范围内,语音信号是平稳信号。
答:10-30ms8 语音的采样率为8kHz;纯语音在进行计算机录入时,一般采样率在15kHz~20kHz左右;音乐的采样率可以高达44kHz。
9 如何利用语音信号的时域分析方法进行清、浊判断。
答:1、短时能量分析依据:是基于语音信号幅度随时间变化】清音段幅度小,其能量集中高频段;浊音段幅度较大,其能量集中低频段;2、平均幅度分析的依据:清音段幅度小,浊音段幅度较大。
音视频信号处理技术考核试卷
B.降噪
C.动态范围压缩
D.均衡器
17.在视频信号处理中,以下哪个参数表示每秒钟刷新图像的次数?()
A.分辨率
B.帧率
C.刷新率
D.带宽
18.以下哪种图像处理技术可以用于去除图像中的噪声?()
A.滤波
B.锐化
C.旋转
D.缩放
19.在数字信号处理中,以下哪个概念表示信号的频率成分?()
A.波形
1. ABC
2. BCD
3. ABCD
4. BCD
5. ABCD
6. ABCD
7. ABCD
8. BC
9. ABC
10. ABC
11. ABC
12. ABCD
13. ABC
14. ABCD
15. ABC
16. ABCD
17. ABCD
18. ABCD
19. ABC
20. ABCD
三、填空题
1.采样
2. SECAM
B. H.265
C. MPEG-2
D. VP8
5.在音频信号处理中,以下哪个参数表示声音的音量大小?()
A.频率
B.振幅
C.相位
D.波形
6.以下哪种音频编码格式是无损的?()
A. MP3
B. AAC
C. FLAC
D. WMA
7.在数字信号处理中,以下哪个操作可以用于提高信号的采样率?()
A.插值
B.采样
D. BMP
11.在音频信号处理中,以下哪种滤波器可以用于去除特定频率范围的噪声?()
A.带通滤波器
B.带阻滤波器
C.高通滤波器
D.低通滤波器
12.以下哪个参数决定了视频信号的色彩深度?()
语音信号处理_考试参考题(修订版)(1)
语⾳信号处理_考试参考题(修订版)(1)⼀、填空题:(每空1 分,共60分)1、语⾳信号的频率范围为(300-3400kHz),⼀般情况下采样率为(8kHz )。
书上22页2、语⾳的形成是空⽓由(肺部)排⼊(喉部),经过(声带)进⼊声道,最后由()辐射出声波,这就形成了语⾳。
书上11页。
肺中的通过(稳定)的⽓流或声道中的⽓流激励(喉头⾄嘴唇的器官的各种作⽤)⽽产⽣。
当肺中的⽓流通过声门时,声门由于其间⽓体压⼒的变化⽽开闭,使得⽓流时⽽通过,时⽽被阻断,从⽽形成⼀串周期性脉冲送⼊声道,由此产⽣的语⾳是(浊⾳)。
如果声带不振动,声门完全封闭,⽽声道在某处收缩,迫使⽓流⾼速通过这⼀收缩部位⽽发⾳,由此产⽣的语⾳是(清⾳)。
3、语⾳信号从总体上是⾮平稳信号。
但是,在短时段(10~30)ms中语⾳信号⼜可以认为是平稳的,或缓变的。
书上24页4、语⾳的四要素是⾳长,⾳强,⾳⾼和⾳质,它们可从时域波形上反映出来。
其中⾳长特性:⾳长(长),说话速度必然慢;⾳长(短),说话速度必然快。
⾳强的⼤⼩是由于声源的(震动幅度)⼤⼩来决定。
5、声⾳的响度是⼀个和(振幅)有密切联系的物理量,但并不就是⾳强。
6、⼈类发⾳过程有三类不同的激励⽅式,因⽽能产⽣三类不同的声⾳,即(浊⾳)、(清⾳)和(爆破⾳)。
7、当⽓流通过声门时声带的张⼒刚好使声带发⽣较低频率的张弛振荡,形成准周期性的空⽓脉冲,这些空⽓脉冲激励声道便产⽣浊⾳如果声道中某处⾯积很⼩,⽓流⾼速冲过此处时⽽产⽣湍流,当⽓流速度与横截⾯积之⽐⼤于某个门限时(临界速度)便产⽣摩擦⾳,即(清⾳)。
8、如果声道某处完全闭合建⽴起⽓压,然后突然释放⽽产⽣的声⾳就是(爆破⾳)。
9、在⼤多数语⾳处理⽅案中,基本的假定为语⾳信号特性随时间的变化是(平稳随机)的。
这个假定导出各种(线性时不变)处理⽅法,在这⾥语⾳信号被分隔为⼀些短段再加以处理。
10、⼀个频率为F。
的正弦形信号以Fs速率抽样,正弦波的⼀周内就有(Fs/F0)个抽样。
语音信号处理作业
课堂作业1:1、语音信号的特点是什么?画出数字模型语音信号的最基本组成单位是音素。
音素可以分为“浊音”和“清音”两大类,语音信号的频谱分量主要集中在300~3400HZ的范围内,其采样率为8kHZ,某些语音系统将此频率扩展到7~9KHZ,其采样率也提高到15~20kHZ。
语音信号具有短时性。
2、简述语音信号的特点,基频、共振峰是什么含义?语音一般由清音和浊音组成,浊音的声带振动基本频率,又称基音频率。
声道可以看成是一根具有非均匀截面的声管,在发音时起共鸣的作用,。
当元音激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。
共振峰为频谱中明显的几个凸起点,它的出现频率与声道的谐振频率相对应。
3、简述短时分析方法,怎样用AMDF判基音?由于语音信号的准平稳特性,任何语信号数字处理算法和技术都建立在“短时”基础上。
语音信号中一组基本短时参数有:短时能量E,短时平均幅度M和短时过零率Z。
短时自相关函数和短时频谱(或短时功率谱)是语音信号非常重要的一对短时参数,分别在时域和频域中表征了语音信号的一些主要特征。
短时基音周期是语音信号重要的参数之一。
用短时自关函数进行基音周期估计是寻找它的最大峰值点的位置,而用短时AMDF进行基音周期估计是寻找它的最深谷值点的位置。
4、短时傅立叶分析的含义?采样时如何考虑?语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅立叶变换不能用来直接表示语音信号,而应该用短时傅立叶变换对语音信号的频谱进行分析,相应的频谱称为“短时谱”。
课堂作业二:1、画出同态滤波中特征系统框图,写出倒谱定义式卷积同态系统的框图复倒谱^()n x 是x(n)的Z 变换取对数后的逆Z 变换,其表达式如下: ^1[ln [()]]Z Z x n x -= (7)倒谱c(n)定义为x(n)取Z 变换后的幅度对数的逆Z 变换,即* X ’(n) Y’(n) + + * + + X(n) D *[ ] L[ ] D -1*[ ] y(n)1()[ln |()|]c n z X z -= (8)2、 相位卷绕是什么?怎样避免?相位伸展或相位解卷绕的前提条件是相邻采样点相位差的绝对值小于pi ,即要求lARG[H(k)]一ARG[H(k —1)]I<pi3、写出声道冲激响应序列的复倒谱特点。
语音信号处理答案
二、问答题(每题5分,共20 分)1、语音信号处理主要研究哪几方面的内容?语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法和技术。
2、语音识别的研究目标和计算机自动语音识别的任务是什么?语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
3、语音合成模型关键技术有哪些?语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。
1.如何取样以精确地抽取人类发信的主要特征,2.寻求什么样的网络特征以综合声道的频率响应,3.输出合成声音的质量如何保证。
4、语音压缩技术有哪些国际标准?二、名词解释(每题3分,共15分)端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。
共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。
语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义公示,用最少的搜素和计算失真的运算量。
语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量三、简答题(每题6分,共30分)1、简述如何利用听觉掩蔽效应。
语音信号处理期末考试复习题
《语音信号处理》期末考试复习资料(涉及考点的教材课后复习题)授课教师:薛雅娟老师整理人:通信161班梁雨(第2-5章)通信161班左自睿(第6-10章)根据成都信息工程大学通信工程学院选修课《语音信号处理》期末考试范围,整理成期末考试的复习资料以供学弟学妹们参考。
所有权归属成都信息工程大学。
在此衷心感谢薛老师平时悉心地教育指导。
整理人均系在读本科学生,水平有限,错误与不足之处在所难免,敬请大家见谅,欢迎批评、斧正。
第二章:语音信号处理的基础知识人耳听觉的掩蔽效应分为哪几种?掩蔽效应的存在对我们研究语音信号处理系统有什么启示?答:分为同时掩蔽和短时掩蔽。
同时掩蔽是指同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阈,当弱信号的听阈被升高到一定程度时就会导致这个弱信号变得不可闻。
当A声和B声不同时出现时也存在掩蔽作用,称为短时掩蔽。
短时掩蔽分为前向掩蔽和后向掩蔽。
语音信号的数学模型包括哪些子模型?激励模型是怎样推导出来的?辐射模型又是怎样推导出来的?它们各属于什么性质的滤波器?答:①激励模型②声道模型③辐射模型④完整的语音信号的数学模型激励模型一般分成浊音激励和清音激励。
浊音激励:发浊音时,声激励是一个准周期的单位脉冲串,Av为增益参数;为了使浊音的激励信号具有声门振动气流脉冲的实际波形,需将冲激序列通过一个声门脉冲模型滤波器(实际上是一个斜三角波形)G(z)。
最后形成一个以基音周期为周期的斜三角波形。
清音激励模拟为随机噪声,实际中一般使用均值为0、方差为1的白噪声。
辐射模型:从声道模型射出的是速度波ul(n),而语音信号是声压波pl(n),二者之倒比称为辐射阻抗Zl。
在语音信号参数分析前为什么要进行预处理,有哪些预处理过程?答:预滤波的目的有两个:一是抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰;二是抑制50Hz的电源工频干扰。
预处理过程:预加重、加窗和分帧。
语音信号处理复习题
语音信号处理复习题1 由下面的WAV文件读出语音的编码信息:52 49 46 46 A4 9A 7B 01 57 41 56 45 66 6D 74 20 10 00 00 00 01 00 02 00 44 AC 00 00 10 B1 02 00 04 00 10 00 64 61 74 61 80 9A 7B 01 42 FF 35 FC E2 FE 07 00 E7 FE AF 03 5F FF 65 01.....................176,40004 004Block align =(0004) 16= 410 0016Bits/sample = (0010) 16= 16编码(Code)内容(Contents)批注(Notes)数据子区块(datasub_chunk)64 61 74 61d a t a80 9A 7B0124,877,696Size:(017B9A80) 16 = 24,877,69642 FF 35 FC L= 65,346,R=64,565(FF42) 16= 65,346(FC35) 16= 64,565E2 FE 07 00L= 65,250,R= 7(FEE2) 16= 65,250 (0007) 16=7E7 FE AF 03L= 65,255,R=943(FEE7) 16= 65,255 (03AF) 16=9435F FF 65 01L= 65,375,R= 357(FF5F) 16= 65,375 (0165 ) 16=3572 画出语音信号的产生模型,简述语音的产生过程。
语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。
3 为生么语音信号要进行“短时”分析。
答:语音信号特性是随时间变化的,是一个非平稳的随机过程,但在一个短时间范围内其特性基本保持不变,即语音信号具有“短时平稳性”,因而可将语音信号看成准平稳过程,对其进行短时分析.4 语音信号的时域分析方法有那些?答:短时能量,短时平均过零率,短时自相关函数5 语音信号频率范围是多少?答:语音信号的频率大约在20Hz~20KHz。
语音信号处理复习
自相关法
基音检测
倒谱法
简化逆滤波法(SIFT)
共振峰估值
1. 带通滤波器法 2. DFT法
3. 倒谱法
4. LPC法
第9章思考题
1.基音检测的自相关法中的中心削波处理的思路 及实现过程? 2.用倒谱法实现基音检测和共振峰检测的原理及 实现框图?
•语音编码的概念、应用和分类等 •语音信号的压缩编码原理 • 语音通信中的语音质量 •脉冲编码调制(PCM)及其自适应
时变线性 系统
语音取样值
时变参数
第2章思考题:
1. 什么叫语言?什么叫语音? 2. 人类的发音器官包括哪些?在发音时各起了什
么作用? 3. 解释以下概念:基音频率、共振峰、浊音、清
音。 4. 语音信号模型包括哪些子模型?激励模型和辐
射模型各属于什么性质的滤波器?
第3章语音信号的时域分析
•语音处理的目的 •语音信号分析方法
1.什么叫做隐马尔可夫过程?为什么说语 音信号可以看成隐马尔可夫过程?
2. HMM模型的结构主要有哪两种?它们 的特点是什么?
3.隐马尔可夫模型有哪些模型参数?请 叙述这些参数的含义和定义式。
根据某状态HMM模型,每一种路 径输出某某符号的概率计算。
语音检测分析——语音特征参数的提取和分析。
主要包括:基音检测和共振峰参数的估值。
NT
•短时傅里叶变换的取样率 •语音信号的短时综合 滤波器组求和法
•语谱图
可同时在时间和频率上显示语音频谱随 时间的变化。
第4章思考题:
1. 短时傅里叶变换的定义式是什么?短时傅 里叶变换的两种解释是什么? 如何提高短 时谱的频率分辨率?
2. 在求语音信号的短时谱时,对窗函数有什 么要求? 对语音信号频谱分析采用海明窗 和矩形窗各有什么特点?
数字语音处理复习题
第一章绪论1.语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性的学科。
p1d32.语音信号处理的应用技术列举:语音编码、语音识别、语音合成、说话人识别和语种辨识、语音转换和语音隐藏(语音信息伪装、语音数字水印技术)、语音增强等p4d33.当前语音信号处理应用的3个主流技术:矢量量化技术、隐马尔可夫模型技术、人工神经网络技术。
p4d3第二章语音信号处理基础知识1.语音是组成语言的声音,是声音(Acoustic)和语言(Language)的组合体。
p5d22.语音的基本声学特性包括音色,音调,音强、音长。
p7d2➢音色:也叫音质,是一种声音区别于另一种声音的基本特征。
➢音调:是指声音的高低,它取决于声波的频率。
➢音强:声音的强弱,它由声波的振动幅度决定。
➢音长:声音的长短,它取决于发音时间的长短。
3. 说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。
一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。
音素是语音发音的最小单位。
p7d34.任何语言都有语音的元音(V owel)和辅音(Consonant)两种音素。
p7d38.当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。
p7d39.呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。
p7d37.发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是浊音,声带不振动的是清音。
p7d38.元音构成音节的主干(因为无论从长度还是能量看,元音在音节中都占主要部分。
)p7d39.元音的一个重要声学特性是共振峰(Formant)。
共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。
语音信号处理复习华南理工
语音信号处理复习第二章语音信号处理基础知识1,定义:(1)语音是指人们讲话时发出的话语,它是一种声音,具有声学特征的物理特性。
而它又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。
因此语音是语言和声音的组合体。
(2)语音是由人的发声器官发出的一种声波,它具有音色、音调、音强和音长。
①音色:是一种声音区别于另一种声音的基本特征②音调:指声音的高低,取决于声波的频率③音强:指声音的强弱,取决于声波的振幅④音长:指声音的长短,取决于发音时间的长短(3)任何语言都有语言的元音和辅音两种音素:元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。
一个重要的声学特性是共振峰。
辅音:由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通。
包括清音和浊音。
①浊音:声带振动②清音:声带不振动(4)人的听觉系统有两个重要的特性:①时频分析特性:人的耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量。
②听觉掩蔽效应:心理声学中的听觉掩蔽效应指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。
掩蔽效应分为同时掩蔽和短时掩蔽。
2,语言信号生成的数学模型:①激励模型:在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是激励系统②声道模型:从声门到嘴唇的呼气通道是声道,是声道系统③辐射模型:语音从嘴唇辐射出去,则嘴唇以外是辐射系统3,语音信号的特性分析:(1)语音信号的时域波形和频谱特性:①时域波形:周期性,周期对应声带振动的频率,即基音频率。
②频谱特性:共振峰特性。
元音频谱有明显的几个凸起点,它们出现的频率就是共振峰频率。
清辅音频谱峰点之间的间隔是随机的,没有周期分量。
(2)语谱图:语谱图是一种三维图谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
语谱图中显示了大量的与语音的语句特性相关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。
语音信号处理考试试题
语音信号处理考试试题一、简答题1. 请解释什么是语音信号处理?语音信号处理指的是对语音信号进行数字信号处理的过程。
它涉及到声音的采集、编码、分析、合成和识别等一系列处理技术,旨在提高语音通信和语音识别系统的性能。
2. 请列举一些常见的语音信号处理应用。
常见的语音信号处理应用包括语音通信、语音识别、语音合成、语音增强、语音压缩等。
3. 请简要描述语音信号处理系统的基本框架。
语音信号处理系统的基本框架包括声音的采集、预处理、特征提取、模型训练和解码等步骤。
首先,声音信号通过麦克风采集,并进行预处理,如去除噪声、归一化等。
然后,从预处理的信号中提取出特征,如音频频谱、共振峰等信息。
接下来,使用这些特征进行模型的训练,以建立语音信号的模型。
最后,通过解码器将输入的语音信号与训练好的模型进行匹配,从而实现语音的识别或合成。
4. 请列举一些常用的语音信号处理算法或技术。
常用的语音信号处理算法或技术包括数字滤波、时域和频域特征提取、自动语音识别(ASR)、线性预测编码(LPC)、傅里叶变换(FFT)、Mel频谱倒谱系数(MFCC)、隐藏马尔可夫模型(HMM)等。
5. 请解释什么是Mel频谱倒谱系数(MFCC)算法。
Mel频谱倒谱系数(MFCC)算法是一种常用的语音信号处理算法,主要用于语音特征提取。
它模拟了人类听觉系统的工作原理,通过对语音信号进行分帧、加窗、傅里叶变换等处理,提取出与人耳感知的频率特征相关的Mel频率倒谱系数。
MFCC算法具有较好的语音信号特征提取效果,广泛应用于语音识别等领域。
二、计算题1. 对下述数字信号进行离散傅里叶变换(DFT):x(n) = [1, 2, 3, 4]首先,对x(n)进行零填充,得到长度为N的信号x'(n) = [1, 2, 3, 4, 0, 0, 0, 0]。
然后,对x'(n)进行DFT计算,得到频谱X(k)。
X(k) = [10, -2+2j, -2, -2-2j, 0, 0, 0, 0]2. 对下述频谱进行逆离散傅里叶变换(IDFT):X(k) = [10, -2+2j, -2, -2-2j]首先,对X(k)进行逆DFT计算,得到时域信号x(n)。
贵大语音信号处理试卷2012-2013
贵大语音信号处理试卷2012-2013一、填空1、物理声学认为声波具有音调、音强、音长和音色四种要素。
P72、频率低于20Hz的信号称为次声。
3、元音频谱有明确的共振峰结构。
P284、宽带语谱图的带宽约为300 Hz。
P295、语谱图中冲直条代表基音或赛擦音。
P296、语音信号的频率越低,相应的能量越高。
7、矩形窗的主瓣宽度最小,旁瓣高度最大,会导致泄漏现象。
P458、语谱图中垂直条纹的基音条纹间隔是基音的周期。
P299、清音时能量集中于较高频率段内,具有高的过零率。
P3810、对数功率谱的逆傅里叶变换是一个空间域。
二、选择题:1、窄带语谱图具有良好的(a)分辨率。
P29A、频率B、时间C、视觉D、感觉2、窄带语谱图的带宽约为(a)Hz。
P29A、45B、90C、180D、3003、标准量化是将取样后的信号值( b )地进行量化。
P86A、全部B、逐个C、局部D、同时4、人工神经网络由( d )三者构成。
P117A、神经元B、网络拓扑C、学习算法D、神经元,网络拓扑,学习算法5、短时自相关函数可以很明显的反映(d )信号的周期性。
P40A、清音B、摩擦音C、爆破音D、浊音6、一个脉冲序列信号可以用(d )表示。
A、ejωB、sinωiC、u(t)D、δ(t)7、周期信号在频域里有(b)结构特点。
A、连续B、谐波C、周期D、单值8、语音信号是一种典型的( b )信号。
P286A、确定B、随机C、模糊性D、混沌性9、脉冲编码制PCM编码速率(c)。
P144A、16kbit/sB、32kbit/sC、64kbit/sD、126kbit/s10、语音信号预滤波的目的是(c)。
P33A、防止混叠干扰B、抑制50Hz的电源干扰C、防止混叠干扰和抑制50Hz的电源干扰D、防止清音干扰三、判断题1、辅音发声时的阻碍的位置叫调音点(r)。
P92、窄带语谱具有良好的时间(频率)分辨率,但频率(时间)分辨率较差(x )。
语音信号处理复习要点
考试时间:6月21日下午1:30-3:20考试地点:七(1、3、5班)、六阶(2、4及重修)《数字语音处理及Matlab仿真》1.语音信号短时分析的帧长一般取多长?10-30ms2.男性和女性的基音频率分别在什么范围?*P41 男50-250Hz 女100-500Hz3.语音信号的频率范围是多少?*300-3400Hz4.语音信号处理中,经济实用的采样率是多少?*8000Hz5.从能量和过零率两方面说明清音和浊音的区别。
*P 30:浊音能量明显高于清音 P 30:清音过零率高于浊音6.给出基音周期检测的两种方法。
*P 45:基于短时自相关法的基音周期估值和基于短时平均幅度差函数法的基音周期估值。
7.给出语音倒谱的两种应用。
*P 88、90:基因检测与共振峰检测8.语音信号典型的时域特征有哪些?*P190 :平均能量、短时平均过零率、基音周期。
9.在语音识别和说话人识别中主流的频域特征是什么?*P191 :MFCC10.在只考虑身高的矢量量化中,如果量化码本中只包含“姚明(2.26米)”和“潘长江(1.58米)”两个码字,你本人应该用哪个码字量化?*1.92以上姚明;1.92以下潘长江11.名词解释(写出缩写的英文缩写的全称、中文名称、简单含义,下同):MFCC*P24312.什么是基音频率?*P45:浊音声带振动基频称之为及音频率13.名词解释:LPC*P24214.线性预测分析的基本思想是什么?*P95:基本思想:一个语音取样的现在值可以用若干个语音取样过去值的加权线性组合来逼近,在线性组合中的加权系数称为预感器系数。
通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小值,能够决定唯一的一组预测器系数。
15.语音编码从采用的编码方法的角度可以分为哪三类?*P138:波形编码、参数编码、混合编码。
16.名词解释:PCM*P24317.8k采样率、8位量化的编码速率是多少?*64kbit/s18.ADPCM中“D”和“A”分别是什么含义?*P240:A自适应 D差分19.LPC-10的编码速率是多少?它采用的哪类编码方法?*P163:2.4kbit/s 参数编码20.语音合成的方法分为哪三类?*P172:波形合成法、参数合成法、规则合成法。
语音信号处理复习资料
R( z ) R0 (1 z )
一阶类高通滤波器形式 嘴唇的辐射影响引起的输出信号高频提升作用 大约有每倍频程6dB
1
4. 完整的语音信号数字模型
V ( z ) U ( z ) H ( z ) R( z )
基音周期 激励模型 声道模型
辐射模型
准周期脉冲 序列发生器 随机噪声 发 生 器 增益控制 时变参数 浊音
学习得到 基音周期的计算 清音浊音的判断
图2-6 输出的语音频谱 虚线为谱包络,恢复谱包络是许多语音 处理应用中的主要问题,因为谱包络携 带了主要的发音信息
方法 根据长时间范围内一段语音信号的大量取样 数据的绝对值计算其直方图 概率密度
f ( x)
k 2
.
e
k x
x
修正伽玛概率密度
语音的分类
语音的基本特性
语音的时间波形和频谱特性
语音信号的统计特性
激励模型 语音信号 的产生模型 声道模型
声管模型
级联型
共振峰模型 并联型
辐射模型
混合型
定义 人耳的听力范围 语音感知 声音的三要素 掩蔽效应
第二章思考题:
1. 什么叫语言?什么叫语音? 2. 人类的发音器官包括哪些?在发音时各起了 什么作用? 3. 解释以下概念:基音频率、共振峰、浊音、 清音。 4. 语音信号模型包括哪些子模型?激励模型和 辐射模型各属于什么性质的滤波器?
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支?它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。
1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段?语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。
人的说话过程如图2-1所示,可以分为五个阶段:(1)想说阶段:(2)说出阶段:(3)传送阶段:(4)接收阶段:(5)理解阶段:3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况?声道的数学模型有两种观点:1)声管模型将声道看为由多个不同截面积的管子串联而成的系统。
在“短时”期间,声道可表示为形状稳定的管道。
另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。
共振峰模型,把声道视为一个谐振腔。
共振峰就是这个腔体的谐振频率。
由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。
一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。
基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。
(1)级联型声道模型这时认为声道是一组串联的二阶谐振器。
从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。
它的传输函数可分解表示为多个二阶极点的网络的串联:N=10,M=5时的声道模型如下图所示:(2)并联型声道模型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。
此时,模型的传输函数如下:通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型。
如图2-21所示(M=5)。
(3)混合型声道模型上述两种模型中,级联型比较简单,可以用于描述一般元音。
当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。
这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。
采用并联结构的目的就在于此,它比级联型复杂些,每个谐振器的幅度都要独立地给以控制。
但对于鼻音、塞音、擦音以及塞擦音等都可以适用。
正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。
2212112cos(2)()12cos(2)k k k k B T B TMk B TB T k k e F T e V z eF T z e z ππ------=-+=-+∏∑∑=-=--=N k kk Rr rrz a z bz V 11)(∑=----=Mi i i i z C z B A z V 1211)(4、 请写出完整的语音信号数学模型的表示式。
什么叫做预加重处理?为什么要进行这些处理?完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。
如图所示:它的传输函数)(z H 可表示为:)()()()(z R z V z U A z H ⋅=由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz 以上按6dB/倍频程(倍频程:若使每一频带的上限频率比下限频率高一倍,即频率之比为2,这样划分的每一频程称为1倍频程)跌落,所以求语音信号的频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分难求,要在预处理中进行预加重处理。
预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。
预加重一般在语音信号数字化后,参数分析之前用预加重数字滤波器来实现。
基音频率F 0 振幅A V语音 s(n) 信号振幅A U冲激序列 发生器 声门脉冲 模型G (Z )随机噪声发声器声道模型 V (Z ) 辐射模型 R (Z )十倍频程-频率按照10⨯增加或按101x 减小,从10Hz 到100Hz 为一个十倍频程;倍频程-频率按2⨯增加或按21x 减小,从10Hz 到20Hz 为一个倍频程。
2倍频和10倍频是一回事对于滤波或运放放大倍数来讲使用dB 来表示的,具体的公式是:()()001w jw A w A +=,0w 是滤波器或运放的一个极点。
采用dB 表示时是()w A log 20*,()w A 要取模,即()()0001w w w w sqrt A **+。
对于n 倍频(靠近0w 的频率不准确,n>0),0112,*w w w n w ≥=(开方中的1可忽略)则有()()()()()0022012*/*log *20log *20w w w w sqrt A w A w A -=-()())*/*log(*20log *2000110w w w w sqrt A +-()())*/*log(*100022w w w w -=)*log(*10n n -=这样,对于两倍频,122w w *=,则此时下降是dB 64log *10-=-当12*10w w =时,dB 20100log *10-=-预加重数字滤波器一般是一阶的数字滤波器()11--=z Z H μ,μ值接近于1。
5、短时平均能量(短时平均幅值)和短时平均跨零数的定义。
窗口函数的长度和形状对它们有什么影响?常用的有哪几种窗口?这两种时域参数的用途。
设第n 帧语音信号()m x n的短时能量用n E 表示,则其计算公式如下:()m x E N m nn ∑-==102短时平均幅度函数n M ,它定义为:()∑-==1N m n n m x M分别采用矩形窗、汉明窗不同窗长得到的语音信号短时能量,可以得到如下结论: ● 在用短时能量反映语音信号的幅度变化时,不同的窗函数以及相应窗的长短均有影响; ● Hamming 窗的效果比矩形窗略好;●但是,窗的长短影响起决定性作用。
窗口长度反映语音信号的幅度变化。
窗过大(N 很大),等效于很窄的低通滤波器,不能反映幅度En 的变化;窗过小(N 很小),短时能量随时间急剧变化,不能得到平滑的能量函数。
在11.025kHz 左右的采样频率下,N 选为100~200比较合适。
定义语音信号()m x n的短时过零率n Z 为:()[]()[]∑-=--=11sgn sgn 21N m n n n m x m x Z式中,[]sgn是符号函数,即[]()()⎩⎨⎧<-≥=0101sgn x x x6、短时自相关函数和短时平均幅差函数的定义及其用途。
在选择窗口函数时应考虑什么问题?语音信号的定义语音信号()m x n的短时自相关函数()k R n 的计算公式如下:()()()K k k m x m x k R nk N m nn ≤<+=∑--=0,10这里K 是最大的延迟点数。
浊音是周期信号,浊音的短时自相关函数呈现明显的周期性,自相关函数的周期就是浊音信号的周期。
清音接近于随机噪声,其短时自相关函数不具有周期性,也没有明显突起的峰值,且随着延时k 的增大迅速减小。
短时平均幅度差函数:()()()∑--=+-=k N m nnn k m x m x k F 10计算()k F n只需加、减法和取绝对值的运算,与自相关函数的加法与乘法相比,其运算量大大减小,尤其在用硬件实现语音信号分析时有很大好处。
为此,AMDF 已被用在许多实时语音处理系统中。
短时谱的定义。
它可以有哪两种解释?窗口函数的影响。
()ωj n e X 是帧号n 和角频率ω的函数。
可见,当n 不变时,()ωj n e X 是序列()()m x m n w -()+∞<<∞-m 的标准傅里叶变换,此时()ωj n e X 具有与标准傅里叶变换相同的性质。
设语音信号序列和窗口序列的标准傅里叶变换均存在。
当n 取固定值时,()()∑∞-∞=-=m mj j em x eX ωω()()∑∞-∞=-=m mj j em w e Wωω()()ωωωj n j m mj e W e em n w --∞-∞=-⋅=-∑根据卷积定理有:()()()[]ωωωωj n j j j n e W e e X e X --⋅*=因为上式右边两个卷积项均为关于角频率ω的以π2为周期的连续函数,所以也可以将其写成如下的卷积积分形式:()()[]()()[]θπθωππθθωd e X e e W e X j jn j j n +-⋅=⎰21(*)结论:假设()m x 的DTFT 是()ωj e X ,且()m w 的DTFT 是()ωj e W ,那么()ωj ne X 是()ωj e X 和()ωje W 的周期卷积。
由于()ωj n e X 相当于信号谱()ωj e X 与窗函数谱的卷积,根据卷积积分公式(*)可知,为了使得()ωj ne X 能够与()ωj e X 具有相同的性质,则要求()ωj e W 必须是一个冲激函数。
因此应使窗函数的频率分辨率高,主瓣尖锐;同时还要使旁瓣衰减大。
根据信号的时宽带宽积为一常数这一性质,可知()ωj e W主瓣宽度与窗口宽度成反比,N 越大,主瓣越窄,则()ωj n e X 越接近于()ωj e X 。
但窗长太大时,窗选信号已经不满足语音的短时平稳特性,此时,()ωj ne X 已不能正确反映短时语音的频谱,为此,必须要折中选择窗长。
另外,令角频率N k πω2=,则得到离散的短时傅里叶变换,它实际上是()ωj n e X 在频域的取样,如下所示:()()10,2102-≤≤==⎪⎪⎭⎫⎝⎛--=∑N k e m x k X e X N k j N m n n N k j n ππ 在语音信号数字处理中,都是采用()m x n 的离散傅里叶变换()k X n 代替()ωj n e X ,并且可用高效的快速傅里叶变换(FFT)算法完成由()m x n至()k X n 的转换。
当然,这时窗长N 必须是2的整次幂L 2(L 是整数)。
根据傅里叶变换的性质,实数序列的傅里叶变换的频谱具有对称性,因此全部频谱信息包含在长度为12+N个()k X n 里。
另外,为了使()k X n 具有较高的频率分辨率,所取的DFT 以及相应的FFT 点数N 1应该足够多,但有时()m x n 的长度N 要受到采样率和短时性的限制。
()m x n 转()k X n 流程:原信号频率就处在kHz L 53.192~01⨯-之间,即kHz f 5max =,只要在0~5kHz 内求其频谱。