(完整)《语音信号处理》期末试题总结,推荐文档

合集下载

语音信号处理知识点总结

语音信号处理知识点总结

语音信号处理(电技重点)第二章1、语音产生的机制、清音浊音(p7倒数第三段);2、语音的特点:浊音,准周期信号,短时能量大,过零率小;清音,随即自噪声,………….小,………大;声道,谐振腔,谐振频率,共振峰频率;音调,音强,音长,音质;频谱特征:清音谐波不明显;浊音谐波结构(精细频谱)谱包络(共振峰机构);3、统计分布,幅度分布(伽马分布修正);4、数字模型:激励模型(清音随即自噪声,浊音周期脉冲序列)声道模型(级联型、并联型、混合型)5、响度、音调、音色;6、语音感知:16hz---16Khz频谱分析,色彩感知,屏蔽效应;第三章1、取样率8khz(数字域)2、预处理(放大及增益控制,反混叠,预加重)3、短时能量分析短时能量随时间变化规律,区分清/浊音、声/韵母;4、短时过零率表现短时频谱特征,预测清/浊音、有/无声;5、短时相关求浊音周期及缺点6、短时平均幅度差:极小值——>求基音周期第四章1、语音时变谱2种解释;2、取样率(时间分辨率、频率分辨率);第五章1、同态分析了解;2、复倒谱倒谱意义准周期信号倒谱仍是准周期,T不变,幅度随f下降,page60,提取T依据;声道冲击响应倒谱——最小相位序列的为因果序列,衰减快page61能量集中在低频;——最大…………….为反因果序列…;3、最小相位法递推法掌握;4、给段语音倒谱求声门激励序列声道冲击序列;第六章1、线性预测基本原理:建立在全极点模型下用过去式测值预测现在以及将来时;2、预测滤波器F(z),线性预测误差滤波器A(z),语音合成全极点滤波器H(z)——三者关系;3、优化原则:均方误差最小,求偏导求A(z), H(z)系数;4、自相关法、均方差法,格型法优缺点;5、LPC谱估计:6~10阶,逼近谱包络6、LPC复倒谱了解7、线谱对:定义特点(掌握);第九章1、基音检测——自相关法,简化逆滤波法;2、相关处理法——表9-1,掌握SIFT,AMDF;3、共振峰估计:LPC第十一章1->声码器的基本结构图;2->LPC声码器与APC编码器区别与联系;3->LPC参数种类及量化特征page162;4->5种预测系数,线谱对,哪些适合在信道传输(编码)及原因,自己总结;5->混合编码与LPC声码器和APC的区别和联系;。

语音信号处理复习题

语音信号处理复习题

语音信号处理复习题1 由下面的WAV文件读出语音的编码信息:52 49 46 46 A4 9A 7B 01 57 41 56 45 66 6D 74 2010 00 00 00 01 00 02 00 44 AC 00 00 10 B1 02 0004 00 10 00 64 61 74 61 80 9A 7B 01 42 FF 35 FCE2 FE 07 00 E7 FE AF 03 5F FF 65 01.....................2 画出语音信号的产生模型,简述语音的产生过程。

语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。

3 为生么语音信号要进行“短时〞分析。

答:语音信号特性是随时间变化的,是一个非平稳的随机过程,但在一个短时间范围内其特性根本保持不变,即语音信号具有“短时平稳性〞,因而可将语音信号看成准平稳过程,对其进行短时分析.4 语音信号的时域分析方法有那些?答:短时能量,短时平均过零率,短时自相关函数5 语音信号频率范围是多少?答:语音信号的频率大约在20Hz~20KHz。

6 什么是浊音的基音频率(F0)?男性、女性和儿童的F0大致分布在什么范围。

答:浊音的基音频率(F0):声带张开和闭合一次的时间的倒数。

由声带的尺寸、特性和声带所受张力决定。

F0的大小决定了声音的上下,称为音高。

男性的F0大致分布在:60-200Hz,女性和儿童的F0大致分布在:200-450Hz7 可以认为多长的时间范围内,语音信号是平稳信号。

答:10-30ms8 语音的采样率为8kHz;纯语音在进行计算机录入时,一般采样率在15kHz~20kHz左右;音乐的采样率可以高达44kHz。

9 如何利用语音信号的时域分析方法进行清、浊判断。

答:1、短时能量分析依据:是基于语音信号幅度随时间变化】清音段幅度小,其能量集中高频段;浊音段幅度较大,其能量集中低频段;2、平均幅度分析的依据:清音段幅度小,浊音段幅度较大。

语音信号处理_考试参考题(修订版)(1)

语音信号处理_考试参考题(修订版)(1)

一、填空题:(每空1 分,共60分)1、语音(speech)300-3400kHz,采样率为(8kHz )宽带语音(wide-band speech),带宽7kHz (50-7k),采样率为(14k Hz )带宽20kHz(20-20k),采样率一般为(40k Hz )2、语音由肺中的通过(稳定)的气流或声道中的气流激励(喉头至嘴唇的器官的各种作用)而产生。

当肺中的气流通过声门时,声门由于其间气体压力的变化而开闭,使得气流时而通过,时而被阻断,从而形成一串周期性脉冲送入声道,由此产生的语音是(浊音)。

如果声带不振动,声门完全封闭,而声道在某处收缩,迫使气流高速通过这一收缩部位而发音,由此产生的语音是(清音)。

3、语音信号从总体上是非平稳信号。

但是,在短时段(10~30)ms中语音信号又可以认为是平稳的,或缓变的。

4、语音的四要素是音长,音强,音高和音质,它们可从时域波形上反映出来。

其中音长特性:音长(长),说话速度必然慢;音长(短),说话速度必然快。

音强的大小是由于声源的(震动幅度)大小来决定。

5、声音的响度是一个和(振幅)有密切联系的物理量,但并不就是音强。

6、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即(浊音)、(清音)和(爆破音)。

7、当气流通过声门时声带的张力刚好使声带发生较低频率的张弛振荡,形成准周期性的空气脉冲,这些空气脉冲激励声道便产生浊音如果声道中某处面积很小,气流高速冲过此处时而产生湍流,当气流速度与横截面积之比大于某个门限时(临界速度)便产生摩擦音,即(清音)。

8、如果声道某处完全闭合建立起气压,然后突然释放而产生的声音就是(爆破音)。

9、在大多数语音处理方案中,基本的假定为语音信号特性随时间的变化是(平稳随机)的。

这个假定导出各种(线性时不变)处理方法,在这里语音信号被分隔为一些短段再加以处理。

10、一个频率为F。

的正弦形信号以Fs速率抽样,正弦波的一周内就有(Fs/F0)个抽样。

东南大学语音信号处理期末考试复习总结(全面)

东南大学语音信号处理期末考试复习总结(全面)

语音信号处理是研究数字信号处理技术对语音信号进行处理的一门科学语音:是声音和语言的结合体,是一连串的音组成的语言的声音。

人的说话过程:想说,说出,传送,接收,理解。

句法的最小单位是单词,词法的最小单位是音节。

语音特征:音色,音调,音强,音长。

语音音素:元音和辅音。

辅音包括浊音(声带振动)和清音共振峰:元音激励进入声道时引起共振特性,产生一组共振频率。

基音频率:浊音的声带振动的基本频率。

汉语是一种声调语言,声调具有辩义作用。

声调的变化就是浊音基音周期的变化。

汉语音节的一般结构:声带,韵母,声调对发音影响最大的是声带。

基音周期:声带每开启和闭合一次的时间,倒数就是基音频率。

语音听觉系统:耳:内耳(将机械信号转化为神经信号),中耳(声阻抗变换),外耳(声源定位和声音放大)。

掩蔽效应:在一个强信号附近,弱信号将变得不可闻。

被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限或掩蔽阈值。

掩蔽效应:同时掩蔽和短时掩蔽。

同时掩蔽:存在一个弱信号和一个强信号频率接近,强信号会提高弱信号的听阀,当弱信号的听阀被升高到一定程度就会导致这个弱信号弱不可闻。

短时掩蔽:当A声和B声不同时存在时也存在掩蔽作用,称为短时掩蔽。

语音信号生成的数学模型:激励模型(一般分为浊音激励和清音激励),声道模型(一般分为声管模型和共振峰模型,共振峰模型又分为三种:级联,并联,混合型),辐射模型。

浊音激励模拟成是一个以基音周期为周期的斜三角脉冲串。

可以把清音模拟成随机白噪声。

完整的语音信号的数学模型的传输函数H(z) = AU(z)V(z)R(z).一阶高通形式的R(z)=R0(1-z^(-1)) 把和时序相关的傅里叶分析的显示图形称为语谱图。

语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形。

第三章:语音信号分析1.参数性质不同:时域,频域,倒频域。

分析方法:模型分析法(根据语音信号产生的数学模型来分析和提取表征这些模型的特征参数)和非模型分析法(时域,频域,倒频域)。

语音信号处理复习题

语音信号处理复习题

语音信号处理复习题1 由下面的WAV文件读出语音的编码信息:52 49 46 46 A4 9A 7B 01 57 41 56 45 66 6D 74 20 10 00 00 00 01 00 02 00 44 AC 00 00 10 B1 02 00 04 00 10 00 64 61 74 61 80 9A 7B 01 42 FF 35 FC E2 FE 07 00 E7 FE AF 03 5F FF 65 01.....................176,40004 004Block align =(0004) 16= 410 0016Bits/sample = (0010) 16= 16编码(Code)内容(Contents)批注(Notes)数据子区块(datasub_chunk)64 61 74 61d a t a80 9A 7B0124,877,696Size:(017B9A80) 16 = 24,877,69642 FF 35 FC L= 65,346,R=64,565(FF42) 16= 65,346(FC35) 16= 64,565E2 FE 07 00L= 65,250,R= 7(FEE2) 16= 65,250 (0007) 16=7E7 FE AF 03L= 65,255,R=943(FEE7) 16= 65,255 (03AF) 16=9435F FF 65 01L= 65,375,R= 357(FF5F) 16= 65,375 (0165 ) 16=3572 画出语音信号的产生模型,简述语音的产生过程。

语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。

3 为生么语音信号要进行“短时”分析。

答:语音信号特性是随时间变化的,是一个非平稳的随机过程,但在一个短时间范围内其特性基本保持不变,即语音信号具有“短时平稳性”,因而可将语音信号看成准平稳过程,对其进行短时分析.4 语音信号的时域分析方法有那些?答:短时能量,短时平均过零率,短时自相关函数5 语音信号频率范围是多少?答:语音信号的频率大约在20Hz~20KHz。

《语音信号处理》期末试题总结

《语音信号处理》期末试题总结

《语音信号处理》期末试题总结语音信号处理期末试题总结在本学期的《语音信号处理》课程中,我们学习了很多有关语音信号处理的基本理论和方法。

本文将对这门课程的期末试题进行总结和回顾,以便加深对所学知识的理解和掌握。

一、语音信号处理的基本概念1. 语音信号的特点和基本原理在语音信号处理的学习中,我们首先了解了语音信号的基本特点。

语音信号是一种时间变化的连续信号,具有频谱特性和时域特性。

我们学习了频域分析和时域分析方法,如快速傅里叶变换(FFT)和数字滤波器的设计等。

2. 语音信号的采样和量化在语音信号处理中,我们需要对语音信号进行采样和量化,以便能够进行数字信号处理。

我们学习了采样定理和抽样频率的选择,以及量化误差和比特率的计算方法。

3. 语音信号的预处理在语音信号处理中,预处理是非常重要的一步。

我们学习了语音信号的预加重和去噪等预处理技术,它们可以提高语音信号的质量和可靠性。

二、语音信号处理的主要方法和技术1. 语音信号的特征提取为了能够对语音信号进行识别和分析,我们需要抽取出其特征。

我们学习了语音信号的短时能量、过零率、梅尔频率倒谱系数(MFCC)等常用的特征提取方法。

2. 语音信号的基本模型为了对语音信号进行建模和分析,我们学习了基于线性预测编码(LPC)的声道模型和声源模型。

这些模型可以帮助我们理解语音信号的生成过程,并对其进行分析和处理。

3. 语音信号的合成和变换在语音信号处理中,我们不仅关注对语音信号的分析,还关注对语音信号的合成和变换。

我们学习了基于线性预测编码的语音合成方法和语音变换方法,例如声码器的设计和声音的转换等。

三、语音信号处理的应用领域1. 语音识别语音识别是语音信号处理的一个重要应用领域。

我们学习了基于隐马尔科夫模型(HMM)的语音识别方法,以及声学模型和语言模型的训练和应用技巧。

2. 语音合成语音合成是将文本转换为语音信号的过程。

我们学习了基于拼音的语音合成方法和基于声道模型的语音合成方法,它们可以用来生成自然流畅的语音。

南理工 语音信号处理期末考试重点整理共86页

南理工 语音信号处理期末考试重点整理共86页
南理工 语音信号处理期末考试重点整 理
1、战鼓一响,法律无声。——英国 2、任何法律的根本;不,不成文法本 身就是 讲道理 ……法 律,也 ----即 明示道 理。— —爱·科 克
3、法律是最保险的头盔。——爱·科 克 4、一个国家如果纲纪不正,其国风一 定颓败 。—— 塞内加 5、法律不能使人人平等,但是在法律 面前只有永远躺在泥坑里的人,才不会再掉进坑里。——黑格尔 32、希望的灯一旦熄灭,生活刹那间变成了一片黑暗。——普列姆昌德 33、希望是人生的乳母。——科策布 34、形成天才的决定因素应该是勤奋。——郭沫若 35、学到很多东西的诀窍,就是一下子不要学很多。——洛克

语音信号处理期末复习讲解

语音信号处理期末复习讲解

3.3短时能量分析
短时能量定义
• 短时:通过加窗来实现 • 能量:通过求信号幅度的平方来实现
En
m
[ x(m)w(n m)]

2

m n N 1

n
[ x(m)w(n m)]
2
• 窗的位置随n变化
窗的类型
• 直角窗(矩形窗)
Time domain 40 1 30 0.8 20 10 0 -10 -20
人体发声的部位
声带——震动的来源
Tp
典型声门脉冲波形
• Tp为基音周期,倒数为基音频率,用fp表示, 取决于声带的尺寸和特性 • 男性说话者的fp大致分布在60-200Hz范围内 • 女性说话者和小孩的fp值在200-450Hz范围内 • 同一个人所发出的声音有高低变化,是靠控 制声带的松紧来调节的。
MOS得分 5 4 3 2 1 质量等级 优 良 可 差 坏 失真级别 不觉察 刚有觉察 有觉察且稍有可厌 明显觉察且可厌但可忍受 不可忍受
第三章 语音信号的 时域分析
语音信号的稳态——帧的概念
• 语音自身从长时间看是非稳态过程,从短时 间看是相对稳定的,既“短时性”。 • 将语音分为一段一段的,每一段称为“一 帧”,大概时间为10-30ms • 短时时域分析是语音处理的基本方法,也是 最直观、最易理解的方法
窗的类型
• 海明窗(Hamming,也称汉明窗,升余弦)
Time domain 40 1 20 0.8 0
Frequency domain
Magnitude (dB)
10 20 30 40 Samples 50 60
Amplitude
0.6
-20 -40 -60

语音信号处理期末试题总结

语音信号处理期末试题总结

语音信号处理期末试题总结语音信号处理是计算机科学与工程领域中的一个重要分支,涉及到语音的获取、分析、处理和识别等方面。

本文将对语音信号处理期末试题进行总结,包括语音信号的特点、语音信号的数字化、语音信号的分析与处理等内容。

一、语音信号的特点语音信号是一种时变信号,具有以下特点:1. 高度相关性:语音信号中的相邻样本之间存在强相关性,即前后样本之间存在一定的联系。

2. 动态性:语音信号具有时变性,即语音信号的频率、幅度和相位等参数随时间不断变化。

3. 非线性:语音信号的产生和传输过程中存在非线性失真的因素,如话筒的非线性特性、音频设备中的非线性操作等。

二、语音信号的数字化为了方便处理和存储,需要将模拟语音信号转换为数字信号,即进行数字化处理。

数字化的过程主要包括采样、量化和编码三个步骤。

1. 采样:采样是指以一定的时间间隔对模拟语音信号进行采样,得到离散的样本值。

采样频率决定了语音信号的频带宽度,常用的采样频率为8kHz或16kHz。

2. 量化:量化是指将采样得到的连续样本值近似为离散的量化级别,常用的量化级别为8位或16位。

3. 编码:编码是指将量化后的样本值转换为二进制形式,方便存储和传输。

三、语音信号的分析与处理1. 短时能量与过零率:短时能量反映了语音信号在短时间内的能量变化情况,过零率反映了语音信号波形的变化频率。

通过计算短时能量和过零率可以进行语音的端点检测和语音活动检测。

2. 傅里叶变换:傅里叶变换是一种时频分析方法,可以将时域信号转换为频域表示,得到信号的频谱信息。

在语音信号处理中,傅里叶变换常用于语音的频谱分析和滤波处理。

3. 语音合成:语音合成是指根据给定的文本信息生成对应的语音信号。

常用的语音合成方法包括基于规则的合成和基于统计模型的合成。

4. 语音识别:语音识别是将语音信号转换为对应的文本信息的过程,常见的语音识别方法包括基于模板匹配的方法、基于统计的方法和深度学习方法等。

语音信号处理复习题

语音信号处理复习题

1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支?它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。

1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段?语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。

人的说话过程如图2-1所示,可以分为五个阶段:(1)想说阶段:(2)说出阶段:(3)传送阶段:(4)接收阶段:(5)理解阶段:3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况?声道的数学模型有两种观点:1)声管模型将声道看为由多个不同截面积的管子串联而成的系统。

在“短时”期间,声道可表示为形状稳定的管道。

另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。

共振峰模型,把声道视为一个谐振腔。

共振峰就是这个腔体的谐振频率。

由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。

一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。

基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。

(1)级联型声道模型这时认为声道是一组串联的二阶谐振器。

从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。

它的传输函数可分解表示为多个二阶极点的网络的串联:N=10,M=5时的声道模型如下图所示:(2)并联型声道模型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。

此时,模型的传输函数如下:通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型。

语音信号处理考试试题

语音信号处理考试试题

语音信号处理考试试题一、简答题1. 请解释什么是语音信号处理?语音信号处理指的是对语音信号进行数字信号处理的过程。

它涉及到声音的采集、编码、分析、合成和识别等一系列处理技术,旨在提高语音通信和语音识别系统的性能。

2. 请列举一些常见的语音信号处理应用。

常见的语音信号处理应用包括语音通信、语音识别、语音合成、语音增强、语音压缩等。

3. 请简要描述语音信号处理系统的基本框架。

语音信号处理系统的基本框架包括声音的采集、预处理、特征提取、模型训练和解码等步骤。

首先,声音信号通过麦克风采集,并进行预处理,如去除噪声、归一化等。

然后,从预处理的信号中提取出特征,如音频频谱、共振峰等信息。

接下来,使用这些特征进行模型的训练,以建立语音信号的模型。

最后,通过解码器将输入的语音信号与训练好的模型进行匹配,从而实现语音的识别或合成。

4. 请列举一些常用的语音信号处理算法或技术。

常用的语音信号处理算法或技术包括数字滤波、时域和频域特征提取、自动语音识别(ASR)、线性预测编码(LPC)、傅里叶变换(FFT)、Mel频谱倒谱系数(MFCC)、隐藏马尔可夫模型(HMM)等。

5. 请解释什么是Mel频谱倒谱系数(MFCC)算法。

Mel频谱倒谱系数(MFCC)算法是一种常用的语音信号处理算法,主要用于语音特征提取。

它模拟了人类听觉系统的工作原理,通过对语音信号进行分帧、加窗、傅里叶变换等处理,提取出与人耳感知的频率特征相关的Mel频率倒谱系数。

MFCC算法具有较好的语音信号特征提取效果,广泛应用于语音识别等领域。

二、计算题1. 对下述数字信号进行离散傅里叶变换(DFT):x(n) = [1, 2, 3, 4]首先,对x(n)进行零填充,得到长度为N的信号x'(n) = [1, 2, 3, 4, 0, 0, 0, 0]。

然后,对x'(n)进行DFT计算,得到频谱X(k)。

X(k) = [10, -2+2j, -2, -2-2j, 0, 0, 0, 0]2. 对下述频谱进行逆离散傅里叶变换(IDFT):X(k) = [10, -2+2j, -2, -2-2j]首先,对X(k)进行逆DFT计算,得到时域信号x(n)。

南理工-语音信号处理期末考试重点整理

南理工-语音信号处理期末考试重点整理

2、语音信号产生过程
2.语音产生过程
浊音(Voiced sounds) :声带绷紧,气流通过时会使得 开口变成一开一闭的周期性动作,这时候就造成周期 性的激发气流,如a,o;
清音(Unvoiced or Fricative sounds) :声带完全舒展 ,声道某部位收缩形成一个狭窄的通道,产生空气湍 流,如t,d;
3、语音信号产生的数字模型
第02章基础知识—12
由图可见,它是一个低通滤波器。频率分析表明,其幅度谱按12 dB/倍 频程的速率衰减。如果将其表示为Z变换的全极模型的形式,有 G(z)=1/ (1-g1z-1)(1-g2z-1)
如果g1和g2的值都接近于1,则由此形成的激励信号频谱很接近于声门 脉冲的频谱。显然,上式表明斜三角波可描述为一个二阶极点的模型。需 要指出,不同人、不同语音,其声门脉冲的形状不一定相同,但在语音合 成中对其形状要求不很苛刻,只要其傅里叶变换有近似的特性就可以了。
第02章基础知识—9
3、语音信号产生的数字模型
3. 语音信号产生的数字模型
下图是一 个完整的语音信号产生的数字模型:
第02章基础知识—10
3、语音信号产生的数字模型
由此模型框图,我们可将语音信号看成 准周期序列或随机噪声序列作为激励的 线性非移变系统的输出,此模型可分为 三个部分:激励模型、声道模型、辐射 模型 激励模型 根据发浊音和发清音的机理 又分为:(a)浊音激励 (b)清音激励
出。 基于各种音素发音的不同谐振特点可建立起三
种实用的共振峰模型: (a)级联型 (b)并联型 (c)混合型
第02章基础知识—16
3、语音信号产生的数字模型
(2) 声道模型
(a)级联型: 适用于一般单元音,认为声道是一组串联的二阶谐振器:

语音信号处理复习资料

语音信号处理复习资料
1.说话人识别和语音识别的区别在什么地方? 2.说话人确认和说话人辨认有什么不同? 3.在说话人识别中,应选择哪些可以表征个人特征 的识别参数? 4.怎样评价说话人识别特征参数选取的好坏?即F 比的物理意义? 5.说话人确认系统最重要的两个性能指标是什么? 含义为什么? 6.基于DTW和VQ算法的系统框图理解。
R( z ) R0 (1 z )
一阶类高通滤波器形式 嘴唇的辐射影响引起的输出信号高频提升作用 大约有每倍频程6dB
1
4. 完整的语音信号数字模型
V ( z ) U ( z ) H ( z ) R( z )
基音周期 激励模型 声道模型
辐射模型
准周期脉冲 序列发生器 随机噪声 发 生 器 增益控制 时变参数 浊音
学习得到 基音周期的计算 清音浊音的判断
图2-6 输出的语音频谱 虚线为谱包络,恢复谱包络是许多语音 处理应用中的主要问题,因为谱包络携 带了主要的发音信息
方法 根据长时间范围内一段语音信号的大量取样 数据的绝对值计算其直方图 概率密度
f ( x)
k 2
.
e
k x
x
修正伽玛概率密度
语音的分类
语音的基本特性
语音的时间波形和频谱特性
语音信号的统计特性
激励模型 语音信号 的产生模型 声道模型
声管模型
级联型
共振峰模型 并联型
辐射模型
混合型
定义 人耳的听力范围 语音感知 声音的三要素 掩蔽效应
第二章思考题:
1. 什么叫语言?什么叫语音? 2. 人类的发音器官包括哪些?在发音时各起了 什么作用? 3. 解释以下概念:基音频率、共振峰、浊音、 清音。 4. 语音信号模型包括哪些子模型?激励模型和 辐射模型各属于什么性质的滤波器?

语音信号处理答案

语音信号处理答案

语音信号处理答案二、问答题(每题分,共分)、语音信号处理主要研究哪几方面的内容?语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法和技术。

、语音识别的研究目标和计算机自动语音识别的任务是什么?语音识别技术,也被称为自动语音识别,(),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。

计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

、语音合成模型关键技术有哪些?语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。

.如何取样以精确地抽取人类发信的主要特征,.寻求什么样的网络特征以综合声道的频率响应,.输出合成声音的质量如何保证。

、语音压缩技术有哪些国际标准?二、名词解释(每题分,共分)端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。

共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。

语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。

码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义公示,用最少的搜素和计算失真的运算量。

语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量三、简答题(每题分,共分)、简述如何利用听觉掩蔽效应。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2011-2013学年
《语音信号处理》期末考试试题
适用班级:时量:120分钟闭卷记分:
考生班级:姓名:学号:
注:答案全部写在答题纸上,写在试卷上无效!
一、填空题:(每空2分)
1、矢量量化系统主要由编码器和译码器组成,其中编码器主要是由搜索算法和码书构成。

P101
2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。

P18
3、语音编码按传统的分类方法可以分为波形编码、参数编码和混合编码。

P137
4、对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。

P137-138
5、汉语音节一般由声母、韵母和声调三部分组成。

P10
6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的掩蔽效应。

P22
7、句法的最小单位是词,词法的最小单位是音节,音节可以由音素构成。

P9
8、复倒谱分析中避免相位卷绕的算法,常用的有微分法和最小相位信号法。

P62
9、语音信号处理也可以简称为语音处理,它是利用数字信号处理技术对语音信号进行处理的一门学科,包括语音编码、语音合成、语音识别、说话人识别和语音增强等五大分支。

P3
10、语音信号处理也可以简称为语音处理,它是以数字信号处理和语音学为基础而形成的一个综合新的学科,包括发音语音学、声学语音学、听觉语音学和心理学等四大分支。

P2,6
11、语音的四大要素:音质、音调、音强和音长。

P9
12、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音、清音、和爆破音。

P8
13、元音的一个重要声学特性是共振峰,它是区别不同元音的重要参数,它一般包括共振峰频率的位置和频带宽度。

14、语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过同态信号处理来实现。

P56
二、判断题:(每小题2分)√×
1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。

(×)P143
2、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。

(×)P181
3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。

(×)P142
4、线性预测法正是基于全极点模型假定,采用时域均方误差最小准则来估计模型参数的。

(×)P72
5、波形编码是依赖模型假定的语音编码方法。

(×)P137
6、掩蔽效应是使一个声音A能感知的阀值因另一个声音B的出现而提高的现象,这时A叫
掩蔽声,B叫被掩蔽声。

(√)P22
三、单项选择题:(每小题3分)
1、下列不属于衡量语音编码性能的主要指标是(B)。

(A)编码质量(B)矢量编码(C)编码速率(D)坚韧性
2、下列不属于编码器的质量评价的是(D)P172
(A)MOS (B)DAM(C)DRT(D)ATC
3、有限词汇的语音合成技术已经比较成熟了,一般我们是采用(A)作为合成基元。

P9
(A)词语(B)句子(C)音节(D)因素
4、标量量化和矢量量化在概念上是相互对应的,那么标量量化中的量化值对应着矢量量化中的(C)P94
(A)胞腔(B)量化矢量
(C)码书(D)量化区间
5、矢量量化器大致可以分为无记忆矢量量化器和有记忆矢量量化器两类,下列不属于无记忆矢量量化器的为(D)。

P104
(A)全搜索矢量量化器(B)树搜索矢量量化器
(C)多极矢量量化器(D)自适应矢量量化器
6、下列波形编码中属于频域编码的是(C)。

P170
(A)PCM (B)ADM(C)SBC(D)APC
四、画图分析题:(每小题12分)
1、画出矢量量化器的基本结构,并说明其各部分的作用。

P95
2、试画出一卷积同态系统的模型,并把它分解为三个子系统进行分析,要有相应的表达式说明。

P57
3、试画出语音信号产生的离散时域模型的原理框图,并说明各部分的作用。

P21
4、试画出语音合成模型(语音生成模型)的原理框图,并说明各部分的作用。

P16
五、简答题:(每题5分)
1、线性预测分析的基本思想是什么? P69
2、隐马尔可夫模型的特点是什么? P107-108
3、矢量量化器的所谓最佳码本设计是指什么? P99
4、针对短时傅里叶变换Ⅹn(e jw)的定义式,请从两个角度对其进行物理意义的分析。

P42的4.2.2和4.2.3
5、针对短时傅里叶变换的时间分辨率和频率分辨率的矛盾性,请给予分析说明。

P43
6、复倒谱和倒谱的特点和关系是什么? P58-59
7、预加重和去加重的思想和作用是什么? P26-27
六、计算题:(每小题6分)
1、已知一码本尺寸J=8的二叉树,它的码本中共包含有14个码字,见图一所示。

现采用全搜索法和二叉树搜索法来进行分析,计算它们的失真运算量、比较运算量和存储容量各为多少?(要有求解过程,无过程不得分) P102,表7.1
图一
2、PPT课件例子:
计算方法:【初始分布概率*a的概率*转移概率*a的概率*转移概率*b的概率】
P1:S1→S1→S1
0.8×0.8×0.3×0.8×0.3×0.2=0.00922
P2:S1→S1→S2
0.8×0.8×0.3×0.8×0.5×0.7=0.05376
P3:S1→S1→S3
0.8×0.8×0.3×0.8×0.2×0.5=0.01536
P4:S1→S2→S2
0.8×0.8×0.5×0.3×0.4×0.7=0.02688
P8:S1→S2→S3
0.8×0.8×0.5×0.3×0.6×0.5=0.0288
P6:S2→S2→S2
0.8×0.3×0.4×0.3×0.4×0.7=0.00806
P7:S2→S2→S3
0.8×0.3×0.4×0.3×0.6×0.5=0.00864
由于是隐HMM模型,不知输出aab时,到底是经过了哪一条不同状态组成的路径,因此,求aab的输出概率时,将每一种可能路径的的输出概率相加得到的总的概率值作为aab的输出概率:
P(O|λ)=0.00922+0.05376+0.01536+0.02688+0.0288+0.00806+0.00864=0.15072。

相关文档
最新文档