语音信号处理 第十章-第十三章复习题

合集下载

语音信号处理考试题(综合)

语音信号处理考试题(综合)

语音信号处理重点、考点、考试题一、填空题:(共7小题,每空2分,共20分)A卷1、矢量量化系统主要由编码器和组成,其中编码器主要是由搜索算法和构成。

2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和。

3、语音编码按传统的分类方法可以分为、和混合编码。

4、对语音信号进行压缩编码的基本依据是语音信号的和人的听觉感知机理。

5、汉语音节一般由声母、韵母和三部分组成。

6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的效应。

7、句法的最小单位是,词法的最小单位是音节,音节可以由构成。

二、判断题:(共3小题,每小题2分,共6分)1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。

()2、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。

()3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。

()三、单项选择题:(共3小题,每小题3分,共9分)1、下列不属于衡量语音编码性能的主要指标是()。

(A)编码质量(B)矢量编码(C)编码速率(D)坚韧性2、下列不属于编码器的质量评价的是()(A)MOS (B)DAM(C)DRT(D)ATC3、限词汇的语音合成技术已经比较成熟了,一般我们是采用()作为合成基元。

(A)词语(B)句子(C)音节(D)因素四、简答题:(共2小题,每小题12分,共24分)1、画出矢量量化器的基本结构,并说明其各部分的作用。

2、试画出语音信号产生的离散时域模型的原理框图,并说明各部分的作用。

五、简答题:(共5小题,前三小题,每题5分,后两小题,每题10分,共35分)1、线性预测分析的基本思想是什么?2、隐马尔可夫模型的特点是什么?3、矢量量化器的所谓最佳码本设计是指什么?4、针对短时傅里叶变换Ⅹn(ejw)的定义式,请从两个角度对其进行物理意义的分析。

语音信号处理总复习资料

语音信号处理总复习资料

Ch1 绪论§1.1 语音信号处理概述一、语音、语音信号处理的名词解释1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。

2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。

二、语音学的名词解释(集中备课)语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。

§1.2 语音信号处理的发展概况一、语音编码、语音合成、语音识别名词解释(参见大纲)1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。

2、语音合成:语音合成的目的是使计算机能像人一样说话。

3、语音识别:语音识别是使计算机判断出所说的话得内容。

Ch2 基础知识§2.2 语音产生的过程一、语音、清音、浊音1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。

语音是声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。

语音的振动频率最高可达15kHz左右。

2、人类生成语音过程可分为神经和肌肉的生理学阶段和产生语音波、传递语音波的物理阶段。

3、浊音、清音:语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。

浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。

二、语音的产生过程:空气从肺部排出形成气流。

空气通过声带时,如果声带是紧绷的,则声带将产生张弛振动,即声带周期性地开启和闭合。

声带开启时,空气流从声门喷射出来,形成一个脉冲;声带闭合时相应于脉冲序列的间歇期。

三、基音周期、基音频率基音周期:声带开启和闭合一次的时间即振动周期称为音调周期或基音周期。

基音频率:基音周期的倒数称为基音频率,简称为基频。

语音信号的考试部分知识点

语音信号的考试部分知识点

语音信号处理复习资料一、名词解释:1、基音周期:声带开合一次的时间为基音周期(pitch period)。

它的倒数称为基频。

2 、音色:也叫音质;由混入基音中的倍音决定。

3 、音高:声音的高低;主要用基频反映。

基频值越大,反映出的音高越高。

4、音强:发音的轻重;可以用声压或声强来表示声音的强度,一般用相对声压或相对声强表示。

5、音长:声音的长短,取决于发音持续时间的长短。

6、响度:是一种主观心理量,主观感觉到的声音强弱的一种衡量标准,它与频率有关。

一样的音强,不一样的频率,则响度也会有所不同。

7、听觉掩蔽效应:一个更响的音调可以将其频率附近的较低的音调掩蔽。

可以分为同时掩蔽和异外时掩蔽。

8、临界频带:一个纯音可以被以它为中心频率,且具有一定带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚好能被听到的临界状态,即称这一带宽为临界带宽。

临界带宽有许多近似表示,一般在低于500 Hz的频带内,临界带宽约为100Hz,在高于500Hz 时,临界带宽约为中心频率的20% 。

人耳的基底膜具有与频谱分析仪相似的作用。

频率群的划分相应地将基底膜分成许多小的部分,每一部分对应一个频率群。

掩蔽效应就是在这些频率群内发生,这是因为对应的那一频率群的基底膜部分的声音,在大脑中似乎是叠加在一起来评价的,如果这时同时发声,可以互相掩蔽。

9、采样的基础知识:对于一个有限带宽的模拟信号,其频谱的最高频率为F0,在对其进行采样时,其采样频率在Fs>2F0时,采样后的信号才能保证信息不丢失。

语音信号中人耳可以感知的最大频率在3.4KHz左右采样频率在8KHz~16KHz之间短时分析:内平稳语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10~30ms,语音信号近似不变。

于是,我们把变化的语音信号分成一些相继的短时间段来处理。

语音信号处理复习题

语音信号处理复习题

语音信号处理复习题1 由下面的WAV文件读出语音的编码信息:52 49 46 46 A4 9A 7B 01 57 41 56 45 66 6D 74 2010 00 00 00 01 00 02 00 44 AC 00 00 10 B1 02 0004 00 10 00 64 61 74 61 80 9A 7B 01 42 FF 35 FCE2 FE 07 00 E7 FE AF 03 5F FF 65 01.....................2 画出语音信号的产生模型,简述语音的产生过程。

语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。

3 为生么语音信号要进行“短时〞分析。

答:语音信号特性是随时间变化的,是一个非平稳的随机过程,但在一个短时间范围内其特性根本保持不变,即语音信号具有“短时平稳性〞,因而可将语音信号看成准平稳过程,对其进行短时分析.4 语音信号的时域分析方法有那些?答:短时能量,短时平均过零率,短时自相关函数5 语音信号频率范围是多少?答:语音信号的频率大约在20Hz~20KHz。

6 什么是浊音的基音频率(F0)?男性、女性和儿童的F0大致分布在什么范围。

答:浊音的基音频率(F0):声带张开和闭合一次的时间的倒数。

由声带的尺寸、特性和声带所受张力决定。

F0的大小决定了声音的上下,称为音高。

男性的F0大致分布在:60-200Hz,女性和儿童的F0大致分布在:200-450Hz7 可以认为多长的时间范围内,语音信号是平稳信号。

答:10-30ms8 语音的采样率为8kHz;纯语音在进行计算机录入时,一般采样率在15kHz~20kHz左右;音乐的采样率可以高达44kHz。

9 如何利用语音信号的时域分析方法进行清、浊判断。

答:1、短时能量分析依据:是基于语音信号幅度随时间变化】清音段幅度小,其能量集中高频段;浊音段幅度较大,其能量集中低频段;2、平均幅度分析的依据:清音段幅度小,浊音段幅度较大。

语音信号处理_考试参考题(修订版)(1)

语音信号处理_考试参考题(修订版)(1)

语⾳信号处理_考试参考题(修订版)(1)⼀、填空题:(每空1 分,共60分)1、语⾳信号的频率范围为(300-3400kHz),⼀般情况下采样率为(8kHz )。

书上22页2、语⾳的形成是空⽓由(肺部)排⼊(喉部),经过(声带)进⼊声道,最后由()辐射出声波,这就形成了语⾳。

书上11页。

肺中的通过(稳定)的⽓流或声道中的⽓流激励(喉头⾄嘴唇的器官的各种作⽤)⽽产⽣。

当肺中的⽓流通过声门时,声门由于其间⽓体压⼒的变化⽽开闭,使得⽓流时⽽通过,时⽽被阻断,从⽽形成⼀串周期性脉冲送⼊声道,由此产⽣的语⾳是(浊⾳)。

如果声带不振动,声门完全封闭,⽽声道在某处收缩,迫使⽓流⾼速通过这⼀收缩部位⽽发⾳,由此产⽣的语⾳是(清⾳)。

3、语⾳信号从总体上是⾮平稳信号。

但是,在短时段(10~30)ms中语⾳信号⼜可以认为是平稳的,或缓变的。

书上24页4、语⾳的四要素是⾳长,⾳强,⾳⾼和⾳质,它们可从时域波形上反映出来。

其中⾳长特性:⾳长(长),说话速度必然慢;⾳长(短),说话速度必然快。

⾳强的⼤⼩是由于声源的(震动幅度)⼤⼩来决定。

5、声⾳的响度是⼀个和(振幅)有密切联系的物理量,但并不就是⾳强。

6、⼈类发⾳过程有三类不同的激励⽅式,因⽽能产⽣三类不同的声⾳,即(浊⾳)、(清⾳)和(爆破⾳)。

7、当⽓流通过声门时声带的张⼒刚好使声带发⽣较低频率的张弛振荡,形成准周期性的空⽓脉冲,这些空⽓脉冲激励声道便产⽣浊⾳如果声道中某处⾯积很⼩,⽓流⾼速冲过此处时⽽产⽣湍流,当⽓流速度与横截⾯积之⽐⼤于某个门限时(临界速度)便产⽣摩擦⾳,即(清⾳)。

8、如果声道某处完全闭合建⽴起⽓压,然后突然释放⽽产⽣的声⾳就是(爆破⾳)。

9、在⼤多数语⾳处理⽅案中,基本的假定为语⾳信号特性随时间的变化是(平稳随机)的。

这个假定导出各种(线性时不变)处理⽅法,在这⾥语⾳信号被分隔为⼀些短段再加以处理。

10、⼀个频率为F。

的正弦形信号以Fs速率抽样,正弦波的⼀周内就有(Fs/F0)个抽样。

语音信号处理复习题

语音信号处理复习题

1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支?它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。

1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段?语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。

人的说话过程如图2-1所示,可以分为五个阶段:(1)想说阶段:(2)说出阶段:(3)传送阶段:(4)接收阶段:(5)理解阶段:3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况?声道的数学模型有两种观点:1)声管模型将声道看为由多个不同截面积的管子串联而成的系统。

在“短时”期间,声道可表示为形状稳定的管道。

另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。

共振峰模型,把声道视为一个谐振腔。

共振峰就是这个腔体的谐振频率。

由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。

一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。

基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。

(1)级联型声道模型这时认为声道是一组串联的二阶谐振器。

从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。

它的传输函数可分解表示为多个二阶极点的网络的串联:N=10,M=5时的声道模型如下图所示:(2)并联型声道模型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。

此时,模型的传输函数如下:通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型。

语音信号处理期末考试复习题

语音信号处理期末考试复习题

《语音信号处理》期末考试复习资料(涉及考点的教材课后复习题)授课教师:薛雅娟老师整理人:通信161班梁雨(第2-5章)通信161班左自睿(第6-10章)根据成都信息工程大学通信工程学院选修课《语音信号处理》期末考试范围,整理成期末考试的复习资料以供学弟学妹们参考。

所有权归属成都信息工程大学。

在此衷心感谢薛老师平时悉心地教育指导。

整理人均系在读本科学生,水平有限,错误与不足之处在所难免,敬请大家见谅,欢迎批评、斧正。

第二章:语音信号处理的基础知识人耳听觉的掩蔽效应分为哪几种?掩蔽效应的存在对我们研究语音信号处理系统有什么启示?答:分为同时掩蔽和短时掩蔽。

同时掩蔽是指同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阈,当弱信号的听阈被升高到一定程度时就会导致这个弱信号变得不可闻。

当A声和B声不同时出现时也存在掩蔽作用,称为短时掩蔽。

短时掩蔽分为前向掩蔽和后向掩蔽。

语音信号的数学模型包括哪些子模型?激励模型是怎样推导出来的?辐射模型又是怎样推导出来的?它们各属于什么性质的滤波器?答:①激励模型②声道模型③辐射模型④完整的语音信号的数学模型激励模型一般分成浊音激励和清音激励。

浊音激励:发浊音时,声激励是一个准周期的单位脉冲串,Av为增益参数;为了使浊音的激励信号具有声门振动气流脉冲的实际波形,需将冲激序列通过一个声门脉冲模型滤波器(实际上是一个斜三角波形)G(z)。

最后形成一个以基音周期为周期的斜三角波形。

清音激励模拟为随机噪声,实际中一般使用均值为0、方差为1的白噪声。

辐射模型:从声道模型射出的是速度波ul(n),而语音信号是声压波pl(n),二者之倒比称为辐射阻抗Zl。

在语音信号参数分析前为什么要进行预处理,有哪些预处理过程?答:预滤波的目的有两个:一是抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰;二是抑制50Hz的电源工频干扰。

预处理过程:预加重、加窗和分帧。

语音信号处理第10讲

语音信号处理第10讲

9.2 语音信号压缩编码的原理及压缩 系统评价
➢ 语音编码的关键技术:
✓ 线性预测法(常用技术):基于全极点模型假设,采用时域均方差最 小准则来估计模型参数,其出发点在于跟踪波形的产生过程,而不是 波形本身,传送的是反映整个过程变化的参数。
✓ 合成分析法:将综合器引入编码器,使之与分析器相结合,在编码器 中生成和译码器端完全一致的语音。将合成语音与原始语音相比较, 根据一定的误差原则,来调整计算各个参数使得两者之间的误差最小。
高。
➢ 混合编码器使用音源编码器和波 形编码器技术,数据率和音质介于 二者之间。 ➢ 语音编码性能指标主要有比特速 率、时延、复杂性和还原质量。
语音质量
优 良 中 差 坏
混合编 码
波形编 码
模型编码(源编码)
1 极2 低
4
8 16 32 64


码率 (kb/s)
9.2 语音信号压缩编码的原理及压缩 系统评价
➢ 从信息论的角度看,信源编码的一个主要目的就是解决数据压缩问题。 (数据压缩=信源编码)
➢ 语音压缩的基本原理:
✓ 语音信号编码为二进制数字序列,最简单的方法是对其直接进行A/D 变换。
✓ 只要取样足够高,量化每个样本的比特数足够多,就可以保证解码恢 复的语音信号有很好的音质,不会丢失有用信息,但是直接数字化所 需的数码率太高,导致传输信道难以承受,必须对语音信号进行压缩 编码
也可以是音节自适应,即量化阶的大小在较长时间周期里发生
变化。
样本值
自适应 量化器 Q
APCM 编码输出
改变量化阶距的方法: ✓ 前向自适应APCM ✓ 后向自适应APCM
量化阶适配器
自适应脉冲编码调制(APCM)

《语音信号处理》课程笔记

《语音信号处理》课程笔记

《语音信号处理》课程笔记第一章语音信号处理的基础知识1.1 语音信号处理的发展历程语音信号处理的研究起始于20世纪50年代,最初的研究主要集中在语音合成和语音识别上。

在早期,由于计算机技术和数字信号处理技术的限制,语音信号处理的研究进展缓慢。

随着技术的不断发展,尤其是快速傅里叶变换(FFT)的出现,使得语音信号的频域分析成为可能,从而推动了语音信号处理的发展。

到了20世纪80年代,随着全球通信技术的发展,语音信号处理在语音编码和传输等领域也得到了广泛应用。

近年来,随着人工智能技术的快速发展,语音信号处理在语音识别、语音合成、语音增强等领域取得了显著的成果。

1.2 语音信号处理的总体结构语音信号处理的总体结构可以分为以下几个部分:(1)语音信号的采集和预处理:包括语音信号的采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。

(2)特征参数提取:从预处理后的语音信号中提取出能够反映语音特性的参数,如基频、共振峰、倒谱等。

(3)模型训练和识别:利用提取出的特征参数,通过机器学习算法训练出相应的模型,并进行语音识别、说话人识别等任务。

(4)后处理:对识别结果进行进一步的处理,如语法分析、语义理解等,以提高识别的准确性。

1.3 语音的发声机理和听觉机理语音的发声机理主要包括声带的振动、声道的共鸣和辐射等过程。

声带振动产生的声波通过声道时,会受到声道形状的影响,从而产生不同的音调和音质。

听觉机理是指人类听觉系统对声波的感知和处理过程,包括外耳、中耳、内耳和听觉中枢等部分。

1.4 语音的感知和信号模型语音的感知是指人类听觉系统对语音信号的识别和理解过程。

语音信号模型是用来描述语音信号特点和变化规律的数学模型,包括时域模型、频域模型和倒谱模型等。

这些模型为语音信号处理提供了理论基础和工具。

第二章语音信号的时域分析和短时傅里叶分析2.1 语音信号的预处理语音信号的预处理主要包括采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。

语音信号处理10

语音信号处理10
5
3.1 语音信号的预处理
预加重前和预加重后的一段语音信号频谱
图3.1-4 预加重前后语音频谱
6
3.1 语音信号的预处理
3.1.2 语音信号的加窗处理
7
帧移与帧长示意图。
3.1 语音信号的预处理
帧长
帧移 帧长 第K+1移
图3.1-5 帧移和帧长示意图
8
3.1 语音信号的预处理 加窗常用的两种方法
3.1 语音信号的预处理
图3.1-7 汉明窗及时域及频谱图
思考:两种窗效果有何异同?
11
加窗方法示意图:
3.1 语音信号的预处理
图3.1-8 窗移动图
12
3.1 语音信号的预处理
语音信号的分帧处理,实际上就是对各帧进行 某种变换或运算。设这种变换或运算用T[ ]表示, x(n)为输入语音信号,w(n)为窗序列,h(n)是与w(n) 有关的滤波器,则各帧ng)窗 窗函数如下:
1 0 n N 1
w(n) 0
其它
(3.1-2)
w(n)
0.54
0.46
cos
2πn / N 1
,0 n
N
0
其它
(3.1-3)
9
矩形窗及其频谱如下
3.1 语音信号的预处理
图3.1-6 矩形窗的时域及频谱图
10
汉明窗及其频谱如下
模拟语音信号s(t) 离散化为s(n)
数字处理


数 字
正式
大公司或语音研究机构发布的被大家认可的 语音数据库



研究者个人用录音软件或硬件电路加麦克风随
途 非正式
时随地录制的一些发音或语句

东南大学语音信号处理期末考试复习总结(全面)

东南大学语音信号处理期末考试复习总结(全面)

语音信号处理是研究数字信号处理技术对语音信号进行处理的一门科学语音:是声音和语言的结合体,是一连串的音组成的语言的声音。

人的说话过程:想说,说出,传送,接收,理解。

句法的最小单位是单词,词法的最小单位是音节。

语音特征:音色,音调,音强,音长。

语音音素:元音和辅音。

辅音包括浊音(声带振动)和清音共振xx:元音激励进入声道时引起共振特性,产生一组共振频率。

基音频率:浊音的声带振动的基本频率。

汉语是一种声调语言,声调具有辩义作用。

声调的变化就是浊音基音周期的变化。

汉语音节的一般结构:声带,韵母,声调对发音影响最大的是声带。

基音周期:声带每开启和闭合一次的时间,倒数就是基音频率。

语音听觉系统:耳:内耳(将机械信号转化为神经信号),中耳(声阻抗变换),外耳(声源定位和声音放大)。

掩蔽效应:在一个强信号附近,弱信号将变得不可闻。

被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限或掩蔽阈值。

掩蔽效应:同时掩蔽和短时掩蔽。

同时掩蔽:存在一个弱信号和一个强信号频率接近,强信号会提高弱信号的听阀,当弱信号的听阀被升高到一定程度就会导致这个弱信号弱不可闻。

短时掩蔽:当A声和B声不同时存在时也存在掩蔽作用,称为短时掩蔽。

语音信号生成的数学模型:激励模型(一般分为浊音激励和清音激励),声道模型(一般分为声管模型和共振峰模型,共振峰模型又分为三种:级联,xx,混合型),辐射模型。

浊音激励模拟成是一个以基音周期为周期的斜三角脉冲串。

可以把清音模拟成随机白噪声。

完整的语音信号的数学模型的传输函数H(z) = AU(z)V(z)R(z).一阶高通形式的R(z)=R0(1-z^(-1))把和时序相关的傅里叶分析的显示图形称为语谱图。

语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形。

第三章:语音信号分析1.参数性质不同:时域,频域,倒频域。

分析方法:模型分析法(根据语音信号产生的数学模型来分析和提取表征这些模型的特征参数)和非模型分析法(时域,频域,倒频域)。

通信中的语音信号处理复习大纲

通信中的语音信号处理复习大纲

通信中的语音信号处理复习大纲《通信中的语音信号处理》复习大纲北科大版1、了解语音信号处理的目的、实质和发展历史;实质:是研究用数字信号处理技术对语音信号进行处理的一门学科目的:通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信号所包含的信息。

通过对语音信号进行某种运算以达到某种要求。

发展历史:1876年电话的发明,贝尔(Bell);1939年声码器的研制成功—声源+声道;1947年贝尔实验室发明语谱图仪—语音识别研究的开始;50年代第一台口授打字机和英语单词语音识别器;60年代出现了第一台以数字计算机为基础的孤立词语音识别器和有限连续语音识别器;70年代动态规划技术、隐马尔可夫模型、线性预测技术和矢量量化码书生成方法用于语音编码和识别;80、90年代语音处理技术产品化—IBM Tangora-5和Tangora-20英语听写机,Dragon Dictate 词汇翻译系统(70000),汉语听写机。

CMU语音组研制成功SPHINX系统(997,95.8%);国内,清华大学、中科院声学所和中科院自动化所在汉语听写机研究方面有一定成果。

(除了属于这种LPC[线性预测分析法]的方法外,还开发了各种数字语音处理方法。

到目前为止,相继实现了语音编码、语音分析、语音合成、语音修正、语音识别、说话者识别等各种具体应用系统。

)2、理解和掌握语音信号的表示和处理方法,常用的语音编码的采样率和相应的数字语音信号的速率;1.语音表示方法的选择:要保存语音信号中的消息内容;表示形式要便于传输和存储、变换和处理,不至于严重损害消息的内容,有用信息更易于被提取;2. 语音信号数字表示的优点:数字技术能完成许多很复杂的信号处理工作;语音可以看成是音素的组合,具有离散的性质,特别适合于数字处理;数字系统具有高可靠性、价廉、紧凑、快速等特点,很容易完成实时处理任务;数字语音适于在强干扰信道中传输,易于和数据一起在通信网中传输,也易于进行加密传输。

语音信号处理复习华南理工

语音信号处理复习华南理工

语音信号处理复习第二章语音信号处理基础知识1,定义:(1)语音是指人们讲话时发出的话语,它是一种声音,具有声学特征的物理特性。

而它又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。

因此语音是语言和声音的组合体。

(2)语音是由人的发声器官发出的一种声波,它具有音色、音调、音强和音长。

①音色:是一种声音区别于另一种声音的基本特征②音调:指声音的高低,取决于声波的频率③音强:指声音的强弱,取决于声波的振幅④音长:指声音的长短,取决于发音时间的长短(3)任何语言都有语言的元音和辅音两种音素:元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。

一个重要的声学特性是共振峰。

辅音:由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通。

包括清音和浊音。

①浊音:声带振动②清音:声带不振动(4)人的听觉系统有两个重要的特性:①时频分析特性:人的耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量。

②听觉掩蔽效应:心理声学中的听觉掩蔽效应指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。

掩蔽效应分为同时掩蔽和短时掩蔽。

2,语言信号生成的数学模型:①激励模型:在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是激励系统②声道模型:从声门到嘴唇的呼气通道是声道,是声道系统③辐射模型:语音从嘴唇辐射出去,则嘴唇以外是辐射系统3,语音信号的特性分析:(1)语音信号的时域波形和频谱特性:①时域波形:周期性,周期对应声带振动的频率,即基音频率。

②频谱特性:共振峰特性。

元音频谱有明显的几个凸起点,它们出现的频率就是共振峰频率。

清辅音频谱峰点之间的间隔是随机的,没有周期分量。

(2)语谱图:语谱图是一种三维图谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。

语谱图中显示了大量的与语音的语句特性相关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。

语音信号处理第10章

语音信号处理第10章

F越大表示越有效,即不同说话人的特征量的均值分布的离散 程度分布得越散越好;而同一个人的越集中越好。

10.2.3特征参量评估方法
D比:把F比的概念推广到多维,用以衡量多维特征矢量在说
话人识别系统中的有效性。F比没有考虑到特征矢量中各维 参数之间的相关性。 定义两个协方差矩阵,即说话人间的协方差矩阵B和说话人内 协方差矩阵W,

10.2.5说话人识别中判别方法和阈值的选择
加快系统响应的判别分法:多门限判决、预分类技术。
说话人确认系统的阈值选择: 确认错误由误拒率(False Rejection, FR)和误受率 (False Acceptance, FA) 表示。判决门限一般由FR和 FA的相等点附件来确定。

10.2.6说话人识别系统的评价
log P ( X T
i 1
1
T
t
/ )

10.6.2GMM模型的参数估计
GMM模型的训练就是给定一组训练数据,依据某种准则确 定模型参数。最常用的参数估计方法是最大似然估计(ML )估计。对于一组长度为T的训练矢量序列 X { X 1 X 2 ,..., X T } ,GMM的似然度可以表示为:
10.4应用VQ的说话人识别系统
目前自动说话人识别的方法主要是基于参数模型的HMM的 方法和基于非参数模型的VQ的方法。应用VQ的说话人识别 系统如图10-5所示。

1.
应用VQ的说话人识别过程的步骤如下:
训练过程
① ② ③ ④
从训练语音提取特征矢量,得到特征矢量集; 通过LBG算法生成码本; 重复训练修正优化码本; 存储码本
3.
矢量量化方法(VQ)
将每个人的特定文本训练成码本,识别时将测试文本按此码本进行编码, 以量化产生的失真度作为判决标准。优点:速度快,识别精度不低。

语音信号处理考试试题

语音信号处理考试试题

语音信号处理考试试题一、简答题1. 请解释什么是语音信号处理?语音信号处理指的是对语音信号进行数字信号处理的过程。

它涉及到声音的采集、编码、分析、合成和识别等一系列处理技术,旨在提高语音通信和语音识别系统的性能。

2. 请列举一些常见的语音信号处理应用。

常见的语音信号处理应用包括语音通信、语音识别、语音合成、语音增强、语音压缩等。

3. 请简要描述语音信号处理系统的基本框架。

语音信号处理系统的基本框架包括声音的采集、预处理、特征提取、模型训练和解码等步骤。

首先,声音信号通过麦克风采集,并进行预处理,如去除噪声、归一化等。

然后,从预处理的信号中提取出特征,如音频频谱、共振峰等信息。

接下来,使用这些特征进行模型的训练,以建立语音信号的模型。

最后,通过解码器将输入的语音信号与训练好的模型进行匹配,从而实现语音的识别或合成。

4. 请列举一些常用的语音信号处理算法或技术。

常用的语音信号处理算法或技术包括数字滤波、时域和频域特征提取、自动语音识别(ASR)、线性预测编码(LPC)、傅里叶变换(FFT)、Mel频谱倒谱系数(MFCC)、隐藏马尔可夫模型(HMM)等。

5. 请解释什么是Mel频谱倒谱系数(MFCC)算法。

Mel频谱倒谱系数(MFCC)算法是一种常用的语音信号处理算法,主要用于语音特征提取。

它模拟了人类听觉系统的工作原理,通过对语音信号进行分帧、加窗、傅里叶变换等处理,提取出与人耳感知的频率特征相关的Mel频率倒谱系数。

MFCC算法具有较好的语音信号特征提取效果,广泛应用于语音识别等领域。

二、计算题1. 对下述数字信号进行离散傅里叶变换(DFT):x(n) = [1, 2, 3, 4]首先,对x(n)进行零填充,得到长度为N的信号x'(n) = [1, 2, 3, 4, 0, 0, 0, 0]。

然后,对x'(n)进行DFT计算,得到频谱X(k)。

X(k) = [10, -2+2j, -2, -2-2j, 0, 0, 0, 0]2. 对下述频谱进行逆离散傅里叶变换(IDFT):X(k) = [10, -2+2j, -2, -2-2j]首先,对X(k)进行逆DFT计算,得到时域信号x(n)。

语音信号处理复习要点

语音信号处理复习要点

考试时间:6月21日下午1:30-3:20考试地点:七(1、3、5班)、六阶(2、4及重修)《数字语音处理及Matlab仿真》1.语音信号短时分析的帧长一般取多长?10-30ms2.男性和女性的基音频率分别在什么范围?*P41 男50-250Hz 女100-500Hz3.语音信号的频率范围是多少?*300-3400Hz4.语音信号处理中,经济实用的采样率是多少?*8000Hz5.从能量和过零率两方面说明清音和浊音的区别。

*P 30:浊音能量明显高于清音 P 30:清音过零率高于浊音6.给出基音周期检测的两种方法。

*P 45:基于短时自相关法的基音周期估值和基于短时平均幅度差函数法的基音周期估值。

7.给出语音倒谱的两种应用。

*P 88、90:基因检测与共振峰检测8.语音信号典型的时域特征有哪些?*P190 :平均能量、短时平均过零率、基音周期。

9.在语音识别和说话人识别中主流的频域特征是什么?*P191 :MFCC10.在只考虑身高的矢量量化中,如果量化码本中只包含“姚明(2.26米)”和“潘长江(1.58米)”两个码字,你本人应该用哪个码字量化?*1.92以上姚明;1.92以下潘长江11.名词解释(写出缩写的英文缩写的全称、中文名称、简单含义,下同):MFCC*P24312.什么是基音频率?*P45:浊音声带振动基频称之为及音频率13.名词解释:LPC*P24214.线性预测分析的基本思想是什么?*P95:基本思想:一个语音取样的现在值可以用若干个语音取样过去值的加权线性组合来逼近,在线性组合中的加权系数称为预感器系数。

通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小值,能够决定唯一的一组预测器系数。

15.语音编码从采用的编码方法的角度可以分为哪三类?*P138:波形编码、参数编码、混合编码。

16.名词解释:PCM*P24317.8k采样率、8位量化的编码速率是多少?*64kbit/s18.ADPCM中“D”和“A”分别是什么含义?*P240:A自适应 D差分19.LPC-10的编码速率是多少?它采用的哪类编码方法?*P163:2.4kbit/s 参数编码20.语音合成的方法分为哪三类?*P172:波形合成法、参数合成法、规则合成法。

南理工-语音信号处理期末考试重点整理

南理工-语音信号处理期末考试重点整理

2、语音信号产生过程
2.语音产生过程
浊音(Voiced sounds) :声带绷紧,气流通过时会使得 开口变成一开一闭的周期性动作,这时候就造成周期 性的激发气流,如a,o;
清音(Unvoiced or Fricative sounds) :声带完全舒展 ,声道某部位收缩形成一个狭窄的通道,产生空气湍 流,如t,d;
3、语音信号产生的数字模型
第02章基础知识—12
由图可见,它是一个低通滤波器。频率分析表明,其幅度谱按12 dB/倍 频程的速率衰减。如果将其表示为Z变换的全极模型的形式,有 G(z)=1/ (1-g1z-1)(1-g2z-1)
如果g1和g2的值都接近于1,则由此形成的激励信号频谱很接近于声门 脉冲的频谱。显然,上式表明斜三角波可描述为一个二阶极点的模型。需 要指出,不同人、不同语音,其声门脉冲的形状不一定相同,但在语音合 成中对其形状要求不很苛刻,只要其傅里叶变换有近似的特性就可以了。
第02章基础知识—9
3、语音信号产生的数字模型
3. 语音信号产生的数字模型
下图是一 个完整的语音信号产生的数字模型:
第02章基础知识—10
3、语音信号产生的数字模型
由此模型框图,我们可将语音信号看成 准周期序列或随机噪声序列作为激励的 线性非移变系统的输出,此模型可分为 三个部分:激励模型、声道模型、辐射 模型 激励模型 根据发浊音和发清音的机理 又分为:(a)浊音激励 (b)清音激励
出。 基于各种音素发音的不同谐振特点可建立起三
种实用的共振峰模型: (a)级联型 (b)并联型 (c)混合型
第02章基础知识—16
3、语音信号产生的数字模型
(2) 声道模型
(a)级联型: 适用于一般单元音,认为声道是一组串联的二阶谐振器:

语音信号处理复习资料

语音信号处理复习资料
1.说话人识别和语音识别的区别在什么地方? 2.说话人确认和说话人辨认有什么不同? 3.在说话人识别中,应选择哪些可以表征个人特征 的识别参数? 4.怎样评价说话人识别特征参数选取的好坏?即F 比的物理意义? 5.说话人确认系统最重要的两个性能指标是什么? 含义为什么? 6.基于DTW和VQ算法的系统框图理解。
R( z ) R0 (1 z )
一阶类高通滤波器形式 嘴唇的辐射影响引起的输出信号高频提升作用 大约有每倍频程6dB
1
4. 完整的语音信号数字模型
V ( z ) U ( z ) H ( z ) R( z )
基音周期 激励模型 声道模型
辐射模型
准周期脉冲 序列发生器 随机噪声 发 生 器 增益控制 时变参数 浊音
学习得到 基音周期的计算 清音浊音的判断
图2-6 输出的语音频谱 虚线为谱包络,恢复谱包络是许多语音 处理应用中的主要问题,因为谱包络携 带了主要的发音信息
方法 根据长时间范围内一段语音信号的大量取样 数据的绝对值计算其直方图 概率密度
f ( x)
k 2
.
e
k x
x
修正伽玛概率密度
语音的分类
语音的基本特性
语音的时间波形和频谱特性
语音信号的统计特性
激励模型 语音信号 的产生模型 声道模型
声管模型
级联型
共振峰模型 并联型
辐射模型
混合型
定义 人耳的听力范围 语音感知 声音的三要素 掩蔽效应
第二章思考题:
1. 什么叫语言?什么叫语音? 2. 人类的发音器官包括哪些?在发音时各起了 什么作用? 3. 解释以下概念:基音频率、共振峰、浊音、 清音。 4. 语音信号模型包括哪些子模型?激励模型和 辐射模型各属于什么性质的滤波器?

语音信号处理中期复习要点

语音信号处理中期复习要点

《语音信号处理》中期复习要点[0].什么是语音?解释音质、音量、音调[1].解释元音、辅音[2].解释音素、音节[3].语音信号的最大特点是什么?[4].解释基音、共振峰的概念[5].列于几种语音预处理的方法[6].语音预处理中的预加重,加重的是哪部份?[7].相同条件下,时间分辨率、频率分辨率、时宽、带宽相互之间成什么关系?[8].讨论窗口大小对短时能量分析的影响。

[9].讨论窗口大小对短时幅度分析的影响。

[10].已知某音频信号的采样率为10kHz,量化精度为16位,均匀量化,则该信号的编码率为?(单位bps)[11].短时能量分析和短时平均幅度分析的本质是相同的,都是以对语音信号的什么为研究对象的。

[12].短时相关分析和短时平均幅度差分析出发点相同,以语音的什么为考察对象的?[13].过零率和什么密切相关?[14].三条曲线分别代表三种音素:浊音V、清音U、无声S(能量较小的背景噪声)的短时过零概率分布,在图中标注对应位置。

[15].三条曲线分别代表三种音素:浊音V、清音U、无声S(能量较小的背景噪声)短时幅度概率分布,在图中标注对应位置。

[16].E n、Mn的作用是什么?[17].解释短时自相关分析为什么能够提取基音。

[18].估计该图语音的基音周期[19].经过修正和没有经过修正的短时自相关分析有何区别?为什么要进行修正?[20].经过修正和没有经过修正的短时平均幅度差分析有何区别?为什么要进行修正?[21].人耳对语音的高频还是低频部分更加敏感?[22].利用语音信号(浊音)的准周期性,来提取基音信息或区分清浊音的时域方法有哪些?[23].E n(k)=21)]()([1∑-=++-+NmkmnxmnxN可以用来提取什么?两个窗口的大小关系是?[24].什么是短时自相关分析的“谱平整”[25].比较短时自相关和AMDF的算法优缺点[26].语音信号的STFT,是一个关于和的二元函数,分别固定它们时,可以得到两种解释,一种是,一种是。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音信号处理
第十章-第十三章复习题
一、单项选择题
1.采用矢量编码语音编码技术的是(C )P163
A.ADPCM
B.SBC
C.LPC
D.ATC
2.语音信号的线性量化器中,每比特字长对信噪比的贡献为(B )P25
A.1dB
B.6dB
C.10dB
D.20dB
3.对语音信号数字传输的优点描述错误的是(D )P135
A.数字语音传输时引入的噪声和失真不会积累
B.可进行数字加密,具有极高的保密性
C.便于存储和处理
D.不需调制,可直接进行远程传输
4.在语音通信中,将语音质量分为四个等级,其中占用频带最宽的是(A)P139 A.广播质量 B.长途电话质量 C.通信质量 D.合成质量
5.在语音通信中,将语音质量分为四个等级,其中数码率要求最低的是(D )P139 A.广播质量 B.长途电话质量 C.通信质量 D.合成质量
6.语音数字通信技术包括的两个主要内容是(C)
A.语音编码技术和声码器技术
B.语音量化技术和语音传输技术
C.语音编码技术和解码技术
D. 语音量化技术和编码技术
7.对语音压缩编码需要折衷考虑的三个方面的描述中,正确的是(A )P136
A.保持可懂度与音质
B.提高抗干扰能力
C.提高数码率
D. 提高编码复杂度
8.属于语音合成的方法是(D )P176
A.上下文合成法
B.人工合成法
C.语义合成法
D.规则合成法
9.语音识别的方法中,难度最大的是(A )P188
A.语音理解
B.连续语音识别
C.孤立单词识别
D.选词语音识别
10.不属于语音识别方法的是(B)P189
A.模式匹配法
B.最小误差法
C.随机模型法
D.概率语法分析法
11.对语音信号冗余度的描述中,与采用的编码方式有关的是(A)p138
A.传输码值的概率分布是非均匀的
B.语音信号短时谱不平坦
C.浊音语音段具有准周期性
D. 声道的形状及变化比较缓慢
12.不属于常用声码器的结构是(B)P155
A.通道声码器
B.相位声码器
C.共振峰声码器
D.LPC声码器
13.在子带编码中为编码子带之间的相互混叠,所采用的分割滤波器是(A )p149
A.正交镜像滤波器
B.匹配滤波器
C.同态滤波器
D.线性预测滤波器
二、填空题
14.语音信号的子带编码本质是通过正交镜像滤波器将信号分解成若干个频带的信号进行处理。

P149
15.实现语音信号参数编码的器件称为声码器。

p154
16.语音信号压缩编码的两类应用分别是数字存储和数字传输。

p136
17.根据语音信号的数字模型提取参数后进行编码压缩,从编码类型来讲,属于参数编码。

p154
18.语音信号的压缩编码如用于数字电话通信,则属于数字传输应用。

P136 19.常用的声码器有三种,即通道声码器、共振峰声码器和LPC声码器。

P155。

相关文档
最新文档