南理工 语音信号处理期末考试重点整理
老师整理————语音信号处理复习知识点-11南理工
老师整理————语音信号处理复习知识点-11南理工§1.1 语音信号处理概述一、语音、语音信号处理的名词解释1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。
2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。
它与语音学、语言学、声学、认知科学、生理学、心理学有密切关系。
3、语音信号的数字处理的优点:第二页第四段二、语音学的名词解释语音学:与语音信号处理存在十分密切的关系,是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。
§1.2 语音信号处理的发展概况1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。
2、语音合成:语音合成的目的是使计算机能像人一样说话。
3、语音识别:语音识别是使计算机判断出所说的话的内容。
§2.2 语音产生的过程一、语音、清音、浊音1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。
语音是声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。
语音的振动频率最高可达15kHz左右。
2、浊音、清音:语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。
浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。
二、语音的产生过程(人体发出声音的基本过程):人类的语音是由人体发音器官在大脑控制下的生理运动产生的。
空气从肺部排出形成气流,冲击声带,如果声带是紧绷的,则则形成准周期性脉冲的空气流,产生“浊音”。
若声带完全舒展,则形成摩擦音或爆破音。
经过声道调制的空气流最后从口或鼻腔辐射出来,形成语音。
语音信号的考试部分知识点
语音信号处理复习资料一、名词解释:1、基音周期:声带开合一次的时间为基音周期(pitch period)。
它的倒数称为基频。
2 、音色:也叫音质;由混入基音中的倍音决定。
3 、音高:声音的高低;主要用基频反映。
基频值越大,反映出的音高越高。
4、音强:发音的轻重;可以用声压或声强来表示声音的强度,一般用相对声压或相对声强表示。
5、音长:声音的长短,取决于发音持续时间的长短。
6、响度:是一种主观心理量,主观感觉到的声音强弱的一种衡量标准,它与频率有关。
一样的音强,不一样的频率,则响度也会有所不同。
7、听觉掩蔽效应:一个更响的音调可以将其频率附近的较低的音调掩蔽。
可以分为同时掩蔽和异外时掩蔽。
8、临界频带:一个纯音可以被以它为中心频率,且具有一定带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚好能被听到的临界状态,即称这一带宽为临界带宽。
临界带宽有许多近似表示,一般在低于500 Hz的频带内,临界带宽约为100Hz,在高于500Hz 时,临界带宽约为中心频率的20% 。
人耳的基底膜具有与频谱分析仪相似的作用。
频率群的划分相应地将基底膜分成许多小的部分,每一部分对应一个频率群。
掩蔽效应就是在这些频率群内发生,这是因为对应的那一频率群的基底膜部分的声音,在大脑中似乎是叠加在一起来评价的,如果这时同时发声,可以互相掩蔽。
9、采样的基础知识:对于一个有限带宽的模拟信号,其频谱的最高频率为F0,在对其进行采样时,其采样频率在Fs>2F0时,采样后的信号才能保证信息不丢失。
语音信号中人耳可以感知的最大频率在3.4KHz左右采样频率在8KHz~16KHz之间短时分析:内平稳语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10~30ms,语音信号近似不变。
于是,我们把变化的语音信号分成一些相继的短时间段来处理。
语音信号处理复习华南理工.
语音信号处理复习第二章语音信号处理基础知识1,定义:(1)语音是指人们讲话时发出的话语,它是一种声音,具有声学特征的物理特性。
而它又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。
因此语音是语言和声音的组合体。
(2)语音是由人的发声器官发出的一种声波,它具有音色、音调、音强和音长。
①音色:是一种声音区别于另一种声音的基本特征②音调:指声音的高低,取决于声波的频率③音强:指声音的强弱,取决于声波的振幅④音长:指声音的长短,取决于发音时间的长短(3)任何语言都有语言的元音和辅音两种音素:元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。
一个重要的声学特性是共振峰。
辅音:由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通。
包括清音和浊音。
①浊音:声带振动②清音:声带不振动(4)人的听觉系统有两个重要的特性:①时频分析特性:人的耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量。
②听觉掩蔽效应:心理声学中的听觉掩蔽效应指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。
掩蔽效应分为同时掩蔽和短时掩蔽。
2,语言信号生成的数学模型:①激励模型:在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是激励系统②声道模型:从声门到嘴唇的呼气通道是声道,是声道系统③辐射模型:语音从嘴唇辐射出去,则嘴唇以外是辐射系统3,语音信号的特性分析:(1)语音信号的时域波形和频谱特性:①时域波形:周期性,周期对应声带振动的频率,即基音频率。
②频谱特性:共振峰特性。
元音频谱有明显的几个凸起点,它们出现的频率就是共振峰频率。
清辅音频谱峰点之间的间隔是随机的,没有周期分量。
(2)语谱图:语谱图是一种三维图谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
语谱图中显示了大量的与语音的语句特性相关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。
语音信号处理复习题
语音信号处理复习题1 由下面的WAV文件读出语音的编码信息:52 49 46 46 A4 9A 7B 01 57 41 56 45 66 6D 74 2010 00 00 00 01 00 02 00 44 AC 00 00 10 B1 02 0004 00 10 00 64 61 74 61 80 9A 7B 01 42 FF 35 FCE2 FE 07 00 E7 FE AF 03 5F FF 65 01.....................2 画出语音信号的产生模型,简述语音的产生过程。
语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。
3 为生么语音信号要进行“短时〞分析。
答:语音信号特性是随时间变化的,是一个非平稳的随机过程,但在一个短时间范围内其特性根本保持不变,即语音信号具有“短时平稳性〞,因而可将语音信号看成准平稳过程,对其进行短时分析.4 语音信号的时域分析方法有那些?答:短时能量,短时平均过零率,短时自相关函数5 语音信号频率范围是多少?答:语音信号的频率大约在20Hz~20KHz。
6 什么是浊音的基音频率(F0)?男性、女性和儿童的F0大致分布在什么范围。
答:浊音的基音频率(F0):声带张开和闭合一次的时间的倒数。
由声带的尺寸、特性和声带所受张力决定。
F0的大小决定了声音的上下,称为音高。
男性的F0大致分布在:60-200Hz,女性和儿童的F0大致分布在:200-450Hz7 可以认为多长的时间范围内,语音信号是平稳信号。
答:10-30ms8 语音的采样率为8kHz;纯语音在进行计算机录入时,一般采样率在15kHz~20kHz左右;音乐的采样率可以高达44kHz。
9 如何利用语音信号的时域分析方法进行清、浊判断。
答:1、短时能量分析依据:是基于语音信号幅度随时间变化】清音段幅度小,其能量集中高频段;浊音段幅度较大,其能量集中低频段;2、平均幅度分析的依据:清音段幅度小,浊音段幅度较大。
语音信号处理_考试参考题(修订版)(1)
一、填空题:(每空1 分,共60分)1、语音(speech)300-3400kHz,采样率为(8kHz )宽带语音(wide-band speech),带宽7kHz (50-7k),采样率为(14k Hz )带宽20kHz(20-20k),采样率一般为(40k Hz )2、语音由肺中的通过(稳定)的气流或声道中的气流激励(喉头至嘴唇的器官的各种作用)而产生。
当肺中的气流通过声门时,声门由于其间气体压力的变化而开闭,使得气流时而通过,时而被阻断,从而形成一串周期性脉冲送入声道,由此产生的语音是(浊音)。
如果声带不振动,声门完全封闭,而声道在某处收缩,迫使气流高速通过这一收缩部位而发音,由此产生的语音是(清音)。
3、语音信号从总体上是非平稳信号。
但是,在短时段(10~30)ms中语音信号又可以认为是平稳的,或缓变的。
4、语音的四要素是音长,音强,音高和音质,它们可从时域波形上反映出来。
其中音长特性:音长(长),说话速度必然慢;音长(短),说话速度必然快。
音强的大小是由于声源的(震动幅度)大小来决定。
5、声音的响度是一个和(振幅)有密切联系的物理量,但并不就是音强。
6、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即(浊音)、(清音)和(爆破音)。
7、当气流通过声门时声带的张力刚好使声带发生较低频率的张弛振荡,形成准周期性的空气脉冲,这些空气脉冲激励声道便产生浊音如果声道中某处面积很小,气流高速冲过此处时而产生湍流,当气流速度与横截面积之比大于某个门限时(临界速度)便产生摩擦音,即(清音)。
8、如果声道某处完全闭合建立起气压,然后突然释放而产生的声音就是(爆破音)。
9、在大多数语音处理方案中,基本的假定为语音信号特性随时间的变化是(平稳随机)的。
这个假定导出各种(线性时不变)处理方法,在这里语音信号被分隔为一些短段再加以处理。
10、一个频率为F。
的正弦形信号以Fs速率抽样,正弦波的一周内就有(Fs/F0)个抽样。
南理工 语音信号处理期末考试重点整理
3、语音信号产生的数字模型
3. 语音信号产生的数字模型
下图是一 个完整的语音信号产生的数字模型:
第02章基础知识—10
3、语音信号产生的数字模型
由此模型框图,我们可将语音信号看成 准周期序列或随机噪声序列作为激励的 线性非移变系统的输出,此模型可分为 三个部分:激励模型、声道模型、辐射 模型 激励模型 根据发浊音和发清音的机理 又分为:(a)浊音激励 (b)清音激励
第02章基础知识—12
由图可见,它是一个低通滤波器。频率分析表明,其幅度谱按12 dB/倍 频程的速率衰减。如果将其表示为Z变换的全极模型的形式,有 G(z)=1/ (1-g1z-1)(1-g2z-1) 如果g1和g2的值都接近于1,则由此形成的激励信号频谱很接近于声门 脉冲的频谱。显然,上式表明斜三角波可描述为一个二阶极点的模型。需 要指出,不同人、不同语音,其声门脉冲的形状不一定相同,但在语音合 成中对其形状要求不很苛刻,只要其傅里叶变换有近似的特性就可以了。
3
第2章 语音信号基础知识
1.
声音是一种波,振动频率在20~20 000 Hz之间。 20HZ以下:次声波 20 000HZ以上:超声波
第02章基础知识—4
1、人类的语言器官
1. 人类的语言器官
人体发音器官—肺、气管、喉(包括声
带)和声道 肺是语音产生的能源所在; 声带为产生语音提供主要的激励源; 声道是指声门至嘴唇的所有器官:咽、 鼻腔 、口腔等,它们具有非均匀截面, 且随时间变化,起共鸣器(或谐振器) 的作用。
第02章基础知识—7
Hale Waihona Puke 、语音信号产生过程语音的两个重要声学特性:基音频率,共振峰 浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力决 定,其值等于声带张开和闭合一次的时间的倒数。人类基 音频率的范围在80~500 Hz左右。 共振峰(Fn , n=1,2,...):声道是一个谐振腔,它放大声音气流 的某些频率分量而衰减其他频率分量,被放大的频率我们 称之为共振峰或共振峰频率。 声道具有的一组共振峰,声道的频谱特性主要反映出这些共 振峰的不同位置以及各个峰的频带宽度 。共振峰及其带宽 取决于声道某一瞬间的形状和尺寸,因而不同的语音对应 于一组不同的共振峰参数。实际应用中,头三个共振峰最 重要,越多越精确。
大学语音教程期末总结
大学语音教程期末总结一、引言语音学是语言学的一个重要分支,研究的是语音的产生、传播和感知。
在语音学的学习过程中,我们主要学习了语音的基本要素、国际音标及其发音方法、声音的形成过程以及语音的调节和共振等知识。
通过这门课程的学习,我对语音学有了更深入的了解,也提高了自己的语音表达能力。
在期末考试之际,我特意总结了本学期的学习内容和经验,分享给大家。
二、语音学的基本要素语音学的基本要素主要包括语音的发音部位、发音方法、音素和音节等方面。
在本学期的学习过程中,我们通过分析语音器官的结构,了解了人类发声的机制,明白了声带、口腔、鼻腔等器官在语音中起到的作用。
同时,我们还学习了不同音素的特点和发音方法,通过与国际音标的对照和练习,能够正确发出各种语音,改善自己的发音水平。
三、国际音标及其发音方法国际音标是一种用于表示各种语音的标准符号系统,它为不同的语音分配了不同的符号,以便于研究者和教学者使用。
在本学期的学习中,我们通过学习国际音标,掌握了各个音素的发音方法。
通过反复练习和模仿,逐渐熟悉了这些音素的发音要领,并在实际口语表达中进行了实践。
这种学习方法不仅提高了我们的发音准确性,更重要的是使我们能够更好地理解和运用语音学的知识。
四、声音的形成过程声音的形成过程是指声带振动产生声音的全过程。
在本学期的学习中,我们详细研究了声波的传播规律、声带的结构和运动以及通过调节喉部和口腔的位置来产生不同的声音等内容。
通过这门课程的学习,我了解到了声音产生的机制和原理,也知道了如何通过调整发声部位和发声方法来改变口语表达中的音调和语音感。
五、语音的调节和共振语音的调节和共振是语音产生过程的重要环节。
了解和掌握如何通过调整发声器官的位置来改变声音的高低、音调和音色,是提高发音水平的关键。
在本学期的学习中,我们通过课堂上老师的示范和指导,不断练习调节喉部和口腔的位置,不仅能够正确地发出各种语音,更重要的是将这种调节能力应用到实际的口语表达中,使自己的表达更加生动和自然。
《语音信号处理》期末试题总结
2011-2013学年《语音信号处理》期末考试试题适用班级:时量:120分钟闭卷记分:考生班级:姓名:学号:注:答案全部写在答题纸上,写在试卷上无效!一、填空题:(每空2分)1、矢量量化系统主要由编码器和译码器组成,其中编码器主要是由搜索算法和码书构成。
P1012、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。
P183、语音编码按传统的分类方法可以分为波形编码、参数编码和混合编码。
P1374、对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。
P137-1385、汉语音节一般由声母、韵母和声调三部分组成。
P106、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的掩蔽效应。
P227、句法的最小单位是词,词法的最小单位是音节,音节可以由音素构成。
P98、复倒谱分析中避免相位卷绕的算法,常用的有微分法和最小相位信号法。
P629、语音信号处理也可以简称为语音处理,它是利用数字信号处理技术对语音信号进行处理的一门学科,包括语音编码、语音合成、语音识别、说话人识别和语音增强等五大分支。
P310、语音信号处理也可以简称为语音处理,它是以数字信号处理和语音学为基础而形成的一个综合新的学科,包括发音语音学、声学语音学、听觉语音学和心理学等四大分支。
P2,611、语音的四大要素:音质、音调、音强和音长。
P912、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音、清音、和爆破音。
P813、元音的一个重要声学特性是共振峰,它是区别不同元音的重要参数,它一般包括共振峰频率的位置和频带宽度。
14、语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过同态信号处理来实现。
P56二、判断题:(每小题2分)√×1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。
(×)P1432、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。
语音信号处理复习
自相关法
基音检测
倒谱法
简化逆滤波法(SIFT)
共振峰估值
1. 带通滤波器法 2. DFT法
3. 倒谱法
4. LPC法
第9章思考题
1.基音检测的自相关法中的中心削波处理的思路 及实现过程? 2.用倒谱法实现基音检测和共振峰检测的原理及 实现框图?
•语音编码的概念、应用和分类等 •语音信号的压缩编码原理 • 语音通信中的语音质量 •脉冲编码调制(PCM)及其自适应
时变线性 系统
语音取样值
时变参数
第2章思考题:
1. 什么叫语言?什么叫语音? 2. 人类的发音器官包括哪些?在发音时各起了什
么作用? 3. 解释以下概念:基音频率、共振峰、浊音、清
音。 4. 语音信号模型包括哪些子模型?激励模型和辐
射模型各属于什么性质的滤波器?
第3章语音信号的时域分析
•语音处理的目的 •语音信号分析方法
1.什么叫做隐马尔可夫过程?为什么说语 音信号可以看成隐马尔可夫过程?
2. HMM模型的结构主要有哪两种?它们 的特点是什么?
3.隐马尔可夫模型有哪些模型参数?请 叙述这些参数的含义和定义式。
根据某状态HMM模型,每一种路 径输出某某符号的概率计算。
语音检测分析——语音特征参数的提取和分析。
主要包括:基音检测和共振峰参数的估值。
NT
•短时傅里叶变换的取样率 •语音信号的短时综合 滤波器组求和法
•语谱图
可同时在时间和频率上显示语音频谱随 时间的变化。
第4章思考题:
1. 短时傅里叶变换的定义式是什么?短时傅 里叶变换的两种解释是什么? 如何提高短 时谱的频率分辨率?
2. 在求语音信号的短时谱时,对窗函数有什 么要求? 对语音信号频谱分析采用海明窗 和矩形窗各有什么特点?
《语音信号处理》期末试题总结
《语音信号处理》期末试题总结语音信号处理期末试题总结在本学期的《语音信号处理》课程中,我们学习了很多有关语音信号处理的基本理论和方法。
本文将对这门课程的期末试题进行总结和回顾,以便加深对所学知识的理解和掌握。
一、语音信号处理的基本概念1. 语音信号的特点和基本原理在语音信号处理的学习中,我们首先了解了语音信号的基本特点。
语音信号是一种时间变化的连续信号,具有频谱特性和时域特性。
我们学习了频域分析和时域分析方法,如快速傅里叶变换(FFT)和数字滤波器的设计等。
2. 语音信号的采样和量化在语音信号处理中,我们需要对语音信号进行采样和量化,以便能够进行数字信号处理。
我们学习了采样定理和抽样频率的选择,以及量化误差和比特率的计算方法。
3. 语音信号的预处理在语音信号处理中,预处理是非常重要的一步。
我们学习了语音信号的预加重和去噪等预处理技术,它们可以提高语音信号的质量和可靠性。
二、语音信号处理的主要方法和技术1. 语音信号的特征提取为了能够对语音信号进行识别和分析,我们需要抽取出其特征。
我们学习了语音信号的短时能量、过零率、梅尔频率倒谱系数(MFCC)等常用的特征提取方法。
2. 语音信号的基本模型为了对语音信号进行建模和分析,我们学习了基于线性预测编码(LPC)的声道模型和声源模型。
这些模型可以帮助我们理解语音信号的生成过程,并对其进行分析和处理。
3. 语音信号的合成和变换在语音信号处理中,我们不仅关注对语音信号的分析,还关注对语音信号的合成和变换。
我们学习了基于线性预测编码的语音合成方法和语音变换方法,例如声码器的设计和声音的转换等。
三、语音信号处理的应用领域1. 语音识别语音识别是语音信号处理的一个重要应用领域。
我们学习了基于隐马尔科夫模型(HMM)的语音识别方法,以及声学模型和语言模型的训练和应用技巧。
2. 语音合成语音合成是将文本转换为语音信号的过程。
我们学习了基于拼音的语音合成方法和基于声道模型的语音合成方法,它们可以用来生成自然流畅的语音。
东南大学语音信号处理期末考试复习总结(全面)
语音信号处理是研究数字信号处理技术对语音信号进行处理的一门科学语音:是声音和语言的结合体,是一连串的音组成的语言的声音。
人的说话过程:想说,说出,传送,接收,理解。
句法的最小单位是单词,词法的最小单位是音节。
语音特征:音色,音调,音强,音长。
语音音素:元音和辅音。
辅音包括浊音(声带振动)和清音共振xx:元音激励进入声道时引起共振特性,产生一组共振频率。
基音频率:浊音的声带振动的基本频率。
汉语是一种声调语言,声调具有辩义作用。
声调的变化就是浊音基音周期的变化。
汉语音节的一般结构:声带,韵母,声调对发音影响最大的是声带。
基音周期:声带每开启和闭合一次的时间,倒数就是基音频率。
语音听觉系统:耳:内耳(将机械信号转化为神经信号),中耳(声阻抗变换),外耳(声源定位和声音放大)。
掩蔽效应:在一个强信号附近,弱信号将变得不可闻。
被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限或掩蔽阈值。
掩蔽效应:同时掩蔽和短时掩蔽。
同时掩蔽:存在一个弱信号和一个强信号频率接近,强信号会提高弱信号的听阀,当弱信号的听阀被升高到一定程度就会导致这个弱信号弱不可闻。
短时掩蔽:当A声和B声不同时存在时也存在掩蔽作用,称为短时掩蔽。
语音信号生成的数学模型:激励模型(一般分为浊音激励和清音激励),声道模型(一般分为声管模型和共振峰模型,共振峰模型又分为三种:级联,xx,混合型),辐射模型。
浊音激励模拟成是一个以基音周期为周期的斜三角脉冲串。
可以把清音模拟成随机白噪声。
完整的语音信号的数学模型的传输函数H(z) = AU(z)V(z)R(z).一阶高通形式的R(z)=R0(1-z^(-1))把和时序相关的傅里叶分析的显示图形称为语谱图。
语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形。
第三章:语音信号分析1.参数性质不同:时域,频域,倒频域。
分析方法:模型分析法(根据语音信号产生的数学模型来分析和提取表征这些模型的特征参数)和非模型分析法(时域,频域,倒频域)。
南理工 语音信号处理期末考试重点整理共86页
1、战鼓一响,法律无声。——英国 2、任何法律的根本;不,不成文法本 身就是 讲道理 ……法 律,也 ----即 明示道 理。— —爱·科 克
3、法律是最保险的头盔。——爱·科 克 4、一个国家如果纲纪不正,其国风一 定颓败 。—— 塞内加 5、法律不能使人人平等,但是在法律 面前只有永远躺在泥坑里的人,才不会再掉进坑里。——黑格尔 32、希望的灯一旦熄灭,生活刹那间变成了一片黑暗。——普列姆昌德 33、希望是人生的乳母。——科策布 34、形成天才的决定因素应该是勤奋。——郭沫若 35、学到很多东西的诀窍,就是一下子不要学很多。——洛克
语音信号处理期末试题总结
语音信号处理期末试题总结语音信号处理是计算机科学与工程领域中的一个重要分支,涉及到语音的获取、分析、处理和识别等方面。
本文将对语音信号处理期末试题进行总结,包括语音信号的特点、语音信号的数字化、语音信号的分析与处理等内容。
一、语音信号的特点语音信号是一种时变信号,具有以下特点:1. 高度相关性:语音信号中的相邻样本之间存在强相关性,即前后样本之间存在一定的联系。
2. 动态性:语音信号具有时变性,即语音信号的频率、幅度和相位等参数随时间不断变化。
3. 非线性:语音信号的产生和传输过程中存在非线性失真的因素,如话筒的非线性特性、音频设备中的非线性操作等。
二、语音信号的数字化为了方便处理和存储,需要将模拟语音信号转换为数字信号,即进行数字化处理。
数字化的过程主要包括采样、量化和编码三个步骤。
1. 采样:采样是指以一定的时间间隔对模拟语音信号进行采样,得到离散的样本值。
采样频率决定了语音信号的频带宽度,常用的采样频率为8kHz或16kHz。
2. 量化:量化是指将采样得到的连续样本值近似为离散的量化级别,常用的量化级别为8位或16位。
3. 编码:编码是指将量化后的样本值转换为二进制形式,方便存储和传输。
三、语音信号的分析与处理1. 短时能量与过零率:短时能量反映了语音信号在短时间内的能量变化情况,过零率反映了语音信号波形的变化频率。
通过计算短时能量和过零率可以进行语音的端点检测和语音活动检测。
2. 傅里叶变换:傅里叶变换是一种时频分析方法,可以将时域信号转换为频域表示,得到信号的频谱信息。
在语音信号处理中,傅里叶变换常用于语音的频谱分析和滤波处理。
3. 语音合成:语音合成是指根据给定的文本信息生成对应的语音信号。
常用的语音合成方法包括基于规则的合成和基于统计模型的合成。
4. 语音识别:语音识别是将语音信号转换为对应的文本信息的过程,常见的语音识别方法包括基于模板匹配的方法、基于统计的方法和深度学习方法等。
《信号分析与处理》期末考试复习提纲
VS
详细描述
幅度是指信号的最大值或最小值,频率是 指信号每秒钟变化的次数,相位则是指信 号在不同时间点的相对位置。这些特性决 定了信号的具体形状和特征,对于信号的 分析和处理非常重要。例如,在通信系统 中,信号的频率特性决定了信号的传输质 量和抗干扰能力。
填空题2
简述滤波器的作用。答案:滤波器的 作用是提取或抑制特定频率范围的信 号,用于信号处理和通信系统等领域 。
计算题
计算题1
给定一个信号x(t),求其傅里叶变换X(f)。答案:根据傅里叶变换的定义,利用积分计 算得到X(f)的表达式。
计算题2
给定两个信号x1(t)和x2(t),求其卷积结果。答案:根据卷积的定义,利用积分计算得 到x1(t)和x2(t)的卷积结果。
谢谢观看
选择题1
简述信号的基本特征。答案:信号的基本特征包括幅度、频率和相位。
选择题2
解释离散傅里叶变换(DFT)和快速傅里叶变换(FFT)的区别。答案:DFT计算复杂度为O(N^2),而 FFT计算复杂度为O(的频谱表示方法。答案:信 号的频谱表示方法包括频谱图和功率 谱密度函数。
若 $x(t)$ 是信号,则 $x(t-t_0)$ 的频谱是 $X(f)e^{-j2pi ft_0}$。
若 $x(t)$ 是信号,则 $x(t)e^{ j2pi ft}$ 的频 谱是 $X(f-f_0)$。
若 $x(t)$ 是信号,则 $x^*(t)$ 的频谱是 $X^*(f)$。
若 $x(t)$ 是周期信号, 其周期为 $T$,则 $X(f)$ 以 $frac{1}{T}$ 为周期。
详细描述
音频信号处理技术广泛应用于音乐制作、语音识别、音频编解码等领域。通过对 音频信号进行滤波、压缩、去噪等处理,可以提高音频质量或提取音频特征进行 进一步分析。
语音信号处理复习题
1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支?它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。
1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段?语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。
人的说话过程如图2-1所示,可以分为五个阶段:(1)想说阶段:(2)说出阶段:(3)传送阶段:(4)接收阶段:(5)理解阶段:3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况?声道的数学模型有两种观点:1)声管模型将声道看为由多个不同截面积的管子串联而成的系统。
在“短时”期间,声道可表示为形状稳定的管道。
另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。
共振峰模型,把声道视为一个谐振腔。
共振峰就是这个腔体的谐振频率。
由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。
一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。
基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。
(1)级联型声道模型这时认为声道是一组串联的二阶谐振器。
从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。
它的传输函数可分解表示为多个二阶极点的网络的串联:N=10,M=5时的声道模型如下图所示:(2)并联型声道模型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。
此时,模型的传输函数如下:通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型。
语音信号处理复习要点
考试时间:6月21日下午1:30-3:20考试地点:七(1、3、5班)、六阶(2、4及重修)《数字语音处理及Matlab仿真》1.语音信号短时分析的帧长一般取多长?10-30ms2.男性和女性的基音频率分别在什么范围?*P41 男50-250Hz 女100-500Hz3.语音信号的频率范围是多少?*300-3400Hz4.语音信号处理中,经济实用的采样率是多少?*8000Hz5.从能量和过零率两方面说明清音和浊音的区别。
*P 30:浊音能量明显高于清音 P 30:清音过零率高于浊音6.给出基音周期检测的两种方法。
*P 45:基于短时自相关法的基音周期估值和基于短时平均幅度差函数法的基音周期估值。
7.给出语音倒谱的两种应用。
*P 88、90:基因检测与共振峰检测8.语音信号典型的时域特征有哪些?*P190 :平均能量、短时平均过零率、基音周期。
9.在语音识别和说话人识别中主流的频域特征是什么?*P191 :MFCC10.在只考虑身高的矢量量化中,如果量化码本中只包含“姚明(2.26米)”和“潘长江(1.58米)”两个码字,你本人应该用哪个码字量化?*1.92以上姚明;1.92以下潘长江11.名词解释(写出缩写的英文缩写的全称、中文名称、简单含义,下同):MFCC*P24312.什么是基音频率?*P45:浊音声带振动基频称之为及音频率13.名词解释:LPC*P24214.线性预测分析的基本思想是什么?*P95:基本思想:一个语音取样的现在值可以用若干个语音取样过去值的加权线性组合来逼近,在线性组合中的加权系数称为预感器系数。
通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小值,能够决定唯一的一组预测器系数。
15.语音编码从采用的编码方法的角度可以分为哪三类?*P138:波形编码、参数编码、混合编码。
16.名词解释:PCM*P24317.8k采样率、8位量化的编码速率是多少?*64kbit/s18.ADPCM中“D”和“A”分别是什么含义?*P240:A自适应 D差分19.LPC-10的编码速率是多少?它采用的哪类编码方法?*P163:2.4kbit/s 参数编码20.语音合成的方法分为哪三类?*P172:波形合成法、参数合成法、规则合成法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
V ( z)
G 1 ak z k
k 1 P
这是一个全极点模型,极点 就是这个多项式的根:
1 ak z k 0
k 1
P
若P为偶数,解其根会得到共扼复数(conjugate complex) 的根,表示成: P / 2 1 * 1
(1 p z
i i 1
)(1 pi z )
i 1
P/2
P/2
1
1 1 1 b z c z i 1 i i
这样分解则每一个二阶因式均对应一个共振峰,其幅频 特性是典型的二阶谐振特性,谐振中心频率值等于共振 峰。若把语音的各个共振峰所对应的二阶系统级联起来 就形成了一个完整的级联型声道模型,且具有明显的谐 振特性。
3、语音信号产生的数字模型
第02章基础知识—7
2、语音信号产生过程
语音的两个重要声学特性:基音频率,共振峰 浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力决 定,其值等于声带张开和闭合一次的时间的倒数。人类基 音频率的范围在80~500 Hz左右。 共振峰(Fn , n=1,2,...):声道是一个谐振腔,它放大声音气流 的某些频率分量而衰减其他频率分量,被放大的频率我们 称之为共振峰或共振峰频率。 声道具有的一组共振峰,声道的频谱特性主要反映出这些共 振峰的不同位置以及各个峰的频带宽度 。共振峰及其带宽 取决于声道某一瞬间的形状和尺寸,因而不同的语音对应 于一组不同的共振峰参数。实际应用中,头三个共振峰最 重要,越多越精确。
第02章基础知识—9
3、语音信号产生的数字模型
3. 语音信号产生的数字模型
下图是一 个完整的语音信号产生的数字模型:
第02章基础知识—10
3、语音信号产生的数字模型
由此模型框图,我们可将语音信号看成 准周期序列或随机噪声序列作为激励的 线性非移变系统的输出,此模型可分为 三个部分:激励模型、声道模型、辐射 模型 激励模型 根据发浊音和发清音的机理 又分为:(a)浊音激励 (b)清音激励
语音信号处理 洪弘
1月20号晚上七点-九点,四工A107
选择题(2分,10题) 填空题(1分,15题) 文字解释(4分,5题) 简答题(9分,5题)
没有计算题。
第一章
1.语音信号处理的实质:是研究用数字信号处 理技术对语音信号进行处理的一门学科。 2.语音信号处理的目的: 通过处理得到一些反映语音信号重要特征的 语音参数,以便高效地传输或储存语音信号 所包含的信息。 通过对语音信号进行某种运算,以达到某种 要求。
3
第2章 语音信号基础知识
1.
声音是一种波,振动频率在20~20 000 Hz之间。 20HZ以下:次声波 20 000HZ以上:超声波
第02章基础知识—4
1、人类的语言器官
1. 人类的语言器官
人体发音器官—肺、气管、喉(包括声
带)和声道 肺是语音产生的能源所在; 声带为产生语音提供主要的激励源; 声道是指声门至嘴唇的所有器官:咽、 鼻腔 、口腔等,它们具有非均匀截面, 且随时间变化,起共鸣器(或谐振器) 的作用。
(2-6)
第02章基础知识—14
3、语音信号产生的数字模型
(b)清音激励 发清音时声道被阻碍形成湍流,所以可把 清音激励模拟成随机白噪声。此处用均值 为0方差为1并在幅值上为平稳分布的序列, 具体实现时可采用随机噪声发生器来产生 此序列。
第02章基础知识—15
3、语音信号产生的数字模型
(2) 声道模型
第02章基础知识—11
3、语音信号产生的数字模型
(1)激励模型
(a)浊音激励 由前面所讲发音过程可知,发 浊音时声带不断地张开和闭合 将产生间歇的准周期性脉冲波 ,其周期为基音周期,单个脉 冲的波形类似于斜三角波,故 数字模型中可用周期为T0单位 取样序列串作为声门脉冲模型 g(n)的输入,其输出就是浊音 激励。 由于人类语音的频率范围主要 集中在300Hz~3400Hz,数字 模型中的信号取样率一般为 8KHz。
2
3.语音信号数字表示的优点 数字技术能完成许多很复杂的信号处理工作; 语音可以看成是音素的组合,具有离散的性质, 特别适合于数字处理; 数字系统具有高可靠性、价廉、紧凑、快速等特 点,很容易完成实时处理任务; 数字语音适于在强干扰信道中传输,易于和数据 一起在通信网中传输,也易于进行加密传输。
第02章基础知识—13
3、语音信号产生的数字模型
周期性的斜三角波脉冲可看做加权的单位脉 冲串激励上述单个斜三角脉冲的结果。而周 期冲激序列及幅值因子可表示成下面的Z变
E(z)=AV/(1-z-1) (2-5)
U(z)=G(z)E(z)=AV/(1-z-1) ·1/ (1-g1z-1)(1-g2z-1)
窄频带的语谱图(narrowband spectrograms) 宽窗 语谱图的产生是用傅里叶转换(Fourier transform), 当我们用较长的分析窗口(analysis windows),约20ms, 对应频宽约为45 Hz,得到的频率分辨率较高,频谱上 可以看到谐振的成分。在语谱图上呈现等距的黑白相间 横线条,其间距就是基频(F0) 。
0
0
第02章基础知识—24
4、语音信号的特性
4.2 语音的声学特性
2. 语音的构成—音节(syllable) 、音素 音素(phoneme):语音发音的最小单位。
我国传统分类 元音(韵母):是当声带振动发出的声音气流在声道中 不受阻碍,这种情况下产生的语音称为元音。元音属于浊 音。 辅音(声母):从声门呼出的声音气流,在声道通路中 某一部分封闭起来或受到阻碍不能畅通,为克服发音器 官的这种阻碍而产生的语音称为辅音。
第02章基础知识—20
Байду номын сангаас
3、语音信号产生的数字模型
(2) 声道模型
(c)混合型 我们可以根据发音的需要自动切换串联或并联通路,此外并联部 分还有一条直通路径,其幅度控制因子为AB,这是专为一些频 谱特性较为平坦的音素如[f]、[p]、[b]而考虑的,以增强反谐振特 性。
第02章基础知识—21
3、语音信号产生的数字模型
Ai V ( z ) Vi ( z ) 1 2 1 B z C z i 1 i 1 i i
P/2
P/2
这就是并联型共振峰模型,每一个二阶因式对应一个共 振峰。每个二阶谐振器的幅度可单独控制。
第02章基础知识—19
3、语音信号产生的数字模型
(2) 声道模型
前面两种共振峰模型各自都只能适用于部分语音,级联或并联 的级数取决于声道的长度,一般成人取3到5级。级联型结构较 为简单,并联型各谐振器幅度可独立控制,综合考虑两者的优 缺点可将两种共振峰模型有机地结合起来就得到一种较为完备 的共振峰模型。
第02章基础知识—8
共振峰是声道的重要声学特性。声道对于一个激励信号的响应, 可以用一个含有多对极点的线性系统来近似描述。每对极点都对 应一个共振峰频率。这个线性系统的频率响应特性称为共振峰特 性,它决定信号频谱的总轮廓,或称谱包络。 语音的频率特性主要是由共振峰决定的。而声道的共振峰特性决 定所发声音的频谱特性,即音色。 元音的音色和区别特征主要取决于声道的共振峰特性。共振峰特 性可以从语音信号频谱分析得到的幅频特性观察到。 在声学语音学中通常考虑F1和F2,但在语音识别技术中至少要 考虑三个共振峰,而在语音合成技术中考虑五个共振峰是最为现 实的。 声波的共振也称为共鸣。声道截面积随纵向位置而改变的函数, 称为声道截面积函数,它决定共振峰的特性。
第02章基础知识—27
4、语音信号的特性
4.3语音的时间波形和频谱特性
宽频带的语谱图(wideband spectrograms) 窄窗 若是在转换演算时用较少的取样点,分析窗口大约 3ms ,对应频宽约300 Hz,则频谱上看不到谐振成分, 在语谱图上看不到等距的黑白相间。频率分辨率较低, 反而是时轴上的分辨率较高,看到明显的垂直线条。
第02章基础知识—17
第02章基础知识—18
3、语音信号产生的数字模型
pi e iT e j 2FiT
p e
* i
iT
e
j 2FiT
F=1/T -- 取样频率 i/ -- 共振峰的频宽。 Fi是 -- 共振峰(formant)的中心频率
V ( z ) GVi ( z ) G
第02章基础知识—12
由图可见,它是一个低通滤波器。频率分析表明,其幅度谱按12 dB/倍 频程的速率衰减。如果将其表示为Z变换的全极模型的形式,有 G(z)=1/ (1-g1z-1)(1-g2z-1) 如果g1和g2的值都接近于1,则由此形成的激励信号频谱很接近于声门 脉冲的频谱。显然,上式表明斜三角波可描述为一个二阶极点的模型。需 要指出,不同人、不同语音,其声门脉冲的形状不一定相同,但在语音合 成中对其形状要求不很苛刻,只要其傅里叶变换有近似的特性就可以了。
(b)并联型 适用于鼻音、复合元音及大部分辅音,发这些音时发音 腔体具有反谐振特性,必须在模型中加入零点以减弱谐 振强度,故要考虑用零、极点模型:
r b z r R
通常P>R,假设分子与分母无公因
V ( z)
1 ak z
k 1
r 0 P
子且分母无重根,则此式可分解为
k
以下部分分式之和的形式:
第02章基础知识—25
4、语音信号的特性
4.2 语音的声学特性
汉语语音的特点—声、韵、调,音节在汉语 中占有主要地位,它是由声母、韵母和声调按 一定的方式构成的,是语言的最小使用单位; 音节结构简单,与其它语言相比汉语语音音节 和音素都很少。
第02章基础知识—26
4、语音信号的特性
4.3语音的时间波形和频谱特性