语音信号处理答案
语音信号处理 华工 2015
![语音信号处理 华工 2015](https://img.taocdn.com/s3/m/6f927a31af45b307e971970f.png)
一、分析题
1、语谱图的定义以及对其进行解读,答出横杠、竖直条、乱纹的物理意义(7分)
2、隐马尔科夫模型的三个基本问题,其中哪一个最难解决,并说出主要原因(7分)
二、简答题
1、同态信号处理的基本原理,以语音信号为例。
(5分)
2、MFCC特征提取的流程。
(5分)
3、波形编码与参数编码的区别。
(5分)
4、DTW算法的目的以及其基本思想(5分)
5、矢量编码的基本原理(4分)
6、HMM的两个随机过程(4分)
三、填空题(每空2分)
1、预处理一般包括预加重、加窗、分帧。
2、说话人识别系统包括预处理、特征提取、模式匹配、判决。
3、语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。
4、一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。
5、。
(实在是记不起啦)
四、选择题
五.判断题
(后面的选择、判断题自求多福吧)。
语音信号处理_考试参考题(修订版)(1)
![语音信号处理_考试参考题(修订版)(1)](https://img.taocdn.com/s3/m/16ff6bf69b89680203d82572.png)
一、填空题:(每空1 分,共60分)1、语音信号的频率范围为(300-3400kHz),一般情况下采样率为(8kHz )。
书上22页2、语音的形成是空气由(肺部)排入(喉部),经过(声带)进入声道,最后由()辐射出声波,这就形成了语音。
书上11页。
肺中的通过(稳定)的气流或声道中的气流激励(喉头至嘴唇的器官的各种作用)而产生。
当肺中的气流通过声门时,声门由于其间气体压力的变化而开闭,使得气流时而通过,时而被阻断,从而形成一串周期性脉冲送入声道,由此产生的语音是(浊音)。
如果声带不振动,声门完全封闭,而声道在某处收缩,迫使气流高速通过这一收缩部位而发音,由此产生的语音是(清音)。
3、语音信号从总体上是非平稳信号。
但是,在短时段(10~30)ms中语音信号又可以认为是平稳的,或缓变的。
书上24页4、语音的四要素是音长,音强,音高和音质,它们可从时域波形上反映出来。
其中音长特性:音长(长),说话速度必然慢;音长(短),说话速度必然快。
音强的大小是由于声源的(震动幅度)大小来决定。
5、声音的响度是一个和(振幅)有密切联系的物理量,但并不就是音强。
6、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即(浊音)、(清音)和(爆破音)。
7、当气流通过声门时声带的张力刚好使声带发生较低频率的张弛振荡,形成准周期性的空气脉冲,这些空气脉冲激励声道便产生浊音如果声道中某处面积很小,气流高速冲过此处时而产生湍流,当气流速度与横截面积之比大于某个门限时(临界速度)便产生摩擦音,即(清音)。
8、如果声道某处完全闭合建立起气压,然后突然释放而产生的声音就是(爆破音)。
9、在大多数语音处理方案中,基本的假定为语音信号特性随时间的变化是(平稳随机)的。
这个假定导出各种(线性时不变)处理方法,在这里语音信号被分隔为一些短段再加以处理。
10、一个频率为F。
的正弦形信号以Fs速率抽样,正弦波的一周内就有(Fs/F0)个抽样。
语音信号处理作业homework
![语音信号处理作业homework](https://img.taocdn.com/s3/m/ef8e6f2d3169a4517723a3dd.png)
Homework6
1、为何矩形窗不适合用于频谱成分动态范围很宽 的语音分析中? 2、用矩形窗和海明窗对浊音语音信号进行谱分析 时,效果有何不同? 3、波形乘以窗函数,相当于对信号谱与窗函数的 傅里叶变换进行卷积,窗函数应具有什么特性? 4、推导短时傅里叶变换的卷积积分形式。 5、写出短时傅里叶变换滤波器解释的第一种形式 定义式实数运算的表达式。 6、对直角窗而言,短时傅里叶变换的时间取样率 是多少?
Homework4
1、矩形窗和海明窗对短时平均能量的影响。 2、窗口的长度对短时平均能量的结果有什么影响? 3、短时平均能量函数和短时平均幅度函数的差别 是什么? 4、浊音和清音的短时平均过零数有何不同? 5、平均过零数的用途。在背景噪声大或小时,各 选用什么函数?
Homework5
1、求证短时自相关函数为偶函数、周期函数。 2、区分五种时域分析方法的表示式和实现框图。 3、浊音和清音的自相关函数各有什么特点? 4、根据书中P36页下图估算浊音的基因周期,其中 窗口长度N=401,采样频率为10kHz。 5、浊音语音和清音语音的短时平均幅度差函数各有 什么特点?。 6、写出短时傅里叶变换的定义式,短时傅里叶变换 与标准傅里叶变换之间的关系是什么? 7、写出短时傅里叶变换或离散的短时傅里叶变换的 两种解释 。
Homework7
1、语谱图和声纹定义。 2、同态滤波和倒谱分析的定义。 3、写出特征系统D*[ ]将卷积性信号转 化为加性信号的过程。 4、写出经过逆特征系统D*-1[ ]将加性 信号转换为卷积性信号的过程。
Homework8
1、用傅里叶变换写出复倒谱和倒谱定义式,二者有 何联系? 2、在倒谱情况下一个序列经过正、逆两个特征系统 变换后,不能还原成自身,原因何在? 3、推导声门激励信号和声道冲激响应序列的复倒谱。 4、声门激励信号和声道冲激响应序列复倒谱性质。 5、微分法避免相位卷绕原理。 6、求证最小相位信号复倒谱的偶对称分量和奇对称 分量的傅里叶变换别为的傅里叶变换的实部和虚部。 7、根据书P64图5-6写出最小相位信号法求复倒谱的 过程。
语音信号处理复习华南理工.
![语音信号处理复习华南理工.](https://img.taocdn.com/s3/m/f6db6195dc3383c4bb4cf7ec4afe04a1b071b0a4.png)
语音信号处理复习第二章语音信号处理基础知识1,定义:(1)语音是指人们讲话时发出的话语,它是一种声音,具有声学特征的物理特性。
而它又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。
因此语音是语言和声音的组合体。
(2)语音是由人的发声器官发出的一种声波,它具有音色、音调、音强和音长。
①音色:是一种声音区别于另一种声音的基本特征②音调:指声音的高低,取决于声波的频率③音强:指声音的强弱,取决于声波的振幅④音长:指声音的长短,取决于发音时间的长短(3)任何语言都有语言的元音和辅音两种音素:元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。
一个重要的声学特性是共振峰。
辅音:由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通。
包括清音和浊音。
①浊音:声带振动②清音:声带不振动(4)人的听觉系统有两个重要的特性:①时频分析特性:人的耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量。
②听觉掩蔽效应:心理声学中的听觉掩蔽效应指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。
掩蔽效应分为同时掩蔽和短时掩蔽。
2,语言信号生成的数学模型:①激励模型:在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是激励系统②声道模型:从声门到嘴唇的呼气通道是声道,是声道系统③辐射模型:语音从嘴唇辐射出去,则嘴唇以外是辐射系统3,语音信号的特性分析:(1)语音信号的时域波形和频谱特性:①时域波形:周期性,周期对应声带振动的频率,即基音频率。
②频谱特性:共振峰特性。
元音频谱有明显的几个凸起点,它们出现的频率就是共振峰频率。
清辅音频谱峰点之间的间隔是随机的,没有周期分量。
(2)语谱图:语谱图是一种三维图谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
语谱图中显示了大量的与语音的语句特性相关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。
语音信号处理之(一)动态时间规整(DTW)
![语音信号处理之(一)动态时间规整(DTW)](https://img.taocdn.com/s3/m/58b41d1317fc700abb68a98271fe910ef12daef1.png)
语⾳信号处理之(⼀)动态时间规整(DTW)语⾳信号处理之(⼀)动态时间规整(DTW)这学期有《语⾳信号处理》这门课,快考试了,所以也要了解了解相关的知识点。
呵呵,平时没怎么听课,现在只能抱佛脚了。
顺便也总结总结,好让⾃⼰的知识架构清晰点,也和⼤家分享下。
下⾯总结的是第⼀个知识点:DTW。
因为花的时间不多,所以可能会有不少说的不妥的地⽅,还望⼤家指正。
谢谢。
Dynamic Time Warping(DTW)诞⽣有⼀定的历史了(⽇本学者Itakura提出),它出现的⽬的也⽐较单纯,是⼀种衡量两个长度不同的时间序列的相似度的⽅法。
应⽤也⽐较⼴,主要是在模板匹配中,⽐如说⽤在孤⽴词语⾳识别(识别两段语⾳是否表⽰同⼀个单词),⼿势识别,数据挖掘和信息检索等中。
⼀、概述在⼤部分的学科中,时间序列是数据的⼀种常见表⽰形式。
对于时间序列处理来说,⼀个普遍的任务就是⽐较两个序列的相似性。
在时间序列中,需要⽐较相似性的两段时间序列的长度可能并不相等,在语⾳识别领域表现为不同⼈的语速不同。
因为语⾳信号具有相当⼤的随机性,即使同⼀个⼈在不同时刻发同⼀个⾳,也不可能具有完全的时间长度。
⽽且同⼀个单词内的不同⾳素的发⾳速度也不同,⽐如有的⼈会把“A”这个⾳拖得很长,或者把“i”发的很短。
在这些复杂情况下,使⽤传统的欧⼏⾥得距离⽆法有效地求的两个时间序列之间的距离(或者相似性)。
例如图A所⽰,实线和虚线分别是同⼀个词“pen”的两个语⾳波形(在y轴上拉开了,以便观察)。
可以看到他们整体上的波形形状很相似,但在时间轴上却是不对齐的。
例如在第20个时间点的时候,实线波形的a点会对应于虚线波形的b’点,这样传统的通过⽐较距离来计算相似性很明显不靠谱。
因为很明显,实线的a点对应虚线的b点才是正确的。
⽽在图B中,DTW就可以通过找到这两个波形对齐的点,这样计算它们的距离才是正确的。
也就是说,⼤部分情况下,两个序列整体上具有⾮常相似的形状,但是这些形状在x轴上并不是对齐的。
语音信号处理作业
![语音信号处理作业](https://img.taocdn.com/s3/m/28ba76c7e45c3b3566ec8b66.png)
课堂作业1:1、语音信号的特点是什么?画出数字模型语音信号的最基本组成单位是音素。
音素可以分为“浊音”和“清音”两大类,语音信号的频谱分量主要集中在300~3400HZ的范围内,其采样率为8kHZ,某些语音系统将此频率扩展到7~9KHZ,其采样率也提高到15~20kHZ。
语音信号具有短时性。
2、简述语音信号的特点,基频、共振峰是什么含义?语音一般由清音和浊音组成,浊音的声带振动基本频率,又称基音频率。
声道可以看成是一根具有非均匀截面的声管,在发音时起共鸣的作用,。
当元音激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。
共振峰为频谱中明显的几个凸起点,它的出现频率与声道的谐振频率相对应。
3、简述短时分析方法,怎样用AMDF判基音?由于语音信号的准平稳特性,任何语信号数字处理算法和技术都建立在“短时”基础上。
语音信号中一组基本短时参数有:短时能量E,短时平均幅度M和短时过零率Z。
短时自相关函数和短时频谱(或短时功率谱)是语音信号非常重要的一对短时参数,分别在时域和频域中表征了语音信号的一些主要特征。
短时基音周期是语音信号重要的参数之一。
用短时自关函数进行基音周期估计是寻找它的最大峰值点的位置,而用短时AMDF进行基音周期估计是寻找它的最深谷值点的位置。
4、短时傅立叶分析的含义?采样时如何考虑?语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅立叶变换不能用来直接表示语音信号,而应该用短时傅立叶变换对语音信号的频谱进行分析,相应的频谱称为“短时谱”。
课堂作业二:1、画出同态滤波中特征系统框图,写出倒谱定义式卷积同态系统的框图复倒谱^()n x 是x(n)的Z 变换取对数后的逆Z 变换,其表达式如下: ^1[ln [()]]Z Z x n x -= (7)倒谱c(n)定义为x(n)取Z 变换后的幅度对数的逆Z 变换,即* X ’(n) Y’(n) + + * + + X(n) D *[ ] L[ ] D -1*[ ] y(n)1()[ln |()|]c n z X z -= (8)2、 相位卷绕是什么?怎样避免?相位伸展或相位解卷绕的前提条件是相邻采样点相位差的绝对值小于pi ,即要求lARG[H(k)]一ARG[H(k —1)]I<pi3、写出声道冲激响应序列的复倒谱特点。
语音信号处理第一章绪论
![语音信号处理第一章绪论](https://img.taocdn.com/s3/m/5bdf6350326c1eb91a37f111f18583d049640fef.png)
语⾳信号处理第⼀章绪论第⼀章绪论1、语⾳信号?语⾳信号是具有声⾳的语⾔,⼈类表⽰信息的常⽤媒体,⼈类通信的有效⼯具。
2、语⾳信号包含的信息?1)说话内容,说什么;2)说话⼈⾝份,谁说的;3)说话⼈说话时的状态,⽣理状态、⼼理状态、情绪等。
(语⾳信号处理主要关⼼前两项)3、为什么要学习和研究语⾳信号处理技术?答:1)语⾳是⼈类最重要、最有效、最常⽤和最⽅便的交换信息的⽅式;2)让计算机能够理解⼈类的语⾔,是⼈类⾃计算机诞⽣以来就梦寐以求的想法;随着计算机的便携化,⼈们渴望摆脱键盘的束缚⽽代之以语⾳输⼊的⽅式。
⽐如苹果公司的iphone⼿机,在其最新版本4s中,推出了siri功能-即语⾳助⼿,可以通过语⾳输⼊,让其充当闹钟,⽐如还可以让它为你找出最近的咖啡厅,另外找出⾏路线往往需要输⼊不少⽂字,省事的话,报出地点,它可以调⽤google地图来找出出⾏⽅案,还可以让它播放⾳乐,发送短信等等。
3)语⾳信号技术始终与当时信息科学最活跃的前沿科学保持密切联系,并且⼀起发展。
语⾳信号处理是以语⾳语⾔学和数字信号处理为基础的涉及多⽅⾯的综合性学科,它与⼼理学、⽣理学、计算机科学、通信与信息科学以及模式识别和⼈⼯智能等学科都有着密切的关系。
对于语⾳信号处理的研究⼀直是数字信号处理技术发展的重要推进⼒量,⽽数字信号处理许多新⽅法的提出,⼜是⾸先在语⾳信号处理中获得成功,⽽后再推⼴到其他领域的。
⽐如,语⾳信号处理算法的复杂性和实时处理的要求,促进了⾼速信号处理器的设计。
⽽这些产品产⽣之后,⼜是⾸先在语⾳信号处理中得到最有效的应⽤的。
4、语⾳信号处理的发展情况1)语⾳信号处理的发展标志是在1940年产⽣的通道声码器技术,该技术打破了以往的“波形原则”,提出了⼀种全新的语⾳通信技术,即从语⾳中提取参数加以传输,在接收端重新合成语⾳。
其后,产⽣了“语⾳参数模型“的思想。
2)40年代后期,研制成功了“语谱仪”,为语⾳信号分析提供了有⼒的⼯具。
语音信号处理期末考试复习题
![语音信号处理期末考试复习题](https://img.taocdn.com/s3/m/e31f47f358f5f61fb636662f.png)
《语音信号处理》期末考试复习资料(涉及考点的教材课后复习题)授课教师:薛雅娟老师整理人:通信161班梁雨(第2-5章)通信161班左自睿(第6-10章)根据成都信息工程大学通信工程学院选修课《语音信号处理》期末考试范围,整理成期末考试的复习资料以供学弟学妹们参考。
所有权归属成都信息工程大学。
在此衷心感谢薛老师平时悉心地教育指导。
整理人均系在读本科学生,水平有限,错误与不足之处在所难免,敬请大家见谅,欢迎批评、斧正。
第二章:语音信号处理的基础知识人耳听觉的掩蔽效应分为哪几种?掩蔽效应的存在对我们研究语音信号处理系统有什么启示?答:分为同时掩蔽和短时掩蔽。
同时掩蔽是指同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阈,当弱信号的听阈被升高到一定程度时就会导致这个弱信号变得不可闻。
当A声和B声不同时出现时也存在掩蔽作用,称为短时掩蔽。
短时掩蔽分为前向掩蔽和后向掩蔽。
语音信号的数学模型包括哪些子模型?激励模型是怎样推导出来的?辐射模型又是怎样推导出来的?它们各属于什么性质的滤波器?答:①激励模型②声道模型③辐射模型④完整的语音信号的数学模型激励模型一般分成浊音激励和清音激励。
浊音激励:发浊音时,声激励是一个准周期的单位脉冲串,Av为增益参数;为了使浊音的激励信号具有声门振动气流脉冲的实际波形,需将冲激序列通过一个声门脉冲模型滤波器(实际上是一个斜三角波形)G(z)。
最后形成一个以基音周期为周期的斜三角波形。
清音激励模拟为随机噪声,实际中一般使用均值为0、方差为1的白噪声。
辐射模型:从声道模型射出的是速度波ul(n),而语音信号是声压波pl(n),二者之倒比称为辐射阻抗Zl。
在语音信号参数分析前为什么要进行预处理,有哪些预处理过程?答:预滤波的目的有两个:一是抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰;二是抑制50Hz的电源工频干扰。
预处理过程:预加重、加窗和分帧。
语音信号处理复习题
![语音信号处理复习题](https://img.taocdn.com/s3/m/71cd5f67a0116c175e0e4807.png)
1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支?它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。
1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段?语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。
人的说话过程如图2-1所示,可以分为五个阶段:(1)想说阶段:(2)说出阶段:(3)传送阶段:(4)接收阶段:(5)理解阶段:3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况?声道的数学模型有两种观点:1)声管模型将声道看为由多个不同截面积的管子串联而成的系统。
在“短时”期间,声道可表示为形状稳定的管道。
另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。
共振峰模型,把声道视为一个谐振腔。
共振峰就是这个腔体的谐振频率。
由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。
一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。
基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。
(1)级联型声道模型这时认为声道是一组串联的二阶谐振器。
从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。
它的传输函数可分解表示为多个二阶极点的网络的串联:N=10,M=5时的声道模型如下图所示:(2)并联型声道模型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。
此时,模型的传输函数如下:通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型。
语音信号处理考试试题
![语音信号处理考试试题](https://img.taocdn.com/s3/m/923aed7ceffdc8d376eeaeaad1f34693daef1039.png)
语音信号处理考试试题一、简答题1. 请解释什么是语音信号处理?语音信号处理指的是对语音信号进行数字信号处理的过程。
它涉及到声音的采集、编码、分析、合成和识别等一系列处理技术,旨在提高语音通信和语音识别系统的性能。
2. 请列举一些常见的语音信号处理应用。
常见的语音信号处理应用包括语音通信、语音识别、语音合成、语音增强、语音压缩等。
3. 请简要描述语音信号处理系统的基本框架。
语音信号处理系统的基本框架包括声音的采集、预处理、特征提取、模型训练和解码等步骤。
首先,声音信号通过麦克风采集,并进行预处理,如去除噪声、归一化等。
然后,从预处理的信号中提取出特征,如音频频谱、共振峰等信息。
接下来,使用这些特征进行模型的训练,以建立语音信号的模型。
最后,通过解码器将输入的语音信号与训练好的模型进行匹配,从而实现语音的识别或合成。
4. 请列举一些常用的语音信号处理算法或技术。
常用的语音信号处理算法或技术包括数字滤波、时域和频域特征提取、自动语音识别(ASR)、线性预测编码(LPC)、傅里叶变换(FFT)、Mel频谱倒谱系数(MFCC)、隐藏马尔可夫模型(HMM)等。
5. 请解释什么是Mel频谱倒谱系数(MFCC)算法。
Mel频谱倒谱系数(MFCC)算法是一种常用的语音信号处理算法,主要用于语音特征提取。
它模拟了人类听觉系统的工作原理,通过对语音信号进行分帧、加窗、傅里叶变换等处理,提取出与人耳感知的频率特征相关的Mel频率倒谱系数。
MFCC算法具有较好的语音信号特征提取效果,广泛应用于语音识别等领域。
二、计算题1. 对下述数字信号进行离散傅里叶变换(DFT):x(n) = [1, 2, 3, 4]首先,对x(n)进行零填充,得到长度为N的信号x'(n) = [1, 2, 3, 4, 0, 0, 0, 0]。
然后,对x'(n)进行DFT计算,得到频谱X(k)。
X(k) = [10, -2+2j, -2, -2-2j, 0, 0, 0, 0]2. 对下述频谱进行逆离散傅里叶变换(IDFT):X(k) = [10, -2+2j, -2, -2-2j]首先,对X(k)进行逆DFT计算,得到时域信号x(n)。
语音信号处理试卷
![语音信号处理试卷](https://img.taocdn.com/s3/m/b33fed1759eef8c75fbfb36d.png)
第 1 页 共 1 页 内蒙古科技大学2012/2013学年第一学期 《语音信号处理》B 卷 考试试题 课程号:67118305 考试方式:闭卷 使用专业、年级:信息2009 任课教师:杨立东 考试时间:120分钟 备 注: 一、填空题(共10空,每空2分,共20分) 1. 人类听觉系统具有 效应。
2. 利用参数编码实现语音通信的设备通常称为 。
3. Mel 频率尺度的值大体上对应于实际频率的 分布关系 4. 语音信号具有 特性,所以可以将其看作是一个准稳态过程。
5. 语音识别方法一般有模板匹配法、 和 三种。
6. VQ 中采用的距离测度必须具备对称性、 、 和有高效算法等性质。
7. 不能通过一个信号的倒谱还原原始信号,因为在计算倒谱过程中丢失了 信息。
8. 50Hz 交流电源哼声属于 噪声。
二、判断题(共5题,每题2分,共10分) 1. 在DM 编码中造成的颗粒噪声,可以通过减小量化阶距来去除。
( ) 2. 语音合成系统是一个单向系统,由机器到人。
( ) 3. FSVQ 是一种无记忆的矢量量化。
( ) 4. 人在说话的时候由于呼吸所引入的噪声称之为周期噪声 ( ) 5. 预加重的目的是提升低频部分,使信号的频谱变得平坦。
( )三、简答题(共5题,每题8分,共40分) 1. 简述LPC 的基本思想。
2. 简述端点检测过程中遇到的实际困难。
3. 简述HMM 的三个基本问题。
4. 简述语音信号分析过程中进行预滤波的目的。
5. 简述共振峰估计的过程中存在的困难。
四、计算题(共3题,每题10分,共30分) 1. 已知序列[][][][][][]0.110.4110.2820.0334h k k k k k k δδδδδ=+-+-+-+-,求()H z 及其倒序多项式4()R H z 。
2. 已知一个HMM 如下图所示,从S 1开始,S 4结束,每个状态有三个输出符号a,b ,c ,求利用该模型输出abcb 的概率。
语音信号处理答案
![语音信号处理答案](https://img.taocdn.com/s3/m/cc6b98b4b1717fd5360cba1aa8114431b90d8efa.png)
二、问答题(每题5分,共20 分)1、语音信号处理主要研究哪几方面的内容?语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法和技术。
2、语音识别的研究目标和计算机自动语音识别的任务是什么?语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
3、语音合成模型关键技术有哪些?语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。
1.如何取样以精确地抽取人类发信的主要特征,2.寻求什么样的网络特征以综合声道的频率响应,3.输出合成声音的质量如何保证。
4、语音压缩技术有哪些国际标准?二、名词解释(每题3分,共15分)端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。
共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。
语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义公示,用最少的搜素和计算失真的运算量。
语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量三、简答题(每题6分,共30分)1、简述如何利用听觉掩蔽效应。
语音信号处理梁瑞宇版课后思考题答案
![语音信号处理梁瑞宇版课后思考题答案](https://img.taocdn.com/s3/m/144cbe2866ec102de2bd960590c69ec3d5bbdb7f.png)
语音信号处理梁瑞宇版课后思考题答案1、人的发音器官有哪些。
人耳听觉外周和听觉中枢的功能是什么。
(1)人的发音器官包括:肺、气管、喉(包括声带)、咽、鼻和口。
(2)听觉外周指的是位于脑及脑干以外的结构,包括外耳、中耳、内耳和蜗神经,主要完成声音采集、频率分解以及声能转换等功能。
听觉中枢包含位于听神经以上的所有听觉结构,对声音有加工和分析的作用,主要包括感觉声音的音色、音调、音强、判断方位等功能,还承担与语言中枢联系和实现听觉反射的功能。
2、人耳听觉的掩蔽效应分为哪几种。
掩蔽效应对研究语音信号处理系统有什么启示。
(1)掩蔽效应分为同时掩蔽和短时掩蔽。
(2)同时掩蔽是指同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阀,当弱信号的听阀被升高到一定程度时就会导致这个弱信号变得不可闻。
一般来说,对于同时掩蔽,掩蔽声愈强,掩蔽作用愈大。
掩蔽声与被掩蔽声的频率靠得愈近,掩蔽效果愈显著。
两者频率相同时掩蔽效果最大。
(3)当A声和B声不同时出现时也存在掩蔽作用,称为短时掩蔽。
短时掩蔽又分为后向掩蔽和前向掩蔽。
掩蔽声B即使消失后,其掩蔽作用仍将持续一段时间,约0.5--2秒,这是由于人耳的存储效应所致,这种效应称为后向效应。
若被掩蔽声A出现后,相隔0.2秒之内出现了掩蔽声B,它也会对A起掩蔽作用,这是由于A声尚未被人所反应接受而强大的B声已来临所致,这种掩蔽称为前向掩蔽。
3、根据发音器官和语音产生机理,语音生成系统可分成哪个部分。
各有什么特点。
语音生成系统分成三个部分,在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是“激励系统”。
从声门到嘴唇的呼气通道是声道,是“声道系统”。
语音从嘴唇辐射出去,所以嘴唇以外是“辐射系统”。
大学计算机实验:音频处理习题与答案
![大学计算机实验:音频处理习题与答案](https://img.taocdn.com/s3/m/05fe5a9402768e9950e738df.png)
一、单选题1、人耳能够听到的声音频率范围是()。
A . 20Hz~20kHzB . 10Hz~1000HZC . 20Hz~2000HZD . 10Hz~10kHz正确答案:A2、数字音频WAV格式的文件属于()。
A . 有损压缩格式B . 未压缩格式C . 无损压缩格式D . 数字合成音乐正确答案:B3、我们常用的VCD、DVD采用的视频压缩编码国际标准是()。
A . NTSCB . MPEGC . PALD . JPEG正确答案:B4、某同学用麦克风录制了一段WAV格式的音乐,由于文件容量太大,不方便携带。
在正常播放音乐的前提下,要把文件变小,最好办法是()。
A . 应用音乐编辑软件剪掉其中的一部分。
B . 应用压缩软件,使音乐容量变小。
C . 应用音频处理工具软件将文件转换成MP3格式。
D . 应用音频编辑工具将音乐的音量变小。
正确答案:C5、以下软件中不是声音编辑软件的是()。
A . 会声会影B . CoolEditC . Sound ForgeD . GlodWave正确答案:A6、下列操作不属于音频编辑的是()。
A . 改变音量B . 将音乐与解说合在一起C . 将音乐与视频合在一起D . 降噪正确答案:C7、在音频数字化的过程中,对模拟语音信号处理的步骤依次为()。
A . 量化、抽样、编码B . 抽样、量化、编码C . 编码、量化、抽样D . 抽样、编码、量化正确答案:B8、某位教师需要选取一段《梁祝》的背景音乐来辅助教学,()不属于音频资源。
A . 梁祝.wavB . 梁祝.mp3C . 梁祝.wmaD . 梁祝.wmf正确答案:D9、在下面选项中()不属于多媒体技术的应用。
A . 利用特定的技术做出的电影《海底总动员》。
B . 房地产公司利用3D软件,有声有色的展示房屋的建筑、环境及装修。
C . 教师课堂上配合教材制作使用的PowerPoint。
D . 小小为了去云南自助游,利用搜索引擎找寻资料。
湖南工学院09语音信号处理(A)
![湖南工学院09语音信号处理(A)](https://img.taocdn.com/s3/m/8c6e5a13650e52ea55189839.png)
一、填空题1、语音编码按传统的分类方法可以分为、和混合编码。
2、矢量量化系统主要由编码器和组成,其中编码器主要是由搜索算法和构成。
3、语音信号处理也可以简称为语音处理,它是以和为基础而形成的一个综合新的学科,包括、、和等四大分支。
4、语音的四大要素:、、和。
5、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即、和。
6、句法的最小单位是,词法的最小单位是音节,音节可以由构成。
7、元音的一个重要声学特性是共振峰,它是区别不同元音的重要参数,它一般包括共振峰频率的位置和。
8、汉语音节一般由声母、韵母和三部分组成。
9、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和。
10、语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过处理来实现。
二、判断题1、线性预测法是基于全极点模型假定,采用时域均方误差最小准则来估计模型参数的。
()2、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。
()3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。
()4、掩蔽效应是使一个声音A能感知的阀值因另一个声音B的出现而提高的现象,这时A叫掩蔽声,B叫被掩蔽。
()5、参数编码是依赖模型假定的语音编码方法。
()三、单项选择题1、矢量量化器大致可以分为无记忆矢量量化器和有记忆矢量量化器两类,下列不属于无记忆矢量量化器的为()。
(A)全搜索矢量量化器(B)树搜索矢量量化器(C)多极矢量量化器(D)自适应矢量量化器2、下列波形编码中属于频域编码的是()。
(A)PCM (B)ADM(C)SBC(D)APC四、画图分析题1、画出矢量量化器的基本结构,并说明其各部分的作用。
2、试画出语音合成模型(语音生成模型)的原理框图,并说明各部分的作用。
3、针对于短时傅里叶变换的时间分辨率和频率分辨率的矛盾性请给予分析说明。
五、简答题1、复倒谱和倒谱的特点和关系是什么?2、线性预测分析的基本思想是什么?3、隐马尔可夫模型的特点是什么?4、矢量量化器的所谓最佳码本设计是指什么?六、计算题1、已知一码本尺寸J=8的二叉树,它的码本中共包含有14个码字,见图一所示。
语音信号处理的基础知识共60页
![语音信号处理的基础知识共60页](https://img.taocdn.com/s3/m/7c47dcb71ed9ad51f11df246.png)
谢谢!
语音信号处理的基础知识
21、没有人陪你走一辈子,所以你要 适应孤 独,没 有人会 帮你一 辈子, 所以你 要奋斗 一生。 22、当眼泪流尽的时候,留下的应该 是坚强 。 23、要改变命运,首先改变自己。
24、勇气很有理由被当作人类德性之 首,因 为这种 德性保 证了所 有其余 的德性 。--温 斯顿. 丘吉尔 。 25、梯子的梯阶从来不是用来搁脚的 ,它只 是让人 们的脚 放上一 段时间 ,以便 让是奢侈 。——CocoCha nel 62、少而好学,如日出之阳;壮而好学 ,如日 中之光 ;志而 好学, 如炳烛 之光。 ——刘 向 63、三军可夺帅也,匹夫不可夺志也。 ——孔 丘 64、人生就是学校。在那里,与其说好 的教师 是幸福 ,不如 说好的 教师是 不幸。 ——海 贝尔 65、接受挑战,就可以享受胜利的喜悦 。——杰纳勒 尔·乔治·S·巴顿
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、问答题(每题分,共分)
、语音信号处理主要研究哪几方面的内容?
语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一
种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法
和技术。
、语音识别的研究目标和计算机自动语音识别的任务是什么?
语音识别技术,也被称为自动语音识别,(),其目标是将人类的语音中的词汇内容转换为
计算机可读的输入,例如按键、二进制编码或者字符序列。
计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本
或命令的高技术。
、语音合成模型关键技术有哪些?
语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。
.如何取样以精确地抽取人类发信的主要特征,.寻求什么样的网络特征以综合声道的频率响应,.输出合成声音的质量如何保证。
、语音压缩技术有哪些国际标准?
二、名词解释(每题分,共分)
端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。
共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。
语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义
公示,用最少的搜素和计算失真的运算量。
语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量
三、简答题(每题分,共分)
、简述如何利用听觉掩蔽效应。
一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。
人耳的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声
音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。
被掩蔽音单独存在时的听阈分贝值,或者
说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。
实验表明,—绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。
在范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。
在掩蔽情况下,提高被掩蔽弱音的强度,
使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为
掩蔽量(或称阈移)。
、简述时间窗长与频率分辨率的关系。
采样周期、窗口长度和频率分辨率△之间存在下列关系:△(*) 可见,采样周期一定时,△随窗口宽度的增加而减少,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。
、简述时域分析的技术(最少三项)及其在基因检测中的应用。
()
短时能量及短时平均幅度分析、短时过零率分析、短时相关分析、短时平均幅度差函数
基音检测中的应用:基音检测的提取。
、简述语音信号的频谱和功率谱的作用。
频谱是对动态信号在频率域内进行分析对动态信号在频率域内进行分析对动态信号在频率
域内进行分析对动态信号在频率域内进行分析,分析的结果是以频率为横坐标的各种物理量
的谱线和曲线,即各种幅值以频率为变量的频谱函数(ω)。
频谱分析中可求得幅值谱、相位谱、功率谱和各种谱密度等等。
频谱分析过程较为复杂,它是以傅里叶级数和傅里叶积分为
基础的。
功率谱的概念是针对功率有限信号的(能量有限信号可用能量谱分析),所表现的是单位频带内信号功率随频率的变换情况。
保留频谱的幅度信息,但是丢掉了相位信息,所以频谱不同的信号其功率谱是可能相同的。
、简述同态信号处理在共振峰估计中的作用。
为了消除基频谐波的影响,可以采用同态解卷技术,经过同态滤波后得到平滑的谱,这样简单地检测峰值就可以直接提取共振峰参数,因而这种方法更为有效和精确。
四、论述题(每题分,共分)
、常用的基音周期检测的方法有哪些?它们的基本原理是什么?()
? 自相关法的基本原理是浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;而清音的自相关函数没有明显的峰值出现。
因此检测是否有峰值就可判断是清音或浊音,检测峰值的位置就可提取基音周期值。
? 平均幅度差函数法的基本原理是对周期性的浊音语音,()呈现与浊音语音周期相一致的
周期特性,()在周期的各个整数倍点上具有谷值特性,因而通过()的计算可以来确定基音周期。
而对于清音语音信号,()却没有这种周期特性。
利用()的这种特性,可以判定一段语音
是浊音还是清音,并估计出浊音语音的基音周期。
? 并行处理技术()方法对经过预处理的语音信号实施一系列的基音初步检测,或分别对原始信号和经处理后的信号实施系列检测,然后根据系列检测的初步结果,综合判定基音周期。
? 倒谱()法利用语音信号的倒频谱特征,检测出表征声门激励周期的基音信息。
采取简
单的倒滤波方法可以分离并恢复出声门脉冲激励和声道响应,根据声门脉冲激励及其倒谱的
特征可以求出基音周期。
? 简化逆滤波法()先对语音信号进行分析和逆滤波,获得语音信号的预测残差,然后将
残差信号通过自相关滤波器滤波,再作峰值检测,进而获得基音周期。
? 小波变换法:信号小波变换的极值点对应于信号的锐变点或不连续点。
语音的产生过程实际上是气流通过声门再经声道响应后变成声音。
对语音信号作小波变换则其极值点对应于
声门的开启或闭合点,相邻极值点之距离就对应着基音周期。
因而,采用音信号的小波变换
可以检测基音周期。
、论述线性预测系数如何用于共振峰的估计。
基于线性预测系数的共振峰提取方法。
一种有效的频谱包络估计方法是从线性预测分析角度
推导出声道滤波器,根据这个声道滤波器找出共振峰。
虽然线性预测法也有一定的缺点,如其频谱林灵敏度于人耳不想匹配。
但对于许多应用来说,它仍然是一种行之有效的方法。
线性
预测共振峰通常有两种途径可供选择,一种途径是利用一种标准的寻找复根的程序计算预测
误差滤波器的根,称为求根法,另一种途径是找出由预测其导出的频谱包络中的局部极大值,称为选峰法.
、论述标量量化与矢量量化的区别以及矢量量化在语音通信中的作用。