语音信号处理复习纲要

合集下载

语音信号处理大纲

语音信号处理大纲

27483语音信号处理大纲南京理工大学编(高纲号0553)Ⅰ、课程性质与设置目的要求“语音与图象信号处理”是江苏省高等教育自学考试电子工程专业的必修课,是为了培养和检验自学应考者信号处理的基本知识和基本技能而设置的一门专业课程,本课程分为两大部分,第一部分是语音信号处理,第二部分是数字图象处理。

语音信号处理是一门比较实用的电子工程的专业课程,语音是人类获取信息的重要来源和利用信息的重要手段。

通过语言相互传递信息是人类最重要的基本功能之一。

语言是人类特有的功能,它是创造和记载几千年人类文明史的根本手段,没有语言就没有今天的人类文明。

语音是语言的声学表现,是相互传递信息的最重要的手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。

语音中除包含实际发音内容的语言信息外,还包括发音者是谁及喜怒哀乐等各种信息。

在人类已构成的通信系统中,语音通信方式早已成为主要的信息传递途径之一,具有最方便和最快捷的特点。

语言和语音也是人类进行思维的一种依托,它与人的智力活动密切相关,与文化和社会的进步紧密相连,具有最大的信息容量和最高的智力水平。

语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。

除了语音之外,图像是人类获取信息的另外一个重要来源,大约70%的信息是通过人眼获得的图像信息。

图像信号是指将图像作为一种二维信号,采用数字信号处理的方法来对图像进行描述。

今后为了表示方便,图像信号就称为图像。

在近代科学研究、军事技术、工农业生产、气象、医学等领域中,人们越来越多地利用图像来认识和判断事物,解决实际问题。

例如:人们利用人造卫星所拍摄的地面照片,来分析获取地球资源、全球气象和污染情况,利用“和平号”宇宙飞船所拍摄的月球表面照片,分析月球的形成。

在医学上,通过CT断层扫描,医生可以观察和诊断人体内部是否有病变组织。

在公安侦破中,采用指纹提取并处理进行破案。

语音信号的考试部分知识点

语音信号的考试部分知识点

语音信号处理复习资料一、名词解释:1、基音周期:声带开合一次的时间为基音周期(pitch period)。

它的倒数称为基频。

2 、音色:也叫音质;由混入基音中的倍音决定。

3 、音高:声音的高低;主要用基频反映。

基频值越大,反映出的音高越高。

4、音强:发音的轻重;可以用声压或声强来表示声音的强度,一般用相对声压或相对声强表示。

5、音长:声音的长短,取决于发音持续时间的长短。

6、响度:是一种主观心理量,主观感觉到的声音强弱的一种衡量标准,它与频率有关。

一样的音强,不一样的频率,则响度也会有所不同。

7、听觉掩蔽效应:一个更响的音调可以将其频率附近的较低的音调掩蔽。

可以分为同时掩蔽和异外时掩蔽。

8、临界频带:一个纯音可以被以它为中心频率,且具有一定带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚好能被听到的临界状态,即称这一带宽为临界带宽。

临界带宽有许多近似表示,一般在低于500 Hz的频带内,临界带宽约为100Hz,在高于500Hz 时,临界带宽约为中心频率的20% 。

人耳的基底膜具有与频谱分析仪相似的作用。

频率群的划分相应地将基底膜分成许多小的部分,每一部分对应一个频率群。

掩蔽效应就是在这些频率群内发生,这是因为对应的那一频率群的基底膜部分的声音,在大脑中似乎是叠加在一起来评价的,如果这时同时发声,可以互相掩蔽。

9、采样的基础知识:对于一个有限带宽的模拟信号,其频谱的最高频率为F0,在对其进行采样时,其采样频率在Fs>2F0时,采样后的信号才能保证信息不丢失。

语音信号中人耳可以感知的最大频率在3.4KHz左右采样频率在8KHz~16KHz之间短时分析:内平稳语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10~30ms,语音信号近似不变。

于是,我们把变化的语音信号分成一些相继的短时间段来处理。

语音信号处理复习华南理工.

语音信号处理复习华南理工.

语音信号处理复习第二章语音信号处理基础知识1,定义:(1)语音是指人们讲话时发出的话语,它是一种声音,具有声学特征的物理特性。

而它又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。

因此语音是语言和声音的组合体。

(2)语音是由人的发声器官发出的一种声波,它具有音色、音调、音强和音长。

①音色:是一种声音区别于另一种声音的基本特征②音调:指声音的高低,取决于声波的频率③音强:指声音的强弱,取决于声波的振幅④音长:指声音的长短,取决于发音时间的长短(3)任何语言都有语言的元音和辅音两种音素:元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过。

一个重要的声学特性是共振峰。

辅音:由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通。

包括清音和浊音。

①浊音:声带振动②清音:声带不振动(4)人的听觉系统有两个重要的特性:①时频分析特性:人的耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量。

②听觉掩蔽效应:心理声学中的听觉掩蔽效应指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。

掩蔽效应分为同时掩蔽和短时掩蔽。

2,语言信号生成的数学模型:①激励模型:在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是激励系统②声道模型:从声门到嘴唇的呼气通道是声道,是声道系统③辐射模型:语音从嘴唇辐射出去,则嘴唇以外是辐射系统3,语音信号的特性分析:(1)语音信号的时域波形和频谱特性:①时域波形:周期性,周期对应声带振动的频率,即基音频率。

②频谱特性:共振峰特性。

元音频谱有明显的几个凸起点,它们出现的频率就是共振峰频率。

清辅音频谱峰点之间的间隔是随机的,没有周期分量。

(2)语谱图:语谱图是一种三维图谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。

语谱图中显示了大量的与语音的语句特性相关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。

南理工 语音信号处理期末考试重点整理

南理工 语音信号处理期末考试重点整理
第02章基础知识—9
3、语音信号产生的数字模型
3. 语音信号产生的数字模型
下图是一 个完整的语音信号产生的数字模型:
第02章基础知识—10
3、语音信号产生的数字模型
由此模型框图,我们可将语音信号看成 准周期序列或随机噪声序列作为激励的 线性非移变系统的输出,此模型可分为 三个部分:激励模型、声道模型、辐射 模型 激励模型 根据发浊音和发清音的机理 又分为:(a)浊音激励 (b)清音激励
第02章基础知识—12
由图可见,它是一个低通滤波器。频率分析表明,其幅度谱按12 dB/倍 频程的速率衰减。如果将其表示为Z变换的全极模型的形式,有 G(z)=1/ (1-g1z-1)(1-g2z-1) 如果g1和g2的值都接近于1,则由此形成的激励信号频谱很接近于声门 脉冲的频谱。显然,上式表明斜三角波可描述为一个二阶极点的模型。需 要指出,不同人、不同语音,其声门脉冲的形状不一定相同,但在语音合 成中对其形状要求不很苛刻,只要其傅里叶变换有近似的特性就可以了。
3
第2章 语音信号基础知识
1.
声音是一种波,振动频率在20~20 000 Hz之间。 20HZ以下:次声波 20 000HZ以上:超声波
第02章基础知识—4
1、人类的语言器官
1. 人类的语言器官
人体发音器官—肺、气管、喉(包括声
带)和声道 肺是语音产生的能源所在; 声带为产生语音提供主要的激励源; 声道是指声门至嘴唇的所有器官:咽、 鼻腔 、口腔等,它们具有非均匀截面, 且随时间变化,起共鸣器(或谐振器) 的作用。
第02章基础知识—7
Hale Waihona Puke 、语音信号产生过程语音的两个重要声学特性:基音频率,共振峰 浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力决 定,其值等于声带张开和闭合一次的时间的倒数。人类基 音频率的范围在80~500 Hz左右。 共振峰(Fn , n=1,2,...):声道是一个谐振腔,它放大声音气流 的某些频率分量而衰减其他频率分量,被放大的频率我们 称之为共振峰或共振峰频率。 声道具有的一组共振峰,声道的频谱特性主要反映出这些共 振峰的不同位置以及各个峰的频带宽度 。共振峰及其带宽 取决于声道某一瞬间的形状和尺寸,因而不同的语音对应 于一组不同的共振峰参数。实际应用中,头三个共振峰最 重要,越多越精确。

东南大学语音信号处理期末考试复习总结(全面)

东南大学语音信号处理期末考试复习总结(全面)

语音信号处理是研究数字信号处理技术对语音信号进行处理的一门科学语音:是声音和语言的结合体,是一连串的音组成的语言的声音。

人的说话过程:想说,说出,传送,接收,理解。

句法的最小单位是单词,词法的最小单位是音节。

语音特征:音色,音调,音强,音长。

语音音素:元音和辅音。

辅音包括浊音(声带振动)和清音共振峰:元音激励进入声道时引起共振特性,产生一组共振频率。

基音频率:浊音的声带振动的基本频率。

汉语是一种声调语言,声调具有辩义作用。

声调的变化就是浊音基音周期的变化。

汉语音节的一般结构:声带,韵母,声调对发音影响最大的是声带。

基音周期:声带每开启和闭合一次的时间,倒数就是基音频率。

语音听觉系统:耳:内耳(将机械信号转化为神经信号),中耳(声阻抗变换),外耳(声源定位和声音放大)。

掩蔽效应:在一个强信号附近,弱信号将变得不可闻。

被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限或掩蔽阈值。

掩蔽效应:同时掩蔽和短时掩蔽。

同时掩蔽:存在一个弱信号和一个强信号频率接近,强信号会提高弱信号的听阀,当弱信号的听阀被升高到一定程度就会导致这个弱信号弱不可闻。

短时掩蔽:当A声和B声不同时存在时也存在掩蔽作用,称为短时掩蔽。

语音信号生成的数学模型:激励模型(一般分为浊音激励和清音激励),声道模型(一般分为声管模型和共振峰模型,共振峰模型又分为三种:级联,并联,混合型),辐射模型。

浊音激励模拟成是一个以基音周期为周期的斜三角脉冲串。

可以把清音模拟成随机白噪声。

完整的语音信号的数学模型的传输函数H(z) = AU(z)V(z)R(z).一阶高通形式的R(z)=R0(1-z^(-1)) 把和时序相关的傅里叶分析的显示图形称为语谱图。

语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形。

第三章:语音信号分析1.参数性质不同:时域,频域,倒频域。

分析方法:模型分析法(根据语音信号产生的数学模型来分析和提取表征这些模型的特征参数)和非模型分析法(时域,频域,倒频域)。

语音信号处理复习

语音信号处理复习

自相关法
基音检测
倒谱法
简化逆滤波法(SIFT)
共振峰估值
1. 带通滤波器法 2. DFT法
3. 倒谱法
4. LPC法
第9章思考题
1.基音检测的自相关法中的中心削波处理的思路 及实现过程? 2.用倒谱法实现基音检测和共振峰检测的原理及 实现框图?
•语音编码的概念、应用和分类等 •语音信号的压缩编码原理 • 语音通信中的语音质量 •脉冲编码调制(PCM)及其自适应
时变线性 系统
语音取样值
时变参数
第2章思考题:
1. 什么叫语言?什么叫语音? 2. 人类的发音器官包括哪些?在发音时各起了什
么作用? 3. 解释以下概念:基音频率、共振峰、浊音、清
音。 4. 语音信号模型包括哪些子模型?激励模型和辐
射模型各属于什么性质的滤波器?
第3章语音信号的时域分析
•语音处理的目的 •语音信号分析方法
1.什么叫做隐马尔可夫过程?为什么说语 音信号可以看成隐马尔可夫过程?
2. HMM模型的结构主要有哪两种?它们 的特点是什么?
3.隐马尔可夫模型有哪些模型参数?请 叙述这些参数的含义和定义式。
根据某状态HMM模型,每一种路 径输出某某符号的概率计算。
语音检测分析——语音特征参数的提取和分析。
主要包括:基音检测和共振峰参数的估值。
NT
•短时傅里叶变换的取样率 •语音信号的短时综合 滤波器组求和法
•语谱图
可同时在时间和频率上显示语音频谱随 时间的变化。
第4章思考题:
1. 短时傅里叶变换的定义式是什么?短时傅 里叶变换的两种解释是什么? 如何提高短 时谱的频率分辨率?
2. 在求语音信号的短时谱时,对窗函数有什 么要求? 对语音信号频谱分析采用海明窗 和矩形窗各有什么特点?

语音信号处理期末复习题

语音信号处理期末复习题

语音信号处理期末复习题语音信号处理期末复习题语音信号处理是一门研究语音信号的产生、传输、处理和识别的学科。

它广泛应用于语音识别、语音合成、语音增强等领域。

在本文中,我们将回顾一些与语音信号处理相关的重要概念和技术。

一、语音信号的产生和特征提取语音信号是由人的声带振动引起的空气压力变化所产生的。

在语音信号处理中,我们通常使用基频、共振峰和声强等特征来描述语音信号。

1. 基频是指声音中最低频率的周期性振动。

它与人的声带振动频率相关,可以用来区分不同的语音音调。

2. 共振峰是指声音中频率响应最大的频率。

它与声道的共振特性相关,可以用来区分不同的语音音色。

3. 声强是指声音的能量大小。

它与声音的响度相关,可以用来区分不同的语音强度。

为了提取语音信号的特征,我们可以使用时域分析和频域分析等方法。

时域分析可以通过计算语音信号的短时能量和过零率等参数来描述语音信号的时域特征。

频域分析可以通过计算语音信号的功率谱和倒谱等参数来描述语音信号的频域特征。

二、语音信号的传输和编码在语音信号处理中,为了实现语音信号的传输和存储,我们需要对语音信号进行编码。

编码可以将连续的语音信号转换为离散的数字信号,以便于传输和处理。

1. 量化是指将连续的语音信号转换为离散的数字信号。

在量化过程中,我们需要选择合适的量化步长和量化级数,以平衡信号的保真度和数据的压缩率。

2. 编码是指将离散的数字信号表示为二进制码。

在编码过程中,我们可以使用不同的编码算法,如脉冲编码调制(PCM)和自适应差分脉冲编码调制(ADPCM)等。

为了提高语音信号的传输效率,我们还可以使用压缩算法对语音信号进行压缩。

压缩算法可以分为有损压缩和无损压缩两种。

有损压缩可以通过去除语音信号中的冗余信息来减少数据量,但会引入一定的失真。

无损压缩可以通过使用编码算法来减少数据量,但不会引入失真。

三、语音信号的处理和识别在语音信号处理中,我们可以使用滤波器、时域变换和频域变换等技术来对语音信号进行处理和分析。

语音信号处理期末复习讲解

语音信号处理期末复习讲解

3.3短时能量分析
短时能量定义
• 短时:通过加窗来实现 • 能量:通过求信号幅度的平方来实现
En
m
[ x(m)w(n m)]

2

m n N 1

n
[ x(m)w(n m)]
2
• 窗的位置随n变化
窗的类型
• 直角窗(矩形窗)
Time domain 40 1 30 0.8 20 10 0 -10 -20
人体发声的部位
声带——震动的来源
Tp
典型声门脉冲波形
• Tp为基音周期,倒数为基音频率,用fp表示, 取决于声带的尺寸和特性 • 男性说话者的fp大致分布在60-200Hz范围内 • 女性说话者和小孩的fp值在200-450Hz范围内 • 同一个人所发出的声音有高低变化,是靠控 制声带的松紧来调节的。
MOS得分 5 4 3 2 1 质量等级 优 良 可 差 坏 失真级别 不觉察 刚有觉察 有觉察且稍有可厌 明显觉察且可厌但可忍受 不可忍受
第三章 语音信号的 时域分析
语音信号的稳态——帧的概念
• 语音自身从长时间看是非稳态过程,从短时 间看是相对稳定的,既“短时性”。 • 将语音分为一段一段的,每一段称为“一 帧”,大概时间为10-30ms • 短时时域分析是语音处理的基本方法,也是 最直观、最易理解的方法
窗的类型
• 海明窗(Hamming,也称汉明窗,升余弦)
Time domain 40 1 20 0.8 0
Frequency domain
Magnitude (dB)
10 20 30 40 Samples 50 60
Amplitude
0.6
-20 -40 -60

语音信号处理复习纲要

语音信号处理复习纲要

语音信号处理复习纲要一、引言语音信号处理是一门研究如何对语音信号进行分析、合成、增强和识别的学科。

它在语音通信、语音识别和语音合成等领域有着广泛的应用。

本文将对语音信号处理的基本概念、技术和方法进行复习总结,以帮助读者加深对该领域的理解和掌握。

二、语音信号的基本特性1. 语音信号的产生机制:人类通过声带、喉咙、口腔和鼻腔等器官产生声音,形成语音信号。

2. 语音信号的基本特性:语音信号是一种时变信号,具有频率、幅度和相位等特性。

3. 语音信号的时域和频域表示:语音信号可以通过时域波形和频域谱图来表示。

三、语音信号的预处理1. 语音信号的采样和量化:将连续的语音信号转换为离散的数字信号。

2. 语音信号的预加重:通过预加重滤波器强调高频成分,提高语音信号的信噪比。

3. 语音信号的分帧:将语音信号分成若干帧,以便对每一帧进行进一步处理。

四、语音信号的特征提取1. 短时能量和过零率:用于表示语音信号的能量和过零点的数量。

2. 基频和共振峰:用于表示语音信号的基频和共振峰的频率和幅度。

3. 线性预测编码(LPC):通过线性预测模型来提取语音信号的特征。

4. 倒谱系数:通过倒谱分析来提取语音信号的特征。

五、语音信号的增强和降噪1. 语音增强的方法:包括谱减法、频率平滑法和Wiener滤波法等。

2. 语音降噪的方法:包括时域滤波法、频域滤波法和小波变换法等。

六、语音信号的合成1. 线性预测编码(LPC)合成:通过LPC模型来合成语音信号。

2. 基频和共振峰合成:通过基频和共振峰来合成语音信号。

七、语音信号的识别1. 语音特征匹配:将语音信号的特征与已知模板进行匹配,以实现语音识别。

2. 隐马尔可夫模型(HMM):通过HMM来建模语音信号,实现更准确的语音识别。

八、语音信号处理的应用1. 语音通信:包括语音编码、语音解码和语音传输等。

2. 语音识别:包括语音指令识别、语音转文字等。

3. 语音合成:包括文本转语音、语音合成等。

《语言学纲要》第三章-语音和音系复习资料

《语言学纲要》第三章-语音和音系复习资料

《语言学纲要》第三章语音和音系一、名词解释语音四要素——音高、音重(强)、音长、音质。

音素——是从音质的角度划分出来的最小的线性的语音单位音位——具体语言中有区别词的语音形式的作用的最小的语音单位。

也是按语音的辨义作用归纳出来的音类,从语言的社会属性划分出来的语言单位音位变体——处在互补关系中的相似的音素彼此不对立,即不起区别词的语音形式的作用,我们可以把它们归并为一个音位。

如果它们被归并为一个音位,则处于互补关系中的各个音素就被看成为同一音位在不同位置上的代表,是同一个音位的不同的变异形式,所以我们把它们叫做音位变体。

非音质音位——非音质音位指具有区别词的语音形式的作用的音高、音重、音长等。

例如汉语普通话声调中的阴平、阳平、上声、去声,是由音高的变化形成的而不是音质变化形成的,就是非音质音位。

区别特征——具体语言中有区别音位的作用的发音特征,叫做该语言的区别特征。

每一个音位都可以分解为几个不同的区别特征。

运用区别特征比较容易说清楚音位在具体语言中的特点和具体语言语音系统的组织方式。

音节——由音位组成的语音中最小的结构单位,也是从听觉上感受到的最自然的单位。

语流音变——音位和音位组合的时候,由于受说话时快慢,高低、强弱的不同和邻音的影响,可能发生不同的临时性的变化。

这种变化,我们叫做语流音变。

音步——语言的一种节奏中,语流是大致每隔两个音节就有一次小的轻重、高低、长短或松紧的交替,形成语流中大致等距离出现的两音节的节奏单元。

这种节奏单元叫做音步。

二、填空或简答1、画一张元音舌位图,用国际音标标出八个基本元音。

八个基本元音[i][e][ ][a][u][o][ɔ][ɑ]2、按音位特征用国际音标注出相应的音素。

(1)双唇浊鼻音m(2)舌尖前浊擦音z(3)舌面前送气清塞擦音ʨ‘(4)后低不圆唇元音ɑ(5)前半高不圆唇元音e(6)后半高圆唇元音o3、列出现代汉语普通话辅音音位的至少四对区别特征并各举一对儿对立音位。

语音信号处理复习要点

语音信号处理复习要点

考试时间:6月21日下午1:30-3:20考试地点:七(1、3、5班)、六阶(2、4及重修)《数字语音处理及Matlab仿真》1.语音信号短时分析的帧长一般取多长?10-30ms2.男性和女性的基音频率分别在什么范围?*P41 男50-250Hz 女100-500Hz3.语音信号的频率范围是多少?*300-3400Hz4.语音信号处理中,经济实用的采样率是多少?*8000Hz5.从能量和过零率两方面说明清音和浊音的区别。

*P 30:浊音能量明显高于清音 P 30:清音过零率高于浊音6.给出基音周期检测的两种方法。

*P 45:基于短时自相关法的基音周期估值和基于短时平均幅度差函数法的基音周期估值。

7.给出语音倒谱的两种应用。

*P 88、90:基因检测与共振峰检测8.语音信号典型的时域特征有哪些?*P190 :平均能量、短时平均过零率、基音周期。

9.在语音识别和说话人识别中主流的频域特征是什么?*P191 :MFCC10.在只考虑身高的矢量量化中,如果量化码本中只包含“姚明(2.26米)”和“潘长江(1.58米)”两个码字,你本人应该用哪个码字量化?*1.92以上姚明;1.92以下潘长江11.名词解释(写出缩写的英文缩写的全称、中文名称、简单含义,下同):MFCC*P24312.什么是基音频率?*P45:浊音声带振动基频称之为及音频率13.名词解释:LPC*P24214.线性预测分析的基本思想是什么?*P95:基本思想:一个语音取样的现在值可以用若干个语音取样过去值的加权线性组合来逼近,在线性组合中的加权系数称为预感器系数。

通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小值,能够决定唯一的一组预测器系数。

15.语音编码从采用的编码方法的角度可以分为哪三类?*P138:波形编码、参数编码、混合编码。

16.名词解释:PCM*P24317.8k采样率、8位量化的编码速率是多少?*64kbit/s18.ADPCM中“D”和“A”分别是什么含义?*P240:A自适应 D差分19.LPC-10的编码速率是多少?它采用的哪类编码方法?*P163:2.4kbit/s 参数编码20.语音合成的方法分为哪三类?*P172:波形合成法、参数合成法、规则合成法。

语音信号处理复习纲要

语音信号处理复习纲要

语音信号处理复习纲要Ch1 绪论§1.1 语音信号处理概述一、语音、语音信号处理的名词解释1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。

2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。

二、语音处理技术的应用领域语音处理技术的应用领域包括:工业、军事、交通、医学、民用等。

三、语音信号采用数字处理的原因(数字语音的优点)语音信号均采用数字处理,是因为数字处理与模拟处理相比具有许多优点:1、数字技术能够完成许多很复杂的信号处理工作;2、通过语音进行交换的信息本质上具有离散的性质,语音可以看做是音素的组合,适合数字处理;3、数字系统具有高可靠性、廉价、快速等优点,容易完成实时处理任务;4、数字语音适合在强干扰信道中传输,也易于加密传输。

四、语音学的名词解释语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。

§1.2 语音信号处理的发展概况一、语音信号处理的发展史1、1874年:电话的发明时现代语音通信的开端;2、1939年:通道声码器技术;3、40年代后期:语谱仪;4、50年代初:第一台口授打字机和英语单词语音识别器;5、60年代:Fant发表《语音产生的声学理论》;6、70年代初:Flanagan著作《语音分析、合成和感知》;7、90年代以来:语音识别的研究由实验室走向实用化。

二、语音编码、语音合成、语音识别名词解释1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。

2、语音合成:语音合成的目的是使计算机能像人一样说话,它是一种人机语音通信技术,应用领域广泛。

3、语音识别:语音识别是使计算机判断出所说的话得内容,和语音合成一样也是一种人机语音通信技术。

语音信号处理中期复习要点

语音信号处理中期复习要点

《语音信号处理》中期复习要点[0].什么是语音?解释音质、音量、音调[1].解释元音、辅音[2].解释音素、音节[3].语音信号的最大特点是什么?[4].解释基音、共振峰的概念[5].列于几种语音预处理的方法[6].语音预处理中的预加重,加重的是哪部份?[7].相同条件下,时间分辨率、频率分辨率、时宽、带宽相互之间成什么关系?[8].讨论窗口大小对短时能量分析的影响。

[9].讨论窗口大小对短时幅度分析的影响。

[10].已知某音频信号的采样率为10kHz,量化精度为16位,均匀量化,则该信号的编码率为?(单位bps)[11].短时能量分析和短时平均幅度分析的本质是相同的,都是以对语音信号的什么为研究对象的。

[12].短时相关分析和短时平均幅度差分析出发点相同,以语音的什么为考察对象的?[13].过零率和什么密切相关?[14].三条曲线分别代表三种音素:浊音V、清音U、无声S(能量较小的背景噪声)的短时过零概率分布,在图中标注对应位置。

[15].三条曲线分别代表三种音素:浊音V、清音U、无声S(能量较小的背景噪声)短时幅度概率分布,在图中标注对应位置。

[16].E n、Mn的作用是什么?[17].解释短时自相关分析为什么能够提取基音。

[18].估计该图语音的基音周期[19].经过修正和没有经过修正的短时自相关分析有何区别?为什么要进行修正?[20].经过修正和没有经过修正的短时平均幅度差分析有何区别?为什么要进行修正?[21].人耳对语音的高频还是低频部分更加敏感?[22].利用语音信号(浊音)的准周期性,来提取基音信息或区分清浊音的时域方法有哪些?[23].E n(k)=21)]()([1∑-=++-+NmkmnxmnxN可以用来提取什么?两个窗口的大小关系是?[24].什么是短时自相关分析的“谱平整”[25].比较短时自相关和AMDF的算法优缺点[26].语音信号的STFT,是一个关于和的二元函数,分别固定它们时,可以得到两种解释,一种是,一种是。

通信中的语音信号处理复习大纲

通信中的语音信号处理复习大纲

《通信中的语音信号处理》复习大纲1、了解语音信号处理的目的、实质和发展历史;实质:是研究用数字信号处理技术对语音信号进行处理的一门学科目的:通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信号所包含的信息。

通过对语音信号进行某种运算以达到某种要求。

发展历史:1876年电话的发明,贝尔(Bell);1939年声码器的研制成功—声源+声道;1947年贝尔实验室发明语谱图仪—语音识别研究的开始;50年代第一台口授打字机和英语单词语音识别器;60年代出现了第一台以数字计算机为基础的孤立词语音识别器和有限连续语音识别器;70年代动态规划技术、隐马尔可夫模型、线性预测技术和矢量量化码书生成方法用于语音编码和识别;80、90年代语音处理技术产品化—IBM Tangora-5和Tangora-20英语听写机,Dragon Dictate 词汇翻译系统(70000),汉语听写机。

CMU语音组研制成功SPHINX系统(997,95.8%);国内,清华大学、中科院声学所和中科院自动化所在汉语听写机研究方面有一定成果。

(除了属于这种LPC[线性预测分析法]的方法外,还开发了各种数字语音处理方法。

到目前为止,相继实现了语音编码、语音分析、语音合成、语音修正、语音识别、说话者识别等各种具体应用系统。

)2、理解和掌握语音信号的表示和处理方法,常用的语音编码的采样率和相应的数字语音信号的速率;1.语音表示方法的选择:要保存语音信号中的消息内容;表示形式要便于传输和存储、变换和处理,不至于严重损害消息的内容,有用信息更易于被提取;2. 语音信号数字表示的优点:数字技术能完成许多很复杂的信号处理工作;语音可以看成是音素的组合,具有离散的性质,特别适合于数字处理;数字系统具有高可靠性、价廉、紧凑、快速等特点,很容易完成实时处理任务;数字语音适于在强干扰信道中传输,易于和数据一起在通信网中传输,也易于进行加密传输。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Ch1 绪论§1.1 语音信号处理概述一、语音、语音信号处理的名词解释1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。

2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。

二、语音处理技术的应用领域语音处理技术的应用领域包括:工业、军事、交通、医学、民用等。

三、语音信号采用数字处理的原因(数字语音的优点)语音信号均采用数字处理,是因为数字处理与模拟处理相比具有许多优点:1、数字技术能够完成许多很复杂的信号处理工作;2、通过语音进行交换的信息本质上具有离散的性质,语音可以看做是音素的组合,适合数字处理;3、数字系统具有高可靠性、廉价、快速等优点,容易完成实时处理任务;4、数字语音适合在强干扰信道中传输,也易于加密传输。

四、语音学的名词解释语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。

§1.2 语音信号处理的发展概况一、语音信号处理的发展史1、1874年:电话的发明时现代语音通信的开端;2、1939年:通道声码器技术;3、40年代后期:语谱仪;4、50年代初:第一台口授打字机和英语单词语音识别器;5、60年代:Fant发表《语音产生的声学理论》;6、70年代初:Flanagan著作《语音分析、合成和感知》;7、90年代以来:语音识别的研究由实验室走向实用化。

二、语音编码、语音合成、语音识别名词解释1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。

2、语音合成:语音合成的目的是使计算机能像人一样说话,它是一种人机语音通信技术,应用领域广泛。

3、语音识别:语音识别是使计算机判断出所说的话得内容,和语音合成一样也是一种人机语音通信技术。

为了实现人机语音通信,必须具备语音识别和语音理解两种功能Ch2 基础知识§2.2 语音产生的过程一、现代语音学发展的三个分支:发音语音学、声学语音学、听觉语音学。

二、语音、清音、浊音的名词解释及语音的产生过程(名词解释、简答,集中备课)1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。

语音室声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。

语音的振动频率最高可达15kHz左右。

2、人类生成语音过程的第一阶段包括神经核肌肉的生理学阶段和产生语音波、传递语音波的物理阶段。

3、语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。

浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。

基音周期:声带开启和闭合一次的时间即振动周期称为音调周期或基音周期。

基音频率:基音周期的倒数称为基音频率,简称为基频。

基频取决于声带的尺寸和特性,也决定于它所受的张力。

基频还决定了声音频率的高低,频率快则音调高,频率慢则音调低。

基音的范围约为80-500Hz左右,老年男性偏低,小孩和青年女性偏高。

四、语音的产生过程:空气从肺部排出形成气流。

空气通过声带时,如果声带是紧绷的,则声带将产生张弛振动,即声带周期性地开启和闭合。

声带开启时,空气流从声门喷射出来,形成一个脉冲;声带闭合时相应于脉冲序列的间歇期。

因此,这种情况下在声门处产生出一个准周期脉冲序列的空气流,即“浊音”语音。

如果声带完全舒展,则肺部发出的空气流不受影响地通过声门:一种是形成“摩擦音”和“清音”,一种是形成“爆破音”。

五、对于浊音、清音和爆破音来说,激励源是不同的,浊音语音是位于声门处的准周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流,而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。

六、共振峰的概念1、共振峰名词解释:声道是一个分布参数系统,它是一个谐振腔,有许多谐振频率,称为共振峰,它是声道的重要声学特征。

2、共振峰的公式:Fn=(2n-1)c/4L(会运用公式进行计算,填空、选择)3、声道的共振峰特性决定所发声音的音色。

4、谐振点间的间隔不同,但平均仍然大约为每1KHz有一个谐振点。

七、几个小的填空题1、共振峰特性决定信号频谱的总轮廓(谱包络)。

2、共振峰和声道的形状和大小有关。

3、语音的频率特性主要是由共振峰决定的。

4、声道的共振峰特性决定所发声音的频谱特性(音色)。

5、人在说话时,元音的音色和区别特征主要取决于声道的共振峰特性。

6、声门脉冲序列具有丰富的谐波成分,这些频率成分与声道的共振频率之间相互作用的结果对语音的音质有很大影响。

7、语音识别技术中要考虑3个共振峰,而在语音合成技术中要考虑5个共振峰。

8、声波的共振也称为共鸣。

声道截面积随纵向位置而改变的函数,称为声道截面积函数,它决定共振峰的特性。

§2.3 语音信号的特性一、语音的物理属性语音的物理性质包括音质、音调、音强、音长等特性。

语音是人的发音器官发出的一种声波,具有声音的物理属性。

音质是一种声音区别于其他声音的基本特征;音调指声音的高低,取决于声波的频率:频率高则音调高,频率低则音调低;响度是指声音的强弱,又称音量,它是由声波震动幅度决定的;声音的长短也称音长,它取决于发音持续时间的长短。

二、音素、音节、单词、句子的基本概念以及它们之间的关系(1)音素是语音的最小、最基本的组成单位,音素都有其独立的各不相同的发音方法和发音部位,它是使听者能区别一个单词和另一个单词的声音的基础。

(2)音节是最小的语言片段,一个音节由一个或几个音素组成。

(3)单词是由音节结合而成的更大单位,是有意义的语言的最小单位。

(4)句子是单词的进一步组合。

三、语音的时间波形和频谱特性1、元音的时间波形如图2-2所示特点:其声门波形为脉冲序列,脉冲之间的间隔为基音周期,用g(t)表示。

2、声道的输出如图2-3所示门脉冲的周期。

3、元音信号的频谱如图2-6所示特点:g(t)的频域为G(f),冲激h(t)的频域表示为H(f),输出的频谱为G(f)H(f),如图2-6所示。

其中虚线称为谱包络,其形状是由H(f)和G(f)的包络乘积得到的。

四、几个小知识点1、任何语音都有元音和辅音两种音素。

2、元音在音节中占主要部分。

3、每个元音的特点是由声道的形状和尺寸决定的。

4、所有元音都是浊音。

5、发辅音时如果声带不振动,为清音;发辅音时声带振动,为清辅音。

6、在已知语言中元音有少至2个多到12个,辅音从10多个至70多个。

一个音节可以是1个元音和1-2个辅音的组合。

五、汉语的特点1、汉语的特点为自然单位是音节、每一个字都是单音节字,即汉语的一个音节就是一个字的音,字是独立的发音单位;再由音节字构成词,最后由词构成句子。

每一个音节字由声母和韵母拼音而成;在音节中,声母较简单,而韵母比较复杂。

2、汉语语音的另一个特点是它具有声调。

3、汉语的特点还有音素少、音节少的特点。

六、汉语中的音节即字音由声母、韵母和声调按一定方式构成,即声、韵、调三个因素构成。

七、清音和浊音的频谱特性清音和浊音的波形有很大的不同。

清音的波形类似于白噪声,具有很弱的振幅;元音具有明显的准周期性,并具有较强的振幅。

它们的周期对应的频率就是基音频率。

如果考察其中一个周期,还可以大致看出其频谱特性。

§2.4 语音信号产生的数学模型一、语音信号的数字模型1、语音信号数字模型的概念:语音信号被看成是线性时不变系统(声道)在随机噪声或准调周期脉冲序列激励下的输出。

在满足这样的假设条件下,产生了语音信号的基本数字模型,是语音处理技术的基础。

2、语音信号数字模型的框图:P21 图2-18图中,清/浊音开关模拟了加在声道上的激励的改变情况:当开关接在浊音位置时,激励源是准周期脉冲序列发生器,其重复频率由基因频率来确定;当开关接在清音位置时,激励源是随机噪声发生器。

二、语音信号数字模型的组成等1、语音信号数字模型由激励模型、声道模型和辐射模型组成。

2、声道模型包括声管模型和共振峰模型。

3、共振峰模型又可分为级联型、并联型和混合型。

级联型、并联型、混合型的特点分别是:(1)级联型:比较简单,可用于描述一般的元音。

级联的级数取决于声道的长度。

(2)并联型:比级联型复杂,每个谐振器的幅度都要独立控制。

(3)混合型:是级联型和并联型的结合,是比较完备的一种共振峰模型。

能够根据不同性质的语音进行切换。

三、一个完整的语音信号数字模型可以用激励模型、声道模型和辐射模型的级联来表示。

四、发不同性质的音时,激励的情况是不同的,大致分为两类:(1)发浊音时,此时气流在通过绷紧的声带时,冲激声带产生振动,使声门处形成准周期性的脉冲串。

声带绷紧的程度不同时,振动频率也不同,这个频率就是音调频率,其倒数为音调周期。

不同人的音调周期是不同的,男子大,女子小,老人大,小孩低。

(2)发清音时,此时声带松弛五、激励模型的频谱特点1、发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。

这个脉冲波类似于斜三角形的脉冲,激励是一个以基音周期为周期的斜三角脉冲串。

2、发清音时,声道被阻碍形成湍流,可以模拟成随机白噪声。

六、P和P/2P/2代表级联的个数七、辐射模型是一阶类高通滤波器的形式。

§2.5 语音感知一、人耳能听到的声音,频率范围在16Hz-16kHz之间,年轻人的上限可以延伸至20kHz,老年人则衰退到10kHz。

二、声音的三要素声音可以用幅度、频率和相位三个物理量来描述,但相对于人耳的感觉,声音的描述有其三要素,即:响度、音调和音色。

1、响度:响度是人耳对声音强弱程度的主观反应,响度取决于声音的幅度,主要是声压的函数,但和频率和波形也有关,单位是宋(sone)。

人耳对3000-4000Hz的声音感觉最灵敏。

2、音调:也称音高,是一种主观心理量,是人耳对声音频率高低的感受,即与声音的频率有关。

音调与声音频率是近似的对数关系,单位是美(mel)。

3、音色:也叫音质,反映了声音属性。

人根据音色在主观感觉上区别具有相同响度和音调的两个声音。

三、听觉掩蔽的名词解释及其应用1、听觉掩蔽:人类听觉中存在一种现象,即两个音同时存在时,一个声音有可能受到另一个声音的干扰或压制,即一个音被另一音掩盖,这称为听觉掩蔽。

2、应用:听觉掩蔽现象在语音处理中得到了广泛的应用。

在语音编码中,利用听觉掩蔽效应改善输出语音质量已取得很大效益。

Ch3 时域分析§3.1 概述一、为什么时域分析要采用短时分析技术(结合语音的特点)1、短时分析技术的基本概念:语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10-30ms,语音信号近似不变。

相关文档
最新文档