通信中的语音信号处理复习大纲

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《通信中的语音信号处理》复习大纲
北科大版
1、了解语音信号处理的目的、实质和发展历史;
实质:是研究用数字信号处理技术对语音信号进行处理的一门学科
目的:通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信号所包含的信息。

通过对语音信号进行某种运算以达到某种要求。

发展历史:1876年电话的发明,贝尔(Bell);
1939年声码器的研制成功—声源+声道;
1947年贝尔实验室发明语谱图仪—语音识别研究的开始;
50年代第一台口授打字机和英语单词语音识别器;
60年代出现了第一台以数字计算机为基础的孤立词语音识别器和有限连续语音识别器;
70年代动态规划技术、隐马尔可夫模型、线性预测技术和矢量量化码书生成方法用于语音编码和识别;
80、90年代语音处理技术产品化—IBM Tangora-5和Tangora-20英语听写机,Dragon Dictate 词汇翻译系统(70000),汉语听写机。

CMU语音组研制成功SPHINX系统(997,95.8%);
国内,清华大学、中科院声学所和中科院自动化所在汉语听写机研究方面有一定成果。

(除了属于这种LPC[线性预测分析法]的方法外,还开发了各种数字语音处理方法。

到目前为止,相继实现了语音编码、语音分析、语音合成、语音修正、语音识别、说话者识别等各种具体应用系统。


2、理解和掌握语音信号的表示和处理方法,常用的语音编码的采样率和相应的数字语音信号的速率;
1.语音表示方法的选择:要保存语音信号中的消息内容;表示形式要便于传输和存储、变换和处理,不至于严重损害消息的内容,
有用信息更易于被提取;
2. 语音信号数字表示的优点:
数字技术能完成许多很复杂的信号处理工作;
语音可以看成是音素的组合,具有离散的性质,特别适合于数字处理;
数字系统具有高可靠性、价廉、紧凑、快速等特点,很容易完成实时处理任务;
数字语音适于在强干扰信道中传输,易于和数据一起在通信网中传输,也易于进行加密传输。

3. 语音信号的数字表示方法:波形表示—采样和量化,保持波形;参数表示—激励源和模型参数(第二章)
语音信号的特点—短时平稳性
4. 处理方法:短时时域处理方法—短时能量、短时平均过零率以及短时自相关函数计算
短时频域分析—短时傅立叶分析
线性预测技术—本质上属于时域分析方法,但其结果可以是频域参数
倒谱和同态分析、矢量量化和隐马尔可夫模型
5. PCM编码:采样率:8000次/second,均匀量化:采样率12bps信号速率96kbps,非均匀量化:采样率8bps信号速率64kbps
ADPCM:采样率:8khz速率:32kbps
3、理解语音信号的产生过程、发生机理和语音信号的声学特性;
产生过程:语音是说话人和听者之间相互传递的信号,传递的媒介是声波,说话人的发音器官做出发声动作,接着空气振动形成声波,声波传到听者的耳朵里,立刻引起听者的听觉反应
发生机理:
声学特性:频率:与音高有关;振幅:与响度有关。

4、理解和掌握语音信号浊音的基音频率、共振峰,及共振峰的计算方法;
浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数。

人类基音频率的范围在60Hz至450Hz左右。

共振峰(formant):声道是一个谐振腔,当激励的频率达到至声道的固有频率,则声道会以最大的振幅振荡,此时的频率称之为共振峰或共振峰频率。

声道具有的一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度。

共振峰及其带宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。

实际应用中,头三个共振峰最重要。

理想状态下共振峰的计算:假设声道截面是均匀的(此时可把声道看作一个粗细均匀的圆筒),从喉到唇的距 离L=17 cm ,音速c=340 m/s ,则共振峰将发生在:
5、 理解语音信号的时域、频域以及语谱图的表示方法; 时域波形:时间、振幅。

频域波形-频谱:频率、分贝。

语谱图:用横坐标表示时间,纵坐标表示频率,每个像素的灰度值大小反映相应时刻和相应频率的能量
在频域上,能量集中处就是共振峰(formant)之所在,在语谱图上就是颜色较深的位置。

语谱图能提供有关不同时间不同频率的相对音强的有价值的信息,如共振峰频率和基音周期。

在发元音时,音强较大,声带振动而呈现出基频及其谐振频率,也可以明显看到共振峰,能量集中在低频。

如果是发辅音,而且声带不振动,就看不到谐振频率。

通常辅音的音强小,颜色看来就比较淡,而且能量较集中在高频。

若是在没有语音的空档,则语谱图上呈现的,就是有一段空白。

6、 (建立一个离散时域的语音信号产生的数字模型)理解和掌握语音信号的线性产生模型:激励模型、声道模型
和辐射模型(由于人类语音的频率范围主要集中在300Hz~3400Hz ,数字模型中的信号取样率一般为8KHz 。

) 由此模型框图,我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出,此模型可分为三个部 分:(1)激励模型2)声道模型3)辐射模型
浊音激励模型U(z):发浊音时声带绷紧,声带不断张开和关闭产生的脉冲波,类似于斜三角波
清音激励模型:声带不发生振动,气流通过声门直接进入声道,气流被阻碍形成湍流,相当于随机白噪声(此处用均值为0,方差为1并在幅值上为平稳分布的序列)
声道模型V(z):两种建模方法:
(a)声管模型:
(b)共振峰模型:共振峰模型将声道视为一个谐振腔,按此原则导出。

基于各种音素发音的不同谐振特点可建立起三种实用的共振峰模型: (a)级联型(适用于一般单元音,认为声道是一组串联的二阶谐振器,谐振中心频率值等于共振峰,若把语音的各个共振峰所对应的二阶系统级联起来就形成了一个完整的级联型声道模型,且具有明显的谐振特性。


(b)并联型(适用于鼻音、复合元音及大部分辅音,发这些音时发音腔体具有反谐振特性,必须在模型中加入零点以减弱谐振强度,故要考虑用零、极点模型)
级联或并联的级数取决于声道的长度,一般成人取3到5级。

(c)混合型
辐射模型R(z):在发音腔道内形成的气流经由嘴唇端辐射出来,到达听者耳朵的这段过程,声音信号会衰减,而且有高通滤波的特性。

常用一个一阶的数字高通滤波器模拟这个现象 7、 理解语音信号的短时特性的理解,以及语音信号平稳性的理解;
语音信号从整体上来看表征其本质特征的参数都是随时间变化的,这一点可以从语音信号的时域幅度波形上看出,故语音信号是一个非平稳随机过程,不能用处理平稳随机信号的技术对其进行分析处理。

由于语音信号是由人的口腔内一系列肌肉运动构成的发声模型产生的,而口腔肌肉的这种运动相对于语音频率来说是非常缓慢的,故在一个短时间范围内(一般认为10~30ms ),其特性基本保持不变,可以将其看作“准稳态随机过程”,这就是语音信号的“短时平稳性”。

任何语音信号的分析处理都必须建立在短时平稳的基础上,即进行“短时分析”:将语音信号分为一段一段来分析其特征参数。

其中每一段称为一帧(frame ),帧长一般取10~30ms 。

这样对于语音信号的整体而言,分析出的就是每一帧参数组成的特征参数Hz L c c F Hz L c c F Hz L c c F 前三个共振峰:n 为第n个共振峰的波长L
c n c F n n n 250045,150043500101743404计算,2,1)(4)12(3322211=======⨯⨯====-==-λλλλλ 处的大小在一帧信号的傅立叶变换点为中心的
表示在时域以的窗函数
+是长度为=其中,ωωωωωωn n X n w e k n w k x n X n X N n P k k j x ),(12N ][][][),(|),(|121),(2∑∞-∞=--+=)()()()(z R z V z U z H =1()(1),1,1
R z rz r r -=-<≈
时间序列。

8、掌握语音信号的采样和量化过程,如何计算量化器中每个比特字长对信噪比的贡献,以及通过动态范围计算量
化字长;
采样:一个数字信号取样之后,变成离散时间信号,接下来就是要用数字方式来表示这个离散时间信号上的每个取样值。

量化:一个电位波形会有固定的电压范围,一个取样值可以是在此电压范围内的任何电位。

如果只能用固定数目的位来表示这些取样值,那么这些二进数字就只能代表固定的几个电位值,这个转换就是量化(quantization),而转换之后只允许存在的几个电位值就是量化阶数(quantization level)。

执行量化转换的硬件电路,就是量化器(quantizer)。

均匀量化的缺点:对于小信号,其信噪比太低
量化器中每个比特字长对信噪比的贡献大约为6dB。

当量化字长为7bit时,信噪比为35dB,此时量化后的语音质量能满足一般通信系统的要求。

如需要更大的动态范围,例如55dB,则语音信号的量化字长为10bit以上
9、理解短时加窗中的矩形窗和汉明窗;
用一个固定长度的窗口(window)套上去,只看窗口内的信号,对这些信号做计算,用以求出在这窗口内的语音特征(speech features)。

这样的处理方式,就叫加窗(windowing),而套上去的这一段语音即称为语音帧(frame)。

通常窗口的长度是取10~40 毫秒(ms),窗口的移动距离,大约会取5~20 ms,让前后的语音帧有部分重叠,这样能观察到语音特征改变的延续性以保证分析的准确性。

矩形窗:
汉明窗:
汉明窗的第一个零值频率位置比矩形窗大一倍左右,即,汉明窗的带
宽大约是同样宽度矩形窗带宽的两倍。

同时,在通带外,汉明窗的衰
减较相应的矩形窗大得多。

10、理解短时能量分析、短时平均过零率和短时相关的定义;
信号{x(n)}的短时能量定义:
En表示在信号的第n个点开始加窗函数时的短时能量,可以看作语音信号的平方经过一个线性滤波器。

作用:反映出语音的能量或语音振幅随时间缓慢变化的规律。

(浊音段能量比清音段大的多)
1)区分清音段和浊音段—浊音能量高。

2)对声母和韵母分界3)区分无声和有声的分界(信噪比较高的信号)。

4) 区分连字的边界5)用于语音识别
En的缺点:对高电平过于敏感,给加窗宽度的选择带来了困难。

扩大了振幅不相等的任何两个相邻取样值(此处
的取样值是指某语帧的短时平均能量值)之间的幅度差别,必须用较宽的窗函数才能平滑能量幅度的起伏。

为了使En能准确反映语音能量的时变规律:-数据窗w(n)或滤波器h(n)函数形式和宽度的选择相当重要
过零:信号波形穿越时间轴或零值线;对于离散时间信号而言就是相邻的取样值符号改变。

平均过零率:单位时间(或单位样本)内
过零的次数。

计算一个语音帧内单位时间(或单位样本)越过零线的平均次数,可以得出其短时平均过零率(zero crossingrate)或短时平均过零数。

声带振动时,是在发浊音,所以过零率低,声带不振动时,是在发清音,所以过零率就高,没有声音时若有噪音存在,也会有较高的过零率。

(浊音、清音过零率的高低不是绝对的,分布有交叉的情况,多种工具同时用)
实际应用——区分清、浊音在背景噪声较大的情况下,从噪声信号中找出语音信号,判断出语音的起点和终点。

(语音的端点检测)相关函数可用于测定两个信号在时域内的相似
性。

自相关函数:用于研究信号本身。

例如,信号波形的同步性、周期性等。

互相关函数:用于研究不同信号之间的差异。

例如,两个信号完全不同,则互相关函数
接近于零。

语音信号处理的相关分析:短时自相关函数应用:分析语音信号的同步性和周期性。

短时自相关函数的缺陷:由于公式的求和上限是随
-可看出浊音信号的周期性;
-清音没有周期性,其性质类似于噪声;
-浊音的周期性在采用矩形窗时明显一些;
-窗宽对浊音短时自相关周期性的影响。

解决缺陷:
11、
(同第六题)声道模型两种建模方法:(a)声管模型(b)共振峰模型
共振峰模型将声道视为一个谐振腔,按此原则导出。

基于各种音素发音的不同谐振特点可建立起三种实用的共振峰模型:(a)级联型(b)并联型(c)混合型
12、理解短时傅立叶谱的定义、性质;
短时谱的特点:1)时变性:既是角频率ω的函数又是时间n的函数2)周期性:是关于ω的周期函数,周期2π
短时谱与短时功率谱及短时自相关函数的关系:
13、理解解卷、同态滤波、复倒谱和倒谱和相位卷绕的定义;
一帧语音信号= 声门激励信号* 声道冲激响应
为了求得语音信号的共振峰,必须知道声道的传递函数;为了判断语音信号是清音还是浊音,以及求得浊音情况下的基音频率,必须知道声门激励序列;为了提取反映声道特性的谱包络,必须通过解卷积去掉激励信息。

第一类:参数解卷方法。

采用的模型可以分为全极点模型(AR模型)和零极点模型(ARMA模型),如果采用最小均方误差准则对AR模型进行估计,就得到线性预测编码算法(LPC)。

第二类:非参数解卷,即同态解卷。

对语音信号进行同态分析后,将得到语音信号的倒谱参数。

只需要用十几种倒谱参数就能较好地描述语音信号的声道参数
同态信号处理法就是设法将非线性问题转化为线性问题来处理的一种方法。

按照被处理的信号来分类,大体上可以分为乘积同态信号处理和卷积同态信号处理(语音信号可以视为声门激励信号和声道响应信号的卷积结果)
分离非加性组合(如乘性或卷积性组合)信号,常采用同态滤波技术(利用广义叠加原理对同态系统进行滤波)。

非线性问题变换为线性的问题来解决
对信号进行分析得出它的倒谱参数的过程称为同态处理
复倒谱定义:倒谱定义:
与复倒谱不同的是,在倒谱情况下一个序列经过正逆两个特征系统变换后,不能还原成自身,因为c(n)中只有幅值信息而无相位信息。

倒谱等于复倒谱的偶对称部分,故有着与复倒谱相同的特性,且为偶函数。

清音情况下,具有噪声特性,因而其复倒谱也没有明显的峰起点,且分布范围很宽,从低时域延伸到高时域。

浊音的复倒谱仍然只分布在低时域中。

相位卷绕:求复倒谱中的取对数运算存在的相位多值性问题,我们称之为相位卷绕。

它的不确定性将使复倒谱恢复语音的运算产生错误。

三种避免相位卷绕的方法(非取相位主值的方法):微分法,最小相位法,递推法。

14、掌握语音信号线性预测法(LPC)的基本原理,3种模型,LPC声码器的概念以及莱文逊-杜宾递推算法;
语音样本之间存在相关性,一个语音信号(现在或是将来)的样本可以用过去若干个样本的线性组合来逼近
依据信号的短时平稳特性这一基础
基于参数模型的谱估计方法和系统辨识有三种情况:
AR 模型:只有极点没有零点的情况,称为自回归模型。

线性预测法正是基于AR 模型的假定,采用时域均方最小误差准则来估计模型参数的。

MA 模型:只有零点没有极点的情况,称为滑动平均模型。

ARMA 模型:既有零点也有极点的情况,称为自回归滑动平均模型。

LPC 声码器:通过使线性预测到的采样在最小均方误差意义上逼近实际语音采样,可以求出一组唯一的预测系数。

这种线性预测分析最早应用在语音编码中,因此,通常称为LPC 。

(声码器用来实现电子化的人声效果)
LPC 方程两种解法:自相关法,协方差法
15、 理解语音编码的分类,以及各种语音编码的优缺点;
保证语音音质和可懂度的条件下,采用尽可能少的比特数来表示语音
波形编码(PCM 编码)预测编码及其自适应(APC )自适应差分脉冲编码调制(ADPCM)及自适应增量调制(ADM)子带编码(SBC) 从数码率的角度分类:高速率(32Kbps )中高速率(16~32Kbps )中速率(4 8~16Kbps )4.8 低速率(1.2~4.8Kbps )极低速率(1.2Kbps 以下)
据编码方式分为:波形编码(PCM 、ADM 、ADPCM 、APC );参数编码(LPC 线性预测编码);混合编码(子带编码);
波形编码:特点:利用抽样定理,恢复原始信号的波形(用于较高的码率,并且具有高质量的语音)
优点:抗噪性能力强,重建语音质量好。

缺点:编码速率较高16~64Kbps
参数编码:提取语音的一些特征信息进行编码,在接收端利用这些特征参数合成语音。

(用于甚低码率,语音质量不太好,类似合成语音,在任何码率下都无法给出自然语音。


优点:编码速率低,速率通常是在4.8kbit/s 以下
缺点:语音的音质和自然度较差,辨别说话人是其研究难题。

(有一定的可懂度)
混合编码:介于波形编码和参数编码的一种编码。

即在参数编码的基础上引入了波形编码的一些特征。

可在4-16kb/s 范围内达到良好的语音质量(:综合采用波形编码和信源编码技术,在中等码率下具有较好的语音质量。


子带编码的优点:对低频段采用较多的比特数来表示样值,高频段则采用较少的比特数。

子带编码的另一个优点是各个子带内的量化噪声相互独立,可以避免输入电平较低的子带信号被其他子带的量化噪声所淹没
子带编码存在的问题是:编解码的延时比较长,约在几10~100ms 之间,这主要是滤波器组的延时造成的, 16、 理解和掌握语音合成和语音识别的定义。

语音合成:让计算机象人那样讲话。

研究目标是:可懂、清晰、自然、具有表现力
两类方法:“分析-存储-合成”;参数合成法(线性预测系数、线谱对参数或共振峰参数等有限个参数,节约存储量);
语音识别:与机器进行语音交流,让机器明白你说什么
(孤立单词识别、连续语音识别)(特定人语音识别、非特定人语音识别)(有限词汇识别、无限词汇识别)
语音处理应用:压缩编码、语音合成、识别、增强、说话人识别
语音文件的参数:采样率、数码率(bps: Bits per second or Bits per sample )
语音通道数:语音通道的个数表明语音产生的波形数,一般分为单声道和立体声道。

单声道产生一个波形,立体声道则产生两个波形。

采用立体声道声音丰富,但存储空间要占用很多。

由于语音的保真与节约存储空间是有矛盾的,因此要选择平衡点。

取样精度:即每次取样信息量。

取样通过模数转换器(AD转换器)将每个波形垂直等分,若用8位AD转换器,可把取样信号分为256等份;若用16位AD转换器,则可将其分为65536等份。

显然后者比前者音质好。

语音信号的特点—短时平稳性
短时时域处理方法—短时能量、短时平均过零率以及短时自相关函数计算
短时频域分析—短时傅立叶分析
线性预测技术—本质上属于时域分析方法,但其结果可以是频域参数
倒谱和同态分析、矢量量化和隐马尔可夫模型
音频信号经过数字化后产生的数据量相当大:
(每秒)数据量=抽样频率×量化比特数声道数/8 (单位:字节)
存储一段时间的数字化音频所需的存储容量
存储容量=(每秒)数据量×声音持续时间
语音分析的三种方法:
(1)时域分析法——时域波形图。

三种常用的时域分析方法:(1)过零分析(2)幅度分析/能量分析(3)相关分析
(2)频域分析法——频谱图。

频域分析包含:语音信号的频谱、功率谱、倒频谱、频谱包络、短时间谱等。

常用的频域分析方法有:a.带通滤波器组法。

b.傅里叶变换法。

c.线性预测法等。

(3)语谱分析法——语谱图。

语谱图可以在二维(时间及频率)图上表示音强的关系,提供了有关不同时间不同频率的相对音强的有价值的信息。

语音段起止端点判断-两级判决法——短时能量+短时平均过零率
基音周期的估计-短时自相关函数是区分清、浊音和估计基音周期的有效方法,但其包含的信息对基音周期的估计来说有许多是多余的;
-先对语音信号进行低通滤波,再计算自相关函数;-中心削波技术;-用短时平均幅度差代替短时自相关函数;
自相关函数常用来作以下两种语音信号特征的估计:
a.区分语音是清音还是浊音。

b.估计周期性语音信号的周期。

广义上,语音信号的频域分析包括:1)、频谱2)、功率谱3)、倒谱——对数功率谱取傅里叶变换4)、自相关函数
三种常用的频域分析方法:1)、滤波器组法2)、傅里叶频谱分析3)、线性预测
频率分辨率Δf、取样周期T、加窗宽度N三者关系:
窗形状对短时傅立叶变换的影响-矩形窗——主瓣窄,衰减慢;-汉明窗——主瓣宽,衰减快;
窗宽对短时频谱的影响-窗宽长——频率分辨率高(对应时间分辨率低),能看到频谱快变化;
-窗宽短——频率分辨率低(对应时间分辨率高),看不到频谱的快变化;
我们通常使用汉明窗进行短时谱分析
对语音信号解卷的好处:
1) 可对激励源进行研究,因而可以了解语音段是属于浊音还是清音,及确定浊音的基音频率
2) 可对声道冲激响应进行研究,因而可以了解声道特性及共振峰。

相关文档
最新文档