语音信号处理及加密课程总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《语音信号处理及加密》课程总结
本学期,我选修了《语音信号处理及加密》这门课。在本门课程的学习中,我系统地学习了现代语音编码技术的基本概念和基本知识,如什么是语音编码、对语音编码的要求、现代语音编码技术的作用和意义、现代语音编码系统的构成、分类以及主要性能指标等等,使我对现代语音编码有了初步的概要的了解。
最近的二十几年来,随着数字通信、计算机、信号处理、微电子等相关技术的发展和广泛应用,语音编码技术发展非常迅速,取得了一系列突破性的成果,极大地促进了数字通信的发展和普及,是现代通信以及信息技术的一个亮点。所谓的现代语音编码技术,主要就是指最近二十几年发展起来并得到广泛应用的语音编码技术。
一、为什么要学习语音编码技术?
由于PCM的编码速率过高,不适应通信和信息技术发展的需要,为了压缩编码速率,减少传输占用的带宽,人们一直在致力于研究开发新的语音编码技术。这种强烈的客观需求是推动语音编码技术发展的巨大动力。另一方面,最近二十几年来,随着计算机、微电子、信号处理等相关技术的迅速发展和广泛应用,尤其是随着数字信号处理算法和器件(DSP芯片)的飞速发展和应用,为中、低速率语音编码器的发展和应用准备了必要条件。正是在这种情况下,从20世纪80年代以来的二十几年间,语音编码技术进入了一个飞速发展的时期。
现代语音编码技术就是指20世纪80年代以来发展起来的新的语音编码技术,这些新的语音编码技术的出现,极大地推动了通信和信息技术的发展,是现代通信发展史中的一个闪光点。
学习和掌握现代语音编码技术的基础知识、分析方法、关键技术和算法十分重要,只有了解和掌握这些已经成熟或基本成熟的方法和技术,才能很好地适应现代通信和信息技术发展的需要,才能研究开发新的方案和算法,提出具有自主知识产权的技术方案。
二、我学到了什么?
语音编码为信源编码,就是对模拟的语音信号进行编码,将模拟信号转化成数字信号,从而降低传输码率并使之可以在数字信道中传输。语音编码的目的是在保持一定得算法复杂程度和通信时延的前提下,占用尽可能少的通信容量,传送尽肯能高质量的语音。
语音编码按照传统的分类方法通常分为三类:波形编码、参数编码和混合编码。
(一)波形编码
波形编码是将时间域或频率域或变换域信号直接编码为数字信号,力求使重建语音波形保持原始语音信号的波形形状。波形编码具有语音质量好、抗噪声性
能强等优点。其缺点是所需用的编码速率高,一般在64~16Kb/s之间。波形编码是应用最早、人们最熟悉的语音编码技术。波形编码通常包括时域波形编码、频域波形编码和变换域波形编码三种类型。在课程学习中,我对这三种编码技术有了初步的了解。
1)时域波形编码
课程中介绍了几种常用的时域波形编码,即脉冲编码调制(PCM)、增量调制(DM或∆M)、差分脉冲调制(DPCM)和自适应差分脉冲调制(ADPCM )。
PCM是应用最早和最广泛的语音编码技术,在很长一段时间内,它一直在语音编码中占据统治地位,对于通信的数字化起到过极为重要的推动作用。近年来语音编码技术取得一系列突破性进展,出现了许多崭新的编码算法和技术,已经动摇了PCM的统治地位,但在通信和信息系统中,PCM的应用依然相当普遍。其工作原理是:在译码端,输入模拟信号经过取样、量化和编码,实现模/数转换,变换成为数字信号;到了译码端,再将接收到的数字信号通过译码、低通平滑滤波实现数/模转换,恢复为模拟信号。
DPCM是对相邻样值之间的差值进行编码,而不是对取样值本身进行编码,这样就能够降低编码速率。由于它是对预测误差信号进行编码,而预测误差信号的能量比输入信号的能量小得多,因此量化限幅电平也可以小得多。这样,在量化电平数不变的条件下,量化器的量化间隔就比输入信号的量化间隔小得多,使得量化噪声减少。而在保持信噪比不变的情况下,DPCM就可以通过减少量化比特数,降低编码速率。
ADPCM是采用自适应量化及高阶自适应预测技术的DPCM。自适应线性预测以帧为单位进行,根据本帧语音波形的时间相关性确定预测系数,使得预测误差信号的方差最小。
DM是DPCM的一种特殊形式。当系统的取样品率大于Nyquist频率许多倍时,相邻取样值之间的相关性很强,差分信号的幅度值会在一个很小的范围内变化,于是就可以用正负两个固定的电平来表示差分信号。因此,在DM中仅用1bit
即可对差分信号进行量化,也就是只需指示出极性即可。
2)子带编码
子带编码是一种应用比较广泛的语音编码技术,也是一种典型的频域波形编码技术。它利用带通滤波器(BPF)组首先将输入信号分割成若干个不同的小的频带(称为子带),通过等效于单边带调幅的调制过程,将各子带搬移到零频率附近,形成低通信号后,再以Nyquist速率对各子带输出取样,并对这些取样值分别进行通常的数字编码。在接收端,将各子带编码信号进行译码,并重新调制回原始位置,再将所有子带输出相加,恢复出原始信号。把语音信号分成若干子带进行编码主要有三个优点。首先,如果对不同的子带合理的分配比特数,就可能分别控制各子带的量化电平数目以及相应的重建信号的量化误差方差值,使误码率更精确地与各子带的信源统计特性相匹配。其次,通过调整不同子带的比特分配数值,可以控制总的重建误差频谱形状,使误差谱的形状适应人耳听觉特性,获得更好的主观听音质量。第三,子带编码的另一个优点是各子带内的量化噪声相互独立,被束缚在自己的子带内,这样就能避免输入电平较低的子带信号被其
他子带的量化噪声所淹没。这种情况在非子带编码中就会发生,除非专门采用噪声谱形形成等技术来控制。
3)变换域编码。
变换域编码又称为变换域波形编码,是语音编码中经常使用的编码方式之一,尤其是在宽频带高音质声频编码中,变换编码应用更为广泛。
变换域编码是将通常在时域描写的语音信号变换到另外一些变换域中描写(这些变换通常采用正交变换),然后再对变换后的信号进行量化和编码。在接收端,首先对通过信道传输的接收信号进行译码,然后进行反变换以恢复出原始输入的语音信号。在文献资料中经常介绍并在实际中获得广泛应用的集中主要正交变换是:K-L变换(K-LT或KLT)、W-H变换(W-HT或WHT)、Haar变换(HT)、斜变换(ST)、离散余弦变换(DCT)和离散傅里叶变换(DFT)。
(二)参数编码
参数编码又称为声源编码或声码器,有时又成为分析-综合编码,它是将信源信号在频域或其他变换与提取特征参数,然后对这些特征参数进行编码或传输;在译码端再将收到的数字信号译成特征参数,根据这些特征参数重建语音信号。参数编码是通过对语音信号特征参数的提取和编码,力求使重建语音信号具有尽可能高的可懂度,即保持原语音信号的语意,但重建语音信号的波形语言语音信号波形却相差甚远。参数编码的有点是可实现低速率语音编码,其编码速率可低至2.4kb/s以下。其缺点是语音质量差,自然度较低,即使是熟人一般也定不出来讲话的人是谁。此外,参数编码的坚韧性也不够好。
参数编码的基础是语音的产生模型。根据这一模型对语音信号进行分析,就可以得到语音的谱包络、基音周期以及清浊音判决等参数。然后就可以对这些参数进行编码和传输。译码中所使用的声道滤波器的形式,与编码器中的谱包络分析器的形式必须相对应,才能够在同样的语音产生模型基础上合成出发送端的语音信号。
(三)混合编码
语音混合编码是在采用线性预测编码(LPC)技术的语音参数编码的基础上,通过采用许多改进措施,使用合成分析法而形成的一种新的编码技术,是最近二十几年来在语音编码技术上的一种突破性进展,收到人们的普遍重视,发展迅速,应用广泛。它克服了波形编码和参数编码的缺点,吸收了它们的长处,在16~4kb/s 速率上能够得到高质量的合成语音。多脉冲激励线性预测(MPE-LP)编码、规则脉冲激励线性预测(RPE-LP)编码和码激励线性预测(CELP)编码等都属于混合编码。
多脉冲激励线性预测(MPE-LP)编码是一种高音质语音编码算法,是第一个实用、有效的ABS-LPC类型的算法。在MPELPC中,不论是清音还是浊音,都用一帧中的有限多个脉冲经过最优化估值后作为激励信号。
规则脉冲激励线性预测(RPE-LP)编码是在MPELPC的基础上进一步改进而得到的。RPE-LTP编码方案的特点是算法简单,语音质量好,MOS分为4.0分。它是利用预测残差、感觉加权滤波器的单位冲击响应、位置脉冲模式等信息通过