语音压扩技术 小结

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、理论意义与实用价值

对语音信号处理的研究,无一不是实际应用需求的推动。语音的数字化传输和存储的研制成功,大大提高了语音传输和存储系统的可靠性、抗干扰性、快速交换和保密性,且极大地降低了其实现成本。语音压缩编码技术发展不仅为实现窄带通信系统的语音信号传输提供了技术上的可能,而且推动了低成本语音存储和语音合成系统的发展。数字语音信号已经广泛应用于通讯、多媒体网络以及民用消费类产品等诸多领域,并显示了模拟语音信号无可比拟的优势。

二、当前状况

1、问题由来

数字语音通信系统与模拟语音通信系统相比,具有抗干扰性强、保密性好、易于集成化等优点;数字语音存储技术与模拟语音存储技术相比,具有灵活性高、可控性强和寿命长等优点。语音信号的采集、编码、数字处理与压缩等技术已逐步渗透到人们的工作、生活、学习等各个领域。在过去十年的时间里,数字语音通信蓬勃发展。而促成这一发展的主要技术就是语音编码。

2、语音编码技术与解码技术

所谓语音编码,即是将模拟语音信号通过A/D转换器进行数字化采样,然后再将这些采样值进行有效的压缩编码,使之成为数字比特流,用于传输或存储;相应的语音解码器接受到这些数字比特流,将其解压缩还原成数字化的语音采样值,然后通过D/A转换器和扬声器将这些采样值还原成模拟的语音信号。

可以看出,语音编码的目的是得到语音信号的压缩表示,以便于进行有效地传输和存储。

3、语音编解码器分类与优缺点

基于对语音信号处理的方法不同,语音编解码器可以分为三种类型:波形编解器、音源编解器和混合编解器。

1)波形编解码器是把语音看作一般地波形来处理;

2)音源编码器又称为声码器,其是从语音波形信号中提取生成语音的特征参数,然后对特征参数进行处理;

3)混合编码器结合了音源编码技术和波形编码技术。

每种语音编码器根据其比特率(压缩程度),复杂性(MIPS)以及语音质量的不同而各具有其优缺点。

一般来说,波形编码器合成的语音质量高,但数据率也很高;音源编码器的数据率很低,合成语音的音质较低;混合编码器数据率和音质介于它们之间。

根据实际应用,语音编码系统通常可以分为两大类:第一类是编码-存储-回放系统,或称为数字语音录放系统,如图1(a)所示;第二类是编码-传输-解码系统,或称为数字电话通信系统,如图1(b)所示。

4、语音压扩技术的发展

1)声码器

最早对语音编码的研究是对声码器的研究。贝尔电话实验室的Homer Dudley 首次提出语音编码的分析合成方法。那时Homer Dudley研究声码器的动机是开发在窄带电报电缆上传输语音信号。Homer Dudley分析了语音信号的基音和频谱,用周期信号(Buzz)或随机信号(Hiss)去激励一个十阶模拟带通滤波器(代表声道)产生语音信号。

2)共振峰声码器、模式匹配声码器

在上世纪五十年代和六十年代期间,共振峰和模式匹配声码器得到了较大的发展。在共振峰声码器中,利用滤波器组的共振特性跟踪语音信号共振峰的变化。在模式匹配声码器中,从一组存储的频率信号响应模式中选择与语音信号的短时频谱匹配最好的模式,并用它来激励声道滤波器产生语音。模式匹配声码器首次在分析合成方法中采用了矢量量化技术。

早期声码器的实现都是基于模拟语音的,但是由于数字化语音便于加密、传输和存储,很快得到了重视。特别是在二十世纪四十年代,脉冲编码调制(PCM)取得了很大进展。脉冲编码调制是对模拟语音信号在离散时间和离散幅度上的直接量化,没有利用语音信号的任何相关性。利用语音信号的相关性的一些量化方法如差分脉冲编码调制(DPCM),Delta调制(DM),自适应差分PCM(ADPCM)等逐渐被提出。

3)线性预测技术、同态分析方法

随着数字计算机的出现,人们用更为复杂的方法来对语音信号进行数字表示。突出的进展是用全极点滤波器来模拟声道,滤波器参数通过线性预测(LP)

分析获得。

除了线性预测分析以外,同态分析也是一种重要的分析方法,它能够将混合在一起的信号分开。同态分析的另外一个优点就是能够从倒谱中获得基音信息。

4)短时傅立叶变换分析合成法

上世纪六七十年代,随着超大规模集成电路技术和数字信号处理理论的发展,语音编码获得了很大的发展。

Flanagan和Golden提出了语音信号的短时傅立叶变换分析合成法。

Schafer和Rabiner设计和仿真了一个基于短时傅立叶变换的分析合成系统。Protnoff提出了用短时傅立叶变换对语音进行时域和频域分析的理论基础。

5)CELP编码器

被称为“码激励线性预测(CELP)”用随机矢量激励的线性预测算法。CELP 中的随机激励是通过感知加权的闭合优化来获得的。CELP编码器结合了传统声码器和语音波形编码的波形匹配技术,标志了混合语音编码器的开始。

由于最初提出的CELP复杂度太大,所以又有大量改进的CELP算法被提出。

近些年来,对语音编码的研究主要集中于低于4k/s码速率的低速率语音编码上,如2.4k/s和1.2k/s。

6)MBE编码器

MBE算法采用多带激励模型。这种模型使合成语音谱同原始语音谱在细致结构上拟合的很好。MBE编码器是一种完全参数语音编码器。基于MBE的改进算法IMBE已经成为国际海事卫星服务的标准。

目前,低价全双工2.4k/s基于AMBE的芯片已经生产出来,该产品可用于蜂窝电话、卫星通信、数字移动广播、保密通信、语音多路技术、语音信箱和视频会议等。

7) 波形原型内插编码(PWI)

波形原型内插编码(PWI)在慢变化的基音周期波形的浊音帧间隔内传递一段原型波形,而没有传送的波形使用内插恢复。由于WI使用了余弦编码和线性预测技术,在低速率编码领域具有很大的潜力,目前在广泛的研究和改进,以便能在2.4k/s以下的速率达到高质量的语音。

三、波形编码——ADPCM 编码算法

CCITT G.711A 规定的µ 律和 A 律 PCM 编码方式,在 64kb/s 速率上语音质量能够达到网络等级。但是它只利用了语音信号幅度的一维统计特性,当速率进一步降低时,语音质量将不到网络等级。ADPCM 进一步利用了语音信号样点间的相关性,并使用了自适应预测和自适应量化,能够在 32kb/s 的速率上给出网络等级的语音质量。

该算法的语音质量十分接近 G.711A 规定的µ 律和 A 律 64kb/s PCM的语音质量,MOS 分为 4.1,经过 4 次同步转接后 MOS 分还在 3.5 分以上,达到网络等级。ADPCM 的抗误码性能优于 PCM,带宽为 200~3400Hz,采样频率为

相关文档
最新文档