语音信号编码
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音信号编码
早期的语音信号处理及传输均是以模拟的方式进行的。20世纪30年代末脉冲编码调制(PCM,Pulse Code Modulation)原理和声码器(Vocoder)概念被提出后,语音数字编码便一直沿着这两个方向发展。语音数据压缩目的是能在尽可能低的传输速率上获得高质量的语音效果,即希望语音信号可以在带宽较窄的信道中传输而语音质量下降的不多或尽可能不下降。语音编码系统早期用的是波形编码方法,也叫波形编码(或非参数编码),其目的是力图使重建的语音波形保持原语音信号的波形形状。这种编码器是把语音信号当成一般的波形信号来处理,而并未考虑语音信号的冗佘度。它的优点是具有较强的适应能力,有较好的合成语音质量,然而编码速率高(64Kbit/s),编码效率极低。脉冲编码调制(PCM)、自适应增量调制(ADM)、自适应差分编码(ADPCM)、自适应编码(APC)等都是属于波形编码(非参数编码)。而声码器则是不同于波形编码器的高效编码方式。声码器又称参数编码(或模型编码),它主要是对提取的语音信号特征参数进行编码,目的主要是使重建的语音信号具有尽可能高的可懂度,而不是要求重建波形保持原语音波形的形状。因此,可能出现的情况是即使重建语音的可懂度高,但其时域波形与原语音的时域波形有较大的差别。这种编码器的优点是可达到极低的编码速率而语音依然可懂,编码速率可达到8Kbit/s、4.8Kbit/s甚至更低。主要缺点是重建语音自然度低,韵律感差,合成语音质量差。声码器的典型代表是通道声码器、共峰声码器及线性预测声码器等。
20世纪80年代至今,不仅声码器和波形编码器得到了很大发展,并且还有一种全新的革命性编码方法被普遍推广,这类编码器叫混合编码器。这种编码器在传送器中对给定编码结构的所有可能性进行综合,找出输人语音的最好编码形式,并从这些可能性中发现输入语音的最优主观匹配,然后用数码表示这种主观匹配并发送到接收器。利用线性预测、VQ、A-B-S、感觉加权、后滤波等技术得到的多脉冲激励线性预测(MPELP,Multi Pulse Enspirit LinePrognosticate),规则脉冲激励线性预测(RPELP,Rule Pulse Enspirit Line Prognosticate),码本激励线性预测(CELP,Code Enspirit Line Prognosticate)编码速率达到8~16Kbit/s甚至更底,其话音质量高、编码速率低,但算法复杂。
近年来,ITU-T在多媒体数字通信方面(包括电视会议等)制定了一系列国际标准(按ITU的说法是建议)。
表1 ITU-T多媒体会议标准(基本模式)
在现有的网路设施条仵下,H.320和H.323比较适用的标准。H.320的基本音频模式是G.711 log-PCM(对数脉码调制)编码解码器,它是一种简单的8kHz采样频率对数脉码调制模式,长期以来它都是数字电话网络主要的编码方法(长途电话尽管起源于模拟电话,现在长途电话在数字网络上传输)。
G.711定义为8位编码,速率为64Kbit/s,但在H.320中采样截短为6或7比特位,因为速率相应变为48Kbit/s或56Kbit/s。G.711提供了出色的长话音质窄带(3kHz音频带宽)语音、不太明显的编解码延迟(低于1ms)以及非常低的实现复杂性。为了提供与普通G.711音频电话的兼容性,所有的H.320呼叫在H.221 FAS和BAS信道中进行同步初始化和模式协商时开始发送和接收G.711音频。
G.711有很多优点,但是G.711指定了两个不同的编码A律和μ律,在采用G.711标准的区域,不同地方使用上述两种不同的方法。CCITT不能达成统一的编码方法。结果是H.320系统必须由远端在每次呼叫开始时自动发现使用的编码律,或者避免使用音频直到H.320控制过程能用来建立另一音频模式。而且,G.711因为它的低复杂性和与普遍电话的兼容性成为H.320的基本音频模式,但与其他H.320音频模式相比在使用带宽方面它是效率低下的。如果转到其他音频模式下节省的数据带宽可用来传送更多的视频位,将使H.320视频质量有很大不同,特别是在普通的2-B(128Kbit/s)H.320呼叫上。
鉴于G.711语音压缩协议本身的一些缺点,人们一直在找一种替代它的协议,现在已经开始用的有G.722协议和G.728协议。
G.728是目前H.320中用得较多的窄带音频模式。它是基于通常的8kHz窄带采样和5个采样(0.625ms)的音频帧的低时延码本激励线性编码(LD-CELP),比特率为16Kbit/s,提供很好的长话音质,总延迟为大约1.875ms。
在现有网络条件下,需要一个窄带音频模式,但是又要有相当好的语音质量。最近建立的8Kbit/s 电话标准真正提高了该速率下的语音品质并改善了复杂性,这种编码器在某种程度上是一个突破,因此它的严格规范使性能达到或超过了32Kbit/s的G.726 ADPCM,但速率仅为8Kbit/s。ITU G.729 SKbit /s标准在性能上不亚于G.726,其算法延时少于16ms,随机误码和背景噪声的性能都不低于G.726,具有与自身的非同步串联能力。比如说,两级串联的性能不低于G.726四级串联的性能,达到这个水平的编码称为共扼结构代数码激励线性预测(CS~ACELP),它采用特殊的码本结构简化码本查找。
由于G.729的优点突出,特别适合目前网络条件,因此其在多媒体会议中的应用越来越受到重视。G.729的算法被称作共轭结构代数码激线性预测(CS-ACELP,Conju gateStructuredˉAlgebraic Code Excited Linear Predictive),它构成了G.729标准的基础。CS-ACELP在标准PCM或线性
PCM的话音采样基础上,每10ms生成一个10字节长的话音帧。对于每一个语音帧提取CELP模型参数,再对这些参数在编码后以每帧80bit进行信道传输,在解码端,接收到的比特流通过激励码本解码成相应的CELP参数,再通过短时综合滤波器和长时综合滤波器重建语音帧,最后经过后向滤波进行语音增强。
该算法提供了优秀音质,且延时很小。CS-ACELP也是为先进的定点运算数字信号处理器设计的,因为它要求强大的运算处理能力。CS-ACELP编码步骤的方框图如图1所示。
图1 CS-ACELP编码步骤
其固定的码本具有一个代数结构,称为交错单脉冲排列设计(1SPP)。码本中每40个样本激励向量仅有4个非零脉冲,记为i0,i1,i2和i3,其幅值和位置见表2,每个激励码字可写成:
c(n)=S0δ(n-m0)+S1δ(n-m1)+S2δ(n-m2)+S3δ(n-m3),n=0,…,39其中δ(n)是时刻n的单位冲激函数。
表2 脉冲幅值和位置