WAV格式中常见的压缩编码

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

WAV格式中常见的压缩编码(compression code)

WAV为微软公司(Microsoft)开发的一种声音文件格式,它符合RIFF(Resource Interchang e File Format)文件规范,用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所广泛支持,该格式也支持MSADPCM,CCITT A LAW等多种压缩运算法,支持多种音频数字,取样频率和声道。标准格式化的WAV文件采样频率为44100Hz,采样比特为16bit,因此标准的(这里说标准,只是一种广泛采用的波形音频方案)WAV文件和C D音频格式一样,也是44.1KHz的取样频率,16位量化数字,在声音文件质量和CD音频相差无几。

下面由useiee详细介绍一下WAV格式文件常见的10种压缩码形式(Compression Cod e)。[1]

1. PCM/uncompressed

Pulse Code Modulation,脉码调制信号。是模拟音频信号经模数转换(A/D变换)直接形成的二进制序列,该文件没有附加的文件头和文件结束标志。Windows的Convert工具可以把PCM音频格式的文件转换成Microsoft的WAV格式的文件。

PCM脉码调制数字音频格式是70年代末发展起来的,80年代初由飞利浦和索尼公司共同推出。PCM的音频格式也被DVD-A所采用,它支持立体声和5.1环绕声,1999年由DVD讨论会发布和推出的。

PCM的采样精度从14bit发展到16bit、18bit、20bit直到24bit;采样频率从44.1kHz 发展到192kHz。到目前为止PCM这种单纯依赖提高采样规格的技术,其可改进的地方已经越来越来小。只是简单的增加PCM比特率和采样率,不能从底层改善它的根本问题。

2. Microsoft ADPCM

Adaptive Differential Pulse Code Modulation,自适应差分脉码调制信号。是一种数据压缩算法,该算法利用了语音信号样点间的相关性,并针对语音信号的非平稳特点,使用了自适应预测和自适应量化。即对不同水平的差分序列,用一个相应参数delta作为平稳化参数去除差分序列的幅值,使得差分编码自动的适应数据间大幅度的跳跃。

Microsoft ADPCM是微软标准的WAV格式文件采用ADPCM编码的文件,区分于IM A ADPCM文件。MS-ADPCM编码是分块的,每块有块头信息和编码数据。对单声道信号,每块由7个字节组成,byte0是块预测器predictor,byte1-2是初始delta,byte3-4和byte 5-6分别是两个采样。[2]

3. ITU G.711 a-law [3]

G.711标准也是PCM码的一种。是国际电报联盟(International Telegraph Union, IT U)订定出来的一套语音压缩标准,主要用于电话。它主要用脉冲编码调制对音频采样,采样率为8kHz。它利用一个64kbit/s 未压缩通道传输语音讯号。起压缩率为1:2,即把16位数据压缩成8位。G.711是主流的波形声音编解码器。

G.711 标准下主要有两种压缩算法。一种是?μ-law algorithm (又称μ-law),主要运用于北美和日本;另一种就是a-law algorithm,主要运用于欧洲和世界其他地区。其中,a -law是特别设计用来方便计算机处理的。

4. ITU G.711 µ-law

G.711标准下的另一种压缩算法,主要运用于北美和日本,美国电话格式(CCITT G.7

11)就采用这种算法。

5. IMA ADPCM

IMA是ADPCM中使用较多的一种算法。该算法中对量化步长的调整使用了简单的查表方法,对于一个输入的PCM值X(n),将其与前一时刻的X(n-1)预测值做差值得到d(n),然后根据当前的量化步长对d(n)进行编码,再用此sample点的编码值调整量化步长,同时还要得到当前sample点的预测值供下一sample点编码使用。通过此算法可将样点编码成4bit的码流,一个符号位和三个幅度位。该算法较简单,通过查表简化了运算。编码后采用WAV文件格式,对编码后的数据流进行了包装,由文件头和数据码流组成,文件头和标准WAV格式文件一样,指出了音频数据所采用格式、采样率、比特率、块长度、比特数及声道数等信息。数据码流以块为单位,块头指出了该块起始的预测值和index值,码流中每b yte的高四位和低四位分别对应一个PCM。当前该算法以其简单实用的特点广泛应用到数字音乐盒和数字录音笔中。

6. ITU G.723 ADPCM (Yamaha)

G.723是ITU在1996年制订成型的一种多媒体语音编解码标准。其典型应用包括VoI P服务、H.324视频电话、无线电话、数字卫星系统、数电倍增设备(DCME)、公共交换电话网(PSTN)、ISDN及各种多媒体语音信息产品。G.723标准传输码率有5.3kbit/s和6.3k bit/s两种,在编程过程中可随时切换。该标准主要包含了编码算法和解码算法。原理是:从采集的语音信号中解析出声道模型参数,构造一个合成滤波器,采用合适的激励源激励,编码传输的参数主要是激励源与合成滤波器的参数。5.3kbit/s的编码器采用代数码线预测激励(ACELP);6.3kb/s的编码器则采用多脉冲最大似然量化(MP-MLQ)激励。根据传输编码参数,可重构激励源与合成滤波器进行解码,还原出来的数字语音信号经D/A转换器转换成模拟语音信号。

G.723算法对语音信号有很好的编解码效果,同时也可处理音乐和其它声音信号,典型输入是64kb/s(8k×8)或128kbit/s(8k×16)的A-law或µ-law的PCM采样语音信号。每次处理一帧语音信号,每帧240个采样点(30ms)。在5.3kbit/s的码率下,每帧语音被压缩成20个字节传输;在6.3kbit/s的码率下,每帧语音被压缩成24个字节传输。

7. GSM 6.10 [4]

是我们熟知的全球移动通讯系统(Global System for Mobile communications)定义的一种音频编解码标准。广泛应用于无线通信设备如手机、无线通讯终端中。音频信号被压缩至介于5.6kbit/s和13kbit/s之间,这两种码率被分别叫做半率(Half Rate)和全率(Full Rat e),最初大部分只有这两种码率的编码。编码基于线性预测编码算法(Linear Predictive Co ding, LPC)。GSM 6.10除了在比特率上有很出色的表现外,这种编码的音频信号在空气信道中传输有着高保真度,因此广泛使用在无线通信设备的语音信号中。

在1997年,GSM进一步开发出了一种增强型全率编解码器(Enhanced Full Rate, EF R),这种编码码流比特率为12.2kbit/s。

8. ITU G.721 ADPCM [5]

G.721是ITU-T定义的一组标准协议组G.7xx其中之一,指的是32kbit/s的自适应差分脉冲编码调制(ADPCM)。除去上面介绍的三种,此协议组的其他码流标准如下:

G.722 ―― 64 kb/s 下的7 kHz 音频编码

相关文档
最新文档