音频压缩 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

音频压缩技术指的是对原始数字音频信号流（PCM编码）运用适当的数字信号

处理技术，在不损失有用信息量，或所引入损失可忽略的条件下，降低（压缩）其码率，也称为压缩编码。它必须具有相应的逆变换，称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。

、音频压缩算法的主要分类及典型代表

一般来讲，可以将音频压缩技术分为无损（lossless）压缩及有损（lossy）压缩两大类，而按照压缩方案的不同，又可将其划分为时域压缩、变换压缩、子带压缩，以及多种技术相互融合的混合压缩等等。各种不同的压缩技术，其算法的复杂程度（包括时间复杂度和空间复杂度）、音频质量、算法效率（即压缩比例），以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。

（1）时域压缩（或称为波形编码）技术是指直接针对音频PCM码流的样值

进行处理，通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低，声音质量一般，压缩比小（CD音质> 400kbps），编解码延时最短（相对其它技术）。此类压缩技术一般多用于语音压缩，低码率应用（源信号带宽小）的场合。时域压缩技术主要包括G.711、ADPCM、LPC、CELP，以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM

（SB-ADPCM）技术如G.721、G.722、Apt-X等。

（2）子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由Crochiere等于1976年提出的。其基本思想是将信号分解为若干子频带内的分量之和，然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型（心理声学模型），通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的，因此又可称为感知型（Perceptual）压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多，同时编码效率、声音质量也大幅提高，编码延时相应增加。一般来讲，子带编码的复杂度要略低于变换编码，编码延时也相对较短。

由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型，因而在对信号进行压缩时引入了大量的量化噪声。然而，根据人类的听觉掩蔽曲线，在解码后，这些噪声被有用的声音信号掩蔽掉了，人耳无法察觉；同时由于子带分析的运用，各频带内的噪声将被限制在频带内，不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同，采用了动态比特分配技术，这也正是此类技术压缩效率高的主要原因。在一定的码率条件下，此类技术可以达到“完全透明”的声音质量（EBU音质标准）。

子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有著名的MPEG-1层Ⅰ、层Ⅱ（MUSICAM），以及用于Philips DCC 中的PASC（Precision Adaptive Subband Coding，精确自适应子带编码）等。

（3）变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换，对所获得的变换域参数进行量化、传输，而不是把信号分解为几个子频段。通常使用的变换有DFT、DCT（离散余弦变换）、MDCT等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善，而相应付出的代价则是计算复杂度的提高。

变换域压缩具有一些不完善之处，如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的不断进步，这些缺陷正逐步被消除，同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。

有代表性的变换压缩编码技术有DolbyAC-2、AT&T的ASPEC（Audio Spectral Perceptual Entropy Coding）、PAC（PerceptualAudioCoder）等。

为什么要使用音频压缩技术

要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为44.1K×16×2 =1411.2 Kb ps。我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有2种方法，降低采样指标或者压缩。降低指标是不可取的，因此专家们研发了各种压缩方案。由于用途和针对的目标市场不一样，各种音频压缩编码所达到的音质和压缩比都不一样，在后面的文章中我们都会一一提到。有一点是可以肯定的，他们都压缩过。

音频压缩标准

音频信号是多媒体信息的重要组成部分.音频信号可分为电话质量的语言、调幅广播质量的音频信号和高保真立体声信号（如调频广播信号、激光唱片音盘信号等）

数字音频压缩技术标准分为电话语音压缩、调幅广播语音压缩和调频广播及cd音质的宽带音频压缩3种。

在语音编码技术领域，各个厂家都在大力开发与推广自己的编码技术，使得在语音编码领域编码技术产品种类繁多，兼容性差，各厂家的技术也

难于尽快得到推广。所以，需要综合现有的编码技术，制定出全球统一的语言编码标准。自20世纪70年代起，ccett下第十五究组和国际标准化组织（iso）已先后推出了一系列的语音编码技术标准。其中，ccitt推出了g系列标准，而iso则推出了h系列标准。

1电话（200hz-3.4khz)语音压缩标准

主要有itu的g.722(64kb/s)、g721(32kb/s)、g.728(16kb/s)和

g.729(8kb/s)等建议，用于数字电话通信。

2调幅广播（50hz-7khz)语音压缩标准

主要采用itu的g.722(64kb/s)建议，用于优质语音、音乐、音频会议和视频会议等。

3调频广播（20hz-15khz)及cd音质(20hz-20khz)的宽带音频压缩标准主要采用mpeg-1或mpeg-2双杜比ac-3等建议，用于cd、md、mpc、vcd、dvd、hdtv和电影配音等。

PCM编码的最大的优点就是音质好，最大的缺点就是体积大。

常见的音频压缩编码格式~~

CD格式

当今世界上音质最好的音频格式是什么？当然是CD了。在大多数播放软件的“打开文件类型”中，都可以看到.cda格式，这就是CD音轨了。标准CD格式也就是44.1K的采样频率，速率88K/秒，16位量化位数，因为CD音轨可以说是近似无损的，因此他的声音是非常接近原声的。

CD光盘可以在CD唱机中播放，也能用电脑里的各种播放软件来重放。一个CD 音频文件是一个.cda文件，这只是一个索引信息，并不是真正的包含的声音信息，所以不论CD音乐的长短，在电脑上看到的.cda文件都是44字节长。

WAV格式

WAV是微软公司开发的一种声音文件格式，他符合PIFF Resource Interchange File Format文件规范，用于保存Windows平台的音频信息资源，被Windows平台及其应用程序所支持。.WAV格式支持MSADPCM,CCITT ALAW等多种压缩算法，支持多种音频位数、采样频率和声道，标准格式的WAV文件和CD格式一样，也是44.1K的采样频率，速率88K/秒，16位量化位数。WAV格式的声音文件质量和CD相差无几，也是目前PC机上广为流行的声音文件格式，几乎所有的音频编辑软件都认识WAV格式。