多媒体通信的音频压缩技术的现状及发展趋势

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

多媒体通信的音频压缩技术的现状及发展趋势

摘要：音频信号数字化后的数据量相当大，不利于传输和存储，在日益广泛应用的数字技术中，数字音频的压缩成为其中的关键技术之一。数字音频信号的压缩技术是数字电视广播系统中非常重要的一个环节。本文主要对数字音频压缩技术和它的发展做了浅要的介绍。关键词：数字音频压缩技术发展现状

Abstract: A large amount of the data are present after audio signal is digitized . It is not convenient for transmission and storage of the signal . Digital audio coding has become one of the key techniques in digital technique in which is of the signal applied today. Digital audio signal compression technology is very important in a digital television broadcast system. This paper describes The Audio compression technology’s actuality and it’s development.

Keywords:Audio compression technology development actuality

1 音频压缩技术现状

1.1 什么是音频压缩技术

音频压缩技术指的是对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术，在不损失有用信息量，或所引人损失可忽略的条件下，降低(压缩)其码率，也称为压缩编码。它必须具有相应的逆变换，称为解压缩或解码。音频信号在通过一个编解码系统后可能引人大量的噪声和一定的失真。

数字信号的优势是显而易见的，而它也有自身相应的缺点，即存储容量需求的增加及传输时信道容量要求的增加。以CD为例，其采样率为4 .1KHz，量化精度为16比特，则1分钟的立体声音频信号需占约 1 0 M字节的存储容量，也就是说，一张CD唱盘的容量只有1小时左右。当然，在带宽高得多的数字视频领域这一问题就显得更加突出。是不是所有这些比特都是必需的呢? 研究发现，直接采用P C M码流进行存储和传输存在非常大的冗余度。事实上，在无损的条件下对声音至少可进行4：1压缩，即只用2 5%的数字量保留所有的信息，而在视频领域压缩比甚至可以达到几百倍。因而，为利用有限的资源，压缩技术从一出现便受到广泛的重视。

对音频压缩技术的研究和应用由来已久，如A律、μ律编码就是简单的准瞬时压扩一技术，并在ISDN话音传输中得到应用。对语音信号的研究发展较早，也较为成熟，并已得到广泛应用，如自适应差分PCM (ADPCM)、线性预测编码(LPC)等技术。在广播领域，N IC A M等系统中都使用了音频压缩技术。

1.2 音频压缩技术的分类

一般来讲，根据压缩后的音频能否完全重构出原始声音可以将音频压缩技术分为无损压缩及有损压缩两大类。而按照压缩方案的不同, 又可将其划分为时域压缩、变换压缩、子带压缩, 以及多种技术相互融合的混合压缩等等。各种不同的压缩技术,其算法的复杂程度( 包括时间复杂度和空间复杂度)、音频质量、算法效率( 即压缩比例),以及编解码延时等都有很大的不同。

1.2.1 无损数据压缩

使用无损压缩方案可以在解压缩后逐位恢复原始数据信息。他们通过预测过去样本中的值,消除存在于音频信号中的统计冗余。可以实现小压缩比,最好大约2:1,取决于原始音频信号的复杂性。时域预测编码技术使无损压缩成为可行,要归功于时域预测码技术。他们是:(1)差分算法。音频信号包含重复的声音,还有大量的冗余和感知的不相关声音。重复的数据信息在编码过程中被删除,在解码时又被重新引入。音频信号首先分解为若干包含离散音调的子频带。然后使用合适于短期定期信号的预测器应用DPCM。这种编码是自适应的,它查看输入信号能量以修改量化步长。这就引出了所谓的自适应DPCM(ADPCM)。(2)熵编码器利用量化子频带系数表示形式中的冗余来提高熵编码效率。这些系数以逐渐增加的频率顺序发送,在低频产生较大的值,在高频产生较小后接近零值的长行程。VLC取自与低频值和高频值的统计最一致的不同的哈夫曼表。(3)块浮点系统。来自A/D转换过程的二进制值分组为数据块,要么是在时域内,通过在A/D转换传输出端采用相邻的样本;要么是在频域内,通过在FDCT输出端采用相邻的频率系数。然后数据块中的二进制值按比例增大,以使最大的值仅低于完全换算值。该换算因子称为指数,对块中所有的值都通用。因此,每个值都可用一个尾数(一个样本值)和指示正数决定。位分配计算从HAS模型派生,如图1所示。实现数据速率压缩的方法是每个数据块发送一次指数值。编码性能很好,但噪音与信号内容有关。屏蔽技术有助于减少这种听得见的噪音。

1.2.2 有损数据压缩

实现有损数据压缩的方法是,将两个或更多的处理技术相结合,以利用HAS的无法检测到其他高振幅中的特定频谱分量这一特性。这样一来,就可以获得高性能数据压缩方案和从2:1到20:1的高得多的压缩比,具体取决于编码/解码过程的复杂性和音频质量要求。有损数据压缩系统使用感知编码技术。基本原理是,放弃低于阈值曲线的所有信号以消除音频信号中的感知冗余。因此,这些有损数据压缩系统还称为感知无损。感知无损压缩之所以可行,归功于若干技术的结合,如:(1)信号分量的时间和频域屏蔽。(2)量化每个可听得见的音调的噪音屏蔽,通过分配足够的位,确保量化噪音级别总是低于屏蔽曲线。在接近听得见的信号的频率下,20或30db的SNR是可以接受的。(3)联合编码。该技术利用了多通道音频系统中的冗余。已发现在所有通道中存在大量的相同数据。因此,通过一次编码这些相同的数据可以得到数据压缩,并向解码器指示在其他通道中必须重复这些数据。