课程论文—数字音频技术综述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数字音频编码技术综述

摘要：本文介绍了常用的数字音频编码方式，包括MPEG系列伴音标准及Dolby Digital

标准的原理，并对这几种重要的音频编码技术的多方面性能进行了比较，最后，对数字音频压缩编码技术进行了展望。

关键词：数字音频编码；MPEG；Dolby Digital

Overview of Digital Audio Coding Technology 【Abstract】In this paper, some usual digital audio coding methods are discussed, including MPEG standard and Dolby Digital standard. And comparisons in many aspects are made between these audio coding methods. Finally, it discussed the prospect of digital audio compression.

【Key Words】digital audio coding；MPEG；Dolby Digital

1 引言

数字音频是多媒体业务的重要组成部分，数字音频编码技术已经成为多媒体的一个重要研究领域，并已被广泛地应用于数字音频广播（DAB）、高清晰度电视（HDTV）、多媒体网络通信等领域中。数字音频编码技术按数据量的压缩性能可分为非压缩音频（如波形音频、MIMI音频和CD音频）和压缩音频（如MEPG音频、杜比AC-3等）两类。而在网络应用中，为了提高带宽的利用率，增强数据的安全性和传输的可靠性，往往需要对数字音频进行压缩处理。一般地，根据压缩后的音频能否完全重构出原始声音可将音频压缩技术分为无损压缩及有损压缩两大类。而按压缩方案的不同，又可讲其划分为时域压缩、变换压缩、自带压缩，以及多种技术相互融合的混合压缩等等。

数字音频的发展最初是从无损压缩开始的，如70年代开始采用的类似PCM的瞬时压扩技术和块压扩技术，这种技术的编码效率低。80年代末至90年代初，研究者利用人耳的掩蔽效应和临界频带的特性来进行子带编码和变换编码，出现的系统有：MUSUCAM系统、128kps的AC-2系统、AC-3系统等。90年代至今，有损压缩把音频数据的压缩率提高到12：1，也带来了音频质量的下降。比较著名的是：MP3，AAC，RM等。

2 MPEG数字音频编码标准

ISO/IEC的MPEG音频编码的标准采用了2种编码算法：MUSICAM和ASPEC。以这两种算法为基础形成了三个不同层次的音频压缩算法，三种算法对应不同的应用要求并具有不同的编码复杂度。子代掩蔽编码标准MUSICAM的编码器框图如图1所示。MUSICAM 采用了多项滤波器，将信号分割成带宽统一的32个子带。它增强了心理声学模型分析，1024点FFT是心理声学模型时域分析工具。由于MUSICAM的音质好、合理的算法复杂度和适中的时延等有点，使得它被ISO/IEC选用为MPEG音频编码的主要算法。

滤波器组

32个子频带线性量化器

块形成比例因子提取选择辅助信息编码

FFT10

24点心理声学模型动态比特

分配数据帧比特流数据库Aux 附加数据

数字音频PCM 信

号取

样频

率

48kHz 输出码流

图1 MUSICAM 编码器原理图

2.1 MPEG-1

在MPEG-1的音频编码标准中，按照复杂度规定了三种模式（层I ，层II ，层III ）。层I 是MUSICAM 编码方法的简单型（MP1），VCD 的音频压缩方案即为层1。层II 为MUSICAM 标准型（MP2），典型码流128kps 。广泛应用与数字音频广播、数字演播室等数字音频专业的制作、交流、存储和传送。层III 是综合了层II 和ASPEC 的有点提出的混合压缩技术（MP3），它的复杂度相对较高，编码不利于实时，它是MUSUCAM 和ASPEC 两个算法的结合，典型码流是64kbps 。低码率仍有高品质的音质，因此成为广泛应用于网络音频。MP3编码器的框图如图2所示。

子带滤波器组MDCT 比特和比特因

子分配与编码哈夫曼编码

FFT 心理声学模型

比特流组装边信息信掩比PCM 音频

采样信号

已编码数

据流

图2 MP3编码器的框图

2.2 MPEG-2

MPEG-2的音频编码标准，是在MPEG-1音频编码标准的基础上由双声通道扩展到多通道。声道数扩展到5.1，即左中右三个主声道，左环、右环两个环绕声道和一个重低音（LEF ）声道。为了与MPEG-1后向兼容（BC ），MPEG-2帧基本结构对应于在MPEG-1中的规定，多声道扩展是插入到MPEG-1音频帧，用于传送附加数据的区域中，信号兼容利用多声道信号的矩阵组合来实现，如果需要更高比特率，则产生一个附加的第二个扩展比特流，为了降低整体比特流，MPEG-2 采用了自适应预测、限制中心声道频率等措施。

MPEG-2有一种AAC （Advanced Audio Coding ）模式，它不后向兼容MPEG-1。在MPEG-2的正式听音测试中，数据流速率为320kbps 的AAC 可以提供比数据流速率为640kbps 的

MPEG-2BC更好的音质。因此，AAC是一种比MPEG-2BC编码算法更好的音频压缩算法，而且可以使用于各种环境下，如可以做电视信号的伴音等。AAC的编码器框图如图2所示。

图2 AAC的编码器框图

2.3 MPEG-4

MPEG-4音频编码对音频的低比特率编码进行了大幅度的强化。相对于MPEG-1，MPEG-2而言，MPEG-4增加了通信用途并设想应用与各种信息压缩率、各种传输线路形式（包括记录媒体）以及联系连接形式（1对1，N对1，1对N等）。

3 杜比数码 Dolby Digital

Dolby Digital是一种多路数字音频格式，由Dolby公司研制开发。它可将音频与元数据以尽可能的数据率送至接收机，从而为视频数据与其他DTV服务项目保存宝贵的空中频谱。其中，AC-1用于卫星通信和数码有线广播，AC-2用于专业音频的传输和存储。

AC-3是在AC-1和AC-2基础上发展起来的多通道编码技术，保留了原AC-2中如窗函数处理、指数变换编码、自适应比特分配等许多特点，还新增了运用立体声多声道的编码技术策略的coupling和rematrix算法。一般而言，立体声的左声道和右声道的信号在听觉上十分相似，存在着许多重复的冗余信息，将这两个声道的信号联合起来加以编码，便可除去冗余的信号且不会影响原来的音质。其编码器框图如图3所示。