音频压缩原理及AC-3编码流程分析0930

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

音频压缩原理及AC-3编码流程分析

安徽广播电视台梁彦

摘要:

本文从音频压缩原理和人耳声学特性的出发,讲述了声音的主要声学现象及其成因和音频信号压缩的主要思路,跟着详细描述了AC-3多通道编码器的信号处理流程,最后总结了AC-3编码取得高效压缩编码效果使用的主要方法,对读者进一步了解当前主流的多通道音频压缩编码算法有积极的意义。

关键字:AC-3、编码流程、音频压缩

1引言

随着听众对音质和声音环境要求的越来越高,5.1声道的音频节目已经开始进入电影院和家庭。这同时也伴随着声音信号的传输。对于电视台来说,如何将制作好的音频节目,完整的传递给观众成为广播电视工程人员的考虑问题。而音频压缩又是音频节目传输环节中的重中之重,因此本文主要通过简单介绍音频压缩原理和主流的多声道压缩算法AC-3工作流程,给广大电视工程工作者提供有益的参考资料。

2音频压缩原理和人耳声学特性

音频的压缩编码一般分为有损压缩和无损压缩两种,无损压缩一般使用霍夫曼编码或游程编码,有损压缩一般伴随着域变换和量化,根据人耳的听觉掩蔽效应特性,去掉声音中人耳听不到的或可以忽略的数据从而达到压缩的目的。听觉掩蔽效应主要分为时域掩蔽和频域掩蔽,时域中强声音信号分量可掩蔽附近(该时间点前后)弱的声音分量,而且这种效应随着信号的频率而变化。在频域中,强信号可以掩蔽某一极限带宽内的弱信号。

一般而言, 人耳的听觉像20Hz~20kHz 带通滤波器, 它对不同频率的信号有不同的感知辨别率。相对于高频而言, 低频的声音更易被人耳感知, 其中尤以对2kHz~4kHz 的信号最为敏感, 因而形成了图1 中的绝对可闻阈曲线。绝对可闻阈是指寂静时听觉可听到的各频段的最低音量。但遮蔽效应对于听觉特性有着很大的影响。遮蔽分为同时性的遮蔽和非同时性的遮蔽。前者是频域下的一种现象, 指在相近的频率下, 强度较大的信号会遮蔽较小的信号。后者也称时间的遮蔽性, 是指在短暂的时间间隙内, 强度大的信号遮蔽较小的信号, 它又分为前遮蔽和后遮蔽。前遮蔽是指强度大的信号遮蔽发生较早的小信号, 后遮蔽则是强度大的信号遮蔽发生较晚的小信号。通常前遮蔽的持续时间为20ms, 对之前的声音的影响几乎可以忽略; 而后遮蔽所产生的效应相对大而且持久, 一般可达100~200ms ,所以应用更为广泛。典型的听觉心理特性如图1 所示的频率特性(左)和时间特性(右)。

图1 中, 噪声A 因在绝对可闻阈以上而可闻, 但噪声C 因在绝对可闻阈以下, 故听不到。如左图所示, 当有黑线所示的某频率信号存在时, 靠近它的本来可以听见的噪声 B 就变得听不见了, 这种现象就是同时性遮蔽效应。而如右图所示, 当某时刻有黑线所示的信号存在时, 尽管前面的噪声D 还可以听到,但位于其后面的比它小一些的本来可听见的噪声 E 也变得听不见了, 这种现象称为

非同时性遮蔽效应。两种效应合成的结果形成了实际的可闻阈。

3 AC-3压缩编码流程分析

AC-3多通道自适应变换编码根据心理声学模型将多个声道编码成一个声道,并保持较低的码率,在同等质量和码率下其音频质量要比同样数量的多通道声音单独编码的质量要好。虽然AC-3编码的标准配置是SMPTE 推荐的5.1声道(全频段左中右左环绕右环绕加LFE 低频段),但是AC-3的算法本身和声道数无关。除了5.1声道的标准配置外,AC-3编码还支持单声道、双声道、立体声、3/0(左、中、右)、2/1(左、右、环绕)、3/1(左、中、右、环绕)、2/2(左、右、左环绕、右环绕)、3/2(左、中、右、左环绕、右环绕)多种音频通道模式,上述模式中LFE (Low-frequency effects )声道并不包含在内,但任何一种模式都可以附加LFE 声道。AC-3编码输出的比特率范围可以从32kbps~640kbps ,而采用5.1标准模式时,根据实际应用情况统计,320kbps~384kbps 的码率就可以获得一个高压缩比、高保真的音频效果。同时AC-3数据流中可携带多种元数据,可以实现音频动态范围压缩,对白标准化、节目间电平匹配、下混合、版权信息等功能。

下面就详细介绍编码器和解码器的主要功能模块和信号流程。

3.1编码器工作流程[1]

1. 输入缓冲器

AC-3是分块编码器,因此需要一个缓冲器来存储时域采样的bit 流,一般每图1声音频域时域掩蔽曲线

个块包含512个样点,每个样点的字长最多可达24bit。

2.输入滤波器

受到人耳听觉频率特征的影响,时域波形在处理以前需要经过滤波去除直流信号,5个全频段信号经过一个3Hz的高通滤波器,1个低音信号经过一个120Hz 的低通滤波器。

3.瞬时检测

为了避免瞬时的信号出现在块的边缘,避免掩蔽效应,防止声音信号被忽略,编码器使用一个高频带通滤波器来检测瞬时现象,检测信息将提供给TDAC滤波器组调节相应块的大小。

4.TDAC(time domain alias cancellation)滤波器组

每个通道的时域输入信号在这里被单独划分成多个窗口,并且经过一个基于TDAC的分析滤波器组滤波,然后经过FFT变换得到TDAC变换系数。然后编码器将6个声道的变换系数组成一个整体。解码器可以通过这些系数的反变换重构出时域信号。同时滤波器组使得每个块有50%的重叠来避免块边缘的不连续性。

5.浮点变换

AC-3 TDAC变换系数被转换成浮点数,浮点数分成尾数和相应的指数,分别送入定点DSP处理芯片处理。采用浮点数表示系数,可以表示更大的动态范围,因此AC-3保留了声音信号AD/DA转换18-22bit的高分辨率。

6.载波预综合

一般来说,多通道编码需要的平均比特量可以粗糙地和通道数的平方根成比例,即有如下计算公式

=

a⨯

c

s

其中,a表示平均比特率,s表示相同情况下单通道编码输出比特率,c表示通道数,例如,单通道编码s需要128Kbps,那么 5.1声道则需要128=

⨯,对于AC-3标准模式下使用的最少数据率320Kbps来说也289

Kbps

1.5

是很充裕的。对于要求高的信号,AC-3还可以选择高频载波分量预综合技术来提高更多的编码增益。

这项技术是基于人类听觉系统的高频部分的心理声学现象来删除高频局部冗余信息,原理是因为在信号高频部分,人耳定位声源主要和高频段的包络有关,而不是声音信号的频谱本身。AC-3正是利用这一点把高频子带信号分离成包络和载波两个分量,一般来说,编码包络信息要比载波信息采用更高的精度,如果需要,考虑到通道载波的相关性,还可以在多通道组合载波分量。这样做只对音频信号有较小的影响,因为定位信息被保留在包络数据中,而高频段载波的耦合性组合对听众的耳朵基本都产生相同的听觉效果。被编码的载波信息增加到TDAC变换系数里的尾数和指数队列,而包络信息则作为耦合系数被单独传输。

7.全局比特分配

统一的多通道编码的主要优势就是可以使得比特分配根据需要在各个通道之间灵活使用来适应信号变换的要求。

AC-3比特分配器根据TDAC系数的内在的掩蔽效应和绝对听值门限,再结合定长的TDAC指数(指数长度固定,不参与量化),确定每一个尾数的量化精度,也就是需要量化的比特数。这个计算是在全局范畴的,也就是把所有通道

相关文档
最新文档