信息论与编码 自学报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《信息论与编码》课程自学报告
题目:AAC音频压缩编码
学号:xxxxxxxxx
姓名:xxxxxxx
任课教师:xxxxxxx
联系方式:xxxxxxxxxxxxx
二零一六年一月一日
一、自学内容小结与分析
1. 基本概念
要想无失真地传送连续信源的消息,要求信息率R 必须为无穷大。
这实际上是做不到的,因此实际通信系统允许一定的失真存在,那么对信息率的要求便可降低,换言之,就是允许压缩信源输出的信息率。
信息率失真理论研究的就是信息率与允许失真之间的关系。
1.1 失真函数与平均失真度
为了定量地描述信息率与失真的关系,首先定义失真的测度。
设离散无记忆信源1212 , ,
, (),(),,()()n n a a a X p a p a p a P X ⎛⎫
⎛⎫= ⎪
⎪⎝⎭⎝⎭。
信源符号通过信道传送到接收端Y ,
1212 , , , (),(),,()()m m b b b Y p b p b p b P Y ⎛⎫
⎛⎫= ⎪ ⎪⎝⎭⎝⎭。
对于每一对(),i j a b ,指定一个非负的函数
()
,0i j d a b ≥ (1) 称d(a i ,b j )为单个符号的失真度或失真函数。
用它来表示信源发出一个符号a i ,而在接收端再现b j 所引起的误差或失真。
由于a i 和b j 都是随机变量,所以失真函数d(a i ,b j )也是随机变量,限失真时的失真值,只能用它的数学期望或统计平均值,因此将失真函数的数学期望称为平均失真度,记为
11
[(,)]()(/)(,)n
m
i j i j i i j i j D E d a b p a p b a d a b ====∑∑ (2)
1.2 信息率失真函数的定义 1.
2.1 D 允许试验信道
平均失真由信源分布p(a i )、假想信道的转移概率p(b j /a i )和失真函数d(a i ,b j )决定,若p(a i )和d(a i ,b j )已定,则调整p(b j /a i )使D
̅≤D ,称P D ={p (b
j a
i
):D ̅≤D}为D 失真许可的试验信道。
1.2.2信息率失真函数R(D)
由于互信息取决于信源分布和信道转移概率分布,当p(a i )一定时,互信息I 是关于p(b j /a i ) 的下凸函数,存在极小值。
因而在上述允许信道PD 中,可以寻找一种信道p(b j /a i ),使给定的信源p(a i )
经过此信道传输后,互信息I(X ;Y)达到最小。
该最小的互信息就称为信息率失真函数R(D),即
(/)()min (;)j j D
p b a P R D I X Y ∈= (3)
1.3 信息率失真函数的性质 1.3.1率失真函数的定义域
率失真函数的定义域问题就是在信源和失真函数已知的情况下,讨论允许平均失真度D 的最小和最大取值问题。
根据平均失真度的定义,平均失真度是一个非负的函数,其下限显然为零。
那么,允许平均失真度D 的下限也必然是零,这就是不允许任何失真的情况。
另一方面,根据率失真函数的定义,R(D)是在一定约束条件下平均互信息I(X;Y)的极小值。
当允许一定的失真存在时,传送信源符号所需的信息率就可小些。
当R(D)等于零时,对应的平均失真最大,也就是函数定义域的上界值D max 。
1.3.2率失真函数对允许平均失真度的下凸性
所谓下凸性是指对任一0≤θ≤1和任意平均失真度D ′,D′′≤D max ,有
['(1)''](')(1)('')R D D R D R D θθθθ+-≤+- (4) 1.3.3率失真函数的单调递减和连续性
由于R(D)函数具有凸状性,保证了它在定义域内是连续的。
用R(D)函数的下凸性可以证明它是严格递减的。
即在D min <D <D max 范围内R(D)不可能为常数。
1.4离散信源的信息率失真函数
1.4.1离散信源信息率失真函数的参量表达式
以S 为参量的平均失真函数D(S):
(,)
11
()()()(,)i j i i j i j n m
Sd a b i j D S p a p b e
d a b λ===∑∑ (5)
信息率失真函数R(S):
(,)
(,)
11
()()()()ln
()
i j i
j
i j i i j j Sd a b n m
Sd a b i j p b e
R S p a p b e
p b λλ===∑∑
1
()()ln i i n
i SD S p a λ==+∑ (6)
1.4.2二元及等概率离散信源的信息率失真函数
设二元信源12 1
,()12X a a p P X p p ⎛⎫⎡⎤=≤
⎪⎢⎥-⎝⎭⎣⎦。
再设失真函数为对称函数,相应的失真矩阵为 0[],00D ααα⎡⎤
=>⎢⎥⎣⎦
,则信息率失真函数R(D)为:
()ln
ln(1)ln(1)ln (1)ln(1)
D
D
D
D
D
R D p p p p α
α
α
α
α
=-
-
+-
----
()()D
H p H α
=- (7)
上式第一项是信源熵,第二项则是因容忍一定的失真而可能压缩的信息率。
1.5保真度准则下的信源编码定理
设一离散平稳无记忆信源的输出随机变量序列为X =(X 1X 2…X L ),若该信源的信息率失真函数是R(D),并选定有限的失真函数,对于任意允许平均失真度D ≥0,和任意小的ε>0,当信息率R >
R(D)时,只要信源序列长度L 足够长,一定存在一种编码方式C ,使译码后的平均失真度D
̅(C )≤D +ε,反之若R <R(D),则无论用什么编码方式,必有D
̅(C)>D ,即译码平均失真度必大于允许失真度。
这就是保真度准则下的离散信源编码定理,也称为限失真信源编码定理。
二、保真度准则下的信源编码典型案例的实现方案
2. AAC 音频编码格式介绍
2.1 简介
AAC 音频编码格式,完整名称叫做”高级音频编码(Advanced Audio Codec )”。
这种先进而高级的编码规范,是由Fraunhofer IIS 公司(前MP3标准的制定者)、Dolby 、AT&T 、索尼、苹果等产业巨头共同开发的。
AAC 音频编码技术早在1997年就制定成型,当时在MPEG -2中作为了MPEG2-AAC 音频编码规格之一,后来,在2000年被用在MPEG -4中(ISO 14496-3 Audio ),所以现在变更为MPEG -4 AAC 标准,也就是说,AAC 已经成为MPEG4家族的主要成员之一,它是MPEG4第三部分中的音频编码系统。
AAC 可提供最多48个全音域音频通道。
2.2 AAC 理论及算法
MPEG 音频压缩规格在数字音频的发展史上占有很重要的地位,而MP3正是应用此规格所发展出来的一种技术。
MPEG 最早的标准称为MPEG -1,有国际标准化组织(ISO)在1992年完成,并制定成IS0/IEC 11172标准。
从MPEG -1的规格上来看,设计的最大比特率达到了1.5Mbps ,规格中分别规范了视频压缩与声音压缩,VCD 就是使用了MPEG -1的规格。
MPEG -1本身分成三个部分,包括了系统、视频和声音资料。
随着时间的推移,MP3越来越不能满足我们的需要了,比如压缩率比较低,音质也不够理想,仅有两个声道等等。
于是Fraunhofer IIS 于AT&T 、Sony 、Dolby 、Nokia 等公司展开合作,共同开发出了被誉为“21世纪的资料压缩方法”的Advanced Audio Coding (AAC)音频格式,以取代MP3的位置。
其实AAC 的算法在1997年就完成了,当时被称为MPEG -2 AAC ,因为还是把它作为MPEG -2标准的延伸。
但是随着MPEG -4音频标准在2000年成型,MPEG -2 AAC 也被作为它的编码技术核心,同时追加了一些新的编码特性,所以我们又叫MPEG -4 AAC 。
但这两者目前尚未被广泛应用。
增益控制 滤波器组 时域噪声修正 强度联结 预测
M/S 强度编码 数量因数 量化
无噪声编码
感知模型 码率/失真控制模块 比特
流
输入信号
图 1. AAC 编码流程图
2.2.1增益控制
增益控制模组可用于可变抽样率配置中,它由多相正交滤波器PQF 、增益检测器和增益修正器组成。
这个模组把输入信号分离到4个相等带宽的频带中。
在解码器中也有增益控制模组,通过忽略PQF 的高子带信号获得低抽样率输出信号。
2.2.2滤波器组
AAC 使用的是MDCT(Modified Discrete Cosine Transform)滤波器组。
AAC 的滤波器组被设计成允许改变视窗大小,用来适应输入信号的状态。
视窗的大小随着编码器及解码器同时改变,好让滤波器组能有效地分辨变化多端的输入信号。
加上较长的转换视窗长度,可变换的视窗形态,及可变转换区块的长度,是的MDCT 优于使用预先编码法的滤波器组,并且提供滤波器组更好的频率选择性。
虽然量化和编码都是在频域里执行完,解码滤波器组的功能是反MDCT(IMDCT),将解码器输入端频谱值,转换成时域的输出值。
MDCT 可以表示为:
1
00212cos[
()()],0,...,122
N ik in n N
X x n n k k N π-==++=-∑ (8) 同样的,IMDCT 可以表示为:
/2100
221cos[()()],0,...,12
N in ik n X x n n k n N N N π-==
++=-∑ (9) 此处n 为样本指标,N 为转换视窗长度,i 为区指标。
AAC 主要使用两种视窗形态:正弦视窗(sine window)
及贝塞尔视窗(Kaiser -Bessel Derived window)。
AAC 允许滤波器组针对输入信号的特性来改变时间频率解析度。
在复杂的频谱上信号编码效率会提升,并且对短暂的静态信号有很好的频率解析度,然而,长转换对急速变化的信号编码的效率比较低。
但在转变的区块间转换,却在不同的声道中产生了时间调整上的问题。
为了解决这个问题和确保在长区块和短区块转换间有平滑的传输,在长短视窗切换间,使用了开始视窗(start window)及结束视窗(stop window)。
这个设计保留了MDCT 和IMDCT 的特性,并维持了区块的排列。
2.2.3时域噪声修正(TNS, Temporal Noise Shaping)
在感知声音编码中,TNS 模组是用来控制量化噪声的一种方法,解决量化噪声的错误匹配问题。
这个技术的基本想法是,在时域中的音频信号在频域中有一个暂态尖峰,TNS 使用这种双重性来拓展已知的预测编码技术,把量化噪声置于实际的信号之下以避免错误匹配。
2.2.4 M/S 强度编码
在SSR 中,M/S 联合声道解码机制将重建左右声道的频谱系数,M/S 立体声编码是用来控制并预测编码时产生的噪声。
M/S 立体声的开关状态已经以信号位元的阵列被传送至解码器中。
当加强编码被使用时,M/S 解码机制将不会被启动。
2.2.5量化
AAC 的量化过程是使用两个巢状圆圈进行反复运算。
通过对量化分析的良好控制,比特率能够被高效地利用。
2.2.6无噪声编码
无噪声编码实际上就是霍夫曼编码,它对被量化的谱系数、比例因数和方向信息进行编码。
2.2.7数量因数
AAC在频谱系数群众使用个别放大率,称为数量因数频带,来当作另一个方法以调整在频域中的量化噪声。
数量因数表示一个增益值,用来改变频谱系数在数量因数中的振幅大小。
对所有的数量因数来说,不同值在于使用霍夫曼编码。
数量因数频带和与其相对因的系数是照着频率的高低进行排列的。
对每个非零或者非强度立体声编码,频谱的信息是经由霍夫曼编码规格以四个或两个为一组进行复原。
三、参考文献
[1] 〝Mpeg Digital Audio Coding〞, IEEE Signal Processing Magazine, 1997-9
[2] Watkinson, John, 〝The MPEG handbook :/MPEG-1, MPEG-2, MPEG-4〞,2001。