多媒体技术 音频编码基础和标准
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
28
AC-3可编程解码器
29
7
1、时域信息的冗余度(续)
静音系数 两人间打电话,平均每人的讲话时间为通话总时 间的一半,另一半时间听对方讲。听的时候—般 不讲活,而即使是在讲话的时候,也会出现停顿。 声音间隔本身就是一种冗余,若能正确检测出该 静比段,便可“插空”传输更多的信息。
长时自相关函数 上述周期间等相关性,都是在20 ms间隔内进
PCM 音频抽样
辅助数据
25
6、DOLBY AC-3
AC-3音频编码标准的起源是DOLBY (杜比)AC-1。AC-1应用的编码技术是自 适应增量调制技术,它把20kHz的宽带立体 声音频信号编码成512kb/s的数据流。AC-2 采用类似MDCT的重叠窗口的FFT编码技术, 其数据率在256kb/s以下。AC-2被应用在 PC声卡和综合业务数字网等方面
行统计的所谓短时自相关。如果在较长的时问间 隔(如几十秒)进行统计,便得到长时自相关函数。
8
2、频域信息的冗余度
非均匀的长时功率谱密度 在相当长的时间间隔内进行统计平均,可得到长 时功率谱密度函数.其功率谱呈现强烈的非平坦 性。从统计的观点看,这意味着没有充分利用结 定的频段,有固有的冗余度
语音特有的短时功率谱密度 语音信号的短时功率谱,在某些频率上出现峰值, 这些峰值频率不只一个,但最主要的是第一和第 二个,由它们决定不同的语音特征。
14
1、G.711—话音的PCM编码
本建议公布于1972年,它给出话音信号 编码的推荐特性。话音的抽样率为8KHz。 每个样值采用8位二进制编码。推荐使用A 律和μ律量化。分别给出A律和μ律的定义: 将13位PCM码按A律、14位PCM码按μ律转 换8位编码。
15
2、G.721---32kb/s的ADPCM
S(k)
64bit/s A 律或 U 律 PCM
转换为 标准 PCM
+ S (k)
I
d(k)
+
Se(k)
自适应 预测器
自适应 量化器
I(k) 32kbit/s 输出
dq (k)
自适应 逆 量化器
Sr (k)
+
(a) ADPCM编码器
17
解码器包括一个与编码器反馈部分相同的结构,还 有A律或μ律的转换器,以及同步编码调节器。同步编 码器用于防止同步级联编码(ADPCM-PCM-ADPCM)在某些 情况下产生累积失真。用试图消除下一个ADPCM编码的 量化失真的方式调节PCM输出,以实现同步编码调Βιβλιοθήκη Baidu。
24
(4)解码
解码器按编码器定义的语法接收压缩的音频 数据流、按解码部分的方法解出数据元素,产生 数字音频输出。其过程如下:
✓ 数据流输入到解码器 ✓ 帧扩展进行数据流拆封,恢复出各种信息 ✓ 重构单元将重构一组映射抽样的量化方案 ✓ 逆映射单元把这些抽样变换回均匀PCM
已编码 数据流
帧扩展
重构
逆映射
9
3、人的听觉感知机理
人的听觉具有掩蔽效应 当两个响度不同的声音作用于人耳时,响度
较高的频率成分会影响对响度较低频率成分的感 受。 人耳对不同频段的声音敏感度不同
低频成分容易掩蔽高频成分。即使是对同样声 压级的声音,人耳的实际感觉到的音量也是随频 率而变化。 人耳对语音信号的相位变化不敏感
入耳听不到或感知极不灵敏的声音分量都不 妨视为冗余的。
1972年:G.711--- 64kb/s PCM编码标准。 1984年:G.721---32kb/s 自适应差值脉冲编码(ADPCM)
G.722--- 64kb/s 子带ADPCM编码标准 G.723.1--- 5.3kb/s和6.3kb/s LSF G.726 ---16kb/s 1990年:G.727---16-40kb/s 镶嵌式ADPCM标准。 1992年:G.728 /G.729---16kb/s LD-CELP 1988年:RPE-LTP---13kb/s长时预测规则码激励(欧洲)GSM 1989年:VSELP---6.7kb/s 矢量和激励线性预测(日本)
19
4、G.728编码标准
G.728建议的技术基础是美国AT&T公 司贝尔实验室提出的LD-CELP(低延时-码 激励线性预测)算法。该算法考虑了听觉 特性,其特点是:
✓以块为单位的后向自适应高阶预测; ✓后向自适应型增益量化; ✓以适应为单位的激励信号量化。
20
5、MPEG中的音频编码
MEPG中的MPEG I标准中规定了音频编 码标准,包括高质量音频编码方法,存储 表示和解码方法。编码器的输入和解码器 的输出与现存的PCM标准兼容。
21
(1)编码器
编码器处理数字音频信号,并生成存储所 需的数据流。编码过程如下:
➢ 输入的音频抽样被读入编码器; ➢ 映射器建立经滤波的输入音频数据流的子带抽样表示 ➢ 心理声学模型建立一组控制量化和编码的数据 ➢ 量化和编码部分从已映射的输入抽样中生成一组编码符号 ➢ 帧封装将来自其他模块的输出数据汇集成实际数据
2.3 音频编码基础和标准
2.3.1 音频编码基础 2.3.2 音频编码标准
2.3.1 音频编码基础
一、压缩编码的必要性 二、音频编码基础 三、音频编码的分类
压缩编码的必要性
多媒体音频数据的存储和传输中,必须 压缩数据。利用音频编码压缩数据。
采样数据率(每秒比特数):
信号类型
频率范围
电话话音
( HZ) 200 ~ 3400
6
1、时域信息的冗余度(续)
周期之间的相关 虽然语音信号需要一个电话通路提供整个200~
3400HZ的带宽,但在特定的瞬间,某声音只有少数 频率成分在作用,它们在周期域周期间,存在着一 定的相关性。
基音之间的相关 人说话声音分为浊音和清音,浊音不仅有周期间
的冗余度,还对应于音调间隔的长期重复波形。
✓ 层Ⅲ 采用混合带通滤波器来提高频率分辨率。它增加 了差值量化(非均匀)、自适应分段和量化值的嫡编码。 这层理论上的最小编码/解码延时为59ms。
23
(3)存储
己编码的视频数据、音频数据、同步数 据、系统数据和辅助数据均可一并存人同 一存储介质中。对存储器的存取也可能包 括在通信系统中的远程存取。
脉冲编码调制(PCM) 自适应脉冲编码调制(APCM) 差值脉冲编码调制(DPCM) 自适应差值脉冲编码调制(ADPCM)
参数编码:
预测方式:前向/后向, 短时/长时 参数类型:LPC, LSP, CEP 激励方法: 编码策略:合成-分析法
感知编码---MPEG,AC-3
12
2.3.2 音频编码标准
10
音频编码的分类
音频编码分位三类:
基于音频数据的统计特性进行编码,其典型 技术是波形编码。其目标是使重建语音波 形保持原波形的形状; 基于音频的声学参数,进行参数编码,可 进一步降低数据率。其目标是使重建音频 保持原音频的特性; 基于人的听觉特性,进行感知编码 。
11
音频编码的分类(续)
波形编码:
这个建议是1984年公布。1986年作了 进一步修订。它用于64kb/s的A律或μ律 PCM到32kb/s ADPCM之间的转换,实现了 对PCM信道的扩容。
16
编码器的输入信号是64kb/s A律或μ律PCM编码。首 先将其转换为标准PCM编码。从中减去估计值Se(k),得 到差值信号d(k)。15阶自适应量化器将d(k)量化成4位二 进制值I(k)。逆量化器从这4位二进制数中产生量化的差 值信号dq(k)。dq(k)和估计信号Se(k)相加得到重构信号 Sr(k)。自适应预测器利用dq(k)和Sr(k)生成输入信号的 估计值。
4
音频编码基础
从信息保持的角度讲,只有当信源本身具有冗 余度,才能对其进行压缩。根据统计分析结果,语 音信号存在着多种冗余度,其最主要部分可以分 别从时域和频域来考虑。另外由于语音主要是给 人听的,所以考虑了人的听觉机理,也能对语音 信号实行压缩。
1、时域信息的冗余度 2、频域信息的冗余度 3、人的听觉感知机理
自适应 逆 32bit/s 量化器
+
输入
转换为 PCM
自适应 预测器
(b) ADPCM 解码器
同步编码 调节
64bit/s A 律或 U 律输出
18
3、G.722- 64kb/s SB-ADPCM
G.722建议的带宽音频压缩仍采用波形 编码技术,因为要保证既能适用于话音, 又能用于其他方式的音频,只能考虑波形 编码。G.722编码采用了高低两个子带内的 ADPCM方案,高低子带的划分以4KHz为 界。然后再对每个子带内采用类似G.721建 议的ADPCM编码,因此G.722建议的技术 方案可以简写为SB-ADPCM(子带-自适应 差分脉冲码调制)。
5
1、时域信息的冗余度
幅度的非均匀分布 一般语音中小幅度样本比大幅度样本出现的
概率要高,并且通话中必然会有间隙,更会出现 大量低电平样本。因此.语音信号取样值的幅度 分布是非均匀的,可以采用非均匀量化对其编码。
样本间的相关 对语音波形的分析表明,取样数据的最大相
关性存在于邻近样本之间,并且取样速率越高, 样本间相关性越强。根据相关性,可利用N阶差 分编码技术,进行有效的数据压缩。
27
AC-3 的5.1声道
5.1声道为环绕声系统由五个全频域声 道加一个超低音声道组成,其中五个声道 包括前置的“左声道” (L) 、“中置声道” (C)、“右声道”(R)、后置的“ 左环 绕声道”(LS)和“右环绕声道”(RS), 第六个声道也就是超低音声道包含了一些 额外的低音信息,使得一些场景如爆炸、 撞击声等的效果更好。
40 K 960k
3
压缩编码的必要性
数据压缩造成音频质量的下降、计算量的增 加。人们在实施数据压缩时,要在音频质量、数 据量、计算复杂度三方面进行综合考虑。
各领域的专家致力于算法的研究,众多的企 业致力于芯片和产品的研制,国际标准化组织也 先后推出一系列建议。
高质量高效率的音频压缩技术广泛地用于多 媒体应用、音像制品、数字广播、数字电视等领 域。
高质量音频
20 ~ 20K
采样率 ( KH Z)
8
44.1
量化精度 (位) 8 16
数据率 (位 /秒)
64k 705.6k
压缩编码数据率:
信号类型
数据率
(位 /秒)
IP 电话话音
64k
高质量音频
705.6k
压缩编码 标准 G.723 44.1
数据率 (位 /秒 )
5.3k 128k
数据率 (字节 /分钟 )
26
AC-3的工作原理
杜比AC-3是种感知型编码方式,它利 用心理声学原理:较强的声音信号可以掩 蔽临近频段中较弱的信号。换言之,如果 在某一频段中出现了一个较强的信号,那 么该频段中所有低于某一门槛值的信号都 将被强信号掩蔽掉,成为人耳不可闻的信 号。滤除这缜弱信号将不会对音质产生不 良影响,而且能减少编码后的数据量,所 以可以把它们作为噪声信号来对待。
当前编码技术发展的一个重要的方向就 是综合现有的编码技术,制定全球的统一 标准,使信息管理系统具有普遍的互操作 性并确保了未来的兼容性。国际上,对于 语音信号压缩编码的审议在CCITT下设的第 十五研究组进行,相应的建议为G系列,多 由ITU发表。
13
CCITT和ISO先后提出一系列有关音频编码的建议, 推荐的标准:
22
(2)编码层次
根据应用需求,可以使用不同层次的编码 系统:
✓ 层Ⅰ包括将数字音频变成32个子带的基本映射。将数 据格式化成块的固定分段。决定自适应位分配的心理 声学模型。利用块压扩和格式化的量化器。理论上, 层Ⅰ编码/解码的最少延时约为19ms。
✓ 层Ⅱ 提供了位分配,缩放因子和抽样的附加编码。使 用不同的帧格式。这层理论上的最小编码/解码延时 约为35ms。
AC-3可编程解码器
29
7
1、时域信息的冗余度(续)
静音系数 两人间打电话,平均每人的讲话时间为通话总时 间的一半,另一半时间听对方讲。听的时候—般 不讲活,而即使是在讲话的时候,也会出现停顿。 声音间隔本身就是一种冗余,若能正确检测出该 静比段,便可“插空”传输更多的信息。
长时自相关函数 上述周期间等相关性,都是在20 ms间隔内进
PCM 音频抽样
辅助数据
25
6、DOLBY AC-3
AC-3音频编码标准的起源是DOLBY (杜比)AC-1。AC-1应用的编码技术是自 适应增量调制技术,它把20kHz的宽带立体 声音频信号编码成512kb/s的数据流。AC-2 采用类似MDCT的重叠窗口的FFT编码技术, 其数据率在256kb/s以下。AC-2被应用在 PC声卡和综合业务数字网等方面
行统计的所谓短时自相关。如果在较长的时问间 隔(如几十秒)进行统计,便得到长时自相关函数。
8
2、频域信息的冗余度
非均匀的长时功率谱密度 在相当长的时间间隔内进行统计平均,可得到长 时功率谱密度函数.其功率谱呈现强烈的非平坦 性。从统计的观点看,这意味着没有充分利用结 定的频段,有固有的冗余度
语音特有的短时功率谱密度 语音信号的短时功率谱,在某些频率上出现峰值, 这些峰值频率不只一个,但最主要的是第一和第 二个,由它们决定不同的语音特征。
14
1、G.711—话音的PCM编码
本建议公布于1972年,它给出话音信号 编码的推荐特性。话音的抽样率为8KHz。 每个样值采用8位二进制编码。推荐使用A 律和μ律量化。分别给出A律和μ律的定义: 将13位PCM码按A律、14位PCM码按μ律转 换8位编码。
15
2、G.721---32kb/s的ADPCM
S(k)
64bit/s A 律或 U 律 PCM
转换为 标准 PCM
+ S (k)
I
d(k)
+
Se(k)
自适应 预测器
自适应 量化器
I(k) 32kbit/s 输出
dq (k)
自适应 逆 量化器
Sr (k)
+
(a) ADPCM编码器
17
解码器包括一个与编码器反馈部分相同的结构,还 有A律或μ律的转换器,以及同步编码调节器。同步编 码器用于防止同步级联编码(ADPCM-PCM-ADPCM)在某些 情况下产生累积失真。用试图消除下一个ADPCM编码的 量化失真的方式调节PCM输出,以实现同步编码调Βιβλιοθήκη Baidu。
24
(4)解码
解码器按编码器定义的语法接收压缩的音频 数据流、按解码部分的方法解出数据元素,产生 数字音频输出。其过程如下:
✓ 数据流输入到解码器 ✓ 帧扩展进行数据流拆封,恢复出各种信息 ✓ 重构单元将重构一组映射抽样的量化方案 ✓ 逆映射单元把这些抽样变换回均匀PCM
已编码 数据流
帧扩展
重构
逆映射
9
3、人的听觉感知机理
人的听觉具有掩蔽效应 当两个响度不同的声音作用于人耳时,响度
较高的频率成分会影响对响度较低频率成分的感 受。 人耳对不同频段的声音敏感度不同
低频成分容易掩蔽高频成分。即使是对同样声 压级的声音,人耳的实际感觉到的音量也是随频 率而变化。 人耳对语音信号的相位变化不敏感
入耳听不到或感知极不灵敏的声音分量都不 妨视为冗余的。
1972年:G.711--- 64kb/s PCM编码标准。 1984年:G.721---32kb/s 自适应差值脉冲编码(ADPCM)
G.722--- 64kb/s 子带ADPCM编码标准 G.723.1--- 5.3kb/s和6.3kb/s LSF G.726 ---16kb/s 1990年:G.727---16-40kb/s 镶嵌式ADPCM标准。 1992年:G.728 /G.729---16kb/s LD-CELP 1988年:RPE-LTP---13kb/s长时预测规则码激励(欧洲)GSM 1989年:VSELP---6.7kb/s 矢量和激励线性预测(日本)
19
4、G.728编码标准
G.728建议的技术基础是美国AT&T公 司贝尔实验室提出的LD-CELP(低延时-码 激励线性预测)算法。该算法考虑了听觉 特性,其特点是:
✓以块为单位的后向自适应高阶预测; ✓后向自适应型增益量化; ✓以适应为单位的激励信号量化。
20
5、MPEG中的音频编码
MEPG中的MPEG I标准中规定了音频编 码标准,包括高质量音频编码方法,存储 表示和解码方法。编码器的输入和解码器 的输出与现存的PCM标准兼容。
21
(1)编码器
编码器处理数字音频信号,并生成存储所 需的数据流。编码过程如下:
➢ 输入的音频抽样被读入编码器; ➢ 映射器建立经滤波的输入音频数据流的子带抽样表示 ➢ 心理声学模型建立一组控制量化和编码的数据 ➢ 量化和编码部分从已映射的输入抽样中生成一组编码符号 ➢ 帧封装将来自其他模块的输出数据汇集成实际数据
2.3 音频编码基础和标准
2.3.1 音频编码基础 2.3.2 音频编码标准
2.3.1 音频编码基础
一、压缩编码的必要性 二、音频编码基础 三、音频编码的分类
压缩编码的必要性
多媒体音频数据的存储和传输中,必须 压缩数据。利用音频编码压缩数据。
采样数据率(每秒比特数):
信号类型
频率范围
电话话音
( HZ) 200 ~ 3400
6
1、时域信息的冗余度(续)
周期之间的相关 虽然语音信号需要一个电话通路提供整个200~
3400HZ的带宽,但在特定的瞬间,某声音只有少数 频率成分在作用,它们在周期域周期间,存在着一 定的相关性。
基音之间的相关 人说话声音分为浊音和清音,浊音不仅有周期间
的冗余度,还对应于音调间隔的长期重复波形。
✓ 层Ⅲ 采用混合带通滤波器来提高频率分辨率。它增加 了差值量化(非均匀)、自适应分段和量化值的嫡编码。 这层理论上的最小编码/解码延时为59ms。
23
(3)存储
己编码的视频数据、音频数据、同步数 据、系统数据和辅助数据均可一并存人同 一存储介质中。对存储器的存取也可能包 括在通信系统中的远程存取。
脉冲编码调制(PCM) 自适应脉冲编码调制(APCM) 差值脉冲编码调制(DPCM) 自适应差值脉冲编码调制(ADPCM)
参数编码:
预测方式:前向/后向, 短时/长时 参数类型:LPC, LSP, CEP 激励方法: 编码策略:合成-分析法
感知编码---MPEG,AC-3
12
2.3.2 音频编码标准
10
音频编码的分类
音频编码分位三类:
基于音频数据的统计特性进行编码,其典型 技术是波形编码。其目标是使重建语音波 形保持原波形的形状; 基于音频的声学参数,进行参数编码,可 进一步降低数据率。其目标是使重建音频 保持原音频的特性; 基于人的听觉特性,进行感知编码 。
11
音频编码的分类(续)
波形编码:
这个建议是1984年公布。1986年作了 进一步修订。它用于64kb/s的A律或μ律 PCM到32kb/s ADPCM之间的转换,实现了 对PCM信道的扩容。
16
编码器的输入信号是64kb/s A律或μ律PCM编码。首 先将其转换为标准PCM编码。从中减去估计值Se(k),得 到差值信号d(k)。15阶自适应量化器将d(k)量化成4位二 进制值I(k)。逆量化器从这4位二进制数中产生量化的差 值信号dq(k)。dq(k)和估计信号Se(k)相加得到重构信号 Sr(k)。自适应预测器利用dq(k)和Sr(k)生成输入信号的 估计值。
4
音频编码基础
从信息保持的角度讲,只有当信源本身具有冗 余度,才能对其进行压缩。根据统计分析结果,语 音信号存在着多种冗余度,其最主要部分可以分 别从时域和频域来考虑。另外由于语音主要是给 人听的,所以考虑了人的听觉机理,也能对语音 信号实行压缩。
1、时域信息的冗余度 2、频域信息的冗余度 3、人的听觉感知机理
自适应 逆 32bit/s 量化器
+
输入
转换为 PCM
自适应 预测器
(b) ADPCM 解码器
同步编码 调节
64bit/s A 律或 U 律输出
18
3、G.722- 64kb/s SB-ADPCM
G.722建议的带宽音频压缩仍采用波形 编码技术,因为要保证既能适用于话音, 又能用于其他方式的音频,只能考虑波形 编码。G.722编码采用了高低两个子带内的 ADPCM方案,高低子带的划分以4KHz为 界。然后再对每个子带内采用类似G.721建 议的ADPCM编码,因此G.722建议的技术 方案可以简写为SB-ADPCM(子带-自适应 差分脉冲码调制)。
5
1、时域信息的冗余度
幅度的非均匀分布 一般语音中小幅度样本比大幅度样本出现的
概率要高,并且通话中必然会有间隙,更会出现 大量低电平样本。因此.语音信号取样值的幅度 分布是非均匀的,可以采用非均匀量化对其编码。
样本间的相关 对语音波形的分析表明,取样数据的最大相
关性存在于邻近样本之间,并且取样速率越高, 样本间相关性越强。根据相关性,可利用N阶差 分编码技术,进行有效的数据压缩。
27
AC-3 的5.1声道
5.1声道为环绕声系统由五个全频域声 道加一个超低音声道组成,其中五个声道 包括前置的“左声道” (L) 、“中置声道” (C)、“右声道”(R)、后置的“ 左环 绕声道”(LS)和“右环绕声道”(RS), 第六个声道也就是超低音声道包含了一些 额外的低音信息,使得一些场景如爆炸、 撞击声等的效果更好。
40 K 960k
3
压缩编码的必要性
数据压缩造成音频质量的下降、计算量的增 加。人们在实施数据压缩时,要在音频质量、数 据量、计算复杂度三方面进行综合考虑。
各领域的专家致力于算法的研究,众多的企 业致力于芯片和产品的研制,国际标准化组织也 先后推出一系列建议。
高质量高效率的音频压缩技术广泛地用于多 媒体应用、音像制品、数字广播、数字电视等领 域。
高质量音频
20 ~ 20K
采样率 ( KH Z)
8
44.1
量化精度 (位) 8 16
数据率 (位 /秒)
64k 705.6k
压缩编码数据率:
信号类型
数据率
(位 /秒)
IP 电话话音
64k
高质量音频
705.6k
压缩编码 标准 G.723 44.1
数据率 (位 /秒 )
5.3k 128k
数据率 (字节 /分钟 )
26
AC-3的工作原理
杜比AC-3是种感知型编码方式,它利 用心理声学原理:较强的声音信号可以掩 蔽临近频段中较弱的信号。换言之,如果 在某一频段中出现了一个较强的信号,那 么该频段中所有低于某一门槛值的信号都 将被强信号掩蔽掉,成为人耳不可闻的信 号。滤除这缜弱信号将不会对音质产生不 良影响,而且能减少编码后的数据量,所 以可以把它们作为噪声信号来对待。
当前编码技术发展的一个重要的方向就 是综合现有的编码技术,制定全球的统一 标准,使信息管理系统具有普遍的互操作 性并确保了未来的兼容性。国际上,对于 语音信号压缩编码的审议在CCITT下设的第 十五研究组进行,相应的建议为G系列,多 由ITU发表。
13
CCITT和ISO先后提出一系列有关音频编码的建议, 推荐的标准:
22
(2)编码层次
根据应用需求,可以使用不同层次的编码 系统:
✓ 层Ⅰ包括将数字音频变成32个子带的基本映射。将数 据格式化成块的固定分段。决定自适应位分配的心理 声学模型。利用块压扩和格式化的量化器。理论上, 层Ⅰ编码/解码的最少延时约为19ms。
✓ 层Ⅱ 提供了位分配,缩放因子和抽样的附加编码。使 用不同的帧格式。这层理论上的最小编码/解码延时 约为35ms。