第8章 数字音频技术1

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2014-4-30 信息工程系 20
8.2 MPEG音频压缩技术
1. 子带编码滤波器组的划分
MPEG-1音频编码器把输入信号变换到32个频域子带中去。 子带的划分方法有两种,一种是线性划分,另一种是非 线性划分
2014-4-30
信息工程系
21
8.2 MPEG音频压缩技术
2. 子带编码
SNR(signal noise ratio) —— 信号噪声比 SMR(signal-to-mask ratio) —— 信号掩蔽比 NMR(noise-to-mask ratio) —— 噪声掩蔽比
2014-4-30 信息工程系 33
8.2 MPEG音频压缩技术
MPEG-2声音多声道扩展部分的数据结构
MPEG-2多声道声音编码标准和现有的MPEG-1声音 标准保持后向兼容。在对原有的MPEG-1两声道增加 独立的环绕声道时,MPEG-2尽量保特和MPEG-1声 音语法的兼容性,MPEG-2中的主声道(左、右)仍然 保持后向兼容,而环饶声道采用新的编码方法和语法
2014-4-30 信息工程系 3
8.2 MPEG音频压缩技术
“听阈—频率”曲线
2014-4-30
信息工程系
4
8.2 MPEG音频压缩技术
人耳对不同频率的敏感程度差别很大,其中对2 kHz~4 kHz范围的信号最为敏感,幅度很低的信 号都能被人耳听到。而在低频区和高频区,能被 人耳听到的信号幅度要高得多
2014-4-30
信息工程系
10
8.2 MPEG音频压缩技术
2. 时域掩蔽
时间上相邻的声音之间也有掩蔽现象,并且称为时域 掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后 掩蔽(post-masking) 超前掩蔽较短,只有大约5~20 ms,而滞后掩蔽可以 持续50~200 ms
2014-4-30
信息工程系
34
8.2 MPEG音频压缩技术
MPEG-2的两种音频数据压缩格式
2014-4-30
信息工程系
8
8.2 MPEG音频压缩技术
声强为60 dB、频率为1000 Hz纯音的掩蔽效应
2014-4-30
信息工程系
9
8.2 MPEG音频压缩技术
频率为250 Hz、1 kHz、4 kHz和8 kHz纯音的掩蔽效应, 它们的声强均为60 dB ①在250 Hz、1 kHz、4 kHz和8 kHz纯音附近,对其他纯 音的掩蔽效果最明显 ②低频纯音可以有效地掩蔽高频纯音,但高频纯音对低 频纯音的掩蔽作用则不明显
2014-4-30
信息工程系
25
8.2 MPEG音频压缩技术
MPEG-1数字音频的参数概述
(1)MPEG-1音频取样频率 fs:32 kHz, 44.1 kHz , 48 kHz (2)MPEG-1音频码率 32~192kHz 单声道, 64~384kHz 立体声 PCM
如按高保真立体声:50Hz~20kHz, 取fs=44.1KHz,n=16bit; 则不压缩时速率:44.1×16=705.6Kbit/s (每声道)
(3)MPEG-1音频压缩算法
①自适应频谱心理声学熵编码ASPEC(Adaptive Spectral Perceptual Entropy Coding); ②自适应变换声音编码ATAC(Adaptive Transform Audio Coding) ③掩蔽型自适应子带编码和复用MUSICAM(Masking-Pattern Adapted Universal Subband Integrated Coding And Multiplexing) ④子带/自差分脉冲编码SB/ADPCM ASPEC和MUSICAM主观评价几乎相同。在64kbit/s时APESC音质略 好,而MUSICAM较简单,解码延时较好;所以MUSICAM作为 MPEG LayerI,结合ASPEC优点为LayerII,LayerIII。
① 听觉系统中存在一个听觉阈值电平,低于这个电平的 声音信号就听不到,因此就可以把这部分信号去掉 听觉阈值的大小随声音频率的改变而改变,各个人的 听觉阈值也不同。大多数人的听觉系统对2 kHz~5 kHz之间的声音最敏感。一个人是否能听到声音取决 于声音的频率,以及声音的幅度是否高于这种频率下 的听觉阈值
信息工程系 2
2014-4-30
8.2 MPEG音频压缩技术
这两种感知音频强弱的计量单位是完全不同的两种概念, 但是它们之间又有一定的联系 当音频弱到人的耳朵刚刚可以听见时,我们称此时的音 频强度为“听阈”。例如,1 kHz纯音的声强达到1016w/cm2(定义成零dB声强级)时,人耳刚能听到,此时的 主观响度级定为零方 实验表明,听阈是随频率变化的。测出的“听阈—频率” 曲线如图所示。图中最靠下面的一根曲线叫做“零方等 响度级”曲线,也称“绝对听阈”曲线,即在安静环境 中,能被人耳听到的纯音的最小值 另一种极端的情况是音频强到使人耳感到疼痛。实验表 明,如果频率为1 kHz的纯音的声强级达到120 dB左右时, 人的耳朵就感到疼痛,这个阈值称为“痛阈”
信息工程系 26
2014-4-30
8.2 MPEG音频压缩技术 MPEG-1音频信号数据压缩过程
(a)时间/频率映射(滤波器组)用以将输入的信号转化为 亚取样的频谱分量分为子带 (b)频域滤波器组或并行变换的输出,根据心理声学模型 求出时变的掩蔽门限估值 (c)按量化噪声不超过掩蔽门限的原则将子带量化编码以 使量化噪声不可听到 (d)按帧打包成码流(包括比特分配信息)
2014-4-30
信息工程系
5
8.2 MPEG音频压缩技术
2. 对音高的感知
客观上用频率来表示声音的音高,其单位是Hz 主观感觉的音高单位则是“美(Mel)”,主观音高与客观 音高的关系是: 其中 f的单位为Hz 这也是两个既不相同又有联系的单位 人耳对频率的感觉也有一个范围。人耳可以听到的最 低频率约20 Hz,最高频率约20000 Hz
信息工程系
30
8.2 MPEG音频压缩技术
Layer III音频解码方框图
2014-4-30
信息工程系
31
8.2 MPEG音频压缩技术
MPEG-1音频编码帧结构
2014-4-30
信息工程系
32
8.2 MPEG音频压缩技术
MPEG-2音频压缩
MPEG-2声音编码标准是MPEG为多声道声音开发的 低码率编码方案,它是在MPEG-1声音标准基础上发 展而来的。和MPEG-1相比,MPEG-2声音主要增加 了三个方面的内容 (1)支持5.1路环绕声。它能提供5个全带宽声道(左、 右、中和两个环绕声道),外加一个低频效果增强 声道,统称为5.1声道 (2)支持多达8种语言或解说 (3)增加了低取样和低码率。在保持MPEG-1声音的 单声道和立体声的原有取样率的情况下,MPEG2又增加了三种取样率,即把MPEG-1的取样率降 低了一半,(16kHz,22.05kHz, 24kHz)以便提高码 率低于64kbit/s时的每个声道的声音质量
2014-4-30
信息工程系
18
8.2 MPEG音频压缩技术
MPEG音频压缩算法框图
2014-4-30
信息工程系
19
8.2 MPEG音频压缩技术
MPEG-1音频压缩标准的主要性能:
(1) 输入信号为线性PCM信号,采样率为32, 44.1或48 kHz,输出为32 kb/s~384 kb/s (2) MPEG-1音频压缩标准提供三个独立的压缩层次 ① 层1的编码器最为简单,编码器的输出数据率为 384 kb/s,主要用于小型数字盒式磁带(digital compact cassette,DCC) ② 层2的编码器的复杂程度属中等,编码器的输出数 据率为256 kb/s~192 kb/s,其应用包括数字广播 声音(DAB)、数字音乐、CD-I(compact discinteractive)和VCD(video compact disc)等 ③ 层3的编码器最为复杂,编码器的输出数据率为64 kb/s,主要应用于网络音乐
2014-4-30
信息工程系
14
8.2 MPEG音频压缩技术
3.量化噪声使得不必全部编码原始信号
2014-4-30
信息工程系
15
8.2 MPEG音频压缩技术
4. 通过子带分割来进行优化、编码
子带编码、优化
2014-4-30
信息工程系
16
8.2 MPEG音频压缩技术
8.2.2 MPEG-1音频压缩技术 MPEG音频压缩的的主要依据是人耳朵的听觉特 性,使用“心理声学模型(psychoacoustic model)” 来达到压缩声音数据的目的 心理声学模型
2014-4-30
信息工程系
23
8.2 MPEG音频压缩技术
层1、2和层3的子带样本
2014-4-30
信息工程系
24
8.2 MPEG音频压缩技术
MPEG编码层简介 层1:采用均匀子带划分,心理声学模型仅使用频域 掩蔽特性 层2:采用均匀子带划分,心理声学模型除使用频域 掩蔽特性外还利用了时域掩蔽特性,并且在低、中和 高频段对比特分配作了一些限制,对比特分配,比例 因子和量化样本值的编码也更紧凑 层3:采用非均匀子带划分,即临界频带划分,心理 声学模型使用频域和时域掩蔽,同时还考虑了立体声 数据冗余,并且使用了Huffman编码
2014-4-30 信息工程系 17
8.2 MPEG音频压缩技术
② 听觉系统存在掩蔽特性,听觉阈值电平是自适应的,即 听觉阈值电平会随听到的不同频率的音频而发生变化 例如,同时有两种频率的音频存在,一种是1000 Hz的 音频,另一种是1100 Hz的音频,但它的强度比前者低 18分贝,在这种情况下,1100 Hz的音频就听不到
2014-4-30
信息工程系
27
8.2 MPEG音频压缩技术 Layer Ⅰ,Ⅱ音频编码方框图
2014-4-30
信息工程系
28
8.2 MPEG音频压缩技术
Layer Ⅰ,Ⅱ音频解码方框图
2014-4-30
信息工程系
29
8.2 MPEG音频压缩技术
Layer III音频编码方框图
2014-4-30
2014-4-30
信息工程系
22
8.2 MPEG音频压缩技术
3.编码层
MPEG音频压缩定义了3个层次,它们的基本模型是 相同的。层1是最基础的,层2和层3都在层1的基础上 有所提高。每个后继的层次都有更高的压缩比,但需 要更复杂的编码解码器 MPEG的音频数据分成帧(frame),层1每帧包含384个 样本的数据,每帧由32个子带分别输出的12个样本组 成。层2和层3每帧为1152个样本
2014-4-30
信息工程系
6
8.2 MPEG音频压缩技术
音高—频率曲线
2014-4-30
信息工程系
7
8.2 MPEG音频压缩技术
3. 掩蔽效应
一种频率的声音阻碍听觉系统感受另一种频率的声音 的现象称为掩蔽效应。前者称为掩蔽声音(masking tone),后者称为被掩蔽声音(masked tone) 掩蔽可分成频域掩蔽和时域掩蔽 (1). 频域掩蔽 一个强纯音会掩蔽在其附近同时发声的弱纯音,这种 特性称为频域掩蔽,也称同时掩蔽(simultaneous masking)
2014-4-30
信息工程系
11
8.2 MPEG音频压缩技术
时域掩蔽
2014-4-30
信息工程系
12
8.2 MPEG音频压缩技术
听觉感知编码的编码思路: 1. 根据听觉域度对可闻信号进行编码
听觉域度对编码的作用
源自文库
2014-4-30
信息工程系
13
8.2 MPEG音频压缩技术
2.根据掩蔽效应,只对幅度强的掩蔽信号进行编码
数字电视原理
第八章 数字音频技术
8.2 MPEG音频压缩技术
8.2.1 音频特性及其编码
研究听觉系统对声音的感知特性,下面介绍已经用在 MPEG Audio压缩编码算法中的三个特性:响度、音高和 掩蔽效应,听觉感知编码。 1. 对响度的感知 声音的响度就是声音音频弱。 在物理上(客观),声音的响度使用客观测量单位来 度量,即dyn/cm2(达因/平方厘米)(声压)或W/cm2(瓦 特/平方厘米)(声强)。 在心理上(主观),主观感觉的声音强弱使用响音频 “方(phon)”或者“宋(sone)”来度量
相关文档
最新文档