第11章MPEG声音
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
24
声音的数据量
声音的数据量由两方面决定:
采样频率和样本精度。 要减小数据量,就需要降低采样频率或者降低样本精
度。
25
话音编码
PCM,ADPCM 音源特定编码:这种方法主要是针对话音的编码
300-3400Hz
如果用来编码音乐,质量比较差
26
11.3.1 声音编码
MPEG-1的声音压缩采用了另一种方法,称为子 带编码(sub-band coding,SBC)方法,这也 是一种功能很强而且很有效的声音信号编码方法。
42
数据流帧包装
按规定的帧格式对声音样本和编码信息(包括位 分配和比例因子等)进行包装。
43
11.4 MPEG-2 Audio
MPEG-2标准委员会定义了两种声音数据压缩格 式:
在心理上,主观感觉的声音强弱使用响度级“方 (phon)”或者“宋(sone)”来度量。
5
听阈/痛阈
听阈:当声音弱到人耳刚刚可以听见时的声音强 度。
听阈是随频率变化的。
例如1kHz纯音的声强达到10-16w/cm2(定义为0 dB声强 级)时,人耳刚刚能听到,此时主观响度级定为零方。
41
量化和编码
找出每个子带的最大样本值,对该子带数据进行 归一化,使各子带电平一致,然后再进行量化。 记录的该样本值称为比例因子(scale factor)
根据SMR来决定各子带的量化位分配(bit allocation),比值大的分配较多的量化比特。 子带样本根据位分配进行量化和编码,对高度掩 蔽的子带就不用对它进行编码了。
28
11.3.2 声音的性能
MPEG声音(ISO/IEC 11172-3)压缩算法是 世界上第一个高保真声音数据压缩国际标准,并 且得到了极其广泛的应用。
虽然MPEG声音标准是MPEG标准的一部分,但 它也完全可以独立应用,MPEG-1 Audio标准 的主要性能为:
29
特性(1)
MPEG编码器的输入信号为线性PCM信号,采样 率为32, 44.1或48 kHz,输出为32 kb/s~ 384 kb/s。
低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的 掩蔽作用则不明显。(曲线左边陡,右边缓)
15
时域掩蔽
在时间上相邻的声音之间也有掩蔽现象,称为时 域掩蔽。
超前掩蔽(pre-masking) 滞后掩蔽(post-masking)
超前掩蔽是由于掩蔽信号与被掩蔽信号之间的听 觉处理相互干涉引起的,大约2~20ms。
(4) 编码后的数据流支持循环冗余校验 CRC(cyclic redundancy check)。
(5) MPEG声音标准还支持在数据流中添加附加信 息。
33
11.3.3 子带编码
MPEG-1使用子带编码来达到既压缩声音数据又 尽可能保留声音原有质量的目的。
SBC的基本想法就是在编码过程中保留信号的带宽而 扔掉被掩蔽的信号,其结果是编码之后还原的声音, 也就是解码或者叫做重构的声音信号与编码之前的声 音信号不相同,但人的听觉系统很难感觉到它们之间 的差别。
According to the masking effect, we can transmit that 1KHz signal while discarding the 1.1KHz signal
In fact, All sounds below masking curves will be masked and become inaudible
(3)“量化和编码”部分用信掩比(signal-to-mask ratio,SMR)来决定分配给子带信号的量化位数,使量 化噪声低于掩蔽阈值。
(4)最后通过“数据流帧包装”将量化的子带样本和其 他数据按照规定的称为“帧(frame)”的格式组装成位数 据流。
35
子带编码原理图
36
多相滤波器组
感知声音编码(perceptual audio coding),它处 理10Hz~20000Hz范围里的声音数据,数据压缩 的主要依据是人耳朵的听觉特性,使用心理声学 模型( psychoacoustic model )来达到压缩声音 数据的目的。
22
11.2.1 MPEG声音压缩的依据
听觉系统中存在一个听觉阈值电平,低于这个电 平的声音信号就听不到,因此就可以把这部分信 号去掉。
心理声学模型中的另一个概念是听觉掩蔽特性。
23
11.3 MPEG-1 Audio
MPEG-1 Audio定义了三个独立的压缩层次, 分别简称为第1层——MP1(MPEG Audio Layer1)、第2层——MP2、第3层——MP3
第1层仅利用频域掩蔽特性 第2层利用频域掩蔽特性和时间掩蔽特性 第3层利用了频域掩蔽特性、时间掩蔽特性和临 界频带特性
30
特性(2)
MPEG声音标准提供三个独立的压缩层次:层 1(Layer 1)、层2(Layer 2)和层3(Layer 3),用户对层次的选择可在复杂性和声音质量之 间进行权衡。
31
特性(3)
可预先定义压缩后的数据率
MPEG声音标准也支持用户预定义的数据率
音质要求
电话 优于短波 优于调幅广播 类似于调频广播 接近CD CD
10
11.1.3 掩蔽效应
一种频率的声音阻碍听觉系统感受另一种频率的 声音的现象。前者称为掩蔽声音(masking tone),后者称为被掩蔽声音(masked tone)。
【例】安静房间里的普通谈话可以听得很清楚, 但在播放摇滚乐的环境下同样的普通谈话就听不 清楚了。
11
分类
频域掩蔽
用来分割子带也就是时间-频率变换部件是一个多相滤波 器组。
它把输入信号变换到32个频域子带中去。在一瞬内层I是 变换为12个子带取样数据,层Ⅱ、层Ⅲ是变换成36个子 带取样数据
37
38
子带的划分方法有两种,
一种是线性划分, 另一种是非线性划分。如果把声音频带划分成带宽相
等的子带,这种划分就不能精确地反映人耳的听觉特 性,因为人耳的听觉特性是以“临界频带”来划分的, 在一个临界频带之内,很多心理声学特性都是一样的。
声音带宽(kHz)
2.5 5.5 7.5 11 15 > 15
方式
单声道 单声道 单声道 立体声 立体声 立体声
数据率( kb/s)
8 16 32 56 ~ 64 96 112 ~ 128
压缩比
96 :1 48 :1 24 :1 26 ~ 24 :1 16 :1 12 ~ 10 :1
32
特性(4、5)
痛阈:声音强到使人耳开始感到疼痛的声压级。
频率为1kHz的纯音的声强级达到120dB左右时,人耳就 会感到疼痛。
6
“听阈—频率”曲线
最下面的一根曲线叫做“零方等响度级”曲 线,也称“绝对听阈”曲线,即在安静环境 中,人耳能听到的纯音最小值。
7
11.1.2 对音高的感知
客观上用频率来表示声音的音高,单位是Hz。而 主观感觉的音高单位则是“美(Mel)”,主观音高 与客观音高的关系是 Mel=1000log2(1+f)
第 11 章 MPEG声音
Chapter 12 MPEG Audio
Compared with voice signal, audio signal often has wider bandwidth, more channels and larger dynamic range, so audio coding methods differ greatly with voice coding methods
在低频区域,一个子带覆盖好几个临界频带。在 这种情况下,某个子带中量化器的比特分配就不 能根据每个临界频带的掩蔽阈值进行分配,而要 以其中最低的掩蔽阈值为准。
39
40
心理声学模型
计算全局掩蔽阈值和每个子带的SMR(信掩比) 信掩比(SMR)是指最大的信号功率与全局掩蔽阈
值之比,下图表示了某个子带中的信掩比。
一组带通滤波器。
基于这种现象,声音编码常常用到子带编码方法
20
临界频带
通常认为声音有25个临界频带。临界频带的单位 叫Bark(巴克) 1Bark = 一个临界频带的宽度
临界频带是一个主观反应突然发生变化的带宽, 也是人耳分割不同频率声音能力的一个基本近似。
21
11.2 感知声音编码
3
11.1 听觉系统的感知特性
听觉系统对声音的感知特性:
响度 音高 掩蔽效应 临界频带
4
11.1.1 对响度的感知
声音的响度:就是声音的强弱。
物理上,声音的响度使用客观测量单位来度量,即 dyn/cm2(达因/平方厘米)(声压)或w/cm2(瓦特/平方厘 米)(声强)。
一个强纯音会掩蔽在其附近同时发声的弱纯音,这种 特性称为频域掩蔽
时域掩蔽
在时间上相邻的声音之间也有掩蔽现象,称为时域掩 蔽。
12
频域掩蔽
也称同时掩蔽(simultaneous masking)。
一个频率为1000Hz的纯音,另外还有一个 1100Hz的纯音,前者比后者高18dB,在这种 情况下,我们就只能听到1000Hz的强音。
18
临界频带
人类的听觉系统 研究表明
人类的听觉系统是通过子带来处理感知的声音的 每个子带对应于耳蜗的一段长度 (大约1.3 mm)
19来自百度文库
临界频带
每个子带称谓临界频带
在一个临界频带内,耳朵的听觉感知特性很类似,很 多心理声学特性都是相同的。
每个临界频带的频率范围不同. 所以, 人类的听觉系统可以看作由临界频带进行划分的
滞后掩蔽则是由于神经行为具有一定的持久性, 可持续50~200ms。
16
总的掩蔽效应
17
如何利用掩蔽效应
在保证音频质量的同时提高编码效率
不必传输被掩蔽的声音 (频率掩蔽) 如果一个小信号发生在一大信号的后面,则该小信号就可以不用
传输 (时域掩蔽)
例如:
A signal consists of two frequency 1KHz and 1.1KHz with different volume, such as 60dB and 40dB
人耳对频率的感知范围
8
测量音高
在测量音高时则以40dB声强为基准,并且由主 观感觉来确定。
测量主观音高时,让实验者听两个声强级为 40dB的纯音,固定其中一个纯音的频率,调节 另一个纯音的频率,直到他感到后者的音高为前 者的两倍,就标定这两个声音的音高差为两倍。
9
音高与频率
音高与频率之间也不是线性关系
34
子带编码主要步骤
(1)输入声音信号经过一个“时间-频率多相滤波器组” 变换到频域里的多个子带中。
(2)输入声音信号同时经过“心理声学模型(计算掩蔽 特性)”,该模型计算以频率为自变量的噪声掩蔽阈值 (masking threshold),查看输入信号和子带中的信 号以确定每个子带里的信号能量与掩蔽阈值的比率。
60dB,1KHz声音的掩蔽区域
听阈
13
频域掩蔽
要想让2000Hz的纯音也听不到,则需要把它降到 比1000Hz的纯音低45dB。
一般弱纯音离强纯音越近就越容易被掩蔽。
45
14
不同频率段的掩蔽曲线
下图的一组曲线分别表示频率为250Hz、1kHz、4kHz和 8kHz纯音的掩蔽效应,它们的声强均为60dB。
1
大纲
听觉系统感知特性 MPEG-1 Audio MPEG-2 Audio MPEG-4 Audio
2
声音编码
波形声音压缩编码(如ADPCM)和参数编码(如LPC) 分别依据波形本身的相关性和人的发音器官特性 进行编码
感知声音编码(perceptual audio coding):对音 源性质没有作任何假设,而是利用人耳的听觉特 性对声音进行压缩。去除声音信号本身的相关性 和人耳不可感知的部分。
具体思想是首先把时域中的声音数据变换到频域,对 频域内的子带分量分别进行量化和编码,根据心理声 学模型确定样本的精度,从而达到压缩数据量的目的。
27
MPEG量化
MPEG声音数据压缩的基础是量化。
实验表明,采样频率为48 kHz、样本精度为16比特 的立体声音数据压缩到256 kb/s时,即在6:1的压 缩率下,即使是专业测试员也很难分辨出是原始声音 还是编码压缩后的声音。
声音的数据量
声音的数据量由两方面决定:
采样频率和样本精度。 要减小数据量,就需要降低采样频率或者降低样本精
度。
25
话音编码
PCM,ADPCM 音源特定编码:这种方法主要是针对话音的编码
300-3400Hz
如果用来编码音乐,质量比较差
26
11.3.1 声音编码
MPEG-1的声音压缩采用了另一种方法,称为子 带编码(sub-band coding,SBC)方法,这也 是一种功能很强而且很有效的声音信号编码方法。
42
数据流帧包装
按规定的帧格式对声音样本和编码信息(包括位 分配和比例因子等)进行包装。
43
11.4 MPEG-2 Audio
MPEG-2标准委员会定义了两种声音数据压缩格 式:
在心理上,主观感觉的声音强弱使用响度级“方 (phon)”或者“宋(sone)”来度量。
5
听阈/痛阈
听阈:当声音弱到人耳刚刚可以听见时的声音强 度。
听阈是随频率变化的。
例如1kHz纯音的声强达到10-16w/cm2(定义为0 dB声强 级)时,人耳刚刚能听到,此时主观响度级定为零方。
41
量化和编码
找出每个子带的最大样本值,对该子带数据进行 归一化,使各子带电平一致,然后再进行量化。 记录的该样本值称为比例因子(scale factor)
根据SMR来决定各子带的量化位分配(bit allocation),比值大的分配较多的量化比特。 子带样本根据位分配进行量化和编码,对高度掩 蔽的子带就不用对它进行编码了。
28
11.3.2 声音的性能
MPEG声音(ISO/IEC 11172-3)压缩算法是 世界上第一个高保真声音数据压缩国际标准,并 且得到了极其广泛的应用。
虽然MPEG声音标准是MPEG标准的一部分,但 它也完全可以独立应用,MPEG-1 Audio标准 的主要性能为:
29
特性(1)
MPEG编码器的输入信号为线性PCM信号,采样 率为32, 44.1或48 kHz,输出为32 kb/s~ 384 kb/s。
低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的 掩蔽作用则不明显。(曲线左边陡,右边缓)
15
时域掩蔽
在时间上相邻的声音之间也有掩蔽现象,称为时 域掩蔽。
超前掩蔽(pre-masking) 滞后掩蔽(post-masking)
超前掩蔽是由于掩蔽信号与被掩蔽信号之间的听 觉处理相互干涉引起的,大约2~20ms。
(4) 编码后的数据流支持循环冗余校验 CRC(cyclic redundancy check)。
(5) MPEG声音标准还支持在数据流中添加附加信 息。
33
11.3.3 子带编码
MPEG-1使用子带编码来达到既压缩声音数据又 尽可能保留声音原有质量的目的。
SBC的基本想法就是在编码过程中保留信号的带宽而 扔掉被掩蔽的信号,其结果是编码之后还原的声音, 也就是解码或者叫做重构的声音信号与编码之前的声 音信号不相同,但人的听觉系统很难感觉到它们之间 的差别。
According to the masking effect, we can transmit that 1KHz signal while discarding the 1.1KHz signal
In fact, All sounds below masking curves will be masked and become inaudible
(3)“量化和编码”部分用信掩比(signal-to-mask ratio,SMR)来决定分配给子带信号的量化位数,使量 化噪声低于掩蔽阈值。
(4)最后通过“数据流帧包装”将量化的子带样本和其 他数据按照规定的称为“帧(frame)”的格式组装成位数 据流。
35
子带编码原理图
36
多相滤波器组
感知声音编码(perceptual audio coding),它处 理10Hz~20000Hz范围里的声音数据,数据压缩 的主要依据是人耳朵的听觉特性,使用心理声学 模型( psychoacoustic model )来达到压缩声音 数据的目的。
22
11.2.1 MPEG声音压缩的依据
听觉系统中存在一个听觉阈值电平,低于这个电 平的声音信号就听不到,因此就可以把这部分信 号去掉。
心理声学模型中的另一个概念是听觉掩蔽特性。
23
11.3 MPEG-1 Audio
MPEG-1 Audio定义了三个独立的压缩层次, 分别简称为第1层——MP1(MPEG Audio Layer1)、第2层——MP2、第3层——MP3
第1层仅利用频域掩蔽特性 第2层利用频域掩蔽特性和时间掩蔽特性 第3层利用了频域掩蔽特性、时间掩蔽特性和临 界频带特性
30
特性(2)
MPEG声音标准提供三个独立的压缩层次:层 1(Layer 1)、层2(Layer 2)和层3(Layer 3),用户对层次的选择可在复杂性和声音质量之 间进行权衡。
31
特性(3)
可预先定义压缩后的数据率
MPEG声音标准也支持用户预定义的数据率
音质要求
电话 优于短波 优于调幅广播 类似于调频广播 接近CD CD
10
11.1.3 掩蔽效应
一种频率的声音阻碍听觉系统感受另一种频率的 声音的现象。前者称为掩蔽声音(masking tone),后者称为被掩蔽声音(masked tone)。
【例】安静房间里的普通谈话可以听得很清楚, 但在播放摇滚乐的环境下同样的普通谈话就听不 清楚了。
11
分类
频域掩蔽
用来分割子带也就是时间-频率变换部件是一个多相滤波 器组。
它把输入信号变换到32个频域子带中去。在一瞬内层I是 变换为12个子带取样数据,层Ⅱ、层Ⅲ是变换成36个子 带取样数据
37
38
子带的划分方法有两种,
一种是线性划分, 另一种是非线性划分。如果把声音频带划分成带宽相
等的子带,这种划分就不能精确地反映人耳的听觉特 性,因为人耳的听觉特性是以“临界频带”来划分的, 在一个临界频带之内,很多心理声学特性都是一样的。
声音带宽(kHz)
2.5 5.5 7.5 11 15 > 15
方式
单声道 单声道 单声道 立体声 立体声 立体声
数据率( kb/s)
8 16 32 56 ~ 64 96 112 ~ 128
压缩比
96 :1 48 :1 24 :1 26 ~ 24 :1 16 :1 12 ~ 10 :1
32
特性(4、5)
痛阈:声音强到使人耳开始感到疼痛的声压级。
频率为1kHz的纯音的声强级达到120dB左右时,人耳就 会感到疼痛。
6
“听阈—频率”曲线
最下面的一根曲线叫做“零方等响度级”曲 线,也称“绝对听阈”曲线,即在安静环境 中,人耳能听到的纯音最小值。
7
11.1.2 对音高的感知
客观上用频率来表示声音的音高,单位是Hz。而 主观感觉的音高单位则是“美(Mel)”,主观音高 与客观音高的关系是 Mel=1000log2(1+f)
第 11 章 MPEG声音
Chapter 12 MPEG Audio
Compared with voice signal, audio signal often has wider bandwidth, more channels and larger dynamic range, so audio coding methods differ greatly with voice coding methods
在低频区域,一个子带覆盖好几个临界频带。在 这种情况下,某个子带中量化器的比特分配就不 能根据每个临界频带的掩蔽阈值进行分配,而要 以其中最低的掩蔽阈值为准。
39
40
心理声学模型
计算全局掩蔽阈值和每个子带的SMR(信掩比) 信掩比(SMR)是指最大的信号功率与全局掩蔽阈
值之比,下图表示了某个子带中的信掩比。
一组带通滤波器。
基于这种现象,声音编码常常用到子带编码方法
20
临界频带
通常认为声音有25个临界频带。临界频带的单位 叫Bark(巴克) 1Bark = 一个临界频带的宽度
临界频带是一个主观反应突然发生变化的带宽, 也是人耳分割不同频率声音能力的一个基本近似。
21
11.2 感知声音编码
3
11.1 听觉系统的感知特性
听觉系统对声音的感知特性:
响度 音高 掩蔽效应 临界频带
4
11.1.1 对响度的感知
声音的响度:就是声音的强弱。
物理上,声音的响度使用客观测量单位来度量,即 dyn/cm2(达因/平方厘米)(声压)或w/cm2(瓦特/平方厘 米)(声强)。
一个强纯音会掩蔽在其附近同时发声的弱纯音,这种 特性称为频域掩蔽
时域掩蔽
在时间上相邻的声音之间也有掩蔽现象,称为时域掩 蔽。
12
频域掩蔽
也称同时掩蔽(simultaneous masking)。
一个频率为1000Hz的纯音,另外还有一个 1100Hz的纯音,前者比后者高18dB,在这种 情况下,我们就只能听到1000Hz的强音。
18
临界频带
人类的听觉系统 研究表明
人类的听觉系统是通过子带来处理感知的声音的 每个子带对应于耳蜗的一段长度 (大约1.3 mm)
19来自百度文库
临界频带
每个子带称谓临界频带
在一个临界频带内,耳朵的听觉感知特性很类似,很 多心理声学特性都是相同的。
每个临界频带的频率范围不同. 所以, 人类的听觉系统可以看作由临界频带进行划分的
滞后掩蔽则是由于神经行为具有一定的持久性, 可持续50~200ms。
16
总的掩蔽效应
17
如何利用掩蔽效应
在保证音频质量的同时提高编码效率
不必传输被掩蔽的声音 (频率掩蔽) 如果一个小信号发生在一大信号的后面,则该小信号就可以不用
传输 (时域掩蔽)
例如:
A signal consists of two frequency 1KHz and 1.1KHz with different volume, such as 60dB and 40dB
人耳对频率的感知范围
8
测量音高
在测量音高时则以40dB声强为基准,并且由主 观感觉来确定。
测量主观音高时,让实验者听两个声强级为 40dB的纯音,固定其中一个纯音的频率,调节 另一个纯音的频率,直到他感到后者的音高为前 者的两倍,就标定这两个声音的音高差为两倍。
9
音高与频率
音高与频率之间也不是线性关系
34
子带编码主要步骤
(1)输入声音信号经过一个“时间-频率多相滤波器组” 变换到频域里的多个子带中。
(2)输入声音信号同时经过“心理声学模型(计算掩蔽 特性)”,该模型计算以频率为自变量的噪声掩蔽阈值 (masking threshold),查看输入信号和子带中的信 号以确定每个子带里的信号能量与掩蔽阈值的比率。
60dB,1KHz声音的掩蔽区域
听阈
13
频域掩蔽
要想让2000Hz的纯音也听不到,则需要把它降到 比1000Hz的纯音低45dB。
一般弱纯音离强纯音越近就越容易被掩蔽。
45
14
不同频率段的掩蔽曲线
下图的一组曲线分别表示频率为250Hz、1kHz、4kHz和 8kHz纯音的掩蔽效应,它们的声强均为60dB。
1
大纲
听觉系统感知特性 MPEG-1 Audio MPEG-2 Audio MPEG-4 Audio
2
声音编码
波形声音压缩编码(如ADPCM)和参数编码(如LPC) 分别依据波形本身的相关性和人的发音器官特性 进行编码
感知声音编码(perceptual audio coding):对音 源性质没有作任何假设,而是利用人耳的听觉特 性对声音进行压缩。去除声音信号本身的相关性 和人耳不可感知的部分。
具体思想是首先把时域中的声音数据变换到频域,对 频域内的子带分量分别进行量化和编码,根据心理声 学模型确定样本的精度,从而达到压缩数据量的目的。
27
MPEG量化
MPEG声音数据压缩的基础是量化。
实验表明,采样频率为48 kHz、样本精度为16比特 的立体声音数据压缩到256 kb/s时,即在6:1的压 缩率下,即使是专业测试员也很难分辨出是原始声音 还是编码压缩后的声音。