音频压缩编码原理及标准
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如果在一频带内噪声的功率等于该纯音的功率,且这时, 纯音刚好能被听到(临界状态),此纯音附近的窄带噪 声带宽的宽度便称为临界带宽
通常认为20Hz~20KHz内有24个临界频带
12
窄带噪声的掩蔽效应要明显于纯音
声压级较低时,掩蔽仅局限于中心频率附近较窄的频率范围
随着声压级的提高,掩蔽区的频率范围加宽
变换编码:变换到频域,根据心理声学模型对变换系数 进行量化和编码
22
首先用一组带通滤波器把输入的音频信号分成若干个连 续的子带,然后对每个子带中的音频信号单独编码,在 接收端将各子带单独译码,然后组合、还原成音频信号。
对每个子带的采样值分配不同的比特数。低频分配较多 量化比特,高频分配较少量化比特。利用声音信号的频 谱特点及人耳的感知模型。
分类方法一: 时域编码
利用声音信号在时间域内幅度变化经PAM后形成的样本 值,对不同样本值实现二进制码替代,从而形成数据码 流
频域编码
将时域中的声音信号进行频率变换,结合声音的相关性 及人的感知,选取量化比特数进行编码
统计编码
依据各个信号幅值出现的概率不同进行概率Байду номын сангаас配编码
18
音频压缩编码的方法
巨大的数据量给存储和传输带来的压力
CD唱片 Fs=44.1KHz 量化精度 数码率? 1.41Mbit/s 1S信号所需存储空间? 176.4KB
16bit
双声道
4
数字音频信号中存在着大量冗余 频域冗余:
1. 低频成分比高频成分多 2. 语音信号的共振峰 时域冗余: 1. 小幅度样本比大幅度样值出现的概率大。 2. 相邻样值间的相关性 3. 信号周期的相关性 4. 长时自相关 5. 话音间隙冗余 听觉冗余: 利用人耳的感知特性,将听不到的信号压缩掉。
1
音频压缩编码的基本原理 MPEG-1音频压缩编码标准 杜比AC-3音频压缩算法 MPEG-2音频压缩编码标准 MPEG-4音频压缩编码标准
2
按照对声音质量的要求不同以及使用频带的宽窄 ,将音频信号分为以下4类:
窄带语音:又称电话频带语音,300-3400Hz,用 于各类电话通信,数字化时采样频率常用8kHz。
10
人耳听力系统
空气声感受器 外耳
带通滤波器
空气声转换为 骨导声
(能量处理)
结构声能转换 为液体声,机 械振动转换为
神经脉冲
中耳
内耳
拾音器
放大器
频率分析与信 号处理器
对某频率的声音信号的拾取会采用中心频率接近此频率
的带通滤波器,因此,只有通过该带通滤波器的那部分
噪声才会对该信号产生影响
11
临界带宽——描述人耳的滤波特性
19
时域编码
结合声音幅度的出现概率来选取量化比特数进行 编码,在满足一定的量化噪声下压缩数码率,从 而降低比特率。
20
频域编码
利用人耳听觉的声掩蔽特性,在满足一定量化噪 声下来压缩码率
采用滤波和变化,在频域内将其能量较小的分量 忽略,从而实现降低比特率
21
子带编码:通过带通滤波器分成许多频带子带,分析每 个子带取样的能量,依据心理声学模型来编码
23
24
声音信号从时域变为频域,用频率分量形式表示 原信号,再对其频谱系数进行量化编码
量化编码过程中,利用心理声学模型,对频谱系 数进行优化,来实现对音频数据进行有效的压缩
时频变化的方法:离散余弦变换DCT 、改进的离 散余弦变换MDCT
声音信号的频率范围? 20Hz-20KHz
声音频谱的特点: 高频段快速下降,高幅值大部分集中在中频段,有的延 伸到低频段
电平分布特点: 声音信号的电平存在冗余
6
7
一个较弱的声音(被掩蔽音)的听觉感受被 另一个较强的声音(掩蔽音)影响
掩蔽量
掩蔽阈 听阈
8
掩蔽量与掩蔽声具有的声压级成正比
掩蔽声的声压级越高、掩蔽的频率范围随之加宽
被掩蔽声的频率越接近掩蔽声,掩蔽效应越显著、掩蔽 量增大
掩蔽声对于低于掩蔽声频率的声音掩蔽效果弱,对于高
于掩蔽声频率的声音掩蔽效果显著。
9
利用声音的掩蔽效应,可以用有用的信号去掩蔽 无用的信号
只需把无用信号的声压级降至掩蔽域之下即可, 无需消除无用分量
的关系。
心理声学模型中一个基本概念:
听觉系统中存在一个听觉阈值电平,低于这个电平的音频信号 就听不到,因此就可以把这部分信号忽略掉,无需对它进行编 码,而不影响听觉效果
心理声学模型要完成掩蔽阈值的估算,输出信号-掩蔽比 率(SMR)
15
感知音频编码(MPEG)原理
利用人耳的听觉感知特性,使用心理声学模型,将人耳 不能感知的声音成分去掉,只保留人耳能感知的声音成 分。
分类方法二: 波形编码
对音频信号的时域或频域波形采样值进行编码。 主要利用音频样值的幅度分布规律和相邻样值间的相关性 进行压缩。
参数编码
根据声音形成机理的分析,以重建语音信号具有足够可 懂度的原则上,通过建立语音信号的产生模型,提取代 表语音信号特征的参数进行编码
混合编码
上述两种编码的混合
宽带语音:用于电话会议,视频会议,507000Hz ,数字化时采样频率常用16kHz。
数字音频广播:20-15000Hz,数字化时采样频率 常用32kHz。
高保真立体声音频信号:20-20KHz,用于VCD、 DVD、CD等,数字化时采样频率常用44.1kHz 或 48kHz。
3
3.1 音频压缩编码的基本原理
不为追求最小的量化噪声,只要量化噪声不被人耳感知 即可。
16
音频编解码器的性能指标: 重建的音频质量、数码率、复杂度和时延。 研究 的基本问题是: 更好的音频质量,并尽可能小的编解码时延
和算法复杂度;降低数码率。 重建音频质量的评价方法有客观评价和主观
评价。
17
音频压缩编码的方法
随着声压级的提高,对高于中心频率的声音掩蔽作用加强
13
时域掩蔽
前向掩蔽:20ms,由于人耳的积累效应,被掩蔽声尚未 被听到,掩蔽声已经出现,其掩蔽效果很差
后向掩蔽:100ms,由于人耳的存储效应,掩蔽声虽已 消失,掩蔽效应仍然存在。
14
生理声学——研究听觉器官的构造和听音机理 心理声学——研究听觉心理,研究主观量与客观 量之间
通常认为20Hz~20KHz内有24个临界频带
12
窄带噪声的掩蔽效应要明显于纯音
声压级较低时,掩蔽仅局限于中心频率附近较窄的频率范围
随着声压级的提高,掩蔽区的频率范围加宽
变换编码:变换到频域,根据心理声学模型对变换系数 进行量化和编码
22
首先用一组带通滤波器把输入的音频信号分成若干个连 续的子带,然后对每个子带中的音频信号单独编码,在 接收端将各子带单独译码,然后组合、还原成音频信号。
对每个子带的采样值分配不同的比特数。低频分配较多 量化比特,高频分配较少量化比特。利用声音信号的频 谱特点及人耳的感知模型。
分类方法一: 时域编码
利用声音信号在时间域内幅度变化经PAM后形成的样本 值,对不同样本值实现二进制码替代,从而形成数据码 流
频域编码
将时域中的声音信号进行频率变换,结合声音的相关性 及人的感知,选取量化比特数进行编码
统计编码
依据各个信号幅值出现的概率不同进行概率Байду номын сангаас配编码
18
音频压缩编码的方法
巨大的数据量给存储和传输带来的压力
CD唱片 Fs=44.1KHz 量化精度 数码率? 1.41Mbit/s 1S信号所需存储空间? 176.4KB
16bit
双声道
4
数字音频信号中存在着大量冗余 频域冗余:
1. 低频成分比高频成分多 2. 语音信号的共振峰 时域冗余: 1. 小幅度样本比大幅度样值出现的概率大。 2. 相邻样值间的相关性 3. 信号周期的相关性 4. 长时自相关 5. 话音间隙冗余 听觉冗余: 利用人耳的感知特性,将听不到的信号压缩掉。
1
音频压缩编码的基本原理 MPEG-1音频压缩编码标准 杜比AC-3音频压缩算法 MPEG-2音频压缩编码标准 MPEG-4音频压缩编码标准
2
按照对声音质量的要求不同以及使用频带的宽窄 ,将音频信号分为以下4类:
窄带语音:又称电话频带语音,300-3400Hz,用 于各类电话通信,数字化时采样频率常用8kHz。
10
人耳听力系统
空气声感受器 外耳
带通滤波器
空气声转换为 骨导声
(能量处理)
结构声能转换 为液体声,机 械振动转换为
神经脉冲
中耳
内耳
拾音器
放大器
频率分析与信 号处理器
对某频率的声音信号的拾取会采用中心频率接近此频率
的带通滤波器,因此,只有通过该带通滤波器的那部分
噪声才会对该信号产生影响
11
临界带宽——描述人耳的滤波特性
19
时域编码
结合声音幅度的出现概率来选取量化比特数进行 编码,在满足一定的量化噪声下压缩数码率,从 而降低比特率。
20
频域编码
利用人耳听觉的声掩蔽特性,在满足一定量化噪 声下来压缩码率
采用滤波和变化,在频域内将其能量较小的分量 忽略,从而实现降低比特率
21
子带编码:通过带通滤波器分成许多频带子带,分析每 个子带取样的能量,依据心理声学模型来编码
23
24
声音信号从时域变为频域,用频率分量形式表示 原信号,再对其频谱系数进行量化编码
量化编码过程中,利用心理声学模型,对频谱系 数进行优化,来实现对音频数据进行有效的压缩
时频变化的方法:离散余弦变换DCT 、改进的离 散余弦变换MDCT
声音信号的频率范围? 20Hz-20KHz
声音频谱的特点: 高频段快速下降,高幅值大部分集中在中频段,有的延 伸到低频段
电平分布特点: 声音信号的电平存在冗余
6
7
一个较弱的声音(被掩蔽音)的听觉感受被 另一个较强的声音(掩蔽音)影响
掩蔽量
掩蔽阈 听阈
8
掩蔽量与掩蔽声具有的声压级成正比
掩蔽声的声压级越高、掩蔽的频率范围随之加宽
被掩蔽声的频率越接近掩蔽声,掩蔽效应越显著、掩蔽 量增大
掩蔽声对于低于掩蔽声频率的声音掩蔽效果弱,对于高
于掩蔽声频率的声音掩蔽效果显著。
9
利用声音的掩蔽效应,可以用有用的信号去掩蔽 无用的信号
只需把无用信号的声压级降至掩蔽域之下即可, 无需消除无用分量
的关系。
心理声学模型中一个基本概念:
听觉系统中存在一个听觉阈值电平,低于这个电平的音频信号 就听不到,因此就可以把这部分信号忽略掉,无需对它进行编 码,而不影响听觉效果
心理声学模型要完成掩蔽阈值的估算,输出信号-掩蔽比 率(SMR)
15
感知音频编码(MPEG)原理
利用人耳的听觉感知特性,使用心理声学模型,将人耳 不能感知的声音成分去掉,只保留人耳能感知的声音成 分。
分类方法二: 波形编码
对音频信号的时域或频域波形采样值进行编码。 主要利用音频样值的幅度分布规律和相邻样值间的相关性 进行压缩。
参数编码
根据声音形成机理的分析,以重建语音信号具有足够可 懂度的原则上,通过建立语音信号的产生模型,提取代 表语音信号特征的参数进行编码
混合编码
上述两种编码的混合
宽带语音:用于电话会议,视频会议,507000Hz ,数字化时采样频率常用16kHz。
数字音频广播:20-15000Hz,数字化时采样频率 常用32kHz。
高保真立体声音频信号:20-20KHz,用于VCD、 DVD、CD等,数字化时采样频率常用44.1kHz 或 48kHz。
3
3.1 音频压缩编码的基本原理
不为追求最小的量化噪声,只要量化噪声不被人耳感知 即可。
16
音频编解码器的性能指标: 重建的音频质量、数码率、复杂度和时延。 研究 的基本问题是: 更好的音频质量,并尽可能小的编解码时延
和算法复杂度;降低数码率。 重建音频质量的评价方法有客观评价和主观
评价。
17
音频压缩编码的方法
随着声压级的提高,对高于中心频率的声音掩蔽作用加强
13
时域掩蔽
前向掩蔽:20ms,由于人耳的积累效应,被掩蔽声尚未 被听到,掩蔽声已经出现,其掩蔽效果很差
后向掩蔽:100ms,由于人耳的存储效应,掩蔽声虽已 消失,掩蔽效应仍然存在。
14
生理声学——研究听觉器官的构造和听音机理 心理声学——研究听觉心理,研究主观量与客观 量之间