音频压缩技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
12
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
听觉特性:计权曲线
将不同强度的听觉频响典型曲线规范成计权曲线,用于模 拟听觉频响
+10 0 C计权
(dB) -10 B计权
传 输 响 应 -20 -30 -40 -50 -60 -70 20 A计权
人耳听觉特性
人耳分辨能力 人耳对不同频段声音的敏感程度不同,通常对低频比对高频更敏感 人耳对语音信号的相位不敏感 人耳掩蔽效应 Masking Effect …
Men Aidong, Multimedia Center, SICE, BUPT
3
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
后向掩蔽: 一个声音影响了在时间上先 于它的声音的听觉能力 同时掩蔽:在一定时间内一个声音对另 一个声音发生了掩蔽效应 前向掩蔽:一个已经结束的声音,对 另一个声音的听觉能力还起着影响 利用时域掩蔽效应,将时间上相继的一 些取样值并归成块,降低码率。 三种时域掩蔽效应的时间关系
dB 50 40 30 20 10 0
冗余(Redundance)
信号一部分可由另一部分重建或另外表达形式简单说明,称为信号有冗 余 去除冗余实现压缩编码 信号冗余是变化的,故不能产生恒定码流输出
不相关 (Irrelevance)
听觉不能感觉的那部分信号,它对声音信号的确定或音色和发音位置没 有贡献 不相关信号部分不传输 利用掩蔽效应来掩盖量化失真
5 4 3 2 1
声压
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 (帕斯卡)
听感强度 (听感强度均匀增长)
5 4 3 2 1
声压级
94 100 106 112 118 (分贝)
Men Aidong, Multimedia CenΒιβλιοθήκη Baiduer, SICE, BUPT
10
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
8
鼻腔通道
声道 舌头 嘴唇
声带 肺
Men Aidong, Multimedia Center, SICE, BUPT
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
人类的收音器官
人的收音器官:
外耳接受外界的声音,并沿着耳道引起鼓膜震动,中耳鼓膜的震 动引起锤骨、镫骨和砧骨三块小骨相震动,将声音传到内耳,内 耳可产生神经冲动,冲动沿听神经转为神经能,这样声音的信息 就传到了大脑。 一般情况下,音量达 100dB 时,时间较长可造成不可恢复性听力 损伤;当音量高达110分贝时,足以使内耳毛细胞死亡,严重者会 造成听力丧失。实际上,任何高于85分贝的声音都能造成听力损 伤,每天8个小时90分贝,足以造成逐步和不可逆转的听力损伤
听觉特性:对不同频率的响应
人对不同频率的声音感受强度不同,引出等响曲线和响度 级 ( phon,方值 )参量。
140 “ 痛阈曲线 ” 120 120 phon 100 80 60 40 闻阈曲线以下 听觉察觉不到 20 0 “ 闻阈曲线 ” -20 20 40 100 200 400 1k 2k 4k 10k 20k
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
内容提要
数字音频压缩技术
引言 听觉特性和声学基础 性能评价和现有标准 基于分析-综合的声码器 MPEG 音频压缩算法 AC3 音频压缩算法
Men Aidong, Multimedia Center, SICE, BUPT
另外,人的声道形状及其变化规律是有限的按一定的 时间段(帧)来计算声道滤波器的参数或语音谱包络
Men Aidong, Multimedia Center, SICE, BUPT
5
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
引言:语音信号的短时功率谱
+10 120dB SPL 0
(dB) -10
听 感 强 度 -20 -30 30dB SPL -40 -50 -60 -70 20 80dB SPL
40
100 200
400
1k
2k
4k
10k
20k
稳态简谐信号频率(Hz)
Men Aidong, Multimedia Center, SICE, BUPT
浊音
清音
Men Aidong, Multimedia Center, SICE, BUPT
6
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
内容提要
数字音频压缩技术
引言 听觉特性和声学基础 性能评价和现有标准 基于分析-综合的声码器 MPEG 音频压缩算法 AC3 音频压缩算法
基音之间的相关性
男声基音周期为 5~20ms,而典型的浊音持续 100ms
静止系数(话音间隙)
全双工话路的典型效率约为 40%(静止系数为 0.6)
长期相关性(long term correlation)
如几十秒内的相关性
Men Aidong, Multimedia Center, SICE, BUPT
40
100 200
400
1k
2k
4k
10k
20k
稳态简谐信号频率(Hz)
Men Aidong, Multimedia Center, SICE, BUPT
13
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
听觉特性:掩蔽效应(1)
掩蔽效应
掩蔽效应: 一个声音的 存在掩蔽了另一个声音 的存在 掩蔽效应是一个较为复 杂的心理和生理现像 掩蔽程度与两个声音的 相关性有密切联系 分为频域效应和时域掩 蔽效应 准稳态(短时稳态)信号 特性,利用频域掩蔽效 应 对于声音的时域结构特 性,利用时域掩蔽特性
当肺部中的受压空气通过声门 沿着声道发出时就产生了话音 声音的基音由声道的形状变化 (主要通过移动舌头)和移动 嘴唇控制。 强度(响度)通过改变从肺部 发出的气体的量改变。 人的声音变化很慢,肺的操作 很慢,声道的形状变化很慢, 所以语音的基音和强度变化也 很慢。 表现在相邻样本间很相似,即 使是帧(20ms)也是强相关的 。这种相关性正是语音压缩的 基础。
Men Aidong, Multimedia Center, SICE, BUPT
15
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
听觉特性:掩蔽效应(3)
时域掩蔽效应 (Temporal masking effect):在时间
上相邻的声音之间存在的掩蔽现象
Men Aidong, Multimedia Center, SICE, BUPT
7
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
人类的发音器官
人的发音器官由三个部分组成:
(1) 肺和气管产生气源; (2) 喉和声带称为声门; (3) 由咽腔、口腔、鼻腔组成的声道 (从声带延展到嘴,成人平均声道 长度为17cm)
静音门限和掩蔽门限 (灰色区域中的声音听不到)
Men Aidong, Multimedia Center, SICE, BUPT
14
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
听觉特性:掩蔽效应(2)
人的听觉生理掩蔽效应,声音听起来才不显得混乱!
后向
同时掩盖
前向掩盖
-50
0
50
100
150
200
250
300
350
掩 盖 时 间 (ms)
Men Aidong, Multimedia Center, SICE, BUPT
16
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
听觉特性:掩蔽效应(4)
人的听觉生理延时效应,声信号在时域上的听觉融合!
<17ms
情况一
<17ms
情况二
t
t
t
t
声 信 号 1
声 信 号 2
声 信 号 1
声 信 号 1
声 信 号 2
声 信 号 2
声信号
听觉反应
声信号
听觉反应
较弱的延迟声听不到!
较弱的先到声听不到!
听不到声信号的数码当然可以舍弃,以压缩码率!
Men Aidong, Multimedia Center, SICE, BUPT
17
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
听觉特性:掩蔽效应(5)
频域掩蔽(Frequeney domain masking effect)
频率范围 (Hz) 300~3400 50~7000 10~11000 10~22000 10~22000
取样频率 (Khz) 8 16 24 48 (32,44.1) 48 (32,44.1)
每样值 比特数 8 8 16 16 16
码率 (Kb/s) 64 128 384 768 4608
动态 范围 48dB 84dB 84dB 96dB 96dB
11
(dB) 100
自 由 场 声 压 级 80 60 40 20 0
稳态简谐信号频率(Hz)
Men Aidong, Multimedia Center, SICE, BUPT
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
听觉特性:听觉频响
由等响曲线可以看出不同的声音强度,人的听觉频响不同!
减少代表原始声音信号的信息量
更好利用现有频率资源 便于计算机处理和存储 宽带网中高质量传输
Men Aidong, Multimedia Center, SICE, BUPT
2
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
引言:声音压缩编码理论基础
引言:语音信号的时域冗余度
幅度非均匀分布
小幅度样本出现的频率高
样本之间的相关性
当取样频率为 8KHz 时,相邻样本间的相关系数大于 0.85;
周期之间的相关性
在特定瞬间,某段声音往往只是总频带 300~3400Hz 的少数几个 频率分量在起作用象某些振荡波一些,在周期与周期之间存在 一定的相关性
80 (dB) 60 自 由 场 声 压 级 40 20 0 -20 20 40 100 200 400
听不见的弱信号
一个较强的信号
抬升的闻阈曲线 原来的 闻阈曲线
1k
2k
4k
10k
20k
稳态简谐信号频率(Hz)
较弱的听不见的声音信息就可以舍弃!而不必再进行编 码,这是数字声码压缩的生理基础之一。
4
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
引言:语音信号的频域冗余度
从频域考察语音信号的功率谱密度: 非均匀的长时间功率谱密度
长时间功率谱呈现强烈的非平坦性,高频能量较低时域上相邻 样本相关
语音特有的短时功率谱密度
语音的短时功率谱,在某些频率出现峰值(该频率称为共振峰频 率),在另外一些频率上出现谷值。 出现共振峰的频率不止一个,最主要的是前两个,决定了不同的 语音特征 整个谱也随频率增加而递减 功率谱的细节以基音频率为基础,形成高次谐波结构
1
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
引言:数字化
数字化是趋势
信息量非常大,高传输带宽或存储容量 5.1 声道环绕立体声: 6×48KHz×16bits=4.608Mbit/s
电话话音 宽带话音 中质量声音 高质量声音 环绕声音
Men Aidong, Multimedia Center, SICE, BUPT
9
北 京 邮 电 大 学 信 息 与 通 信 工 程 学 院 多 媒 体 技 术 中 心 门 爱 东
听觉特性:对不同强度的感觉
人对声音强度的生理感觉强弱与声音信号强度大体成对数 关系,从而引出声压级、声强级概念
听感强度 (听感强度均匀增长)