音频压缩技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3
引言:语音信号的时域冗余度
幅度非均匀分布
小幅度样本出现的频率高
样本之间的相关性
当取样频率为 8KHz 时,相邻样本间的相关系数大于 0.85;
周期之间的相关性
在特定瞬间,某段声音往往只是总频带 300~3400Hz 的少数几个 频率分量在起作用象某些振荡波一些,在周期与周期之间存在 一定的相关性
长时间功率谱呈现强烈的非平坦性,高频能量较低时域上相邻 样本相关
语音特有的短时功率谱密度
语音的短时功率谱,在某些频率出现峰值(该频率称为共振峰频 率),在另外一些频率上出现谷值。
出现共振峰的频率不止一个,最主要的是前两个,决定了不同的 语音特征
整个谱也随频率增加而递减 功率谱的细节以基音频率为基础,形成高次谐波结构
另外,人的声道形状及其变化规律是有限的按一定的 时间段(帧)来计算声道滤波器的参数或语音谱包络
5
引言:语音信号的短时功率谱
浊音
清音
6
内容提要
数字音频压缩技术
引言 听觉特性和声学基础 性能评价和现有标准 基于分析-综合的声码器 MPEG 音频压缩算法 AC3 音频压缩算法
7
人类的发音器官
基音之间的相关性
男声基音周期为 5~20ms,而典型的浊音持续 100ms
静止系数(话音间隙)
全双工话路的典型效率约为 40%(静止系数为 0.6)
长期相关性(long term correlation)
如几十秒内的相关性
4
引言:语音信号的频域冗余度
从频域考察语音信号的功率谱密度: 非均匀的长时间功率谱密度
内容提要
数字音频压缩技术
引言 听觉特性和声学基础 性能评价和现有标准 基于分析-综合的声码器 MPEG 音频压缩算法 AC3 音频压缩算法
1
引言:数字化
数字化是趋势
信息量非常大,高传输带宽或存储容量 5.1 声道环绕立体声: 6×48KHz×16bits=4.608Mbit/s
人的发音器官由三个部分组成:
(1) 肺和气管产生气源;
(2) 喉和声带称为声门;
当肺部中的受压空气通过声门
(3) 由咽腔、口腔、鼻腔组成的声道
沿着声道发出时就产生了话音
(从声带延展到嘴,成人平均声道 长度为17cm)
声音的基音由声道的形状变化 (主要通过移动舌头)和移动 嘴唇控制。
强度(响度)通过改变从肺部 发出的气体的量改变。
不相关 (Irrelevance)
听觉不能感觉的那部分信号,它对声音信号的确定或音色和发音位置没 有贡献
不相关信号部分不传输 利用掩蔽效应来掩盖量化失真
人耳听觉特性
人耳分辨能力 人耳对不同频段声音的敏感程度不同,通常对低频比对高频更敏感 人耳对语音信号的相位不敏感 人耳掩蔽效应 Masking Effect …
动态 范围 48dB 84dB 84dB 96dB 96dB
减少代表原始声音信号的信息量
更好利用现有频率资源 便于计算机处理和存储 宽带网中高质量传输
2
引言:声音压缩编码理论基础
冗余(Redundance)
信号一部分可由另一部分重建或另外表达形式简单说明,称为信号有冗 余
去除冗余实现压缩编码 信号冗余是变化的,故不能产生恒定码流输出
+10
0
(dB)
-10
120dB SPL
听 -20 感 强 -30 度
-40
30dB SPL
-50 80dB SPL
-60
-70 20 40
100 200 400
1k 2k 4k 10k 20k 稳态简谐信号频率(Hz)
12
听觉特性:计权曲线
将不同强度的听觉频响典型曲线规范成计权曲线,用于模 拟听觉频响
140
120
(dB)
100
“ 痛阈曲线” 120 phon 100

80
80
由 场 60
60

压 级
40
40
20 闻阈曲线以下
20
听觉察觉不到
0
0
-20 20 40
“ 闻阈曲线” 100 200 400 1k 2k 4k
10k 20k
稳态简谐信号频率(Hz)
11
听觉特性:听觉频响
由等响曲线可以看出不同的声音强度,人的听觉频响不同!
听感强度 (听感强度均匀增长)
5 4 3 2 1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
声压
(帕斯卡)
听感强度 (听感强度均匀增长)
5 4 3 2 1
94
声压级
100
106
112
118
(分贝)
10
听觉特性:对不同频率的响应
人对不同频率的声音感受强度不同,引出等响曲线和响度 级 ( phon,方值 )参量。
鼻腔通道
声道 舌头
嘴唇
声带
人的声音变化很慢,肺的操作 很慢,声道的形状变化很慢, 所以语音的基音和强度变化也 很慢。
表现在相邻样本间很相似,即 使是帧(20ms)也是强相关的 。这种相关性正是语音压缩的 基础。
Fra Baidu bibliotek

8
人类的收音器官
人的收音器官:
外耳接受外界的声音,并沿着耳道引起鼓膜震动,中耳鼓膜的震 动引起锤骨、镫骨和砧骨三块小骨相震动,将声音传到内耳,内 耳可产生神经冲动,冲动沿听神经转为神经能,这样声音的信息 就传到了大脑。
+10 C计权
0
(dB)-10 B计权
传 -20 输 响 -30 应
-40
A计权
-50
-60
-70 20 40
100 200 400
1k 2k 4k 10k 20k 稳态简谐信号频率(Hz)
13
听觉特性:掩蔽效应(1)
掩蔽效应
掩蔽效应: 一个声音的 存在掩蔽了另一个声音 的存在
掩蔽效应是一个较为复 杂的心理和生理现像
电话话音 宽带话音 中质量声音 高质量声音 环绕声音
频率范围 (Hz)
300~3400 50~7000 10~11000 10~22000 10~22000
取样频率 (Khz) 8 16 24
48 (32,44.1) 48 (32,44.1)
每样值 比特数
8 8 16 16 16
码率 (Kb/s)
64 128 384 768 4608
一般情况下,音量达 100dB 时,时间较长可造成不可恢复性听力 损伤;当音量高达110分贝时,足以使内耳毛细胞死亡,严重者会 造成听力丧失。实际上,任何高于85分贝的声音都能造成听力损 伤,每天8个小时90分贝,足以造成逐步和不可逆转的听力损伤
9
听觉特性:对不同强度的感觉
人对声音强度的生理感觉强弱与声音信号强度大体成对数 关系,从而引出声压级、声强级概念
相关文档
最新文档