第三讲音频压缩编码
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三讲音频压缩编码
•音频压缩编码基本原理
•MPEG-1 音频压缩算法及标准
•MPEG-2 Audio
•MPEG-4 Audio
•AC-3音频编码
1
1
中国传媒大学
一、音频压缩编码基本原理•1、什么是音频信号?
•通常将人耳可以听到的频率在20Hz到
20KHz的声波称为声音信号,声音振动被拾
音器转换成电信号称为音频信号。
•人的发音器官发出的声音频段在80Hz到
3400Hz之间;
•人说话的信号频率在300Hz到3000Hz,将该
频段的信号称为语音信号。
2
2
中国传媒大学
一、音频压缩编码基本原理
2、音频压缩的可能性
(1)声音信号中的“冗余”
频域:非均匀功率密度谱,低频能量高,高频能量低。
时域:信息冗余度主要表现在幅度非均匀分布,即不
同幅度的样值出现的概率不同,小幅度的样值比大
幅度样值出现的概率高。
3
3
中国传媒大学
一、音频压缩编码基本原理
2、音频压缩的可能性
(2)人耳的听觉特性,声音中存在与听觉无关的
“不相关”部分。
对于人耳感觉不到的不相关部分不编码、不传送,以达到数据压缩的目的。
——利用了人耳听觉的心理声学特性。
声音主观感受——响度、音调、音色;
声音客观特性——振幅、频率、频谱特性;
4
4
中国传媒大学
https:///watch?v=qNf9nzvnd1k
示例视频——
二、人类听觉系统的感知特性
5
5
中国传媒大学
二、人类听觉系统的感知特性
听阈-频率曲线
两个声音响度级
相同,但强度不
一定相同,还与
频率有关;
声压级越高,等
响度曲线趋于平
坦;
人耳对3~4KHz
的声音感觉最灵
敏;
6
6
中国传媒大学
人耳的掩蔽效应
•一个较弱的声音的听觉感受被另一个较强
的声音影响的现象称为人耳的听觉掩蔽效
应。听不到叫被掩蔽声,起掩蔽作用的叫
掩蔽声。
•被掩蔽音单独存在时的听阈分贝值,为绝
对听阈。即安静环境中能被人耳听到的纯
音最小值。也称静听域。
•频域掩蔽/时域掩蔽。
7
7
中国传媒大学
掩蔽效应演示——
Simultaneous masking.mp4
8
8
中国传媒大学
9中国传媒大学
91、频域掩蔽(纯音间的掩蔽)
一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽。https:///watch?v=2HDka1hYiCk
10中国传媒大学10Effect on threshold for 1 kHz masking tone
Li & Drew
10
频域掩蔽域随频率
变化曲线
音调音的掩蔽阈的宽度随频率而变化;
掩蔽曲线不对称,高频段一侧的曲线斜率缓些;
低频音容易对高频音产生掩蔽。
11
11
中国传媒大学
12中国传媒大学
12
频域掩蔽域随声压级变化曲线
演示
2、人耳模型——How ear works视频
13
13
中国传媒大学
演示
2、人耳模型——Cochelar animation
14
14
中国传媒大学
15中国传媒大学
15
2、人耳
模型
•声音频率发生转换
–声波冲击耳鼓(Eardrum)和连着的耳骨;
–耳鼓和耳骨将机械振动传递给耳蜗(Cochlea )
–耳蜗薄膜的椭圆窗沿基底膜长度方向引导行波;
–行波在薄膜的特定频率感应位置产生峰值响应;
–薄膜的特定频率感应位置为特定频带提供峰值响应;
•可以把耳蜗当成一组高度重叠的带通滤波器
人耳相当于一个滤波器组
•人类听觉系统大致等效于一个在0Hz到20KHz频率范围内由25个重叠的带通滤波器组成的滤波器组。
–人耳不能区分同一频带内同时发生的不同声音;
–人耳频带被称为临界频带(critical band);
–500Hz以下每个临界频带的带宽大约是100Hz,从500Hz起
,临界频带带宽线性增加。
–一个临界频带的带宽单位为1巴克(bark) 。
……
0Hz500Hz20000Hz f
16
16
中国传媒大学
17中国传媒大学
17
临界频带单位巴克(Bark )
• 对于任何掩蔽频率,巴克被定义为一个临界频带的宽度;
• 巴克单位的意义: 用巴克来衡量每个临界频带的宽度大致都是相同的。
用巴克单位表示的声音掩蔽
效应
18
18
中国传媒大学
•临界频带是指当某个纯音被以它为中心频率、且
具有一定带宽的连续噪声所掩蔽时,如果该纯音
刚好被听到时的功率等于这一频带内的噪声功率,
这个带宽为临界频带宽度。
•掩蔽效应在一定频率范围内不随带宽增大而改变,
直至超过某个频率值。
•通常认为从20Hz到16kHz有25个临界频带,单位
为bark。
•1bark =一个临界频带的宽度
•f< 500Hz 时1bark约为f/100;
• f >500Hz 时1bark约为9+4log2(f/1000);
•临界频带(Hz)约为24.7×(4.37F+1)
B
F为中心频率(KHz)
19
19
中国传媒大学