第三讲音频压缩编码

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三讲音频压缩编码

•音频压缩编码基本原理

•MPEG-1 音频压缩算法及标准

•MPEG-2 Audio

•MPEG-4 Audio

•AC-3音频编码

1

1

中国传媒大学

一、音频压缩编码基本原理•1、什么是音频信号?

•通常将人耳可以听到的频率在20Hz到

20KHz的声波称为声音信号,声音振动被拾

音器转换成电信号称为音频信号。

•人的发音器官发出的声音频段在80Hz到

3400Hz之间;

•人说话的信号频率在300Hz到3000Hz,将该

频段的信号称为语音信号。

2

2

中国传媒大学

一、音频压缩编码基本原理

2、音频压缩的可能性

(1)声音信号中的“冗余”

频域:非均匀功率密度谱,低频能量高,高频能量低。

时域:信息冗余度主要表现在幅度非均匀分布,即不

同幅度的样值出现的概率不同,小幅度的样值比大

幅度样值出现的概率高。

3

3

中国传媒大学

一、音频压缩编码基本原理

2、音频压缩的可能性

(2)人耳的听觉特性,声音中存在与听觉无关的

“不相关”部分。

对于人耳感觉不到的不相关部分不编码、不传送,以达到数据压缩的目的。

——利用了人耳听觉的心理声学特性。

声音主观感受——响度、音调、音色;

声音客观特性——振幅、频率、频谱特性;

4

4

中国传媒大学

https:///watch?v=qNf9nzvnd1k

示例视频——

二、人类听觉系统的感知特性

5

5

中国传媒大学

二、人类听觉系统的感知特性

听阈-频率曲线

两个声音响度级

相同,但强度不

一定相同,还与

频率有关;

声压级越高,等

响度曲线趋于平

坦;

人耳对3~4KHz

的声音感觉最灵

敏;

6

6

中国传媒大学

人耳的掩蔽效应

•一个较弱的声音的听觉感受被另一个较强

的声音影响的现象称为人耳的听觉掩蔽效

应。听不到叫被掩蔽声,起掩蔽作用的叫

掩蔽声。

•被掩蔽音单独存在时的听阈分贝值,为绝

对听阈。即安静环境中能被人耳听到的纯

音最小值。也称静听域。

•频域掩蔽/时域掩蔽。

7

7

中国传媒大学

掩蔽效应演示——

Simultaneous masking.mp4

8

8

中国传媒大学

9中国传媒大学

91、频域掩蔽(纯音间的掩蔽)

一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽。https:///watch?v=2HDka1hYiCk

10中国传媒大学10Effect on threshold for 1 kHz masking tone

Li & Drew

10

频域掩蔽域随频率

变化曲线

音调音的掩蔽阈的宽度随频率而变化;

掩蔽曲线不对称,高频段一侧的曲线斜率缓些;

低频音容易对高频音产生掩蔽。

11

11

中国传媒大学

12中国传媒大学

12

频域掩蔽域随声压级变化曲线

演示

2、人耳模型——How ear works视频

13

13

中国传媒大学

演示

2、人耳模型——Cochelar animation

14

14

中国传媒大学

15中国传媒大学

15

2、人耳

模型

•声音频率发生转换

–声波冲击耳鼓(Eardrum)和连着的耳骨;

–耳鼓和耳骨将机械振动传递给耳蜗(Cochlea )

–耳蜗薄膜的椭圆窗沿基底膜长度方向引导行波;

–行波在薄膜的特定频率感应位置产生峰值响应;

–薄膜的特定频率感应位置为特定频带提供峰值响应;

•可以把耳蜗当成一组高度重叠的带通滤波器

人耳相当于一个滤波器组

•人类听觉系统大致等效于一个在0Hz到20KHz频率范围内由25个重叠的带通滤波器组成的滤波器组。

–人耳不能区分同一频带内同时发生的不同声音;

–人耳频带被称为临界频带(critical band);

–500Hz以下每个临界频带的带宽大约是100Hz,从500Hz起

,临界频带带宽线性增加。

–一个临界频带的带宽单位为1巴克(bark) 。

……

0Hz500Hz20000Hz f

16

16

中国传媒大学

17中国传媒大学

17

临界频带单位巴克(Bark )

• 对于任何掩蔽频率,巴克被定义为一个临界频带的宽度;

• 巴克单位的意义: 用巴克来衡量每个临界频带的宽度大致都是相同的。

用巴克单位表示的声音掩蔽

效应

18

18

中国传媒大学

•临界频带是指当某个纯音被以它为中心频率、且

具有一定带宽的连续噪声所掩蔽时,如果该纯音

刚好被听到时的功率等于这一频带内的噪声功率,

这个带宽为临界频带宽度。

•掩蔽效应在一定频率范围内不随带宽增大而改变,

直至超过某个频率值。

•通常认为从20Hz到16kHz有25个临界频带,单位

为bark。

•1bark =一个临界频带的宽度

•f< 500Hz 时1bark约为f/100;

• f >500Hz 时1bark约为9+4log2(f/1000);

•临界频带(Hz)约为24.7×(4.37F+1)

B

F为中心频率(KHz)

19

19

中国传媒大学

相关文档
最新文档