第三章 音频信息处理技术
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2016/5/11
17
第3章 音频信息处理技术
非均匀量化
对y进行均匀量化,相当于对x进行非均匀量化,可提
高小信号x的量化信噪比
2016/5/11
18
第3章 音频信息处理技术
5 4 3 2 1 0
输出 压缩曲线
5 4 3 2 1 t 0
输出 扩张曲线 A
线性变换 输入 A B t
A′
B′
B 输入 A′ B′ t t
2016/5/11 5
第3章 音频信息处理技术
3.1 基 本 概 念
1.听觉掩蔽 2.频谱掩蔽 3.瞬态掩蔽
2016/5/11
6
第3章 音频信息处理技术
2016/5/11
7
第3章 音频信息处理技术
(1) 失真的主观度量。
表3.1-1 5分制平均观点分举例
平均观点分 5 4 3 2 1 质量等级 极好 好 一般 差 极差 主观感觉 觉察不到 觉察得到,但不难听 有点难听 难听,但不反感 难以忍受
f (t)
y (t)
k (t)
0
t
0
t
0
t
抽样概念示意图
2016/5/11
14
第3章 音频信息处理技术
采样频率的选择与声音信号本身的频率 之间有关,根据奈奎斯特(Nyquist)理 论,只有采样频率高于声音信号最高频 率的两倍时,才能把数字信号表示的声 音还原为原来的声音。 按均匀的时间间隔T进行的。 常见的音频信号的频率范围如图3.2-2所 示
20Hz ~ 15,000Hz
10Hz ~ 40,000Hz
3
教学进程
高
级
音
响
第3章 音频信息处理技术
分贝
N = 10lg(A1/A0) A0是基准量(或参考量),A是被量度量。 所得到的是比值,它代表被量度量比基准量 高出多少“级”。 如果以最高电平为参考量,那么得到的分贝 数大多为负值,且0dB近似于系统能处理的最 高电平。
2 1 0
Ts 2T s 3T s 4Ts 5Ts 6Ts 7Ts 8Ts 9T s 10Ts t
(c) P CM 量化
d(t) 000 010 011 100 101 110 110 100 010 001 t
(b) P CM 抽样
(d) P CM 量化
脉冲编码调制示意图
2016/5/11 28
第3章 音频信息处理技术
0
输出码
图3.3-2 增量调制编码过程示意图
2016/5/11 36
第3章 音频信息处理技术
在图 3.3-2 中, 纵坐标表示输入的模拟 电压, 横坐标表示随时间增加而顺序产 生的 DM 码。图中虚线表示输入的音频模 拟信号。 “斜率过载” “散粒噪声”
2016/5/11
37
第3章 音频信息处理技术
3.2 音频信号数字化
音频信息处理主要包括音频信号的数字化和 音频信息的压缩两大技术
图3.2-1为音频信息处理结构框图。
2016/5/11
11
第3章 音频信息处理技术
音频信号数字化 模拟音 频信号 采 样 量 化 编 码 按不同应用目标 进行数字压缩
图3.2-1 音频信息处理框图
2016/5/11
2016/5/11
31
第3章 音频信息处理技术
v(t)
ቤተ መጻሕፍቲ ባይዱ
k (t)
量化器
m(t)
编码器
d (t)
p (t)
脉冲编码调制模型
2016/5/11 32
第3章 音频信息处理技术
3.3 音频信号压缩编码
(1) 波形编码 (2) 参数编码 (3) 混合编码
2016/5/11
33
第3章 音频信息处理技术
2016/5/11
29
第3章 音频信息处理技术
对m(t)用3位二进制码元进行自然编码就 得到图(d)的数字信号d(t),从而完成 了A/D转换,实现了脉冲编码调制。
2016/5/11
30
第3章 音频信息处理技术
从上述抽样、量化、编码的PCM过程中没 有发现明显的调制概念,那么为什么叫 脉冲编码调制呢? 调制的概念 载波调制和脉冲调制
2016/5/11
34
第3章 音频信息处理技术
脉 冲 发生 器 输入 信号
+
比较 器
y (t )
极性 判别
调制 器
信 道
- 译码 器
图3.3-1 增量调制的系统结构框图
2016/5/11 35
第3章 音频信息处理技术
u (模拟输入)
0 1 1 1 1 1 1 1 0 0 0 0 1 1 0 0 0 1 0 0 1
2016/5/11
15
第3章 音频信息处理技术
数字激光唱盘CD FM无线电广播 AM 无线电广播 电 话
10 20 50
2 00
3 40 0 7 k 1 5 k 2 0 k
频率 / Hz
图3.2-2 常见音频应用带宽示意图
2016/5/11 16
第3章 音频信息处理技术
(2) 量化:幅度离散化 均匀量化 量化噪声 非均匀量化 压缩扩张
2016/5/11
8
第3章 音频信息处理技术
(2) 失真的客观度量。 声音客观质量主要用信噪比(Signal to Noise Ratio , SNR )来度量。无论对于 任何音频产品,信噪比都是一个比较重 要的参数,它指音源产生最大不失真声 音信号强度的同时发出噪音强度之间的 比率,通常采用 S/N 表示。一般用分贝 ( dB )为单位,信噪比越高表示音频质 量越好。
12
第3章 音频信息处理技术
(1) 采样:时间上离散化
下图是一个抽样概念示意图,假设一个模拟 信号 f(t) 通过一个开关,则开关的输出与开 关的状态有关,当开关处于闭合状态,开关 的输出就是输入,即y(t)=f(t),若开关处在 断开位置,输出y(t)就为零。
2016/5/11
13
第3章 音频信息处理技术
2016/5/11 4
第3章 音频信息处理技术
19世纪爱迪生发明了留声机,人们才能用机械 的方法把各种声音记录在唱片上。 电声技术:传统的声音记录方式就是将模拟信 号直接记录下来,例如磁带录音和密纹唱片, 而能够播放和(或)记录这些软件的信号处理 设备,诸如电唱机、磁带录音机等,则称为模 拟音响设备。 音频媒体进行数字化处理。
3.3.1 增量调制 1.一般增量调制 增量调制也称△调制(delta modulation , DM),是一种比较简单且有数据压缩功能 的波形编码方法,是PCM编码的一种特例。 用一位二进制数实现编码, DM 编码系统 又称为“1位系统” 。 增量调制的系统结构框图如图3.3-1所示。
<20Hz
20~20,000Hz
>20,000Hz
男 声 女 电
性 性 话
语 语 语
音 音 音
100Hz ~ 9,000Hz 150Hz ~ 10,000Hz 200Hz ~ 3,400Hz 50Hz ~ 7,000Hz 频 带
源
种 类
宽
度
调 幅 广 播 ( AM)
调频广播(FM)
2016/5/11
(k 1) P (k ) (k 1) Q y(k ) y(k 1) y(k 2)
其他 (3.3-2)
2016/5/11
40
第3章 音频信息处理技术
3.3.2 自适应差分脉冲编码调制 1. 非均匀PCM(μ律压扩方法) 采用非均匀量化编码的实质在于减少表 示采样的位数,从而达到数据压缩的目 的。其基本思路是,当输入信号幅度小 时,采用较小的量化间隔;当输入信号 幅度大时,采用较大的量化间隔。
9
2016/5/11
第3章 音频信息处理技术
5. 声道 为了确定声源位置, 大脑要将每个耳朵 所听到声音的三个属性进行比较, 这三 个属性分别是: (1) 幅值(Amplitude) (2) 相位(Phase) (3) 时序(Timing)
2016/5/11
10
第3章 音频信息处理技术
(a) 压缩器输入输出示意图
(b) 扩张器输入输出示意图
压缩特性示意图
2016/5/11 19
第3章 音频信息处理技术
采样与量化过程示例
以图3.2-3所示的原始模拟波形为例进行采样和量化。 假设采样频率为 1000Hz ,即每 1/1000 s 采样一次,其 幅度被划分成0-9共10个量化等级,并将其采样的幅度值 取最接近 0-9 之间的一个数来表示,如图 3.2-3 所示,图 中每个矩形表示一次采样。 当 D/A 转换器重构原来信号时,得到图 3.2-4 中蓝色 线段所示的波形。
第3章 音频信息处理技术
第3章
音频信息处理技术
2016/5/11
1
第3章 音频信息处理技术
声音的概述
声音在本质上是一种机械振动 ,它通过空气 传播到人耳,对人耳刺激后使大脑产生一种 感觉。 声音三要素:音调、音色、响度 声音的频率范围
2016/5/11
2
第3章 音频信息处理技术 次声波 人耳可听域 超声波
2. 自适应增量调制(ADM) 基本方法:在检测到斜率过载时开始增 大量化阶Δ,而在输入信号的斜率减小 时降低量化阶Δ。 在ADM中,常用的规则有两种:一种是控 制可变因子 M ,使量化阶距在一定范围 内变化。对于每一个新的采样,其量化 阶距为其前面数值的 M 倍。而 M 的值则由 输入信号的变化率来决定。
2016/5/11
20
第3章 音频信息处理技术
图3.2-3 采样率为 1000 Hz、量化等级为 10的采样量化过程
2016/5/11
21
第3章 音频信息处理技术
图3.2-4 经过D/A转换器得到的信号波形有较大的失真
2016/5/11 22
第3章 音频信息处理技术
失真在采样过程中是不可避免的,如何减少失真呢? 可以直观地看出,将图3.2-3所示波形划分成更为细小的区 间,即采用更高的采样频率,同时,增加量化精度,得到 更高的量化等级 ,即可减少失真的程度。在图3.2-5中,采 样频率和量化等级均提高了一倍,分别为2000Hz和20个量 化等级;在图3.2-6中,采样频率和量化等级再提高了一倍, 分别达到4000Hz和40个量化等级。
2016/5/11
23
第3章 音频信息处理技术
图 3.2-5 采样率为2000 Hz、量化等级为20的采样量化过程
2016/5/11 24
第3章 音频信息处理技术
2016/5/11
图 3.2-6 采样率为4000 Hz、量化等级为40的采样量化过程 25
第3章 音频信息处理技术
(3) 编码:用二进制数来表示每个采样的量 化值 如果量化是均匀的, 又采用自然二进制数表 示, 这种编码方法就是脉冲编码调制 (Pulse Code Modulation, PCM)。
27
2016/5/11
第3章 音频信息处理技术
p(t) m(t)
6
0
5
Ts 2Ts 3Ts 4Ts 5Ts 6T s 7Ts 8Ts 9Ts 10Ts t
4 3
(a) 抽样脉冲
v (t) k (t) 6 5 4 3 2 1 0 Ts 2Ts 3Ts 4Ts 5Ts 6Ts 7Ts 8Ts 9T s 10Ts t
在图( c )中,对 k(t) 的取值进行量化 (即四舍五入),得到 m(t) 。则 m(t) 的 取 值 变 为 m(0)=0.0 , m(Ts)=0.0 , m(2Ts)=2.0 , m(3Ts)=3.0 , m(4Ts)=4.0 , m(5Ts)=5.0 , m(6Ts)=6.0 , m(7Ts)=6.0 , m(8Ts)=4.0 , m(9Ts)=2.0 , m(10Ts)=1.0 , 总共只有0、1、2、3、4、5、6等七个可 能的取值。
2016/5/11 38
第3章 音频信息处理技术
其典型的规则为
2 M 1 / 2
y (k ) y (k 1) y (k ) y (k 1)
(3.3-1)
2016/5/11
39
第3章 音频信息处理技术
另一类使用较多的自适应增量调制称为 连续可变斜率增量(CVSD)调制。 CVSD 的自适应规则为
2016/5/11
26
第3章 音频信息处理技术
下图是脉冲编码调制的过程示意图。图 (a)是一个以Ts为时间间隔的窄脉冲序 列 p(t) ,因为要用它进行抽样,所以称 为抽样脉冲。在图(b)中,v(t)是待抽 样的模拟电压信号,抽样后的离散信号 k(t) 的取值分别为 k(0)=0.2 , k(Ts)=0.4 , k(2Ts)=1.8 , k(3Ts)=2.8 , k(4Ts)=3.6 , k(5Ts)=5.1 , k(6Ts)=6.0 , k(7Ts)=5.7 , k(8Ts)=3.9 , k(9Ts)=2.0 , k(10Ts)=1.2 。