第3章音频信息处理技术 共102页

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3.3.4 变换域编码
信号 输入 输入 缓冲
变换
量化 编码
边信息 提取
比特分配 量阶尺寸
谱插值
编码 合 输出 路
编码 输入 分

解码
反变换
输出 缓冲
比特分配 量阶尺寸
谱插值
(a)
(b)
图3.3-8 (a) 编码;(b) 解码
3.3.5 矢量量化
信号序 列输入
构成 矢量
矢量 码本
矢量 码本
传送
传送
人的耳朵只能感觉到振动频率在20Hz到20000Hz之间的 声波,超出此范围的振动波不能引起听觉器官的感觉。其中, 人耳对400-4000Hz的声波最敏感。
男性语音
100Hz ~ 9,000Hz
女性语音
150Hz ~ 10,000Hz



电话语音
200Hz ~ 3,400Hz




调幅广播(AM)
(2) 参数编码
通过构造发声模型作为基础,用一套模拟声带频谱特 性的滤波器系数和若干声源参数来描述这个模型,在发送 端从模拟语音信号中提取各个特征参量并进行量化编码, 以实现语音信息的数字化。
优点:语音编码速率较低(2~9.6kbit/s),压缩比特 率低。
缺点:合成语音质量较差,实现的复杂度高。
m
d(S,Yi) j(s(j)yij)2
j1
其中,Yi是码本中第i个码字,每个码字有m维; j 是权
函数;d是误差值。
若矢量量化编码的对象是语音模型参数,将多数由 参数来表示的语音频谱失真作为误差准则。最常用的是 I-S准则:
d(X,Y i)2 1 ln Y X i((e ejj ))2 Y X i((e ejj ))21 d
度量声音客观质量的一个主要指标是信噪比SNR(Signal toFra Baidu bibliotekNoise Ration),信噪比是有用信号与噪声之比的简称。
(2) 声音主观质量的度量
表3.1-1 5分制平均观点分举例
MOS 5 4 3 2 1
质量级别 优(Excellent)
良(Good) 中(Fair) 差(Poor) 劣(Unacceptable)
搜索 下标 … 下标
矢量 输出 查表
图3.3-9 矢量量化编码及解码原理框图
码本的设计,目前最常用的是LBG算法。此算法的 步骤为:
(1) 采集用于构造码本的训练数据。数据越多,采 集对象越广泛 则训练出的码本越好。
(2) 构造初始码本。它有许多方法。例如,常用的 随机码本、白噪声码本等。
(3) 训练数据对已有的码本进行矢量量化编码,对 每个码字形成数据聚类。
(1) 波形编码
基于对语音信号波形的数字化处理,试图使处理后 重建的语音信号波形与原语音信号波形保持一致。
优点:实现简单、语音质量好、适应性强,有成熟 的技术实现方法。
缺点:压缩程度不高、实现的码速率较高,码率低 于32kbit/s时音质降低明显,16kbit/s时音质就非常差了。
常用的波形法编码技术有增量调制(DM)、自适应差 分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化 编码(VQ)等等。
y 1.0
0.5
-1.0
-0.5
0
0.5
-0.5
1.0 x
-1.0
图3.3-3 律压扩特性
b7 b6 b5 b4 b3 b2 b1 b0
符号位
折线编号
数据位
图3.3-4 律压扩数据格式
2. 差分脉冲编码调制(DPCM)
预测值可以由过去的采样值进行预测, 其计算 公式如下所示:
N
y ˆ0a1y1a2y2 aNyN aiyi i 1
式中,a i 为预测系数。当前值与预测值的差为
e0 y0yˆ0
信号

采样 y 0 -
量化器
输出

yˆ 0 预测器

输入 + +
(a)
图3.3-5 (a) 编码器; (b) 解码器
信号 滤波 预测器
(b)
我们定义 a i 就是使估值的均方差最小的 a i 。估
值的均方差可由下式决定:
E { y 0 ( y ˆ 0 ) 2 } E { y 0 [ ( a 1 y 1 a 2 y 2 a N y N ) 2 } ]
(4) 根据量化得到的聚类结果修正码字,即寻找每 一类的新的代表性码字。
(5) 判断(3)中量化编码误差是否小于规定数值, 或者迭代次数是否超过规定值,若是,训练结束。否 则转(3)继续。
矢量量化编码的关键技术的另一个方面是量化编 码准则问题,这与被编码对象特性有关。举例来说, 若直接对输入语音波形进行矢量量化,则多用最小均 方误差MSE (Mean-Squared-Error) 准则:
+ +
自适应预测器
(a)
(b)
图3.3-6 ADPCM (a) ADPCM编码器; (b) ADPCM解码器
3.3.3 子带编码
带通滤波1 编码器
译码器 带通滤波1
信号


输入
带通滤波2
编码器
输出 输入


译码器 带通滤波2
信号 输出



带通滤波n 编码器



译码器 带通滤波n
图3.3-7 子带编码的原理框图
(1) 在人类听觉系统中,一个声音的存在会影响人们 对其他声音的听觉能力,使一个声音在听觉上掩蔽了 另一个声音,即所谓的“掩蔽效应”。
(2) 频谱掩蔽发生在高电平音调使附近频率的低电平 声音不能被人耳听到的情况下。
(3) 在冲击前和衰退后,声音都有掩蔽效应。
4. 声道
声音的三个属性分别是:
(1) 幅值(Amplitude):如果左耳听到的声音比右耳的 大, 那么我们就认为声音在左边。
4. 声音的连续时基性 声音具有连续性和过程性,数据前后相关,数 据量大,具有实时性。
3.1.2 声音频率分布
次声波
人耳可听域
<20Hz
20~20,000Hz
超声波 >20,000Hz
模拟波信号有三个要素:基线、周期和振幅。
振幅即波形的最高点(或最低点)与基线间的距离,它 表示了声音音量的大小。
周期是波形中两个相邻波峰之间的距离,它表示完成一 次振动过程所需的时间,其大小体现了振动的速度。频率是 周期的倒数,周期越短,频率越高。
了解音频信息的相关知识对更进一步掌握多媒体 技术是很重要的。
3.1.1 声音概念
1. 声音定义 声音是振动波,具有振幅、周期和频率。 2. 声音三要素 (1) 音调 — (高低) (2) 音强 — (强弱) (3) 音色 — (特质)
3. 声音的质量 简称音质。音质与频率范围成正比,频率范围 越宽音质越好。
另一类使用较多的自适应增量调制称为连续可变斜率 增量(CVSD)调制。CVSD的自适应规则为
(k 1 ) P y (k)y (k 1 )y (k 2 ) (k) (k 1 ) Q其它
式中,β可在0~1之间取值。可以看到,β的大小可以通 过调节增量调制来适应输入信号变化所需时间的长短。P 和Q为增量,而且P要大于等于Q。
50Hz ~ 7,000Hz

调频广播(FM)
20Hz ~ 15,000Hz
高级音响
10Hz ~ 40,000Hz
3.1.3 声音信号特性分析
1. 时域 起始——稳定——结束 2. 频域 声音信号由正弦分量组成——周期、非周期 频谱分析——线状谱、连续谱 声音信号的描述——声波频率、声压、声强 人耳对声音的感觉通过声压或声压级描述——非线性 听域(1kHz):2×10-5Pa—— 0dB 痛域:20 Pa —— 120dB
为了求得均方差最小,就需对式中各个a求导数并使
方程等于0,最后解联立方程可以求出
a

i
预测系数与输入信号特性有关,也就是说,采样
点同其前面采样点的相关性有关 。a i 的取值范围为
0.8~1。
3. 自适应差分脉冲编码调制(ADPCM)
+ 量化器
- 量化阶 自适应
逆量化器 +
自适应预测器

逆量化器 量化阶自适应
3.3.2 自适应差分脉冲编码调制
1. 非均匀PCM(µ律压扩方法) 对小信号扩展、大信号压缩的特性可用下式表示:
ln1(x) ysgnx() ln1()
式中x为输入电压与A/D变换器满刻度电压之比,其取 值范围为-1~+1;sgn(x)为x的极性;μ为压扩参数, 其取值范围为100~500,μ越大,压扩越厉害。
采样
量化
编码
图3.2-1 音频信息处理框图
按不同应用目标 进行数字压缩
(1) 采样过程
数字激光唱盘CD FM无线电广播 AM无线电广播
电话
10 20
50 200
3400 7k 15k 20k 频率/Hz
图3.2-2 常见音频应用带宽示意图
(2) 量化过程 (3) 编码过程
3.3 音频信号压缩编码
典型代表:线性预测编码器(LPC)
(3) 混合编码 混合编码是指同时使用两种或两种以上的编码方法进 行编码的过程。 波形编码:保真度好,计算量小,但编码后速率高; 参数编码:码速率较低,但保真度欠佳,计算复杂。 波形编码与参数编码结合——混和编码:克服弱点, 结合优点 压缩比特率:4~16kbit/s 编码器:多脉冲激励线性预测编码器(MPE-LPC)、 规则脉冲激励线性预测编码器(RPE-LPC)、码激励线性 预 测 编 码 器 ( CELP ) 、 矢 量 和 激 励 线 性 预 测 编 码 器 (VSELP)和多带激励线性预测编码器。
声音文件所需的存储空间可用下式来计算
存 储 量 字 节 /秒 采 样 率 量 化 精 度 声 道 数
8 以16位、22.05 kHz的频率录制1分钟的立体声,所需存 储空间为5.292 MB。
如果录制1小时的立体声。其所要求的存储空间为 60×5.292=317.52 MB。
音频信息编码技术可分为三类:
(2) 相位(Phase):如果人的两耳听到的信号具有相同 的相位,那么大脑就认为声音在中部;如果两耳听到信 号有180°的相位差,那么声音就不包含方向信息了。
(3) 时序(Timing):声音的传播速度为1英尺每毫秒; 如果声音到达右耳的时间比到达左耳的早,我们就认为 声源就在右边。
5. 声音质量评价
失真级别 觉察不到 觉察得到,但不难听 有点难听 难听,但不反感 难以忍受
3.2 音频信号数字化
0.2 0.1
0 -0.1 -0.2
0 0.2 0.1
0 -0.1 -0.2
0
0.5
1
1.5
2
2.5
x 104
200
400
600
800 1000 1200 1400 1600
模拟 音频信号
音频信号数字化
图3.3-2 增量调制编码过程示意图
输出码
2. 自适应增量调制(ADM) 在ADM中,常用的规则有两种: 一种是控制可变因子M,使量化阶距在一定范围内 变化。对于每一个新的采样,其量化阶距为其前面数值 的M倍。而M的值则由输入信号的变化率来决定。其典 型的规则为
2 y(k)y(k1) M 1/2 y(k)y(k1)
(1) 声音客观质量的度量方法 声波的测量与分析传统的方法是先用机电换能器把声波 转换为相应的电信号,然后用电子仪表放大到一定的电压级 进行测量与分析。许多计算和测量工作都使用了计算机或程 序实现。 (a) 评价值的测量——响度和响度级,噪音级,清晰度指 数,噪音评价数。 (b) 声源的测量——频谱的时间变化,声功率,指向性, 效率,频谱特征,幅值分布等。 (c) 音质的测量——混响时间,隔音量,吸音量。
3.1.4 人耳听觉特性
1. 人耳对声音强弱的感觉特性 人耳对声音强弱的感觉与声压级成正比。
2. 响度和响度级 响度是听觉判断声音强弱的属性——主观,与声压级有 一定关系:声压级每增加10dB,响度增加1倍。 3. 人耳听觉的掩蔽效应
安静的环境和嘈杂的环境中人耳可以分辨的声音不同。 掩蔽:一个频率声音的听域由于另一个声音的存在而上 升的现象。 掩蔽效应:复合声音信号中,响度较低的声音频率分量 被高者淹没。
三种压缩编码的性能比较
主观 音质评价
混和法
参量法
波形法
2 4 6 8 16 32 kbit/s
3.3.1 增量调制
1. 一般增量调制
脉冲 发生器
输入 信号

比较器
极性判别
调制器
信道

y ' t
译码器
图3.3-1 增量调制的系统结构框图
u(模拟输入)
0 1 1 11 1 1 1 00 0 0 1 10 0 0 10 0 1 0
第3章 音频信息处理技术
3.1 声学基础知识 3.2 音频信号数字化 3.3 音频信号压缩编码 3.4 语音压缩编码标准 3.5 常见多媒体应用的语音编码器的选择 3.6 IP电话技术
3.1 声学基础知识
人类从外界获得的信息大约有16%是从耳朵得到的。 在多媒体技术中,音频信息占有很重要的地位, 比如视频会议系统,音频信息的优先级最高。
相关文档
最新文档