第三章 音频信息处理技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2、自适应增量调制(ADM) 输出编码1位所表示的模拟电压叫做量化阶距。 基本思想:当发现信号变化快时,增加阶距; 当发现信号变化缓慢时,减少阶距。
2 M 1 / 2
y (k ) y (k 1) y (k ) y (k 1)
一种是控制可变因子 M, 使量化阶距在一 定范围内变化。 对于每一个新的采样, 其量化 阶距为其前面数值的M倍。 而M的值则由输入信 号的变化率来决定。 如果出现连续相同的编码, 则说明有发生过载的危险, 这时就要加大M。 当0, 1信号交替出现时, 说明信号变化很慢, 会产生散粒噪声, 这时就要减少M 值。 其典型 的规则为
声波频率 20Hz~20kHz 声压:对声音强弱的感觉 1kHz~听阈2*10-5Pa 声压级:表示声音强弱的对数级(分贝) 听阈0dB 痛阈 120dB
3.1.2 人耳听觉特性
1、响度:人耳对声音强弱的感觉。 2、掩蔽效应: 一个声音的存在会影响人们对其 他声音的听觉能力, 使一个声音在听觉上掩蔽 了另一个声音。
矢量 码本 信号序 列输入 传送 下标 接收 下标 矢量 码本 矢量 输出
构成 矢量
搜索
…
查表
矢量量化编码及解码原理框图
假定将语音数据分组, 每组有 k个数据。 这样, 一组 就是一个k 维的矢量。 把每一个组形成的矢量看成一个 元素, 又叫码字, 那么, 语音所分成的组就形成了各 自的码字。 这些码字排列起来, 就构成了一个表, 人 们将此表叫做码本或码书。 形象一点说, 码书就类似 于汉字的电报号码本, 电报号码本里面是复杂的汉字, 而在这里是一组原始的语音数据; 电报号码本里每个汉 字旁边标有只用4位阿拉伯数字表示的号码, 而在矢量 量化方法里就是每组数据所对应的下标。
帧头
帧校验
音频数据
辅助数据
(1) MPEG音频Layer1 MPEG 音 频 Layer1 是 MUSICAM 的 一 个 简化版本。 帧头占用32 bit, 由同步和状态 信息组成, 12 bit的同步码字全为1; 帧校验占 用16 bit, 用于检测比特流中的差错; 音频数据 由比特分配信息、 比例因子信息和子带样值组 成, 不同的层其音频数据不同; 辅助数据用于 传输辅助信息。
2、 G.721标准 基于ADPCM(自适应脉冲编码调制),采 样频率为8kHZ,每个样值与预测值的差值用4位 编码,其编码速率为32kb/s。 ADPCM一种对中等质量音频信号进行高效 编码的有效算法之一,不仅适用于语音压缩,而 且也适用于调幅广播质量的音频压缩和CD-I音 频压缩等应用。
3、 G.722标准 音频信号质量高于G.711和G.721。 采用的编码方法是子带自适应差分脉冲编码 调制编码方法,将语音频带划分为高低两个子带, 高低子带间以4kHz频率为界限。每个子带内采 用自适应差值脉冲编码调制方式。在多媒体和会 议电视方面得到应用。
3.4.2 混合编码标准
1、G.728标准 主要应用于公共电话网中的。采用的压缩算 法是低延时码激励线性预测(LD-CELP)方式。 该算法考虑了人耳的听觉特性,具有以块为单位 的后向自适应高阶预测、后向自适应型增益量化、 以矢量为单位的激励信号量化等特点。
2、G.729标准 该标准的码率只有8kbit/s,压缩算法相对其它 算法来说比较复杂,采用的算法是共轭结构代数 码激励线性预测(CS-ACELP)技术。
信号 采样 + y0 量化器 -
ˆ0 y
输出
输入
+ 滤波 +
信号
+ 预测器 + 预测器
(a)
(b)
差分脉冲调制系统的方框图 (a) 编码器; (b) 解码器
4、子带编码
用一组带通滤波器, 将输入的音频信号分成若干个 连续的频段, 并将这些频段称为子带。 分别对这些 子带中的音频分量进行采样和编码。 将各子带的编码信 号组织到一起进行存储或送到信道上传送。 在信道的接收端(或在回放时)得到各子带编码的 混合信号, 将各子带的编码取出来, 对它们分别进行 解码, 产生各子带的音频分量, 再将各子带的音频分 量组合在一起, 恢复原始的音频信号。
第三章 音频信息处理技术
3.1 3.2 3.3 3.4 3.5
声学基础知识 音频信号数字化 音频信号压缩编码 语音压缩编码标准 IP电话技术
自然界的声音信号究其本质是一种机械振动, 是一种在空气中随时间而变化的压力信号。 音频信息涉及人耳所能听到的声音信息,包 括语声和乐声。
2.1 声学基础知识
3.3 音频信号压缩编码
Fra Baidu bibliotek
3.3.1 音频信号编码分类 1、波形编码:基于对语音信号波形的数字化处理, 试图使处理后重建的语音信号波形与原信号波形保持一 致。 优点:实现简单、语音质量较好、适应性强。 缺点:压缩程度不高,需要较高的编码速率。 常用的波形编码技术:增量调制编码(DM)差值脉 冲编码调制(DPCM)自适应差分脉冲编码调制 (ADPCM)子带编码(SBC)矢量量化编码(VQ)
(2) MPEG音频Layer2 Layer1音频编码中, 只能传送左右两个声 道。 为此, MPEG 音频Layer2扩展了低码率多 声道编码, 将多声道扩展信息加到Layer1音频 数据帧结构的辅助数据段(其长度没有限制)中。 这样可将声道数扩展至5.1, 即3个前声道(左L、 中C和右R)、 2个环绕声(左LS、 右RS)和1个超 低 音 声 道 LFE( 常 称 之 为 0.1) , 由 此 形 成 了 MPEG Layer2音频编码标准。
(k 1) P (k ) (k 1) Q
y (k ) y (k 1) y (k 2)
自适应增量调制称为连续可变斜率增量 (CVSD)调制。 工作原理如下: 如果调制器(CVSD)连续 输出三个相同的码, 则量化阶距加上一个大的 增量, 也就是说, 因为三个连续相同的码表示 有过载发生。 反之, 则量化阶距增加一个小的 增量。
3.2 音频信号数字化
音频信号的数字化过程就是将模拟音频信 号转换成有限个数字表示的离散序列, 即数字 音频序列。
音频信号数字化 模拟音 频信号 采 样 量 化 编 码 按不同应用目标 进行数字压缩
音频信息处理框图
1、采样
在时间上将连续信号离散化的过程,采样一般都 是按照均匀的时间间隔进行。
3、G.723.1标准 该标准压缩编码是一种用于各种网络环境 下的多媒体通信标准。分别为5.3kbit/s和 6.3kbit/s,可应用于IP电话、会议电视系统等通信 系统中。5.3采用多脉冲最大似然量化技术,6.3 采用代数码激励线性预测技术。
3.4.3 MPEG音频编码标准
MPEG音频编码是国际上公认的高保真立体 声音压缩标准。 MPEG-1声音编码标准规定。其音频信号采 样频率可以有32kHz,44.1kHz或48kHz三种, 带宽可以选择15kHz,20kHz。
2.1.1 音频信号特征 1、声音信号的时域特征 该特征说明人们听到的声音从产生到结束的 过程。 这个过程大致可分为三个阶段:起始、稳 定和结束。
2、声音信号的频域特征 声音信号是有很多的正弦分量组成的。 声音信号在频域是具有离散的线性谱和连续 谱的特征
有明确音高的有调声音
无明确音高的无调声音
MPEG音频编码等级比较表
1.MPEG-1声音标准
该标准采用的编码算法是感知子带编码。 共分为32个子带。 layer-1:简单,应用于小型数字盒式磁带中 layer-2:复杂程度中等,主要用于数字广播 音频、数字音乐、只读光盘交互系统和视盘。 layer-3:最复杂,用于ISDN上的声音传输。
2、参数编码 通过语音信号的数学模型,对语音信号特征 参数进行提取及编码,力图使重建的语音信号尽 可能保持原信号的语意。 语音编码速率较低,压缩的比特率较低。 合成语音质量较差,很难辨别说话人是谁。 常用的有线性预测编码。 多用在移动通信、多媒体通信和IP网络电 话中。
3、混合编码 同时使用两种或两种以上编码方法进行编 码的过程。 采用混合编码的编码器有多脉冲激励线性 预测编码器(MPE-LPC)、规则脉冲激励线性 预测编码器(RPE-LPC)、码激励线性预测编 码器(celp)等。
带通滤波1 信号 输入 带通滤波2
…
编码器 综 编码器
…
译码器 分 输出 … 输入 配 器 译码器
…
带通滤波1 带通滤波2
…
信号 输出
合 器
带通滤波n
编码器
译码器
带通滤波n
子带编码的原理框图
5、矢量量化编码 矢量量化(VQ):是指将输入的信号样值 按照某种方式进行分组,把每个分组看做是一个 矢量,并对该矢量进行量化。
数字激光唱盘CD FM无线电广播 AM无线电广播 电 话
10 20 50
200
3400
7 k 15 k 20 k
频率 / Hz
常见音频应用带宽示意图
2、量化
量化是将每个采样值在幅度上进行离散化处理。
3、编码
编码过程是指用二进制数来表示每个采样的量化 值。 音频信号经数字化以后以文件形式存放 于计算机中,当需要声音时计算机将其反格 式化并输出。
采用 MDCT(改进型DCT)变换增强频率的分辨率, 使频率分辨率提高了18倍, 从而使得Layer3的播放器能 更好地适应量化噪声; 只有Layer3使用了熵编码(像 MPEG视频)进一步地减少了冗余; Layer3还可以使用更 高级的联合立体声编码机制。
信号输入
注:数据线 控制线
滤波器组 感知 模型 反复循环 比例因子 速率/失真 控制处理 量化 联合立体 声编码 比 特 流 复 接 MP3编码 数据流
u(模拟输入)
0 1 1 1 1 1 1 1 0 0 0 0 1 1 0 0 0 1 0 0 1
0
输出码
增量调制编码过程示意图
当输入模拟信号的变化速度超过了经解码 器输出的预测信号的最大变化速度时,会发生斜 率过载。 当输入信号没有变化时,预测信号和输入 信号的差会十分接近,这时,编码器的输出是1 和0交替出现的,这种现象叫散粒噪声。
3.4 音频信号压缩标准
3.4.1 波形编码标准 1、 G.711标准
采用非均匀量化的方法。在非均匀量化中,采样输入信号幅度 和量化输出数据之间定义了两种对应关系:µ 律压扩算法和A律压扩 算法。G.711针对电话质量的窄带话音信号,频率范围是 0.3~3.4kHZ,采样频率采用8kHZ,每个采样值用8位二进制编码, 其速率为64kbit/s。 优点:这种编码方法的语音质量最好,算法延迟几乎可以忽略 不计。 缺点:压缩率有限。
MPEG Lay er 1 MPEG Lay er1 MPEG Lay er 1 帧头 帧校验 音频数据
MPEG Lay er 2 多声道扩展(MC)数据
MPEG Lay er 1 辅助数据
MC 帧头
MC 帧校验
MC 组合状态信息
MC 音频数据
MC 辅助数据
MPEG Layer2 数据帧结构
(3) MPEG音频Layer3(MP3)
3、差值脉冲编码调制 基本思想:对输入的音频信号进行均匀量化, 不管输入的信号是大是小,据采用同样的量化间 隔。 例如:如输入的音频信号是语音信号,使用 8kHz采样频率进行均匀采样,而后将每个样本 编码为8位二进制数字信号,则得到数据率为 64kb/s的PCM信号。
基本思想:对相邻的差值进行量化编码。 这个差值是指信号值和预测值的差值。
3.3.2 常用的压缩编码方法
1 一般增量调制(DM)
脉 冲 发生器
输入 信号
+
比较器
y(t )
极性判别
调制器
信 道
- 译码器
增量调制的系统结构框图
基本思想:在编码端,由前一个输入信号 的编码值经解码器可得到下一个信号的预测值。 输入的模拟音频信号与预测值在比较器上相减, 从而得到差值。若为正,则编码输出为1;若为 负,则编码输出为0。
工作原理为: 先将待编码的序列划分成一 个个等长的段, 每段含有若干个样点, 这一段 段样点就构成一个个矢量列, 每一个矢量与已 预先训练(是指某种算法计算)好的一个矢量码 本(Codebook)中的每一个码字(Codeword, 它与输入矢量一样, 也是同维数的矢量)按某 种失真准则进行比较, 求出误差。