第三章 音频信息处理技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数字激光唱盘CD FM无线电广播 AM无线电广播 电 话
10 20 50
200
3400
7 k 15 k 20 k
频率 / Hz
常见音频应用带宽示意图
2、量化
量化是将每个采样值在幅度上进行离散化处理。
3、编码
编码过程是指用二进制数来表示每个采样的量化 值。 音频信号经数字化以后以文件形式存放 于计算机中,当需要声音时计算机将其反格 式化并输出。
3.3 音频信号压缩编码
3.3.1 音频信号编码分类 1、波形编码:基于对语音信号波形的数字化处理, 试图使处理后重建的语音信号波形与原信号波形保持一 致。 优点:实现简单、语音质量较好、适应性强。 缺点:压缩程度不高,需要较高的编码速率。 常用的波形编码技术:增量调制编码(DM)差值脉 冲编码调制(DPCM)自适应差分脉冲编码调制 (ADPCM)子带编码(SBC)矢量量化编码(VQ)
3、G.723.1标准 该标准压缩编码是一种用于各种网络环境 下的多媒体通信标准。分别为5.3kbit/s和 6.3kbit/s,可应用于IP电话、会议电视系统等通信 系统中。5.3采用多脉冲最大似然量化技术,6.3 采用代数码激励线性预测技术。
3.4.3 MPEG音频编码标准
MPEG音频编码是国际上公认的高保真立体 声音压缩标准。 MPEG-1声音编码标准规定。其音频信号采 样频率可以有32kHz,44.1kHz或48kHz三种, 带宽可以选择15kHz,20kHz。
采用 MDCT(改进型DCT)变换增强频率的分辨率, 使频率分辨率提高了18倍, 从而使得Layer3的播放器能 更好地适应量化噪声; 只有Layer3使用了熵编码(像 MPEG视频)进一步地减少了冗余; Layer3还可以使用更 高级的联合立体声编码机制。
信号输入
注:数据线 控制线
滤波器组 感知 模型 反复循环 比例因子 速率/失真 控制处理 量化 联合立体 声编码 比 特 流 复 接 MP3编码 数据流
3.4.2 混合编码标准
1、G.728标准 主要应用于公共电话网中的。采用的压缩算 法是低延时码激励线性预测(LD-CELP)方式。 该算法考虑了人耳的听觉特性,具有以块为单位 的后向自适应高阶预测、后向自适应型增益量化、 以矢量为单位的激励信号量化等特点。
2、G.729标准 该标准的码率只有8kbit/s,压缩算法相对其它 算法来说比较复杂,采用的算法是共轭结构代数 码激励线性预测(CS-ACELP)技术。
2、参数编码 通过语音信号的数学模型,对语音信号特征 参数进行提取及编码,力图使重建的语音信号尽 可能保持原信号的语意。 语音编码速率较低,压缩的比特率较低。 合成语音质量较差,很难辨别说话人是谁。 常用的有线性预测编码。 多用在移动通信、多媒体通信和IP网络电 话中。
3、混合编码 同时使用两种或两种以上编码方法进行编 码的过程。 采用混合编码的编码器有多脉冲激励线性 预测编码器(MPE-LPC)、规则脉冲激励线性 预测编码器(RPE-LPC)、码激励线性预测编 码器(celp)等。
3.4 音频信号压缩标准
3.4.1 波形编码标准 1、 G.711标准
采用非均匀量化的方法。在非均匀量化中,采样输入信号幅度 和量化输出数据之间定义了两种对应关系:µ 律压扩算法和A律压扩 算法。G.711针对电话质量的窄带话音信号,频率范围是 0.3~3.4kHZ,采样频率采用8kHZ,每个采样值用8位二进制编码, 其速率为64kbit/s。 优点:这种编码方法的语音质量最好,算法延迟几乎可以忽略 不计。 缺点:压缩率有限。
(k 1) P (k ) (k 1) Q
y (k ) y (k 1) y (k 2)
自适应增量调制称为连续可变斜率增量 (CVSD)调制。 工作原理如下: 如果调制器(CVSD)连续 输出三个相同的码, 则量化阶距加上一个大的 增量, 也就是说, 因为三个连续相同的码表示 有过载发生。 反之, 则量化阶距增加一个小的 增量。
3.2 音频信号数字化
音频信号的数字化过程就是将模拟音频信 号转换成有限个数字表示的离散序列, 即数字 音频序列。
音频信号数字化 模拟音 频信号 采 样 量 化 编 码 按不同应用目标 进行数字压缩
音频信息处理框图
1、采样
在时间上将连续信号离散化的过程,采样一般都 是按照均匀的时间间隔进行。
2、 G.721标准 基于ADPCM(自适应脉冲编码调制),采 样频率为8kHZ,每个样值与预测值的差值用4位 编码,其编码速率为32kb/s。 ADPCM一种对中等质量音频信号进行高效 编码的有效算法之一,不仅适用于语音压缩,而 且也适用于调幅广播质量的音频压缩和CD-I音 频压缩等应用。
3、 G.722标准 音频信号质量高于G.711和G.721。 采用的编码方法是子带自适应差分脉冲编码 调制编码方法,将语音频带划分为高低两个子带, 高低子带间以4kHz频率为界限。每个子带内采 用自适应差值脉冲编码调制方式。在多媒体和会 议电视方面得到应用。
带通滤波1 信号 输入 带通滤波2
…
编码器 综 编码器
…
译码器 分 输出 … 输入 配 器 译码器
…
带通滤波1 带通滤波2
…
信号 输出
合 器
带通滤波n
编码器
译码器
带通VQ):是指将输入的信号样值 按照某种方式进行分组,把每个分组看做是一个 矢量,并对该矢量进行量化。
(2) MPEG音频Layer2 Layer1音频编码中, 只能传送左右两个声 道。 为此, MPEG 音频Layer2扩展了低码率多 声道编码, 将多声道扩展信息加到Layer1音频 数据帧结构的辅助数据段(其长度没有限制)中。 这样可将声道数扩展至5.1, 即3个前声道(左L、 中C和右R)、 2个环绕声(左LS、 右RS)和1个超 低 音 声 道 LFE( 常 称 之 为 0.1) , 由 此 形 成 了 MPEG Layer2音频编码标准。
u(模拟输入)
0 1 1 1 1 1 1 1 0 0 0 0 1 1 0 0 0 1 0 0 1
0
输出码
增量调制编码过程示意图
当输入模拟信号的变化速度超过了经解码 器输出的预测信号的最大变化速度时,会发生斜 率过载。 当输入信号没有变化时,预测信号和输入 信号的差会十分接近,这时,编码器的输出是1 和0交替出现的,这种现象叫散粒噪声。
矢量 码本 信号序 列输入 传送 下标 接收 下标 矢量 码本 矢量 输出
构成 矢量
搜索
…
查表
矢量量化编码及解码原理框图
假定将语音数据分组, 每组有 k个数据。 这样, 一组 就是一个k 维的矢量。 把每一个组形成的矢量看成一个 元素, 又叫码字, 那么, 语音所分成的组就形成了各 自的码字。 这些码字排列起来, 就构成了一个表, 人 们将此表叫做码本或码书。 形象一点说, 码书就类似 于汉字的电报号码本, 电报号码本里面是复杂的汉字, 而在这里是一组原始的语音数据; 电报号码本里每个汉 字旁边标有只用4位阿拉伯数字表示的号码, 而在矢量 量化方法里就是每组数据所对应的下标。
MPEG音频编码等级比较表
1.MPEG-1声音标准
该标准采用的编码算法是感知子带编码。 共分为32个子带。 layer-1:简单,应用于小型数字盒式磁带中 layer-2:复杂程度中等,主要用于数字广播 音频、数字音乐、只读光盘交互系统和视盘。 layer-3:最复杂,用于ISDN上的声音传输。
帧头
帧校验
音频数据
辅助数据
(1) MPEG音频Layer1 MPEG 音 频 Layer1 是 MUSICAM 的 一 个 简化版本。 帧头占用32 bit, 由同步和状态 信息组成, 12 bit的同步码字全为1; 帧校验占 用16 bit, 用于检测比特流中的差错; 音频数据 由比特分配信息、 比例因子信息和子带样值组 成, 不同的层其音频数据不同; 辅助数据用于 传输辅助信息。
第三章 音频信息处理技术
3.1 3.2 3.3 3.4 3.5
声学基础知识 音频信号数字化 音频信号压缩编码 语音压缩编码标准 IP电话技术
自然界的声音信号究其本质是一种机械振动, 是一种在空气中随时间而变化的压力信号。 音频信息涉及人耳所能听到的声音信息,包 括语声和乐声。
2.1 声学基础知识
2、自适应增量调制(ADM) 输出编码1位所表示的模拟电压叫做量化阶距。 基本思想:当发现信号变化快时,增加阶距; 当发现信号变化缓慢时,减少阶距。
2 M 1 / 2
y (k ) y (k 1) y (k ) y (k 1)
一种是控制可变因子 M, 使量化阶距在一 定范围内变化。 对于每一个新的采样, 其量化 阶距为其前面数值的M倍。 而M的值则由输入信 号的变化率来决定。 如果出现连续相同的编码, 则说明有发生过载的危险, 这时就要加大M。 当0, 1信号交替出现时, 说明信号变化很慢, 会产生散粒噪声, 这时就要减少M 值。 其典型 的规则为
2.1.1 音频信号特征 1、声音信号的时域特征 该特征说明人们听到的声音从产生到结束的 过程。 这个过程大致可分为三个阶段:起始、稳 定和结束。
2、声音信号的频域特征 声音信号是有很多的正弦分量组成的。 声音信号在频域是具有离散的线性谱和连续 谱的特征
有明确音高的有调声音
无明确音高的无调声音
MPEG Lay er 1 MPEG Lay er1 MPEG Lay er 1 帧头 帧校验 音频数据
MPEG Lay er 2 多声道扩展(MC)数据
MPEG Lay er 1 辅助数据
MC 帧头
MC 帧校验
MC 组合状态信息
MC 音频数据
MC 辅助数据
MPEG Layer2 数据帧结构
(3) MPEG音频Layer3(MP3)
3、差值脉冲编码调制 基本思想:对输入的音频信号进行均匀量化, 不管输入的信号是大是小,据采用同样的量化间 隔。 例如:如输入的音频信号是语音信号,使用 8kHz采样频率进行均匀采样,而后将每个样本 编码为8位二进制数字信号,则得到数据率为 64kb/s的PCM信号。
基本思想:对相邻的差值进行量化编码。 这个差值是指信号值和预测值的差值。
3.3.2 常用的压缩编码方法
1 一般增量调制(DM)
脉 冲 发生器
输入 信号
+
比较器
y(t )
极性判别
调制器
信 道
- 译码器
增量调制的系统结构框图
基本思想:在编码端,由前一个输入信号 的编码值经解码器可得到下一个信号的预测值。 输入的模拟音频信号与预测值在比较器上相减, 从而得到差值。若为正,则编码输出为1;若为 负,则编码输出为0。
工作原理为: 先将待编码的序列划分成一 个个等长的段, 每段含有若干个样点, 这一段 段样点就构成一个个矢量列, 每一个矢量与已 预先训练(是指某种算法计算)好的一个矢量码 本(Codebook)中的每一个码字(Codeword, 它与输入矢量一样, 也是同维数的矢量)按某 种失真准则进行比较, 求出误差。
信号 采样 + y0 量化器 -
ˆ0 y
输出
输入
+ 滤波 +
信号
+ 预测器 + 预测器
(a)
(b)
差分脉冲调制系统的方框图 (a) 编码器; (b) 解码器
4、子带编码
用一组带通滤波器, 将输入的音频信号分成若干个 连续的频段, 并将这些频段称为子带。 分别对这些 子带中的音频分量进行采样和编码。 将各子带的编码信 号组织到一起进行存储或送到信道上传送。 在信道的接收端(或在回放时)得到各子带编码的 混合信号, 将各子带的编码取出来, 对它们分别进行 解码, 产生各子带的音频分量, 再将各子带的音频分 量组合在一起, 恢复原始的音频信号。
声波频率 20Hz~20kHz 声压:对声音强弱的感觉 1kHz~听阈2*10-5Pa 声压级:表示声音强弱的对数级(分贝) 听阈0dB 痛阈 120dB
3.1.2 人耳听觉特性
1、响度:人耳对声音强弱的感觉。 2、掩蔽效应: 一个声音的存在会影响人们对其 他声音的听觉能力, 使一个声音在听觉上掩蔽 了另一个声音。