音频编解码技术介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音编解码概述
• 语音编解码目的 • 语音编码器的主要功能就是把用户语音的 PCM(脉冲编码调制)样值编码成少量的比 特(帧)。这种方法使得语音在链路产生误 码、网络抖动和突发传输时具有鲁棒性 (Robustness)。在接收端,语音帧先被解 码为PCM语音样值,然后再转换成语音波 形。
语音编解码概述
0.625 否
8 15 kbit/s
是(Annex B) CSA-CELP
音频编码技术
PCM(Pulse Code Modulation)
模拟信号
低通防失真 滤波器
波形 编码器 量化器 PCM样本
采样: 均匀采样
量化: 均匀量化,非均匀量化(大信号采用大间隔,小信号小间隔)
PCM在通信中主要用于时分多路复用和频分多路复用.
它的音质很低,增加数据率对提高音质基本无用, 广泛用于军事保密通讯.
语音编解码概述
• 语音编码器类型(1) 语音编码器类型(1)
试图填补波形编码和音源编码的间隔: waveform coding不能解决低于16kb/s下的音质问题, source coding可压缩到2.4kb/s或更低,但音质不自然。 时域合成-分析编码器(analysis-by-synthesis, ABS)。它 和音源编码器的主要区别: 不使用2个状态(有声/无声)的模型来寻找滤波器的输 入激励信号,而是要寻找这样一种激励信号,使得这种信 号产生的波形尽可能接近原始话音波形.
• 回声消除相关标准
音频编解码标准 其它音频编解码标准
音频编码技术
当前国际上主流的新一代视音频编解码软件技术 标准是国际运动图像专家组于1999年公布的MPEG-4 技术标准,将逐渐取代现有的MPEG-1(VCD)、 MPEG-2(DVD)标准。MPEG-4主要为了实现在 有线、移动网络上传输互动的视音频内容,目前世界 主要公司的编解码软件都支持MPEG-4标准。虽然微 软等几个公司在发展自己的技术和标准,但都脱不开 MPEG-4标准底层的基础专利技术。MPEG-4等编解 码技术的革命,极大地扩展了数字多媒体的应用市场。
• 语音编码器评价
帧大小: 帧的大小表示语音流量的时间长度,也称为帧 时延。帧是语音信号的分立部件,且每帧是根据语音样 点更新的。本章所介绍的编解码器都是一次处理一帧。 每帧信息放在各语音分组中,并传送给接收端。 • 处理时延: 它表示在编解码器中对一帧语音做编码算法 处理时所需的时间。它通常简单的计入帧时延。处理时 延也称为算法时延。 • 前视时延: 编码器为了对当前帧的编码提供帮助而检查 下一帧的一定长度,此长度就称为前视时延。前视的想 法是为了利用相邻语音帧之间的密切相关性。 • 帧长度: 这个值表示经编码处理后的字节数(不包括帧 头)。 •
音频编码技术
其它语音编码类型
DM and ADM (Adaptive Delta Modulation) SBC(Sub-Band Coding) and SB-ADPCM LPC (Linear Predictive Coding)
音频编解码标准
• 语音编解码标准 • 其它音频编解码标准
• DTMF Transmitters and Receivers标准
音频编解码标准 其它音频编解码标准
MPEG中音频编码标准(1)
音频编码技术
• 编码器的输入和解码器的输出与现存的PCM标准兼容 • ISO/IEC 11172-3(MPEG1音频)的采样率为32kHz,44.1kHz和 48kHz 。
根据应用需要,可以使用不同层次的编码系统。 – LayerⅠ 包括将数字音频变成32个子带的基本映射。将数据格式化成块 的固定分段。决定自适应位分配的心理声学模型。利用块压扩和格式化 的量化器。理论上,层Ⅰ编码/解码的最少延时约为19ms。 – LayerⅡ 提供了为分配,缩放因子和抽样的附加编码。使用了不同的帧 格式。这层理论上的最小编码/解码延时约为35ms。 – LayerⅢ 采用混合带通滤波器来提高频率分辨率。它增加了差值量化 (非均匀)、自适应分段和量化值的熵编码。这层理论上的最小编码/解 码延时为59ms。联合立体声编码作为一个附加特征,能够加入到任何一 层中。
语音编解码概述
• 语音编码器评价(续) 语音编码器评价(
• 语音比特率: 当编解码器的输入是标准脉冲编码调制的 语音码流(比特率为64 kbit/s)时,编解码器的输出速率 。 • DSP MIPS: 此值是指支持特定编码器的D S P处理器的 最低速度。 • RAM需求: 它描述了支持特定的编码过程所需要RAM 的大小。 • 编码器工作所需的时间: 是指编码器的缓存及处理时间 ,称为单向系统时延。其值=帧大小+ 处理时延+ 前视 时延。显然,解码时延也非常重要。实际上,解码时 延大约是编码时延的一半。
音频编解码标准 其它音频编解码标准 杜比数字音频技术 (2)
•
音频编码技术
•
杜比 E是一种专业音频编码技术,用于辅助广播和其它一些两 声道设备传输多声道的音频信息。杜比E可以通过一对 AES/EBU或者一对数字VTR音轨,给后期制作和发行提供多达 8个声道的广播级质量的音频信息。另外,杜比E的优点还在于 经过它编码的信息可以被编辑、解码、编码再解码,经过多次 编解码转换而没有可察觉的音质降低。 MLP Lossless是一个真正的“无损”编码系统,DVD-Audio 中 采用的压缩技术,可对PCM数据进行完美地复制,不同于“有 损”的感性编码的杜比数字技术。MLP Lossless有效地将磁盘 空间扩充了一倍,而没有影响高解析度的PCM音质,从而使 DVD-Audio 光盘可以同时携带同一节目的立体声和多声道版本。 所有DVD-Audio播放机必须具备MLP Lossless解码功能。
音频编解码标准
语音编解码标准
• ITU-T Recommendation G.711 • ITU-T Recommendation G.723.1 & Annex A • ITU-T Recommendation G.728 & Annex G • ITU-T Recommendation G.729 & Annex A B
音频编解码标准 其它音频编解码标准 杜比数字音频技术 (3)
•
ቤተ መጻሕፍቲ ባይዱ
音频编码技术
高级音频编码 (AAC)是一种高质量感性音频编码技术,应 用于广播和网络音乐下载。AAC的编码效率优于MP3,以更 低的比特率提供更高质量的音频信号。这项技术是由四个工 业界的领导者(AT&T,杜比实验室,Fraunhofer IIS以及索尼 公司)共同开发,将其标准化为一个ISO/IEC的规范。作为 MP3的继任者,AAC现在已经获得了越来越多软硬件生产商 的支持。
语音压缩—ADPCM
• 自适应差分脉码调制
–波形编码方案 –自适应:自动压扩 –差分:仅对样本之间的变化编码 –每个样本的速率与比特:
•32 Kbps = 8 Kbps x 4 bits/sample •24 Kbps = 8 Kbps x 3 bits/sample •16 Kbps = 8 Kbps x 2 bits/sample
语音编解码概述
• 语音编码器类型(2) 语音编码器类型(2)
• (c) 混合编码器 目前常用的语音编码器是混合编码器,它融合了波形 编码器和声码器的长处。它的另一特点是它工作在非 常低的比特率(4~16 kbps)。混合编码器采用合成分析 (AbS)技术。 • (c.1)线性预测合成分析编码器: 前向自适应LPAS编码器:8 kbps G.729编码器和 6.3 kbps 与5.3 kbps G.723.1编码器 后向自适应LPAS编码:16 kbps G.728低时延码激 励线性预测 • (c.2)参数语音编码器:2.4 kbps 混合激励线性预测编码
• 使用 DSP • 80个16比特线性PCM数据样本帧(10M)进入10个8比 特码字 • 增加一个“向前”的5毫秒 • 噪音降低和音调合成过滤增加到处理要求中 • 8 Kbps 的数据速率
LD-CELP: 低延迟码激励线性预估
• 与CSA-CELP相似,但 LD- CELP使用较小的电码 本,并以16 Kbps 操作使延迟减小到2-5毫秒(无 “向前”) • 从8-kHz输入语音的每五个样本中产生10比特的码 字 • 四个10比特的码字被称为一个“子帧”,它大约需 要2.5毫秒进行编码 • 两个“子帧”结合到一个5毫秒的码组中进行传输
CELP: 码激励线性预估
• 进入编码器的信号从8比特PCM转换成16比特线性 PCM样本 • 编码器使用电码本。电码本用反馈信息对语音波形不 断地分析,“学习”和预估 • 白噪声生成器“激励”编码器 • 数字结果(参数)被传送到远端码器进行语音波形的 合成和生成
CS-ACELP: 共轭结构代数码激励线性预估
音频编解码标准 其它音频编解码标准 杜比数字音频技术 (1)
AC-3编码和解码
音频编码技术
AC-3音频编码标准的起源是DOLBY AC-1。AC-1应用的编码技术是自适 应增量调制(ADM),它把20kHz的宽带立体声音频信号编码成512kbps 的数据流。AC-1曾在电视和调频广播上得到广泛应用。1990年DOLBY实 验室推出了立体声编码标准AC-2,它采用类似MDCT的重叠窗口的快速 傅立叶变换(FFT)编码技术,其数据率在256kbps以下。AC-2被应用在 PC声卡和综合业务数字网等方面。 1992年DOLBY实验室在AC-2的基础上,有开发了DOLBY AC-3的数字 音频编码技术。AC-3提供了五个声道的从20Hz的全通带频响,即正前方 的左(L)、中(C)和右(R),后边的两个独立的环绕声通道左后 (LS)和右后(RS)。AC-3同时还提供了一个100Hz以下的超低音声道 供用户选用,以弥补低音之不足。因为此声道仅为辅助而已,故定为0.1 声道。所以AC-3被称为5.1声道。AC-3将这6个声道进行数字编码,并将 它们压缩成一个通道,而它的比特率仅是320kbps。
音频编解码标准
• 语音编解码标准 • 其它音频编解码标准 • DTMF Transmitters and Receivers标准 • 回声消除相关标准
音频编解码标准
• 语音编解码标准
• 其它音频编解码标准
• DTMF Transmitters and Receivers标准 • 回声消除相关标准
音频编解码技术
培训目标
• • • •
了解音频编解码的目的 熟悉音频编解码的各种标准 知道音频编解码的技术构成 关注音频编解码技术的发展
语音编解码概述
• 语音编码器类型
• (a) 波形编码器; • (b) 声码器; • (c) 混合编码器
语音编解码概述
• 语音编码器类型
• (a) 波形编码器 不利用生成语音信号的任何知识来产生一种重构信号, 波形编码器会尽可能重构出包括背景噪音在内的模拟 波形。由于波形编码器作用于所有输入信号,因此会 产生高质量的样值。特点是复杂度低,在数据速率 16kb/s以上时,质量很好,例如, ITU-T G.711规范 (PCM)用的比特率为64kbps。 Time domain approach: PCM (pulse code modulation), DPCM, ADPCM Frequency domain approach: SBC(sub-band coding), ATC(adaptive transform coding)
语音编解码概述
• 语音编码器类型
• (b) 声码器 声码器(vocoder)也称为音源编译码器,它试图在话音 波形信号中提取生成话音的参数,通过这些参数和话 音生成模型重构出语音。线性预测编码(LPC)用来获 取一时变数字滤波器的参数。这个滤波器用来模拟说 话人的声道输出。 声码器 (vecoder) 时变滤波器 (time-varying filter) 命令 基本激励
音频编解码标准
• 语音编解码标准参数对照
音频编解码标准
Bit rates G.711 64 kbit/s G.723.1 5.3 & 6.3 kbit/s G.728 16 kbit/s G.729 时延 ms 0.125 37.5
• 音频编解码标准各参数对照
支持静音压 编码类型 缩 是(Appendix PCM II) 是(Annex A) ACELP & MPMLQ LD-CELP