第三讲音频压缩编码
3-数字音频压缩及标准
➢子带编码通过分析每个子带的取样值并与心理 声学模型进行比较,编码器基于每个子带的掩 蔽阈值能自适应地量化取样值。
北京信息科技大学
2010年秋
3.2.5 子带编码
➢子带编码中,每个子带都要根据所分配的不同 比特数来独立进行编码。
图3-13 简单增量调制原理图
北京信息科技大学
2010年秋
图3-14 ΔM编码原理
北京信息科技大学
2010年秋
2.译码的基本思想
➢ 收到l码后产生一个正斜率电压,在 TS=ΔT时间内均匀上升一个量阶,
➢ 收到一个0码产生一个负的斜变电压,在 TS时间内均匀下降一个量阶 x ( t )
➢ 这样把二进制代码经过译码后变为锯齿 波。
北京信息科技大学
2010年秋
3.2.4 增量调制和自适应增量调制
➢增量调制(ΔM)
Delta Modulation 是用一位二进制码表示相邻模拟抽样值相对
大小的A/D转换方式 量化只限于正和负两个电平,只用一比特传
输一个样值。 ΔM是增量调制方式的代号。
北京信息科技大学
2010年秋
图中x(t)是 一模拟信号, x′(t)为本地 译码器输出 的前一时刻 的量化信号。
2010年秋
2.按压缩品质不同分类
➢按解码后数据与原始数据是否完全一致、 质量有无损失的标准
无损压缩编码(无失真) 有损压缩编码(有失真)
北京信息科技大学
2010年秋
3.按压缩编码算法不同分类
➢统计编码 ➢波形编码 ➢参数编码 ➢混合编码 ➢感知编码
北京信息科技大学
2010年秋
类别 波形编码 参数编码 混合编码 感知编码
第三章 数字音频压缩编码技术及标准精品PPT课件
3.7 MPEG-2音频压缩编码标准
3.8 MPEG-4音频压缩编码标准
合成音频编码
合成/自然音频混合编码
MPEG4 HE-AAC(aacPlus)
EAAC+
结束语
当你尽了自己的最大努力时,失败也是伟大的, 所以不要放弃,坚持就是正确的。
When You Do Your Best, Failure Is Great, So Don'T Give Up, Stick To The End
为了降低传输或存储的费用
频域冗余
听觉冗余
3.3 语音编码技术及标准
3.3.1 语音编码器的性能指标
客观评定方法
3.3.1 语音编码器的性能指标
3.3.1 语音编码器的性能指标
3.3.1 语音编码器的性能指标
3.4 感知音频编码的基本原理
响度
响度
响度
响度
响度
响度
音调
音色
3.5 MPEG-1 音频压缩算法
3.5.1 MPEG-1 音频压缩算法的特 点
3.5.2 MPEG-1 音频压缩编码的基本 原理
3.5.3 MP3 pro
3.6 杜比AC-3音频压缩算法
3.7 MPEG-2音频压缩编码标准
第三章
数字音频压缩编码 技术及标准
窄带语音
窄带语音,又称电话频带语音,信号频带为 300-3400HZ,用于各类电话通信.数字化时采 样频率采用8KHZ,每个样值8b量化,数据传输 率为64bps.
宽带语音
数字音频广播(DAB)信号
高保真立体声音音频信号
数字音频信号进行压缩编码的必要性
谢谢大家
荣幸这一路,与你பைடு நூலகம்行
第三讲音频压缩编码.
Effect of temporal and frequency masking
depending on both time and closeness in frequency.
Li & Drew
23
15500
22050
6550
12
1720
2000
280
在时间上相邻的声音之间也有掩蔽现象。时域掩蔽又分为超前掩蔽和滞后掩蔽。超前掩蔽很短,只有大约5~20 ms,而滞后掩蔽可以持续50~200 ms。
4、时域掩蔽
t
后掩蔽
前掩蔽
同期掩蔽强音
时间掩蔽利用
•基于时间掩蔽效应的编码策略是,编码时将时间上相继的一些样值归并成块,并计算每块内最大样值的比例因子;
信噪比(SNR=20lgL/N
信噪比(SNR=6.02n+1.76
N:量化噪声电平,n:量化比特数
重要结论:量化比特数增加1,
量化信噪比提高6dB
。
5、感知编码器原理
•放弃物理上的同一性
•得到感知上的同一性
降低数据率
掩蔽的用途
q去除会被掩蔽的信号分量
v因为即使传输了也不会被听见§同听阈以下的信号部分不能被人耳听到(称不相关部分),不必传送。(去除不相关部分)
–500Hz以下每个临界频带的带宽大约是100Hz,从500Hz起,临界频带带宽线性增加。
–一个临界频带的带宽单位为1巴克(bark。
0Hz
500Hz
20000Hz f
… …
临界频带单位巴克(Bark)
•对于任何掩蔽频率,巴克被定义为一个临界频带的宽度;
音频压缩编码技术
要的作用。由于人们的听觉系统存在着某些不敏感效 应,某些情况下的音频不能被感知,因此从感知效果 来看这些不敏感的音频分量可认为是知觉冗余。如果 将这部分冗余压缩掉,可提高编码效率,这是音频压 缩的另一个理论基础。ຫໍສະໝຸດ 4、对音频数据压缩的两个途径
(1)利用信号本身的统计特性,在完全不丢失 信息的情况下进行高效的熵编码(平均信息量编码) (2)利用人们对音频信号的感知特性,通过省 略人们所不能分辨或不敏感的信息来压缩信息量,这 就是知觉编码。
就找出信噪比的新估计值,重新计算该子带的掩蔽噪声 比。上述过程重复进行,直到再没有多余的比特可分配 了为止,这个过程称为比特分配。 按输入信号的大小来改变量化步长,输入信号小时 用较小的量化步长,输入信号大时用较大的量化步长。 因此,需要将码中的比特分为两组,一组比特用来量化 步长大小,这组比特代表幅度值的“比例因子”,其余 比 特用来均匀量化与这些量化步长对应的信号,这组比特 代表幅度值的“尾数”。通常量化信噪比SNR取决于位 数 的比特数。 MPEG-1音频数据是一帧一帧传送的,Layer1每帧 有32个子带组成,每个子带包括12个样值每帧有384个
PCM输入
32子带滤波 器组
MDCT
非线性量化 比特率控制
Huffman 编码
复
码流 输出
用 1024点FFT 心理声学模型 辅助数据 编码
Layer3音频编码器框图
声音码流
Huffman 编码 解复用 纠错 边信息 编码
比例因子 恢复
IM DCT
32子带综合 样 滤波器组 值
输 出
Layer3音频解码器框图
,如比特率标记。然后是长度为16bit的循环冗余码,接 着是用于描述比特分配长度为4bit的比特分配域,长度 为6bit的比例因子域,以及子带样值域等。
视频压缩编码和音频压缩编码的基本原理
视频压缩编码和⾳频压缩编码的基本原理本⽂介绍⼀下视频压缩编码和⾳频压缩编码的基本原理。
事实上有关视频和⾳频编码的原理的资料很的多。
可是⾃⼰⼀直也没有去归纳和总结⼀下,在这⾥简单总结⼀下,以作备忘。
1.视频编码基本原理(1)视频信号的冗余信息以记录数字视频的YUV分量格式为例,YUV分别代表亮度与两个⾊差信号。
⽐如对于现有的PAL制电视系统。
其亮度信号採样频率为13.5MHz。
⾊度信号的频带通常为亮度信号的⼀半或更少,为6.75MHz或3.375MHz。
以4:2:2的採样频率为例,Y信号採⽤13.5MHz。
⾊度信号U和V採⽤6.75MHz採样,採样信号以8bit量化,则能够计算出数字视频的码率为:13.5*8 + 6.75*8 + 6.75*8= 216Mbit/s如此⼤的数据量假设直接进⾏存储或传输将会遇到⾮常⼤困难,因此必须採⽤压缩技术以降低码率。
数字化后的视频信号能进⾏压缩主要根据两个基本条件:l 数据冗余。
⽐如如空间冗余、时间冗余、结构冗余、信息熵冗余等,即图像的各像素之间存在着⾮常强的相关性。
消除这些冗余并不会导致信息损失,属于⽆损压缩。
l 视觉冗余。
⼈眼的⼀些特性⽐⽅亮度辨别阈值,视觉阈值,对亮度和⾊度的敏感度不同,使得在编码的时候引⼊适量的误差,也不会被察觉出来。
能够利⽤⼈眼的视觉特性。
以⼀定的客观失真换取数据压缩。
这样的压缩属于有损压缩。
数字视频信号的压缩正是基于上述两种条件,使得视频数据量得以极⼤的压缩,有利于传输和存储。
⼀般的数字视频压缩编码⽅法都是混合编码,即将变换编码,运动预计和运动补偿。
以及熵编码三种⽅式相结合来进⾏压缩编码。
通常使⽤变换编码来消去除图像的帧内冗余,⽤运动预计和运动补偿来去除图像的帧间冗余。
⽤熵编码来进⼀步提⾼压缩的效率。
下⽂简介这三种压缩编码⽅法。
(2)压缩编码的⽅法(a)变换编码变换编码的作⽤是将空间域描写叙述的图像信号变换到频率域。
然后对变换后的系数进⾏编码处理。
多媒体技术基础第3版第3讲话音编码课件
Dolby Vision是一种高动态范围(HDR)视频技术标准,它通过增加亮度和颜色 动态范围来提升图像质量。同时,Dolby Vision还支持音频和视觉的同步处理, 提供更加沉浸式的观影体验。
04 音视频编码的应用场景
CHAPTER
流媒体应用
实时通信
通过音视频编码技术,实现实时 语音和视频通话,如在线会议、
高清与超高清音视频编码技术需要更高的数据传输速率和存储空间,因此需要发展 更高效的编码算法和传输技术,以降低数据传输成本和存储成本。
随着5G、物联网等技术的发展,高清与超高清音视频编码技术的应用场景将更加广 泛,例如在智能家居、远程医疗、在线教育等领域。
人工智能与音视频编码的结合
人工智能技术为音视频编码提供了新 的解决方案,例如利用深度学习技术 进行视频压缩,可以显著提高压缩效 率和图像质量。
远程教育等。
直播服务
音视频编码技术用于在线直播, 如音乐会、比赛、新闻报道等,
让观众实时观看。
点播服务
音视频编码技术也用于提供点播 服务,如在线电影、电视剧、短
视频等。
数字电视应用
数字电视广播
通过音视频编码技术,实现数字 电视信号的传输和接收,提供高 清、流畅的电视节目。
交互电视
音视频编码技术用于交互电视应 用,如视频点播、时移电视、互 动游戏等。
新一代视频压缩标准,支持更 高的分辨率和帧率,适用于
4K和8K视频。
AV1
开源的视频编码标准,旨在提 供更高的压缩效率和更好的版
权保护。
02 音视频编码技术
CHAPTER
音频编码技术
音频编码概述
音频编码是将模拟信号或数字信 号转换为数字信号的过程,以便
第三章 数字电视视音频信号压缩编码技术
为帧内预测编码;三维预测与前面的帧有关,所以也称为帧 间预测编码。
二、 变换编码
变换编码也有变换、量化、编码三大过程:
1、离散余弦变换——DCT的基本思想
DCT变换是把空间域上的信号变换到 频率域上,使能量在空间域上分散分布的 原信号变换后能量在频率域上相对集中到 某些少数区域内,即将空间域上的信号样 值变换成频率域上的系数,经变换后的系 数按频率由低到高分布。
率为 p(xi ),且有 p(xi ) 1,则x1,x2,x3…xn所包含的 i 1
信息量分别为 log2 p(x1), log2 p(x2 ) log2 p(xn ) 。 于是,每个符号所含信息量的统计平均值,即平均
信息量为:
H(x) p(x1)log2 p(x1) p(x2)log2(x2)
⑵对每一块像块进行DCT变换。 ⑶对变换后的系数进行量化。 ⑷进行之字形扫描(读出)和零游程编码。
3、DCT压缩编码的过程为:
三、统计编码(熵编码)
统计编码是基于信号统计特性的编码技术。 基本原理:
按信源符号出现概率的不同分配以不同长
度的码字(bit数),概率大的分配以短的码字, 概率小的分配以长的码字。这样使最终的平均
三、压缩的途径及方法
1、行、场逆程不传送,在接收端重新形成。 2、亚奈奎斯特取样 fs<2fm。使混叠分量与 亮度谱线交错。
3、采用高效编码――信源编码。去除电视信号 中的冗余。
3.3 常用的数字电视视频压缩编码技术
一、 预测编码
1、预测编码的基本原理 利用某种数学模式对以前已知的相关数据进
第三章语音信号的压缩编码PPT课件
R(N
1)R(N
2)...R(0)
a1opt a2opt ... aNopt
opt Rss1rss
R(1)
a1opt
其中rss
R(2)
. .
,Rss
R(N)
R(0)R(1)...R(N1)
.R..(.1)R...(.0..)...R (..N......2...),aopt R(N1)R(N2)...R(0)
2.自适应预测 1)前向自适应预测算法
根据短时间的相关特性R(i),求短时的最佳预 测系数
特点:运算量大,延迟时间大,不能用于高 速系统。
2)后向序贯自适应预测算法
采用不断修正预测系数{hi(n)}的方法来减小瞬时平方
2
差E[d(n)],使{hi(n)}逐步的接近{hiopt(n)}.
①LMS算法(最小均方算法)
b:以有效的方式将可用比特分配给语音信 号
对消除冗余后的信号,从自适应角度 进行最佳编码
1.1预测的自适应
1.预测器的结构
(1).极点预测器 (用重建信号x(n)进行的预测)
a:极点预测器的DPCM方框图
X(n)
d(n)
+
X(n)
量化器
d(n)
编码
P(Z)
预测器
X(n)
+ X(n)
b:预测器传递函数P(z)
值 S~nTS 与真正的样值 SnTS 并不相同。
差值脉冲编码就是对真正的样值 SnTS 与过
去的样值为基础得到的估值 S~nTS 之
间的差值进行量化和编码。
3、DPCM系统模型框图
量化器
预测器
预测器
22 下张
图中:x(n)为抽样信号的实际值
数字音频第3_2讲 音频压缩编解码[OK]
(2)心理声学模型 用于ISO/MPEG 11172-3的心理声学模型有两种,原则上它们 都可以用在Layer I、Layer II及Layer III,但模型I适用于Layer I、Layer II,而模型2用于Layer III。 心理声学模型要完成快速傅里叶变换FFT、子带n的声压电平 、绝对阈即白由声场等响度曲线的最小可闻阈、计算掩蔽门限以 及信号掩蔽比SMR。具体内容结合Layer II编码器给予介绍。 (3)比例因子的确定 为了根据掩蔽阈值来对量化噪声整形,每个子带中都引入了比 例因子,如果发现在一个给定的子带中的量化噪声超过了心理声 学模型所提供的掩蔽阈值,那么该子带的比例因子就将被调整以 减少量化噪声。将各个子带内连续的12个样点(子带采样样本) 归为一块(这是考虑声掩蔽的时域掩蔽特性)。当输入PCM样 本的采样频率为48kHz,分割成32子带(频带为0.75kHz),则子 带样本采样频率为1.5kHz,12个子带样本时间为 (12/1.5) 10-3 = 8 10-3s = 8ms 对每个子带内连续的12个子带样点,进行一次比例因子计算。 找出这12个样本中绝对值中的最大值,此值与表3-6给出的63个 比例因子比较,大于绝对值最大值的一系列值中的最小值定为比 例因子。
模式扩展(mode – extension):2比特。用于表示立体声的扩 展。 Layer I、Layer II指出哪些子带属于强度立体声, 其他为普通立体声编码。 “00” -> 子带4~31,界限为第4 “01” -> 子带8~31,界限为第8 “10” -> 子带12~31,界限为第12 “11” -> 子带16~31,界限为第16 Layer III指出使用强度立体声、MS立体声其中的一种还是两 种。 “00” -> 关闭强度文体声,MS立体声 “01” -> 开启强度立体声,关闭MS立体声 “10” -> 关闭强度立体声,开启MS立体声 “11” -> 开启强度立体声,开启MS立体声 版权(copyright):1比特。.,0-无版权。..1-则有版权。 原件/复制(original/copy):1比特。“0”表示比特流为复制 的,“1”为原件。
数字音视频技术第3章 音频压缩编解码 - 副本
(3)编码器适用的输出码率:一般可变码率中 可设置192、160、128、112、96(kbit/s);恒 定码率中可设置320kbit/s、192kbit/s、64kbit/s (单声)、63kbit/s(单声)、16kbit/s(单声) 等。
(4)闪存器容量:32MB、64MB、128 MB、256MB(也有使用2.5英寸2GB硬 盘的)。
(1)统计编码 (2)波形编码 (3)参数编码 (4)混合编码 (5)感知编码
表3-1
类 别 算 法 PCM 脉冲编码调制
典型设备:MP3播放器
1.MP3播放器的基本组成
MP3播放器由MCU、存储器、存储卡、 音频编解码器、音频功放、电源电路、录 音、输入电路、USB接口电路、LCD驱动 及显示电路、按键电路等组成。
MCU是MP3播放器的核心器件,好像 一个人的大脑,是指挥中心。 存储器也叫MP3播放器的内存,即MP3 整机内部的memory。
一般MP3播放器有2片内存,一片是 EPROM,它是用来存储程序的;另一片 是FLASH或E2PROM,它是用来储存MP3 曲目、录音等内容的。
存储卡也叫MP3的外存,它是用来扩大 MP3容量的,且使用比较灵活,容量的大小 可以根据用户的需要来选择不同的卡。
USB是通用串行总线的意思,它是连 接MP3与PC机的通信桥梁。 MP3播放器的外形和电路的基本组成 如图3-1所示。
每分钟的MP3文件大小只有1MB左右, 与普通CD片容量相同的640MB的MP3音乐 光盘,可以存储十几个小时(150~170首 歌曲)的声音文件,如果采用256MB的 FLASH存储器,也可以存储大约60首歌曲, 播放5个多小时的声音文件。
采用FLASH快闪存储器的MP3随身听, 由于没有体积宏大的电机、磁头、激光读 写机构等部件,所以可随心所欲地把它做 成各种形状,使之具有极小的体积和重量、 非常美观的外型,并且使用及携带方便、 不怕振动、无机械故障等。
音频压缩编码
音频压缩编码音频压缩编码1、什么是语音编码技术?其发展与现状是怎样的?答: 语音信号的数字化传输,一直是通信的发展方向之一。
采用低速率语音编码技术进行语音传输比语音信号模拟传输有诸多优点,现代通信的发展趋势决定了语音编码技术的两大突出优势:∙大大节省了带宽。
从最初的PCM64k编码到现在标准语音压缩协议,如G.723编码速率为5.3K或6.3Kbps;G.729编码速率为8Kbps。
还有未形成协议标准但更低的编码速率已有成熟的算法可以实现,如AMBE、CELP、RELP、VSELP、MELP、MP-MLQ、LPC-10等多种语音压缩算法,最低编码速率达到2.4kbps,有些算法已在包括第三代移动通信系统(3G)的多个领域得到应用。
∙便于实现与IP融合。
Internet的成功运用使得与IP的融合已成必然的发展趋势。
分组语音即将分组交换的概念与语音传输相结合,使得语音信息更易于接入IP网。
而分组语音的关键技术之一就是语音编码技术,低速率的语音编码技术对语音信息的实时性有更好的保证。
采用分组语音传输的网络,其传输的语音信息本身就是分组数据包,这样的语音信息在接入Internet时将是非常的方便。
语音编码既可用软件也可用硬件的方法实现。
软件实现就是将压缩算法用软件方法实现,这样做的好处是成本低、修改方便灵活,但处理速度较慢,不易保证处理的实时性。
采用硬件实现就是将语音压缩算法固化到专用DSP芯片中,这样处理速度快,便于实时处理。
2、1.1.2 什么是G.711编码?答: G.711建议一种典型的采用PCM波形编码的压缩编解码方法,可以获得较高的语音质量,但数据压缩率低。
G.711建议描述了PCM的μ律(A律)压缩,如下图所示:采样率为8kHz,12bit线性A/D变换为数字信号,再经过对数PCM后压缩为8bit,一路音频为64kbit/s。
音频压缩技术1、音频信号的指标有哪些?答: 1)频带宽度:音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。
第3章 数字音频压缩编码技术及标准
层次
算法
压缩比
4:1 6:1~8:1 10:1~12:1
立体声信号所对应的数码率
384 kbit/s 256~192 kbit/s 128~112 kbit/s
54
Ⅰ MUSICAM* Ⅱ MUSICAM Ⅲ ASPEC * *
3.5.2 MPEG-1音频编码的基本原理
MPEG-1使用感知音频编码来达到既压缩音频数 据又尽可能保证音质的目的。 听觉系统有许多特性,感知音频编码的理论依据 是听觉系统的掩蔽效应特性。 其基本思想就是在编码过程中保留有用的信息而 丢掉被掩蔽的信号,其结果是经编解码之后重构 的音频信号与编码之前的原始音频信号不完全相 同,但人的听觉系统很难感觉到它们之间的差别。
3.1.1 音频信号的分类
声音的质量与它所占 用的频带宽度有关。
男 女 电
性 性 话
语 语 语
音 音 音
100Hz ~ 9 000Hz 150Hz ~ 10 000Hz 300Hz ~ 3 400Hz
调幅广播(AM)
调频广播(FM) 高 保 真 音 响
50Hz ~ 7 000Hz
20Hz ~ 15 000Hz 20Hz ~ 20 000Hz
4
3.2 数字音频压缩编码的必要性和可能性 数字音频压缩的必要性
1秒钟声音文件的数据量(不压缩):
采样频率(Hz) 量化精度(比特数) 声道数 8 1024 1024 (MB)
例:计算1分钟双声道、16bit量化精度、44.1kHz采 样频率声音的不压缩的数据量是多少?
44.1103 16 2 S 60 10.09(MB) 8 1024 1024
56
MPEG-1 Audio Layer II 的码流结构
音频压缩编码原理及标准
三、音频压缩编码原理及标准
编辑p编码的基本原理 2、MPEG-1 音频压缩编码标准 3、杜比AC-3 音频压缩算法 4、 其他MPEG音频压缩编码
编辑ppt
2
音频压缩编码原理及标准
音频压缩编码的基本原理 音频信号压缩编码的必要性 数字音频的质量取决于:采样频率和量化位数这两个参数,为 了保真在时间变化方向上取样点尽量密,取样频率要高;在幅度取 值上尽量细,量化比特率要高 ,直接的结果就是存储容量及传输信 道容量要求的压力 音频信号的传输率 = 取样频率* 样本的量化比特数*通道数
由听觉冗余引出了降低数据率 ,实现更高效率的数字音频传输 的可能
编辑ppt
8
音频压缩编码原理及标准
音频压缩编码的基本原理 音频压缩编码方法的分类及典型代表 编码 信号系统如何把一定的信息内容包含在少量特定信号的排列组
合之中 1、采用一定的格式来记录数字数据 2、采用一定的算法来压缩数字数据以减少存贮空间和提高传
7
音频压缩编码原理及标准
音频压缩编码的基本原理 音频信号压缩编码的可能性 听觉冗余 根据分析人耳对信号频率、时间等方面具有有限分辨能力而设
计的心理声学模型,将通过听觉领悟信息的复杂过程,包括接受信 息,识别判断和理解信号内容等几个层次的心理活动,形成相应的 连觉和意境
由此构成声音信息集合中的所以数据,并非对人耳辨别声音的 强度、音调、方位都产生作用,形成听觉冗余
编辑ppt
4
音频压缩编码原理及标准
音频压缩编码的基本原理 音频信号压缩编码的可能性 数字音频信号中包含的对人们感受信息影响可以忽略的成分称
为冗余,包括时域冗余、频域冗余和听觉冗余 时域冗余 时域冗余的表现形式 1、幅度分布的非均匀性 信号的量化比特分布是针对信号的整个动态范围而设定的,对
网络技术
MPEG-7
编码算法
MPEG-1
采用子带编码(sub-band coding,SBC)方法 算法思想:首先把时域中的声音数据变换到频域,对 频域内的子带分量分别进行量化和编码,然后根据心 理声学模型确定样本的精度,从而达到压缩数据量的 目的。 与音源特定编码法不同,SBC不局限于只对话音进行 编码,也不局限于哪一种声源。 MPEG声音数据压缩的基础是量化。虽然量化会带来 失真,但MPEG标准要求量化失真对于人耳来说是感 觉不到的。
5.3kb/s和6.3kb/s
16kb/s
1990年:G.727 16-40kb/s 嵌入式ADPCM标准。
1992年:G.728 / G.729 16kb/s LD-CELP
21
所采用的算法
算法 PCM 名称 均匀量化 数据率 64kb/s 标准 G.711 公共网 ISDN 话ห้องสมุดไป่ตู้ 应用
波 形 编 码
G.721:自适应差值脉冲编码调制
23
ADPCM编/解码器
A律或μ律PCM输入信号转换成均匀的PCM。差 分信号等于均匀的PCM输入信号与预测信号之差。 “自适应量化器”用4位二进制数表示差分信号,但 只用其中的15个数(即15个量级)来表示差分信号,这 是为防止出现全“0”信号。“逆自适应量化器”从 这4位相同的代码中产生量化差分信号。预测信号和 这个量化差分信号相加产生重构信号。“自适应预 测器”根据重构信号和量化差分信号产生输入信号 的预测信号,这样就构成了一个负反馈回路
30
MPEG-1 ISO/IEC 11172 MPEG-2 ISO/IEC 13818
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三讲音频压缩编码•音频压缩编码基本原理•MPEG-1 音频压缩算法及标准•MPEG-2 Audio•MPEG-4 Audio•AC-3音频编码11中国传媒大学一、音频压缩编码基本原理•1、什么是音频信号?•通常将人耳可以听到的频率在20Hz到20KHz的声波称为声音信号,声音振动被拾音器转换成电信号称为音频信号。
•人的发音器官发出的声音频段在80Hz到3400Hz之间;•人说话的信号频率在300Hz到3000Hz,将该频段的信号称为语音信号。
22中国传媒大学一、音频压缩编码基本原理2、音频压缩的可能性(1)声音信号中的“冗余”频域:非均匀功率密度谱,低频能量高,高频能量低。
时域:信息冗余度主要表现在幅度非均匀分布,即不同幅度的样值出现的概率不同,小幅度的样值比大幅度样值出现的概率高。
33中国传媒大学一、音频压缩编码基本原理2、音频压缩的可能性(2)人耳的听觉特性,声音中存在与听觉无关的“不相关”部分。
对于人耳感觉不到的不相关部分不编码、不传送,以达到数据压缩的目的。
——利用了人耳听觉的心理声学特性。
声音主观感受——响度、音调、音色;声音客观特性——振幅、频率、频谱特性;44中国传媒大学https:///watch?v=qNf9nzvnd1k示例视频——二、人类听觉系统的感知特性55中国传媒大学二、人类听觉系统的感知特性听阈-频率曲线两个声音响度级相同,但强度不一定相同,还与频率有关;声压级越高,等响度曲线趋于平坦;人耳对3~4KHz的声音感觉最灵敏;66中国传媒大学人耳的掩蔽效应•一个较弱的声音的听觉感受被另一个较强的声音影响的现象称为人耳的听觉掩蔽效应。
听不到叫被掩蔽声,起掩蔽作用的叫掩蔽声。
•被掩蔽音单独存在时的听阈分贝值,为绝对听阈。
即安静环境中能被人耳听到的纯音最小值。
也称静听域。
•频域掩蔽/时域掩蔽。
77中国传媒大学掩蔽效应演示——Simultaneous masking.mp488中国传媒大学9中国传媒大学91、频域掩蔽(纯音间的掩蔽)一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽。
https:///watch?v=2HDka1hYiCk10中国传媒大学10Effect on threshold for 1 kHz masking toneLi & Drew10频域掩蔽域随频率变化曲线音调音的掩蔽阈的宽度随频率而变化;掩蔽曲线不对称,高频段一侧的曲线斜率缓些;低频音容易对高频音产生掩蔽。
1111中国传媒大学12中国传媒大学12频域掩蔽域随声压级变化曲线演示2、人耳模型——How ear works视频1313中国传媒大学演示2、人耳模型——Cochelar animation1414中国传媒大学15中国传媒大学152、人耳模型•声音频率发生转换–声波冲击耳鼓(Eardrum)和连着的耳骨;–耳鼓和耳骨将机械振动传递给耳蜗(Cochlea )–耳蜗薄膜的椭圆窗沿基底膜长度方向引导行波;–行波在薄膜的特定频率感应位置产生峰值响应;–薄膜的特定频率感应位置为特定频带提供峰值响应;•可以把耳蜗当成一组高度重叠的带通滤波器人耳相当于一个滤波器组•人类听觉系统大致等效于一个在0Hz到20KHz频率范围内由25个重叠的带通滤波器组成的滤波器组。
–人耳不能区分同一频带内同时发生的不同声音;–人耳频带被称为临界频带(critical band);–500Hz以下每个临界频带的带宽大约是100Hz,从500Hz起,临界频带带宽线性增加。
–一个临界频带的带宽单位为1巴克(bark) 。
……0Hz500Hz20000Hz f1616中国传媒大学17中国传媒大学17临界频带单位巴克(Bark )• 对于任何掩蔽频率,巴克被定义为一个临界频带的宽度;• 巴克单位的意义: 用巴克来衡量每个临界频带的宽度大致都是相同的。
用巴克单位表示的声音掩蔽效应1818中国传媒大学•临界频带是指当某个纯音被以它为中心频率、且具有一定带宽的连续噪声所掩蔽时,如果该纯音刚好被听到时的功率等于这一频带内的噪声功率,这个带宽为临界频带宽度。
•掩蔽效应在一定频率范围内不随带宽增大而改变,直至超过某个频率值。
•通常认为从20Hz到16kHz有25个临界频带,单位为bark。
•1bark =一个临界频带的宽度•f< 500Hz 时1bark约为f/100;• f >500Hz 时1bark约为9+4log2(f/1000);•临界频带(Hz)约为24.7×(4.37F+1)BF为中心频率(KHz)1919中国传媒大学临界频率(Hz)临界频率(Hz)频带低端高端宽度频带低端高端宽度001001001320002320320 11002001001423202700380 22003001001527003150450 33004001001631503700550 44005101101737004400700 55106301201844005300900 663077014019530064001100 777092015020640077001300 8920108016021770095001800 910801270190229500120002500 10127014802102312000155003500 11148017202402415500220506550 12172020002802020中国传媒大学21中国传媒大学21在时间上相邻的声音之间也有掩蔽现象。
时域掩蔽又分为超前掩蔽和滞后掩蔽。
超前掩蔽很短,只有大约5~20 ms ,而滞后掩蔽可以持续50~200 ms 。
4、时域掩蔽t后掩蔽前掩蔽同期掩蔽强音时间掩蔽利用•基于时间掩蔽效应的编码策略是,编码时将时间上相继的一些样值归并成块,并计算每块内最大样值的比例因子;•据心理声学的掩蔽模型,对同一子带内相邻三个比例因子,可丢弃较小的因子,以减少传输比例因子的比特数。
2222中国传媒大学23中国传媒大学23Effect of temporal and frequency maskingdepending on both time and closeness in frequency.Li & Drew23中国传媒大学24240111 1111 1111 11000000 0000 0000 00101000 0000 0000 0011正弦波幅度0值允许的最大正弦波峰值正弦波负峰值位置图6 16比特有效位编码的二进制、十六进制编码、量化级和相对满度电平的对应关系基准电平位置0000 1111 1111 11110000 1100 1100 1101SMPTERP155标准基准电平位置数字峰值表显示的是准峰值,因此正弦波基准电平的实际峰值还将高3dB数字峰值表显示的是准峰值,因此如保证正弦波的峰值信号不过载,仪表应保持不超过-3dBFS 时为宜音频信号幅度与编码的关系中国传媒大学25250111 1111 1111 11000000 0000 0000 00101000 0000 0000 0011正弦波幅度0值允许的最大正弦波峰值正弦波负峰值位置图6 16比特有效位编码的二进制、十六进制编码、量化级和相对满度电平的对应关系基准电平位置0000 1111 1111 11110000 1100 1100 1101SMPTERP155标准基准电平位置数字峰值表显示的是准峰值,因此正弦波基准电平的实际峰值还将高3dB数字峰值表显示的是准峰值,因此如保证正弦波的峰值信号不过载,仪表应保持不超过-3dBFS 时为宜得到音频信号幅度与编码的关系26中国传媒大学26音频压缩处理相关的术语信噪比(SNR)=信号峰值—噪声有效值信号掩蔽比(SMR)=信号峰值—最小掩蔽阈值掩蔽噪声比(MNR)=最小掩蔽阈值—量化噪声MNR (dB) =SNR(dB)—SMR(dB)信噪比(SNR)=20lgL/N 信噪比(SNR)=6.02n+1.76N:量化噪声电平,n:量化比特数重要结论:量化比特数增加1,量化信噪比提高6dB。
5、感知编码器原理•放弃物理上的同一性•得到感知上的同一性降低数据率2727中国传媒大学28中国传媒大学28掩蔽的用途q 去除会被掩蔽的信号分量v 因为即使传输了也不会被听见§同听阈以下的信号部分不能被人耳听到(称不相关部分),不必传送。
(去除不相关部分)q不理会可能被掩蔽的量化噪声v 因为会被信号淹没§按同听阈以上的信号值计算量化比特数,对信号重新量化,使量化噪声在同听阈以下即可。
Masking curveNoiseSignal29中国传媒大学29Examplem m-1m+16、音频信号压缩编码方法(1 )波形编码——直接对时域或频域波形编码PCM , DPCM, ADPCM ,子带编码,自适应变换编码(2 )参数编译码器从语音波形信号中提取语音生成模型的参数,使用这些参数通过语音生成模型重构出语音。
(3 )混合编码(4 )感知编码3030中国传媒大学三、子带编码子带编码(sub-band coding,SBC)•基本思想:使用一组带通滤波器(band-pass filter,BPF)把输入音频信号的频带分成若干个连续的频段,每个频段称为子带。
对每个子带中的音频信号采用单独的编码方案去编码。
在信道上传送时,将每个子带的代码复合起来。
在接收端解码时,将每个子带的代码单独解码,然后把它们组合起来,还原出原来的音频信号。
3131中国传媒大学32中国传媒大学321、感知子带压缩算法以心理声学模型为基础,主要利用了听觉阈值和听觉掩蔽特性。
1、感知子带压缩算法Ø用多相滤波器组,将宽带声音信号分割为多个子频带,对各子带的音频样值分别进行压缩编码。
Ø理想的频带的分割应模仿临界频带,各子带的宽度不一致,随着频率的升高,子带的带宽也增加。
Ø每个子带内根据信号掩蔽比确定样值的量化级数,量化噪声的高度与带内同听阈值越接近,数据率压缩越充分。
Ø子带越多(越窄),在相同音质下编码所得数据率越低;传输中的比特差错仅限制在很窄的子频带内,影响越小。
3333中国传媒大学34中国传媒大学34窄子带能改善声音质量2、子带编码的好处第一,对每个子带信号分别进行自适应控制,量化阶的大小可以按照每个子带的能量电平加以调节。
第二,可根据每个子带信号在感觉上的重要性,对每个子带分配不同的位数,用来表示每个样本值。
例如,在低频子带中,为了保护音调和共振峰的结构,就要求用较小的量化阶、较多的量化级数,即分配较多的位数来表示样本值。
而话音中的摩擦音和类似噪声的声音,通常出现在高频子带中,对它分配较少的位数。