第6章 音频压缩编码技术及其国际标准-1

合集下载

mp3压缩编码标准

mp3压缩编码标准

mp3压缩编码标准
MP3(MPEG-1 Audio Layer III)是一种数字音频压缩编码标准,它是MPEG(Moving Picture Experts Group)制定的音频压缩标准
之一。

MP3编码标准使用了一种称为“感知编码”的技术,它利用
人耳对声音的感知特性来去除音频信号中的冗余信息,从而实现高
效的压缩。

MP3编码标准的主要特点包括以下几个方面:
1. 压缩比,MP3编码可以实现相对较高的压缩比,通常可以将
原始音频数据压缩到其约1/10至1/12的大小,而且在保持相对较
高的音质的同时实现了这一压缩比。

2. 损失压缩,MP3是一种损失压缩技术,这意味着在压缩过程
中会丢失一些音频信息,但通常这些丢失的信息对于人耳来说是难
以察觉的,因此可以接受这种损失以换取更高的压缩比。

3. 采样率和比特率,MP3编码标准支持不同的采样率和比特率,用户可以根据需要选择不同的设置来平衡音质和文件大小之间的关系。

常见的比特率有128kbps、192kbps、256kbps等,而常见的采
样率有44.1kHz、48kHz等。

4. 广泛应用,由于MP3编码标准具有较高的压缩比和良好的音质表现,因此在互联网上广泛应用于音乐下载、在线音乐流媒体等领域,成为了数字音频传输和存储的重要标准之一。

总的来说,MP3是一种高效的音频压缩编码标准,它在保证相对较高音质的同时实现了较高的压缩比,因此被广泛应用于音频领域。

第三讲音频压缩编码.

第三讲音频压缩编码.
•据心理声学的掩蔽模型,对同一子带内相邻三个比例因子,可丢弃较小的因子,以减少传输比例因子的比特数。
Effect of temporal and frequency masking
depending on both time and closeness in frequency.
Li & Drew
23
15500
22050
6550
12
1720
2000
280
在时间上相邻的声音之间也有掩蔽现象。时域掩蔽又分为超前掩蔽和滞后掩蔽。超前掩蔽很短,只有大约5~20 ms,而滞后掩蔽可以持续50~200 ms。
4、时域掩蔽
t
后掩蔽
前掩蔽
同期掩蔽强音
时间掩蔽利用
•基于时间掩蔽效应的编码策略是,编码时将时间上相继的一些样值归并成块,并计算每块内最大样值的比例因子;
信噪比(SNR=20lgL/N
信噪比(SNR=6.02n+1.76
N:量化噪声电平,n:量化比特数
重要结论:量化比特数增加1,
量化信噪比提高6dB

5、感知编码器原理
•放弃物理上的同一性
•得到感知上的同一性
降低数据率
掩蔽的用途
q去除会被掩蔽的信号分量
v因为即使传输了也不会被听见§同听阈以下的信号部分不能被人耳听到(称不相关部分),不必传送。(去除不相关部分)
–500Hz以下每个临界频带的带宽大约是100Hz,从500Hz起,临界频带带宽线性增加。
–一个临界频带的带宽单位为1巴克(bark。
0Hz
500Hz
20000Hz f
… …
临界频带单位巴克(Bark)
•对于任何掩蔽频率,巴克被定义为一个临界频带的宽度;

音频压缩编码技术

音频压缩编码技术

要的作用。由于人们的听觉系统存在着某些不敏感效 应,某些情况下的音频不能被感知,因此从感知效果 来看这些不敏感的音频分量可认为是知觉冗余。如果 将这部分冗余压缩掉,可提高编码效率,这是音频压 缩的另一个理论基础。ຫໍສະໝຸດ 4、对音频数据压缩的两个途径
(1)利用信号本身的统计特性,在完全不丢失 信息的情况下进行高效的熵编码(平均信息量编码) (2)利用人们对音频信号的感知特性,通过省 略人们所不能分辨或不敏感的信息来压缩信息量,这 就是知觉编码。
就找出信噪比的新估计值,重新计算该子带的掩蔽噪声 比。上述过程重复进行,直到再没有多余的比特可分配 了为止,这个过程称为比特分配。 按输入信号的大小来改变量化步长,输入信号小时 用较小的量化步长,输入信号大时用较大的量化步长。 因此,需要将码中的比特分为两组,一组比特用来量化 步长大小,这组比特代表幅度值的“比例因子”,其余 比 特用来均匀量化与这些量化步长对应的信号,这组比特 代表幅度值的“尾数”。通常量化信噪比SNR取决于位 数 的比特数。 MPEG-1音频数据是一帧一帧传送的,Layer1每帧 有32个子带组成,每个子带包括12个样值每帧有384个
PCM输入
32子带滤波 器组
MDCT
非线性量化 比特率控制
Huffman 编码

码流 输出
用 1024点FFT 心理声学模型 辅助数据 编码
Layer3音频编码器框图
声音码流
Huffman 编码 解复用 纠错 边信息 编码
比例因子 恢复
IM DCT
32子带综合 样 滤波器组 值
输 出
Layer3音频解码器框图
,如比特率标记。然后是长度为16bit的循环冗余码,接 着是用于描述比特分配长度为4bit的比特分配域,长度 为6bit的比例因子域,以及子带样值域等。

视音频压缩编码技术的发展

视音频压缩编码技术的发展

4、码率压缩编码方式
(2)预测编码
1)帧内预测编码
扫描方向
将当前像素实际值与其预测值的差值进行量化编码称为 预测编码。
预测值由同一行前面的相临像素和上面相临行的相关像 素来产生时,称为二维预测。二维预测可去除空间冗余。
预测精度越高,编码效率越高。
4、码率压缩编码方式
输入X
e0
e 0′ Q
IQ
e 0′ IQ
231 -74 -12 -1 -1 -2 -1 0 -102 -5 1 0 1 0 0 0 -13 7 0 0 0 0 0 0
-4 0 0 -1 0 0 0 0 0 -1 -1 0 0 0 0 0 0 -1 1 1 0 0 0 0 00000000 00000000
Adaptive Quantization
编码器
D1 D1
DN DN
解码器
预测编解码系统框图
4、码率压缩编码方式
2)帧间预测编码 帧间预测可去除空间冗余,差值概率分布更集中在0附近, 可获更大压缩比。
帧差信号

预测帧
量化器
运动补偿
帧存
反量化
运动估计
运动矢量,去接收端
帧间预测框图 链图
4、码率压缩编码方式
3) 预测编码的意义: • 画面上大部分是亮度变化缓慢的平坦部分和慢 运动部分,空间和时间相关性强,差值信号很小; • 大部分差值集中在0附近,传送差值信号减小了 原数据幅值范围。 • 原图像信号的幅值分布概率均匀,而且差值的 概率分布很不均匀,这就为后面的熵编码创造条件。
0 –5 5 –2 –5 2 1 -1
DCT系数的量化
➢ DCT本身并不能进行码率压缩, DCT只是降低相关 性(冗余度)。 ➢ 数据压缩从量化开始。量化对每个系数分别用大于1 的数去除,对除得到的系数取整数,人眼对低频敏感, 对高频不太敏感,对低频分量采取细量化,对高频分量采 取粗量化,高频分量会多数变0。 ➢ 丢弃低能量高频系数不影响重建图像的主观质量。 ➢ 改变量化系数可改变压缩比。 ➢ 量化是有损压缩,产生块效应

多媒体数据压缩编码技术概述

多媒体数据压缩编码技术概述

多媒体数据压缩编码技术概述多媒体数据压缩编码技术是一种通过减少或去除冗余数据来减小多媒体文件的存储空间或传输带宽的过程。

这些技术广泛应用于图像、音频和视频等各种形式的多媒体数据。

下面将对多媒体数据压缩编码技术的主要方法进行概述。

1. 无损压缩编码:无损压缩编码技术可以将多媒体数据压缩到较小的大小,而不会丢失原始数据。

该技术通过利用多媒体数据中的冗余和统计特性来实现压缩效果。

其中,哈夫曼编码、算术编码和Lempel-Ziv编码等是常用的无损压缩编码方法。

2. 有损压缩编码:有损压缩编码技术可以在一定程度上丢失原始数据,并将其转换为较小的文件大小。

这种压缩方法适用于某些多媒体数据,如音频和视频等,因为人类的感知系统对这些数据中的一些细微变化不太敏感。

有损压缩编码方法包括离散余弦变换(DCT)、小波变换、运动补偿和预测编码等。

3. 基于上下文的压缩编码:这种压缩编码技术利用多媒体数据内部的上下文信息来实现更高的压缩效果。

上下文信息包括像素点的位置、颜色和周围像素点的关系等。

基于上下文的编码方法有助于提高压缩比,并减少信号的失真。

包括了一些流行的基于上下文的压缩编码算法,如JPEG(图像)、MP3(音频)和H.264/AVC(视频)。

4. 神经网络压缩编码:近年来,神经网络技术在多媒体数据压缩编码领域取得了显著的进展。

这些技术利用深度学习的方法来学习多媒体数据中的复杂模式,并使用这些模式进行压缩编码。

神经网络压缩编码方法通常能够在保持较高视觉和听觉质量的同时,实现更高的压缩比。

综上所述,多媒体数据压缩编码技术是一种通过减少或去除冗余数据来减小多媒体文件的存储空间或传输带宽的过程。

该技术涵盖了无损压缩编码、有损压缩编码、基于上下文的压缩编码和神经网络压缩编码等方法。

这些技术在多媒体数据领域发挥着重要的作用,帮助人们有效地处理和传输大量的多媒体数据。

5. 图像压缩编码技术:图像压缩编码技术是多媒体数据压缩编码中的一个重要领域。

压缩编码标准

压缩编码标准

2、数据压缩方法
无损压缩 有损压缩
统计编码
行 程 编 码 哈 夫 曼 编 码 香 农 编 码 算 LZW 术 编 编 码 码
PCM编码 PCM编码
预测编码
变换编码
混合编码
DPCM编码 DPCM编码 ADPCM编码 ADPCM编码 帧间预测 编码
离散余弦 变换 K-L变换 小波变换
JPEG MPEG H.261
二、有损压缩:压缩时会丢失部分数据,且丢失的数 据无法恢复。是不可逆的压缩,即解压缩以后的数据 将模拟量经过采样、量化和编码得到其数字编码。 (脉冲编码调制) 根据算法模型,用已有的样本值对新样本进行预测,得 到一个预测值,将实际值与预测值相减得到预测误差, 再对该误差值进行编码,如果预测越准确,误差值就 对该误差值进行编码, 对该误差值进行编码 越小(那误差的幅度肯定小于原始信号),那编码所需 的位数就可以减少,达到压缩的目的。 将原始信号从一个域(如时间域)变换到另一个域(如 频率域),然后对变换后的信号进行编码。主要用于图 像数据的压缩。
第6章 多媒体数据的压缩
6.1 数据压缩概述
数据压缩的必要性 数据冗余
6.2 数据压缩的基本原理
信息编码基础 数据压缩方法
6.3 数据压缩的编码算法
统计编码( 统计编码(行程编码 预测编码 变换编码
哈夫曼编码
算术编码) 算术编码)
6.4 常用多媒体数据压缩标准
音频压缩编码标准 静态图像压缩标准 动态图像压缩标准视频压缩编码标准
6.1
数据压缩概述
声音、图像、 声音、图像、视频和动画的数据量太大
1、 压缩的必要性
声音 分钟立体声音乐采样频率为44.1KHZ 16位量化精度的数据量为 44.1KHZ, 1分钟立体声音乐采样频率为44.1KHZ,16位量化精度的数据量为 44.1 * 1000 * 16 * 2 *60 / 8 =10.09MB 存储一首4分钟的歌曲约需40MB 存储一首4分钟的歌曲约需40MB 图像

如何进行音频编码与压缩

如何进行音频编码与压缩

如何进行音频编码与压缩音频编码与压缩是现代科技领域中的重要技术,它可以将音频信号转换为数字形式并压缩存储,从而实现音频的传输和处理。

在本文中,我将介绍如何进行音频编码与压缩的基本原理及常用方法。

第一章:音频编码基础音频编码是将连续的模拟音频信号转换为数字信号的过程。

其目的是减小信号的数据量和提高传输效率。

音频编码可以分为有损压缩和无损压缩两种方法。

1.1 有损压缩有损压缩是指在压缩过程中丢失一部分音频信号的信息,从而实现更高的压缩比例。

常用的有损音频编码方法包括MP3、AAC和OGG等。

1.2 无损压缩无损压缩是指在压缩过程中不丢失任何音频信号的信息,但压缩比例相对较低。

常见的无损音频编码方法有FLAC和ALAC等。

第二章:MP3音频编码与压缩MP3是目前最为广泛应用的音频编码与压缩格式。

它的优势在于压缩比例高且音质损失较小。

2.1 MP3编码原理MP3采用了以人耳听觉特性为基础的心理声学模型,并结合了离散余弦变换(DCT)、量化和哈夫曼编码等技术。

首先,通过DCT将时域信号转换为频域信号;然后,对频域信号进行量化,去除一些听觉上不敏感的信号成分;最后,再使用哈夫曼编码对量化后的频域信号进行进一步压缩。

2.2 MP3压缩方法MP3的压缩方法主要包括有损压缩和无损压缩两种。

有损压缩主要通过减少和丢弃不重要的信号成分来实现,而无损压缩则通过优化编码算法来达到较高的压缩比例。

第三章:AAC音频编码与压缩AAC是一种高级音频编码格式,具有更高的音质和更低的比特率,被广泛应用于音乐和视频领域。

3.1 AAC编码原理AAC采用了一种叫做MDCT(Modified Discrete Cosine Transform)的分析变换技术,能够更好地提取音频信号的频率特征。

在量化和编码过程中,AAC还引入了更加精细的量化表和自适应编码算法,以提升音频质量和压缩比。

3.2 AAC压缩方法AAC压缩方法主要包括有损压缩和无损压缩两种。

多媒体课件-MPEG压缩技术及音频信号的编码和解码

多媒体课件-MPEG压缩技术及音频信号的编码和解码

B帧图像也是采用运动补偿预测编码的方法, 利用过去或未来的I帧或P帧图像来获取预测误 差,编码传输速率5KB/S 。
传播方向 I
B B P BB P
可以预测的图像就是可以压缩掉的部分,在 电视信号中,画面上运动的部分,在帧和帧 之间必然有连续性。当前图像是我们正看的 图像,这个图像可以看作是前面某时刻图像 的位移。位移的幅度和方向在图像画面中不 同位置是不同的。这样我们就可以根据前面 某时刻的图像信息和他的位移信息,恢复当 前的图像信息。
功能
语法规定的层次
功能
随机存取段落 宏块条层(Slice layer)
随机存取视频单 宏块层(Macroblock

layer)
重新同步单 元
运动补偿单 元
基本编码单元 块层(Block layer)
DCT单元
所谓4∶2∶0是指在垂直方向每隔一行去除一行色度信号。
2.4.3 MPEG-1 视频编辑器
I帧压缩去掉图像的空间冗余度,P帧和B帧去掉时间 冗余度.
2.4.2 MPEG-1 的图像格式 3. 帧群组
帧组群(GOP,Group Of Pictures),也叫 图像群,由数帧编码帧按一定规律构成的单 元。NTSC制式每组6帧,PAL制式每组5帧。
帧组群中帧安排的特点:两个特点,保证帧 组的独立性,使图像能够编辑和随机存取
SC 22块
PAL 22块
分成3层 6小块
Y:4块 Cb:1块 Cr:1块
分成 像素点
8*8=64
量化
8位 量化
2.4.2 MPEG-1 的图像格式 2.三种帧的概念
MPEG-1标准规定,把传送的图像重新定义为三种 帧图像
帧内编码帧(intracoded frame),简称I帧 向前预测编码帧(forward predictive coded frame),简称P帧 双向预测内插编码帧(bidirectionlly predicted interpolative coded frame),简称 B帧

音频压缩编码原理及标准.共69页

音频压缩编码原理及标准.共69页
音频压缩编码原理及标准.
11、获得的成功越大,就越令人高兴 。野心 是使人 勤奋的 原因, 节制使 人枯萎 。 12、不问收获,只问耕耘。如同种树 ,先有 根茎, 再有枝 叶,尔 后花实 ,好好 劳动, 不要想 太多, 那样只 会使人 胆孝懒 惰,因 为不实 践,甚 至不接 触社会 ,难道 你是野 人。(名 言网) 13、不怕,不悔(虽然只有四个字,但 常看常 新。 14、我在心里默默地为每一个人祝福 。我爱 自己, 我用清 洁与节 制来珍 惜我的 身体, 我用智 慧和知 识充实 我的头 脑。 15、这世上的一切都借希望而完成。 农夫不 会播下 一粒玉 米,如 果他不 曾希望 它长成 种籽; 单身汉 不会娶 妻,如 果他不 曾希望 有小孩 ;商人 或手艺 人不会 工作, 如果他 不曾希 望因此 而有收 益。-- 马钉路 德。
25、学习是劳动,是充满思想的劳动。——乌申斯基
谢谢!
21、要知道对好事的称颂过于夸大,也会招来人们的反感轻蔑和嫉妒。——培根 22、业精于勤,荒于嬉;行成于思,毁于随。——韩愈
23、一切节省,归根到底都归——莎士比亚

音频压缩

音频压缩

音频压缩技术指的是对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。

它必须具有相应的逆变换,称为解压缩或解码。

音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。

、音频压缩算法的主要分类及典型代表一般来讲,可以将音频压缩技术分为无损(lossless)压缩及有损(lossy)压缩两大类,而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩,以及多种技术相互融合的混合压缩等等。

各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法效率(即压缩比例),以及编解码延时等都有很大的不同。

各种压缩技术的应用场合也因之而各不相同。

(1)时域压缩(或称为波形编码)技术是指直接针对音频PCM码流的样值进行处理,通过静音检测、非线性量化、差分等手段对码流进行压缩。

此类压缩技术的共同特点是算法复杂度低,声音质量一般,压缩比小(CD音质> 400kbps),编解码延时最短(相对其它技术)。

此类压缩技术一般多用于语音压缩,低码率应用(源信号带宽小)的场合。

时域压缩技术主要包括G.711、ADPCM、LPC、CELP,以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM(SB-ADPCM)技术如G.721、G.722、Apt-X等。

(2)子带压缩技术是以子带编码理论为基础的一种编码方法。

子带编码理论最早是由Crochiere等于1976年提出的。

其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。

通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型(心理声学模型),通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的,因此又可称为感知型(Perceptual)压缩编码。

MPEG标准主要有以下五个

MPEG标准主要有以下五个

MPEG标准主要有以下五个,MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等。

该专家组建于1988年,专门负责为CD建立视频和音频标准,而成员都是为视频、音频及系统领域的技术专家。

及后,他们成功将声音和影像的记录脱离了传统的模拟方式,建立了ISO/IEC1172压缩编码标准,并制定出MPEG-格式,令视听传播方面进入了数码化时代。

因此,大家现时泛指的MPEG-X版本,就是由ISO(International图一Organization for Standardization)所制定而发布的视频、音频、数据的压缩标准。

MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码技术以减小时间冗余度,利用DCT技术以减小图像的空间冗余度,利用熵编码则在信息表示方面减小了统计冗余度。

这几种技术的综合运用,大大增强了压缩性能。

MPEG-1MPEG-1标准于1992年正式出版,标准的编号为ISO/IEC11172,其标题为“码率约为1.5Mb/s用于数字存贮媒体活动图像及其伴音的编码”。

MPEG-1层1 数字盒式录音带MPEG-1层2 DAB,VCDMPEG-1层3 Internet,MP3音乐MPEG-1 audio layer 1类型:Audio制定者:MPEG所需频宽:384kbps图二压缩率 4:1特性:编码简单,用于数字盒式录音磁带,2声道,VCD中使用的音频压缩方案就是MPEG-1层Ⅰ。

优点:压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。

可以达到“完全透明”的声音质量(EBU音质标准)缺点:频宽要求较高应用领域:voip版税方式:Free备注:MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准,它分为三个层次:--层1(Layer 1):编码简单,用于数字盒式录音磁带--层2(Layer 2):算法复杂度中等,用于数字音频广播(DAB)和VCD等--层3(Layer 3):编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍MUSICAM(MPEG-1 audio layer 2,即MP2)类型:Audio制定者:MPEG所需频宽:256~192kbps压缩率 8:1--6:1特性:算法复杂度中等,用于数字音频广播(DAB)和VCD等,2声道,而MUSICAM由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用。

音频压缩编码原理及标准

音频压缩编码原理及标准
教育电声系统
三、音频压缩编码原理及标准
编辑p编码的基本原理 2、MPEG-1 音频压缩编码标准 3、杜比AC-3 音频压缩算法 4、 其他MPEG音频压缩编码
编辑ppt
2
音频压缩编码原理及标准
音频压缩编码的基本原理 音频信号压缩编码的必要性 数字音频的质量取决于:采样频率和量化位数这两个参数,为 了保真在时间变化方向上取样点尽量密,取样频率要高;在幅度取 值上尽量细,量化比特率要高 ,直接的结果就是存储容量及传输信 道容量要求的压力 音频信号的传输率 = 取样频率* 样本的量化比特数*通道数
由听觉冗余引出了降低数据率 ,实现更高效率的数字音频传输 的可能
编辑ppt
8
音频压缩编码原理及标准
音频压缩编码的基本原理 音频压缩编码方法的分类及典型代表 编码 信号系统如何把一定的信息内容包含在少量特定信号的排列组
合之中 1、采用一定的格式来记录数字数据 2、采用一定的算法来压缩数字数据以减少存贮空间和提高传
7
音频压缩编码原理及标准
音频压缩编码的基本原理 音频信号压缩编码的可能性 听觉冗余 根据分析人耳对信号频率、时间等方面具有有限分辨能力而设
计的心理声学模型,将通过听觉领悟信息的复杂过程,包括接受信 息,识别判断和理解信号内容等几个层次的心理活动,形成相应的 连觉和意境
由此构成声音信息集合中的所以数据,并非对人耳辨别声音的 强度、音调、方位都产生作用,形成听觉冗余
编辑ppt
4
音频压缩编码原理及标准
音频压缩编码的基本原理 音频信号压缩编码的可能性 数字音频信号中包含的对人们感受信息影响可以忽略的成分称
为冗余,包括时域冗余、频域冗余和听觉冗余 时域冗余 时域冗余的表现形式 1、幅度分布的非均匀性 信号的量化比特分布是针对信号的整个动态范围而设定的,对
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6
6.1 概述 ➢声音简介
声音是听觉器官对声波的感知 声波是通过空气或其他介质传播的连续振动
7
6.1 概述
声波具有普通波所具有的特性
反射 reflection 折射 refraction 衍射diffraction 干涉 interference 共振 resonance
声强、响度:声波的压强,或能量,或振幅 音高、音调:声波的频率 音色、音品:声波的谐波频谱和包络决定
11
6.1 概述
(2)人类的听觉特性 语音和音乐信号最终是传送给人听的,人的听
觉生理—心理特性在整个音频传输过程中起着重要 的作用。
由于人们的听觉系统存在着某些不敏感效应, 对于某些情况下的音频不能被感知,因此从感知效 果来看,这些不敏感的音频分量可认为是知觉冗余。
如果将这部分冗余压缩掉,可提高编码效率。 这是音频压缩的另一个理论基础。
44.1X16=705.6kbit/s 传输与存储均有很大困难。
5
6.1 概述
声音编码(Audio Coding)是一类高保真的音 频编码,它的带宽应为20Hz至20KHz。
但在许多场合,主要是传送语音,而不是主要传送 音乐,故音频带宽在50Hz至7KHz就够了。在电话通信 中,其带宽只有300Hz至3.4KHz,在声音编码中,主要 是 传 送 语 音 的 一 类 编 码 称 之 为 语 音 编 码 ( Speech Coding)。在电视电话及会议电视中主要是语音编码, 而数字电视、高清晰度电视中的伴音却是属于高保真 度的音频编码。
如在会议电视中,由于通信线路带宽的 限制,图像是可以跳帧的,每秒钟能传10 帧已经很不错了,但语音的传送却不可以 是断续的,而且要有较高的音质。
4
6.1 概述
➢数字声音信号的数据量相比数字视频要小很 多,但是如果不压缩的话,对传输和存储的 压力还是很大。
数字声音信号与图像信号一样,通过取 样、量化、编码后的数据也非常大。如CD机, 采用44.1kHz取样,16bit量化,即使单声道, 其编码数据也达到:
20
6.1.1 人的听觉生理——心理特性
对频率的感知表现为音高 客观上用频率表示声音的音高,单位是Hz 主观感觉的音高单位则是“美(Mel)” 主观音高与客观音高是对数关系 Mel 1000 log2 (1 f )
21
6.1.1 人的听觉生理——心理特性
“音高—频率”曲线
22
6.1.1 人的听觉生理——心理特性
利用信号本身的统计特性,在 完全不丢失信息的情况下,进
行高效的熵编码
(平均信息量编码);
利用人们对音频信号的感 知特性,通过省略人们所 不能分辨或不敏感的信息
来压缩信息量,这就是
知觉编码。
针对音频中存在 的冗余,目前实 用的有熵编码和 知觉编码两种方
法。
14
6.1 概述 ➢声音质量评价的两种方法
客观质量度量 用信噪比(SNR)
第六章 音频压缩编码技术及其国际标准
1
6.1 概述 6.2 MPEG音频压缩编码 6.3 Dolby AC- 概述
6.1.1 人的听觉生理——心理特性 6.1.2 数字音频信号压缩编码的主要类型 6.1.3 音频压缩编码技术标准介绍
3
6.1 概述
➢声音(Audio)的传送是通信中不可或缺 的内容 ➢电视及图像通信中除了传送图像外,传送 声音也是极为重要的。
主观质量度量 专家打分
有时同时采取两种方法评估,有时以主观 质量度量为主
15
6.1 概述
信噪比SNR (signal-to-noise ratio)
SNR 10 log10
(Vsignal )2 (Vnoise )2
20
log10
Vsignal
Vnoise
SNR表示信号能量和噪声能量的比,单位为分贝(db)
17
6.1.1 人的听觉生理——心理特性
对响度的感知 声音的响度就是声音的强弱 在物理上,用声强W/cm2或声压dyn/cm2度量 在心理上,用phon(方)或sone(宋)度量 人耳的听觉范围 听阈:人耳朵刚可听见的声音强度 痛域:使人耳感到疼痛的声音强度 听觉范围:听阈和痛域之间
12
6.1 概述
➢音频数据压缩一般有两种方法: (1)利用信号本身的统计特性,在完全
不丢失信息的情况下,进行高效的熵编码 (平均信息量编码);
(2)利用人们对音频信号的感知特性, 通过省略人们所不能分辨或不敏感的信息 来压缩信息量,这就是知觉编码。
13
6.1 概述
音频数 据压缩 一般有 两个途

18
6.1.1 人的听觉生理——心理特性
“听阈—频率”曲线和“痛阈—频率”曲线
19
6.1.1 人的听觉生理——心理特性
人耳能够感知的频率范围约20-20000Hz 高保真声音(high-fidelity audio): 10 ~ 20000 Hz 声音(audio/sound): 20~ 20 000Hz 话音(speech/voice): 300~3400 Hz 亚音/次音(subsonic): < 20 Hz 超声(ultrasonic): > 20000 Hz
16
6.1 概述
主观平均分(mean opinion score,MOS)
表: 声音质量MOS评分标准
分数 5 4 3 2 1
质量等级 优(Excellent) 良(Good) 中(Fair) 差(Poor) 劣(Bad)
失真级别 无察觉 (刚)察觉但不讨厌 (察觉)有点讨厌 讨厌但不反感 极讨厌(令人反感)
8
6.1 概述
9
6.1 概述 ➢ 声音信息能够压缩的基本依据是
(1)声音信息的冗余度 (2)人类的听觉特性
10
6.1 概述 (1)声音信息的冗余度
从信息保持的角度讲,只有当信源本身 具有冗余度,才能对其压缩。
语音和音乐信号中正是存在着时域信息 冗余及频域信息冗余,所以可以进行压缩。 这是对音频信号进行压缩的一个理论基础。
临界频带 人耳刚刚可以感知两种频率的声音有差别的频 率范围 临界频带的单位叫做Bark(巴克),1Bark等于一 个临界频带的宽度。 通常认为音频有25个临界频带,见表。 临界频带的宽度随频率的变化而变化
相关文档
最新文档