mp3压缩编码标准

合集下载

7种常见的音频格式简析

7种常见的音频格式简析

7种常见的音频格式简析(MP3,WMA,WAV,APE,FLAC,OGG,AAC)MP3全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer Ⅲ),是当今最为流行的一种数字音频编码和有损压缩格式,在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。

它设计用来大幅度地降低音频数据量,而对于大多数用户来说重放的音质与最初的不压缩音频相比感觉不到很大的下降。

简单地说,MP3就是一种音频压缩技术,由于这种压缩方式的全称叫MPEG Audio Layer3,所以人们把它简称为MP3。

MP3是利用MPEG Audio Layer 3 的技术,将音乐以1:10 甚至1:12 的压缩率,压缩成容量较小的文件。

换句话说,能够在音质丢失很小的情况下把文件压缩到更小的程度,而且还可以较好的保持了原来的音质。

另外,正是因为MP3体积小,音质高的特点使得MP3格式几乎成为网上音乐的代名词。

每分钟音乐的MP3格式只有1MB左右大小,这样每首歌的大小只有3-4兆字节。

使用MP3播放器对MP3文件进行实时的解压缩(解码),这样,高品质的MP3音乐就播放出来了。

● MP3格式特点MP3是一个有损数据压缩格式,它丢弃掉脉冲编码调制(PCM)音频数据中对人类听觉不重要的数据(类似于JPEG是一个有损图像压缩),从而达到了小得多的文件大小(其在较大的压缩率以及基本保持低音频部分不失真的情况下,以牺牲声音文件中12kHz到16kHz的高音频部分来实现小文件)。

MP3音频可以按照不同的位速进行压缩,提供了在数据大小和声音质量之间进行权衡的一个范围。

另外,MP3格式使用了混合的转换机制将时域信号转换成频域信号。

例如,我们平时在网上见到的一些低质的MP3有64kbps,但好的也有320kbps的,两者声音差距也相当明显。

mpeg-1 标准

mpeg-1 标准

mpeg-1 标准MPEG-1标准。

MPEG-1是一种音频和视频压缩标准,它是由Moving Picture Experts Group (MPEG)制定的。

MPEG-1标准于1993年发布,是数字音频和视频压缩的首个国际标准。

它的出现标志着数字多媒体时代的开始,为数字音频和视频的传输和存储提供了重要的技术支持。

MPEG-1标准主要包括三个部分,音频压缩、视频压缩和多媒体系统。

在音频压缩方面,MPEG-1采用了一种称为Layer I、Layer II和Layer III的压缩技术,其中Layer III又被称为MP3,它成为了数字音乐传输和存储的主流格式。

在视频压缩方面,MPEG-1采用了一种称为MPEG-1视频的压缩技术,它可以将视频压缩到原始大小的100-200分之一。

多媒体系统部分定义了音频和视频的同步传输和存储方法,为多媒体应用提供了统一的标准。

MPEG-1标准的出现对数字音频和视频的发展产生了深远的影响。

首先,MPEG-1标准的制定使得数字音频和视频的传输和存储成为了可能,为数字音乐、数字电视等领域的发展提供了技术支持。

其次,MPEG-1标准的应用推动了数字音频和视频产业的快速发展,为数字多媒体产业的形成奠定了基础。

最后,MPEG-1标准的成功制定为后续的MPEG-2、MPEG-4等标准的制定和发展奠定了基础,为数字多媒体技术的不断进步提供了动力。

然而,随着技术的不断发展,MPEG-1标准在某些方面已经显得有些过时。

首先,MPEG-1标准的压缩比较低,无法满足高清晰度视频的传输和存储需求。

其次,MPEG-1标准的编解码复杂度较高,导致了在一些低性能设备上无法实时解码。

最后,MPEG-1标准在音频和视频的同步传输方面存在一定的局限性,无法满足一些特殊应用的需求。

为了解决这些问题,MPEG组织陆续发布了MPEG-2、MPEG-4等更新的标准,以满足不断发展的数字多媒体技术需求。

同时,随着计算机和网络技术的飞速发展,新的音频和视频压缩标准如AAC、H.264等也相继出现,逐渐取代了MPEG-1标准在一些领域的应用。

音频压缩编码原理及标准.

音频压缩编码原理及标准.

声音压缩编码的声学原理
声音信号的频率范围? 20Hz-20KHz
声音频谱的特点: 高频段快速下降,高幅值大部分集中在中频段,有的延 伸到低频段
电平分布特点: 声音信号的电平存在冗余
声音压缩编码的声学原理
掩蔽效应
一个较弱的声音(被掩蔽音)的听觉感受被 另一个较强的声音(掩蔽音)影响
掩蔽量
时频变化的方法:离散余弦变换DCT 、改进的离 散余弦变换MDCT
离散余弦变换(DCT)
时频变换(DFT)
逆变换
变换时将PCM样值分为N长的一块块进行变换 块长:一块中包含的样本数N 窗长:N ×(1/Fs) 频率分辨率:Fs/N 频率轴上的所能得到的最小频率间隔 块越长,变化编码的频率分辨率越高,但损失了时域分辨率
MPEG-1 层1原理方框图
MPEG-1 层1 1、子带分析滤波器组
将宽频带信号分割成32个子带信号 子带为等宽的均匀划分
2、标定
将每个子带中12个采样值归并成一个块 找出12个采样值中绝对值最大的样本值 根据其值的大小确定比例因子(查表得到,大于该绝对值 的一系列值中的最小值定为比例因子) 将12个采样值用比例因子归一化(标定)
可预先定义压缩后的数码率
编码后的数据流支持循环冗余校验 支持数据流中载带附加信息
MPEG-1 音频压缩编码的基本原理
MPEG-1音频压缩的基础是量化
MPEG-1使用感知音频编码来达到压缩音频数据又尽可能 保证音质的目的。
感知音频编码的理论依据是听觉系统的掩蔽特性。基本 思想是在编码过程中,保留有用的信息而丢掉被掩蔽的 信号。
MPEG-1 层2

SCPSI 比例因子选择信息
为了降低传送比例因子的码率,信号平稳变化时,只传 送其中1个或2个较大的比例因子;对于瞬态变化的信号 ,3个比例因子都传递。 00 传送所有的3个比例因子 01 传送第1和第3个比例因子 10 传送一个比例因子 11 传送第1和第2个比例因子

MP3编码分析(一)

MP3编码分析(一)

MP3编码分析(⼀)⽬录⼀、MP3⽂件格式解析 (2)1、MP3⽂件及MPEG概述 (2)⼆、MP3编码原理 (4)1、MP3编码流程 (4)2、⼦带滤波器排——编码流程图中编号为1 (5)3、改良后的DCT(MDCT)——编码流程图中编号为2 (7)4、声⾳⼼理学模型——编码流程图中编号为3 (8)5、位元分配、量化和Huffman编码——4 (12)三、SHINE程序分析 (13)1、⽂件数据结构 (13)2、编码前化⼯作 (14)3、MP3编码 (14)4、后处理 (17)注:下⾯的资料参考⽹上论⽂整理⽽来⼀、MP3⽂件格式解析1、MP3⽂件及MPEG概述MP3⽂件是由帧(frame)构成的,帧是MP3 ⽂件最⼩的组成单位。

MP3 的全称应为MPEG1 Layer-3 ⾳频⽂件。

MPEG(MovingPicture Experts Group),MPGE⾳频层指MPGE⽂件中的声⾳部分,根据编码质量和复杂程度分为3层,即Layer-1、Layer2、Layer3,对应MP1、MP2、MP3三种格式⽂件。

2、MP3⽂件结构MP3⽂件分为TAG_V2(ID3V2),Frame, TAG_V1(ID3V1)共3部分。

(1)Frame格式帧头为4个字节,其结构如下typedef FrameHeader{unsigned intsync:11; //同步信息unsigned intversion:2; //版本unsigned intlayer:2; //层unsigned intprotection:1; // CRC校验unsigned intbitrate:4; //位率unsigned intfrequency:2; //采样频率unsigned intpadding:1; //帧长调节unsigned intprivate:1; //保留字unsigned intmode:2; //声道模式unsigned int mode extension:2; //扩充模式unsigned intcopyright:1; // 版权unsigned intoriginal:1; //原版标志unsigned intemphasis:2; //强调模式}HEADER, *LPHEADER;⽆论帧多长,每帧播放时间为26ms。

mp3文件格式

mp3文件格式

MP3文件格式一.概述:MP3文件是由帧(frame)构成的,帧是MP3文件最小的组成单位。

MP3的全称应为MPEG1 Layer-3音频文件,MPEG(Moving Picture Experts Group)在汉语中译为活动图像专家组,特指活动影音压缩标准,MPEG 音频文件是MPEG1标准中的声音部分,也叫MPEG 音频层,它根据压缩质量和编码复杂程度划分为三层,即Layer-1、Layer2、Layer3,且分别对应MP1、MP2、MP3这三种声音文件,并根据不同的用途,使用不同层次的编码。

MPEG 音频编码的层次越高,编码器越复杂,压缩率也越高,MP1和MP2的压缩率分别为4:1和6:1-8:1,而MP3的压缩率则高达10:1-12:1,也就是说,一分钟CD 音质的音乐,未经压缩需要10MB 的存储空间,而经过MP3压缩编码后只有1MB 左右。

不过MP3对音频信号采用的是有损压缩方式,为了降低声音失真度,MP3采取了“感官编码技术”,即编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。

二.整个MP3文件结构:MP3文件大体分为三部分:TAG_V2(ID3V2),Frame, TAG_V1(ID3V1)三.MP3的FRAME 格式:每个FRAME 都有一个帧头FRAMEHEADER,长度是4BYTE(32bit),帧头后面可能有两个字节的CRC 校验,这两个字节的是否存在决定于FRAMEHEADER 信息的第16bit,为0则帧头后面无校验,为1则有校验,校验值长度为2个字节,紧跟在FRAMEHEADER 后面,接着就是帧的实体数据了,格式如下:FRAMEHEADERCRC(free) MAIN_DATA 4 BYTE0 OR 2 BYTE 长度由帧头计算得出 1.帧头FRAMEHEADER 格式如下:AAAAAAAA AAABBCCD EEEEFFGH IIJJKLMM13个帧头字符的含义如下:Sign Length (bits) Position (bits)DescriptionA11 (31-21) Frame sync (all bits set) B 2 (20,19) MPEG Audio version00 - MPEG Version 2.501 - reserved ID3V2包含了作者,作曲,专辑等信息,长度不固定,扩展了ID3V1的信息量。

MP3编码格式

MP3编码格式

MP3 编码格式MP3是MPEG-1 Audio Layer 3的简称,是当今比较流行的一种数字音频编码和有损压缩格式(有Layer 3,也必然有Layer1和Layer2,也就是MP1和MP2,但不在本文讨论范围之内)。

MP3技术的应该可以用来大幅度的降低音频文件存储所需要的空间。

它丢掉脉冲编码调制(PCM)音频数据中对人类听觉不重要得数据,从而达到了较高的压缩比(高达12:1-10:1)。

简单地说,MP3在编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成有较高压缩比的MP3文件,并使压缩后的文件在回放时也能够达到比较接近原音源的效果。

MP3的音频质量取决于它的Bitrate和Sampling frequency,以及编码器质量。

MP3的典型速度介于每秒128到320kb之间。

采样频率也有44.1,48和32 kHz三种频率,比较常见的是采用CD采样频率——44.1kHz。

常用的编码器是LAME,它完全遵循LGPL的MP3编码器,有着良好的速度和音质。

一.概述:MP3 文件是由帧(frame)构成的,帧是MP3 文件最小的组成单位。

MP3的全称应为MPEG1 Layer-3 音频文件,MPEG(Moving Picture Experts Group) 在汉语中译为活动图像专家组,特指活动影音压缩标准,MPEG音频文件是MPEG1 标准中的声音部分,也叫MPEG 音频层,它根据压缩质量和编码复杂程度划分为三层,即Layer-1、Layer2、Layer3,且分别对应MP1、MP2、MP3 这三种声音文件,并根据不同的用途,使用不同层次的编码。

MPEG 音频编码的层次越高,编码器越复杂,压缩率也越高,MP1 和MP2 的压缩率分别为4:1 和6:1-8:1,而MP3 的压缩率则高达10:1-12:1,也就是说,一分钟CD 音质的音乐,未经压缩需要10MB的存储空间,而经过MP3 压缩编码后只有1MB 左右。

MP3软解码库Libmad详细解释

MP3软解码库Libmad详细解释

本文档版权归属于 西安交通大学人工智能与机器人研究所 作者: 李国辉 g h l i @ a i a r . x j t u . e d u . c n
第2章 Mp3 解码算法流程
MP3 的全称为 MPEG1 Layer-3 音频文件, MPEG 音频文件是 MPEG1 标准中的声音部 分,也叫 MPEG 音频层,它根据压缩质量和编码复杂程度划分为三层,即 Layer1、Layer2、 Layer3,且分别对应 MP1、MP2、MP3 这三种声音文件,并根据不同的用途,使用不同层 次的编码。MPEG 音频编码的层次越高,编码器越复杂,压缩率也越高,MP1 和 MP2 的压 缩率分别为 4:1 和 6:1-8:1,而 MP3 的压缩率则高达 10:1-12:1。一分钟 CD 音质的音 乐,未经压缩需要 10MB 的存储空间,而经过 MP3 压缩编码后只有 1MB 左右。不过 MP3 对音频信号采用的是有损压缩方式,为了降低声音失真度,MP3 采取了“ 心理声学模型”, 即编码时先对音频文件进行频谱分析,然后再根据心理声学模型把谱线分成若干个阈值分 区,并计算每个阈值分区的阈值,接着通过量化和熵编码对每个谱线进行编码,最后形成具 有较高压缩比的 MP3 文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效 果。
2.1. Mp3 文件格式
MP3 文件以一帧为一个编码单元, 各帧编码数据是独立的。 为了清晰而准确地描述 mp3 文件格式,下面采用位流语法描述,这种语法格式与 c 语言近似,易于理解,且描述清晰。 其中粗体表示码流中的数据项,bslbf 代表位串,即“Bit string, left bit first ”,uimsbf 代表无 符号整数,即”unsinged integer, most significant bit first”,数字表示该数据项所占的比特数。

mp3音频格式解析

mp3音频格式解析

MPEG2.5 384 1152 576
【每帧采样数表】
帧长度是压缩时每一帧的长度,包括帧头。它将填充的空位也计算在内。LayerI 的一个空位长 4 字节,LayerII 和 LayerIII 的空位是 1 字节。当读取 MPEG 文件时必 须计算该值以便找到相邻的帧。
注意:因为有填充和比特率变换,帧长度可能变化。 从头中读取比特率,采样频率和填充, LyaerI 使用公式: 帧长度(字节) = 每帧采样数 / 采样频率(HZ) * 比特率(bps)/ 8 +填充 * 4 LyerII 和 LyaerIII 使用公式: 帧长度(字节)= 每帧采样数 / 采样频率(HZ) * 比特率(bps)/ 8 + 填充 例: LayerIII 比特率 128000,采样频率 44100,填充 0 =〉帧大小 417 字节
每帧持续时间(秒) = 每帧采样数 / 采样频率(HZ)
可以这么理解:每帧采用数就是要采取的总数,采样率就是采取的速度,相除 就得到时间。 这样通过计算可知 MPEG1 Layer III 采样率为 44.1KHz 的一帧持续时间为 26.12...不是整数,不过我们权且认为它就是 26 毫秒吧。 如果是 MPEG2 Layer III 采样率为 16KHz 的话那一帧要持续 36 毫秒,这个相差 还是蛮大的,所以还是应该通过计算来获的,当然可以按 MPEG 版本,层数和采样 率来建一个表,这样直接查表就可以知道时间了。
G
1
(9) 填充位(填充用来达到正确的比特率。)
0 – 没有填充
1 – 填充了一个额外的空位
H
1
(8) 私有 bit,可以用来做特殊应用。例如可以
用来触发应用程序的特殊事件。
I

MP3编码原理概述

MP3编码原理概述

音频压缩由编码和解码两个部分组成。

把波形文件里的数字音频数据转换为高度压缩的形式(称为比特流)即为编码;要解码则把比特流重建为波形文件。

音频压缩可以分为无损(lossless)压缩和有损压缩。

无损压缩就是尽量降低音频数据的冗余度,以减小其体积。

音频信号经过编码和解码之后,必须要和原来的信号一致。

无损压缩的压缩率是比较有限的,不过现在比较出色的APE能做到50%的压缩率(本人用Monkey's Audio 3.97,Extra High压缩模式下压缩WAV,压缩率最低能达到52%);有损压缩就是用尽一切手段,包括无损压缩用到的方法,丢掉一切能丢掉的数据,以减小体积。

而音频压缩后解码听起来起码是要跟原来差不多的,有损压缩的压缩比能大幅提高,MP3就是属于有损压缩,压缩比是12:1(128kbps)。

MP3文件是由帧(frame)构成的,帧是MP3文件最小的组成单位。

什么是帧?还记得最初的动画是怎么做的吗?不同的连续画面切换以达到动态效果,每幅画面就是一个“帧”,不同的是MP3里面的帧记录的是音频数据而不是图形数据。

MP3的帧速度大概是30帧/秒。

每个帧又由帧头和帧数据组成,帧头记录着该帧的基本信息,包括位率索引和采样率索引(这对理解ABR和VBR编码方式很重要)。

帧数据,顾名思义就是记录着主体音频数据。

上面说的都是MP3编码的基础,但事实上,早期的编码器都非常不完善,压缩算法近于粗暴,音质很不理想。

MP3的音质达到现在的水平有两次飞跃:人体听觉心理学模型(Perceptual Model)的导入和VBR技术的应用。

◆人体听觉心理学模型下面将简要介绍一下几个重要原理:1) 最小听觉门槛判定(The minimal audition threshold)人耳的听力范围是20Hz-20k Hz的频率范围,但是人耳对不同的频率声音的灵敏度是不同的,不同频率的声音要达到能被人耳听到的水平所需要的强度是不一样。

各种音频视频压缩标准介绍汇总

各种音频视频压缩标准介绍汇总

H.264H.264是ITU-T以H.26x系列为名称命名的视频编解码技术标准之一。

国际上制定视频编解码技术的组织有两个,一个是“国际电联(ITU-T)”,它制定的标准有H.261、H.263、H.263+等,另一个是“国际标准化组织(ISO)”它制定的标准有MPEG-1、MPEG-2、MPEG-4等。

而H.264则是由两个组织联合组建的联合视频组(JVT)共同制定的新数字视频编码标准,所以它既是ITU-T的H.264,又是ISO/IEC的MPEG-4高级视频编码(AdvancedVideoCoding,AVC),而且它将成为MPEG-4标准的第10部分。

因此,不论是MPEG-4AVC、MPEG-4Part10,还是ISO/IEC14496-10,都是指H.264。

H.264是国际标准化组织(ISO)和国际电信联盟(ITU)共同提出的继MPEG4之后的新一代数字视频压缩格式,它既保留了以往压缩技术的优点和精华又具有其他压缩技术无法比拟的许多优点。

[4]1.低码率(LowBitRate):和MPEG2和MPEG4ASP等压缩技术相比,在同等图像质量下,采用H.264技术压缩后的数据量只有MPEG2的1/8,MPEG4的1/3。

[4]显然,H.264压缩技术的采用将大大节省用户的下载时间和数据流量收费。

[4]2.高质量的图象:H.264能提供连续、流畅的高质量图象(DVD质量)。

[4]3.容错能力强:H.264提供了解决在不稳定网络环境下容易发生的丢包等错误的必要工具。

[4]4.网络适应性强:H.264提供了网络抽象层(NetworkAbstractionLayer),使得H.264的文件能容易地在不同网络上传输(例如互联网,CDMA,GPRS,WCDMA,CDMA2000等)。

[4]H.264最大的优势是具有很高的数据压缩比率,在同等图像质量的条件下,H.264的压缩比是MPEG-2的2倍以上,是MPEG-4的1.5~2倍。

MP3文件格式解析

MP3文件格式解析

MP3文件格式解析Peter Lee 2008-06-05目录一、概述二、整个MP3文件结构三、MP3帧格式1. 帧头格式2. MAIN_DATA四、ID3标准1. ID3V12. ID3V2五、MP3文件实例剖析六、资料一、概述MP3 文件是由帧(frame)构成的,帧是MP3 文件最小的组成单位。

MP3 的全称应为MPEG1 Layer-3 音频文件,MPEG(Moving Picture Experts Group)在汉语中译为活动图像专家组,特指活动影音压缩标准,MPEG 音频文件是MPEG1 标准中的声音部分,也叫MPEG 音频层,它根据压缩质量和编码复杂程度划分为三层,即Layer-1、Layer2、Layer3,且分别对应MP1、MP2、MP3 这三种声音文件,并根据不同的用途,使用不同层次的编码。

MPEG 音频编码的层次越高,编码器越复杂,压缩率也越高,MP1 和MP2 的压缩率分别为4:1 和6:1-8:1,而MP3 的压缩率则高达10:1-12:1,也就是说,一分钟CD 音质的音乐,未经压缩需要10MB的存储空间,而经过MP3 压缩编码后只有1MB 左右。

不过MP3 对音频信号采用的是有损压缩方式,为了降低声音失真度,MP3 采取了“感官编码技术”,即编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3 文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。

二、整个MP3文件结构MP3文件大体分为三部分:TAG_V2(ID3V2),Frame, TAG_V1(ID3V1)ID3V2包含了作者,作曲,专辑等信息,长度不固定,扩展了ID3V1的信息量。

Frame...Frame一系列的帧,个数由文件大小和帧长决定每个FRAME的长度可能不固定,也可能固定,由位率bitrate决定每个FRAME又分为帧头和数据实体两部分帧头记录了mp3的位率,采样率,版本等信息,每个帧之间相互独立ID3V1包含了作者,作曲,专辑等信息,长度为128BYTE。

计算机常用的编码

计算机常用的编码

计算机常用的编码一、字符编码字符编码是用于将字符集(如英文字母、数字、标点符号等)转换为计算机可以理解的二进制数的一种方式。

以下是几种常见的字符编码:1.ASCII码:ASCII码是用于将字符集转换为二进制数的标准编码方式。

它包含了128个不同的字符,每个字符由7位二进制数表示。

2.Unicode:Unicode是一种国际化的字符编码标准,它包含了世界上几乎所有语言的字符。

每个Unicode字符由16位二进制数表示。

3.GB2312和GBK:GB2312是中国国家强制标准,包含了6000多个常用汉字和英文符号。

GBK是在GB2312基础上扩展的,包含了更多的汉字和符号。

4.UTF-8:UTF-8是一种可变长度的字符编码,它能够表示任何Unicode字符。

UTF-8编码的每个字符由1到4个字节表示,对于英文字母和数字,UTF-8编码与ASCII码相同。

二、数值编码数值编码是用于将数值转换为二进制数的一种方式。

以下是几种常见的数值编码:1.二进制:二进制是最简单的数值编码方式,只有0和1两种状态。

2.十进制:十进制是我们日常使用的数值编码方式,它有0到9共10个数字。

3.十六进制:十六进制是一种简化的数值编码方式,它有0到9和A到F共16个数字。

在计算机科学中,十六进制常用于表示二进制数的简写方式。

三、图像编码图像编码是将图像数据转换为二进制数的一种方式。

以下是几种常见的图像编码:1.JPEG:JPEG是一种常用的图像压缩标准,它采用有损压缩算法,能够在保证图像质量的前提下,大大减少图像数据的存储空间。

2.PNG:PNG是一种无损压缩的图像格式,它能够保留原始图像的所有信息,并且在压缩后不失真。

PNG广泛应用于网页设计、软件界面设计等领域。

3.GIF:GIF是一种基于LZW算法的压缩图像格式,它可以支持动态图像和透明背景。

GIF广泛应用于网页中的动画、图标等设计。

四、音频编码音频编码是将音频数据转换为二进制数的一种方式。

单通道16位采样率为44.1K音频信号进行压缩,实现.mp3格式的数据结构(上海大学DSP技术及其应用 )

单通道16位采样率为44.1K音频信号进行压缩,实现.mp3格式的数据结构(上海大学DSP技术及其应用 )

上海大学2014~2015学年秋季学期研究生课程考试文献阅读报告课程名称:DSP技术及其应用课程编号:071000907题目: 单通道16位、采样频率44.1K音频信号压缩,实现*.MP3格式的数据结构研究生姓名: 学号:评语:成绩: 任课教师:评阅日期:单通道16位、采样率为44.1K音频信号进行压缩,实现*.mp3格式的数据结构2015/1/15摘要:在目前的信息社会,需要应用和传输大量的语音信息,这些信息中存在着大量的冗余,如果不去除掉这些冗余,在其传输和存储的过程中,将会占用大量的资源,因此,语音压缩技术受到了人们的普遍关注。

在此基础上,对MP3编码器的基本原理和基本结构进行了研究,并对其几个关键模块包括心里声学模型、子带滤波、量化编码等进行了深入的研究。

研究结果表明MP3要具有良好的编码质量,本文着重于如何将音频信号压缩为MP3格式。

关键词:MP3编解码;音频;算法原理;算法16-channel sampling rate of 44.1K audio signal compression,implement data structures mp3 formatAbstract:In the current information society,there is much voice information which contains mass of redundancy.It will take up vast resources in transmission and storage processes if the redundant is not removed.Therefore,voice compression technology has been paid widely attention.Based on all of these,the basic principle and structure of MPEG-1 layer3 audio code is investigated.Especially,several key modules such as psychoacoustic model,sub-band filtering and quantization coding are carried on further study.The research results show that the MP3 encoding quality to have,This article focuses on how to get the audio signal compression to MP3 format。

MP3编码算法分析

MP3编码算法分析

文章编号:1008-1402(2005)01-0064-04①MP3编码算法分析马昌萍, 宋 丹, 马幼鸣(北京理工大学电子工程系,北京100081)摘 要: MPEG-I 标准中规定了三层压缩方案,分别称为层1、层2和层3.层1方案实施起来最简单,但是压缩后的音质不如其它两层好;层3方案,即MP3编码,在低比特率时能得到最好的音质,由MP3编码的音乐文件适合在互联网上广泛传播,因此深受欢迎,但是它算法复杂,实施起来难度最大.本文通过介绍MPEG-I 标准中层3的数字音频编码方案,详细地分析了MP3算法中所采用的子带编码、心理声学模型和哈夫曼编码等关键技术,给出了实现上述关键技术的具体步骤,并且进一步提出了可以对编码方案进行细化的可行性建议,用以提高编码效率.关键词: MP3;MPEG-I ;数字音频中图分类号: T N919.81 文献标识码: A0 引 言近年来,MP3播放器倍受人们的青睐,它音质出色、外形小巧、携带方便、存储量大,可以存储十几首到几十首歌曲.人们很容易就可以从互联网上下载到适合播放的几乎任何曲目,也可以将存储在光盘中的MP3或者C D 歌曲拷贝到播放器中播放.带着它就可以随时随地欣赏美妙的音乐了.MP3播放器之所以既具有出色的音质又有大的存储容量,是MP3这种数字音频编码带给我们的好处.MP3是一种数字音频的编解码方式,它是活动图像专家组MPEG (M oving Pictures Experts G roup )在1992年制定的具有1.5Mbit/s 数据传输率的数字存储媒体运动图像及其伴音MPEG-I 的标准草案中音频编码的一部分.MPEG-I 音频压缩标准[1](IS O11172)提供了一种高保真度,高压缩比的压缩算法.在这个标准中,描述了具有不同复杂度和性能的子带音频编码方案,以适应各种高音质数字音频的应用.根据编码计算复杂度及编码效率的不同,分为层1、层2、层3三种标准,分别简称为MP1,MP2,MP3.层次越高编码后的音乐质量越好,压缩率越高,而编码算法也越复杂,对计算机的计算能力要求也就越高.MP3能用尽可能低的比特率实现C D 音质的音乐而不会出现数据的损失.如果对一段声音数据不压缩的话,那么每存储一秒钟的16比特、44.1kH z 抽样的C D 格式的声音记录,每声道要高达760kb/s 的比特率.而通过MP3音频编码算法的压缩,我们可以把存储空间压缩到原来的十二分之一,而不会降低声音的质量.MP3编码之所以能够实现主要得益于对人的听觉特性的研究和编码技术的发展.MP3与MP1,MP2基本原理相同,都是基于人的心理声学模型,利用听觉掩蔽效应达到压缩数字音频信号的目的,而且MP3采用了许多的关键技术,包括子带编码技术,FFT ,M DCT ,非均匀量化编码,哈夫曼编码技术等.MP1,MP2的编码和解码已经进入实用化阶段,但是,由于MP3的算法复杂度高,计算量大,而且复杂度的增加主要体现在编码上(对解码器而言,只是提高了对存储容量的要求和少量的计算复杂度),MP3的编码一直是许多人研究的课题.本文将对MP3的编码过程做深入的探讨,主要涉及MP3编码各个模块的实现.1 MP3编码过程概述MP3的编码框图如图1所示,从整体来看,MP3编码算法流程刻大致分为时频映射(包括子带滤波器①收稿日期:2004-11-12作者简介:马昌萍(1977-),女,黑龙江人,北京理工大学,硕士研究生. 第23卷第1期 佳木斯大学学报(自然科学版) Vol.23No.1 2005 年01月 Journal of Jiamusi University (Natural Science Edition ) Jan. 2005组和M DCT ),心理声学模型,量化编码(包括比特和比例因子分配和哈夫曼编码)等三大功能模块,计算都十分复杂,实现MP3编码的关键也在于这三个功能模块.在MP3编码中,输入的数字音频信号即PC M 采样信号进入子带滤波器组后,被分成32个子带信号,M DCT (改进离散余弦变换)把子带的输出在频域里进一步地细分成18个频线,这样共产生576个频线.然后利用IS O11172标准中建议的心理声学模型计算出子带信号的信掩比,根据这些信掩比决定分配给576个频线的比特数,分别对他们进行比特分配和可变步长量化.量化后的样值再经过无失真的哈夫曼编码,以提高编码效率,并与比特分配和量化产生的边信息一起组成一帧数据.MP3编码的一帧数据包括两个组,每组有576个频线和与他们相关的边信息,边信息被存储在每一帧的帧头中.对这样一帧一帧组成的比特流,MP3解码器可以独立的进行解码,而不需要额外的信息了.图1 MP3编码框图图2 混合滤波器组 图3 子带滤波器组流程 2 混合滤波器组这部分包括子带滤波器组和M DCT 两部分.子带滤波器组编码完成样本信号从时域到频域的映射,并将规定格式的数字音频信号(若采样频率是44.1kH z ,样本量化为16位,则编码比特率为16×44100bit/s ,若是立体声,则码速率加倍为1.41Mbps ,即C D 格式音乐的比特率)分解成32个子带输出.子带分析滤波器组的32个子带是等带宽的,而由心理声学模型得出的临界带宽则不是等带宽的,所以分析滤波器的带宽与人耳听觉上的临界频带划分并不匹配.为了使得进行编码的各比例因子带与临界频带相匹配,需要对56第1期马昌萍等:MP3编码算法分析每个子带信号做M DCT 变换,从而提供更精细的频率分辨率;将子带滤波器组的输出送到M DCT 滤波器组后,每组将细分为18条频线,共产生576条频线,这对处理稳态信号能获得最大的编码增益,而且通过M DCT 进一步细分后,就可以做相应处理以减小多相滤波器组带来的频率混叠[2].子带滤波器由32个FIR 型BPF 组成,每个BPF 的长度为512点.因此实际上是用一个32×512的变换矩阵C 将输入序列{X i }中的连续512个数据点所构成的输入矢量X ,变换成一个具有32个分量的输出矢量S.其中S 的32个数据点S K 按子带频率从低到高的顺序排列.子带分析滤波器组算法步骤如下:将PCM 采样音频信号以32个为一组输入一个长度为512的X 向量缓冲区,构造一个具有512个元素的矢量空间X (如图2所示[3]);然后用矢量C 对X 加窗,得到矢量Z ,其中C i 在标准中给出;512维矢量Z 被分成8个64维矢量Y i ,然后将8个矢量相加得到矢量Y ;最后对Y 进行变换从而得到32个子带信号,计算公式如图3所示,其中M ik =cos [(2i +1)(k -16)π/64][4].通过心理声学模型可以得到每节数据的编码块类型,子带滤波器组对不同块类型的输出有不同的计算矩阵(已在MPEG-I 标准中给出),即不同的窗口类型:长窗、开始窗、结束窗和短窗.对子带滤波器组的输出加窗后,再进行M DCT 变换,这样可以有效的控制前回声[1].3 心理声学模型基于掩蔽效应的心理声学模型是MPEG-I 音频标准得以实现数据压缩的理论基础.MPEG -I 标准中提供了两种心理声学模型,第一种模型计算简单,在高比特率编码时提供适当精度;第二种模型较为复杂,推荐在较低比特率编码的情况下使用.两种模型都可用于MP3的编码,但MPEG -I 建议在MP3编码中使用心理声学模型二.心理声学模型的目的就是求出各个子带的掩蔽域值,并以此控制量化过程.心理声学模型实现过程一般是先用FFT 求出信号的频谱特性,根据频谱特性找出各频率点上的音调成分和非音调成分(或称噪音成分);根据掩蔽域曲线确定各个音调成分和非音调成分在其它频率点的掩蔽域值;最后求出各频率点的总体掩蔽域,并折算到编码子带中.对于子带滤波器组输出的谱值量化后产生的噪声,如果能够被控制在掩蔽域值以下,则最终的压缩数据被解码后的结果与原始信号可以不加区分[5].一个给定信号的掩蔽能力取决于它的频率和响度,所以心理声学模型的最终输出是信掩比S MR (signal -to -mask ra 2dio ),即信号强度与掩蔽域值的比率.4 量化编码在MPEG-I 标准中用一个三层迭代的循环模型,见图4,对经过M DCT 后输出的样本进行比特分配和量化.图4 三层迭代模型最高一级称为帧循环,它首先复位所有的迭代变量,计算能够提供给每节数据的最大比特数,然后调用外层迭代模型;外层迭代模型首先调用内层迭代循环,内层迭代循环对输入矢量进行量化,通过递增量化步长使量化输出能够在一定的比特位数限制之内被编码.然后确定哈夫曼编码表的选择,并对量化频谱进行哈夫曼编码.哈夫曼编码对量化的最大值有限制,MPEG -I 规定最大值不超过8191.所以要判断所有的量化值是否超过限定,如果超过最大限制,内层迭代循环递增量化步长,重新量化.然后确定哈夫曼编码的位数,使其所占的比特数小于由帧循环计算出的每节编码所能提供的最大比特数,否则也要增加量化步长重新量化.如果经过量化产生的噪声过大,有可能导致样本失真,无法被正确解码,所以外层迭代循环根据内层输出来检测每个比例因子频段的量化噪声,如果超过了允许的最低掩蔽域值,则以比例因子为迭代变量,不断递增其值,重新调用内层迭代循环,使量化满足要求.满足要求后,存储每个比例因子频段最终的比例因子数值,跳出外层迭代循环.在帧循环中计算存储每节数据所用的比特位数.66佳木斯大学学报(自然科学版)2005年在内层迭代中采用了哈夫曼编码是为了消除信号中的冗余,提高编码的效率.在MP3编码标准中,提供了32个哈夫曼码表用于对量化后的信号进行哈夫曼编码,使得编码的码率大大降低.哈夫曼表的选择是根据量化值的最大值以及信号的统计特性来决定的.经量化编码的信号同边信息一起组成一帧数据,并以帧流的形式存储或传输.5 结论与展望以上有重点的介绍了MP3的编码过程,可以看出MP3编码引入了混合滤波器组、心理声学模型、非均匀量化和哈夫曼编码等技术,提高了编码效率和质量,同时降低了编码率.MP3的编码过程比较复杂,仅仅根据MPEG-I 标准中所给的公式进行计算的话,显然效率还不够高.在对MP3编码有了深入的理解之后我们看到,在经过子带滤波器和M DCT 变换后,对信号的量化和哈夫曼编码中,只考虑了同一节信号的相关性[6],而不同节以及更多信号之间有可能存在的冗余还没有被挖掘出来.因此,在理解基本的编码过程之外,我们还有望继续细化编码的过程,找出更有效的编码方法.参考文献:[1] IS O/IEC 11172-3C oding of M oving Pictures and Ass ociated Audio for Digital S torage M edia at up to About 1.5Mbit/s Part 3:Audio (1993)[S].[2] 林胜,纪涌,全子一.MPEG-III 声音编码算法[J ]电声技术.1998,5,2-5.[3] Seym our Shlien.G uide to MPEG-I Audio S tandard[J ].Broadcasting .1994,4(4),206-218.[4] 梁彬,吴振扬.数字音频压缩中的变换编码算法[J ].电声技术.1999,7,3-6.[5] 王建昕,董在望,印日方强.MPEG 音频算法的研究与实时实现[J ].清华大学学报(自然科学版).1997,37(10),45-48.[6] Farshid G olchin ,K uldip K.Paliwal ,Lossless C oding of MPEG-I Layer III Encoded Audio S treams[J ].S peech ,and S ignal Processing .2000,2(7),11885-11888.ANALYSIS OF MP 3CODING ARITH METICMA Chang -ping , SONG Dan , MA You -ming(E lectronic E ngineering Dep artment ,B eijing I nstitute of T echnology ,B eijing 100081,China)ABSTRACT : The IS O MPEG-1standard describes the im plementation of three com pression schemes called layer 1,layer 2and layer 3.The layer 1scheme is the sim plest to im plementation but its efficiency is not as g ood as the other tw o layers.The layer3scheme ,comm only known as MP3,provides the best performance at low bit rates and has become widely popular for the transmission of encoded audio file (MP3’s )through the Internet.H owever ,it is al 2s o the m ost difficult one to im plement.This paper is designed to introduce the coding scheme for the MPEG-I layer3standard.In this paper we analyze the key techniques adopted by MP3coding arithmetic such as subband coding ,psy 2choacoustic m odels and Hu ffman coding particularly and find out the approach to im plement them.Furtherm ore ,a fea 2sible advice of im proving the encoding scheme is proposed to make the code m ore efficient.KE Y WOR DS : MP3;MPEG-I ;digital audio 76第1期马昌萍等:MP3编码算法分析。

音频编码工作原理

音频编码工作原理

音频编码工作原理音频编码是将声音信号转化为数字形式的过程,它是数字音频技术中的关键步骤之一。

在数字音频中,声音信号会被分割成多个小片段,并通过编码器将每个片段转换成数字数据。

通过压缩数据,音频文件的大小可以得到有效控制,同时保持音质的相对稳定。

本文将详细介绍音频编码的工作原理以及常见的音频编码算法。

一、PCM编码PCM(Pulse Code Modulation)是最基本的音频编码方式之一。

它根据声音信号的幅度对时间进行采样,将每个采样点的振幅值量化为一个数字,并将这些数字表示为二进制数。

PCM编码常见的采样率有8kHz、16kHz、44.1kHz等,其中44.1kHz是音频CD的标准采样率。

PCM编码对音频信号进行一定程度的压缩,但并不是高效的压缩算法。

由于PCM编码的数据量较大,因此在适用于存储和传输的场景下,需要引入更高效的音频编码算法。

二、压缩编码为了减小音频文件的大小,提高存储和传输的效率,人们开发了各种音频压缩编码算法。

下面介绍两种常见的音频压缩编码算法:1. MP3编码MP3(MPEG Audio Layer 3)是一种常用的音频压缩编码算法。

MP3编码利用人耳对声音信号的感知特性,通过删除或减弱人耳无法察觉的信号成分来实现压缩。

MP3编码器会分析音频信号的频域特征,对其中的冗余信息和听不到的声音信号进行压缩。

2. AAC编码AAC(Advanced Audio Coding)是一种更先进的音频压缩编码算法。

AAC编码在MP3编码的基础上进一步优化了压缩效率,并提供更好的音质。

相对于MP3,AAC编码更适用于高质量音频的存储和传输,例如音乐流媒体和音频CD。

三、音频编码的应用音频编码技术在各个领域都有广泛的应用,以下列举几个典型的应用场景:1. 音乐播放器音频编码技术使得音乐播放器能够存储和播放大量的音频文件。

通过高效的音频压缩算法,音乐播放器能够在保证音质的同时,实现较小的音频文件体积,便于存储和传输。

MP3格式各种压缩比率的介绍

MP3格式各种压缩比率的介绍

MP3格式各种压缩比率的介绍MP3格式的音质到底好到什么程度?很多翻唱者都会保存MP3的格式,但128/192/256/320等等各种压缩比率/压缩模式的MP3音质有什么不同?有一些什么基本原理?你们知道吗?我特意做了一晚的功课,把这个大家既熟悉但又不十分了解的"MP3"音频格式归纳、整理出来:不论什么技术它都要有自己的道理,音频技术更是如此,因为它直接关系到我们的听觉,压缩过的mp3为什么听起来还是很接近cd 的声音呢??这里面和人的生理构造有莫大的关系。

实验表明,人类能听到的声音频率范围(音频)是20Hz~20kHz,但人耳对整个音频频段声音的反应不是平直的,2~5kHz是人耳最灵敏的频段。

依其特性将整个音频频段分成多个临界频带,因为人类听觉系统是依据频率来分辨声音能量的,任何频率的细小声音都会因掩蔽效应而被临界频带内音量较高的声音所覆盖。

MP3对其不作量化处理,从而去掉那些人类听觉系统所无法察觉的声音,达到压缩的目的。

可见,MP3是一种有损的音频压缩编码。

所以说无论多么高码率的mp3它都是有损压缩,声音的品质是比cd下降了的,但是下降的多少才能被接受,这就因人而异了。

压缩后的音质:这是大家最最关心的话题吧,压缩后的声音能达到一个什么样的标准呢?我现在用一段3分39秒的乐曲来举例:128kbps的压缩比还是比较粗糙的,高频部分压缩后失真非常明显,听起来空洞,干瘪、刺耳,还时常有忽悠忽悠的声音,乐器的质感很差,部分乐器都变了味道,甚至可能会听错,乐曲压缩后的体积是3414kb,体积虽然不大但是声音不能让人满意,存在比较大的缺陷。

192kbps码率的压缩效果比起128来说可是要好多了,首先声音扎实,至少没有那种空洞感,高频失真也小了很多,声音紧凑,杂音小,干净,达到了相对比较理想的听音效果,只是由于压缩还是比较厉害,细节的表现仍旧不是很好,乐器尤其是管乐器的质感还是很硬,不真实,缺乏乐感,压缩后的尺寸是5123kb,我觉得这个压缩比例在128~~256m容量的mp3播放器上使用比较好,既可以满足基本的听感,也在尺寸上合适,128m大约能存储95分钟的音乐,256m则翻倍为190分钟的音乐。

数字音频压缩标准

数字音频压缩标准
AVI MPEG WMV RM to MP3 Converter是一个好用的音频转换工具,可 以将通用的视频和音频文件转换成MP3、WAV、WMA和OGG格式,支持AVI、 MPEG、RM/RMVB、WMV/ASF、MOV的视频和音频格式。
对于想从视频文件中抓取音频和想把RM格式转换成MP3/WAV格式的用 户来说非常有用。
目前世界上第一个高保真立体声音频压缩标准为MPEG音频 压缩算法。虽然MPEG音频标准是MPEG标准的一部分,但它也完 全可以独立使用。表1-2中列出了ISO和ITU先后建议的用于电话 质量的语音压缩标准。
1.3 音频压缩工具
由于存在不同格式的音频文件,在不同场合对于音频素材的格式要求 也不尽相同,因此需要有专门的工具对它们进行格式转换,从而满足不同 场合对音频文件的需要。
1. 电话质量的音频压缩编码技术标准
由于数字音频压缩技术具有广阔的应用范围和良好的市场 前景,因而音频压缩技术的标准化工作显得十分重要。CCITT (现ITU-T)在语音信号压缩的标准化方面做了大量的工作,制 定了G.771、G.721、G.728等标准,并逐渐受到业界的认同,其 他 语 音 相 关 标 准 有 : H.221 、 H.222 、 H.223 、 H.233 、 H.231 、 H.242、H.245、H.261、H.263等。
3. 高保真度立体声音频压缩编码技术 标准
高保真立体声音频信号频率范围为50Hz~20kHz,采 用44.1kHz采样频率,16bit量化,进行数字化转换,其 数据传输速率每声道达705kbps。
一般语音信号的动态范围和频响比较小,采用8kHz 采样频率,每样值用8bit表示,现在的语音压缩技术可 把码率从原来的64kbps压缩到4kbps左右。但多媒体通信 中的声音要比语音复杂的多,它的动态范围可达100db, 频响范围可达20Hz~20kHz。因此,声音数字化后的信息 量非常达。为了更有效地利用宝贵的信道资源,必须对 声音进行数字压缩编码。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

mp3压缩编码标准
MP3(MPEG-1 Audio Layer III)是一种数字音频压缩编码标准,它是MPEG(Moving Picture Experts Group)制定的音频压缩标准
之一。

MP3编码标准使用了一种称为“感知编码”的技术,它利用
人耳对声音的感知特性来去除音频信号中的冗余信息,从而实现高
效的压缩。

MP3编码标准的主要特点包括以下几个方面:
1. 压缩比,MP3编码可以实现相对较高的压缩比,通常可以将
原始音频数据压缩到其约1/10至1/12的大小,而且在保持相对较
高的音质的同时实现了这一压缩比。

2. 损失压缩,MP3是一种损失压缩技术,这意味着在压缩过程
中会丢失一些音频信息,但通常这些丢失的信息对于人耳来说是难
以察觉的,因此可以接受这种损失以换取更高的压缩比。

3. 采样率和比特率,MP3编码标准支持不同的采样率和比特率,用户可以根据需要选择不同的设置来平衡音质和文件大小之间的关系。

常见的比特率有128kbps、192kbps、256kbps等,而常见的采
样率有44.1kHz、48kHz等。

4. 广泛应用,由于MP3编码标准具有较高的压缩比和良好的音质表现,因此在互联网上广泛应用于音乐下载、在线音乐流媒体等领域,成为了数字音频传输和存储的重要标准之一。

总的来说,MP3是一种高效的音频压缩编码标准,它在保证相对较高音质的同时实现了较高的压缩比,因此被广泛应用于音频领域。

相关文档
最新文档