研究成果(1)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
科技部科技基础性工作专项资金重大项目
研究成果
项目名称:我国数字图书馆标准规范建设
子项目名称:数字资源加工标准与操作指南
项目编号:2002DEA20018
研究成果类型:研究报告
成果名称:通用数字资源(音频数据)格式标准分析报告成果编号:CDLS-S03-005
成果版本:总项目组推荐稿
成果提交日期:2003年8月
撰写人:张成昱、曾婷、周虹(清华大学图书馆)
杨京峰(清华大学教育技术研究所)
项目版权声明
本报告研究工作属于科技部科技基础条件平台专项资金项目《我国数字图书馆标准规范建设》的一部分,得到科技部科技基础条件平台专项资金资助,项目编号为2003DEA4T035。
按照有关规定,国家和《我国数字图书馆标准规范建设》课题组拥有本报告的版权,依照《中华人民共和国著作权法》享有著作权。
本报告可以复制、转载、或在电子信息系统上做镜像,但在复制、转载或镜像时须注明真实作者和完整出处,并在明显地方标明“科技部科技基础条件平台专项资金项目《我国数字图书馆标准规范建设》资助,项目编号2003DEA4T035”的字样。
报告版权人不承担用户在使用本作品内容时可能造成的任何实际或预计的损失。
作者声明
本报告作者谨保证本作品中出现的文字、图片、声音、剪辑和文后参考文献等内容的真实性和可靠性,愿按照《中华人民共和国著作权法》,承担本作品发布过程中的责任和义务。
科技部有关管理机构对于本作品内容所引发的版权、署名权的异议、纠纷不承担任何责任。
《我国数字图书馆标准规范建设》课题组网站()作为本报告的第一发表单位,并可向其他媒体推荐此作品。
在不发生重复授权的前提下,报告撰写人保留将经过修改的项目成果向正式学术媒体直接投稿的权利。
通用数字资源(音频数据)格式标准分析报告
目录
1.综述 (1)
2.基本描述 (2)
2.1 数字音频资源的定义和特征 (2)
2.2 音频的压缩与编码 (3)
2.3 数字音频资源分类及其加工范围 (7)
2.3.1 数字音频文件格式概况 (7)
2.3.2 数字音频资源的分类 (11)
2.3.3 数字音频资源的加工范围 (12)
2.4 国内外音频资源建设状况 (12)
3.国内外相关参考标准和格式 (13)
3.1 ITU-T的G系列语音压缩编码标准简介 (13)
3.2 D OLBY AC-3简介 (14)
3.3 MPEG系列格式标准概述 (15)
3.3.1 MPEG-1 (15)
3.3.2 MPEG-2 (16)
3.3.3 MPEG-4 (18)
3.3.4 MPEG-7 (20)
3.3.5 MPEG-21 (21)
3.4 支持MPEG的相关音频文件格式的分析 (21)
3.4.1 *.mp1/*.mp2/*.MP3 (21)
3.4.2 AAC (22)
3.4.3 AT&T公司的A2B技术 (22)
3.4.4 GMO公司提出的MP4 (23)
3.4.5 MP4-SA (23)
3.4.6 MP3PRO (24)
3.4.7 VQF (24)
3.4.8 MIDI (25)
3.4.9 Ogg V orbis (26)
3.5 流媒体技术和流式音频文件格式 (27)
3.5.1 流媒体技术概述 (27)
3.5.2 流式音频文件格式简要分析 (28)
4.通用标准内容分析 (30)
4.1 MPEG-4标准的背景 (30)
4.2 MPEG-4标准的特性 (30)
4.3 MPEG-4的编码对象 (32)
4.3.1 视觉编码对象 (32)
4.3.2 听觉对象编码 (33)
4.4 MPEG-4标准构成 (33)
4.4.1 MPEG-4系统和DMIF (34)
4.4.2 MPEG-4音频编码 (37)
4.5 MPEG-4的现状及应用 (43)
4.5.1 现状 (43)
4.5.2 MPEG-4在广播电视领域的应用 (44)
4.5.3 MPEG-4的影响 (45)
5.标准和文件格式推荐原则 (46)
5.1 保存与使用兼顾的原则 (47)
5.2 充分支持流媒体应用方式的原则 (47)
6.推荐标准 (47)
6.1 基于保存和使用的采集推荐 (51)
6.2 基于音频的保存,管理和服务的推荐 (51)
6.2.1 通用使用的格式推荐 (51)
6.2.2 流式音频的使用格式推荐 (52)
6.2.3 语音应用的使用格式推荐 (52)
6.3 按照不同传输比特率的推荐顺序 (52)
6.3.1 低比特率情况 (52)
6.3.2 FM radio情况 (53)
6.3.3 普通较好质量的情况 (53)
6.3.4 CD质量的普通情况 (53)
6.4 根据不同应用场合的最佳算法 (53)
7.操作指南 (53)
7.1 数字音频实时采集的操作基础 (53)
7.1.1 幅度问题 (53)
7.1.2 设定增益结构 (54)
7.2 数字音频制作的软件和硬件环境 (54)
7.2.1 音频工具 (54)
7.2.2 相关计算机硬件 (54)
7.2.3 相关计算机软件 (54)
7.3 模拟音频到数字音频的转换 (55)
7.3.1 模拟音频及其常用格式 (55)
7.3.2 数字音频及其常用格式 (55)
7.3.3 模拟音频及数字音频格式的比较 (57)
7.4 数字音频信息的格式转换 (58)
8.总结 (59)
8.1 数字音频资源格式标准研究的意义 (59)
8.2 数字音频资源的基本特征 (59)
8.3 数字音频格式标准概况 (61)
8.4 通用标准内容分析 (62)
8.5 数字音频格式标准推荐原则 (62)
8.6 数字音频资源加工的操作规范 (63)
参考文献 (63)
附录1 (1)
附录2 (5)
附录3 (6)
1.综述
数字音频资源是由数字化的声音信息构成的数字图书馆数字馆藏资源的重要组成部分,它包括经过数字化处理的音乐、语音、自然声响等各类具有保存和使用价值的声音资源。
音频资源的数字化具有十分重要的意义。
声音信息数字化后,复制无衰减,信噪比特别高,可保证节目存储、播放的高质量;数字音频可通过计算机进行加工处理,可增进音频编辑、加工的效率、质量和效果;数字化音频可压缩,便于存储,可降低存储费用;数字化音频可通过网络传输,便于信息的广泛传播,更便于音频节目的优胜劣汰;数字化音频有助于人们进行音乐的创作,降低了音乐创作的门槛,将导致音乐的数字化革命;音频数字化是音频在多媒体课件中应用和网络上存在的基础和前提。
在用于记录、复制、存储、处理和传输数字音频信号的数字技术中,需要一些与模拟音频方法不同的概念。
由于初始的音频信号是模拟的,数字系统要采用取样和量化来对音频信号进行变换。
任何取样系统都要受到取样定理的约束,取样定理阐述了被取样的信号和取样频率之间的关系。
该定理特别指出,信号应是带限的。
必须防止产生频谱混叠的错误取样产生。
当用二进制码字来表示模拟波形的幅度时,会产生量化误差。
在量化前对波形进行抖动处理,可以将这种误差的影响减到最小[1]。
在数字图书馆的数字资源建设过程中,我们需要建立相应的数字资源加工标准规范,其中非常重要的一步是确定各种数字资源的内容格式。
对于音频资源这种特定类型的资源来说,存在众多可供选择的格式,在图书馆数字化工程中,为避免重复建设,选择适当的内容文件格式标准尤其重要。
而选择的标准则要充分考虑数字图书馆数字音频资源的收藏、管理和传播等方面的需求。
我们的主要目标是通过收集分析国内外音频数据格式标准规范方面的文献,研究完成“音频数字资源格式标准分析报告”,研究提出适应数字图书馆建设各类需求的音频数据格式。
随着我国数字图书馆建设的全面展开,各种数字资源格式标准的研究和确定势在必行。
数字资源标准与规范的先行可避免重复建设和一些弊端,是数字资源建设和服务的可使用性、互操作性和可持续性的保证。
其中这几年,网络数字音乐市场发展非常之快,国内外也有一些音乐数字图书馆建设的实践,各图书馆也开始致力于建设自己的数字音频资源馆藏。
由于存在众多不同的数字音频标准、编码以及格式,我们需要对它们进行调研,研究国内外相关发展概况、参考项目、实例和技术实践以便推荐可用的音频数字化技术。
同时,音频资源建设,从技术到内容,都一直是以相关商业机构为主导来进行的。
在技术标准的制订和推广过程中,难以体现数字图书馆建设的特殊需求。
因此本文试图从数字图书馆建设的角度出发,提出对于音频数字格式标准的未来发展的参考性意见,这对于数字音
频资源建设的顺利实施无疑具有重要的意义。
2.基本描述
2.1数字音频资源的定义和特征
根据声音的频带,通常把声音的质量分为5个等级:电话、调幅FM广播、调频FM、光盘CD、数字录音带DAT。
它们使用的采样频率、样本精度、通道数和比特率均不同。
音频数字资源是以音频激光唱片、光盘和网络为主要传播方式,以计算机及其相关外设为主要播放手段的音频信息资源。
它的主要信息来源是磁带、广播、电影、电视等音频信息,它的主要服务方式和功能包括网络音乐、新闻广播、远程教学和数字图书馆等。
把连续的模拟信号转变成离散的数字信号的过程称之为数字化技术,音频数字化就是把模拟音频转成数字音频。
采样过程所用到的主要硬件设备便是模拟/数字转换器(Analog to Digital Converter,即ADC)。
采样的过程实际上是将通常的模拟音频信号的电信号转换成许多称作“比特(Bit)”的二进制码0和1,这些0和1便构成了数字音频文件。
把电平信号转化成二进制数据保存产生了数字音频,播放的时候需要把这些二进制数据转换为模拟的电平信号再送到喇叭播出。
数字声音和一般磁带、广播、电视中的声音就存储播放方式而言有着本质区别。
相比而言,它具有存储方便、存储成本低廉、存储和传输的过程中没有声音的失真、编辑和处理非常方便等特点。
对音频信号进行数字化处理有必不可少的3个步骤:取样、量化和编码。
音频数字化主要受到如下因素影响:采样率、量化级、压缩率。
当两个采样时刻的间隔越小,则越有利于保持原始声音的真实情况,即采样的频率越大则音质越有保证;同理,当采样分辨率的单位越小则越有利于音质的提高,即采样的位数越大越好。
有一点需要注意,8位(8Bit)不是说把纵坐标分成8份,而是分成2^8=256份;同理16位是把纵坐标分成2^16=65536份;而24位则分成2^24=16777216份。
假设我们用44.1kHz、16bit来进行立体声(即两个声道)采样,即采样成标准的CD音质(也称作红皮书音频)。
那么就是说,一秒钟内采样44.1千次,每次的数据量是16×2=32bit(因为立体声是两个声道)。
而大家知道,一个字节(Byte)含有8个位(Bit),那么一秒钟内的数据量便是44.1k×32bit /(8bit / Byte)=176.4 kByte。
一个汉字在电脑里占用两个字节,那么176.4kB的空间可以存储176.4k / 2=88200个汉字,也就是说一秒钟的数字音频数据量与近九万个汉字(一部中篇小说)的数据量相当。
由此可见,数字音频文件的数据量是十分庞大的。
下面是几个关于数字音频的基本特征参数:
采样率(取样频率):简单地说就是通过波形采样的方法记录1秒钟长度的
声音,需要多少个数据。
44KHz采样率的声音就是要花费44000个数据来描述1秒钟的声音波形。
原则上采样率越高,声音的质量越好。
量化级(采样位数):是表示每个采样点用多少位二进制数字来表示,间接反映了可表示波形纵向的层次,量化位数为8,相当于可表现出256种层次,如量化位数为16,相当于可表现出65536个层次。
简单地说就是描述声音波形的数据是多少位的二进制数据,通常用bit做单位,如16bit、24bit。
16bit量化级记录声音的数据是用16位的二进制数,因此,量化级也是数字声音质量的重要指标。
我们形容数字声音的质量,通常就描述为24bit(量化级)、48KHz采样,比如标准CD音乐的质量就是16bit、44.1KHz采样。
声道数:包括单声道、立体声、四声道环绕、5.1声道等
压缩率:通常指音乐文件压缩前和压缩后大小的比值,用来简单描述数字声音的压缩效率。
比特率:是另一种数字音乐压缩效率的参考性指标,表示记录音频数据每秒钟所需要的平均比特值(比特是电脑中最小的数据单位,指一个0或者1的数),通常我们使用Kbps(通俗地讲就是每秒钟1000比特)作为单位。
CD中的数字音乐比特率为1411.2Kbps(也就是记录1秒钟的CD音乐,需要1411.2×1024比特的数据),近乎于CD音质的MP3数字音乐需要的比特率大约是112Kbps~128Kbps。
取样频率越高,采样位数越多,声道数越多,压缩率越低,得到的数字化声音质量越高,相应的信息量也越大。
2.2音频的压缩与编码
声音之所以能够数字化,是因为人耳所能听到的声音频率不是无限宽的,主要在20 kHz以下。
按照抽样定理,只有抽样频率大于40kHz,才能无失真地重建原始声音。
如CD采用44.1 kHz的抽样频率,其他则主要采用48kHz或96kHz。
在数字音频编码系统中按编码的基本原理分类只有波形编码和感知编码两大类,波形编码是使经编码和解码后恢复出的波形尽量与原始波形一致,采用的方法如子带加自适应差分PCM(ADPCM),压缩率通常达到4:1[2]。
PCM(脉冲编码调制)是一种将模拟语音信号变换为数字信号的编码方式。
主要经过3个过程:抽样、量化和编码。
抽样过程将连续时间模拟信号变为离散时间、连续幅度的抽样信号,量化过程将抽样信号变为离散时间、离散幅度的数字信号,编码过程将量化后的信号编码成为一个二进制码组输出。
量化分为线性量化和非线性量化。
线性量化在整个量化范围内,量化间隔均相等。
非线性量化采用不等的量化间隔。
量化间隔数由编码的二进制位数决定。
例如,CD采用16bit线性量化,则量化间隔数L=65536。
位数(n)越多,精度越高,信噪比SNR=6.02 n+1.76(dB)也越高。
但编码的二进制位数不是无限制的,需要根据所需的数据率确定。
比如:CD可以
达到的数据率为2×44.1×16= 1411.2 kbit/s。
常用的编码码组有3种:自然二进制码组(NBC)、折叠二进制码组(FBC)、格雷二进制码组(RBC)。
国际PCM标准主要使用FBC。
PCM虽然为无损压缩,但由典型的音频信号表示的信号特性没有达到最佳,也没有很好的适应人耳听觉系统的特定要求。
PCM的数据量过高,从而造成存储和传输方面的障碍,因此必须使用相应的技术降低数字信号源的数据率,又尽可能不对节目造成损伤,这就是有损压缩技术。
大多数的音频编码系统均采用感知编码原理,所谓感知是指在编码过程中保留人耳可以听到(感知)的部分,而放弃人耳听不到(不能感知)的部分,利用人耳在时间和频率方面的分析能力和感知能力让经过很好训练或特别灵敏的听众也察觉不了的无关紧要的信号去除。
人耳的听觉心理有两个特性:频率掩蔽和时间掩蔽特性。
人耳在安静的环境中有一个静听阈(门限),即对应于人耳能听到的频率范围能被感觉到的最低声音强度。
频率掩蔽,即当一个单音单元出现时,产生一个新的听阈曲线(同听阈),在此频率附近的频段内,门限均有不同程度的提高,以中心频率为最高。
时间掩蔽,即当一个强信号出现时,其前后一段时间内,业已存在的弱音可以被掩蔽不被听见。
在听阈以下的音频信号不需要编码。
在进行感知编码时运用到三个基本原理:绝对听觉门限、同时掩蔽、暂时掩蔽[3]。
语音质量与频带宽度有关,普通电话带宽为200Hz~3400Hz,调幅广播为50Hz~7kHz,调频广播为20Hz~15kHz,宽带音频为20Hz~20kHz。
目前国际上制订的音频压缩标准属于两个方向,在一些应用环境下尽可能追求低的传输速率,在另一些应用环境下则追求尽可能高的保真度[4]。
为了使国际通信规范化,国际通信组织CCITT对公用电话网及公用网制订了一些音频压缩标准。
如1972年的G.711标准,用标准的脉冲编码调制(PCM),速率为64kb/s;1984年的G.721标准,使用自适应差分PCM编码(ADPCM),速率为32kb/s。
这些标准适用于200Hz~3400Hz的窄带语音信号,主要应用领域是卫星通信,长距离通信,以及信道价格很高的线路语音传输,还被用于电视会议等方面,缺点是对输入信号使用8kHz的采样频率和8bit的量化位数,只能满足电话质量的语言信号,音质不高。
针对带宽为7kHz的调幅广播质量音频信号,CCITT于1988年提出G.722标准,采用子带编码的方法,输入信号进入滤波器组分成高子带信号和低子带信号,然后分别进行ADPCM编码,最后进入混合器形成输出码流,速率为64kb/s,可以在窄带ISDN(Integrated Services Digital Network)的一个B信道上传输调幅广播质量的音频信号,主要应用在视频讨论、视听多媒体以及速率稍高一些的视频会议上,由于输入信号的采样频率为16kHz,量化位数是14bit,因而仍不能满足高保真音质的需要,且对于通信来说,速率较高。
为了进一步降低语音信号的速率,1991年CCITT制订了基于短延时码本激励线形预测编码
(LD-CELP)的G.728标准,速率为16kb/s,LD-CELP是一个闭环LPC系统,它利用输入语音信号确定最佳参数,然后根据最小误差准则从码本中找出最佳激励码矢量,具有较强的抗干扰能力,主要应用于可视电话、数字移动通信、无线电话、卫星通信、DCME(Digital Circuit Multiplication Equipment)、ISDN等领域,缺点是算法复杂,其语音质量与32kb/s的G.721标准基本相当,只满足电话质量的语言信号,保真度不高。
[4]
达到CD质量的高保真数字音频信号的采样频率是44.1kHz,量化位数为16bit,信号速率为每声道705.6kb/s。
目前,国际上比较成熟的高保真音频压缩编解码的标准为由国际标准化组织(ISO)下属的运动图像专家组(Moving Pictures Expert Group)制定的MPEG音频。
MPEG-AUDIO使用子带编码的方法,输入的音频信号经过滤波器组,变成32个子带信号,同时编码器利用人耳的掩蔽效应,根据音频信号性质计算各个频率分量的屏蔽门限,以控制每个子带的量化参数,达到数据压缩的目的。
1991年制定的MPEG-1标准规定了三种采样频率:32kHz、44.1kHz 和48kHz,为了能在带宽受限制的低比特速率场合应用,1994年11月颁发的MPEG-2标准由增加了三种较低的采样频率:16kHz、22.05kHz和24kHz,而且从MPEG-1的两个声道扩展到五个声道,以及可供亚低音喇叭信号任选的一个低频增强(LFE)声道,除此之外,在多语种应用时,可有多达七个语言声道。
MPEG音频作为运动图像的伴音,广泛应用于有线电视(CATV)、点播电视(VOD)、VCD、DVD(digital video disks)、DAB等诸多方面。
虽然MPEG-1的传输速率为每声道32kb/s~448kb/s,MPEG-2可低到8kb/s,但是,当速率为128kb/s,且有最佳的听试条件时,专家才不能辨别出编码的和原始的音频信号之间的差别。
由于MPEG-2带宽较宽,ISO/IEC分别于1998年11月和1999年12月推出的适合多媒体存储和通信领域种各种应用的极低比特率音频编码标准MPEG-4 版本1和版本2,能在一个大的比特率范围内对音频进行编码,其比特率范围从2kb/s~64kb/s[4]。
它不仅支持自然声音,而且支持合成声音,将音频合成编码与自然声音的编码相结合,并支持音频的对象特征。
在MPEG-4中提出了基于对象、基于模型的编码技术,这是一种非常有应用前景的编码概念。
Dolby实验室提出的AC-3(Digital Audio Compression)压缩算法被ATSC(United States Advanced Television Systems Committee)作为标准于1994年11月颁布。
AC-3是一个基于自适应变换的编码器,输入信号经过MDCT(Modified Discrete Cosine Transform)变换,从时域映射到频域,变换长度基于信号的特性自适应地改变,有长窗和短窗两种模式,然后基于掩蔽特性进行动态比特分配,对变换系数进行量化、编码。
AC-3同MPEG-2一样,也支持32、44.1和48kHz三种采样频率,以及5加1个声道和多种语言,它的带宽从32kb/s~640kb/s,常用的速率为384kb/s。
AC-3以其高保真的音质和环绕立体声广泛应用在数字电影、LD(LaserDisc)、
HDTV、DVD等领域,但不适合移动通信等窄带领域。
[5]
杜比AC-3并不是为组成广播系统主体的多次解码和再编码而设计的。
现有信号传送结构主要为两声道音频基本结构,最多为4条音轨(或两对AES/EBU)。
由于频谱和资金有限,广播电视常用的设备、内部连接等不能够扩展到所需的6~8声道。
杜比E技术是为适应采集与传送系统所要求的多次编解码操作而设计的一种新型的多声道音频数据率压缩系统。
杜比E可对多至8个音频声道加上必要的元数据进行编码,并将该信息插入一个AES数字音频对的“载荷空间”。
由于杜比E编码的音频数据采用AES协议作为其传输方式,因此数字VTR、路由转换器、数模转换器和所有已存在的数字音频设备,都可以处理多声道节目。
除了上述的国际标准外,各公司也为自己的商业产品提出了一些压缩算法,如:AT&T公司的基于变换编码的PAC(Perceptual Audio Coder)系统;Philips公司为DCC(Digital Compact Cassette)开发的PASC(Presicion Adaptive Subband Coding)系统,它同MPEG Layer I和II的算法类似,使用子带编码;Sony公司在MiniDisc中使用的ATRAC(Adaptive Transform Acoustic Coding)系统;由DTS公司研制开发的DTS系统等。
ATRAC是一个基于心理声学原理的音频编码系统,它结合了子带编码和变换编码技术。
输入信号通过QMF(Quadrature Mirror Filter)被分为3个子带,然后每个子带信号通过MDCT变换到频域。
变换长度也根据信号特性有两种模式,最后根据掩蔽模型计算位分配、量化和编码变换系统。
ATRAC在感官上无音质损失的情况下,对CD(Compact Disc)音频信号大约压缩到原始数据率的1/2[4]。
DTS(Digital Theatre Sound)根据相关声学编码压缩音频数据,去掉了LPCM(线性PCM)的客观与感觉上的低效率。
它没有利用信号中的客观与主观冗余度以降低存储器成本,却从根本上允许以类似的比特率记录与重放比LPCM精确得多的音频信号。
同时它不是固定比特率,而是在一个连续比特率范围内操作。
DTS的采样速率为48,96,192 kHz,样本分辨力为16,20,24 bit,数据率为64~1536 kb/s,支持多通道音频(5.1ch)。
相对于杜比数字,它的还原真实度较高,细腻性、层次性较好。
应用方面的情况:音频编码广泛应用于多媒体音频处理、数字音频广播(DAB)、数字话音通信、高清晰度电视广播(HDTV)、数字存储(档案、演播室、消费电子产品)等领域。
如今杜比数字AC-3作为由FCC为美国选定的ATSC数字电视标准的一部分,为高清晰度电视(HDTV)和标准清晰度电视(SDTV)广播的标准。
MPEG为欧洲数字视频广播(DVB)、数字音频广播(DAB)和日本广播电视业的音频标准。
DVD则支持三种主要标准:MPEG-2音频、Dolby实验室的AC-3和LPCM(线性PCM)。
其他格式如DTS、Sony公司的SDDS等为DVD的任选格式。
MPEG-1的Layer III可在64kb/s获得透明质量,现已广泛应用于Internet上的声音点播、MP3光盘存储等领域,但因为其编码复杂度太大,不借助硬件难以进行实时
编码;其他的商业产品有Philips公司的DCC、Sony公司的MiniDisc和AT&T公司的PAC系统等[4]。
2.3数字音频资源分类及其加工范围
2.3.1数字音频文件格式概况
音频资源的文件格式用来提供计算机平台之间的应用和交换的兼容性,其中除了音频数据外有些还包括控制数据(作为一个编辑定义条目),如计时码、均滑变换信息和数据均衡等。
很多文件格式在文件头部描述了文件的取样速率、比特率、信道的数量和压缩的类型等信息,许多软件程序可以根据这些信息读取源文件或代码文件。
目前流行的音频文件格式有WA V、Real Media、Windows Media、MP3、MP3PRO、杜比AC-3、MIDI、Ogg V orbis、VQF、Mod等。
WA V是Microsoft Windows开发的一种波形声音文件,符合RIFF文件规范,由于Windows本身的影响力,这个格式已经成为了事实上的通用音频格式,几乎所有的音频处理软件和编辑软件都支持WA V格式。
由于WA V格式存放的一般是未经压缩处理的音频数据,所以体积都很大(1分钟的CD音质需要10M字节),不适于在网络上传播。
WA V格式使用媒体播放机可以直接播放。
WA V格式实际上与Apple 电脑的AIFF格式几乎相同。
通常使用WA V格式都是用来保存一些没有压缩的音频,但实际上WA V格式的设计是非常灵活(非常复杂)的,该格式本身与任何媒体数据都不冲突,也就是说,只要有软件支持,甚至可以在WA V格式里面存放图像。
这是因为WA V文件里面存放的每一块数据都有自己独立的标识,通过这些标识可以告诉用户究竟这是什么数据。
在WINDOWS平台上通过ACM(Audio Compression Manager)结构及相应的驱动程序(在这里通常称为CODEC,编码/解码器),可以在WA V文件中存放超过20种的压缩格式,比如ADPCM、GSM、CCITT G.711、G.723等等,当然也包括MP3格式。
尽管WA V文件可以存放压缩音频甚至MP3,但由于它本身的结构注定了它的用途是存放音频数据并用作进一步的处理,而不是像MP3那样用于聆听。
目前所有的音频播放软件和编辑软件都支持这一格式,并将该格式作为默认文件保存格式之一。
这些软件包括:Sound Forge,Cool Edit Pro,WaveLab等等[6]。
MP3(也包括mp1、mp2)这个扩展名表示的是MP3压缩格式文件。
MP3的全称实际上是MPEG Audio Layer-3。
MP3是Fraunhofer-IIS研究所的研究成果。
MP3是第一个实用的有损音频压缩编码。
在MP3出现之前,一般的音频编码即使以有损方式进行压缩能达到4:1的压缩比例已经非常不错了。
但是,MP3可以实现12:1的压缩比例,这使得MP3迅速地流行起来。
MP3之所以能够达到如此高的压缩比例同时又能保持相当不错的音质是因为利用了知觉音频编码技术,也就是利用了人耳的特性,削减音乐中人耳听不到的成分,同时尝试尽可能地维持原来的声音。