音频基础知识
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一. 音频基础知识
1. 音频编解码原理
数字音频的出现,是为了满足复制、存储、传输的需求,音频信号的数据量对于进行传输或存储形成巨大的压力,音频信号的压缩是在保证一定声音质量的条件下,尽可能以最小的数据率来表达和传送声音信息。信号压缩过程是对采样、量化后的原始数字音频信号流运用适,当的数字信号处理技术进行信号数据的处理,将音频信号中去除对人们感受信息影响可以忽略的成分,仅仅对有用的那部分音频信号,进行编排,从而降低了参与编码的数据量。
数字音频信号中包含的对人们感受信息影响可以忽略的成分称为冗余,包括时域冗余、频域冗余和听觉冗余。
1.1时域冗余
A.幅度分布的非均匀性:信号的量化比特分布是针对信号的整个动态范围而设定的,对于小幅度信号而言,大量的比特数据位被闲置。
B.样值间的相关性:声音信号是一个连续表达过程,通过采样之后,相邻的信号具有极强的相似性,信号差值与信号本身相比,数据量要小的多。
C.信号周期的相关性:声音信息在整个可闻域的范围内,每个瞬间只有部分频率成分在起作用,即特征频率,这些特征频率会以一定的周期反复出现,周
期之间具有相关关系。
D.长时自我相关性:声音信息序列的样值、周期相关性,在一个相对较长的时间间隔也会是相对稳定的,这种稳定关系具有很高的相关系数。
E.静音:声音信息中的停顿间歇,无论是采样还是量化都会形成冗余,找出停顿间歇并将其样值数据去除,可以减少数据量。
1.2 频域冗余
A.长时功率谱密度的非均匀性:任何一种声音信息,在相当长的时间间隔内,功率分布在低频部分大于高频部分,功率谱具有明显的非平坦性,对于给定
的频段而言,存在相应的冗余。
B.语言特有的短时功率谱密度:语音信号在某些频率上会出现峰值,而在另一些频率上出现谷值,这些共振峰频率具有较大的能量,由它们决定了不同的语
音特征,整个语言的功率谱以基音频率为基础,形成了向高次谐波递减的结
构。
1.3 听觉冗余
根据分析人耳对信号频率、时间等方面具有有限分辨能力而设计的心理声学模型,将通过听觉领悟信息的复杂过程,包括接受信息,识别判断和理解信号内容等
几个层次的心理活动,形成相应的连觉和意境,由此构成声音信息集合中的所以数
据,并非对人耳辨别声音的强度、音调、方位都产生作用,形成听觉冗余,由听觉
冗余引出了降低数据率,实现更高效率的数字音频传输的可能。
2. 常见音频编解码标准
2.1 AAC(Advanced Audio Codin)
AAC于1997年形成国际标准ISO 13818-7。先进音频编码AAC开发成功,
成为继MPEG-2音频标准(ISO/IEC13818-3)之后的新一代音频压缩标准。
在MPEG-2制订的早期,本来是想将其音频编码部分保持与MPEG-1兼容的。但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多
声道音频标准。理所当然地,这个标准是不兼容MPEG-1的,因此被称为MPEG-2
AAC。换句话说,从表面上看,要制作和播放AAC,都需要使用与MP3完全不
同的工具。
类型:Audio
制定者:MPEG
所需频宽:96-128 kbps
优点:支持多种音频声道组合,提供优质的音质。
应用领域:voip
特性:AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果声道、配音/多语音声道,以及15路数据。它可同时传送16套节目,每套节目的音频及数据结构可任意规定。
AAC主要可能的应用范围集中在因特网网络传播、数字音频广播,包括卫星直播和数字AM、以及数字电视及影院系统等方面。AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据。具有48 个主要音频通道,16 个低频增强通道,
16 个集成数据流, 16 个配音,16 种编排。
2.2 PCM编码(原始数字音频信号流)
类型:Audio
制定者:ITU-T
所需频宽:1411.2 Kbps
特性:音源信息完整,但冗余度过大。
优点:音源信息保存完整,音质好。
缺点:信息量大,体积大,冗余度过大。
2.3 WMA(Windows Media Audio)
类型:Audio
制定者:微软公司
所需频宽:320~112kbps(压缩10~12倍)
优点:当Bitrate小于128K时,WMA最为出色且编码后得到的音频文件很小。
缺点:当Bitrate大于128K时,WMA音质损失过大。WMA标准不开放,由微软掌握。
特性:当Bitrate小于128K时,WMA几乎在同级别的所有有损编码格式中表现得最出色,但似乎128k是WMA一个槛,当Bitrate再往上提升
时,不会有太多的音质改变。
2.4 PCMU(G.711U)
类型:Audio
制定者:ITU-T
所需频宽:64Kbps(90.4)
特性:PCMU和PCMA都能提供较好的语音质量,但是它们占用的带宽较高,需要64kbps。
优点:语音质量优。
缺点:占用的带宽较高。
2.5 PCMA(G.711A)
类型:Audio
制定者:ITU-T
所需频宽:64Kbps(90.4)
特性:PCMU和PCMA都能提供较好的语音质量,但是它们占用的带宽较高,
需要64kbps。
优点:语音质量优。
缺点:占用的带宽较高。
2.6 MP3
MP3(CBR、VBR、ABR)MP3应该算目前使用用户最多的有损压缩数字音频格式了。它的全称MPEG(MPEGMoving Picture Experts Group) Audio Layer-3,
1993年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。刚出现时它的编
码技术并不完善,它更像一个编码标准框架,留待人们去完善。早期的MP3编码
采用的的是固定编码率的方式(CBR ),我们常看到的128KBPS,就是代表它是以
128KBPS固定数据速率编码——你可以提高这个编码率,最高可以到320KBPS,
音质会更好,自然,文件的体积会相应增大。因为MP3的编码方式是开放的,你
可以在这个标准框架的基础上自己选择不同的声学原理进行压缩处理,所以,很快
由Xing公司推出可变编码率的压缩方式(VBR)。它的原理就是利用将一首歌的复
杂部分用高 bitrate 编码,简单部分用低 bitrate 编码,通过这种方式,进一步取得质
量和体积的统一。当然,早期的Xing 编码器的 VBR 算法很差,音质与 CBR (固
定码率)相去甚远。但是,这种算法指明了一种方向,其他开发者纷纷推出自己的
VBR算法,使得效果一直在改进。目前公认比较好的首推 LAME,它完美地实现
了 VBR 算法,而且它是是完全免费的软件,并且由爱好者组成的开发团队一直在
不断的发展完善。
3. 音频采样
通过将声波波形转换成一连串的二进制数据来再现原始声音,实现这个步骤使用的设备是模/数转换器(A/D)它以每秒上万次的速率对声波进行采样,每一次采样都记录下了原始模拟声波在某一时刻的状态,称之为样本。将一串的样本连接起来,就可以描述一段声波了,这就是音频采集。
4. 常见音频参数
4.1 采样位数
采样位数可以理解为采集卡处理声音的解析度。这个数值越大,解析度就越高,录制和回放的声音就越真实。采集卡的位数客观地反映了数字声音信号对输入声音信号描述的准确程度。市面上常用的采集卡位数如下:
8位代表2的8次方--256
16位则代表2的16次方--64K
4.2 位速说明
位速是指在一个数据流中每秒钟能通过的信息量。您可能看到过音频文件用―128–Kbps MP3‖或―64–Kbps WMA‖进行描述的情形。Kbps 表示―每秒千字节数‖,因此数值越大表示数据越多:128–Kbps MP3 音频文件包含的数据量是64–Kbps WMA 文件的两倍,并占用两倍的空间。(不过在这种情况下,这两种文件听起来没什么两样。原因是什么呢?有些文件格式比其他文件能够更有效地利用数据,64–Kbps WMA 文件的音质与128–Kbps MP3 的音质相同。)需要了解的重要一点是,位速越高,信息量越大,对这些信息进行解码的处理量就越大,文件需要占用的空间也就越多。
为项目选择适当的位速取决于播放目标:如果您想把制作的 VCD 放在 DVD 播放器上播放,那么视频必须是1150 Kbps,音频必须是 224 Kbps。典型的