音频编解码原理讲解和分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
音频编码原理讲解和分析
作者:谢湘勇,算法部,**************************简述 (2)
音频基本知识 (2)
采样(ADC) (3)
心理声学模型原理和分析 (3)
滤波器组和window原理和分析 (6)
Window (6)
TDAC:时域混叠抵消,time domain aliasing cancellation (7)
Long and short window、block switch (7)
FFT、MDCT (8)
Setero and couple原理和分析 (8)
量化原理和分析 (9)
mp3、AAC量化编码的过程 (9)
ogg量化编码的过程 (11)
AC3量化编码的过程 (11)
Huffman编码原理和分析 (12)
mp3、ogg、AC3的编码策略 (12)
其他技术原理简介 (13)
比特池技术 (13)
TNS (13)
SBR (13)
预测模型 (14)
增益控制 (14)
OGG编码原理和过程详细分析 (14)
Ogg V orbis的引入 (14)
Ogg V orbis的编码过程 (14)
ogg心理声学模型 (15)
ogg量化编码的过程 (16)
ogg的huffman编码策略 (17)
主要音频格式编码对比分析 (19)
Mp3 (19)
Ogg (20)
AAC (21)
AC3 (22)
DRA(A VS内的中国音频标准多声道数字音频编码) (23)
BSAC,TwinVQ (24)
RA (24)
音频编码格式的对比分析 (25)
主要格式对比表格如下 (26)
语音编码算法简介 (26)
后处理技术原理和简介 (28)
EQ (28)
SRS WOW (29)
环境音效技术(EAX) (29)
3D (30)
Dolby多项后处理技术 (30)
多声道介绍 (30)
简述
音频编解码目前主流的原理框图如图1,下面我希望由浅入深的对各算法原理作一说明。
音频基本知识
▪人类可听的音频频率范围为20-20khz
▪全音域可分为8度音阶(Octave)概念,每octave又可以分为12份,相当于1—7的每半音为一份(1/12 octave)
▪音调和噪音:音调有规律的悦耳的声音(如乐器的1—7),噪音是无规律的难听的声音。音调具有谐波分量,不同的乐器对同一音调产生不同的谐波,所以我们产生不同的感觉,这叫做音色,不同的谐波也产生了音色的好坏。音质主要定义为噪音的多少。
▪主要的音频编解码对象是音乐、语音,一般采用不同的编解码算法来进行编码
▪音频的编解码的格式分类
•无压缩的格式(PCM…)
•无损压缩格式(APE,FLAC,LPAC,WMA_LS…)
•有损音乐压缩格式(AAC,AACPlus,AC3,DTS,ATRAC,MP3,WMA,OGG,RA…)
•有损语音压缩格式(AMR, GSM, LPC, SPEEX, CELP, G.7XX, ADPCM,…)
•合成算法(MIDI,TTS)
▪音频的编解码的目的:减少传输的信息量,减少储存的信息量
采样(ADC)
采样即将连续的信号转化为离散的量化信号,一般应用是ADC,音频编码内采样的频率一般有:fs=8k,11.025k,12k,16k,22.05k,24k,32k,44.1k,48k(hz)9种,96khz,192khz也有应用。根据奈归斯特定理,采样频率fs大于信号频率f的两倍时,可完全重构原信号,所以音域为20khz的音乐信号,一样采用fs=44.1khz采样率。
采样混叠问题,由于采样会使信号的频谱产生2π为周期的周期扩展,所以信号的频率f>fs/2时,会产生混叠效应,故一般进行采样需要增加低通滤波器,使输入信号频率小于fs/2。重采样的问题下面列出两问题作参考:
1.将采样率为48khz的音频信号转化为24khz的信号,请问其处理过程?答案:先经过
一低通滤波器(截止频率为π/2),再每两个信号抽取一个信号,产生24khz的信号.
如果不进行低通滤波,则会产生混叠。
2.将采样率为24khz的音频信号转化为48khz的信号,请问其处理过程?答案:先每个信
号后插入一个0,再经过一低通滤波器(截止频率为π/2),产生48khz的信号. 如果不进行低通滤波,则会产生原信号的映像,且最大幅度下降,增加滤波可去除映像和实现对填充的零值平滑化。
心理声学模型原理和分析
心理声学模型是研究心理与声学的相关性,目前的主要研究成果是,
1.低于一定频率或高于一定频率我们无法听到,一般人可听范围为(20hz-20khz)
2.人的耳朵对在低于一定的声压级或高于一定的声压级的声音,我们无法听到,而最
低的可听声压级,被称为绝对听觉阈值曲线
●绝对听觉曲线近似方程:
3.对不同频率同一声压级的声音人感觉的声音响度是不同的,同时不同年龄的人对同
一声音其感觉的响度也会不同,小孩对低频和高频的感受能力都比老人要强烈很
多。这里声音的实际能量大小我们定义为声压级,人感觉的声音大小我们定义为响
度。通常人对1k-4khz的声音感觉最敏感,而人的语音也大部分集中在这个频段。