音频基础知识

合集下载

数字音频基础知识

第一章数字音频基础知识重要内容⏹声音基础知识⏹结识数字音频⏹数字音频专业知识第1节声音基础知识1.1 声音旳产生⏹声音是由振动产生旳。

物体振动停止，发声也停止。

当振动波传到人耳时，人便听到了声音。

⏹人能听到旳声音，涉及语音、音乐和其他声音（环境声、音效声、自然声等），可以分为乐音和噪音。

✦乐音是由规则旳振动产生旳，只包具有限旳某些特定频率，具有拟定旳波形。

✦噪音是由不规则旳振动产生旳，它包具有一定范畴内旳多种音频旳声振动，没有拟定旳波形。

1.2 声音旳传播⏹声音靠介质传播，真空不能传声。

✦介质：可以传播声音旳物质。

✦声音在所有介质中都以声波形式传播。

⏹音速✦声音在每秒内传播旳距离叫音速。

✦声音在固体、液体中比在气体中传播得快。

✦15ºC 时空气中旳声速为340m/s 。

1.3 声音旳感知⏹外界传来旳声音引起鼓膜振动经听小骨及其他组织传给听觉神经，听觉神经再把信号传给大脑，这样人就听到了声音。

⏹双耳效应旳应用：立体声⏹人耳能感受到（听觉）旳频率范畴约为20Hz~20kHz，称此频率范畴内旳声音为可听声(audible sound)或音频(audio)，频率<20Hz声音为次声，频率>20kHz声音为超声。

⏹人旳发音器官发出旳声音（人声）旳频率大概是80Hz～3400Hz。

人说话旳声音（话音voice / 语音speech）旳频率一般为300Hz～3000 Hz（带宽约3kHz）。

⏹老式乐器旳发声范畴为16Hz (C2)～7kHz(a5)，如钢琴旳为27.5Hz (A2)～4186Hz(c5)。

1.4 声音旳三要素⏹声音具有三个要素：音调、响度（音量/音强）和音色⏹人们就是根据声音旳三要素来辨别声音。

音调（pitch ）⏹音调：声音旳高下（高音、低音），由“频率”（frequency）决定，频率越高音调越高。

✦声音旳频率是指每秒中声音信号变化旳次数，用Hz 表达。

例如，20Hz 表达声音信号在1 秒钟内周期性地变化20 次。

音频基础知识及编码原理

音频基础知识及编码原理音频是我们日常生活中不可或缺的一部分，它通过我们的耳朵传达声音信息。

音频的基础知识和编码原理对于我们理解音频的特性和进行音频处理都是非常重要的。

一、音频基础知识1.音频信号：音频信号是一种连续时间变化的模拟信号，它可以通过声音的压力波来传递声音信息。

在计算机中，音频信号会被采样和量化为离散的数字信号。

2.音频频率：音频频率是指声音中的振荡周期数量。

它以赫兹（Hz）为单位表示，描述了声波的频率。

人类可以听到的频率范围约为20Hz到20kHz，不同的生物和设备有着不同的频率感知范围。

3.音频幅度：音频幅度是指声音的强度或振幅。

它可以通过声音的声压级来表示，单位为分贝（dB）。

声压级越高，声音就越大；声压级越低，声音就越小。

4. 音频声道：音频声道是指音频信号的通道数量。

单声道（mono）只有一个通道，立体声（stereo）有两个通道，多声道（multi-channel）有三个或更多个通道。

5.音频采样率：音频采样率是指音频信号在单位时间内进行采样的次数。

它以赫兹（Hz）为单位表示，描述了数字音频的采样精度。

常见的采样率有44.1kHz和48kHz，高采样率可以提高音频的质量。

二、音频编码原理音频编码是将模拟音频信号转换为数字音频信号的过程。

在音频编码中，采样和量化是两个主要步骤。

1.采样：采样是将连续时间的模拟音频信号转换为离散时间的数字音频信号的过程。

采样率决定了采样的频率，即每秒钟采样的次数。

采样过程会将每个采样点的幅度值记录下来，形成一个采样序列。

2.量化：量化是将连续的模拟音频信号转换为离散的数字音频信号的过程。

它将每个采样点的幅度值映射到一个有限的数值范围内，通常使用固定的比特数来表示每个采样点的幅度。

3.压缩编码：为了减小数字音频的文件大小，音频信号通常会经过压缩编码的处理。

压缩编码可以通过去除信号中的冗余信息或者使用有损压缩算法来实现。

常见的音频压缩编码格式有MP3、AAC和FLAC等。

音频入门知识

音频入门知识声音的概念.1. 声音是一种机械振动状态的传播现象，它表现为一种机械被即声波。

产生声波的条件:a) 有作机械振动的物体：声源 b) 有能传播机械振功的弹性介质声波示意（L. A. Rowe ）2.声波频率声压变化可以是周期性的和非周期性频率概念循环（cycle）- 压缩/稀薄过程频率（frequency）：每秒cycle 数，单位 hertz (Hz) 周期 – cycle 的持续时间 (1/frequency)声音信号一般由许多频率不同的信号组成，称为复合信号；而单一频率的信号称为分量信号时间幅度频率范围频率小于20Hz 一般称为次声波（subsonic)人的听觉器官能感知的声音频率范围约为20Hz～20kHz的信号称为音频(Audio)信号人发音器官发声频率约是80～3400Hz，但人说话的信号频率约为300～3000Hz，即话音(speech)信号高于20kHz的信号称为超声波 (ultrasonic)超声波及次声波一般不能引起人听觉器官的感觉，但可借助一些仪器设备进行观察和测量乐音与噪音1.一般乐音指具有确定的基频以及与该基频有较小整数倍关系的各阶谐频（harmonic tone）2.频率比基音高的所有分音统称泛音(over tone)，泛音的频率不必与基音成整数倍关系3.在主观上把令人不愉快或不需要的声音定义为噪音4.噪音的频谱较为复杂，具有无规则的振幅和波形的连续频谱声音三要素1.响度（音响）loudness到达人耳的声扰动振幅所产生的听觉的大小声振动能量是物理特性，可用声强（sound pressure）定义，单位:帕斯卡 (Pa)实用上通常都以对数方式的声压级 (sound pressure level)表示，单位:分贝(db)响度是主观量，不能用任何仪器正确地测量声音响度使用了以两个声强之比的对数为基础的相对标度，单位：宋（sone）2.音调（音高）pitch或tone人对声音刺激频率的主观判断与估量，称之为音调 (Pitch)，单位：美（Mel）Frequency是物理量，而音调是人的感觉听觉经验一般女生的声音比男生高较大物体振动的音调较低3.音色（音质）timber由其频谱决定: 不同乐器发出同一音高的乐音，仍然可以分辨可以把音色描述为音的瞬时横截面，即用谐音（泛音）的数目、强度、分布和相位来描述。

音频的基础知识

音频的基础知识一、计算机和网络是怎样存储、处理和传递声音的？计算机和网络存储、处理和传递的是二进制数据。

用二进制数字序列表示声音，是利用现代信息技术处理和传递声音信号的前提。

数字声音的获取有以下两种方式：1、将声音数字化2、利用MIDI设备输入或用计算机软件编写MIDI音乐二、声音的数字化模拟音频信号：声波通过话筒转变为时间上连续的电压波，电压波与引起电压波的声波的变化规律是一致的，因此可以利用电压波来模拟声音信号，这种电压波被称为模拟音频信号。

模拟/数字转换：计算机内部只能处理数字信息，因此必须借助于一种设备，将时间上连续的模拟音频信号转变为用来表示声音的数据序列，计算机才能进行识别和处理，也就是通过话筒以及相关电压放大电路把声波转换成电压的波形。

通过“采样”和“量化”可以实现模拟量的数字化，这个过程称为“模数转换”（A/D转换），承担转换任务的电路和芯片称为“数模转换器”（ADC）采样：按一定的频率，即每个一小段时间，测得模拟信号的模拟量值。

量化：采样时测的的模拟电压值，要进行分级量化。

方法是按整个电压变化的最大幅度划分成几个区段，把落在某区段的采样到的样品值归成一类，并给出相应的量化值。

通过采样和量化，一个连续的波形变成了一系列二进制数字表示的数据。

数字化的声音的质量取决于采样频率和量化分级的细密程度。

量化的分辨率越高，所得数字化的声音的保真程度也越好，数据量也越大。

在播放时，计算机还要将数字信号转化成模拟信号。

例题：在某声音的数字化过程中，使用44.1KHZ的取样频率，16位量化位数，则采集四声道的此声音1分钟所需的储存空间约为__A165.75MB B21.168MBC20.672MB D10.584MB波形声音的码率（kb/s）=44.1 * 16 * 4=2822.4kb/s2822.4kb/s=2822.4/8=352.8KB/s352.8KB/s* 60s=21168KB=20.672MB选C三、MIDI音乐MIDI是音乐设备数字接口。

音频基础知识

⾳频基础知识⼀.⾳频基础知识1.⾳频编解码原理数字⾳频的出现，是为了满⾜复制、存储、传输的需求，⾳频信号的数据量对于进⾏传输或存储形成巨⼤的压⼒，⾳频信号的压缩是在保证⼀定声⾳质量的条件下，尽可能以最⼩的数据率来表达和传送声⾳信息。

信号压缩过程是对采样、量化后的原始数字⾳频信号流运⽤适，当的数字信号处理技术进⾏信号数据的处理，将⾳频信号中去除对⼈们感受信息影响可以忽略的成分，仅仅对有⽤的那部分⾳频信号，进⾏编排，从⽽降低了参与编码的数据量。

数字⾳频信号中包含的对⼈们感受信息影响可以忽略的成分称为冗余，包括时域冗余、频域冗余和听觉冗余。

1.1时域冗余．幅度分布的⾮均匀性：信号的量化⽐特分布是针对信号的整个动态范围⽽设定的，对于⼩幅度信号⽽⾔，⼤量的⽐特数A．幅度分布的⾮均匀性据位被闲置。

B．样值间的相关性:声⾳信号是⼀个连续表达过程，通过采样之后，相邻的信号具有极强的相似性，信号差值与信号本⾝相⽐，数据量要⼩的多。

C．信号周期的相关性:声⾳信息在整个可闻域的范围内，每个瞬间只有部分频率成分在起作⽤，即特征频率，这些特征频率会以⼀定的周期反复出现，周期之间具有相关关系。

D．长时⾃我相关性:声⾳信息序列的样值、周期相关性，在⼀个相对较长的时间间隔也会是相对稳定的，这种稳定关系具有很⾼的相关系数。

E．静⾳:声⾳信息中的停顿间歇，⽆论是采样还是量化都会形成冗余，找出停顿间歇并将其样值数据去除，可以减少数据量。

1.2频域冗余．长时功率谱密度的⾮均匀性：任何⼀种声⾳信息，在相当长的时间间隔内，功率分布在低频部分⼤于⾼频部分，功率谱A．长时功率谱密度的⾮均匀性具有明显的⾮平坦性，对于给定的频段⽽⾔，存在相应的冗余。

B．语⾔特有的短时功率谱密度:语⾳信号在某些频率上会出现峰值，⽽在另⼀些频率上出现⾕值，这些共振峰频率具有较⼤的能量，由它们决定了不同的语⾳特征，整个语⾔的功率谱以基⾳频率为基础，形成了向⾼次谐波递减的结构。

音频基础知识

⾳频基础知识Audio知识简介⼲⼀⾏专⼀⾏VS学⼀⾏丢⼀⾏第⼀部分：HTS基本概念：HTS（Home Theater System）通俗的讲就是将电影院搬到家⾥，然后就成了家庭影院，就公司的产品⽽⾔可以简单的理解为：DVD/BD player + 功放+ Speaker 组成：节⽬源（碟⽚+碟机等）+ 放声系统（AV功放+⾳箱组等）+显⽰部分（电视机/投影仪）配置家庭影院的好处：⾼清晰的如⽔晶般的画⾯，环绕的⽴体声，清晰的⼈声，震撼的低⾳效果，可以提供⼏乎⾝临其境的感觉。

在强烈的视听冲击下，能感受到现实和虚拟的完美交汇，触发更深的⼈⽣感悟。

第⼆部分：Audio百度定义：1.Audio指⼈说话的声⾳频率，通常指300Hz---3400Hz的频带2.指存储声⾳内容的⽂件3.在某些⽅⾯能指作为波滤的振动。

⾳频这个专业术语，⼈类能够听到的所有声⾳都称之为⾳频，它可能包括噪⾳，声⾳被录制下来以后，⽆论是说话声，歌声乐器都可以通过数字⾳乐软件处理。

把它制作成CD，这时候所有的声⾳没有改变，因为CD本来就是⾳频⽂件的⼀种类型。

⽽⾳频只是储存在计算机⾥的声⾳，演讲和⾳乐，如果有计算机加上相应的⾳频卡，可以把所有的声⾳录制下来，声⾳的声学特性，⾳的⾼低都可以⽤计算机硬盘⽂件的⽅式储存下来，反过来，也可以把眄来的⾳频⽂件通过⼀定的⾳频程序播放，还原以前录下的声⾳。

Audio的分类：按编码格式分类：mp3,wav, aac, ogg, flac, aiff, ac3(亦称之Dolby digital), dts, pcm, Dolby true hd(HD), Dolby digital plus(HD), dts hd master audio(HD), dts hd high resolution audio(HD), dts hd low bit rate(HD)多声道⾳频的分类：C:center L: left front R: Right frontLS: Left surround RS: right surround S: surround(单个环绕声道)LB：left back surround RB: right back surroundCs: Center surround1.带LFE声道的分法：根据码流中实际的通道数分X的值为0/1，0表⽰不带LFE通道，1表⽰含LFE通道1.x C 如1.0 为C，1.1为C+LFE2.x->L+R3.x->C+L+R4.x->L+R+LS+RS5.x->L+R+C+LS+RS6.x->L+R+C+LS+RS+Cs7.x->L+R+C+LS+RS+LB+RB2.不带LFE声⾳的分法：根据喇叭摆放的位置分其中C/L/R均摆放在前⾯，LS/RS/S/LB/RB均摆在两边/后⾯，如下图1/0->C2/0->L+R3/0->C+L+R2/1->L+R+S2/2->L+R+LS+RS3/1->L+R+C+S3/2->L+R+C+LS+RS3/3->L+R+C+LS+RS+Cs3/4->L+R+C+LS+RS+LB+RB3.声⾳信号的传输：（1）定义及I2S总线构成：I2S（Inter-IC Sound）总线是飞利浦公司为数字⾳频设备之间的⾳频数据传输⽽制定的⼀种总线标准，该总线专责于⾳频设备之间的数据⼈，⼴泛应⽤于各种多媒体系统。

音视频基础知识及概念

• DPCM • 在语音编码中，一种普遍使用的技术叫做预测技术，这种技术是企图从过去的样本来预测下一个样本的值。这样做的根据是认为在语音样本之间存在相关性。如果样本的预测值与样本的实际值比较接近，它们之间的差值幅度的变化就比原始语音样本幅度值的变化小，因此量化这种差值信号时就可以用比较少的位数来表示差值。这就是差分脉冲编码调制（Differential Pulse Code Modulation，DPCM），它是对预测的样本值与原始的样本值
音频技术基础—常见音频编码标准
• ITU-T Recommendation G.711 • ITU-T Recommendation G.722 / G.722.1 • ITU-T Recommendation G.723.1 & Annex A • ITU-T Recommendation G.728 & Annex G • ITU-T Recommendation G.729 & Annex A B • MP3(MPEG-1 audio layer 3) • AAC(Advanced Audio Coding，先进音频编码)
音频技术基础—波形编码方式
• ADPCM
– DPCM这种编译码器对幅度急剧变化的输入信号会产生比较大的噪声，改进的方法之一就是使用自适应的预测器和量化器，所谓自适应就是指，量化位数随着幅度的变化而变化，这样就产生了自适应差分脉冲编码调制（Adaptive Differential PCM，ADPCM）。
到了。
• 音调
• 音调是反映声音高低的，由声波的频率决定。频率高的声音音调高，听起来尖细；频率低的声音音调低，听起来低沉。
• 对于不同的频段，人耳对音调的辨别能力不同，中频段最灵敏，高、低频段较差。对于1KHz左右的声音，一般人可以

音频基础知识及编码原理

音频基础知识及编码原理音频是指能够被人耳所听到的声音信号，其本质是一种机械波，通过空气或其他物质传播。

音频编码是将这种声音信号转化为数字信号的过程，使其能够被计算机处理和传输。

下面将介绍音频的基础知识以及音频编码的原理。

一、音频基础知识1.声音的特性声音由振动体产生，通过空气或其他介质以波的形式传播。

声音具有频率、振幅和波形等特性。

频率决定了声音的音调，振幅决定了声音的响度，波形决定了声音的音色。

2.声音的数字化声音的数字化是将连续的模拟声音信号转换为离散的数字信号的过程。

通过采样、量化和编码三个步骤完成。

采样是将连续的声音信号在时间上离散化，量化是将采样后的幅度值离散化，编码是将离散化的采样值和量化值转换为二进制码流。

二、音频编码原理1.基于脉冲编码调制（PCM）的编码PCM是一种常用的音频编码方式，它将声音信号的采样值转换为相应的二进制码。

PCM编码包括采样、量化和编码三个步骤。

采样率决定了每秒采样的次数，采样位数决定了每个采样点的量化级别，位深度决定了每个采样点的分辨率。

2.基于压缩编码的编码压缩编码是为了减小音频数据的存储空间和传输带宽而设计的一种编码方案。

常见的压缩编码标准有MP3、AAC、WMA等。

压缩编码通过去除不重要的音频信号，减小冗余信息的存储和传输量。

压缩编码分为有损压缩和无损压缩两种，有损压缩会对音频信号进行一定程度的失真，而无损压缩则能够完全恢复原始音频信号。

3.基于声学模型的编码基于声学模型的编码将人耳对声音的感知特性引入编码过程中，通过对声音的重建模拟来实现更高的压缩效率。

常见的基于声学模型的编码标准有Opus、AAC-ELD等。

这种编码方式可以根据人耳对声音细节的察觉程度来决定信号的重建，从而实现压缩效率的提升。

总结起来，音频编码是将声音信号转化为数字信号的过程，使其能够被计算机处理和传输。

常见的音频编码方式包括PCM编码、基于压缩编码的编码和基于声学模型的编码。

不同的编码方式有着不同的特点和应用场景，在实际使用中需要根据具体的需求来选择合适的编码方式。

音频基础知识

⾳频基础知识CODEC图1基本⾳频输⼊输出系统框图1.模拟⾳频接⼝1.13.5mm接⼝1.1.1插座⾸先要了解前置⾳频插座的结构。

根据英特尔关于AC97前置⾳频接⼝的规范，机箱的前置⾳频⾯板采⽤两种3.5毫⽶微型插座：1开关型的，2⽆开关型的，见下图：开关型的2/3，4/5端是两个开关，当没有插头插⼊时，2/3，4/5端是连通的，当插头插⼊时2/3，4/5端断开。

⽆开关的就没有3，4两个开关端。

1.1.2⼆段三段四段3.5mm插头有⼏种规格，最常见的是三段式的，四段式的则在消费电⼦中应⽤越来越多，另外也有⼆段式的，通常⽤于麦克风⼆段、三段式插头如下图所⽰：⼆芯插头⼀般⽤于麦克，三芯插头⼀般⽤于⽴体声⾳⽿机（有源⾳箱）。

现在⼆芯插头很少，所以麦克也⽤三芯插头。

⽿机和麦克插头的接线定义如下图：四段式插头根据我们市⾯上出现的不同标准的⽿机插头，⽿机市场才将不同的⽿机接头⽅式划分为2个类别：N版和i版，N版⽿机主要是适⽤于NOKIA、MOTO、OPPO、BBK等⼿机，⽽我们的i版⽿机插头则主要适⽤于iphone、HTC、魅族和PC、MP3等电⼦数码通讯设备。

要了解清楚这个问题之前，我们先要认识我们⽿机插头的结构，在市⾯上销售的⽿机插头主要分为：2.5mm和3.5mm，⼜被分为单⾳⽿机插头、⽴体⽿机插头、四极⽿机插头、五极⽿机插头，主要普遍还是3.5mm见的居多，⼀般的3.5mm 的⽿机插头⼤多都是三段式的结构，看完下图你就清楚了！图为普通⽿机插头三段式结构N版⽿机和i版⽿机同样是3.5mm的标准，她们之所以适⽤于不⽤的⼿机类型，也正是因为她们的接头设计不同，N版和i版⼜有⼀个共同点，就是都采⽤的是4段式的⽿机插针的结构，不同的是N版的⽿机插头从左到右依次是左声道、右声道、麦克、地线，i版⽿机从左到右依次是左声道、右声道、地线、麦克。

详情请看下图：NOKIA⽿机插头四段式插头结构Iphone⼿机四段式⽿机插头结构1.2RCA接⼝：RCA接头就是常说的莲花头。

音频视频编辑与制作第一章音频的基础知识

音频文件的常见格式
第15页
返回
1.3 音频文件的常见格式
*.MID、*.RMI、*.CMF、*.RCP
音频文件格式简介
这些文件格式属于MIDI文件范畴，这类文件主要应用于计算机音乐创作，用户可以通过专业的音频创作软件实现谱曲，或直接通过声卡MIDI接口将外部音序器演奏的乐曲输入到计算机中完成音乐创作
音频信号的数字处理第8页
返回
1.2 音频信号的数字处理
（2）量化和编码
音频信号的处理过程
量化：把取样保持处理后的信号变为有限个在幅度上离散的二进制信号的过程
编码：对量化的每个值点的数值进行二进制编码的过程
音频信号的数字处理第9页
返回
1.2 音频信号的数字处理
音频信号的处理过程
（3）量化噪音：在量化时忽略的信号实际值与量化值之间存在偏差，是由量化编码的位数决定，它也决定了量化的精度
音频文件的常见格式
第14页
返回
1.3 音频文件的常见格式
CD-DA
音频文件格式简介
CD-DA是数字音频光盘Compact Disc Ditigal Audio 的英文缩写，这种音乐格式在我们的日常生活中十分常见，它的数字化音频效果完全能够再现原始的声效且文件小
MD
MD是MiniDisc的简称，是SONY公司推出的一种便携式音乐格式。具有很强的编辑功能。用户可以快速完成选曲、编曲等基本编辑操作，极具个性化。目前流行的MD汽车音响、 MD随身听等都是采用这种音乐格式
音频文件的常见格式
第12页
返回
1.3 音频文件的常见格式
*.RA、*.RM、*.RAM
音频文件格式简介
这些文件格式是Real文件的主要格式，可以随网络带宽的不同而改变声音的质量，在保证大多数人听到流畅声音的前提下，另带宽较充裕的听众获得较好的音质

音频基础知识及编码原理

一、基本概念1 比特率：表示经过编码（压缩）后的音频数据每秒钟需要用多少个比特来表示，单位常为kbps。

2 响度和强度：声音的主观属性响度表示的是一个声音听来有多响的程度。

响度主要随声音的强度而变化，但也受频率的影响。

总的说，中频纯音听来比低频和高频纯音响一些。

3 采样和采样率：采样是把连续的时间信号，变成离散的数字信号。

采样率是指每秒钟采集多少个样本。

Nyquist采样定律：采样率大于或等于连续信号最高频率分量的2倍时，采样信号可以用来完美重构原始连续信号。

二、常见音频格式1. WAV格式，是微软公司开发的一种声音文件格式，也叫波形声音文件，是最早的数字音频格式，被Windows平台及其应用程序广泛支持，压缩率低。

2. MIDI是Musical Instrument Digital Interface的缩写，又称作乐器数字接口，是数字音乐/电子合成乐器的统一国际标准。

它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式，规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议，可以模拟多种乐器的声音。

MIDI文件就是MIDI格式的文件，在MIDI文件中存储的是一些指令。

把这些指令发送给声卡，由声卡按照指令将声音合成出来。

3. MP3全称是MPEG-1 Audio Layer 3，它在1992年合并至MPEG规范中。

MP3能够以高音质、低采样率对数字音频文件进行压缩。

应用最普遍。

4. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding 科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。

MP3Pro可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。

它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。

5. MP3Pro是由瑞典Coding科技公司开发的，其中包含了两大技术：一是来自于Coding 科技公司所特有的解码技术，二是由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一项译码技术。

06-音频基础知识及国标

2 声波简介
2 声波简介

声波的衍射：声波绕过障碍物传播的现象，称为声波衍射。站在高墙两侧的人，能听见对方说话的声音，这是声波衍射的结果，声音虽不能穿过厚厚的墙壁，却能绕过墙壁传播。声波的衍射与波长有关系，波长越长衍射越显著。声的波长约为10厘米到1米多，它的衍射很容易被人们感觉到。无线电广播使用波长几百到几千米的波，它能绕过高大的建筑物、高山传到任何角落，所以一般收音机不用室外天线也能收到遥远地方传来的广播。电视台使用的无线电波的波长只有1米左右，绕过障碍物的本领较小，所以收看电视节目必须有灵敏的天线。声波的干涉：干涉造成两个不同波之间峰和谷的叠加，峰和峰叠加导致这个区域的声压级加强3dB，峰和谷叠加导致声功率相互抵消，声压级降低，声音的干涉在多扬声器系统比较常见，不可避免
人耳的结构
人耳的结构：外耳、中耳、内耳、骨传导
听觉的方位感
双耳效应人们是用两只耳朵同时听声音的，当某一声源至两只耳朵的距离不同时，此时两只耳朵虽然听到的是同一声波，但却存在着 1、时间差（相位差） 2、强度差（声级差）它们成为听觉系统判断声源方向的重要客观依据。由于不同方向上的声源到达两耳处的声波状态的不同，造成了听觉的方位感和深度感。从而使人能由此判断声源的方向位置。
2 声波简介

波阵面：声波从声源发出，在某一介质内按同一方向传播，在某一时间到达空间各点的包络面称为波阵面。球面波：点声源发出的波，声线与波阵面垂直。如人、乐器。平面波：波阵面为平面的波，声源互相平行，如线声源，多个点声源叠排。
我们的听觉特性
• 音响的最后结果是给人耳听的，我们应该了解一下自己的耳朵。 • 世界上还没有任何一种物理仪器，能有耳朵那样的惊人的特性。 • 人耳不但有很大的响度动态范围，而且还是一个很完美的分析仪，它有判断响度、音调、音色的本领，还具有极强的选择性，可以把听力集中在想听的声音上。 • 声音是一种物理现象，人耳听到后的感受则是一种心理现象。人耳具有分辨声音的强度、音调及音色的能力，还能够分辨出声像的方向和深度，并感受到空间感及纵深感。

音频基础知识讲解

录音设备
包括麦克风、录音笔、录音棚等，它们能够将声音转化为电子信号，以便进行后续的编辑和处理。
录音环境
录音环境对采集到的音频质量有很大的影响，因此需要选择一个相对安静、减少噪音干扰的环境进行录音。
音频编辑
音频编辑
指对采集到的音频进行裁剪、拼接、降噪等处理，以达到更好的
听觉效果。
音频编辑软件
混音技术
混音是将多个音频轨道混合在一起的过程，以达到更好的整体效果。
音频效果处理
01
02
03
音频效果处理
指通过添加效果器来改变音频的音质、音色等特性，以达到特定的听觉效果。
效果器
效果器可以对音频进行各种处理，如压缩、均衡、混响等，以达到特定的效果。
效果器使用技巧
了解和掌握效果器的使用技巧，可以帮助用户更好地处理和修饰音频，以达到更好的听觉效果。
音频增强技术
音频均衡器
调整音频的频谱分布，突出或抑制特定频段，改善音质。
动态处理
对音频信号的动态范围进行调整，提高清晰度和响度。
音频压缩
降低音频信号的动态范围，减小文件大小，便于存储和传输。
音频虚拟现实技术
3D音效
通过模拟立体声效果，使用户感受到声音的方向、距离和运动变化。
环境音效
模拟不同环境下的声音效果，如森林、城市、太空等，增强沉浸感。
音频处理未来的发展方向
未来，人工智能将在音频处理中发挥更加重要的作用，实现更加智能化的音频分析和处理，满足更多场景的需求。
虚拟现实与音频技术
虚拟现实中的音频需求
虚拟现实技术需要高质量的音频来增强沉浸感，要求音频具有空间感和动态效果，能够与虚拟场景相融合。

音频视频编辑与制作第一章音频基础知识

第一章音频的基础知识
声音信号的基本特点音频信号的数字处理音频文件的常见格式
声音信号的基本特点
1.1 声音信号的基本概念
声音的种类
声音可分为：
纯音：轻敲音叉所发出的一种单一频率的正弦波声音
复合音：包含两个以上纯音的声音
基本音：周期性的复合音与周期相同的声音或非周期性的复合音中最低频率的声音谐波：又称倍音，具有周期性的复合音中，除基本音以外，与基本音成整数倍的声音
它是YAMAHA公司的专用音频格式。采用减少数据流量但保持音质的方法来达到更高的压缩比，该文件格式我们并不常见
音频文件的常见格式第14页返回
1.3 音频文件的常见格式
音频文件格式简介
CD-DA
CD-DA是数字音频光盘Compact Disc Ditigal Audio的英文缩写，这种音乐格式在我们的日常生活中十分常见，它的数字化音频效果完全能够再现原始的声效且文件小
MD
MD是MiniDisc的简称，是SONY公司推出的一种便携式音乐格式。具有很强的编辑功能。用户可以快速完成选曲、编曲等基本编辑操作，极具个性化。目前流行的MD汽车音响、 MD随身听等都是采用这种音乐格式
音频文件的常见格式第15页返回
1.3 音频文件的常见格式
音频文件格式简介
*.MID、*.RMI、*.CMF、*.RCP
单音：一个基本音与其整数倍的谐波组成的声音
声音信号的基本概念第1页返回
1.1 声音信号的基本概念
声音的种类
声音可分为：
谐和音：在单音的混合声中，其倍频音相等的声音噪音：无规律（非周期性）的声音
白噪音：在宽广的频率范围内能量分布均匀的声音

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

音频，英文是AUDIO，也许你会在录像机或VCD的背板上看到过AUDIO输出或输入口。

这样我们可以很通俗地解释音频，只要是我们听得见的声音，就可以作为音频信号进行传输。

有关音频的物理属性由于过于专业，请大家参考其他资料。

自然界中的声音非常复杂，波形极其复杂，通常我们采用的是脉冲代码调制编码，即PCM编码。

PCM通过采样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。

一、音频基本概念1、什么是采样率和采样大小（位/bit）。

声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。

波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。

采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。

我们常见的CD，采样率为44.1kHz。

光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。

量化电平数为2的整数次幂，我们常见的CD位16bit的采样大小，即2的16次方。

采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。

如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。

采样率和采样大小的值越大，记录的波形更接近原始信号。

2、有损和无损根据采样率和采样大小可以得知，相对自然界的信号，音频编码最多只能做到无限接近，至少目前的技术只能这样了，相对自然界的信号，任何数字音频编码方案都是有损的，因为无法完全还原。

在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。

因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。

我们而习惯性的把MP3列入有损音频编码范畴，是相对PCM编码的。

强调编码的相对性的有损和无损，是为了告诉大家，要做到真正的无损是困难的，就像用数字去表达圆周率，不管精度多高，也只是无限接近，而不是真正等于圆周率的值。

3、为什么要使用音频压缩技术要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数bps。

一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为44.1K×16×2 =1411.2 Kbps。

我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。

将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。

这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有2种方法，降低采样指标或者压缩。

降低指标是不可取的，因此专家们研发了各种压缩方案。

由于用途和针对的目标市场不一样，各种音频压缩编码所达到的音质和压缩比都不一样，在后面的文章中我们都会一一提到。

有一点是可以肯定的，他们都压缩过。

4、频率与采样率的关系采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。

显然，在相同的采样率下，记录低频的信息远比高频的详细。

这也是为什么有些音响发烧友指责CD有数码声不够真实的原因，CD的44.1KHz采样也无法保证高频信号被较好记录。

要较好的记录高频信号，看来需要更高的采样率，于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率，这是不可取的！这其实对音质没有任何好处，对抓轨软件来说，保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一，而不是去提高它。

较高的采样率只有相对模拟信号的时候才有用，如果被采样的信号是数字的，请不要去尝试提高采样率。

5、流特征随着网络的发展，人们对在线收听音乐提出了要求，因此也要求音频文件能够一边读一边播放，而不需要把这个文件全部读出后然后回放，这样就可以做到不用下载就可以实现收听了。

也可以做到一边编码一边播放，正是这种特征，可以实现在线的直播，架设自己的数字广播电台成为了现实。

几个补充概念：什么是分频器？分频器是指将不同频段的声音信号区分开来，分别给于放大，然后送到相应频段的扬声器中再进行重放。

在高质量声音重放时，需要进行电子分频处理。

它可分为两种：（1）功率分频器：位于功率放大器之后，设置在音箱内，通过LC滤波网络，将功率放大器输出的功率音频信号分为低音，中音和高音，分别送至各自扬声器。

连接简单，使用方便，但消耗功率，出现音频谷点，产生交*失真，它的参数与扬声器阻抗有的直接关系，而扬声器的阻抗又是频率的函数，与标称值偏离较大，因此误差也较大，不利于调整。

（2）电子分频器：将音频弱信号进行分频的设备，位于功率放大器前，分频后再用各自独立的功率放大器，把每一个音频频段信号给予放大，然后分别送到相应的扬声器单元。

因电流较小故可用较小功率的电子有源滤波器实现，调整较容易，减少功率损耗，及扬声器单元之间的干扰。

使得信号损失小，音质好。

但此方式每路要用独立的功率放大器，成本高，电路结构复杂，运用于专业扩声系统。

（摘自av_world）什么是激励器？激励器是一种谐波发生器，利用人的心理声学特性，对声音信号进行修饰和美化的声处理设备。

通过给声音增加高频谐波成分等多种方法，可以改善音质、音色、提高声音的穿透力，增加声音的空间感。

现代激励器不仅可以创造出高频谐波，而且还具有低频扩展和音乐风格等功能，使低音效果更加完美、音乐更具表现力。

使用激励器提高声音的清晰度，可懂性和表现力。

使声音更加悦耳动听，降低听音疲劳，增加响度。

虽然激励器只给声音增加了0.5dB 左右的谐波成分，但实际听起来，音量好像增加了10dB左右。

使声音的听觉响度明显增加，声音图像的立体感，以及声音的分离度的增加；改善了声音的定位和层次感，还可以提高重放声音的音质，磁带的复制率。

因为声信号在传送和录制过程中会损失高频谐波成分，出现高频噪声。

此时前者用激励器先对信号进行补偿，后者可用滤波器将高频噪声滤掉后，再营造出高音成分，保证重放音质。

激励器的调节需要音响师对系统的音质和音色进行判别，再根据主观听音评价进行调整。

（什么是均衡器？均衡器是一种可以分别调节各种频率成分电信号放大量的电子设备，通过对各种不同频率的电信号的调节来补偿扬声器和声场的缺陷，补偿和修饰各种声源及其它特殊作用，一般调音台上的均衡器仅能对高频、中频、低频三段频率电信号分别进行调节。

均衡器分为三类：图示均衡器，参量均衡器和房间均衡器。

1．图示均衡器：亦称图表均衡器，通过面板上推拉键的分布，可直观地反映出所调出的均衡补偿曲线，各个频率的提升和衰减情况一目了然，它采用恒定Q值技术，每个频点设有一个推拉电位器，无论提升或衰减某频率，滤波器的频带宽始终不变。

常用的专业图示均衡器则是将20Hz~20kHz的信号分成10段、15段、27段、31段来进行调节。

这样人们根据不同的要求分别选择不同段数的频率均衡器。

一般来说10段均衡器的频率点以倍频程间隔分布，使用在一般场合下，15段均衡器是2/3倍频程均衡器，使用在专业扩声上，31段均衡器是1/3倍频程均衡器，多数有在比较重要的需要精细补偿的场合下，图示均衡器结构简单，直观明了，故在专业音响中应用非常广泛。

2．参量均衡器：亦称参数均衡器，对均衡调节的各种参数都可细致调节的均衡器，多附设在调音台上，但也有独立的参量均衡器，调节的参数内容包括频段、频点、增益和品质因数Q值等，可以美化（包括丑化）和修饰声音，使声音（或音乐）风格更加鲜明突出，丰富多彩达到所需要的艺术效果。

3．房间均衡器，用于调整房间内的频率响应特性曲线的均衡器，由于装饰材料对不同频率的吸收（或反射）量不同以及简正共振的影响造成声染色，所以必须用房间均衡器对由于建声方面的频率缺陷加以客观地补偿调节。

频段分得越细，调节的峰越尖锐，即Q值（品质因数）越高，调节时补偿得越细致，频段分的越粗则调节的峰就比较宽，当声场传输频率特性曲线比较复杂时较难补偿。

（什么是压缩限幅器？压缩限幅器是压缩器和限幅器的统称。

它是音频信号的一种处理设备，可以将音频电信号的动态进行压缩或进行限制。

压缩器为可变增益放大器，其放大倍数(增益)可以随输入信号的强弱而自动变化，是成反比的。

当输入信号达到一定程度（阈值也称临界值）时，输出信号随输入信号的增加而增加，这种情况称为压缩（Compressor）；不再增加则称为限制（Limiter）。

过去的压限器采用硬拐点（Hard-knee）技术，输入信号一达到阈值。

增益就立即减少，这样就会出现信号在拐点（增益变化的转折点）处动态突变现象，使人耳明显地感觉到强信号被突然压缩的现象。

为了解决这一不足，现代新型压限器采用了软拐点（soft-knee）技术，这种压限器在阈值前后的压缩比变化是平衡的，渐变的，使压缩变化难以察觉，音质进一步提高。

压限器在录音过程中可以使乐器和歌唱者的音量保持一定的平衡；保证各种信号强度的均衡。

有时也用来消除歌唱者的口齿声，或利用改变压缩和释放时间，产生声音由小变大的“反转声”特殊效果。

在广播系统中是用它来压缩较大动态范围的节目信号在防止调制失真和防止发射机过载的前提下，提高平均发射电平。

在歌舞厅的扩声系统中，压限器是将信号通过压缩在保持原节目的风貌下，降低音乐的动态，以满足扩声系统和艺术活动的要求。

虽然压限器有多种用途，现代压缩器普通采用了软拐点等新技术，可进一步减小压限器的压缩器的副作用，但是并不意味着压限器对音质的破坏作用就已不复存在了。

所以，在扩声系统中，不要滥用压限器，即使要用也应该慎用减少用压限器对信号进行处理。

这不仅是保护功放、音箱的需要，也是对改善音质的需要。

音频基础知识

数字音频基础知识

音频基础知识及编码原理

音频入门知识

音频的基础知识

音频基础知识

音频基础知识

音视频基础知识及概念

音频基础知识及编码原理

音频基础知识

音频视频编辑与制作第一章 音频的基础知识

音频基础知识及编码原理

06-音频基础知识及国标

音频基础知识讲解

音频视频编辑与制作第一章 音频基础知识

音频视频编辑与制作第一章音频的基础知识

音频视频编辑与制作第一章音频基础知识