第3章 音频技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 波形音频
声音的数字化过程** (3)编码
1.基于波形编码(音质高,但数据率也高)
频域法:
将输入话音分为几个频带(子带),变换到每个子带中的 话音信号进行独立编码,用ADPCM编码,在接收端,每个子 带中的信号单独解码之后重新组合,产生重Fra Baidu bibliotek的话音。 特点: 每个子带总的噪声信号仅仅与该子带使用的编码方式有 关系。根据声音的重要性分配不同的数位给它们。需要 滤波器将信号分成若干个子带,这比简单的ADPCM编译码 器要简单。 增加延迟。
2、频率是指物体每秒钟振动的次数。
我们听到的声音都是物体振动后会产生声波, 不同的振动频率将会产生不同的声波。 声波的频率范围 一般人的听力范围是 20Hz~20kHz。这个频率区域 称为可闻声段,大致可分为低频、中频和高频 频率 种类
低频的频率约在250~500 Hz(如鼓声) 0~20Hz 次声波 中频的频率约在1000~2000 Hz, 20~20KHz 可以听到的频率范围 高频的频率约在3000~4000 Hz(如哨子声)。 20KHz~1GHz 超声波
声音在数字化后的波形 图
图3-5声音的采样
2. 波形音频
声音的数字化过程** (2)量化(Quantigation) 定义:量化是将模拟信号的采样值用数字方法读出。读 出采样值时一般采用二进制方法。 如图3-5将波形的幅值高度用 量化过程:就是将采样后的信号按整个声波的幅值划分 8bit记录,就可以将高度分成 量化精度:表示采样值的二进制位数(比位数)。量化级 为若干个区段,把落入某区段的样值归为一类,并赋予 256个区间,采样后的波形将 位数的多少决定了采样值的精度。 相同的量化值。 会丢失采样之间的一些细节波 声音在数字化 后的波形图 形 均匀量化:采用相同间隔对采样得到的信号做量化,也 成为线性量化。 例如,一个采样点处于215区
临 界频 带 0 1 2 3 4 5 频率(Hz) 低 0 100 200 300 400 510 高 100 200 300 400 510 630 宽 度 100 100 100 100 110 120 临 界频 带 13 14 15 16 17 18 频率(Hz) 低 2000 2320 2700 3150 3700 4400 高 2320 2700 3150 700 4400 5300 宽度 320 380 450 550 700 900
2. 波形音频
声音的数字化过程** (3)编码 定义:编码是按一定的格式将离散的数字信号记录下来, 并在数据的 前、后加上同步、纠错等控制信号。 为了减少数据率,CCITT(国际电报电话咨询委员会) 先后提出 一系列音频压缩编码的建议。
1.基于波形编码(音质高,但数据率也高) 脉冲编码调制(PCM): 直接对声音信号经过采样、量化、编码过程,作A/D(模/ 数)转换。 差分脉冲编码调制(DPCM): 只传输声音预测值和样本值的差值以此降低音频数据的编 码率。 自适应差分编码调制(ADPCM): 是DPCM的改进,通过调整量化步长,对不同频段设臵不同 的量化字长。
较高的声压级上,等响曲线较为平坦,说明各频 率的声压级基本相同。
可 闻 阈声 的压 分级 贝
值
图3-3 等响曲线
频率Hz
可见2:
高频段的响度变化与声压级增量基本一致,
低频段声压级的微小变化会导致响度的较大 变化。
可 闻 阈声 的压 分级 贝
值
这说明:在响度级较小时, 高、低频声音灵敏度降低 较明显,而低频段比高频 段灵敏度降低更加剧烈, 一般应特别重视加强低频 音量。
低于20Hz和高于20kHz的频率段分别称为次声和超声。 1GHz~10THz 甚超声波
3、相位是波形的变化方向,如果是多个
波形组合,起始相位可以相同或不同。
如图3-2的左图所示,在某一个瞬时T,不同波形 的相位都可以是不同的。 如图3-2右图所示的,就是一段多波形混合而成 的声音实际播放时所显示的波形。
临界频带
可以说明人类的听觉对声音的感知特性。 表3-1列出的是在20Hz~16kHz范围内, 通常可分出的24个子临界频带。
人耳对同一个临界频段内频率的 听觉和感知是较接近的。
但在有声音屏蔽的情况下,一个临界频 带之内的声音感知程度与表中跨越多个 临界频带的声音感知程度是不相同的。
表3-1 离散的临界频带
第 3 章 音频技术
音频是多媒体应用的重要组成部分; 现实世界的声音来源复杂,声音不仅与时间和空间有关, 还与强度、方向等很多因素有关。
3.1
音频信号处理的特点
3.2
3.3
语音
MIDI音乐
3.4
音频文件的格式
3.5 音频文件的创作(实验)
3.1
3.1.1
音频信号处理的特点
模拟声音
模拟信号:在时间和频率上都连续的信号称为模拟 信号。 数字信号:时间和幅度都用离散的数字表示的信号 称为数字信号。
3.1.1.2
声音的听觉心理特性
听觉心理的主观感受主要有:
响度、音高、音色、音量、密度、谐和、噪声、 掩蔽效应、高频定位。 1、声音三要素:音调、音强、音色。
音调:与声音的频率有关,频率高则声音高,频率低则声音 可以在主观上用来描述具有振幅、频率、和相 低。
位三个物理特征的任何复杂的声音。
音强:又称响度,取决于声音的幅度。也即振幅决定声音 的大小和强弱。
2、等响曲线
响度表示人们所感觉到的声音能量的强弱,主要
取决于声波振幅的大小,物理上声压级的值一般 不等于响度级的值。 声音的感知响度1 sone(宋) 相当于40分贝的音调在1kHz下的响度。
响度与人耳的可闻程度有关,当超出人耳的可听频 率范围时,声音的响度再大,人耳也无法察觉。在 人耳的可听频域范围内,当声音弱或强到一定程度, 人耳都无法听到。
瞬时T
复杂的声波就是有由不同振幅、不同频率和不同相位的正弦波形
组成的。例如,双声道、多声道、立体声等都是复杂的声波。
4、声音信号的其他基本特征
(1)声音的连续谱: 自然界的声音大多属于非周期信号,包含一 定频带的所有频率分量,其频谱是连续谱。 连续谱的成份使声音听起来饱满、生动。
(2)声音的方向感: 声音的传播是以声波形式进行的。由于人类的耳朵能 够判别出声波到达左右耳的相对时差和声音强度,所 以能判断出声音的来源方向;同时也由于空间使声音 来回反射,造成了声音的特殊空间效果。
分贝是指两个相同的物理量(例A1和A0)之比,取以10为底的 对数并乘以10(或20)。
N = 10 lg(A1/A0) 分贝符号为“dB”。 A0是基准量 N是被量度量的“级” 这也被称为声压级。 A1是被量度量
如果2.83*10-4dyn/cm2被看作0
dB
那么在特别安静的环境中,经检测: 动物的呼吸声大约20 dB 人们正常的谈话声约60dB 汽车的喇叭声约100dB 飞机起飞的声音约120 dB 120dB以上的强度可使人产生痛苦的感觉。
6
630
770
140
19
5300
6400
1100
7
770
920
150
20
6400
7700
1300
8
920
1080
160
21
7700
9500
1800
9
1080
1270
190
22
9500
12000
2500
10
1270
1480
210
23
12000
15500
3500
11
1480
1720
240
15500
22050
图中多条等响度曲线中 实验表明,声音的可闻阈和痛感阈是随着频率而变
化的。如图3-3所示,闻阈和痛阈随频率变化的等 最低的一条等响度曲线是可闻阈级, 响度曲线之间的区域就是人耳的听觉范围。
最高一条等响度曲线是痛阈级。
就是说,小于0dB闻阈 和大于140dB痛阈时为 不可听声。 这些等响度曲线表明了 听觉在有些频率下较为 灵敏。
要模拟出符合现实世界的数字声音,我们首 先得了解声音的基本特性:包括声音的物理特 性和人们在听觉方面的心理特性.
3.1.1.1
声音的物理特征
声音是纵波,其基本形式是正弦波形。如图3-1所示。 声音是一种波,其本质是机械振动或气流扰动收起周 决定声波的物理特性有周期、振幅、频率和相位。 围弹性媒质发生波动的现象。声波可以在空气中传播 ,也可以在液体和固体中传播。
音色:由混入基音的泛音所决定的。每个基音都有其固有 频率和不同音强的泛音,因此使得每个声音具有特殊的音 色效果。
3.1.1.2 声音的听觉心理特性
纯音:振幅和周期均为常数的声音称为纯音。 复音:不同频率和不同振幅的声波组合起来的 称为复音。 基音:复音中的最低频率称为复音的基音,是 决定声音音调的基本因素,它通常是常数。 泛音:复音中的其它频率称为谐音(泛音)。 基音和谐音组合起来决定了特定声音的音色 (音质)。
图3-3 等响曲线
频率Hz
3、屏蔽
屏蔽是指一个弱声音被另一个强声音所 遮盖。当强、弱声音同时存在时,就将发
生声音屏蔽现象。 当两个声音在时间和频率上很接近的时候, 屏蔽效应就会很强。 当强声音的频率与弱声音相同或更高时,屏 蔽效应最有效。
4、临界频带
当某个纯音被以它为中心频率且具有一 定带宽的连续噪声所屏蔽时,如果该纯 音刚好能被听到时的功率等于这一频带 内噪声的功率,那么这个带宽就称为临 界频带宽度。
图3-3 等响曲线
频率Hz
值
可 闻 阈声 的压 分级 贝
所谓“等响” 就是对于1kHz以外的可听声,在同一级 等响度曲线上有无数个等效的声压—频 率值,
例如,200Hz的30dB的声音和1kHz的10dB 的声音在人耳听起来具有相同的响度。
可见1:
在较低的声压级上,等响上曲线各频率声音的声 压级相差很大,
图5-1 声波的基本形式
周期:两个相邻信号波峰(波谷)之间的时间间隔,称为一个周期。
振幅:是声压的大小,即声音的强度,指正弦波形的高度。 频率:是单位时间内声音的变化周期,每秒钟内波峰的数目或周期数量。 单位是赫兹Hz。 相位是声音变化的方向。
1、声音的振幅(强度)
在1kHz频率的正弦波中,能被人耳察觉的最弱声压大约是 2.83*10-4dyn(达因)/cm2,这个最弱音已经作为国际标准 的参照声。 描述声音强度的量值是采用分贝表示:
间,该采样点的编码就是 非均匀量化:对输入信号进行量化时,大的输入信号采 11010111。 用大的量化间隔,小的输入信号采用小的量化间隔。 记录采样点的区间分得越多, 图 3-5 声 音 细节波形丢失得越少。 的采样
2. 波形音频
声音的数字化过程** 采样时间 1 2 3 4 5 6 7 8 9 10 幅度值 160 215 232 208 152 64 20 96 116 60 量化后二进制数 10100000 11010111 11101000 11010000 10011000 01000000 00010100 01100000 01110100 00111100
3.1 音频信号处理的特点 3.1.2 数字化声音和音乐
2.波形音频 波形音频 声卡以一定的采样频率和量化级对输入声音进行数字 化采样,将其对模拟声音信号进行量化(模/数转换 ),然后以波形音频文件的格式存在硬盘上。声音重 放时,声音卡将文件中的数字信号还原成模拟信号( 数/模转换),经混音器混合后由扬声器放出来。 实际声音信号被计算机获取的过程就是声音的数字 化的处理过程。
6550
24
12 1720 2000 280
3.1 音频信号处理的特点 3.1.2 数字化声音和音乐
1.音频种类
目前由计算机产生声音的方式有三种:
· 波形音频 以数字方式表示声波,存储对波形采样后得到的数字化信息, 它由声音卡来录制与播出声音。其文件格式为 .WAV · MIDI音频 电子合成器合成的声音。其文件格式为 .MID · CD唱盘数字音频 数字采样技术制作的,它把1和0这样的数字位以微小的长短不 等的凹坑直接通过激光器刻写在盘片上,重放时用激光读出这 些数据,再通过D/A转换成模拟信号。
3.1 音频信号处理的特点 3.1.2 数字化声音和音乐
2. 波形音频
声音的数字化过程**
右图表示了模拟声音数字化的 三个步骤:采样、量化和编码
(1)采样(Sampling) 定义:每隔一个时间间隔在模拟声音的波形上取一个幅 度值,将时间上的连续信号变成时间上的离散信号。 采样频率:就是单位时间内采样次数。 采样定理:对随时间连续变化的模拟信号波形,必须用 该信号所含的最高频率的2倍来进行采样,才可保证原 模拟信号不丢失。