第3章 数字音频处理技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
教学进程
3.2 数字化音频
模拟信号与数字信号
从模拟信号过渡到数字信号 回顾历史,大多数电信号的处理一直是用模拟元部件(如晶体管、变压 器、电阻、电容等)对模拟信号进行处理。但是,开发一个具有相当精
度、且几乎不受环境变化影响的模拟信号处理元部件是相当困难的,
而且成本也很高。 如果把模拟信号转变成数字信号,用数字来表示模拟量,对数字信号 做计算,那么难点就发生了转移。把开发模拟运算部件的问题转变成 开发数字运算部件的问题,这就出现了数字信号处理器(digital signal processor,DSP)。DSP与通用微处理器相比,除了它们的结构不同外, 其基本差别是,DSP有能力响应和处理采样模拟信号得到的数据流,
教学进程
3.1.2 声音的特点 1 声音的传播方式
声音依靠介质(空气、液体、固体)的振动进行传播。声源是 一个振荡源,它使周围的介质产生振动,并以波的形式进行传播。 人耳感觉到这种传播过来的振动,再反映到大脑,就听到了声音。 声音在不同的介质中传播,其传播的速度和衰减的速率是不一样的, 这两个因素导致了声音在不同的介质中传播的距离不同。 2 声音的频率范围
教学进程
3.2 数字化音频
3.2.1 数字音频基本概念 声音的数字化过程
采 样
Fra Baidu bibliotek
声音采样的基本原理是:首先输入模拟声音信号,然后按照 固定的时间间隔截取该信号的振幅值,每个波形周期内截取 两次,以取得正、负想的振幅值。该振幅值采用若干位二进 制数表示,从而将模拟声音信号变成数字音频信号。模拟声 音信号是连续的,而数字音频信号是离散的。 将声音信号在时间上进行离散化处理,即每隔相等的一段时
第
3章
数字音频处理技术
3.1 声音的概述 3.4 MIDI技术 3.1.1 声音的定义 3.4.1 何谓MIDI技术 3.1.2 声音的特点 3.4.2 MIDI声音特点 3.2 数字化音频 3.4.3 MIDI规范 3.2.1 数字音频基本概念 3.4.4 MIDI合成方式 3.2.2 数字音频音质技术指标 3.4.5 MIDI音乐制作系统 3.2.3 数字音频存储量 3.4.6 常用MIDI音乐制作软件 3.2.4 数字音频文件格式 3.5 数字音频的采集、编辑和转换 3.2.5 数字音频处理 3.5.1 Windows录音机的使用 3.2.6 音频信号的特点 3.5.2 数字音频的采集方式 3.3 声卡与音箱 3.5.3 使用GoldWave编辑数字音频 3.3.1 声卡 3.5.4 数字音频的转换 3.3.2 音箱
11.025
22.05 44.1
8
16 16
单声道
双声道 双声道
0.63
5.05 10.09
语音
FM广播 CD唱盘
数字音频等级
信号类型
电话话音 宽带音频 调频广播 高质量音频
频率范围/Hz
200~3400 50~7000 20~15000 20~20000
采样率/kHz
教学进程
不同声音的不同频率范围
次声波
<20Hz
人耳可听域
20~20000Hz
超声波
>20000Hz
常见的声源及其频率范围
教学进程
3
声音的传播方向
声音以振动的形式从声源向四周传播。从声源直接到达人类 听觉器官的声音是“直达声”。直达声的方向辨别非常容易。但 是,在现实生活中,森林、海洋、建筑、地貌和景物等存在于我 们周围,声音从声源发出后,经过多次反射才能被人们听到,这 就是“反射声”。
多个实数值中的一个,因此幅度还是连续的。如果把信号幅度取值的数
目加以限定,这种由有限个数值组成的信号就称为离散幅度信号。例如, 假设输入电压的范围是0.0V-0.7V,并假设它的取值只限定在0,0.1,0.2…,0.7 共8个值 。如果采样得到的幅度值是0.123V,它的取值就应算作0.1V, 如果采样得到的幅度值是0.26V,它的取值就算作0.3,这种数值就称为 离散数值。我们把时间和幅度都用离散的数字表示的信号就称为数字信 号。
数据的采样频率和量化位数是影响数据的两个因素。提高采样频率
和增加量化位数将使相应的数据量大大增加,给声音信号的存储与 传输带来困难,这就需要在声音的质量与数据量之间作出恰当的选
择。
教学进程
常用的采样指标及等效音质 采样频率 /kHz 量化位 数/bit 声道数 每分钟的数据量 /MB(无压缩) 等效音质
教学进程
3.2.2 数字音频音质技术指标
2
量化位数 量化位数又称取样大小,它是每个采样点能够表示的数据 范围。量化位数的大小决定了声音的动态范围,即被记录和重 放的声音最高与最低之间的差值。
3
声道数
声道数是指所使用的声音的通道个数,它表明声音一次同
时产生的声波组数。声音的声道数也是技术发展的重要标志, 从单声道到环绕立体声,声音的质量越来越好,但是同时增加 了对存储和传输媒体的要求。
如做乘法和累加求和运算。
教学进程
3.2 数字化音频
模拟信号与数字信号
从模拟信号过渡到数字信号
在数字域而不在模拟域中做信号处理的主要优点是:首先,数字 信号计算是一种精确的运算方法,它不受时间和环境变化的影响; 其次,表示部件的数学运算不是物理上实现的功能部件,而是仅 用数学运算去模拟,其中的数学运算也相对容易实现;此外,可 以对数字运算不见进行编程,如欲改变算法或改变某些功能,还 可对数字部件进行再编程。
教学进程
3.2 数字化音频
模拟信号与数字信号 话音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是 连续的。在时间上“连续”是指在一个指定的时间范围里声音信号的幅值 有无穷多个,在幅度上“连续”是指幅度的数值有无穷多个。我们把在时 间和幅度上都是连续的信号称为模拟信号。 在某些特定的时刻对这种模拟信号进行测量叫做采样(sampling),由这 些特定时刻采样得到的信号称为离散时间信号。采样得到的幅值是无穷
本章要点:
► 声音的概述 ► 数字化音频 ► 声卡与音箱 ► MIDI技术 ► 数字音频的采集、编辑和转换
教学进程
3.1 声音的概述
3.1.1 声音的定义 声音(Sound)是通过一定介质(如空气、水等)传播的连续波,在 物理学中称为声波。声音是振动的波,是随时间连续变化的物理量。
(1) 振幅 (Ampliade) 声波的振幅通常是指音量,它是声波波形的高低幅度,表示 声音信号的强弱程度。 (2) 周期(Period) 声音信号的周期是指两个相邻声波之间的时间长度,即重复 出现的时间间隔,以秒(s)为单位。 (3) 频率(Frequency) 声音信号的频率是指每秒钟信号变化的次数,即为周期的倒 数,以赫兹(Hz)为单位。
不同的声音有不同的频率范围。声音按频率可分为3种:次声波、 可听声波和超声波。人耳只能听到频率在20Hz~20kHz之间的声音, 听不到低于20Hz和高于20kHz的声音。低于20Hz的为次声波,高于 20kHz的为超声波。人的发声器官发出的声音频率是80~3400Hz,但 人说话的声音信号频率通常为300Hz~3kHz,把在这种频率范围内的 信号称为语音信号。
音的音强,可以在声音数字化以后,使用音频处理软件提高音强。
教学进程
(3) 音色
音色指声音的感觉特性,与波形相关,影响声音感觉特色 的因素是复音。所谓“复音”是指具有不同频率和不同振幅的
混合声音,自然声中大部分是复音。在复音中,最低频率是
“基音”,它是声音的基调;其他频率的声音称为“谐音(泛 音)”。 5 声音的主要性质 ● 连续性:在时间轴上是连续信号,具有连续性和过程性。 ● 相关性:构成声音的数据,前后之间具有强烈的相关性。 ● 实时性:对处理声音的计算机硬件和软件提出很高要求。
教学进程
3.2.2 数字音频音质技术指标 1 采样频率 采样频率又称取样频率,它是指将模拟声音波形转换为数字音 频时,每秒钟所抽取声波幅度样本的次数。采样频率的高低是根据 奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。 奈奎斯特理论指出:采样频率不应低于声音信号最高频率的两倍, 这样就能把以数字表达的声音还原为原来的声音,这叫做无损数字 化(lossless digitization)。你可以这样来理解奈奎斯特理论:声音信号 可以看成由许许多多正玄波组成的,一个振幅为A、频率为f的正炫 波至少需要两个采样样本表示,因此,如果一个信号中的最高频率 为f,采样频率最低要选择2f。例如:电话话音的信号频率约为3.4kHz, 采样频率就选为8kHz。
间在声音信号波形曲线上采集一个信号样本。
教学进程
3.2 数字化音频
3.2.1 数字音频基本概念
量 化
对采样后的声音信号的振幅值进行离散化处理。如果幅 度的划分是等间隔的,就称为线性量化,否则就称为非
线性量化。
编 码
将采样和量化后的数字化声音信息以二进制形式并按 照一定的数据格式进行表示,这个过程称为编码。
例 3-2 用44.1kHz的采样频率对声波进行采样,每个采样点的量化位 数选用16位,则录制3分钟的立体声节目,其波形文件所需的 存储容量为: 44 100(Hz)×(16/8)(B)×2×3×60=31 752 000B/s ≈31 007.8kB/s ≈30.28MB/s
教学进程
3.2.3 数字音频存储量 例 3-3 用44.1kHz的采样频率对声波进行采样,每个采样点的量化位 数选用16位,则录制5分钟的单声道节目,其波形文件所需的 存储容量为: 44 100(Hz)×(16/8)(B)×1×5×60=26460000B/s ≈26460kB/s ≈26.46MB/s
教学进程
3.2.3 数字音频存储量 数据量=采样频率×(量化位数/8)×声道数×声音持续时间 对于调频广播级立体声,采样频率为44.1kHz,量化等级为16 位(即2字节)声道形式为双声道,则转换后每秒以千字节为 单位的数据量为:
例 3-1
44 100(Hz)×(16/8)(B)×2=176 400B/s≈172kB/s
教学进程
4
编码算法 音频数据压缩比的表达式
压缩后的音频数据
音频数据压缩比 = 压缩前的音频数据
编码作用:一方面是采用一定的格式来记录数字数据,另一方面是 采用一定的算法来压缩数字数据以减少存储空间和提高传输效率。 压缩比越大,信息丢失越多,信号还原后失真越大。 5 数据率及数据文件格式
数据率为每秒位数,它与信息在计算机中的实时传输有直接关系, 而其总数据量又与计算机的存储空间有直接关系。用数字音频产生 的数据一般以WAVE的文件格式存储,以 “.WAV”作为文件扩展名。
(3) 准立体声 准立体声指的是在录制声音的时候采用单声道,而放音有时 是立体声,有时是单声道。
教学进程
(4) 四声道环绕 准立体声指的是在录制声音的时候采用单声道,而放音有时 是立体声,有时是单声道。 (5) 5.1声道
5.1声音系统来源于4.1环绕,不同之处在于它增加了一个中 置单元。这个中置单元负责传送低于80 Hz的声音信号,在欣赏 影片时有利于加强人声,把对话集中在整个声场的中部,以增加 整体效果。 (6) 7.1声道 是在5.1的基础上又增加了中左和中右两个发音点,以求达到 更加完美的境界。
“直达声”与“反射声”示 意图
教学进程
4
声音的三要素
(1) 音调
音调即声音的高低,与频率有关。频率越高,音调越高,反之亦 然。在使用音频处理软件对声音的频率进行调整时,其音调会随之变 化。不同的声源有它自己特定的音调,如果改变了声源的音调,那么 声音会发生质的转变,使人们无法辨别声源本来的面目。 (2) 音强 音强即声音的响亮程度(或音量),与振幅相关,取决于声波信 号的强弱程度。音强与声波振幅成正比,振幅越大,强度越大,反之 亦然。唱盘、CD盘以及其他形式的声音载体中的音强是一定的,通 过播放设备的音量控制,可以改变聆听时的强度。如果想改变原始声
教学进程
(1) 单声道
单声道是比较原始的声音复制形式,早期的音频卡采用的比 较普遍。当通过两个扬声器回放单声道信息的时候,可以明显感 觉到声音是从两个音箱中间传递到耳朵里的。 (2) 立体声
立体声又称为双声道。单声道缺乏对声音的位置定位,而立 体声技术则彻底改变了这一状况。声音在录制过程中被分配到两 个独立的声道,从而达到了很好的声音定位效果。