L06-数字音频技术基础(new)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

多媒体技术: 数字音频技术基础
3.2 音频的数字化
1．音频的数字化与再现在计算机中，所有的信息都以数字来表示。声音信号也是由一系列的数字来表示的，称为数字音频。数字音频的特点就是保真度好，动态范围大。数字声音是一个数据序列。它是由外界声音经过采样、量化和编码后得到的。
多媒体技术: 数字音频技术基础
多媒体技术: 数字音频技术基础
2.2 听觉特性 (5)：时变现象
自然声音的时变现象
声音的音调分成三个区域：起始区、稳定状态区、延迟区。研究表明，音调的频谱分量随时间改变。在稳定状态区，频谱保持固定。在起始区，振幅频谱随时间变化。因此自然声音的起始部分是非常难识别的。例如刚听了一小节音调后要识别乐器，专家也会觉得较难。时变现象用于数字系统中，说明声音中的某些错误是不太容易发现的，但如果出现停顿，就很容易引起人的注意。
1300
1800 2500
10
11 12
1270
1480 1720
1480
1720 2000
210
240 280
23
24
12000
15500
15500
22050
3500
6550
2.2 听觉特性 (4)：频谱特性
听觉的频谱特性
声音是时间函数，通过傅里叶变换可做出其频谱图。人耳对频谱成分的波峰和波谷是非常敏感的。在语言中，元音很少有频谱快速变化的区域。基频改变，人耳是很敏感的（例如：快进的录像，音调会发生变化）。音色非常复杂，目前尚在研究中。一般认为音色与声音频谱分布有关。音色的处理将使我们能识别音源，音色也代表和声音有关的主观质量。
3.2 音频的数字化
对声音进行采样用奈奎斯特采样定理来决定采样的频率。根据该定理，只要采样频率高于信号中最高频率的两倍，就可以从采样中完全恢复原始信号的波形。因为人耳所能听到的频率范围为20Hz到20KHz，所以实际的采样过程中，为了达到好的效果，就采用44.1KHz作为高质量声音的采样频率。如果达不到这么高的频率，声音恢复的效果就会差一些，例如电话声音的质量等。一般来说，声音恢复和采样频率、信道带宽都有关。
多媒体技术: 数字音频技术基础
2.2 听觉特性 (7)：方位性
听觉空间 (声音的方位性)
人耳可听到来自各个方向的声音，并用不同的因素来判定声源的位置。判断声音方位的线索是各种声音到达两耳的精确时间和强度。声源的位置不论对于增进人们的感受，还是增进对声音的理解，都是非常重要的。通过声音的精确再现，就可以构造出较真实的听觉空间。
多媒体技术: 数字音频技术基础
2.2 听觉特性 (1)
多媒体技术: 数字音频技术基础
2.2 听觉特性 (2)：掩蔽效应
掩蔽（masking）效应
各种声音可以互相掩蔽，也就是说一种声音的出现可能使得另一种声音难于听清。声音的掩蔽效果可以欺骗人的听觉。例如，本来是多种频率的声音的复合，但听众以为只是一种声音。由于被掩蔽的声音数据对听觉的影响不大，所以可以尽量消除或压缩。声音掩蔽效应可分为频域掩蔽和时域掩蔽。
多媒体技术: 数字音频技术基础
2.2 听觉特性 (6)：相位
相位
从声音的波形来看，声音的起点和方向也要反映声音的特性，这就是声音的相位。当两个声音频率相同、相位完全相反时，它们将相互抵消；当两个声音频率相同、相位也相同时，声音就会得到加强。相位的确定对于多声道声音系统的设计非常重要，其可以应用在回声的消除、会议系统的声音设计上。
多媒体技术: 数字音频技术基础
2.1 声音的量纲
测量响度时，以 1 kHz 纯音为基准，由主观感觉来确定。 2. 音调：又称音高主观音高单位： Mel (美) 客观音高单位： Hz (赫兹) 1 Mel = 1000 · log2 (1+ f ) 测量音高时，以 40 dB 声强为基准，由主观感觉来确定。音高与频率之间也不是线性关系。
多媒体技术: 数字音频技术基础
2.3 真实感声音的模拟
声音的心理模拟
通过人工的方法，可以对视觉空间的景物进行再造或虚构，同样也可以对听觉空间的真实声音进行心理上的模拟，这就是所谓的 “可听化” （audiolization）。通过模拟，可以表达出一些声音的效果。三维真实感声音模拟的研究还处于初级阶段，与三维真实感图形的研究相比，它还显得很不成熟。 (后面将作简要介绍)
多媒体技术: 数字音频技术基础
3.2 音频的数字化
声音的采样以及量化图
3.2 音频的数字化
与数字音频相关的重要特性：采样频率采样频率与声音的质量关系最为紧密。采样频率越高，声音质量越接近原始声音，所需的存储量便越多。标准的采样频率有三个：44.1 KHz， 22.05 kHz，和11.025 kHz。采样精度（量化位数）存放一个采样点所需的比特数。一般的采样位数为8位或16位，即把声音采集为 256等份或 65536 等份。
多媒体技术: 数字音频技术基础
2.1 声音的量纲
1. 响度: 对声音强弱的主观感觉响度级度量单位： phon (方) 或 sone (宋) 相关物理量：
– 声强 (W / cm2 , 瓦特 /平方厘米)； – 声压 ( dyn / cm2 , 达因/平方厘米 )。 – 频率 (Hz)
声音的响度取决于“强度”和“频率”两个因素。显然，强声显得比弱声要响一些。但如果强度相同，过高频率的声音和过低频率的声音似乎比中频的声音听起来都要弱一些。由此可见，响度也依赖于频率，原因是人耳对不同频率的声音的敏感度不同，且能反应的频率范围也是有上、下限的。
多媒体技术: 数字音频技术基础
离散的临界频带
临界频带 0 1 2 3 4 5 频率（Hz）
低
0 100 200 300 400 510
高
100 200 300 400 510 630
宽度
100 100 100 100 110 120
临界频带 13 14 15 16 17 18
频率（Hz）
低
2000 2320 2700 3150 3700 4400
噪音会对纯音产生掩盖效应。
多媒体技术: 数字音频技术基础
2.2 听觉特性 (3)：临界频带
临界频带（Critical Band）
它可用来描述噪音对纯音的掩蔽效果。一个纯音处于以它为中心频率、并且具有一定频带宽度的连续噪声中，如果在这个频带内噪声功率等于该纯音的功率，则此纯音可能刚好被掩盖，即处于刚能被听到的临界状态，那么称这一频带为临界频带。在一个临界频带内，很多心理声学特性都是一样的。在频率的这一临界区里，各种声音是相互作用的，合成声音的响度由这些频率成分共同决定。如果超出临界区，声音的响度不再相互作用，而是随频率的改变而改变。对于临界频带的确定，使得对声音响度的处理能够有的放矢。
多媒体技术: 数字音频技术基础
2.1 声音的量纲
多媒体技术: 数字音频技术基础
2.1 声音的量纲
心理变量
响度音调音色音量密度谐和（流畅或粗糙）
首要的物理变量
声强声波频率声波复合频率和强度频率和强度谐波结构
次要的物理变量
声波频率声强－－－音乐技巧频率组合，各种时间参量频率组合，无意义
多媒体技术: 数字音频技术基础
2.1 声音的量纲
物理量纲可以用精确的值来描述，但对某一具体声音得来的心理印象（心理量纲）却不容易说明白，因为心理印象要由被测者的经验而定。声音的心理属性和物理属性不可等同。
– 首先，这些关系不是线性的； – 其次，这些关系不是孤立的； – 第三，这些关系不是不变的。
多媒体技术: 数字音频技术基础
2.2 听觉特性 (2)
多媒体技术: 数字音频技术基础
2.2 听觉特性 (2)
多媒体技术: 数字音频技术基础
2.2 听觉特性 (2)
多媒体技术: 数字音频技术基础
2.2 听觉特性 (2)
声音高频成分的清晰度较高，但听阈较低；低频成分容易掩盖高频成分；响度高的声音会掩盖响度低的声音；
多媒体技术: 数字音频技术基础
3.3 音频的符号化
2．音频的符号化波形声音可以把音乐、语音都进行数据化并且表示出来，但是并没有把它看成音乐和语音。对于声音的符号化（也可以称为抽象化）表示包括两种类型：一种是音乐，一种是语音。
多媒体技术: 数字音频技术基础
3.3 音频的符号化 (1)
（1）音乐的符号化－MIDI MIDI 是指“乐器数字接口” (Music Instrument Digital Interface) 的国际标准。 MIDI消息，是指乐谱的数字描述。任何电子乐器，只要有处理MIDI消息的微处理器和合适的硬件接口，就构成了一个MIDI设备。当一组MIDI消息通过音乐合成芯片处理时，合成器能解释这些符号并且产生音乐。 MIDI的关键是作为媒体能够记录这些音乐的符号，相应的设备能够产生和解释这些符号。它给出了一种得到音乐声音的方法。
高
2320 2700 3150 700 4400 5300
宽度
320 380 450 550 700 900
6ቤተ መጻሕፍቲ ባይዱ
630
770
140
19
5300
6400
1100
7
8 9
770
920 1080
920
1080 1270
150
160 190
20
21 22
6400
7700 9500
7700
9500 12000
多媒体技术: 数字音频技术基础
3.2 音频的数字化
声道数
有单声道、双声道和多声道。如多种语言音频混存时，需要多声道声音数据量计算：
(采样频率×每点采样位数×声道数)
数据量＝
8
多媒体技术: 数字音频技术基础
(字节/秒)
3.2 数字音频技术参数
数字声音波形质量的主要技术参数
• 采样频率等于波形被等分的份数，份数越多，质量越好
研究生《多媒体技术》公共课程
数字音频技术基础
陈科文主讲
多媒体技术: 数字音频技术基础
中南大学信息科学与工程学院
一、听觉媒体 — 声音
1.1 声音分类
声音分类
• 语音人的说话声虽是一种特殊的媒体，但也是一种波形，所以和波形声音的文件格式相同。 • 音乐符号化了的声音，乐谱可转变为符号媒体形式。
11.025KHZ、 22.05KHZ、44.1KHZ
• 采样精度每次采样信息量数据量计算： (采样频率×采样精度×通道数 8位、16位 ×时间 ) / 8 = 字节数 • 通道数声音产生的波形数
单声道、双声道 (立体声)、5.1声道 (环绕立体声)
多媒体技术: 数字音频技术基础
多声道环绕立体声
多媒体技术: 数字音频技术基础
1.1 声音分类
• 波形声音包含了所有的声音形式，它可以把任何声音都进行采样量化，并恰当地恢复出来。
多媒体技术: 数字音频技术基础
二、声音心理学
2.1 声音的量纲
一、声音的量纲声音的振动是一种正弦波，声音的变化涉及到三个物理参数：频率（变化的速度）、幅度（产生的压力）、相位（何时开始）。另外一方面，人们可以感觉到声音的强弱，可以感觉到歌唱家音调的高低；听到不同的声音，人们会在心理上产生不同的主观感觉。因此，声音的量纲分为: 物理量纲和心理量纲。
噪声
骚扰声
强度
强度
2.2 听觉特性 (1)：等响曲线
二、听觉特性等响曲线由于响度与频率和强度有关，所以主观感觉响度相同的不同频率的声音，其实际强度是不同的。先设一个音为标准音，给予固定的频率、强度和持续时间 , 如 1000Hz、40分贝、持续0.5秒；再给一个音也持续0.5秒，但频率不同，通过调整使其响度听起来一样，得到的这样一组曲线称之为等响曲线。等响曲线描述的是响度与频率和强度的关系。从声音心理学考虑，对同一响度的声音在频率上和强度上可以有很大的差别，这对声音表现有重要意义。
多媒体技术: 数字音频技术基础
三、数字音频技术
3.1 概述
音频的数字化和符号化从人与计算机交互的角度看，音频信号的处理包括：人与计算机通信，也就是计算机接收音频信号。
– 包括: 音频获取、语音的识别和理解。
计算机与人通信，也就是计算机输出音频。 – 包括：音乐合成、语音合成、声音的定位，以及音频视频的同步。人-计算机-人通信，即人与人借助网络来通话． – 相关的音频处理有：语音采集、音频的编码和解码、音频的存储、音频的传输、基于内容的检索等。