第3章 音频信息处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.1.2 模拟音频的数字化过程
• 量化的过程是先将采样后的信号按整个声波的 幅度划分成有限个区段的集合,把落入某个区 段内的样值归为一类,并赋于相同的量化值。 • 如何分割采样信号的幅度呢? 我们还是采取二 进制的方式,以8位(bit)或16位(bit)的方式来 划分纵轴。也就是说在一个以8位为记录模式 的音效中,其纵轴将会被划分为个量化等级, 用以记录其幅度大小。
3.1.1 音频信号的特点
• (2)音色:即特色的声音。 • 声音分纯音和复音两种类型。所谓纯音,是指 振幅和周期均为常数的声音;复音则是具有不 同频率和不同振幅的混合声音。大自然中的声 音绝大部分是复音。 • 在复音中,最低频率的声音是“基音”,它是 声音的基调。其他频率的声音称为“谐音”, 也叫泛音。基音和谐音是构成声音音色的重要 因素。
3.1.1 音频信号的特点
• 1.音频信号的分类 • 音频信号可分为两类:语音信号和非语音信号。 • 语音是语言的物质载体,是社会交际工具的符 号, 它包含了丰富的语言内涵,是人类进行信 息交流所特有的形式。 • 非语音信号主要包括音乐和自然界存在的其他 声音形式。非语音信号的特点是不具有复杂的 语义和语法信息,信息量低、识别简单。
• 4. RealAudio文件——.RA/.RM/.RAM • RealAudio文件是RealNetworks公司开发的一种新 型流式音频(Streaming Audio)文件格式;它包含 在RealNetworks所制定的音频、视频压缩规范 RealMedia中,主要用于在低速率的广域网上实 时传输音频信息。 • 网络连接速率不同,客户端所获得的声音质量 也不尽相同:对于28.8kb/s的连接,可以达到广 播级的声音质量;如果拥有ISDN或更快的线路 连接,则可获得CD音质的声音。
3.1.3 数字音频的文件格式
• 5. AIFF文件——.AIF/.AIFF • AIFF是音频交换文件格式(Audio Interchange File Format)的英文缩写,是苹果计算机公司开发的 一种声音文件格式;被Macintosh平台及其应用 程序所支持,其他专业音频软件包也同样支持 这种格式。
3.1.2 模拟音频的数字化过程
• 失真在采样过程中是不可避免的,如何减少失 真呢?可以直观地看出,我们可以把图中的波 形划分成更为细小的区间,即采用更高的采样 频率。同时,增加量化精度,以得到更高的量 化等级,即可减少失真的程度。 • 比较下面两图中,采样率和量化等级均提高了 一倍,分别为2000次/秒和20个量化等级。在下 图中,采样率和量化等级再提高了一倍。从图 中可以看出,当用D/A转换器重构原来信号时 (图中的轮廓线),信号的失真明显减少,信 号质量得到了提高。
3.1.3 数字音频的文件格式
MPEG音频编码具有很高的压缩率,MP1和MP2 的压缩率分别为4∶1和6∶1~8∶1,而MP3的 压缩率则高达10∶1~12∶1,也就是说一分钟 CD音质的音乐,未经压缩需要10MB存储空间, 而经过MP3压缩编码后只有1MB左右,同时其音 质基本保持不失真。
3.1.3 数字音频的文件格式
周期 幅度限
基线
3.1.1 音频信号的特点
• 3. 声音的A/D与D/A转换 • A/D转换就是把模拟信号转换成数字信号的过 程,模拟电信号变为了由“0”和“1”组成的Bit 信号。这样做的好处是显而易见的,声音存储 质量得到了加强,数字化的声音信息使计算机 能够进行识别、处理和压缩 。 • A/D转换的一个关键步骤是声音的采样和量化, 得到数字音频信号,它在时间上是不连续的离 散信号。 • 借助于A/D或D/A转换器,模拟信号和数字信 号可以互相转换。
3.1.1 音频信号的特点
• 5.声音的频谱 • 声音的频谱有线性频谱和连续频谱之分。线性 频谱是具有周期性的单一频率声波;连续频谱 是具有非周期性的带有一定频带所有频率分量 的声波。 • 纯粹的单一频率的声波只能在专门的设备中创 造出来,声音效果单调而乏味。自然界中的声 音几乎全部属于非周期性声波,该声波具有广 泛的频率分量,听起来声音饱满、音色多样且 具有生气。
3.1.2 模拟音频的数字化过程
• 编码的形式比较多,常用的编码方式是PCM— —脉冲调制。 • 脉冲编码调制(PCM)是把模拟信号变换为数 字信号的一种调制方式,即把连续输入的模拟 信号变换为在时域和振幅上都离散的量,然后 将其转化为代码形式传输或存储。
3.1.3 数字音频的文件格式
• 在多媒体技术中,存储音频信息的文件格式主 要有:WAV文件、VOC文件和MP3文件等。 • 1. WAV文件 WAV文件又称波形文件,来源于对声音模拟波 形的采样,并以不同的量化位数把这些采样点 的值轮换成二进制数,然后存入磁盘,这就产 生了波形文件。 • WAV文件用于保存Windows平台的音频信息资源, 被Windows平台及其应用程序所广泛支持。
3.1.1 音频信号的特点
• 各种声源都具有自己独特的音色,例如各种乐 器的声音、每个人的声音、各种生物的声音等, 人们就是依据音色来辨别声源种类的。 • (3)音强:声音的强度,也被称为声音的响度, 常说的“音量”也是指音强。音强与声波的振 幅成正比,振幅越大,强度越大。 • 唱盘、CD激光盘以及其他形式声音载体中的 声音强度是一定的,通过播放设备的音量控制, 可改变聆听时的响度。
3.1.3 数字音频的文件格式
• WAV 声 音 文 件 是 使 用 RIFF ( Resource Interchange File Format资源交换文件)的 格式描述的,它由文件头和波形音频文件数据 块组成。 • 文件头包括标志符、语音特征值、声道特征以 及PCM格式类型标志等。WAV数据块是由数据子 块标记、数据子块长度和波形音频数据3个数 据子块组成。 •
第3章 音频信息处理
学习目标Leabharlann Baidu
■了解声音信号的特点、存储格式及质量的 度量方法;
■理解音频信号压缩方法及音频编码标准; ■掌握常用的音频处理软件对声音信号进行 处理;
■了解语音识别技术及其应用;
3.1 音频信息处理基础
• 音频信息在多媒体中的应用极为广泛:视频图 像配以娓娓动听的音乐和语音 ;静态或动态图 像配以解说和背景音乐 ;立体声音乐可增加空 间感 ;游戏中的音响效果等。 • 音频处理技术主要包括电声转换、音频信号的 存储、重放技术、加工处理技术以及数字化音 频信号的编码、压缩、传输、存取、纠错等。
3.1.2 模拟音频的数字化过程
3.1.2 模拟音频的数字化过程
• 3. 编码 • 模拟信号量经过采样和量化以后,形成一系列 的离散信号——脉冲数字信号。这种脉冲数字 信号可以一定的方式进行编码,形成计算机内 部运行的数据。 • 所谓编码,就是按照一定的格式把经过采样和 量化得到的离散数据记录下来,并在有用的数 据中加入一些用于纠错、同步和控制的数据。 • 在数据回放时,可以根据所记录的纠错数据判 别读出的声音数据是否有错,如在一定范围内 有错,可加以纠正。
文件头包含一个标识、版本号和一个指向数据块起 始地址的指针。数据块分成各种类型的子块,如声 音数据、静音、标记、ASCII码文件、重复、重复 的结束及终止标记等。
3.1.3 数字音频的文件格式
3.MPEG音频文件——.MP1/.MP2/.MP3 这里的音频文件格式指的是MPEG标准中的音 频部分,即MPEG音频层(MPEG Audio Layer)。 MPEG音频文件的压缩是一种有损压缩,根据 压缩质量和编码复杂程度的不同可分为三层 (MPEG Audio Layer 1/2/3),分别对应MP1、MP2和 MP3这三种声音文件。
•以下图所示的原始模拟波形为例进行采样和量化。 •假设采样频率为1000次/秒,即每1/1000秒A/D转换 器采样一次,其幅度被划分成0到9共10个量化等级, 并将其采样的幅度值取最接近0~ 9之间的一个数来 表示。 •图中每个正方形表示一次采样。
•D/A转换器从上图得到的数值中重构原来信号时, 得到下图中蓝色(直线段)线段所示的波形。 •从图中可以看出,蓝色线与原波形(红色线)相比, 其波形的细节部分丢失了很多。这意味着重构后的 信号波形有较大的失真。
3.1.1 音频信号的特点
• 4. 声音的三要素 • (1)音调:代表了声音的高低。音调与频率有关, 频率越高,音调越高,反之亦然。 • 大家也许有这样的经验,当提高磁带录音机的 转速时,其旋转加快,声音信号的频率提高, 其喇叭放出来声音的音调提高了。同样,在使 用音频处理软件对声音的频率进行调整时,也 可明显感到音调随之而产生的变化。 • 各种不同的声源具有自己特定的音调,如果改 变了某种声源的音调,则声音会发生质的转变, 使人们无法辨别声源本来的面目。
3.1.2 模拟音频的数字化过程
• 采样频率与声音频率之间有一定的关系,根据 奈奎斯特(Nyquist)理论,只有采样频率高于 声音信号最高频率的两倍时,才能把数字信号 表示的声音还原成为原来的声音。
fs 2f
3.1.2 模拟音频的数字化过程
• 2.量化 • 采样只解决了音频波形信号在时间坐标(即横轴) 上把一个波形切成若干个等分的数字化问题, 但是还需要用某种数字化的方法来反映某一瞬 间声波幅度的电压值大小。该值的大小影响音 量的高低。我们把对声波波形幅度的数字化表 示称之为“量化”。
3.1.1 音频信号的特点
• 规则音频是一种连续变化的模拟信号,可用一条 连续的曲线来表示,称为声波。因声波是在时 间和幅度上都连续变化的量,我们称之为模拟 量。
用声音录制软件 记录的英文单词 “Hello”的语音实 际波形。
3.1.1 音频信号的特点
• 2.模拟音频信号的两个重要参数 • 模拟音频信号有两个重要参数:频率和幅度。 声音的频率体现音调的高低,声波幅度的大小 体现声音的强弱。 • 一个声源每秒钟可产生成百上千个波,我们把 每秒钟波峰所发生的数目称之为信号的频率, 单位用赫兹(Hz)或千赫兹(kHz)表示。信号的幅 度是从信号的基线到当前波峰的距离。幅度决 定了信号音量的强弱程度。幅度越大,声音越 强。对音频信号,声音的强度用分贝(dB)表示, 分贝的幅度就是音量。
• 经采样和量化后声音信号经编码后就成为数字 音频信号,可以将其以文件形式保存在计算机 的存储介质中,这样的文件一般称为数字声波 文件。
100101100011101
模拟信号的数字化过程
3.1.2 模拟音频的数字化过程
• 1. 采样 • 信息论的奠基者香农(Shannon)指出:在一 定条件下,用离散的序列可以完全代表一个连 续函数,这是采样定理的基本内容。 • 为实现A/D转换,需要把模拟音频信号波形进 行分割,这种方法称为采样(Sampling)。采样 的过程是每隔一个时间间隔在模拟声音的波形 上取一个幅度值,把时间上的连续信号变成时 间上的离散信号。该时间间隔称为采样周期, 其倒数为采样频率。采样频率是指计算机每秒 钟采集多少个声音样本。
3.1.2 模拟音频的数字化过程
• 数字化的声音易于用计算机软件处理,现在几 乎所有的专业化声音录制、编辑器都是数字方 式。对模拟音频数字化过程涉及到音频的采样、 量化和编码。 • 采样和量化的过程可由A/D转换器实现。A/D 转换器以固定的频率去采样,即每个周期测量 和量化信号一次。
3.1.2 模拟音频的数字化过程
3.1.3 数字音频的文件格式
2.VOC文件 VOC文件是Creative公司所使用的标准音频文 件格式,多用于保存 Creative Sound Blaster(创新 声霸)系列声卡所采集的声音数据,被Windows 平台和DOS平台所支持。 与WAV格式类似,VOC文件由文件头块和音频数 据块组成。
3.1.3 数字音频的文件格式
• Wave格式支持多种压缩算法,支持多种音频位 数、采样频率和声道,是PC机上最为流行的声 音文件格式,但其文件尺寸较大,多用于存储 简短的声音片断。 • 未压缩的声音文件的存储量可用下式计算:
• 存储量(KB)=(采样频率KHZ×采样位数bit×声道数 ×时间秒)/8