最新《音频信息处理》PPT课件

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
100101100011101
模 拟 信 号 的 数 字 化 过 程
1. 采样
信息论的奠基者香农(Shannon)指出:在一定条件下,用 离散的序列可以完全代表一个连续函数,这是采样定理的基本 内容。
为实现A/D转换,需要把模拟音频信号波形进行分割,这种 方法称为采样(Sampling)。采样的过程是每隔一个时间间隔在 模拟声音的波形上取一个幅度值,把时间上的连续信号变成时 间上的离散信号。该时间间隔称为采样周期,其倒数为采样频 率。采样频率是指计算机每秒钟采集多少个声音样本。
《音频信息处理》PPT课件
3.1 音频信息处理基础
音频信息在多媒体中的应用极为广泛:视频图像配以娓 娓动听的音乐和语音 ;静态或动态图像配以解说和背景音 乐 ;立体声音乐可增加空间感 ;游戏中的音响效果等。
音频处理技术主要包括电声转换、音频信号的存储、重 放技术、加工处理技术以及数字化音频信号的编码、压缩、 传输、存取、纠错等。
Wave格式支持多种压缩算法,支持多种音频位数、采样 频率和声道,是PC机上最为流行的声音文件格式,但其文 件尺寸较大,多用于存储简短的声音片断。
未压缩的声音文件的存储量可用下式计算: 存储量(KB)=(采样频率KHZ×采样位数bit×声道数×时间秒)/8
2.VOC文件
VOC文件是Creative公司所使用的标准音频文件格式, 多用于保存 Creative Sound Blaster(创新声霸)系列声卡所采 集的声音数据,被Windows平台和DOS平台所支持。
采样频率与声音频率之间有一定的关系,根据奈奎斯特 (Nyquist)理论,只有采样频率高于声音信号最高频率的两 倍时,才能把数字信号表示的声音还原成为原来的声音。
fs 2f
2. 量化
采样只解决了音频波形信号在时间坐标(即横轴)上把一个波 形切成若干个等分的数字化问题,但是还需要用某种数字化的 方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响 音量的高低。我们把对声波波形幅度的数字化表示称之为“量 化”。
失真在采样过程中是不可避免的,如何减少失真呢?可以直
观地看出,我们可以把上图中的波形划分成更为细小的区间,即 采用更高的采样频率。同时,增加量化精度,以得到更高的量化 等级,即可减少失真的程度。在下图(左)中,采样率和量化等 级均提高了一倍,分别为2000次/秒和20个量化等级。在下图(右) 中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个 量化等级。从图中可以看出,当用D/A转换器重构原来信号时 (图中的轮廓线),信号的失真明显减少,信号质量得到了提高。
5.声音的频谱
声音的频谱有线性频谱和连续频谱之分。线性频谱是具有 周期性的单一频率声波;连续频谱是具有非周期性的带有 一定频带所有频率分量的声波。纯粹的单一频率的声波只 能在专门的设备中创造出来,声音效果单调而乏味。自然 界中的声音几乎全部属于非周期性声波,该声波具有广泛 的频率分量,听起来声音饱满、音色多样且具有生气。
与WAV格式类似,VOC文件由文件头块和音频数据块组成。 文件头包含一个标识、版本号和一个指向数据块起始地址 的指针,这个指针帮助数据块定位以便顺利找到第一个数 据块。数据块分成各种类型的子块,如声音数据、静音、
3. 编码
模拟信号量经过采样和量化以后,形成一系列的离散信 号——脉冲数字信号。这种脉冲数字信号可以一定的方式进行 编码,形成计算机内部运行的数据。所谓编码,就是按照一定 的格式把经过采样和量化得到的离散数据记录下来,并在有用 的数据中加入一些用于纠错、同步和控制的数据。在数据回放 时,可以根据所记录的纠错数据判别读出的声音数据是否有错, 如在一定范围内有错,可加以纠正。
3.1.2 模拟音频的数字化过程
数字化的声音易于用计算机软件处理,现在几乎所有的专 业化声音录制、编辑器都是数字方式。对模拟音频数字化过程 涉及到音频的采样、量化和编码。
采样和量化的过程可由A/D转换器实现。A/D转换器以固定的 频率去采样,即每个周期测量和量化信号一次。经采样和量化 后声音信号经编码后就成为数字音频信号,可以将其以文件形 式保存在计算机的存储介质中,这样的文件一般称为数字声波 文件。
以下图所示的原始模拟波形为例进行采样和量化。假设采样 频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被 划分成0到9共10个量化等级,并将其采样的幅度值取最接近0~ 9 之间的一个数来表示,如下图所示。图中每个正方形表示一次 采样。
D/A转换器从上图得到的数值中重构原来信号时,得到下 图中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线 与原波形(红色线)相比,其波形的细节部分丢失了很多。这意 味着重构后的信号波形有较大的失真。
1. WAV文件 WAV文件又称波形文件,来源于对声音模拟波形 的采样,并以不同的量化位数把这些采样Байду номын сангаас的 值轮换成二进制数,然后存入磁盘,这就产生 了波形文件。WAV文件用于保存Windows平台的 音频信息资源,被Windows平台及其应用程序所 广泛支持。
WAV声音文件是使用RIFF(Resource Interchange File Format资源交换文件)的格式描述的,它由文件头和波形 音频文件数据块组成。文件头包括标志符、语音特征值、 声道特征以及PCM格式类型标志等。WAV数据块是由数据子 块标记、数据子块长度和波形音频数据3个数据子块组成。
量化的过程是先将采样后的信号按整个声波的幅度划分成 有限个区段的集合,把落入某个区段内的样值归为一类,并赋 于相同的量化值。如何分割采样信号的幅度呢? 我们还是采取二 进制的方式,以8位(bit)或16位(bit)的方式来划分纵轴。也就是 说在一个以8位为记录模式的音效中,其纵轴将会被划分为个量 化等级,用以记录其幅度大小。
编码的形式比较多,常用的编码方式是PCM——脉冲调制。 脉冲编码调制(PCM)是把模拟信号变换为数字信号的一种调 制方式,即把连续输入的模拟信号变换为在时域和振幅上都离 散的量,然后将其转化为代码形式传输或存储。
3.1.3 数字音频的文件格式
在多媒体技术中,存储音频信息的文件格式主要 有:WAV文件、VOC文件和MP3文件等。
相关文档
最新文档