最新《音频信息处理》PPT课件
合集下载
音频信息处理 ppt课件
ppt课件
2
1. 声波
(1)声波:由各种机械振动或气流扰动引起周围的弹性媒质发生波动。 (2)声源:产生声波的物体,如人的声带和乐器等。 (3)声音:人的听觉系统所能感知到的声波。
音频的频率范围:20 Hz ~ 20000 Hz 语音的频率范围:300 Hz ~ 3000 Hz 次声波的频率范围: < 20 Hz 超声波的频率范围: > 20 kHz
1)Layer 1:编码器简单,输出数据率为384 kb/s,主要用于小型数字盒式磁带。
2)Layer 2:编码器较复杂,输出数据率为256 kb/s~192kb/s,主要应用于数字广播声
音、数字音乐、CD-I和ห้องสมุดไป่ตู้CD等。
3)Layer 3:编码器复杂,输出数据率为64kb/s,主要用于ISDN(综合业务数字网,一种
常pp见t课声件音的分贝量级
4
(2)声音信号的心理学特征
人们感知到的声音特征称为心理学特征 音调:由发声物体的振动频率决定,振动越快(即频率越大),音调越
高,振动越慢,音调越低。
音色:这是一个主观评价声音的量,声音的音色取决于声音的频谱结构,
一般高次谐波越丰富,音色越明亮并具有穿透力。
响度:人耳对声音强弱的感觉程度,主要取决于振幅和声压。通常振幅
越大声音越响,其次人耳距离声源越远,声音越小。
ppt课件
5
(3)声音质量的评价
声音质量与带宽有关,频率范围越宽,声音质量越高。
1)声音质量分级:按照声音信号的频率范围将声音质量分为5级。
2)信噪比(SNR):即有用信号与噪音信号的强度之比,单位是分贝。
3) 声音质量的主观度量:主观度量就是大多数人对声音质量的感觉。
音频信息处理技术PPT课件
情感分析的应用
语音助手、智能客服、社交媒体情感分析等。
情感分析的挑战
情感状态受多种因素影响,如个人情绪、环境噪音等,准确判断情 感状态较为困难。
基于深度学习的音频识别与分类
深度学习在音频识别与分类中的应用
01
利用深度学习算法对音频信号进行特征提取和分类,
提高识别与分类的准确率。
深度学习在音频处理中的优势
音频隐写技术通常采用最低有效位替换、频域隐写等方法, 将秘密信息嵌入到音频信号中,同时保持音频信号的听感 质量。
音频隐写技术的优点包括高隐蔽性和低误码率,能够在传 输过程中抵抗噪声和干扰,实现信息的可靠传输。
音频信息伪装技术
音频信息伪装技术是一种将秘密信息隐藏在普通音频信号中,同时使秘 密信息难以被察觉的技术。
实时性
音频信息处理技术能够实时地对音频信号进行处理,满足实时通信、 语音识别等应用需求。
高效性
音频信息处理技术采用了高效的数字信号处理算法,能够快速地处理 大量的音频数据。
交互性
音频信息处理技术可以实现人机交互,使得人与机器之间的交流更加 自然和便捷。
音频信息处理技术的应用领域
语音识别
音频编辑与合成
应用。
详细描述
倒谱分析能够提供音频信号的倒谱结构,有助于识别 和分类不同的声音。
音频信号的梅尔滤波器组分析
总结词
梅尔滤波器组是一种用于 音频信号处理的滤波器组 。
详细描述
梅尔滤波器组可以将音频 信号分解成多个不同频带 的成分,能够更好地处理 音频信号中的细节和动态 范围。
总结词
梅尔滤波器组分析能够提 供音频信号的频带结构, 有助于提取和分类不同的 声音特征。
音频信息伪装技术通常采用声音替换、声音掩蔽等方法,将秘密信息嵌 入到音频信号中,同时通过调整音频信号的频率、幅度和节奏等参数, 使秘密信息难以被察觉。
语音助手、智能客服、社交媒体情感分析等。
情感分析的挑战
情感状态受多种因素影响,如个人情绪、环境噪音等,准确判断情 感状态较为困难。
基于深度学习的音频识别与分类
深度学习在音频识别与分类中的应用
01
利用深度学习算法对音频信号进行特征提取和分类,
提高识别与分类的准确率。
深度学习在音频处理中的优势
音频隐写技术通常采用最低有效位替换、频域隐写等方法, 将秘密信息嵌入到音频信号中,同时保持音频信号的听感 质量。
音频隐写技术的优点包括高隐蔽性和低误码率,能够在传 输过程中抵抗噪声和干扰,实现信息的可靠传输。
音频信息伪装技术
音频信息伪装技术是一种将秘密信息隐藏在普通音频信号中,同时使秘 密信息难以被察觉的技术。
实时性
音频信息处理技术能够实时地对音频信号进行处理,满足实时通信、 语音识别等应用需求。
高效性
音频信息处理技术采用了高效的数字信号处理算法,能够快速地处理 大量的音频数据。
交互性
音频信息处理技术可以实现人机交互,使得人与机器之间的交流更加 自然和便捷。
音频信息处理技术的应用领域
语音识别
音频编辑与合成
应用。
详细描述
倒谱分析能够提供音频信号的倒谱结构,有助于识别 和分类不同的声音。
音频信号的梅尔滤波器组分析
总结词
梅尔滤波器组是一种用于 音频信号处理的滤波器组 。
详细描述
梅尔滤波器组可以将音频 信号分解成多个不同频带 的成分,能够更好地处理 音频信号中的细节和动态 范围。
总结词
梅尔滤波器组分析能够提 供音频信号的频带结构, 有助于提取和分类不同的 声音特征。
音频信息伪装技术通常采用声音替换、声音掩蔽等方法,将秘密信息嵌 入到音频信号中,同时通过调整音频信号的频率、幅度和节奏等参数, 使秘密信息难以被察觉。
多媒体技术之音频信息的获取与处理PPT课件( 75张)
则可由 x(nT) 完全确定 x(t)。 当 fN = 1/(2T) 时,称 fN 为奈奎斯特频率
常用音频采样率:8kHz、11.025kHz、16kHz、22.05kHz、44.1kHz 及 48kHz
2.2.2 数字音频获取
● 量化
量化概念
通过采样得到的表示声音强弱的函数 x(nT) 是连续的,为把 x(nT) 存入计 算机,就必须将采样值离散化,即量化成一个有限个幅度值的集合 x(nT)
多媒体技术及其应用
第二章 音频信息的获取与处理
● 主要知识点
2.1声音概述 2.2数字化音频 2.3音乐合成与 MIDI 2.4音频卡 2.5数字音频压缩标准
2.1.1 声音定义 ● 声音概念 ● 声音特性
2.1.2 声音基本特点 ● 声音传播 ● 声音频率 ● 声音传播方向 ● 声音三要素 ● 声音连续、相关及
实时性 声音具有实时性。对处理声音的计算机硬件和软件提出很高要求
2.2 数字化音频
转换
模拟信号
数字信号
音频数字化需要考虑的问题
采样、量化、编码
模 拟 信 号 的 数 字 化 过 程
100101100011101
音频信号处理过程流程
音
频采
开信 样
始
号 频
频 率
率
采 样
量 化
保 存 为 声 音 文 件
周期
用声音录制软件记录的英文单词“Hello”的语音 实际波形
2.1.2 声音特点
● 声音的传播方式
声音是依靠介质 ( 比如:空气、液体、固体 ) 的振动进行传播的 声源是一个振荡源,它使周围介质产生振动,并以波的形式传播 人耳感觉到这种传播过来的振动,反映到大脑,就意味听到声音 声音在不同的介质中传播,其传播速度和衰减速率都是不一样的
常用音频采样率:8kHz、11.025kHz、16kHz、22.05kHz、44.1kHz 及 48kHz
2.2.2 数字音频获取
● 量化
量化概念
通过采样得到的表示声音强弱的函数 x(nT) 是连续的,为把 x(nT) 存入计 算机,就必须将采样值离散化,即量化成一个有限个幅度值的集合 x(nT)
多媒体技术及其应用
第二章 音频信息的获取与处理
● 主要知识点
2.1声音概述 2.2数字化音频 2.3音乐合成与 MIDI 2.4音频卡 2.5数字音频压缩标准
2.1.1 声音定义 ● 声音概念 ● 声音特性
2.1.2 声音基本特点 ● 声音传播 ● 声音频率 ● 声音传播方向 ● 声音三要素 ● 声音连续、相关及
实时性 声音具有实时性。对处理声音的计算机硬件和软件提出很高要求
2.2 数字化音频
转换
模拟信号
数字信号
音频数字化需要考虑的问题
采样、量化、编码
模 拟 信 号 的 数 字 化 过 程
100101100011101
音频信号处理过程流程
音
频采
开信 样
始
号 频
频 率
率
采 样
量 化
保 存 为 声 音 文 件
周期
用声音录制软件记录的英文单词“Hello”的语音 实际波形
2.1.2 声音特点
● 声音的传播方式
声音是依靠介质 ( 比如:空气、液体、固体 ) 的振动进行传播的 声源是一个振荡源,它使周围介质产生振动,并以波的形式传播 人耳感觉到这种传播过来的振动,反映到大脑,就意味听到声音 声音在不同的介质中传播,其传播速度和衰减速率都是不一样的
第二章音频信息处理ver30
主要包括采样、量化和编码几个方面。 2.数字音频的技术指标
采样频率、量化位数、声道数、编码算法 数字音频的质量取决于:采样频率和量化位数这两个重要 参数。此外,声道的数目、相应的音频设备也是影响音频质量 的原因。
第二章 音频信息处理
21
2.1 声音概述
3. 数字音频等级
信号类型 频率范围(Hz) 采样率(kHz) 量化精度(位)
第二章 音频信息处理
27
2.2 音频信息数字化
1、采样 • 采样(sampling)-在时间轴上对信号数字化。 • 采样周期:对连续信号采样的时间间隔T • 采样频率:单位时间内的采样次数(1/T)。
• 采样频率越高,可恢复的声音保真度越好。 • 常用采样频率
11.025KHz、22.05KHz、44.1KHz、48KHz。 如何保证采样的声音不失真?
第二章 音频信息处理
25
2.2 音频信息数字化
二、模拟信息数字化的主要优点
➢ 数字信号计算是一种精确的运算方法,它不受时间和环境变 化的影响;
➢ 表示部件功能的数学运算不是物理上实现的功能部件,而是 仅用数学运算去模拟,其中的数学运算也相对容易实现;
➢ 可以对数字运算部件进行编程,如欲改变算法或改变某些功 能,还可对数字部件进行再编程。
5.音频信号的特点
⑴ 由于音频是依赖时间的连续媒体,因此音频处理的时序性 要求高;
⑵ 由于人类接收声音有两个通道,因此计算机合成的声音应 是立体声;
⑶ 由于语音信号携带了情感意向,因此对语音信号的处理还 要抽取语意等其它信息。
第二章 音频信息处理
20
2.1 声音概述
三、数字音频 1.数字音频
将模拟的(连续的)声音波形数字化(离散化),以便利用数 字计算机进行处理的过程。(A/D转换)
采样频率、量化位数、声道数、编码算法 数字音频的质量取决于:采样频率和量化位数这两个重要 参数。此外,声道的数目、相应的音频设备也是影响音频质量 的原因。
第二章 音频信息处理
21
2.1 声音概述
3. 数字音频等级
信号类型 频率范围(Hz) 采样率(kHz) 量化精度(位)
第二章 音频信息处理
27
2.2 音频信息数字化
1、采样 • 采样(sampling)-在时间轴上对信号数字化。 • 采样周期:对连续信号采样的时间间隔T • 采样频率:单位时间内的采样次数(1/T)。
• 采样频率越高,可恢复的声音保真度越好。 • 常用采样频率
11.025KHz、22.05KHz、44.1KHz、48KHz。 如何保证采样的声音不失真?
第二章 音频信息处理
25
2.2 音频信息数字化
二、模拟信息数字化的主要优点
➢ 数字信号计算是一种精确的运算方法,它不受时间和环境变 化的影响;
➢ 表示部件功能的数学运算不是物理上实现的功能部件,而是 仅用数学运算去模拟,其中的数学运算也相对容易实现;
➢ 可以对数字运算部件进行编程,如欲改变算法或改变某些功 能,还可对数字部件进行再编程。
5.音频信号的特点
⑴ 由于音频是依赖时间的连续媒体,因此音频处理的时序性 要求高;
⑵ 由于人类接收声音有两个通道,因此计算机合成的声音应 是立体声;
⑶ 由于语音信号携带了情感意向,因此对语音信号的处理还 要抽取语意等其它信息。
第二章 音频信息处理
20
2.1 声音概述
三、数字音频 1.数字音频
将模拟的(连续的)声音波形数字化(离散化),以便利用数 字计算机进行处理的过程。(A/D转换)
多媒体通信技术—— 音频信息处理技术.ppt
第3章 音频信息处理技术
(1) 波形编码。 这种方法主要基于语音波形预测, 它力图使重建的语音波形保持原信号的波形状态。 它 的优点是编码方法简单、 易于实现、 适应能力强、 语 音质量好等, 缺点是压缩比相对来说较低, 需要较高 的编码速率。 常用的波形法编码技术有增量调制(DM)、 自适应差分脉冲编码调制(ADPCM)、 子带编码 (SBC)和矢量量化编码(VQ)等等。
第3章 音频信息处理技术
数 字 激 光 唱 盘 CD FM无 线 电 广 播 AM无 线 电 广 播
电话
10 20 50 200
3400 7 k 15 k 20 k 频 率 / Hz
图3.2-2 常见音频应用带宽示意图
第3章 音频信息处理技术
(2) 量化过程。 量化过程是指将每个采样值在幅度 上再进行离散化处理。 量化可分为均匀量化(量化值 的分布是均匀的或者说每个量化阶距是相同的)和非 均匀量化。 量化会引入失真, 并且量化失真是一种不 可逆失真, 这就是通常所说的量化噪声。
第3章 音频信息处理技术
(3) 混合编码。 这种方法克服了原有波形编码与 参数编码的弱点, 并且结合了波形编码的高质量和参 数编码的低数据率, 取得了比较好的效果。 混合编码 是指同时使用两种或两种以上的编码方法进行编码的 过程。 由于每种编码方法都有自己的优势和不足, 若 是用两种, 甚至两种以上的编码方法进行编码, 可以 优势互补, 克服各自的不足, 从而达到高效数据压缩 的目的。 无论是在音频信号的数据压缩中, 还是后面 章节将要描述的图像信号的数据压缩中, 混合编码均 被广泛采用。
第3章 音频信息处理技术
5. 单声道(Monophonic)意味着单个声源, 而立体声 并不表示有两个声源, 立体声(Stereophonic)指的是三 维听觉效果。 为了确定声源位置, 大脑要将每个耳朵 所听到声音的三个属性进行比较, 这三个属性分别是: (1) 幅值(Amplitude): 如果左耳听到的声音比右 耳的大, 那么我们就认为声音在左边。
音频信息处理
音频增强
增强监控音频的清晰度,提高声音识别的准 确性。
在智能语音翻译系统中的应用
语音翻译
将一种语言的语音转化为另一种语言的文字或语音。
多语种支持
支持多种语言的语音识别和翻译,满足不同用户的需求。
实时翻译
实现实时语音翻译,提高跨语言沟通的效率和准确性。
翻译质量优化
不断优化翻译算法和模型,提高翻译的准确性和流畅性。
情感识别技术
通过分析音频信号中的情感特征,判断说话人的情感 状态。
情感识别算法
基于深度学习、循环神经网络等算法,提取情感特征 并进行分类。
情感识别的应用
智能客服、心理健康监测、智能家居等领域的情感交 互和情感分析。
05 音频信息处理的应用案例
在语音助手中的应用
01
语音识别
将音频信号转化为文字信息,实现 人机交互。
音频信号的频域分析
总结词
频域分析将音频信号从时间域转换到频率域,使我们能够更好地理解音频信号 的组成成分。
详细描述
通过使用快速傅里叶变换(FFT)等算法,将音频信号分解成不同频率的分量, 形成频谱图。频域分析可以用于检测和分离音频中的不同音色、音高和音效。
音频信号的倒谱分析
总结词
倒谱分析是一种用于音频信号处理的高级技术,通过分析信号的倒谱系数来提取 特征。
增益控制
调整音频信号的音量大小,确保音频信号的 响度符合要求。
压缩与限制
减小音频信号的动态范围,提高音频信号的 响度。
03 音频信号的分析与特征提 取
音频信号的时域分析
总结词
时域分析主要关注音频信号的即时表现 ,通过观察信号随时间的变化来分析音 频内容。
VS
详细描述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
100101100011101
模 拟 信 号 的 数 字 化 过 程
1. 采样
信息论的奠基者香农(Shannon)指出:在一定条件下,用 离散的序列可以完全代表一个连续函数,这是采样定理的基本 内容。
为实现A/D转换,需要把模拟音频信号波形进行分割,这种 方法称为采样(Sampling)。采样的过程是每隔一个时间间隔在 模拟声音的波形上取一个幅度值,把时间上的连续信号变成时 间上的离散信号。该时间间隔称为采样周期,其倒数为采样频 率。采样频率是指计算机每秒钟采集多少个声音样本。
《音频信息处理》PPT课件
3.1 音频信息处理基础
音频信息在多媒体中的应用极为广泛:视频图像配以娓 娓动听的音乐和语音 ;静态或动态图像配以解说和背景音 乐 ;立体声音乐可增加空间感 ;游戏中的音响效果等。
音频处理技术主要包括电声转换、音频信号的存储、重 放技术、加工处理技术以及数字化音频信号的编码、压缩、 传输、存取、纠错等。
Wave格式支持多种压缩算法,支持多种音频位数、采样 频率和声道,是PC机上最为流行的声音文件格式,但其文 件尺寸较大,多用于存储简短的声音片断。
未压缩的声音文件的存储量可用下式计算: 存储量(KB)=(采样频率KHZ×采样位数bit×声道数×时间秒)/8
2.VOC文件
VOC文件是Creative公司所使用的标准音频文件格式, 多用于保存 Creative Sound Blaster(创新声霸)系列声卡所采 集的声音数据,被Windows平台和DOS平台所支持。
采样频率与声音频率之间有一定的关系,根据奈奎斯特 (Nyquist)理论,只有采样频率高于声音信号最高频率的两 倍时,才能把数字信号表示的声音还原成为原来的声音。
fs 2f
2. 量化
采样只解决了音频波形信号在时间坐标(即横轴)上把一个波 形切成若干个等分的数字化问题,但是还需要用某种数字化的 方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响 音量的高低。我们把对声波波形幅度的数字化表示称之为“量 化”。
失真在采样过程中是不可避免的,如何减少失真呢?可以直
观地看出,我们可以把上图中的波形划分成更为细小的区间,即 采用更高的采样频率。同时,增加量化精度,以得到更高的量化 等级,即可减少失真的程度。在下图(左)中,采样率和量化等 级均提高了一倍,分别为2000次/秒和20个量化等级。在下图(右) 中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个 量化等级。从图中可以看出,当用D/A转换器重构原来信号时 (图中的轮廓线),信号的失真明显减少,信号质量得到了提高。
5.声音的频谱
声音的频谱有线性频谱和连续频谱之分。线性频谱是具有 周期性的单一频率声波;连续频谱是具有非周期性的带有 一定频带所有频率分量的声波。纯粹的单一频率的声波只 能在专门的设备中创造出来,声音效果单调而乏味。自然 界中的声音几乎全部属于非周期性声波,该声波具有广泛 的频率分量,听起来声音饱满、音色多样且具有生气。
与WAV格式类似,VOC文件由文件头块和音频数据块组成。 文件头包含一个标识、版本号和一个指向数据块起始地址 的指针,这个指针帮助数据块定位以便顺利找到第一个数 据块。数据块分成各种类型的子块,如声音数据、静音、
3. 编码
模拟信号量经过采样和量化以后,形成一系列的离散信 号——脉冲数字信号。这种脉冲数字信号可以一定的方式进行 编码,形成计算机内部运行的数据。所谓编码,就是按照一定 的格式把经过采样和量化得到的离散数据记录下来,并在有用 的数据中加入一些用于纠错、同步和控制的数据。在数据回放 时,可以根据所记录的纠错数据判别读出的声音数据是否有错, 如在一定范围内有错,可加以纠正。
3.1.2 模拟音频的数字化过程
数字化的声音易于用计算机软件处理,现在几乎所有的专 业化声音录制、编辑器都是数字方式。对模拟音频数字化过程 涉及到音频的采样、量化和编码。
采样和量化的过程可由A/D转换器实现。A/D转换器以固定的 频率去采样,即每个周期测量和量化信号一次。经采样和量化 后声音信号经编码后就成为数字音频信号,可以将其以文件形 式保存在计算机的存储介质中,这样的文件一般称为数字声波 文件。
以下图所示的原始模拟波形为例进行采样和量化。假设采样 频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被 划分成0到9共10个量化等级,并将其采样的幅度值取最接近0~ 9 之间的一个数来表示,如下图所示。图中每个正方形表示一次 采样。
D/A转换器从上图得到的数值中重构原来信号时,得到下 图中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线 与原波形(红色线)相比,其波形的细节部分丢失了很多。这意 味着重构后的信号波形有较大的失真。
1. WAV文件 WAV文件又称波形文件,来源于对声音模拟波形 的采样,并以不同的量化位数把这些采样Байду номын сангаас的 值轮换成二进制数,然后存入磁盘,这就产生 了波形文件。WAV文件用于保存Windows平台的 音频信息资源,被Windows平台及其应用程序所 广泛支持。
WAV声音文件是使用RIFF(Resource Interchange File Format资源交换文件)的格式描述的,它由文件头和波形 音频文件数据块组成。文件头包括标志符、语音特征值、 声道特征以及PCM格式类型标志等。WAV数据块是由数据子 块标记、数据子块长度和波形音频数据3个数据子块组成。
量化的过程是先将采样后的信号按整个声波的幅度划分成 有限个区段的集合,把落入某个区段内的样值归为一类,并赋 于相同的量化值。如何分割采样信号的幅度呢? 我们还是采取二 进制的方式,以8位(bit)或16位(bit)的方式来划分纵轴。也就是 说在一个以8位为记录模式的音效中,其纵轴将会被划分为个量 化等级,用以记录其幅度大小。
编码的形式比较多,常用的编码方式是PCM——脉冲调制。 脉冲编码调制(PCM)是把模拟信号变换为数字信号的一种调 制方式,即把连续输入的模拟信号变换为在时域和振幅上都离 散的量,然后将其转化为代码形式传输或存储。
3.1.3 数字音频的文件格式
在多媒体技术中,存储音频信息的文件格式主要 有:WAV文件、VOC文件和MP3文件等。
模 拟 信 号 的 数 字 化 过 程
1. 采样
信息论的奠基者香农(Shannon)指出:在一定条件下,用 离散的序列可以完全代表一个连续函数,这是采样定理的基本 内容。
为实现A/D转换,需要把模拟音频信号波形进行分割,这种 方法称为采样(Sampling)。采样的过程是每隔一个时间间隔在 模拟声音的波形上取一个幅度值,把时间上的连续信号变成时 间上的离散信号。该时间间隔称为采样周期,其倒数为采样频 率。采样频率是指计算机每秒钟采集多少个声音样本。
《音频信息处理》PPT课件
3.1 音频信息处理基础
音频信息在多媒体中的应用极为广泛:视频图像配以娓 娓动听的音乐和语音 ;静态或动态图像配以解说和背景音 乐 ;立体声音乐可增加空间感 ;游戏中的音响效果等。
音频处理技术主要包括电声转换、音频信号的存储、重 放技术、加工处理技术以及数字化音频信号的编码、压缩、 传输、存取、纠错等。
Wave格式支持多种压缩算法,支持多种音频位数、采样 频率和声道,是PC机上最为流行的声音文件格式,但其文 件尺寸较大,多用于存储简短的声音片断。
未压缩的声音文件的存储量可用下式计算: 存储量(KB)=(采样频率KHZ×采样位数bit×声道数×时间秒)/8
2.VOC文件
VOC文件是Creative公司所使用的标准音频文件格式, 多用于保存 Creative Sound Blaster(创新声霸)系列声卡所采 集的声音数据,被Windows平台和DOS平台所支持。
采样频率与声音频率之间有一定的关系,根据奈奎斯特 (Nyquist)理论,只有采样频率高于声音信号最高频率的两 倍时,才能把数字信号表示的声音还原成为原来的声音。
fs 2f
2. 量化
采样只解决了音频波形信号在时间坐标(即横轴)上把一个波 形切成若干个等分的数字化问题,但是还需要用某种数字化的 方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响 音量的高低。我们把对声波波形幅度的数字化表示称之为“量 化”。
失真在采样过程中是不可避免的,如何减少失真呢?可以直
观地看出,我们可以把上图中的波形划分成更为细小的区间,即 采用更高的采样频率。同时,增加量化精度,以得到更高的量化 等级,即可减少失真的程度。在下图(左)中,采样率和量化等 级均提高了一倍,分别为2000次/秒和20个量化等级。在下图(右) 中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个 量化等级。从图中可以看出,当用D/A转换器重构原来信号时 (图中的轮廓线),信号的失真明显减少,信号质量得到了提高。
5.声音的频谱
声音的频谱有线性频谱和连续频谱之分。线性频谱是具有 周期性的单一频率声波;连续频谱是具有非周期性的带有 一定频带所有频率分量的声波。纯粹的单一频率的声波只 能在专门的设备中创造出来,声音效果单调而乏味。自然 界中的声音几乎全部属于非周期性声波,该声波具有广泛 的频率分量,听起来声音饱满、音色多样且具有生气。
与WAV格式类似,VOC文件由文件头块和音频数据块组成。 文件头包含一个标识、版本号和一个指向数据块起始地址 的指针,这个指针帮助数据块定位以便顺利找到第一个数 据块。数据块分成各种类型的子块,如声音数据、静音、
3. 编码
模拟信号量经过采样和量化以后,形成一系列的离散信 号——脉冲数字信号。这种脉冲数字信号可以一定的方式进行 编码,形成计算机内部运行的数据。所谓编码,就是按照一定 的格式把经过采样和量化得到的离散数据记录下来,并在有用 的数据中加入一些用于纠错、同步和控制的数据。在数据回放 时,可以根据所记录的纠错数据判别读出的声音数据是否有错, 如在一定范围内有错,可加以纠正。
3.1.2 模拟音频的数字化过程
数字化的声音易于用计算机软件处理,现在几乎所有的专 业化声音录制、编辑器都是数字方式。对模拟音频数字化过程 涉及到音频的采样、量化和编码。
采样和量化的过程可由A/D转换器实现。A/D转换器以固定的 频率去采样,即每个周期测量和量化信号一次。经采样和量化 后声音信号经编码后就成为数字音频信号,可以将其以文件形 式保存在计算机的存储介质中,这样的文件一般称为数字声波 文件。
以下图所示的原始模拟波形为例进行采样和量化。假设采样 频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被 划分成0到9共10个量化等级,并将其采样的幅度值取最接近0~ 9 之间的一个数来表示,如下图所示。图中每个正方形表示一次 采样。
D/A转换器从上图得到的数值中重构原来信号时,得到下 图中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线 与原波形(红色线)相比,其波形的细节部分丢失了很多。这意 味着重构后的信号波形有较大的失真。
1. WAV文件 WAV文件又称波形文件,来源于对声音模拟波形 的采样,并以不同的量化位数把这些采样Байду номын сангаас的 值轮换成二进制数,然后存入磁盘,这就产生 了波形文件。WAV文件用于保存Windows平台的 音频信息资源,被Windows平台及其应用程序所 广泛支持。
WAV声音文件是使用RIFF(Resource Interchange File Format资源交换文件)的格式描述的,它由文件头和波形 音频文件数据块组成。文件头包括标志符、语音特征值、 声道特征以及PCM格式类型标志等。WAV数据块是由数据子 块标记、数据子块长度和波形音频数据3个数据子块组成。
量化的过程是先将采样后的信号按整个声波的幅度划分成 有限个区段的集合,把落入某个区段内的样值归为一类,并赋 于相同的量化值。如何分割采样信号的幅度呢? 我们还是采取二 进制的方式,以8位(bit)或16位(bit)的方式来划分纵轴。也就是 说在一个以8位为记录模式的音效中,其纵轴将会被划分为个量 化等级,用以记录其幅度大小。
编码的形式比较多,常用的编码方式是PCM——脉冲调制。 脉冲编码调制(PCM)是把模拟信号变换为数字信号的一种调 制方式,即把连续输入的模拟信号变换为在时域和振幅上都离 散的量,然后将其转化为代码形式传输或存储。
3.1.3 数字音频的文件格式
在多媒体技术中,存储音频信息的文件格式主要 有:WAV文件、VOC文件和MP3文件等。