第三章多媒体音频信息处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、音频信号的分类
音频信号可分为两类:
❖ 语音信号:语音是语言的物质载体,它包含了 丰富的语言内涵,是人类进行信息交流所特有 的形式。
❖ 非语音信号:主要包括音乐和自然界存在的其他 声音形式。非语音信号的特点是不含复杂的语义 和语法信息,其信息量低,识别简单。
二、音频信号的形式
声音可用一条连续的曲线来表示。这条连 续的曲线无论多么复杂,都可分解成一系列正 炫波的线性叠加,称为声波。因声波是在时间 上和幅度上都连续变化的量,因此称之为模拟 量。模拟信号有两个重要参数:频率和幅度。
1996.3 1992.9 1996.3
音频编码标准和算法
编码 类型
波形 编码
参数 编码
混合
算法
PCM
μ(A)
APCM DPCM
ADPCM
SBADPCM
LPC
CELPC VSELP RPECELP
名称 均匀量化
μ(A) 自适应量化 差值量化 自适应差值量化
子带一自适应差值量化
线性预测编码 码激励LPC
①高压缩比,存储空间小。 ②适合网络播放。 ③音质不是很好。 ④专用播放器Realplayer、
超级解霸2001以上的版本等
➢ AIFF格式文件
AIF是音频交换文件格式(Audio Interchange File Format)的英文缩写,是苹果计算机公司开发的一 种声音文件格式。
七、声卡
虽然PC声卡是在20世纪90年代才得以普及,但 它的问世却是在1984年。英国的ADLIB公司是目前公 认的“声卡之父”,虽然他们最初开发的产品只能提供 简单的声音效果,并且无法处理音频信号,但在当时 无疑已经是一个很大的突破。由于技术不够成熟,成 本又非常昂贵,因此这类带有试验品性质的早期ADLIB 音乐卡,因在当时计算机的运算速度还不足以应付大 规模的多媒体处理,所以未能普及。
振 幅
周期
基线
声音分类 亚声波 人类听力所能接受 超声波 超高声波
频率范围 0~20Hz 20Hz~20kHz 20kHz~1GHz 1GHz~10GHz
三、声音质量的评价
❖ 客观质量度量:用信噪比来衡量。 ❖ 主观质量度量
现在公认的声音质量分为4级
✓ 数字激光唱盘质量 ✓ 调频无线电广播 ✓ 调幅无线电广播 ✓ 电话质量
例如:采样频率通常采用种:11.025KHz(语 音效果)、22.05KHz(音乐效果)44.1KHz(高 保真效果)。常见的CD唱盘的采样频率即为 44.1KHz。
▪ 奈奎斯特理论:采样频率与声音频率之间有 一定的关系,只有采样频率高于声音信号最 高频率的两倍时,才能把数字信号表示的声 音还原成为原来的声音. 例如:CD唱片,要想获得CD音质的效果,则要 保证采样频率为44.1KHz.
七、声卡
(一)功能
o 录制、编辑和回放数字声音文件 o 控制各声源的音量并混合在一起 o 对声波文件进行压缩和解压缩 o 语音合成技术 o MIDI接口(乐器数字接口)
(二)声卡的技能指标
o 音频技术指标
声卡的录音、放音效果应该具有CD唱片的音质。 所谓CD音质是指录音采样速度达到44.1kHz,用16 位量化指标来记录声音。Sound Blaster 16(即16位 声霸卡)系列的声卡都是CD音质的声卡。
音频信号的编码方式可分为波形编码 参数编码和混合编码三种。
波形编码的算法简单,易于实现,可获得 高质量的语音。常见的三种波形编码方法为:
脉冲编码调制(PCM),实际为直接对声音信号作 A/D转换。只要采样频率足够高,量化位数足 够多,就能使解码后恢复的声音信号有很高的 质量。 差分脉冲编码调制(DPCM),即只传输声音预测 值和样本值的差值以此降低音频数据的编码率。 自适应差分编码调制(ADPCM),是DPCM方法的进 一步改进,通过调整量化步长,对不同频段设 置不同的量化字长,使数据得到进一步的压缩。
脉冲编码调制(PCM)
PCM编码是对连续语音信号进行空间采样, 幅度值量化及用适当码字将其编码的总称.PCM 方法可以按量化方式的不同,分为均匀量化PCM, 非均匀量化PCM和自适应量化PCM等三种.
均匀量化
非均匀量化
差分脉冲编码调制(DPCM)
他编码的不是声音采样样本值,而是样本值及 其预测值的差分。根据过去的样本去估算(estimate) 下一个样本信号的幅度大小,这个值称为预测值, 然后对实际信号值与预测值之差进行量化编码, 从而就减少了表示每个样本信号的位数。
六、数字音频的文件格式
➢ WAV文件 WAV文件又称为波形文件,是Micorsoft公司的文件 格式.WAV文件来源于对声音模拟波形的采样,并以 不同的量化位数把这些采样点的值转换成二进制数.
WAVE声音文件是使用RIFF(资源交换文件)的格式 描述的
对于PCM采样得到的波形文件,其声音文件 的大小与采样频率、量化位数和声道数有关.
矢量和激励LPC 长时预测规则码激励
数据率
64kbit/s
32kbit/s 64kbit/s 2.4kbit/s 4.8kbit/s 8kbit/s 13.2kbit/s
标准
G.71 1
G.72 1
G.72 2
应用 质量
公共网
ISDN
4.04.5
配音
保密电话
2.53.5
移动通信
语音邮件 3.7-
4.0 ISDN
(二)声卡的技能指标
随着波表合成技术的出现,由双声道立体声向 多声道环绕声的发展显得格外迫切。
四声道环绕规定了4个发音点:前左、前右、 后左、后右,听众则被包围在这中间,同时还建议 增加一个低音音箱,以加强对低频信号的回放处理 (这也是如今4.1声道音箱系统广泛流行的原因)。
(二)声卡的技能指标
(二)声卡的技能指标
o MIDI声频
MIDI是计算机产生声音的另一种方法,它是一种 电子音乐。计算机播放MIDI文件时,有两种方法合成 声音:FM合成和波表合成。我们在考虑声卡的技能指 标时要考虑采用
声卡所支持的声道数也是重要指标。 单声道是比较原始的声音复制形式,缺乏对声 音的位置定位。 立体声声音在录制过程中被分配到两个独立的 声道,从而达到了很好的声音定位效果。
第三章
多媒体音频信息处理
声音是携带信息的极其重要的媒体, 是多媒体技术研究中的一个重要内容。声 音的种类繁多,如人的话音、乐器声、动 物发出的声音、机器产生的声音以及自然 界的声音等。
这些声音有许多共同的特性,也有它们 各自的特性。在用计算机处理这些声音时, 既要考虑它们的共性,又要利用它们的各 自的特性。
量化
采样的离散音频数据要转换成计算机能够表示的 数据范围的过程,我们把对声波波形幅度的数字化 表示称之为“量化”
量化的过程首先将采样后的信号按整个声波的幅 度划分成有限个区段的集合,把落入某个区段内 的样值归为一类,并赋予相同的量化值.
数字化音频的过程如下图所示。
(a) 模拟音频信号
(b) 音频信号的采样
一个声源每秒钟可产生成百上千个波峰,把每 秒钟波峰所发生的数目称之为信号的频率。
信号周期是指两个峰点或谷底之间的相对时间。 信号的基线提供了一个测量声音的起点。信号
的幅度是从信号的基线到当前波峰的距离。幅 度决定了信号音量的强弱程度。 信号带宽是声音信号的一个重要参数,它用来描 述组成复合信号的频率范围。
编码
为什么要对音频编码? A、获取更好的数学描述方法? B、让声音不失真? C、不编码就不是比特流? D、为了使比特流更加简练? E、为了便于计算机存储? F、为了便于在网络上传输音频?
以上哪个是最根本的出发点?
所谓编码,就是按照一定的格式把离散的数字 记录下来,并在有用的数据中加入一些用于纠错、 同步和控制的数据.在数据回放时,可以根据所记 录的纠错数据判别读出的声音数据是否有错,如 在一定范围内有错,可加以纠正.
文件大小=采样频率*(量化位数/8)*声道数* 录音时间
如:对于立体声,如果采样频率为44.1Kz,分辨率为 16bit,声道数为2,语音时间为10秒,求录音文件 的大小?
➢ VOC文件
VOC文件是Creative公司所使用的标准音频文件格式。 与WAVE格式类似,VOC文件有文件头块和音频数据 块组成。文件头包含一个标识、版本号和一个指向数 据块起始地址的指针。数据块分成各种类型的子块, 如声音数据、静音、标记、重复、重复的结束及终止 标记等。
如果要用计算机对音频信息进行处理,则首先将 模拟音频信号(如语音、音乐等)转换成数字信号. 对模拟音频数字化的过程涉及到音频的采样、
量化和编码.
模拟音频信号 采样
量化
数字音频信号 编码
采样
计算机对声音的表示主要是通过规则的时间 间隔测出音波振动的幅度从而产生的一系列 声音数据。这种测出数据的方法就称为采样, 一秒内采样的次数称为采样率(sampling rate),单位为Hz。
➢ mp3文件
是用一种属于按MPEG标准的声音压缩技术制作的 数字音频文件。
①存储空间小,同样长度的音乐文件,用MP3 存储相当于WAV的1/10。
③比较好的播放器:winamp、超级解霸、 realplayer等,一般都支持。
➢ RA格式文件
Real Player公司推出的适合于网络播放的 媒体格式。
5.1声道已广泛运用于各类传统影院和家庭影院 中,该声音系统来源于4.1环绕,不同之处在于它增 加了一个中置单元,这个中置单元负责传送低于80 Hz的声音信号,在欣赏影片时有利于加强人声,把 对话集中在整个声场的中部,以增强整体效果。
(二)声卡的技能指标
o 多音频流输出
多音频流输出是指声卡可以在同一时间内支持 多个wav、mp3、midi类音频文件的播放。目前大 部分中高档的PCI声卡是普遍支持多音频流输出的,
自适应差分脉冲编码 (ADPCM)
自适应就是使量化间隔大小的变化自动的去 适应输入信号大小的变化.他根据信号分布不均匀 的特点,是系统具有随输入信号的变化而改变量化 区间的大小,以保证输入量化器的信号基本均匀的 能力.
ITU-T G系列音频压缩编码标准
标准 比特速度 编码技术
应用
制定日期
G.711 64kb/s
PCM
公共电话网
1972
G.722 64kb/s SBC+ADPCM 视听多媒体和会议电话 1988.11
G.723 5.3kb/s或6.3kb/s MP-MLQ G.728 16kb/s LD-CELP G.729 8kb/s CS-ACELP
视频电话及IP电话等 公共电话网 无线移动网、
计算机通信系统等
五、音频信号的压缩编码与标准
数字波形文件数据量大,数字音频的编码 必须采用高效的数据压缩编码技术。对数字化后 的声音信号进行压缩编码,使其成为具有一定字长 的二进制数字序列,并以这种形式在计算机内传输 和存储.在播放时经解码器恢复成原来的声音信号.
输入信号 编码器
传输/存储
解码器 输出信号
音频信号能够被压缩编码的依据有两个, 一是声音信号存在着数据冗余;二是利用人 的听觉特性来降低编码率,人的听觉具有一 个强音能抑制一个同时存在的弱音现象,这 样就可以抑制与信号同时存在的量化噪声; 另外人耳对低频端比较敏感,而对高频端不 太敏感,由此引出了“子带编码技术”。
CD-DA
FM广播 AM广播
电话
10 20 50 200
3.4K 7K
15K 22K
四、模拟音频的数字化过程
话音信号是典型的连续信号,不 仅在时间上是连续的,而且在幅 度上也是连续的。在时间上“连 续”是指在一个指定的时间范围 里声音信号的幅值有无穷多个, 在幅度上“连续”是指幅度的数 值有无穷多个。我们把在时间和 幅度上都是连续的信号称为模拟
(c) 采样信号的量化
▪ 量化位数 量化位数也称“量化精度”,是描述每个采样
点样值的二进制位数。例如,8位量化位数表示每 个采样值可以用28即256个不同的量化值之一来表 示,而16位量化位数表示每个采样值可以用216即 65536个不同的量化值之一来表示。这个参数就是 通常所说的声卡的位数.常用的量化位数为8位、16 位、32位,专业级的高档声卡有64位的。
2). 参数编码 参数编码方法通过建立起声音信号的产生
模型,将声音信号用模型参数来表示,再对参 数进行编码,在声音播放时根据参数重建声音 信号。参数编码法算法复杂,计算量大,压缩 率高,但还原声音的质量不高。 3). 混合编码
混合编码是把波形编码的高质量和参数编 码的低数据率结合在一起,取得了较好效果。