第三章多媒体音频信息处理教学讲义

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/8/2
对于PCM采样得到的波形文件,其声音文件 的大小与采样频率、量化位数和声道数有关.
文件大小=采样频率*(量化位数/8)*声道数* 录音时间
如:对于立体声,如果采样频率为44.1Kz,分辨率为 16bit,声道数为2,语音时间为10秒,求录音文件 的大小?
2020/8/2
➢ VOC文件
多音频流输出是指声卡可以在同一时间内支持 多个wav、mp3、midi类音频文件的播放。目前大 部分中高档的PCI声卡是普遍支持多音频流输出的,
2020/8/2
(二)声卡的技能指标 o I/O设备接口
一般的声卡都设有线性输入、线性输出、音箱 输出、MIDI和游戏杆接口等。
2020/8/2
2020/8/2
音频信号能够被压缩编码的依据有两个, 一是声音信号存在着数据冗余;二是利用人 的听觉特性来降低编码率,人的听觉具有一 个强音能抑制一个同时存在的弱音现象,这 样就可以抑制与信号同时存在的量化噪声; 另外人耳对低频端比较敏感,而对高频端不 太敏感,由此引出了“子带编码技术”。
音频信号的编码方式可分为波形编码 参数编码和混合编码三种。
2020/8/2
脉冲编码调制(PCM)
2020/8/2
PCM编码是对连续语音信号进行空间采样, 幅度值量化及用适当码字将其编码的总称.PCM 方法可以按量化方式的不同,分为均匀量化PCM, 非均匀量化PCM和自适应量化PCM等三种.
2020/8/2
均匀量化
2020/8/2
非均匀量化
差分脉冲编码调制(DPCM)
①存储空间小,同样长度的音乐文件,用MP3 存储相当于WAV的1/10。
③比较好的播放器:winamp、超级解霸、 realplayer等,一般都支持。
2020/8/2
➢ RA格式文件 Real Player公司推出的适合于网络播放的 媒体格式。
①高压缩比,存储空间小。 ②适合网络播放。 ③音质不是很好。 ④专用播放器Realplayer、
视频电话及IP电话等 公共电话网 无线移动网、
计算机通信系统等
1996.3 1992.9 1996.3
2020/8/2
2020/8/2
六、数字音频的文件格式
➢ WAV文件 WAV文件又称为波形文件,是Micorsoft公司的文件 格式.WAV文件来源于对声音模拟波形的采样,并以 不同的量化位数把这些采样点的值转换成二进制数. WAVE声音文件是使用RIFF(资源交换文件)的格式 描述的
超级解霸2001以上的版本等
2020/8/2
➢ AIFF格式文件 AIF是音频交换文件格式(Audio Interchange File Format)的英文缩写,是苹果计算机公司开发的一 种声音文件格式。
2020/8/2
七、声卡
虽然PC声卡是在20世纪90年代才得以普及,但 它的问世却是在1984年。英国的ADLIB公司是目前公 认的“声卡之父”,虽然他们最初开发的产品只能提供 简单的声音效果,并且无法处理音频信号,但在当时 无疑已经是一个很大的突破。由于技术不够成熟,成 本又非常昂贵,因此这类带有试验品性质的早期ADLIB 音乐卡,因在当时计算机的运算速度还不足以应付大 规模的多媒体处理,所以未能普及。
他编码的不是声音采样样本值,而是样本值及 其预测值的差分。根据过去的样本去估算(estimate) 下一个样本信号的幅度大小,这个值称为预测值, 然后对实际信号值与预测值之差进行量化编码, 从而就减少了表示每个样本信号的位数。
2020/8/2
2020/8/2
自适应差分脉冲编码 (ADPCM)
自适应就是使量化间隔大小的变化自动的去 适应输入信号大小的变化.他根据信号分布不均匀 的特点,是系统具有随输入信号的变化而改变量化 区间的大小,以保证输入量化器的信号基本均匀的 能力.
编码
为什么要对音频编码? A、获取更好的数学描述方法? B、让声音不失真? C、不编码就不是比特流? D、为了使比特流更加简练? E、为了便于计算机存储? F、为了便于在网络上传输音频?
以上哪个是最根本的出发点?
2020/8/2
所谓编码,就是按照一定的格式把离散的数字 记录下来,并在有用的数据中加入一些用于纠错、 同步和控制的数据.在数据回放时,可以根据所记 录的纠错数据判别读出的声音数据是否有错,如 在一定范围内有错,可加以纠正.
2020/8/2
2020/8/2
ITU-T G系列音频压缩编码标准
标准 比特速度 编码技术
应用
制定日期
G.711 64kb/s
PCM
公共电话网
1972
G.722 64kb/s SBC+ADPCM 视听多媒体和会议电话 1988.11
G.723 5.3kb/s或6.3kb/s MP-MLQ G.728 16kb/s LD-CELP G.729 8kb/s CS-ACELP
量化和编码.
模拟音频信号 采样
量化
数字音频信号 编码
2020/8/2
采样
计算机对声音的表示主要是通过规则的时间 间隔测出音波振动的幅度从而产生的一系列 声音数据。这种测出数据的方法就称为采样, 一秒内采样的次数称为采样率(sampling rate),单位为Hz。 例如:采样频率通常采用种:11.025KHz(语 音效果)、22.05KHz(音乐效果)44.1KHz(高 保真效果)。常见的CD唱盘的采样频率即为 44.1KHz。
(二)声卡的技能指标
5.1声道已广泛运用于各类传统影院和家庭影院 中,该声音系统来源于4.1环绕,不同之处在于它增 加了一个中置单元,这个中置单元负责传送低于80 Hz的声音信号,在欣赏影片时有利于加强人声,把 对话集中在整个声场的中部,以增强整体效果。
2020/8/2
(二)声卡的技能指标 o 多音频流输出
点样值的二进制位数。例如,8位量化位数表示每 个采样值可以用28即256个不同的量化值之一来表 示,而16位量化位数表示每个采样值可以用216即 65536个不同的量化值之一来表示。这个参数就是 通常所说的声卡的位数.常用的量化位数为8位、16 位、32位,专业级的高档声卡有64位的。
2020/8/2
2020/8/2
七、声卡
(一)功能 o 录制、编辑和回放数字声音文件 o 控制各声源的音量并混合在一起 o 对声波文件进行压缩和解压缩 o 语音合成技术 o MIDI接口(乐器数字接口)
2020/8/2
(二)声卡的技能指标 o 音频技术指标
声卡的录音、放音效果应该具有CD唱片的音质。 所谓CD音质是指录音采样速度达到44.1kHz,用16 位量化指标来记录声音。Sound Blaster 16(即16位 声霸卡)系列的声卡都是CD音质的声卡。
量化的过程首先将采样后的信号按整个声波的幅 度划分成有限个区段的集合,把落入某个区段内 的样值归为一类,并赋予相同的量化值.
2020/8/2
数字化音频的过程如下图所示。
(a) 模拟音频信号
(b) 音频信号的采样
2020/8/2
(c) 采样信号的量化
▪ 量化位数 量化位数也称“量化精度”,是描述每个采样
❖ 客观质量度量:用信噪比来衡量。 ❖ 主观质量度量
现在公认的声音质量分为4级
✓ 数字激光唱盘质量 ✓ 调频无线电广播 ✓ 调幅无线电广播 ✓ 电话质量
2020/8/2
CD-DA
FM广播 AM广播
电话
10 20 50 200
3.4K 7K
15K 22K
2020/8/2
四、模拟音频的数字化过程
2020/8/2
2020/8/2
一、音频信号的分类
音频信号可分为两类:
❖ 语音信号:语音是语言的物质载体,它包含了 丰富的语言内涵,是人类进行信息交流所特有 的形式。
❖ 非语音信号:主要包括音乐和自然界存在的其他 声音形式。非语音信号的特点是不含复杂的语义 和语法信息,其信息量低,识别简单。
2020/8/2
一个声源每秒钟可产生成百上千个波峰,把每 秒钟波峰所发生的数目称之为信号的频率。
2020/8/2
(二)声卡的技能指标
随着波表合成技术的出现,由双声道立体声向 多声道环绕声的发展显得格外迫切。
四声道环绕规定了4个发音点:前左、前右、 后左、后右,听众则被包围在这中间,同时还建议 增加一个低音音箱,以加强对低频信号的回放处理 (这也是如今4.1声道音箱系统广泛流行的原因)。
2020/8/2
2020/8/2
▪ 奈奎斯特理论:采样频率与声音频率之间有 一定的关系,只有采样频率高于声音信号最 高频率的两倍时,才能把数字信号表示的声 音还原成为原来的声音. 例如:CD唱片,要想获得CD音质的效果,则要 保证采样频率为44.1KHz.
2020/8/2
量化
采样的离散音频数据要转换成计算机能够表示的 数据范围的过程,我们把对声波波形幅度的数字化 表示称之为“量化”
话音信号是典型的连续信号,不 仅在时间上是连续的,而且在幅 度上也是连续的。在时间上“连 续”是指在一个指定的时间范围 里声音信号的幅值有无穷多个, 在幅度上“连续”是指幅度的数 值ቤተ መጻሕፍቲ ባይዱ无穷多个。我们把在时间和 幅度上都是连续的信号称为模拟
如果要用计算机对音频信息进行处理,则首先将 模拟音频信号(如语音、音乐等)转换成数字信号. 对模拟音频数字化的过程涉及到音频的采样、
2020/8/2
(二)声卡的技能指标 o MIDI声频
MIDI是计算机产生声音的另一种方法,它是一种 电子音乐。计算机播放MIDI文件时,有两种方法合成 声音:FM合成和波表合成。我们在考虑声卡的技能指 标时要考虑采用的哪种合成方法。
2020/8/2
(二)声卡的技能指标
o 声道数
声卡所支持的声道数也是重要指标。 单声道是比较原始的声音复制形式,缺乏对声 音的位置定位。 立体声声音在录制过程中被分配到两个独立的 声道,从而达到了很好的声音定位效果。
第三章
多媒体音频信息处理
2020/8/2
声音是携带信息的极其重要的媒体, 是多媒体技术研究中的一个重要内容。声 音的种类繁多,如人的话音、乐器声、动 物发出的声音、机器产生的声音以及自然 界的声音等。
这些声音有许多共同的特性,也有它们 各自的特性。在用计算机处理这些声音时, 既要考虑它们的共性,又要利用它们的各 自的特性。
2020/8/2
2). 参数编码 参数编码方法通过建立起声音信号的产生
模型,将声音信号用模型参数来表示,再对参 数进行编码,在声音播放时根据参数重建声音 信号。参数编码法算法复杂,计算量大,压缩 率高,但还原声音的质量不高。 3). 混合编码
混合编码是把波形编码的高质量和参数编 码的低数据率结合在一起,取得了较好效果。
2020/8/2
波形编码的算法简单,易于实现,可获得 高质量的语音。常见的三种波形编码方法为:
脉冲编码调制(PCM),实际为直接对声音信号作 A/D转换。只要采样频率足够高,量化位数足 够多,就能使解码后恢复的声音信号有很高的 质量。 差分脉冲编码调制(DPCM),即只传输声音预测 值和样本值的差值以此降低音频数据的编码率。 自适应差分编码调制(ADPCM),是DPCM方法的进 一步改进,通过调整量化步长,对不同频段设 置不同的量化字长,使数据得到进一步的压缩。
信号周期是指两个峰点或谷底之间的相对时间。 信号的基线提供了一个测量声音的起点。信号
的幅度是从信号的基线到当前波峰的距离。幅 度决定了信号音量的强弱程度。 信号带宽是声音信号的一个重要参数,它用来描 述组成复合信号的频率范围。
振 幅
2020/8/2
周期
基线
2020/8/2
三、声音质量的评价
VOC文件是Creative公司所使用的标准音频文件格式。 与WAVE格式类似,VOC文件有文件头块和音频数据 块组成。文件头包含一个标识、版本号和一个指向数 据块起始地址的指针。数据块分成各种类型的子块, 如声音数据、静音、标记、重复、重复的结束及终止 标记等。
2020/8/2
➢ mp3文件
是用一种属于按MPEG标准的声音压缩技术制作的 数字音频文件。
2020/8/2
五、音频信号的压缩编码与标准
数字波形文件数据量大,数字音频的编码 必须采用高效的数据压缩编码技术。对数字化后 的声音信号进行压缩编码,使其成为具有一定字长 的二进制数字序列,并以这种形式在计算机内传输 和存储.在播放时经解码器恢复成原来的声音信号.
输入信号 编码器
传输/存储
解码器 输出信号
相关文档
最新文档