多媒体通信技术课件第三章音频信息处理技术

合集下载

多媒体信息处理技术之多媒体数据的分类及特点(ppt 61页)

Navigator浏览器中的LiveAudio也支持AIFF格
式，SGI及其它专业音频软件包也同样支持AIFF
格式。AIFF支持ACE2、ACE8、MAC3和MAC6
压缩，支持16位44.1kHz立体声。
MP3相关知识：
MP3全称是动态影像专家压缩标准音频层面3（Moving Picture Experts Group Audio Layer III）。是当今较流行的一种数字音频编码和有损压缩格式，它设计用来大幅度地降低音频数据量，而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。它是在1991年由位于德国埃尔朗根的研究组织FraunhoferGesellschaft的一组工程师发明和标准化的。
3．按声音格式声卡处理的声音信息在计算机中以文
件的形式存储。Windows使用的标准数字音频文件称为波形文件，扩展名为WAV；扩展名为VOC的声音文件主要用于DOS程序；扩展名为MID的文件用于存储MIDI类声音信息；它比WAV文件更节省空间。声音存储文件的格式有很多种，除以上介绍的以外，经常用到的还有AIF、MP3等。
地进行大小和音质的改良，而不影响旧有的编码器或播
放器。
补充：目前最好的有损格式之一，MP3部分支持，
智能手机装软件部分可以支持，最高比特率500kbps。
（三）图形、图像
在计算机中，一般将图形分为两大类：矢量图矢量图英文为 Vector ，将它称做为图形，矢量
图对于每个对象来说都是自成一体的实体，就可以在维持它原有清晰度和弯曲度的同时，多次移动和改变它的属性，而不会影响图例中的其他对象。矢量图与分辨率没有任何关系。所以这就意味着它们可以按最高分辨率显示到输出设备上。

多媒体信息处理技术音频处理技术

1、媒体和多媒体媒体（Media）是人与人之间实现信息交流的中介，简单地说，就是信息的载体，也称为媒介。

多媒体就是多重媒体的意思，可以理解为直接作用于人感官的文字、图形、图像、动画、声音和视频等各种媒体的统称，即多种信息载体的表现形式和传递方式。

其实在传播学中，使用媒价来表示传递信息的手段、方式或载体，用媒体来表示传播活动的组织、机构或人员，但人们在计算机中已经约定俗成的使用多媒体来表示信息的手段、方式或载体，比如视频，音频等。

2、多媒体的特点：（1）集成性能够对信息进行多通道统一获取、存储、组织与合成。

（2）控制性多媒体技术是以计算机为中心，综合处理和控制多媒体信息，并按人的要求以多种媒体形式表现出来，同时作用于人的多种感官。

（3）交互性交互性是多媒体应用有别于传统信息交流媒体的主要特点之一。

传统信息交流媒体只能单向地、被动地传播信息，而多媒体技术则可以实现人对信息的主动选择和控制。

（4）非线性多媒体技术的非线性特点将改变人们传统循序性的读写模式。

以往人们读写方式大都采用章、节、页的框架，循序渐进地获取知识，而多媒体技术将借助超文本链接（Hyper Text Link）或其他方法，把内容以一种更灵活、更具变化的方式呈现给读者。

（5）实时性当用户给出操作命令时，相应的多媒体信息都能够得到实时控制。

（6）信息使用的方便性用户可以按照自己的需要、兴趣、任务要求、偏爱和认知特点来使用信息，任取图、文、声等信息表现形式。

（7）信息结构的动态性“多媒体是一部永远读不完的书”，用户可以按照自己的目的和认知特征重新组织信息，增加、删除或修改节点，重新建立链。

3、多媒体系统的组成多媒体硬件系统、多媒体操作系统、媒体处理系统工具和用户应用软件。

（1）多媒体硬件系统：包括计算机硬件、声音/视频处理器、多种媒体输入/输出设备及信号转换装置、通信传输设备及接口装置等。

其中，最重要的是根据多媒体技术标准而研制生成的多媒体信息处理芯片和板卡、光盘驱动器等。

第三章多媒体音频信息处理

一、音频信号的分类
音频信号可分为两类：
❖ 语音信号：语音是语言的物质载体，它包含了丰富的语言内涵，是人类进行信息交流所特有的形式。
❖ 非语音信号：主要包括音乐和自然界存在的其他声音形式。非语音信号的特点是不含复杂的语义和语法信息，其信息量低，识别简单。
二、音频信号的形式
声音可用一条连续的曲线来表示。这条连续的曲线无论多么复杂，都可分解成一系列正炫波的线性叠加，称为声波。因声波是在时间上和幅度上都连续变化的量，因此称之为模拟量。模拟信号有两个重要参数：频率和幅度。
1996.3 1992.9 1996.3
音频编码标准和算法
编码类型
波形编码
参数编码
混合
算法
PCM
μ(A)
APCM DPCM
ADPCM
SBADPCM
LPC
CELPC VSELP RPECELP
名称均匀量化
μ(A) 自适应量化差值量化自适应差值量化
子带一自适应差值量化
线性预测编码码激励LPC
①高压缩比，存储空间小。 ②适合网络播放。 ③音质不是很好。 ④专用播放器Realplayer、
超级解霸2001以上的版本等
➢ AIFF格式文件
AIF是音频交换文件格式（Audio Interchange File Format）的英文缩写，是苹果计算机公司开发的一种声音文件格式。
七、声卡
虽然PC声卡是在20世纪90年代才得以普及，但它的问世却是在1984年。英国的ADLIB公司是目前公认的“声卡之父”，虽然他们最初开发的产品只能提供简单的声音效果，并且无法处理音频信号，但在当时无疑已经是一个很大的突破。由于技术不够成熟，成本又非常昂贵，因此这类带有试验品性质的早期ADLIB 音乐卡，因在当时计算机的运算速度还不足以应付大规模的多媒体处理，所以未能普及。

多媒体技术之音频信息的获取与处理PPT课件( 75张)

则可由 x(nT) 完全确定 x(t)。当 fN = 1/(2T) 时，称 fN 为奈奎斯特频率
常用音频采样率：8kHz、11.025kHz、16kHz、22.05kHz、44.1kHz 及 48kHz
2.2.2 数字音频获取
● 量化
量化概念
通过采样得到的表示声音强弱的函数 x(nT) 是连续的，为把 x(nT) 存入计算机，就必须将采样值离散化，即量化成一个有限个幅度值的集合 x(nT)
多媒体技术及其应用
第二章音频信息的获取与处理
● 主要知识点
2.1声音概述 2.2数字化音频 2.3音乐合成与 MIDI 2.4音频卡 2.5数字音频压缩标准
2.1.1 声音定义 ● 声音概念 ● 声音特性
2.1.2 声音基本特点 ● 声音传播 ● 声音频率 ● 声音传播方向 ● 声音三要素 ● 声音连续、相关及
实时性声音具有实时性。对处理声音的计算机硬件和软件提出很高要求
2.2 数字化音频
转换
模拟信号
数字信号
音频数字化需要考虑的问题
采样、量化、编码
模拟信号的数字化过程
100101100011101
音频信号处理过程流程
音
频采
开信样
始
号频
频率
率
采样
量化
保存为声音文件
周期
用声音录制软件记录的英文单词“Hello”的语音实际波形
2.1.2 声音特点
● 声音的传播方式
声音是依靠介质 ( 比如：空气、液体、固体 ) 的振动进行传播的声源是一个振荡源，它使周围介质产生振动，并以波的形式传播人耳感觉到这种传播过来的振动，反映到大脑，就意味听到声音声音在不同的介质中传播，其传播速度和衰减速率都是不一样的

多媒体信息处理

人工智能在多媒体信息处理中的应用
图像识别
人工智能可以应用于图像识别，对图像进行分类、目标检测、分割等处理，提高图像信息的应用价值。
语音识别
人工智能的语音识别技术可以将语音转换成文本，实现语音搜索、智能问答、自动翻译等功能，提高多媒体信息处理的效率。
自然语言处理
自然语言处理技术可以处理人类语言，实现文本分类、情感分析、机器翻译等功能，为多媒体信息处理提供更多的应用场景。
三维建模
虚拟现实技术可以通过三维建模来模拟真实世界，这在进行城市规划、建筑设计和产品展示等方面有很大的应用价值。
实时交互
虚拟现实技术可以实现用户与多媒体信息的实时交互，例如，通过虚拟现实技术来展示一个产品的功能和使用方法。
人工智能与多媒体信息处理的未来发展
智能识别和分类
情感分析
自动化生产
人工智能技术可以对多媒体数据进行智能识别和分类，例如，通过图像识别技术来识别图片中的物体。
交互标准
建立多媒体数据交互的标准，以便实现不同设备之间的协同工作。
硬件性能问题
计算能力
提高多媒体处理设备的计算能力，以满足复杂算法和大数据处理的需求。
存储容量
优化多媒体数据的存储方案，以降低存储设备和网络的负担。
网络带宽
扩大网络带宽，以加快多媒体数据的传输速度和提高实时性。
05
新技术在多媒体信息处理中的应用
的娱乐体验。
多媒体工业
工业设计
利用多媒体技术进行产品设计和模拟，提高设计效率和准确性。
生产流程监控
通过多媒体技术实现对生产流程的实时监控和可视化，提高生产效率和产品质量。
虚拟现实技术
基于多媒体技术构建虚拟现实环境，提供更加真实、沉浸式的体验，促进工业产品的用户体验和销售效果。

多媒体技术概述

39
多媒体技术
这些是多媒体技术吗？
玩
看
游
电
戏
影
视频聊天
单
兵系统
40
多媒体技术
1.2 多媒体计算机技术的发展历史
1984年Apple公司在苹果机Macintosh（也称 Mac）上引入了位图(Bitmap)概念进行图形处理，并使用了窗口(Windows)和图标(Icon)作为用户界面，标志了多媒体及多媒体技术的产生和应用。(之后有MS Windows1.0 85)
RAM
MPC1
2MB
运算处理器
16MHz3Leabharlann 6SXCDCD--ROM150kB/s 最大寻址时间1s
声卡
8bit数字声音 8个合成音
MIDI
显示硬盘容量彩色视频播放输入输出端口
640×480 16色
30MB
-
MIDII/O,摇杆端口，串并联端口
MPC2
4MB
25MHz486SX
MPC3
8MB
19
多媒体技术
课程讲授的多媒体应用软件
20
多媒体技术
Photoshop-实例
21
多媒体技术
Photoshop-实例
22
多媒体技术
数字音频实验
1. 配乐诗朗诵 2. 手机铃声制作 3. 歌曲编辑（录制清唱） 4. 电影、电视配音
23
多媒体技术
多媒体程序设计
实验目的：进一步加强可视化和多媒体程序设计方面的能力实验内容：（以下内容任选其一）
学习多媒体程序设计的基本方法。
三年级是我们掌握专业知识的重要一年，从中渐渐体会我们所学专业的方向和未来工作的方向。

chap2-多媒体音频处理技术资料

MIDI的通道概念
单个物理MIDI通道分为16个逻辑通道，每个逻辑通道可指定一种乐器。MIDI键盘可设置在这16个通道中的任何一个，MIDI合成器可以被设置在指定的通道上接受。
电子乐器数字接口（MIDI）
MIDI实质上是由MIDI控制器产生的指示电子音乐合成器要做什么、怎么做的一套标准指令。 MIDI传送的不是声音，而是动作指令。
(2). MIDI端口
一台MID设备可以有一至三个MIDI端口，分别称为MIDI In、MIDI Out、MIDI Thru。它们的作用是： MIDI In：接收来自其它MIDI设备的MIDI信息。 MIDI Out：发送本设备生成的MIDI信息到其它设备。 MIDI Thru：将从MIDI In端口传来的信息转发到相连的另一台MIDI设备上。
cmf(Creative Music Format)
mct mff(MIDI File Format) mid(MIDI)
声霸（SB）卡带的MIDI文件存储格式
MIDI文件存储格式 MIDI文件存储格式1/2 Windows的MIDI文件存储格式
mp2
mp3 mod(Module) rm(RealMedia) ra(RealAudio)
原采样频率点低采样频率点原量化精度点高量化精度点
当量化精度变高时：声音信号更接近原始信号
T1T2 T T 4 7 T8 T5T9 T10 T6 T11 T1 32 T4 T3 5 T6 T T
T
量化采样
影响数字音频质量的技术参数
对模拟音频信号进行采样量化编码后，得到数字音频。数字音频的质量取决于采样频率、量化位数和声道数三个因素。 1）采用频率 ——指一秒钟时间内采样的次数。 • 奈奎斯特理论（Nyquist theory）：采样频率不应低于声音信号的最高频率的两倍，这样就能把以数字表达的声音还原成原来的声音，叫做无损数字化。 • 采样频率通常采用三种： 11.025KHz(语音效果)、 22.05KHz(音乐效果)、 44.1KHz(高保真效果)。

中职教育-《多媒体技术及应用教程》第三版课件：第3章多媒体关键技术(电子工业出版社).ppt

• ቤተ መጻሕፍቲ ባይዱVD概述
DVD盘光道之间的间距由原来的1.6m m缩小到0.74m m，而记录信息的最小凹凸坑长度由原来的0.83m m缩小到 0.4m m
3.1.5 DVD简介
• DVD概述
加大盘的数据记录区域也是提高记录容量的有效途径。 DVD盘的记录区域从CD盘的86 cm2提高到86.6 cm
提高DVD存储容量的另一个重要措施是使用盘片的两个面来记录数据，以及在一个面上制作好几个记录层。当然，这无疑会大大增加DVD盘的容量。
3.2.4 动态图像MPEG压缩编码技术
• 运动补偿预测 • 运动补偿插值
3.3 多媒体网络技术
3.3.1系统组成及特点 3.3.2音频和视频信息处理的网络需求 3.3.3多媒体通信网 3.3.4Internet 与TCP/IP
3.3.1 系统组成及特点
• 多媒体通信的体系结构 (5个方面) • 多媒体通信具有以下3个特点。
3.3.3 多媒体通信网
• 基于局域网的多媒体通信网
➢ 双绞线 ➢ 同轴电缆 ➢ 光缆 ➢ 无线通信 ➢ 卫星通信 ➢ 传输介质的选择
3.3.3 多媒体通信网
• 基于宽带网的多媒体通信网
➢ ISDN ➢ ADSL ➢ Cable Modem ➢ STB机顶盒
3.3.4 Internet 与TCP/IP
3.2.2 数据压缩压缩算法
• 无损压缩编码
➢霍夫曼编码 ➢算术编码 ➢行程编码 ➢Lempel zev编码
3.2.2 数据压缩压缩算法
• 霍夫曼编码的实际编码过程按照如下步骤进行： • ①将信源符号概率按递减顺序排列。 • ②将两个最小出现概率进行合并相加，得到的结果作
为新符号的出现概率。 • ③重复这二个步骤，直到概率达到1.0为止。 • ④在每对组合中的上部指定为1（或0），下部指定为0

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2.1.1 音频信号特征 1、声音信号的时域特征该特征说明人们听到的声音从产生到结束的
过程。这个过程大致可分为三个阶段：起始、稳
定和结束。
2、声音信号的频域特征声音信号是有很多的正弦分量组成的。声音信号在频域是具有离散的线性谱和连续
谱的特征
有明确音高的有调声音
无明确音高的无调声音
声波频率
信道
基本思想：在编码端，由前一个输入信号
的编码值经解码器可得到下一个信号的预测值。输入的模拟音频信号与预测值在比较器上相减，从而得到差值。若为正，则编码输出为1；若为负，则编码输出为0。
u(模拟输入 )
0 11111110000110001001 0
增量调制编码过程示意图
输出码
当输入模拟信号的变化速度超过了经解码器输出的预测信号的最大变化速度时，会发生斜率过载。
采用混合编码的编码器有多脉冲激励线性预测编码器（MPE-LPC）、规则脉冲激励线性预测编码器（RPE-LPC）、码激励线性预测编码器(celp)等。
3.3.2 常用的压缩编码方法
1 一般增量调制（DM）
脉冲发生器
输入信号
比较器＋
－ y(t)
极性判别译码器
调制器
增量调制的系统结构框图
3.2 音频信号数字化
音频信号的数字化过程就是将模拟音频信号转换成有限个数字表示的离散序列，即数字音频序列。
模拟音频信号
音频信号数字化
采样
量化
编码
音频信息处理框图
按不同应用目标进行数字压缩
1、采样
在时间上将连续信号离散化的过程，采样一般都是按照均匀的时间间隔进行。
20Hz~20kHz 声压：对声音强弱的感觉
1kHz~听阈2＊10-5Pa 声压级：表示声音强弱的对数级（分贝）
听阈0dB 痛阈 120dB
3.1.2 人耳听觉特性
1、响度：人耳对声音强弱的感觉。 2、掩蔽效应：一个声音的存在会影响人们对其
他声音的听觉能力，使一个声音在听觉上掩蔽了另一个声音。
3、差值脉冲编码调制
基本思想：对输入的音频信号进行均匀量化，不管输入的信号是大是小，据采用同样的量化间隔。
例如：如输入的音频信号是语音信号，使用 8kHz采样频率进行均匀采样，而后将每个样本编码为8位二进制数字信号，则得到数据率为 64kb/s的PCM信号。
基本思想：对相邻的差值进行量化编码。
当输入信号没有变化时，预测信号和输入信号的差会十分接近，这时，编码器的输出是1 和0交替出现的，这种现象叫散粒噪声。
2、自适应增量调制（ADM）
输出编码1位所表示的模拟电压叫做量化阶距。基本思想：当发现信号变化快时，增加阶距；当发现信号变化缓慢时，减少阶距。
2 M 1/ 2
y(k) y(k 1) y(k) y(k 1)
数字激光唱盘 CD FM无线电广播 AM无线电广播
电话
10 k 频率 / Hz
常见音频应用带宽示意图
2、量化量化是将每个采样值在幅度上进行离散化处理。
3、编码
编码过程是指用二进制数来表示每个采样的量化值。
2、参数编码通过语音信号的数学模型,对语音信号特征
参数进行提取及编码，力图使重建的语音信号尽可能保持原信号的语意。
语音编码速率较低，压缩的比特率较低。
合成语音质量较差，很难辨别说话人是谁。
常用的有线性预测编码。
多用在移动通信、多媒体通信和IP网络电话中。
3、混合编码
同时使用两种或两种以上编码方法进行编码的过程。
在信道的接收端（或在回放时）得到各子带编码的混合信号，将各子带的编码取出来，对它们分别进行解码，产生各子带的音频分量，再将各子带的音频分量组合在一起，恢复原始的音频信号。
… … … …
带通滤波1 编码器
综
分
信号输入
带通滤波2 编码器
音频信号经数字化以后以文件形式存放于计算机中，当需要声音时计算机将其反格式化并输出。
3.3 音频信号压缩编码
3.3.1 音频信号编码分类 1、波形编码：基于对语音信号波形的数字化处理，
试图使处理后重建的语音信号波形与原信号波形保持一致。
优点：实现简单、语音质量较好、适应性强。缺点：压缩程度不高，需要较高的编码速率。常用的波形编码技术：增量调制编码（DM）差值脉冲编码调制（DPCM）自适应差分脉冲编码调制（ADPCM）子带编码（SBC）矢量量化编码（VQ）
第三章音频信息处理技术
3.1 声学基础知识 3.2 音频信号数字化 3.3 音频信号压缩编码 3.4 语音压缩编码标准 3.5 IP电话技术
自然界的声音信号究其本质是一种机械振动，是一种在空气中随时间而变化的压力信号。
音频信息涉及人耳所能听到的声音信息，包括语声和乐声。
2.1 声学基础知识
(k)

(k (k
1) 1)

P Q
y(k) y(k 1) y(k 2)
自适应增量调制称为连续可变斜率增量（CVSD）调制。
工作原理如下：如果调制器（CVSD）连续输出三个相同的码，则量化阶距加上一个大的增量，也就是说，因为三个连续相同的码表示有过载发生。反之，则量化阶距增加一个小的增量。
一种是控制可变因子 M，使量化阶距在一定范围内变化。对于每一个新的采样，其量化
阶距为其前面数值的M倍。而M的值则由输入信号的变化率来决定。如果出现连续相同的编码，
则说明有发生过载的危险，这时就要加大M。当0， 1信号交替出现时，说明信号变化很慢，会产生散粒噪声，这时就要减少M 值。其典型的规则为
这个差值是指信号值和预测值的差值。
信号
采样＋ y 0－ ˆy0
量化器预测器
输出＋＋
＋输入
＋
滤波信号预测器
(a)
(b)
(a) 编码器； (b) 解码器
4、子带编码
用一组带通滤波器，将输入的音频信号分成若干个连续的频段，并将这些频段称为子带。分别对这些子带中的音频分量进行采样和编码。将各子带的编码信号组织到一起进行存储或送到信道上传送。