多媒体通信技术 第三章

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


MIDI音乐:

标准的多媒体计算机能够通过内部(声卡中) 合 成器或连接到计算机MIDI端口的外部合成器 播放MIDI文件,利用MIDI文件演奏音乐,所 需的存储量最少。
Multimedia Communications
Multimedia Communications
MIDI文件与波形文件



3.3 音频信号压缩编码

音频信息编码技术可分为三类: 波形编译码器(waveform coder):
波形编码是基于对语音信号波形的数字
化处理,试图使处理后重建的语音信号波
形与原语音信号波形保持一致。

例如PCM、DPCM、ADPLeabharlann BaiduM等。
Multimedia Communications
声音的三个属性: (1) 幅值(Amplitude) (2) 相位(Phase) (3) 时序(Timing)

Multimedia Communications
3.2 数字音频技术
一、数字音频

在计算机中声音信号是用一系列的数字表示的,称 为数字音频。

波形声音:基于振动波(信号化)描述的声音,可 形成数字波形文件。
形幅度的采样精度。 量化字长:用采样周期分割样本波形的振

幅空间的等分数,表示为采样值的二进制
位数;因而称采样精度或样本字长.

量化字长(位数)与采样值的精度成正比 .关系: 4bit16级,8bit256级, 16bit65536级.
Multimedia Communications
通道数

举例
计算采样频率22.05kHz,量化位数为8位的
双声道立体声信号,求每分钟的存储量. 采样频率f(单位:Hz)
量化 字长n(单位:bit) 声道数为s(单位:个) 则:存储量v=(f.n.s)/8=2.64MB
Multimedia Communications
质量 电话
采样频率 (kHz) 8
样本精度 8
单道声/ 立体声 单道声
数据率 (kb/s) 64
频率范围 (kHz)
200~ 3400
AM FM CD DAT
11.025 22.050 44.1 48
8 16 16 16
单道声 立体声 立体声 立体声
88 705.6 1411.2 1536
50~ 7000 20~ 15000 20~ 20000 20~ 20000

( 1)采样频率 ( 2)采样精度 ( 3)通道数
Multimedia Communications
1.音频信号的数字化过程

① 放大:使信号幅度达到可采集与变换要求,并滤除高频干 扰和噪声。 ② 采样(sampling) :模拟信号离散化以固定的采样周期 T对波形Xa(t)的幅值进行抽样,得到一个离散的序列X(n ). 采样值:X(n)= Xa(nT); N = 1,2,3,……(离散点的 个数),T = 1/f,f为采样频率

声压就是声音的压力。以帕斯卡(Pa)为单 位来度量响度;

对声压有效值取对数,用此对数值来表示声音
的强弱。这种表示声音强弱的对数值就叫做声 压级SPL。
Multimedia Communications
1、声音的性质

(1)声音是时基类媒体。
(2)声音有三个要素,音调、音强和音 色 (3)声音具有连续谱特性。
语音:人的声道发出的声音 — 语义化描述的语言 形式,也表现为波形声音。 音乐:通过乐谱规范表达的乐曲 —符号化描述的 声音;可形成数字音乐文件。


Multimedia Communications
二、数字音频技术


声音进入计算机的第一步就是数字化。
数字化实际上就是采样和量化。
影响数字声音波形质量的主要因素有三个
声音类型 带 宽
电话语音
调幅广播 调频广播
200Hz-3.4kHz
50Hz-7kHz 20Hz-15kHz
CD
20Hz-20kHz
Multimedia Communications

可以使用信噪比(SNR)、主观平均判分 法(MOS)。 在采用等级法MOS(Mean Opinion Score)进行评价时,通常设优,良,中, 差,劣五个等级。是一种主观评价指标。 听众根据系统质量的好坏使用N分制给系 统打分。
Multimedia Communications
2.音频的数字化与再现

音频处理应考虑以下三点: (1)人与计算机通信。包括音频获取、语 音的识别和理解。

(2)计算机与人通信。包括音乐合成、语 音合成、声音的定位以及音频视频的同步。 (3)人-计算机-人通信。有语音采集、音 频的编码和解码、音频的存储、音频的传输 等。
Multimedia Communications

音源编译码器(Source coder):也叫
参数编译码器、声码器(vocoder)。 通过建立声音的产生模型(如语音发声模 型),将声音信号以模型参数表示,再对参数 进行编码.


Multimedia Communications
采样频率

单位时间间隔(采样周期)内所采集的样 本数fc越高,数字化后的信号质量就越高
;但存储量也越大。 标准的采样频率有11.025kHz,

22.05kHz,44.1kHz。
Multimedia Communications

采样定理:若fc≧2fsmax (fsmax为最 大信号频率),则可保证量化后的信号具
Multimedia Communications
多媒体技术与通信
第三章 音频信息处理技术
目录


3.1 声学基础知识
3.2 数字音频技术 3.3 音频信号压缩编码
3.4 音频信息压缩编码标准 3.5 IP电话技术
Multimedia Communications
3.1 声学基础知识

(4)声音有方向感。 (5)音色与失真特性。
Multimedia Communications
声音的质量特性



SQuality = (Tone, Volume, Quality) ① 音调(Tone):声音频度与音域宽窄程 度,与频率f有关. ② 音量(Volume):声音响度亦或音强 ,与振幅A成正比. ③ 音质(Tone Quality):声音在听觉 上的优美程度,亦称音色;是振幅与频率 的优化组合(基音 + 谐音)。

声音是通过空气传播的一种连续的波。
是由许多频率不同的分量信号组成的复合 信号。 复合信号的频率范围称为带宽。 带宽为20Hz-20kHz的信号称为音频( audio)信号。

Multimedia Communications

声压及声压级SPL(Sound Pressure Level )也是常用的声音描述参量。

MP3的全称是MPEG-1 Layer3音频文件。
MPEG音频编码是国际上公认的高保真立体 声音频压缩标准。 MPEG-1声音标准其音频编码分为3层: Laer-1、Layer-2和Layer-3。 Layer 3的压缩比为1:10~1:12,压缩码率 可以达到64kb/s。
Multimedia Communications
定义了计算机音乐程序、合成器及电子乐器交换 信息和电子信号的方式,解决了不同电子乐器 之间的不兼容问题.
Multimedia Communications




定义计算机与MIDI设备之间进行信息交换的一整 套规则,包括电子乐器之间传送数据的通信协议 MIDI实质上是由MIDI控制器(或MIDI文件)产 生的指示电子音乐合成器要做什么、怎么做(如演 奏某个音符、加大音量、生成音响效果)的一套标 准指令。
Multimedia Communications
数 字 激 光 唱 盘 (CD) FM无 线 电 调 频 广 播 AM无 线 调 幅 广 播 电 话 0.010.02 0.05 0.2
音频信号的带宽
3.4
7
15 20
f / kHz
Multimedia Communications
2、人耳听觉特性

Multimedia Communications
常见的5分制系统 :
平均观点分 5 4 3
2
质量等级 极好 好 一般

主观感觉 觉察不到 觉察得到,但不难听 有点难听
难听,但不反感
1
极差
难以忍受
Multimedia Communications
5


单声道(Monophonic)意味着单个声源。
MIDI文件占用空间小,如30分钟的立体声高品 质音乐,用波形文件无压缩录制,约需300MB
的存储空间;而同样的MIDI数据,则只需 200KB,相差1500倍。

MIDI只存储指令,编辑相对直接、方便,而波 形文件的编辑相对复杂。
Multimedia Communications
(2)MP3数码音乐
Multimedia Communications

3、数字音乐国际标准MIDI和MP3

(1)电子乐器数字接口:MIDI( musical instrument digital interface, MIDI) 1988年,MIDI正式成为数字式音乐的一 个国际标准。 音乐设备数字接口MIDI的作用:


一次采样所记录的声音波形个数。 单声道 — 产生一个声音波形; 双声道 — 产生两个声音波形(立体声) 声道数增加,将使存储容量及开销成倍增加 计算公式:

存储量 =(采样频率×量化字长×声道数)/8 (Byte/s)

一般有8位和16位两种双声道(立体声)。
Multimedia Communications
Multimedia Communications
编码:数字信号格式化
把每个量化值表示成二进制存储位形式的字长 8位字长 ≡ 8bit (1个Byte) 若要进行数据压缩编码,需采用相关算法及数
据格式表示
Multimedia Communications
采样精度

每个声音样本的数字化位数反映了声音波
有还原为模拟信号的能力. 例:人耳听觉的上限频率为20KHz;则

fc≧40KHz.
Multimedia Communications
模拟信号、离散信号及数字信号
Multimedia Communications
量化:离散信号数字化

把每个采样值(模拟量)转换成数字量,并用 n个 二进制数表示;n越大,量化精度越高 量化值:



1.PCM脉冲编码调制:直接对声音信号做 模/数转换,用一组二进制数字编码表示,得 到未压缩的音频数据. 2.DPCM差分脉冲编码调制:通过只传输声 音的预测值和样本值的差值来降低音频数 据的编码率的一种方法,采用预测编码技术 ,实现音频数据的压缩编码. 3.ADPCM自适应差分脉冲编码调制:在 DPCM编码中加入自适应的方法.

人耳对声音强弱的感觉特性 响度、响度级
人耳听觉的掩蔽效应

一个声音的存在会影响人们对其他声音的听觉 能力, 使一个声音在听觉上掩蔽了另一个声 音, 即所谓的“掩蔽效应”。

频域掩蔽,时域掩蔽
Multimedia Communications
3、声音质量评价

声音的质量与声音的带宽有关,一般来说 频率范围越宽,声音质量也就越高。
电压范围 0.5 ~ 0.7 0.3 ~ 0.5 0.1 ~ 0.3 -0.1 ~ 0.1 -0.3 ~ -0.1 -0.5 ~ -0.3 -0.7 ~ -0.5 -0.9 ~ -0.7
量化 (dec) 编码 (bin) 3 011 2 010 1 001 0 000 -1 111 -2 110 -3 101 -4 100
Multimedia Communications


声音的质量通常以音频信号的带宽来衡量 音频(Audio):声音的同义词 频率范围为: 20Hz~20KHz 人的声带一般为:50~500 Hz 电话音频:200Hz~3.4KHz 无线电广播调幅(AM)声:50Hz~7KHz 无线电广播调频(FM)声:20Hz~15KHz ④ 高保真(HiFi)立体声: 20Hz~20KHz

量化误差:
注意:

a. 实现量化的过程称A/D变换 b. 均匀量化后的信号称脉冲编码调制(PCM)信号 c. A/D变换一般是均匀量化;因而称PCM量化
Multimedia Communications

量化(quantization): 将连续的信号幅度离散化 。如果幅度的划分是等间 隔的,称为线性量化,否 则为非线性量化。 量化位数越大,所记录声 音的变化程度就越细腻。
相关文档
最新文档