第4章 多媒体音频信号处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第4章 多媒体音频信号处理 2. 周期信号与非周期信号 按一定时间间隔周而复始重复的信号就是周期信
号,而在时间上不具有周而复始的重复特性的信号就
是非周期信号。 3. 连续信号与离散信号 信号随时间的取值是连续的,这样的信号就是连 续信号。如果信号在时间上的取值是离散的,则这种 信号就称为离散信号。可见,离散信号在时间上是离 散的,但信号在幅度上可以是连续的,也可以是离散 的。
ISO G.711 1992
128
CCITT G.712 1984
32 ADPCM 4.1 长途电话网络
G.728 1992
16 LD–CELP 4.0
1972
64 PCM 4.3
第4章 多媒体音频信号处理
GSM
GSM 1983 13 RPE–LT 3.7 移动通信
CTIA
GIA 1989 8 VSELP 3.8 1989 4.8 CELP 3.2
1 fs T
第4章 多媒体音频信号处理 可以写出时域采样序列的表达式,即
x * ( t ) x ( t ) p( t ) x ( t )
n
(t nT)
x*(t)就是x(t)在t=nT处的离散序列。 由卷积定理,时域的乘积对应频域的卷积,即
1 X(f ) (f ) X(f ) (f mf s ) T m
间断的波动,这种波动引起人的耳膜的振动,变为人
的听觉。因此,声音是一种连续或间断的波动。
第4章 多媒体音频信号处理 2) 声音的三要素 音调、音强和音色称为声音的三要素。其中,音调与
声波的频率相关,频率高则音调高,频率低则音调低。音
调高时声音尖锐,俗称高音;音调低时声音沉闷,俗称低 音。人的耳朵对于声音的感知频率范围为20 Hz~20 kHz
第4章 多媒体音频信号处理
音箱
功放
压放
滤波
D/A
接 口
微 型 机
图4-6 音频信号的回放框图
第4章 多媒体音频信号处理 4. 有关音频信号的标准及规范 在第1章中,已经特别说明标准及规范在多媒体世界中
的重要性。这里,首先阐明数字电话音频信号的数据压缩
标准。在表4-1中列出了国际电报电话咨询委员会(CCITT), 欧洲移动通信专家组(GSM),美国移动通信标准(CTIA)及
起来饱满、生动。 4) 声音的方向性 声音的传播是以弹性波形式进行的,传播具有方向 性,人通过到达左右两耳声波的时间差及声音强度差异来 辨别声音的方向。声音的方向性是产生立体声效果和空间 效果的基础。
第4章 多媒体音频信号处理 3. 音频的种类
在自然界中,声音包含声响、语音和音乐等三种形式。在 多媒体系统中,声音不论是何种形式都是一种装载信息的媒体, 统称为音频。由产生音频的方式不同音频被分为波形音频, MIDI音频和CD音频三类。 1) 波形音频 以声波表示的声响、语音、音乐等各种形式的声音经过声 音获取设备(例如麦克风)和声音播放设备(例如录音机、CD唱 机等)输入,并通过声卡控制采样,由A/D转换将模拟信号转 变成数字信号,然后以*.WAV文件格式存储在硬盘上,这种 声音媒体称为波形音频。波形音频重放时,必须经过D/A转换 将数字信号转换成模拟信号,由声卡上的混音器混合后生成声 波,再由音箱输出声音。
杂,需要使用MIDI创作并改编作品的专业知识以及专门化
工具,例如键盘合成器等。 3) CD音频 CD音频是指以44.1 kHz频率、16位精度采样而获得的 一种立体声数字化声音。
第4章 多媒体音频信号处理 4.2.2 音频信号的获取与处理 1. 音频信号的获取
音频信号的获取框图如图4-5所示。
微 型 机
第4章 多媒体音频信号处理
1010 1001 1000 0111 0110 0101 0100 0011 0010 0001 0000
Hale Waihona Puke Baidu幅度
0 1 2 3 4 5 6 7 8 9 10 1112 13 14 15 16 17 时间
图4-1 模拟信号、离散信号及数字信号
第4章 多媒体音频信号处理 图4-1中,用连续变化的曲线表示模拟信号;用圆 点表示以相等时间间隔取值而得到的离散信号;图4-1 的纵坐标上标的是幅度的二进制编码值。 4.1.2 采样定理及信号重构 1. 采样定理
第4章 多媒体音频信号处理 4. 模拟信号与数字信号 如果信号在时间上和幅度上都是连续的,那么这样的 信号就是模拟信号。模拟信号以一定时间间隔取值,则可 获得离散信号,又称之为采样信号。若将离散信号进行二 进制编码,以二进制编码来表示离散值的幅度,那么这种 二进制编码信号叫做数字信号。 在本书后面的讨论中可以看到,话筒或摄像机产生的 信号为模拟信号。模拟信号经过采样可获得离散信号,离 散信号经A/D转换变成二进制的数字信号,数字信号就可 以由计算机直接进行处理了。 模拟信号、离散信号与二进制编码的数字信号之间的 关系表示在图4-1上。
… -fm O fm f -fs O
…
fs 1 / T f
-fs
O
fs
f
图4-3 时域采样与频域卷积
第4章 多媒体音频信号处理 可见,若fs =1/T不是足够大,采样以后对应的频谱 就会产生混迭,用矩形(带通)滤波器滤波所得的主频谱
就会失真,恢复到时域以后,时域连续信号也将失真。
因此,采样频率fs必须满足采样定理的要求,即fs≥2fm 。
数字激光唱盘(CD) FM无线电调频广播 AM无线调幅广播 电 话 0.010.02 0.05 0.2 3.4 7 15 20 f / kHz
图4-4 音频信号的带宽
第4章 多媒体音频信号处理
4.2 音频信号的获取与处理
4.2.1 音频信号 1. 常见音频信号 常见的音频信号主要有电话音频信号、调频、调幅 无线电广播音频信号和高保真数字的立体声音频信号。 由于用途不同,这些音频信号频带宽度也各不相同,而
设输入信号是带宽有限的信号,最高信号频率为 fm,则从采样得到信号序列(离散信号)重构(复现)连续 信号的条件是采样频率fs≥2fm,否则,将产生混迭效应, 而使信号失真。频率2fm称为奈奎斯特(Nyquist)频率fq, fq =2fm。
时域信号与它的傅立叶变换频谱密度如图4-2所示。
第4章 多媒体音频信号处理
话筒
放大
滤波
采样
保持
A/D
接口
采样 脉冲
图4-5 音频信号获取框图
第4章 多媒体音频信号处理 2. 音频信号的处理 在第3章里已经提到,不管多媒体信息是音频信号还是视 频信号,其数据量都是十分巨大的。如果像图4-5所示的那样, 经A/D转换的数字化音频信号直接进入计算机进行存储(记录) 或进行传送,是不可取的。 3. 音频信号的回放 经压缩的音频信号以一定的格式记录在有关的媒体上, 例如,磁带、磁盘及光盘等,或者以一定的格式传送到接收 端。 在音频信号接收端或由媒体回放音频信号时,首先由专 用的硬件或软件对压缩数据进行解压缩,恢复音频数字信号, 然后,经由图4-6所示的电路框图对音频信号进行放音。
第4章 多媒体音频信号处理 波形音频的*.WAV文件中记录的是数字信号,可以 使用计算机对*.WAV文件进行各种处理,并像其他数据 文件一样被存取、复制和传输。 2) MIDI音频 将电子乐器演奏时的指令信息(例如音高、音长和力 度等)通过声卡上的MIDI控制器输入计算机,或者利用一 种称为音序器的计算机音乐处理软件编辑产生音乐指令 集合,以*.MID文件格式存储在硬盘上,这种声音媒体称 为 MIDI 音 频 。 MIDI 音 频 重 放 时 , 必 须 经 过 合 成 器 将 MIDI指令译成相应的声音信号,再由声卡上的混音器混 合后生成声波,最后由音箱播出音乐。
NSA
1982 2.4 LPC 2.5 保密电话
第4章 多媒体音频信号处理 5. 常用语音文件格式 在多媒体计算机的语音处理或在后面将要说明的
声卡中所用到的操作系统或工具软件为我们提供了语
音文件。这些语音文件都有各自的标准,以便于用户 使用和相互转换。在这里将简要介绍目前最常见的语 音文件格式。 1) VOC语音文件格式 VOC语音文件由文件头和数据块两大部分组成。 其中VOC语音文件的文件头如表4-2所示。
第4章 多媒体音频信号处理
第4章 多媒体音频信号处理
4.1 音频信号概述 4.2 音频信号的获取与处理
4.3 话音信号的参数编码
4.4 乐器数字接口MIDI 4.5 声卡概述
第4章 多媒体音频信号处理
4.1 音频信号概述
4.1.1 信号的描述及分类 1. 确定信号及随机信号 能够用一确定的时间函数来表示的信号就是确定 信号。这种信号对应某一时刻都有一个确定的信号值。 有一些信号具有不可预知的不确定性,这种信号 就是随机信号。 我们将要研究的音频信号、视频信号以至计算机 中的数字信号均为确定信号。
第4章 多媒体音频信号处理 表4-2 VOC语音文件的文件头
偏移地址 00~13H 14~15H 16~17H 18~19H 1AH 1B~1DH 1EH 文件类型 从VOC文件开始到数据块的偏移量 VOC文件版本号 VOC文件标志 VOC文件的数据块标志 数据块长度 数据采样率 内 容
第4章 多媒体音频信号处理 由表4-2看到,VOC文件的文件头主要是对VOC文件 的类型、版号及标志做出说明,同时,指出了数据块的起
x(t)
X (f)
-/2
O
/2
t
O
f
取fm=1/ 为信号上限频率
图4-2 时域信号及其频谱密度
第4章 多媒体音频信号处理 2. 信号重构 设时域信号为x(t),对应的频谱密度为X(f),若时域采样
脉冲序列为
p(t )
n
(t nT)
是等间隔(T)的单位脉冲序列,由信号理论可知对应的 1 频谱为 (f ) (f mf s ) T m 是一个等间隔(fs)频域冲激序列。其中T是时域采样序列 的周期,即采样频率
之间。低于20 Hz的声波为次声波,高于20 kHz的声波称
为超声波。音强取决于声波的幅度,振幅高时音强强,振 幅低时音强弱。音色则由叠加在声音基波上的谐波所决定, 一个声波上的谐波越丰富,音色越好。
第4章 多媒体音频信号处理 3) 声音的连续谱 声音信号一般为非周期信号,包含有一定频带的所有
频率分量,其频谱是连续谱。声波的连续谱成分使声音听
美国国家安全局各自制定的有关电话通信的编码标准。表
中还给出了各种标准的大致使用领域以及它们的质量,其 中,质量是以最高为5.0分来表示的。
第4章 多媒体音频信号处理 除了上面所提到的数字电话编码标准外,调幅广 播的音频信号范围为50 Hz~7 kHz,又称“7 kHz音频
信号”,其最高频率为7 kHz,当使用16 kHz对其采样
因为是一个冲激序列,卷积的结果相当于X(f)搬移 至序列出现的地方,从而成为周期函数。x(t)在时域的 采样与X(f)在频域卷积(搬移)的关系如图4-3所示。
第4章 多媒体音频信号处理
x(t) p(t) x(t)· p(t)
… O t O T
… t O t
X (f)
(f)
X(f ) (f ) *
并进行14位二进制编码时,其数据的传送速率为224 KB/s。为了对最高频率进行压缩,CCITT于1988年为 其制定了G.722标准,标准规定这种信号的数据传送率 为64 KB/s。
第4章 多媒体音频信号处理 表4-1 数字电话的编码标准
组织 标准 制定时间
传送速率(Kb/s) 编码算法 质量 使用场合 5.0 CD
且,在音响设备中,通常以音频信号的带宽来衡量声音
的质量。图4-4中表示了这4种常见音频信号的带宽。
第4章 多媒体音频信号处理 图4-4表示了人们公认的音频信号的质量标准。其 中,等级最高的是激光唱盘的音频信号;其次是调频
无线电广播,调幅无线电广播;最低的是电话话音的
频带,从0.2 kHz到3.4 kHz,带宽只有3.2 kHz。 2. 声音的特性 1) 声音的波动性 任何物体的振动通过空气的传播都会形成连续或
第4章 多媒体音频信号处理 MIDI音频的*.MID文件中可以包含多达16种不同乐器 的声音定义。MIDI文件记录的不是乐曲本身,而是一些描
述乐曲演奏过程中的指令,因此,MIDI音频是乐谱的数字
化描述。MIDI文件的存储量比较小,因此,它可以满足较 长时间音乐播放的要求,但是MIDI文件的录制工作较为复