第3章音频信息处理技术共102页

合集下载

第3章数字音频处理技术

多媒体技术
信息科学技术学院·曹晓兰 20
3.2.4 音频的编码与压缩技术
音频压缩编码时考虑的因素：音频质量
数据量
计算复杂度
多媒体技术
信息科学技术学院·曹晓兰
21
常见音频编码算法和标准
多媒体技术
信息科学技术学院·曹晓兰
22
1.波形编码
基于音频数据的统计特性进行的编码，其目标是使重建语音波形保持原波形的形状。特点：算法简单，易于实现，可获得高质量语音。
MIDI音频文件是一个脚本语言，它通过对“事件”编码，产生声音。一个MIDI事件包含一个音阶的音调、持续时间和音量等参数。
多媒体技术
信息科学技术学院·曹晓兰
31
1．MIDI乐音合成方法
频率调制（FM）合成法
FM声音合成器波形
原理：根据傅立叶级数理论，任何一种波形信号都可被分解成若干个频率不同的正弦波
需要以音乐为背景的音响效果，同时从CD －ROM中装载其他数据时；需要以音乐为背景的音响效果，同时播放波形音频或实现文-语转换，实现音乐和语音同时输出时。
多媒体技术
信息科学技术学院·曹晓兰
37
多媒体技术
信息科学技术学院·曹晓兰
38
3.4.1 常见音频软件简介
1.Cool Edit Pro
专业级多轨录音和音频处理软件。 Syntrillium Software Corporation公司开发。功能强大、效果出色。详见下节介绍。
多媒体技术
信息科学技术学院·曹晓兰
时域掩蔽
除了同时发出的声音之间有掩蔽现象之外，在时间上相邻的声音之间也有掩蔽现象。包括超前掩蔽和滞后掩蔽。
9
3.1.4 音频信号处理过程音频数字化过程

2.3-音频编码技术

Jitter Buffer

Page 36
3.2 自动噪声抑制-ANR

自动噪声抑制-ANR (Adaptive Noise Reduction):

噪声
解决通话中由于背景噪声太大无法听清
话音的问题，含有噪声的语音信号进行噪声抑制以提高主观语音质量。
已被抑制
Page 37
3.2 自动电平控制-ALC
Page 19
第2章常用语音编码比较和应用
2.1 常用语音编码算法 2.2 视频会议常用音频技术
Page 20
2.2 视频会议中音频技术
2006 1992 1988 1972 G.722
音质较好延迟较长
AAC-LD
高保真CD音质低延时编码
G.728
低延时编码音质较差
低复杂度编码
G.711

舒适噪音生成CNG (Comfort Noise Generation)：与VAD配合使用，设置播放舒适噪音。
怎么这么静？是不是挂断了？
舒适噪音：CNG
静音检测：VAD
用户 A
用户 B：停顿期间
Page 33
3.2 回声消除-EC (回声形成)

回声表示说话者的声音，经过网络设备后，环回到了自己。

输出码率：24/32/48Kbps
采样频率：32KHZ 优点：低运算，低带宽，高保真质量缺点：牺牲高频信息，Polycom授权，极少数产商使用应用领域：CD级高保真语音质量
Page 25
2.2 G.728

G.728是1992年由国际电信联盟（ITU-T）建议的一个压缩原则16 kbps 的压缩标准，并
Page 15

第3章音频信息处理技术

即将量化后的数字，按一定的数据格式进行（压缩）表示，这个过程称作编码。编码的作用。
第3章
音频信息处理技术
经过上述过程就可以得到一个用来表示声音强弱的数据序列（如下图所示)。这个数据序列就是声音信号的数字化文
件。重新播放这个数字化文件，就可以听到原来的声音信号。
图3-6 声音信号的数字化序列
第3章
产生波形，然后通过声音发生器送往扬声器播放出来。下面简单介绍Cakewalk的使用(安装Cakewalk，并演示)
第3章
音频信息处理技术
二、MIDI音乐合成
由上可知，计算机要想播放MIDI音乐文件，必须使用
合成器。合成MIDI乐音的方法很多，最主要的是FM合成法
和波表合成法。
1、FM合成法（调频合成法）
注：此“录音机”只能录制1分钟以内的声音，若要录制长度超过1 分钟的声音，就需要选择功能更强大的音频处理软件，如Cool Edit或随卡赠送的录音软件等。
第3章
音频信息处理技术
用Cool Edit软件录制声音的方法如下：
(1) 将麦克风插入声卡的MIC
(2) 启动“Cool Edit”软件（假定Cool Edit已安装好） (3) 在“Cool Edit”窗口中选择“文件/新建”选项 (4) 单击“ (5) 单击“ ”按钮，开始录音 ”按钮，停止录音
第3章
音频信息处理技术
用Windows中提供的“录音机”录制声音的步骤如下： (1) 将麦克风插入声卡的MIC
(2) 启动“录音机”软件
(3) 在“录音机”窗口中选择“文件/新建”选项 (4) 单击“ (5) 单击“ ”按钮，开始录音 ”按钮，停止录音
(6)选择“文件/另存为”选项，将刚录制的声音存储成一个数字声音文件。

第3章信息技术服务知识

第3章信息技术服务知识本章介绍一些信息技术服务相关的基本知识和概念，包括产品、服务、信息技术服务、运维、运营和经营、IT治理、IT服务管理、项目管理、质量管理、信息安全管理、信息技术服务财务管理等。

希望读者通过了解和掌握这些基本概念，为今后更深入地学习相关知识打下必要的基础。

3.1产品、服务和信息技术服务3.1.1 产品产品的广义概念是指可以满足人们需求的载体，狭义概念是指被生产出的物品。

产品是一组将输入转化为输出的相互关联或相互作用的活动的结果。

在经济领域中，通常也可理解为企业或组织制造的任何制品或制品的组合。

总体而言，我们通常将产品定义为：人们向市场提供的能满足消费者或用户某种需求的任何有形物品或无形服务。

通常有下述4种类别的产品：（1）服务：服务是为满足客户的需求，供方和需方之间在接触时的活动以及供方内部活动所产生的结果。

服务的提供一般涉及：为客户提供的有形产品过程中所完成的活动；为客户提供的无形产品过程中所完成的活动；无形产品的交付；为客户创造氛围等；（2）软件：软件是一系列按照特定顺序组织的计算机数据和指令的集合，一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件，是由支持媒体表达的信息所构成的，通常是无形产品，并以方法、记录或程序的形式存在，如计算机程序、字典、信息记录等；（3）硬件：硬件通常是有形产品，是不连续的具有特定形状的产品；（4）流程性材料：流程性材料通常是有形产品，是将原材料转化成某一特定状态的有形产品，其状态可能是流体、气体、粒状、带状。

其量具有连续的特性，往往用计量特性描述。

一种产品可由两个或多个不同类别的产品构成，产品类别（服务、软件、硬件或流程性材料）的区分取决于其主导成分，例如流程性材料（如燃料、冷却液）、软件（如发动机控制软件、驾驶员手册）和服务（如销售人员所做的操作说明）所组成。

70系统规划与管理师教程3.1.2 服务服务是一个社会学名词，但在经济学和管理学中被广泛应用。

第3章声音的数字化PPT课件

– 采样：在某些特定的时刻对模拟信号进行测量，即每隔一定的时间测量一次声音信号的幅值；把时间连续的模拟信号转换成时间离散、幅度连续的采样信号；
8
采样（sampling）
– 样本：每次采样都记录下原始模拟声波在某一时刻的状态，称之为样本；将一系列的样本连接起来，就可以描述一段声波了
– 均匀采样：采样的间隔时间相等
24
MIDI
➢ MIDI信息实际上是一段音乐的描述,是数字化的乐谱,包含音符、定时以及键号、通道号、持续时间、音量和击键力度等各个音符的有关信息。
25
MIDI与PCM原理比较
➢ PCM波形编码：把音乐的波形进行数字化采样和编码（记录音乐本身）
➢ 定义和产生乐曲的MIDI信息和数据组存放于MIDI文件中, MIDI文件本身只是一堆数字信号而已，不包含任何声音信息。
未经压缩的数字声音的数据率bs采样频率hz样本精度bit声道数随着电能应用的不断拓展以电能为介质的各种电气设备广泛进入企业社会和家庭生活中与此同时使用电气所带来的不安全事故也不断发生18质量采样频率khz样本精度声道数据率kbs频率范围hz电话单声道6402003400am11025单声道882507000fm2205016立体声70562015000cd44116立体声141122020000dat4816立体声153602020000随着电能应用的不断拓展以电能为介质的各种电气设备广泛进入企业社会和家庭生活中与此同时使用电气所带来的不安全事故也不断发生19除采样频率样本精度声道数影响声音质量外声音录制时环境噪声声卡内部噪声以及采样数据丢失等都会造成音质的下降
300HZ ~ 3kHZ 语音信号（speech）
3
模拟信号与数字信号

数字音视频技术讲义第三章模拟信号数字处理

短距离传送PCM信号是采用并行传送方式，即每一个抽样的N个码位以及为收、发同步用的抽样时钟，在n+1条传输线中并行传送。中、远距离传输时采用全串行传送方式，即对n个码位首先进行并/ 串转换，然后在同一条线路上依次传出。
*3.2 彩色电视图像信号的数字编码
• ~两种PCM编码方式：全信号编码和分量编码。 • 全信号编码是对彩色电视信号直接进行编码。 • 分量编码是对亮度信号及两个色差信号（或对三个基色信号）分别进行编码。
• 满足正交结构的条件是抽样频率是行频的整数倍。 • 根据副载频与行频的偏置关系，只当时fs=4fsc才形成正交抽样结构。 • 抽样频率较高可降低模拟低通滤波器及数字滤波器的设计难度。随着器件速度的提高和成本的下降，4fsc 抽样频率目前被广泛地采用。
二、量化等级
• 在全信号编码中，一般采用四舍五入的均匀量化。主观实验表明，为获得满意的图像质量，一般采用8bit量化。当编解码次数较多时，考虑到量化噪波的累积，应采用9-10bit量化。
3．2．2 分量编码
一、抽样频率 • 主观实验表明，当亮度信号Y的带宽为 5.8~6MHz、两个色差信号R-Y和B-Y的带宽2MHz时，可获得满意的图像质量。 • 分量编码时，一般应先根据需要，用低通滤波器适当地限制三个分量信号的带宽。所选定的抽样频率应不小于2.2倍信号最高频率。
• 三个分量信号的抽样频率之间以及它们与行频之间，一般应有整数倍的关系，以便于时分复用和形成正交抽样结构。• 考虑 525 行制和 625 行制的兼容性， Y/RY/B-Y的抽样频率为：13.5/6.75/6.75MHz。 • 色差信号的抽样频率为亮度信号的2/4，简称为4：2：2标准。根据标准，525行制亮度信号的每行样点数为858，625行制为864，色差信号每行样点数均为亮度信号的一半。

音频处理技术ppt课件

15
上海建桥学院信息技术系
16
上海建桥学院信息技术系
借助于A/D或D/A转换器，模拟信号和数字信号可以互相转换
17
上海建桥学院信息技术系
18
上海建桥学院信息技术系
▪ 4.2.1采样
为实现A/D转换，需要把模拟音频信号波形进行分割（每隔一定的时间间隔测一次模拟音频的值(如电压) ），
以转变成数字信号，这种方法称为采样(Sampling)。每秒钟采样的次数称为采样率。
22
输出
输入
非均匀量化
上海建桥学院信息技术系
数字音频等级
信号类型
频率范围Hz
电话语音宽带音频调频广播 CD-DA SACD DVD-AUDIO HDTA …
200~3400 50~7000 20~15k 20~22k 2-100k 100k
23
采样频率KHz 量化精度(位)
8
8
16
16
37.8
44 100（Hz）×（16/8）（B）×2×５×60=51600kb
26
上海建桥学院信息技术系
▪ 4.2.3 声音采样与量化过程示例
27
上海建桥学院信息技术系
图4-10 采样频率为1000Hz，10个量化等级的波形
28
上海建桥学院信息技术系
图4-11 经过D/A转换器得到的信号波形(直线段的波形)有较大的失真
非语音信号：音乐，自然界的声音，信息量低，识别简单。
6
上海建桥学院信息技术系
图4-4 在自然界，声波与水波一样都是一种振动波
7
上海建桥学院信息技术系
图4-5 用声音录制软件记录的英文单词”Hello”语音的实际波形

第3章音频处理软件CoolEditPro-1

• 相位指声音处于左右声道中的位置（在听觉上的位置）相位指声音处于左右声道中的位置（在听觉上的位置）
调整方法：调整方法： • 右键单击，出现滑钮调整右键单击， • 按住左键的同时鼠标上下拖动
裁剪音频波形
拖放鼠标，拖放鼠标，选择需处理的音频波形
• 剪切（[编辑]—[剪切]）剪切（编辑] 剪切] • 修剪到选区（[编辑]—[反向]）修剪到选区（编辑] 反向]
要注意对录音电平（录音音量）的调整。要注意对录音电平（录音音量）的调整。在录音时我们要尽量保证录制的声音以最高电平进入麦克风。们要尽量保证录制的声音以最高电平进入麦克风。声音的电平越高，声音也就越清晰。不过，音的电平越高，声音也就越清晰。不过，声卡对可处理的声音电平也有一个限度，太高的电平会使声音出理的声音电平也有一个限度，现爆音，听起来不舒服。现爆音，听起来不舒服。数字音频中的声音强度与生活中的声音强度概念有所不同，虽然单位都是dB 分贝）， dB（），且数字越高表示声不同，虽然单位都是dB（分贝），且数字越高表示声音强度越大。生活中的声音强度都是正数，音强度越大。但生活中的声音强度都是正数，最小的声音被规定为0dB 而在数字音频领域中 0dB；数字音频领域中，声音被规定为0dB；而在数字音频领域中，声音强度则以负数形式记录，最大的声音被规定为0dB，而最小的以负数形式记录，最大的声音被规定为0dB， 0dB 声音是负无穷。声音是负无穷。为了录制的声音尽可能清晰，为了录制的声音尽可能清晰，我们既需要尽量大的音又不能超过系统可以接受的0dB最大音量， 0dB最大音量量, 又不能超过系统可以接受的0dB最大音量，这是录音时要严格掌握的尺度。音时要严格掌握的尺度。
三、多轨音频编辑

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

m
d(S,Yi) j(s(j)yij)2
j1
其中，Yi是码本中第i个码字，每个码字有m维； j 是权
函数；d是误差值。
若矢量量化编码的对象是语音模型参数，将多数由参数来表示的语音频谱失真作为误差准则。最常用的是 I-S准则：
d(X,Y i)2 1 ln Y X i((e ejj ))2 Y X i((e ejj ))21 d
图3.3-2 增量调制编码过程示意图
输出码
2. 自适应增量调制(ADM) 在ADM中，常用的规则有两种：一种是控制可变因子M，使量化阶距在一定范围内变化。对于每一个新的采样，其量化阶距为其前面数值的M倍。而M的值则由输入信号的变化率来决定。其典型的规则为
2 y(k)y(k1) M 1/2 y(k)y(k1)
声音文件所需的存储空间可用下式来计算
存储量字节 /秒采样率量化精度声道数
8 以16位、22.05 kHz的频率录制1分钟的立体声，所需存储空间为5.292 MB。
如果录制1小时的立体声。其所要求的存储空间为 60×5.292=317.52 MB。
音频信息编码技术可分为三类：
(2) 参数编码
通过构造发声模型作为基础，用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型，在发送端从模拟语音信号中提取各个特征参量并进行量化编码，以实现语音信息的数字化。
优点：语音编码速率较低（2～9.6kbit/s），压缩比特率低。
缺点：合成语音质量较差，实现的复杂度高。
了解音频信息的相关知识对更进一步掌握多媒体技术是很重要的。
3.1.1 声音概念
1. 声音定义声音是振动波，具有振幅、周期和频率。 2. 声音三要素 (1) 音调 — (高低) (2) 音强 — (强弱) (3) 音色 — (特质)
3. 声音的质量简称音质。音质与频率范围成正比，频率范围越宽音质越好。
(4) 根据量化得到的聚类结果修正码字，即寻找每一类的新的代表性码字。
(5) 判断(3)中量化编码误差是否小于规定数值，或者迭代次数是否超过规定值，若是，训练结束。否则转(3)继续。
矢量量化编码的关键技术的另一个方面是量化编码准则问题，这与被编码对象特性有关。举例来说，若直接对输入语音波形进行矢量量化，则多用最小均方误差MSE (Mean-Squared-Error) 准则：
度量声音客观质量的一个主要指标是信噪比SNR（Signal to Noise Ration），信噪比是有用信号与噪声之比的简称。
(2) 声音主观质量的度量
表3.1-1 5分制平均观点分举例
MOS 5 4 3 2 1
质量级别优(Excellent)
良(Good) 中(Fair) 差(Poor) 劣(Unacceptable)
式中，a i 为预测系数。当前值与预测值的差为
e0 y0yˆ0
信号
＋
采样 y 0 －
量化器
输出
＋
yˆ 0 预测器
＋
输入＋＋
(a)
图3.3-5 (a) 编码器； (b) 解码器
信号滤波预测器
(b)
我们定义 a i 就是使估值的均方差最小的 a i 。估
值的均方差可由下式决定：
E { y 0 ( y ˆ 0 ) 2 } E { y 0 [ ( a 1 y 1 a 2 y 2 a N y N ) 2 } ]
采样
量化
编码
图3.2-1 音频信息处理框图
按不同应用目标进行数字压缩
(1) 采样过程
数字激光唱盘CD FM无线电广播 AM无线电广播
电话
10 20
50 200
3400 7k 15k 20k 频率/Hz
图3.2-2 常见音频应用带宽示意图
(2) 量化过程 (3) 编码过程
3.3 音频信号压缩编码
典型代表：线性预测编码器（LPC）
(3) 混合编码混合编码是指同时使用两种或两种以上的编码方法进行编码的过程。波形编码：保真度好，计算量小，但编码后速率高；参数编码：码速率较低，但保真度欠佳，计算复杂。波形编码与参数编码结合——混和编码：克服弱点，结合优点压缩比特率：4～16kbit/s 编码器：多脉冲激励线性预测编码器（MPE-LPC）、规则脉冲激励线性预测编码器（RPE-LPC）、码激励线性预测编码器（ CELP ）、矢量和激励线性预测编码器（VSELP）和多带激励线性预测编码器。
(2) 相位(Phase)：如果人的两耳听到的信号具有相同的相位，那么大脑就认为声音在中部；如果两耳听到信号有180°的相位差，那么声音就不包含方向信息了。
(3) 时序(Timing)：声音的传播速度为1英尺每毫秒；如果声音到达右耳的时间比到达左耳的早，我们就认为声源就在右边。
5. 声音质量评价
三种压缩编码的性能比较
主观音质评价混和法 Nhomakorabea参量法
波形法
2 4 6 8 16 32 kbit/s
3.3.1 增量调制
1. 一般增量调制
脉冲发生器
输入信号
＋
比较器
极性判别
调制器
信道
－
y ' t
译码器
图3.3-1 增量调制的系统结构框图
u（模拟输入）
0 1 1 11 1 1 1 00 0 0 1 10 0 0 10 0 1 0
另一类使用较多的自适应增量调制称为连续可变斜率增量(CVSD)调制。CVSD的自适应规则为
(k 1 ) P y (k)y (k 1 )y (k 2 ) (k) (k 1 ) Q其它
式中，β可在0～1之间取值。可以看到，β的大小可以通过调节增量调制来适应输入信号变化所需时间的长短。P 和Q为增量，而且P要大于等于Q。
失真级别觉察不到觉察得到，但不难听有点难听难听，但不反感难以忍受
3.2 音频信号数字化
0.2 0.1
0 -0.1 -0.2
0 0.2 0.1
0 -0.1 -0.2
0
0.5
1
1.5
2
2.5
x 104
200
400
600
800 1000 1200 1400 1600
模拟音频信号
音频信号数字化
(1) 波形编码
基于对语音信号波形的数字化处理，试图使处理后重建的语音信号波形与原语音信号波形保持一致。
优点：实现简单、语音质量好、适应性强，有成熟的技术实现方法。
缺点：压缩程度不高、实现的码速率较高，码率低于32kbit/s时音质降低明显，16kbit/s时音质就非常差了。
常用的波形法编码技术有增量调制(DM)、自适应差分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化编码(VQ)等等。
50Hz ～ 7,000Hz
度
调频广播(FM)
20Hz ～ 15,000Hz
高级音响
10Hz ～ 40,000Hz
3.1.3 声音信号特性分析
1. 时域起始——稳定——结束 2. 频域声音信号由正弦分量组成——周期、非周期频谱分析——线状谱、连续谱声音信号的描述——声波频率、声压、声强人耳对声音的感觉通过声压或声压级描述——非线性听域（1kHz）：2×10-5Pa—— 0dB 痛域：20 Pa —— 120dB
3.3.4 变换域编码
信号输入输入缓冲
变换
量化编码
边信息提取
比特分配量阶尺寸
谱插值
编码合输出路
编码输入分
路
解码
反变换
输出缓冲
比特分配量阶尺寸
谱插值
(a)
(b)
图3.3-8 (a) 编码；(b) 解码
3.3.5 矢量量化
信号序列输入
构成矢量
矢量码本
矢量码本
传送
传送
第3章音频信息处理技术
3.1 声学基础知识 3.2 音频信号数字化 3.3 音频信号压缩编码 3.4 语音压缩编码标准 3.5 常见多媒体应用的语音编码器的选择 3.6 IP电话技术
3.1 声学基础知识
人类从外界获得的信息大约有16%是从耳朵得到的。在多媒体技术中，音频信息占有很重要的地位，比如视频会议系统，音频信息的优先级最高。
人的耳朵只能感觉到振动频率在20Hz到20000Hz之间的声波，超出此范围的振动波不能引起听觉器官的感觉。其中，人耳对400-4000Hz的声波最敏感。
男性语音
100Hz ～ 9,000Hz
女性语音
150Hz ～ 10,000Hz
声
频
源
电话语音
200Hz ～ 3,400Hz
带
种
宽
类
调幅广播(AM)
4. 声音的连续时基性声音具有连续性和过程性，数据前后相关，数据量大，具有实时性。
3.1.2 声音频率分布
次声波
人耳可听域
<20Hz
20～20,000Hz
超声波 >20,000Hz
模拟波信号有三个要素：基线、周期和振幅。
振幅即波形的最高点（或最低点）与基线间的距离，它表示了声音音量的大小。
周期是波形中两个相邻波峰之间的距离，它表示完成一次振动过程所需的时间，其大小体现了振动的速度。频率是周期的倒数，周期越短，频率越高。
y 1.0
0.5
-1.0
-0.5
0
0.5
-0.5
1.0 x
-1.0
图3.3-3 律压扩特性
b7 b6 b5 b4 b3 b2 b1 b0
符号位
折线编号

第3章音频信息处理技术 共102页

第3章 数字音频处理技术