第2章数字音频处理

合集下载

《数字媒体技术》教案

《数字媒体技术》教案一、第一章：数字媒体技术概述1. 教学目标了解数字媒体技术的概念、发展历程和应用领域。

掌握数字媒体技术的基本原理和关键技术。

2. 教学内容a. 数字媒体技术的定义和发展历程b. 数字媒体技术的基本原理c. 数字媒体技术的关键技术d. 数字媒体技术的应用领域3. 教学方法a. 讲授法：讲解数字媒体技术的概念、发展历程和应用领域。

b. 案例分析法：分析具体的数字媒体技术应用案例，帮助学生理解数字媒体技术的基本原理和关键技术。

4. 教学评估通过课堂讨论、案例分析和课后作业等方式，评估学生对数字媒体技术概念、发展历程、基本原理、关键技术以及应用领域的掌握程度。

二、第二章：数字图像处理1. 教学目标了解数字图像处理的概念、目的和基本方法。

掌握数字图像处理的基本技术和算法。

2. 教学内容a. 数字图像处理的概念和目的b. 数字图像处理的基本方法c. 数字图像处理的基本技术和算法3. 教学方法a. 讲授法：讲解数字图像处理的概念、目的和基本方法。

b. 实践操作法：利用图像处理软件，让学生动手实践数字图像处理的基本技术和算法。

4. 教学评估通过课堂讨论、实践操作和课后作业等方式，评估学生对数字图像处理的概念、目的、基本方法、基本技术和算法的掌握程度。

三、第三章：数字音频处理1. 教学目标了解数字音频处理的概念、目的和基本方法。

掌握数字音频处理的基本技术和算法。

2. 教学内容a. 数字音频处理的概念和目的b. 数字音频处理的基本方法c. 数字音频处理的基本技术和算法3. 教学方法a. 讲授法：讲解数字音频处理的概念、目的和基本方法。

b. 实践操作法：利用音频处理软件，让学生动手实践数字音频处理的基本技术和算法。

通过课堂讨论、实践操作和课后作业等方式，评估学生对数字音频处理的概念、目的、基本方法、基本技术和算法的掌握程度。

四、第四章：数字视频处理1. 教学目标了解数字视频处理的概念、目的和基本方法。

第二章数字音频编辑与处理

定俗成的整个电脑音乐的统称。
● 特点：文件不记载声音本身波形数据，可以理解为一个乐队的“总谱”
：上边记录的是有哪些乐器、每种乐器的音高、节奏、强弱等；通过声卡将
这个乐谱识出来，并用已经存放在声卡或者软件中的音色库把对应的声音播放出来。 ● 应用：适合应用在对资源占用要求苛刻的场合，比如多媒体光盘、游戏制作、背景音乐等。主要用于计算机声音的重放和处理。
● 声音的三要素
代表声音的快慢，与频率有关；使
● 音调 — (快慢)
用音频处理软件对声音的频率进行
调整时，其音调也会随之发生变化 (慢) (快) 声音的强度 (响度或音量)，与声波振幅成
● 音强 — (强弱)
正比；唱盘、CD 盘等声音载体中的音强
不变，通过播放设备的音量控制可改变聆 (弱) (强) (停) 听时强度；音频处理软件可提高声源音强声音的特色，主要影响因素是复音；复
主讲：韩立华
信息学院基础教研室
目标
• • • • • • 掌握声音的概念、特点和三个要素；理解模拟音频转换为数字音频的过程；掌握常见的音频文件格式及其特点；了解音量调整、声音录制等基本知识；掌握音频处理软件CoolEdit的基本用法。会用CoolEdit制作自己的音频作品。
数字音频编辑处理
数字音频编辑处理
（1）采样
采样是采集声音模拟信号的样本，然后再转换成数字信号。
数字音频编辑处理
（1）采样
采样是采集声音模拟信号的样本，然后再转换成数字信号。
采样用两个参数来衡量：
采样频率采样分辨率
又称：采样位数、采样精度、量化位数、量化精度
单位时间内采样的数量
记录每次采样值大小的数值的位数

多媒体技术及应用数字音频技术02

特点：在低速的广域网上实时传输音频
4. WMA文件
WMA(Windows Media Audio)是 Windows Media格式中的一个子集(音频格式)。
特点：压缩到MP3一半
多媒体技术及应用数字音频技术02
2-11
2.1 数字音频基础
5. MIDI和RMI文件 MIDI(乐器数字接口)是由一组音乐、乐谱或乐器符号的数字集合。特点：播放效果与硬件相关，数据量很小，音质不高、音色单调等 6.VOC文件创新公司开发的声音文件格式，由文件头块和音频数据块组成。
音乐是符号化的声音。
多媒体技术及应用数字音频技术02
2.1 数字音频基础
二、声音的数字化 1.声音信号的类型模拟信号(自然界、物理) 数字信号(计算机) 2.声音数字化过程
模拟信号
采样
量化
编码
数字信号
模拟信号
A/D ADC D/A DAC
数字信号
多媒体技术及应用数字音频技术02
2.1 数字音频基础
霍夫曼编码、算术编码、行程编码 ②有损压缩
波形编码--PCM、DPCM、ADPCM 子带编码、矢量量化
参数编码--LPC 混合编码--MPLPC、CELP
多媒体技术及应用数字音频技术02
2.2 数字音频压缩标准
二、音频压缩技术标准
分类
电话语音质量
调幅广播质量高保真立体声
标准 G.711 G.721 G.723 G.728
多媒体技术及应用数字音频技术02
2020/11/14
多媒体技术及应用数字音频技术02
第二章数字音频技术
2.1 数字音频基础 2.2 数字音频压缩标准 2.3 声卡与电声设备 2.4 MIDI与音乐合成 2.5 音频编辑软件 2.6 语音识别技术本章小结

多媒体简答题

样题一、填空（20分）1．色彩可用色调、亮度和饱和度三个特征来表示。

2．在制作网页图像时时，如果是连续调的图像，应存储为psd 格式。

3．视频特技是指视频片段内部的串编的效果，要想使视频特技效果随时间变化应在视频上建立。

4．在Premiere中组接视频时，想输出时间线窗所有素材组成的整个电影但却只输出了时间线窗中间一部分区域，修正的方法是。

二、单项选择题（10分）1．在数字音频信息获取与处理过程中下述顺序哪个是正确的？（ c ）（A）A/D变换、采样、压缩、存储、解压缩、D/A变换（B）采样、压缩、A/D变换、存储、解压缩、D/A变换（C）采样、A/D变换、压缩、存储、解压缩、D/A变换（D）采样、D/A变换、压缩、存储、解压缩、A/D变换2．以下对Web图像格式的叙述哪个是错误的（ a ）：（A）GIF是基于索引色表的图像格式，它可以支持上千种颜色（B）JPEG适合于诸如照片之类的具有丰富色彩的图像（C）JPEG和GIF都是压缩文件格式（D）GIF支持动画，而JPEG不支持3．在路径曲线线段上，方向线和方向点的位置决定了曲线段的（ c）？（A）角度（B）形状（C）方向（D）像素三、多项选择题（20分）1．下面对图层蒙板的描述哪些是正确的？（ABC）（A）图层上的蒙板相当于一个8位灰阶的Alpha通道（B）当按住Shift键同时单击图层选项栏中的蒙板图标就可关闭蒙板，使之不在图像中显示（C）在图层调板的某个图层中设定了蒙板后，会发现在通道调板中有一个临时Alpha 通道（D）在图层调板上可对包括背景在内的所有图层建立蒙板2．下面对图层调板中背景的描述哪些是正确的？（AD）（A）背景始终是在所有图层的最下面（B）可以将背景转化为普通的图层，但是名称不能改变（C）背景不可以转化为普通的图层（D）背景转化为普通的图层后，可以执行图层所能执行的所有操作3. 下面对通道的描述哪些是正确的？（ BCD ）（A）色彩通道的数量是由图象阶调，而不是因色彩模式的不同而不同（B）当新建文件时，颜色信息通道已经自动建立了（C）同一文件的所有通道都有相同数目的象素点和分辨率（D）在图象中除了内定的颜色通道外，还可生成新的Alpha通道4．下列关于Premiere中“转场特技”的叙述哪些是正确的？( ABC )（A）转场特技是实现视频片段间转换的转场效果的方法（B）转场特技是指两个视频轨道上的视频片段有重叠时，从一个片段平滑、连续地变化到另一段的过程（C）两视频片段间只能有一种转场特技（D）视频转场也是一个视频片段四、简答题（50分）第1章多媒体基础1. 多媒体技术处理的对象有哪些？各自具有什么特点？文本，图像，图形，视频，音频，动画文本分为非格式化文本文件和格式化文本文件。

第二章数字音频处理

◆
为了把采样得到的离散序列信号存入计算机，必须将采样值量化成有限个幅度值的集合，采样值用二进制数字表示的过程称为量化编码。
左图为采样率2000Hz，量化等级为20的采样量化过程右图为采样率4000Hz，量化等级为40的采样量化过程
当采样率和量化等级提高一倍，从图中可以看出，当采样率和量化等级提高一倍，从图中可以看出，当用D/A转换器重构原来信号时（图中的轮廓线）， D/A转换器重构原来信号时），信当用D/A转换器重构原来信号时（图中的轮廓线），信号的失真明显减少，信号质量得到了提高。 பைடு நூலகம்的失真明显减少，信号质量得到了提高。
2.1.2 声音的三要素
声音的三要素是音调、音色和音强。声音的三要素是音调、音色和音强。音调音调---代表了声音的高低。 1.音调---代表了声音的高低 1.音调---代表了声音的高低。音调与频率有关，频率越高，音调越高，反之亦音调与频率有关，频率越高，音调越高，如果改变某种声源的音调，然。如果改变某种声源的音调，则声音会发生质的转变，使人们无法辨别声源本来的面目。的转变，使人们无法辨别声源本来的面目。
fs ≥2f 或者 Ts ≤T/2 其中f为被采样信号的最高频率 fs 为采样频率
2.2.3 影响数字音频质量的技术参数对模拟音频信号进行采样量化编码后，得到数字音频。数字音频的质量取决于采样频率、量化位数和声道数三个因素。 1) 采样频率采样频率是指一秒钟时间内采样的次数。在计算机多媒体音频处理中，采样频率通常采用三种：11.025KHz(语音效果)、22.05KHz(音乐效果)、44.1KHz(高保真效果)。常见的CD唱盘的采样频率即为44.1KHz。
2.1 多媒体计算机的组成与结构 2.2 多媒体音频 2.3 多媒体视频 2.4 多媒体光存储器 2.5 多媒体输入输出设备

第2章数字音频技术基础

从物理学的角度来看，声音实际上是通过空气等介质传播的一种连续．音调、响度和音色
（1）声调（Pitch，音调）（2）响度（Loundness）
① 声压 ② 声强（SPL，Sound Pressure Level）
（3）音色（Timbre）
图2-5 声强与声压的关系
当频率发生变化时，人们听到的音调会有变化。
例如频率为1 000Hz、声压级为40dB 的声音，变化3Hz就能觉察出来，当频率超过1 000Hz、声压超过40dB时，人耳能觉察到的相对频率变化范围（Δf/f）约为 0.003。听觉灵敏度还与年龄有关。
研究结果表明：对于纯音，人耳能分辨出280个声压层次和1 400个频率层次。
第2章数字音频技术基础
2.1
声学原理
2.2
声音数字化
2.3
数字音频的主要性能参数
2.4
数字音频文件的常见格式
学习目标
知识目标：了解声学的基本原理，了解数字音频的主要性能参数，掌握声音数字化的实现方法，掌握与数字音频相关的基本概念，熟悉数字音频文件的常见格式，为学好数字音频设备打好基础。
在测试环境中，听众坐在具有同样构
造的两个扬声器前面，尽管两扬声器的声音幅度相同，但听者定位右边扬声器的声音更强，这是因为左边扬声器传输有接近 15ms的时延。
当时延超过50ms时，听众感知到来自左边和右边扬声器两个不同声音事件。
为弥补这一延时产生的影响，需增加该延时声道的幅度。
设计立体声设备和指导放声布局及聆听方法时应充分考虑这一点。
技能目标：正确拆装CD机芯，了解CD唱机的基本结构，掌握CD电路的工作原理。
典型设备：CD机
图2-1 CD唱机外形结构

多媒体技术应用知识点总结(详)

多媒体技术应用目录第一章多媒体技术概论 (2)本章习题（p15） (2)笔记重点知识： (3)第二章数字音频处理 (5)本章习题（P40） (5)笔记重点知识： (6)第三章视觉信息处理 (10)本章习题 (10)笔记知识要点： (11)第四章多媒体数据压缩与编码技术 (15)本章习题 (15)笔记知识重点 (16)第五章多媒体数据处理的技术标准 (17)本章习题 (17)笔记重点知识： (17)第十一章多媒体信息安全技术 (19)本章习题： (19)笔记重点知识 (19)名词解释 (22)重点问题回答： (24)第一章多媒体技术概论本章习题（p15）填空：1、国际电信联盟（ITU）将媒体分为6大类：A）感知媒体B）表达媒体C）呈现媒体D）储存媒体E）传输媒体F）交换媒体2、感知媒体是在多媒体应用中呈现给用户的媒体元素,主要包括：A）文本B）图形C）图像D）视频E）音频F）动画3、多媒体技术在娱乐领域的主要应用包括：A）家庭信息中心B）视频点播系统C）数字高清电视D）影视娱乐业4、多媒体数据库应当能够实现的功能：A）能够支持多种媒体数据类型和多个媒体对象合成方式B）能够为大量数据提供高性能的存储管理C）能够支持传统的数据库管理系统功能D）能够支持多媒体信息提取的功能E）为用户提供丰富便捷的交互手段简答：1、多媒体应用领域主要包括那些方面？A）娱乐B）教育与培训C）电子出版物D）集训、信息服务与广告E）工业控制与科学研究F）医疗影像与远程诊疗G）多媒体办公系统H）多媒体技术在通信系统中的应用2、简述多媒体所涉及的核心问题有哪些？A）多媒体信号数字化与计算机获取技术B）多媒体数据压缩编码和解码技术C）多媒体数据的实时处理和特效效果技术D）多媒体数据的输出与回放技术笔记重点知识：1)媒体的分类：感知媒体：（Perception Medium）是指人们的感受器官所能感受到的信息的自然种类。

（语言，音乐，图像，图形，计算机内数据等）表达媒体：（Representation Medium）为了加工处理和传输感知媒体而通过人工研究、构造出来的媒体。

第4讲—第二章数字音频处理技术(1)

1mV
● 确定合适的采样频率。采样频率确定合适的采样频率。插头: 插头 φ3.5mm/stereo 越高，录制质量越好，越高，录制质量越好，但数据量就大。就大。
(2) 单击 [录音按钮，开始录音录音]按钮录音按钮， (录音时间为秒) 录音时间为60秒录音时间为
14
● 录音失败的处理 ●[操作步骤] [操作步骤] (1) 鼠标左键双击任务栏右侧检查“波形” (2) 检Байду номын сангаас“波形”是否被选择 — [√] (3) 选择“选项／属性” 选择“选项／属性” 选择“录音” (4) 选择“录音”选项检查: (5) 检查: 录音控制线路输入麦克风应有 [√] 确定] (6) 单击 [确定]按钮
11011100 11001101
把数字化声音转换成模拟量，把数字化声音转换成模拟量，经过音响单元重放出来 11011100
●设备和软件
声音重放
(1) 声音适配器 (声卡 8bit、16bit、… 128bit ￥80.00～800.00 声卡) 、声卡、～ (2) 声卡驱动软件以及各种声音处理软件
12
采集CD音轨并转换格式采集音轨并转换格式
Windows Media Player界面界面 Windows自带的媒体播放器将曲目从 CD 复制到计算机中非常简便。 Windows自带的媒体播放器将曲目从复制到计算机中非常简便。 (1) 插入音乐盘，随后自动列出音轨清单插入CD音乐盘随后自动列出CD音轨清单音乐盘， (2) 在CD音轨清单中选择采样的音轨 CD音轨清单中选择采样的音轨音轨清单中选择采样的
（对应书中第九章）对应书中第九章）
思考题
数字音频处理技术

第2章音频处理技术(二)

上一页下一页第21|82页
MP3文件

MP3文件是采用MP3算法压缩生成的数字音频数据文件，以‚.MP3”为文件后缀。 MP3利用MPEG制定的MPEG-1 Audio layer 3 的压缩标准，将音频信息用10:1甚至12:1压缩率变成容量较小的数据文件。虽然MP3是一种利用了人类心理声学特性的有损压缩，人耳基本不能分辨出失真，音质几乎达到了CD音质标准。按照这种算法，10 张CD-DA的内容可以压缩到l张CD-ROM中，而且视听效果相当好。
上一页下一页第34|82页
压缩算法分类

根据压缩原理划分有预测编码、变换编码、矢量编码、子带编码、熵编码等。
上一页
下一页
第35|82页
1）预测编码
对于语音，就是通过预测去除语音信号时间上的相关性。而对于图像，帧内预测去除了空间上的冗余，帧间预测则可以去除时间上冗余。目前大多数语音、图像编码中都采用了预测技术。例如语音中的LPC(linear Predictive Coding，线性预测)、CELP(码激励线性预测)、图像中的ADPCM(自适应差分脉冲编码调制)等。
上一页下一页第19|82页
数字音频文件格式

数字声音文件格式是数字音频在磁盘文件中的存放形式，相同的数据可以有不同的文件格式，而不同的数据也可以有相同的文件格式。 WAVE 格式 MP3 格式 RA 格式
上一页
下一页
第20|82页
WAVE文件格式

WAVE文件是一种通用的音频数据文件，文件扩展名为‚．WAV”，Windows系统和一般的音频卡都支持这种格式文件的生成、编辑和播放。 CD激光唱盘中包含的就是WAVE格式的波形数据。一般说来，声音质量与其WAVE格式的文件大小成正比。 WAVE文件的特点是易于生成和编辑，但在保证一定音质的前提下压缩比不够，不适合在网络上播放。

第2章数字声音

声音类型声音带宽（Hz）数字语音 CD唱片 300～3400 20～20 000 采样频率（kHz） 8 44.1 量化位数（bits） 8 16 声道数 1 2 未压缩时的码率（kbps） 64 1411.2
声音数据量以Byte为单位，可由下式算出：声音数据量＝采样频率×（量化精度÷8）×声道数×时间＝（声音的码率÷8）×时间例如，CD唱片的采样频率是44.1kHz，量化精度为16位，声道数为2（立体声），那么，根据上式计算出每分钟声音的数据量为44 100×（16/8）×60×2≈10.09MB。
3．声道数．立体声虽然满足了人们对左、右声道位置感体验的要求，但要达到好的效果，仅仅依靠两个音箱是远远不够的。随着声音合成技术的发展，双声道立体声逐步向效果来模拟的，例如，画面中一架飞机从远处向你飞来，引擎呼啸声由远而近，让你感觉就好像身处飞机场一样。往后便发展到4声道（两前两后）、 DVD的6声道（5.1）、7声道（6.1）、8声道（7.1），以及电影院的10声道。5.1声道的音箱系统如图2.5所示。
图2.5 5.1声道的音箱系统
音频API种类繁多，目前各种游戏可以使用的API和3D技术大体上有 DirectSound 3D（DS3D），A3D，EAX，Sensaura 3D，Q3D，IAS等。不同的声卡硬件和不同的游戏往往支持多种不同的API和3D技术，这主要取决于声卡所采用的音效芯片的类型。（1）DirectSound 3D DirectSound 3D（即DS3D）是DirectX中的一个组件，是Microsoft公司专为游戏开发的API，得益于DirectX的不断发展和完善，DS3D得到了众多声卡厂商的支持。 DS3D的作用在于帮助开发者定义声音在3D空间中的定位和声响，然后把它交给与 DS3D兼容的声卡，让它们用各种算法去实现。定位声音的效果好坏实际上取决于声卡所采用的算法。（2）Aureal 3D Aureal 3D简称A3D，是由著名的Aureal Semiconductor公司开发的新型3D音效定位技术。使用这一技术的应用程序（通常是游戏）可以根据用户的选择来决定音效的变化，而且可以只通过一对普通的音箱或耳机来实现，产生围绕听者的3D 精确定位音效。

数字音频技术及其应用

数字音频技术及其应用第一章概述数字音频技术是利用数字信号处理技术实现的音频处理技术。

数字音频技术与传统模拟音频技术相比，具有高保真、低噪声、易于存储、容易传输等优势。

数字音频技术的应用领域非常广泛，如音乐录制、音乐制作、电影制作、音频传输、语音识别等。

本文将重点探讨数字音频技术及其应用领域的相关知识。

第二章数字音频的原理1. 数字信号处理技术数字音频技术基于数字信号处理技术，数字信号处理是指将模拟信号转换为数字信号，然后利用数字信号处理算法对数字信号进行处理的技术。

数字信号处理技术的关键是A/D转换和D/A转换，A/D转换器将模拟信号转换为数字信号，D/A转换器将数字信号转换为模拟信号。

2. 数字音频编码技术数字音频编码技术是指将数字音频信号通过一定的编码方式变换为可存储、可传输、可处理、可重现的数字编码形式。

数字音频编码技术主要有两种类型：有损压缩和无损压缩。

有损压缩是指通过去除信号中一些不重要的信息以减小数据量。

无损压缩则是在不丢失任何信息的前提下，使用一些压缩算法将数据进行压缩。

3. 数字音频处理技术数字音频处理技术是指利用数字信号处理算法对数字音频信号进行处理的技术。

数字音频处理技术主要包括滤波、均衡器、混响器、失真器、压缩器、限幅器、串扰抑制器等。

第三章数字音频的应用1. 音乐录制数字音频技术的出现使得音乐录制技术得到了革命性的发展。

数字音频录制可以实现高保真、低噪声、可自由调节等优势。

2. 音乐制作数字音频技术给音乐制作带来了极大的便利。

音频制作领域的数字技术应用主要有数字录音室、音乐软件、数字合成器等。

3. 电影制作数字音频处理技术也广泛应用于电影制作中。

数字音频处理技术可以有效地提高电影中的音效质量，使其更符合电影的视听效果。

4. 音视频传输数字音频技术也被广泛应用于音视频传输中。

随着互联网的发展，音视频传输成为用户获取音视频内容的重要方式，数字音频技术的应用使得音视频传输更加高清晰、流畅。

多媒体技术音频处理技术

计算时要注意几个单位的换算细节：
时间单位换算：1分=60秒
采样频率单位换算：1kHz=1000Hz
数据量单位换算：1MB=1024×1024=1048576B
未压缩的声音文件的存储量可用下式计算：存储量（KB） =（采样频率KHZ×采样位数bit×声道数×时间秒）/8
2.VOC文件
VOC文件是Creative公司所使用的标准音频文件格式，多用于保存 Creative Sound Blaster(创新声霸)系列声卡所采集的声音数据，被Windows平台和DOS平台所支持。
2.1.2 模拟音频的数字化过程
对模拟音频数字化过程涉及到音频的采样、量化和编码。采样和量化的过程可由A/D转换器实现。A/D转换器以固定的频率去采样，即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号，可以将其以文件形式保存在计算机的存储介质中。
模拟信号的数字化过程
（4）音频变换与特殊效果：更改声音的大小、速度、回音等。
录制一段音频
2.3 常用音频处理软件简介 Gold Wave：
左声道右声道
GoldWave是一款相当不错的数码录音及编辑软件，除了附有许多的效果处理功能外，它还能将编辑好的文件存为WAV、AU、SND、RAW和AFC等格式。
作为Wave文件编辑处理工具，支持从MP3、MPG、 AVI、ASF、MOV等文件中提取音频进行编辑，所以除了它强大的编辑功能外，用作把以上格式的音频转换成WAV文件也是很方便的。
100101100011101
1. 采样
信息论的奠基者香农（Shannon）指出：在一定条件下，用离散的序列可以完全代表一个连续函数，这是采样定理的基本内容。

音频信息的获取与处理

3. 数字音频音质与数据流量 3.1 音频信号经过数字系统重现后的音质与系统频率响应的范围成正比. 模拟信号 A/D→D/A 模拟信号
“音质”正比于“采样频率”× “量化位数” 3.2 音频数据流量单位(比特率，位数，码率) kb/s(kbps) ， 8kbps = 1kBps = 采样频率 × 量化字节数 × 通道数音频数据流量和数据量的计算例: 对于调频广播级立体声，采样频率44.1 kHz，量化位数16 位，则音频信号数字化后的数据量为: 44.1k×16 ×2 =1411.2 kb/s =176.4 kByte/s 采样频率量化声道数数据量电话: 11 kHz, 8位, 单声道, 88kb/s 收音机: 22kHz, 16位, 双声道, 352kb/s CD: 44.1kHz, 2Byte, 双声道, 1411 kb/s 音频数据总量=音乐时长×数据流量例: 对于三分钟的乐曲，立体声总量=180s×176kB/s=31.68MB
第二章音频信息的获取与处理
一．声音概述二．数字化音频三．音乐合成与MIDI 四．音频卡五．数字音频压缩标准
2. 噪声 70dB: 50%的人的睡眠受到影响. 噪声性耳聋: 长期暴露在强噪声中, 听力不能复原, 引起心血管和消化系统疾病; 140dB ~160dB(高强度噪声): 会使鼓膜破裂, 双耳完全失聪. 超音速飞机的轰声, 爆炸声: 玻璃震碎, 墙皮脱落 160dB以上的特强噪声: 使金属疲劳损坏
4.5 流式音频文件~ WMA扩展名 Microsoft 研制的一种压缩文件或流式文件, 相当于MP3, 压缩率较高和音质较好. 边下载边播放 4.6 流式音频文件~ RA扩展名 Real networks 推出的压缩格式，其压缩比可达到96:1. 4.7 数字音频文件~ PCM扩展名模拟音频经A/D转换形成的二进制数字序列, 该文件没有文件头和文件结束标志. 音源信息完整, 冗余度过大, 音质好,数据量大. 较高保真水平, 被用于素材保存及音乐欣赏. 4.8 CD-DA音频文件~ CDA扩展名：激光CD音乐盘格式. 音质好, 数据量大。 4.9 APE音频文件：是一种无损压缩音频技术，与MP3等有损压缩方式不同，在将CDA音频数据文件压缩成APE格式后，还可将APE格式的文件还原为压缩前的CDA文件。APE 的文件大小约为CDA的一半。APE格式可用于通过网络传输CD质量的音乐. APE常用软件: CuteAPE(切割ape) Windows Media Player 11 千千静听暴风影音和MPC等等。 5. 数字音频编辑：剪切粘贴, 左右声道剪切粘贴, 淡入淡出, 回声和混响, 模拟厅场。 6. 音频信号处理：声纹识别测谎，音乐合成，立体声模拟，采集，编解码和传输。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

缩，必须经过解压缩，数据量小
音频的分类
频带关系
男声源种类女电
性性话
语语语
音音音
100Hz ～ 9,000Hz 150Hz ～ 10,000Hz 200Hz ～ 3,400Hz 50Hz ～ 7,000Hz 20Hz ～ 15,000Hz 10Hz ～ 40,000Hz 频带宽度
模拟
数字
声音采样
模拟量) 把声音(模拟量按照固定时间间隔，转换成有限个数字表示的离散序列模拟量按照固定时间间隔，
声音采样
11011100 11001101
每隔一定时间间隔不停地间断性地在模拟音频的波形上采取一个幅度值，这一过程我们称之为采样；采取一个幅度值，这一过程我们称之为采样；为了把采样得到的离散序列信号存入计算机，为了把采样得到的离散序列信号存入计算机，必须将其转换为二进制数字表示，转换为二进制数字表示，我们称这一过程为量化编码。
频率(对数) 频率(对数) 48.3
与声音相关的基本概念
谐波与音色：称为基波ω 谐波与音色：n×ωo称为基波 o的n次谐波分量次谐波分量就是基波ω (n就是高次谐波的方次，n× ωo就是基波 o的n次就是高次谐波的方次，就是高次谐波的方次次谐波)，也称为泛音。声音的泛音适中，谐波，也称为泛音。声音的泛音适中，谐波较丰富，听起来音色就优美动听幅度与音强：幅度与音强：信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。峰的距离。幅度决定了信号音量的强弱程度。幅度越声音越强。一般用动态范围定义相对强度：大，声音越强。一般用动态范围定义相对强度：
3.1.1 声音的基本特征
幅
振
基线周期
声音是振动波，具有振幅、周期和频率。声音是振动波，具有振幅、周期和频率。声波的频率（Frequency））描述每秒钟振动的次数，描述每秒钟振动的次数，反映出声音的音调: 反映出声音的音调声音尖细表示频率高声音低粗表示频率低。声音低粗表示频率低。
MIDI合成。利用连接电脑的MIDI(乐器数字化接口，弹合成。利用连接电脑的乐器数字化接口)，合成乐器数字化接口奏出曲子，或合成音效录入计算机，再用声音软件编辑。奏出曲子，或合成音效录入计算机，再用声音软件编辑。来源于声音素材库。将录音带或唱盘等声音素材库中的来源于声音素材库。将录音带或CD唱盘等声音素材库中的曲子，用放音设备通过转接线转录到计算机，曲子，用放音设备通过转接线转录到计算机，再用声音软件加以编辑，存成多媒体著作软件可以读取的文件格式。加以编辑，存成多媒体著作软件可以读取的文件格式。
音频的分类
按格式分类
● MIDI (Musical Instrument Digital Interface)乐器接口文件乐器接口文件
.mid
用于合成、游戏，记录音符时值、频率、音色特征，用于合成、游戏，记录音符时值、频率、音色特征，数据量小
● WAVE (Waveform Audio)波形音频文件波形音频文件
采样时间间隔称为采样周期t，其倒数为采样频采样时间间隔称为采样周期其倒数为采样频一般来讲，率fs=1/t。一般来讲，采样频率越高，则在单位时一般来讲采样频率越高，间内计算机得到的声音样本数据就越多，间内计算机得到的声音样本数据就越多，对声音波形的表示也越精确，声音失真越小，波形的表示也越精确，声音失真越小，但用于存储音频的数据量越大。储音频的数据量越大。根据奈奎斯特定理，根据奈奎斯特定理，只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声号最高频率的两倍时两倍音还原为原来的声音。音还原为原来的声音。
第2章数字音频处理章
本章重点: 本章重点: 模拟音频与数字音频的概念数字音频的获取音频信号压缩编码音乐合成和语音识别
2.1概述 2.1概述
声音是携带信息的重要媒体。研究表明，声音是携带信息的重要媒体。研究表明，人类从外部世界获取的信息中，10%是通过听觉获得的是通过听觉获得的, 外部世界获取的信息中，10%是通过听觉获得的, 因此声音是多媒体技术研究中的一个重要内容。因此声音是多媒体技术研究中的一个重要内容。声音是由物体振动产生的，声音是由物体振动产生的，这种振动引起周围空气压强的振荡，从而使耳朵产生听觉的印象。气压强的振荡，从而使耳朵产生听觉的印象。声音的种类繁多，人的语音是最重要的声音。声音的种类繁多，人的语音是最重要的声音。此还有动物、乐器等发出的声音，风声、雨声、外，还有动物、乐器等发出的声音，风声、雨声、雷声等自然声音，以及机器合成产生的声音等。雷声等自然声音，以及机器合成产生的声音等。
动态范围＝信号的最大强度/信号的最小强度动态范围＝20×log(信号的最大强度信号的最小强度 (dB) 信号的最大强度信号的最小强度)
与声音相关的基本概念
音宽与频带：频带宽度，也称为带宽，音宽与频带：频带宽度，也称为带宽，它是描述组成复合信号的频率范围。述组成复合信号的频率范围。客观上，通常用频带宽度、动态范围、客观上，通常用频带宽度、动态范围、信噪比等指标衡量音频信号的质量。等指标衡量音频信号的质量。音频信号的频带越所包含的音频信号分量越丰富，音质越好。宽，所包含的音频信号分量越丰富，音质越好。动态范围越大，信号强度的相对变化范围越大，动态范围越大，信号强度的相对变化范围越大，音响效果越好。音响效果越好。
.wav
多媒体系统、音乐光盘制作，记录物理波形，多媒体系统、音乐光盘制作，记录物理波形，数据量大
● CDA (CD Audio)激光音频文件激光音频文件
.cda
准确记录声波，数据量大，经过采样，生成准确记录声波，数据量大，经过采样，生成wav和mp3音频文件和音频文件
● mp3
(MPEG音频压缩标准压缩音频文件音频压缩标准)压缩音频压缩标准压缩音频文件
声音的三要素
声音波形的基频所产生的听的最清楚的音称为基音，声音波形的基频所产生的听的最清楚的音称为基音，各次谐波的微小振动产生的声音称为泛音。
所谓纯音或单音，是指单一频率、或振幅和频率不变的所谓纯音或单音，是指单一频率、声音信号，单音一般只能由专用电子设备产生；声音信号，单音一般只能由专用电子设备产生；在日常生活中，在日常生活中，我们听到的自然界的声音一般都属于复音，其声音信号由不同的振幅与频率合成而得到。复音，其声音信号由不同的振幅与频率合成而得到。音质与频率范围成正比，音质与频率范围成正比，频率范围越宽音质越好
与声音相关的基本概念
基频与音调：基频与音调：一个声源每秒钟可产生成百上千个波，千个波，通常把每秒钟波峰所产生的数目称之为信号的频率，单位用赫兹(Hz)或千赫兹或千赫兹(kHz)表信号的频率，单位用赫兹或千赫兹表示。人对声音频率的感觉表现为音调的高低，人对声音频率的感觉表现为音调的高低，在音乐中称为音高。音调正是由频率ω所决定的所决定的。音乐中称为音高。音调正是由频率所决定的。
穿透障碍
次声波长最小也大于17米可以走曲线，次声波长最小也大于米，可以走曲线，绕过高山；超声波长最大也不过17毫米波长很短，可以走直线；超声波长最大也不过毫米；波长很短，可以走直线；
声音的基本特征
次声可以引起人体内脏器官的共振，造成眩晕，次声可以引起人体内脏器官的共振，造成眩晕，甚至内脏出血，甚至内脏出血，使人丧命；超声可以为病人透视、按摩、治疗疾病，使人健康；还超声可以为病人透视、按摩、治疗疾病，可以清洗、除尘，乳化、粉碎，割焊、钻孔、消毒、可以清洗、除尘，乳化、粉碎，割焊、钻孔、消毒、杀菌，促进化学反应，影响生物生存。促进化学反应，
声音的基本特征
次声波
<20Hz
可听声
20~20000Hz
超声波
>20000Hz
次声主要来自大自然，如地震、火山、台风、海啸、次声主要来自大自然，如地震、火山、台风、海啸、大气湍流等自然现象；超声既可以来自大自然的风声、水浪，超声既可以来自大自然的风声、水浪，又可以来自一些动物的发声器官，还可以来自各种人造超声源；一些动物的发声器官，还可以来自各种人造超声源；
2.1概述 2.1概述
空气压强空气压强空气压强 + 0 －一个周期图2.1 空气压强振荡的波形示意图幅值 t
人耳能识别的声音频率范围大约在20～20kHz，人耳能识别的声音频率范围大约在20～20kHz， 20 通常称为音频（audio）信号。通常称为音频（audio）信号。
音频信号所携带的信息大体上可分为语音、音频信号所携带的信息大体上可分为语音、音乐和音效三类。乐和音效三类。语音，语音，指具有语言内涵和人类约定俗成的特殊媒体。音乐，音乐，指规范的符号化了的声音。音效，指人类熟悉的其他声音。音效，指人类熟悉的其他声音。在多媒体系统中，在多媒体系统中，处理的信号主要是音频信号。
调幅广播 ( AM) 调频广播(FM) 高级音响
数字音频的获取
模拟音频信号
采样
量化
编码
按不同应用目标进行压缩
图 2.4 音频信息处理框图
音频信息处理结构框图
1、采样
图2.5 模拟信号的采样
所谓采样就是在某些特定的时刻对模拟信号进行取值，如上图所示。进行取值，如上图所示。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅值，把时时间间隔在模拟声音的波形上取一个幅值，间上的连续信号变成时间上的离散信号。间上的连续信号变成时间上的离散信号。
声音的三要素
又称音品，又称音品，主要由声音波形的谐波频谱和包络决定音色－（特质）音色－（特质）－（特质
音调－（高低）音强－（强弱）－（强弱音调－（高低）音强－（强弱）－（高低

第2章 数字音频处理