多媒体技术基础(林福宗)-03数字声音编码

合集下载

上海大学875多媒体技术基础考研专业课笔记

E DF; ℎ
��D =
E DF; ��
��D �� D = −
E DF; ��
��D ��: �� D
其中： ℎ ��D 为事件��D 的熵 �� D 为事件��D 的信息量 Ø �� = ��# − �� D 为事件��D 发生的概率
Vsignal：信号电压 Vnoise：量化噪声压
n：采样精度的位数 3、声音质量与数据率按频带可将声音质量划分为五个等级：（由低到高）电话(telephone) 调幅广播(amplitude modulation, AM) 调频广播(frequency modulation, FM) 激光唱片(CD-Audio) 数字录音带(digital audio tape, DAT) P48 表 3-1 声音质量的 MOS 评分：由若干实验者对声音质量好坏进行评分，求其平均值作为对声音质量的评价，这种方法叫做主观平均判分法。所得的分数叫做主观平均分(mean opinion score, MOS) 4、脉冲编码调制(pulse code modulation, PCM) ① PCM 的概念：输入：模拟声音信号
③信息量（具有确定概率事件的信息的定量度量） �� = ��:
; < =
= −��: ��(��)，p(x)是事件 x 出现的概率
☆对于等概率事件的集合，其每个事件的信息量=该集合的决策量 ④熵（事件信息的平均值） �� =

《多媒体技术基础》第3版第09章_数字电视基础

9.5 图像子采样
9.5.1 图像子采样概要 9.5.2 4:4:4 YCbCr格式 9.5.3 4:2:2 YCbCr格式 9.5.4 4:1:1 YCbCr格式 9.5.5 4:2:0 YCbCr格式
9.2 电视扫描和同步
9.2.1 电视的扫描方式 9.2.2 PAL制的扫描特性 9.2.3 NTSC制的扫描特性 9.2.4 SECAM制的扫描特性

隔行扫描(interlaced scanning)

(a) 逐行扫描图9-2 图像扫描方式
2011年1月23日
第9章数字电视基础
10/45
9.2 电视扫描和同步(续1)

一帧图像由两部分组成：由奇数行组成的奇数场；由偶数行组成的偶数场
(6) 隔行扫描图9-2 图像扫描方式
2011年1月23日

NTSC制 PAL制 SECAM制

HDTV是还没有推广的高清晰度数字电视标准
第9章数字电视基础 5/45
2011年1月23日
9.1 模拟彩色电视制(续3)

NTSC彩色电视制

20世纪50年代初美国国家电视系统委员会(National Television Systems Committee，NTSC)制定的彩色电视广播标准

S-Video(Separate Video)信号

也称Y/C Video 也有人称为Super Video 减少亮度信号和色差信号之间的交叉干扰不需使用梳状滤波器分离亮度信号和色差信号

两个优点

2011年1月23日
第9章数字电视基础
19/45
9.3 彩色电视信号的类型(续4)

多媒体技术基础03

对于采样频率为8kHz，样本精度为13位、14位或者16位的输入信号，使用m律压扩编码或者使用A律压扩编码，经过PCM编码器之后每个样本的精度为8位，输出的数据率为 64 kb/s。这个数据就是CCITT推荐的标准。
PCM与时分多路复用(TDM)
增量调制(△M)
增量调制(delta modulation，DM)是一种预测编码技术，是对实际的采样信号与预测的采样信号之差的极性进行编码，将极性变成 “0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为 “正”，则用“1”表示；相反则用“0”表示。 DM编码系统又称为“1位系统”。如下图所示。
增量调制(△M)(续)
如上图所示，DM调制会出现两种失真现象: 斜率过载和粒状噪声。
斜率过载
从上图可以看到，在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化，这种现象就称为增量调制器的“斜率过载”(slope overload)。
一般来说，当输入信号的变化速度超过反馈回路输出信号的最大变化速度时，就会出现斜率过载。之所以会出现这种现象，主要是反馈回路输出信号的最大变化速率受到量化阶大小的限制，因为量化阶的大小是固定的。
子带编码(SBC)(续)
图中的编码/译码器，可以采用 ADPCM，APCM，PCM等。
子带编码(SBC)(续)
由于分割频带所用的滤波器不是理想的滤波器，经过分带、编码、译码后合成的输出音频信号会有混迭效应。为了消除混迭效应，采用正交镜象滤波器(QMF)来划分频带。下面是QMF的幅频特性简化图和QMF滤波器的频率特性。
气流、声门可以等效为一个激励源，声道可以等效为一个时变滤波器(共振峰)。
话音信号具有很强的相关性(长期相关、短期相关 )。

多媒体技术基础第3版第2章数据无损压缩

*
*
2.0 数据无损压缩概述(续2)
2章数据无损压缩
The Father of Information Theory—— Claude Elwood Shannon Born: 30 April 1916 in Gaylord, Michigan, USA Died: 24 Feb 2001 in Medford, Massachusetts, USA
统计编码
编码特性
编码方法
香农-范诺编码霍夫曼编码算术编码
*
*
2.2.1 统计编码——香农-范诺编码香农-范诺编码(Shannon–Fano coding) 在香农的源编码理论中，熵的大小表示非冗余的不可压缩的信息量在计算熵时，如果对数的底数用2，熵的单位就用“香农(Sh)”，也称“位(bit)” 。“位”是1948年Shannon首次使用的术语。例如最早阐述和实现“从上到下”的熵编码方法的人是Shannon(1948年)和Fano(1949年)，因此称为香农-范诺(Shannon- Fano)编码法
2章数据无损压缩
02
霍夫曼(D.A. Huffman)在1952年提出和描述的“从下到上”的熵编码方法
根据给定数据集中各元素所出现的频率来压缩数据的一种统计压缩编码方法。这些元素(如字母)出现的次数越多，其编码的位数就越少
广泛用在JPEG, MPEG, H.26X等各种信息编码标准中
*
*
2.2.2 霍夫曼编码— Case Study 1 现有一个由5个不同符号组成的30个符号的字符串：BABACACADADABBCBABEBEDDABEEEBB 计算该字符串的霍夫曼码该字符串的熵该字符串的平均码长编码前后的压缩比霍夫曼编码举例1

数字媒体技术基础第三章数字音频处理技术

第二节数字音频压缩技术
2.2.4 音频压缩标准 1、MPEG-1音频标准：属于感知编码类型。它规定了三个不同层次的编码方案。Ⅰ、Ⅱ层建立在掩蔽模式通用子带和多路复用编码算法的基础之上。
Ⅲ层次编码复杂程度较大，应用于目前常见的 MP3音频文件编码。
2、 MPEG-2音频标准：经历了三个阶段，前两个阶段增加了低取样频率的应用，同时增加了单声道、双声道立体声、5.1声道立体声应用。有向后兼容的特点。第三阶段支持多声道应用，不向后兼容。
(1)霍夫曼编码霍夫曼编码是哈夫曼于1952年提出的一种代码长度不均匀的编码方法。它的基本原理是按信源符号出现的概率大小进行排序，出现概率大的分配短码，反之则分配长码。在分配码字时，需建立一株n阶完全二叉树。哈夫曼编码有时称为最佳编码，因为当符号的概率都是2的乘方时，哈夫曼编码中码字的平均长度达到最小的极限。即信源的熵。霍夫曼编码是消除编码冗余的最常用技术。
第二节数字音频压缩技术
（3）算术编码算术编码是一种较好的统计编码，每一符号对应[0，1]上的一个子空间，区间长度为该符号出现的概率。该方法将被编码的符号串表示为一个 0和1之间的一个区间。
第二节数字音频压缩技术
第二节数字音频压缩技术
2、有损压缩普通的无损压缩方法对信号的保真度高，但是信号传输占用带宽较宽，保存占有磁盘空间较大。所以，压缩技术的发展拓展了数字技术发展的平台。
1、语音合成语音合成最基本的目的是让机器模仿人类的语言发声来传送信息。例如：常见的自动化语音服务系统。（1）波形编码语音合成：以语句、短句、词和音节为合成单元，这些单元被分别录音后，直接进行数字编码，经适当数据压缩后组成数字语音库。重放时，根据待输出的信息，在语音库中取出相应单元的波形数据，串接或编辑在一起，经解码还原出声音。

多媒体技术基础第3版第3讲话音编码课件

Dolby Vision标准
Dolby Vision是一种高动态范围（HDR）视频技术标准，它通过增加亮度和颜色动态范围来提升图像质量。同时，Dolby Vision还支持音频和视觉的同步处理，提供更加沉浸式的观影体验。
04 音视频编码的应用场景
CHAPTER
流媒体应用
实时通信
通过音视频编码技术，实现实时语音和视频通话，如在线会议、
高清与超高清音视频编码技术需要更高的数据传输速率和存储空间，因此需要发展更高效的编码算法和传输技术，以降低数据传输成本和存储成本。
随着5G、物联网等技术的发展，高清与超高清音视频编码技术的应用场景将更加广泛，例如在智能家居、远程医疗、在线教育等领域。
人工智能与音视频编码的结合
人工智能技术为音视频编码提供了新的解决方案，例如利用深度学习技术进行视频压缩，可以显著提高压缩效率和图像质量。
远程教育等。
直播服务
音视频编码技术用于在线直播，如音乐会、比赛、新闻报道等，
让观众实时观看。
点播服务
音视频编码技术也用于提供点播服务，如在线电影、电视剧、短
视频等。
数字电视应用
数字电视广播
通过音视频编码技术，实现数字电视信号的传输和接收，提供高清、流畅的电视节目。
交互电视
音视频编码技术用于交互电视应用，如视频点播、时移电视、互动游戏等。
新一代视频压缩标准，支持更高的分辨率和帧率，适用于
4K和8K视频。
AV1
开源的视频编码标准，旨在提供更高的压缩效率和更好的版
权保护。
02 音视频编码技术
CHAPTER
音频编码技术
音频编码概述
音频编码是将模拟信号或数字信号转换为数字信号的过程，以便

第3章-数字声音编码

用公式表示为 fs ≥2f 或者 Ts ≤ T/2 其中f为被采样信号的最高频率
21 of 49
采样精度
每个声音样本的位数
样本位数越多，声音的质量越高，而需要的存储空间也越多；位数越少，声音的质量越低，需要的存储空间越少。
采样精度的另一种表示方法是信号噪声比-----SNR
SNR 10 log10
3.4声音质量的MOS评分标准 3.5 脉冲编码调制(PCM)
3.5.1 PCM的概念 3.5.2 均匀量化 3.5.3 非均匀量化
3.6 PCM在通信中的应用
3.6.1 频分多路复用 3.6.2 时分多路复用 3.6.3 数字通信线路的数据传输率
3.7 增量调制与自适应增量调制
3.7.1 增量调制(DM) 3.7.2 自适应增量调制(ADM)
A律压扩
A律压扩主要用在欧洲和中国大陆等地区的数字电话通信中，按下面的式子确定量化输入和输出的关系
0 ≤ |x| ≤ 1/A 计算时，A＝87.56
35 of 49
话音编码（补充）
G.711标准(普通电话标准):单声道、8位/样本、采样频率为8 kHz的话音数据流。使用μ率和A率压缩算法，信号带宽为3.4 kHz，压缩后的数据率为64 kb/s；

(Vsignal )2 (Vnoise )2

20
log10
Vsignal

Vnoise

Vsignal表示信号电压，Vnoise表示噪声电压；SNR的单位为分贝(db)
例：假设Vnoise＝1，采样精度为1位表示Vsignal＝21，信噪比SNR＝6分贝。
采样精度为8位表示Vsignal＝28，信噪比SNR＝6*8=48分贝

多媒体技术基础(林福宗)-03数字声音编码

3.11.1 编码算法的性能 3.11.2 话音编码标准
2013年8月23日
第3章数字声音编码
2 of 36
3.1 声音简介

声音是什么

声音是听觉器官对声波的感知，而声波是通过空气或其他媒体传播的连续振动声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上声音用电压信号表示时，声音信号在时间和幅度上都是连续的模拟信号，如图3-1所示声波具有普通波所具有的特性，例如反射 (reflection)、折射 (refraction)和衍射(diffraction)等
3.7 自适应差分脉冲编码调制
3.7.1 自适应脉冲编码调制(APCM) 的概念 3.7.2 差分脉冲编码调制(DPCM)的概念 3.7.3 自适应差分脉冲编码调制 (ADPCM) 3.7.4 G.726 ADPCM编译码器
3.3声音质量的MOS评分标准 3.4 脉冲编码调制(PCM)
3.4.1 PCM的概念 3.4.2 均匀量化 3.4.3 非均匀量化
图3-1 声音是一种连续的波
2013年8月23日
第3章数字声音编码
3 of 36
3.1 声音简介(续1)

声音的频率

高保真声音(high-fidelity audio): 10 ~ 20 000 Hz 声音(audio): 20~ 20 000Hz 话音(speech): 300~3000/3400 Hz 亚音/次音(subsonic): < 20 Hz 超声(ultrasonic): > 20 000 Hz
+
d (k )
量化器
d (k )
传输通道逆量化器

数字音视频技术_教学大纲

数字⾳视频技术_教学⼤纲数字⾳视频技术⼀、课程的任务和⽬的数字⾳视频技术是计算机科学与技术专业的⼀门限定性专业选修课。

本课程综合讲述了数字⾳视频技术的基本原理、关键技术及其开发和应⽤。

通过本课程的学习，是学⽣掌握的主要内容包括：多媒体计算机的定义及其关键技术；视频⾳频信息的获取与处理；多媒体数据压缩编码技术；多媒体计算机硬件及其软件系统结构；以及多媒体应⽤领域的核⼼技术。

为学⽣今后开展数字⾳视频领域的研究和开发⼯作，打下良好的基础。

⼆、课程内容与基本要求1.多媒体计算机技术概述熟练掌握多媒体计算机技术的定义、分类及其关键技术，了解多媒体技术促进通信、娱乐和计算机的融合，了解多媒体计算机技术的发展和应⽤。

2.视频信息的获取、处理和显⽰技术熟练掌握图像的彩⾊空间表⽰及其转换，掌握视频信号获取器的⼯作原理，了解视频信息的实时处理，以及常⽤的图像⽂件格式及其转换⽅法。

3.⾳频信息熟练掌握数字⾳频的采样和量化，熟悉⾳频编码的标准，了解语⾳合成与声⾳转换，⾳乐合成与MIDI规范。

4.多媒体数据压缩编码技术熟练掌握数多媒体数据压缩编码的必要性、可能性及其分类量化的原理，熟悉统计编码、预测编码及其变换编码原理，了解JPEG、H.261和MPEG编码标准。

5.多媒体计算机硬件及软件系统结构熟悉DVI系统中的⾳频/视频引擎、⾳频/视频⼦系统概念，掌握多媒体和通信功能在CPU芯⽚中的设计原则，了解现有媒体处理器及具有多媒体和通信功能的CPU芯⽚。

6.多媒体数据库与基于内容检索掌握多媒体数据、多媒体数据管理和多媒体数据库体系结构的概念，熟悉3种多媒体数据的模型，了解多媒体数据库基于内容检索的结构、关键技术以及设计与实现。

7.多媒体著作⼯具与同步⽅法了解多媒体著作⼯具、同步⽅法以及Ark的设计思想。

8.多媒体通信和分布式多媒体系统了解流媒体技术、视频会议系统以及交互式电视技术。

三、实践环节及基本要求共8学时：1．图像处理和图像⽂件格式转换实验（3学时）选取适当的图⽚素材和世界地图，运⽤各种选取⽅法制作⼀幅由世界名胜照⽚揉和在⼀起的背景，利⽤图层效果制作⼀幅有地形质感的世界地图，制作艺术字，⽤滤镜制作过渡⾊，并利⽤特殊拼合⽅式使之产⽣过渡⽞光的效果，调整并合并所有层，存储为各种图像⽂件格式并压缩。

多媒体技术基础.

多媒体技术基础
第二章多媒体信息的表示与压缩 2.1 文字一、西文（ASCII码）二、汉字（数字编码、拼音码、字型编码）
2.2 音频（Audio）
定义：20HZ～20KHZ的音频范围分类：波形声音、语音、音乐声音三要素：音调、音强、音色
一、数字音频
音频数字化：把模拟音频信号转换成有限个数字表示的离散序列。转换过程：选择采样频率，进行采样选择分辨率，进行量化形成声音文件
2、VOC文件 3、MIDI文件用于音乐，与WAV文件不同
二、乐器数字接口（MIDI）
MIDI信息实际上是一段音乐的描述，只记录产生某种声音的指令，指令中包括了使用MIDI设备的音乐、音量和持续时间长短信息。是数字化的乐谱，由音符序列、定时及合成音色的乐器定义组成。
三、数字化声音和MIDI的比较
编码过程
（1）将信源符号按概率递减顺序排列；（2）把两个最小的概率加起来，作为新符号的概率；（3）重复（1）和（2），直到概率和达到1 为止；（4）在每次合并消息时，将被合并的消息赋予1和0或0和1；（5）寻找从每一信源符号到概率为1的路径，记录下路径上的1和0 （6）对每一符号写出从码树的根到终结点1、 0序列
另外，MPEG中视频信号包含有静止画面（帧内图）和运动信息（帧间预测图）等不同的内容，量化器的设计比 JPEG 压缩算法的标准，除了解压后的数据有无失真或失真程度之外，是看压缩比的大小。压缩比常用的定义有两种：（1）采样压缩比（2）比特压缩比
2、算术编码
定义：是一种二元码的编码方法，在不考虑信源统计的情况下，只要监视一小段时间内码出现的频率，不管统计是平稳的或非平稳的，编码的码率总能趋近于信源熵值，每次迭代时的编码算法只处理一个数据符号，并且只有算术运算。

多媒体技术基础第3版课后答案

(7)
cb
(8)
bab
(9)
baba
(10)
aa
(11)
aaa
(12)
aaa
…
…
输出码字
(1) (2) (4) (3) (5) (8) (1) (10) (11) …
2.7 LZ78 算法和LZ77 算法的差别在哪里？ (1) LZ77 编码算法的核心是查找从前向缓冲存储器开始的最长的匹配串(2.4.2 LZ77 算
3.3 什么叫做采样？什么叫做量化？什么叫做线性量化？什么叫做非线性量化？ (1) 采样：在某些特定的时刻对模拟信号进行测量的过程。 (2) 量化：幅值连续的模拟信号转化成为幅值离散的数字信号的过程。 (3) 线性量化：在量化时，信号幅度的划分是等间隔的量化。 (4) 非线性量化：在量化时，信号幅度的划分是非等间隔的量化。
2.8 LZSS算法和LZ77 算法的核心思想是什么？它们之间有什么差别？ (1) LZSS通过输出真实字符解决了在窗口中出现没有匹配串的问题，但这个解决方案包
含有冗余信息。(2.4.3 LZSS算法) (2) LZ77 编码算法的核心是查找从前向缓冲存储器开始的最长匹配串(2.4.2 LZ77 算法)
3.1 音频信号的频率范围大约多少？话音信号频率范围大约多少？ (1) Audio: 20~20000 Hz (2) Speech: 300~3400 Hz
3.2 什么叫做模拟信号？什么叫做数字信号？ (1) 模拟信号是幅度或频率发生连续变化的一种信号。 (2) 数字信号是以二进制代码形式表示有无或高低的一种信号。
1.2 超链接是什么？超链接(hyper link)是两个对象或元素之间的定向逻辑链接，是一个对象指向另一个对象

多媒体技术教程（林福宗）第2章数字声音及MIDI简介

多媒体技术教程（林福宗）第2章数字声音及MIDI简介声音是携带信息的极其重要的媒体，是多媒体技术研究中的一个重要内容。

声音的种类繁多，如人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的雷声、风声、雨声、闪电声等。

这些声音有许多共同的特性，也有它们各自的特性。

在用计算机处理这些声音时，既要考虑它们的共性，又要利用它们的各自的特性。

本章将介绍声音的基础知识，重点掌握声音数字化的两个最基本的概念。

此外，还介绍在上网浏览或者脱机工作时你会经常遇到的声音文件存储格式和声音工具。

2.1 声音与听觉器官声音是通过空气传播的一种连续的波，叫声波。

声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。

声音用电表示时，声音信号在时间和幅度上都是连续的模拟信号，如图2－01所示。

声波具有普通波所具有的特性，例如反射(reflection)、折射(refraction)和衍射 (diffraction)等。

图2－01 声音是一种连续的波对声音信号的分析表明，声音信号由许多频率不同的信号组成，这类信号称为复合信号，而单一频率的信号称为分量信号。

声音信号的一个重要参数就是带宽，它用来描述组成复合信号的频率范围。

如高保真音信号(high-fidelity audio)的频率范围为10 Hz～20 000 Hz，它的带宽约为20 kHz，而视频信号的带宽是6 MHz。

声音信号的两个基本参数是频率和幅度。

信号的频率是指信号每秒钟变化的次数，用Hz表示。

例如，大气压的变化周期很长，以小时或天数计算，一般人不容易感到这种气压信号的变化，更听不到这种变化。

对于频率为几Hz到20 Hz的空气压力信号，人们也听不到，如果它的强度足够大，也许可以感觉到。

人们把频率小于20 Hz的信号称为亚音信号，或称为次音信号(subsonic)；频率范围为20 Hz～20 kHz的信号称为音频(Audio)信号；虽然人的发音器官发出的声音频率大约是80～3400 Hz，但人说话的信号频率通常为300～3000 Hz，人们把在这种频率范围的信号称为话音(speech)信号；高于20 kHz的信号称为超音频信号，或称超声波(ultrasonic)信号。

多媒体技术基础与实验教程3

名称
数据率
标准
应用
质量
64kbps
G.711
自适应量化差值量化自适应差值量化子带—自适应差值量化 32kbps 64kbps 5.3kbps 6.3kbps G.721 G.722 G.723
公共网 ISDN 配音
4.0～ 4.5
参数编码
混合编码
LPC
CELPC
线性预测编码
码激励LPC
2.4kbps
横坐标是频率，表示人所能听到的声音的频率范围
纵坐标是声压级，表示所有低于门限的声音信号人类一般听不到
绝对听觉门限曲线
1Bark f /100
临界频带
临界频带（Critical Band）是指一个纯音可以被以它为中心频率，并且具有一定频带宽度的连续噪声所掩蔽，在这一频带内噪声功率等于该纯音的功率。这使该纯音处于刚能被听到的临界状态，即称这一带宽为临界频带宽度。临界频带的单位叫Bark(巴克)。
3.1.2 数字音频

音频信号是时间和幅度都连续变化的一维模拟信号，要想在计算机中对它进行处理，就要将它变成时间和幅度都是离散的数字信号，所以数字音频是指音频信号经过离散化处理后再用一系列的数字来表示的信号，其特点是保真度好，动态范围大。数字音频可分为波形声音、语音和音乐。波形声音实际上包含了所有的声音形式，因此数字音频有时也泛称为声音。
计算机处理语音过程
语音识别
3.2 常用音频编码算法和标准
在音频编码技术三十余年的发展过程中，国际电报电话咨询委员会（CCITT）和国际标准化组织（ISO）先后提出了一系列有关音频编码的建议:
方法
波形编码
算法
PCM μ (A) APCM DPCM ADPCM SB— ADPCM 均匀量化 μ (A)

多媒体技术基础第3讲话音编码

第3章数字声音编码
24 of 46
3.5 PCM在通信中的应用(续2)
2019年3月2日
第3章数字声音编码
25 of 46
3.5 PCM在通信中的应用(续3)
2019年3月2日
第3章数字声音编码
26 of 46
3.5 PCM在通信中的应用(续4)
时分多路复用示意图
图3-7 二次复用示意图

增量调制

也称△调制(delta modulation，DM)，是一种预测编码技术对实际的采样信号与预测的采样信号之差的极性进行编码。如果实际的采样信号与预测的采样信号之差的极性为“正”，则用“1”表示；相反则用“0”表示，或者相反由于DM编码只须用1位对话音信号进行编码，所以DM编码系统又称为“1位系统”
2019年3月2日
第3讲话音编码
30 of 46
3.6 增量调制与自适应增量调制(续)
2019年3月2日
第3章数字声音编码
31 of 46
3.7 自适应差分脉冲编码调制

APCM的概念

APCM是什么

adaptive pulse code modulation的缩写，自适应脉冲编码调制根据输入信号幅度大小来改变量化阶大小的一种波形编码技术自适应
2019年3月2日
第3讲话音编码
6 of 46
3.1 话音类型
图3-02 浊音段的功率谱密度(power spectral density， PSD)
2019年3月2日
第3讲话音编码
7 of 46
3.1 话音类型

清音是由不稳定气流激励所产生的，这种气流是在声门处在打开状态下强制空气在声道里高速收缩产生的。

多媒体技术基础期末复习要点

《多媒体技术基础》期末复习要点浙江广播电视大学计算机科学与技术系（2002年12月）《多媒体技术基础》各章主要内容第一章多媒体技术概论1．多媒体、多媒体技术、多媒体系统2．促进多媒体技术发展的关键技术3．多媒体技术的特性4．多媒体系统的分类、组成第二章多媒体信息的表示1．多媒体数据的特点2．音频的定义以及分类，声音的三要素3．数字音频的含义，音频信号的数字化处理过程4．音频文件大小的计算、常见的声音文件格式5．MIDI的含义、MIDI与数字化声音的比较6．位图图像、矢量图形的概念；矢量图与位图比较7．监视器分辨率的分类，计算机中常用的颜色模型8．常见图像文件的格式9．造型动画和帧动画10．超文本与超媒体的概念，超文本的主要成分，超文本系统的三层模型第三章多媒体信息的压缩1．数据压缩技术的三个重要指标、有损压缩、无损压缩的概念2．Huffman编码、算术编码、预测编码、变换编码、模型编码的原理3．常用音频信号编码方法的原理4．音频信号压缩编码标准，影响音频信号质量的因素5．视频信号压缩编码的标准（JPEG、MPEG）6．RGB三基色信号转换YUV信号的换算、广播视频标准（NTSC、PAL、SECAM）第四章多媒体制作1．多媒体应用系统开发步骤2．数字音频的录制步骤、产生失真的原因及解决方法3．使用Adobe Premiere制作数字图像的方法、使用3D Studio制作动画的方法第五章多媒体开发环境和工具1．多媒体创作系统概念、功能及组成2．多媒体开发工具的类型、特征、功能3．多媒体开发的基本软件的主要特点4．Authorware多媒体制作软件的使用第六章多媒体应用系统开发1．多媒体应用系统的特点2．多媒体应用系统开发的各阶段及主要内容第七章多媒体卡1．音频卡的主要功能、工作原理、安装过程2．视频采集的概念3．数字视频较模拟视频的优点4．视频卡的安装5．MPEG解霸卡的主要特点、系统要求及安装过程第八章光盘与光驱1．CD-ROM的特点、支持标准2．光驱的控制接口分类及数据传输速率的含义3．光驱的分类、硬件安装与软件安装4．CD-ROM盘片的制作过程第九章常用多媒体设备1．常用多媒体设备的分类2．触摸屏的工作原理、分类、安装和设臵3．红外触摸屏的特点和工作原理4．扫描仪的工作原理，其各项性能指标的含义5．红外传输技术的特点6．实现语音输入的软硬件条件7．数码相机的工作原理、特点8．条形码的工作原理，常用的条码识读设备第十章多媒体应用1．多媒体教学软件的基本要求、教学设计2．多媒体视频会议系统的类型、基本功能、主要技术特点3．多媒体电子出版物的优点4．多媒体对数据库设计的影响，多媒体数据库系统的基本功能5．多媒体数据库管理系统的体系结构，以及各层的含义6．多媒体数据库中查询处理的难点和多媒体数据库用户接口设计中的重点第一章多媒体技术概论1-1.多媒体的概念（P1）文本、声音、图形、图像和动画等是信息的载体，其中两种或多于两种的组合构成了多媒体。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

主要有均匀量化和非均匀量化
2016年3月10日
第3章数字声音编码
13 of 36
3.4 脉冲编码调制(续2)

均匀量化

采用相等的量化间隔对采样得到的信号作量化。量化误差(量化噪声)：量化后的样本值Y和原始值X的差e=y-x。
[0,1.5]分成15个区间，间隔长度0.1，形成16个量化级。
2016年3月10日
第3章数字声音编码
4 of 36
3.2 声音信号数字化

数字化的概念采样和量化

连续时间的离散化通过采样来实现，就是每隔相等的一段时间采样一次，这种采样称为均匀采样(uniform sampling) 连续幅度的离散化通过量化(quantization)来实现，就是把信号的强度划分成一小段一小段，如果幅度的划分是等间隔的，就称为线性量化，否则就称为非线性量化。图3-2表示了声音数字化的概念
3.11.1 编码算法的性能 3.11.2 话音编码标准
2016年3月10日
第3章数字声音编码
2 of 36
3.1 声音简介

声音是什么
波是通过空气或其他媒体传播的连续振动声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上声音用电压信号表示时，声音信号在时间和幅度上都是连续的模拟信号，如图3-1所示声波具有普通波所具有的特性，例如反射 (reflection)、折射 (refraction)和衍射(diffraction)等
+
d (k )
量化器
(k ) d
传输通道逆量化器
PCM样本(k 1)
se (k 1)
预测器
+ +
d q (k )
+
sr (k )
2016年3月10日
图3-10 DPCM方块图
第3章数字声音编码
21 of 36
3.7 自适应差分脉冲编码调制(续5)

ADPCM的概念

ADPCM的中文术语为自适应差分脉冲编码调制 adaptive difference pulse code modulation的缩写综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码技术它的核心想法是：
第3章数字声音编码
2016年3月10日
20 of 36
3.7 自适应差分脉冲编码调制(续4)

DPCM原理

差分信号d(k)：离散输入信号s(k)和预测器输出的估算值se(k-1)之差 (k ) 对d(k)进行量化编码，得到 d
+ 8位 PCM样本 k - s (k 1)
e
s(k )
第3章数字声音编码
2016年3月10日
18 of 36
3.7 自适应差分脉冲编码调制

APCM的概念

APCM是什么

adaptive pulse code modulation的缩写，自适应脉冲编码调制根据输入信号幅度大小来改变量化阶大小的一种波形编码技术自适应

瞬时自适应，即量化阶的大小每隔几个样本就改变音节自适应，即量化阶的大小在较长时间里发生变化
2016年3月10日
第3章数字声音编码
19 of 36
3.7 自适应差分脉冲编码调制(续3)

DPCM的概念

DPCM是什么

DPCM中文术语为差分脉冲编码调制 differential pulse code modulation的缩写利用样本与样本之间存在的信息冗余来进行编码的一种数据压缩技术基本思想：根据过去的样本去估算下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数它与脉冲编码调制(PCM)不同的是，PCM是直接对采样信号进行量化编码，而DPCM是对实际信号值与预测值之差进行量化编码，存储或者传送的是差值而不是幅度绝对值，这就降低了传送或存储的数据量。可适应大范围变化的输入信号

比较：PCM是对每个采样信号的整个幅度进行量化编码
2016年3月10日
图3-8 DM波形编码示意图
第3章数字声音编码
17 of 36
3.6 增量调制与自适应增量调制(续)

自适应增量调制(ADM) 根据输入信号斜率的变化自动调整量化阶Δ 的大小，以使斜率过载和粒状噪声都减到最小。在检测到斜率过载时开始增大量化阶Δ，而在输入信号的斜率减小时降低量化阶Δ
第3章数字声音编码
第3章数字声音编码目录
3.1 声音简介
3.1.1 声音是什么 3.1.2 声音的频率范围
3.6 增量调制与自适应增量调制
3.6.1 增量调制(DM) 3.6.2 自适应增量调制(ADM)
3.2 声音信号数字化
3.2.1 从模拟过渡到数字 3.2.2 模拟信号与数字信号 3.2.3 声音信号数字化 3.2.4 声音质量与数据率
电话* AM FM CD
DAT
48
16
立体声
1536.0
20～20000
*AM: amplitude modulation FM: frequency modulation
2016年3月10日
CD: compact disc audio DAT: digital audio tape
第3章数字声音编码
其中，Vsignal表示信号电压，Vnoise表示量化噪声电压(模拟信号的采样值和与它最接近的数字数值之间的差值)，SNR的单位为分贝(db)
2016年3月10日
第3章数字声音编码
8 of 36
3.2 声音信号数字化(续4)

声音质量和数据率—— 质量度量
质量采样频率 (kHz) 8 11.025 22.050 44.1 样本精度单道声/立 (未压缩的) (bit/s) 体声数据率(kb/s) 8 8 16 16 单道声单道声立体声立体声 64.0 88.2 705.6 1411.2 频率范围 (Hz) 200～3 400 20～15000 50～7000 20～20000
图3-4 均匀量化
2016年3月10日
第3章数字声音编码
14 of 36
3.4 脉冲编码调制(续3)

非均匀量化大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔可在满足精度要求的情况下用较少的位数来表示声音数据还原时，采用相同的规则
图3-5 非均匀量化
2016年3月10日
9 of 36
3.3 声音质量的MOS评分标准

声音质量的衡量方法

声音带宽法

等级由高到低依次是DAT、CD、FM、AM和数字电话度量方法类似于电视节目中的歌手比赛，由评委对每个歌手的表现进行评分，然后求出平均值

主观质量度量

有时同时采取两种方法评估，有时以主观质量度量为主
2016年3月10日

图3-3 PCM编码原理框图
2016年3月10日
第3章数字声音编码
12 of 36
3.4 脉冲编码调制(续1)

PCM实际上是模拟信号数字化

模拟声音数字化的两个步骤：第一步是采样，就是每隔一段时间间隔读一次声音的幅度第二步是量化，就是把采样得到的声音信号幅度转换成数字值

量化的方法
第3章数字声音编码
15 of 36
3.5 PCM在通信中的应用
2016年3月10日
第3章数字声音编码
16 of 36
3.6 增量调制与自适应增量调制

增量调制

也称△调制(delta modulation，DM)，是一种预测编码技术对实际的采样信号与预测的采样信号之差的极性进行编码。如果实际的采样信号与预测的采样信号之差的极性为“正”，则用“1”表示；相反则用“0”表示，或者相反由于DM编码只须用1位对话音信号进行编码，所以DM编码系统又称为“1位系统”
第3章数字声音编码
10 of 36
3.3 声音质量的MOS评分标准(续)

主观平均分(mean opinion score，MOS)

对声音主观质量度量比较通用的标准是5分制，各档次的评分标准见表3-2 表3-2 声音质量MOS评分标准
分数
5 4 3 2 1
质量等级
优(Excellent) 良(Good) 中(Fair) 差(Poor) 劣(Bad) 无察觉
f s 2 f max
2016年3月10日
第3章数字声音编码
6 of 36
3.2 声音信号数字化(续2)

采样精度

度量声音波形幅度的精确程度，用每个声音样本的位数(即bps)表示例如每个声音样本用16位表示，测得的声音样本值是在[0～65535]范围里的数，它的精度是 1/65536 精度是在模拟信号数字化过程中度量模拟信号的最小单位，因此也称量化阶(quantization step size) 0～1 V的电压用256个数表示时，量化阶等于 1/256 V 样本位数的大小影响到声音的质量，位数越多，声音质量越高，所需存储空间也越多；位数越少，声音质量就越低，所需存储空间也越少
3.8 G.722 SB-ADPCM编译码器
3.8.1 子带编码(SBC) 3.8.2 子带-自适应差分脉冲编码调制 (SB-ADPCM)
3.5 PCM在通信中的应用
3.5.1 频分多路复用 3.5.2 时分多路复用 3.5.3 数字通信线路的数据传输率

多媒体技术基础(林福宗)-03数字声音编码

上海大学875多媒体技术基础考研专业课笔记

《多媒体技术基础》第3版第09章_数字电视基础

多媒体技术基础03

多媒体技术基础第3版第2章数据无损压缩

数字媒体技术基础 第三章 数字音频处理技术

多媒体技术基础第3版第3讲话音编码课件

第3章-数字声音编码

多媒体技术基础(林福宗)-03数字声音编码

数字音视频技术_教学大纲

多媒体技术基础.

多媒体技术基础第3版课后答案

多媒体技术教程（林福宗）第2章数字声音及MIDI简介

多媒体技术基础与实验教程3

多媒体技术基础第3讲话音编码

多媒体技术基础期末复习要点

数字媒体技术基础第三章数字音频处理技术