西安石油大学数字媒体与技术数字音视频技术期末复习提纲

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、 M IDI

1、 MIDI 全称——Musical Instrument Digital Interface 乐器数字化接口。

2、概念：用于在音乐合成器、乐器和计算机之间交换音乐信息的一种标准协议

3、 MIDI 的核心构成：演奏控制器、合成器和音序器

4、 MIDI 合成器的两种类型：FM 合成器（频率调制合成法）、WAVETABLE 合成器（波

形表合成法）

5、分析WAVE 文件与MIDI 文件的区别：

WAVE 文件：文件后缀是.wav

特点：真实记录自然声波行；使用设备录制声音；数据量大

MIDI 文件：是MIDI 指令的集合，文件后缀是.MID （记录乐曲演奏的音符和乐器，而不是乐曲本身，所以MIDI 音频的存储量较小，1小时的乐曲其MIDI 文件数据为1MB ）

二、熵

1、概念：是信息量的度量方法，表示某一事件出现的消息越多，事件发生的可能性越

小，数字上概率越小。

2、表达式：

Pi 为第i 个事件的概率，0

含义：信源X 发出任意一个随机变量的平均信息量

3、例：有一幅40个象素组成的灰度图像，灰度共有5级，分别用符号A 、B 、C 、D 和

E 表示，40个象素中出现灰度A 的象素数有15个，出现灰度B 的象素数有7个，出现灰度C 的象素数有7个等等，如表所示。如果用3个位表示5个等级的灰度值，也就是每个象素用3位表示，编码这幅图像总共需要120位。

H(S) = (15/40) log2 (40/15) + (7/40) log2 (40/7)

+ (7/40) log2 (40/7) + (6/40) log2 (40/6)

+ (5/40) log2 (40/5) =2.196

三、冗余

1、冗余——信息具有的各种性质中多余的无用空间

2、冗余度——多余的无用空间的程度

3、信息量与冗余之间的关系：

I = D – du

I-信息量 D-数据量 du-冗余度（包含在D 数据量中）

4、冗余的分类

a) 空间冗余：视频图像在水平方向相邻像素之间、垂直方向相邻像素之间的变

化一般都很小，存在着极强的空间相关性，又称为帧内相关性

)

p(x )p(x H(X)i n i i 21log ∑

=-=

b)时间冗余：在相邻场或相邻帧的对应像素之间，亮度和色度存在着极强的相

关性，称为帧间冗余或时间相关性

c)结构冗余：图像的纹理区，图像的像素值存在着明显的分布模式，可以通过

分布模式生成图像，称为结构冗余

d)知识冗余：图像与某些知识有跟大相关性。

e)信息熵冗余：编码冗余，数据懈怠的信息

f)视觉冗余：人眼有视觉非均匀特性、对视觉不敏感的信息可以适当地舍弃。

g)图像区域的相同性冗余：图像中两个或多个区域所对应的像素值相同或相近，

从而产生的数据重复性存储，叫图像区域的相似性冗余

h)纹理的统计冗余：图像纹理不服从某一分布规律，但统计的意义上服从该规

律，利用这种性质也可以减少表示图像的数据量，叫纹理的统计冗余

四、压缩

1、数据压缩的条件（多媒体数据压缩编码的必要性）：数据存在冗余（重复数据、可

忽略数据）；不敏感因素（颜色、亮度、频率、细节）；数据传输与存储空间的限制

（压缩→传输或存储→解压缩）

2、数据所的分类

a)信息在压缩过程中是否有丢失

i.无损压缩：压缩前和解压后的数据完全一致

ii.有损压缩：解压后的数据与压缩前的数据不一致

b)压缩算法

i.帧内压缩：利用空间冗余对一帧画面进行压缩（空间压缩）

ii.帧间压缩：比较时间轴上不同帧之间的数据进行压缩（时间压缩）

c)对称编码和不对称编码

i.对称编码：指压缩和解压缩占用相同计算处理能力和时间

ii.不对称编码：压缩需要大量的处理能力和时间，解压缩能较好地实时回放，以不同的速度进行压缩和解压缩

d)压缩比：压缩后与压缩前的比值（音频MPEG达50:1,视频达200：1）

3、图像压缩编码：

a)数据压缩：对给定信息，设法减少表达这些信息的数据量

b)方法：压缩掉冗余数据

c)图像编码：对图像信息进行压缩编码，在存储、处理和传输前进行

d)图像解码：对压缩图像进行解压以重建原图或其近似图像

4、运动估计：将活动图像分为若干局部结构，检测出每个局部结构在前一帧图像中的

位置，估计出这个结构的位移，用运动矢量表示

5、运动估计：有位移估值建立局部结构在不同的空间位置对应关系，用前一帧图像中

的对应部分对当前帧中的局部结构进行预测

6、运动估计与运动补偿预测编码步骤：

a)分割图像为若干局部结构——划分静止和运动区域

b)运动估计——对每一个运动物体进行位移估计

c)运动补偿——由位移估计建立同一运动物体在不同帧空间位置对应关系，建

立预测关系

d)对运动补偿后的位移帧差信号、运动矢量进行编码传输

7、图像压缩方法

a)帧内图像I

b)预测图像P

c)双向预测图像B

i.帧内图像I的压缩编码算法：帧内图像I是真正的图片，不参照任何过去

的或者将来的其他图像帧，压缩编码采用类似JPEG压缩算法

离散预选变化（DCT：Discrete Cosine Transform）：DCT是将图像信号在频率域上进项变化，分离出高频和低频信息的处理过程。

量化：按人眼的生理特征对低频分量和高频分量设置不同的机，会使大多数高频分量的系数变为零

一般，人眼对低频分量比较敏感，而对高频分量不太敏感。因此对低频分量采用较细的量化，而对高频分量采用较粗的量化

Zig-Zig扫描：用适当的扫面方式将已量化的二维DCT系数矩阵变换为一维序列，所用的扫描方式应使序列中连续零的数目尽量多，或者说使连零的游程尽量长。

差值脉冲编码（DPCM）：图像基本上由面积较大的像块组成。虽然每个像块的幅值各不相同，但像块内各样值得幅度是相近的或相同的，幅值越变部分只占整幅图像的很小一部分。这意味着前后像素之差或前后帧间相应位置像素之差为零或差值小的概率大，差值大的概率小。

游程编码（RLE Run Length Coding）游程编码是一种十分简单的压缩方法，它将数据流中连续出现的字符用单一的记号来表示

霍夫曼（Huffman）编码：

霍夫曼编码是一种可变长编码。过程如下：

(1) 将输入信号符号以出现概率由大至小为序排成一列。

(2) 将两处最小概率的符号相加合成为一个新概率，再按出现概率的大小排序。

(3) 重复步骤(2)，直至最终只剩两个概率。

(4) 编码从最后一步出发逐步向前进行，概率大的符号赋予“0”码，另一个概率赋予“1”码，直至到达最初的概率排列为止。

ii.预测图像P的压缩编码算法：

iii.双向预测图像B的压缩编码算法:

五、信号

1、模拟信号：时间和幅值连续的信号

2、数字信号：时间和幅值离散的数字表示信号