第四章 多媒体数据压缩编码技术
Chapter4多媒体数据压缩与编码技术
0
1 1 1 1 s1 01 s2 1 0011 s5
s1 s2 s3 s4 s5
0.4 0.2 0.2 0.1 0 0.1 1
0.4 0.2 0.20 1 0.2
0.4
0.6 0
1 01 000 0010 0011
1 2 3 4 4
0 0.4 1 0.4 1 0.2
表2 例1的霍夫曼码树
平均码长=0.4×1+0.2×2+0.2×3+0.1×4+0.1×4=2.2
4.3.1 音频压缩编码的基本方法
音频压缩方法
无失真压缩 Huffman编码 波形编码 行程编码 全频带编码 PCM DPCM ADPCM 参数编码 混合编码 有失真压缩
线性预测LPC
矢量和激励线 性 预 测 VSELP 多脉冲线性 预 测 MPLPC 码本激励线 性 预 测 CELP
子带编码 自适应变换编码ATC 心理学模型 矢量量化
例1 设离散无记忆信源
s3 s4 s5 S s1 s2 P 0.4 0.2 0.2 0.1 0.1
对其进行霍夫曼编码,编码过程如表1所示
表1 霍夫曼编码
信源符号 si 概率 p(si) 编码过程 S1 S2 S3 码字 Wi 码长 li 0 0 000 s3 1 0 0010 s4
另一方面,视频、图像和声音这些媒体确 实又具有很大的压缩潜力,数据的冗余很 大。例如,位图图像的像素之间无论在行 方向和列方向上都有很大相关性。因此, 在允许一定限度的失真前提下,能够对图 像数据进行压缩。
4.1.1 数据冗余的类型
图像、视频和音频中存在的数据冗余类型 一般有以下几种:
(1) 空间空余
第4章_多媒体数据压缩编码技术
2020/1/22
16
4.1多媒体数据压缩技术概述
➢ 根据解码后数据与原始数据是否完全一致可以分为两大类: 有损压缩和无损压缩。
有损压缩(有失真压缩):是指使用压缩后的数据进行重构,重构后的 数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成 误解。有损压缩适用于重构信号不一定非要和原始信号完全相同的场 合。大多数图像、声音、动态视频等数据的压缩是采用有失真压缩输带宽,进行实时高质的多媒体 通信,必须对多媒体数据进行压缩编码
多媒体信源引起了“数据爆炸”,如果不进行数 据压缩,传输和存储都难以实用化。
2020/1/22
4
4.1多媒体数据压缩技术概述
1分钟数字音频信号需要的存储空间
2020/1/22
5
4.1多媒体数据压缩技术概述
2020/1/22
12
4.1多媒体数据压缩技术概述
➢ 图象质量
无损压缩: 图象质量不变。 有损压缩:失真情况很难量化,只能对测试的图象进行估计。 模拟图象质量的指标:信噪比、分辨率、颜色错,但必须在观察了实
际图象以后。
2020/1/22
13
4.1多媒体数据压缩技术概述
➢ 压缩 / 解压速度
另外,也必须考虑每个压缩算法所需的硬件和软件。
2020/1/22
11
4.1多媒体数据压缩技术概述
➢ 压缩比
压缩性能常常用压缩比定义 输入数据和输出数据比
〖例〗一幅512×480pixels图像,24bit/pixel 输入=512×480×(24/8)=737280 byte 输出15000 byte 压缩比=737280/15000=49
➢ 压缩的可能
空间冗余:在同一幅图像中,规则物体和规则背景的表面物理 特性具有相关性,这些相关性的光成像结果在数字化图像中就 表现为数据冗余。如当一幅图象中同一种颜色不止一个象素点, 若相邻的象素点的值相同,象素点间(水平、垂直)有冗余; 当图象的一部分包含占主要地位的垂直的源对象时,相邻线间 存在冗余。
多媒体技术_多媒体数据压缩编码技术
4.知识冗余
图像的理解与某些基础知识有关。 例:人脸的图像有同样的结构:嘴的上方有鼻子, 鼻子上方有眼睛,鼻子在中线上…… 知识冗余是模型编码主要利用的特性。
5.视觉冗余
人的视觉系统对图像场的敏感性是非均匀、 非线性的。 (1)对图像亮度和色差的敏感性相差很大 Y:U:V=8:4:4 或者Y:U:V=8:2:2 (2)随着亮度增加,视觉系统对量化误差的敏感 度降低。 (3)人的视觉系统把图像边缘和非边缘区域分开 处理。
第四章、多媒体数据压缩编码技术
本章要点
(1)多媒体数据压缩编码的重要性和分类。 (2)量化的基本原理和量化器的设计思想。 (3)常用压缩编码算法的基本原理及实现技术、 预测编码、变换编码、统计编码(Huffman编码、 算术编码)。 (4)静态图像压缩编码的国际标准(JPEG)原 理、实现技术,以及动态图像压缩编码国际标 准(MPRG)的基本原理。
4.2.2 标量量化器的设计
量化器的设计要求 通常设计量化器有下述两种情况: 1. 给定量化分层级数,满足量化误差最小。 2. 限定量化误差,确定分层级数,满足以尽 量小的平均比特数,表示量化输出。
量化方法有标量量化和矢 量量化之分,标量量化又可分 为,均匀量化、非均匀量化和 自适应量化。
(1)均匀量化
例如:从64个数中选出某一个数。可先问“是 否大于32?”消除半数的可能,这样只要6次就可选 出某数。 如果要选择的数是35,则过程如下: 1.大于/小于 32? 大 2.大于/小于 32+16=48? 小 3.大于/小于 48-8=40? 小 4.大于/小于 40-4=36? 小 5.大于/小于 36-2=34? 大 6.大于/小于 34+1=35 等
(4)混合编码
09第四章多媒体数据压缩编码技术1
回想一下如果用计算机中常用的 ASCII 编码,表示上面的字符串我们需要整整 80 位呢!现在知道信息为什么能被压缩而不丢 失原有的信息内容了吧。简单地讲,用较少 的位数表示较频繁出现的符号,这就是数据 压缩的基本准则 压缩的基本准则。
LNTU
LNTU 20
例如 : 要从 256 个数中选定某一个数 可以先提问 “是否大于 128 ?’,不论回答是与否,则 半数的可能事件被取消。如果继续询问下去, 每次询问将对应一个lbit的信息量。随着每次 询问,都将有半数的可能事件被取消,这个 过程由下列公式表示:log2256=8bit
LNTU 13
LNTU 14
今天的程序员们和设计师们往往乐此不疲地 为计算机更换更大的硬盘,增加更多的内存,其 主要目的是为了存放和处理越来越多的声音、图 像和视频数据。对声音、图像、视频等多媒体信 息的压缩有两条思路,要么采用成熟的通用数据 压缩技术进行压缩,要么根据媒体信息的特性设 计新的压缩方法。 在 GIF 格式中,GIF 可以把原始图形文件以 非常小数据量存储,可以在同一个文件中存储多 幅图像从而实现动画效果。GIF 中的图像使用 LZW方法压缩 。GIF 大概是使用通用压缩技术压 缩图像信息的最成功的例子. GIF 精确地保留了原始图像的每一个像素信 息,是无损图像压缩的代表。
从公式看出,对于256个数的询问只要 进行8次,即可确定一个具体的数。设从N个 数中选定任意一个数x的概率为p(x).假 定选定任意一个数的概率都相等,即p(x) =1/N,则信息量为:
I ( x ) log N log 1 / N log p ( x ) I [ p ( x )]
80 年代中期以后,人们对 LZ77 进行了改 进,随之诞生了一批我们今天还在大量使用的 压缩程序。Haruyasu Yoshizaki(Yoshi) 的 LHarc 和 Robert Jung 的 ARJ 是其中两个著名 的例子。LZ77 得以和 LZ78、LZW 一起垄断 当今的通用数据压缩领域。 目前,基于字典方式的压缩已经有了一个 被广泛认可的标准 从古老的 PKZip 被广泛认可的标准,从古老的 PKZi 到现在 的 WinZip,特别是随着 Internet 上文件传输的 流行,ZIP 格式成为了事实上的标准,没有哪 一种通用的文件压缩、归档系统敢于不支持 ZIP 格式。 winrar
ch4-多媒体数据压缩编码技术
原始的多媒体数据
可用信息 冗余数据
11
音频中的冗余
• 音频中的冗余信息主要有:
1. 时域冗余
– 幅度的非均匀分布;样本间的相关性;周期 之间的相关性;基音之间的相关性;静止系 数(间隔);长时自相关函数。
2. 频域冗余
– 非均匀的长时功率谱密度;语音特有的短时 功率谱密度。
3. 人耳的听感觉分辨能力有限。
15
c. 结构冗余
• 有些图像中有规则纹理,其像素值存在 明显的分布模式,
规则的纹理图像
• 只要知道分布模式,便可通过某种方法 生成图像,这种数据冗余即结构冗余。
16
d. 知识冗余
• 对图像的理解有时与某些知识有相当大的相关 性,例如人脸的图像就具有同样的五官位置。
• 可以根据已有的知识构造基本模型,并创建特 征图像库,则只需提供少量的特征参数信息便 可生成图像,这种数据冗余即知识冗余。
?第一节数据压缩编码概述11多媒体数据压缩编码的重要性12多媒体数据压缩编码的可能性13多媒体数据压缩编码的分类13多媒体数据压缩编码的分类411数据压缩编码的重要性?在多媒体技术中处理的多媒体数据都应是数字信号传统的媒体信息需要进行采样和量化后方能在计算机中处理
ch4-多媒体数据压缩2
第四章的内容
1. 多媒体数据压缩编码概述
− 重要性、可能性、分类
2. 脉冲编码调制PCM 3. 统计编码:Huffman编码、算术编码 4. 预测编码:DPCM、ADPCM、帧间预测 5. 变换编码 6. 多媒体数据压缩编码的国际标准
− JPEG、MPEG
3
第一节 数据压缩编码概述
1.1 多媒体数据压缩编码的重要性 1.2 多媒体数据压缩编码的可能性 1.3 多媒体数据压缩编码的分类
《多媒体技术》电子教案:多媒体数据压缩编码技术
多媒体技术电子教案:多媒体数据压缩编码技术一、多媒体数据压缩编码技术概述多媒体技术是指利用计算机技术将文字、图像、音频、视频等多种形式的信息进行集成,并能够对它进行处理、传输和存储,以提供更好的用户体验。
在多媒体技术中,数据压缩编码技术是非常重要的一个部分。
数据压缩编码技术可以将多媒体数据进行压缩,以便更有效地存储和传输。
该技术可以通过减少数据冗余、淘汰不必要的数据等方式来降低多媒体文件的大小。
数据压缩编码技术有很多种不同的方法,如无损压缩和有损压缩等。
二、无损压缩技术无损压缩技术是将多媒体数据进行无损压缩,即在不损失数据质量的情况下,将文件大小进行压缩。
常见的无损压缩技术包括:Run Length Encoding(RLE)、标志赋值编码、霍夫曼编码等。
1. Run Length Encoding(RLE)Run Length Encoding(RLE)是一种简单的数据压缩编码技术,它通过识别文件中连续出现的相同数据并进行编码来压缩多媒体数据。
例如,当一张图像中有大量相同的像素时,RLE可以将它们表示为一个像素值和一个重复次数的序列,从而达到压缩数据的目的。
2. 标志赋值编码标志赋值编码也是一种简单的无损压缩技术,它可以通过对多媒体数据中的不同符号/颜色赋予不同的标志来将其进行压缩。
例如,一种常见的标志赋值编码技术是算术编码。
3. 霍夫曼编码霍夫曼编码是一种无损压缩技术,它利用统计学原理来压缩多媒体数据。
该编码技术通过对多媒体数据中出现频率较高的符号/颜色分配短码,对出现频率较低的符号/颜色分配长码,从而达到对数据进行压缩的目的。
三、有损压缩技术有损压缩技术是将多媒体数据进行有损压缩,即在一定程度上损失数据质量的情况下,将文件大小进行压缩。
常见的有损压缩技术包括:数据降采样、量子化、离散余弦变换(DCT)、离散小波变换(DWT)等。
1. 数据降采样数据降采样也是一种简单的有损压缩技术,它通过减少音频和视频数据的采样率和比特率来达到压缩文件大小的目的。
第四章 多媒体数据压缩编码技术
MPEG(Motion picture Experts Group) 是运动图像专家小组的英文缩写 MPEG标准主要有MPEG-l、MPEG-2、 MPEG-4和正在制定的MPEG-7等
多媒体数据压缩编码的国际标准
1.静态图像压缩编码的国际标准(JPEG)
– JPEG(Joint Photographic Experts Group
– JPEG专家组开发了两种基本的压缩算法: 采用以DCT为基础的有损压缩算法 采用以预测技术为基础的无损压缩算法
– 在JPEG标准中定义了四种编码模式: 顺序编码 累进编码 无失真编码 分层编码
多媒体数据压缩编码的国际标准
JPEG图像的压缩比与质量
JPEG在使用DCT进行有损压缩时,压缩比可 调整在压缩10~30倍后,图像效果仍然不错, 因此得到了广泛的应用。
(a) 原图
(b) 压缩效果图
图 d 四次小波变换编码的实验结果
预测编码
预测编码的基本原理 自适应预测编码 帧间预测编码
变换编码
变换编码不是直接对空域图像信号进行编码,而是 首先将空域图像信号映射变换到另一个正交矢量空间 (变换域或频域),产生一批变换系数,然后对这些 变换系数进行编码处理。变换编码是一种间接编码方 法,其中关键问题是在时域或空域描述时,数据之间 相关性大,数据冗余度大,经过变换在变换域中描述, 数据相关性大大减少,数据冗余量减少,参数独立, 数据量少,这样再进行量化,编码就能得到较大的压 缩比。目前常用的正交变换有:傅立叶 (Fouries)变换、 沃尔什(Walsh)变换、哈尔(Haar)变换、斜(Slant)变换、 余弦变换、正弦变换、K-L(Karhunen-Loeve)变换等。
多媒体数据压缩编码技术ppt课件
(1)信源符号按概率大小顺序排列,按逆次 序分配码字的长度。
(2)出现概率最小的两个符号概率相加合成 一个新概率。
(3) 将合成概率看成一个新组合符号概率, 重复上述做法,直到最后只剩下两个符号 概率为止。
(4) 反过来逐步向前编码,每层有两个分 支,分别赋予0和1,构成Huffman码字。
可编辑ppt
可编辑ppt
2
多媒体数据压缩的可能性
• 空间冗余 • 时间冗余 • 结构冗余 • 知识冗余 • 视觉冗余 • 图像区域的相同性冗余 • 纹理的统计冗余
可编辑ppt
3
多媒体数据压缩方法的分类
按压缩方法分:(根据质量) (1) 有损压缩 (2) 无损压缩
可编辑ppt
4
按压缩方法分: (1) 脉冲编码调制 (2) 预测编码 (3) 变换编码 (4) 统计编码 (5) 混合编码
10
哈夫曼编码
• 变字长编码定理:最佳编码定理
在变字长编码中,对于出现概率大的信 息符号,编以短字长的码,对于出现概 率小的信息符号编以长字长的码,如 果码字长度严格按照符号概率的大小 的相反顺序排列,则平均码字长一定 小于按任何其他符号顺序排列方式得 到的码字长度。
可编辑ppt
11
哈夫曼编码步骤
运动补偿方法是跟踪画面内的运动情况 对其加以补偿之后再进行帧间预测。
可编辑ppt
22
预测编码方法的特点
• 算法简单,速度快,易于硬件实现 • 编码压缩比不太高 • 误码易于扩散,抗干扰能力差
可编辑ppt
23
4.5.1 变换编码
• 变换编码是进行一种函数变换,映射 变换从信号域变换到另一个信号域。
可编辑ppt
5
多媒体应用-多媒体数据压缩与编码技术
第4章多媒体数据压缩与编码技术本章重点:编码模型编码压缩方法分类统计编码的基本原理预测编码的基本原理变换编码的基本原理视频编码的基本原理第4章多媒体数据压缩与编码技术4.1 编码压缩的必要性与可能性4.2 编码模型4.3 编码压缩方法分类4.4 统计编码4.5 预测编码4.6 变换编码4.7 其他编码4.8 视频编码4.9 本章小结4.1 编码压缩的必要性与可能性4.1.1 编码压缩的必要性4.1.2 编码压缩的可能性4.1.1 编码压缩的必要性n众所周知,图像量化所需数据量大。
图像和视频的庞大数据对计算机的处理速度、存储容量都提出过高的要求。
因此必须进行数据量压缩。
n从传送的角度来看,在信道带宽、通信链路容量一定的前提下,采用编码压缩技术,减少传输数据量,是提高通信速度的重要手段。
因此,更要求数据量压缩。
4.1.2 编码压缩的可能性众所周知,视频由一帧一帧的图像组成,而图像的各像素之间,无论是在行方向还是在列方向,都存在着一定的相关性,即冗余度。
应用某种编码方法提取或减少这些冗余度,便可以达到压缩数据的目的。
常见的静态图像数据冗余包括:n1.空间冗余这是静态图像存在的最主要的一种数据冗余。
一幅图像记录了画面上可见景物的颜色。
同一景物表面上各采样点的颜色之间往往存在着空间连贯性,从而产生了空间冗余。
4.1.2 编码压缩的可能性n2.时间冗余在视频的相邻帧间,往往包含相同的背景和移动物体,因此,后一帧数据与前一帧数据有许多共同的地方,即在时间上存在大量的冗余。
n3.结构冗余在有些图像的纹理区,图像的像素值存在着明显的分布模式。
例如,方格状的地板图案等。
我们称这种冗余为结构冗余。
n4.知识冗余有些图像的理解与某些知识有相当大的相关性。
例如,人脸的图像有固定的结构。
这类4.1.2 编码压缩的可能性规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。
n5.视觉冗余事实表明,人类的视觉系统对图像场的敏感性是非均匀的和非线性的。
第4章多媒体数据压缩与编码技术
举例2:目前的WWW互联网包含大量的图像信息,如果图像信息的数 据量太大,会使本来就已经非常紧张的网络带宽变得更加不堪重负 (World Wide Web变成了World Wide Wait)
• 例:如果用8位表示下面图像的像素,我们就说该图像存在着编码 冗余,因为该图像的像素只有两个灰度,用一位即可表示。
4.1.3 数据压缩技术的性能指标
• 有三个关键参数评价一个压缩系统
– 压缩比
• 压缩性能常常用压缩比定义(输入数据和输出数据比)
– 图象质量
• 无损压缩 (图象质量不变) • 有损压缩,
• 两个文件的大小之比(压缩比)确定了压缩的程度。
冗余信息和不相关的信息
一个商人在旅行的归途中收到如下消息: 你的妻子,Helen,将于明天晚上6点零5分在波士顿的Logan机场 接你。
删除冗余信息(redundancy)(已知信息): 你的妻子将于明晚6点零5分在Logan机场接你。 没有信息损失。
– 以目前常用的位图格式的图像存储方式为例,像素与像素之间无论是在行 方向还是在列方向都具有很大的相关性,因而整体上数据的冗余度很大, 在允许一定限度失真的前提下,能够对图像数据进行很大程度的压缩。
数据压缩如何压缩?
• 数据压缩:以较少的数据量表示原始信源的信息 • 数据压缩的目的:节省存储空间、传输时间、信号频带或
………… 可见,数字图像的庞大数据对计算机的处理速度、存储容 量都提出过高的要求。单纯依靠增加存储器容量和改善信 道带宽无法满足需求,必须进行数据压缩。
4.1.1 编码压缩的必要性
众所周知,音频、图像、视频的数据量很大。庞大数据对计算机的处理 速度、存储容量都提出过高的要求。如果不进行处理,计算机系统几乎 无法对它进行存取和交换,因此必须进行数据量压缩。
多媒体数据压缩编码技术
1.压缩的需要
• 这样大的数据量,无疑给存储器的存储容量、通 信干线的信道传输率以及计算机的速度都增加了 极大的压力。 • 解决这一问题,单纯用扩大存储器容量、增加通 信干线的传输率的办法是不现实的。数据压缩技 术是个行之有效的方法。 • 通过数据压缩手段把信息数据量压下来,以压缩 形式存储和传输,既节约了存储空间,又提高了 通信干线的传输效率,同时使计算机实时处理音 频、视频信息,以保证播放出高质量的视频、音 频节目成为可能。
• 有损压缩会造成一些信息的损失,关键问题是看这种损失对 图像质量带来的影响。只要这种损失被限制在允许的范围内, 有损压缩就是可接受的。 有损压缩技术主要的应用领域是在影像节目、可视电话会议 和多媒体网络这样由音频、图像和视频组成的多媒体应用中, 并且得到了广泛的应用。
教育管理学院
对称压缩和不对称压缩
教育管理学院
2.压缩的可能
• 空间冗余
--同一景物表面上各采样点的 颜色之间往往存在着空间连贯性,但 是基于离散像素采样来表示物体颜色 的方式通常没有利用景物表面颜色的 这种空间连贯性,从而产生了空间冗 余。 --可以通过改变物体表面颜色 的像素存储方式来利用空间连贯性, 达到减少数据量的目的。
教育管理学院
• 两种典型的预测编码是DPCM和ADPCM,它们适合于声音、 图像数据的压缩。因为这些数据均由采样得到,相邻样值 之间的差不会很大,可用较少的位来表示差值。
教育管理学院
4.2.1 DPCM编码
--一幅二维静止图像,设空间坐标(i, j )像素点的实际灰 ˆ 度为 f (i, j ), f (i, j ) 是根据以前已出现的像素点的灰度对该点 的预测灰度,也称预测值或估计值。计算预测值的像素,可 以是同一扫描行的前几个像素,或者是前几行上的像素,甚 至是前几帧的相邻像素。实际值和预测值之间的差值,以下 ˆ 式表示:e(i, j) f (i, j) f (i, j) 将此差值定义为预测误差。由于图像像素之间有极强的 相关性,所以这个预测误差是很小的。编码时,不是对像素 点的实际灰度 f (i, j ) 进行编码,而是对预测误差信号 e(i, j )进 行量化、编码、发送,解压时也使用同样的预测器,且将这 个预测值和已存储的已量化差值相加,产生近似的原始信号, 基本恢复原始数据。
第4章多媒体数据压缩编码技术
应用原则:解码后数据与原始数据是否一致
解码后的数据 与原始数据不 一致
有损压缩
压缩编码法
解码后的数据与 压缩之前的原始 数据完全一致
无损压缩
变换编码 预测编码 分析综合法 量化编码 行程编码 哈夫曼编码 字典编码 算术编码
KL DCT DFT DWT
标量量化 矢量量化
LZW LZ77/LZ78
2. 基本思想
建立一个数学模型
利用以往的样本数
据
对新样本值进行预测
将预测值
与实际值相减
对其差值进行编码
通过以往的样本值 预测 , 将预测值与实际值相减,对差 进行编码。
预测算法的关键是:算法模型
3.预测编码的应用
预测编码用于图像的传输和存储。对于连续的 多帧图像,新一帧通常保留前一帧的部分内容。首 先存储当前内容,如像点、帧或线。然后与下一帧 图像进行比较(预测),把不同点存储或传输,而 相同点则是数据冗余,予以剔除。
说明:各种冗余的表现不是孤立的,对于 一幅实际的视频序列或图像,它们可能是 同时存在的。
5.1 数据压缩编码算法
压缩处理过程
1) 编码过程——该过程将原始数据进行压缩, 形成压缩编码,然后将压缩编码数据进行 传送和存储。
2) 解码过程——该过程将压缩编码数据进行 解压缩,还原成原始数据,提供使用。
2.音频:
若采样频率为44100Hz,16bit (2Byte),立体声 (2声道),则1分钟的总数据量为:
44100×2 Byte×2×60s = 10336 KB (10MB)
3.图像:
若采用1024×768显示分辨率,则满屏256色图 像的总数据量为:
1024×768×log2 256 ÷8 = 786432 Byte (768 KB)
第4章 多媒体数据压缩技术
如上图的行程长度编码可写为:白8黑5白3黑8白6……
2023/4/20
Multimedia Technology & Application
2023/4/20
Multimedia Technology & Application
24
4.2 静态图像的压缩标准JPEG
4.2.1 JPEG标准简介 4.2.2 JPEG标准中的主要技术 4.2.3 JPEG标准的压缩过程 4.2.4 JPEG2000
2023/4/20
Multimedia Technology & Application
8
方式3:不等长编码
考查字符串中不同字符出现的概率并对其重新定义一 个编码字如表4.2所示:
则其编码的总长度为:8×1+4×3×3+2×4×2=60(bit)
2023/4/20
Multimedia Technology & Application
9
4.1.3 常用的数据压缩方法
1.行程长度(也称游程长度编码)
2023/4/20
Multimedia Technology & Application
19
5.熵编码
2) 熵编码实例——哈夫曼编码
算法可描述为: (1) 对图像中出现的不同像素值进行概率统计,得到n个不同概率的信 息符号。 (2) 按符号出现的概率由大到小、由上到下排列。 (3) 对两个最低概率符号分别以二进制0、1赋值。 (4) 两最低概率相加后作为一个新符号的概率重新置入符号序列中。 (5) 对概率按从大到小重新排列。 (6) 重复(2)~(5),直到只剩下两个概率符号的序列。 (7) 分别以二进制0、1赋值后,以此为根结点,沿赋值的顺序的逆序依 次写出该路径上的二进制代码,得到哈夫曼编码。
第四章多媒体数据压缩编码技术
A.匹配算法 归一化相关函数 均方误差 帧间绝对差 B.搜索方法: 穷ቤተ መጻሕፍቲ ባይዱ搜索法 二维对数法(TDL) 三步搜索法(TTS) 交叉搜索法(CSA)
27
NCCF MSE MAD
2018/10/13
• 4.帧间预测,采用 DPCM • (Ymn)N和(Ymn)N-1 变化很小。 • 统计结果表明:广播电视节目只有10%以 内的象素有变化。 • Y有2%的变化; UV有千分之十以内的变 化。 • Xmn-Xmn=emn 只传差值
20
(算术解码原理图4.12 )
2018/10/13
算术编码的特点: (1)不需要码表; (2)当信源概率比较接近时, 建议使用算术编码。 (3)JPEG成员对多幅图进行算 术编码效率可以提高5%。 JPEG扩展系统用算术编码代 替Huffman。
21 2018/10/13
4.4 预测编码 一.预测编码的基本概念 预测编码是统计冗余数据压缩 理论的三个重要分支之一,用预测 编码减少数据时间和空间的相关性。 1.预测编码基本原理
2018/10/13
3.Huffman 编码步骤
• • • (1)信源符号按概率大小顺序排列,按 逆次序分配码字的长度。 (2) 出现概率最小的两个符号概率相加 合成一个新概率。 (3) 将合成概率看成一个新组合符号概 率,重复上述做法,直到最后只剩下两个 符号概率为止。 (4) 反过来逐步向前编码,每层有两个分 支,分别赋予0和1,构成Huffman码字。
4.结构冗余 图象有非常强的纹理结构。 5.知识冗余 图像的理解与某些基础知识有关。 6.视觉冗余 视觉冗余是非均匀、非线性的。
6
2018/10/13
三. 多媒体数据压缩方法的分类
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章多媒体数据压缩编码技术
单项选择题1-7:
1、下列哪些说法是正确的:
(1)冗余压缩法不会减少信息量,可以原样恢复原始数据。
(2)冗余压缩法减少冗余,不能原样恢复原始数据。
(3)冗余压缩法是有损压缩法。
(4)冗余压缩的压缩比一般都比较小。
(a)(1)(3)、(b)(1)(4)、(c)(1)(3)(4)、(d)仅(3)
答:(b)
2、图象序列中的两幅相邻图象,后一幅图象与前一幅图象之间有较大的相关,这是:
(a)空间冗余(b)时间冗余(c)信息熵冗余(d)视觉冗余
答:(b)
3、下列哪一种说法是不正确的:
(a)预测编码是一种只能针对空间冗余进行压缩的方法
(b)预测编码是根据某一种模型进行的
(c)预测编码需将预测的误差进行存储或传输
(d)预测编码中典型的压缩方法有dpcm、adpcm
答:(a)
4、下列哪一种说法是正确的:
(a)信息量等于数据量与冗余量之和
(b)信息量等于信息熵与数据量之差
(c)信息量等于数据量与冗余量之差
(d)信息量等于信息熵与冗余量之和
答:(c)
5、p′64k是视频通信编码标准,要支持通用中间格式cif,要求p至少为:
(a)1 (b)2 (c)4 (d)6
答:(d)
6、在mpeg中为了提高数据压缩比,采用了哪些方法:
(a)运动补偿与运行估计(b)减少时域冗余与空间冗余
(c)帧内图象数据与帧间图象数据压缩(d)向前预测与向后预测
答:(c)
7、在jpeg中使用了哪两种熵编码方法:
(a)统计编码和算术编码(b)pcm编码和dpcm编码
(c)预测编码和变换编码(d)哈夫曼编码和自适应二进制算术编码
答:(d)
8、简述mpeg和jpeg的主要差别。
答:mpeg视频压缩技术是针对运动图象的数据压缩技术。
为了提高压缩比,帧内图象数据和帧间图象数据压缩技术必须同时使用。
mpeg通过帧运动补偿有效地压缩了数据的比特数,它采用了三种图象,帧内图、预测图和双向预测图。
有效地减少了冗余信息。
对于mpeg来说,帧间数据压缩、运动补偿和双向预测,这是和jpeg主要不同的地方。
而jpeg和mpeg相同的地方均采用了dct帧内图象数据压缩编码。
在jpeg压缩算法中,针对静态图象对dct系数采用等宽量化,而是mpeg中视频信号包含有静止画面(帧内图)和运动信息(帧间预测图)等不同的内容,量化器的设计不能采用等宽量化需要作特殊考虑。
从两方面设计,一是量化器综合行程编码能使大部分数据得到压缩;另一方面是通过量化器、编码器使之输出一个与信道传输速率匹配的比特流。
8、信源符号及其概率如下:
求其
解:
a1 0.5--------------------------------0---------- 0
a2 0.25--------------------------------0------0.5------1 10
a3 0.125--------------------------0------0.25-------1 110
a4 0.625-------0-----0.125------1 1110
a5 0.625-------1 1111
则:a1=0 a2=10 a3=110 a4=1110 a5=1111
信息熵:
a1-a5码长分别为1,2,3,4,4
则平均码长
10、详述jpeg静态图象压缩编码原理及实现技术。
答:jpeg是由国际电报咨询委员会(ccitt)和国际标准化协会(osi)联合组成的一个图象专家小组开发研制的连续色调、多级灰度、静止图象的数字图象压缩编码方法。
jpeg适于静止图象的压缩,此外,电视图象序列的帧内图象的压缩编码也常采用jpeg压缩标准。
jpeg数字图象压缩文件作为一种数据类型,如同文本和图形文件一样地存储和传输。
基于离散余弦变换(dct)的编码方法是jpeg算法的核心内容。
算法的编解码过程如教材136页图4.25-4.26所示。
编码处理过程包括原图象数据输入、正向dct变换器、量化器、熵编码器和压缩图象数据的输出,除此之外还附有量化表和熵编码表(即哈夫曼表);接收端由信道收到压缩图象数据流后,经过熵解码器、逆量化器、逆变换(idct),恢复并重构出数字图象,量化表和熵编码表同发送端完全一致。
编码原图象输入,可以是单色图象的灰度值,也可以是彩色图象的亮度分量或色差分量信号。
dct的变换压缩是对一系列8*8采样数据作块变换压缩处理,可以对一幅像,从左到右、从上到下、一块一块(8*8/块)地变换压缩,或者对多幅图轮流取8*8采样数据块压缩。
解码输出数据,需按照编码时的分块顺序作重构处理,得到恢复数字图象。
具体的实现技术如下:
(1)首先把一幅图象分8*8的子块按图中的框图进行离散余弦正变换(fdct)和离散余弦逆变换(idct)。
在编码器的输入端,原始图象被分成一系列8*8的块,作为离散余弦正变换(fdct)的输入。
在解码器的输出端,离散余弦逆变换(idct)输出许多8*8的数据块,用以重构图象。
8*8 fdct 和8*8 idct数学定义表达式如下:
fdct:
idct:
两式中,
离散余弦正变换(fdct)可看作为一个谐波分析仪,把离散余弦逆变换(idct)看作一个谐波合成器。
每个8*8二维原图象采样数据块,实际上是64点离散信号,该信号是空间二维参数x和y的函数。
fdct把这些信号作为输入,然后把它分解成64个正交基信号,每个正交信号对应于64个二维(2d)空间频率中的一个,这些空间频率是由输入信号的频谱组成。
fdct的输出是64个基信号的幅值(即dct系数),每个系数值由64点输入信号唯一地确定,即离散余弦变换的变换系数。
在频域平面上变换系数二维频域变量u和v的函数。
对应于u=0,v=0的系数,称做直流分量(dc系数),其余63个系数称做交流分量(ac系数)。
因为在一幅图象中像素之间的灰度或色差信号变化缓慢,在8*8子块中像素之间相关性很强,所以通过离散余弦正变换处理后,在空间频率低频范围内集中了数值大的系数,这样为数据压缩提供了可能。
远离直流系数的高频交流系数大多为零或趋于零。
如果fdct和idct变换计算中计算精度足够高,并且dct
系数没有被量化,那么原始的64点信号就能精确地恢复。
(2)量化
为了达到压缩数据的目的,对dct系数f(u,v)需作量化处理。
量化处理是一个多到一的映射它是造成dct编解码信息损失的根源。
在jpeg标准中采用线性均匀量化器。
量化定义为,对64个dct变换系数f(u,v)除以量化步长q(u,v)后四舍五入取整。
表达式为:
即量化器步长是量化表的元素,量化表元素随dct变换系数的位置而改变,同一像素的亮度量化表和色差量化表不同值,量化表的尺寸也是64,与64个变换系数一一对应。
量化表中的每一个元素值为1至255之间的任意整数,其值规定了对应位置变换系数的量化器步长。
在接收端要进行逆量化,逆量化的计算公式为:
F Q'=F Q(u,v)•Q(u,v)。
不同频率的余弦函数对视觉的影响不同,量化处理是在一定的主观保真度图像质量的前提下,可据不同频率的视觉阈值来选择量化表中的元素值的大小。
根据心理视觉加权函数得到亮度化表和色度量化表。
dct变换系数f(u,v)除以量化表中对应位置的量化步长,其幅值下降,动态范围变窄,高频系数的零值数目增加。
(3)熵编码
为进一步达到压缩数据的目的,需对量化后的dc系数和行程编码后的ac系数进行基于统计特性的熵编码。
64个变换系数经量化后,坐标u=v=0的值是直流分量(即dc系数)。
dc系数是64个图像采样平均值。
因为相邻的8×8块之间有强的相关性,所以相邻块的dc系数值很接近,对量化后前后两块之间的dc系数差值进行编码,可以用较少的比特数。
dc系数包含了整个图像能量的主要部分。
经量化后的63个ac系数编码时从左上方ac(u=7,v=7)开始,沿箭头方向,以“z”字形行程扫描,直到ac(u=7,v=7)扫描结束。
量化后特编码的ac系数通常有许多零值,沿“z”字形路径行进,可使零ac系数集中,便于使用行程编码方法。
63个ac系数行程编码和码字,可用两个字节表示。
jpeg建议使用两种熵编码方法:huffman编码和自适应二进制算术编码。
熵编码可分成两步进行,首先把dc和ac系数转换成一个中间格式的符号序列,第二步是给这些符号赋以变长码字。